理解 Linux 網(wǎng)絡(luò)棧(1):Linux 網(wǎng)絡(luò)協(xié)議棧簡單總結(jié)
本系列文章總結(jié) Linux 網(wǎng)絡(luò)棧,包括:
(1)Linux 網(wǎng)絡(luò)協(xié)議棧總結(jié)
(2)非虛擬化Linux環(huán)境中的網(wǎng)絡(luò)分段卸載技術(shù) GSO/TSO/UFO/LRO/GRO
(3)QEMU/KVM + VxLAN 環(huán)境下的 Segmentation Offloading 技術(shù)(發(fā)送端)
(4)QEMU/KVM + VxLAN 環(huán)境下的 Segmentation Offloading 技術(shù)(接收端)
1. Linux 網(wǎng)絡(luò)路徑
1.1 發(fā)送端
1.1.1 應(yīng)用層
(1) Socket
應(yīng)用層的各種網(wǎng)絡(luò)應(yīng)用程序基本上都是通過 Linux Socket 編程接口來和內(nèi)核空間的網(wǎng)絡(luò)協(xié)議棧通信的。Linux Socket 是從 BSD Socket 發(fā)展而來的,它是 Linux 操作系統(tǒng)的重要組成部分之一,它是網(wǎng)絡(luò)應(yīng)用程序的基礎(chǔ)。從層次上來說,它位于應(yīng)用層,是操作系統(tǒng)為應(yīng)用程序員提供的 API,通過它,應(yīng)用程序可以訪問傳輸層協(xié)議。
socket 位于傳輸層協(xié)議之上,屏蔽了不同網(wǎng)絡(luò)協(xié)議之間的差異
socket 是網(wǎng)絡(luò)編程的入口,它提供了大量的系統(tǒng)調(diào)用,構(gòu)成了網(wǎng)絡(luò)程序的主體
在Linux系統(tǒng)中,socket 屬于文件系統(tǒng)的一部分,網(wǎng)絡(luò)通信可以被看作是對文件的讀取,使得我們對網(wǎng)絡(luò)的控制和對文件的控制一樣方便。
(2) 應(yīng)用層處理流程
網(wǎng)絡(luò)應(yīng)用調(diào)用Socket APIsocket (int family, int type, int protocol)創(chuàng)建一個 socket,該調(diào)用最終會調(diào)用 Linux system callsocket() ,并最終調(diào)用 Linux Kernel 的 sock_create() 方法。該方法返回被創(chuàng)建好了的那個 socket 的 file descriptor。對于每一個 userspace 網(wǎng)絡(luò)應(yīng)用創(chuàng)建的 socket,在內(nèi)核中都有一個對應(yīng)的 struct socket和 struct sock。其中,struct sock 有三個隊列(queue),分別是rx , tx 和 err,在sock 結(jié)構(gòu)被初始化的時候,這些緩沖隊列也被初始化完成;在收據(jù)收發(fā)過程中,每個 queue 中保存要發(fā)送或者接受的每個 packet 對應(yīng)的 Linux 網(wǎng)絡(luò)棧 sk_buffer 數(shù)據(jù)結(jié)構(gòu)的實例 skb。
對于 TCP socket 來說,應(yīng)用調(diào)用 connect()API ,使得客戶端和服務(wù)器端通過該 socket 建立一個虛擬連接。在此過程中,TCP 協(xié)議棧通過三次握手會建立 TCP 連接。默認(rèn)地,該 API 會等到 TCP 握手完成連接建立后才返回。在建立連接的過程中的一個重要步驟是,確定雙方使用的 Maxium Segemet Size (MSS)。因為 UDP 是面向無連接的協(xié)議,因此它是不需要該步驟的。
應(yīng)用調(diào)用 Linux Socket 的 send 或者 write API 來發(fā)出一個 message 給接收端
sock_sendmsg 被調(diào)用,它使用 socket descriptor 獲取 sock struct,創(chuàng)建 message header 和 socket control message
_sock_sendmsg 被調(diào)用,根據(jù) socket 的協(xié)議類型,調(diào)用相應(yīng)協(xié)議的發(fā)送函數(shù)。
對于 TCP ,調(diào)用 tcp_sendmsg 函數(shù)。
對于 UDP 來說,userspace 應(yīng)用可以調(diào)用 send()/sendto()/sendmsg() 三個 system call 中的任意一個來發(fā)送 UDP message,它們最終都會調(diào)用內(nèi)核中的 udp_sendmsg() 函數(shù)。
1.1.2 傳輸層
傳輸層的最終目的是向它的用戶提供高效的、可靠的和成本有效的數(shù)據(jù)傳輸服務(wù),主要功能包括 (1)構(gòu)造 TCP segment (2)計算 checksum (3)發(fā)送回復(fù)(ACK)包 (4)滑動窗口(sliding windown)等保證可靠性的操作。TCP 協(xié)議棧的大致處理過程如下圖所示:
TCP 棧簡要過程:
tcp_sendmsg 函數(shù)會首先檢查已經(jīng)建立的 TCP connection 的狀態(tài),然后獲取該連接的 MSS,開始 segement 發(fā)送流程。
構(gòu)造 TCP 段的 playload:它在內(nèi)核空間中創(chuàng)建該 packet 的 sk_buffer 數(shù)據(jù)結(jié)構(gòu)的實例 skb,從 userspace buffer 中拷貝 packet 的數(shù)據(jù)到 skb 的 buffer。
構(gòu)造 TCP header。
計算 TCP 校驗和(checksum)和 順序號 (sequence number)。
TCP 校驗和是一個端到端的校驗和,由發(fā)送端計算,然后由接收端驗證。其目的是為了發(fā)現(xiàn)TCP首部和數(shù)據(jù)在發(fā)送端到接收端之間發(fā)生的任何改動。如果接收方檢測到校驗和有差錯,則TCP段會被直接丟棄。TCP校驗和覆蓋 TCP 首部和 TCP 數(shù)據(jù)。
TCP的校驗和是必需的
發(fā)到 IP 層處理:調(diào)用 IP handler 句柄 ip_queue_xmit,將 skb 傳入 IP 處理流程。
UDP 棧簡要過程:
UDP 將 message 封裝成 UDP 數(shù)據(jù)報
調(diào)用 ip_append_data() 方法將 packet 送到 IP 層進(jìn)行處理。
1.1.3 IP 網(wǎng)絡(luò)層 - 添加header 和 checksum,路由處理,IP fragmentation
網(wǎng)絡(luò)層的任務(wù)就是選擇合適的網(wǎng)間路由和交換結(jié)點, 確保數(shù)據(jù)及時傳送。網(wǎng)絡(luò)層將數(shù)據(jù)鏈路層提供的幀組成數(shù)據(jù)包,包中封裝有網(wǎng)絡(luò)層包頭,其中含有邏輯地址信息- -源站點和目的站點地址的網(wǎng)絡(luò)地址。其主要任務(wù)包括 (1)路由處理,即選擇下一跳 (2)添加 IP header(3)計算 IP header checksum,用于檢測 IP 報文頭部在傳播過程中是否出錯 (4)可能的話,進(jìn)行 IP 分片(5)處理完畢,獲取下一跳的 MAC 地址,設(shè)置鏈路層報文頭,然后轉(zhuǎn)入鏈路層處理。
IP 頭:
IP 棧基本處理過程如下圖所示:
首先,ip_queue_xmit(skb)會檢查skb->dst路由信息。如果沒有,比如套接字的第一個包,就使用ip_route_output()選擇一個路由。
接著,填充IP包的各個字段,比如版本、包頭長度、TOS等。
中間的一些分片等,可參閱相關(guān)文檔。基本思想是,當(dāng)報文的長度大于mtu,gso的長度不為0就會調(diào)用 ip_fragment 進(jìn)行分片,否則就會調(diào)用ip_finish_output2把數(shù)據(jù)發(fā)送出去。ip_fragment 函數(shù)中,會檢查 IP_DF 標(biāo)志位,如果待分片IP數(shù)據(jù)包禁止分片,則調(diào)用icmp_send()向發(fā)送方發(fā)送一個原因為需要分片而設(shè)置了不分片標(biāo)志的目的不可達(dá)ICMP報文,并丟棄報文,即設(shè)置IP狀態(tài)為分片失敗,釋放skb,返回消息過長錯誤碼。
接下來就用 ip_finish_ouput2 設(shè)置鏈路層報文頭了。如果,鏈路層報頭緩存有(即hh不為空),那就拷貝到skb里。如果沒,那么就調(diào)用neigh_resolve_output,使用 ARP 獲取。
1.1.4 數(shù)據(jù)鏈路層
功能上,在物理層提供比特流服務(wù)的基礎(chǔ)上,建立相鄰結(jié)點之間的數(shù)據(jù)鏈路,通過差錯控制提供數(shù)據(jù)幀(Frame)在信道上無差錯的傳輸,并進(jìn)行各電路上的動作系列。數(shù)據(jù)鏈路層在不可靠的物理介質(zhì)上提供可靠的傳輸。該層的作用包括:物理地址尋址、數(shù)據(jù)的成幀、流量控制、數(shù)據(jù)的檢錯、重發(fā)等。在這一層,數(shù)據(jù)的單位稱為幀(frame)。數(shù)據(jù)鏈路層協(xié)議的代表包括:SDLC、HDLC、PPP、STP、幀中繼等。
實現(xiàn)上,Linux 提供了一個 Network device 的抽象層,其實現(xiàn)在 linux/net/core/dev.c。具體的物理網(wǎng)絡(luò)設(shè)備在設(shè)備驅(qū)動中(driver.c)需要實現(xiàn)其中的虛函數(shù)。Network Device 抽象層調(diào)用具體網(wǎng)絡(luò)設(shè)備的函數(shù)。
、
1.1.5 物理層 - 物理層封裝和發(fā)送
物理層在收到發(fā)送請求之后,通過 DMA 將該主存中的數(shù)據(jù)拷貝至內(nèi)部RAM(buffer)之中。在數(shù)據(jù)拷貝中,同時加入符合以太網(wǎng)協(xié)議的相關(guān)header,IFG、前導(dǎo)符和CRC。對于以太網(wǎng)網(wǎng)絡(luò),物理層發(fā)送采用CSMA/CD,即在發(fā)送過程中偵聽鏈路沖突。
一旦網(wǎng)卡完成報文發(fā)送,將產(chǎn)生中斷通知CPU,然后驅(qū)動層中的中斷處理程序就可以刪除保存的 skb 了。
1.1.6 簡單總結(jié)
(來源)
1.2 接收端
1.2.1 物理層和數(shù)據(jù)鏈路層
簡要過程:
一個 package 到達(dá)機(jī)器的物理網(wǎng)絡(luò)適配器,當(dāng)它接收到數(shù)據(jù)幀時,就會觸發(fā)一個中斷,并將通過 DMA 傳送到位于 linux kernel 內(nèi)存中的 rx_ring。
網(wǎng)卡發(fā)出中斷,通知 CPU 有個 package 需要它處理。中斷處理程序主要進(jìn)行以下一些操作,包括分配 skb_buff 數(shù)據(jù)結(jié)構(gòu),并將接收到的數(shù)據(jù)幀從網(wǎng)絡(luò)適配器I/O端口拷貝到skb_buff 緩沖區(qū)中;從數(shù)據(jù)幀中提取出一些信息,并設(shè)置 skb_buff 相應(yīng)的參數(shù),這些參數(shù)將被上層的網(wǎng)絡(luò)協(xié)議使用,例如skb->protocol;
終端處理程序經(jīng)過簡單處理后,發(fā)出一個軟中斷(NET_RX_SOFTIRQ),通知內(nèi)核接收到新的數(shù)據(jù)幀。
內(nèi)核 2.5 中引入一組新的 API 來處理接收的數(shù)據(jù)幀,即 NAPI。所以,驅(qū)動有兩種方式通知內(nèi)核:(1) 通過以前的函數(shù)netif_rx;(2)通過NAPI機(jī)制。該中斷處理程序調(diào)用 Network device的 netif_rx_schedule 函數(shù),進(jìn)入軟中斷處理流程,再調(diào)用 net_rx_action 函數(shù)。
該函數(shù)關(guān)閉中斷,獲取每個 Network device 的 rx_ring 中的所有 package,最終 pacakage 從 rx_ring 中被刪除,進(jìn)入 netif _receive_skb 處理流程。
netif_receive_skb 是鏈路層接收數(shù)據(jù)報的最后一站。它根據(jù)注冊在全局?jǐn)?shù)組 ptype_all 和 ptype_base 里的網(wǎng)絡(luò)層數(shù)據(jù)報類型,把數(shù)據(jù)報遞交給不同的網(wǎng)絡(luò)層協(xié)議的接收函數(shù)(INET域中主要是ip_rcv和arp_rcv)。該函數(shù)主要就是調(diào)用第三層協(xié)議的接收函數(shù)處理該skb包,進(jìn)入第三層網(wǎng)絡(luò)層處理。
1.2.2 網(wǎng)絡(luò)層
IP 層的入口函數(shù)在 ip_rcv 函數(shù)。該函數(shù)首先會做包括 package checksum 在內(nèi)的各種檢查,如果需要的話會做 IP defragment(將多個分片合并),然后 packet 調(diào)用已經(jīng)注冊的 Pre-routing netfilter hook ,完成后最終到達(dá) ip_rcv_finish 函數(shù)。
ip_rcv_finish 函數(shù)會調(diào)用 ip_router_input 函數(shù),進(jìn)入路由處理環(huán)節(jié)。它首先會調(diào)用 ip_route_input 來更新路由,然后查找 route,決定該 package 將會被發(fā)到本機(jī)還是會被轉(zhuǎn)發(fā)還是丟棄:
如果是發(fā)到本機(jī)的話,調(diào)用 ip_local_deliver 函數(shù),可能會做 de-fragment(合并多個 IP packet),然后調(diào)用 ip_local_deliver 函數(shù)。該函數(shù)根據(jù) package 的下一個處理層的 protocal number,調(diào)用下一層接口,包括 tcp_v4_rcv (TCP), udp_rcv (UDP),icmp_rcv (ICMP),igmp_rcv(IGMP)。對于 TCP 來說,函數(shù) tcp_v4_rcv 函數(shù)會被調(diào)用,從而處理流程進(jìn)入 TCP 棧。
如果需要轉(zhuǎn)發(fā) (forward),則進(jìn)入轉(zhuǎn)發(fā)流程。該流程需要處理 TTL,再調(diào)用 dst_input 函數(shù)。該函數(shù)會 (1)處理 Netfilter Hook (2)執(zhí)行 IP fragmentation (3)調(diào)用dev_queue_xmit,進(jìn)入鏈路層處理流程。
1.2.3 傳輸層 (TCP/UDP)
傳輸層 TCP 處理入口在 tcp_v4_rcv 函數(shù)(位于 linux/net/ipv4/tcp ipv4.c 文件中),它會做 TCP header 檢查等處理。
調(diào)用 _tcp_v4_lookup,查找該 package 的 open socket。如果找不到,該 package 會被丟棄。接下來檢查 socket 和 connection 的狀態(tài)。
如果socket 和 connection 一切正常,調(diào)用 tcp_prequeue 使 package 從內(nèi)核進(jìn)入 user space,放進(jìn) socket 的 receive queue。然后 socket 會被喚醒,調(diào)用 system call,并最終調(diào)用 tcp_recvmsg 函數(shù)去從 socket recieve queue 中獲取 segment。
1.2.4 接收端 - 應(yīng)用層
每當(dāng)用戶應(yīng)用調(diào)用 read 或者 recvfrom 時,該調(diào)用會被映射為/net/socket.c 中的 sys_recv 系統(tǒng)調(diào)用,并被轉(zhuǎn)化為 sys_recvfrom 調(diào)用,然后調(diào)用 sock_recgmsg 函數(shù)。
對于 INET 類型的 socket,/net/ipv4/af inet.c 中的inet_recvmsg 方法會被調(diào)用,它會調(diào)用相關(guān)協(xié)議的數(shù)據(jù)接收方法。
對 TCP 來說,調(diào)用 tcp_recvmsg。該函數(shù)從 socket buffer 中拷貝數(shù)據(jù)到 user buffer。
對 UDP 來說,從 user space 中可以調(diào)用三個 system call recv()/recvfrom()/recvmsg() 中的任意一個來接收 UDP package,這些系統(tǒng)調(diào)用最終都會調(diào)用內(nèi)核中的 udp_recvmsg 方法。
1.2.5 報文接收過程簡單總結(jié)
2. Linux sk_buff struct 數(shù)據(jù)結(jié)構(gòu)和隊列(Queue)
2.1 sk_buff
(本章節(jié)摘選自http://amsekharkernel.blogspot.com/2014/08/what-is-skb-in-linux-kernel-what-are.html)
2.1.1 sk_buff 是什么
當(dāng)網(wǎng)絡(luò)包被內(nèi)核處理時,底層協(xié)議的數(shù)據(jù)被傳送更高層,當(dāng)數(shù)據(jù)傳送時過程反過來。由不同協(xié)議產(chǎn)生的數(shù)據(jù)(包括頭和負(fù)載)不斷往下層傳遞直到它們最終被發(fā)送。因為這些操作的速度對于網(wǎng)絡(luò)層的表現(xiàn)至關(guān)重要,內(nèi)核使用一個特定的結(jié)構(gòu)叫 sk_buff,其定義文件在skbuffer.h。Socket buffer被用來在網(wǎng)絡(luò)實現(xiàn)層交換數(shù)據(jù)而不用拷貝來或去數(shù)據(jù)包 –這顯著獲得速度收益。
sk_buff 是 Linux 網(wǎng)絡(luò)的一個核心數(shù)據(jù)結(jié)構(gòu),其定義文件在skbuffer.h。
socket kernel buffer (skb) 是 Linux 內(nèi)核網(wǎng)絡(luò)棧(L2 到 L4)處理網(wǎng)絡(luò)包(packets)所使用的 buffer,它的類型是 sk_buffer。簡單來說,一個 skb 表示 Linux 網(wǎng)絡(luò)棧中的一個 packet;TCP 分段和 IP 分組生產(chǎn)的多個 skb 被一個 skb list 形式來保存。
struct sock 有三個 skb 隊列(sk_buffer queue),分別是rx , tx 和 err。
它的主要結(jié)構(gòu)成員:
struct sk_buff { /* These two members must be first. */ # packet 可以存在于 list 或者 queue 中,這兩個成員用于鏈表處理 struct sk_buff *next; struct sk_buff *prev; struct sk_buff_head *list; #該 packet 所在的 list ... struct sock *sk; #跟該 skb 相關(guān)聯(lián)的 socket struct timeval stamp; # packet 發(fā)送或者接收的時間,主要用于 packet sniffers struct net_device *dev; #這三個成員跟蹤該 packet 相關(guān)的 devices,比如接收它的設(shè)備等 struct net_device *input_dev; struct net_device *real_dev; union { #指向各協(xié)議層 header 結(jié)構(gòu) struct tcphdr *th; struct udphdr *uh; struct icmphdr *icmph; struct igmphdr *igmph; struct iphdr *ipiph; struct ipv6hdr *ipv6h; unsigned char *raw; } h; union { struct iphdr *iph; struct ipv6hdr *ipv6h; struct arphdr *arph; unsigned char *raw; } nh; union { unsigned char *raw; } mac; struct dst_entry *dst; #指向該 packet 的路由目的結(jié)構(gòu),告訴我們它會被如何路由到目的地 char cb[40]; # SKB control block,用于各協(xié)議層保存私有信息,比如 TCP 的順序號和幀的重發(fā)狀態(tài) unsigned int len, #packet 的長度 data_len, mac_len, # MAC header 長度 csum; # packet 的 checksum,用于計算保存在 protocol header 中的校驗和。發(fā)送時,當(dāng) checksum offloading 時,不設(shè)置;接收時,可以由device計算 unsigned char local_df, #用于 IPV4 在已經(jīng)做了分片的情況下的再分片,比如 IPSEC 情況下。 cloned:1, #在 skb 被 cloned 時設(shè)置,此時,skb 各成員是自己的,但是數(shù)據(jù)是shared的 nohdr:1, #用于支持 TSO pkt_type, #packet 類型 ip_summed; # 網(wǎng)卡能支持的校驗和計算的類型,NONE 表示不支持,HW 表示支持, __u32 priority; #用于 QoS unsigned short protocol, # 接收 packet 的協(xié)議 security;
2.1.2 skb 的主要操作
(1)分配skb = alloc_skb(len, GFP_KERNEL)
(2)添加 payload(skb_put(skb, user_data_len))
(3)使用skb->push 添加 protocol header,或者 skb->pull 刪除 header
2.2 Linux 網(wǎng)絡(luò)棧使用的驅(qū)動隊列 (driver queue)
(本章節(jié)摘選自Queueing in the Linux Network StackbyDan Siemon)
2.2.1 隊列
在 IP 棧和 NIC 驅(qū)動之間,存在一個 driver queue (驅(qū)動隊列)。典型地,它被實現(xiàn)為 FIFO ring buffer,簡單地可以認(rèn)為它是固定大小的。這個隊列不包含 packet data,相反,它只是保存 socket kernel buffer (skb)的指針,而 skb 的使用如上節(jié)所述是貫穿內(nèi)核網(wǎng)絡(luò)棧處理過程的始終的。
該隊列的輸入時 IP 棧處理完畢的 packets。這些packets 要么是本機(jī)的應(yīng)用產(chǎn)生的,要么是進(jìn)入本機(jī)又要被路由出去的。被 IP 棧加入隊列的 packets 會被網(wǎng)絡(luò)設(shè)備驅(qū)動(hardware driver)取出并且通過一個數(shù)據(jù)通道(data bus)發(fā)到 NIC 硬件設(shè)備并傳輸出去。
在不使用 TSO/GSO 的情況下,IP 棧發(fā)到該隊列的 packets 的長度必須小于 MTU。
2.2.2 skb 大小 - 默認(rèn)最大大小為 NIC MTU
絕大多數(shù)的網(wǎng)卡都有一個固定的最大傳輸單元(maximum transmission unit, MTU)屬性,它是該網(wǎng)絡(luò)設(shè)備能夠傳輸?shù)淖畲髱╢rame)的大小。對以太網(wǎng)來說,默認(rèn)值為 1500 bytes,但是有些以太網(wǎng)絡(luò)可以支持巨幀(jumbo frame),最大能到 9000 bytes。在 IP 網(wǎng)絡(luò)棧內(nèi),MTU 表示能發(fā)給 NIC 的最大 packet 的大小。比如,如果一個應(yīng)用向一個 TCP socket 寫入了 2000 bytes 數(shù)據(jù),那么 IP 棧需要創(chuàng)建兩個 IP packets 來保持每個 packet 的大小等于或者小于 1500 bytes。可見,對于大數(shù)據(jù)傳輸,相對較小的 MTU 會導(dǎo)致產(chǎn)生大量的小網(wǎng)絡(luò)包(small packets)并被傳入 driver queue。這成為 IP 分片 (IP fragmentation)。
下圖表示 payload 為 1500 bytes 的 IP 包,在 MTU 為 1000 和 600 時候的分片情況:
備注:
以上資料是從網(wǎng)絡(luò)上獲取的各種資料整理而來
這一塊本身就比較復(fù)雜,而且不同的 linux 內(nèi)核的版本之間也有差異,文中的內(nèi)容還需要進(jìn)一步加工,錯誤在所難免。
編輯:hfy
-
Linux
+關(guān)注
關(guān)注
87文章
11292瀏覽量
209328 -
Socket
+關(guān)注
關(guān)注
0文章
212瀏覽量
34664 -
網(wǎng)絡(luò)協(xié)議
+關(guān)注
關(guān)注
3文章
267瀏覽量
21534 -
數(shù)據(jù)結(jié)構(gòu)
+關(guān)注
關(guān)注
3文章
573瀏覽量
40123
發(fā)布評論請先 登錄
相關(guān)推薦
評論