一、問題背景

工作中遇到一個 docker 容器下 UDP 協議網絡不通的問題，困擾了很久，也比較有意思，所以想寫下來和大家分享。

我們有個應用是基于 UDP 協議的，部署上去發現無法工作，但是換成 TCP 協議是可以的（應用同時支持 UDP、TCP 協議，切換成 TCP 模式發現一切正常）。

雖然換成 TCP 能解決問題，但是我們還是想知道到底 UDP 協議在容器網絡模式下為什么會出現這個問題，以防止后面其他 UDP 應用會有異常。

這個問題抽象出來是這樣的：如果有 UDP 服務運行在宿主機上（或者運行在網絡模型為 host 的容器里），并且監聽在 0.0.0.0 地址（也就是所有的 ip 地址），從運行在 docker bridge（網橋為 docker0）網絡的容器運行客戶端訪問服務，兩者通信有問題。

注意以上的的限制條件，通過測試，我們發現下來幾種情況都是正常的：

使用 TCP 協議沒有這個問題
如果 UDP 服務器監聽在 eth0 ip ，而不是0.0.0.0上，也不會出現這個問題
并不是所有的應用都有這個問題，我們的 DNS（dnsmasq + kubeDNS）也是同樣的部署方式，但是功能都正常

這個問題在 docker 上也有 issue 記錄，但是目前并沒有合理的解決方案。「https://github.com/moby/moby/issues/15127」「https://github.com/iotaledger/iri/issues/961」

這篇文章就分析一下出現這個問題的原因，希望給同樣遇到這個問題的讀者提供些幫助。

二、重現問題

這個問題很容易重現，我的實驗是在 ubuntu16.04 下用 netcat 命令完成的，其他系統應該類似。

在宿主機上通過 nc 監聽 56789 端口，然后使用 bridge 網絡模式，run 一個容器，在容器里面使用 nc 發數據。

第一個報文是能發送出去的，但是以后的報文雖然在網絡上能看到，但是對方無法接收。

在宿主機運行 nc UDP 服務器（-u 表示 UDP 協議，-l 表示監聽的端口）

$nc-ul56789
$ss-uan|grep56789

$ss-an|grep56789
udpUNCONN00*:56789*:*
udpUNCONN00[::]:56789[::]:*

注：默認沒有指定綁定ip，就是監聽在0.0.0.0上。

然后在同一宿主機上，啟動一個容器，運行客戶端：

$dockerrun-itaplinesh
/#nc-u172.16.13.1356789

nc 的通信是雙方的，不管對方輸入什么字符，回車后對方就能立即收到。但是在這個模式下，客戶端第一次輸入對方能夠收到，后續的報文對方都收不到。

在這個實驗中，容器使用的是 docker 的默認網絡，容器的 ip 是 172.17.0.3，通過 veth pair（圖中沒有顯示）連接到虛擬網橋 docker0（ip 地址為 172.17.0.1），宿主機本身的網絡為 eth0，其 ip 地址為 172.16.13.13。

172.17.0.3
+----------+
|eth0|
+----+-----+
|
|
|
|
+----+-----++----------+
|docker0||eth0|
+----------++----------+
172.17.0.1172.16.13.13

三、tcpdump抓包分析

遇到這種疑難雜癥，第一個想到的抓包。我們需要在 docker0 上抓包，因為這是報文必經過的地方。通過過濾容器的 ip 地址，很容器找到感興趣的報文：

$sudotcpdump-idocker0-nnhost172.17.0.3

為了模擬多數應用一問一答的通信方式，我們一共發送三個報文，并用 tcpdump 抓取 docker0 接口上的報文：

客戶端先向服務器端發送 111 字符串
服務器端回復 222 字符串
客戶端繼續發送 333 字符串抓包的結果如下，可以發現第一個報文發送出去沒有任何問題。

UDP 是沒有 ACK 報文的，所以客戶端無法知道對方有沒有收到，這里說的沒有問題沒有看到對應的 ICMP 差錯報文。

但是第二個報文從服務端發送的報文，對方會返回一個 ICMP 告訴端口 38908 不可達；第三個報文從客戶端發送的報文也是如此。以后的報文情況類似，雙方再也無法進行通信了。

1143.973286IP172.17.0.3.38908>172.16.13.13.56789:UDP,length6
1150.102018IP172.17.0.1.56789>172.17.0.3.38908:UDP,length6
1150.102129IP172.17.0.3>172.17.0.1:ICMP172.17.0.3udpport38908unreachable,length42
1154.503198IP172.17.0.3.38908>172.16.13.13.56789:UDP,length3
1154.503242IP172.16.13.13>172.17.0.3:ICMP172.16.13.13udpport56789unreachable,length39

而此時主機上 UDP nc 服務器并沒有退出，使用 ss -uan | grep 56789 可能看到它仍然在監聽著該端口。

四、問題原因分析

從網絡報文的分析中可以看到服務端返回的報文源地址不是我們預想的 eth0 地址，而是 docker0 的地址，而客戶端直接認為該報文是非法的，返回了 ICMP 的報文給對方。

那么問題的原因也可以分為兩個部分：

為什么應答報文源地址是錯誤的？
既然 UDP 是無狀態的，內核怎么判斷源地址不正確呢？

主機多網絡接口 UDP 源地址選擇問題第一個問題的關鍵詞是：UDP 和多網絡接口。因為如果主機上只有一個網絡接口，發出去的報文源地址一定不會有錯；而我們也測試過 TCP 協議是能夠處理這個問題的。

通過搜索，發現這確實是個已知的問題。

這個問題可以歸結為一句話：UDP 在多網卡的情況下，可能會發生【服務器端】【源地址】不對的情況，這是內核選路的結果。

為什么 UDP 和 TCP 有不同的選路邏輯呢？

因為 UDP 是無狀態的協議，內核不會保存連接雙方的信息，因此每次發送的報文都認為是獨立的，socket 層每次發送報文默認情況不會指明要使用的源地址，只是說明對方地址。

因此，內核會為要發出去的報文選擇一個 ip，這通常都是報文路由要經過的設備 ip 地址。

那么，為什么 dnsmasq 服務沒有這個問題呢？于是我使用 strace 工具抓取了 dnsmasq 和出問題應用的網絡 socket 系統調用，來查看它們兩個到底有什么區別。

dnsmasq 在啟動階段監聽了 UDP 和 TCP 的 54 端口

因為是在本地機器上測試的，為了防止和本地 DNS 監聽的DNS端口沖突，我選擇了 54 而不是標準的 53 端口：

socket(PF_INET,SOCK_DGRAM,IPPROTO_IP)=4
setsockopt(4,SOL_SOCKET,SO_REUSEADDR,[1],4)=0
bind(4,{sa_family=AF_INET,sin_port=htons(54),sin_addr=inet_addr("0.0.0.0")},16)=0
setsockopt(4,SOL_IP,IP_PKTINFO,[1],4)=0

##############################################

socket(PF_INET,SOCK_STREAM,IPPROTO_IP)=5
setsockopt(5,SOL_SOCKET,SO_REUSEADDR,[1],4)=0
bind(5,{sa_family=AF_INET,sin_port=htons(54),sin_addr=inet_addr("0.0.0.0")},16)=0
listen(5,5)=0

比起 TCP，UDP 部分少了 listen，但是多個 setsockopt(4, SOL_IP, IP_PKTINFO, [1], 4) 這句。到底這兩點和我們的問題是否有關，先暫時放著，繼續看傳輸報文的部分。

dnsmasq 收包和發包的系統調用，直接使用 recvmsg 和 sendmsg 系統調用：

recvmsg(4,{msg_name(16)={sa_family=AF_INET,sin_port=htons(52072),sin_addr=inet_addr("10.111.59.4")},msg_iov(1)=[{"315
111fterminal19-05u50163"...,4096}],msg_controllen=32,{cmsg_len=28,cmsg_level=SOL_IP,cmsg_type=,...},msg_flags=0},0)=67

sendmsg(4,{msg_name(16)={sa_family=AF_INET,sin_port=htons(52072),sin_addr=inet_addr("10.111.59.4")},msg_iov(1)=[{"315
201200111fterminal19-05u50163"...,83}],msg_controllen=28,{cmsg_len=28,cmsg_level=SOL_IP,cmsg_type=,...},msg_flags=0},0)=83

而出問題的 UDP 應用 strace 結果如下：

[pid477]socket(PF_INET6,SOCK_DGRAM,IPPROTO_IP)=124
[pid477]setsockopt(124,SOL_IPV6,IPV6_V6ONLY,[0],4)=0
[pid477]setsockopt(124,SOL_IPV6,IPV6_MULTICAST_HOPS,[1],4)=0
[pid477]bind(124,{sa_family=AF_INET6,sin6_port=htons(6088),inet_pton(AF_INET6,"::",&sin6_addr),sin6_flowinfo=0,sin6_scope_id=0},28)=0

[pid477]getsockname(124,{sa_family=AF_INET6,sin6_port=htons(6088),inet_pton(AF_INET6,"::",&sin6_addr),sin6_flowinfo=0,sin6_scope_id=0},[28])=0
[pid477]getsockname(124,{sa_family=AF_INET6,sin6_port=htons(6088),inet_pton(AF_INET6,"::",&sin6_addr),sin6_flowinfo=0,sin6_scope_id=0},[28])=0

[pid477]recvfrom(124,"j20124502012422413215242321
243160f0
24142222524224"...,2048,0,{sa_family=AF_INET6,sin6_port=htons(38790),inet_pton(AF_INET6,":172.17.0.3",&sin6_addr),sin6_flowinfo=0,sin6_scope_id=0},[28])=168

[pid477]sendto(124,"k20222102022
2403215241321v2435333TDH2442202024032"...,533,0,{sa_family=AF_INET6,sin6_port=htons(38790),inet_pton(AF_INET6,":172.17.0.3",&sin6_addr),sin6_flowinfo=0,sin6_scope_id=0},28)=533

其對應的邏輯是這樣的：使用 ipv6 綁定在 0.0.0.0 和 6088 端口，調用 getsockname 獲取當前 socket 綁定的端口信息，數據傳輸過程使用的是 recvfrom 和 sendto。

對比下來，兩者的不同有幾點：

后者使用的是 ipv6，而前者是 ipv4
后者使用 recvfrom 和 sendto 傳輸數據，而前者是 sendmsg 和 recvmsg
前者有調用 setsockopt 設置 IP_PKTINFO 的值，而后者沒有

因為是在傳輸數據的時候出錯的，因此第一個疑點是 sendmsg 和 sendto 的某些區別導致選擇源地址有不同，通過 man sendto 可以知道 sendmsg 包含了更多的控制信息在msghdr。一個合理的猜測是 msghdr 中包含了內核選擇源地址的信息！

通過查找，發現 IP_PKTINFO 這個選項就是讓內核在 socket 中保存 IP 報文的信息，當然也包括了報文的源地址和目的地址。IP_PKTINFO 和 msghdr 的關系可以在這個 stackoverflow 中找到：https://stackoverflow.com/questions/3062205/setting-the-source-ip-for-a-udp-socket

而 man 7 ip 文檔中也說明了 IP_PKTINFO 是怎么控制源地址選擇的：

IP_PKTINFO(sinceLinux2.2)
PassanIP_PKTINFOancillarymessagethatcontainsapktinfostructurethatsuppliessomeinformationabouttheincomingpacket.Thisonlyworksfordatagramori‐
entedsockets.TheargumentisaflagthattellsthesocketwhethertheIP_PKTINFOmessageshouldbepassedornot.Themessageitselfcanonlybesent/retrievedas
controlmessagewithapacketusingrecvmsg(2)orsendmsg(2).

structin_pktinfo{
unsignedintipi_ifindex;/*Interfaceindex*/
structin_addripi_spec_dst;/*Localaddress*/
structin_addripi_addr;/*HeaderDestination
address*/
};

ipi_ifindexistheuniqueindexoftheinterfacethepacketwasreceivedon.ipi_spec_dstisthelocaladdressofthepacketandipi_addristhedestinationaddress
inthepacketheader.IfIP_PKTINFOispassedtosendmsg(2)andipi_spec_dstisnotzero,thenitisusedasthelocalsourceaddressfortheroutingtablelookup
andforsettingupIPsourcerouteoptions.Whenipi_ifindexisnotzero,theprimarylocaladdressoftheinterfacespecifiedbytheindexoverwritesipi_spec_dst
fortheroutingtablelookup.

如果 ipi_spec_dst 和 ipi_ifindex 不為空，它們都能作為源地址選擇的依據，而不是讓內核通過路由決定。

也就是說，通過設置 IP_PKTINFO socket 選項為 1，然后使用 recvmsg 和 sendmsg 傳輸數據就能保證源地址選擇符合我們的期望。這也是 dnsmasq 使用的方案，而出問題的應用是因為使用了默認的 recvfrom 和 sendto。

為什么內核會把源地址和之前不同的報文丟棄，認為它是非法的？

因為我們前面已經說過，UDP 協議是無連接的，默認情況下 socket 也不會保存雙方連接的信息。即使服務端發送報文的源地址有誤，只要對方能正常接收并處理，也不會導致網絡不通。

但是 conntrack 不是這樣，內核的 netfilter 模塊會保存連接的狀態，并作為防火墻設置的依據。它保存的 UDP 連接，只是簡單記錄了主機上本地 ip 和端口，和對端 ip 和端口，并不會保存更多的內容。

?
關于這塊可參考 iptables info 網站的文章：http://www.iptables.info/en/connection-state.html#UDPCONNECTIONS
?

在找到根源之前，我們曾經嘗試過用 SNAT 來修改服務端應答報文的源地址，期望能夠修復該問題，但是卻發現這種方法行不通，為什么呢？

因為 SNAT 是在 netfilter 最后做的，在之前 netfilter 的 conntrack 因為不認識該 connection，直接丟棄了，所以即使添加了 SNAT 也是無法工作的。

那能不能把 conntrack 功能去掉呢？比如解決方案：

iptables-IOUTPUT-traw-pudp--sport5060-jCT--notrack
iptables-IPREROUTING-traw-pudp--dport5060-jCT--notrack

答案也是否定的，因為 NAT 需要 conntrack 來做翻譯工作，如果去掉 conntrack 等于 SNAT 完全沒用。

五、解決方案

知道了問題的原因，解決方案也就很容易找到。

1、使用 TCP 協議如果服務端和客戶端使用 TCP 協議進行通信，它們之間的網絡是正常的。

$nc-l56789

2、監聽在特定綁定在指定接口上使用 nc 啟動一個 udp 服務器，監聽在 eth0 上：

$nc-ul172.16.13.1356789

nc 可以跟兩個參數，分別代表 ip 和端口，表示服務端監聽在某個特定 ip 上。如果接收到的報文目的地址不是 172.16.13.13，也會被內核直接丟棄，這種情況下，服務端和客戶端也能正常通信。

3、改動應用程序實現修改應用程序的邏輯，在 UDP socket 上設置 IP_PKTIFO，并通過 recvmsg 和 sendmsg 函數傳輸數據。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

服務器

服務器

+關注

關注
12

文章
9123

瀏覽量
85331
UDP

UDP

+關注

關注
0

文章
325

瀏覽量
33931
容器

容器

+關注

關注
0

文章
495

瀏覽量
22060

原文標題：關于容器網絡下使用UDP協議無法通訊問題的分析和處理

文章出處：【微信號：LinuxHub，微信公眾號：Linux愛好者】歡迎添加關注！文章轉載請注明出處。

linxu網絡協議分析：IP協議、TCP協議、UDP協議

本章節主要介紹linxu網絡模型、以及常用的網絡協議分析以太網協議、IP協議、TCP

發表于 10-28 16:44 ?3793次閱讀

linxu<b class='flag-5'>網絡</b><b class='flag-5'>協議</b><b class='flag-5'>分析</b>：IP<b class='flag-5'>協議</b>、TCP<b class='flag-5'>協議</b>、<b class='flag-5'>UDP</b><b class='flag-5'>協議</b>

基于adhoc網絡，采用UDP協議進行通訊

上傳的附件是自己編的程序，請高手基于下面幾點目的，幫忙完善改正。此通信是基于ADHOC網絡，所以與普通的UDP通訊不同：1、無客戶端與服務器之分2、通信時不知道對方IP，需要代碼獲取3、采用非阻塞模式4、發送和接收完立即返回因為

發表于 04-26 09:56

關于MyRIO的Modbus通訊問題

哪位大俠研究過MyRIO和Modbus的通訊問題啊？有好幾個硬件設備都是用Modbus通訊的，都調不出來，憋了好久了！哪位大神幫我解答一下啊，有例子就更好了，萬分感謝，痛苦等待！

發表于 08-21 00:39

TCP協議和UDP協議的區別有哪些

計算機網絡簡答題1、TCP 協議和 UDP 協議的區別有哪些？（1）TCP 屬于面向連接的協議，UDP

發表于 08-06 08:43

基于UDP協議的網絡通信應用程序

基于UDP協議的網絡通信應用程序（UDP-Socket）前兩篇文章介紹了基于TCP/IP協議的網絡

發表于 11-05 08:29

通訊協議TCP和UDP協議使用方法

通訊協議TCP和UDP協議UDP會把數據一股腦兒地發送出去，并不會在意是否全部收到，適用于廣播類型多對多

發表于 01-21 14:53

Linux下的UDP協議編程

Linux下的UDP協議編程介紹UDP協議，并提供一個適用于客戶端和服務器端的實例子程序。　　關鍵詞：Linux；

發表于 10-16 22:22 ?3974次閱讀

UDP協議,UDP協議是什么意思

UDP協議,UDP協議是什么意思 UDP 是User Datagram Protocol的簡稱，中文名是用戶數據包

發表于 03-29 17:35 ?1492次閱讀

udp協議及包格式是什么

也許有的讀者會問，既然UDP是一種不可靠的網絡協議，那么還有什么使用價值或必要呢？其實不然，在有些情況下UDP

發表于 12-08 14:38 ?9893次閱讀

udp協議源碼詳解

在選擇使用協議的時候，選擇UDP必須要謹慎?在網絡質量令人不十分滿意的環境下，UDP協議數據包丟

發表于 12-08 16:03 ?9563次閱讀

關于CCP協議設備與PLC通訊問題

各路大神求指點，現在我方有一第三方設備支持CCP協議通訊，可否與我方PLC的CANlink或CANopen或RS232等進行通訊，或者通過其他方式進行轉換連接也行，只要能通訊上就行，職

發表于 09-15 11:21 ?379次閱讀

網絡下使用UDP協議無法通訊問題的分析和處理

工作中遇到一個 docker 容器下 UDP 協議網絡不通的問題，困擾了很久，也比較有意思，所以想寫下來和大家分享。

發表于 05-19 15:11 ?4497次閱讀

功能強大的網絡通訊工具，支持各類TCP、UDP、HTTP的通訊協議

功能強大的網絡通訊工具，支持各類TCP、UDP、HTTP的通訊協議，簡單方便，包含歷史記憶功能，體積小，服務器調試最合適

發表于 09-05 11:51 ?0次下載

奇妙的Air780E之UDP應用示例大賞！

關于UDP是一種無連接的、不可靠的傳輸層協議，主要用于實現網絡中的快速通訊，我們今天將把Air780E的

發表于 11-04 09:25 ?336次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

關于容器網絡下使用UDP協議無法通訊問題的分析和處理

二、重現問題

三、tcpdump抓包分析

四、問題原因分析

五、解決方案

評論

linxu網絡協議分析：IP協議、TCP協議、UDP協議

基于adhoc網絡，采用UDP協議進行通訊

UDP的網絡通訊

關于MyRIO的Modbus通訊問題

TCP協議和UDP協議的區別有哪些

基于UDP協議的網絡通信應用程序

通訊協議TCP和UDP協議使用方法

Linux下的UDP協議編程

UDP協議,UDP協議是什么意思

udp協議及包格式是什么

udp協議源碼詳解

關于CCP協議設備與PLC通訊問題

網絡下使用UDP協議無法通訊問題的分析和處理

功能強大的網絡通訊工具，支持各類TCP、UDP、HTTP的通訊協議

奇妙的Air780E之UDP應用示例大賞！