傳統IO演化至零拷貝的過程

零拷貝(Zero-Copy)用于在數據讀寫過程中減少不需要的CPU拷貝，CPU就那么幾個，減少它的負擔自然可以提高處理效率。數據傳輸有本地的文件拷貝和通過socket進行文件傳輸兩種，兩者區別不大，只是文件數據最終的去向仍然是本地磁盤還是網卡的區別，這里以socket文件為例介紹傳統IO演化至零拷貝的過程。

介紹零拷貝之前，可以先看一下傳統IO，借此熟悉一些相關概念，先上圖：

首先要知道操作系統已經隔離了兩塊運行空間，即用戶空間和內核空間。可以理解為用戶程序是跑在用戶空間的，而操作系統的內核代碼是跑在內核空間的，把這兩個隔離是為了用戶程序的故障不影響操作系統。其實現代操作系統已經對數據的拷貝做了優化，之前把數據從底層硬件拷貝到內核空間也是CPU來的，現在CPU只需要通知一下DMA(Direct Memory Access，直接內存存取)，拷貝工作就交給DMA了，這樣CPU就解放出來做其他事去了，所以現代操作系統底層硬件和內核空間之間的數據拷貝CPU參與的很少可以不予考慮，都是DMA來的，但是內核空間和用戶空間之間的活都是CPU親自上的。

從上圖可以看出，傳統IO是這么幾個步驟：

1.線程在用戶空間發起read()讀文件，線程從用戶態切換為內核態

2.DMA將磁盤數據拷貝到內核緩存后，CPU又將數據從內核緩存拷貝至用戶緩存，這時線程又從內核態切換為用戶態

3.這時候知道了數據應該往哪里寫，CPU將數據從用戶緩存拷貝至socket緩存，線程又從用戶態切換到內核態

4.最后DMA將數據從內核緩存拷貝到網卡，read()調用結束返回，線程又從內核態切換到用戶態

整個過程線程上下文切換了四次，一共有四次拷貝，2次CPU來的，2次DMA來的。觀察圖不經會想，為啥數據要在用戶空間走一趟呢，能不能在內核空間直接從內核緩存到socket緩存呢，答案是可以的，這就是第一種零拷貝技術的原理，即mmap+write，先上圖：

mmap即內存映射，mmap()是由unix/linux操作系統來調用的，它可以將內核緩存中的一塊區域與用戶緩存中的一塊區域形成映射關系，即共享內存，不過在用戶緩存中的這塊映射區域是堆外內存。建立映射關系后，理解起來就是往其中任意一頭寫另外一頭也寫進去了，這樣是為了省掉一次CPU拷貝，傳統IO要把數據從內核緩存拷貝到用戶緩存才能寫，現在直接在用戶緩存寫，有了映射關系，對應的那塊內核緩存也有了。mmap+write實現的零拷貝流程是這樣的：

1.用戶進程要讀一個磁盤文件，告訴內核進程發起mmap()函數調用，來來來把你的內核緩存和我的一塊用戶緩存建立下映射關系，我要讀這個磁盤文件了。

2.內核進程乖乖調用了mmap()函數，將一塊內核緩存和用戶緩存中的一塊堆外內存建立的映射關系。并且告訴DMA將這個文件中的數據拷貝到了這塊內核緩存中。到這里mmap()函數就調用結束了，任務完成。嚴格的說到這里為止都不算IO過程，因此也沒有統計線程的上下文切換次數。

3.這才開始IO，因為磁盤文件已經被DMA拷貝到內核緩存中去了，又被映射到了這塊堆外內存，所以就直接在用戶緩存里就讀到了，線程沒有上下文切換，然后準備寫進一塊socket緩存里去了，線程發起了write()調用，狀態由用戶態切換為內核態，這時候內核基于CPU拷貝將數據從那塊映射著的內核緩存拷貝到socket緩存，CPU也就拷貝了這一次。

4.然后又是DMA將數據從socket緩存拷貝到網卡，最后write()函數調用返回，線程從內核態切換到用戶態。

整個過程線程切換了兩次，一共有三次拷貝，其中2次DMA拷貝，1次CPU拷貝。到這里CPU已經輕松不少了，就拷貝了一次嘛，可以不是說好的零拷貝的嘛，怎么還有一次拷貝，然后sendfile()函數就登場了，它是實實在在的實現了零拷貝，先上圖：

sendfile()也是操作系統來調用的，用戶線程只能通過特定的方法發起調用，比如java.nio包下的FileChannel，它的transferTo()方法可以發起sendfile()函數的調用。sendfile()函數實現零拷貝的過程是這樣的：

1.用戶線程發起sendfile()函數調用，與mmap()函數不同的是，不單單告訴內核去哪里讀數據，往哪里寫數據也一起告訴內核了。這時候就已經開始算IO了，線程從用戶態切換到了內核態。

2.知道了從哪里讀數據，依然是DMA去磁盤里把數據拷貝到內核緩存中去，由于同時也知道了應該往哪里寫數據，那就接著干活唄。

3.先把數據描述信息從內核緩存復制到指定的socket緩存，然后DMA又來了，這個時候socket緩存中的數據描述信息就起作用了，這些描述信息主要是數據的位置信息等。DMA Gather通過這些數據描述信息將數據從內核緩存拷貝到網卡。

4.sendfile()函數調用結束，線程從內核態切換到了用戶態，CPU一次拷貝都沒有！零！

這就是真正的零拷貝，整個過程用戶線程切換了兩次，只有兩次拷貝，但都是DMA來的。

關于第三種零拷貝方式，這是Linux2.4對sendfile做了改進之后的零拷貝。其實linux 2.1 內核開始就引入了sendfile()函數，當時的零拷貝是這樣的。

可以看出整個過程用戶線程切換了兩次，有三次拷貝，兩次DMA來的，還是有一次CPU拷貝。這種零拷貝方式和mmap+write方式有點類似，但是這也算零拷貝演進過程中的一環。

sendfile()函數的man page里面有這句話: In Linux kernels before 2.6.33, out_fd must refer to a socket. Since Linux 2.6.33 it can be any file. 也就是說Linux2.6.33之前sendfile()只能用于文件到socket的傳輸。而Linux2.6.33之后可以用于兩個文件描述符之間和文件到socket之間的傳輸。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

IO

IO

+關注

關注
0

文章
495

瀏覽量
40775
cpu

cpu

+關注

關注
68

文章
11113

瀏覽量
218201
數據

數據

+關注

關注
8

文章
7264

瀏覽量
92359

科技綠洲
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 羅氏線圈電流傳感器的工作原理、結構特點及應用
Hot javascript的成熟分類

New ?LM4128/LM4128Q SOT-23精密微功耗串聯電壓基準芯片技術文檔總結
New ?TL4051精密微功耗并聯電壓參考芯片技術文檔總結

发布文章

精選推薦
更多

文章

資料

帖子

電解電容損壞率高達30%？快速排查與秒修技巧--【其利天下】

其利天下技術
11小時前

250 閱讀

干貨分享 | 如何利用MBSE賦能汽車中控鎖安全開發

經緯恒潤
12小時前

379 閱讀

使用恩智浦處理器應對AI智能眼鏡低功耗設計挑戰

NXP客棧
11小時前

431 閱讀

睿擎派配件上新！4.3寸/7寸MIPI屏、UVC攝像頭、4G模塊等硬件全線出擊

RT-Thread官方賬號
12小時前

363 閱讀

NI eVTOL測試方案航電系統，通信、導航及通感一體測試方案解決eVTOL測試"必答題"

向上
12小時前

351 閱讀

LCD檢驗標準

可口可甜
433

10積分

59下載

WLAN工程設計和建設參考指南

yezi888
2.59 MB

免費

198下載

yii2-rest-rbac Yii2權限管理RBAC rest接口

李明聰
0.05 MB

免費

0下載

24個繼電器的繼電器模塊

吳湛
0.04 MB

3積分

19下載

熱電偶溫度數字變化模塊A1S68TD用戶參考手冊

張莉
3.55 MB

2積分

6下載

ADS射頻電路設計基礎與典型應用

yuu_cool
1天前

121 閱讀

電路圖：求馬蘭士功放DA -J7MKII電路圖？

jf_62612495
1天前

596 閱讀

HarmonyOS AI輔助編程工具（CodeGenie）頁面生成

李洋水蛟龍
1天前

413 閱讀

stm32f103c8t6讀不到完整的MC6C遙控器Uart數據幀怎么辦

jf_92431147
1天前

720 閱讀

【米爾-安路MYD-YM90X 創意秀】基于雷達波探測的智能巡檢小車

jf_64583430
1天前

514 閱讀

推薦專欄
更多

企業產品

資料

方案
更多