色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從內核中NVMe IO框架來看其中存在的問題

Linux閱碼場 ? 來源:lp ? 2019-04-15 13:59 ? 次閱讀

NVMeSSD具有高性能、低時延等優點,是目前存儲行業的研究熱點之一,但在光鮮的性能下也同樣存在一些沒有廣為人知的問題,而這些問題其實對于一個生產系統而言至關重要,例如:

QoS無法做到100%保證;

讀寫混合情況下,與單獨讀相比,性能下降嚴重,且讀長尾延遲比較嚴重;

所以如何利用好NVMe盤的性能,并更好的為業務服務,我們需要從硬件,Linux內核等多個角度去剖析和解決。

從內核中NVMe IO框架來看其中存在的問題

當前Linux內核中對NVMeSSD的訪問是通過MQ框架來實現的,接入NVMe驅動后直接略過IO調度器,具體實現上來說是從blocklayer中的通用塊層回調make_request從而打通上下層IO通路。示意圖如下,這里面有幾個關鍵的點:

IO發送過程

MQ的框架提升性能最主要的將鎖的粒度按照硬件隊列進行拆分,并與底層SSD的隊列進行綁定,理想的情況每一個CPU都有對應的硬件發送SQ與響應CQ,這樣可以并發同時彼此之前無影響。按照NVMeSPEC協議中的標準,硬件最多支持64K個隊列,所以理想情況下硬件隊列個數將不會是我們需要擔心的地方。但是實際情況又如何呢?由于硬件隊列的增加會給NVMeSSD帶來功耗的增加,所以不同的廠商在設計硬件隊列個數時的考量是不同的,比如intelP3600支持32個隊列,intel最新的P4500支持16384個,但是SUMSUNGPM963卻只支持到8個。那么當CPU的個數超過硬件的隊列個數,就會出現多個CPU共用一個硬件隊列的情況,對性能就會產生影響。

下面使用SUMSUNGPM963做一個簡單的測試:

也就是整個IOPS可以達到50w

如果使用同一個硬件隊列

整個IOPS只有44w,性能下降12%,主要原因是多個CPU共用硬件隊列進行發送的時候會有自旋鎖爭搶的影響。所以對于共用硬件隊列的情況下,如何綁定CPU是需要根據業務的特點來確定的。

IO響應過程

IO響應過程中最主要問題是中斷的balance,由于默認linux中并沒有對NVMe的中斷進行有效的綁定,所以不同的綁定策略會帶來截然不同的性能數據。不過在我們的實際測試中,雖然我們沒有做中斷的綁定,但是貌似不管是性能還是穩定性的下降并沒有那么嚴重,什么原因呢?根據我們的分析,這里面最主要的原因是(后面也會提到),我們并沒有大壓力的使用NVMe盤,所以實際的應用場景壓力以及隊列深度并不大。

從應用本身的IO Pattern來看使用NVMe問題

我們在評測一個NVMeSSD的性能的時候,往往都是通過benchmark工具,例如見1,見2。

然而這些測試的結果與業務實際使用NVMeSSD看到的性能相比差距很大。原因是因為這些性能測試存在兩個比較大的誤區,因而并不能反映生產系統的真實情況。

1. 片面夸大了NVMe盤的性能

從上面兩篇文章中的測試中我們可以看到,大多數壓測中使用的隊列深度為128,并且是用libaio這樣的異步IO模式來下發IO。但是在實際應用場景中很少有這么大的隊列深度。在這種場景下,根據“色子效應”,并不會將NVMe盤的并發性能充分發揮出來。

2. 低估了NVMe的長尾延遲

然而在另外一些場景下,隊列深度又會非常高(比如到1024甚至更高),在這種情況下NVMeSSD帶來的QoS長尾延遲影響比上面的benchmark的測試又嚴重得多。

所以綜合起來看,這種評測選擇了一個看上去沒啥大用的場景做了測試,所以得出的結果也對我們實際的應用基本沒有參考價值。那么問題出在什么地方么?

問題分析

首先讓我們再次強調一下一般評測文章中benchmark進行的測試場景的特點:

大多是fio工具,開啟libaio引擎增加IO壓力

隊列深度到128或者256

在這種場景下確實基本都可以將NVMe盤的壓力打滿。

在展開分析問題的原因之前,我們先看看Linux內核的IO棧。

在實際應用中,VFS提供給應用的接口,從IO的特點來分類,大致上可以分為兩類:directIO與bufferIO。使用directIO的業務大多在應用本身就已經做了一層cache,不依賴OS提供的pagecache。其他的情況大多使用的都是bufferIO。linuxkernel中的blocklayer通過REQ_SYNC與~REQ_SYNC這兩種不同的標志來區分這兩類IO。大家常用的directIO這個類型,內核要保證這次IO操作的數據落盤,并且當響應返回以后,應用程序才能夠認為這次IO操作是完成的。所以是使用了這里的REQ_SYNC標志,而對應的bufferIO,則大量使用了~REQ_SYNC的標志。讓我們一個一個看過去。

direct IO

由于在實際使用方式中AIO還不夠成熟,所以大多使用directIO。但是directIO是一種SYNC模式,并且完全達不到測試用例中128路并發AIO的效果。這主要兩個方面原因:

direct io在下發過程中可能會使用文件粒度的鎖inode->i_mutex進行互斥。

前面說的IO SYNC模式

也就是說,我們很難通過directIO來達到壓滿NVMe盤的目的。如果一定要打滿NVMe盤,那么一方面要提高進程并發,另外一方面還要提高多進程多文件的并發。而這是生產系統中很難滿足的。

buffer IO

我們再來看看bufferIO的特點。下面我使用了比較簡單的fio通過bufferIO的模式下發,而且通過rate限速,我們發現平均下來每秒的數據量不到100MB,整個IO的特點如下:

抓取了下submit_bio在每秒的調用次數并分析可以得出,bufferIO在下刷的時候并不會考慮QD的多少,而是類似aio那樣,kworker將需要下發的臟頁都會bio形式下發,而且不需要等待某些bio返回。注意這里面有一個細節從qusize觀察到IO最大值986,并沒有達到百K,或者幾十K,這個原因是由本身MQ的框架中tag機制nr_request決定,目前單Q設置默認值一般為1024??傊産ufferIO這樣特點的結果就是突發量的高iops的寫入,bufferIO對于應用程序來說是不可見的,因為這是linuxkernel的本身的刷臟頁行為。但是它帶給應用的影響確實可見的,筆者曾經總結過異步IO的延時對長尾的影響,如下圖所示,分別是bufferIO與directIO在相同帶寬下延時表現,可以看出這延遲長尾比我們簡單的通過fiobenchmark測試嚴重的多,特別是盤開始做GC的時候,抖動更加嚴重;而且隨著盤的容量用著越來越多,GC的影響越來越大,長尾的影響也是越來越嚴重。

在HDD的時代上面的問題同樣會存在,但是為什么沒有那么嚴重,原因主要是HDD大多使用CFQ調度器,其中一個特性是同步、異步IO隊列分離。并且在調度過程中同步優先級比較高,在調度搶占、時間片等都是同步優先。

解決問題

前面描述了使用NVMe硬盤的嚴重性,下面介紹一下如何解決這些問題。(1)MQ綁定的問題,需要根據當前業務的特點,如果硬件的隊列小于當前CPU的個數,盡量讓核心業務上跑的進程分散在綁定不同硬件隊列的CPU上,防止IO壓力大的時候鎖資源的競爭。

(2)中斷綁定CPU,建議下發的SQ的CPU與響應的CQ的CPU保持一致,這樣各自CPU來處理自己的事情,互相業務與中斷不干擾。

(3)解決directIO狀態下長尾延遲,因為長尾延遲是本身NVMeSSDController帶來,所以解決這個問題還是要從控制器入手,使用的方法有WRR(WeightRoundRobin),這個功能在當前主流廠商的最新的NVMeSSD中已經支持。

(4)解決bufferIO狀態下長尾延遲,可以通過控制NVMeSSD處理的QD來解決,使用的NVME多隊列IO調度器,充分利用了MQ框架,根據同步寫、讀延遲動態調整異步IO的隊列,很好的解決bufferio帶來的長尾延遲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10872

    瀏覽量

    211999
  • Linux
    +關注

    關注

    87

    文章

    11312

    瀏覽量

    209702
  • nvme
    +關注

    關注

    0

    文章

    221

    瀏覽量

    22665

原文標題:你所不知道到的NVMe

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Xilinx FPGA NVMe Host Controller IP,NVMe主機控制器

    ,實現必須以及可選的NVMe Admin Command Set和NVM Command Set,實現對PCIe SSD的復位/斷電管理、IO(Page)讀寫、DMA讀寫和數據擦除功能,提供用戶一個
    發表于 02-21 10:16

    Xilinx FPGA高性能NVMe SSD主機控制器,NVMe Host Controller IP

    ,實現必須以及可選的NVMe Admin Command Set和NVM Command Set,實現對PCIe SSD的復位/斷電/SMART/Error Information管理、IO(Page
    發表于 03-27 17:23

    高性能NVMe主機控制器,Xilinx FPGA NVMe Host Accelerator IP

    ,實現必須以及可選的NVMe Admin Command Set和NVM Command Set,實現對PCIe SSD的復位/斷電/SMART/Error Information管理、IO(Page
    發表于 04-10 22:55

    ThreadX內核的IAR方式移植和設計框架

    了解后再來看,這樣將事半功倍。但是本章的工程模板框架一定要學習。雖然本章節是以我們開發板為例進行移植的,但是教會大家如何移植到自己的板子上以及移植過程的..
    發表于 08-10 06:47

    RK3399 Android7.1系統WiFi的SDIO和電源框架介紹

    1、WiFi的SDIO和電源框架  Platform: RK3399  OS: Android 7.1  Kernel: v4.4.83  框架:  引用網友一張框圖,畫得很不錯  
    發表于 11-30 17:47

    LX2160用RT內核檢測不到NVME怎么解決?

    GB (976773168 x 512) 在下一階段,nvme 磁盤不見了。附加了帶/不帶 rt 內核的引導日志
    發表于 03-15 08:19

    Nvme硬盤掛載失敗如何解決?

    內核啟動時卡住,然后提示 nvme nvme0: I/O 401 QID 4 timeout, completion polled,硬盤型號為:致態 PC005 Active 512GB
    發表于 09-12 06:35

    網絡IO套路分享

    無情的掛起,等待內核完成操作,因為此時的內核可能將CPU時間切換到了其他需要的進程,在我們的應用程序看來感覺被卡主(阻塞)了。 阻塞IO 傳統阻塞
    的頭像 發表于 10-13 14:52 ?1925次閱讀
    網絡<b class='flag-5'>IO</b>套路分享

    如何使用Linux內核實現USB驅動程序框架

    Linux內核提供了完整的USB驅動程序框架。USB總線采用樹形結構,在一條總線上只能有唯一的主機設備。 Linux內核主機和設備兩個角度觀察USB總線結構。本節介紹 Linux
    發表于 11-06 17:59 ?20次下載
    如何使用Linux<b class='flag-5'>內核</b>實現USB驅動程序<b class='flag-5'>框架</b>

    NVMe over Fabrics的優勢是什么?

    NVMe- oF字面上來看是網絡上的NVMe協議的擴展,其擴展范圍遠遠超出了目前搭載SSD的服務器。NVMe早在2011年就出現了,而fa
    的頭像 發表于 01-14 09:12 ?5321次閱讀

    Linux內核開發框架學習資料匯總

    Linux內核開發框架學習資料匯總
    發表于 06-17 09:29 ?24次下載

    OpenHarmony工作委員會PMC委員萬承臻帶你領略OpenHarmony3.1內核框架

    OpenHarmony工作委員會PMC委員萬承臻帶你領略OpenHarmony3.1內核框架 OpenHarmony各版本不斷迭代不斷完善;今天以“共建新技術、開拓新領域”作為
    的頭像 發表于 04-25 17:12 ?2347次閱讀
    OpenHarmony工作委員會PMC委員萬承臻帶你領略OpenHarmony3.1<b class='flag-5'>從</b><b class='flag-5'>內核</b>到<b class='flag-5'>框架</b>

    信號驅動IO與異步IO的區別

    , 是開始處理IO, 這個時候還是存在阻塞的,將數據內核態拷貝進入到用戶態的過程至少是阻塞住的 (應用程序將數據
    的頭像 發表于 11-08 15:32 ?1079次閱讀
    信號驅動<b class='flag-5'>IO</b>與異步<b class='flag-5'>IO</b>的區別

    linux異步io框架iouring應用

    Linux內核5.1支持了新的異步IO框架iouring,由Block IO大神也即Fio作者Jens Axboe開發,意在提供一套公用的網絡和磁盤異步
    的頭像 發表于 11-08 15:39 ?685次閱讀
    linux異步<b class='flag-5'>io</b><b class='flag-5'>框架</b>iouring應用

    異步IO框架iouring介紹

    前言 Linux內核5.1支持了新的異步IO框架iouring,由Block IO大神也即Fio作者Jens Axboe開發,意在提供一套公用的網絡和磁盤異步
    的頭像 發表于 11-09 09:30 ?2476次閱讀
    異步<b class='flag-5'>IO</b><b class='flag-5'>框架</b>iouring介紹
    主站蜘蛛池模板: 一个人免费视频在线观看高清频道| 午夜啪啪免费视频| 高h原耽肉汁动漫视频| 99久久99久久精品国产片果冻| 伊人青青青| 一本大道熟女人妻中文字幕在线| 午夜理论片日本中文在线| 色综合久久88色综合天天提莫| 日本高清免费看| 拍戏被CAO翻了H| 欧美一区二区在线观看| 欧美白妞大战非洲大炮| 女警被黑人20厘米强交| 欧美成ee人免费视频| 欧美乱妇日本无乱码特黄大片| 女人张腿让男人桶免费| 欧美日韩国产高清综合二区| 欧美特黄99久久毛片免费| 轻点灬大ji巴太粗太双性高h| 秋霞电影网午夜免费鲁丝片 | 色狠狠一区| 四虎国产精品高清在线观看| 手机毛片在线| 亚洲国产在线视频中文字| 亚洲一区二区三不卡高清| 一品道门免费高清视频| 中文字幕亚洲视频| 99er热精品视频国产免费| 拔萝卜在线高清观看视频| 大胸美女被cao哭| 国产免国产免费| 九九热这里只有精品2| 久久夜色撩人精品国产| 免费A级毛片无码鲁大师| 人妻少妇偷人精品无码洋洋AV| 日韩在线看片中文字幕不卡| 小SAO货叫大声点妓女| 一边喂奶一边做边爱| 99久久香蕉| 国产精品免费观看视频| 久久国产主播福利在线|