文章目錄
UBI簡介
flash存儲的內容
代碼實現
將flash數據讀到內存
組織數據結構
volume & EBA子系統初始化
wear-leveling子系統初始化
UBI層操作
舉個例子
擦寫均衡
擦寫時機
擦寫條件
03 正文
UBI簡介
UBI全稱是Unsorted Block Images,上圖為UBI在系統中的層次結構,最下面是flash層(包括flash控制器,各個flash驅動代碼,spi-mem層等);MTD層是對flash層的抽象,一個flash可能被劃分成不同的分區,每一個分區都會對應一個MTD設備;UBI層是基于MTD層之上的更高層,UBI層抽象出一個個邏輯擦寫塊,每個邏輯擦寫塊都有一個物理擦寫塊與之前對應,有了這個映射,我們就可以加一些軟件算法,達到擦寫均衡的目的,從而提高flash的使用壽命;再往上是基于UBI層實現和各種文件系統,比如UBIFS。
flash存儲的內容
首先介紹幾個概念:
PEB:physical eraseblocks 也就是對應flash上的一個擦寫塊
LEB:logical eraseblocks 軟件上的概念
Volume:卷
如上圖為flash中(或者說flash一個分區中)數據組織結構:
ubi層對flash的管理是以擦寫塊為單位的,LEB對應軟件上的概念,PEB對應flash上一個實實在在的擦寫塊,每一個LEB對應一個PEB。
往上看多個LEB可以組成一個volume,也就是說,可以根據不同的功能,將LEB劃分到不同的卷中;其中valume-layout是一個ubi內部使用的卷,用來存放該MTD設備上所劃分的各個卷的信息,其包含兩個LEB,它們存儲的內容是一樣,互為備份。
往下看每個PEB的內容包含3部分ech(erase counter header),vidh(volume identifier header),data。下面會介紹具體含義。
代碼實現
linux對UBI層的代碼實現大致可以總結為3個方面:
首先數據是存儲在flash中的,因此需要將flash中的相關信息讀到內存中,同時也可以檢查出flash中的壞塊
數據讀到內存后,需要按照內部的邏輯關系組織起來(比如將正在使用的PEB放到紅黑樹上管理起來,空閑的PEB也放到紅黑樹上管理起來)
在內存中有了這些數據的關系后,就可以對其進行操作(比如讀寫操作,volume增加,刪除,擴容等操作,擦寫均衡操作)
將flash數據讀到內存
UBI初始化時代碼調用流程如上圖,最終會調用scan_all() 函數, scan_all() 函數會遍歷該MTD設備
中的每一個PEB,從中讀出ech和vidh,它們的定義如下。
ech的定義如上,其中:
ec:表示該PEB被擦寫的次數,借助該字段我們就能夠找出被擦寫次數最少的PEB,從而達到擦寫均衡的目的
vid_hdr_offset:表示vidh在該PEB中的偏移位置
data_offset:表示實際數據在該PEB中的偏移位置
vidh的定義如上,其中:
vol_id:表示該PEB屬于那一個volume
lmun:表示LEB在volume中的編號,該字段與PEB在MTD設備中的編號形成映射關系通過對MTD設備的每個PEB進行遍歷,可以得知各個PEB的情況,或是被使用的,或是空閑狀態,或者已經損壞,這些信息會被臨時記錄在struct ubi_attach_info 結構中,遍歷過程中的具體細節,可以參考scan_all() 函數。
組織數據結構
遍歷PEB后,會將flash信息保存在臨時的結構struct ubi_attach_info 中,接下來會將struct ubi_attach_info 中的臨時信息保存到全局結構struct ubi_device *ubi_devices 中,代碼如下:
分為三個步驟,分別是對volume的初始化,對wear-leveling子系統的初始化,對eba(Eraseblock Association)子系統的初始化;下面我們分別看下。
volume & EBA子系統初始化
前面有介紹到volume-layout是UBI內部使用的一個卷,其包含兩個LEB(互為備份),對應PEB中的數據內容如上圖,data(灰色)部分是一個struct ubi_vtbl_record 結構數組,記錄了當前UBI設備所有卷的信息, ubi_read_volume_table() 函數先遍歷臨時結構struct ubi_attach_info 找出volumelayout所在PEB,然后 讀出struct ubi_vtbl_record 結構數組并保存到內存中,也就是struct ubi_device 的struct ubi_volume *volumes[] 字段中,初始化后的數組結構如下圖,其中struct ubi_volume *volumes[] 是一個指針數組,數組中的每一個元素都是struct ubi_volume 結構(詳細過程見ubi_read_volume_table() 函數)。
在struct ubi_volume 結構體中,有一個比較重要的字段struct ubi_eba_table *eba_tbl ,該字段記錄了當前volume中所有LEB與PEB的映射關系,其中struct ubi_eba_entry *entries 是一個數組結構,每一個元素對應一個struct ubi_eba_table 結構體, struct ubi_eba_entry *entries 數
組的下標對應于LEB的編號,數組元素的內容對應EB的編號,這樣就將LEB與PEB關聯起來了(詳細過程見ubi_eba_init() 函數)。
wear-leveling子系統初始化
在UBI中將PEB分為4種情況,正在使用、空閑狀態、需要擦除、已經損壞,各個狀態的PEB被放到不同的紅黑樹中管理。在ubi_eba_init() 函數中,會先分配一個struct ubi_wl_entry 指針數組并存儲在sruct ubi_wl_entry **lookuptbl 字段中,數組下標為PEB的編號,數組內容記錄了PEB的擦寫次
數與編號信息,每一個PEB都有一個這樣的結構與之對應如下圖。
另外各個PEB還根據狀態放到不同的紅黑樹管理起來,上圖畫出了used, free, scrub三種狀態的紅黑樹,其中紅黑樹是以擦寫次數為順序排列的,最小的擦寫次數排列在最左邊,如果擦寫次數相同,則比較PEB的編號,編號小的排在樹的左邊,而對應的值為struct ubi_wl_entry 指針數組中的一個元素。
調用ubi_eba_init() 函數后,wear-leveling子系統也就初始化完畢,在內存中會形成上圖中的數組關系。
UBI層操作
經過前面的初始化,各個數據的結構關系已經保存在內存中了,因此UBI層的操作其實就是對內存中這些數據的操作。
從用戶空間角度看,UBI初始化后會對應三類字符設備,分別為/dev/ubi_ctrl 、/dev/ubix (x = 0, 1, 2.。.), /dev/ubix_y (x = 0, 1, 2.。., y = 0, 1, 2),它們對應的操作函數如下代碼。
ubi_vol_cdev_operations:是針對某個volume(/dev/ubi1_0等)來操作的,從volume的角度只能看到其中包含的PEB,因此它的操作也是圍繞PEB進行的。
ubi_cdev_operations:是針對UBI設備(/deb/ubi0等)進行操作的,從UBI設備的角度可以看到不同的volume,因此可以對volume進行創建,刪除,擴容等操作。
ubi_ctrl_cdev_operations:是針對UBI層(/dev/ubi_ctrl)的操作,從該角度可以看到UBI設備,因此可以對UBI設備進行創建,刪除操作。
舉個例子
需求:假如我們想要對/dev/ubi1_0 這個volume進行擴容,我們應用怎樣操作?
用戶空間將volume_id,size兩個參數傳遞到內核空間
在內核空間我們根據volume_id在struct ubi_volume *volumes[] 數組中找到volume的handler
因為需要擴容(要分配更多的LEB),所以要重新分配struct ubi_eba_table *eba_tbl 數組,并將舊數組中的數據拷貝到新數組中
對于新增的LEB,我們需要從free樹上申請,建立LEB到PEB的映射關系并保存到struct ubi_eba_table *eba_tbl 數組,另外還需要更新PEB中ech和vidh,表明該PEB屬于那個volume
上面這一系列操作是我自己的想法,并非kernel實現代碼(具體實現可以參數ubi_cdev_ioctl() 函數)。這里想表達的意思是,在UBI初始化完成后,在內存中已經存在了各個volume,各個LEB/PEB之間的關系,因此對于UBI的操作,理論上我們是都可以完成的,所差的只是代碼實現;程序=算法+數組結構,這里的數組結構已經有了,而算法就是UBI層的各種操作,這里的代碼其實每個人都可以實現的,只不過有好有壞,所幸kernel已經幫我們實現了,我們可以參考學習。其實別人寫的文章只能提供個大概,真正的細節只有在源碼中才能獲得。
擦寫均衡
flash的擦寫塊都是有壽命限制的,如果頻繁的擦寫flash的某一個PEB,很快這個PEB就會損壞,而擦寫均衡的目的就是將擦除操作平均分配到整個flash,這樣就能提高flash的使用壽命。那怎樣將擦除操作平均分配到整個flash呢,要達到這個條件還是有些難度的,因此我們退一步,將條件修改為PEB的最大擦寫次數與最小次數的的差值小于某個值。
比如flash中包含20個PEB,其中數字表示該PEB被擦寫的次數,我們約定擦寫次數的差值最大為15,現在flash中PEB的最小與最大擦寫次數分別為10、39,由于超過門限值,因此需要我們想一些方法,增加擦寫次數為10的PEB被擦寫的機會,減少擦寫次數為39的PEB被擦寫的機會,從而使整個flash的擦寫次數趨于平均。具體的實現后面會介紹。
擦寫時機
linux kernel會在下面兩個位置調用擦寫均衡:
wear-leveling子系統初始化完成時會檢查一次是否需要擦寫均衡,此時是一個初始狀態,是檢查的一個時機。
當要擦除某個PEB的時候,此時擦寫次數會增加,有可能達到擦寫均衡的要求,此時也是一個檢查的時機。
擦寫條件
除了上面的調用時機,擦寫均衡還有一些其它的條件限制,如下圖為擦寫均衡的流程圖:
當scrub紅黑樹上有節點時,一定需要進行擦寫均衡。在遍歷flash的每個PEB時,如果發現在從flash中讀出的數據有位翻轉的情況,就會加上scrub標志,并放到scrub紅黑樹上維護起來,表示該PEB需要被擦寫;在擦寫均衡時,先取出scrub樹最左邊節點e1,再從free樹中找一個合適的節點e2,然后讀取e1對應PEB的數據,如果讀取的數據還有問題,就會結束本次擦寫;如果沒有問題就會把e1數據copy到e2位置,并擦除e1數據完成本次擦寫均衡操作。
當scrub樹上沒有節點時,會從used樹上取出最左邊節點e1,并從free樹上找一個合適的節點e2,然后檢查e2與e1的PEB擦寫次數的差值是否大于門限值,如果大于,則將e1數據copy到e2位置并擦除e1數據完成本次擦寫。為什么這樣做,原因是used樹中的節點已經被初始化過(先整個擦除,然后寫入ech和vidh,后面再寫入數據也不需要擦寫)所以不會有擦除操作,在free樹上的節點,在被使用前需要擦除一次,所以把擦寫次數大的PEB放到used樹上減少被擦寫的機會,把擦寫次數小的節點放到free樹上增加被擦寫的機會,這樣就達到了擦寫均衡的目的。
另外在free樹上選擇一個合適的節點,什么是適合和節點?最簡單的方法就是從free樹的最右邊拿一上節點(擦寫次數最大的節點),然后與used樹上取下的最左邊的節點比較,看看差值是否超過門限值。但實際情況可能會更復雜些,如下代碼29行,是kernel中在free樹上選擇節點的方法,其限制了最大擦寫次數為free樹最左側節點 + WL_FREE_MAX_DIFF,看上面的注釋說在某些情況下會出現不斷擦寫某一個或幾個PEB的情況,所以作了這樣一個限制。(沒有想道是什么情況)
原文標題:尹忠凱: 針對Flash的Linux UBI子系統代碼深度分析
文章出處:【微信公眾號:Linuxer】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
FlaSh
+關注
關注
10文章
1633瀏覽量
147944 -
存儲
+關注
關注
13文章
4296瀏覽量
85801
原文標題:尹忠凱: 針對Flash的Linux UBI子系統代碼深度分析
文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論