色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

描述mcp內核常見問題的排查方法幫助快速排查定位問題

Linux閱碼場 ? 來源:Linux閱碼場 ? 作者:孫鵬 ? 2022-07-12 09:23 ? 次閱讀

簡介

任何系統,硬件故障和軟件故障都不可避免。比如車載系統,由于汽車行駛過程中的震動,發熱,電瓶饋電等,很容易影響電子元件的特性,這對設備是致命的影響,會直接改變程序邏輯及運行結果從而產生各種不可預測的異常情況,本文描述常見問題的排查方法幫助快速排查定位問題所在也提出一些系統性設計來規避這些問題.

啟動流程初判斷

我們對穩定性分析第一手分析本上是從debug log開始,它可以直觀的給我們信息反饋, 想對debug log 中的問題進行判斷還需要我們對設備的啟動流程有充分的了解,在什么階段使用了哪些資源同時又有哪些硬件參與其中.

通過分割流程,細化加載過程可以對當前疑問點從合理性進行解釋,以高通啟動為例:

poYBAGLMzWuAI8qVAABC0Jsr5OQ438.jpg

從啟動流程可以知道每一個階段的啟動都包含著數據完整性檢查,當secboot開啟時還有合法性檢查; 通過這個幫助我們初步判斷異常位置明確下一步分析方向;

Nand Flash排查

針對nand flash的分析要先了解其構造;

Flash的內部存儲是MOSFET,里面有個懸浮門(Floating Gate),是真正存儲數據的單元。

數據在Flash內存單元中是以電荷(electrical charge) 形式存儲的。存儲電荷的多少,取決于圖中的外部門(external gate)所被施加的電壓,其控制了是向存儲單元中沖入電荷還是使其釋放電荷。而數據的表示,以所存儲的電荷的電壓是否超過一個特定的閾值Vth來表示,因此,Flash的存儲單元的默認值,不是0(,而是1,而如果將電荷釋放掉,電壓降低到一定程度,表述數字0。

pYYBAGLMzYiAHsmJAACDCtdAqQM143.jpg

Nand Flash 存儲結構

Nand 的缺點數據讀寫容易出錯,所以一般都需要有對應的軟件或者硬件的數據校驗算法,統稱為ECC, 每一個頁,對應還有一塊區域,叫做空閑區域(spare area)/冗余區域(redundant area),而Linux系統中,一般叫做OOB(Out Of Band),這個區域,是最初基于Nand Flash的硬件特性:數據在讀寫時候相對容易錯誤,所以為了保證數據的正確性,必須要有對應的檢測和糾錯機制,此機制被叫做EDC(Error Detection Code)/ECC(Error Code Correction, 或者 Error Checking and Correcting),所以設計了多余的區域,用于放置數據的校驗值。

Oob的讀寫操作,一般是隨著頁的操作一起完成的,即讀寫頁的時候,對應地就讀寫了oob。

關于oob具體用途,總結起來有:

1.標記是否是壞快

2.存儲ECC數據

poYBAGLMzaSAMVN_AACVlX9eUac431.jpg

Nand Flash 結構

壞塊

為什么會出現壞塊?

由于 NAND Flash的工藝不能保證NAND的Memory Array在其生命周期中保持性能的可靠,因此,在NAND的生產中及使用過程中會產生壞塊。壞塊的特性是:當編程/擦除這個塊時,不能將某些位拉高,這會造成Page Program和Block Erase操作時的錯誤,相應地反映到Status Register的相應位。

壞塊的分類

總體上,壞塊可以分為兩大類

(1) 固有壞塊 這是生產過程中產生的壞塊,一般 芯片 原廠都會在出廠時都會將壞塊第一個page的spare area的第6個byte標記為不等于0xff的值。

(2)使用壞塊 這是在NAND Flash使用過程中,如果Block Erase或者Page Program錯誤,就可以簡單地將這個塊作為壞塊來處理,這個時候需要把壞塊標記起來。

壞塊如何檢測

壞塊的判斷方法非常簡單對目標塊擦除就可判斷是否是壞塊。

壞塊的影響性

判斷壞塊并不是技術難點,問題是在于當產生壞塊時系統穩定性如何去保障,這里就涉及到項目前期對整體穩定性設計;

根據固件格式大致可以分為三種:只讀鏡像,只讀文件系統和數據分區

1.只讀鏡像

這里只讀鏡像在固件中SBL ,LK,Boot.img 等等鏡像文件, 當鏡像存儲區域由于某種異常產生壞塊就會破壞數據的完整性;

只讀鏡像大部分只會在加載過程中讀取,后續運行在內存中,所以問題會在壞塊產生后的下一次啟動;

2.只讀文件系統

文件系統跟只讀鏡像比較類似,差別在于文件系統并不是一次全部加載校驗換句話說就是用哪里加載哪里,同樣原理如果加載數據因壞塊而導致失效系統也會崩潰;

3.數據分區

數據分區基本操作就是寫入和擦除,所以當壞塊產生時影響的是在分區中存儲的數據;

數據存儲根據使用功能的不同丟失的影響性也存在較大差異,文件系統中文件數據丟失表現為文件數據無法訪問或者文件不存在訪問失敗;但當重要配置文件丟失, 證書文件,加密裸數據丟失同樣會導致系統崩潰無法正常使用;

預防性設計

萬幸的是使用過程中產生連續三個壞塊的概率極低,這就給我們機會針對壞塊預防性設計;

那我們如何去解決這個問題呢?

了解壞塊的產生和影響性,可以知道想要規避壞塊需要我們在系統設計初就要考慮,在設備使用過程中有壞塊產生時如何保證系統的穩定性;

針對產生的影響性加強系統穩定性設計:

1.只讀鏡像&只讀文件系統

加大分區冗余度是可以降低壞塊是在數據區的概率也會避免連續壞塊導致燒錄失敗但會加大空間損耗,不過由于只讀鏡像基本不大可以選擇加大冗余;

只是降低損壞概率還是完全無法保證系統的穩定性, 鏡像分區設計可以幫助解決這個問題,通過啟動流程異常檢測可以幫助我們選擇完整分區進行加載并恢復損壞分區;

2種設計可以大大增加系統整體的穩定性,不過多分區設計要注意鄰區干擾要適當的分開;

2.數據分區

根據存儲數據的必要性可以分為重要分區和普通分區;

多分區設計也適用于重要分區 通過多個分區保存重要文件和數據可以避免數據缺失而引發的問題;

分區文件丟失通過備份分區恢復文件;

分區損壞先格式化問題分區后在通過備份分區恢復文件;

由于空間限制重要文件和數據要與普通分區

普通分區由于壞塊導致的異常完全可以通過格式化進行恢復;

Nand Flash Bit Flip

由于Nand物理特性最常見的異常問題就是產生Bit Flip(位反轉) ;

什么是Bit Flip?

所謂的位反轉,bit flip,指的是原先Nand Flash中的某個bit位,發生電容的0和1狀態的切換, 這種情況稱之為位反轉(Bit Flip)

Bit Flip 產生的原因?

借鑒業內總結產生Bit Flip原因有如下幾種:

1.漂移效應(Drifting Effects)

漂移效應指的是,Nand Flash中cell的電壓值,慢慢地變了,變的和原始值不一樣了。

2.編程干擾所產生的錯誤(Program-Disturb Errors

此現象有時候也叫做,過度編程效應(over-program effect)。 對于某個頁面的編程操作,即寫操作,引起非相關的其他的頁面的某個位跳變了。

3.讀操作干擾產生的錯誤(Read-Disturb Errors)

此效應是,對一個頁進行數據讀取操作,卻使得對應的某個位的數據,產生了永久性的變化,即Nand Flash上的該位的值變了。

在Nand Flash使用過程中可以總結一下幾點:

1.讀取干擾:讀取 NAND flash page會對同一塊中附近的存儲單元產生干擾,過度讀取最終會導致存儲單元失去電荷丟失存儲的數據。

2. 長期數據保留:存儲在 NAND flash中的數據會隨著時間的推移而損壞(即使不使用)。

3. 高溫干擾:高溫可能會導致電荷逃逸。隨著溫度的升高,數據損壞的速度會迅速增加。

4. 電磁干擾:電磁干擾可能會導致電荷不穩定。

Bit Flip 判斷方法

我們知道Nand Flash 為了防止Bit Flip設計了ECC算法進行糾正位反轉數據,我們也可通過ECC來判斷Nand Flash是否產生了Bit Flip;

模擬page size 為2K ECC 能力為8 byte 的 ecc 分布 Layout

poYBAGLMzc-ARZAuAACHJiEsFJM948.jpg

2048-byte page, 8-bit ECC, 8-bit NAND Flash

通過Layout 可以發現ECC 其實和OOB區域是Nand Flash 存儲的一部分,Bit Flip 產生的隨機性同樣也會影響 ECC數據和OOB 數據;

文件系統

這里要特殊說明下文件系統, 文件系統的問題可以分為兩種:

1.由于異常掉電導致數據寫入未完成,或文件處理邏輯未完成產生的系統性校驗錯誤;

2.文件系統數據存儲格式完全依賴于文件系統類型, 同時讀寫分區的頻繁讀寫, 空間占用大也導致位反轉在文件系統區域概率大大增加;

分析方法

Nand Flash 的Meta Data數據能直觀反應問題發生的原因,通過Dump Nand Flash數據可以快速排除存儲數據本身是否異常;

1.enable ECC dump Nand Flash數據就可以獲取當前ECC值;

2.使用相同固件在另一塊Nand Flash 中操作步驟1 獲取正常的Meta Data;

3.通過對比不同Nand Flash相同數據的ECC 值,可以幫助我們確定是否發生過位反轉;

而文件系統需要我們對文件系統機制有一定的了解進而分析異常原因;

Bit Flip 解決方法

多分區,多冗余的方法也同樣可以解決Bit Flip 問題;

只讀鏡像

只讀鏡像分區可以依賴通用的錯誤處理來解決異常產生后的行為,這樣可以做到處理行為統一;

文件系統

如果有安全考慮的情況下只讀文件系統可以依賴dm-verity功能進行異常檢查, 由于文件系統的復雜性針對讀寫分區的異常檢測點需要我們從概率性和必要性進行考慮異常處理的合理性;

還有一種Nand Flash 處于不穩定狀態的情況存在, 這種情況暫時沒有好的解決方案, 在重新燒錄后表現良好使用一段時間后產生大量Bit Flip 也無法通過檢測機制標記成壞塊,對特征值(0x55 0xaa)驗證表現正常;

如果懷疑是這種問題可以創建由隨機數組成的文件對問題區域進行寫入和讀取驗證, 同時也可加上低溫環境加大問題復現幾率;

DDR Bit Flip

還有一種位反轉在DDR中產生, 這種情況下產生的異常結果與Nand Flash Bit Flip基本一致, 區別在于Nand Flash ECC糾正范圍內可保證數據的完整性,而 DDR Bit Flip 會直接改變程序邏輯及運行結果從而產生各種不可預測的異常情況;

DDR 分析前我們已經通過啟動流程定位啟動階段,排除了是由于Nand Flash數據導致的異常,所以我們需要對DDR 進行診斷是否發生異常。在系統側可以依賴內存自我檢測方式Slub Debug、KASAN等進行檢測,但啟動階段會在各個階段遇到DDR Bit Flip無法依賴于系統側同時系統側診斷會受到內存分配Layout限制無法全局診斷;

SBL 是很多平臺固件加載的第一啟動鏡像,在SBl運行階段大部分內存以物理內存方式直接訪問,這樣我們可以利用這一性質進行內存診斷,回讀校驗可以幫助我們快速定位問題點;

導致DDR Bit Flip原因有哪些?

DDR 本身損壞導致Bit Flip的情況非常多這源于DDR 設計的復雜性, 能夠通過回讀校驗直接檢測出來的我們都可歸于DDR 本身問題

舉兩個特殊又比較常見的例子進行說明:

Margin問題

Magin 問題通常都是時序問題,問題的來源可能是設計或者材料上的缺陷導致;

DDR 的0和1是由基本電路控制門電路最終達到標準的"0","1", 如下圖所示當在T1時間內無法達到電壓閾值H1或者L1門電路將會切到另一端也就是Margin 導致的Bit Flip;

poYBAGLMzfuAUThrAACeOdX8e8k245.jpg

Row Hammere

ROW HAMMER 特性,指DDR 內存單元之間電子的互相影響,在足夠多臨近行列的訪問次數后讓某個單元的值從1變成0現象。

DDR 會定時刷新ceil電荷,但是每次對ceil讀寫的時候,會導致臨近的ceil電荷流失,如果針對特定ceil 進行高頻讀寫,那么會出現在刷新時間到達前,出現bitflip問題 。導致程序運行異常

Kernel crash

Kernel Crash的分析是一個老生常談的問題,本文從crash開始 通過啟動流程,Nand Flash,DDR逐一排除最后又回到crash 這里,Kernel 的分析方法與硬件設計和實際問題有關,所以本文不做專項介紹;

小結

本文只是工作經驗的總結并無太多細節展示,希望通過這種從宏觀到微觀剖析的方法幫助大家找到解決問題的思路。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    13

    文章

    4296

    瀏覽量

    85800
  • Nand flash
    +關注

    關注

    6

    文章

    241

    瀏覽量

    39802
  • MCP
    MCP
    +關注

    關注

    0

    文章

    254

    瀏覽量

    13900

原文標題:mcp內核穩定性問題定位思路與方法

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用匯編知識排查疑難問題的方法

    那么,本篇文章,我將再介紹一個使用匯編知識排查疑難問題的方法,希望對大家有所幫助
    發表于 07-27 10:31 ?671次閱讀

    《DDR常見問題簡單排查

    本文檔介紹了DDR詳見的問題排查方法 下載文檔
    發表于 09-12 10:37

    Flink on YARN(下):常見問題排查思路

    Cluster 的常見問題,分享相關問題的排查思路。客戶端常見問題排查思路▼ 應用提交控制臺異常信息:Could not build the program from JAR fi
    發表于 10-10 14:14

    Flink on YARN(下):常見問題排查思路

    常見問題提供了排查思路,供大家參考,希望在應用實踐中能夠對大家有所幫助。▼ Apache Flink 社區推薦 ▼Apache Flink 及大數據領域頂級盛會 Flink Forward Asia
    發表于 10-14 15:04

    聲卡常見的7大問題是哪些?如何去排查

    本文集中講解了電腦聲卡常見的7大問題,以及排查方法
    發表于 05-31 07:14

    分享一種內存泄漏定位排查技巧

    這里寫自定義目錄標題1.對malloc,free進行封裝2.如何確定MALLOC_SIZE_OFFSET大小(編譯器malloc長度地址偏移)3.如何監測內存有無泄漏4.如何快速定位內存泄漏位置5.
    發表于 12-17 08:13

    全志A40i雙網口方案的網卡軟件問題分析以及排查方向

    的一些工具可以幫助您快速定位并且解決網卡問題。2排查手段(1)檢查menuconfig及dts以太網配置是否打開;(2)檢查phy-mode配置是否與PHY和GMAC之間的物理接口匹配,如rgmii
    發表于 07-15 11:44

    全志A40i網卡軟件問題排查

    將給大家介紹一些常用的網卡軟件問題對應的排查手段。 02排查手段 這些排查手段可以幫助您在調試phy時有一個基本的調試思路,提到的一些工具可以幫助您
    發表于 07-28 11:23

    全志A40i應用筆記 | 3種常見的網卡軟件問題以及排查思路

    顯示mac控制器probe失敗,常見原因是GPIO資源沖突導致。 解決方法: GPIO沖突會有報錯信息,根據報錯信息,查看GPIO沖突引腳。 查看以太網模塊是否配置。 問題描述3——以太網初始化報錯
    發表于 11-08 10:02

    GPIO無法觸發中斷常規排查方法有哪些?

    存在差異,我分享的僅僅是常規排查方法,供參考分析,希望對大家有幫助。紫光展銳官方線上支持平臺——坦克邦,可為客戶/開發者提供問題咨詢和需求對接。
    發表于 11-24 16:11

    直流穩壓電源常見故障分析與排查

    直流穩壓電源常見故障分析與排查(新型電源技術作業答案)-電子設計工程 2015年7月 直流穩壓電源常見故障分析與排查
    發表于 09-29 12:16 ?35次下載
    直流穩壓電源<b class='flag-5'>常見</b>故障分析與<b class='flag-5'>排查</b>

    交換機怎么排查常見的故障

    交換機怎么排查常見的故障
    發表于 10-09 14:29 ?6次下載

    小間距LED顯示屏故障排查方法

    保障顯示屏的正常運行至關重要。本文將介紹一些常見的小間距LED顯示屏故障排查方法,以幫助用戶快速定位
    的頭像 發表于 07-07 14:30 ?1396次閱讀
    小間距LED顯示屏故障<b class='flag-5'>排查</b><b class='flag-5'>方法</b>

    常見的電源適配器故障及排查方法有哪些?

    常見的電源適配器故障及排查方法有哪些? 電源適配器故障是使用電子設備時經常遇到的問題之一。合理排查和解決電源適配器故障是確保電子設備正常運行的重要步驟。本文將詳細介紹
    的頭像 發表于 11-24 14:08 ?7548次閱讀

    焊接機器人常見故障及排查

    常見故障及排查方法 1. 機械故障 故障現象: 機器人關節活動受限、異常噪音、過熱等。 排查方法: 檢查潤滑油: 確保所有關節和齒輪都有足夠
    的頭像 發表于 11-25 09:50 ?362次閱讀
    主站蜘蛛池模板: 91久久精一区二区三区大全| 4438全国免费观看| 亚洲青青青网伊人精品| 亚洲日韩乱码人人爽人人澡人| 一本到道免费线观看| 伊人在线视频| chinese黑人第一次| 处88XXX| 国产精品无码人妻在线| 九九久久国产精品免费热6| 老司机福利在 线影院| 女人一级毛片免费观看| 肉动漫无修3D在线观看| 亚洲爱视频| 69久久国产精品热88人妻| zoovideo人与驴mp4| 国产精品亚洲高清一区二区| 久久国产精品久久国产精品| 欧美肥婆性生活| 无码日韩人妻精品久久蜜桃入口 | 亚洲在线中文无码首页| 中文字幕在线视频观看| 超碰免费视频部落格| 国产在线中文字幕| 年轻夫妇韩剧中文版免费观看| 色综合欧美色综合七久久| 一本色道久久综合亚洲精品加 | 国产Av男人的天堂精品良久| 黄得让人湿的片段| 欧亚一卡二卡日本一卡二卡 | 亚洲欧美色综合影院| 99久久精品国产免费| 国产午夜免费视频片夜色| 美女丝袜夹b| 亚洲AV无码A片在线观看蜜桃| 97精品国产自产在线观看永久| 国产精品久久久久久久久久影院| 浪货嗯啊趴下NP粗口黄暴| 翁公咬着小娇乳H边走边欢A| 最新无码国产在线视频| 国产精品免费大片一区二区|