銷(xiāo)售GG在工作群里:“弟兄們,快醒醒,咱現(xiàn)場(chǎng)的跑馬燈不跑了。”
還在加班的程序猿:“已經(jīng)查過(guò)了,程序沒(méi)Bug。”
帶娃玩的硬件攻城獅:“硬件沒(méi)問(wèn)題,這都是照官方Demo弄的。”
刷劇的測(cè)試MM小聲嘀咕:“我可都是按用例測(cè)的,沒(méi)出問(wèn)題啊。”
還是攻城獅有主意:“要不叫FAE過(guò)來(lái)看看?”
“好好好”,意見(jiàn)終于統(tǒng)一了,F(xiàn)AE也該起床換衣服了。..。..
作為21世紀(jì)的嵌入式攻城獅,誰(shuí)還沒(méi)見(jiàn)過(guò)MCU死機(jī)啊,作為一個(gè)二手的程序猿,也見(jiàn)過(guò)大大小小的事故現(xiàn)場(chǎng),于是乎,經(jīng)過(guò)半個(gè)多月的思想斗爭(zhēng),我最后做出了一個(gè)違背祖宗的決定,把祖?zhèn)靼倌甑拿胤o(wú)償?shù)墨I(xiàn)給國(guó)家。
1. 現(xiàn)場(chǎng)講故事弟兄們終于盼來(lái)了FAE,拉上手,快坐下,咱們說(shuō)說(shuō)知心話(huà):“是你芯片問(wèn)題吧,快點(diǎn)認(rèn)了哈,這才好給老板交代啊。”
FAE:“GG,這恐怕不好吧,咱先看是不是馬累了,跑不動(dòng)了,要休息啊。”
程序猿:“不會(huì)的,我一直給它喂狗的。”
FAE:“沒(méi)關(guān)系,我們還是先坐下,從頭捋一把,看看下面這張圖,聽(tīng)我講講故事吧。”
2. 故事開(kāi)始MCU死機(jī)一定是有原因的,往往有的流于表面,有的隱藏很深,特別是那種偶發(fā)的故障,直讓人掉頭發(fā),遇到這種情況,最擔(dān)心的恐怕就是程序猿了,所以看一個(gè)程序猿的水平從脫帽開(kāi)始,而死機(jī)的問(wèn)題,需要從查找現(xiàn)象開(kāi)始。下面的故事分享會(huì)按照?qǐng)D中的現(xiàn)象標(biāo)號(hào)來(lái)講述,我們先進(jìn)入第一個(gè)故事:
1.1.1電源的故事MCU上電就不能工作,肯定會(huì)先看電源,結(jié)果有兩種:
電源有問(wèn)題:這種情況下,硬件攻城獅應(yīng)該就沖上來(lái)了,檢查硬件設(shè)計(jì)或生成問(wèn)題,比如峰值電源超過(guò)設(shè)計(jì)Spec,原理圖/PCB是否設(shè)計(jì)有問(wèn)題,板子焊接是否正確。
電源沒(méi)問(wèn)題:等等,電源沒(méi)問(wèn)題,怎么還能歸出這個(gè)問(wèn)題呢?當(dāng)然有可能,你見(jiàn)過(guò)畫(huà)PCB封裝時(shí)把Top和Bottom層畫(huà)反了的么?
1.1.2 晶體的故事上了點(diǎn)年紀(jì)的攻城獅應(yīng)該還記得,現(xiàn)在很火的一款MCU早年間(大概07,08年)剛推出的時(shí)候,大面積出現(xiàn)晶體不起振的問(wèn)題,民間傳說(shuō)已經(jīng)到了拍下桌子就停振的程度。實(shí)際測(cè)試發(fā)現(xiàn)只有少數(shù)的日系晶體能完美規(guī)避該問(wèn)題,以至后來(lái)官方給出Application Note(AN2867)去講解晶體的選型,以及該MCU推薦使用的晶體型號(hào)。
多年以后的今天,有些MCU已經(jīng)支持檢測(cè)到外部晶體失效后自動(dòng)切換到內(nèi)部時(shí)鐘,并觸發(fā)中斷的功能。不少用戶(hù)也在產(chǎn)品測(cè)試的過(guò)程中,加入短接晶體的測(cè)試來(lái)驗(yàn)證系統(tǒng)運(yùn)行的可靠性。
1.1.3 硬件配置的故事MCU為了實(shí)現(xiàn)靈活的功能,會(huì)提供一些Boot配置管腳,MCU在上電Boot過(guò)程中會(huì)采樣這些管腳狀態(tài)來(lái)進(jìn)入不同的模式,正常啟動(dòng)后就可以用作普通IO,常見(jiàn)的有從內(nèi)部Flash啟動(dòng),SD卡啟動(dòng),QSPI啟動(dòng),或者進(jìn)入ISP模式等。所以當(dāng)Boot管腳配置出現(xiàn)錯(cuò)誤時(shí),MCU斷然時(shí)無(wú)法正常啟動(dòng)的。
前不久就有過(guò)這樣一次不同尋常的加班之旅:使用德系MCU的新板子做回來(lái)了,該系列MCU不是第一次用,這次只是做了些外設(shè)的改動(dòng),不牽扯最小系統(tǒng)的修改,但是,仿真器始終連不上板子,奇怪的是10塊板子中,只有2塊有該問(wèn)題。硬件GG比較給力,一晚上就發(fā)現(xiàn)了問(wèn)題:出問(wèn)題的板子MCU配置管腳電平與默認(rèn)配置不符,該芯片的配置管腳可以定義Debug口Pin的位置,由于錯(cuò)誤的配置導(dǎo)致連接仿真器的Pin已經(jīng)不具備Debug功能,而錯(cuò)誤的電平是由于硬件設(shè)計(jì)時(shí),MCU管腳可能不夠用,故將配置管腳也連到FPGA上備用,恰巧出問(wèn)題的板子FPGA燒的測(cè)試固件沒(méi)有將未用到的管腳設(shè)置高阻。
有些時(shí)候,ROM確實(shí)是一只攔路虎,當(dāng)你發(fā)現(xiàn)配置管腳都正確的時(shí)候,芯片居然還不能工作。故事是這樣的,用戶(hù)首次使用MCU,根據(jù)自己的需求按照參考設(shè)計(jì)裁剪了一部分電路,打板回來(lái)后發(fā)現(xiàn),無(wú)法連接仿真器,硬件GG對(duì)比參考板測(cè)量了所有信號(hào)都滿(mǎn)足要求,從芯片內(nèi)部的DCDC輸出也正常,說(shuō)明芯片已經(jīng)正常跑起來(lái)了,最后還是老馬識(shí)途,反復(fù)Review原理圖后,大神發(fā)現(xiàn)自己的板子裁掉了EVK的USB電路,由于是新做的板子,flash里沒(méi)有可以跑起來(lái)的正常代碼,ROM會(huì)進(jìn)入串口下載模式,而進(jìn)入該模式前,ROM已經(jīng)關(guān)閉了JTAG接口,因?yàn)橥獠繘](méi)有給USB供電,所以ROM對(duì)USB的初始化會(huì)失敗而卡死在這里,而解決方案也很簡(jiǎn)單,只要給USB VDD供電即可。
這里還有個(gè)51單片機(jī)的故事,當(dāng)年這個(gè)產(chǎn)品支持熱插拔,背板通過(guò)RS485進(jìn)行數(shù)據(jù)通訊,實(shí)際現(xiàn)場(chǎng)發(fā)現(xiàn),新掛設(shè)備后,會(huì)有非常小的概率上報(bào)錯(cuò)誤幀。經(jīng)過(guò)仔細(xì)檢查發(fā)現(xiàn),該單片機(jī)默認(rèn)上電會(huì)有短暫的ISP模式,該模式下如果總線(xiàn)上有數(shù)據(jù)能對(duì)上ISP協(xié)議,單片機(jī)就會(huì)發(fā)送數(shù)據(jù),所以插拔過(guò)程中可能會(huì)出現(xiàn)錯(cuò)誤的數(shù)據(jù)發(fā)送到RS485總線(xiàn)上形成沖突。解決方案是再生產(chǎn)燒寫(xiě)的時(shí)候配置2個(gè)bit位,讓其上電后不進(jìn)入ISP模式即可。
1.1.4 MCU上電的故事有不少的MCU會(huì)在Datasheet中規(guī)定上電的時(shí)序的要求,如果設(shè)計(jì)不能滿(mǎn)足該要求,有可能會(huì)出現(xiàn)上電無(wú)法工作的現(xiàn)象。有些MCU在這種情況下,可以通過(guò)外部復(fù)位的方式重新運(yùn)行,這樣可以通過(guò)添加外部看門(mén)狗來(lái)規(guī)避該問(wèn)題,有些MCU外部Pin的復(fù)位也無(wú)法讓它重新正常工作,只能重新上下電,那就必須通過(guò)電源設(shè)計(jì)來(lái)保證。
敲黑板啦,這張圖并不是單單講上電哦,還有掉電的過(guò)程,當(dāng)板子突然掉電,從3.3V掉到1.xV后又重新恢復(fù)到3.3V,那也是有可能無(wú)法正常工作的,掉電必須到200mV以下再上電才會(huì)比較安全。
從圖上也能看出,一般都是要求斜率盡可能的陡一些,上電快一些,當(dāng)然也有一些芯片太快了也不行,具體還要看手冊(cè)。有了這個(gè)參數(shù)可并不一定能滿(mǎn)足哦,硬件設(shè)計(jì)時(shí),攻城獅從成本考慮往往會(huì)選擇不帶使能的LDO,這種芯片基本前級(jí)有電壓后級(jí)就輸出,所以前級(jí)上電慢,輸出就會(huì)比較緩。MCU一般標(biāo)稱(chēng)最低工作電壓1.8V,但實(shí)際在1.1V左右就開(kāi)始POR了,代碼可能低于1.8V就開(kāi)始跑起來(lái)了,如果此時(shí)代碼加大負(fù)載,比如開(kāi)啟PLL,而此時(shí)LDO的輸出能力也有限,VDD就會(huì)掉一個(gè)個(gè)坑,后面就真的是一個(gè)坑了。..。..
所以,使用帶使能端的LDO可以讓輸入電壓達(dá)到比較高的值后再打開(kāi)輸出,以保證后級(jí)輸出的線(xiàn)性及斜率夠快。
如果真掉到坑里會(huì)出現(xiàn)什么結(jié)果呢,送大家?guī)讉€(gè)知識(shí)點(diǎn):
MCU停機(jī)無(wú)法啟動(dòng),這是大家都不愿意看到的
MCU偏偏能啟動(dòng),還能工作,但是內(nèi)部模塊初始化不完全導(dǎo)致功能異常,最常見(jiàn)的是Memory
MCU能正常工作,這種產(chǎn)品往往都是有住持開(kāi)過(guò)光的,售價(jià)應(yīng)該不菲
硬件改不了,那有沒(méi)有降低問(wèn)題概率的軟件workaround呢?能想到的就是軟件上來(lái)就把看門(mén)狗,BOD/LVD都打開(kāi)(有些芯片默認(rèn)是關(guān)的),如果能設(shè)置閾值就調(diào)到合理值。
還有些電源域比較復(fù)雜的MCU,需要通過(guò)PSWITCH管腳來(lái)控制內(nèi)部DCDC的輸出,當(dāng)主VDD出現(xiàn)瞬間掉電(假設(shè)200ms后恢復(fù)),外部的復(fù)位電路會(huì)對(duì)POR進(jìn)行復(fù)位,但是由于時(shí)間太短不足以上PSWITCH產(chǎn)生復(fù)位信號(hào)去復(fù)位內(nèi)部的DCDC模塊,最后會(huì)看到出現(xiàn)VDD回溝后,MCU的DCDC掛了,外部高速晶振也無(wú)法起振。簡(jiǎn)單粗暴的解決方案就是把POR的復(fù)位信號(hào)和PSWITCH接到一起。
下面還有個(gè)和上電有關(guān)的故事,但和時(shí)序無(wú)關(guān)。
有個(gè)應(yīng)用,需要每次上電的時(shí)候從外部的SPI Flash中拷貝固件到MCU內(nèi)部的Flash中運(yùn)行,產(chǎn)品本身生成很多年了,突然有個(gè)現(xiàn)場(chǎng)發(fā)現(xiàn)好幾個(gè)模塊不能正常工作。取回板卡發(fā)現(xiàn),MCU內(nèi)部的一段Flash無(wú)法訪問(wèn)了。查手冊(cè)發(fā)現(xiàn),該芯片對(duì)內(nèi)部Flash操作時(shí),如果對(duì)相同地址進(jìn)行多次編程但不擦寫(xiě)就會(huì)出現(xiàn)該sector無(wú)法訪問(wèn)的問(wèn)題。出問(wèn)題的模塊是通過(guò)POE進(jìn)行供電的,出問(wèn)題的現(xiàn)場(chǎng)由于是臨時(shí)供電,所以經(jīng)常斷電,每次上電都會(huì)進(jìn)行編程操作,由于業(yè)務(wù)邏輯復(fù)雜存在這樣的風(fēng)險(xiǎn)。安全一點(diǎn)的做法應(yīng)該是加入檢驗(yàn)機(jī)制,如果內(nèi)部的Flash固件已經(jīng)是最新的,則不需要反復(fù)燒寫(xiě)。畢竟內(nèi)部的Flash也有擦寫(xiě)壽命的。
1.1.5~8 IO口的故事MCU需要通過(guò)IO口來(lái)輸入輸出,所以它需要與外部連接。那它就有一些規(guī)范需要遵守,比如極限的電壓、電流,靜電等級(jí)
設(shè)計(jì)上要盡量避免IO口先上電的情況,圖中芯片所講的5V tolerant是指VDD 》 1.8V的情況,如果實(shí)際情況 《 1.8V呢?廠家肯定是不保的啊。
硬件設(shè)計(jì)IO的時(shí)候,該做隔離就隔離,別為了省點(diǎn)小錢(qián)兒后面再大整改,有些用戶(hù)發(fā)現(xiàn)產(chǎn)線(xiàn)上有個(gè)別芯片工作正常,但是功耗特別大,快到1A了,拆下來(lái)做IV測(cè)試發(fā)現(xiàn)個(gè)別管腳已經(jīng)燒掉了,仔細(xì)一琢磨,這片子還是不錯(cuò)的,畢竟沒(méi)給燒壞嘍。
講到IO就不得不提下熱插拔,絕大多數(shù)的芯片都是不支持的,帶電反復(fù)熱插拔都會(huì)對(duì)芯片造成一定的損傷,如果確實(shí)無(wú)法避免,可以考慮長(zhǎng)短針的方式讓電源和GND先接觸,就像USB那樣。
1.2.1 初始化的故事作為曾經(jīng)的程序猿小白,能Ctrl + C來(lái)的代碼絕不會(huì)多看它一眼,直接就上板跑了。搞了很多的笑話(huà),不同的硬件設(shè)計(jì),用了同一份代碼,有的跑飛了,有的直接就不能連仿真器了,更絕的還會(huì)燒MOS。總之,板子的初始化最好拉硬件攻城獅一起,細(xì)細(xì)的對(duì)一遍,或者做一個(gè)表格讓硬件GG填好。
針對(duì)時(shí)鐘初始化,不要使用while()這樣的等待,如果長(zhǎng)時(shí)間失敗,有可能外部晶體電路有問(wèn)題,可以切換到內(nèi)部的FRO繼續(xù)工作,如果需要也可以通過(guò)對(duì)外接口將晶體初始化失敗上報(bào)。
1.2.2 硬件問(wèn)題的軟件事故幾年前遇到一個(gè)量產(chǎn)的項(xiàng)目,發(fā)現(xiàn)有1ps的板子無(wú)法正常工作,回退軟件版本不能解決問(wèn)題,由于是量產(chǎn)項(xiàng)目,沒(méi)有預(yù)留仿真器接口,而且對(duì)外只有1個(gè)UART通訊接口,還無(wú)法正常通訊,單從板子上也看不出什么問(wèn)題,只有1個(gè)LED燈上電后會(huì)亮起,通過(guò)查看原理圖發(fā)現(xiàn),默認(rèn)LED是不會(huì)亮起了,應(yīng)該是軟件點(diǎn)的,或者M(jìn)CU壞掉了。檢查代碼發(fā)現(xiàn),軟件會(huì)初始化包括串口和LED在內(nèi)的外設(shè),然后去外部EEPROM中讀取配置信息,如果配置信息有特殊字符,則進(jìn)入測(cè)試模式,而測(cè)試模式代碼并未實(shí)現(xiàn)任何功能。最終發(fā)現(xiàn),問(wèn)題是測(cè)試人員通過(guò)上位機(jī)修改了EEPROM中的內(nèi)容,讓MCU進(jìn)入了沒(méi)有任何功能的測(cè)試模式。這個(gè)問(wèn)題其實(shí)也可以通過(guò)ABA替換測(cè)試,發(fā)現(xiàn)問(wèn)題跟著板子走,從而定位到root cause
1.2.3 BOD/LVD配置之前已經(jīng)見(jiàn)過(guò)這哥倆的重要性了,如果有閾值的配置,也需要結(jié)合自身板子的設(shè)計(jì)來(lái),之前有遇到過(guò)用戶(hù)把LVD設(shè)置到2.5V產(chǎn)生解復(fù)位,但板子的VDD供電才1.8V。
2.1.1 看門(mén)狗的故事相信有一些攻城獅并不知道,看門(mén)狗正常喂也會(huì)給MCU咬死。
舉例1. 德系品牌MCU內(nèi)部的看門(mén)狗默認(rèn)開(kāi)啟恒復(fù)位功能,芯片第二次產(chǎn)生看門(mén)狗復(fù)位后立即鎖定芯片并將IO口保持,這個(gè)對(duì)PLC的應(yīng)用還是蠻重要的,它可以避免因?yàn)檐浖霈F(xiàn)問(wèn)題后反復(fù)持續(xù)的復(fù)位而導(dǎo)致被控設(shè)備的誤操作
舉例2. 美系品牌MCU內(nèi)部的看門(mén)狗,即使不開(kāi)window模式,復(fù)位間隔依舊不能太快,必須大于20個(gè)bus clock,否則也會(huì)咬死。
看門(mén)狗使用時(shí)切記使用芯片內(nèi)部專(zhuān)用的時(shí)鐘,如果使用外部時(shí)鐘或者總線(xiàn)時(shí)鐘,一旦時(shí)鐘掛了,看門(mén)狗一樣無(wú)法把MCU拉回來(lái)。
2.1.2 MCU復(fù)位死機(jī)MCU能復(fù)位就說(shuō)明它不想死,但往往最終還是架不住掛掉的命運(yùn)。所以,復(fù)位源往往就是死機(jī)的一個(gè)前兆,通過(guò)它我們就能分析到大致的死因,就好比老西醫(yī)看片子,老中醫(yī)看舌苔。這里我們?cè)俳榻B一個(gè)類(lèi)似老中醫(yī)的硬件問(wèn)題:EMC問(wèn)題
經(jīng)測(cè)試,由它導(dǎo)致的MCU復(fù)位可以獲取到不同的復(fù)位源,包括電源復(fù)位,Reset Pin復(fù)位,看門(mén)狗復(fù)位。導(dǎo)致的死機(jī)也包括HardFault_Handler,BusFault_Handler, UsageFault_Handler等等。
考慮到產(chǎn)品的穩(wěn)定可靠,有些MCU支持禁止reset pin或者可以將其復(fù)用為輸出以降低受到干擾后復(fù)位的現(xiàn)象。但是有些MCU不支持該功能,這種情況下就比較考驗(yàn)硬件攻城獅的經(jīng)驗(yàn)了。最后再?lài)Z10塊錢(qián)兒的,工藝越先進(jìn),EMC越有挑戰(zhàn)。
2.1.3 Flash編程大多數(shù)MCU都是內(nèi)置Flash并支持IAP的,使用過(guò)程中,還是要注意些好。當(dāng)年美系大廠收購(gòu)的Cortex-M3的MCU據(jù)說(shuō)僅支持上百次的擦寫(xiě)。還有些MCU的等待延時(shí)需要設(shè)置大一些,否則也會(huì)出現(xiàn)讀寫(xiě)不一致的情況。相關(guān)的參數(shù)Datasheet一般都會(huì)列出:
當(dāng)然,這里面還有一個(gè)比較重要的問(wèn)題就是每個(gè)sector的大小,因?yàn)槲覀冎繤lash都需要先擦再寫(xiě),所以一些解耦的變量希望各自獨(dú)占一個(gè)sector,sector越小其利用率越高。
2.2 要命的低功耗做低功耗的產(chǎn)品,對(duì)設(shè)計(jì)的要求會(huì)更高,因?yàn)樗枰?xì)細(xì)的扣每一個(gè)模塊甚至每一個(gè)pin的功耗。而死機(jī)與無(wú)法喚醒本身又非常的相似,處理起來(lái)還是比較棘手的。這里僅提供些思路
如果是軟件喚醒后對(duì)標(biāo)志判斷出錯(cuò)導(dǎo)致的問(wèn)題,功耗往往會(huì)比低功耗模式要大。
有些低功耗模式BOD和看門(mén)狗是關(guān)著的,所以電源的波動(dòng)確實(shí)會(huì)可能死機(jī)。
電池供電的產(chǎn)品最好硬件上能獲取電量并通知MCU做相應(yīng)的處理。
2.3 程序猿的夢(mèng)魘還有些時(shí)候,MCU在受到一些外部干擾的時(shí)候,會(huì)出現(xiàn)一些錯(cuò)誤,有些錯(cuò)誤是可以軟件恢復(fù)的,只要clear下寄存器就可以了,有些是不可恢復(fù)的,這個(gè)一般要靠看門(mén)狗。早幾年遇到一個(gè)項(xiàng)目,現(xiàn)場(chǎng)發(fā)現(xiàn)一個(gè)板子無(wú)法工作,現(xiàn)象是Modbus通訊失敗,但主循環(huán)的LED燈還在閃爍,說(shuō)明MCU本身沒(méi)有死掉,掛上仿真器查看,原來(lái)是UART口上出現(xiàn)了幀錯(cuò)誤,而軟件沒(méi)有做相關(guān)的處理導(dǎo)致接收失敗。只要在軟件中添加相關(guān)的中斷服務(wù)函數(shù)即可修復(fù)該Bug。
還有些時(shí)候,程序猿睡的太晚,迷迷糊糊做出一些Bug導(dǎo)致業(yè)務(wù)出錯(cuò),這也時(shí)常有的事情,比如使用RTOS時(shí)沒(méi)考慮優(yōu)先級(jí)反轉(zhuǎn),幾個(gè)任務(wù)相互卡死。..。..
3. 故事結(jié)束通過(guò)這些故事,我們明白了一個(gè)道理,想讓燈兒不停,馬兒就要吃飽。
責(zé)任編輯:haq
-
mcu
+關(guān)注
關(guān)注
146文章
17178瀏覽量
351673 -
硬件
+關(guān)注
關(guān)注
11文章
3348瀏覽量
66298 -
電池
+關(guān)注
關(guān)注
84文章
10621瀏覽量
130218
原文標(biāo)題:兄弟們,出事了,咱現(xiàn)場(chǎng)的跑馬燈不跑了
文章出處:【微信號(hào):mcu168,微信公眾號(hào):硬件攻城獅】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論