當(dāng)今可用的許多源代碼分析工具,包括 Coverity Prevent、GrammaTech CodeSonar、Klocwork K7 和 MathWorks PolySpace Verifier,可檢測軟件缺陷和漏洞。在過去的幾年里,對(duì)可執(zhí)行機(jī)器代碼進(jìn)行類似分析的興趣越來越大。三個(gè)主要因素推動(dòng)了對(duì)直接機(jī)器代碼分析的興趣:控制 COTS 軟件可靠性和安全性的需要、相對(duì)于源代碼分析的技術(shù)優(yōu)勢,以及最近其可行性和實(shí)用性的增加,這些已被研究的突破所證實(shí)社區(qū)。David 探討了機(jī)器代碼分析的優(yōu)勢并總結(jié)了當(dāng)前的技術(shù)水平。
收回對(duì)應(yīng)用程序可靠性和安全性的控制
上市時(shí)間和成本要求增加了開發(fā)人員在嵌入式軟件應(yīng)用程序中使用 COTS 組件的情況。雖然這些組件具有優(yōu)勢,但它們的代價(jià)是一些公認(rèn)的缺點(diǎn)。特別是,消費(fèi)者通常必須接受軟件,“按原樣”,并相信生產(chǎn)者已采取必要措施來確保安全性和可靠性。不幸的是,經(jīng)驗(yàn)表明情況并非總是如此。
消費(fèi)者如何知道 COTS 組件是否具有滿足其需求的可接受的安全性和可靠性?一些 COTS 組件提供了一些關(guān)于所遵循的開發(fā)和測試過程的信息。示例包括一些實(shí)時(shí)操作系統(tǒng) (RTOS),它們提供文檔以幫助航空電子軟件開發(fā)人員完成 DO-178B 認(rèn)證過程。但即使在這些不尋常的情況下,通常也只有 RTOS 的精簡功能版本有據(jù)可查。對(duì)于大多數(shù)第三方組件,沒有關(guān)于開發(fā)和測試過程的信息可用。
對(duì)于開發(fā)安全或高可靠性應(yīng)用程序的組織而言,無法評(píng)估第三方組件的質(zhì)量是一個(gè)重大問題。毫不奇怪,最早支持開發(fā)更好的可執(zhí)行文件分析技術(shù)的人之一是國家安全局,它在 2004 年公開強(qiáng)調(diào)了分析二進(jìn)制文件的工具的重要性。特別值得關(guān)注的是用于國家關(guān)鍵基礎(chǔ)設(shè)施的軟件,例如應(yīng)急準(zhǔn)備通信和發(fā)電廠。
機(jī)器代碼分析提供了一種評(píng)估第三方代碼的方法,即使源不可用。檢測缺陷、漏洞和故意插入的惡意代碼的能力使用戶能夠重新獲得一些控制權(quán)來確定一個(gè)軟件是否符合他們的接受標(biāo)準(zhǔn)。用戶不必盲目信任軟件生產(chǎn)者。
機(jī)器碼分析的技術(shù)優(yōu)勢
COTS 軟件通常不提供源代碼,因此需要進(jìn)行機(jī)器代碼分析。事實(shí)上,即使源代碼可用,機(jī)器代碼分析也比其他分析技術(shù)具有許多優(yōu)勢。這是因?yàn)樵创a沒有被執(zhí)行;相反,它被編譯成機(jī)器代碼程序(可執(zhí)行文件)。分析用解釋性語言編寫的程序是另一回事,盡管在那里,源代碼也不是直接在處理器上執(zhí)行的。
由于多種原因,源代碼語義和編譯后的可執(zhí)行語義之間可能存在差異。這種潛在的不匹配被稱為“你所看到的不是你所執(zhí)行的”(WYSINWYX)效應(yīng)。WYSINWYX 承認(rèn),鑒于過程中實(shí)際執(zhí)行的內(nèi)容,源代碼中的語義可能不完整或不精確。
WYSINWYX 效果可能由多種因素引起,包括編譯器錯(cuò)誤和鏈接第三方庫。圖 1 說明了原始程序的含義如何隨著在最終可執(zhí)行文件創(chuàng)建之前添加模塊而發(fā)生變化。
圖1
在 2002 年 Microsoft的一次安全審查中發(fā)現(xiàn)了一個(gè)引發(fā) WYSINWYX 效應(yīng)的編譯器錯(cuò)誤示例。在這種情況下,登錄程序的源代碼中出現(xiàn)了如下代碼:
memset(密碼,,?ò\0,??, len);
免費(fèi)(密碼);
如其名稱所示,緩沖區(qū)密碼用于保存用戶的密碼。作為安全預(yù)防措施,程序員希望盡量減少這些敏感信息在內(nèi)存中的保存時(shí)間。因此,在釋放緩沖區(qū)(第 2 行)之前,目的是用零覆蓋敏感密碼(第 1 行)。
但是,在這種情況下,Microsoft C++ 編譯器確定密碼歸零語句是“無用”,并將其刪除。從技術(shù)意義上說,編譯器是正確的:memset 寫入的零不應(yīng)該被任何其他語句讀取,并且刪除 memset 不會(huì)影響程序的結(jié)果。然而,優(yōu)化導(dǎo)致了源代碼中不可見的安全漏洞。
每一個(gè)潛在的 WYSINWYX 效果都強(qiáng)調(diào)了機(jī)器代碼分析工具,?? 優(yōu)于源代碼分析工具的優(yōu)勢。上一節(jié)討論了無法訪問程序源代碼的問題。然而,即使是擁有源代碼的開發(fā)人員也很少擁有最終包含在可執(zhí)行文件中的所有代碼的源代碼。通常,他們將其源代碼鏈接到僅以二進(jìn)制形式存在的第三方庫。特別是在嵌入式軟件中,源代碼可能包括內(nèi)聯(lián)匯編。在某些情況下,會(huì)在編譯源代碼后對(duì)可執(zhí)行文件進(jìn)行修改。源工具通常針對(duì)以一種語言編寫的程序,但可執(zhí)行文件可以從多種不同語言的源代碼編譯。
WYSINWYX 效應(yīng)最突出的原因之一是源語言語義通常未指定。例如,C 和 C++ 沒有指定函數(shù)調(diào)用參數(shù)的求值順序。(Scott Meyers的 Effective C++ 中的示例請(qǐng)參見側(cè)邊欄。)從技術(shù)上講,由于源語言歧義導(dǎo)致的問題在源代碼中是可見的。然而,分析一個(gè)模棱兩可的陳述的所有可能行為很快就會(huì)變得棘手。出于這個(gè)原因,源代碼分析工具(通常是程序員)通常通過任意選擇一種合理的解釋來解決歧義。由于無法保證他們的選擇與編譯器相同,因此語言歧義被認(rèn)為是 WYSINWYX 效應(yīng)的主要原因。
編譯器為解決源語言歧義所做的選擇可能會(huì)對(duì)漏洞的存在產(chǎn)生重要影響。安全漏洞經(jīng)常依賴于數(shù)據(jù)對(duì)象布局、堆棧中變量的順序、值是存儲(chǔ)在 RAM 中還是僅存儲(chǔ)在寄存器中等細(xì)節(jié)。在像 C 或 C++ 這樣的語言中,這些細(xì)節(jié)中的大部分都由編譯器自行決定。
源代碼分析工具不能考慮編譯器可能選擇的所有不同選項(xiàng),至少在沒有做出模糊近似的情況下不能考慮。然而,機(jī)器代碼分析具有查看編譯器做出的確切決定的優(yōu)勢。出于這個(gè)原因,機(jī)器代碼分析有可能比源代碼分析更精確。
機(jī)器碼分析的最新進(jìn)展
研究人員在將靜態(tài)分析應(yīng)用于機(jī)器代碼方面取得了長足的進(jìn)步。幾個(gè)小組已經(jīng)證明了機(jī)器代碼分析在識(shí)別惡意代碼、安全漏洞和影響可靠性的缺陷方面的實(shí)用性。
機(jī)器代碼分析的一種用途是創(chuàng)建捕獲程序語義的中間表示 (IR)。用于查找錯(cuò)誤和安全漏洞的源代碼分析工具通常依賴于源代碼中現(xiàn)成的信息(例如類型),而不是機(jī)器代碼。IR 恢復(fù)的目標(biāo)是填補(bǔ)這一空白,并允許開發(fā)人員在機(jī)器代碼上使用源分析技術(shù)。與開發(fā)專門技術(shù)或一次采用一種源分析技術(shù)相比,IR 恢復(fù)可以同時(shí)啟用多種技術(shù)。
CodeSurfer/x86 是從可執(zhí)行文件中恢復(fù) IR 的一種高級(jí)工具,它是 GrammaTech 和威斯康星大學(xué)合作研究的成果。對(duì)于需要了解一段惡意代碼的潛在影響的安全分析師來說,CodeSurfer/x86 是一個(gè)很有價(jià)值的工具。雖然該工具目前支持 x86 機(jī)器代碼分析,但支持其他處理器架構(gòu)的工作正在進(jìn)行中,包括 PowerPC 架構(gòu)和 ARM。它的目的是構(gòu)建一個(gè)類似于編譯器或源分析工具使用的 IR。具體來說,恢復(fù)的 IR 代表以下信息:
拆解清單
控制流圖,解決了間接跳轉(zhuǎn)
調(diào)用圖,解決了間接調(diào)用
關(guān)于程序的信息,??s 變量
指針變量的可能值
每個(gè)控制流圖節(jié)點(diǎn)的已使用、已終止和可能已終止的變量集
數(shù)據(jù)依賴關(guān)系,包括涉及內(nèi)存訪問的指令之間的依賴關(guān)系
類型信息(例如,基類型、指針類型和結(jié)構(gòu))
CodeSurfer/x86 從在 Intel x86 處理器上運(yùn)行的可執(zhí)行文件執(zhí)行 IR 恢復(fù)。IR 可用作構(gòu)建進(jìn)一步分析以查找錯(cuò)誤和漏洞的基礎(chǔ),或用于瀏覽 GUI 界面。圖 2 顯示了臭名昭著的 Nimda 病毒版本的恢復(fù) IR。可視化的 IR 組件包括反匯編列表、所選程序點(diǎn)的可能數(shù)據(jù)值和調(diào)用圖。
圖 2
許多因素會(huì)使 IR 恢復(fù)復(fù)雜化。CodeSurfer/x86 不依賴符號(hào)表或源代碼信息,因?yàn)檫@些信息通常從 COTS 產(chǎn)品中剝離。即使存在此信息,它在潛在的惡意代碼中也不可靠?;謴?fù)有關(guān)潛在指針值的信息需要同時(shí)分析指針和數(shù)值,因?yàn)榈刂分岛蛿?shù)值不容易區(qū)分。必須根據(jù)數(shù)據(jù)訪問模式推斷類型信息,因?yàn)闆]有可用的結(jié)構(gòu)化數(shù)據(jù)類型。
盡管執(zhí)行 IR 恢復(fù)有困難,但該技術(shù)已經(jīng)發(fā)展到足以開始產(chǎn)生結(jié)果。Balakrishnan 和 Reps 最近在 Windows 設(shè)備驅(qū)動(dòng)程序分析中展示了 IR 恢復(fù)的使用。他們發(fā)現(xiàn) CodeSurfer 的 IR 恢復(fù)在設(shè)備驅(qū)動(dòng)程序上產(chǎn)生了精確的結(jié)果,并證明通過在恢復(fù)的 IR 上進(jìn)行構(gòu)建,他們可以采用一種分析設(shè)備驅(qū)動(dòng)程序源代碼的技術(shù)來分析機(jī)器代碼并復(fù)制一些相同的結(jié)果。分析機(jī)器代碼也有助于解決前面討論的所見即所得問題。
滿足安全關(guān)鍵需求
機(jī)器代碼分析已經(jīng)在識(shí)別軟件中的錯(cuò)誤和安全漏洞以及幫助用戶評(píng)估第三方代碼方面發(fā)揮著重要作用。預(yù)計(jì)安全關(guān)鍵軟件生產(chǎn)商將開始對(duì)他們自己的軟件使用機(jī)器代碼分析來解釋所見即所得效應(yīng)。不斷增長的需求和不斷增加的工具支持和功能將繼續(xù)推動(dòng)機(jī)器代碼分析的增長。
審核編輯:郭婷
-
C++
+關(guān)注
關(guān)注
22文章
2108瀏覽量
73625 -
源代碼
+關(guān)注
關(guān)注
96文章
2945瀏覽量
66733 -
編譯器
+關(guān)注
關(guān)注
1文章
1624瀏覽量
49111
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論