源碼級和算法級的功耗測試與優化
引言
軟件設計中,代碼優化是一件非常有意義的事情。優化的本質是對代碼進行等價變換,使變換前后的代碼運行結果相同,但變換后的代碼比變換前的代碼具有更多優越性能。傳統的觀點要求變換后的代碼運行速度較快或占用較少運行資源,或二者兼備。隨著嵌人式系統的快速發展,軟件功耗問題顯得越來越重要,應該將“省電”作為軟件優化的一項技術指標,這樣對軟件優化的評價體系才算完整。值得注意的是,大多數情況下性能和功耗并不矛盾,減少程序執行時間同樣會使程序功耗減少。
在功耗優化這個問題上,研究者普遍比較關注硬件功耗優化,應用各種技術想方設法改進硬件的功耗,比如在芯片制造工藝上采用更精細的納米技術,不斷降低芯片驅動電壓,不斷改變片內系統結構等。事實上,整個系統的運行管理是由軟件體現的。在硬件基礎一定的情況下,只有將軟件系統對能量的損耗降至最小,才能使整個系統工作于最佳狀態。面向功耗的軟件優化方法是當前嵌入式系統低功耗研究領域的熱點。掌握軟件運行時的能量消耗特征、準確獲取能量消耗數據信息,是面向低功耗的軟件優化研究的前提。經過多年的努力,許多學者也提出了關于如何減少軟件功耗的方法。研究表明,軟件優化對降低功耗會有數量級的貢獻。針對同一任務,所選擇的算法不同或采用不同的實現方式,不僅性能有差別,能耗也大不一樣。因此在進行系統優化設計時,除了代碼的規模和執行性能之外,功耗也是一個需要認真考慮的問題。
1軟件功耗優化方法
常用的軟件功耗優化方法大致可分為以下4類:
(1)軟件體系結構級
不存在沒有體系結構的軟件。通常考慮軟件體系結構都是注重軟件的可修改性、可重用性和可靠性等問題,軟件體系結構的好壞直接關系到軟件性能的好壞。而且前,關于軟件體系結構對軟件功耗影響這方面的研究較少,用不同軟件體系結構開發出的軟件功耗會有差異,怎樣選擇合適的軟件體系結構使軟件功耗最小化,將成為軟件低功耗優化的重要研究方向。
(2)源程序級
C語言的源程序級功耗優化指的是實現同一功能的不同語句間的選擇。比如,同樣實現循環功能,有多種選擇(for、while、goto等)。這些語句的功耗會有差異,為了實現低功耗的軟件,應采用功耗最低的語句來完成相同的功能。這就需要對所有語句的功耗進行測試與研究。同時,對C語言不同數據類型操作的功耗進行分析。比如,同樣表示數目,可以用8位int型、16位int型和32位int型。再者,對不同變量的存儲類型功耗也要進行分析,如寄存器變量、靜態變量、自動變量等。總之,在源碼級對軟件功耗進行優化是一個重要的研究方向。
(3)算法級
算法是為解決某個特定問題而定義的無二義性的操作序列,算法復雜性分析就是對算法運行時所消耗的計算機資源作量化的分析和預測。以往,程序設計者關心的資源主要是運行時間和存儲空間。由于能量消耗已成為軟件設計中的關鍵約束條件,因此本文將能耗作為一項重要資源,對算法運行時所消耗的能量進行分析和比較。
(4)編譯級
對于某個硬件來說,執行程序所產生的功耗取決于它的機器代碼,而機器代碼是從源代碼編譯而來的,這就說明編譯過程也影響了硬件的功耗。既然編譯器可以很大程度上控制硬件的運行軌跡,除了性能這一傳統的優化目標之外,編譯器也可以通過適當的調度優化,使得硬件執行某一個程序時的功耗變小。國際上對于低功耗編譯的歷史并不長,是從20世紀90年代初才開始研究的,這方面的文章最早出現于文獻[4-5],Tiwari等人在這些文章中提出了對軟件進行功耗分析的一些基本概念,建立了基本的指令級功耗模型,以486DX為例初步探討了低功耗編譯技術。
本文主要從源程序級和算法級這兩個方面對軟件功耗特征進行測試與分析,并根據分析結果對μC/OS-II進行源碼級的功耗優化。
2源碼級和算法級的功耗測試
測試環境是T.K.Tan等人研發的EMSIM,它是一個基于指令級的嵌入式軟件功耗模擬器,其主要的功耗估算思想是累計函數中所有單條指令的功耗作為該函數的總功耗。嵌入式硬件平臺是ARM公司的StrongARM110。EMSIM測試功耗的單位為函數,即它只能測試某個函數的功耗。在本文的測試中,將要測試的語句放入函數中,測得整個函數的功耗,記為E1,然后測試同樣參數及返回值的空語句函數的功耗,記為E2,最后計算得到語句的功耗為:E=E1-E2。
2.1源碼級的功耗測試
本小節對C語言的源碼級功耗進行測試,測試過程分為以下幾步:
①對每種數據類型的不同操作的功耗進行測試。要測試8位整型、16位整型、32位整型以及32位浮點型和64位浮點型的基本操作功耗。基本操作有:加、減、乘、除、取余、賦值、移位、與、或、非。此處測試的結果與處理器的位數有關,StrongAR
從表1可知,對于相同數據類型,加、減、乘、除和取余操作的功耗一樣,與、或、非操作的功耗一樣,而移位功耗最低。對于不同數據類型來說,32位數比16位數的操作功耗低,16位數比8位數的操作功耗低。32位浮點數與32位整形數的操作功耗一樣。在所有數據類型中64位浮點數的操作功耗最高。
測試環境的處理器StrongARM110為32位處理器,對8位數和16位數的處理要考慮字節對齊問題,而對32位就不用考慮該問題。
②對函數、內聯函數和宏定義的功耗進行測試。如表2所列,內聯函數和宏定義的功耗比一般函數的功耗低,CPU周期數及指令數也小。
③對相同功能不同實現語句的功耗進行測試。主要針對循環語句、選擇語句(二元和多元)、乘法、移位、除法、移位進行測試,測試結果如表3所列。
從表3可知,同樣實現循環功能,for循環的功耗比while、goto的要大,goto語句的功耗明顯最低;二元選擇運算中三目運算比if語句的功耗低,但是只能在單條賦值語句中使用三目運算,在復雜的多條語句的情況下,兩者功耗一樣;多元選擇運算中,switch語句比if…elseif…語句功耗低;寄存器變量的操作比自動變量的操作功耗低近50%,因為處理器從寄存器里直接讀取變量省去了反復從內存讀取變量的過程,從而達到降低功耗的目的。
2.2算法級功耗測試
算法級功耗測試是比源碼級功耗測試更高一層次的測試,不同的算法針對同一問題的考慮方面不同,如可靠性、易用性、時間復雜度、空間復雜度、功耗等。以往對軟件算法的研究著重在性能上面,本文把功耗作為主要考慮對象,研究算法對功耗的影響。為了便于討論,本文提出一具體問題,針對該問題提出5種不同的算法,然后分析這些算法對軟件功耗的影響。
問題描述:對于1字節的變量v,求其二進制表示中1的個數。
算法1:用除法和取余實現。對于二進制操作,除以2,原來的數將會減少1個0,如果在除的過程中有余,就表示當前位置為1。
算法2:使用與&(即移位>>)操作。&操作,把8位數字v與00000001進行與操作,如果結果為1,表示當前8位的最后1位為1,否則為0,然后再將v右移1位,循環進行。
算法3:使用與&操作,僅考慮v中1的個數。
算法4:使用分支操作,直接把0~255的情況都羅列出來,使用switch…case…,即可得到答案。
算法5:使用查表法,將0~255中1的個數直接存儲在數組Array中,v作為數組的下標,則Array[v]就是v中1的個數。
測試結果如表4所列。
其中,M是v中1的個數,log2v為v的位數。
由表4可知,算法1~5的執行效率越來越高,算法5的查表法比算法1節省80%的功耗,其CPU周期數也相應減少,但是它們的指令數卻有所增加,所以算法5的查表法是以空間換取時間和功耗的算法。在內存充分大的嵌入式系統中,為盡量降低功耗,算法5是很好的選擇。
3 μC/OS-II的源碼級功耗優化
μC/OS-II是一種可移植、可固化、可裁減及可剝奪型的多任務實時內核(RTOS),適用于各種微處理器和微控制器。所有代碼用ANSI C語言編寫,具有良好的可移植性。對μC/OS-II的源碼級功耗優化分以下幾步實行:
①對計數器數據類型的改進。由表1可知,32位數據類型的加1操作比8位數據類型的加1操作能耗低27nJ,將μC/OS-II中常用數據的數據類型改為INT32U,如任務控制塊OS_TCB中的prio、OSTCBDly、OSTCBX、OSTCBY、OSTCBBitX、OSTCBBitY等。
②對循環控制語句的改進。由表3可知,while、goto循環語句的功耗比for循環語句的功耗低。將μC/OS-II中for循環句換成while循環語句,經查看μC/OS-II的源碼,發現μC/OS-II在設計時已考慮到該問題,多數循環使用while實現。在此只對OSInit()函數改進,同時μC/OS-II中固定的任務(如OS_TaskIdle、OS_TaskStat中的控制)改為goto語句,減少應用程序的功耗。
③對內聯函數和宏的使用。對簡短的常用函數加上inline關鍵字,或用宏來實現,內聯函數和宏的使用使軟件功耗降低。讀RAM比讀Flash功耗更大。處理器進入子程序時,會首先將當前處理器的寄存器推入堆棧(RAM),在離開時又將處理器的寄存器彈出堆棧,這樣至少兩次對RAM操作。而宏在編譯時展開,處理器順序執行指令,避免了調用子程序,同時減少了系統的功耗。μC/OS-II中常用的短函數改為內聯函數,如每個時鐘都要執行的OSTimeTick()和開關中斷等,同時μC/OS-II中采用條件編譯,也會在一定程度上降低功耗。
④對變量存儲類型的優化。對于大部分嵌入式系統來說,為了提高運行速度,通常寄存器做得很大,如ARM系列處理器有31個通用寄存器。有時許多寄存器空著沒使用,可以將程序中常用的常量或變量直接置于寄存器中,而不是置于內存的靜態存儲區或動態存儲區中。這樣做不僅提高了軟件運行速度,而且也節省能量消耗。由表3可知,使用寄存器變量能省近50%的功耗,μC/OS-II中每個時鐘周期都要使用的計數變量OSTime,將其用關鍵字register聲明即可。還有循環控制語句的計數變量,將其聲明為寄存器變量,降耗效果明顯。
⑤算法級的改進。從算法級功耗的算法5可以看出,將一些運算的結果預先算好,放在Flash中,用查表的方法替代實時的計算,減少微控制器的運算工作量,可以有效地降低微控制器的功耗;不可避免的實時計算,達到精度就結束,避免“過度”計算;在精度允許的情況下,使用簡單函數代替復雜函數作近似,也可以減少功耗。μC/OS-II中的任務調度和事件管理模塊都采用查找就緒表的方式來提高性能和降低功耗。為此,針對μC/OS-II的內存管理機制采用查表算法,借用任務管理中的就緒表實現內存塊的分配,這樣不但不會增加額外的空間需求,而且使內存管理的功耗更低。
對μC/OS-II的部分功能函數進行源碼級功耗優化,其優化前后的結果如圖1所示。圖中,縱軸表示能耗(nJ),橫軸表示改進前后的功能函數。
結語
功耗較大的軟件,使用了較多功耗大的操作指令或是使用了不必要的指令。本文的創新之處在于,對軟件功耗優化中的源碼級和算法級的功耗優化進行分析,對用不同語句實現相同功能的情況進行分類討論,測試其功耗特征,最后將功耗測試與分析結果運用到嵌入式操作系統μC/OS-II中,對其進行源碼級的功耗優化,實驗結果證明,源碼級的功耗優化能明顯降低軟件的功耗。
評論
查看更多