為了提高設計性能(有時甚至只是為了達到設計要求),對所設計的SOPC系統進行綜合優化是非常必要的。論文結合具體工程,以Altera公司的FPGA EP2S60為例,探討了SOPC系統設計的綜合優化方法。
1 綜合優化設計的一般流程和方法
在FPGA處理器沒有選定前,可以進行SOPC系統的開發。根據編譯和優化的效果指導處理器芯片的選型,選擇合適的處理器型號、速度等級和封裝。當硬件系統設計好后,就只能在已選擇好的處理器芯片上進行優化。一般的優化方法有Verilog程序代碼優化、編譯和布線優化設置,在添加Nios II系統后也涉及對Nios II系統的優化。在設計過程中應遵循模塊化設計思想,如果前面的優化都不能達到滿意的效果,則需要使用邏輯鎖定技術和應用DSE算法進行優化。
2 綜合優化設計策略
2.1?Quartus II軟件優化設置
在進行綜合前,對軟件編譯和布線進行優化設置是優化設計的一個重要步驟,不同設置對綜合布線的結果有較大影響。幾個比較重要的設置包括時間要求設置、編譯器設置,最重要的是布線器的設置,如圖1所示。
設計中設置對所有路徑進行優化,并設置布線器盡最大努力滿足設計的時序要求。在進一步的布線器參數設置中,選擇全局時鐘有效,這樣雖然可能增加實際布線后延時,但是可以減少時鐘偏斜,為系統整體時序設計的穩定性提供保障,同時也可以增強網絡的驅動能力。
另外,中心處理器EP2S60支持多種電平模式,而各個bank支持的模式不盡相同。在最初的硬件電路設計中已經考慮到這一點,將外接PCI接口的引腳分配在器件的bank7和bank8上,這樣可以充分利用器件設計好的優化路徑,達到比較好的設計性能。在引腳分配中,需要對引腳的特性進行更詳細的設置,具體應根據實際系統引腳分配的功能要求選擇相應的電平標準,如PCI核接口選擇3.3 V PCI電平標準。
2.2 程序代碼的優化設計
Verilog語言是一種類C語言的硬件描述語言,在設計中首先要對所需實現的硬件電路結構和連接都十分清晰,然后再用適當的語言進行描述。在具體實現上,應綜合考慮以下基本設計原則:
①面積和速度的平衡互換原則。如設計時序余量大,可以通過功能模塊復用來減少消耗的芯片面積;如設計時序要求高,可采用“串并轉換”和“乒乓操作”以面積換速度。
②硬件原則。從硬件角度進行程序開發。
③系統原則。以系統的眼光進行模塊劃分和各模塊任務的分配。
④同步設計原則。同步設計易于提高設計的頻率和設計的穩定性,當前的優化工具也多是針對同步時序的優化。
硬件程序設計的另一個重要方面是狀態機的設計。課題中涉及4個狀態機的設計。遵循好的狀態機設計原則也是硬件程序開發中不可忽視的一方面。
狀態機編碼方式的選擇:由于FPGA中提供較多的觸發器資源,FPGA設計中多采用熱鍵編碼方式,綜合器的綜合約束屬性界面下可以方便地改變狀態編碼方式。
初始化狀態和默認狀態:為避免上電不能正確進入初始狀態,設計中初始狀態編碼為全零;同時為保證邏輯不會陷入死循環,設計語句中應注意完備化設計。
采用兩段式狀態機設計方法:將狀態轉移單獨寫成一個模塊,將狀態的操作和判斷寫到另一個模塊中,這樣可以將同步時序和組合邏輯分別放置于不同的邏輯塊,利于綜合器優化代碼和布線器實現設計。
2.3 片上存儲器分配策略
在Stratix II系列的FPGA中包含3種不同類型的內部存儲塊:M-RAM塊、M512 RAM塊和M4K RAM塊。設計中,應用不同的存儲塊設計不同的存儲器,可以達到較優化的系統性能。
M-RAM完全支持雙端口模式,由512 Kb RAM加上校驗位組成,主要用于大數據包的緩存,如以太網幀、IP包等大到幾KB的數據包,以及視頻圖像幀的緩存和NiosII嵌人式軟核的存儲;M512 RAM塊由512位模塊加上校驗的RAM組成,主要用于接口速率適配的內部FIF0、移位寄存器和時鐘域隔離等;M4K塊由4 096×1位到128×36位的4 Kb模塊加校驗組成,主要用于小型數據塊存儲和多通道I/O協議中,另外M4K RAM也完全支持雙端口模式。
設計中采用的中心處理器FPGA芯片EP2S60包含豐富的存儲器邏輯資源,和上一代Stratix系列相比,運行速度提高了50%,邏輯容量增加了1倍,具有達180 Kb的等效邏輯元件和9 Mb的RAM,大大增加了集成度,為高度集成的應用提供了實現基礎,而成本比上一代還要低。設計采用的EP2S60器件邏輯資源如表1所列。
根據器件內3種存儲器的各自特點,結合片內的邏輯資源分布,在片內設計了5個同步FIFO,其中4個長度32位、存儲深度256字的FIFO作為64位PCI傳輸的緩存,另一個長度32位,存儲深度設計為2 048字。M512存儲塊主要用于內部FIFO的設計,在配置片內FIFO時選擇M512存儲塊類型。1個32位長、存儲深度256字的FIFO占用的邏輯資源為30個LUT單元、15個M512存儲塊、134個REG單元。4個這樣的FIFO占用60個M512存儲塊、120個LUT單元。536個REG單元。而1個32位長、2 048字存儲深度的FIFO占用的邏輯資源為114個M512存儲塊、63個LUT單元、128個REG單元。這樣,系統設計中的FIFO總共占用174個M512存儲塊,相比表1中EP2S60器件329個M512存儲塊,占用率為52.9%,完全可以在片內設計實現。
類似計算機系統,軟CPU Nios II系統也需要配置片上的ROM和片上RAM,如圖2所示。片上ROM設計存儲器類型為M4K,數據寬度32位,深度為32 KB,讀延遲1。片上RAM存儲器類型同樣為M4K,數據寬度32位,深度設計為16 KB,讀延遲1。
片上ROM主要用于上電后程序從外部存儲器加載完成后的程序存儲,是IDE主程序開始執行的地方。在Nios II自動分配的地址中,一般起始地址為0x00000000,目的地址為設計ROM容量的大小。片上RAM主要作為程序運行的緩存和程序異常時的暫存,相當于計算機中的內存。在IDE編程設置中,要對片上ROM和片上RAM的使用進行具體的設置,如圖3所示。
對程序存儲器和只讀數據存儲器,設置為使用片上ROM。對讀寫數據存儲器、堆存儲器和堆棧存儲器,設置使用片上RAM存儲器。這樣,可以作到有效的存儲器配置。
2.4 針對NiOS II系統的優化
SOPC系統在沒有添加Nios II系統時,較容易實現比較高的頻率,在加入Nios II系統后,系統設計頻率有較明顯的下降。因此在帶Nios II的系統中,對Nios II的優化設計是制約整個SOPC系統時序的一個瓶頸。
另一方面,在Nios II系統中,多是應用已經設計好的軟核CPU和外接器件IP核,在設計時已經進行過優化并且已經封裝集成,進一步優化的難度很大,因此優化主要放在自行開發設計的IP核和軟件的參數配置以及設計NiosII系統時應當遵循的一些原則上。在Nios II IDE編程環境中,如圖4所示,選擇最大優化,在編譯器參數設置中選擇小的C編譯庫和減少設備驅動,這樣經優化后可以縮減硬件代碼,減少器件資源占用。
參考文獻[7]中探討了Nios II系統的優化途徑。文中歸納系統優化有如下方法:
①運算應采用定點運算。經過測試,浮點加法和乘法運算消耗的時間為定點運算的5~6倍,如果需要浮點運算,也應該采用自定義指令的方式來實現。
②采用C語言和匯編語言混合編程。對計算量大的多次調用的程序模塊采用匯編語言,對主干流程語言采用C語言,這樣可以照顧到程序的可讀性,效率也較高,同時縮減程序占用資源量。
③使用用戶自定義指令。將一些復雜的算法由軟件轉而交由硬件來實現,可以獲得較高的效率提升。
④使用硬件加速提高軟件性能。通過添加外部協處理器來加速數據功能。
⑤多處理器系統。使用兩個或多個處理器來提高系統的數據處理能力。
通過上面分析,進行系統優化似乎是一個矛盾的過程:有時需要優化以縮減代碼量并減少資源占用,有時又通過增加邏輯和添加處理模塊來提升數據處理能力。實際上,評價一個系統設計的好壞,除了需要實現基本的功能外,還要看使用邏輯資源和性能的綜合比較,以更好地利用處理器,達到最好的性能。
3?實驗結論
在系統設計中,應用文中分析的綜合優化設計方法,系統最高頻率有了較大提升,從最初的88.24 MHz,優化至目前的111.73 MHz。由于在Quartus II編譯器參數沒置中,要求最高時鐘設置為132 MHz,因此優化后最高時鐘報告以紅色顯示,表示沒有達到預先設置的132 MHz時鐘要求。相比于優化前,系統最高頻率提高了26.62%,可見采取的綜合優化設計措施比較有效。對于EP2S60器件,在沒有添加Nios II系統時,可以較容易達到200~300 MHz的最高時鐘頻率,加入Nios II經過優化處理,最高時鐘頻率目前只實現111.73 MHz,應該還有進一步優化空間??梢钥紤]對關鍵路徑進行手工連線,采用DSE算法和邏輯鎖定技術進行進一步的優化,從而提高系統最高頻率.
1 綜合優化設計的一般流程和方法
在FPGA處理器沒有選定前,可以進行SOPC系統的開發。根據編譯和優化的效果指導處理器芯片的選型,選擇合適的處理器型號、速度等級和封裝。當硬件系統設計好后,就只能在已選擇好的處理器芯片上進行優化。一般的優化方法有Verilog程序代碼優化、編譯和布線優化設置,在添加Nios II系統后也涉及對Nios II系統的優化。在設計過程中應遵循模塊化設計思想,如果前面的優化都不能達到滿意的效果,則需要使用邏輯鎖定技術和應用DSE算法進行優化。
2 綜合優化設計策略
2.1?Quartus II軟件優化設置
在進行綜合前,對軟件編譯和布線進行優化設置是優化設計的一個重要步驟,不同設置對綜合布線的結果有較大影響。幾個比較重要的設置包括時間要求設置、編譯器設置,最重要的是布線器的設置,如圖1所示。
設計中設置對所有路徑進行優化,并設置布線器盡最大努力滿足設計的時序要求。在進一步的布線器參數設置中,選擇全局時鐘有效,這樣雖然可能增加實際布線后延時,但是可以減少時鐘偏斜,為系統整體時序設計的穩定性提供保障,同時也可以增強網絡的驅動能力。
另外,中心處理器EP2S60支持多種電平模式,而各個bank支持的模式不盡相同。在最初的硬件電路設計中已經考慮到這一點,將外接PCI接口的引腳分配在器件的bank7和bank8上,這樣可以充分利用器件設計好的優化路徑,達到比較好的設計性能。在引腳分配中,需要對引腳的特性進行更詳細的設置,具體應根據實際系統引腳分配的功能要求選擇相應的電平標準,如PCI核接口選擇3.3 V PCI電平標準。
2.2 程序代碼的優化設計
Verilog語言是一種類C語言的硬件描述語言,在設計中首先要對所需實現的硬件電路結構和連接都十分清晰,然后再用適當的語言進行描述。在具體實現上,應綜合考慮以下基本設計原則:
①面積和速度的平衡互換原則。如設計時序余量大,可以通過功能模塊復用來減少消耗的芯片面積;如設計時序要求高,可采用“串并轉換”和“乒乓操作”以面積換速度。
②硬件原則。從硬件角度進行程序開發。
③系統原則。以系統的眼光進行模塊劃分和各模塊任務的分配。
④同步設計原則。同步設計易于提高設計的頻率和設計的穩定性,當前的優化工具也多是針對同步時序的優化。
硬件程序設計的另一個重要方面是狀態機的設計。課題中涉及4個狀態機的設計。遵循好的狀態機設計原則也是硬件程序開發中不可忽視的一方面。
狀態機編碼方式的選擇:由于FPGA中提供較多的觸發器資源,FPGA設計中多采用熱鍵編碼方式,綜合器的綜合約束屬性界面下可以方便地改變狀態編碼方式。
初始化狀態和默認狀態:為避免上電不能正確進入初始狀態,設計中初始狀態編碼為全零;同時為保證邏輯不會陷入死循環,設計語句中應注意完備化設計。
采用兩段式狀態機設計方法:將狀態轉移單獨寫成一個模塊,將狀態的操作和判斷寫到另一個模塊中,這樣可以將同步時序和組合邏輯分別放置于不同的邏輯塊,利于綜合器優化代碼和布線器實現設計。
2.3 片上存儲器分配策略
在Stratix II系列的FPGA中包含3種不同類型的內部存儲塊:M-RAM塊、M512 RAM塊和M4K RAM塊。設計中,應用不同的存儲塊設計不同的存儲器,可以達到較優化的系統性能。
M-RAM完全支持雙端口模式,由512 Kb RAM加上校驗位組成,主要用于大數據包的緩存,如以太網幀、IP包等大到幾KB的數據包,以及視頻圖像幀的緩存和NiosII嵌人式軟核的存儲;M512 RAM塊由512位模塊加上校驗的RAM組成,主要用于接口速率適配的內部FIF0、移位寄存器和時鐘域隔離等;M4K塊由4 096×1位到128×36位的4 Kb模塊加校驗組成,主要用于小型數據塊存儲和多通道I/O協議中,另外M4K RAM也完全支持雙端口模式。
設計中采用的中心處理器FPGA芯片EP2S60包含豐富的存儲器邏輯資源,和上一代Stratix系列相比,運行速度提高了50%,邏輯容量增加了1倍,具有達180 Kb的等效邏輯元件和9 Mb的RAM,大大增加了集成度,為高度集成的應用提供了實現基礎,而成本比上一代還要低。設計采用的EP2S60器件邏輯資源如表1所列。
根據器件內3種存儲器的各自特點,結合片內的邏輯資源分布,在片內設計了5個同步FIFO,其中4個長度32位、存儲深度256字的FIFO作為64位PCI傳輸的緩存,另一個長度32位,存儲深度設計為2 048字。M512存儲塊主要用于內部FIFO的設計,在配置片內FIFO時選擇M512存儲塊類型。1個32位長、存儲深度256字的FIFO占用的邏輯資源為30個LUT單元、15個M512存儲塊、134個REG單元。4個這樣的FIFO占用60個M512存儲塊、120個LUT單元。536個REG單元。而1個32位長、2 048字存儲深度的FIFO占用的邏輯資源為114個M512存儲塊、63個LUT單元、128個REG單元。這樣,系統設計中的FIFO總共占用174個M512存儲塊,相比表1中EP2S60器件329個M512存儲塊,占用率為52.9%,完全可以在片內設計實現。
類似計算機系統,軟CPU Nios II系統也需要配置片上的ROM和片上RAM,如圖2所示。片上ROM設計存儲器類型為M4K,數據寬度32位,深度為32 KB,讀延遲1。片上RAM存儲器類型同樣為M4K,數據寬度32位,深度設計為16 KB,讀延遲1。
片上ROM主要用于上電后程序從外部存儲器加載完成后的程序存儲,是IDE主程序開始執行的地方。在Nios II自動分配的地址中,一般起始地址為0x00000000,目的地址為設計ROM容量的大小。片上RAM主要作為程序運行的緩存和程序異常時的暫存,相當于計算機中的內存。在IDE編程設置中,要對片上ROM和片上RAM的使用進行具體的設置,如圖3所示。
對程序存儲器和只讀數據存儲器,設置為使用片上ROM。對讀寫數據存儲器、堆存儲器和堆棧存儲器,設置使用片上RAM存儲器。這樣,可以作到有效的存儲器配置。
2.4 針對NiOS II系統的優化
SOPC系統在沒有添加Nios II系統時,較容易實現比較高的頻率,在加入Nios II系統后,系統設計頻率有較明顯的下降。因此在帶Nios II的系統中,對Nios II的優化設計是制約整個SOPC系統時序的一個瓶頸。
另一方面,在Nios II系統中,多是應用已經設計好的軟核CPU和外接器件IP核,在設計時已經進行過優化并且已經封裝集成,進一步優化的難度很大,因此優化主要放在自行開發設計的IP核和軟件的參數配置以及設計NiosII系統時應當遵循的一些原則上。在Nios II IDE編程環境中,如圖4所示,選擇最大優化,在編譯器參數設置中選擇小的C編譯庫和減少設備驅動,這樣經優化后可以縮減硬件代碼,減少器件資源占用。
參考文獻[7]中探討了Nios II系統的優化途徑。文中歸納系統優化有如下方法:
①運算應采用定點運算。經過測試,浮點加法和乘法運算消耗的時間為定點運算的5~6倍,如果需要浮點運算,也應該采用自定義指令的方式來實現。
②采用C語言和匯編語言混合編程。對計算量大的多次調用的程序模塊采用匯編語言,對主干流程語言采用C語言,這樣可以照顧到程序的可讀性,效率也較高,同時縮減程序占用資源量。
③使用用戶自定義指令。將一些復雜的算法由軟件轉而交由硬件來實現,可以獲得較高的效率提升。
④使用硬件加速提高軟件性能。通過添加外部協處理器來加速數據功能。
⑤多處理器系統。使用兩個或多個處理器來提高系統的數據處理能力。
通過上面分析,進行系統優化似乎是一個矛盾的過程:有時需要優化以縮減代碼量并減少資源占用,有時又通過增加邏輯和添加處理模塊來提升數據處理能力。實際上,評價一個系統設計的好壞,除了需要實現基本的功能外,還要看使用邏輯資源和性能的綜合比較,以更好地利用處理器,達到最好的性能。
3?實驗結論
在系統設計中,應用文中分析的綜合優化設計方法,系統最高頻率有了較大提升,從最初的88.24 MHz,優化至目前的111.73 MHz。由于在Quartus II編譯器參數沒置中,要求最高時鐘設置為132 MHz,因此優化后最高時鐘報告以紅色顯示,表示沒有達到預先設置的132 MHz時鐘要求。相比于優化前,系統最高頻率提高了26.62%,可見采取的綜合優化設計措施比較有效。對于EP2S60器件,在沒有添加Nios II系統時,可以較容易達到200~300 MHz的最高時鐘頻率,加入Nios II經過優化處理,最高時鐘頻率目前只實現111.73 MHz,應該還有進一步優化空間??梢钥紤]對關鍵路徑進行手工連線,采用DSE算法和邏輯鎖定技術進行進一步的優化,從而提高系統最高頻率.
評論
查看更多