在對(duì)asic設(shè)計(jì)進(jìn)行fpga原型驗(yàn)證時(shí),由于物理結(jié)構(gòu)不同,asic的代碼必須進(jìn)行一定的轉(zhuǎn)換后才能作為fpga的輸入?,F(xiàn)代集成電路設(shè)計(jì)中,芯片的規(guī)模和復(fù)雜度正呈指數(shù)增加。尤其在asic設(shè)計(jì)流程中,驗(yàn)證和調(diào)試所花的時(shí)間約占總工期的70%。為了縮短驗(yàn)證周期,在傳統(tǒng)的仿真驗(yàn)證的基礎(chǔ)上,涌現(xiàn)了許多新的驗(yàn)證手段,如斷言驗(yàn)證、覆蓋率驅(qū)動(dòng)的驗(yàn)證,以及廣泛應(yīng)用的基于現(xiàn)場(chǎng)可編程器件(fpga)的原型驗(yàn)證技術(shù)。
采用fpga原型技術(shù)驗(yàn)證asic設(shè)計(jì),首先需要把a(bǔ)sic設(shè)計(jì)轉(zhuǎn)化為fpga設(shè)計(jì)。但asic是基于標(biāo)準(zhǔn)單元庫(kù),fpga則是基于查找表,asic和fpga物理結(jié)構(gòu)上的不同,決定了asic代碼需要一定的修改才能移植到fpga上。但應(yīng)該注意到這只是由于物理結(jié)構(gòu)不同而對(duì)代碼進(jìn)行的轉(zhuǎn)換,并不改變其功能,因此對(duì)代碼的這種修改只能限制在一定范圍內(nèi)。
基本原理
基于fpga原型驗(yàn)證的流程
由于fpga的可編程特性,基于fpga的原型技術(shù)已經(jīng)被廣泛采用。和仿真軟件相比,fpga的硬件特性可以讓設(shè)計(jì)運(yùn)行在較高的頻率上,加速仿真。另一方面,可以在asic芯片設(shè)計(jì)前期并行設(shè)計(jì)外圍電路及應(yīng)用軟件,縮短了芯片驗(yàn)證周期。
fpga原型驗(yàn)證和其他驗(yàn)證方法是不同的,任何一種其他驗(yàn)證方法都是asic驗(yàn)證中的一個(gè)環(huán)節(jié),而fpga驗(yàn)證卻是一個(gè)過(guò)程。由于fpga與asic在結(jié)構(gòu)、性能上各不相同,asic是基于標(biāo)準(zhǔn)單元庫(kù),fpga用的是廠(chǎng)商提供的宏單元模塊,因此首先要進(jìn)行寄存器傳輸級(jí)(rtl)代碼的修改。然后進(jìn)行fpga器件映射,映射工具根據(jù)設(shè)置的約束條件對(duì)rtl代碼進(jìn)行邏輯優(yōu)化,并針對(duì)選定的fpga器件的基本單元映射生成網(wǎng)表。接著進(jìn)行布局布線(xiàn),生成配置文件和時(shí)序報(bào)告等信息。當(dāng)時(shí)序能滿(mǎn)足約束條件時(shí),就可以利用配置文件進(jìn)行下載。如果時(shí)序不能滿(mǎn)足約束,可通過(guò)軟件報(bào)告時(shí)序文件來(lái)確認(rèn)關(guān)鍵路徑,進(jìn)行時(shí)序優(yōu)化。可以通過(guò)修改約束條件,或者修改rtl代碼來(lái)滿(mǎn)足要求。
需要轉(zhuǎn)換的代碼
存儲(chǔ)單元
存儲(chǔ)單元是必須進(jìn)行代碼轉(zhuǎn)換的,asic中的存儲(chǔ)單元通常用代工廠(chǎng)所提供的memory compiler來(lái)定制,它可以生成.gsp、.v等文件。.v文件只用來(lái)做功能仿真,通常不能綜合。而最后流片時(shí),只需將標(biāo)準(zhǔn)提供給代工廠(chǎng)。如果直接將asic代碼中的存儲(chǔ)單元作為fpga的輸入,通常綜合器是綜合不出來(lái)的,即使能綜合出來(lái),也要花費(fèi)很長(zhǎng)時(shí)間,并且資源消耗多、性能不好。而fpga廠(chǎng)商其實(shí)已經(jīng)提供了經(jīng)過(guò)驗(yàn)證并優(yōu)化的存儲(chǔ)單元。因此存儲(chǔ)單元要進(jìn)行代碼轉(zhuǎn)換。
時(shí)鐘單元
數(shù)字電路中,時(shí)鐘是整個(gè)電路最重要、最特殊的信號(hào)。在asic中,用布局布線(xiàn)工具來(lái)放置時(shí)鐘樹(shù),利用代工廠(chǎng)提供的pll進(jìn)行時(shí)鐘設(shè)計(jì)。fpga中通常已經(jīng)配置一定數(shù)量的pll宏單元,并有針對(duì)時(shí)鐘優(yōu)化的全局時(shí)鐘網(wǎng)絡(luò),一般是經(jīng)過(guò)fpga的特定全局時(shí)鐘管腳進(jìn)入fpga內(nèi)部,后經(jīng)過(guò)全局時(shí)鐘buf適配到全局時(shí)鐘網(wǎng)絡(luò)的,這樣的時(shí)鐘網(wǎng)絡(luò)可以保證相同的時(shí)鐘沿到達(dá)芯片內(nèi)部每一個(gè)觸發(fā)器的延遲時(shí)間差異是可以忽略不計(jì)的。因此時(shí)鐘單元也是需要進(jìn)行轉(zhuǎn)換的。
增加流水
由于實(shí)現(xiàn)結(jié)構(gòu)上的不同,fpga器件內(nèi)部的單元延時(shí)遠(yuǎn)大于asic的基本門(mén)單元延時(shí)。導(dǎo)致在同樣設(shè)計(jì)的情況下,asic可以滿(mǎn)足其時(shí)序,而fpga有可能無(wú)法滿(mǎn)足。為了驗(yàn)證的需要,修改asic代碼實(shí)現(xiàn)fpga原型時(shí),對(duì)asic實(shí)現(xiàn)的流水結(jié)構(gòu)在fpga實(shí)現(xiàn)時(shí)需要適當(dāng)增加流水。比如在一個(gè)很長(zhǎng)的組合邏輯路徑中加入寄存器。如圖1所示。
同步設(shè)計(jì)
在fpga設(shè)計(jì)中,同步設(shè)計(jì)是應(yīng)該遵循的重要原則。異步設(shè)計(jì)容易導(dǎo)致電路處于亞穩(wěn)態(tài),產(chǎn)生毛刺。當(dāng)從asic設(shè)計(jì)轉(zhuǎn)向fpga設(shè)計(jì)時(shí),應(yīng)該進(jìn)行仔細(xì)的同步。具體體現(xiàn)在主時(shí)鐘選取、功能模塊的統(tǒng)一復(fù)位、同步時(shí)序電路設(shè)計(jì)。
在fpga設(shè)計(jì)中要使用時(shí)鐘使能代替門(mén)控時(shí)鐘。在asic的設(shè)計(jì)中,為了減少功耗,使用門(mén)控時(shí)鐘(clock gating),門(mén)控時(shí)鐘的結(jié)構(gòu)如圖2所示。當(dāng)寫(xiě)有效時(shí),數(shù)據(jù)才寫(xiě)進(jìn)存儲(chǔ)器,那么只有寫(xiě)有效時(shí),寄存器才會(huì)發(fā)生翻轉(zhuǎn),這樣可以減少功耗。
圖2 門(mén)控時(shí)鐘示意圖
由于設(shè)計(jì)的異步特性,對(duì)于fpga來(lái)說(shuō),使用這種門(mén)控時(shí)鐘容易產(chǎn)生毛刺,導(dǎo)致數(shù)據(jù)不正確。所以在fpga設(shè)計(jì)中,使用有使能信號(hào)的電路來(lái)替換門(mén)控時(shí)鐘電路??梢栽诩拇嫫髑懊婕由蟤ux來(lái)實(shí)現(xiàn)時(shí)鐘使能信號(hào),如圖3所示?,F(xiàn)在的fpga廠(chǎng)商則提供可以直接有使能,同步set和reset引腳的寄存器,如圖4所示。
圖3 用mux生成時(shí)鐘使能信號(hào)
圖4 fpga內(nèi)帶有時(shí)鐘使能的寄存器
充分利用fpga中已有的ip核
fpga廠(chǎng)商及第三方廠(chǎng)商已經(jīng)實(shí)現(xiàn)并優(yōu)化了很多典型的ip核,例如xilinx提供了基礎(chǔ)邏輯、總線(xiàn)接口與i/o、視頻與圖像處理、數(shù)字信號(hào)處理、存儲(chǔ)器接口、微處理器、控制器等大量ip核。在代碼轉(zhuǎn)換時(shí)可以充分利用這些資源,對(duì)代碼進(jìn)行優(yōu)化來(lái)提高設(shè)計(jì)性能。如在fpga中使用srl實(shí)現(xiàn)移位寄存器,用三態(tài)buffer來(lái)替換三態(tài)總線(xiàn)和三態(tài)mux,改進(jìn)算術(shù)單元和有限狀態(tài)機(jī)的編碼。
代碼轉(zhuǎn)換的實(shí)現(xiàn)
結(jié)合同濟(jì)大學(xué)微電子中心的“32位高性能嵌入式cpu開(kāi)發(fā)”項(xiàng)目,為了在流片之前確保功能的可靠性,對(duì)32位全定制高性能嵌入式cpu bc320進(jìn)行了原型驗(yàn)證。
設(shè)計(jì)采用memec design公司的ff1152開(kāi)發(fā)板。該板使用了xilinx的virtex-ⅱ pro系列芯片中的xc2vp30。該fpga擁有30 816個(gè)邏輯單元,相當(dāng)于有30多萬(wàn)的asci門(mén)。另有2mb的片上block ram,644個(gè)i/o口。采用了xilinx的全自動(dòng)、完整的集成設(shè)計(jì)環(huán)境ise 7.1i,進(jìn)行fpga綜合使用的工具是synplify pro。
用bc320的asic rtl代碼作為fpga的輸入,具體的代碼轉(zhuǎn)換如下。
存儲(chǔ)單元
設(shè)計(jì)中用到了很多sram,例如icache中的sram。在fpga實(shí)現(xiàn)時(shí)根據(jù)所需ram的寬度、深度和功能來(lái)決定采用哪種單元來(lái)進(jìn)行替換。xilinx提供了片外ram、block ram和lut ram。
ise提供了兩種具體的實(shí)現(xiàn)方法:ip生成器(core generator)和語(yǔ)言模板(language templates)。ip生成器是xilinx fpga設(shè)計(jì)中的一個(gè)重要設(shè)計(jì)輸入工具,它提供了大量xilinx和第三方公司設(shè)計(jì)的成熟高效ip核。
這里是用core generator來(lái)產(chǎn)生了名為塊存儲(chǔ)器(block memory)的單口存儲(chǔ)器模塊。core generator用圖形化設(shè)置參數(shù)的方式來(lái)提供塊存儲(chǔ)器,其界面如圖5所示。塊存儲(chǔ)器的大小根據(jù)向量的大小來(lái)制定,一個(gè)普通單元向量只需要4個(gè)512×32bit的塊存儲(chǔ)器就夠了。core generator產(chǎn)生塊存儲(chǔ)器時(shí),除了參數(shù)設(shè)置外,還需要輸入一個(gè)為.coe的文件來(lái)初始化塊存儲(chǔ)器的內(nèi)容。core generator產(chǎn)生的文件同時(shí)考慮了后端執(zhí)行和仿真兩方面,主要有三個(gè)文件:file.v,file.mif,file.edn。其中.v文件為verilog格式的sram仿真模型; .mif文件為作為其初始化內(nèi)容,其內(nèi)容和.coe文件里的具體向量?jī)?nèi)容是一致的;而實(shí)際后端文件為.edn,包含了塊存儲(chǔ)器的全部信息。
圖5 ip生成器的界面
language templates主要利用xilinx的塊存儲(chǔ)器元件庫(kù),直接進(jìn)行調(diào)用。xc2vp30內(nèi)部的單口塊存儲(chǔ)器型號(hào)主要有:16k×1bit、1k×16bit、2k×8bit、4k×4bit、512×32bit、8k×2bit??梢愿鶕?jù)自己的需要隨意調(diào)用這些模塊,在rtl代碼中實(shí)例化,并把sram初始值作為參數(shù)傳遞進(jìn)去。這些模塊在synplify pro中根據(jù)選定的fpga型號(hào)被自動(dòng)識(shí)別,然后綜合成統(tǒng)一的.edn文件,再進(jìn)行后續(xù)操作。語(yǔ)言模板方式的靈活性比較強(qiáng),可以設(shè)置多個(gè)不同位寬,不同深度的塊存儲(chǔ)器,仿真也比較方便,但是參數(shù)設(shè)定時(shí),sram初始值的設(shè)置比較麻煩。
另外,xilinx提供工具data-mem,它可以每次只改變fpga中塊存儲(chǔ)器的內(nèi)容,而不需將整個(gè)設(shè)計(jì)重新翻譯、映射和布局布線(xiàn),為大量的向量驗(yàn)證節(jié)約了時(shí)間。
時(shí)鐘單元
在bc320設(shè)計(jì)中,cpu內(nèi)核通過(guò)sysad接口與外部sram連接。這些外部sram的時(shí)鐘和主時(shí)鐘是不一致的,在asic中,用一個(gè)pll來(lái)實(shí)現(xiàn)。這個(gè)pll模塊是無(wú)法用synplify pro綜合的,在fpga上必須將它用xilinx的數(shù)字時(shí)鐘管理模塊(dcm)來(lái)替換。同樣可以利用core generator和language templates這兩種方法。
利用core generator產(chǎn)生mydcm.v文件來(lái)代替原先的pllgs_500.v,代碼如下。第二段代碼是修改后的代碼。
module pllgs_500( pll_k,
pll_m,
pll_n,
pll_pd,
pll_tst,
reset,
xin,
clk_out,
tst_out);
module mydcm(clkin_in,
rst_in,
clkfx_out,
clkin_ibufg_out,
locked_out);
時(shí)鐘使能帶代替門(mén)控時(shí)鐘
把實(shí)現(xiàn)門(mén)控時(shí)鐘信號(hào)轉(zhuǎn)換成實(shí)現(xiàn)使能信號(hào),例如信號(hào)pcepl,代碼如下。第二段代碼是修改后的代碼。
module(out,in,clk, pcepl);
……
always @ (clk or pcepl)
assign pceplv = pcepl & clk;
always @(posedge pceplv)
begin
out 《= in;
end
endmodule
module(out,in,clk, pcepl);
……
always @(posedge clk)
begin
if (pcepl)
out 《= in;
else
out 《= out;
end
endmodule
外部器件配置單元和頂層封裝
在ff1152開(kāi)發(fā)板上集成了很多接口和器件,在原型驗(yàn)證時(shí),可以充分利用這些接口和器件做為和設(shè)計(jì)的交互環(huán)境。這些接口和器件需要正確配置后才能正常工作,這部分配置工作可以用fpga實(shí)現(xiàn)。
設(shè)計(jì)增加了lcd接口單元、內(nèi)部記分牌(scoreboard)模塊和通用異步串行接收發(fā)送(uart)模塊。作為保存向量?jī)?nèi)容的sram設(shè)定好后,可以用同樣的方法將寄存器參考值也保存在另外的塊存儲(chǔ)器中。然后運(yùn)行cpu,將cpu實(shí)際產(chǎn)生的寄存器值和已保存過(guò)的參考值在記分牌模塊中進(jìn)行實(shí)時(shí)比較,然后將結(jié)果輸出到lcd顯示屏上。
為了便于代碼的管理和維護(hù),可以對(duì)原rtl代碼進(jìn)行一定的封裝。將原asic流程的代碼單獨(dú)封裝在一個(gè)模塊中,再和fpga實(shí)現(xiàn)時(shí)添加的片外配置控制單元的代碼一起形成新的fpga實(shí)現(xiàn)頂層。
所以在asic代碼的基礎(chǔ)上增加了對(duì)這幾個(gè)器件完成配置工作的代碼部分。
為了原型系統(tǒng)獲得更高的性能,還可以對(duì)其他一些模塊的代碼進(jìn)行適當(dāng)?shù)母倪M(jìn),如算術(shù)單元和狀態(tài)機(jī)的編碼風(fēng)格等。但對(duì)于全定制的cpu bc320,沒(méi)有必要修改算術(shù)單元模塊的代碼,關(guān)鍵是存儲(chǔ)模塊和時(shí)鐘單元。因此要根據(jù)自己的設(shè)計(jì)適當(dāng)選擇要修改的代碼。
-
FPGA
+關(guān)注
關(guān)注
1629文章
21729瀏覽量
603009 -
asic
+關(guān)注
關(guān)注
34文章
1199瀏覽量
120436 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7484瀏覽量
163765
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論