無線通信產(chǎn)業(yè)不斷推進(jìn)創(chuàng)新,像WiMAX、MIMO都需要增強(qiáng)的性能。無線系統(tǒng)開發(fā)商面臨在更短的開發(fā)周期和更少的財(cái)政投入情況下提供非常復(fù)雜的系統(tǒng)。在這種壓力下,目前業(yè)界正在突破無線系統(tǒng)采用ASIC、DSP和FPGA的傳統(tǒng)構(gòu)建方法。多內(nèi)核DSP兼具FPGA的擴(kuò)展特性和陣列優(yōu)點(diǎn),以及DSP的相似性和效率,提供了一種比DSP和FPGA更高效、更易于開發(fā)的解決方案。
在無線基礎(chǔ)設(shè)備開發(fā)公司中,ASIC設(shè)計(jì)開始不斷減少,ASIC開發(fā)時(shí)間太長,并且為適應(yīng)不斷變化的無線基礎(chǔ)設(shè)備需求,需要很高的成本。這些公司于是現(xiàn)在開始得到這樣的結(jié)論,即未來的系統(tǒng)必須基于完全可重構(gòu)的軟件方案來構(gòu)建。
但是,通常采用DSP處理器和FPGA的完全可重構(gòu)解決方案都具有其自身的問題。最新一代DSP處理器只能滿足像WiMAX和HSDPA這樣的當(dāng)代無線通信標(biāo)準(zhǔn)處理器的一小部分需求,需要許多個(gè)DSP連接在一起來滿足處理負(fù)載需求,這對(duì)于編寫代碼來說既痛苦,代價(jià)又高。
FPGA提供豐富的處理帶寬,但是與基于處理器的解決方案相比,成本高。整合其他方法的企圖卻產(chǎn)生一種很笨拙的混合開發(fā)環(huán)境,使得時(shí)序收斂問題更糟糕。
一種成功的基帶架構(gòu)的五個(gè)最重要的特性為:
◆ 在不同產(chǎn)品系列中提供足夠處理能力的可擴(kuò)展性
◆ 高效執(zhí)行控制功能以及DSP功能的能力
◆ 易于編程和驗(yàn)證
◆ I/O帶寬
◆ 低功耗
因此,能實(shí)現(xiàn)新的、令人激動(dòng)的應(yīng)用的算法正待走出實(shí)驗(yàn)室,但是,就我們在過去幾年中所見的傳統(tǒng)架構(gòu)上的輕微改進(jìn)并不能滿足所要求的處理能力。依賴工藝尺寸的縮小或者時(shí)鐘速度的改善不大可能提供所需要的性能,基于這樣的原因,我們已經(jīng)可以看到對(duì)新方法的需求。
然而,一種架構(gòu)的特性必須是可擴(kuò)展的,并且在一種編程模式下支持一系列的應(yīng)用;然后,可能以不同的方式來應(yīng)用以使特定的器件與特定的問題匹配。盡管可以針對(duì)一種應(yīng)用設(shè)計(jì)一種處理器,但它不是一種架構(gòu)而僅僅是一種可編程ASSP。
這就解釋了為什么對(duì)并行架構(gòu)那么關(guān)注,這種架構(gòu)能擴(kuò)展以提供需要的處理能力,又方便編程,并且還能解決控制和選擇功能,這些功能是這些算法的一部分。
根據(jù)特定的算法,通常存儲(chǔ)器帶寬或者數(shù)據(jù)處理I/O成為性能瓶頸。將信息從系統(tǒng)中發(fā)出與送入的能力必須能趕得上黑盒子內(nèi)的處理能力。這就解釋了為什么某些DSP架構(gòu)不沿用通常的Von Neuman結(jié)構(gòu)(共享編程和數(shù)據(jù)存儲(chǔ)器),而使用Harvard架構(gòu)(雙存儲(chǔ)器),或者甚至是Super Harvard架構(gòu)(另外的數(shù)據(jù)存取)。很明顯,帶有跨單元陣列的多I/O路徑的并行架構(gòu)具有更多的優(yōu)勢。
最后一點(diǎn),但是也是非常重要的,就是支持可編程特性和驗(yàn)證。與通用器件相比,DSP用在非常苛刻的實(shí)時(shí)系統(tǒng)中,這對(duì)它怎樣運(yùn)行提出了很嚴(yán)格的約束。在某個(gè)領(lǐng)域內(nèi)可以應(yīng)用的方法可能在另外一個(gè)領(lǐng)域內(nèi)不可使用。對(duì)算法的開發(fā)、編碼和驗(yàn)證要求很重要,如果要獲得很大的成功,架構(gòu)必須有助于這些任務(wù)的實(shí)現(xiàn)。
而FPGA可以提供這種處理能力,但是成本高、功耗高,而且不是一種“軟件”解決方案。有大量的事例(例如BTDI測試基準(zhǔn))顯示,在FPGA上開發(fā)復(fù)雜的DSP功能可能會(huì)需要數(shù)周甚至數(shù)月,而在DSP處理器上實(shí)現(xiàn)等同的代碼則只需要數(shù)天。
FPGA架構(gòu)的優(yōu)越性
FPGA具有非常強(qiáng)的通用性相同的芯片可以用在基站中替代DSP,在路由器中用于TCP處理對(duì)于高性能視頻加密等等。在很多方面,這種通用性是一種非常大的優(yōu)勢。但是,這是有代價(jià)的,可能一種器件針對(duì)上面應(yīng)用中的一種進(jìn)行優(yōu)化,或許可以提供在價(jià)格、性能、處理能力和功能上的較好折衷。
例如,F(xiàn)PGA可以運(yùn)行任何比特寬度的運(yùn)算。但是這意味著每一個(gè)比特獨(dú)立控制,因此產(chǎn)生1:1的運(yùn)算控制開銷。其結(jié)果是,信號(hào)發(fā)送將占用很大部分的硅片面積。但是在大多數(shù)應(yīng)用中,16比特的字寬就“足夠好”了。因此,一種選擇將是設(shè)計(jì)一種16比特的架構(gòu),在總線上傳輸,將開銷從1:1降低到1:16。
在提供專用的DSP功能的情況下,在FPGA上的整個(gè)芯片電路中依然是很小的一部分,因此開銷還是很高。而且,在FPGA結(jié)構(gòu)上的這種額外控制加之深亞微米工藝的高漏電流產(chǎn)生很高的功耗。對(duì)于FPGA中被布局布線的每個(gè)門電路來說,有成百上千的配置晶體管。由于靜態(tài)功耗由總的芯片門電路面積決定,F(xiàn)PGA的本性就決定了具有比同等的處理器高得多的靜態(tài)功耗。密集布線結(jié)構(gòu)和相應(yīng)較大的硅片尺寸意味著信號(hào)需要驅(qū)動(dòng)更大的電容,并因此增加了動(dòng)態(tài)功耗。
類似地,F(xiàn)PGA允許在時(shí)序上有非常高的靈活性逐周期實(shí)現(xiàn)控制,具有非常精細(xì)的周期粒度。因?yàn)槊總€(gè)設(shè)計(jì)必須進(jìn)行布局布線,因此不可避免存在時(shí)序收斂問題。為獲得最高的性能,必須認(rèn)真地設(shè)定約束條件以達(dá)到期望的時(shí)鐘周期時(shí)間。這需要富有經(jīng)驗(yàn)的設(shè)計(jì),增加了設(shè)計(jì)成本和時(shí)間。可能需要插入額外的流水級(jí),以改變電路的行為和延時(shí)。可能需要定義更高成本的速度等評(píng)定器件。在更大的器件上,布局布線的周期可能需要幾個(gè)小時(shí)到半天時(shí)間,延后了開發(fā)進(jìn)度。
然而,F(xiàn)PGA相對(duì)于DSP可以提供一個(gè)巨大的優(yōu)勢:即它能提供另外一種自由度。一種標(biāo)準(zhǔn)的處理器只能在一個(gè)方面提高性能,即運(yùn)行更快。這需要更大的緩存、更深的流水線以及更復(fù)雜的邏輯(無序執(zhí)行、可預(yù)知的跳轉(zhuǎn)、動(dòng)態(tài)再調(diào)度)。速度上的每一次增加都需要增加硅片面積,兩者的增加并不成比例關(guān)系。不僅僅需要更多的硅片面積,還使編程和調(diào)試更加復(fù)雜。過去,對(duì)處理器進(jìn)行仿真和調(diào)試很簡單,但是在這些特性下,代碼的執(zhí)行難以進(jìn)行調(diào)試。
相反,現(xiàn)場可編程陣列(注意關(guān)鍵詞“陣列”)可以將任務(wù)擴(kuò)散到整個(gè)硅片。其結(jié)果是每個(gè)模塊可以很簡單,運(yùn)行很慢,并因此占用較少的硅片面積。
這樣我們就達(dá)到了高端DSP性能的拐點(diǎn)。此時(shí),單個(gè)處理器的架構(gòu)與大量處理器協(xié)同執(zhí)行任務(wù)的能力相比變得不那么重要了。因此,我們所看到的最重要的架構(gòu)開發(fā)是提供并行特性的擴(kuò)展能力。并行特性并不是指僅僅增加一些執(zhí)行單元,或者甚至將十多個(gè)高端DSP連接在一起的能力,而是將數(shù)以千計(jì)的處理器連接在一起來執(zhí)行非常復(fù)雜的DSP任務(wù),單塊芯片上幾百個(gè)處理器,即多內(nèi)核器件。
兼具FPGA優(yōu)點(diǎn)的多內(nèi)核DSP
多內(nèi)核DSP兼具FPGA的擴(kuò)展特性和陣列優(yōu)點(diǎn),以及DSP的相似性和效率,提供了一種比DSP和FPGA都更高效、更易于開發(fā)的解決方案。
然而,這不僅僅是一種硅片集成任務(wù),這些器件必須支持多個(gè)處理內(nèi)核的有效使用,兼具高性能和易于編程、調(diào)試和最終的系統(tǒng)驗(yàn)證特點(diǎn)。
因?yàn)榭梢酝ㄟ^在陣列上擴(kuò)展以及解決問題來提高性能。其結(jié)果是,每個(gè)DSP內(nèi)核可以更慢和更簡單,減少了巨大的開銷以使性能最大化,可以在速度和硅片面積上找到最佳的平衡。
事實(shí)證明,每平方毫米的最大運(yùn)算數(shù)是一種非常常用的16比特Harvard結(jié)構(gòu)處理器,時(shí)鐘速率大約為200MHz。這與手機(jī)上用到的器件類似,如果有一種更有效的結(jié)構(gòu),那么可能每年數(shù)以億計(jì)的手機(jī)將使用這種器件。
因?yàn)楣杵菍iT用于DSP應(yīng)用,不需要承載任何用于其他任務(wù)(例如膠合邏輯運(yùn)算)的配置開銷。這樣一來可以實(shí)現(xiàn)非常小的硅片面積以及更低的靜態(tài)功耗。
一個(gè)建構(gòu)很好的多內(nèi)核DSP為處理器內(nèi)核之間的通信建立了一種簡單的抽象連接模型。這意味著可以支持點(diǎn)對(duì)點(diǎn)、點(diǎn)對(duì)多點(diǎn)和多點(diǎn)對(duì)多點(diǎn)連接。針對(duì)這些連接的帶寬應(yīng)該是可編程的。軟件應(yīng)該能確定性地迅速發(fā)送所有要求的信號(hào)。
采用簡單的DSP陣列和一個(gè)抽象連接模型,代碼開發(fā)變得簡化了,特別是對(duì)于很大開發(fā)量的工作來說尤其如此。實(shí)質(zhì)上,這是一種通常的子程序編程模型,或稱為“用于硬件的面向?qū)ο蟮姆椒ā薄a槍?duì)簡單連接以及一種數(shù)據(jù)速率對(duì)模塊之間的接口進(jìn)行標(biāo)準(zhǔn)化。握手、時(shí)鐘、設(shè)置以及保持時(shí)間都被抽象出來。
開發(fā)可以變得簡單化,某個(gè)問題可以在典型的分而治之的方法中劃分成處理器大小的塊。每個(gè)工程師在假定標(biāo)準(zhǔn)互聯(lián)模型的條件下對(duì)其自己的模塊進(jìn)行寫和測試。然后,將每個(gè)模塊集成到一個(gè)更大的子系統(tǒng)中,直到形成整個(gè)系統(tǒng)。
一旦整個(gè)系統(tǒng)得到正確的仿真,便可以實(shí)現(xiàn)抽象連接模型的好處。正如某個(gè)用戶所言“與FPGA不同的是,采用多內(nèi)核DSP的系統(tǒng)在仿真器上運(yùn)行時(shí),它運(yùn)行于硅片上。”因?yàn)椴季€網(wǎng)絡(luò)時(shí)序本身是正確的,因此沒有令人痛苦的時(shí)序收斂問題需要處理。
這樣的多內(nèi)核DSP提供了DSP和FPGA兩者的優(yōu)點(diǎn),F(xiàn)PGA的性能和DSP易于編程的特性—比傳統(tǒng)方法獲得更好的成本和處理能力優(yōu)勢。
編輯:jq
-
dsp
+關(guān)注
關(guān)注
553文章
7987瀏覽量
348781 -
FPGA
+關(guān)注
關(guān)注
1629文章
21729瀏覽量
603037 -
asic
+關(guān)注
關(guān)注
34文章
1199瀏覽量
120441 -
MIMO
+關(guān)注
關(guān)注
12文章
594瀏覽量
76829
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論