如何為多種無線標(biāo)準(zhǔn)設(shè)計(jì)可編程基帶設(shè)備
2008年兩個(gè)重要的專門術(shù)語 - 移動(dòng)性和匯聚性 - 正在以多種方式對(duì)無線產(chǎn)業(yè)界施加影響。
客戶需要無論在哪里都能聯(lián)絡(luò),并且享受盡可能快的連接速率,從客戶到滿足客戶要求的多種正在形成的4G標(biāo)準(zhǔn)的開發(fā)人員的眼中,由于要做出一個(gè)選擇能適合于整個(gè)產(chǎn)業(yè)鏈的所有部分,以致很難評(píng)估出完美的產(chǎn)品設(shè)計(jì)以及實(shí)現(xiàn)何種無線標(biāo)準(zhǔn)協(xié)議。
盡管面向4G的關(guān)于空時(shí)分集,空分復(fù)用,波束成形,CDMA與OFDMA . HSPA, LTE, WiMAX, 和IMT-advanced的驅(qū)動(dòng)器能共存,就如同802.11g/b/n,但收發(fā)器不同的標(biāo)準(zhǔn)及協(xié)議的差別正在變大。
與此同時(shí),通過不同的數(shù)字廣播標(biāo)準(zhǔn) —DVB-T/H, ISDB-T, DMB-T, T-DMB 和DAB,各國(guó)紛紛樹立起壁壘,且正在為使其成為當(dāng)?shù)刈罱K的協(xié)議而戰(zhàn)。結(jié)果是不可避免(終端)將有多個(gè)實(shí)現(xiàn)方式,依賴于產(chǎn)品開發(fā)時(shí)所處的場(chǎng)合(見圖1)。
圖1:如圖示中中間的部分所示,不同標(biāo)準(zhǔn)的匯聚性將導(dǎo)致它們需要被用在許多相異的應(yīng)用中。
移動(dòng)性和匯聚性有這樣的要求,即日常中用戶可能會(huì)穿越不同的通訊環(huán)境,為了保持與媒體服務(wù)器的連接,能夠在不同的協(xié)議中切換 --- 換句話說,就是能夠支持多模。
多模的要求
如此看來,基帶處理器被要求能夠支持幾種不同的模式,且有能力在它們之間切換。在半導(dǎo)體設(shè)備這一級(jí),意味著制造商能實(shí)現(xiàn)一個(gè)可編程解決方案,在理想情況下整合成主應(yīng)用處理器,由其創(chuàng)造一個(gè)新的增值設(shè)備途徑,這遠(yuǎn)超出了目前通訊設(shè)備的認(rèn)識(shí)范疇。
典型的基帶處理解決方案已經(jīng)著眼于定位多種標(biāo)準(zhǔn)調(diào)制解調(diào)器需求的挑戰(zhàn),它們通過簡(jiǎn)單的擴(kuò)充能更好的操控額外的數(shù)據(jù)處理的能力來完成。
這種設(shè)計(jì)的主要缺陷是僅僅試圖操作額外的數(shù)據(jù)業(yè)務(wù)量,而沒有關(guān)注這些額外的數(shù)據(jù)流是如何通過系統(tǒng)的 - 或者更糟糕的是,怎樣才能真正的為它編程。
但是,隨著每一代通訊標(biāo)準(zhǔn)的沿革,基帶處理越來越復(fù)雜,而且需要支持越來越多的標(biāo)準(zhǔn)于一個(gè)基帶設(shè)備上,只是通過單純的擴(kuò)大設(shè)備的數(shù)據(jù)處理業(yè)務(wù)來進(jìn)行設(shè)計(jì)已經(jīng)不可行。這么做會(huì)增加功耗,也影響了電池的壽命。
傳統(tǒng)的可編程基帶方案只是專注于數(shù)據(jù)處理的改善,而疏漏了解決方案的數(shù)據(jù)吞吐和編程能力所產(chǎn)生的重要影響。
因?yàn)橐恢蔽茨艽_認(rèn)設(shè)計(jì)真實(shí)的瓶頸,這樣的系統(tǒng)將終結(jié)于遠(yuǎn)超過所需的復(fù)雜性。這樣的復(fù)雜性最終減少了電池的壽命,當(dāng)設(shè)備被用于移動(dòng)時(shí),這似乎是不易覺察的 (盡管擁有3G手機(jī)的用戶知道這是當(dāng)前的現(xiàn)實(shí)情況);4G標(biāo)準(zhǔn)甚至更加的復(fù)雜,如果沒有什么改變,情況只會(huì)變得更壞。
新的途徑
有沒有可能使用不同的途徑來應(yīng)對(duì)多模和可編程的挑戰(zhàn)?答案是有,假如所有的三個(gè)關(guān)鍵設(shè)計(jì)點(diǎn),數(shù)據(jù)處理,數(shù)據(jù)流以及編程效率能夠被一個(gè)單一的架構(gòu)解決,以提供機(jī)動(dòng)性同時(shí)促使功耗達(dá)到優(yōu)化,并且最小化實(shí)施時(shí)間和成本。
一個(gè)新的處理架構(gòu)已經(jīng)被一家瑞典的公司, Coresonic AB開發(fā)出來,新的架構(gòu)提供一種能克服傳統(tǒng)DSP架構(gòu)局限性的可編程基帶解決方案。
通過如此的方式,它僅僅專注于數(shù)據(jù)處理問題,且迎合手持式設(shè)備的成本與功耗的要求,由IP來傳送數(shù)據(jù),這樣能與別的公司設(shè)備集成在一起提供引人注目的增值產(chǎn)品。
新架構(gòu),被稱作單指令多任務(wù)(SIMT),能夠達(dá)到超長(zhǎng)指令字架構(gòu)所擁有的性能,但只需較低的控制開銷,和更低的程序與內(nèi)存用量。其指令集被優(yōu)化用于基帶處理任務(wù),能顯著的減少固件代碼尺寸,即使對(duì)復(fù)雜的標(biāo)準(zhǔn)也一樣。
小心的選擇一些不合適軟件完成的操作通過硬件加速是可以被所述架構(gòu)所容納的,不但可以得到非常有效的運(yùn)行,而且仍能保證足夠的靈活性以致硬件在不同的標(biāo)準(zhǔn)間得到復(fù)用。
一個(gè)創(chuàng)新的互聯(lián)方案和內(nèi)存架構(gòu)能容納高度的并行性,還有在處理器內(nèi)核,內(nèi)存,加速芯片和I/O接口之間高效的通訊,以及最小化數(shù)據(jù)內(nèi)存需求和高效的內(nèi)存訪問。
可編程解決方案為達(dá)到效果,需要在各功能的靈活性與性能間尋求折中。調(diào)制解調(diào)器需要基帶處理高度的靈活性,但FEC(前向糾錯(cuò))和數(shù)字前端處理通常更合適使用具有較低靈活性的加速器模塊。為了得到基帶處理中所要求的高運(yùn)算能力,需要使用超長(zhǎng)指令字(VLIW)和單指令多數(shù)據(jù)(SIMD)架構(gòu)。
基于VLIW架構(gòu)的缺陷是其低效的功率應(yīng)用,這是因?yàn)閷捴噶钚枰诿總€(gè)時(shí)鐘周期被取出。另一方面,基于純SIMD的DSP缺乏完成不同的并行運(yùn)算的可能性,導(dǎo)致了數(shù)據(jù)通道的低利用率。
SMIT架構(gòu)
SIMT架構(gòu)利用基帶算法的特性,比基于VLIW/SIMD架構(gòu)的基帶處理器減少了控制方面的開銷,并且增強(qiáng)了內(nèi)存的利用率。
處理器架構(gòu)使用向量指令,在SIMD執(zhí)行單元中操作大數(shù)據(jù)集。關(guān)鍵是做到每個(gè)時(shí)鐘周期僅有一條指令執(zhí)行,但允許并行執(zhí)行若干個(gè)操作,如同向量指令可以在SIMD單元上持續(xù)運(yùn)行數(shù)個(gè)時(shí)鐘周期。
這種方法導(dǎo)致一定程度的等效于VLIW處理器的并行性,卻無需因?yàn)樾枰嫶蟮目刂仆ǖ浪鶐淼拈_銷。調(diào)制解調(diào)器很大程度上,由在巨大的向量型數(shù)據(jù)上所執(zhí)行的操作組成,用于獲得一個(gè)擁有高利用率低開銷運(yùn)行單元的處理器。
例如,當(dāng)CMAC(復(fù)數(shù)乘加器)執(zhí)行FFT的一層運(yùn)算時(shí),整型數(shù)據(jù)通道能夠運(yùn)行操作系統(tǒng)任務(wù);當(dāng)加速維特比解碼器以最大吞吐速率并行執(zhí)行時(shí),CALU(復(fù)數(shù)算術(shù)邏輯元)能完成導(dǎo)頻的提取。
要想能充分利用SIMT的架構(gòu),幾個(gè)關(guān)鍵組件是必須的:高效的向量執(zhí)行單元,一個(gè)匹配的內(nèi)存機(jī)制,并行的內(nèi)存尋址系統(tǒng),以及有能力管理多個(gè)線程的控制核心。
SIMT架構(gòu)利用多重復(fù)數(shù)SIMD執(zhí)行簇,如4路復(fù)數(shù)乘加器(MAC)和4路復(fù)數(shù)算術(shù)邏輯單元(ALU)。每個(gè)SIMD簇能夠獨(dú)立于其它的執(zhí)行單元處理一個(gè)任務(wù)。
為了能協(xié)同各向量的操作,一個(gè)分布式內(nèi)存被使用。系統(tǒng)的內(nèi)存被分割成若干個(gè)具有獨(dú)立的地址產(chǎn)生單元的內(nèi)存段,與片上網(wǎng)絡(luò)一起提高了內(nèi)存部分的功率效率。
片上的網(wǎng)絡(luò)由受限的四通開關(guān)來實(shí)現(xiàn),直接受軟件的控制。因?yàn)樵试S軟件工具使用靜態(tài)調(diào)度算法,所以無需仲裁器且其性能是可以充分預(yù)期的。
所述處理器是由RISC內(nèi)核控制的,它包含指令分發(fā)邏輯和支持多上下文的功能。RISC內(nèi)核執(zhí)行所有的控制流功能以及整數(shù)型指令。
SIMT處理器管理所有的復(fù)數(shù)型處理函數(shù),這些函數(shù)介于ADC/DAC和FEC單元之間。處理器在RISC內(nèi)核和一個(gè)數(shù)字前端加速器外增加了兩個(gè)SIMD單元,一個(gè)是4路CMAC,另一個(gè)是4路CALU。
SIMT架構(gòu)的處理器已經(jīng)在實(shí)驗(yàn)室的環(huán)境中得以實(shí)現(xiàn)。這個(gè)開發(fā)出的芯片總共包含1.5M比特內(nèi)存,被分配為43k word用于復(fù)數(shù)存儲(chǔ)器,4k word用于整數(shù)存儲(chǔ)器,2k word用于程序存儲(chǔ)器。當(dāng)單個(gè)的向量指令執(zhí)行計(jì)算時(shí),程序存儲(chǔ)器的利用率是非常高的,如執(zhí)行一個(gè)向量的復(fù)數(shù)點(diǎn)乘,或一個(gè)完整的FFT運(yùn)算層。
本架構(gòu)合適于在典型的僅有2k word的程序存儲(chǔ)空間和少于8k word的但完整的WiMAX協(xié)議棧內(nèi)執(zhí)行完整的DVB-T/H協(xié)議。
可編程能力
可編程能力賦予了硬件的重利用不僅僅在于不同的無線通訊標(biāo)準(zhǔn)之間,還包括不同的處理流程部分之間。通過硬件的復(fù)用,可編程的解決方案比硬件連線的方案減小了硅片面積,甚至比只需實(shí)現(xiàn)單一標(biāo)準(zhǔn)的硬件連線方案更小。更小的硅片也導(dǎo)致了更低的功耗,這是因?yàn)闇p少了漏電及片上通訊的功耗。
使用本文所述的SIMT架構(gòu)的面向移動(dòng)WiMAX和 DVB-T/H所開發(fā)的處理器已經(jīng)在一個(gè)完整的接收器上得到了實(shí)現(xiàn)。結(jié)果是 - 相比于尖端的硬件方案,用于運(yùn)行31.67Mb/s的DVB-T業(yè)務(wù)的基于SIMT的處理器估計(jì)少了18%的硅片面積和21%的功耗,當(dāng)與可編程方案比較,典型的差異在尺寸的50%和70%之間。
通過算法映射,調(diào)度算法,以及在實(shí)際硬件上進(jìn)行的模擬和測(cè)試,可以實(shí)現(xiàn)對(duì)WiMAX的支持。與其他可稱得算是尖端的解決方案相比較,基于SIMT架構(gòu)的方案被證明具有更高效的面積和功率利用率。
除了借助于現(xiàn)代合成技術(shù)和后端工具的低功率物理材料設(shè)計(jì)工藝之外,低功耗是通過結(jié)構(gòu)級(jí)的設(shè)計(jì)而不是通過使用特殊的低功耗工藝(器件)獲得的。
通過使用向量指令和分散的內(nèi)存系統(tǒng),增強(qiáng)了數(shù)據(jù)和控制的局部性,因此SIMT架構(gòu)減少了控制的開銷。內(nèi)存訪問功耗由于僅使用小型單端口存儲(chǔ)器和減少了內(nèi)存訪問量而減少。
不采用任何優(yōu)化和現(xiàn)代功率控制技術(shù),在實(shí)驗(yàn)室中,完全可編程的DVB-T/H 基帶處理器原型機(jī)被實(shí)現(xiàn)在11平方毫米,0.12微米的CMOS芯片上,它包括1.5M比特的單端口內(nèi)存和200k邏輯門電路。
DVB-T/H基帶原型機(jī)當(dāng)承載最大數(shù)據(jù)流,31.67Mb/s時(shí)所測(cè)出的功耗為70毫瓦,運(yùn)行頻率為70MHz。在原型機(jī)上所作的工作說明本架構(gòu)在尺寸和功耗上都強(qiáng)于以往的非可編程DVB-T/H解決方案,甚至可以忽略相當(dāng)程度的在結(jié)構(gòu)設(shè)計(jì)上所做的優(yōu)化。
SIMT付諸實(shí)現(xiàn)
SIMT描述的架構(gòu)和圖示過去一直是實(shí)驗(yàn)室工作的一部分。現(xiàn)在可用于完全硬件的方案中,這些方案被用于無線半導(dǎo)體制造業(yè)中,使用Coresonic公司的LeoCore工藝把完整的WiMAX基帶功能整合到WiMAX個(gè)人可攜式設(shè)備中(見圖2)。
圖2:Coresonic公司所提供完整解決方案的WiMAX個(gè)人便攜式設(shè)備,
此設(shè)備支持移動(dòng)WiMAX802.16e-2005,移動(dòng)系統(tǒng)概要1.4版, 此版本也支持其他的模式,如802.16d和802.16j. 設(shè)備執(zhí)行所有從ADC/DAC接口到FEC的工作,包括數(shù)字前端信號(hào)調(diào)節(jié),同步,MIMO信道估計(jì)/補(bǔ)償,糾錯(cuò)和卷積碼。
圖中所有的構(gòu)建方塊實(shí)現(xiàn)了從RF接口至CPU上運(yùn)行的MAC層完整的解決方案;這個(gè)密集處理陣列由硬件完成用以把MAC CPU的負(fù)荷減到最小。除了硬件之外,也提供了固件來支持多種不同的標(biāo)準(zhǔn),更進(jìn)一步減少了開發(fā)的時(shí)間和風(fēng)險(xiǎn)。
結(jié)論
綜合地說,本文所述新的SIMT架構(gòu)為整合出高效的復(fù)合基帶處理器提供了一個(gè)方法。作為這個(gè)方法的一個(gè)部分,有著大量核心構(gòu)建塊,圍繞它們補(bǔ)充有額外的加速器,接口和存儲(chǔ)塊來構(gòu)建所需要的方案。
本架構(gòu)克服了數(shù)據(jù)處理,數(shù)據(jù)流和易編程性的挑戰(zhàn),展示了一個(gè)極精煉的4G基帶解決方案。其效果可使一個(gè)完整的解決方案尺寸達(dá)到其它方案中高速指令緩存器一樣小,且只需很低的時(shí)鐘速率,但提供了更高的功率效率。
通過使用這樣一種經(jīng)過特別優(yōu)化的用于多模無線基帶處理的架構(gòu),可編程解決方案將能支持4G等多種無線標(biāo)準(zhǔn),如WiMAX,而功率和空間利用率相當(dāng)于或優(yōu)于硬件解決方案。
基于SIMT架構(gòu)的處理器可以單指令流并行處理 - 消除了為支持多標(biāo)準(zhǔn)而產(chǎn)生的對(duì)多個(gè)DSP的需要 - 且能與設(shè)計(jì)者自己獨(dú)有的產(chǎn)品設(shè)計(jì)結(jié)合在一起來提供一個(gè)高附加值的組件。
作者介紹
Dake Liu 教授,16年大學(xué)中研究和教學(xué)經(jīng)驗(yàn),另有6年瑞典業(yè)界的研發(fā)經(jīng)歷。曾為Freeh DSP AB 的CTO和合作創(chuàng)始人,后又為VIA Technologies Sweden的首席科學(xué)家。先前曾為Ericsson Microelectronics和 Ericsson UAB的資深成員。他也是Linkping 大學(xué)的計(jì)算機(jī)工程學(xué)教授。
Coresonic AB的主要系統(tǒng)工程師和共同創(chuàng)始人。他曾在瑞典Linkping 大學(xué)學(xué)習(xí)并獲得應(yīng)用物理和電子工程碩士學(xué)位,和‘多標(biāo)準(zhǔn)基帶處理器設(shè)計(jì) i方面的博士學(xué)位。他的研究方向包括高速無線移動(dòng)連接,無線電工藝和基帶處理其設(shè)計(jì);他有3個(gè)美國(guó)專利(2個(gè)正處在申請(qǐng)中),同時(shí)是 iRadio Design in Nanometer Technologies i 和 iHbook of WiMAX i的聯(lián)合作者
評(píng)論
查看更多