資料介紹
分享到:標簽:TMS320C6000 優化編程 DSP
1 TMS320C6000的硬件設計和指令系統
TMS320C6000系列DSP(數字信號處理器)是TI公司最新推出的一種并行處理的數字信號處理器。它是基于TI的VLIW技術的,其中,TMS320C62xx是定點處理器,TMS320C67xx是浮點處理器。本文主要討論TMS320C6201。該處理器的工作頻率最高可以采用50MHz,經內部4倍頻后升至200MHz,每個時鐘周期最多可以并行執行8條指令,從而可以實現1600MIPS的定點運算能力,而且完成1024定點FFT的時間只需70μs。
1.1 TMS320C6000的硬件結構
圖1是TMS320C6000 CPU的結構圖。
TMS320C6000的CPU有兩個數據通道A和B,每個通道有16個32位字長的寄存器(A0~A15,B0~B15),四個功能單元(L,S,M,D),每個功能單元負責完成一定的算術或者邏輯運行。A、B兩通道的寄存器并不是完全共享,只能通過TM320C6000提供的兩個交換通道1X、2X,才能實現處理單元從不同通道的寄存器堆那里獲取32位字長的操作數。
TMS320C6000的地址線為32位,存儲器尋址空間是4G。C6201片內集成有1Mbit SRAM——512Kbit的程序存儲器(根據需要可全部配置成Cache)和512Kbit的數據存儲器。通過片內的程序存儲空間控制器,CPU一次可以取出256bit,即一次最多可以取出8條32位指令。
C6201有32位的外部存儲接口EMIF為CPU訪問外圍設備提供了無縫接口。外圍設備可以是同步動態存儲器(SDRAM)、同步突發靜態存儲器(SBSRAM)、靜態存儲器(SRAM)、只讀存儲器(ROM),也可以是FIFO寄存器。
為了便于進行多信道數字信號處理,TMS320C6000配備了多信道帶緩沖能力的串口McBSP。McBSP的功能非常強大,除具有一般DSP串口功能之外,還可以支持T1/E1、ST-BUS、IOM2、SPI、IIS等不同標準。McBSP最多支持128個信道;支持多種數據格式(8/12/16/20/24/32bit)的傳輸;可自動進行u律、A律壓擴。其工作速率可達到1/2時鐘速率。
TMS32C6000提供的16位主機接口(HPI)使得主機設備可以直接訪問DPS的存儲空間。通過內部或外部存儲空間,主機和DSP可以交換信息。主機也可以利用HPI直接訪問映射進存儲空間的外圍設備。
DSP器件一般都帶有DMA控制器,可以在CPU操作的后臺進行數據傳輸。TMS320C6201的DMA控制器有4個獨立的可編程通道,可以同時進行四個不同的DMA操作,每個通道的優先級可以通過編程設定。每個通道可以根據需要傳輸8/16/32bit的數據,并且DMA控制器可以訪問全部32位的地址空間。此外,還有一個輔助通道允許DMA控制器響應主機通過HPI口發來的請求。
1.2 指令系統
C62xx和C67xx共享同一個指令集。C67xx可以使用所有的C62xx指令,但因為C67xx是浮點芯片,怕以C67xx的指令集中有一些指令只能用于浮點運算。TMS320C6201CPU的設計采用了類似于RISC的結構,指令集簡單、運算速度快。8個功能單元負責不同功能的運算,指令和功能單元之間存在一個映射關系。其中,L單元有23條指令,M單元有20條指令,S單元29有條指令,D單元有26條指令。
TMS320C6201的大部分指令都可在單周期內完成,都可以直接對8/16/32bit數據進行操作。同時,TMS320C6201指令集針對數字信號處理算法提供了一引起特殊指令:為復雜計算提供的40bit的特殊操作的加法運算;有效的溢出處理和歸一化處理;簡潔的位操作功能等。TMS320C6201中最多可以有8條指令同時并行執行;所有指令均可條件執行。以上所有特點提高了指令的執行效率、減小了代碼長度、大大減少了因跳轉引起的開銷、提高了編碼效率。
流水線操作是DSP實現高速度、高效率的關鍵技術之一。TMS320C6000只有在流水線充分發揮作用的情況下,才能達到1600MIPS的速度。C6000的流水線分為三個階段:取指、解碼、執行、總共11級。和以前的C3x、C54x相比,有非常大的優勢,主要表現在:簡化了流水線的控制以消除流水線互鎖;增加流水線的深度以消除傳統流水線結構在取指、數據訪問和乘法操作上的瓶頸。其中取指、數據訪問分為多個階段,使得C6000可以高速地訪問存儲空是。
2 優化編程的幾個方法
使用TMS320C6000進行程序設計時,首先的感覺是匯編指令集太小了。C6000在設計時采用了一種類RISC機的結構,運算速率特別快,但是指令集卻非常簡單。象DSP算法中常用的乘加指令、循環操作指令等,在C54x和C3x中兩條指令就可以完成的功能,而在C6000中卻需要一個循環體,所以它的程序設計一般比較復雜。要想充分發揮C6000的運算能力,必須從它的硬件結構出去,最大限度地利用八個功能單元,使用軟件流水線,盡量讓程序無沖突的并行執行。
并行處理的長處在于,在處理彼此之間沒有承接關系的運算時,在CPU資源允許的情況下可以并行完成。但對于前后有承接關系或者判斷、跳轉頻繁的情況,就無法發揮并行的優勢。一般循環體都滿足并行處理的條件,并且循環體往往是程序中耗時最長的地方。因此進行C6000應用開發時應將優化重點放在循環體上。為了降低開發難度,C6000提供了很多在高級語言(如ANSI C)一級對程序進行優化的方法。在應用滿足實時性處理要求時,應盡量采有這種方法。但是這種方法的效率比較低,C語言優化最好的例子是點乘,這種循環使用C語言進行優化可以百分之百地的利用CPU資源,程序的并行性達到最好。但是我們在做20點的點乘時發現它耗時是匯編語言程序的3倍。所以如果系統的實時性要求比較高,就不能使用這種優化方法了。
這時可以考慮使用線性匯編語言進行開發。線性匯編語言是TMS320C6000中獨有的一種編程語言,介于高級語言和低級語言之間。因為在用手寫匯編語言進行應用開發時,開發者除了要精通C6000的指令系統之外,還必須為指令分配功能單元、考慮指令的延這和功能單元之間的配合以及合理分配使用32個寄存器,才能寫出高效的并行指令,發揮C6000的威力。上面任何一個方面出現問題,都會嚴重影響算法的效率。
線性匯編語言的指令系統和匯編語言的指令系統完全相同,但是它有自己的匯編優化器指令系統,用于和匯編性匯編語言時不需要考慮指令的延時、寄存器的使用和功能單元的分配,完全可以按照高級語言的方式進行編寫。當然由于它不是高級語言,有許多編程的限制。例如,在優化循環體時,不能使用跳轉到循環體之外的跳轉指令;另外計數順只能使用減計數,如果使用加計數,優化器將不能工作等等。但總的說來,它的代碼效率遠遠高于高級語言,而且開發難度和開發周期比匯編語言要小得多。
在實際開發過程中需要具體情況具體分析,選擇一種高效、快捷的開發方法。以下結合應用開發中的幾個模塊來簡述我們使用的優化方法。
1 TMS320C6000的硬件設計和指令系統
TMS320C6000系列DSP(數字信號處理器)是TI公司最新推出的一種并行處理的數字信號處理器。它是基于TI的VLIW技術的,其中,TMS320C62xx是定點處理器,TMS320C67xx是浮點處理器。本文主要討論TMS320C6201。該處理器的工作頻率最高可以采用50MHz,經內部4倍頻后升至200MHz,每個時鐘周期最多可以并行執行8條指令,從而可以實現1600MIPS的定點運算能力,而且完成1024定點FFT的時間只需70μs。
1.1 TMS320C6000的硬件結構
圖1是TMS320C6000 CPU的結構圖。
TMS320C6000的CPU有兩個數據通道A和B,每個通道有16個32位字長的寄存器(A0~A15,B0~B15),四個功能單元(L,S,M,D),每個功能單元負責完成一定的算術或者邏輯運行。A、B兩通道的寄存器并不是完全共享,只能通過TM320C6000提供的兩個交換通道1X、2X,才能實現處理單元從不同通道的寄存器堆那里獲取32位字長的操作數。
TMS320C6000的地址線為32位,存儲器尋址空間是4G。C6201片內集成有1Mbit SRAM——512Kbit的程序存儲器(根據需要可全部配置成Cache)和512Kbit的數據存儲器。通過片內的程序存儲空間控制器,CPU一次可以取出256bit,即一次最多可以取出8條32位指令。
C6201有32位的外部存儲接口EMIF為CPU訪問外圍設備提供了無縫接口。外圍設備可以是同步動態存儲器(SDRAM)、同步突發靜態存儲器(SBSRAM)、靜態存儲器(SRAM)、只讀存儲器(ROM),也可以是FIFO寄存器。
為了便于進行多信道數字信號處理,TMS320C6000配備了多信道帶緩沖能力的串口McBSP。McBSP的功能非常強大,除具有一般DSP串口功能之外,還可以支持T1/E1、ST-BUS、IOM2、SPI、IIS等不同標準。McBSP最多支持128個信道;支持多種數據格式(8/12/16/20/24/32bit)的傳輸;可自動進行u律、A律壓擴。其工作速率可達到1/2時鐘速率。
TMS32C6000提供的16位主機接口(HPI)使得主機設備可以直接訪問DPS的存儲空間。通過內部或外部存儲空間,主機和DSP可以交換信息。主機也可以利用HPI直接訪問映射進存儲空間的外圍設備。
DSP器件一般都帶有DMA控制器,可以在CPU操作的后臺進行數據傳輸。TMS320C6201的DMA控制器有4個獨立的可編程通道,可以同時進行四個不同的DMA操作,每個通道的優先級可以通過編程設定。每個通道可以根據需要傳輸8/16/32bit的數據,并且DMA控制器可以訪問全部32位的地址空間。此外,還有一個輔助通道允許DMA控制器響應主機通過HPI口發來的請求。
1.2 指令系統
C62xx和C67xx共享同一個指令集。C67xx可以使用所有的C62xx指令,但因為C67xx是浮點芯片,怕以C67xx的指令集中有一些指令只能用于浮點運算。TMS320C6201CPU的設計采用了類似于RISC的結構,指令集簡單、運算速度快。8個功能單元負責不同功能的運算,指令和功能單元之間存在一個映射關系。其中,L單元有23條指令,M單元有20條指令,S單元29有條指令,D單元有26條指令。
TMS320C6201的大部分指令都可在單周期內完成,都可以直接對8/16/32bit數據進行操作。同時,TMS320C6201指令集針對數字信號處理算法提供了一引起特殊指令:為復雜計算提供的40bit的特殊操作的加法運算;有效的溢出處理和歸一化處理;簡潔的位操作功能等。TMS320C6201中最多可以有8條指令同時并行執行;所有指令均可條件執行。以上所有特點提高了指令的執行效率、減小了代碼長度、大大減少了因跳轉引起的開銷、提高了編碼效率。
流水線操作是DSP實現高速度、高效率的關鍵技術之一。TMS320C6000只有在流水線充分發揮作用的情況下,才能達到1600MIPS的速度。C6000的流水線分為三個階段:取指、解碼、執行、總共11級。和以前的C3x、C54x相比,有非常大的優勢,主要表現在:簡化了流水線的控制以消除流水線互鎖;增加流水線的深度以消除傳統流水線結構在取指、數據訪問和乘法操作上的瓶頸。其中取指、數據訪問分為多個階段,使得C6000可以高速地訪問存儲空是。
2 優化編程的幾個方法
使用TMS320C6000進行程序設計時,首先的感覺是匯編指令集太小了。C6000在設計時采用了一種類RISC機的結構,運算速率特別快,但是指令集卻非常簡單。象DSP算法中常用的乘加指令、循環操作指令等,在C54x和C3x中兩條指令就可以完成的功能,而在C6000中卻需要一個循環體,所以它的程序設計一般比較復雜。要想充分發揮C6000的運算能力,必須從它的硬件結構出去,最大限度地利用八個功能單元,使用軟件流水線,盡量讓程序無沖突的并行執行。
并行處理的長處在于,在處理彼此之間沒有承接關系的運算時,在CPU資源允許的情況下可以并行完成。但對于前后有承接關系或者判斷、跳轉頻繁的情況,就無法發揮并行的優勢。一般循環體都滿足并行處理的條件,并且循環體往往是程序中耗時最長的地方。因此進行C6000應用開發時應將優化重點放在循環體上。為了降低開發難度,C6000提供了很多在高級語言(如ANSI C)一級對程序進行優化的方法。在應用滿足實時性處理要求時,應盡量采有這種方法。但是這種方法的效率比較低,C語言優化最好的例子是點乘,這種循環使用C語言進行優化可以百分之百地的利用CPU資源,程序的并行性達到最好。但是我們在做20點的點乘時發現它耗時是匯編語言程序的3倍。所以如果系統的實時性要求比較高,就不能使用這種優化方法了。
這時可以考慮使用線性匯編語言進行開發。線性匯編語言是TMS320C6000中獨有的一種編程語言,介于高級語言和低級語言之間。因為在用手寫匯編語言進行應用開發時,開發者除了要精通C6000的指令系統之外,還必須為指令分配功能單元、考慮指令的延這和功能單元之間的配合以及合理分配使用32個寄存器,才能寫出高效的并行指令,發揮C6000的威力。上面任何一個方面出現問題,都會嚴重影響算法的效率。
線性匯編語言的指令系統和匯編語言的指令系統完全相同,但是它有自己的匯編優化器指令系統,用于和匯編性匯編語言時不需要考慮指令的延時、寄存器的使用和功能單元的分配,完全可以按照高級語言的方式進行編寫。當然由于它不是高級語言,有許多編程的限制。例如,在優化循環體時,不能使用跳轉到循環體之外的跳轉指令;另外計數順只能使用減計數,如果使用加計數,優化器將不能工作等等。但總的說來,它的代碼效率遠遠高于高級語言,而且開發難度和開發周期比匯編語言要小得多。
在實際開發過程中需要具體情況具體分析,選擇一種高效、快捷的開發方法。以下結合應用開發中的幾個模塊來簡述我們使用的優化方法。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 關于TMS320C6000 DSP的復位電路 24次下載
- TMS320C6000匯編語言工具v7.4用戶指南詳細資料概括 19次下載
- TMS320C6000 DSP 優化應用報告 4次下載
- TMS320C6000系列DSP優化介紹 6次下載
- TMS320C6000匯編語言攻擊V7.6用戶指南 9次下載
- TMS320C6000系列DSP主機引導方式的實現 16次下載
- 基于TMS320C6000系列DSP的Flash編程方法 7次下載
- Hand-Tuning Loops and Control Code on the TMS320C6000 15次下載
- TMS320C6000 Optimizing Compiler 18次下載
- TMS320C6000 Programmer’s Guide 33次下載
- TMs320C6000系列DSPs原理與應用 48次下載
- TMS320C6000 系列DSP 的C 代碼優化方法
- 基于TMS320C6000和同步FIFO的多DSP系統設計與
- TMS320C6000系列DSP的C代碼優化方法
- TMS320C6000資料
- 基于TMS320C6203 DSP芯片實現G.729ab聲碼器的應用方案 2874次閱讀
- 基于TMS320DM642多媒體芯片實現視頻監控系統的應用方案 3158次閱讀
- 基于TMS320C6000高性能DSP實現I2C總線接口的軟硬件設計 1529次閱讀
- 通過采用PCI9052接口實現TMS320C6713芯片與PC機間的高速數據傳輸 3425次閱讀
- 基于TI TMS320C6748定點/浮點DSP C674x處理器 2986次閱讀
- tms320c6000系列dsp的flash啟動設計 5759次閱讀
- TMS320C6748和TMS320C6747芯片對比 1.6w次閱讀
- TMS320C6000 DSP芯片介紹 1.1w次閱讀
- dsp tms320c6000基本作用的認識 9580次閱讀
- 淺談TMS320C6000系列中斷設置問題 8119次閱讀
- DSP320C6000的指令列表匯集 1.1w次閱讀
- tms320c6000系列dsp編程工具與指南 淺談dsp編程 5367次閱讀
- TMS320C6000擴展總線與MPC860的HPI接口設計 1976次閱讀
- 基于DSP TMS320C6416的數字下變頻技術 2720次閱讀
- TMS320C54xx與TLV320AIC24型編解碼器接口 1745次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1489次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多