在半導體行業,有一個傳奇定律:摩爾定律,自提出以來,半導體產業界在這個規則指導下迅猛發展,在短短半個世紀內把集成電路制造工藝的特征尺寸從微米量級縮小到納米量級。如今,業界對摩爾定律的質疑聲此起彼伏,尤其格芯宣布推出7nm FinFET項目后,英特爾開始延緩7nm工藝的研究進程,摩爾定律將會走向何處?會否消失?我們不得而知,唯一可以確定的是,摩爾定律正在持續放緩,這給半導體產業的走向帶來了很多不確定性,也給eFPGA帶來了更多的機遇。
Achronix在FPGA領域深耕多年,擁有自己的FPGA開發技術,在FPGA領域總是不斷創新,這也能在用于人工智能、機器學習和網絡硬件加速應用的第四代Speedcore eFPGA IP中得到體現,為業界樹立了領先性能、功耗和成本的標準,Speedcore嵌入式FPGA IP成為業界唯一經過流片驗證過的嵌入式FPGA技術。近日,Achronix推出其第四代嵌入式FPGA產品SpeedcoreGen4 eFPGAIP,以支持客戶將FPGA功能集成到他們的SoC之中。該eFPGA獨立器件將在明年上半年量產,采用臺積電(TSMC)最新7nm工藝。據悉,他們也是第一家向SoC開發公司提供量產eFPGA IP的公司。
Achronix市場營銷副總裁Steve Mensor
Achronix市場營銷副總裁Steve Mensor稱,相較于上一代產品,Speedcore Gen4將性能提高了60%、功耗降低了50%、芯片面積減少65%,同時保留了原有的Speedcore eFPGA IP的功能,即可將可編程硬件加速功能引入廣泛的計算、網絡和存儲應用,實現接口協議橋接/轉換、算法加速和數據包處理,提供了以前僅在ASIC中才能實現的硬件加速平衡。同時,新的機器學習處理器(MLP)單元模塊可為人工智能/機器學習(AI/ML)應用提供高出300%的性能。
“不同應用對于計算的要求不同,如果需要通用靈活性,CPU最合適,如果是專用場景,ASIC最強,但在應用上不靈活。GPU和FPGA是最適合AI計算應用,只不過,GPU更適合云端計算,而FPGA則是邊緣計算。”Steve Mensor介紹道。在Speedcore Gen4架構中,Achronix將機器學習處理器(MLP)添加到Speedcore可提供的資源邏輯庫單元模塊中。MLP模塊是一種高度靈活的計算引擎,它與存儲器緊密耦合,從而為人工智能和機器學習(AI / ML)和高數據帶寬應用的爆炸式需求,提供了支持。
除以上優勢之外,Speedcore Gen在解決帶寬爆炸問題、最佳的人工智能/機器學習加速器、架構性創新提高系統性能也是Speedcore Gen4的亮點之處。
解決帶寬爆炸問題
固定和無線網絡帶寬的急劇增加,加上處理能力向邊緣等進行重新分配,以及數十億物聯網設備的出現,將給傳統網絡和計算基礎設施帶來壓力。這種新的處理范式意味著每秒將有數十億到數萬億次的運算。傳統云和企業數據中心計算資源和通信基礎設施無法跟上數據速率的指數級增長、快速變化的安全協議、以及許多新的網絡和連接要求。傳統的多核CPU和SoC無法在沒有輔助的情況下獨立滿足這些要求,因而它們需要硬件加速器,通常是可重新編程的硬件加速器,用來預處理和卸載計算,以便提高系統的整體計算性能。經過優化后的Speedcore Gen4 eFPGA已經可以滿足這些應用需求。
Speedcore Gen4是最佳的人工智能/機器學習加速器
除了計算和網絡基礎設施的通用要求之外,人工智能/機器學習還對高密度和針對性計算產生了顯著增加的需求。與以前的Achronix FPGA產品相比,新的Achronix機器學習處理器(MLP)利用了人工智能/機器學習處理的特定屬性,并將這些應用的性能提高了300%。這是通過多種架構性創新來實現的,這些創新可以同時提高每個時鐘周期的性能和操作次數。
新的Achronix機器學習處理器(MLP)是一個完整的人工智能/機器學習計算引擎,支持定點和多個浮點數格式和精度。每個機器學習處理器包括一個循環寄存器文件(Cyclical Register File),它用來存儲重用的權重或數據。各個機器學習處理器與相鄰的機器學習處理器單元模塊和更大的存儲單元模塊緊密耦合,以提供最高的處理性能、每秒最高的操作次數和最低的功率分集。這些機器學習處理器支持各種定點和浮點格式,包括Bfloat16、16位、半精度、24位和單元塊浮點。用戶可以通過為其應用選擇最佳精度來實現精度和性能的均衡。
為了補充機器學習處理器并提高人工智能/機器學習的計算密度,Speedcore Gen4查找表(LUT)可以實現比任何獨立FPGA芯片產品高出兩倍的乘法器。領先的獨立FPGA芯片在21個查找表可以中實現6x6乘法器,而Speedcore Gen4僅需在11個LUT中就可實現相同的功能,并可在1 GHz的速率上工作。
架構性創新提高系統性能
與上一代Speedcore產品相比,新的Speedcore Gen4架構實現了多項創新,從而可將系統整體性能提高60%。其中查找表的所有方面都得到了增強,以支持使用最少的資源來實現各種功能,從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個LUT的寄存器數量加倍、支持7位函數和一些8位函數、以及為移位寄存器提供的專用高速連接。
其中的路由架構也借由一種獨立的專用總線路由結構得到了增強。此外,在該路由結構中還有專用的總線多路復用器,可有效地創建分布式的、運行時可配置的交換網絡。這為高帶寬和低延遲應用提供了最佳的解決方案,并在業界首次實現了將網絡優化應用于FPGA互連。
-
半導體
+關注
關注
334文章
27502瀏覽量
219734 -
摩爾定律
+關注
關注
4文章
635瀏覽量
79095 -
人工智能
+關注
關注
1792文章
47409瀏覽量
238924
發布評論請先 登錄
相關推薦
評論