過去幾年,數字化、信息化推動社會和產業發生了巨大的變革,在這個過程當中,數據中心充當了重要的角色。尤其是伴隨著人工智能迅速滲透到各領域的方方面面,龐大的應用場景使得AI模型日驅復雜。在這種形勢之下,企業對數據中心的計算能力提出了更高的需求,而算力的核心就是芯片。
正是基于這個原因,近年來全球涌現出不少致力于AI芯片開發的企業,燧原科技就是其中之一。在成立之初,公司就瞄準了云端訓練芯片市場缺口,并提出了“做大芯片,拼硬科技”的目標。
在這種愿景的驅動下,從2018年3月成立至今的短短2年半時間內,燧原科技就陸續發布了云端AI訓練芯片“邃思DTU”、搭載該芯片的AI加速卡“云燧T10”以及基于OCP加速模組OAM的“云燧T11”。2020年9月,燧原科技再次迎來了里程碑式的突破其第一代人工智能訓練加速卡云燧T10和由其組成的多卡分布式訓練集群已在云數據中心落地,正式進入商用階段。
近日,燧原科技攜“云燧T10/T11” 首次亮相第三屆全球IC企業家大會暨第十八屆中國國際半導體博覽會(IC China 2020),在本次大會期間,燧原科技的負責人和相關專家為我們介紹了AI芯片實現商用的過程中存在著諸多挑戰,以及燧原科技作為一家初創企業又是怎樣完成了云端AI大芯片的迅速商用化落地。
AI大芯片落地的難點
眾所周知,新場景對算力的需求,使得AI芯片在設計、制造和封測等方面進行了升級,由此也促生了很多新技術,這不僅為大量初創企業帶來了發展機會,也同樣為他們帶來了諸多的挑戰。以芯片設計為例,設計企業需要在架構、IP、SoC等方面進行創新。而芯片越大,則意味著整個芯片設計難度也會呈指數級上升,這為設計企業帶來了難題。除此之外,AI芯片要處理大量的數據,所以這類芯片對性能的要求就導致了它對先進工藝和先進封裝方面也具有較高的要求。
而在解決了在這三個環節中的問題后,也僅僅是企業成功推出了相關產品,離實現商業化落地還存在著一段距離。
“量產是AI大芯片實現商用要翻越的一座大山”,燧原科技創始人兼COO張亞林表示:“在推出產品到實現量產的過程中,需要解決產品質量、性能功耗以及良率這三大核心問題。”
為了保證產品質量,燧原科技通過用驗證方法學和驗證覆蓋率來確保芯片設計質量和制造質量。在性能功耗優化方面,則通過軟硬件聯合性能以實現端到端的性能調優,這包括三個部分,即進行芯片性能極限測試、硬件性能調優以及軟件性能優化。在良率方面,存在著晶圓測試(CP)良率挑戰、2.5D封裝良率挑戰以及分級良率挑戰。對此,燧原科技選擇了與產業鏈上下游伙伴共同合作來提高產品良率。
除了在技術層面上存在產業化應用的挑戰外,與之相匹配的軟件生態系統也是AI大芯片難以落地的另一重要因素。
為此燧原科技推出了計算及編程平臺“馭算”。據介紹,該平臺支持主流深度學習框架,并針對邃思芯片進行了特定優化。整個平臺不僅包括傳統的算子加速庫,還為數據中心大規模訓練集群提供高效靈活的調度機制。
(馭算軟件架構)
大芯片背后的硬科技
實現量產是商業化過程中重要的一環,量產后走向市場并受到市場的青睞則是更重要的環節,而這就需要依靠產品的硬實力。
通過相關技術降低芯片成本,也是云端AI訓練芯片硬實力的一種體現。其中,芯片架構的創新是實現算力普惠的一個重要因素。
借本次全球IC企業家大會的機會,燧原科技創始人兼首席執行官趙立東發布了燧原科技的芯片架構“GCU-CARA”(通用計算單元和全域計算架構)。據趙立東介紹,該架構具有完全可編程、全模式計算、全精度計算和高并行度的特點。
據現場燧原科技專家介紹,GCU-CARA具有256個張量計算單元,每個計算單元支持1個32 bit MAC,支持所有精度輸入以及混合精度運算。GCU-CARA擁有廣泛的標量、向量、張量計算形式以及各種精度格式的支持,可以提供極其靈活的編程方式和張量切分/復用方式,從而支持最廣泛的編程需求。
據悉,燧原科技GCU架構還包括GCU-CARE(計算引擎)、GCU-DARE(數據架構)、GCU-LARE(智能互聯)、GCU-PARE(先進封裝)四大核心技術,旨在為人工智能產業注入了新動能。
目前,燧原GCU已應用到云燧T10,T11產品以及數據中心AI訓練系統和集群中。而今年云燧T10和由其組成的多卡分布式訓練集群正式進入商用階段,也從另一方面說明了燧原科技的硬實力受到了市場的認可。
燧原科技開啟2.0時代
在云燧T10實現商用化落地的前四個月,燧原科技還獲得了新一輪的融資,借助這輪融資,燧原科技得以從1.0跨越到了2.0時代。
張亞林表示:“在1.0時代,燧原科技實現了從0到1的目標,在這個階段公司的工作重心是放在建設中國頂尖的工程化團隊,完成產品研發和量產、實現產品熱啟動,并完成首個人工智能訓練解決方案的商業化落地?!?/p>
已經實現商用的云燧T10和由其組成的多卡分布式訓練集群是燧原科技完成1.0階段任務的代表作之一。從上文AI大芯片的商用落地難處便可看出,僅靠一塊芯片或是一種產品難以支撐云端服務器的使用。從目前市場情況來看,由AI芯片所組成的分布式集群在云端服務器發展的過程中起到了重要作用,針對這種商業訴求,燧原科技所推出的多卡分布式訓練集群,就能夠為普惠云端訓練的實現提供助力。
“多卡分布式集群的建成并不是一件簡單的事”,張亞林表示:“在這個過程中,燧原科技需要解決多卡之間連接問題,還需要考慮每個板卡的工作分配,使之在盡可能小的功耗下發揮出最高的性能?!?/p>
人工智能訓練平臺的商業化落地不僅為燧原1.0畫上了完美的通關句號,還為燧原科技打開了通往2.0時代的大門。
“2.0時代,燧原科技將進行從1到N的發展”,據張亞林介紹:“在2.0時代,燧原科技會專注于建立市場銷售和服務支持體系,迅速拓展業務。同時,公司還將加強國內外學術端的合作,引進高端人才,構建產業生態?!?/p>
在產品規劃方面,作為一個務實的企業,實現商業化落地是燧原科技所追求的目標之一。以此為基礎,燧原科技在進行芯片設計之初就瞄準了市場痛點,大大加速了產品的商業化進程。
張亞林表示:“未來,燧原科技也將以應用為導向,進行產品的拓展。在2.0時代,燧原科技還會持續產品的研發和迭代,構建云端訓練和推理平臺完整解決方案。為了實現這一目標,燧原科技將會在明年推出推理AI芯片?!?/p>
根據燧原科技的計劃來看,公司將用3年時間來構建燧原科技2.0時代。
燧原科技之所以能夠在短時間內得到如此迅速的發展,是因為云端AI訓練芯片還處于起步階段,算法和架構方面還有很大的上升空間。從云端訓練芯片巨頭英偉達的發展中看,2019年其數據中心業務營收達到30億美元,AI訓練卡則貢獻了其中的20億美元和最大利潤。
而英偉達幾乎壟斷了云端AI訓練芯片市場,一家獨大的市場情況就導致了AI云端訓練的成本很高。而燧原科技瞄準這塊市場,就是期望能夠提供可替代的解決方案來推動普惠算力的實現。
據張亞林介紹,燧原科技瞄準的是云端計算芯片的存量和增量兩大市常存量市場指的是目前已有的,并可進行方案替代的市場,例如云服務商等領域。增量市場則是未來通過技術迭代并進行方案替代的市常
他表示:“在國外廠商已經構建了強大的優勢之下,其他廠商要想進入這個市場首先就要適應已有的生態系統,通過提供可替代的解決方案是打入這個市場方法之一。這也是為未來突破國外廠商壟斷所奠定的基矗”
從國內云端AI芯片競爭格局來看,由于現階段國內致力于發展云端AI芯片的企業并不多,且在市場前景巨大的情況下,搶先爭取相關人才和發展生態合作伙伴就成為了驅動企業未來發展的重要引擎之一。而這也是上文所提到的,燧原科技要在2.0時代大力發展的部分之一。
因此,燧原科技正在積極與全產業鏈的伙伴達成合作,聯合伙伴孵化行業解決方案,深度參與AI產業聯盟;積極建立生態,聯合建立高校聯合實驗室;并開放底層能力,賦能定制開發,深度參與社區,貢獻測評標準。
結語
在算力即是生產力的今天,業界對普惠算力的需求日益高漲。在這種市場需求之下,在云端訓練芯片這片藍海當中,雖然存在著諸多門檻,但這更是機會。在這段探求之路上,燧原科技的成長也為國內云端AI芯片實現商業化提供了一條發展之道。
責任編輯:YYX
-
人工智能
+關注
關注
1792文章
47442瀏覽量
239004 -
云端
+關注
關注
0文章
120瀏覽量
16892 -
AI芯片
+關注
關注
17文章
1894瀏覽量
35103
發布評論請先 登錄
相關推薦
評論