8月底,華為發布最新全球首款商用7nm AI芯片:麒麟980,在六個方面達到了世界第一。在9月20日的世界人工智能峰會上,華為麒麟AI首席科學家芮祥麟發表演講,詳細介紹了麒麟980的架構設計和性能提升,指出對算子的支持和開放是移動AI架構開發的關鍵。華為的HiAI平臺可以將硬件復雜度對用戶屏蔽,讓不懂機器學習的人也實現自己的應用。
華為于8月底重磅發布的AI芯片麒麟980在幾個方面做到了全球第一:全球首款商用7nm手機SoC芯片;全球首款Cortex-A76 Based CPU;全球首款雙核NPU;全球首款Mali-G76 GPU;全球首款1.4Gbps Cat.21 Modem;全球首款支持2133MHz LPDDR4X的手機SoC芯片。
9月20日,在北京國家會議中心舉辦的AI World 2018世界人工智能峰會上,華為麒麟AI首席科學家芮祥麟博士發表了題為《麒麟980:移動AI的發動機》的演講。
芮祥麟博士詳細介紹了麒麟980芯片的設計和性能提升,以及麒麟980的融合能力開放架構中非常重要的HiAI Foundation。HiAI Foundation能力向搭載麒麟970,麒麟980的華為手機全部開放,具有強大的計算能力、多框架支持、更加豐富的算子和更加方便快捷的集成等優勢。
在目前數據隱私保護情況下,很多事情實際上無法單獨由云上的計算力完成,必須要在端側完成。
這是非常復雜的多目標的優化問題,存在能耗、內存上的限制,而且在各種場景下有不同的需求。華為的一個主要目的就是能夠在端側開發出很好的芯片,能夠將盡量多的處理能力在端側完成,在最大程度上提升用戶體驗。
以下是芮祥麟博士的演講內容:
芮祥麟:大家好,我是華為麒麟AI的首席科學家芮祥麟,很榮幸參加AI World 2018大會,跟大家一起分享一些成果。
從芯片的角度出發,我選擇的題目是《Mobile AI發動機:麒麟980》。
在現在這個時刻講這個題目,挑戰很大。一年前,華為麒麟970 AI芯片是第一個開發出來,也是第一個產品化的。過去一段時間內,各大企業在AI芯片上的投入風起云涌,但我們相信,新一代麒麟980芯片仍然是領先群雄的。
我想先回顧一下去年推出麒麟970之后整個市場的反應,確實有質疑聲,但絕大部分都是相當正面的評價,也有一些客戶提出了比較好的建議。我們根據市場和合作伙伴的反饋,進一步對芯片進行改良和升級,就是今天給大家介紹的麒麟980。
麒麟980:六項世界第一,不同CPU配置滿足動態需求
前一段時間已經有很多媒體報道,麒麟980在幾個方面做到了世界第一:全球首款7納米SoC芯片,全球首款基于Cortex A76 CPU定制開發,全球首款雙核NPU,全球首款商用Mali G76 GPU,全球率先支持LTE Cat.21,峰值下載速率達到1.4Gbps,全球首款可以支持LPDDR4X顆粒,最高主頻達到2133Mhz。
CPU是8核,不同大小的核適合各個不同的需求,NPU是雙核的。其他包括Modem、DDR,還有ISP,整個設計工程相當復雜,這是大批一流專家共同努力的成果。
從麒麟920開始,到950、970、980,這是一個不斷成長的過程,麒麟980集成了69億晶體管,芯片面積持續縮小,晶體管密度持續提升。這樣做是為了能夠在非常有限的面積內降低能耗,提高計算力。
在芯片方面,CPU是由兩個高性能的超大核,兩個高能效的大核,加上四個高能效的小核一起協作。在應用方面,播放音樂只需打開CPU的小核,在社交應用場景用高能效的大核加上三個小核。進入重負載的游戲場景,就需要八個核都要用上。
針對不同的場景,比如音樂、導航、通話或拍照,我們動員了各個不同的核,這是一個基于能耗、響應速度、內存應用的復雜考量,是我們的工程師優化的結果。
可以看到,全球首款7納米SoC芯片上,在各方面都有了很大提升,相比麒麟920,晶體管密度提高了6.8倍,性能方面提高了2.5倍,能效方面提高了4倍。
以圖像識別速度為例,我們比友商1、友商2提高很多,基本上可以說快了3倍。在AI性能方面,跟友商的芯片比起來,用Resnet4或Inception V3測試參考,無論能效還是性能方面都有很大的提升。計算力方面,我們用三個場景來進行比較,物體識別、實時圖像處理,實時分割。
麒麟970可以做輪廓、圖片以及一些粗略的分割,但是在麒麟980可以做得更細致,對整個姿態、形狀、細節能夠做到很好的視頻處理,在分割方面也更精準。
圖中最底層是整個SoC布局,如何基于SoC布局提供更好的能力?在ISP方面,我們能夠提供低延遲的視頻處理流水線和高質量圖象處理流水線,這些流水線可以執行一些基本的AI任務,在視頻方面,可以進行人體關節檢測識別,還有姿態識別。
圖片方面的任務更多,文本識別、圖像超分、圖像降噪、RGB還原等。在視頻方面,可以執行主體識別、區域分割、主體摳圖,這些提供了一些基礎的能力模塊,能夠高效支撐AR SLAM,做到視頻流姿態提取、地圖重建等。這些功能不只是我們自己用,也通過API開放給第三方。可以支持第三方的AR APP、視頻APP和圖片APP。
開放架構支持自定義算子,提升芯片集成調動能力
這張圖上,最底層是SoC結構,有很好的傳感器處理,DDK是我們的庫,還有API,配合攝像頭,可以提供Camera DDK,做到前光、暗光、高動態、高分辨率,在AR DDK方面提供 SLAM算子加速、人臉建模、跟蹤能力等1000多個能力。我們有33個API,147個算子支持。
算子支持非常關鍵,各個框架的算子都很多,我們支持147個算子,而且支持更開放的能力,支持自定義算子,并將這些算子和硬件特性實現很好地適配。同樣都叫算子,比如LSTM,當映射到芯片層面上時,如何能夠最大化地發揮芯片的計算力,做到最大化地降低能耗、響應迅速,這些都是要仔細思考的問題。我們在算子層面的開放更快、更有彈性,適配性更強。
整個軟件棧的最底層是我們的SoC,上面是驅動器,這里面有調度系統,可以發揮集成調度能力,以及CPU、GPU、DSP、NPU的綜合能力。這有點像機器學習中所謂“集成學習”,也就是執行各種架構的芯片的集成調度能力。它支持谷歌的在線推理,也支持離線推理。
這兩個模型各有優缺點。根據使用場景以及模型的復雜度的不同,我們做到二者都能夠支持。當然,也會支持一些通用框架,比如Caffe、TensorFlow各個應用,提供端到端的開發工具鏈,即集成開發環境,同時支持很方便的編譯器和顯示工具。
每個不同結構的處理器都能夠發揮作用,NPU專門針對張量計算。我們的核可以快速處理特殊指令集、特殊結構,能夠很快地處理高維度的張量運算。如果把一個算法拆開,事實上到了芯片層面,就只剩下張量運算、矢量運算、標量運算。矢量運算多半用于圖象處理以及大規模的并行處理,標量運算通常是處理一些控制指令集,邏輯控制,和一些通用的運算。
比如要估算模型的生命周期,實現從模型產生到模型格式的自動轉換,就可以生成一個離線模型,它的執行效率會更高,運算速度更快,可以加載到NPU上面做各種運算。
跟CPU相比,以NPU為驅動的處理架構的整個性能提升了25倍,整個能效提高了50倍,甚至在整個NPU和CPU混合調度情況下,也能有非常好的收益。在算子的支持方面,我們至少在AI芯片的級別上還保持領先,經過一年的積累,整個算子的豐富度、復雜度,每顆算子的性能都提升了很多。
HiAI Foundation:讓不懂機器學習的用戶實現自己的應用
我們的HiAI開放架構已經走了一年,去年這個時候是麒麟970配合Mate10發布,經過一年的努力,我們對于整個生態,對于端側AI框架需求有了更深的體驗,我們會繼續走下去。
我們的目標是:第一,希望能夠設計出更好的芯片,增加算力。第二,希望能夠對用戶屏蔽設計方案的硬件復雜度,也就是說,使用很簡單的接口,讓不太懂機器學習的客戶也能調用接口,實現他們自己的應用。
如果客戶對機器學習有一定接觸,可以利用我們的接口很快搭建出一個模型及其訓練優化方案,這些都是我們希望能夠通過HiAI平臺實現的目標。
整個計算在手機上面可以做到姿態識別、對象跟蹤,這些都不是在云上計算的,而是將整個模型搬到端側來實現,模型大小適中,處理速度很快,我們為此也感到非常驕傲,我個人也參與過一些模型的構建。
最后說一說我們為什么如此專注開發AI芯片。在目前數據隱私保護形勢下,很多事情無法單獨由云上的計算力完成,必須要在端側去完成。這是非常復雜的多目標的優化問題。
這往往要面對能耗和內存的雙重限制,面對各種場景下的不同需求。比如在車載應用中要求響應速度很快,對各種圖片和視頻的處理精確度要求比較高,在聲音方面,降噪的要求就非常高,如何能夠利用GAN的方式去把聲紋和內容分開,這中間往往牽扯到個人隱私。
我們的主要目的是要在端側方面開發出高性能的芯片,將盡量多的處理過程在端側完成,爭取提供最好的用戶體驗。
-
芯片
+關注
關注
455文章
50732瀏覽量
423278 -
麒麟980
+關注
關注
5文章
399瀏覽量
22268
原文標題:華為芮祥麟:讓麒麟980成為未來移動AI的發動機
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論