色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么樣的芯片才能夠真正適應(yīng)終端智能的需求

M8kW_icbank ? 來源:互聯(lián)網(wǎng) ? 作者:佚名 ? 2018-01-29 09:07 ? 次閱讀

2017年,人工智能最火的風(fēng)口一定是AI芯片

AI芯片的出現(xiàn),與深度學(xué)習(xí)技術(shù)的成熟及應(yīng)用密不可分。深度學(xué)習(xí)的過程可以簡化理解為利用大量標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練出一個(gè)行之有效的模型,再將這一模型運(yùn)用于新數(shù)據(jù)的推斷。

這個(gè)耳熟能詳?shù)谋?a href="http://www.1cnz.cn/v/tag/2562/" target="_blank">算法是建立在多層大規(guī)模神經(jīng)網(wǎng)絡(luò)之上的,后者本質(zhì)上是包含了矩陣乘積和卷積操作的大運(yùn)算量函數(shù)。往往需要先定義一個(gè)包含回歸問題的方差、分類時(shí)的交叉熵的代價(jià)函數(shù),再數(shù)據(jù)分批傳遞進(jìn)網(wǎng)絡(luò),根據(jù)參數(shù)求導(dǎo)出代價(jià)函數(shù)值,從而更新整個(gè)網(wǎng)絡(luò)模型。這通常意味著至少幾百萬次的相乘處理,計(jì)算量巨大。通俗來說,包含了數(shù)百萬次A*B+C的計(jì)算,算力消耗巨大。

為解決這一問題,AI芯片應(yīng)運(yùn)而生。2017年開始,圍繞AI芯片,半導(dǎo)體行業(yè),戰(zhàn)事升級(jí),賽場(chǎng)上新老玩家暗潮涌動(dòng),連橫合眾,大有“AI芯片太多,設(shè)備都不夠用了”之勢(shì)。

時(shí)間進(jìn)入2018年,備受關(guān)注的大小公司都將正式推出自研AI芯片。這些芯片也都被業(yè)界寄予厚望,是否能解決或者部分解決終端計(jì)算難題?什么樣的芯片才能夠真正適應(yīng)終端智能的需求?

這些都是我們十分好奇且關(guān)注的問題。于是也與一些創(chuàng)業(yè)者進(jìn)行了交流。本文即是其中的一篇,來自于與探境科技CEO魯勇的訪談。目前探境科技正研發(fā)適用于終端的AI芯片,在創(chuàng)業(yè)前魯勇曾在芯片廠商Marvell任高管,從事過存儲(chǔ)芯片的相關(guān)工作,而存儲(chǔ)正是計(jì)算之外所有芯片另一核心。基于過往的經(jīng)歷、經(jīng)驗(yàn)與觀察,魯勇認(rèn)為,做適用于終端的AI芯片,除了要在計(jì)算方面提升,存儲(chǔ)優(yōu)化同樣至關(guān)重要。

以下為正文,來自36氪對(duì)魯勇的訪談內(nèi)容,36氪基于訪談內(nèi)容對(duì)其觀點(diǎn)進(jìn)行了整理。

AI算法在芯片實(shí)現(xiàn)時(shí)遇到的核心問題不是計(jì)算資源而是存儲(chǔ)問題,強(qiáng)如GPU提供眾多的計(jì)算資源,而實(shí)際計(jì)算能力與計(jì)算資源大為降低。

概括來說,存儲(chǔ)問題分為兩個(gè)部分,一個(gè)是帶寬問題,一個(gè)是功耗問題,這兩個(gè)問題的解決其實(shí)也是耦合在一起的。

具體來說,深度學(xué)習(xí)算法使用大量存儲(chǔ)資源,即包括靜態(tài)模型參數(shù),也包括網(wǎng)絡(luò)層之間的動(dòng)態(tài)數(shù)據(jù)。對(duì)于靜態(tài)模型參數(shù)權(quán)重,動(dòng)輒幾十兆上百兆樣本數(shù)量,無法在片上SRAM保存,因此需要存入外部DRAM。DRAM與AI計(jì)算芯片間帶寬有限,如果芯片上計(jì)算資源很大,但受存儲(chǔ)帶寬的瓶頸限制,實(shí)際計(jì)算力大為下降。

打比方來說,負(fù)責(zé)存儲(chǔ)的DRAM和與負(fù)責(zé)計(jì)算的芯片就像是位于河兩岸的倉庫,整個(gè)運(yùn)算的過程可以類比從存儲(chǔ)的倉庫搬取數(shù)據(jù)、搬運(yùn)過橋,將數(shù)據(jù)搬入計(jì)算的單元進(jìn)行處理,并高速循環(huán)往復(fù)。而當(dāng)前的AI芯片技術(shù)重點(diǎn)提升將數(shù)據(jù)搬入計(jì)算單元后的處理速度,但因?yàn)榘岢鰯?shù)據(jù)、過橋的過程基本未發(fā)送變化,因此整體的效率提升還相對(duì)有限。

與之對(duì)應(yīng)的方法即是克服存儲(chǔ)帶寬的手段:一是減少數(shù)據(jù)量,降低所需數(shù)據(jù)帶寬,就是說想辦法只要從倉庫搬出少量數(shù)據(jù),就可以達(dá)到同樣的效果;二是更科學(xué)的調(diào)度數(shù)據(jù)使用,提升調(diào)度的效率。

(1)減少數(shù)據(jù)容量

如果數(shù)據(jù)量降低了,這將總體上減少對(duì)DRAM的訪問,在DRAM物理帶寬保持不變的前提下,降低了DRAM的依賴性,提高了整體性能,同時(shí)減少DRAM訪問也將大幅減少系統(tǒng)功耗開銷。因此首先需要解決的問題是減少靜態(tài)參數(shù)權(quán)重的大小。通常的解決辦法包括參數(shù)定點(diǎn)化,將每個(gè)32bit浮點(diǎn)數(shù)減少為16bit以下的定點(diǎn)數(shù),至少能降低50%甚至75%的存儲(chǔ)容量,也同樣幅度的降低了存儲(chǔ)帶寬的需求。實(shí)踐證明16bit定點(diǎn)化可以采用線性量化的方式,而16bit以下定點(diǎn)化根據(jù)模型的不同,有些需要采用非線性量化才可以達(dá)到維持模型性能的目的。

目前主要有模型剪枝、設(shè)計(jì)適于終端設(shè)備的簡化網(wǎng)絡(luò)兩種實(shí)現(xiàn)方式。模型剪枝作為進(jìn)一步降低模型容量和存儲(chǔ)帶寬的方式,是基于神經(jīng)網(wǎng)絡(luò)模型存在大量冗余信息的基礎(chǔ),而另一種從源頭開始重新設(shè)計(jì)適于終端設(shè)備的簡化網(wǎng)絡(luò)的方式也在逐漸興起,從同樣規(guī)模的網(wǎng)絡(luò)性能來看,新設(shè)計(jì)的網(wǎng)絡(luò)可能比舊網(wǎng)絡(luò)通過剪枝再訓(xùn)練的方式更為簡單快捷,性能也更好。

(2)更科學(xué)的調(diào)度數(shù)據(jù)使用

深度學(xué)習(xí)的計(jì)算大量使用乘累加,即完成AXB+C的工作,這種乘累加單元(MAC)每次運(yùn)算需要三個(gè)輸入,完成一個(gè)輸出。參與運(yùn)算的數(shù)據(jù)包括事先準(zhǔn)備好的權(quán)重參數(shù)和網(wǎng)絡(luò)層產(chǎn)生的中間數(shù)據(jù)。每個(gè)乘累加完成后的輸出通常也會(huì)作為下一次運(yùn)算的輸入,因此如何調(diào)度這些數(shù)據(jù)成為關(guān)鍵。

功耗角度來說,從DRAM獲取數(shù)據(jù)所消耗的功耗最大,從SRAM中獲取數(shù)據(jù)其次,從本地寄存器中獲取數(shù)據(jù)消耗功耗最低,但從成本角度考慮剛好相反,因此這三個(gè)不同層次的存儲(chǔ)器的使用非常關(guān)鍵,我們希望盡可能減少DRAM的訪問,最理想的結(jié)果是僅從DRAM中讀取一次事先存好的模型參數(shù),而不依賴DRAM做任何其他工作。

從宏觀上看,整個(gè)深度學(xué)習(xí)運(yùn)算計(jì)算一次,進(jìn)入MAC的總數(shù)據(jù)量遠(yuǎn)大于靜態(tài)數(shù)據(jù)的容量,因?yàn)闊o論是模型參數(shù)還是中間數(shù)據(jù)都多次被重復(fù)使用,因此實(shí)際所需的數(shù)據(jù)帶寬非常大,并且當(dāng)所有這些數(shù)據(jù)都僅通過DRAM被緩存使用時(shí),其功耗開銷也是驚人的,因此充分利用各級(jí)緩存的特性非常重要,設(shè)計(jì)一個(gè)合理的數(shù)據(jù)流,將多次被重復(fù)使用的數(shù)據(jù)放在離計(jì)算資源較近的地方,少量讀取的數(shù)據(jù)放在DRAM中,將提高計(jì)算性能,降低系統(tǒng)功耗。

那么問題來了,如何才能設(shè)計(jì)一款真正適用于終端的AI芯片。

簡單的設(shè)計(jì)一個(gè)卷積加速器并不能帶來深度學(xué)習(xí)計(jì)算性能上的提高,合格的計(jì)算架構(gòu)需要結(jié)合對(duì)存儲(chǔ)問題的分析來設(shè)計(jì),不僅要考慮計(jì)算架構(gòu),也要考慮存儲(chǔ)的數(shù)據(jù)流控制,因此深度學(xué)習(xí)的計(jì)算特點(diǎn)并非是一個(gè)簡單粗暴的并行計(jì)算問題。

首先還是要考慮浮點(diǎn)和定點(diǎn)計(jì)算的問題,8 位的整數(shù)乘法比IEEE 754標(biāo)準(zhǔn)下16位浮點(diǎn)乘法降低 6 倍的能耗,占用的芯片面積也少 6 倍;而整數(shù)加法的差異是13倍的能耗與38倍的面積,因此終端AI芯片采用定點(diǎn)計(jì)算將獲得巨大收益。當(dāng)定點(diǎn)成為設(shè)計(jì)目標(biāo)的時(shí)候,要充分考慮軟硬件的結(jié)合,不同網(wǎng)絡(luò)對(duì)定點(diǎn)位數(shù)的影響程度是不一樣的,數(shù)據(jù)量化的具體方式也有差異,有線性量化也有非線性量化的方法,因此針對(duì)應(yīng)用場(chǎng)景結(jié)合軟件協(xié)同設(shè)計(jì)非常有必要。

其次深度學(xué)習(xí)不是簡單粗暴的并行計(jì)算但仍然有明顯的并行計(jì)算特征,因此考慮存儲(chǔ)問題后放入更多的計(jì)算資源會(huì)大幅提高計(jì)算性能。首先將最多被重復(fù)使用的數(shù)據(jù)放在接近計(jì)算資源的地方,這符合較為流行的In Memory Computing(存儲(chǔ)計(jì)算一體化)的思想,并且考慮到當(dāng)前工業(yè)水平,這更為實(shí)際,而通過重新設(shè)計(jì)包括計(jì)算單元的存儲(chǔ)單元或采用ReRAM等方式是未來的 發(fā)展方向。

第三要考慮到深度學(xué)習(xí)數(shù)據(jù)的另一重要特性,即數(shù)據(jù)稀疏化特性,也就是說在參與運(yùn)算的數(shù)據(jù)中有大量的零值數(shù)據(jù)存在,這些零值數(shù)據(jù)即可以在存儲(chǔ)中被壓縮存放,降低存儲(chǔ)容量和帶寬需求,也可以在計(jì)算中被進(jìn)一步調(diào)度,減少運(yùn)算壓力,提高運(yùn)算的有效性能。這些零值數(shù)據(jù)不僅存在于模型參數(shù)中,也大量存在于神經(jīng)網(wǎng)絡(luò)各層運(yùn)算的中間數(shù)據(jù)中,這兩方面都需要進(jìn)行考慮。稀疏數(shù)據(jù)在多核心并行計(jì)算中的調(diào)度是個(gè)復(fù)雜的問題,而不同網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)帶來不同的影響,因此將軟硬件協(xié)同設(shè)計(jì),動(dòng)態(tài)調(diào)度的調(diào)度器是非常復(fù)雜的設(shè)計(jì)難點(diǎn)。

最后要考慮針對(duì)不同網(wǎng)絡(luò)的資源有效利用率問題,由于神經(jīng)網(wǎng)絡(luò)差異化較大,如果希望針對(duì)不同網(wǎng)絡(luò)都有較高的資源有效利用率,則需要在較細(xì)的顆粒度上進(jìn)行優(yōu)化,進(jìn)一步加深了數(shù)據(jù)流調(diào)度器的復(fù)雜度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50773

    瀏覽量

    423432
  • 終端
    +關(guān)注

    關(guān)注

    1

    文章

    1132

    瀏覽量

    29871
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30833

    瀏覽量

    268996
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47245

    瀏覽量

    238397

原文標(biāo)題:如何設(shè)計(jì)一款適用于終端的AI芯片

文章出處:【微信號(hào):icbank,微信公眾號(hào):icbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AIC3254要怎么做才能夠做到反饋抑制呢?

    設(shè)計(jì),連編譯都無法通過。各位大俠,到底怎么辦呢,期待各位大俠的幫助,謝謝了,萬分感謝。AIC3254要怎么做,才能夠做到反饋抑制呢?
    發(fā)表于 11-08 07:49

    數(shù)據(jù)線芯片-數(shù)據(jù)線智能控制芯片EN16F

    控制:智能控制芯片能夠識(shí)別連接的設(shè)備類型,并根據(jù)設(shè)備需求調(diào)整通信協(xié)議和電源管理策略。同時(shí),它們還提供用戶接口控制功能,如LED指示燈或觸摸屏反饋,以顯示連接狀態(tài)和數(shù)據(jù)傳輸活動(dòng)。 隨著
    發(fā)表于 09-27 11:04

    IP地址與智能家居能夠碰撞出什么樣的火花呢?

    感應(yīng)燈、遠(yuǎn)程遙控空調(diào),自動(dòng)感應(yīng)窗簾——智能家居已經(jīng)在正逐步走入我們的生活,為我們帶來前所未有的便捷與舒適體驗(yàn)。而在這一進(jìn)程中,IP地址又能夠智能家居碰撞出什么樣的火花呢? 一、IP地
    的頭像 發(fā)表于 09-24 11:21 ?243次閱讀

    怎么才能夠將正弦波的直流分量取出?

    請(qǐng)教怎么才能夠將正弦波的直流分量取出,(我用低通濾波之后噪聲很大)
    發(fā)表于 09-19 06:13

    代碼整潔之道-大師眼中的整潔代碼是什么樣

    幾個(gè)月前寫了一篇文章“如何寫出難以維護(hù)的代碼”,從中能大概了解到不好維護(hù)的代碼是什么樣,有哪些壞味道,那肯定有人會(huì)反問,難以維護(hù)的代碼見的太多了,也知道長什么樣,但是對(duì)于好維護(hù)的代碼是什么樣的比較
    的頭像 發(fā)表于 09-09 16:30 ?336次閱讀
    代碼整潔之道-大師眼中的整潔代碼是<b class='flag-5'>什么樣</b>

    億鑄科技談大算力芯片面臨的技術(shù)挑戰(zhàn)和解決策略

    隨著人工智能技術(shù)的飛速發(fā)展,算力已成為推動(dòng)產(chǎn)業(yè)變革的關(guān)鍵力量,但大模型的快速發(fā)展,參數(shù)的爆發(fā),對(duì)于算力需求也提出了更高的要求,帶來了全新的挑戰(zhàn)。那大算力芯片應(yīng)對(duì)這些挑戰(zhàn),如何才能夠助力
    的頭像 發(fā)表于 08-07 10:03 ?766次閱讀

    OPA354應(yīng)該以什么樣的電容負(fù)載標(biāo)準(zhǔn)去使用?

    OPA354這個(gè)電路spec上,開環(huán)增益和相位并沒有說明搭載的負(fù)載電容是多大。請(qǐng)問在使用芯片時(shí),應(yīng)該以什么樣的電容負(fù)載標(biāo)準(zhǔn)去使用呢。
    發(fā)表于 08-02 08:05

    RISC-V適合什么樣的應(yīng)用場(chǎng)景

    解決方案,適用于邊緣計(jì)算、智能攝像頭、智能音箱等場(chǎng)景。 靈活性:RISC-V的開放性使得其能夠更容易地與各種AI框架和算法集成,滿足不同的AI應(yīng)用需求。 4. 自動(dòng)駕駛和汽車電子 定制
    發(fā)表于 07-29 17:16

    芯片需求上漲?終端工廠加班是假象?

    芯片
    芯廣場(chǎng)
    發(fā)布于 :2024年07月03日 19:16:48

    STM32H743ZIT6想要實(shí)現(xiàn)千兆網(wǎng)口,需要外掛什么樣的PHY芯片

    各位大佬,我想咨詢一個(gè)問題,關(guān)于STM32H743ZIT6想要實(shí)現(xiàn)千兆網(wǎng)口,需要外掛什么樣的PHY芯片,謝謝
    發(fā)表于 05-31 07:59

    Endpoint端點(diǎn)如何做才能夠達(dá)到不需要PC端手動(dòng)IN就將數(shù)據(jù)往上推送?

    您好,我想問一下Endpoint端點(diǎn)如何做才能夠達(dá)到不需要PC端手動(dòng)IN就將數(shù)據(jù)往上推送? 使用的是FX3芯片,其中我發(fā)現(xiàn)在鼠標(biāo)HID范例中,它就是不需要電腦IN,只要在某一個(gè)GPIO口觸發(fā)之后
    發(fā)表于 05-27 08:29

    FPGA能實(shí)現(xiàn)什么樣的算法?

    FPGA功能如此強(qiáng)大,請(qǐng)問用FPGA能實(shí)現(xiàn)或者比較適合實(shí)現(xiàn)什么樣的算法?
    發(fā)表于 05-26 20:18

    什么樣的負(fù)載電容可以起振?又需要匹配多大的電容值才能快速響應(yīng)起振呢?

    什么樣的負(fù)載電容是可以起振?又需要匹配多大的電容值才能快速響應(yīng)起振呢? 負(fù)載電容是指連接在振蕩電路輸出端的電容元件。振蕩電路中的負(fù)載電容起著重要的作用,它不僅決定了振蕩的頻率,還影響了振蕩電路
    的頭像 發(fā)表于 01-26 14:07 ?747次閱讀

    簡單分析火車的供電示意圖

    不知你注意沒有,火車的用電都是用一根電線,并不是和家庭用的電一是兩根電線。都知道電器要工作必須有兩根電線才行,這樣才能夠構(gòu)成一個(gè)回路,電流才能夠流通。
    的頭像 發(fā)表于 01-03 11:08 ?2079次閱讀
    簡單分析火車的供電示意圖

    ADIS16375的陀螺儀輸出角度是個(gè)什么樣的角度?

    想知道ADIS16375這款I(lǐng)MU的輸出角度是個(gè)什么樣的角度?是不是姿態(tài)角?其參考坐標(biāo)系是什么?輸出角的實(shí)時(shí)精度是多少?ADIS16365、ADIS16334、ADIS16445、ADIS16485這四款I(lǐng)MU能夠輸出角度嗎?若果能,分別是
    發(fā)表于 12-29 06:17
    主站蜘蛛池模板: 男人扒开添女人下部口述| 小蝌蚪视频在线观看免费观看WWW| 一抽一出BGM免费50分动漫| tube69hdxxxx日本| 久久影院一区| 亚洲国产综合另类视频| 高肉黄暴NP文公交车| 高清无码中文字幕影片| 免费人妻AV无码专区五月| 亚洲无线观看国产| 国产偷抇久久精品A片蜜臀AV| 日本艳妓BBW高潮一19| 99久久免费国产精精品| 久久只精品99品免费久| 亚洲色图在线观看视频| 国产亚洲精品AAAAAAA片| 探花口爆颜射乳交日韩| 成人国产在线观看| 欧美精品久久久久性色AV苍井 | 久热这里只有精品99国产6| 亚洲VA天堂VA欧美VA在线 | 狠狠色丁香婷婷久久综合五月 | 国产国拍亚洲精品永久软件| 欧美性最猛xxxx在线观看视频| 《乳色吐息》无删减版在线观看 | 久久国产影院| 亚洲视频精品| 国内精品自产拍在线少密芽| 小小水蜜桃视频高清在线观看免费| 囯产精品久久久久久久久蜜桃| 欧美一区二区在线观看| AV无码九九久久| 欧美乱妇15p图| bbw videos 欧美老妇| 嫩草成人影院| bt天堂午夜国产精品| 欧美日韩高清一区二区三区| china18一19 第一次| 秋霞av伦理片在线观看| 超碰97av 在线人人操| 日产2021免费一二三四区在线|