色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

存內計算對“存”的選擇

E4Life ? 來源:電子發燒友網 ? 作者:周凱揚 ? 2022-12-13 00:19 ? 次閱讀
電子發燒友網報道(文/周凱揚)無論是前段時間爆火的繪圖模型Stable Diffusion,還是大規模語言模型ChatGPT,AI無疑已經成了新時代的自動化工具,哪怕是在某些與認知相關的任務上,也能通過深度學習實現高于人類的精度。

但正因我們提過多次的算力問題,對于大型AI訓練的計算要求已經在每兩個月翻倍了,別說可持續能源供應了,就連硬件的可持續都有些陷入停滯了。其實以目前各種模型的迭代速度來看,更高的運算效率才是重中之重,畢竟這些模型并不需要每兩個月就推陳出新。

深度學習還有哪些環節可以提升效率

我們先從深度學習運算來看哪些算數運算占比最高,根據IBM給出的統計數據,無論是語音識別的RNN、語言模型DNN和視覺模型CNN,矩陣向量乘法都占據了運算總數的70%到90%,所以打造一個矩陣矢量乘法加速器,是多數AI加速器的思路。
CleanShot 2022-12-12 at 17.15.13@2x
數據傳輸和運算的功耗對比 / ISSCC

要考慮效率,我們就不能不談到功耗的問題,如果只顧算力而不考慮功耗,任由龐大規模的GPU等硬件消耗能量不顧碳排放的話,也不符合全球當下的節能減排趨勢。而在深度學習中,各種精度的加法乘法都會消耗能量,但這些運算消耗的能量與傳統馮諾依曼結構中數據移動消耗的能量相比,就顯得微不足道了,尤其是從DRAM中讀寫高精度數值時,能耗差距甚至可以達到數十倍以上。

這還只是在數據中心場景中,如果我們放到邊緣來看,如今的移動設備需要語音識別、圖像識別之類的各種深度學習應用。所以提升這類設備的效率,才有可能在功耗和內存都有所限制的嵌入式應用中普及深度學習。

存內計算的存儲選擇

為了減少數據移動消耗的能量,提高MVM的計算性能,存內計算成了一個不錯的選擇。存內計算(IMC)是一項創新的計算方式,將特定的計算任務放到存儲設備中,并使用模擬或混合信號的計算技術。相較馮諾依曼結構或近存計算來說,最大程度地減少了數據移動。

而早期利用IMC進行神經網絡推理的測試結果證明,在軟硬件結合的情況下,可以得到優秀的精度結果,而DACADC、功能激活之類的數字操作則是通過片外的軟件或硬件來實現的。自那之后,各種使用SRAM、NOR Flash、RRAM、PCM和MRAM的單核或多核存內計算芯片紛紛面世。

在對于正確存儲類型的選擇上,存內計算必須面臨取舍的問題,比如性能、密度、寫入時間、寫入功耗、穩定性以及制造工藝上。性能自然就是直接影響到我們說的TOPS算力以及效率,目前SRAM優勢較大,密度則決定了裸片大小,同時也影響到了成本。

而在邊緣場景下,環境一致性往往不比數據中心,所以如果不能保證穩定性的話,就會影響到存內計算進行深度學習的精度。最后的制造工藝不僅決定了這類存內計算芯片能否量產,是否存在供應鏈危機或成本問題,也決定了它有沒有繼續推進的空間,比如目前工藝較為先進的主要是PCM和SRAM,最高分別已經到了14nm和12nm。

在2021年的VLSI技術大會上,IBM發表了一篇文章,講述了他們以14nm CMOS工藝打造的一個64核PCM模擬存內計算芯片,HERMES。該芯片采用了后端集成的多層相變化內存,由256個線性化的CCO ADC組成,可以在1GHz的工作頻率之上進行精確的片上矩陣矢量乘法運算。在深度學習的運算測試中,HERMES獲得了10.5 TOPS/W的運算效率以及1.59TOPS/mm2的性能密度。
IMG_256
Thetis Core芯片 / Axelera AI

而荷蘭初創企業Axelera AI則選了數字SRAM這一路線,他們在去年12月成功流片第一代IMC芯片Thetis Core。Thetis Core的面積不到9mm2,卻可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至還可以超頻到48.16TOPS。但不少存內計算芯片提到性能表現時,往往都是指滿載的情況,正因如此,Thetis Core在低利用率下的效率表現才顯得無比亮眼。哪怕從100%利用率降低至25%的,該芯片也能展現13TOPS/W的效率,降幅只有7%左右。

小結

除了“存”以外,存內計算在“算”上的選擇也不盡相同,比如進行模擬或數字MAC運算等等。從斯坦福大學教授Boris Murmann提出的觀點來看,在低精度下模擬運算要比數字運算更高效,但一旦精度拔高,比如8位以后,模擬計算的功耗就會成倍增加了。考慮到落地應用較少,未來的存內計算會更傾向于哪種形式仍有待觀察,但從存儲廠商、存算一體芯片廠商的動向來看,這或許是存儲市場迎來又一輪爆發的絕佳機遇。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存內計算
    +關注

    關注

    0

    文章

    30

    瀏覽量

    1382
收藏 人收藏

    評論

    相關推薦

    科技啟動首屆計算創新大賽

    計算作為一項打破“內存墻”“功耗墻”的顛覆性技術,消除了與算的界限,相比CPU或GPU能夠實現更高計算并行度、更大專用算力,達成數量級
    的頭像 發表于 11-21 10:44 ?248次閱讀

    d鎖器解決了sr鎖器的什么問題

    D鎖器(Data Latch)和SR鎖器(Set-Reset Latch)是數字電路中常見的兩種存儲元件。它們在數字系統中扮演著重要的角色,用于存儲和傳遞信息。然而,這兩種鎖器在設計和應用上
    的頭像 發表于 08-28 09:16 ?602次閱讀

    科技推動新一代計算芯片產品產業化進程

    ? 6月3日,知科技總部啟航儀式在杭州臨平算力小鎮正式舉行,標志著公司在計算芯片領域開啟技術研發、人才戰略、產業升級的新征程。臨平區委書記陳如根,區委常委、組織部長楊霞,區委常委
    的頭像 發表于 06-05 17:16 ?1185次閱讀

    計算原理分類——數字計算與模擬計算

    數字計算與模擬計算各有優劣,都是算一體發展
    的頭像 發表于 05-21 16:26 ?2583次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>原理分類——數字<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>與模擬<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>

    計算——助力實現28nm等效7nm功效

    當的性能。算一體嘗試通過集成存儲和計算在一個芯片甚至一個容器,來突破訪限制,發揮芯片的最大算力。下面我們將重點介紹算一體技術。
    的頭像 發表于 05-17 15:03 ?1966次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>——助力實現28nm等效7nm功效

    論基于電壓域的SRAM計算技術的嶄新前景

    這篇文章總結了馮·諾伊曼架構及其在處理數據密集型應用中所面臨的性能和能耗問題。為了應對這一挑戰,文章介紹了計算技術,其中重點討論了基于電壓域的SRAM
    的頭像 發表于 05-17 14:38 ?997次閱讀
    論基于電壓域的SRAM<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>技術的嶄新前景

    從MRAM的演進看計算的發展

    我國的計算產業也開始迅猛發展,知科技、九天睿芯、智芯科、后摩智能、蘋芯科技等國內專注
    的頭像 發表于 05-17 14:25 ?1288次閱讀
    從MRAM的演進看<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>的發展

    淺談計算生態環境搭建以及軟件開發

    應用架構,提高開發效率。 此外,在搭建計算環境時,關鍵的硬件和軟件是不可或缺的。硬件方面,需要足夠的RAM來存儲數據集和支持計算過程。軟件方面,則涉及
    發表于 05-16 16:40

    科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    算一體領域,全球參與者可分為國際巨頭和新興企業兩大陣營。國際巨頭如英特爾、IBM、特斯拉等早已布局算技術,并推出代表未來趨勢的產品。而新興企業則更靈活選擇
    發表于 05-16 16:38

    計算WTM2101編譯工具鏈 資料

    計算是突破物理極限的下一代算力技術- AIGC等人工智能新興產業的快速發展離不開算力,算力的基礎是人工智能芯片。 當前CPU/GPU在執行計算密集型任務時需要將海量參數(ωij)
    發表于 05-16 16:33

    探索計算—基于 SRAM 的計算與基于 MRAM 的算一體的探究

    本文深入探討了基于SRAM和MRAM的算一體技術在計算領域的應用和發展。首先,介紹了基于SRAM的邏輯計算技術,包括其原理、優勢以及在
    的頭像 發表于 05-16 16:10 ?2872次閱讀
    探索<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>—基于 SRAM 的<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>與基于 MRAM 的<b class='flag-5'>存</b>算一體的探究

    計算芯片研究進展及應用

    在NOR Flash計算芯片當中,向量-矩陣乘法運算基于電流/電壓的跨導與基爾霍夫定律進行物理實現,如圖7(a)所示。因此,其核心是設計NOR Flash單元陣列以滿足大規模高能效向量-矩陣乘法
    的頭像 發表于 05-16 15:30 ?1303次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>芯片研究進展及應用

    生態構建重要一環- 計算工具鏈

    本篇文章重點講述計算相關工具鏈,我們將從工具鏈定義出發,依次講述工具鏈研究背景及現有工具鏈、計算
    的頭像 發表于 05-16 14:37 ?1135次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內</b>生態構建重要一環- <b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>工具鏈

    計算技術工具鏈——量化篇

    本篇文章將重點講述計算技術工具鏈之“量化”,我們將從面向計算芯片的深度學習編譯工具鏈、神
    的頭像 發表于 05-16 12:35 ?1256次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>技術工具鏈——量化篇

    淺談計算生態環境搭建以及軟件開發

    在當今數據驅動的商業世界中,能夠快速處理和分析大量數據的能力變得越來越重要。而計算開發環境在此領域發揮其關鍵作用。
    的頭像 發表于 05-15 17:10 ?490次閱讀
    淺談<b class='flag-5'>存</b><b class='flag-5'>內</b><b class='flag-5'>計算</b>生態環境搭建以及軟件開發
    主站蜘蛛池模板: 99视频网址| A级韩国乱理伦片在线观看| 欧美日韩免费看| 爽爽影院线观看免费| 男女啪啪抽搐呻吟高潮动态图 | 国产超碰AV人人做人人爽| yellow在线观看免费高清的日本| 99久热这里精品免费| 97无码欧美熟妇人妻蜜桃天美| 2021年国产精品久久| 2021精品乱码多人收藏| 2019一級特黃色毛片免費看| 中文字幕视频在线免费观看| 最近中文字幕高清中文字幕MV| 中文字幕乱码亚洲无线三区| 最近中文字幕MV高清在线| 4484在线观看视频| 99热免费精品店| 成人啪啪色婷婷久色社区| 高h喷水荡肉爽文总攻| 国产精品久久毛片A片软件爽爽| 国产精品亚洲专一区二区三区| 国产毛A片久久久久久无码| 国产毛多水多高潮高清| 娇小8一12xxxx第一次| 绝对诱惑在线试听| 女王羞辱丨vk| 日韩精品一卡二卡三卡四卡2021| 神马影院午夜伦理限级| 亚洲成a人片777777久久| 亚洲午夜久久久久中文字幕| 中文成人在线视频| nxgx69日本护士| 国产激情文学| 精品AV综合导航| 免费的av不用播放器的| 热久久综合这里只有精品电影| 色欲无码国产喷水AV精品| 亚洲 欧美 清纯 校园 另类| 怡春院欧美一区二区三区免费| FREECHINESE东北女人真爽|