色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種越來越多被應用于加速機器學習應用的浮點格式bfloat16

倩倩 ? 來源:lq ? 作者:TechEdge科技邊界 ? 2019-09-20 10:32 ? 次閱讀

Arm早前曾宣布其ArmV8-A架構的下一版本將包括對bfloat16的支持,現在透露了更多細節。

bfloat16是一種越來越多被應用于加速機器學習應用的浮點格式。谷歌、英特爾和不少新創公司都將bfloat16作為其AI加速架構的核心功能之一。

Bfloat16是由Google發明,最初在其第三代Tensor處理單元(TPU)中導入,作為加速機器學習之用。英特爾也認為該格式在未來AI計算中也有龐大的應用潛力,因此整合到其即將推出的“Cooper Lake”Xeon SP處理器,以及“Spring Crest”神經網絡處理器中,未來的Xe GPU也會支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新創公司也采用了支持該計算格式的定制AI處理器。

bfloat16的主要想法是提供動態范圍與標準IEEE-FP32相同的16位浮點格式,精度較低。相當于將8位的FP32指數字段的大小匹配,并將FP32分數字段的大小縮小到7位。

根據Arm首席架構師和研究員Nigel Stephens的說法,在大多數情況下,bfloat16格式與FP32一樣準確,用于神經網絡計算,但是以一半的位址就可以完成任務。因此,與32位相比,吞吐量可以翻倍,內存需求可以減半。在多數情況下,blfloat16可以成為這些機器學習算法中FP32的“插入式”替代品。由于神經網絡的計算性質,只要數據類型具有足夠的范圍和精度,就可以很好地適應少量噪聲,精準的完成模型訓練工作。

Arm將bfloat16的支持被放到ArmV8-A下的所有浮點處理的相關指令集,包含SVE(可擴展矢量擴展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通過相關擴展的支持,加速基于Arm的客戶端和服務器的機器學習推理和培訓練過程。雖然Arm服務器市占率仍然很小,但其在智能手機等客戶端方面擁有幾乎絕對的統治地位,這意味著未來的手持式和物聯網設備將很快能夠利用更緊湊的數字格式來處理機器學習。

當然,Arm如果越強,那么采用自有AI架構的芯片設計業者壓力其實也會越大,就好比華為先后使用寒武紀與達芬奇架構,都是封閉的專有架構,高通也是采用DSP結合NPU計算,如果Arm官方架構性能有飛躍性的改進,那么這些采用定制AI架構的芯片設計者可能最終會被迫放棄自己的封閉架構,轉而擁抱Arm的開放架構。而這也有助于發展整體AI生態,畢竟使用相同開發環境的硬件基數越大,就能吸引更多應用開發者共同耕耘相關生態。

值得注意的是,Arm決定在SVE中加入bfloat16的支持這點。由于SVE是專門針對高性能計算的矢量指令集,截至目前為止,僅有富士通一家采用,并應用于其A64FX芯片上。Arm方面表示,由于HPC用戶對機器學習的興趣持續增加,過去只能依靠GPU方案來進行加速,若能在單一架構處理完機器學習的工作,那么就不用再額外花費成本添購專用的加速硬件。

使用bfloat16還有另一個好處,那就是它具有與FP32相同的動態范圍,這使得轉換現有使用FP32的現有計算代碼非常簡單,可以大規模無痛轉換既有的FP32應用到blfloat16數據格式下。

然而,SVE原本就可以針對從128位到2048位等不同的矢量長度來實現計算工作,理論上,bfloat16應該放在128位的Neon計算單元內比較合理。但實際上,數據的吞吐量其實還是要取決于硬件的實現選擇,比如說SVE執行單元的數量,以及Neon計算單元的數量。

而隨著Arm增加了bfloat16這個數據格式的支持,借以加速AI計算,這也讓GPU成為目前主流機器學習加速硬件中唯一不支持這種數據格式的架構,而英特爾即將推出的Xe GPU也會加入該格式的支持,包含AMD或NVIDIA,應該都會在下一代產品中增加此數據格式的支持。

根據ARM做的模擬,不同類型的運算中bfloat16帶來的性能提升不等,少的有1.6倍性能,多的可達4倍性能,性能成長相當驚人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9104

    瀏覽量

    367782
  • 神經網絡
    +關注

    關注

    42

    文章

    4772

    瀏覽量

    100838
  • 機器學習
    +關注

    關注

    66

    文章

    8422

    瀏覽量

    132713
收藏 人收藏

    評論

    相關推薦

    應用于活細胞成像的次性細胞培養芯片

    盡管最近幾年我們對細胞內過程的了解越來越多,但近期內100年來細胞培養的基本過程沒有根本性的改變。然而,觀察細胞的方法,卻在近些年進行場革命,如相差,差分干涉對照,共聚集和熒光等都應用于所有細胞
    的頭像 發表于 12-17 09:41 ?110次閱讀

    為何越來越多的應用場景都會用到溫濕度控制器?

    、定義 溫濕度控制器是一種用于監測和控制環境溫度和濕度的設備。? 二、工作原理 溫濕度控制器通常由傳感器、控制器和執行機構組成。傳感器用于檢測環境中的溫度和濕度,并將檢測到的信號傳輸
    的頭像 發表于 10-14 14:28 ?292次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是
    的頭像 發表于 07-09 09:59 ?647次閱讀

    隨著戶儲的發展推進,相關技術要求也越來越多

    戶用儲能是一種在家庭或住宅環境中使用的儲能系統,通常是電池儲能系統。它們的主要目的是存儲電能以供日常用電或在需要時使用。戶用儲能系統可以與太陽能光伏電池板或風力發電機等可再生能源系統結合使用
    的頭像 發表于 07-05 09:38 ?334次閱讀
    隨著戶儲的發展推進,相關技術要求也<b class='flag-5'>越來越多</b>

    態勢數據有哪些格式和內容呢

    和內容。 特點:具有良好的可讀性和可擴展性,在態勢數據交換和共享中較為常見。 JSON: 定義:一種輕量級的數據交換格式,易于閱讀和編寫,也易于機器解析和生成。 特點:在Web服務和API中,JSON
    的頭像 發表于 06-11 16:57 ?519次閱讀

    采用可調電熱微梁的近零剛度MEMS加速度計

    MEMS加速度計正越來越多應用于各種移動和測試設備,以測量運動、沖擊和振動。
    的頭像 發表于 05-09 09:11 ?617次閱讀
    采用可調電熱微梁的近零剛度MEMS<b class='flag-5'>加速</b>度計

    越來越多的領域都用到了USB頻譜儀

    科技是不斷進步的,越來越多的領域都用到了USB頻譜儀。款值得信賴的產品。
    的頭像 發表于 05-07 15:28 ?560次閱讀
    <b class='flag-5'>越來越多</b>的領域都用到了USB頻譜儀

    隨著非車規器件在汽車上泛濫FPGA會不會越來越多的出現在汽車上?

    隨著非車規器件在汽車上泛濫FPGA會不會越來越多的出現在汽車上?
    發表于 04-23 14:50

    智慧田間氣象站作為一種新型農業設備

    JD-NQ10隨著科技的發展,農業生產也迎來了新的發展機遇。智慧田間氣象站作為一種新型農業設備,正在受到越來越多農民的青睞。它不僅可以準確地預測天氣情況,還可以監測農田土壤濕度等關鍵數據,為農業生產提供有力的保障。
    的頭像 發表于 04-10 16:07 ?318次閱讀

    嵌入式會越來越卷嗎?

    嵌入式會越來越卷嗎? 當談及嵌入式系統時,我們探究的不僅是一種科技,更是個日益多元與普及的趨勢。嵌入式系統,作為一種融入更大系統中的計算機硬件和軟件,旨在執行特定功能或任務。但這個看
    發表于 03-18 16:41

    【量子計算機重構未來 | 閱讀體驗】+機器學習的終點是量子計算?

    很高興,有可以有書看了。 對量子計算感興趣,要從大概10年前說起了,雖然我之前從事的工作跟計算關系不是很直接。 但是,后來隨著接觸的任何事情越來越多,才發現,原來很多事情都可以交給機器做了。 于是
    發表于 03-10 16:33

    UWB技術

    、機房、機場、體育等諸多不同的垂直領域。 UWB進大眾所了解,則是在2019年蘋果在iPhone 11系列上配備了這技術,也使得UWB開始逐步
    發表于 03-07 15:02

    毫米波雷達半精度浮點存儲格式分析

    本文介紹了TC3xx單片機雷達信號處理單元SPU支持的半精度浮點格式,將其和32bit整型數格式進行比較,分析了兩者的動態范圍及實際處理誤差,發現半精度浮點
    的頭像 發表于 02-20 08:26 ?383次閱讀
    毫米波雷達半精度<b class='flag-5'>浮點</b>存儲<b class='flag-5'>格式</b>分析

    為什么越來越多的企業會用到 NTP網絡時間服務器

    ? ? ? 越來越多的企業使用 NTP網絡時間服務器 是為了確保其計算機網絡中的所有設備都具有精確的時間。網絡 時間服務器 是一種網絡設備,它通過從原子鐘等準確時間源獲取時間信號并向網絡中的設備廣播
    的頭像 發表于 01-23 14:17 ?377次閱讀
    為什么<b class='flag-5'>越來越多</b>的企業會用到 NTP網絡時間服務器

    國產網卡為什么受到越來越多的企業青睞了?

    國產網卡同樣取得了優異成績,并已成為眾多企業的重要選擇。相比于使用進口芯片開發的網卡,國產網卡對本土企業來說可謂獨具優勢
    的頭像 發表于 01-07 10:27 ?455次閱讀
    主站蜘蛛池模板: 欧美xxxx性喷潮| 日韩亚洲欧美中文在线| 寂寞夜晚看免费视频| 花蝴蝶高清影视视频在线播放| 国产婷婷色综合AV蜜臀AV| 国产系列在线亚洲视频| 精品久久久麻豆国产精品| 久久免费观看视频| 嫩草影院在线观看精品| 日韩成人性视频| 校花爽好大快深点h| 亚洲综合色婷婷在线影院| 在线看片成人免费视频| a在线视频免费观看| 国产MD视频一区二区三区 | 日本漂亮妈妈7观整有限中| 跳蛋按摩棒玉势PLAY高H| 亚州免费一级毛片| 月夜直播视频免费观看| 99免费在线| 国产精品爆乳尤物99精品| 九九影院午夜理论片无码| 免费在线观看a视频| 神马伦理2019影院不卡片| 亚洲色婷婷久久精品AV蜜桃久久| 在线亚洲免费| 俄罗斯美女性生活| 精品免费在线视频| 欧美顶级情欲片免费看| 无码人妻丰满熟妇啪啪网不卡| 一个人日本的视频免费完整版| 99婷婷久久精品国产一区二区| 国产成人综合在线观看| 久久艹综合| 欧美最猛性XXX孕妇| 亚洲 国产 日韩 欧美 在线| 中国农村真实bbwbbwbbw| 俄罗斯12一15处交| 久久九九日本韩国精品| 日韩午夜中文字幕电影| 又大又硬又爽免费视频|