色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MIT的SpAtten架構將注意力機制用于高級NLP

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Saumitra Jagdale ? 2022-07-10 10:20 ? 次閱讀

盡管如此,仍然有許多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它們的功能是通過高級處理和計算來理解這些數據。這些模型在搜索引擎中找到了它們的應用,因為搜索命令需要與相關的來源和頁面匹配,而與術語的性質無關。

麻省理工學院的 SpAtten 學習系統通過其優化的軟件硬件設計專注于高效的搜索預測,從而以更少的計算能力進行高級自然語言處理。因此,SpAtten 系統的架構取代了高端 CPUGPU 的組合,它們共同輸出類似于 MIT 的 SpAtten 學習系統的效率。

SpAtten 學習系統中的注意力機制

當數據量大時,注意力機制在自然語言處理中起著至關重要的作用。特別是在文本數據包含對建??赡懿皇呛苤匾母鞣N特征的情況下。這可能會浪費系統的整體計算。因此,神經網絡輸入層中的注意力機制從文本數據中動態提取相關特征,可以優化算法在廣泛數據集上的處理。

SpAtten 使用注意力機制算法去除在 NLP 方面權重較小的單詞。因此,它有選擇地從輸入的文本數據中挑選出相關的關鍵詞。這避免了對不必要的文本數據的實時處理,從而節省了系統的整體計算時間。然而,這種處理提供了效率和準確性,但它的代價是設計良好的硬件與這種復雜的算法兼容。

因此,麻省理工學院一直致力于其新 SpAtten 學習系統的軟件和硬件方面。設計的硬件致力于優化這些復雜的算法,以減少處理和內存訪問。這些技術在用于文本數據時克服了構建具有高效處理速度和能力的系統的挑戰。因此,硬件“以更少的計算能力實現了精簡的 NLP”。

SpAtten 架構的優化技術

循環和卷積神經網絡被認為是深度學習模型的理想選擇,但麻省理工學院關于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究論文讓我們注意到注意力機制可以比這些網絡表現更好,如前一部分所述。

該架構支持級聯修剪技術,該技術對令牌??和頭進行操作,而不是傳統方法中使用的權重。正如術語“剪枝”暗示移除令牌一樣,一旦從層中移除令牌/頭,那么它將永遠不會在后續層中被處理,因為它被永久“剪枝”或從系統中移除。這就是為什么優化數據的實時處理并且系統適應輸入實例的原因。

該系統使用漸進式量化技術來減少 DRAM 訪問。僅當 MSB 不足以執行量化時,該技術才對 LSB 起作用。然而,這是以計算為代價的,但內存訪問顯著減少。因此,它使注意力層動態和自適應以優化 DRAM 訪問。該系統還帶有內置的 SRAM,用于存儲可在眾多查詢中重復使用的已刪除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高計算能力也無法實現這些技術,因為這些組件只能增強現有的傳統神經網絡,包括 CNN 和 RNN。因此,麻省理工學院設計了專門的硬件來實現這些優化算法。

SpAtten 學習系統的分析

SpAtten 硬件架構的模擬揭示了其與競爭處理器相比的高處理能力。麻省理工學院表示:“SpAtten 的運行速度比第二好的競爭對手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其競爭對手的 1000 多倍,這表明 SpAtten 可以幫助減少 NLP 的大量電力需求?!?/p>

Google 的 BERT 和 Open AI 的 GPT2 模型也使用類似的注意力機制,但是復雜的判別和生成技術會導致延遲和延遲。MIT 的 SpAtten 是 NLP 算法和專用于注意力機制的專用硬件的組合。這種組合控制了標準 CPU 在 GPT-2 或 BERT 上運行時消耗的高功耗。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19404

    瀏覽量

    230806
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10901

    瀏覽量

    212686
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4768

    瀏覽量

    129227
收藏 人收藏

    評論

    相關推薦

    《算芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    昇騰采用達芬奇架構,在AI Core中集成了標量/向量/張量處理單元。我注意到書中對TPU v4光學芯片互聯的分析特別深入,這種創新或重塑未來AI集群的架構范式。中國古語云\"大道至
    發表于 11-24 17:12

    什么是LLM?LLM在自然語言處理中的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種
    的頭像 發表于 11-19 15:32 ?826次閱讀

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征?;诜謱?b class='flag-5'>注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?361次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

    Llama 3 模型與其他AI工具對比

    、技術架構 Llama 3模型 采用了最新的Transformer架構,并結合了自注意力機制和分組查詢關注(GQA)機制。 引入了高效的to
    的頭像 發表于 10-27 14:37 ?471次閱讀

    【「算芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    詳細。了解算芯片機制原理、架構組織形式邏輯等,對我們軟件開發算芯片方案能起到很好的促進作用。后面就是進行具體的閱讀與學習理解了。
    發表于 10-15 22:08

    2024 年 19 種最佳大型語言模型

    ,當時一篇題為“通過聯合學習對齊和翻譯的神經機器翻譯”的研究論文中引入了注意力機制(一種旨在模仿人類認知注意力的機器學習技術)。2017年,另一篇論文“注意力就是你
    的頭像 發表于 08-30 12:56 ?589次閱讀
    2024 年 19 種最佳大型語言模型

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發表于 07-09 10:39 ?442次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    來改變我們的行為和情感。NLP的目標是幫助人們實現自我改進,提高溝通技巧,增強領導和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們如何接收和處理信息。 語言:研究我們如何使用語言來表達我們的思想和情感。 編程:研
    的頭像 發表于 07-09 10:35 ?829次閱讀

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一種基于自注意力機制的模型,廣泛應用于NLP領域?;赥ransformer的LLM模型包括: a. BERT(Bidir
    的頭像 發表于 07-09 09:59 ?707次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?622次閱讀

    什么是自然語言處理 (NLP)

    理解和處理自然語言文本,從而實現人機交互的流暢和自然。NLP不僅關注理論框架的建立,還側重于實際技術的開發和應用,廣泛應用于法律、醫療、教育、安全、工業、金融等多個領域。
    的頭像 發表于 07-02 18:16 ?1307次閱讀

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    直觀地解釋和理解。這可能會影響模型的可解釋性和可信賴性,特別是在需要高度可靠性的場景中。 通過修改注意力機制的計算方式或引入新的架構來降低計算復雜度和內存消耗;通過引入正則化技術來提高模型的魯棒性
    發表于 06-07 14:44

    基于神經網絡的呼吸音分類算法

    的有用子樣本。當前模型中使用的注意力機制與通常用于seq2seq模型的機制不同[19]。主要區別在于,seq2seq注意力
    發表于 05-31 12:05

    浪潮信息發布源2.0-M32開源大模型,模算效率大幅提升

    5月28日,浪潮信息發布“源2.0-M32”開源大模型?!霸?.0-M32”在基于”源2.0”系列大模型已有工作基礎上,創新性地提出和采用了“基于注意力機制的門控網絡”技術
    的頭像 發表于 05-29 09:34 ?478次閱讀
    浪潮信息發布源2.0-M32開源大模型,模算效率大幅提升

    采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

    日前,北京理工大學王涌天教授、黃玲玲教授團隊聯合張軍院士、邊麗蘅教授團隊,采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像。
    的頭像 發表于 04-25 09:08 ?1205次閱讀
    采用單片超構表面與元<b class='flag-5'>注意力</b>網絡實現快照式近紅外光譜成像
    主站蜘蛛池模板: 四虎视频最新视频在线观看 | 国产偷国产偷亚州清高 | 中文字幕s级优女区 | 亚洲日韩KKK444KKK聚色 | 偷偷鲁手机在线播放AV | 久久视频这里只精品99热在线观看 | 国产亚洲精品久久久久苍井松 | 亚洲国产日韩欧美高清片a 亚洲国产日韩a精品乱码 | 久久这里只有精品1 | 欧美又粗又大AAAA片 | 久久艹伊人 | 99久久国产综合精品国 | 羞羞答答dc视频 | 亚洲视频中文 | 久久黄色免费 | 三男强一女90分钟在线观看 | 好男人好资源在线观看免费视频 | 少妇伦子伦情品无吗 | 国产精品久久人妻互换毛片 | 97超碰射射射| 精品高清国产a毛片 | 亚洲国产中文字幕在线视频 | 一区一区三区产品 | 国产欧美一区二区精品仙草咪 | 男同志video最新猛男 | 午夜成a人片在线观看 | 两个女人互添下身高潮自视频 | 夜夜艹日日干 | 午夜免费小视频 | 99无码熟妇丰满人妻啪啪 | 中国毛片网 | 日韩免费一区二区三区在线 | 久久日本片精品AAAAA国产 | 亚洲中字慕日产2020 | 久久机热视频免费 | 18未满不能进的福利社 | 翁熄性放纵交换300章 | 麻豆XXXX乱女少妇精品 | 国产午夜理论片YY8840Y | 亚洲国产精品第一影院在线观看 | youjizz怎么看|