色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌開發出超過一萬億參數的語言模型,秒殺GPT-3

人工智能與大數據技術 ? 來源:新智元 ? 作者:新智元 ? 2021-01-27 16:26 ? 次閱讀

繼GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發的語言模型T5-XXL足足快了4倍。

對于機器學習來說,參數可以算得上算法的關鍵:他們是歷史的輸入數據,經過模型訓練得來的結果,是模型的一部分。

一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性。

迄今為止,OpenAI 的 GPT-3是有史以來最大的語言模型之一,有1750億個參數。

現在,距離GPT-3問世不到一年的時間,更大更復雜的語言模型又來了——

在對這種相關性進行最全面測試的基礎上,谷歌的研究人員開發了一種能夠訓練包含超過一萬億參數的語言模型:Switch Transformer,并進行了基準測試。

他們表示,1.6萬億參數模型是迄今為止最大的,并比之前最大的、由google開發的語言模型T5-XXL足足快了4倍。

5d825108-6001-11eb-8b86-12bb97331649.png

圖:Switch 模型設計和預訓練表現

研究人員在論文中表示,對于強大模型來說,進行大規模訓練是一個非常有效的途徑。

盡管在大數據集和參數支撐下的簡單的架構可以超越一些復雜的算法,然而,高效且大規模的訓練卻屬于極度的計算密集型。

5db674a6-6001-11eb-8b86-12bb97331649.png

而這,也正是Google的研究者發明Switch Transformer的原因。

5e0e1de6-6001-11eb-8b86-12bb97331649.png

圖:Switch Transformer編碼塊

Switch Transformer使用了一種叫做稀疏激活(sparsely activated)的技術,這個技術只使用了模型權重的子集,或者是轉換模型內輸入數據的參數,即可達成相同的效果。

此外,Switch Transformer還主要建立在混合專家(Mix of Expert)的基礎上。

5e4d3a44-6001-11eb-8b86-12bb97331649.png

圖:Token動態路由示例

什么是“混合專家”呢?

混合專家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

在MoE中,對于不同的輸入,會選擇不同的參數。多個專家(或者專門從事不同任務的模型)被保留在一個更大的模型中,針對任何給定的數據,由一個“門控網絡”來選擇咨詢哪些專家。

其結果是一個稀疏激活的模型——具有數量驚人的參數,但計算成本不變。然而,盡管MoE取得了一些顯著的成功,但其廣泛采用仍然受到復雜性、通信成本和訓練不穩定性的阻礙。而Switch Transformer則解決了這些問題。

Switch Transformer的新穎之處,在于它有效地利用了為密集矩陣乘法(廣泛應用于語言模型的數學運算)設計的硬件,如GPU和谷歌的TPU。

5e91fe36-6001-11eb-8b86-12bb97331649.png

圖:數據和權重劃分策略

在研究人員的分布式訓練設置中,他們的模型將不同的權重分配到不同的設備上,因此,雖然權重會隨著設備數量的增加而增加,但是每個設備卻可以保持可管理的內存和計算足跡。

在一項實驗中,研究人員使用了32個TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 數據集上,預先訓練了幾種不同的Switch Transformer模型。

C4是一個750gb大小的數據集,包含從Reddit、Wikipedia和其他web資源上獲取的文本。

研究人員讓這些Switch Transformer模型去預測有15%的單詞被掩蓋的段落中遺漏的單詞,除此之外,還為模型布置了許多其他挑戰,如檢索文本來回答一系列越來越難的問題等等。

研究人員聲稱,和包含3950億個參數和64名專家的更小的模型(Switch-XXL)相比,他們發明的擁有2,048名專家的1.6萬億參數模型(Switch-C)則“完全沒有訓練不穩定性”。

然而,在SQuAD的基準測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6。

對此,研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。

在這種情況下,Switch Transformer還是在許多下游任務上的效果有了提升。例如,根據研究人員的說法,在使用相同數量的計算資源的情況下,它可以使預訓練的速度提高了7倍以上。

5f28a390-6001-11eb-8b86-12bb97331649.png

圖:所有模型均在32個TPU上進行訓練

同時研究人員證明,大型稀疏模型可以用來創建更小、更稠密的模型,這些模型可以對任務進行微調,其質量增益只有大型模型的30% 。

在一個測試中,一個 Switch Transformer 模型被訓練在100多種不同的語言之間進行翻譯,研究人員觀察到其中101種語言都得到了“普遍的改善”,91% 的語言受益于超過baseline模型4倍以上的速度。

5f8a406e-6001-11eb-8b86-12bb97331649.png

圖:101種語言的多語言預訓練

研究人員在論文中寫道: “雖然這項工作主要集中在超大型模型上,但我們也發現,只有兩個專家的模型能夠提高性能,同時很容易適應常用 GPU 或 TPU 的內存約束。”

“我們不能完全保證模型的質量,但是通過將稀疏模型蒸餾成稠密模型,同時達到專家模型質量增益的30%的情況下 ,是可以達到10到100倍壓縮率的。”

在未來的工作中,研究人員計劃將Switch Transformer應用到新的和跨越不同的模態中去,包括圖像和文本。他們認為,模型稀疏性可以賦予各種不同媒介以及多模態模型一些優勢。

在論文的最后,Google的研究人員還表示:

總的來說,Switch Transformers是一個可擴展的,高效的自然語言學習模型。

通過簡化MoE,得到了一個易于理解、易于訓練的體系結構,該結構還比同等大小的密集模型具有更大的采樣效率。

這些模型在一系列不同的自然語言任務和不同的訓練機制中,包括預訓練、微調和多任務訓練,都表現出色。

這些進步使得使用數千億到萬億參數訓練模型成為可能,相對于密集的T5基準,這些模型可以實現顯著的加速。

谷歌的研究人員表示,希望他們的工作能夠激勵稀疏模型成為一種有效的架構,并鼓勵研究人員和實踐者在自然語言任務中考慮這些靈活的模型。

原文標題:1.6萬億參數,秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6164

    瀏覽量

    105309
  • 人工智能
    +關注

    關注

    1791

    文章

    47200

    瀏覽量

    238270
  • 模型
    +關注

    關注

    1

    文章

    3229

    瀏覽量

    48810

原文標題:1.6萬億參數,秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-06 10:28 ?115次閱讀

    語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大
    的頭像 發表于 12-04 11:44 ?97次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻”

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-20 17:05 ?790次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了一則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3
    的頭像 發表于 09-19 15:13 ?566次閱讀

    谷歌發布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發人員,正式發布了其最新研發的大語言
    的頭像 發表于 06-29 09:48 ?433次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發展的一個轉折點,還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預訓練的模型
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了如BERT和GPT等劃時代的模型。BERT通過雙向訓練增強了文本理解能力,而GPT則展示了強大的文本生成能力。 大語言模型,擁有數百億甚
    發表于 05-04 23:55

    微軟發布phi-3AI模型,性能超越GPT-3.5

    微軟稱,帶有38億參數的phi-3-mini經過3.3萬億token的強化學習,其基礎表現已經超過Mixtral 8x7B及GPT-3.5;
    的頭像 發表于 04-23 14:32 ?535次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型開發者可以免費使用,而Meta公司還將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新
    的頭像 發表于 04-19 17:00 ?832次閱讀

    為什么GPU適用于AI?AI服務器產業鏈格局分析

    GPT模型對比BERT模型、T5模型參數量有明顯提升。GPT-3是目前最大的知名
    發表于 04-09 10:38 ?903次閱讀
    為什么GPU適用于AI?AI服務器產業鏈格局分析

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    3的出現意味著打開了一個全新的世界,其系列模型在推理,數學,編碼,多語言理解和視覺方面,都樹立了全新的行業新基準。 也正是因為Claude 3的出現,全球最強AI
    的頭像 發表于 03-06 22:22 ?635次閱讀
    新火種AI|<b class='flag-5'>秒殺</b><b class='flag-5'>GPT</b>-4,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude <b class='flag-5'>3</b>振奮人心!

    OpenAI推出ChatGPT新功能:朗讀,支持37種語言,兼容GPT-4和GPT-3

    據悉,“朗讀”功能支持37種語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態交互”(multimodal capab
    的頭像 發表于 03-05 15:48 ?913次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的頭像 發表于 03-01 16:20 ?651次閱讀

    Rambus HBM3內存控制器IP速率達到9.6 Gbps

    在人工智能大模型浪潮的推動下,AI訓練數據集正極速擴增。以ChatGPT為例,去年11月發布的GPT-3,使用1750億個參數構建,今年3月發布的G
    的頭像 發表于 01-23 11:19 ?974次閱讀
    Rambus HBM<b class='flag-5'>3</b>內存控制器IP速率達到9.6 Gbps

    2023年科技圈熱詞“大語言模型”,與自然語言處理有何關系

    。 ? 2023年,大語言模型及其在人工智能領域的應用已然成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億
    的頭像 發表于 01-02 09:28 ?2921次閱讀
    主站蜘蛛池模板: 麻豆AV无码精品一区二区| 一二三四免费中文在线1| 含羞草传媒在线观看| 99re28久久热在线观看| 亚洲精品久久久久AV无码林星阑 | 免费精品一区二区三区AA片| 国产成人久久婷婷精品流白浆| 国产欧美一区二区三区久久| 91精品视频网站| 亚洲欧美国产双大乳头| 色欲国产麻豆精品AV免费| 恋老视频 国产国佬| 国产亚洲精品久久播放| 一边喂奶一边做边爱| 丝瓜影院观看免费高清国际观察| 美女快播第一网| 久草在线草a免费线看| 国产成人综合在线| JAPANRCEP老熟妇乱子伦视频| 伊人久久影院| 性夜夜春夜夜爽AA片A| 视频在线免费观看| 日本久久精品免视看国产成人| 两个吃奶一个添下面视频| 极品色αv影院| 国产亚洲精品久久久久久久软件| 粉嫩自拍 偷拍 亚洲| yellow免费影视大全| 亚洲电影成人 成人影院| 日韩一区二区三区精品| 国偷自产视频一区二区99| 国产成人a视频在线观看| 成人免费在线视频| 99久免费精品视频在线观看2| 中国xxxxx| 在线亚洲黄色| 永久精品视频无码一区| 亚洲在线成色综合网站| 野花4在线观看| 亚洲视频中文| 一抽一出BGM免费50分动漫|