色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

浪潮、英偉達微軟相繼發布2500億、5300億參數的巨量模型,超過GPT-3

Carol Li ? 來源:電子發燒友網整理 ? 作者:李彎彎 ? 2021-10-18 14:41 ? 次閱讀

由于模型越來越大,訓練過程中硬件的優化變得尤為重要。從2019年下半年開始,各家分別開發出大規模并行訓練、模型擴展技術,以期開發出更大的NLP模型。英偉達Megatron-LM、谷歌T5、微軟Turing-NLG相繼出現。

2020年6月OpenAI在發布了GPT-3,這是當時訓練的最大模型,具有1750億個參數。近段時間,浪潮、英偉達與微軟相繼發布2500億參數、5300億參數的巨量模型,超過GPT-3。

中國工程院院士王恩東認為,人工智能的大模型時代已經到來,利用先進算法,整合大規模數據,匯聚大量算力,訓練出巨量人工智能模型是未來的發展方向……


英偉達與微軟聯合發布了5300億參數的“威震天-圖靈”

上周,英偉達與微軟聯合發布了5300億參數的“威震天-圖靈”自然語言生成模型(Megatron-TuringNLG)。據介紹,這樣的量級不僅讓它成為全球規模最大,同時也是性能最強的NLP模型。


訓練過程一共使用了4480塊英偉達A100 GPU,最終使該模型在一系列自然語言任務中——包括文本預測、閱讀理解、常識推理、自然語言推理、詞義消歧——都獲得了前所未有的準確率。

此模型簡稱MT-NLG,是微軟Turing NLG和英偉達Megatron-LM兩者的“繼任者”。Turing NLG由微軟于2020年2月推出,參數為170億;Megatron-LM來自英偉達,2019年8月推出,參數83億。它倆在當時分別是第一、二大規模的Transfomer架構模型。

我們都知道大參數規模的語言模型效果會更好,但訓練起來也很有挑戰性,比如:即使是最大容量的GPU,也存不下如此規模的參數;如果不特別注意優化算法、軟件和硬件堆棧,那么所需的大量計算操作可能會導致訓練時間過長。

那這個參數已是GPT-3三倍的MT-NLG又是如何解決的呢?答案就是汲取“兩家”所長,融合英偉達最先進的GPU加速訓練設備,以及微軟最先進的分布式學習系統,來提高訓練速度。并用上千億個token構建語料庫,共同開發訓練方法來優化效率和穩定性。

具體來說,通過借鑒英偉達Megatron-LM模型的GPU并行處理,以及微軟開源的分布式訓練框架DeepSpeed,創建3D并行系統。對于本文中這個5300億個參數的模型,每個模型副本跨越280個NVIDIA A100 GPU,節點內采用Megatron-LM的8路張量切片(tensor-slicing),節點間采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的數據并行性進一步擴展到數千個GPU。最終在基于NVIDIA DGX SuperPOD的Selene超級計算機上完成混合精度訓練。(該超級計算機由560個DGX A100服務器提供支持,每個DGX A100有8個 NVIDIA A100 80GB Tensor Core GPU,通過NVLink 和 NVSwitch相互完全連接)。

該模型使用了Transformer解碼器的架構,層數、hidden dimension和attention head分別為 105、20480和128。訓練所用數據集包括近20萬本書的純文本數據集Books3、問答網站Stack Exchange、維基百科、學術資源網站PubMed Abstracts、ArXiv、維基百科、GitHub等等,這些都是從他們先前搭建的Pile數據集中挑出的質量較高的子集。最終一共提取了2700億個token。

浪潮發布2500億參數的中文AI巨量模型“源1.0”

9月28日,浪潮人工智能研究院發布浪潮發布了2500億參數的中文AI巨量模型“源1.0”。

“源1.0”不僅有高達5TB的全球最大中文高質量數據集,在總計算量和訓練效率優化上都是空前的。源1.0幾乎把近5年整個中文互聯網的浩瀚內容全部讀完,在收集并清洗數據后,最終獲得5TB高質量數據,成為迄今業界最大的高質量中文數據集。

在語言智能方面,源1.0獲得中文語言理解評測基準CLUE榜單零樣本學習和小樣本學習兩類總榜冠軍,獲得小樣本學習的文獻分類、商品分類、文獻摘要識別、名詞代詞關系等4項任務冠軍。

“在數據量、參數規模與模型精度方面,源1.0均居全球之最。”浪潮人工智能研究院首席研究員吳韶華說。對標OpenAI的GPT-3,源1.0參數規模為2457億,訓練采用的中文數據集達5TB。相比GPT-3模型1750億參數量和570GB訓練數據集,源1.0參數規模領先40%,訓練數據集規模領先近10倍。

“得益于我們設計模型時,對精度和計算性能的協同。”吳韶華說,“在算法上,我們解決了巨量模型訓練不穩定的業界難題,提出穩定訓練巨量模型的算法,打造了巨量模型推理方法創新;在數據方面,我們生成了迄今業界最大的高質量中文數據集;在算力上,我們通過算法與算力協同優化,極大提升了計算效率,在實現業界訓練性能第一的同時,還達到了業界領先的精度。”

巨量模型是未來的發展方向

“認知智能是人工智能研究者追求的方向之一。”中國工程院院士王恩東告訴《中國科學報》,“除了加速深度學習技術,開發全新的算法范式研究方向外,大規模數據訓練超大參數量的巨量模型也是未來發展方向,即利用先進的算法,整合大規模的數據,匯聚大量算力,訓練出巨量人工智能模型。”

2020年6月,OpenAI發布了參數量高達1750億的大模型GPT-3,該模型一推出就引起人工智能學界和業界的轟動。“語言模型是全球AI界的‘必爭之地’。”一位人工智能研究領域的專家說,“參數規模大到遠超我們想象的時候,會發生一些難以解釋的現象。”

浪潮信息副總裁劉軍同樣認為,生命從簡單進化到復雜,這種智能水平本身就是一種模型。如果把模型比作元宇宙中的生命,大模型的這種綜合系統能力,可能會決定未來數字世界和智能世界里的智能水平。“人的神經元突觸超過100萬億,而現有大模型的參數量還遠遠不夠,所以我們還有很遠路要走”。

伴隨著人工智能應用廣度與深度的不斷提升,眾多行業、諸多業務場景的智能化創新需求日益增多。然而當前大多數AI模型只能用于某一特定領域,通用性不強,這對AI技術提出了挑戰,也限制了AI的產業化進程。

大模型在今天初露崢嶸絕非偶然。技術、算力、資源、需求等多因素的“風云際會”,讓被AI業界視為“核力量”的大模型嶄露頭角。

電子發燒友綜合報道,參考自量子位、浪潮服務器

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6591

    瀏覽量

    104026
  • 浪潮
    +關注

    關注

    1

    文章

    458

    瀏覽量

    23851
  • 英偉達
    +關注

    關注

    22

    文章

    3771

    瀏覽量

    90991
收藏 人收藏

    評論

    相關推薦

    英偉預測機器人領域或迎“GPT-3時刻”

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-20 17:05 ?790次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉科學家9月19日,科技媒體The Decoder發布了一則引人關注的報道,英偉高級科學家Jim Fan在近期預測,機器人技術將在未來
    的頭像 發表于 09-19 15:13 ?566次閱讀

    英偉高管解讀Q2財報 但是英偉市值暴跌1.4萬億元

    的150美元。英偉算是交出了一份非常亮眼的成績單,但是英偉公司發布的Q
    的頭像 發表于 08-30 13:03 ?719次閱讀

    英偉震撼發布:全新AI模型參數規模躍升至80量級

    8月23日,英偉宣布,其全新AI模型面世,該模型參數規模高達80,具有精度高、計算效益大等優
    的頭像 發表于 08-23 16:08 ?730次閱讀

    英偉市值暴增7500

    美東時間周一,科技股市場呈現分化態勢,特斯拉股價小幅下滑,而蘋果與微軟則溫和上漲。然而,在這場科技盛宴中,AI芯片領域的領頭羊英偉卻大放異彩,股價飆升超過4%,市值一夜之間暴增105
    的頭像 發表于 08-13 17:48 ?1006次閱讀

    AI芯片巨頭英偉漲超4% 英偉市值暴增7500

    誰是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉肯定有一席之地,特別是現在全球資本市場動蕩之際,業界分析師多認為英偉是最佳“反彈股”
    的頭像 發表于 08-13 15:33 ?1089次閱讀

    “全球新股王”誕生!英偉市值超微軟、蘋果

    被瘋狂爆炒超4000%。而后,英偉市值一度突破3萬億美元短暫超過蘋果公司。數據顯示,英偉市值
    的頭像 發表于 06-26 08:05 ?285次閱讀
    “全球新股王”誕生!<b class='flag-5'>英偉</b><b class='flag-5'>達</b>市值超<b class='flag-5'>微軟</b>、蘋果

    微軟發布視覺型AI新模型:Phi-3-vision

     據悉,Phi-3-vision 作為微軟 Phi-3 家族的首款多模態模型,繼承自 Phi-3-mini 的文本理解能力,兼具輕巧便攜特性
    的頭像 發表于 05-27 15:56 ?477次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    計算工作負載、釋放百億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。 NVLink釋放數萬億參數AI模型的加速性能,顯著提升大型
    發表于 05-13 17:16

    微軟自研5000參數模型曝光

    微軟近日曝光了其內部正在秘密研發的巨型AI模型——MAl-1,這款模型擁有驚人的5000參數。據微軟
    的頭像 發表于 05-08 09:56 ?456次閱讀

    微軟發布phi-3AI模型,性能超越GPT-3.5

    微軟稱,帶有38參數的phi-3-mini經過3.3萬億token的強化學習,其基礎表現已經超過Mixtral 8x7B及
    的頭像 發表于 04-23 14:32 ?535次閱讀

    為什么GPU適用于AI?AI服務器產業鏈格局分析

    GPT模型對比BERT模型、T5模型參數量有明顯提升。GPT-3是目前最大的知名語言
    發表于 04-09 10:38 ?903次閱讀
    為什么GPU適用于AI?AI服務器產業鏈格局分析

    英偉一天蒸發近萬億 英偉市值蒸發超9200

    英偉一天蒸發近萬億 英偉市值蒸發超9200元 美國時間3月8日
    的頭像 發表于 03-10 15:42 ?1950次閱讀

    Rambus HBM3內存控制器IP速率達到9.6 Gbps

    在人工智能大模型浪潮的推動下,AI訓練數據集正極速擴增。以ChatGPT為例,去年11月發布GPT-3,使用1750
    的頭像 發表于 01-23 11:19 ?974次閱讀
    Rambus HBM<b class='flag-5'>3</b>內存控制器IP速率達到9.6 Gbps
    主站蜘蛛池模板: 99久久国产极品蜜臀AV酒店| 妇少水多18P蜜泬17P亚洲乱| 果冻传媒色AV国产播放| 色即是空之甜性涩爱| 97免费在线视频| 伦理电影2499伦理片| 伊人青青久| 精品成人片深夜| 亚洲欧美视频在线| 好男人在线高清WWW免费观看| 特级做A爰片毛片免费69| 国产97碰免费视频| 双性h浪荡受bl| 国产女人喷潮视频免费| 迅雷哥在线观看高清| 国产在线一区二区AV视频| 亚洲三级视频| 久久极品视频| 99久久免费看少妇高潮A片| 浓毛BWBWBWBWBW日本| silk118中文字幕无删减| 色婷婷AV国产精品欧美毛片| 国产成人精品久久一区二区三区| 无码天堂亚洲国产AV久久| 国产性夜夜性夜夜爽91| 一二三四韩国免费观看| 免费a视频在线观看| 不用播放器的黄| 羞羞答答的免费视频在线观看| 国产午夜一级鲁丝片| 印度12 13free| 欧美ⅹxxxx18性欧美| 国产精品69人妻无码久久久| 亚洲欧美中文字幕5发布| 毛片999| 高H黄暴NP辣H一女多男| 亚洲日本欧美产综合在线| 久久视频在线视频| 成年无码av片| 亚洲视频中文| 欧美最猛黑人AAAAA片|