色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用Megatron-CNTRL為語言模型添加外部知識和可控性

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-20 14:31 ? 次閱讀

大型語言模型,如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創(chuàng)建更好的對話式人工智能的應用程序感到興奮。生成語言模型在會話式人工智能應用中存在的一個主要問題是缺乏可控制性和與真實世界事實的一致性。在這項工作中,我們試圖通過使我們的大型語言模型既可控又與外部知識庫保持一致來解決這個問題。縮放語言模型提供了更高的流暢性、可控性和一致性。

story-generation-tree-2-2.png

圖 1 。故事是由外部知識庫中的模型進行調節(jié)而產(chǎn)生的,并由不同的關鍵詞如“駕駛”和“吸引”控制。

為了緩解一致性和可控性問題,已經(jīng)做了幾次嘗試。 Guan et al.( 2020 年) 通過微調引入常識知識來解決一致性問題。然而,這種天真的方法缺乏可解釋性和靈活性,無法決定何時以及從外部知識庫中合并什么。

控制文本生成 的許多功能都是可取的。最近,人們開發(fā)了不同的方法來控制生成,例如 使用預先添加到模型輸入的控制代碼 和 以目標演員之前的談話為條件 。然而,這些控制條件是預先定義好的,并且其能力有限。它們缺乏控制粒度,比如在句子或子文檔級別。

我們通過允許在預先訓練的語言模型中動態(tài)地結合外部知識以及控制文本生成來解決這些缺點。我們利用了我們的 Megatron 項目 ,它的目標是在 GPU 集群上以光效的速度訓練最大的 transformer 語言模型。我們提出了一個新的生成框架,威震天 CNTRL ,它使得我們的大型威震天語言模型既可以控制,又可以使用外部知識庫保持一致。

通過 土耳其機器人 使用人類求值器,我們展示了縮放語言模型提供了更高的流暢性、可控性和一致性,從而產(chǎn)生更真實的生成。結果,高達 91 . 5% 的生成故事被新關鍵字成功控制,并且高達 93 . 0% 的故事在 ROC 故事數(shù)據(jù)集 上被評估為一致。我們預計這一趨勢將繼續(xù)下去,從而激勵人們繼續(xù)投資于為對話型人工智能培訓更大的模型。圖 1 顯示了生成過程的一個示例。

Megatron 控制框架

在問題設置中,我們用第一句話作為輸入來完成一個故事。我們使用外部知識庫來擴充生成過程,并開發(fā)出一種能夠指導和控制故事生成的方法。圖 2 顯示了框架由以下連接步驟組成:

在給定故事背景的情況下,關鍵詞預測模型首先預測下一個句子的關鍵詞集合。

然后,知識檢索器獲取生成的關鍵字并查詢外部知識庫,其中每個知識三元組使用模板轉換為自然語言“知識句子”。

一個語境知識 ranker 然后根據(jù)外部知識句與故事上下文的關聯(lián)程度對它們進行排序。

最后,一個生成器將故事語境以及排名第一的知識句作為輸入,生成故事中的下一句。輸出句子附加到故事上下文中,重復步驟 1-4 。

這個公式自然地允許通過用手動外部關鍵字代替關鍵字生成過程來控制。

poYBAGJfqM-ABKzAAACyYYUPtRE666.png

圖 2 。威震天控制:生成框架概述。

我們將關鍵詞生成建模為一個序列到序列的問題,它以故事上下文為輸入,輸出一系列關鍵字。我們使用 Megatron 模型(基于 GPT-2 )來生成關鍵字。知識檢索器是一個簡單的模型,它將關鍵字與知識庫相匹配。對于上下文知識 ranker ,我們首先構建偽標簽,通過嵌入一個名為 使用 的句子來找到與故事上下文最相關的知識。然后我們訓練一個來自 Megatron 模型的 ranker (基于 BERT ),對由知識檢索器過濾的知識進行排序。然后,排名靠前的知識被附加到故事上下文的末尾,作為來自 Megatron 模型的另一個條件生成器的輸入,以生成下一個故事句子。

實驗裝置

我們使用 ROC 故事數(shù)據(jù)集進行實驗。它由 98161 個故事組成,每個故事都包含五句話。按照 Guan et al.( 2020 年) ,對于每個句子,通過用特殊占位符替換故事中的所有名稱和實體來執(zhí)行去毒性。在每個故事的第一句話中,我們的模型的任務是生成故事的其余部分,對于外部知識庫,我們使用了由 600k 知識三倍組成的 概念網(wǎng) 。我們分別用 Megatron 對預雨前的 BERT 和 GPT-2 模型進行上下文知識 ranker 和生成模型的初始化。關鍵字預測器和條件句生成器都遵循相同的設置。

質量評價

我們用自動的困惑、故事重復和 4 克的標準來評價生成的故事的質量,以及人類對連貫性、連貫性和流利性的評價。將 Megatron-CNTRL-124M 模型與表 1 和圖 3 中的 Yao et al.( 2018 年) 進行比較,我們獲得了更高的 4 克、一致性、流利性和一致性分數(shù),這表明了大型預處理變壓器模型的好處。將 Megatron-CNTRL-124M 與 Guan et al.( 2020 年) (不可控)進行比較,該模型還使用了表 1 所示的基于 GPT-2 的模型,我們注意到,我們的模型具有明顯的更好的一致性(+ 7 . 0% )和一致性(+ 7 . 5% )。我們將這歸因于檢索到的知識的使用。通過明確提供與下一句相關的事實,條件生成模型可以集中于生成文本。

poYBAGJfqQGAIYNAAAAjt4Pk__w884.png

表 1 。評估了以前最先進的模型以及我們的算法在不同的大小。困惑,故事重復,和不同的 4-gram 被自動評估。

poYBAGJfqNWAOAoDAAA92cLucRs800.png

圖 3 。我們的模型和基線之間成對比較的人類評估。

當模型尺寸從 124M 增加到 355M 、 774M 、 2B 和 8B 時,我們觀察到在困惑、清晰、一致性、連貫性和流暢性方面的一致性改善,這表明進一步縮小模型尺寸幾乎總能提高生成質量。為了保持一致性,我們在 8B 參數(shù)下的最佳模型達到了 93% 的分數(shù),這意味著 93% 的生成故事被注釋為邏輯一致。

可控性評價

我們首先將關鍵字改為反義詞,然后詢問注釋者生成的故事是否根據(jù)新的關鍵字而變化,以此來評估模型的可控性。表 2 中的結果表明,從Megatron-CNTRL-124M-ANT (它是通過將關鍵字改為反義詞的受控版本)生成的 77 . 5% 是由新關鍵字控制的。將發(fā)電模型從 124M 擴展到 8B ,我們觀察到可控性得分提高到 91 . 5% ,這表明大型模型對可控性有顯著的幫助。

poYBAGJfqRKAAFiLAAAOWLAsoyQ777.png

表 2 。通過將關鍵字改為反義詞,人類對可控性的評價。

可控世代樣本

在下面的例子中,我們展示了Megatron-CNTRL 的能力。我們展示了在不同的發(fā)電粒度水平下的可控性。給出一個句子,Megatron-CNTRL 提出控制關鍵字。用戶可以使用它們,也可以提供他們選擇的外部控件關鍵字。這個過程一直持續(xù)到整個故事生成的結尾。

例 1:我們提供句子“[FEMALE]在一次公路旅行中”和一開始的控制關鍵字“ driving ”。根據(jù)這個輸入 Megatron 控制產(chǎn)生“她在路上開車”的條件是“開車”。然后,該模型預測下兩步的新關鍵詞“突然”和“拉動,檢查”,并生成相應的故事句。在生成最后一個句子之前,我們再次提供外部控制關鍵字“ help ”。我們觀察到,生成的句子“它吸煙嚴重,需要幫助”跟在控制關鍵字后面。

視頻 1 。使用“ driving ”關鍵字生成的故事。

例 2:我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產(chǎn)生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關于一只巨大黑熊的可怕故事。由于外部情緒控制關鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

視頻 2 。用“激動”關鍵字生成的故事。

結論

我們的工作證明了將大型的、經(jīng)過訓練的模型與外部知識庫相結合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學習,并為更長的世代引入結構級控制。

例 2 :我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產(chǎn)生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關于一只巨大黑熊的可怕故事。由于外部情緒控制關鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

結論

我們的工作證明了將大型的、經(jīng)過訓練的模型與外部知識庫相結合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學習,并為更長的世代引入結構級控制。

關于作者

Peng Xu是香港科技大學的候選人。他的研究重點是情感計算和自然語言生成。通過構建能夠理解人類情感的系統(tǒng),他旨在實現(xiàn)更好的人機交互,并將更多自然世代的界限從機器上推出來。他在中國科學技術大學獲得電子工程和信息科學學士學位。

Mostofa Patwary 是 NVIDIA 應用深度學習研究團隊的高級深度學習研究科學家。 Mostofa 的研究興趣遍及自然語言處理、可擴展深度學習、高性能計算和算法工程等領域。在加入 NVIDIA 之前, Mostofa 在百度硅谷人工智能實驗室( Silicon Valley AI Lab )致力于擴展大型語言模型和擴展深度學習應用程序的可預測性。 Mostofa 還為能夠在超級計算機上運行的機器學習中的幾個核心內核開發(fā)大規(guī)模代碼做出了重大貢獻。

Mohammad Shoeybi 是一位高級研究科學家,在 NVIDIA 管理應用深度學習研究小組的 NLP 團隊。他的團隊專注于語言建模, NLP 應用,如問答和對話系統(tǒng),以及大規(guī)模培訓。他獲得了博士學位。 2010 年從斯坦福大學畢業(yè)。在 NVIDIA 之前,他曾在 DeepMind 和美國百度工作,致力于將深度學習和強化學習應用到應用程序中。

Raul Puri 是 OpenAI 的研究科學家。勞爾在加州大學伯克利分校獲得電子工程和計算機科學學士學位,重點研究生物醫(yī)學工程。

Pascale Fung 是香港香港科技大學計算機科學與工程系的 ELE 〔 ZDK0 〕電子與計算機工程系教授。馮教授獲哥倫比亞大學計算機科學博士學位。她曾在 at & T 貝爾實驗室、 BBN 系統(tǒng)與技術公司、 LIMSI 、 CNRS 、日本京都大學信息科學系和法國巴黎中央經(jīng)濟學院工作和學習。馮教授能流利地講七種歐洲和亞洲語言,他對多語種演講和自然語言問題特別感興趣。

Anima Anandkumar 在學術界和工業(yè)界擁有雙重地位。她是加州理工學院 CMS 系的布倫教授和 NVIDIA 的機器學習研究主任。在 NVIDIA ,她領導著開發(fā)下一代人工智能算法的研究小組。在加州理工學院,她是 Dolcit 的聯(lián)合主任,與 Yisong Yue 共同領導 AI4science initiative 。

Bryan Catanzaro 是 NVIDIA 應用深度學習研究的副總裁,他領導一個團隊尋找使用人工智能的新方法來改善項目,從語言理解到計算機圖形和芯片設計。布萊恩在 NVIDIA 的研究導致了 cuDNN 的誕生,最近,他幫助領導了發(fā)明 dlss2 。 0 的團隊。在 NVIDIA 之前,他曾在百度創(chuàng)建下一代系統(tǒng),用于培訓和部署端到端、基于深度學習的語音識別。布萊恩在加州大學伯克利分校獲得了電子工程和計算機科學博士學位

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4981

    瀏覽量

    102999
  • 深度學習
    +關注

    關注

    73

    文章

    5500

    瀏覽量

    121117
收藏 人收藏

    評論

    相關推薦

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發(fā)布了最新開放模型 Gemma 2,目前與同等規(guī)模的開放模型相比,取得了明顯的優(yōu)勢,同時在安全可控性上得到了顯著的增強。
    的頭像 發(fā)表于 08-09 17:04 ?529次閱讀
    Google Gemma 2<b class='flag-5'>模型</b>的部署和Fine-Tune演示

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    能夠關注到輸入文本中的重要部分,從而提高預測的準確和效率。這種機制允許模型在處理文本時同時考慮多個位置的信息,并根據(jù)重要進行加權處理。 一些關鍵技術 1. 上下文理解 大語言
    發(fā)表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    今天開始學習《大語言模型應用指南》第一篇——基礎篇,對于人工智能相關專業(yè)技術人員應該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業(yè)術語比較陌生,需要網(wǎng)上搜索學習更多的資料才能理解書中
    發(fā)表于 07-25 14:33

    如何向Buildroot內添加外部APP

    Linux項目開發(fā),如何在BuildRoot框架內添加外部APP呢?本文以quect-CM撥號軟件例,做開發(fā)演示。
    的頭像 發(fā)表于 07-22 17:48 ?343次閱讀
    如何向Buildroot內<b class='flag-5'>添加</b><b class='flag-5'>外部</b>APP

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    ,了解此書的主要內容: 書分四篇,基礎、入門、進階和展望。 基礎篇從人工智能起源開始、之后又介紹了機器學習、神經(jīng)網(wǎng)絡和大語言模型的基礎知識,如果讀者學習過機器學習相關課程,那這個基礎篇的閱讀就會很輕
    發(fā)表于 07-21 13:35

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓練,使模型學習到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?423次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色,耳真正厲害的是Transformer,此框架被推出后直接
    發(fā)表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    和微調的積累,無需額外知識。然而,大模型所掌握的世界知識具有時效,對于訓練后發(fā)生的事件或訓練集中未涵蓋的知識,大
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    評測任務則重點評估模型在提供方法論和實踐建議方面的能力。這類任務要求模型能像經(jīng)驗豐富的導師或專家那樣,用戶提供有價值的建議和解決方案??傊@套綜合的評測框架為全面評估大
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數(shù)據(jù)時,數(shù)量、質量和多樣三者缺一不可。 數(shù)據(jù)的多樣對于大語言模型至關重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    《大語言模型“原理與工程實踐”》是關于大語言模型內在機理和應用實踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實踐案例,幫助讀者理解如何將理論
    發(fā)表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造的文本,故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面,其計算資源需求巨大,訓練和推理耗時;另一方面,
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    《大語言模型》是一本深入探討人工智能領域中語言模型的著作。作者通過對語言模型的基本概念、基礎技術
    發(fā)表于 04-30 15:35

    基于NVIDIA Megatron Core的MOE LLM實現(xiàn)和訓練優(yōu)化

    本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型(LLM)實現(xiàn)與訓練優(yōu)化上的創(chuàng)新工作。
    的頭像 發(fā)表于 03-22 09:50 ?767次閱讀
    基于NVIDIA <b class='flag-5'>Megatron</b> Core的MOE LLM實現(xiàn)和訓練優(yōu)化
    主站蜘蛛池模板: 乳女教师欲乱动漫无修版动画 | 岳扒开让我添| 国产在线观看成人免费视频| 深夜释放自己污在线看| 成人网络电视破解版| 琪琪电影午夜理论片YY6080| 99久久99久久久99精品齐| 麻豆精品无码久久久久久久久 | 亚洲区 bt下载| 国产三级多多影院| 亚洲福利视频导航| 国产亚洲精品字幕在线观看| 武汉美女洗澡| 韩国精品韩国专区久久| 亚洲国产在线综合018| 和美女啪啪啪动态图| 亚洲欧美无码2017在线| 交换:年轻夫妇-HD中文字幕| 亚洲一区免费看| 久久热最新网站获取3| 2020精品极品国产色在线| 内射后入在线观看一区| yy8090理论三级在线看| 色欲AV精品一区二区入口| 国产精品自在自线亚洲| 亚洲欧美一区二区三区导航| 久久婷婷色一区二区三区| 97国产在线播放| 日韩中文欧美在线视频| 国产午夜一级淫片| 与邻居换娶妻子2在线观看| 男女免费观看在线爽爽爽视频| 女人被弄到高潮叫床免| gv肉片视频免费观看| 洗濯屋H纯肉动漫在线观看| 好满射太多了装不下了视频| 337p啪啪人体大胆| 上原结衣快播| 久久视频精品38在线播放| ppypp日本欧美一区二区| 午夜想想爱午夜剧场|