色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-25 11:34 ? 次閱讀

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息?這一問題在計算機科學和自然語言處理領域一直存在爭議。然而,MIT的一項新研究表明,僅基于文本形式訓練、用于預測下一個token的語言模型確實能學習和表示文本的意義。

雖然大型預訓練語言模型(LLM)在一系列下游任務中展現出飛速提升的性能,但它們是否真的理解其使用和生成的文本語義?

長期以來,AI社區對這一問題存在很大的分歧。有一種猜測是,純粹基于語言的形式(例如訓練語料庫中token的條件分布)進行訓練的語言模型不會獲得任何語義。相反,它們僅僅是根據從訓練數據中收集的表面統計相關性來生成文本,其強大的涌現能力則歸因于模型和訓練數據的規模。這部分人將LLM稱為「隨機鸚鵡」。

但也有一部分人不認同此觀點。一項最近的研究表明,大約51%的NLP社區受訪者同意:「一些僅通過文本訓練的生成模型,在擁有足夠的數據和計算資源的情況下,可以以某種有意義的方式理解自然語言(超越表面層面的統計關聯,涉及對語言背后的語義和概念的理解)」。

為了探究這個懸而未決的問題,來自MIT CSAIL的研究人員展開了詳細研究。

01ef082a-fa2a-11ed-90ce-dac502259ad0.png論文地址:https://paperswithcode.com/paper/evidence-of-meaning-in-language-models

該研究使用的語言模型僅訓練成為文本預測下一個token的模型,并制定兩個假設:

H1:僅通過對文本進行下一個token預測訓練的LM在根本上受限于重復其訓練語料庫中的表面層次統計相關性;

H2LM無法對其消化和生成的文本賦予意義。

為了探究 H1 和 H2兩個假設的正確性,該研究將語言建模應用于程序合成任務,即在給定輸入輸出示例形式規范的情況下合成程序。該研究采用這種方法的主要是因為程序的意義(和正確性)完全由編程語言的語義決定。

具體來說,該研究在程序及其規范的語料庫上訓練語言模型(LM),然后使用線性分類器探測 LM 對于程序語義表征的隱藏狀態。該研究發現探測器提取語義的能力在初始化時是隨機的,然后在訓練期間經歷相變,這種相變與 LM 在未見過規范的情況下生成正確程序的能力強相關。此外,該研究還展示了一項介入實驗的結果,該實驗表明語義在模型狀態中得以表征(而不是通過探測器(probe)進行學習)。

該研究的主要貢獻包括:

1、實驗結果表明,在執行預測下一個token任務的 LM 中出現了有意義的表征。具體來說,該研究使用經過訓練的 LM 在給定幾個輸入輸出示例的情況下生成程序,然后訓練一個線性探測器,以從模型狀態中提取有關程序狀態的信息。研究者發現內部表征包含以下線性編碼:(1) 抽象語義(抽象解釋)——在程序執行過程中跟蹤指定輸入;(2) 與尚未生成的程序token對應的未來程序狀態預測。在訓練期間,這些語義的線性表征與 LM 在訓練步驟中生成正確程序的能力同步發展。

2、該研究設計并評估了一種新穎的介入(interventional)方法,以探究從表征中提取意義時LM 和探測器的貢獻。具體來說,該研究試圖分析以下兩個問題中哪個成立:(1) LM 表征包含純(句法)轉錄本(transcript),同時探測器學習解釋轉錄本以推斷含義;(2)LM 表征包含語義狀態,探測器只是從語義狀態中提取含義。實驗結果表明 LM 表征實際上與原始語義對齊(而不是僅僅編碼一些詞匯和句法內容),這說明假設H2是錯誤的。01f7408a-fa2a-11ed-90ce-dac502259ad0.png

3、該研究表明 LM 的輸出與訓練分布不同,具體表現為LM 傾向于生成比訓練集中的程序更短的程序(并且仍然是正確的)。雖然 LM 合成正確程序的能力有所提高,但LM 在訓練集中的程序上的困惑度仍然很高,這表明假設H1是錯誤的。

總的來說,該研究提出了一個框架,用于根據編程語言的語義對 LM 進行實證研究。這種方法使我們能夠定義、測量和試驗來自底層編程語言的精確形式語義的概念,從而有助于理解當前 LM 的涌現能力。

研究背景

該研究使用跟蹤語義作為程序含義模型。作為編程語言理論中一個基礎主題,形式語義學主要研究如何正式地為語言中的字符串分配語義。該研究使用的語義模型包括跟蹤程序的執行:給定一組輸入(即變量賦值),一個(句法)程序的含義是用從表達式中計算出的語義值標識的,跟蹤軌跡是根據輸入執行程序時生成的中間值序列。

將跟蹤軌跡用于程序含義模型具有幾個重要原因:首先,準確跟蹤一段代碼的能力與解釋代碼的能力直接相關;其次,計算機科學教育也強調跟蹤是理解程序開發和定位推理錯誤的重要方法;第三,專業的程序開發依賴基于跟蹤的調試器(dbugger)。

該研究使用的訓練集包含100萬個隨機抽樣的Karel程序。20世紀70年代,斯坦福大學畢業生 Rich Pattis 設計了一個程序環境,讓學生教機器人來解決簡單的問題,這個機器人被稱為Karel機器人。

該研究通過隨機采樣來構造訓練樣本的參考程序,然后采樣5個隨機輸入并執行程序得到對應的5個輸出。LM 被訓練為對樣本語料庫執行下一個token預測。在測試時,該研究只提供輸入輸出前綴給LM,并使用貪心解碼完成程序。下圖1描繪了一個實際的參考程序和經過訓練的 LM 的完成情況。

01fff2de-fa2a-11ed-90ce-dac502259ad0.png

該研究訓練了一個現成的 Transformer 模型對數據集執行下一個token預測。經過 64000 個訓練步驟(training step),大約 1.5 個 epoch,最終訓練好的 LM 在測試集上達到了 96.4% 的生成準確率。每 2000 個訓練步驟,該研究會捕獲一個跟蹤數據集。對于每個訓練軌跡數據集,該研究訓練一個線性探測器來預測給定模型狀態的程序狀態。

意義的涌現

研究者對以下假設進行了研究:在訓練語言模型執行下一個token預測的過程中,語義狀態的表示會作為副產品出現在模型狀態中。考慮到最終訓練得到的語言模型達到了96.4%的生成準確性,如果否定這個假設,將與H2一致,即語言模型已經學會「僅僅」利用表面統計來一致生成正確的程序。

為了測試這個假設,研究者訓練了一個線性探測器,將語義狀態從模型狀態中提取出來,作為5個獨立的4-way任務(每個輸入面向一個方向),如第2.2節所述。

意義的涌現與生成準確性呈正相關

圖2展示了主要結果。研究者的第一個觀察結果是,語義內容從隨機猜測的基線表現(25%)開始,并且在訓練過程中顯著增加。這個結果表明,語言模型的隱藏狀態確實包含語義狀態的(線性)編碼,并且關鍵的是,這種意義是在一個純粹用于對文本執行下一個token預測的語言模型中出現的。

將生成準確性與語義內容進行線性回歸,二者在訓練步驟中呈現出意外的強大且具有統計學意義的線性相關性(R2 = 0.968, p < 0.001),即LM合成正確程序的能力的變化幾乎完全由LM的隱藏層的語義內容所解釋。這表明,在本文的實驗設置范圍內,學習建模正確程序的分布與學習程序的意義直接相關,這否定了語言模型無法獲取意義的觀點(H2)。

0206256e-fa2a-11ed-90ce-dac502259ad0.png

表征是對未來程序語義的預測

前一節討論了語言模型能否表示其生成的文本的意義。本文的結果對這個問題給出了積極的答案,即語言模型能夠(抽象地)解釋生成的程序。然而,解釋者(interpreter)并不等同于合成者(synthesizer),僅有理解能力是不足以進行生成的。就人類語言的產生而言,廣泛的共識是語言起源于思維中的一種非言語的信息,然后被轉化為反映初始概念的話語(utterance)。研究者假設訓練后的語言模型的生成過程遵循類似的機制,即語言模型的表示編碼了尚未生成的文本的語義。

為了驗證這個假設,他們使用與上述相同的方法訓練了一個線性探測器,來預測從模型狀態中得到的未來語義狀態。需要注意的是,由于他們使用貪婪解碼策略,未來的語義狀態也是確定性的,因此這個任務是明確定義的。

圖3展示了線性探測器在預測未來1步和2步的語義狀態方面的表現(綠段線表示「Semantic (+1)」,綠點線表示「Semantic (+2)」)。與先前的結果類似,探測器的性能從隨機猜測的基線開始,然后隨著訓練顯著提高,并且他們還發現未來狀態的語義內容與生成準確性(藍線)在訓練步驟中呈現出強烈的相關性。將語義內容與生成準確性進行線性回歸分析得到的R2值分別為0.919和0.900,對應于未來1步和2步的語義狀態,兩者的p值均小于0.001。

020d0640-fa2a-11ed-90ce-dac502259ad0.png

他們還考慮了這樣一個假設,即模型的表示只編碼了當前的語義狀態,而探測器僅僅是從當前語義狀態預測未來的語義狀態。為了測試這個假設,他們計算了一個最優分類器,將當前程序中的ground truth面向方向映射到未來程序中的4個面向方向之一。

需要注意的是,其中的5個操作中有3個保持了面向方向,并且下一個 token是均勻采樣的。因此他們預期,對于未來1步的情況,預測未來的語義狀態的最優分類器應該通過預測面向方向保持不變來達到60%的準確率。事實上,通過直接擬合測試集,他們發現從當前語義狀態預測未來語義狀態的上限分別為62.2%和40.7%(對應于未來1步和2步的情況)。相比之下,當給定探測器正確預測當前狀態的條件下,探測器在預測未來狀態方面的準確率分別為68.4%和61.0%。

這表明,探測器從模型狀態中提取未來語義狀態的能力不能僅僅通過從當前語義狀態的表示中推斷得出。因此,他們的結果表明,語言模型會學習去表示尚未生成的token的含義,這否定了語言模型無法學習意義的觀點(H2),并且也表明生成過程不僅僅基于純粹的表面統計(H1)。

生成的輸出與訓練分布不同

接下來,研究者通過比較訓練后的語言模型生成的程序分布與訓練集中的程序分布,提供反駁H1的證據。如果H1成立,他們預期兩個分布應該大致相等,因為語言模型只是在重復訓練集中文本的統計相關性。

圖6a顯示了LM生成的程序的平均長度隨時間的變化情況(實線藍色線條),與訓練集中參考程序的平均長度(虛線紅色線條)進行對比。他們發現二者存在統計學上的顯著差異,這表明LM的輸出分布確實與其訓練集中的程序分布不同。這與H1中提到的觀點(即LM只能重復其訓練數據中的統計相關性)相矛盾。

021561dc-fa2a-11ed-90ce-dac502259ad0.png

最后,他們還測量了LM在訓練集中的程序上的困惑度隨時間的變化情況。圖6b展示了他們的結果??梢钥吹?,LM從來沒有學會很好地擬合訓練集中程序的分布,這進一步反駁了H1的觀點。這可能是因為在訓練集中隨機抽樣的程序包含了許多無操作指令,而LM更傾向于生成更簡潔的程序。有趣的是,困惑度的急劇增加——當LM超越了模仿階段——似乎導致了生成準確率(和語義內容)的提高。由于程序等價性問題與程序語義密切相關,LM能夠生成簡短且正確的程序表明它確實學到了語義的某個方面。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7237

    瀏覽量

    90938
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10649
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13592

原文標題:有證據了,MIT表明:大型語言模型≠隨機鸚鵡,確實能學到語義

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網頁內容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結構連貫、語義合理的句子和段落。大
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    的特征,并且這些特征融合了這些詞在當前序列的上下文語義,因此能夠解決一詞多義的問題。憑借這種優勢,基于動態詞向量語言模型進行預訓練的方法被廣泛應用于自然語言
    發表于 05-05 12:17

    MCU能否捕捉到穩定的低信號電平?

    Vext=3.3V 我有一個問題,你可以看我的圖片,如果信號有一些雜波,并且高于 0.5V,但低于 1.4V。 MCU能否捕捉到穩定的低信號電平?
    發表于 07-02 06:17

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    一些局限性。例如,模型可能無法完全理解文本的深層含義和語境信息;同時,由于訓練數據可能存在偏差和噪聲,生成的答案也可能存在不準確或誤導性的
    發表于 08-02 11:03

    飛凌嵌入式-ELFBOARD 解決PCB布線時無法捕捉到焊盤中心的問題

    1、 文檔目標 解決PCB布線時無法捕捉到焊盤中心的問題 2、 問題場景 PCB布線時,發現十字光標無法捕捉焊盤中心點,如圖1所示,綠色十字光標靠近焊盤中心,卻沒有自動捕捉到,這是什么原因? 圖
    發表于 09-10 10:50

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言。語義
    發表于 10-19 11:34

    請問在28027對ECAP功能,捕捉到下降沿的同時能否自動讀取某一個32位定時器的計數值?

    請問在28027對ECAP功能,捕捉到下降沿的同時能否自動讀取某一個32位定時器的計數值?如果不能,通過編程讀取應該是可行的吧?
    發表于 10-31 15:11

    邏輯分析儀捕捉到的脈沖與常見的NEC協議捕捉到的脈沖有何不同

    邏輯分析儀捕捉到的脈沖與常見的NEC協議捕捉到的脈沖有何不同?
    發表于 02-15 06:22

    基于語義感知的中文短文本摘要生成技術

    文本摘要生成技術能夠從海量數據概括岀關鍵信息,有效解決用戶信息過載的問題。目前序列到序列模型
    發表于 05-28 15:45 ?2次下載

    大型語言模型有哪些用途?

    通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。 大型語言模型是 Transformer 模型最成功的應用之一。
    的頭像 發表于 02-23 19:50 ?5528次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發表于 03-08 13:57 ?8502次閱讀

    如何正確的觀察電流探頭捕捉到的電流波形

    市面上的電流探頭一般輸出阻抗50ohm,并搭配示波器組合使用觀察信號,那如何正確的觀察電流探頭捕捉到的電流波形呢?
    的頭像 發表于 08-23 15:20 ?965次閱讀
    如何正確的觀察電流探頭<b class='flag-5'>捕捉到</b>的電流波形

    Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發布了Code Llama,一款可以使用文本提示生成代碼的大型語言模型(LLM)。
    的頭像 發表于 08-25 09:06 ?1814次閱讀
    Meta發布一款可以使用<b class='flag-5'>文本</b>提示<b class='flag-5'>生成</b>代碼的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>Code Llama

    如何正確的觀察電流探頭捕捉到的電流波形?

    電流探頭是示波器用于測量和顯示電流波形的重要工具。正確地觀察電流探頭捕捉到的電流波形對于分析電路的性能和診斷問題至關重要。
    的頭像 發表于 05-19 16:34 ?1440次閱讀

    使用LLM進行自然語言處理的優缺點

    語言任務,如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優缺點: 優點 強大的語言理解能力 : LLM通過訓練學習了大量的語言模式和結構,能夠理解和
    的頭像 發表于 11-08 09:27 ?1748次閱讀
    主站蜘蛛池模板: 精品久久久久久久久免费影院 | 亚洲国产在线午夜视频无 | 香蕉久久日日躁夜夜嗓 | 国产成人无码精品久久久免费69 | YELLOW视频直播在线观看高清 | 97人妻精品全国免费视频 | 久久re这里视频只精品首页 | 色噜噜噜视频 | 国产国产人免费观看在线视频 | 一个人在线观看视频 | 免费完整版观看 | 十九禁啊啪射视频在线观看 | 亚洲第一天堂无码专区 | 伊人亚洲综合青草青草久热 | 激情床戏视频片段有叫声 | SM双性精跪趴灌憋尿调教H | 国产GV无码A片在线观看 | 达达兔欧美午夜国产亚洲 | 99re6久久在热线视频 | 和老外3p爽粗大免费视频 | 无码天堂亚洲国产AV久久 | 天天爽夜夜爽夜夜爽 | 伊人久久国产精品 | 日韩精品一区二区三区AV在线观看 | 亚州综人网 | 69久久国产露脸精品国产 | 黄页网站18以下勿看免费 | 精品久久99麻豆蜜桃666 | 亚洲国产精品嫩草影院永久 | 欧洲亚洲精品A片久久99果冻 | 女人被躁到高潮嗷嗷叫免费 | 川师 最美老师 | 欧美性喷潮xxxx | 国产亚洲精品AV片在线观看播放 | 亚洲精品资源网在线观看 | 国产AV国产精品国产三级在线L | 日本一卡精品视频免费 | 国产电影午夜成年免费视频 | 欧美高清18 | 亚洲福利视频导航 | 日本xxx在线观看免费播放 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品