CMU、華盛頓大學、南加州大學、MIT、MILA、密歇根大學、愛丁堡大學、DeepMind、伯克利、Apple…如果我說來自這些地方的dalao共同發表了一篇文章,你相信么?但別驚訝,在即將召開的EMNLP'20的長文列表里,我們就真找到了這樣一篇“奇文”。一篇論文引得眾星云集,那解決的必然不是小問題。這不,作者也很貼心地把他們所希望解決的問題斜體獨行地放在了論文的首欄里——Where is NLP going?
在未來的這幾分鐘里,讓我們暫時放下自己正在改的模型、正在寫的論文和正在追的SOTA,重拾自然語言處理的初心,跟隨大佬們的腳步,去暢想一下未來的NLP究竟是什么樣的吧。
NLP,到底該怎么搞?
這是每一個NLP人都希望探索的終極問題。在經歷了21世紀初的神經語言模型、2013年word2vec算法、2018年的預訓練模型等等的里程碑過后,當今的NLP已經在許多任務上取得了令人欣喜的效果。但是,在欣喜于一個個子任務的突破之后,我們也該停下來思考我們每個人在初識NLP時的那個問題:如何才能讓機器真正地理解人類語言呢?
本文提出了未來NLP的發展方向:只靠文本,是學不會語言的;學會語言,需要的是“語言之外的事件”和“社會環境”。這樣虛無縹緲的兩個詞,隱含的卻是未來NLP所需要添加的潛在的新組件。
為了更加具象,作者引入了“世界范圍”的概念,英文名稱World Scope,簡稱WS(不覺得和作者王蘇有點關系么(逃))
那么這五個世界分別表示什么,又象征著NLP的發展到了哪個階段呢?現在,讓我們把NLP系統想象成自家孩子,看看咱家寶貝兒是怎么一步步從過去只會總結文本模式到未來能夠能動地改變世界的吧~(為了方便,我們就叫她N寶)
WS1:少量語料的世界——當系統學會表示
N寶終于拿到了她能接觸到的第一個語料!此時的她,看的多半是類似于Penn Treebank的經典數據集,而她既沒有容量很大的大腦(指模型),又接觸不到其他東西(指感知和大量語料),于是研究者費盡心機地思考如何讓她用少量文本也能學到些什么。這時的發展,正是集中在文本表示上。
所謂的“含義”(meaning)到底在哪里呢?一個很直觀的想法是認為含義隱藏在文本的語法結構中,于是早期的NLP方法大都采用了諸如語法的分析結構。
但慢慢地,人們發現,文本的含義還有另外的表示方法。20世紀末-21世紀初,Elman和Bengio等人證明了向量表示可以捕獲語法和語義信息;21世紀初,利用基于互信息的層次聚類表示方法和隱馬爾科夫鏈生成詞類別的方法證明了一個詞的上下文隱含了這個詞的含義;同樣是21世紀初,以隱狄利克雷分布模型LDA為代表的主題生成模型證明了獲取含義需要大量的上下文信息。正是基于以上的觀察,才有了近年來諸如word2vec和GloVe的詞向量表示,以及ELMo、GPT和BERT等等的上下文預訓練表示。
然而,關于文本表示,有一個一直以來的矛盾,伴隨著符號主義和連接主義的爭論走到了今天——把詞表示為符號,我們就可以利用一個詞的字典釋義,從而用其他詞表示它,這種“以詞釋詞”的方法服從直覺,解釋性一流;然而,把詞表示為向量,我們就能夠利用諸如神經網絡的“連接主義”系統進行處理,這種“以數釋詞”的方法難以解釋,但架不住它好用。
這樣的符號主義/連接主義爭論經常會在當今的各大人工智能論壇見到,而在連接主義大行其道的當下,能在頂會論文見到這樣的爭論實在難得啊(=?ω?=)
WS2:文本的世界——當系統學會閱讀
不是N寶不愿意上網,是多年前她的小腦瓜實在是處理不了網絡上這么多紛繁復雜的信息。然而,多虧了專做N寶大腦的黃老板(黃仁勛:?)和革新了N寶大腦的Transformer結構(谷歌:?),有了增強算力和模型加持的N寶終于開眼看到了更廣闊的的世界——非結構的,多語言的,跨領域的,無標簽的,單拿出哪個都很讓人興奮吧,但BERT全都要!
以BERT為代表的基于Transformer的預訓練語言模型在眾多下游任務上的優異表現,在寥寥兩三年時間里把NLP領域的排行榜屠了個遍。在我們為新誕生的預訓練模型歡呼雀躍時,內心也難免會為它們越來越龐大的體積和“飯量”感到觸目驚心。
從訓練語料來說,2013年的word2vec使用了16億個token,一年后的GloVe使用了8400億個token,而BERT直接吃下了整個維基百科+一萬多本書。從模型參數上來說,從2018年ELMo的到GPT-3的也不過只用了兩年時間。
更重要的是,這類預訓練模型的效果存在明顯的邊際效益遞減:對于16年提出的詞預測任務LAMBADA[1],從15億參數的GPT-2,到170億參數的TuringNLG,提升甚微;到了1750億參數的GPT-3終于有了8個點的提升,但背后的多出來的算力開銷,它值嗎?
更重要的是,這類預訓練模型很難解決許多更難的NLP任務、例如較難的共指解析(“我把車停在了那個小停車場,因為它足夠[小/大]了。”)。之所以稱之為“較難的”,是因為它們是經過精心選擇的處于數據分布尾端的共指關系。如果N寶沒停過車,她怎么會知道這個問題的答案不是從前半句里簡單地提取出那個“小”字呢?解決這個問題的關鍵,在于經驗。論文標題中的“Experience”,為未來可能的發展指明了方向。
這時,我們終于意識到,再怎么非結構多語言跨領域無標簽的文本,也終究是文本;再往預訓練語言模型砸嘛尼,也不一定能換來真正智能的N寶。N寶不缺文本了,她只是需要更系統地感知這個世界而已。
WS3:視覺與聲覺的世界——當系統學會感知
N寶不再只是一頭扎進書海里的書呆子了,她終于擁有了能看到世界的眼睛、聽到世界的耳朵和觸摸世界的雙手,盡管眼睛耳朵和手也都是機器學習模型。但是,如果不看不聽不碰的話,她怎么能理解“動如脫兔”、“噤若寒蟬”的真意,怎么體會到打工人鋼鐵般的意志(不)
這多出來的感知究竟是什么?是人類在進行決策時的多重依據,也是人們在認識世界時達成的共識,同時也是語言學證明的人類在學習語言時必需的外部輸入。海倫·凱勒學習語言的故事膾炙人口,缺失視覺的輔助尚且如此,剝奪所有感官后,學到的語言還會是一樣的嗎?
文章引用了一種表示人類知識的方法:Frames and Scripts[2]。這種方法在上個世紀80年代被用來表示人類知識。通俗來講,這一方法將人類世界的靜態組成和動態動作流程利用類似于面向對象編程的方式進行建模:Frames利用類圖構建事物之間的關聯關系,而Scripts利用流程圖構建一系列動作的發生過程。但即使成功表示了類別之間的關聯關系,類別中的各個屬性、流程圖中的各個行為和條件依然沒有和現實產生對應。大框架有了,細節卻面臨了同樣的問題,因此,這種建模依然很片面。這恰恰說明了多模態對于理解知識的重要性。
既然是多模態,那自然要提及其中涉及的每個領域向多模態發展的努力。這其中,計算機視覺(CV)和自然語言處理(NLP)的結合自然是發展最多的一個。
計算機視覺領域已經提前意識到了與自然語言處理交互的重要性,并提出了一系列可以復用的模型,而計算機視覺領域也在近幾年來開始解決視覺問答VQA、視覺推理和視頻翻譯等等CV+NLP的交互任務。這些多模態任務的標準數據集可以支持大規模視覺+文本、甚至視覺+文本+語音Transformer模型的訓練。
NLP領域的發展同樣支撐了多模態的應用,由于CV領域廣泛采用的ImageNet[3]分類采用了WordNet[4]描述上下位詞關系的層次分類,在加入了WordNet中每個概念的圖像信息后,我們甚至可以在概念的向量表示中學習到僅利用文本無法獲得的特征。比如,WordNet中“人”是一系列不同職業的上位詞,其中包括“消防員”,“醫生”等等;單純憑借文本難以捕捉這些類別的區別;但在加入了“人”、“消防員”、“醫生”的圖片進行多模態學習后,我們可以利用像素級的掩碼精確地獲得不同類別的具體差異,甚至可以將自然語言描述拓展到從未見過的類別中,學習到新類別的特征…
這正是零次學習(Zero-shot learning)的想法,利用一段對未知類別的描述,讓模型理解在訓練過程中沒有見過的類別的特征。對于文本的單一模態學習,用文本描述文本是WS1的想法;而多模態學習通過添加額外的感知方法,讓零次學習的效果得到了大幅提升。那么問題來了,多模態之后,N寶又要做些什么呢?
WS4:行為的世界——當系統學會試錯
N寶對世界觀察了許久,她能讀能看能聽,我們感覺她好像理解了這個世界。但實際上,她對這個世界似懂非懂。
在她眼中,詞語不過是一串數字或是像素組成的特征而已,每個名詞概念到底隱含著什么內在屬性,每個動作到底會帶來什么影響,每個形容詞到底描述了些什么特點,N寶都不懂。被動的學習已經滿足不了她了,她想用她的感知去主動地理解語言背后的含義。當N寶有了行動的能力,她就有了具身,有了和外界互動的條件。
試想一下,對于“橘子更像是棒球還是香蕉?”這樣的問題,你會作何回答?
WS1系統會認為橘子和香蕉經常出現在類似的上下文里,所以橘子和香蕉更像;WS2系統會認為橘子和棒球都是圓形的,但說不上來棒球和橘子的質地和大小;WS3系統會了解到橘子、棒球和香蕉的外表,所以同樣會認為橘子和棒球更像,卻說不清楚棒球、橘子和香蕉的軟硬程度的重量。只有當系統能夠接觸到這些物體并產生互動時,它才會更加系統地回答,橘子和棒球具有相似的材質和重量,但橘子和香蕉具有相同的軟硬程度和用途。
實際上,人類在學習知識時在不斷地與外界產生互動并獲得反饋,而這些持續的反饋構成了我們學習這個世界時的監督信號。這些信號甚至產生于我們學習語言之前,那么問題來了,這些嬰兒時期產生的反饋究竟形成了什么呢?
對于人來說,這些反饋形成了我們的直覺和常識,而這些內容正是我們在日常交流時不會使用語言直接表述的隱含內容。對于機器來說,這些試錯過程中得到的反饋形成的可能是“先于語言”的表示(pre-linguistic representations),它們可以被用來作為NLP系統泛化的基礎。在語言學上已經證明,孩子從書本上學的東西很難被她們直接搬到現實生活中加以利用。我們利用大量的參數,希望用統計學的方法另辟蹊徑地實現生物進化的成果,但缺少了與真實世界的交互,或許我們離這個目標確實遙遠。
在WS4的世界,我們就需要借助機器人學領域的研究成果了。盡管從現在看,利用機器人學的成果遠比利用CV的成果困難,但為了實現真正理解語言的目標,NLP的研究者應該同樣關注機器人學的發展。隨著動作空間的加大,NLP系統就能夠學會更多的指令,讓智能家居和智能機器人不再是現在這樣僅靠指令集操作的機器,而是成為真正能應用在任何場景下真正的智能系統。
WS5:社會的世界——當系統學會能動
能動和能動并不是一個意思——WS4的能動是“會動”,而WS5的能動是“主觀能動性”的能動。N寶的成長目標是要造福社會的,而人類社會的可是很復雜的。她要在與人打交道的過程中體現出她行為的目的性,讓她真正能夠實現人工智能系統的使命。到這個階段,N寶就已經成為一個持久存在的,具有特定社會屬性和經驗的智能代理了。
NLP系統一直以來都是人工智能領域里最受關注的領域之一,畢竟圖靈測試就是以對話系統為基礎的測試。但是,在進行圖靈測試時,人經常會受到框架效應(Frame effect)的影響:當聊天機器人表明自己以英語作為第二語言或是表現出弱勢時,人自然會大幅降低對對方的期望,讓原本真實性不高的回應也看起來像是真人一樣。
那么,為什么說WS5對于語言學習至關重要呢?
首先,從說話者的角度,語言要產生作用。
從哲學上講,語言的功能(Function)是含義的來源;從語言學上講,基于使用的語言學習理論表明,有用的語言構建是一切的基礎。這些理論在近年來開始關注語言在人類的起源和發展過程中起到的作用,表明了語言對于社會生活的重要性。
WS1-4逐步地擴展了語言含義的組成,逐漸地,語言可以由結果轉變為起因,從單純的數據轉變為有用的信息。當下,NLP系統生成的語句只能以一種與社會隔離開的方式被被動的評價,而要做到衡量NLP系統對社會的影響,必須主動地讓NLP系統參與到諸如談判,合作,情感支持等等語言活動中來,讓NLP系統能夠推斷人的情感狀態和行為的社會效益。
當下的語言模型利用上下文構建每個詞的釋義。但實際上,一個詞的含義需要被放在特定的語言和社會環境下進行綜合考量。正比如,“大失所望”的詞典意思是不令人滿意,可是,只有在孩子學習語言時說出過或是聽見過那句“你讓我大失所望”時,她才能真正懂得這個詞對人來說多么有分量。一個詞的含義遠不止詞本身的意思:它最豐富的表達蘊含在了它對外界產生的影響之中。
其次,從聆聽者的角度而言,語言要成為了解對方想法的工具。
“想法”并不局限于一句話本身的意思,而更多地指對方的需求,意圖,感情,知識和身份。對“想法”的研究被稱為“心智理論”(Theory of Mind)。這一理論被建模為講者-聽者模型(Speaker-listener model),從計算角度而言,又被進一步發展為“理性言語行為模型”[5](Rational speech act model, RSA,一種基于貝葉斯推斷的有效溝通建模)。
對交流的理解只用靜態的數據集是遠遠不夠的。對于同一個樣本的標注,不同的標注者可能提供不同的標注方法,這就會引入偽關系和偏差。動態且靈活的評價可能會解決這個問題,但如何保持一個NLP系統的身份,如何面對外界可能帶來的變化依舊需要進一步研究。
那么,怎樣讓NLP系統擁有能夠在社會環境下理解語言的能力呢?
首先,如果單純利用一個諸如神經網絡的通用的函數擬合器來給文本做分類,它可能單純利用了文本中的語法語義信息,卻永遠不會認為文本中出現的人、事物和因果關系是真實存在的。這需要我們向模型中引入足夠的歸納偏置(Inductive bias)來解決這一問題。其次,基于交叉熵的損失函數使得NLP系統不夠關注數據分布的尾端,導致出現較少的事件被忽視了。最后,由于現有的系統依然無法達成像人類一樣的歸納能力,NLP系統的零次學習能力依然有待提高。因此,WS1-4的數據無論再大,以目前的系統設計也難以讓NLP系統學到足夠豐富的知識來降低模型的困惑度。
最后,從社會環境的角度而言,語言是用在人際交流中的,所以語言本身就攜帶著地位、身份、意圖和其他一系列的變量,但我們當下所使用的基于眾包的數據標簽并沒有考慮這一系列對社會生活至關重要的信息。所以,對于生成模型而言,為了考量模型與社會之間的交互性,需要給予模型一個社會地位及身份,將其置身于特定場景中來進行評價。
但是,社會交流中存在那么多變量,該怎么進行標注呢?我們需要跳出這個圈子:訓練-驗證-測試集的劃分以及基于對比的評價方式限制了我們的想象力。我們的終極目標,是讓NLP系統通過參與到社會當中進行學習,讓用戶與系統自由交流,使得系統在探索與試錯中逐漸達成對其身份的社會語言學構建。當模型能夠在測試過程中能夠與人進行交互,我們便可以窺視到模型的決策邊界,加深對模型的了解了。
那么,要怎么進入下一個WS中呢?
好問題~實際上,現在已經有很多研究在探索WS3-5的需求了。作者在文章中給出了4個這樣的研究方向:
第二語言習得(Second language acquisition):不同的國家雖然語言不同,卻有著類似的社會模型,其中包括類似的物體指代(例如動物,水果…)和人的內在狀態(例如快樂,饑餓…)。現有的研究已經開始向神經機器翻譯模型引入這種相似性了:ACL'20的一篇論文[6]利用了WS3的圖像信息作為增強雙語對應關系的樞紐,未來會發展為利用WS4的模擬世界信息,以及最終走向WS5的真實世界信息。
指代消解(Coreference resolution)和詞義消歧(Word sense disambiguation):無論是確定文本中代詞對應的名詞還是探究一個詞在文本中的確切意思,都最終需要對心智理論的探索,通過對聽者需求和經驗的建模綜合地完成任務,而非簡單地通過文本尋找到與代詞最接近的名詞,或是用局部的文本信息確定詞義。類似TextWorld[7]的WS4虛擬環境為進一步探索這兩個問題提供了新的可能。
新詞學習(Novel word learning):人對于物體的描述可能不僅局限于語言,有時還會加入肢體語言配合形容物體的形狀或大小,這需要WS3系統進行多模態的感知;此外,在描述新的物體時,我們不僅會描述它的外觀,還會描述它的功能,這需要WS4系統對動作和功能的認識。例如,在描述手風琴時,我們會說它“背著像吉他,但彈著像鋼琴”。手風琴與吉他和鋼琴的相似性僅體現在使用動作上,這種動作上的描述只有更高級的系統才能夠認識。
冒犯性語言(Personally charged language):每個人都有自己不愿意聽到的話。比如,“笨蛋”這個詞對于不同的人有著不同的理解:有些人可能認為這樣的說法是開玩笑,無傷大雅;但有些人會認為這是對自己努力的否定,從而受到傷害。只有當系統走向WS5,獲得了社會交往的知識,才能明白在不同環境和條件下人的情感究竟如何。
看了這么多,這篇文章究竟想說什么?
作者王蘇在閱讀這篇幾乎不包含任何數據和公式的文章時,體會到的吃力感完全不亞于任何一篇充斥著公式的文章。許多哲學和語言學概念在近年來很少被提及,甚至一部分概念根本查不到相關的中文翻譯,只好結合維基百科和一些查得到的講義來努力理解。這也難怪,畢竟這篇文章是眾多領域大佬從NLP、CV、語言學、哲學和機器人學等等不同的角度為NLP的未來規劃的前行路線。
然而,文中所說的許多東西雖然目前已經有工作開始了相關的探索。雖然諸如“具身”、“社會屬性”等等名詞看起來和現在的NLP社區不怎么沾邊兒,而且這些名詞實在是過于虛無縹緲,這也恰好給予了研究者充分的想象空間,讓每一個目標得以用不同的方法實現。例如,WS4的“試錯”概念和強化學習有著千絲萬縷的聯系,而WS5的社會屬性又不由得讓我們想起了微軟亞研院致力于提升智商+情商的微軟小冰[8](小冰的論文對于研究對話系統的同學非常值得一讀,大推薦)。
所以,在為越來越大的模型和計算開銷發愁之余,換個角度來看看我們所在的領域,以大局觀看看我們的發展階段,思考思考踏入未來需要學習和發展什么樣的技術,也許就能實現彎道超車呢~
要跟緊潮流鴨!加油吧,NLP人(= · ω ·=)
原文標題:NLP未來,路在何方?12位巨佬聯名指路!
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器人
+關注
關注
211文章
28632瀏覽量
207973 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239625 -
nlp
+關注
關注
1文章
489瀏覽量
22068
原文標題:NLP未來,路在何方?12位巨佬聯名指路!
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論