本文最初發(fā)表于 Medium 博客,經(jīng)原作者 Walid Saba 博士授權(quán),InfoQ 中文站翻譯并分享。
背 景
基于三個技術(shù)(理論上的、科學上的)原因,由數(shù)據(jù)驅(qū)動 / 定量 / 統(tǒng)計 / 機器學習的方法(我統(tǒng)稱為 BERT 學(BERTology)),是完全毫無希望的、徒勞的努力,至少在語言理解方面是如此。我明白,這是個很大的主張,特別是鑒于當前的趨勢、媒體的誤導性宣傳,以及科技巨頭們在這一完全有缺陷的范式上花費了巨額資金。正如我在自己的出版物、研討會和帖子中所反復提到的那樣,人們常常跟我說:“但是,所有那些人真的都錯了嗎?”好吧,現(xiàn)在我要統(tǒng)一地回答:“是的,他們確實可能都錯了。”我是以偉大的數(shù)學家 / 邏輯學家波特蘭·羅素(Bertrand Russell)的智慧說出這番話的。羅素曾經(jīng)這樣說過:
一個觀點已被廣泛持有的事實并不能證明它不是荒謬絕倫的。(The fact that an opinion has been widely held is no evidence whatsoever that it is not utterly absurd.)
然而,在開始之前,我們必須強調(diào),我們的討論是針對 BERT 學在 NLU(自然語言理解,Natural Language Understanding)的使用,這里的“U”(Understanding,理解)是至關重要的,也就是說,正如下面將要闡述的那樣,BERT 學可能在某些自然語言處理任務中很有用(如文本摘要、搜索、關鍵短語提取、文本相似性和 / 或聚類等),因為這些任務都是以某種形式“壓縮”的,而機器學習能夠成功地應用于這些任務。但是,我們認為自然語言處理(本質(zhì)上只是文本處理)和自然語言理解是截然不同的兩個問題。或許就人類的思想理解而言,自然語言理解應該被人類思想理解(Human Thought Understanding,HuTU)所取代,因為自然語言理解涉及理解我們語言語句背后的思想(你可能也想閱讀這篇討論這一具體問題的短文《NLU 并非 NLP++》(NLU is not NLP++)。
因此,總結(jié)一下我們的介紹:我們在這里要辯護的主張是,BERT 學對自然語言理解來說是徒勞的(事實上,它是無關緊要的),而且這一主張并不涉及自然語言處理的某些任務,而只涉及到對特定于普通口語的真正理解,這種理解就像我們每天與甚至不認識的人、或者與沒有任何領域特定知識的年幼兒童進行交談時所做的那樣!
現(xiàn)在,我們可以開始談正事了。
MTP:文字缺失現(xiàn)象
讓我們首先從描述一種現(xiàn)象開始,這種現(xiàn)象是自然語言理解中所有挑戰(zhàn)的核心,我們稱之為“文字缺失現(xiàn)象”(Missing Text Phenomenon。MTP)。
語言交流:講者將思想“編碼”成某種語言的語句(使用某種語言),然后聽者將這個語言“解碼”成(希望)講者想要傳達的思想!這一過程就是自然語言理解中的“理解”,也就是說,理解語言語句背后的思想正是在解碼過程中所發(fā)生的事情。而這些恰恰是自然語言理解困難的原因。讓我來詳述。
在這種復雜的交流中,有兩種可能的優(yōu)化或有效交流的方法:(i)講者可以壓縮(并最小化)在思想編碼中發(fā)送的信息量,并希望聽者在解碼(解壓縮)過程中做一些額外的工作;或者(ii)講者將做艱苦的工作并發(fā)送所有需要的信息來傳達思想,這將使聽者幾乎無事可做(有關此過程的完整描述,請參見此文《語言結(jié)構(gòu)文化演變中的壓縮與交流》(Compression and communication in the cultural evolution of linguistic structure)。這一過程的自然演變,似乎已經(jīng)形成了適當?shù)钠胶猓怪v者和聽者的總工作量都得到了優(yōu)化。這種優(yōu)化導致講者只需最少的可能信息進行編碼,而忽略了可以安全地假定為聽者可用的所有其他信息。我們往往忽略的信息通常是我們可以放心地認為講者和聽者都可用的信息,而這正是我們通常所說的共同背景知識的信息。
為了理解這一過程的復雜性,請考慮以下(未經(jīng)優(yōu)化)的交流:
顯然,我們肯定不會這樣交流。事實上,上述思想通常是這樣表達的:
這條短得多的信息,也就是我們通常說話的方式,傳達了與那條長信息相同的思想。因為我們都知道了,所以我們沒有明確地陳述所有其他的東西。
也就是說,為了有效地交流,我們不能假定我們都知道的東西!正因為如此,我們都會傾向于忽略同樣的信息——因為我們都知道每個人都知道什么,這就是“共同”背景知識。這種天才的優(yōu)化過程,人類在大約 20 萬年的進化過程中發(fā)展起來的,并且非常有效,而這恰恰是因為我們都知道我們所知道的一切。在人工智能 / 自然語言理解領域中,問題就出在這里。機器并不知道我們遺漏了什么,因為它們不知道我們所知道的一切。那最終結(jié)果是什么?自然語言理解是非常困難的,因為一個軟件程序要想完全理解我們語言表達背后的意思,就必須能夠以某種方式“發(fā)現(xiàn)”人們在語言交流中假定和忽略的一切。實際上,這是自然語言理解面臨的挑戰(zhàn)(而不是解析、詞干分析、詞性標注等等)。事實上,自然語言理解面臨著一些眾所周知的挑戰(zhàn)——而這些問題在計算語言學中經(jīng)常被提及。我在這里展示(只是其中的一部分)用紅色高亮顯示的缺失文字:
在自然語言理解中,所有上述眾所周知的挑戰(zhàn)都是源于這樣一個事實:即挑戰(zhàn)就是發(fā)現(xiàn)(或揭示)那些缺失的信息,并隱式地假定這些信息是共享的、共同的背景知識。
既然我們(希望如此)確信,由于文字缺失現(xiàn)象,自然語言理解是困難的,也就是說,因為我們?nèi)粘T捳Z中的普通口語被高度(如果不是最佳的話)壓縮,因此在“理解”方面的挑戰(zhàn)在于將缺失的文字進行解壓縮(或揭示),我可以說出第一個技術(shù)原因:為什么 BERT 學與自然語言理解不相關。
(機器)可學習性(ML)和可壓縮性(COMP)之間的等價性已經(jīng)在數(shù)學上建立起來了。也就是說,已經(jīng)確定了只有當數(shù)據(jù)是高度可壓縮的(即數(shù)據(jù)有大量冗余)時,才能從數(shù)據(jù)集中實現(xiàn)可學習性,反之亦然(參見這篇文章《從壓縮的角度談統(tǒng)計學習》(On statistical learning via the lens of compression)和 2019 年發(fā)表在《自然》(Nature)雜志上的重要文章《可學習性不可判定》(Learnability can be Undecidable)),但是文字缺失現(xiàn)象告訴我們,自然語言理解是一個關于解壓縮的問題。以下是我們所掌握的情況:
原因 1 證畢。
內(nèi)涵(帶有“s”)
內(nèi)涵(Intension)是我要討論的另一個現(xiàn)象,在我討論第二個證據(jù)之前,即 BERT 學甚至與自然語言理解不相關。我將從所謂的內(nèi)涵三角形說起,如下面的例子所示:
所以,每一個“事物”(或者說每一個認知對象)都有三個部分:一個指代某一概念的符號,而這個概念(有時)有實例。有時候我會說,因為“獨角獸”這個概念并沒有“實際的”例子,至少在我們生活的世界里是如此!這個概念本身就是它所有潛在實例的理想化模板(因此它接近柏拉圖的理想化形式!)你可以想象,哲學家、邏輯學家和認知科學家如何在幾個世紀以來一直在爭論概念的本質(zhì)及其定義方式。不管爭議有多大,我們都可以達成一個共識:一個概念(通常由某個符號 / 標簽所指代),是由一組屬性定義的,或許還包括公理和既定事實等。然而,概念并不同于實際(不完美的)實例。這同樣適用于完美的數(shù)學世界。因此,舉例來說,雖然下面的算術(shù)表達式都有同樣的擴展,但是它們的內(nèi)涵卻不相同:
所以,雖然所有表達式的結(jié)果都為 16,因此在某種意義上是相等的(它們的VALUE),但這只是它們的一個屬性而已。事實上,上面的表達式還有其他一些屬性,比如其句法結(jié)構(gòu)(這就是為什么 (a) 和 (d) 不同),運算符的數(shù)量,操作數(shù)的數(shù)量等等。VALUE(只是一個屬性)被稱為擴展,而所有屬性的集合就是內(nèi)涵。而在應用科學(工程學、經(jīng)濟學等等)中,如果它們的VALUE相等,我們就可以放心地認為它們是相等的,但在認知(尤其是語言理解)中,這種相等就失效了!下面是一個簡單的例子:
假定 (1) 為真,也就是說,假設 (1) 確實發(fā)生了,而且我們也親眼目睹了這一事實。不過,這并不意味著我們就可以假設 (2) 為真。盡管我們所做的只是將 (1) 中的“16”替換為(假定)等于它的值。那么發(fā)生了什么事兒?我們用一個假定與之相等的對象替換了一個真實語句中的一個對象,然后我們從真實的對象中推斷出了一些不真實的對象!事實是這樣的:盡管在自然科學中,我們可以輕易地用一個等于它的屬性來替換一個對象,但這在認知中卻是行不通的!下面是另一個示例:
通過簡單地將“the tutor of Alexander the Great”替換為閾值相等的值,即“Aristotle”,我們就得到了 (2),這顯然是荒謬的。同樣,雖然“the tutor of Alexander the Great”和“Aristotle”在某種意義上是等同的,但這兩個思想對象在許多其他方面卻是不同的。
我不再贅述對于什么是“內(nèi)涵”,以及它在高級推理,尤其是在自然語言理解中的重要性。有興趣的讀者可以看看這篇短文《在自然語言理解中,忽視內(nèi)涵,自負風險》(In NLU, you ignore intenSion at your peril),我在這篇文章曾引用過其他參考資料。
那么,從這場關于“內(nèi)涵”的討論中,有哪些觀點呢?在自然語言中,內(nèi)涵現(xiàn)象是非常普遍的,這是因為語言所傳達的思想對象具有不可忽視的內(nèi)涵性。但是,在所有的變體中,語料庫都是一個純粹的外延擴展,只能處理擴展(數(shù)值),因此它不能對內(nèi)涵進行建模或解釋,也就不能對語言中的各種現(xiàn)象進行建模。
原因 2 證畢。
順帶一提,BERT 學是一種純粹的可擴展范式,它并不能解釋“內(nèi)涵”,這是深度學習中所謂的“對抗性樣本”的來源。這個問題與這樣一個事實有關:一旦張量(高維向量)合稱為一個張量,結(jié)果張量現(xiàn)在可以用無限多種方式分解為分量(這意味著分解是不可判定的),也就是說,一旦輸入張量合成,我們就失去了原始結(jié)構(gòu)(簡單地說:10 可以是 2×5 的值,但也可以是 8+1+1 的結(jié)果,9+1+0 的結(jié)果等等)。神經(jīng)網(wǎng)絡 總是 會受到對抗性樣本的攻擊,因為通過反向優(yōu)化,我們總是可以在任何層上獲得預期的輸出,而不是從預期的組件獲得預期的輸出。但這是另外一個討論了,不在本文范疇之內(nèi)。
統(tǒng)計學意義
虛詞是語料庫中最主要的統(tǒng)計學意義的問題之一,在語料庫中,虛詞只能被忽略,而被稱為“停用詞”。這些詞在每個上下文中都具有相同的概率,因此必須將其刪除,因為它們會擾亂整個概率空間。但是,不管 BERT 學家喜歡與否,虛詞都是那些最終將最終意義粘合在一起的詞。看看下面這對句子的區(qū)別就知道了。
在 (2a) 中,我們指的是 50 個組,而在 (2b) 中只有 1 個。我們?nèi)绾卫斫饬吭~、介詞、情態(tài)動詞等,會極大改變目標語(和意圖)的意義,因此,如果不考慮虛詞的話,就不可能有任何真正的語言理解。而且,在 BERT 學中,這些虛詞也不能(適當?shù)兀┻M行建模。
我們本可以到此為止,那就是原因 3 證畢,我們證明了 BERT 學甚至與自然語言理解不相關。但是還有很多……
從本質(zhì)上說,BERT 學是一種基于在數(shù)據(jù)中發(fā)現(xiàn)某種模式(相關性)的范式。因此,這種范式要求自然語言中的各種現(xiàn)象在統(tǒng)計學上存在顯著的差異,否則它們將被視為本質(zhì)上是相同的。但是,要考慮以下幾點 [ 有關這些例子的討論,請參見《Winograd 模式挑戰(zhàn)》(The Winograd Schema Challenge)和《論 Winograd 模式:將語言理解置于數(shù)據(jù) - 信息 - 知識連續(xù)體中》(On the Winograd Schema: Situating Language Understanding in the Data-Information-Knowledge Continuum),因為它與 Winograd 模式挑戰(zhàn)相關] :
請注意,像“small”和“big”(或“open”和“close”等)的反義詞 / 對立詞在相同的上下文中具有相等的概率。因此,(1a) 和 (1b) 在統(tǒng)計學上是等效的,但即使對于一個 4 歲的孩子 (1a) 和 (1b) 來說也有很大的不同:(1a) 中的“it”指的是“the suitcase”,而 (1b) 中的“it”指的是“the trophy”。基本上,在簡單的語言中,(1a) 和 (1b) 在統(tǒng)計學上的等價的,盡管在語義上相距甚遠。因此,統(tǒng)計學分析并不能對語義進行建模(甚至近似也不能)——就這么簡單!
但是,讓我們看看,如果堅持使用 BERT 學來學習正確解析這類結(jié)構(gòu)中的“it”,我們需要多少個樣本。首先,在 BERT 學中,并沒有類型的概念(也沒有任何符號知識)。因此,下面的情況都是不同的。
也就是說,在 BERT 學中,沒有類型層次結(jié)構(gòu)允許我們將“big”、“suitcase”、“briefcase”等概括為“container”的所有子類型。因此,在純數(shù)據(jù)驅(qū)動的范式中,上述每一個都是不同的,必須分開來看。如果我們將上述模式的所有輕微句法差異加上語義差異(比如將“because”更改為“thought”,這也將正確的指稱項更改為“it”),那么粗略的計算就會告訴我們,BERT 學系統(tǒng)將需要類似上述的 4 千萬個變體,而所有這些僅僅是為了在 (1) 中的結(jié)構(gòu)中解析類似“it”的指稱項。假如有的話,這在計算上是不可信的。正如 Fodor 和 Pylyshyn 曾經(jīng)引用著名的認知科學家 George Miller 的名言:為了捕捉自然語言理解系統(tǒng)所需要的所有句法和語義變化,神經(jīng)網(wǎng)絡可能需要的特征數(shù)量比宇宙中的原子數(shù)量還要多![我會向任何對認知科學感興趣的讀者推薦這篇經(jīng)典而精彩的論文:《聯(lián)結(jié)主義與認知架構(gòu):批判性分析》(Connectionism and Cognitive Architecture: A: Critical Analysis)]。
為總結(jié)本節(jié),自然語言中通常沒有統(tǒng)計學意義上可以解釋不通的解釋,而這正是因為證明統(tǒng)計顯著性所需的信息并不在數(shù)據(jù)中,而是在其他地方可以獲得的信息,在上面的例子中,所需的信息是這樣的:not(FIT(x,y)),則 LARGER(y,x) 比 LARGER(x,y) 更有可能。簡而言之,BERT 學中唯一的信息來源必須是可以從數(shù)據(jù)中獲得的信息,但通常正確解釋所需的信息并不在數(shù)據(jù)中,你甚至都找不到數(shù)據(jù)中不存在的信息。
至此,原因 3 證畢。
結(jié) 語
我已經(jīng)討論了三個原因,證明了 BERT 學甚至與自然語言理解不相關(盡管它可能在本質(zhì)上是壓縮任務的文本處理任務)。以上三個原因中的每一個都足以讓這列名為 BERT 學的失控列車停下來。
自然語言可不僅僅是數(shù)據(jù)!
本文轉(zhuǎn)自 公眾號:AI前線 ,作者Walid Saba
審核編輯 黃昊宇
-
人工智能
+關注
關注
1792文章
47375瀏覽量
238877 -
自然語言
+關注
關注
1文章
288瀏覽量
13359
發(fā)布評論請先 登錄
相關推薦
評論