原華為諾亞方舟實(shí)驗(yàn)室主任、現(xiàn)已加入字節(jié)跳動(dòng) AI Lab的李航教授近日發(fā)表博客,對(duì)自然語(yǔ)言對(duì)話領(lǐng)域的現(xiàn)狀和最新進(jìn)展進(jìn)行總結(jié),并展望了未來(lái)的走向。
1. 引言
語(yǔ)音助手、智能客服、智能音箱、聊天機(jī)器人,近年各種自然語(yǔ)言對(duì)話系統(tǒng)如雨后春筍般地涌現(xiàn),有讓人眼花繚亂的感覺(jué)。一方面對(duì)話系統(tǒng)越來(lái)越實(shí)用化,另一方面當(dāng)前技術(shù)的局限性也凸顯無(wú)遺。計(jì)算機(jī)多大程度上可以自如地和人進(jìn)行對(duì)話?自然語(yǔ)言對(duì)話的挑戰(zhàn)在什么地方?未來(lái)可能會(huì)有哪些突破,以及需要重點(diǎn)研究與開(kāi)發(fā)哪些技術(shù)?
筆者曾有幸在華為與前同事一起進(jìn)行了對(duì)話技術(shù)的研究,以及華為 Mate10 語(yǔ)音助手的開(kāi)發(fā),本文基于自己的研究與開(kāi)發(fā)經(jīng)驗(yàn),嘗試對(duì)以上問(wèn)題做出回答。
2. 前提條件
功能主義
腦科學(xué)和人工智能的先驅(qū)馬爾(David Marr)曾提出,計(jì)算有三個(gè)層面,自上而下分別是功能層面、算法和表征層面、實(shí)現(xiàn)和物理層面。如果有兩個(gè)系統(tǒng)做計(jì)算,給定同樣輸入,產(chǎn)生同樣輸出,兩個(gè)系統(tǒng)的行為完全一致,則認(rèn)為它們?cè)诠δ軐用媸堑葍r(jià)的。這時(shí)不考慮它們?cè)谒惴▽用孢M(jìn)行的是串行計(jì)算還是并行計(jì)算,也不考慮它們?cè)趯?shí)現(xiàn)層面進(jìn)行的是數(shù)字計(jì)算還是模擬計(jì)算。
兩個(gè)系統(tǒng),一個(gè)是人腦,一個(gè)是計(jì)算機(jī),情況也一樣。假設(shè)人的思維可以還原為計(jì)算,那么只要看到功能上計(jì)算機(jī)可以和人腦做同樣的事情,就認(rèn)為它們?cè)诠δ苌蠐碛型鹊闹悄堋1疚挠懻搶?duì)話系統(tǒng),也是站在功能主義的立場(chǎng)。
合理行動(dòng)的智能機(jī)器
人工智能是關(guān)于構(gòu)建智能機(jī)器(或智能計(jì)算機(jī))的科學(xué)與工程領(lǐng)域,但對(duì)智能機(jī)器,有不同的定義。可以是像人一樣行動(dòng)的智能機(jī)器,也可以是合理行動(dòng)的智能機(jī)器。本文采用后者的定義。合理行動(dòng)的智能機(jī)器有以下幾個(gè)特點(diǎn)。1. 系統(tǒng)與環(huán)境互動(dòng);2. 目標(biāo)導(dǎo)向,有明確的任務(wù)要完成;3. 有評(píng)價(jià)完成任務(wù)好壞的標(biāo)準(zhǔn);4. 旨在功能上完成任務(wù),并不試圖模仿人類;5. 完成任務(wù)上能力達(dá)到或超過(guò)人類。
構(gòu)建合理行動(dòng)的智能機(jī)器,比起構(gòu)建像人一樣行動(dòng)的智能機(jī)器,在人腦的工作機(jī)理還不是很清楚的現(xiàn)在,更加現(xiàn)實(shí)可行。現(xiàn)在的大部分人工智能系統(tǒng)都屬于這種類型。大數(shù)據(jù)與機(jī)器學(xué)習(xí)使人工智能的這條路線更加容易取得突破。(筆者近期的短文《合理行動(dòng)的智能機(jī)器》對(duì)相關(guān)問(wèn)題做了更詳細(xì)的論述 [1])。
圖靈測(cè)試的對(duì)象實(shí)質(zhì)上是像人一樣行動(dòng)的智能機(jī)器,但如何評(píng)價(jià)像人一樣行動(dòng)并不容易。如果目的是為人類提供智能性的工具,提高人們的生活質(zhì)量或工作效率,可能沒(méi)有必要考慮構(gòu)建像人一樣行動(dòng)的機(jī)器。圖靈測(cè)試作為人工智能的測(cè)試實(shí)驗(yàn)有其局限性。
所以,近未來(lái)構(gòu)建「合理行動(dòng)的」對(duì)話系統(tǒng)應(yīng)該是我們追求的目標(biāo)。為用戶提供問(wèn)答、幫助用戶完成任務(wù)(打開(kāi)音箱、訂機(jī)票)、甚至做用戶的陪伴,都滿足以上合理行動(dòng)的智能機(jī)器的特點(diǎn)。
3. 自然語(yǔ)言對(duì)話
自然語(yǔ)言理解
自然語(yǔ)言理解,也就是人或機(jī)器理解人類語(yǔ)言,有兩種不同定義:一種基于表征,另一種基于行為。基于表征(representation),就是系統(tǒng)根據(jù)輸入的語(yǔ)言產(chǎn)生相應(yīng)的內(nèi)部表征,這個(gè)過(guò)程也稱為語(yǔ)義接地(semantic grounding)。比如,有人說(shuō)「哈利波特」,在大腦里聯(lián)系到哈利波特的概念就意味著理解了對(duì)方的語(yǔ)言。基于行為,就是系統(tǒng)根據(jù)輸入的語(yǔ)言采取相應(yīng)的動(dòng)作。比如,有人說(shuō)「給我拿一杯茶」,機(jī)器人按照命令做了,就認(rèn)為它理解了人的語(yǔ)言。這兩個(gè)定義在一定程度上互為補(bǔ)充,前者從語(yǔ)義角度,后者從語(yǔ)用角度界定這個(gè)問(wèn)題。
下面從功能角度概述語(yǔ)言理解過(guò)程,可以是人腦,也可以是計(jì)算機(jī)系統(tǒng)。
自然語(yǔ)言理解,輸入是自然語(yǔ)言的語(yǔ)句,輸出是語(yǔ)句的語(yǔ)義表征,包括詞匯分析、句法分析、語(yǔ)義分析、語(yǔ)用分析幾個(gè)步驟,如圖 1 所示。原則上是自下而上的處理,也有自上而下的指導(dǎo),一般是兩者的結(jié)合。詞匯分析使用詞典,句法分析使用句法,語(yǔ)義分析使用世界知識(shí),語(yǔ)用分析使用上下文信息。
圖 1. 自然語(yǔ)言理解過(guò)程
詞匯分析將輸入語(yǔ)句中的單詞映射到單詞的語(yǔ)義表征上。每一個(gè)單詞都有豐富的語(yǔ)義。一個(gè)單詞的語(yǔ)義包含了它的相關(guān)概念,以及使用方法。一個(gè)語(yǔ)言的常用詞匯量一般在 5 萬(wàn)到 10 萬(wàn)的范圍。
句法分析根據(jù)句法規(guī)則判斷輸入語(yǔ)句中的單詞之間的語(yǔ)法關(guān)系,得到語(yǔ)句的語(yǔ)法表征。句法既有一定的規(guī)律,也有大量的例外。一個(gè)語(yǔ)言的語(yǔ)法是一個(gè)非常復(fù)雜的規(guī)則體系。
語(yǔ)義分析,基于單詞的語(yǔ)義表征、語(yǔ)句的語(yǔ)法表征,根據(jù)系統(tǒng)中的世界知識(shí)的表征,構(gòu)建語(yǔ)句的(可能是多個(gè))語(yǔ)義表征。
語(yǔ)用分析,基于語(yǔ)句的語(yǔ)義表征,根據(jù)系統(tǒng)中的上下文,確定語(yǔ)句具體語(yǔ)義表征。
自然語(yǔ)言理解的核心是:聽(tīng)到一句話或者讀到一句話,把它映射到系統(tǒng)的一個(gè)表征上面。這個(gè)映射是一個(gè)多對(duì)多的映射,必然產(chǎn)生多義性(ambiguity)和多樣性(variability),也就是一句話可以有多個(gè)意思,一個(gè)意思有多種方法表達(dá)。比如:「I saw a girl with a telescope」一句話表示兩個(gè)不同的意思,這是多義性。再比如:「distance between sun and earth」和「how far is sun from earth」兩句話表示的是同一個(gè)意思,這是多樣性。
語(yǔ)義分析,進(jìn)行的只是在字面上對(duì)語(yǔ)言的理解,可能還有多個(gè)意思,對(duì)應(yīng)著多個(gè)語(yǔ)義表征。語(yǔ)用分析,進(jìn)行的是在上下文中的語(yǔ)言理解。同樣一句話,比如,「這個(gè)房間真熱」,語(yǔ)義上就是字面的意思,但是語(yǔ)用上話者的真實(shí)意圖可能是「請(qǐng)把窗戶打開(kāi)」,只有在上下文中才能判斷。
必須指出,語(yǔ)言是一個(gè)極其復(fù)雜的現(xiàn)象 [2],雖然從功能上,有可能在計(jì)算機(jī)上實(shí)現(xiàn)或者近似語(yǔ)言理解。仍然有許多挑戰(zhàn),還有漫長(zhǎng)的路途要走。
人腦的語(yǔ)言理解機(jī)制
對(duì)人腦的語(yǔ)言處理機(jī)制了解的還不多,有一些發(fā)現(xiàn)和假說(shuō)。
人的自然語(yǔ)言理解,整個(gè)大腦都在參與,是一個(gè)非常復(fù)雜的過(guò)程。大腦大約有 1 千億 個(gè)神經(jīng)元,1 千萬(wàn)億個(gè)連接,是一個(gè)龐大的復(fù)雜網(wǎng)絡(luò),人的思維是在這個(gè)網(wǎng)絡(luò)上進(jìn)行的并行處理。通過(guò)核磁共振發(fā)現(xiàn),人在聆聽(tīng)他人朗讀的時(shí)候,大腦的各個(gè)部位都有反應(yīng) [3]。
有兩個(gè)腦區(qū)和語(yǔ)言密切相關(guān):布洛卡區(qū)(Broca's area)和韋尼克區(qū)(Wernicke's area),是在對(duì)失語(yǔ)癥的研究過(guò)程中發(fā)現(xiàn)的 [4]。韋尼克區(qū)負(fù)責(zé)詞匯,布洛卡區(qū)負(fù)責(zé)句法。患有失語(yǔ)癥的病人的特點(diǎn)是:如果布洛卡區(qū)受損,說(shuō)話只會(huì)說(shuō)出一個(gè)個(gè)單詞,沒(méi)有語(yǔ)法,不能形成語(yǔ)句。如果韋尼克區(qū)受損,說(shuō)話聽(tīng)起來(lái)是一個(gè)語(yǔ)句,但可能用詞不對(duì),不能形成完整的語(yǔ)義。有一個(gè)假說(shuō)是人腦中的詞匯分析和句法分析是并行處理,布洛卡區(qū)和韋尼克區(qū)的功能分工是一個(gè)證據(jù)。
最近的嵌入模擬假說(shuō)(embodied simulation hypothesis)頗受矚目,有大量的腦科學(xué)與認(rèn)知科學(xué)的實(shí)驗(yàn)佐證 [5]。人腦中語(yǔ)言的理解,是基于視覺(jué)、聽(tīng)覺(jué)、運(yùn)動(dòng)等的表象(image)的模擬。語(yǔ)言理解過(guò)程就是把相關(guān)表象聯(lián)系起來(lái),并將這些表象重新組合的過(guò)程。比如,問(wèn):「大猩猩有沒(méi)有鼻子?」要回答這個(gè)問(wèn)題,我們會(huì)在腦里先浮現(xiàn)出大猩猩的視覺(jué)表象,然后根據(jù)這個(gè)表象去回答問(wèn)題。說(shuō)明大猩猩的概念在我們的腦子里,至少有一部分是通過(guò)視覺(jué)表象記憶和理解的。再比如,聽(tīng)到:「Flying Pig(飛豬)」,不同的人會(huì)根據(jù)自己對(duì)飛的概念的理解(飛的表象),以及對(duì)豬的概念的理解(豬的表象)組合成不同的新的表象,也就是語(yǔ)言理解。有人會(huì)想象出像小飛象一樣的 Flying Pig,也有人會(huì)想象出像阿童木一樣的 Flying Pig。
語(yǔ)言對(duì)話與任務(wù)
羅素曾舉過(guò)這樣一個(gè)有趣的例子,說(shuō)明語(yǔ)言的本質(zhì)是表達(dá)和交流的工具。當(dāng)牙醫(yī)碰到你時(shí),你可能會(huì)不由自主地發(fā)出呻吟,這不算語(yǔ)言。但是如果他說(shuō)「如果我碰到你,你告訴我一聲」,這時(shí)你發(fā)出同樣的呻吟,它就成了語(yǔ)言。
對(duì)話是兩個(gè)或更多人之間的書面或口頭的交流,從功能主義的角度來(lái)看,對(duì)話的目的是話者共同完成信息交流的任務(wù)。多輪對(duì)話包含單輪對(duì)話,在對(duì)話的每一輪中一方需要理解另一方的語(yǔ)言。比如,問(wèn)候、問(wèn)答,協(xié)作(如訂機(jī)票),甚至說(shuō)服、辯論等,都可以看作是任務(wù)。其實(shí)聊天也可以看作是任務(wù),目的是進(jìn)行交流和溝通,整個(gè)過(guò)程可以分解為不同的子任務(wù),每個(gè)子任務(wù)都有明確的目標(biāo)。聊天的特點(diǎn)是開(kāi)始不特意設(shè)定子任務(wù),在過(guò)程中,子任務(wù)動(dòng)態(tài)地變化,隨時(shí)被設(shè)定、終結(jié)、恢復(fù)。
對(duì)話中要完成的任務(wù)一般可以由一個(gè)有限狀態(tài)機(jī)表示,其中狀態(tài)表示完成任務(wù)的一個(gè)階段,有一個(gè)目標(biāo)狀態(tài),若干個(gè)初始狀態(tài),從一個(gè)初始狀態(tài)到達(dá)目標(biāo)狀態(tài)往往有多個(gè)路徑,甚至許多路徑。完成對(duì)話對(duì)應(yīng)著從初始狀態(tài)出發(fā),通過(guò)一條路徑,到達(dá)目標(biāo)狀態(tài)。比如說(shuō)訂機(jī)票,需要通過(guò)與對(duì)方交流,提供相關(guān)信息,每一個(gè)狀態(tài)表示目前為止明確的信息。當(dāng)任務(wù)簡(jiǎn)單的時(shí)候,有限狀態(tài)機(jī)的狀態(tài)數(shù)不多,模型的復(fù)雜度不高。但是,當(dāng)任務(wù)變得復(fù)雜時(shí),狀態(tài)數(shù)和模型的復(fù)雜度會(huì)爆炸式地增加。
現(xiàn)實(shí)中,對(duì)話任務(wù)的形式化還有不少挑戰(zhàn),特別是當(dāng)任務(wù)復(fù)雜,狀態(tài)無(wú)法窮舉、或者狀態(tài)無(wú)法明確刻畫的時(shí)候。所以對(duì)話系統(tǒng)還都局限在特定任務(wù)上,稱為任務(wù)驅(qū)動(dòng)的對(duì)話,比如,命令型、問(wèn)答型。
對(duì)話過(guò)程中需要對(duì)對(duì)方的發(fā)話進(jìn)行理解,也就是產(chǎn)生內(nèi)部的表征。否則,無(wú)法判斷任務(wù)的完成情況(也就是狀態(tài)),進(jìn)行任務(wù)驅(qū)動(dòng)的對(duì)話。任務(wù)驅(qū)動(dòng)的對(duì)話需要有語(yǔ)義表征。
4. 當(dāng)前技術(shù)
計(jì)算機(jī)上達(dá)到和人同等的對(duì)話能力還非常困難。現(xiàn)在的技術(shù),一般是數(shù)據(jù)驅(qū)動(dòng),基于機(jī)器學(xué)習(xí)的。對(duì)話技術(shù)分單輪對(duì)話和多輪對(duì)話。
單輪對(duì)話有基于分析的,基于檢索的,基于生成的方法。表 1 給出幾種方法的比較。
基于分析的方法,把問(wèn)題定義為分類和結(jié)構(gòu)預(yù)測(cè)。給定自然語(yǔ)言的發(fā)話,將發(fā)話轉(zhuǎn)為內(nèi)部的表征,之后產(chǎn)生系統(tǒng)的回復(fù)或動(dòng)作。這種方法有顯式的內(nèi)部語(yǔ)義表征,適合于命令型的對(duì)話,在語(yǔ)音助手和智能音箱等應(yīng)用上被廣泛使用。
基于檢索的方法,把問(wèn)題定義為匹配。給定自然語(yǔ)言的發(fā)話,將發(fā)話與內(nèi)部的文本進(jìn)行匹配,之后將匹配到的文本返回,作為回答。這種方法,以文本(非結(jié)構(gòu)化數(shù)據(jù))形式擁有內(nèi)部語(yǔ)義表征,可以做問(wèn)答型的對(duì)話,在問(wèn)答系統(tǒng)等應(yīng)用被廣泛使用。
基于生成的方法,把問(wèn)題定義為文本的轉(zhuǎn)換或翻譯。給定自然語(yǔ)言的發(fā)話,一般利用深度學(xué)習(xí)模型,自動(dòng)生成相應(yīng)的回復(fù)。這種方法不擁有顯式的語(yǔ)義表征,適合于自動(dòng)生成回答的場(chǎng)景,比如,郵件的智能回復(fù)。
多輪對(duì)話系統(tǒng),使用范圍相對(duì)有限,當(dāng)前多用于特定領(lǐng)域的任務(wù)型對(duì)話。如圖 2 所示,一般地,多輪對(duì)話系統(tǒng)擁有語(yǔ)言理解,語(yǔ)言生成,對(duì)話管理,知識(shí)庫(kù)等模塊。對(duì)話管理又包括狀態(tài)跟蹤和動(dòng)作選擇子模塊。可以認(rèn)為多輪對(duì)話系統(tǒng),是基于分析的單輪對(duì)話的擴(kuò)展,在每輪對(duì)話中,對(duì)發(fā)話進(jìn)行語(yǔ)義理解,產(chǎn)生內(nèi)部表征。對(duì)話管理使用有限狀態(tài)機(jī),表示對(duì)話中獲取信息的整個(gè)過(guò)程。經(jīng)過(guò)幾輪對(duì)話,系統(tǒng)逐步獲取所需信息,并執(zhí)行任務(wù),如航班信息查詢。
表 1 單輪對(duì)話方法比較
圖 2 多輪對(duì)話系統(tǒng)
5. 最新進(jìn)展
近年,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)被成功應(yīng)用到包括對(duì)話在內(nèi)的自然語(yǔ)言處理的各個(gè)方面,并且取得了重大進(jìn)展。端到端的訓(xùn)練和表征學(xué)習(xí)是深度學(xué)習(xí)的主要特點(diǎn),正是這些特點(diǎn)使深度學(xué)習(xí)成為自然語(yǔ)言處理的強(qiáng)大工具,對(duì)話也不例外。強(qiáng)化學(xué)習(xí)適合于系統(tǒng)與環(huán)境互動(dòng)并在這個(gè)過(guò)程中學(xué)習(xí)的貫序決策過(guò)程(sequential decision process)問(wèn)題,多輪對(duì)話正是其應(yīng)用。
下面介紹幾個(gè)最新研究成果。
Liang 等開(kāi)發(fā)了神經(jīng)符號(hào)機(jī)(Neural Symbolic Machines)模型 [7]。神經(jīng)符號(hào)機(jī)可以從知識(shí)圖譜三元組中找到答案,回答像「美國(guó)最大的城市是哪里?」這樣的問(wèn)題。模型是序列對(duì)序列(sequence-to-sequence)模型,將問(wèn)題的單詞序列轉(zhuǎn)換成命令的序列。命令的序列是 LISP 語(yǔ)言的程序,執(zhí)行程序就可以找到答案。神經(jīng)符號(hào)機(jī)的最大特點(diǎn)是序列對(duì)序列模型表示和使用程序執(zhí)行的變量,用附加的鍵--變量記憶(key-variable memory)記錄變量的值,其中鍵是神經(jīng)表征、變量是符號(hào)表征。模型的訓(xùn)練是基于強(qiáng)化學(xué)習(xí)(策略梯度法)的端到端的學(xué)習(xí)。
呂等開(kāi)發(fā)了神經(jīng)查詢器(Neural Enquirer)、符號(hào)查詢器(Symbolic Enquirer),連接查詢器(Coupled Enquirer)三個(gè)模型 [8,9],用于自然語(yǔ)言的關(guān)系數(shù)據(jù)庫(kù)查詢。比如,可以從奧林匹克運(yùn)動(dòng)會(huì)的數(shù)據(jù)庫(kù)中找答案,回答「觀眾人數(shù)最多的奧運(yùn)會(huì)的舉辦城市的面積有多大?」這樣的問(wèn)題。問(wèn)答系統(tǒng)包括語(yǔ)言處理模塊、短期記憶、長(zhǎng)期記憶、查詢器,語(yǔ)言處理模塊又包括編碼器和解碼器。查詢器基于短期記憶的問(wèn)題表征(神經(jīng)表征)從長(zhǎng)期記憶的數(shù)據(jù)庫(kù)中(符號(hào)表征與神經(jīng)表征)尋找答案。
符號(hào)查詢器是一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),將問(wèn)句的表征(神經(jīng)表征)轉(zhuǎn)換為查詢操作(符號(hào)表征)的序列,執(zhí)行操作序列就可以找到答案。利用強(qiáng)化學(xué)習(xí),具體地策略梯度法,可以端到端地學(xué)習(xí)這個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)。神經(jīng)查詢器是一組深度神經(jīng)網(wǎng)絡(luò),將問(wèn)句的表征(神經(jīng)表征)多次映射到數(shù)據(jù)庫(kù)的一個(gè)元素(符號(hào)表征),也就是答案,其中一個(gè)神經(jīng)網(wǎng)絡(luò)表征一次映射的模式。利用深度學(xué)習(xí),具體地梯度下降法,可以端到端地學(xué)習(xí)這些深度神經(jīng)網(wǎng)絡(luò)。符號(hào)查詢器執(zhí)行效率高,學(xué)習(xí)效率不高;神經(jīng)查詢器學(xué)習(xí)效率高,執(zhí)行效率不高。連接查詢器把兩者的優(yōu)點(diǎn)結(jié)合起來(lái)。學(xué)習(xí)時(shí)先訓(xùn)練神經(jīng)查詢器,然后以其結(jié)果訓(xùn)練符號(hào)查詢器,問(wèn)答時(shí)只使用符號(hào)查詢器。
Peng 等提出了基于層次化深度強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning)的對(duì)話策略學(xué)習(xí)方法,可以通過(guò)多輪對(duì)話幫助用戶做旅行安排,包括預(yù)訂機(jī)票、訂酒店 [10]。對(duì)話系統(tǒng)整體架構(gòu)與圖 2 的相似,有語(yǔ)言理解、對(duì)話管理、語(yǔ)言生成模塊。對(duì)話管理模塊有兩層結(jié)構(gòu),頂層模塊負(fù)責(zé)管理子任務(wù),底層模塊負(fù)責(zé)管理子任務(wù)中的動(dòng)作,狀態(tài)跟蹤模塊負(fù)責(zé)管理全局的跨子任務(wù)的約束條件(如酒店的入住時(shí)間需晚于航班的達(dá)到時(shí)間)。對(duì)話管理策略通過(guò)層次化深度強(qiáng)化學(xué)習(xí)獲得。
6. 未來(lái)展望
下面列舉自然語(yǔ)言對(duì)話中比較重要的研究課題。
? 對(duì)話需要語(yǔ)義接地,即將自然語(yǔ)言映射到內(nèi)部的表征,如何定義和使用語(yǔ)義表征是一個(gè)核心問(wèn)題。
? 語(yǔ)言理解的多義性、多樣性問(wèn)題。雖然迄今有很多研究,但仍然沒(méi)有根本解決。
? 語(yǔ)言和知識(shí),既可以由符號(hào)表征,又可以由向量表征(神經(jīng)表征),各有優(yōu)缺點(diǎn),如何將符號(hào)處理和深度學(xué)習(xí)結(jié)合是一個(gè)重要的問(wèn)題。
? 多輪對(duì)話系統(tǒng)可以基于深度強(qiáng)化學(xué)習(xí),也有很多問(wèn)題需要研究。
? 對(duì)話系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng),需要進(jìn)行層次化和模塊化處理,如何構(gòu)建這樣的系統(tǒng),并使其擁有自動(dòng)學(xué)習(xí)功能也是一個(gè)大問(wèn)題。
? 機(jī)器學(xué)習(xí)的數(shù)據(jù)往往是不夠的,這使得端對(duì)端訓(xùn)練一個(gè)對(duì)話系統(tǒng)變得困難,在小樣本的條件下學(xué)好對(duì)話模型是需要解決的重要課題。
7. 總結(jié)
以下將本文的主要觀點(diǎn)進(jìn)行總結(jié)。
從功能的角度,計(jì)算機(jī)也有可能能夠像人一樣,自如地進(jìn)行自然語(yǔ)言對(duì)話,但是現(xiàn)在這個(gè)命題無(wú)法證真或證偽。原因是尚不清楚人腦的語(yǔ)言理解機(jī)制,用計(jì)算機(jī)完整模擬人的語(yǔ)言理解仍然非常困難。
但在特定領(lǐng)域,特定場(chǎng)景下,和人一樣進(jìn)行自然語(yǔ)言對(duì)話的計(jì)算機(jī)的實(shí)現(xiàn),我們已經(jīng)看到。問(wèn)題是如何進(jìn)行擴(kuò)展,能夠以更低的開(kāi)發(fā)成本覆蓋更多的領(lǐng)域和場(chǎng)景。
語(yǔ)言理解的核心是向內(nèi)部表征的映射。多義性和多樣性是計(jì)算機(jī)進(jìn)行語(yǔ)言理解最大的挑戰(zhàn)。
要完成具體的任務(wù),體現(xiàn)計(jì)算機(jī)的智能性,定義和使用內(nèi)部表征看來(lái)是不可或缺的。基于分析的方法本質(zhì)上是重要的,甚至是在聊天機(jī)器人的場(chǎng)景。基于檢索方法更適合于單輪問(wèn)答的場(chǎng)景。基于生成的方法只能用于特定的場(chǎng)景。
多輪對(duì)話要體現(xiàn)完成任務(wù)的整個(gè)邏輯,有限狀態(tài)機(jī)表示。開(kāi)放式的對(duì)話意味著動(dòng)態(tài)地改變?nèi)蝿?wù),所以在現(xiàn)在的技術(shù)條件下,是非常困難的;在特定領(lǐng)域任務(wù)明確的條件下的對(duì)話,現(xiàn)實(shí)可行。
近年,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的使用,使得對(duì)話有了長(zhǎng)足的進(jìn)步。主要體現(xiàn)在表征學(xué)習(xí)、端到端學(xué)習(xí)上。事實(shí)上需要符號(hào)表征和神經(jīng)表征,深度學(xué)習(xí)和符號(hào)處理的結(jié)合,這應(yīng)該是未來(lái)發(fā)展的重要方向。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238261 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
287瀏覽量
13346
原文標(biāo)題:專欄 | 李航教授展望自然語(yǔ)言對(duì)話領(lǐng)域:現(xiàn)狀與未來(lái)
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論