參與混合主動互動的能力是會話搜索系統的核心要求之一。如何做到這一點,人們知之甚少。我們提出了一組無監督的度量標準,稱作ConversationShape,通過比較詞匯和話語類型的分布來強調每個會話參與者所扮演的角色。以ConversationShape為標準,仔細地研究了幾個會話搜索數據集,并將它們與其他對話數據集進行比較,以便更好地理解它們所代表的對話交互類型,無論是由信息搜索者還是助手驅動的。我們發現,同一類型的人與人對話的對話形態與ConversationShape之間的偏離,可以預測人與機器對話的質量。
1. 簡介
雖然會話搜索的想法已經存在了幾十年,但這個想法最近引起了相當大的關注。會話式用戶界面被認為比傳統的界面更有利于有效的信息訪問。在這種情況下,對話是一種協作過程,允許信息尋求者滿足信息需求。會話交互的關鍵特征之一是混合主動性的潛力,其中系統和用戶都可以采取適當的主動性。在這篇論文中,作者提出了一種分析評估對話參與者之間的主動性和協作程度的指標。
迄今為止提出的會話搜索任務主要將對話減少為一系列的問題-答案對。在用于問答任務的數據集中,交互的結構事先是固定的:要么用戶主動,系統隨后給出答案,要么反過來,這使得它們不適合研究角色之間的主動性如何轉移。來自在線問答論壇的討論是開發會話搜索任務的一個流行的數據來源[18,19]。雖然在線論壇是研究現實世界交互模式的寶貴資源,但它們展示了一種異步信息交換類型,正如我們在分析中所顯示的,這與同步對話交互非常不同。
會話系統通常分為問答、任務導向和閑聊。值得注意的是,這種分類模式主要基于構建這種對話系統的方法的不同,而不是它們產生的對話的不同。在本文中,**我們著重分析和測量對話類型之間的差異,并報告由此產生的維度和一個新的對話分類方案。**我們表明,為會話搜索任務收集的人對人對話與面向任務的對話和閑聊對話在結構上具有相似性。
最近對聊天對話模型的評估研究表明,對話系統傾向于通過問太多的問題和忽視用戶的主動性來控制對話[4,9]。標準的評估指標不能捕捉到對話互動的這一維度,因此不能預測用戶參與度。對話評價最常用的指標是回應的相關性,通常是根據真實的回應來衡量;如果響應是一個答案,那么它可以與答案的準確性相比較。我們的工作是對這項研究的補充。我們提出了一種新的基于一組無監督特征的評價框架。該框架的設計目的是在適當的時候,根據平衡主動性和衡量對話參與者之間的協作來捕獲對話互動的質量。
我們的評估框架是基于幾個獨立的詞匯特征,這些詞匯特征捕捉了對話中的主動性和協作性。先前采用了基于語篇特征的簡單自動測量方法,如詞匯和句法多樣性,以減少重復的共性回答,并估計問題的復雜性[14,23]。我們使用了一種無監督的方法,類似于在匹配[13]語言風格和衡量生成敘事[22]的質量時所使用的方法。一個關鍵特征的對話是。它是一種由多個對話參與者產生的話語敘事類型。因此,我們分別估計每個參與者的詞匯特征,以便能夠比較他們的貢獻,從而推斷他們在對話中扮演的角色。
我們的對話表示方法是無監督和領域獨立的,這允許我們將以前只在少數對話上執行的分析擴展到數千個公開可用的對話文本。
我們的主要貢獻可以總結為:(1)我們在10個數據集(超過97k個對話)中考察了主動性和協作的結構模式。我們的研究是第一個在龐大而多樣的對話語料庫中自動識別這些維度的研究,并將源自不同研究團體的對話任務進行類比。(2)我們所識別的主動性和協作模式與人類對對話質量的判斷相關。控制的分配(其中控制被定義為管理會話中的流程方向)是旨在增強人機協作的混合主動對話系統的核心。對話系統應能夠識別usera??s提示的主動切換,從而提供適當的回應。檢測主動性對于描述交互的質量也很重要。我們的工作有助于洞察,為評估和優化方法的設計提供信息,這些方法能夠識別對話中的主動性分配。
2. ConversationShape
ConversationShape是一種關注對話結構屬性的對話表示方法。我們認為對話是幾個參與者之間交換的一系列話語。我們實驗中的所有對話都有兩名參與者。然而,我們的方法也適用于多方對話。信息尋求對話的特點通常是參與者在對話中扮演的角色不對稱:參與者通常扮演助手(A)的角色,其功能是通過對話搜索系統實現自動化;另一個對話參與者是一個信息尋求者,他正在使用助手的服務來獲取信息。為了模擬對話中的混合主動性,我們使用了四個指標,分別為每個對話參與者計算:(1)問題(question);(2)信息(information);(3)重復(repetition);和(4)流(flow)。
問題(question)是一種試圖控制談話方向的明確嘗試,因為提出的問題會讓另一個參與者產生相應的答案。我們在NPS聊天語料庫上訓練了一個有監督分類器來識別問題和其他類型的話語。NPS聊天語料庫包含了來自網絡聊天室的7.9K個話語,標注了14種話語類型:Statement、Emotion、Greet、Bye、Accept、Reject、whQuestion、ynQuestion、yAnswer、nAnswer、Emphasis、Continuer、clear、Other。我們的分類模型是從預先訓練的羅伯塔17初始化的,并進一步為話語類型預測任務進行調整,在遞出測試集中實現F1為0.81。
其余的度量標準描述協作模式和對對話主題的控制。要解釋它們,我們首先需要介紹對話詞表的概念。對話詞表由出現在同一對話文本中的所有唯一單詞(或子單詞標記)組成。我們對在同一對話中頻繁出現(不止一次)的單詞特別感興趣,因為重復模式很可能表明它們對對話主題的重要性。
信息(information)反映了參與者對談話主題的貢獻。我們將信息估計為會話參與者首先創造的頻繁令牌的計數。
重復(repetition)表示對談話主題的延續。為了分析共享詞匯表的出現,我們跟蹤會話參與者之間的詞匯表重用模式。我們將重復估計為一個會話參與者首先引入并隨后被另一個會話參與者重復的標記的數量。我們認為重復是對話中可用的一種相關性反饋,假設重復行為是通過增加標記頻率來認可標記對對話主題的重要性。另一種隱式引用前面標記的方法是使用回指。因此,我們將回指計數加到重復計數中。從沃克和惠特克提出的分析框架中,我們使用了一小串英語回指:
“it”,“they”,“they”,“their”,“she”,“he”,“her”,“him”,“his”,“this”,“that”。我們也用現成的共參考分辨率模型進行了實驗,但結果并不令人滿意。
“流”(flow)是重復和信息之間的區別,它反映了參與者通過引用之前的陳述來維持對話的連貫性,或者通過引入新的信息來推動對話向前的作用。
對于每一次對話,我們分別計算每個對話參與者的值:conceptA和ConceptS(A代表assistant,S代表Seeker),其中Concept表示我們剛剛介紹的四個指標之一。為了能夠比較不同長度的對話,我們還通過對話中說話的數量來標準化得分。然后,我們使用兩個指標之間的平均值和差值來描述數據集中對話的類型。平均值顯示了每個指標的重要性,例如每次對話的平均問題數量:
這種差異可以用來比較對話參與者之間的分布(平衡),例如在對話中誰問了更多的問題。我們使用類似于[13]的寫作風格的公式:
它不僅表明了不同角色之間的指標差異,而且還表明了其方向:負值表示Seeker的主導地位,正值Assistant表示Assistant的主導地位。
3. 數據集
我們的分析跨越了10個公開可用的對話數據集,這些數據集是為各種對話任務而設計的。括號中的數字表示每個數據集中對話的數量。
4.結果
表1顯示了前一節中每個對話集的平均ConversationShape。這種表示允許比較集合并識別不同的對話類型,例如,圖1顯示了基于問題和信息分布的相似性而出現的集群。
助手驅動對話(Assistant-driven dialogues):從表1中我們可以看到,在CCPE中,助理通過提出問題來引導對話,探索者通過回答問題來跟進(負?重復)。MultiWOZ和MSDialog也有助理提出的大部分問題,但這些問題是緊跟著探索者提供的問題和答案(正?重復)。在“ReDial”中,助理通過提供信息和提問來推動對話,而探索者則繼續跟進(負?重復)。
探索者驅動對話(Seeker-driven dialogue):SCS和WoW的相似之處在于:搜索者主要是提問,助理主要是提供信息。然而,在WoW中,導引頭會繼續跟隨助手介紹的主題(負?重復),而在SCS中,助手會跟隨導引頭。聊天對話(Human和Control-H)似乎更接近于起源,表明這種對話類型的參與者之間的主動性更平衡。然而,在DailyDialog數據集中,主動權傾向于對話發起者,后者更有可能提出問題并設置對話主題。
模型診斷:ConversationShape有助于評價對話模式,理解對話模式所表現出的越軌行為類型。這些實驗是在Control-M數據集的子集上進行的,這些子集對應于不同對話模型產生的文本。總共有28個模型,我們分別計算每個模型的ConversationShape。然后,我們測量模型分布和為人類-人類對話子集(Control-H)計算的分布之間的交叉熵。最后,我們將我們的結果與原始論文[23]中報道的人類評價結果進行比較。與人類-人類分布的交叉熵最低(0.01)的模型,也是人類法官關于興趣偏好的模型,其特征是更好的flow和更多的信息共享(information sharing)。
此外,ConversationShape允許解釋對話模型所展示的偏差類型。在圖2中,我們正確地識別出了問太多問題(優化為好奇、面試官)、重復太多(優化為響應性、鸚鵡式)或沒有跟進(優化為多樣性或消極響應性、說話者式)的模型。在比較Meena和Mitsuku對話[1]的transcripts時,我們無法達到同樣的結果。問題分布表明,Meena和Mitsuku對話在結構上彼此非常不同,也不同于典型的人類閑聊分布。Mitsuku正在被審訊,而Meena則主動提出問題。
5. 結論
在本文中,我們介紹了ConversationShape框架,該框架提供了一組簡單但有效的無監督度量,旨在度量會話的主動性和流(flow)。我們的分析揭示了不同對話類型之間的關系,并提出了一組適合在開發和評估對話系統或收集新的對話數據集時考慮的維度。我們的“Repetition”度量(估計會話主題的后續內容)是相當粗糙的,因為它只考慮詞法匹配和回指語。盡管我們表明它足以對數據集分布進行高級分析,但預測單個對話的質量需要更細粒度的檢查。未來的工作應該集中在開發一個可以解釋token之間語義相似度的擴展。下一步將這些指標合并到一個學習算法的優化標準,模型提供一個適當的視角的對話,給一個明確的激勵來控制一個適當的平衡,正如我們所展示的,取決于對話的類型。
原文標題:【SIGIR2020】信息檢索對話中混合主動性和協同性的分析
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器人
+關注
關注
211文章
28466瀏覽量
207306 -
神經網絡
+關注
關注
42文章
4772瀏覽量
100838
原文標題:【SIGIR2020】信息檢索對話中混合主動性和協同性的分析
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論