【導(dǎo)讀】通常,中文文本處理的第一步稱(chēng)為分詞,這好像已經(jīng)成為一種“共識(shí)”,但對(duì)其必要性的研究與探討很少看到。本文中,作者就提出了一個(gè)非?;A(chǔ)的問(wèn)題:基于深度學(xué)習(xí)方法的自然語(yǔ)言處理過(guò)程中,中文分詞(CWS)是必要的嗎?
近日,香濃科技 AI 團(tuán)隊(duì)(Shannon AI)與斯坦福大學(xué)聯(lián)合聯(lián)合發(fā)表了一篇研究《Is Word Segmentation Necessary for Deep Learning of Chinese Representations》,并被 ACL 2019 接收。
在這項(xiàng)研究中,作者在四個(gè)端到端 NLP 基線任務(wù)中進(jìn)行評(píng)測(cè),對(duì)比基于分詞的 word model (“詞”級(jí)別)和無(wú)需分詞的 char model (“字”級(jí)別)兩種模型的效果,評(píng)測(cè)內(nèi)容包括語(yǔ)言建模、機(jī)器翻譯、句子匹配/改寫(xiě)和文本分類(lèi)。實(shí)驗(yàn)結(jié)果顯示,基于char model 比 word model 效果更優(yōu)。
論文中,本文還進(jìn)一步通過(guò)實(shí)驗(yàn)分析了兩種模型存在差異的原因。作者認(rèn)為,除了大家都認(rèn)為的 OOV(out-of-vocabulary) 帶來(lái)的影響, word model 的 data sparsity (數(shù)據(jù)稀疏)問(wèn)題也是導(dǎo)致過(guò)擬合的一個(gè)重要原因。也正是希望這項(xiàng)研究,可以讓大家發(fā)現(xiàn)分詞有意思的地方,還有它還未曾被大家挖掘、探索的一面,以及rethinking 分詞在基于深度學(xué)習(xí)模型的 NLP 任務(wù)的必要性。
論文作者之一,香濃科技(Shannon AI)李紀(jì)為也參與到這項(xiàng)研究中,還在知乎上回答了大家對(duì)這篇研究的疑問(wèn)。
問(wèn):如何評(píng)價(jià)李紀(jì)為的論文Is Word Segmentation Necessary?
李紀(jì)為:中文分詞確實(shí)是個(gè)非常有意思、也很重要的話題,這篇文章嘗試拋磚引玉去探究一下這個(gè)問(wèn)題,也希望這一問(wèn)題獲得學(xué)術(shù)界更廣泛的重視。因?yàn)橹暗墓ぷ?,分詞本身的優(yōu)缺點(diǎn)并沒(méi)有詳盡地被探討。鑒于筆者本身的局限性,文章在 intro 的結(jié)尾也提到:Instead of making a conclusive (and arrogant) argument that Chinese word segmentation is not necessary, we hope this paper could foster more discussions and explorations on the necessity of the long-existing task of CWS in the community, alongside with its underlying mechanisms.
這個(gè)問(wèn)題涉及到的更本質(zhì)的問(wèn)題,就是語(yǔ)言學(xué)的structure在深度學(xué)習(xí)的框架下有多重要 (因?yàn)樵~是一種基本的語(yǔ)言學(xué)structure)。這個(gè)問(wèn)題近兩年學(xué)者有不同的爭(zhēng)論,有興趣的同學(xué)可以看 manning 和 lecun的 debate。更早的15年,manning 和 andrew ng 就有過(guò)討論,當(dāng)時(shí) andrew的想法比lecun還要激進(jìn),認(rèn)為如果有足夠的訓(xùn)練數(shù)據(jù)和強(qiáng)有力的算法,哪怕英文都不需要word,char就夠了。
debate 鏈接:
https://www.youtube.com/watch?v=fKk9KhGRBdI
也有網(wǎng)友質(zhì)疑論文中的實(shí)驗(yàn):
@Cyunsiu To:這類(lèi)論文是有意義的,但是這篇論文的實(shí)驗(yàn)持質(zhì)疑態(tài)度。
這篇文章在分析分詞不 work 的時(shí)候,很大一部分把不 work 的原因歸因于 oov 太多,我個(gè)人不認(rèn)同,至少分類(lèi)動(dòng)不動(dòng)就能開(kāi)十萬(wàn)+ 級(jí)別的詞表,一方面 oov 不會(huì)太多,另一方面即使 oov 太多,也應(yīng)該分析一下哪些 oov 導(dǎo)致模型不 work 吧,其實(shí)我個(gè)人認(rèn)為根本不是 oov 的原因造成的。要不然英文里面的 word 也不會(huì) work 了。
對(duì)此,李紀(jì)為回答道:
李紀(jì)為:文章提到幾個(gè)方面,OOV 是其中一個(gè)方面,但并不是所有。除了 OOV 之外, data sparsity 也是一個(gè)重要原因。從文章的圖2上看,在同樣的數(shù)據(jù)集上,對(duì)于不同 OOV 的frequency bar (意思是 frequency 小于 1 算作 OOV,還是 frequency 小于 5 算作 OOV),實(shí)驗(yàn)結(jié)果是先升再降的。這個(gè)其實(shí)也比較好理解,如果 frequency bar 小,對(duì)于那些 infrequent 的詞會(huì)單獨(dú)認(rèn)為是詞,而不是 OOV。因?yàn)?data sparsity 的問(wèn)題,會(huì)使學(xué)習(xí)不充分,從而影響了效果。 從這個(gè)角度,char 模型比 word 模型會(huì)學(xué)習(xí)得更充分。
以上回答來(lái)源
https://www.zhihu.com/question/324672243
究竟這項(xiàng)論文中是如何實(shí)驗(yàn)對(duì)比得出 char 模型效果優(yōu)于 word 模型效果的?OOV 和 data sparsity 又帶來(lái)了哪些影響?下面我們就為大家解讀分析。
一、介紹
英文(以及其他基于拉丁字母的語(yǔ)言)和中文(以及其他沒(méi)有明顯的詞語(yǔ)分隔符的語(yǔ)言,如韓文和日文)存在一個(gè)明顯的差別:根據(jù)空格就能很明顯、直接地識(shí)別每個(gè)英文詞,但中文中并不存在這樣的詞語(yǔ)分隔符,這也是中文分詞任務(wù)(CWS)的來(lái)源。在深度學(xué)習(xí)中,詞往往是操作的基本單位,本文將此種模型稱(chēng)為基于詞語(yǔ)的模型(word model)。在模型中,分詞后得到的詞語(yǔ),再使用固定長(zhǎng)度的向量來(lái)表示,這就和英語(yǔ)詞語(yǔ)的處理方式相同了。那 word model 存在哪些缺陷呢?
首先,data sparsity會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合,OOV則會(huì)限制模型的學(xué)習(xí)能力。根據(jù)齊普夫定律(Zipf’s law),很多中文詞的出現(xiàn)頻率都非常低,這使得模型難以學(xué)習(xí)到詞語(yǔ)的語(yǔ)義信息。以使用較為廣泛的 Chinese Treebank 數(shù)據(jù)集(Chinese Treebank dataset, CTB)為例進(jìn)行說(shuō)明。通過(guò)使用結(jié)巴分詞對(duì) CTB 數(shù)據(jù)集進(jìn)行切詞,可以得到615,194個(gè)詞語(yǔ),其中不同詞語(yǔ)50,266個(gè)。這些詞語(yǔ)中,有24,458個(gè)詞僅出現(xiàn)一次,占總詞數(shù)的48.7%,僅占語(yǔ)料的4%。表1展示了針對(duì)這一語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù),可以看出基于詞語(yǔ)的數(shù)據(jù)集非常稀疏。由于詞語(yǔ)數(shù)的增加會(huì)使模型參數(shù)增多,數(shù)據(jù)稀疏很容易引起過(guò)擬合問(wèn)題。另外,由于維護(hù)大規(guī)模的詞語(yǔ)-向量表存在難度,很多詞語(yǔ)都會(huì)被處理為OOV,進(jìn)一步限制了模型的學(xué)習(xí)能力。
表1 CTB 詞語(yǔ)統(tǒng)計(jì)數(shù)據(jù)
第二,現(xiàn)在的分詞技術(shù)還存在很多問(wèn)題,分詞不當(dāng)產(chǎn)生的錯(cuò)誤會(huì)導(dǎo)致 NLP 任務(wù)出現(xiàn)偏差。中文中詞語(yǔ)并沒(méi)有清晰的邊界,增加了中文分詞的難度和復(fù)雜性。從不同的語(yǔ)言學(xué)角度來(lái)看,中文分詞也可以有不同的標(biāo)準(zhǔn)。從表2展示的例子可以看出,在使用最廣泛的兩個(gè)中文分詞數(shù)據(jù)庫(kù) PKU 和 CTB 中,相同的句子存在不同的分詞結(jié)果。
表2 CTB 和 PKU 不同的分詞標(biāo)準(zhǔn)
第三,分詞產(chǎn)生的收益效果尚不明確。還取決于帶標(biāo)簽的 CWS 數(shù)據(jù)能夠帶來(lái)附加語(yǔ)義信息的多少。對(duì)于word model 和 char model而言,兩者的差異在于是否使用了帶標(biāo)簽的 CWS 數(shù)據(jù)作為模型學(xué)習(xí)使用的信號(hào)。但在現(xiàn)有研究中,針對(duì)這一問(wèn)題討論較少。舉例來(lái)說(shuō),在機(jī)器翻譯模型中,學(xué)者往往使用百萬(wàn)級(jí)的樣例進(jìn)行訓(xùn)練,但帶標(biāo)簽的 CWS 數(shù)據(jù)集規(guī)模往往較小( CTB 有6.8萬(wàn)條數(shù)據(jù),PKU 有2.1 萬(wàn)條數(shù)據(jù)),而且領(lǐng)域較為狹窄。這一數(shù)據(jù)似乎并不能為模型效果帶來(lái)明顯的增益。
其實(shí)在大規(guī)模使用神經(jīng)網(wǎng)絡(luò)模型方法之前,就有學(xué)者對(duì)分詞是否必要及其能夠帶來(lái)增益的多少進(jìn)行了討論。在信息檢索領(lǐng)域,有學(xué)者指出,如果在查詢?cè)~和檢索內(nèi)容中應(yīng)用相同的分詞方法,就能提升檢索效果。但如果在char model中使用 bigram 對(duì)字符進(jìn)行表示,則word model的優(yōu)勢(shì)就會(huì)大大減弱;在機(jī)器翻譯的相關(guān)研究中,有學(xué)者指出,分詞并不能帶來(lái)明顯的效果提升,也并非提升模型效果的關(guān)鍵因素。
在本文中,探討基于深度學(xué)習(xí)的中文自然語(yǔ)言處理任務(wù)中分詞的必要性,作者首先在不涉及分詞的任務(wù)中比較了word model 和 char model的效果差異。作者通過(guò)語(yǔ)言建模、文本分類(lèi)、機(jī)器翻譯和句子匹配四個(gè) NLP 任務(wù)比較了兩個(gè)模型的效果,并發(fā)現(xiàn)char model 的效果更佳,比混合模型的效果更佳或等同。這一結(jié)果說(shuō)明,實(shí)際上cahr model已經(jīng)對(duì)足夠的語(yǔ)義信息進(jìn)行了編碼。
另外,本文對(duì)word model的不足也做了進(jìn)一步的探究,并指出了導(dǎo)致模型缺陷的主要原因,例如,OOV、data sparsity 會(huì)導(dǎo)致過(guò)擬合,以及領(lǐng)域轉(zhuǎn)換能力較差。
二、回顧
對(duì)分詞的研究并不是一項(xiàng)新研究,曾經(jīng)大家都是如何進(jìn)行實(shí)驗(yàn)與研究的呢?
自2003年第一個(gè)國(guó)際中文分詞庫(kù)出現(xiàn)以來(lái),中文分詞取得了很多進(jìn)展。在早期,大多時(shí)候,分詞都基于一個(gè)預(yù)定義的詞典進(jìn)行。在這一時(shí)期,一個(gè)最為簡(jiǎn)單且具有健壯性的模型即最大匹配模型,該模型最簡(jiǎn)單的版本即從左至右的最大匹配模型(maxmatch)。這一時(shí)期,新模型的提出主要來(lái)源于出現(xiàn)新的分詞標(biāo)準(zhǔn)。
隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的出現(xiàn), CWS 問(wèn)題逐漸變?yōu)榇驑?biāo)簽問(wèn)題。例如,使用 BEMS 標(biāo)簽進(jìn)行標(biāo)注,確認(rèn)句子的起始詞(Start),結(jié)尾詞(End),中間詞(Middle)或獨(dú)立詞(Single)。傳統(tǒng)的序列標(biāo)注方法包括 HMM,、MEMN,、CRF 等。
到了神經(jīng)網(wǎng)絡(luò)時(shí)代,基于神經(jīng)元的 CWS 模型包括CNN、RNN、LSTM等。這類(lèi)模型能更靈活地使用上下文語(yǔ)義信息對(duì)詞語(yǔ)進(jìn)行標(biāo)注,并且使特征工程更簡(jiǎn)單易行。詞語(yǔ)的神經(jīng)元表示可以作為 CRF 模型的特征,也可作為決策層的輸入。
三、實(shí)驗(yàn)結(jié)果
在這一部分,我們將為大家展示研究中作者將兩種模型在 4 個(gè) NLP 任務(wù)中實(shí)驗(yàn)的評(píng)測(cè)結(jié)果。在模型訓(xùn)練中,為便于比較,作者使用網(wǎng)格搜索對(duì)超參數(shù)進(jìn)行了微調(diào),包括學(xué)習(xí)率、dropout、batch size等。
3.1 語(yǔ)言建模
該任務(wù)要求模型通過(guò)給定的前述語(yǔ)境信息的表示,預(yù)測(cè)后續(xù)詞語(yǔ)。在語(yǔ)言建模任務(wù)中使用CTB 6.0數(shù)據(jù)集來(lái)對(duì)比兩模型效果。將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,占比分別為80%,10%,10%,使用 Jieba 進(jìn)行分詞,LSTM 模型對(duì)字符和詞語(yǔ)進(jìn)行了編碼。
實(shí)驗(yàn)中,對(duì)比了不同維度下,單獨(dú)的 word、char 模型和混合模型的效果??梢园l(fā)現(xiàn),char 模型的效果都優(yōu)于 word 模型,維度為 2048 時(shí),ppl 達(dá)到最優(yōu)的結(jié)果差距明顯。作者在標(biāo)準(zhǔn) CWS 包和 LTP 包也進(jìn)行了實(shí)驗(yàn),并獲得了相同的結(jié)果。
表3 語(yǔ)言建模結(jié)果:char model 優(yōu)于 word model
另外,本文對(duì)混合模型的效果也進(jìn)行了探究,為便于比較,本文構(gòu)建了兩種不同的混合模型,對(duì) word+char 及 only char進(jìn)行表示。詞的表示由其組成詞的表示向量和剩余字符的表示向量聯(lián)合構(gòu)成。由于中文詞語(yǔ)的構(gòu)成字符數(shù)量不定,為保證輸出數(shù)據(jù)維度一致,本文使用 CNN 對(duì)字符向量的結(jié)合進(jìn)行了處理。
可以發(fā)現(xiàn),在語(yǔ)言建模任務(wù)中,分詞沒(méi)有帶來(lái)明顯的模型增益,加入詞嵌入信息還降低了模型效果。
3.2 機(jī)器翻譯
本部分評(píng)測(cè)使用中英翻譯,使用語(yǔ)料為從 LDC 語(yǔ)料中抽取的125萬(wàn)個(gè)句子對(duì)。驗(yàn)證數(shù)據(jù)使用的是NIST 2002 ,測(cè)試數(shù)據(jù)使用的是NIST 2003,2004,2005,2006和2008。實(shí)驗(yàn)使用了出現(xiàn)頻次最高的前30,000個(gè)英語(yǔ)詞語(yǔ),以及前27,500個(gè)中文詞語(yǔ)。char model 的詞語(yǔ)量設(shè)置為4500。作者對(duì)中譯英和英譯中兩種任務(wù)都進(jìn)行了評(píng)測(cè),表4所示中譯英結(jié)果,表5表示英譯中結(jié)果。
表4 中譯英機(jī)器翻譯評(píng)測(cè)結(jié)果(Mixed RNN, Bi-Tree-LSTM, PKI 模型效果)
表5 英譯中機(jī)器翻譯評(píng)測(cè)結(jié)果
在機(jī)器翻譯中,無(wú)論是「中譯英」還是「英譯中」任務(wù),char 模型效果都優(yōu)于word模型。
3.3 句子匹配
作者基于 BQ 和 LCQMC兩個(gè)語(yǔ)料對(duì)句子匹配任務(wù)進(jìn)行了評(píng)測(cè)。這兩個(gè)語(yǔ)料為每一個(gè)語(yǔ)句對(duì)提供了一個(gè)二元標(biāo)簽,以標(biāo)示兩個(gè)句子是否具有相似性(或相同意圖)。在這部分實(shí)驗(yàn)中,評(píng)測(cè)內(nèi)容為使用不同模型對(duì)語(yǔ)句對(duì)的二元標(biāo)簽進(jìn)行預(yù)測(cè)。評(píng)測(cè)結(jié)果如表6所示。在句子匹配任務(wù)中,基于char 模型效果優(yōu)于基于word的模型效果,表明 char 模型更能捕捉單元之間的語(yǔ)義聯(lián)系。
表6 LCQMC 和 BQ 語(yǔ)料庫(kù)的評(píng)測(cè)結(jié)果
3.4 文本分類(lèi)
文本分類(lèi)任務(wù)中使用的評(píng)測(cè)基線包括 ChinaNews, Ifeng, JD_Full, JD _binary, Dianping。作者使用雙向 LSTM 模型對(duì)基于word和基于char的模型分別進(jìn)行訓(xùn)練用于評(píng)測(cè),評(píng)測(cè)結(jié)果如表7所示。除 ChinaNews語(yǔ)料庫(kù)外,基于字符的模型的表現(xiàn)均優(yōu)于基于詞語(yǔ)的模型。
表7 文本分類(lèi)任務(wù)的驗(yàn)證和測(cè)試情況
領(lǐng)域適應(yīng)能力
模型的領(lǐng)域適應(yīng)能力展現(xiàn)了模型基于對(duì)已有數(shù)據(jù)分布(源領(lǐng)域)的訓(xùn)練,學(xué)習(xí)新數(shù)據(jù)分布(目標(biāo)領(lǐng)域)的能力。作者基于不同的情感分析數(shù)據(jù)庫(kù)對(duì)兩種模型進(jìn)行了評(píng)測(cè),結(jié)果如表8所示??梢园l(fā)現(xiàn),基于字符的模型具有更強(qiáng)的領(lǐng)域適應(yīng)能力,且表現(xiàn)更優(yōu)。
表8 基于字符的模型和基于詞語(yǔ)的模型的領(lǐng)域適應(yīng)能力
四、分析
在這一部分,作者探究了 char model 效果優(yōu)于 word model 的原因,盡管未能完全指出基于詞語(yǔ)的模型的運(yùn)行機(jī)制,但作者嘗試分析了幾個(gè)主要的影響因素。
4.1 數(shù)據(jù)稀疏性
防止詞規(guī)模過(guò)大的常用方法是設(shè)置詞頻率的閾值,并使用 UNK 字符替代所有未達(dá)到閾值的詞語(yǔ)。閾值的設(shè)置對(duì)詞規(guī)模的大小有直接影響,并進(jìn)一步影響了模型參數(shù)的數(shù)量。圖2展示了詞匯量、頻率閾值以及模型效果之間的聯(lián)系。無(wú)論是char模型還是model模型,當(dāng)詞規(guī)模過(guò)大,模型效果都會(huì)明顯下降。模型對(duì)于低頻詞的語(yǔ)義的學(xué)習(xí)是存在困難的。因此,要獲得較好的基于詞語(yǔ)或字符的模型訓(xùn)練效果,必須保證詞語(yǔ)或字符的出現(xiàn)頻率。但對(duì)于word模型,這一條件更難以達(dá)到。
圖2 數(shù)據(jù)稀疏性對(duì)基于詞語(yǔ)和基于字符的模型的影響
4.2OOV
對(duì)word model來(lái)說(shuō),OOV是另一重要影響因素。但考慮到簡(jiǎn)單降低詞頻率的閾值以減少OOV,會(huì)使數(shù)據(jù)稀疏問(wèn)題更加嚴(yán)重,因此本文采用了一個(gè)替代性策略,即基于不同的詞頻率閾值,分別移除驗(yàn)證集和測(cè)試集中包含OOV的句子。圖4展示了訓(xùn)練集詞匯數(shù)量、準(zhǔn)確度和詞頻率閾值間的關(guān)系。隨著詞頻率閾值的增加,兩種模型效果的差異在逐漸減小。
圖4 移除包含OOV的訓(xùn)練實(shí)例帶來(lái)的影響
4.3 過(guò)擬合
數(shù)據(jù)稀疏導(dǎo)致模型需要學(xué)習(xí)的參數(shù)增加,使得模型更加容易過(guò)擬合。本文在 BQ 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果如圖1所示。要獲得與基于詞語(yǔ)的模型相似的效果,基于詞語(yǔ)的模型需要設(shè)置更高的 dropout 值。
圖1 dropout 對(duì)基于詞語(yǔ)和基于字符的模型的影響
4.4 可視化
圖3 展示了char model在 BQ 數(shù)據(jù)集上獲得更好的語(yǔ)義匹配效果的原因。該熱圖展示了 BiPMP 計(jì)算出的兩句子間的注意力匹配值。對(duì)于char model而言,句子間的映射更加容易。
圖4 基于詞語(yǔ)和基于字符的模型對(duì)兩個(gè)中文語(yǔ)句的語(yǔ)義匹配情況
五、結(jié)論
這項(xiàng)研究探究了基于深度學(xué)習(xí)方法中文 NLP 任務(wù)中,分詞的必要性這一基礎(chǔ)性問(wèn)題,并在四類(lèi)端到端自然語(yǔ)言處理任務(wù)上發(fā)現(xiàn)char 模型效果更優(yōu)于 word 模型。本文認(rèn)為,word模型效果不佳的原因在于OOV、數(shù)據(jù)稀疏導(dǎo)致的過(guò)擬合和領(lǐng)域轉(zhuǎn)換能力差問(wèn)題。也希望這篇論文可以啟發(fā)更多針對(duì)中文分詞必要性的探討工作。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100720 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14880 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121117
原文標(biāo)題:中文NLP的分詞真有必要嗎?李紀(jì)為團(tuán)隊(duì)四項(xiàng)任務(wù)評(píng)測(cè)一探究竟 | ACL 2019
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論