本文回顧了中文分詞在2007-2017十年間的技術(shù)進(jìn)展,尤其是自深度學(xué)習(xí)滲透到自然語言處理以來的主要工作。我們的基本結(jié)論是,中文分詞的監(jiān)督機器學(xué)習(xí)方法在從非神經(jīng)網(wǎng)絡(luò)方法到神經(jīng)網(wǎng)絡(luò)方法的遷移中尚未展示出明顯的技術(shù)優(yōu)勢。中文分詞的機器學(xué)習(xí)模型的構(gòu)建,依然需要平衡考慮已知詞和未登錄詞的識別問題。
盡管迄今為止深度學(xué)習(xí)應(yīng)用于中文分詞尚未能全面超越傳統(tǒng)的機器學(xué)習(xí)方法,我們審慎推測,由于人工智能聯(lián)結(jié)主義基礎(chǔ)下的神經(jīng)網(wǎng)絡(luò)模型有潛力契合自然語言的內(nèi)在結(jié)構(gòu)分解方式,從而有效建模,或能在不遠(yuǎn)將來展示新的技術(shù)進(jìn)步成果。
1
背景
中文分詞是中文信息處理的一個基礎(chǔ)任務(wù)和研究方向。十年前,黃和趙(2007)接受《中文信息學(xué)報》委托,針對自20世紀(jì)末以來的中文分詞的機器學(xué)習(xí)方法做了十年回顧,發(fā)表了《中文分詞十年回顧》一文。 該文的基本結(jié)論是中文分詞的統(tǒng)計機器學(xué)習(xí)方法優(yōu)于傳統(tǒng)的規(guī)則方法,尤其在未登錄詞(out-of-vocabulary words, OOV)即訓(xùn)練集之中未出現(xiàn)的詞的識別上,具有無可比擬的優(yōu)勢。這一基本結(jié)論隨后得到全面證實。現(xiàn)在10年過去,截至2017年3月, Google Scholar顯示該文被引用166次,而中國知網(wǎng)記錄其引用為483次。
今天看來,使用機器學(xué)習(xí)方法在具有切分標(biāo)記的分詞語料上學(xué)習(xí)或訓(xùn)練出高效能中文分詞器是自然而然的想法,然而十年前的情形大不相同。首先,直到20世紀(jì)的最后十年,中文信息處理界才意識到分詞可以作為真實標(biāo)注語料上的機器學(xué)習(xí)任務(wù)進(jìn)行操作。其次,充足的語料準(zhǔn)備也并非一蹴而就。兩個早期的語料來自賓州大學(xué)中文樹庫(Chinese Penn Treebank, CTB) 和北京大學(xué)計算語言所標(biāo)注的人民日報語料。在各類切分語料齊備的基礎(chǔ)上, SIGHAN才得以組織第一次國際性的中文分詞評測SIGHANBakeoff-2003。
語料準(zhǔn)備之外,還有兩個歷史性的因素,遲滯了中文分詞這一中文信息處理基礎(chǔ)子任務(wù)走向徹底的機器學(xué)習(xí)。其一,長期以來,中文分詞的經(jīng)典方法,即最大匹配算法,在合適的詞典搭配下,通常能夠取得一定程度上頗可接受的性能。以F值度量,最大匹配分詞一般情況下約能獲得80%甚至更高的成績。這類簡單有效的規(guī)則方法的存在,極大降低了研發(fā)先進(jìn)機器學(xué)習(xí)技術(shù)的迫切性。其二,機器學(xué)習(xí)方法的計算代價巨大,在必要硬件條件尚未普及或者成本仍過于高昂的情況下,機器學(xué)習(xí)方法的優(yōu)勢得不到體現(xiàn)。 2005年,典型的分詞學(xué)習(xí)工具條件隨機場(conditional random field, CRF)在百萬詞語料庫上的訓(xùn)練,需要12-18小時的單線程CPU時間,占用內(nèi)存2-3G,遠(yuǎn)超當(dāng)時個人計算機的一般硬件配置水準(zhǔn)。
因此,我們在2017年的今天回顧10年前的學(xué)術(shù)狀態(tài),必須歷史性地考慮當(dāng)時當(dāng)?shù)氐木唧w情形,才能理解當(dāng)時以及后來那些理所當(dāng)然的技術(shù)進(jìn)步有其內(nèi)在而特殊的合理性和必然性。最近10年機器學(xué)習(xí)領(lǐng)域最為顯著的技術(shù)井噴,顯然是深度學(xué)習(xí)方法的崛起和全面覆蓋。因而,我們下面將技術(shù)總結(jié)分為兩大部分,即中文分詞的傳統(tǒng)機器學(xué)習(xí)模型和最近的深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))模型。本文對技術(shù)論文的最新引用截止至ACL-2017會議的部分已錄用論文。但由于篇幅所限,我們僅關(guān)注嚴(yán)格意義上的監(jiān)督機器學(xué)習(xí)模式下的相關(guān)工作,而對于非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、領(lǐng)域遷移學(xué)習(xí)以及其它分詞方法和應(yīng)用等,則尚付闕如,有待日后或各路高賢的努力。我們冒昧以此相對狹窄的視角,回顧我們力所能及范圍內(nèi)的一些當(dāng)時及當(dāng)今相對前沿的研究工作,旨在拋磚引玉,以供借鑒。
2
傳統(tǒng)的機器學(xué)習(xí)模型
分詞作為字符串上的切分過程,是一種相對簡單的結(jié)構(gòu)化機器學(xué)習(xí)任務(wù)。根據(jù)所處理的結(jié)構(gòu)分解單元,大體可以將用于分詞的傳統(tǒng)機器學(xué)習(xí)模型分為兩大類,即基于字標(biāo)注的和基于詞(相關(guān)特征)的學(xué)習(xí)。
基于字標(biāo)注學(xué)習(xí)的方法始于Xue (2003)。該工作使用一個字在詞中的四種相對位置標(biāo)簽(tag),即B、M、 E和S等字位(如表1所示),來表達(dá)該字所攜帶的切分標(biāo)注信息,從而首次將分詞任務(wù)形式化為字位的串標(biāo)注學(xué)習(xí)任務(wù)。串標(biāo)注學(xué)習(xí)是自然語言處理中最基礎(chǔ)的結(jié)構(gòu)化學(xué)習(xí)任務(wù),在串標(biāo)注的概率圖模型中, 兩個串的各個節(jié)點單元需要嚴(yán)格一一對應(yīng), 非常方便于使用各種成熟的機器學(xué)習(xí)工具來建模和實現(xiàn)。Xue (2003)的首次實現(xiàn)其實尚未充分使用串標(biāo)注結(jié)構(gòu)學(xué)習(xí),而是直接應(yīng)用了字位分類模型。 Ng & Low(2004)和Low et al. (2005)才是第一次將嚴(yán)格的串標(biāo)注學(xué)習(xí)應(yīng)用于分詞, 用的是最大熵(Maximum Entropy,ME) Markov模型。而Peng et al. (2004)和Tseng et al. (2005)則自然地將標(biāo)準(zhǔn)的串標(biāo)注學(xué)習(xí)工具條件隨機場引入分詞學(xué)習(xí)。隨后, CRF多個變種構(gòu)成了深度學(xué)習(xí)時代之前的標(biāo)準(zhǔn)分詞模型。
中文分詞任務(wù)是切分出特定上下文環(huán)境下正確的詞,因此,所謂基于詞的分詞學(xué)習(xí)建模需要解決一個“先有雞還是先有蛋”的問題。基于詞的隨機過程建模引致一個CRF變種,即semi-CRF(半條件隨機場)模型的直接應(yīng)用。基于字位標(biāo)注的分詞學(xué)習(xí)通常用到的是線性鏈條件隨機場(linear chain CRF),它是基于Markov過程建模,處理過程中的每步只對輸入序列的一個文本單元進(jìn)行標(biāo)注。而semi-CRF則基于semi-Markov過程建模,它在每步給序列中的連續(xù)單元標(biāo)注成相同標(biāo)簽。這一特性和分詞處理步驟高度契合,使其可以直接用于分詞處理。
Andrew (2006)發(fā)表semi-CRF的第一個分詞實現(xiàn)。然而, 即使以當(dāng)時的標(biāo)準(zhǔn), 號稱直接建模的semi-CRF模型的分詞性能卻不甚理想。通常來說,直接建模會獲得更好的機器學(xué)習(xí)效果,然而在semi-CRF直接應(yīng)用于分詞時,卻一直很難兌現(xiàn)。之后,Sun et al. (2009)和Sun et al. (2012)將包含隱變量的semi-CRF學(xué)習(xí)模型用于分詞,才將其分詞性能提升到前沿水平:前者是首個隱變量semi-CRF模型的工作,聲稱能夠同時利用基于字序列和基于詞序列的特征信息,并經(jīng)驗證明引入隱含變量能通過有效捕捉長距信息來提升長詞的召回率;后者額外引用了新的高維標(biāo)簽轉(zhuǎn)移Markov特征,同時針對性地提出了基于特征頻數(shù)的自適應(yīng)在線梯度下降算法,以提升訓(xùn)練效率。值得注意的是,線性鏈CRF模型的訓(xùn)練時間比對應(yīng)的最大熵Markov模型會慢數(shù)倍,因為最大熵模型訓(xùn)練時間正比于需要學(xué)習(xí)的標(biāo)簽數(shù)量,而CRF訓(xùn)練時間則正比于標(biāo)簽數(shù)量的平方,但semi-CRF的訓(xùn)練比標(biāo)準(zhǔn)的CRF還要緩慢,因此極大地限制了該類模型的實際應(yīng)用。
傳統(tǒng)的字標(biāo)注模型方法在進(jìn)一步發(fā)展之后, 也引入部分標(biāo)志性的已知詞信息(即詞表詞, in-vocabularywords, IV)。 Zhang et al. (2006)提出了一種基于子詞(subword)的標(biāo)注學(xué)習(xí),基本思路是從訓(xùn)練集中抽取高頻已知詞構(gòu)造子詞詞典。然而,該方法單獨使用效果不佳,需要結(jié)合其他模型,其性能才能和已有方法進(jìn)行有意義的比較。 Zhao&Kit(2007a)大幅度改進(jìn)了這個策略,通過在訓(xùn)練集上迭代最大匹配分詞的方法,找到最優(yōu)的子詞(子串)詞典,使用單一的子串標(biāo)注學(xué)習(xí)即可獲得最佳性能。
基于子串的直接標(biāo)注模型事實上過強地應(yīng)用了已知詞信息,因為所有子串都屬于已知詞,并且在模型一開始就不能再切分。這一缺陷后來得到修正,主要的工作包括Zhao&Kit(2007b;2008b;2008a;2011)。在這些工作中,對已有工作的改進(jìn)主要有兩點:其一,所有可能子串按照某個特定的統(tǒng)計度量方式根據(jù)訓(xùn)練集上的n-gram計數(shù)來進(jìn)行打分;其二,基本模型還是字位標(biāo)注學(xué)習(xí),前面獲得的子串信息以附加特征形式出現(xiàn)。這一工作獲得了傳統(tǒng)標(biāo)注模型下的最佳性能,包括囊括2008年SIGHAN Bakeoff-4的全部五項分詞封閉測試的第一名(Zhao&Kit, 2008b)。當(dāng)子串的抽取和統(tǒng)計度量得分計算擴展到訓(xùn)練集之外,Zhao&Kit(2011)實際上提出了一種擴展性很強的半監(jiān)督分詞方法,實驗也驗證了其有效性。
和以上所有基于串標(biāo)注,無論是線性鏈CRF標(biāo)注還是semi-CRF標(biāo)注的方法都不相同, Zhang & Clark(2007)引入了一種基于整句切分結(jié)構(gòu)學(xué)習(xí)的分詞方法。雖然他們聲稱這是一種基于詞的方法,但是他們的方法不同于以往的最顯著點,是字和詞的n-gram特征,都以同等地位在整句的切分結(jié)構(gòu)分解中進(jìn)行特征提取。在細(xì)節(jié)上,他們采用了擴展的感知機算法進(jìn)行訓(xùn)練,在解碼階段則使用近似的定寬搜索(beam search)。盡管其模型具備理論上更廣泛的特征表達(dá)能力,但事實上該工作未能給出更佳的分詞性能(參見表6的結(jié)果對比)。
由于分詞是自然語言處理的一個起始任務(wù),因此串標(biāo)注學(xué)習(xí)下的可選特征類型相當(dāng)有限。實際上,能選用的只是滑動窗口下的n-gram特征, n-gram單元為字或者詞。理論上,以單個n-gram特征為單位進(jìn)行任意的特征模板選擇,在工程計算量上是可行的。實際的系統(tǒng)中,對于字特征多采取5字的滑動窗口,而Zhao et al. (2006a)及其后續(xù)工作則僅用3字窗口;對于詞,則多采取3詞的滑動窗口。然而,字位標(biāo)注并非直接的切分點學(xué)習(xí),從后者(切分點)到前者(字位標(biāo)注系統(tǒng))有著多種方案,而一旦字位標(biāo)注發(fā)生改變,相應(yīng)的優(yōu)化n-gram特征集顯然會發(fā)生改變。這一現(xiàn)象的發(fā)現(xiàn)及其完整的經(jīng)驗研究,發(fā)表在Zhaoet al. (2006b)和Zhao et al. (2010a)中。表2和表3分別列出了之前的標(biāo)注集和Zhao et al. (2010a)考察過的完整標(biāo)注集序列, 后者證明在6-tag標(biāo)注集配合使用3字窗口的6個n-gram特征(分別是C-1, C0, C1, C-1C0, C0C1,C-1C1,其中C0代表當(dāng)前字),即可獲得字位標(biāo)注學(xué)習(xí)的最佳性能(默認(rèn)使用CRF模型)。
表3: 6-標(biāo)簽以下所有可能的字標(biāo)簽集及示例
3
深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)分詞模型
自從詞嵌入(word embedding)表示達(dá)到了數(shù)值計算的實用化階段之后,深度學(xué)習(xí)開始席卷自然語言處理領(lǐng)域。原則上,嵌入向量承載了一部分字或詞的句法和語義信息,應(yīng)該能帶來進(jìn)一步的性能提升。如前所述,中文分詞任務(wù)中可用的特征僅限于滑動窗口內(nèi)的n-gram特征。由此,雖然典型的深度學(xué)習(xí)模型皆以降低特征工程代價的優(yōu)勢而著稱,但是對于分詞任務(wù)的特征工程壓力的緩解卻相當(dāng)有限。因而,期望神經(jīng)分詞模型帶來進(jìn)一步性能改進(jìn)的方向在于:一,有效集成字或者詞的嵌入式表示,充分利用其中蘊含的有效句法和語義信息;二,將神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力有效地和已有的傳統(tǒng)結(jié)構(gòu)化建模方法結(jié)合,如在經(jīng)典的字位標(biāo)注模型中用等價的相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行置換。
Collobert et al. (2011)提出使用神經(jīng)網(wǎng)絡(luò)解決自然語言處理問題,尤其是序列標(biāo)注類問題的一般框架,這一框架抽取滑動窗口內(nèi)的特征,在每一個窗口內(nèi)解決標(biāo)簽分類問題。在此基礎(chǔ)上, Zheng et al. (2013)提出神經(jīng)網(wǎng)絡(luò)中文分詞方法,首次驗證了深度學(xué)習(xí)方法應(yīng)用到中文分詞任務(wù)上的可行性。他們的工作直接借用了Collobert模型的結(jié)構(gòu),將字向量作為系統(tǒng)輸入,其技術(shù)貢獻(xiàn)包括:一,使用了大規(guī)模文本上預(yù)訓(xùn)練的字向量表示來改進(jìn)監(jiān)督學(xué)習(xí)(開放測試意義);二,使用類似感知機的訓(xùn)練方式取代傳統(tǒng)的最大似然方法,以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。就結(jié)構(gòu)化建模來說,該工作等同于Low et al. (2005)的字位標(biāo)記的串學(xué)習(xí)模型,區(qū)別僅在于是用一個簡單的神經(jīng)網(wǎng)絡(luò)模型替代了后者的最大熵模型,其模型框圖見圖1中的左圖。由于結(jié)構(gòu)化建模的缺陷,該模型的精度僅和早期Xue (2003)的結(jié)果相當(dāng),而遠(yuǎn)遜于傳統(tǒng)字標(biāo)注學(xué)習(xí)模型的佼佼者。
圖 1: Zheng et al. (2013) (左)和Pei et al. (2014) (右)的模型框架。
2014年,Pei et al. (2014)對Zheng et al. (2013)的模型做了重要改進(jìn),引入了標(biāo)簽向量來更精細(xì)地刻畫標(biāo)簽之間的轉(zhuǎn)移關(guān)系, 其改進(jìn)程度類似于Low et al. (2005)首次引入Markov特征到Ng & Low (2004)的最大熵模型之中。Pei et al.提出了一種新型神經(jīng)網(wǎng)絡(luò)即最大間隔張量神經(jīng)網(wǎng)絡(luò)(Max-Margin Tensor NeuralNetwork, MMTNN)并將其用于分詞任務(wù)(見圖1右),使用標(biāo)簽向量和張量變化來捕捉標(biāo)簽與標(biāo)簽之間、標(biāo)簽與上下文之間的關(guān)系。另外,為了降低計算復(fù)雜度和防止過擬合(所有神經(jīng)網(wǎng)絡(luò)模型的通病),該文還專門提出了一種新型張量分解方式。
隨后,為了更完整精細(xì)地對分詞上下文建模, Chen et al.(2015a)提出了一種帶有自適應(yīng)門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Gated recursive neural network, GRNN)抽取n-gram特征, 其中的兩種定制的門結(jié)構(gòu)(重置門、更新門)被用來控制n-gram信息的融合和抽取。與前述兩項研究中簡單拼接字級信息不同,該模型用到了更深的網(wǎng)絡(luò)結(jié)構(gòu),為免于傳統(tǒng)優(yōu)化方法所受到的梯度擴散的制約,該工作使用了有監(jiān)督逐層訓(xùn)練的方法。
同年, Chen et al. (2015b)針對滑動窗口的局部性,提出用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-TermMemory Neural Networks, LSTM)來捕捉長距離依賴, 部分克服了過往的序列標(biāo)注方法只能從固定大小的滑動窗口抽取特征的不足。 Xu & Sun(2016)將GRNN和LSTM聯(lián)合起來使用。 該工作可以看作是結(jié)合了Chen et al. (2015a)和Chen et al. (2015b)兩者的模型。該模型中,先用雙向LSTM提取上下文敏感的局部信息,然后在滑動窗口內(nèi)將這些局部信息用帶門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)融合起來,最后用作標(biāo)簽分類的依據(jù)。 LSTM是神經(jīng)網(wǎng)絡(luò)模型家族中和線性鏈CRF同等角色的結(jié)構(gòu)化建模工具,隨著它被引入分詞學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)模型在分詞性能上開始可以和傳統(tǒng)機器學(xué)習(xí)模型相抗衡。我們將結(jié)構(gòu)化建模的傳統(tǒng)-神經(jīng)模型的對照情況列在表4中。
與傳統(tǒng)方法中基于字的序列標(biāo)注方案幾乎一統(tǒng)江湖的局面不同,神經(jīng)網(wǎng)絡(luò)有相對更靈活的結(jié)構(gòu)化建模能力,因而有別于序列標(biāo)注的其他方法也相繼涌現(xiàn)出來。 Ma & Hinrichs (2015)提出了一種基于字的切分動作匹配算法,該算法在保持相當(dāng)程度的分詞性能的同時,有著不亞于傳統(tǒng)方法的速度優(yōu)勢。具體來說,該文提出了一種新型的向量匹配算法,可以視為傳統(tǒng)序列標(biāo)注方法的一種擴展,在訓(xùn)練和測試階段都只有線性的時間復(fù)雜度(見圖2左)。該工作有兩個亮點值得注意:一,首次嚴(yán)肅考慮了神經(jīng)模型分詞的計算效率問題;二,遵循了嚴(yán)格的SIGHAN Bakeoff封閉測試的要求,只使用了簡單的特征集合,而完全不依賴訓(xùn)練集之外的語言資源。
圖2: Ma & Hinrichs (2015) (左)和Liu et al. (2016) (右)的模型框圖
Zhang et al. (2016)提出了一種基于轉(zhuǎn)移的模型用于分詞,并將傳統(tǒng)的特征模版和神經(jīng)網(wǎng)絡(luò)自動提取的特征結(jié)合起來, 在神經(jīng)網(wǎng)絡(luò)自動提取的特征和傳統(tǒng)的離散特征的融合方法做了嘗試。結(jié)果表明,通過組合這兩種特征,分詞精度可以得到進(jìn)一步提升。
Liu et al. (2016)首次將零階半馬爾可夫隨機場應(yīng)用到神經(jīng)分詞模型中,并分析了不同字向量和詞向量對分詞效果的影響。 此文基于semi-CRF建模分詞學(xué)習(xí)(見圖2右),用直接的切分塊嵌入表示和間接的輸入單元融合表示來刻畫切分塊,同時還考察了多種融合方式和多種切分塊嵌入表示。遺憾的是,該系統(tǒng)嚴(yán)重依賴傳統(tǒng)方法的輸出結(jié)果來提升性能。他們的具體做法是用傳統(tǒng)方法的分詞結(jié)果(在外部語料上)作為詞向量訓(xùn)練語料,因此,該文所報告的最終結(jié)果應(yīng)屬于開放測試范疇。而作為純粹的神經(jīng)模型版本下的semi-CRF模型,在封閉測試意義下,該系統(tǒng)的效果和傳統(tǒng)semi-CRF(如Andrew (2006))同樣效果不佳(具體見表6的結(jié)果對照)。
Cai & Zhao(2016) 徹底放棄滑動窗口,提出對分詞句子直接建模的方法,以捕捉分詞的全部歷史信息, 提出了一個類似于Zhang & Clark (2007)的神經(jīng)分詞模型, 同時充分吸收了前面一些工作的有益經(jīng)驗,如門網(wǎng)絡(luò)結(jié)構(gòu)等(圖3)。由于覆蓋了前所未有的特征范圍,該模型在封閉測試意義上取得了和傳統(tǒng)模型接近的分詞性能。 概括來說,該方法使用了一個帶自適應(yīng)門結(jié)構(gòu)的組合神經(jīng)網(wǎng)絡(luò),詞向量表示通過其字向量生成,并用LSTM網(wǎng)絡(luò)的打分模型對詞向量序列打分。這種方法直接對分詞結(jié)構(gòu)進(jìn)行了建模,能利用字、詞、句三個層次的信息,是首個能完整捕捉切分和輸入歷史的方法。與之前的無論傳統(tǒng)和還是深度學(xué)習(xí)的方法相比,該模型將分詞動作依賴的特征窗口擴張到最大程度(見表5)。該文所提的分詞系統(tǒng)框架可以分為三個組件:一個依據(jù)字序列的詞向量生成網(wǎng)絡(luò)組合門網(wǎng)絡(luò) (gated combination neuralnetwork, GCNN,見圖4左);一個能對不同切分從最終結(jié)果(也就是詞序列)上進(jìn)行打分的估值網(wǎng)絡(luò);和一種尋找擁有最大分?jǐn)?shù)的切分的搜索算法。第一個模塊近似于模擬中文造詞法過程,這對于未登陸詞識別有著重要意義;第二個模塊從全句的角度對分詞的結(jié)果從流暢度和合理性上進(jìn)行打分,能最大限度地利用分詞上下文;第三個模塊則使在指數(shù)級的切分空間中尋找最可能的切分最優(yōu)解。
圖 3: Cai & Zhao (2016)的模型框圖
表6列出了近10年來主要的分詞系統(tǒng)在SIGHAN Bakeoff-2005語料上的分詞性能比較。神經(jīng)分詞系統(tǒng)短短數(shù)年間取得了長足進(jìn)步,但整體上仍然不敵傳統(tǒng)模型。此外,盡管神經(jīng)網(wǎng)絡(luò)方法在知識依賴和特征工程方面有著巨大優(yōu)勢,也取得了一定的進(jìn)展,但模型的計算復(fù)雜度也大幅提高,因為成功的神經(jīng)分詞器往往建立于更加精巧、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)之上。事實上,經(jīng)歷五年,深度學(xué)習(xí)方法在最終模型的性能上,無論是分詞精度還是計算效率上,和傳統(tǒng)方法相比并都不具有顯著優(yōu)勢。
Cai et al. (2017)在Cai & Zhao (2016)的基礎(chǔ)上,通過簡化網(wǎng)絡(luò)結(jié)構(gòu),混合字詞輸入以及使用早期更新(early update)等收斂性更好的訓(xùn)練策略, 設(shè)計了一個基于貪心搜索(greedy search)的快速分詞系統(tǒng)(見圖4右)。該算法與之前的深度學(xué)習(xí)算法相比不僅在速度上有了巨大提升,分詞精度也得到了進(jìn)一定提高。實驗結(jié)果還表明,詞級信息比字級信息對于機器學(xué)習(xí)更有效,但是僅僅依賴詞級信息不可避免會削弱深度學(xué)習(xí)模型在陌生環(huán)境下的泛化能力。表7列舉了最近3年和速度相關(guān)的神經(jīng)分詞系統(tǒng)的結(jié)果。從中可見,Cai et al. (2017)首次使神經(jīng)模型方法在性能與效率上同時取得了和傳統(tǒng)方法相當(dāng)?shù)某煽儭?/p>
圖4: Cai & Zhao (2016) (左)和Cai et al. (2017) (右)的組合門網(wǎng)絡(luò)模塊
4
封閉及開放測試
SIGHAN Bakeoff的分詞評測定義了嚴(yán)格的封閉測試條件,要求不得使用訓(xùn)練集之外的語言資源,否則相應(yīng)結(jié)果則算開放測試類別。區(qū)分封閉和開放測試的一個主要目的,是分辨機器學(xué)習(xí)的性能提升的確是模型自身的改進(jìn),而非其它。
不管是傳統(tǒng)模型還是深度學(xué)習(xí)模型,可選的分詞用外部資源都可以包括各類詞典和切分語料(不一定和已有切分語料屬于同一個分詞規(guī)范)。外部資源的使用,可以通過額外標(biāo)記特征的形式引入,早期的開放測試系統(tǒng)包括Low et al. (2005)。 Zhao et al. (2010a)系統(tǒng)考察了多種外部資源,包括詞典、命名實體識別器以及其他語料上訓(xùn)練的分詞器,統(tǒng)一用于字標(biāo)注模型下的附加標(biāo)記特征,所提的具體做法很簡單:在主切分器上加入其它分詞器(或命名實體識別器)給出的輔助標(biāo)記特征即可。結(jié)果表明,該策略在所有分詞規(guī)范語料上都能顯著提升性能,特別是在SIGHAN Bakeoff-2006的兩個簡體語料上可以帶來額外的2個百分點的性能增益。表6展示的結(jié)果顯示, Zhao et al. (2010a)報告的開放測試結(jié)果目前為止依然為業(yè)界最高的分詞性能。該組結(jié)果實際上在Bakeoff-2006語料上給出,因而缺乏PKU上的結(jié)果,所用的附加資源則來自其它公開的Bakeoff語料。最后,該工作還經(jīng)驗性暗示,如果可用的額外切分語料可以無限制擴大,則分詞精度也可以無限制提升,雖然代價是切分速度會急劇下降。
基于嵌入表示的深度學(xué)習(xí)模型對于分詞的封閉和開放測試區(qū)分帶來了新的挑戰(zhàn)。顯然,在外部預(yù)訓(xùn)練的字或者詞嵌入向量屬于明顯的外部資源利用,因為字向量預(yù)訓(xùn)練可以直接借用外部無標(biāo)記語料,典型如維基百科數(shù)據(jù),而詞向量的預(yù)訓(xùn)練則需要使用一個傳統(tǒng)分詞模型在外部語料上作預(yù)切分,這會同步地引入外部資源知識并隱性集成傳統(tǒng)分詞器的輸出結(jié)果。但是,相當(dāng)部分的神經(jīng)分詞的工作有意無意地忽略了以上做法的角色區(qū)分,實際上等于混淆了開放和封閉測試,更不用說很多神經(jīng)模型系統(tǒng)甚至再次使用額外的詞典標(biāo)注來強化其性能。這些做法嚴(yán)重干擾了對于當(dāng)前神經(jīng)分詞模型的分析和效果評估:到底這些模型聲稱的性能提升,是來自新引入的深度學(xué)習(xí)模型,還是屬于悄悄引入的外部資源的貢獻(xiàn)?從表6中所比對的神經(jīng)分詞器的開放和封閉測試效果可以看出,大部分神經(jīng)分詞系統(tǒng)引入外部輔助信息,才能再獲得1-2個百分點的性能提升(已經(jīng)屬于開放測試范疇),才能和嚴(yán)格封閉測試意義上的傳統(tǒng)模型抗衡。如果嚴(yán)格剝離掉所有額外預(yù)訓(xùn)練的字或詞嵌入、額外引入的詞典標(biāo)注特征以及隱性集成的傳統(tǒng)分詞器的性能貢獻(xiàn),可以公正地看出,直至2016年底,所有神經(jīng)分詞系統(tǒng)單獨運行時,在性能(更不用說在效率上)都不敵傳統(tǒng)系統(tǒng)。
說明:表格上部展示的是傳統(tǒng)方法,下部是深度學(xué)習(xí)方法。標(biāo)有雙星號(**)的是來自Pei et al. (2014)的再運行結(jié)果;標(biāo)有星號(*)的是來自Cai & Zhao (2016)的再運行結(jié)果;帶有? 是指使用了或者可能使用了預(yù)訓(xùn)練的字向量;帶有? 側(cè)是依賴傳統(tǒng)模型(在大規(guī)模未標(biāo)注語料上使用傳統(tǒng)切分的結(jié)果進(jìn)行預(yù)訓(xùn)練);而括號(…)里的結(jié)果使用了成語表。
說明:標(biāo)有星號(*)的數(shù)據(jù)來自Cai and Zhao (2016)再運行的結(jié)果。此表列出的是Zhang et al. (2016)與Liu et al. (2016)中神經(jīng)網(wǎng)絡(luò)模型單獨工作的結(jié)果。注意大多數(shù)深度學(xué)習(xí)方法使用的字向量可以事先在大規(guī)模無標(biāo)記的語料上進(jìn)行預(yù)訓(xùn)練。嚴(yán)格來說,這類結(jié)果需歸于SIGHAN Bakeoff開放測試的類別。
Yang et al. (2017)專門調(diào)查分析了外部資源對中文分詞效果的影響,包括預(yù)訓(xùn)練的字/詞向量、標(biāo)點符號、自動分詞結(jié)果、詞性標(biāo)注等,他們把每一種外部資源當(dāng)作一個輔助的分類任務(wù),使用多任務(wù)神經(jīng)學(xué)習(xí)方法預(yù)訓(xùn)練了一組對漢字上下文建模的共享參數(shù)。大量的實驗表明了外部資源對神經(jīng)模型的性能的提升同樣具有重要意義。
如果把外部資源的貢獻(xiàn)進(jìn)行量化,或者簡化一些,是否能夠給出機器學(xué)習(xí)的語料規(guī)模和學(xué)習(xí)性能的增長之間的聯(lián)系規(guī)律?其實,這方面的經(jīng)驗工作已在Zhao et al. (2010b)之中完成,基本結(jié)論是統(tǒng)計機器學(xué)習(xí)系統(tǒng)給出的分詞精度和訓(xùn)練語料規(guī)模大體符合Zipf律,即:語料規(guī)模指數(shù)增長,性能才能線性增長。而和統(tǒng)計分詞不同,更傳統(tǒng)的規(guī)則分詞,例如最大匹配法,其精度和所用的詞典(即所收錄的詞表詞)的規(guī)模成線性關(guān)系,因為分詞錯誤主要是未登錄詞導(dǎo)致的。這一結(jié)論意味著統(tǒng)計方法,無論是傳統(tǒng)的字標(biāo)注還是現(xiàn)代的神經(jīng)模型,仍有著巨大的增長空間。
5
結(jié)論
關(guān)于中文分詞的機器學(xué)習(xí)方法,長期以來一直存在著“字還是詞”的特征表示優(yōu)越性之爭,這恰好和語言學(xué)界對于中文結(jié)構(gòu)分析的“字本位”還是“詞本位”的爭議相映成趣。這一點早在黃和趙 (2006)中就給出了經(jīng)驗性觀察結(jié)果:字、詞的特征學(xué)習(xí)需要在分詞系統(tǒng)中均衡表達(dá),才能獲得最佳性能。實際上,所謂字、詞爭議的核心對應(yīng)于分詞的兩個指標(biāo),已知詞(或詞表詞,即出現(xiàn)在切分訓(xùn)練語料中的詞)的識別精度和未登錄詞的識別精度,前者識別精度很高、相對容易但所占百分比高,后者識別精度很低、難度較大但所占百分比較低。經(jīng)驗性的結(jié)果表明,強調(diào)基于字的特征及其表示會帶來更好的未登錄詞的識別性能。原因無他,未登錄詞從未在訓(xùn)練集出現(xiàn),只能依賴于模型通過字的創(chuàng)造性組合才能識別。反過來,強調(diào)詞特征的系統(tǒng),包括基于詞的切分系統(tǒng),對于未登錄詞的識別效果通常略為遜色。最佳的分詞系統(tǒng)總是需要合理考慮字表示和詞表示的平衡問題。最近的兩個工作的改進(jìn)點可以輔證這一結(jié)論: Caiet al. (2017)對于Cai & Zhao (2016)的一個關(guān)鍵性改進(jìn),是詞向量不再總是由字向量通過神經(jīng)網(wǎng)絡(luò)計算得到,而是采取了兩種策略,即低頻或者未知詞繼續(xù)由字向量計算,而訓(xùn)練集中的高頻詞(可以認(rèn)為是更為穩(wěn)定的已知詞)則進(jìn)行直接計算。當(dāng)系統(tǒng)由后者偏向字向量表示的模式轉(zhuǎn)向字-詞均衡的表示模式以后,確實帶來了額外的性能提升。
最近5年,基于神經(jīng)網(wǎng)絡(luò)模型的分詞學(xué)習(xí)已經(jīng)取得了一系列成果。就目前的結(jié)果來看,我們可以得出兩個基本結(jié)論:一,神經(jīng)分詞所取得的性能效果僅與傳統(tǒng)分詞系統(tǒng)大體相當(dāng),如果不是稍遜一籌的話;二,相當(dāng)一部分的神經(jīng)分詞系統(tǒng)所報告的性能改進(jìn)(我們謹(jǐn)慎推測)來自于經(jīng)由字或詞嵌入表示所額外引入的外部語言資源信息,而非模型本身或字詞嵌入表示方式所導(dǎo)致的性能改進(jìn)。如果說詞嵌入表示蘊含著深層句法和語義信息的話,那么,這個結(jié)論似乎暗示一個推論,即分詞學(xué)習(xí)是一個不需要太多句法和語義信息即可良好完成的任務(wù)。
現(xiàn)代深度學(xué)習(xí)意義下的神經(jīng)網(wǎng)絡(luò)歸類于人工智能的聯(lián)結(jié)主義思潮,由于其帶有先天性的內(nèi)在拓?fù)浣Y(jié)構(gòu),如果能克服其訓(xùn)練計算低效的弊病,它就應(yīng)該是本身需要結(jié)構(gòu)化學(xué)習(xí)的自然語言處理任務(wù)的理想建模方式。這是我們在深度學(xué)習(xí)時代看到更多樣化的結(jié)構(gòu)建模方法用于中文分詞任務(wù)的主要原因。如果我們能有效平衡字-詞表示的均衡性,不排除將來深度學(xué)習(xí)基礎(chǔ)上的分詞系統(tǒng)能有進(jìn)一步的成長空間。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4778瀏覽量
101009 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8435瀏覽量
132887 -
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13605
原文標(biāo)題:深度長文:中文分詞的十年回顧
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論