增強(qiáng)學(xué)習(xí)和人類學(xué)習(xí)的機(jī)制非常相近,DeepMind已經(jīng)將增強(qiáng)學(xué)習(xí)應(yīng)用于AlphaGo以及Atari游戲等場(chǎng)景當(dāng)中。阿凡題研究院、電子科技大學(xué)和北京大學(xué)的合作研究首次提出了一種基于DQN(Deep Q-Network)的算術(shù)應(yīng)用題自動(dòng)求解器,能夠?qū)?yīng)用題的解題過程轉(zhuǎn)化成馬爾科夫決策過程,并利用BP神經(jīng)網(wǎng)絡(luò)良好的泛化能力,存儲(chǔ)和逼近增強(qiáng)學(xué)習(xí)中狀態(tài)-動(dòng)作對(duì)的Q值。實(shí)驗(yàn)表明該算法在標(biāo)準(zhǔn)測(cè)試集的表現(xiàn)優(yōu)異,將平均準(zhǔn)確率提升了將近15%。
研究背景
自動(dòng)求解數(shù)學(xué)應(yīng)用題(MWP)的研究歷史可追溯到20世紀(jì)60年代,并且最近幾年繼續(xù)吸引著研究者的關(guān)注。自動(dòng)求解應(yīng)用數(shù)學(xué)題首先將人類可讀懂的句子映射成機(jī)器可理解的邏輯形式,然后進(jìn)行推理。該過程不能簡(jiǎn)單地通過模式匹配或端對(duì)端分類技術(shù)解決,因此,設(shè)計(jì)具有語義理解和推理能力的應(yīng)用數(shù)學(xué)題自動(dòng)求解器已成為通向通用人工智能之路中不可缺少的一步。
對(duì)于數(shù)學(xué)應(yīng)用題求解器來說,給定一個(gè)數(shù)學(xué)應(yīng)用題文本,不能簡(jiǎn)單的通過如文本問答的方式端到端的來訓(xùn)練,從而直接得到求解答案,而需要通過文本的處理和數(shù)字的推理,得到其求解表達(dá)式,從而計(jì)算得到答案。因此,該任務(wù)不僅僅涉及到對(duì)文本的深入理解,還需要求解器具有很強(qiáng)的邏輯推理能力,這也是自然語言理解研究中的難點(diǎn)和重點(diǎn)。
近幾年,研究者們從不同的角度設(shè)計(jì)算法,編寫求解系統(tǒng),來嘗試自動(dòng)求解數(shù)學(xué)應(yīng)用題,主要包括基于模板的方法,基于統(tǒng)計(jì)的方法,基于表達(dá)式樹的方法,以及基于深度學(xué)習(xí)生成模型的方法。目前,求解數(shù)學(xué)應(yīng)用題相關(guān)領(lǐng)域,面臨訓(xùn)練數(shù)據(jù)集還不夠多,求解算法魯棒性不強(qiáng),求解效率不高,求解效果不好等多種問題。由于數(shù)學(xué)題本身需要自然語言有足夠的理解,對(duì)數(shù)字,語義,常識(shí)有極強(qiáng)的推理能力,然而大部分求解方法又受到人工干預(yù)較多,通用性不強(qiáng),并且隨著數(shù)據(jù)復(fù)雜度的增加,大部分算法求解效果急劇下降,因此設(shè)計(jì)一個(gè)求解效率和效果上均有不錯(cuò)表現(xiàn)的自動(dòng)求解器,是既困難又非常重要的。
相關(guān)工作
算術(shù)應(yīng)用題求解器:
作為早期的嘗試,基于動(dòng)詞分類,狀態(tài)轉(zhuǎn)移推理的方法,只能解決加減問題。為了提高求解能力,基于標(biāo)簽的方法,設(shè)計(jì)了大量映射規(guī)則,把變量,數(shù)字映射成邏輯表達(dá)式,從而進(jìn)行推理。由于人工干預(yù)過多,其擴(kuò)展困難。
基于表達(dá)式樹的方法,嘗試識(shí)別相關(guān)數(shù)字,并對(duì)數(shù)字對(duì)之間進(jìn)行運(yùn)算符的分類,自底向上構(gòu)建可以求解的表達(dá)式樹。除此之外,會(huì)考慮一些比率單位等等的限制,來進(jìn)一步保證構(gòu)建的表達(dá)式的正確性。基于等式樹的方法,采用了一個(gè)更暴力的方法,通過整數(shù)線性規(guī)劃,枚舉所有可能的等式樹。基于樹的方法,都面臨著隨著數(shù)字的個(gè)數(shù)的增減,求解空間呈指數(shù)性增加。
方程組應(yīng)用題求解器:
對(duì)于方程組應(yīng)用題的求解,目前主要是基于模板的方法。該方法需要將文本分類為預(yù)定義的方程組模板,通過人工特征來推斷未知插槽的排列組合,把識(shí)別出來的數(shù)字和相關(guān)的名詞單元在插槽中進(jìn)行填充。基于模板的方法對(duì)數(shù)據(jù)的依賴性較高,當(dāng)同一模板對(duì)應(yīng)的題目數(shù)量減少,或者模板的復(fù)雜性增加時(shí),這種方法的性能將急劇下降。
本文的主要貢獻(xiàn)如下:
第一個(gè)嘗試使用深度增強(qiáng)學(xué)習(xí)來設(shè)計(jì)一個(gè)通用的數(shù)學(xué)應(yīng)用題自動(dòng)求解框架
針對(duì)應(yīng)用題場(chǎng)景,設(shè)計(jì)了深度Q網(wǎng)絡(luò)相應(yīng)的狀態(tài),動(dòng)作,獎(jiǎng)勵(lì)函數(shù),和網(wǎng)絡(luò)結(jié)構(gòu)。
在主要的算術(shù)應(yīng)用題數(shù)據(jù)集上驗(yàn)證了本文提出的方法,在求解效率和求解效果上都取得了較好的結(jié)果。
方案介紹
基于深度Q網(wǎng)絡(luò)的數(shù)學(xué)應(yīng)用題求解器
本文提出的框架如上圖所示。給出一個(gè)數(shù)學(xué)應(yīng)用題,首先采用數(shù)字模式提取用于構(gòu)建表達(dá)式樹的相關(guān)數(shù)字,然后根據(jù)重排序制定的規(guī)則,對(duì)提取出來的相關(guān)數(shù)字進(jìn)行順序調(diào)整,比如對(duì)于“3+4*5”,我們希望優(yōu)先計(jì)算4*5,這里的數(shù)字5,對(duì)應(yīng)的文本段是“5元每小時(shí)“”,顯然這里的數(shù)字“5”的單位是“元/小時(shí)”,當(dāng)數(shù)字“4”的單位是“小時(shí)”,數(shù)字“3”的單位是“元”,遇到這種情況,調(diào)整4和5放到數(shù)字序列的最前面,隨后,用已排好序的數(shù)字序列自底向上的構(gòu)建表達(dá)式樹。首先,根據(jù)數(shù)字“4”和數(shù)字“5”各自的信息,相互之間的信息,以及與問題的關(guān)系,提取相應(yīng)的特征作為增強(qiáng)學(xué)習(xí)組件中的狀態(tài)。
然后,將此特征向量作為深度Q網(wǎng)絡(luò)中前向神經(jīng)網(wǎng)絡(luò)的輸入,得到“+”,“-”,反向“-”,“*”,“/”,反向“/”六種動(dòng)作的Q值,根據(jù)epsilon-greedy選擇合適的操作符作為當(dāng)前的動(dòng)作,數(shù)字“4”和“5”根據(jù)當(dāng)前采取的動(dòng)作,開始構(gòu)建表達(dá)式樹。下一步,再根據(jù)數(shù)字”4“和數(shù)字”3“,或者數(shù)字”5“和數(shù)字“3”,重復(fù)上一步的過程,把運(yùn)算符數(shù)字的最小公共元祖來構(gòu)建表達(dá)式樹。直到?jīng)]有多余相關(guān)數(shù)字,建樹結(jié)束。隨后將詳細(xì)介紹深度Q網(wǎng)絡(luò)的各個(gè)部件的設(shè)計(jì)方式。
狀態(tài):
對(duì)于當(dāng)前的數(shù)字對(duì),根據(jù)數(shù)字模式,提取單個(gè)數(shù)字,數(shù)字對(duì)之間,問題相關(guān)的三類特征,以及這兩個(gè)數(shù)字是否已經(jīng)參與表達(dá)式樹的構(gòu)建,作為當(dāng)前的狀態(tài)。其中,單個(gè)數(shù)字,數(shù)字對(duì),問題相關(guān)這三類特征,有助于網(wǎng)絡(luò)選擇正確的運(yùn)算符作為當(dāng)前的動(dòng)作;數(shù)字是否參與已經(jīng)參與表達(dá)式樹的構(gòu)建,暗示著當(dāng)前數(shù)字對(duì)在當(dāng)前表達(dá)式樹所處的層次位置。
動(dòng)作:
因?yàn)楸疚奶幚淼氖呛?jiǎn)單的算術(shù)應(yīng)用題,所以只考慮,加減乘除四則運(yùn)算。在構(gòu)建樹的過程中,對(duì)于加法和乘法,兩個(gè)數(shù)字之間不同的數(shù)字順序?qū)⒉挥绊懹?jì)算結(jié)果,但是減法和除法不同的順序?qū)?dǎo)致不同的結(jié)果。由于,我們實(shí)現(xiàn)確定好數(shù)字的順序,所以添加反向減法和反向除法這兩個(gè)操作是非常有必要的。因此,總共加減乘除,反向減法和除法6種運(yùn)算符作為深度Q網(wǎng)絡(luò)需要學(xué)習(xí)的動(dòng)作。
獎(jiǎng)勵(lì)函數(shù):
在訓(xùn)練階段,深度Q網(wǎng)絡(luò)根據(jù)當(dāng)前兩個(gè)數(shù)字,選擇正確的動(dòng)作,得到正確的運(yùn)算符,環(huán)境就反饋一個(gè)正值作為獎(jiǎng)勵(lì),否則反饋一個(gè)負(fù)值作為懲罰。
參數(shù)學(xué)習(xí):
本文采用了一個(gè)兩層的前向神經(jīng)網(wǎng)絡(luò)用于深度Q網(wǎng)絡(luò)計(jì)算期望的Q值。網(wǎng)絡(luò)的參數(shù)θ將根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)函數(shù)來更新學(xué)習(xí)。本文使用經(jīng)驗(yàn)重放存儲(chǔ)器來存儲(chǔ)狀態(tài)之間的轉(zhuǎn)移,并從經(jīng)驗(yàn)重放存儲(chǔ)器中批量采樣,用于更新網(wǎng)絡(luò)參數(shù)。模型的損失函數(shù)如下:
利用損失函數(shù)的梯度值來更新參數(shù),來縮小預(yù)測(cè)的Q值和期望的目標(biāo)Q值的差距,公式如下:
算法流程如下:
實(shí)驗(yàn)
本文采用了AI2, IL, CC這三個(gè)算術(shù)應(yīng)用題數(shù)據(jù)集,進(jìn)行實(shí)驗(yàn)。其中AI2有395道題目,題目中含有不相關(guān)的數(shù)字,只涉及加減法。IL有562道題目,題目中含有不相關(guān)的數(shù)字,只涉及加減乘除單步運(yùn)算;CC有600道題,題目中不含有不相關(guān)的數(shù)字,涉及加減乘除的兩步運(yùn)算。
三個(gè)數(shù)據(jù)集準(zhǔn)確率如下圖:
觀察上述實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文提出的方法在AI2,CC數(shù)據(jù)集上取得了最好的效果。ALGES在IL上表現(xiàn)很好,但是在AI2和CC數(shù)據(jù)集上表現(xiàn)卻很差,這從側(cè)面證明了我們的方法有更好的通用性。UnitDep提出的單位依賴圖對(duì)只有加減運(yùn)算的AI2數(shù)據(jù)集沒有明顯的效果,其增加的Context特征在CC數(shù)據(jù)集上有取得了明顯的效果,但是卻在AI2數(shù)據(jù)集上效果明顯下降,這里表現(xiàn)出人工特征的局限性。對(duì)于本文提出的方法,重排序在CC數(shù)據(jù)集上,提升效果明顯,由于AI2只有加減運(yùn)算,IL只涉及單步運(yùn)算,所以在這兩個(gè)數(shù)據(jù)集上效果不變。
除此之外,本文還做了單步和多步的斷點(diǎn)分析,實(shí)驗(yàn)效果表明,本文提出的方法在多步上表現(xiàn)十分優(yōu)異,實(shí)驗(yàn)結(jié)果如下圖:
運(yùn)行時(shí)間如下圖:
觀察單個(gè)題目求解需要的時(shí)間,我們可以發(fā)現(xiàn),多步運(yùn)算的數(shù)據(jù)集CC,在時(shí)間上明顯耗費(fèi)更多。ALGES由于要枚舉所有可能的候選樹,因此耗費(fèi)時(shí)間最長(zhǎng)。本文提出的方法,求解效率僅次于只有SVM做運(yùn)算符,和相關(guān)數(shù)字分類的ExpTree。
平均獎(jiǎng)勵(lì)和準(zhǔn)確率的走勢(shì)如下圖:
總結(jié)
本文首次提出了一個(gè)用于求解數(shù)學(xué)應(yīng)用題的增強(qiáng)學(xué)習(xí)框架,在基準(zhǔn)數(shù)據(jù)上其求解效率和求解效果展現(xiàn)出較好的效果。
未來,我們將繼續(xù)沿著深度學(xué)習(xí),增強(qiáng)學(xué)習(xí)這條線去設(shè)計(jì)數(shù)學(xué)應(yīng)用題自動(dòng)求解器,來避免過多的人工特征。同時(shí)在更大更多樣化的數(shù)據(jù)集上,嘗試求解方程組應(yīng)用題。
-
算法
+關(guān)注
關(guān)注
23文章
4607瀏覽量
92840 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113
原文標(biāo)題:【AAAI Oral】用DeepMind的DQN解數(shù)學(xué)題,準(zhǔn)確率提升15%
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論