接觸機器學(xué)習(xí)有一年了,是從上張敏老師的課開始的。后來師兄推薦了一本《統(tǒng)計學(xué)習(xí)理論的本質(zhì)》,還記得第一印象覺得“統(tǒng)計”二字很奇怪。之后就漸漸習(xí)以為常了,接觸到的機器學(xué)習(xí)方法都是基于統(tǒng)計的,以至于統(tǒng)計學(xué)習(xí)與機器學(xué)習(xí)成了一個概念,以至于最近看了一些東西突然覺得自己長見識了。
與統(tǒng)計(數(shù)字化)機器學(xué)習(xí)相對的,可以叫做符號(數(shù)學(xué)化、形式化)機器學(xué)習(xí):統(tǒng)計學(xué)習(xí)的質(zhì)料是數(shù)字,而它的質(zhì)料是符號;統(tǒng)計學(xué)習(xí)學(xué)的是模型參數(shù),它學(xué)的是模型結(jié)構(gòu);統(tǒng)計學(xué)習(xí)的搜索空間是連續(xù)的,它的搜索空間是離散的。常聽說有基于統(tǒng)計與基于規(guī)則的區(qū)別,那么符號機器學(xué)習(xí)就是要自動學(xué)習(xí)那些規(guī)則。如果說統(tǒng)計機器學(xué)習(xí)是黑箱子,參數(shù)的意義難以解釋,目的只是能夠根據(jù)x輸出合理的y,那么符號機器學(xué)習(xí)的目標(biāo)就是能找出人能夠理解的對象的規(guī)律,讓人能夠直接增加對事物的認識。
事實上唯一被保留下來的符號機器學(xué)習(xí)方法就是決策樹。他學(xué)習(xí)的就是一個離散表示的樹的結(jié)構(gòu),其分類過程可以寫成命題邏輯的形式,即其結(jié)果是符號的。可以看到因為同為機器學(xué)習(xí),所以也有過學(xué)習(xí)的現(xiàn)象,也有結(jié)構(gòu)風(fēng)險的概念,也受著奧坎姆剃刀的審視。決策樹是自頂向下的,而符號學(xué)習(xí)中的AQ算法就是自低向上的,它期望用盡量少的規(guī)則覆蓋所有正例而不包括負例(可見其對噪音更敏感)。
既然有命題邏輯的學(xué)習(xí),就有謂詞邏輯的學(xué)習(xí)。FOIL系統(tǒng)是比較有名的。他可以根據(jù)某一個家族成員間滿足parent(x,y)的實例與滿足grandparent(x,y)的實例,學(xué)習(xí)到grandparent與parent這兩個謂詞形式上的關(guān)系,這樣的結(jié)果就是人類可以理解的知識——“a是b的grandparent,就是指a是b父母的父母”。
還有個有趣的叫Bacon的系統(tǒng)。通過物理實驗數(shù)據(jù),再次發(fā)現(xiàn)了理想氣體方程等物理定律。他與普通的回歸分析不同,因為事先它不知道要擬合的是什么形式的曲線,方程的形式是他通過啟發(fā)式搜索得到的。
還有兩個理論叫粗糙集與概念格。他們的對象也是樣本與樣本的特征,目標(biāo)也是分類,跟統(tǒng)計機器學(xué)習(xí)完全一樣。他們也是要做“特征選擇”,分出哪些對分類是必須的,哪些是可以用的,哪些是多余的。概念格有意思的地方是他給“概念”了一個形式化的定義,還包括“外延”與“內(nèi)涵”都形式化了,真是個模仿真實情況的模型玩具。之所以是玩具,因為粗糙集與概念格都太形式化了太漂亮了以至于更難與復(fù)雜的現(xiàn)實結(jié)合,比如用它來做人臉識別簡直是噩夢。不過我對他們的了解也不深入,需要更多的考察。
做機器人腦識別沒聽說用基于規(guī)則推理的,做機器定理證明也沒聽說用基于統(tǒng)計的。他們一個是復(fù)雜的現(xiàn)實對象,一個是抽象的符號對象。而有趣的是自然語言是介于兩者之間的。
有人說學(xué)計算機的去單獨搞生物信息學(xué)很難,必須要一個生物科班出身的給其專業(yè)知識方面的指導(dǎo),如同瞎子背瘸子。而計算語言學(xué)的語言學(xué)門檻很低,有計算機背景的很容易上手。我想符號學(xué)習(xí)對統(tǒng)計學(xué)習(xí)的啟示大概就是如此。如同目前的文本分類、分詞的統(tǒng)計模型,都沒有使用一點語言學(xué)知識。svm,crf結(jié)構(gòu)沒有一點為應(yīng)對語言問題而做出的專門的改動。LDA是一個啟示,既然統(tǒng)計學(xué)習(xí)弱于結(jié)構(gòu),我們似乎就應(yīng)該考慮語言的本質(zhì)在模型結(jié)構(gòu)上下功夫,使其更適合語言問題。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132565
發(fā)布評論請先 登錄
相關(guān)推薦
評論