機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建模型并運(yùn)用模型來模擬人類智能活動(dòng)的一門學(xué)科。隨著計(jì)算機(jī)與網(wǎng)絡(luò)的飛速發(fā)展,機(jī)器學(xué)習(xí)在我們的生活與工作中起著越來越大的作用,正在改變著我們的生活和工作。日常生活中的機(jī)器學(xué)習(xí)我們?cè)谌粘I罱?jīng)常使用數(shù)碼相機(jī)。你也許不知道,數(shù)碼相機(jī)上的人臉檢測技術(shù)是基于機(jī)器學(xué)習(xí)技術(shù)的!我認(rèn)識(shí)三位了不起的科學(xué)家與工程師,他們是Robert Schapire,Paul Viola,勞世竑。他們?nèi)欢寂c這有關(guān)。R o b e r t與Y oav Freund一起發(fā)明了非常有效的機(jī)器學(xué)習(xí)算法A d a B o o s t。P a u l將A d a B o o s t算法成功地應(yīng)用到人臉檢測。勞世竑和他領(lǐng)導(dǎo)的Omr o n團(tuán)隊(duì)將A d a B o o s t人臉檢測算法做到了芯片上。據(jù)說現(xiàn)在世界上有百分之六七十的數(shù)碼相機(jī)上的人臉檢測都是用Omr o n的芯片。
在我們的工作與生活中,這種例子曾出不窮。互聯(lián)網(wǎng)搜索、在線廣告、機(jī)器翻譯、手寫識(shí)別、垃圾郵件過濾等等都是以機(jī)器學(xué)習(xí)為核心技術(shù)的。不久以前,機(jī)器學(xué)習(xí)國際大會(huì)(International Conference onMachine Learning,ICML 2011)在美國華盛頓州的B e l l e v u e市舉行。約有7百多位科研人員、教授、學(xué)生參加,創(chuàng)造了歷史最高紀(jì)錄。大會(huì)的三個(gè)主題演講分別介紹了機(jī)器學(xué)習(xí)在微軟的Kinnect游戲機(jī)用戶感應(yīng)系統(tǒng)、谷歌的G o g g l e s圖片搜索系統(tǒng)、I B M的Watson自動(dòng)問答系統(tǒng)中的應(yīng)用。這些事實(shí)讓人預(yù)感到機(jī)器學(xué)習(xí)被更廣泛應(yīng)用的一個(gè)新時(shí)代的到來。機(jī)器學(xué)習(xí)與人工智能智能化是計(jì)算機(jī)發(fā)展的必然趨勢。人類從事的各種智能性活動(dòng),如數(shù)學(xué)、美術(shù)、語言、音樂、運(yùn)動(dòng)、學(xué)習(xí)、游戲、設(shè)計(jì)、研究、教學(xué)等等,讓計(jì)算機(jī)做起來,現(xiàn)在還都是很困難的。這是幾十年來人工智能研究得到的結(jié)論。
人工智能研究中,人們?cè)鴩L試過三條路。我將它們稱之為外觀(extrospection)、內(nèi)省(introspection)和模擬(simulation)。所謂外觀,指的是觀察人的大腦工作情況,探求其原理,解明其機(jī)制, 從而在計(jì)算機(jī)上“ 實(shí)現(xiàn)” 人類大腦的功能。比如, 計(jì)算神經(jīng)學(xué)(computationalneuroscience)的研究就是基于這個(gè)動(dòng)機(jī)的。然而,人腦的復(fù)雜信息處理過程很難觀測和模型化。就像我們僅僅觀測某個(gè)計(jì)算機(jī)內(nèi)的信號(hào)傳輸過程,很難判斷它正在做什么樣的計(jì)算一樣。內(nèi)省就是反思自己的智能行為,將自己意識(shí)到的推理、知識(shí)等記錄到計(jì)算機(jī)上,從而“再現(xiàn)”人的智能,比如專家系統(tǒng)(expert system)的嘗試就屬于這一類。內(nèi)省的最大問題是它很難泛化,也就是舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉。
這種能力稱為泛化能力。通過內(nèi)省的方法很難使計(jì)算機(jī)擁有泛化能力。自己的智能原理,對(duì)人類來說很有可能是不可知的(agnostic)。
籠子里的老鼠可能認(rèn)為觸動(dòng)把手是得到食物的“原因”,但它永遠(yuǎn)也不能了解到整個(gè)籠子的食物投放機(jī)制。模擬就是將人的智能化操作的輸入與輸出記錄下來,用模型來模擬,使模型對(duì)輸入輸出給出同人類相似的表現(xiàn),比如統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statisticalmachine learning)。實(shí)踐表明,統(tǒng)計(jì)機(jī)器學(xué)習(xí)是實(shí)現(xiàn)計(jì)算機(jī)智能化這一目標(biāo)的最有效手段。統(tǒng)計(jì)學(xué)習(xí)最大的優(yōu)點(diǎn)是它具有泛化能力;而缺點(diǎn)是它得到的永遠(yuǎn)是統(tǒng)計(jì)意義下的最優(yōu)解(例如,人臉檢測)。現(xiàn)在當(dāng)人們提到機(jī)器學(xué)習(xí)時(shí),通常是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)。
機(jī)器學(xué)習(xí)的優(yōu)缺點(diǎn)下面看一個(gè)簡單的例子。由這個(gè)例子可以說明統(tǒng)計(jì)學(xué)習(xí)的基本原理,以及由此帶來的優(yōu)缺點(diǎn)。假設(shè)我們觀測到一個(gè)系統(tǒng)的輸出是一系列的1和0,要預(yù)測它的下一個(gè)輸出是什么。如果觀測數(shù)據(jù)中1和0各占一半,那么我們只能以0.5的準(zhǔn)確率做出預(yù)測。但是,如果我們同時(shí)觀測到這個(gè)系統(tǒng)有輸入,也是一系列的1和0,并且輸入是1時(shí)輸出是0的比例是0.9,輸入是0時(shí)輸出是1的比例也是0.9。這樣我們就可以從已給數(shù)據(jù)中學(xué)到“模型”,根據(jù)系統(tǒng)的輸入預(yù)測其輸出,并且把預(yù)測準(zhǔn)確率從0.5提高到0.9。以上就是統(tǒng)計(jì)學(xué)習(xí),特別是監(jiān)督學(xué)習(xí)的基本想法。事實(shí)上,這是世界上最簡單的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型!條件概率分布P(Y|X),其中隨機(jī)變量X與Y表示輸入與輸出,取值1與0。可以認(rèn)為所有的監(jiān)督學(xué)習(xí)模型都是這個(gè)簡單模型的復(fù)雜版。我們用這個(gè)模型根據(jù)給定的輸入特征,預(yù)測可能的輸出。統(tǒng)計(jì)學(xué)習(xí)最大的優(yōu)點(diǎn)是它具有泛化能力,對(duì)于任意給定的X,它都能預(yù)測相應(yīng)的Y。Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論還能對(duì)預(yù)測能力進(jìn)行分析,給出泛化上界。但從這個(gè)例子中也可以看到統(tǒng)計(jì)學(xué)習(xí)的預(yù)測準(zhǔn)確率是不能保證100%的。比如,人臉檢測會(huì)出錯(cuò),漢語分詞會(huì)出錯(cuò)。
統(tǒng)計(jì)學(xué)習(xí)是“鄉(xiāng)下人”的辦法。有個(gè)笑話。一個(gè)鄉(xiāng)下人進(jìn)城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學(xué)著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉(xiāng)下人不注意時(shí)把蠟燭扔到地上,然后咬了一口卷著的餅。鄉(xiāng)下人也跟著學(xué),大咬了一口自己的餅。統(tǒng)計(jì)學(xué)習(xí)只是根據(jù)觀測的輸入與輸出,“模仿”人的機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建模型并運(yùn)用模型來模擬人類智能活動(dòng)的一門學(xué)科。隨著計(jì)算機(jī)與網(wǎng)絡(luò)的飛速發(fā)展,機(jī)器學(xué)習(xí)在我們的生活與工作中起著越來越大的作用,正在改變著我們的生活和工作。日常生活中的機(jī)器學(xué)習(xí)我們?cè)谌粘I罱?jīng)常使用數(shù)碼相機(jī)。你也許不知道,數(shù)碼相機(jī)上的人臉檢測技術(shù)是基于機(jī)器學(xué)習(xí)技術(shù)的!我認(rèn)識(shí)三位了不起的科學(xué)家與工程師,他們是Robert Schapire,Paul Viola,勞世竑。他們?nèi)欢寂c這有關(guān)。R o b e r t與Y oav Freund一起發(fā)明了非常有效的機(jī)器學(xué)習(xí)算法A d a B o o s t。P a u l將A d a B o o s t算法成功地應(yīng)用到人臉檢測。勞世竑和他領(lǐng)導(dǎo)的Omr o n團(tuán)隊(duì)將A d a B o o s t人臉檢測算法做到了芯片上。據(jù)說現(xiàn)在世界上有百分之六七十的數(shù)碼相機(jī)上的人臉檢測都是用Omr o n的芯片。
在我們的工作與生活中,這種例子曾出不窮。互聯(lián)網(wǎng)搜索、在線廣告、機(jī)器翻譯、手寫識(shí)別、垃圾郵件過濾等等都是以機(jī)器學(xué)習(xí)為核心技術(shù)的。不久以前,機(jī)器學(xué)習(xí)國際大會(huì)(International Conference onMachine Learning,ICML 2011)在美國華盛頓州的B e l l e v u e市舉行。約有7百多位科研人員、教授、學(xué)生參加,創(chuàng)造了歷史最高紀(jì)錄。大會(huì)的三個(gè)主題演講分別介紹了機(jī)器學(xué)習(xí)在微軟的Kinnect游戲機(jī)用戶感應(yīng)系統(tǒng)、谷歌的G o g g l e s圖片搜索系統(tǒng)、I B M的Watson自動(dòng)問答系統(tǒng)中的應(yīng)用。這些事實(shí)讓人預(yù)感到機(jī)器學(xué)習(xí)被更廣泛應(yīng)用的一個(gè)新時(shí)代的到來。機(jī)器學(xué)習(xí)與人工智能智能化是計(jì)算機(jī)發(fā)展的必然趨勢。人類從事的各種智能性活動(dòng),如數(shù)學(xué)、美術(shù)、語言、音樂、運(yùn)動(dòng)、學(xué)習(xí)、游戲、設(shè)計(jì)、研究、教學(xué)等等,讓計(jì)算機(jī)做起來,現(xiàn)在還都是很困難的。這是幾十年來人工智能研究得到的結(jié)論。
人工智能研究中,人們?cè)鴩L試過三條路。我將它們稱之為外觀(extrospection)、內(nèi)省(introspection)和模擬(simulation)。所謂外觀,指的是觀察人的大腦工作情況,探求其原理,解明其機(jī)制, 從而在計(jì)算機(jī)上“ 實(shí)現(xiàn)” 人類大腦的功能。比如, 計(jì)算神經(jīng)學(xué)(computationalneuroscience)的研究就是基于這個(gè)動(dòng)機(jī)的。然而,人腦的復(fù)雜信息處理過程很難觀測和模型化。就像我們僅僅觀測某個(gè)計(jì)算機(jī)內(nèi)的信號(hào)傳輸過程,很難判斷它正在做什么樣的計(jì)算一樣。內(nèi)省就是反思自己的智能行為,將自己意識(shí)到的推理、知識(shí)等記錄到計(jì)算機(jī)上,從而“再現(xiàn)”人的智能,比如專家系統(tǒng)(expert system)的嘗試就屬于這一類。內(nèi)省的最大問題是它很難泛化,也就是舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉。
這種能力稱為泛化能力。通過內(nèi)省的方法很難使計(jì)算機(jī)擁有泛化能力。自己的智能原理,對(duì)人類來說很有可能是不可知的(agnostic)。
籠子里的老鼠可能認(rèn)為觸動(dòng)把手是得到食物的“原因”,但它永遠(yuǎn)也不能了解到整個(gè)籠子的食物投放機(jī)制。模擬就是將人的智能化操作的輸入與輸出記錄下來,用模型來模擬,使模型對(duì)輸入輸出給出同人類相似的表現(xiàn),比如統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statisticalmachine learning)。實(shí)踐表明,統(tǒng)計(jì)機(jī)器學(xué)習(xí)是實(shí)現(xiàn)計(jì)算機(jī)智能化這一目標(biāo)的最有效手段。統(tǒng)計(jì)學(xué)習(xí)最大的優(yōu)點(diǎn)是它具有泛化能力;而缺點(diǎn)是它得到的永遠(yuǎn)是統(tǒng)計(jì)意義下的最優(yōu)解(例如,人臉檢測)。現(xiàn)在當(dāng)人們提到機(jī)器學(xué)習(xí)時(shí),通常是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)。
機(jī)器學(xué)習(xí)的優(yōu)缺點(diǎn)下面看一個(gè)簡單的例子。由這個(gè)例子可以說明統(tǒng)計(jì)學(xué)習(xí)的基本原理,以及由此帶來的優(yōu)缺點(diǎn)。假設(shè)我們觀測到一個(gè)系統(tǒng)的輸出是一系列的1和0,要預(yù)測它的下一個(gè)輸出是什么。如果觀測數(shù)據(jù)中1和0各占一半,那么我們只能以0.5的準(zhǔn)確率做出預(yù)測。但是,如果我們同時(shí)觀測到這個(gè)系統(tǒng)有輸入,也是一系列的1和0,并且輸入是1時(shí)輸出是0的比例是0.9,輸入是0時(shí)輸出是1的比例也是0.9。這樣我們就可以從已給數(shù)據(jù)中學(xué)到“模型”,根據(jù)系統(tǒng)的輸入預(yù)測其輸出,并且把預(yù)測準(zhǔn)確率從0.5提高到0.9。以上就是統(tǒng)計(jì)學(xué)習(xí),特別是監(jiān)督學(xué)習(xí)的基本想法。事實(shí)上,這是世界上最簡單的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型!條件概率分布P(Y|X),其中隨機(jī)變量X與Y表示輸入與輸出,取值1與0。可以認(rèn)為所有的監(jiān)督學(xué)習(xí)模型都是這個(gè)簡單模型的復(fù)雜版。我們用這個(gè)模型根據(jù)給定的輸入特征,預(yù)測可能的輸出。統(tǒng)計(jì)學(xué)習(xí)最大的優(yōu)點(diǎn)是它具有泛化能力,對(duì)于任意給定的X,它都能預(yù)測相應(yīng)的Y。Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論還能對(duì)預(yù)測能力進(jìn)行分析,給出泛化上界。但從這個(gè)例子中也可以看到統(tǒng)計(jì)學(xué)習(xí)的預(yù)測準(zhǔn)確率是不能保證100%的。比如,人臉檢測會(huì)出錯(cuò),漢語分詞會(huì)出錯(cuò)。
統(tǒng)計(jì)學(xué)習(xí)是“鄉(xiāng)下人”的辦法。有個(gè)笑話。一個(gè)鄉(xiāng)下人進(jìn)城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學(xué)著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉(xiāng)下人不注意時(shí)把蠟燭扔到地上,然后咬了一口卷著的餅。鄉(xiāng)下人也跟著學(xué),大咬了一口自己的餅。統(tǒng)計(jì)學(xué)習(xí)只是根據(jù)觀測的輸入與輸出,“模仿”人的智能行為。有時(shí)能夠顯得非常智能化。但它本質(zhì)上只是基于數(shù)據(jù)的,是統(tǒng)計(jì)平均意義下的“模仿”。如果觀測不到關(guān)鍵的特征,它就會(huì)去“咬卷著蠟燭的餅”。
機(jī)器學(xué)習(xí)與互聯(lián)網(wǎng)搜索我與同事們?cè)趶氖禄ヂ?lián)網(wǎng)搜索相關(guān)的研究。據(jù)調(diào)查,60%的互聯(lián)網(wǎng)用戶每天至少使用一次搜索引擎,90%的互聯(lián)網(wǎng)用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學(xué)習(xí)以及生活的質(zhì)量。而互聯(lián)網(wǎng)搜索的基本技術(shù)中,機(jī)器學(xué)習(xí)占據(jù)著重要的位置。在我看來,互聯(lián)網(wǎng)搜索有兩大挑戰(zhàn)和一大優(yōu)勢。挑戰(zhàn)包括規(guī)模挑戰(zhàn)與人工智能挑戰(zhàn);優(yōu)勢主要是規(guī)模優(yōu)勢。規(guī)模挑戰(zhàn):比如,搜索引擎能看到trillion量級(jí)的URL,每天有幾億、幾十億的用戶查詢,需要成千上萬臺(tái)的機(jī)器抓取、處理、索引網(wǎng)頁,為用戶提供服務(wù)。這需要系統(tǒng)、軟件、硬件等多方面的技術(shù)研發(fā)與創(chuàng)新。人工智能挑戰(zhàn):搜索最終是人工智能問題。搜索系統(tǒng)需要幫助用戶盡快、盡準(zhǔn)、盡全地找到信息。這從本質(zhì)上需要對(duì)用戶需求(如查詢語句),以及互聯(lián)網(wǎng)上的文本、圖像、視頻等多種數(shù)據(jù)進(jìn)行“理解”。
? ? ? ?現(xiàn)在的搜索引擎通過關(guān)鍵詞匹配以及其他“信號(hào)”,能夠在很大程度上幫助用戶找到信息。但是,還是遠(yuǎn)遠(yuǎn)不夠的。規(guī)模優(yōu)勢:互聯(lián)網(wǎng)上有大量的內(nèi)容數(shù)據(jù),搜索引擎記錄了大量的用戶行為數(shù)據(jù)。這些數(shù)據(jù)能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“約市的人口是多少”,“春風(fēng)又綠江南岸作者是誰”。注意這些數(shù)據(jù)都是遵循冪函數(shù)分布的。它們能幫助Head(高頻)需求,對(duì) tail(低頻)需求往往是困難的。所以,對(duì)tail來說人工智能的挑戰(zhàn)就更顯著。現(xiàn)在的互聯(lián)網(wǎng)搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求。
這歸結(jié)于許多尖端技術(shù)包括機(jī)器學(xué)習(xí)技術(shù)的成功開發(fā)與應(yīng)用,比如排序?qū)W習(xí)算法、網(wǎng)頁重要度算法等等。這些機(jī)器學(xué)習(xí)算法在一定程度上能夠利用規(guī)模優(yōu)勢去應(yīng)對(duì)人工智能挑戰(zhàn)。但是、當(dāng)今的互聯(lián)網(wǎng)搜索距離“有問必答,且準(zhǔn)、快、全、好”這一理想還是有一定距離的。這就需要開發(fā)出更多更好的機(jī)器學(xué)習(xí)技術(shù)解決人工智能的挑戰(zhàn),特別是在tail中的挑戰(zhàn)。展望未來,機(jī)器學(xué)習(xí)技術(shù)的研究與開發(fā)會(huì)幫助我們讓明天更美好!智能行為。有時(shí)能夠顯得非常智能化。但它本質(zhì)上只是基于數(shù)據(jù)的,是統(tǒng)計(jì)平均意義下的“模仿”。如果觀測不到關(guān)鍵的特征,它就會(huì)去“咬卷著蠟燭的餅”。
機(jī)器學(xué)習(xí)與互聯(lián)網(wǎng)搜索我與同事們?cè)趶氖禄ヂ?lián)網(wǎng)搜索相關(guān)的研究。據(jù)調(diào)查,60%的互聯(lián)網(wǎng)用戶每天至少使用一次搜索引擎,90%的互聯(lián)網(wǎng)用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學(xué)習(xí)以及生活的質(zhì)量。而互聯(lián)網(wǎng)搜索的基本技術(shù)中,機(jī)器學(xué)習(xí)占據(jù)著重要的位置。在我看來,互聯(lián)網(wǎng)搜索有兩大挑戰(zhàn)和一大優(yōu)勢。挑戰(zhàn)包括規(guī)模挑戰(zhàn)與人工智能挑戰(zhàn);優(yōu)勢主要是規(guī)模優(yōu)勢。規(guī)模挑戰(zhàn):比如,搜索引擎能看到trillion量級(jí)的URL,每天有幾億、幾十億的用戶查詢,需要成千上萬臺(tái)的機(jī)器抓取、處理、索引網(wǎng)頁,為用戶提供服務(wù)。這需要系統(tǒng)、軟件、硬件等多方面的技術(shù)研發(fā)與創(chuàng)新。
人工智能挑戰(zhàn):搜索最終是人工智能問題。搜索系統(tǒng)需要幫助用戶盡快、盡準(zhǔn)、盡全地找到信息。這從本質(zhì)上需要對(duì)用戶需求(如查詢語句),以及互聯(lián)網(wǎng)上的文本、圖像、視頻等多種數(shù)據(jù)進(jìn)行“理解”。現(xiàn)在的搜索引擎通過關(guān)鍵詞匹配以及其他“信號(hào)”,能夠在很大程度上幫助用戶找到信息。但是,還是遠(yuǎn)遠(yuǎn)不夠的。規(guī)模優(yōu)勢:互聯(lián)網(wǎng)上有大量的內(nèi)容數(shù)據(jù),搜索引擎記錄了大量的用戶行為數(shù)據(jù)。這些數(shù)據(jù)能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“約市的人口是多少”,“春風(fēng)又綠江南岸作者是誰”。注意這些數(shù)據(jù)都是遵循冪函數(shù)分布的。它們能幫助Head(高頻)需求,對(duì) tail(低頻)需求往往是困難的。所以,對(duì)tail來說人工智能的挑戰(zhàn)就更顯著。現(xiàn)在的互聯(lián)網(wǎng)搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求。
這歸結(jié)于許多尖端技術(shù)包括機(jī)器學(xué)習(xí)技術(shù)的成功開發(fā)與應(yīng)用,比如排序?qū)W習(xí)算法、網(wǎng)頁重要度算法等等。這些機(jī)器學(xué)習(xí)算法在一定程度上能夠利用規(guī)模優(yōu)勢去應(yīng)對(duì)人工智能挑戰(zhàn)。但是、當(dāng)今的互聯(lián)網(wǎng)搜索距離“有問必答,且準(zhǔn)、快、全、好”這一理想還是有一定距離的。這就需要開發(fā)出更多更好的機(jī)器學(xué)習(xí)技術(shù)解決人工智能的挑戰(zhàn),特別是在tail中的挑戰(zhàn)。展望未來,機(jī)器學(xué)習(xí)技術(shù)的研究與開發(fā)會(huì)幫助我們讓明天更美好!
評(píng)論
查看更多