雖然機器學(xué)習(xí)已經(jīng)成為一個高頻名詞,但是對于大眾而言,它依然是一個遙不可及乃至模糊不清的概念。為此,著名投資人 Benedict Evans 在自己的博客上發(fā)表博文,針對這一問題表達了自己的看法;本文對這篇博文進行了不改變原意的編譯。
機器學(xué)習(xí)的風(fēng)潮已經(jīng)刮了四五年了,除了以 AI 為名如雨后春筍般快速崛起的新創(chuàng)公司們,各家科技巨頭也希望圍繞這個時髦詞“重塑金身”。此外,通過媒體的大肆宣傳,機器學(xué)習(xí)也已經(jīng)成了一個家喻戶曉的名詞。總之,機器學(xué)習(xí)將成為下一個能幫“豬”起飛的風(fēng)口已經(jīng)是大家的共識。
在正式開始之前,我們先說說人工智能(AI),機器學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)四者的關(guān)聯(lián)。簡單來說,人工智能的范疇最大,機器學(xué)習(xí)包含在內(nèi),它是帶來人工智能的方法。至于神經(jīng)網(wǎng)絡(luò),則是機器學(xué)習(xí)眾多算法中的一類,而深度學(xué)習(xí)則是實現(xiàn)機器學(xué)習(xí)的技術(shù),是它的一種延伸。
經(jīng)過這么多年的知識普及,恐怕理解(理論上)神經(jīng)網(wǎng)絡(luò)是什么的人已經(jīng)相當(dāng)多,至少大家都知道它與范式和數(shù)據(jù)有關(guān)。機器學(xué)習(xí)讓我們能在數(shù)據(jù)中找到那些暗示性和隨機性的范式或結(jié)構(gòu),而在此之前能找到這些隱含屬性的只有人類,因為我們會推理。
有了機器學(xué)習(xí),那些原本對人類來說相當(dāng)簡單(或者說無法向計算機描述的問題)但卻能難倒計算機的問題就迎刃而解了,各路公司也都拿出了相當(dāng)炫酷的演示。
不過,筆者依然認為,對于機器學(xué)習(xí)的定義,整個行業(yè)依然沒有一個固定的理解,一切都還未塵埃落定。對于科技公司或整體經(jīng)濟來說它到底意味著什么?機器學(xué)習(xí)到底能解決什么重要問題?它對于普羅大眾又意味著什么?如何從結(jié)構(gòu)上理解它的影響呢?
這時有人會抬出 AI 這個術(shù)語,不過它其實一個問題都回答不了,它就像《2001 太空漫游》中提到的黑色巨石(代表未解之謎),在它面前我們都是揮舞著拳頭吼叫的猩猩,想解構(gòu) AI 幾乎是不可能完成的任務(wù)。
事實上,我覺得現(xiàn)在大家能提出一大串無用的方法來討論機器學(xué)習(xí)的發(fā)展程度。舉例來說:
1. 數(shù)據(jù)是新的石油
2. 谷歌和中國包攬了所有數(shù)據(jù)
3. AI 將搶走所有工作
4. 只談?wù)?AI
也許,我們能找個更多有用的角度,比如:
1. 自動化
2. 為技術(shù)層賦能
3. 關(guān)系數(shù)據(jù)庫
為什么要提到關(guān)系數(shù)據(jù)庫呢?因為它們是新的基礎(chǔ)賦能層,可以擴大計算機的能力范圍。在關(guān)系數(shù)據(jù)庫出現(xiàn)之前(上世紀(jì) 70 年代末),如果你想讓數(shù)據(jù)庫告訴你“住在這座城市里的人誰買了這件商品”,就必須專門搞個定制版的工程項目。也就是說,當(dāng)時的數(shù)據(jù)庫建立時沒有結(jié)構(gòu),因此想實現(xiàn)任意的交叉引用查詢可是個難事。如果你想問個問題,就得有人圍繞這個問題下大功夫工作一番。當(dāng)時的數(shù)據(jù)庫只是一套記錄系統(tǒng),但關(guān)系數(shù)據(jù)庫的出現(xiàn)讓它們進化成了商業(yè)智能系統(tǒng)。
這樣的改變也讓數(shù)據(jù)庫的重要性陡然增加,新的用例伴隨獨角獸們?nèi)缬旰蟠汗S般誕生。關(guān)系數(shù)據(jù)庫的誕生給了我們甲骨文和 SAP 公司,而 SAP 和競爭對手們又一同為世界帶來了全球無庫存式供應(yīng)鏈,在這一技術(shù)的基礎(chǔ)上,蘋果和星巴克等公司締造了自己的帝國。上世紀(jì) 90 年代,幾乎所有企業(yè)級軟件都換用了關(guān)系數(shù)據(jù)庫,包括 PeopleSoft,CRM 和 SuccessFactors 都是基于關(guān)系數(shù)據(jù)庫運行的產(chǎn)品。此役之后,再也不會有人傻兮兮的說“沒用的,甲骨文早已吃掉所有數(shù)據(jù)庫”這種話了。相反,這項技術(shù)幾乎成了所有新事物的賦能層,它已無處不在。
因此,這一思路才是我們現(xiàn)在重新思考機器學(xué)習(xí)的最佳接地方式,它會給計算機能力帶來巨大的躍升,成為不同公司不同產(chǎn)品中的一部分。最終,機器學(xué)習(xí)也會無處不在,成為大家習(xí)以為常甚至都不愿再提的一項技術(shù)。
值得一提的是,雖然關(guān)系數(shù)據(jù)庫具有規(guī)模經(jīng)濟效應(yīng),但它提供的確實一個有限網(wǎng)絡(luò)或“贏家通吃”的效應(yīng)。也就是說,即使公司 A 和公司 B 買了同一個數(shù)據(jù)庫軟件,兩家公司也不會從對方那里獲益。機器學(xué)習(xí)也遵循同樣的道理,它的一切都與數(shù)據(jù)有關(guān),但數(shù)據(jù)又與特定的應(yīng)用程序息息相關(guān)。更多的筆跡數(shù)據(jù)只會提高它任筆跡的能力,而更多的燃氣輪機數(shù)據(jù)讓系統(tǒng)能提前預(yù)測故障,但兩者并不能相互扶持。這就是其殘酷之處,數(shù)據(jù)是不可替代的。
上面這段話其實徹底攥住了我們對于機器學(xué)習(xí)普遍誤解的核心,即在某種程度上來看,它是一個單一的通用的事物。同時,在理解什么是自動化時我們也犯了相同錯誤。在每一次自動化風(fēng)潮到來時,我們都感覺自己在創(chuàng)造一種擬人的且有基本智力的技術(shù)。舉例來說,上世紀(jì) 50 年代,人類開始暢想能做家務(wù)和上菜的機器人,結(jié)果我們沒培養(yǎng)出機器人服務(wù)生,反而造出了洗衣機。
洗衣機也是機器人,不過它們并非“智能”機器人。它們不清楚水和衣服到底是何物。此外,即使是在洗滌這個分類中,它們也并非通用產(chǎn)品,要不然洗碗機也不會誕生了。簡單來說,它們只是另一種形式的自動化,在概念上和傳送帶沒什么不同。同樣的,機器學(xué)習(xí)確實能讓我們解決許多現(xiàn)在電腦搞不定的問題,不過這些問題肯定都需要不同的實現(xiàn)方式和不同的數(shù)據(jù),甚至是不同的市場策略和開發(fā)公司,而這其中的每一環(huán)都是自動化的一塊拼圖,它們是一個個能執(zhí)行不同任務(wù)的洗滌設(shè)備。
因此,在談?wù)摍C器學(xué)習(xí)時我們肯定會遭遇“攔路虎”,即我們要在數(shù)學(xué)的機械論解釋和對人工智能的幻想中找到中間立場。
讓我們回到與關(guān)系數(shù)據(jù)庫的類比話題,現(xiàn)在我們確實能信心滿滿的說,這項技術(shù)能解決大量問題,但你并不知道是哪些具體問題。你能用機器學(xué)習(xí)進行令人印象深刻的語音和圖像識別展示,但普通公司用它來干什么呢?就像一家美國媒體公司說的:“有了機器學(xué)習(xí),我們確實能一次給十年的訪談節(jié)目做索引,但我們要在索引里找什么呢?”
那么什么才是有真正用途的機器學(xué)習(xí)洗滌機呢?要解答這個問題,我認為需要用到兩種工具。第一種是按照數(shù)據(jù)類型和問題類型的隊列進行思考。
機器學(xué)習(xí)確實能在你所擁有的數(shù)據(jù)中快速找到問題答案,你甚至可以將它看做一種分析或優(yōu)化技術(shù)。舉例來說,我們的投資公司 Instacart 就打造了一套系統(tǒng),專門用來優(yōu)化個人買家通過分散渠道進行投資的路徑。這套系統(tǒng)直接將效率提升了 50%,而且開發(fā)團隊只有三名工程師(用了谷歌的開源工具)。
同時,機器學(xué)習(xí)還能讓你在數(shù)據(jù)中找到新問題的答案。舉例來說,一位正在為打官司做準(zhǔn)備的律師可以搜索到包含“憤怒”、“憂慮”或“反常”意味的郵件,這樣就比單純的關(guān)鍵詞搜索高效多了。
機器學(xué)習(xí)打開了新大門,給了我們可以分析的新數(shù)據(jù)類型。從前計算機無法真正的讀懂音頻、圖像或視頻,但未來這一切都有可能成真。
在這三種數(shù)據(jù)類型中,我發(fā)現(xiàn)圖像最有趣。計算機誕生伊始,就能處理文本和數(shù)字,但圖像和視頻卻是它們的軟肋,現(xiàn)在它們不但能讀,還能看了。這就意味著圖像傳感器和麥克風(fēng)成了一種全新的輸入機制,它們攝像頭的屬性被機讀數(shù)據(jù)流生成器屬性蓋過。所有的事都會成為計算視覺問題,但這里的計算視覺問題又與當(dāng)下的計算視覺問題有所不同。
這又與識別“貓片”無關(guān)。最近我參觀了一家汽車座椅供應(yīng)商,它們就在自家的廉價 DSP 芯片中灌入了神經(jīng)網(wǎng)絡(luò),而與其配合的則是廉價的智能手機圖像傳感器。它們搭建這套系統(tǒng),是為了查找座椅織物中的褶皺。將這套系統(tǒng)稱為“人工智能”有些言過其實了,它只不過是將某種此前無法自動化的任務(wù)自動化了而已。
這種自動化的感覺是我們思考有關(guān)機器學(xué)習(xí)問題的第二種工具。對人來說,找找織物中的褶皺可用不了二十年的經(jīng)驗積累,因為它太簡單了。事實上,我的同事就認為,那些無論如何訓(xùn)練,狗狗都學(xué)不會的能力,機器學(xué)習(xí)都能掌握。這有益于我們思考有關(guān) AI 偏見的問題,但還是有自己的局限性。因為狗狗可沒有一般智力和常識,而神經(jīng)網(wǎng)絡(luò)可不同。吳恩達就指出,機器學(xué)習(xí)能在一秒鐘之內(nèi)學(xué)走你的能力。
五年之前,如果你給計算機一堆圖片來辨認,它們能做的只是區(qū)分這些圖片的尺寸,而十歲的小孩很輕松就能分辨出照片中的男人和女人,而十五歲的小孩則能看出照片里的面孔酷不酷,而再長大幾歲去實習(xí)時,人甚至能看出照片中的隱晦的意味。有了機器學(xué)習(xí)后,計算機的能力馬上就提升到十歲孩子的級別,它們甚至能沖擊下十五歲的智商。機器學(xué)習(xí)可能永遠達不到實習(xí)生的水平,但如果你手上有 100 萬個十五歲孩子來保管數(shù)據(jù)呢?你會命令他們做什么?聽什么電話?看什么圖片?審查什么文件或信用卡支付呢?
換言之,機器學(xué)習(xí)不需要成為擁有幾十年經(jīng)驗的“老司機”,我們也不是要讓專家成為自動化的“犧牲品”。相反,我們對機器學(xué)習(xí)的主要要求是“接聽所有電話并挑出那些生氣的人”,“閱讀所有郵件并找出那些滿是焦慮的郵件”,“看遍成千上萬張照片并找到那些照片中的炫酷人類”。
在某種意義上,這就是自動化的慣例。Excel 沒給我們?nèi)斯媶T,PS 也沒給我們?nèi)斯D片設(shè)計師。相反,我們大規(guī)模自動化了離散的任務(wù)。
在某些領(lǐng)域,機器學(xué)習(xí)可能找不到人類已經(jīng)認識到的東西,但它們卻能找到我們認識不到的或者范式、推論或暗示,就像 Deepmind 的 AlphaGo 那樣。AlphaGo 并不會像圍棋運動員那樣下棋,而是先學(xué)會規(guī)則隨后進行不斷的左右互搏。如果機器學(xué)習(xí)充當(dāng)著實習(xí)生的角色,它們不會一開始就告訴你某張照片很好看,而是在看到第三百萬張圖片時,發(fā)現(xiàn)其中的范式。那么,到底哪個領(lǐng)域小到讓我們能告訴機器學(xué)習(xí)系統(tǒng)具體的規(guī)則,以便它們能在數(shù)據(jù)中挖掘出新的成果呢?
我花了很多時間遍訪各家公司以尋找它們的技術(shù)需求,在機器學(xué)習(xí)上顯然它們已經(jīng)有許多即將成熟的果實。不過,這里確實還有許多明顯的分析和優(yōu)化問題,有些則是圖像識別或音頻分析問題。我們討論自動駕駛汽車和混合現(xiàn)實是因為機器學(xué)習(xí)成了它們的催化劑。機器學(xué)習(xí)讓汽車能看到它周圍事物的一舉一動,至于混合現(xiàn)實,機器學(xué)習(xí)則決定了頭盔佩戴者到底能看到什么。不過,在討論過織物上的褶皺或呼叫中心的情感分析后,這些公司又有了新問題:“機器學(xué)習(xí)還有其他能耐嗎?它們還能助力什么技術(shù)?又能發(fā)現(xiàn)什么新機遇?”
在厭煩這些問題之前,我們恐怕還能保持 10-15 年的新鮮感。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132714
原文標(biāo)題:關(guān)于機器學(xué)習(xí),你所知道的,可能都是錯的?
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論