AI,包括機器學習現在是重要的技術趨勢,在這個領域已經有不少獨角獸創業公司,科技巨頭們更是早早布局。只要對這項技術稍有了解就會明白,數據是機器學習的養料,那么已經擁有大量數據的科技巨頭公司會不會強者更強,甚至形成壟斷,后來的創業公司還有機會么?
為什么數據對于機器學習很重要?
首先,為什么數據對于機器學習如此重要?舉例說明。在過去,利用傳統的方法構建一個系統來識別某樣事物,需要一系列復雜的規則,例如要識別圖片里的一只貓,需要構建識別貓的輪廓、毛發、腿、眼睛、耳朵等一系列的規則,并把它們整合在一起。但在實踐中,這樣的方法過于復雜,可行度不高。
如果用機器學習來識別貓,你不需要寫規則,而是給一個統計引擎提供數據和例子,這個引擎就會生成一個具有分辨能力的模型。然后你給它10萬張標有 “貓”的圖片和10萬張標有 “不是貓 ”的圖片,機器就能分辨出它們的區別。機器學習用數據中自動確定的模式取代了手寫的邏輯步驟,對于一些非常廣泛的問題,機器學習的效果會更好,例如在計算機視覺、文字和語音方面,它都有非常典型的用例。
對于機器學習,你需要多少數量的數據才能達到目標是一個浮動的數字,有一些研究方向是讓機器學習使用更小的數據集就可以完成工作,但是在目前,更多的數據幾乎總是能得到更好的結果。
巨頭擁有很多數據,這會幫助它們壟斷么?
因此,問題來了:如果機器學習可以重構很多重要的事情,并且數據越多機器學習就給你越好的結果。那么,是否意味著已經是巨頭,擁有巨量數據的公司會變得更加強大?這種贏家通吃的效應會有多強?因為這背后的道理似乎很清楚:“更多的數據=更準確的模型=更好的產品=更多的用戶=更多的數據”。于是有一些說法就會出現:“谷歌/Facebook/亞馬遜擁有所有的數據,中國擁有所有的數據,那些擁有大量數據的科技公司和人口眾多,數據豐富的國家將在競爭中獲得優勢。”
某種程度上,這能成立。
不過,雖然機器學習需要大量的數據,但你使用的數據必須是非常具體的,只有這樣才能解決特定的問題。GE有很多燃氣輪機的遙測數據,Google有很多搜索數據,Amex有很多信用卡欺詐數據。你不能用渦輪機的數據作為例子來發現欺詐性交易,也不能用網絡搜索的數據來發現即將出現故障的燃氣輪機。也就是說,機器學習是一種通用的技術,你既能用它來欺詐監測也能進行人臉識別,但是用它構建的具體應用互相之間是不通用的。每一個特定的模型或應用只能做一件事。
這和之前的自動化技術普及大同小異:就如洗衣機只能洗衣服不能洗完一樣,機器學習支持的翻譯程序也不能識別貓的圖片。你構建的應用程序和這些應用程序需要的數據集是非常具體的,他們只會勝任特定的任務(當然,現在有一些前沿研究試圖使某些數據集能夠擁有更廣泛的通用性。)
所以,利用機器學習可以實現的應用是非常廣泛而分散的。谷歌不會“擁有所有的數據”,它只會擁有谷歌自己的數據。谷歌會利用機器學習技術獲得更好的搜索結果,GE獲得更好的引擎遙測,沃達豐獲得更好的通話模式分析和網絡規劃,而這些都是不同公司建立的不同業務和功能。谷歌可以利用機器學習讓它自己的業務變得更好,但不意味著谷歌可以利用機器學習壟斷一切業務。
也就是說,機器學習可以讓每個行業的大公司變得更強大沃達豐,GE,谷歌擁有各自行業“所有的數據”,這會讓他們擁有更強的競爭優勢,讓已經存在的護城河變的更深。但是問題其實也不那么簡單,我們可以提出疑問:到底誰擁有數據,這些數據到底多有用,在什么層面上它是有效的,怎樣去聚合與分析它們才是正確的?
如何聚合與分析數據才是有意義的?
作為一個公司的創始人,可以思考以下的問題:作為一家行業公司,你是否有收集和管理好自己的數據,并建立機器學習系統來分析它,還是說你找了對口的AI供應商來做這件事;你的供應商提供的是一個已經在別的數據集上訓練好的成品,還是根據你的數據定制訓練,或者將你的數據與其他數據集混合起來一起訓練?你的供應商是否需要你的數據來優化模型,還是說整個行業的數據已經非常豐富,用現成的數據集就已足夠?在業務的不同部分,不同的行業,不同的細分業務中,這些問題的答案是不同的。
換到另一端,如果你是一家AI創業公司,要切入某個細分行業解決實際問題,那么有兩個關于數據的基本問題:如何獲得你的第一個數據集來訓練你的模型,并以此來獲得你的第一個客戶,另外你到底需要多少數據?
第二個問題可以分解成很多問題:是用相對較少的、獲取相當容易的數據集(但很多競爭對手也能獲取)來解決問題,還是用更難獲取,規模更大的數據集,如果是后一種,是否可以從網絡效應中獲益,從而形成贏家通吃的態勢?以此構建的產品,是會隨著數據越來越多,變得越來越好,還是有一條S曲線?
這取決于以下這些因素:
有些數據集對企業或產品來說是獨一無二的,或者能提供強大的專有優勢。GE的發動機遙測數據可能對分析羅羅的航空發動機沒有什么用處,即便有用處,它們也不會分享。這可能就是一個創業機會,但同時也是很多大公司內部IT和外包項目承包商眼饞的地方。
有些數據集則更具有共性,可以適用于更多的行業和公司。“這個客戶有些奇怪”可能適用于所有信用卡公司,“客戶聽起來很生氣”則適用于大多數呼叫中心。這種共性問題可以誕生很多公司,他們可以基于此解決不同行業的共性問題,這里有數據的網絡效應。
但是也可能出現另一種情況,到了某種分界點后,模型已經很成熟,廠商不需要更多的數據,就已經能夠很好的構建產品了。
AI創業,到底應該怎么切入?
在實際的創業中,隨著機器學習的應用范圍越來越廣,創業公司總能在細分領域找到切入點。例如Everlaw進入的是法律相關的領域:一場官司會產生堆積如山的紙質卷宗,機器學習可以對這些卷宗進行分析,一方面,可以找出具有共性的卷宗,例如“包含焦慮情緒的文件”,另一方面可以做聚類分析,找到和選出的某一份卷宗差不多的其他卷宗。而這些不需要根據某一個特定案件的數據訓練,用一些行業通用的數據集就可以解決。
Drishti,是一家利用計算機視覺來分析工廠生產線的公司,它的其中一些能力需要客戶公司的數據進行訓練,但它的能力具有較強的通用性,可以跨行業工作。
舉一個極端的例子,我最近接觸到一家大型的汽車主機廠,他們利用機器學習來優化爆胎監測傳感器,使它更加準確。這些訓練數據是他們自己制造的,做了很多爆胎和沒有爆胎的試驗。很明顯,想要得到數據,你總能獲得數據,只是數據,并不能構建護城河。
因此,回到核心,對于機器學習創業公司,都要面對兩個問題:如何獲得數據,需要多少數據?但這些只是技術性問題:你更應該考慮你的目標市場是什么,如何進入市場,你要解決的問題對你的客戶有多大價值,等等。也就是說,很快就不會再有 “人工智能 ”創業公司了,它們將是工業流程分析公司,法律平臺公司,或者銷售優化公司等等。事實上,機器學習的普及并不意味著谷歌變強,而是意味著各種創業公司可以比以前更快地用這種先進技術來建立業務。
我用一個比喻來做最后的總結,我們可以把機器學習比作數據庫。數據庫非常重要,它是一種基礎設施,融入了各種各樣的場景。如果你不使用它,而你的競爭對手使用它,你就會落后。在它還是一個新鮮事物時,有的公司曾經依靠這種技術獲得過競爭優勢,沃爾瑪的部分成功來自于使用數據庫,從而可以更有效的管理庫存和物流。但在今天,如果你創辦了一家零售商,并說,我們正在使用最先進的數據庫技術;那這并不會讓你變得與眾不同。數據庫已經變成了一種普遍化的技術基礎設施,它不再有特殊性,同樣的事情在未來也會發生在機器學習上。
責任編輯:tzh
-
AI
+關注
關注
87文章
30763瀏覽量
268914 -
人工智能
+關注
關注
1791文章
47208瀏覽量
238298 -
機器學習
+關注
關注
66文章
8408瀏覽量
132576
發布評論請先 登錄
相關推薦
評論