只有少數幾家公司能夠獲得大數據、人工智能和機器學習的能力,可以將其轉化為產品。這造成了數據擁有者和數據貧乏者之間不平等的鴻溝,以及大數據行業的寡頭壟斷。打破寡頭壟斷的最佳方式就是“用開放數據的海洋淹沒數據豎井”。
數據是現代商業的燃料,每個公司都需要很多數據,但很少有人能負擔得起。
只有少數幾家公司能夠獲得大數據、人工智能和機器學習的能力,可以將其轉化為產品。這造成了數據擁有者和數據貧乏者之間不平等的鴻溝,以及大數據行業的寡頭壟斷(包括被稱為FANG的Facebook、Amazon、Netflix和Google)。扎克伯格、蓋茨、貝索斯等人已經成為數據大亨,無異于石油大亨洛克菲勒。
兩個數據大亨的故事
雖然AI是貪婪的數據消費者,是依賴于大量的數據發展起來的,但大多數公司要么擁有大量潛在的數據卻沒有能使用這些數據的AI,要么有AI算法卻沒有足夠的數據。
這是為什么呢?主要是因為尋找擁有AI知識的人才的競爭十分激烈,成本也很昂貴,更別說AI專家。大型科技公司正以高昂的初始工資從大學直接招聘AI畢業生。成本有多高呢?舉個例子,前谷歌自動駕駛部門工程師Anthony Levandowski在離開谷歌的前一年,拿到了1.2億美元的工資和獎金。
另一方面,很多擁有AI知識的畢業生正在創辦自己的科技公司,但卻無法獲得開發產品所需的大量數據。
FANG公司已經成為數據的OPEC(石油輸出國組織)了嗎?
在互聯網時代的初期,webgraph(一種網頁相互連接的圖)是開放的,拉里·佩奇和謝爾蓋·布林得以學習和創新,創建了谷歌公司。但從那時起,webgraph的重要性就逐漸減弱,取而代之的是社交圖(social graph)。
從60年代開始,social graph曾是一個人具有的人際網絡和人際關系的網絡效應的寫照。
然而,Facebook擁有超過20億用戶,它重新定義了 social graph,成為了最具包容性的一個 social graph,并創建了一個指數級的將個人以及他們的朋友與企業、服務、社交活動、喜惡等等聯系在一起的網絡。而在數據經濟中,這是企業所追求的。
盡管仍然很重要,但webgraph的主要價值來源是計算網站的PageRank;擁有用戶在線偏好和傾向的詳細數據就是數字廣告商的圣杯。
Facebook的social graph可以說已經成為網絡上最賺錢的生態系統,并且與其他數據寡頭(谷歌、亞馬遜、Netflix、微軟)一樣,它具有數據網絡效應,這種效應發生在機器學習驅動的產品隨著用戶數據的增加而變得更智能時。這就在商業環境,尤其是數字廣告領域創造出一個贏家,使得其他人越來越難以參與競爭。
2015年,Google和Facebook在全球數字廣告支出中的比例達到40%。2016年第三季度,Google和Facebook占了美國數字廣告收入增長的99%——這是有史以來的最高的比例。2017年,它們占了美國數字廣告支出總額的63%以上。雖然Amazon和Snapchat的進入使得它們的增長速度放慢,但要打破這種數字雙寡頭壟斷局面將是非常困難的。
石油輸出國組織(OPEC)是一個由14個石油生產國組成的政府間組織,它們占全球石油產量的44%,占全球探明室友儲量的73%。這使得OPEC能對全球原油價格產生重要影響。
雖然沒有證據表明數據寡頭之間存在這種“卡特爾主義”,但Facebook和Google兩家公司占有如此大的市場份額和無限量的數據供應,它們將如何影響全球數字廣告的價格呢?
數據的護城河,湖泊和海洋
“護城河”(moat)是從巴菲特的投資理論中借用的一個術語,描述了公司周圍的經濟防御層——無論是知識產權(IP),品牌還是員工——護城河讓公司能在同行業中優于競爭對手。“數據護城河”(data moats)已成為互相競爭的科技公司之間保護知識產權的一種形式。
數據湖泊(Data lakes)是組織內部所有部門輸入的原始數據池。這與組織內部門間相隔離的數據是不同的,這些數據不會跨部門共享。因此,一個組織可能擁有大量有關個人客戶的數據(他們的社交習慣、購買習慣、溝通習慣等),但這些數據是分散的,難以編制成完整的個人檔案。
數據湖泊以本地格式保存大量的原始數據。與將數據存儲在文件或文件夾中的分層數據庫不同,數據湖使用平面架構來存儲數據。因此,它在很大程度上是非結構化的,是非關系型的(NoSQL)數據,直到出現一個特定的問題需要使用數據查詢,才將其細化為相關的模式。
數據是一門大生意;大數據更是一筆巨大的業務。但是一個行星大小的數據庫怎么樣?對于廣告商和AI開發人員來說,這會成為圣杯嗎?
邁向數據海洋
海洋協議(Ocean Protocol)是一個去中心化的全球數據交換協議,旨在讓企業和個人可以通過本地海洋令牌購買和銷售數據,其目的是解鎖大數據,并向更多人開放AI開發。該項目背后的理念是,對集中式數據庫缺乏信任會阻止競爭者之間共享數據。
Ocean Protocol由BigchainDB的聯合創始人Trent McConaghy創立,Ocean是區塊鏈項目生態系統的一部分(見下圖),旨在將數據、計算能力和存儲去中心化和民主化,以縮小大型科技企業之間的差距。
在2016年,世界上已經產生16ZB(16zettabytes或16,000,000,000,000,000,000,000字節)的數據,但實際上被分析的數據只有1%,而在這1%的數據中,只有少數公司有辦法優化數據。
這些項目的最終目標之一是讓人們重新控制和掌握數據,而不是試圖讓數據大亨放棄數據。
民主化未來的數據經濟
去中心化數據交換可以有哪些幫助?
醫療保健是可獲取外部數據的一個領域,并且將產生深遠的影響。例如,如果在大型數據集上進行測試,醫療藥物試驗對特定人群或性別的效力的偏差可能遠遠低于單一醫院或實驗室所能獲得的結果。
一項利用AI來獲得結論或為某種疾病研發有效產品的醫療項目需要1萬名患者的數據,才能獲得較低的錯誤率,這對于單一醫院來說幾乎是不可能的。去中心化的數據市場的作用就在這里。
在測試任何軟件或算法時,保持低錯誤率是一個目標,而最簡單和最便宜的方法并不是要改進或編寫更復雜的算法,而是要在舊算法上運行大量數據,或者如Trent McConaghy所描述的那樣:“ 用CSV文件替換Phds——這在2000年代使得錯誤率大大減少,有更多AI得以部署。“
自動駕駛汽車是另一個出錯率必須接近0的領域,因為我們要有足夠的信任才能把生命真正地交給計算機。據估計,需要5000億到1萬億英里的行駛距離,才能使AI模型足夠精確,能夠用于自動駕駛汽車的生產部署。
另外,Avdex是一種去中心化的航空數據交換。
“像Google和Facebook這樣的公司意識到,如果它們將這些數據存儲起來,就會產生數據網絡效應,”McConaghy說。 “它們有更多的數據,這意味著更好的模型,這意味著更高的點擊率,帶來更多的錢。它們自稱AI公司,但其實是數據公司——是數據豎井。一旦擁有了數據豎井,企業就可以將用戶從他們自己的數據中分離出來,從而將他們從數字生活中隔離開來。AI催生了這些數據豎井。”
今天,在互聯網時代,大型科技公司的權力集中度無人能及;相比之下,微軟在90年代憑借IE瀏覽器達到統治地位而引發的反壟斷擔憂就相形見絀了。
雖然我們并不處于洛克菲勒的壟斷時代,但數據市場的集中度介于洛克菲勒壟斷和OPEC模式之間。 正如McConaghy所說,打破寡頭壟斷的最佳方式就是“用開放數據的海洋淹沒數據豎井”。
-
人工智能
+關注
關注
1794文章
47642瀏覽量
239629 -
機器學習
+關注
關注
66文章
8438瀏覽量
132921 -
大數據
+關注
關注
64文章
8908瀏覽量
137644
原文標題:谷歌、Facebook已成數據寡頭,去中心化數據交換打破壟斷
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論