人工智能領域發展迅速。距離2012年ImageNet競賽的深度學習的現代時代僅僅8年了。自那時以來,該領域的進步令人震驚。不僅如此,今后五年內,人工智能領域將與今天大不相同。當前被認為是最先進的方法將已經過時;剛剛出現或處于邊緣的方法或將成為主流。
下一代人工智能將是什么樣子?哪種新穎的AI方法將釋放當前在技術和業務方面難以想象的可能性?AI中的三個新興領域,將在未來的幾年中重新定義社會。
1.無監督學習
當今AI世界中最主要的范例是有監督的學習。在監督學習中,AI模型從數據集中學習人類根據預定義類別進行策劃和標記的過程。(術語“監督學習”源于人類“監督者”預先準備數據的事實。)
在過去的十年中,盡管從無人駕駛汽車到語音助手,有監督的學習已經推動了AI的顯著進步,但它仍然存在著嚴重的局限性。
手動標記成千上萬個數據點的過程可能非常昂貴且繁瑣。在機器學習模型提取數據之前,人們必須手動標記數據這一事實已成為AI的主要瓶頸。
在更深層次上,有監督的學習代表了一種狹窄的,受限制的學習形式。受監督的算法不僅無法探索和吸收給定數據集中的所有潛在信息,關系和含義,而且僅針對研究人員提前確定的概念和類別。相反,無監督學習是一種AI方法,其中算法無需人工提供標簽或指導即可從數據中學習。
許多AI領導者將無監督學習視為人工智能的下一個前沿領域。用AI傳奇人物Yann LeCun的話說:“下一場AI革命將不會受到監督。” 加州大學伯克利分校的教授吉滕達·馬利克(Jitenda Malik)更加生動地說:“標簽是機器學習研究人員的鴉片?!?/p>
無監督學習如何工作?
簡而言之,系統會根據世界的其他部分來了解世界的某些部分。通過觀察實體的行為,實體之間的模式以及實體之間的關系(例如,文本中的單詞或視頻中的人物),系統引導了對其環境的整體理解。一些研究人員用“從其他事物中預測所有事物”來概括這一點。
無監督學習更緊密地反映了人類學習世界的方式:通過開放式探索和推理,不需要監督學習的“訓練輪”。它的基本優點之一是,世界上總是會比未標記的數據多得多(并且前者更容易獲得)。
用LeCun的話來說,他喜歡密切相關的術語“自我監督學習”:“在自我監督學習中,一部分輸入被用作監視信號,以預測輸入的其余部分??梢酝ㄟ^自我監督學習而不是[其他AI范式]來學習有關世界結構的知識,因為數據是無限的,每個示例提供的反饋量很大。”
無監督學習已經在自然語言處理中產生了變革性的影響。NLP得益于一種新的無監督的學習架構,即Transformer,最近取得了令人難以置信的進步,該架構始于Google大約三年前。
將無監督學習應用于AI的其他領域的努力仍處于早期階段,但是正在取得快速進展。舉個例子,一家名為Helm.ai的初創公司正在尋求利用無監督學習來超越自動駕駛汽車行業的領導者。
許多研究人員將無監督學習視為開發人類級AI的關鍵。LeCun認為,掌握無監督學習是“未來幾年ML和AI面臨的最大挑戰?!?/p>
2.聯合學習
數字時代的主要挑戰之一是數據隱私。由于數據是現代人工智能的命脈,因此數據隱私問題在AI的發展軌跡中扮演著重要的角色(并且通常是限制性的)。
保持隱私的人工智能(使AI模型能夠從數據集中學習而不損害其隱私的方法)正變得日益重要。保持隱私的AI的最有前途的方法也許是聯合學習。
聯邦學習的概念最早由Google的研究人員于2017年初提出。在過去的一年中,對聯邦學習的興趣激增:到2020年的前六個月,發表了1,000多篇關于聯邦學習的研究論文,而只有180篇在所有2018年。
如今,構建機器學習模型的標準方法是將所有訓練數據收集到一個地方(通常在云中),然后在數據上訓練模型。但是,這種方法對于世界上的許多數據都不可行,由于隱私和安全原因,這些數據無法移至中央數據存儲庫。這使其成為傳統AI技術的禁區。
聯合學習通過顛覆傳統的AI方法解決了這個問題。
聯合學習并不需要一個統一的數據集來訓練模型,而是將數據保留在原處,并分布在邊緣的眾多設備和服務器上。取而代之的是,將模型的許多版本發送到一個帶有訓練數據的設備,每個模型都在每個數據子集上進行本地訓練。然后將生成的模型參數(而不是訓練數據本身)發送回云。當所有這些“微型模型”匯總在一起時,結果便是一個整體模型,其功能就像是一次在整個數據集上進行訓練一樣。
最初的聯合學習用例是針對分布在數十億移動設備上的個人數據訓練AI模型。正如這些研究人員總結的那樣:“現代移動設備可以訪問大量適用于機器學習模型的數據。。.。但是,這些豐富的數據通常對隱私敏感,數量龐大或兩者兼而有之,因此可能無法登錄到數據中心……我們提倡一種替代方案,將培訓數據保留在移動設備上,并通過匯總本地計算的更新來學習共享模型?!?/p>
最近,醫療保健已成為聯邦學習應用中特別有前途的領域。
不難理解原因。一方面,醫療保健中有大量有價值的AI用例。另一方面,醫療保健數據,尤其是患者的個人可識別信息,非常敏感。像HIPAA這樣的法規叢書限制了它的使用和移動。聯合學習可以使研究人員能夠開發挽救生命的醫療保健AI工具,而無需從源頭轉移敏感的健康記錄或使它們暴露于隱私泄露中。
涌現出許多初創公司,致力于醫療保健中的聯合學習。最有名的是總部位于巴黎的Owkin;早期階段的參與者包括Lynx.MD,Ferrum Health和Secure AI Labs。
除了醫療保健,聯邦學習有一天可能會在任何涉及敏感數據的AI應用程序的開發中發揮中心作用:從金融服務到自動駕駛汽車,從政府用例到各種消費產品。與差分隱私和同態加密之類的其他隱私保護技術搭配使用,聯合學習可以提供釋放AI巨大潛力的關鍵,同時減輕數據隱私這一棘手的挑戰。
今天全球范圍內頒布的數據隱私立法浪潮(從GDPR和CCPA開始,許多類似的法律即將出臺)只會加速對這些隱私保護技術的需求。期望聯邦學習在未來幾年中將成為AI技術堆棧的重要組成部分。
3.變形金剛
我們已經進入了自然語言處理的黃金時代。
OpenAI發行的GPT-3是有史以來功能最強大的語言模型,今年夏天吸引了技術界。它為NLP設定了新的標準:它可以編寫令人印象深刻的詩歌,生成有效的代碼,撰寫周到的業務備忘錄,撰寫有關自身的文章等等。
GPT-3只是一系列類似架構的NLP模型(Google的BERT,OpenAI的GPT-2,Facebook的RoBERTa等)中最新的(也是最大的),它們正在重新定義NLP的功能。
推動語言AI革命的關鍵技術突破是Transformer。
在2017年具有里程碑意義的研究論文中介紹了變壓器。以前,最新的NLP方法都基于遞歸神經網絡(例如LSTM)。根據定義,遞歸神經網絡按順序顯示數據-即一次顯示一個單詞。
變形金剛的一項偉大創新是使語言處理并行化:在給定文本主體中的所有標記都是同時而不是按順序分析的。為了支持這種并行化,變形金剛嚴重依賴于稱為注意力的AI機制。注意使模型能夠考慮單詞之間的關系,而不論它們之間有多遠,并確定段落中的哪些單詞和短語對于“注意”最為重要。
為什么并行化如此有價值?因為它使Transformers的計算效率大大高于RNN,這意味著可以在更大的數據集上對它們進行訓練。GPT-3訓練了大約5,000億個單詞,由1,750億個參數組成,這使現有的RNN顯得微不足道。
迄今為止,由于GPT-3等型號的成功應用,變壓器幾乎只與NLP相關聯。但是就在本月,發布了一篇突破性的新論文,該論文成功地將Transformers應用于計算機視覺。許多AI研究人員認為,這項工作可以預示計算機視覺的新時代。
盡管像Google和Facebook這樣的領先AI公司已經開始將基于Transformer的模型投入生產,但大多數組織仍處于將該技術產品化和商業化的初期階段。OpenAI已宣布計劃通過API將GPT-3進行商業訪問,這可能會為在其上構建應用程序的整個初創企業生態系統注入種子。
從自然語言開始,期望Transformers在未來的幾年中將成為整個新一代AI功能的基礎。過去十年來人工智能領域令人興奮,但事實證明,這僅僅是未來十年的前奏。
責任編輯:tzh
-
AI
+關注
關注
87文章
30763瀏覽量
268906 -
人工智能
+關注
關注
1791文章
47208瀏覽量
238287 -
自動駕駛
+關注
關注
784文章
13787瀏覽量
166405
發布評論請先 登錄
相關推薦
評論