作為市值超過兩萬億美元、現金流領跑業界的科技巨頭,蘋果擁有十分雄厚的學術研究后盾。不過,在人工智能和機器學習(AI & ML)學術領域,我們更多聽到的是來自谷歌、Facebook、微軟、亞馬遜團隊的研究發布的成果和頻繁在各大頂會拿獎的消息,或者在自家的發布會上給 AI技術保絕對的留C位。而蘋果似乎給人一種掉隊的感覺。
也正因如此,業內有一種說法認為,蘋果在人工智能領域屬于“后來者”。
蘋果正在修正這種錯覺。
蘋果AI觀念的改變
時至今日,AI 已經幾乎成為每家科技公司吸引消費者的標配說辭,仿佛推出新產品時如果不提到機器學習或神經網絡,就像在兜售手搖計算器。盡管這種做法可能導致對消費者做出過度承諾。
蘋果在這一點上似乎并無什么事業心:既然可以用產品本身的便利來吸引用戶,為什么要給他們列數學公式和數據圖表?
在2017年的一次媒體采訪中,蘋果 CEO 庫克回應了蘋果很少談及AI以及外界不看好蘋果做AI的問題。他表示:“蘋果的 AI 不被看好,是因為我們不喜歡談論并未實現的功能”。
在那次采訪中,他列出了蘋果公司使用機器學習技術的一個清單:對照片進行圖像識別;Apple Music 能夠從我們的音樂記錄中學習我們的音樂偏好,以此向我們推薦相應的歌曲;甚至, iPhone 的電源管理系統也使用機器學習來研究我們的使用情況并做出相應的優化,以延長 iPhone 電池的待機時間。
其實,想想蘋果在計算硬件上下的工夫——比如近期宣布由外部采購走向完全自有的A系列芯片,也可推測它要用多少AI 技術去“消耗”掉這些算力:蘋果多次公布的 iOS、iPadOS 和 macOS 更新中,有許多以機器學習為核心的功能,例如 iPhone、iPad 和手表的實時翻譯、健康數據收集、iPad 防誤觸等功能。有些功能甚至沒有標識用了 AI技 術,但我們可以很肯定蘋果用了與之相關的技術,例如iPad的手寫識別功能,它在圖像識別任務方面非常出色,特別是頗有難度的中英文字符識別。
AI成果與自家產品深度綁定,但又比較“藏著掖著”,無論是產品發布會還是開發者大會,蘋果都傾向于突出產品的創新,其次才是背后的AI技術。這是2018年之前的蘋果典型做派。
相比之下,谷歌和 Facebook 等巨頭們則是更為開放和高調的主流派,因此也吸引了更多的關注度。用庫克的話來說,他們喜歡談論還處在“未來”當中的東西。
比較顯著的改變出現在2018年底前后,這家公司開始更積極介入到學術圈,包括參加和贊助各種大會,發表預印本論文,公開的研究成果也逐漸不再局限于自家產品。
發生這樣變化的主要原因之一在于,那個時間段,蘋果招募了多名AI大牛人物,例如 John Giannandrea 和 Ian Goodfellow(GANs之父,蘋果的第一篇機器學習論文便是關于GANs,如下圖)。
蘋果的第一篇機器學習論文 | Apple
兩人均來自谷歌AI 團隊,前者是谷歌的人工智能和搜索主管,加入蘋果后負責公司的人工智能戰略,后者是谷歌大腦的明星研究科學家,加入蘋果之后則負責機器學習小組。兩人為蘋果帶去了積極建設AI科研社區的精神。
“(2018年底)剛加入蘋果時,我去軟件部門尋找做手寫技術的機器學習團隊,竟然沒找到,”Giannandrea在一次采訪中表示。
“我當時就知道,蘋果在機器學習領域有太多應該做的事情,但都沒有行動。在過去的2-3年里,這個現象發生了巨大改變,未來還會繼續。”
目前,蘋果正在人工智能領域發力,來提升其軟件和硬件能力,應用的最主要產品是 FaceID 、 Siri 和自動駕駛技術。
與上述故事線平行進行的另一個線索,是蘋果于2017年年中悄悄上線的官方AI博客——Apple Machine Learning Journal。
這個開設時間晚于業界大部分巨頭的AI博客,自然不能和 DeepMind AI Blog 這樣的老牌博客相提并論,但也是蘋果為提升自身公眾關注度做的努力。
真正有趣的事情還是這個博客的內容。我們能看到蘋果正在嘗試用AI解決哪些問題,或許下一個十年最具顛覆性的應用就藏身其中。
Apple Machine Learning Journal
蘋果AI團隊都在做什么研究?
Apple Machine Learning Journal的“開門之作”,是重發了一遍蘋果2016年12月發布的一篇論文,內容與蘋果AI研究的一個核心弱點有關:缺少數據來源。
蘋果長期標榜的商業模式是“不窺探用戶”、靠賣硬件盈利(近幾年軟硬兼顧),因而在獲取大量數據的渠道上受到了限制。這項名為“Improving the Realism of Synthetic Images”的研究,便描述了一種創建可用于訓練面部識別系統的圖像合成方法。雖不是開創性的研究,但也象征著蘋果AI研究如何響應眼前需求。
在那之后,這個博客的內容也越來越多:從圖像到語音到自然語言處理,從深度強化學習到隱私計算到智能代理,Siri團隊、手寫識別團隊、隱私團隊輪番登場,覆蓋的頂會也已經囊括CVPR、ACL、Interspeech、KDD。
博客的論文數量也由2017年的9篇,發展至2020年年初至今的32篇。顯然,蘋果的AI研究輸出越來越密集。
那么,蘋果的AI團隊都在關心哪些AI方向?
以2020年年初至今的32篇文章為樣本,18篇與語音和自然語言處理有關,占比最大。其次是機器學習方法和算法相關論文,共計10篇。余下的涉獵領域包括計算機視覺、健康、人機交互、平臺和框架,以及知識庫和搜索,各有1-3篇不等。有的論文還會同時涉獵多個領域。
這些論文都是預印本,以公布科研成果為主,其中不乏“造輪子”的理論研究和機器學習新框架。另一方面,一些實用性較強的技術很可能已經應用到了蘋果產品中,比如 Siri 和 iOS 中。
最新的一篇是關于糖尿病的研究,被主打機器學習用于醫療健康的會議MLHC(machine learning for health care) 所接收。根據介紹,團隊開發了一種預測1型糖尿病患者血糖的胰島素動力學模型,通過引入由機器學習序列模型驅動的動力學來擴充現有的生物醫學模型。
今年的5篇有趣研究
在所有 2020 年蘋果技術團隊發表的論文中,我們挑選了 5 篇最具有代表性和實用性的論文。
1、實時識別手寫漢字
在針對手寫漢字的研究中,蘋果 AI 團隊利用CNN神經網絡模型,打造了一個漢字識別系統。它可以識別多達 3 萬個手寫體漢字,在多個移動設備上實時運行。
該任務的難點在于漢字書寫的獨特性。每個人的書寫習慣不同,導致每個字都有很多樣式,或許還與標準體存在較大差距。同時,AI 還要面對龐大的漢字詞庫,甚至還有簡繁之分。這對系統的運算速度提出了很高的要求。
以書寫風格為例。在現實生活中,人們習慣用簡化和連筆來提高書寫速度。但 AI 想要準確識別“王和五”,“的和以”之類的十分相似的連筆寫法并不容易。更何況,它還要在不同語種之間切換,分辨用戶寫的是連筆“二”還是“Z”或“2”。
為了兼顧速度和準確度,研究團隊格外注意了訓練數據的收集條件,書寫風格的代表性和訓練技巧。比如他們特意收集了“花”字的多種寫法,以訓練模型學會區分不同的風格:避免把草字頭錯誤地認成十十。
圖 | 研究團隊收集的“花”字寫法
這些字出自不同地區,年齡,性別和教育背景的中國用戶。在碰到生僻字時,有的人還會寫錯筆畫順序,或者是寫出不協調的字體結構。這些意外情況無疑增加了模型的學習難度,但也更符合實際應用情景。
研究團隊在MobileNetV2 CNN的基礎上進行了優化和改良。結果顯示,無論是應對3755個常用字,還是3萬漢字詞庫,模型的準確率始終穩定在96.6%以上,而體積最大只有19MB,在移動端運行完全不成問題。
雖然研究人員沒有提到該技術是否已經實裝,但今年6月的WWDC上,蘋果展示了iPadOS 14的實時手寫識別功能,漢字識別出現在了現場演示中。或許其背后就用到了這篇論文中的技術。
2、Hey Siri關鍵詞觸發檢測
如前文所說,語音識別和自然語言處理是蘋果發表論文最多的領域,而Siri 必然是從中受益的產品之一。僅今年一年,就有至少3篇論文討論的技術和模型可以應用于Siri上。
最典型的應用場景是降低喚醒詞 Hey Siri(你好,Siri)的誤識別率。
在一篇論文中,研究團隊為服務器端的大詞匯量連續語音識別(LVCSR)構建了一個 RNN 神經網絡,用于后處理設備端發回的語音數據。目的是對其進行二次分析,確認用戶是否真的說出了激活詞。
理論上,我們可以直接改進 LVCSR,讓它識別語音數據的開頭是否存在激活詞。但在實際操作中,LVCSR 傾向于判定開頭存在激活詞,效果不佳。
為此,研究團隊創造了一個 1500 個參數的雙向 LatticeRNN 神經網絡模型,用于從統計角度推理關鍵詞觸發的概率,還要保證不能增加太多延遲。
該模型可以很好地補強 LVCSR 不足的地方。由于信息的傳輸有特定的方向,因此在明確給出激活詞的時候,Hey 和 Siri 與執行任務的關系更加緊密(需要用到后驗概率),而在誤判的情況下,語音數據中各個詞匯的關系很松散。
舉個例子,當你讓Siri查詢天氣時,Hey Siri 和后面的查詢天氣存在清晰的聯系。但如果是一段電視廣告,或者是發音相似的詞匯激活了 Siri,那么詞匯的關系大概率是隨機的,找不到太大的關聯。訓練后的神經網絡就可以利用這點來判斷。
結果顯示,引入雙向LatticeRNN之后,誤觸發幾率比只用LVCSR大幅下降60%。
類似的技術也可以應用在智能音箱上。在另一篇論文中,另一隊研究人員就采用多任務學習策略,改進了現有的 biLSTM 模型,以提升智能音箱在不同環境下捕捉激活關鍵詞的準確率。也許日后會在蘋果升級版HomePod 上見到。
3、預測糖尿病患者血糖變化
今年8月6日,蘋果AI發表了第一篇健康領域的論文,討論如何利用機器學習模型預測1型糖尿病患者的血糖水平。這有助于制定更有效的血糖控制策略和閉環治療方案。
由于身體無法產生足夠的胰島素,糖尿病患者必須終身依賴胰島素治療。但研究表明,胰島素的注射量最好與血糖變化水平吻合,才能最大程度上發揮作用,并且避免胰島素過多導致的低血糖等問題。
為了找到“恰到好處”的劑量,研究人員在現有的生物醫學模型基礎上,引入了機器學習技術,構建了一套血糖-胰島素動態模型,可以預測1型糖尿病患者的血糖變化水平,時長最多可以達到6個小時。
他們采用的深度狀態空間模型(Deep State-Space Model)可以在胰島素敏感性,時間和血糖數據等參數之間建立動態聯系。這既保證了算法的靈活性,也保證了臨床上的可解釋性。
在與 LSTM 和 ARMA 等基準模型對比時,該模型的預測表現超出它們30%以上,而且與胰島素和碳水化合物形成的生理效應一致。
論文中用到的血糖變化數據收集自蘋果健康套件 HealthKit ,但不清楚是不是由蘋果手表完成的。最近已有多家媒體報道,蘋果正在研發非侵入式血糖測量技術,還有消息人士披露,CEO 庫克還親自佩戴了原型產品。
HealthKit是蘋果進軍健康產業的重要基石,拓展它的能力范圍,就相當于拓展未來的業務范疇。如果未來手表可以預測血糖水平,一定會成為很多糖尿病患者的福音。
4、利用GAN改進虛擬鍵盤滑行輸入
虛擬鍵盤滑行輸入,是蘋果在 iOS13 新加入的功能,但其實很多第三方輸入法早就開發了相同的功能。熟練掌握后,它可以顯著提高輸入速度。不過預測滑行輸入的詞匯更為復雜,因為滑行帶有更多的不確定性。
蘋果 AI 團隊今年4月發表了一篇論文,討論了使用基于 Bi-LSTM 的對抗生成網絡 GAN 改進滑行輸入預測。
這是一種十分新穎的解決思路。傳統方法需要大量訓練數據,而真實的滑行輸入軌跡很難收集和注釋。利用 GAN,可以模擬出更加真實的軌跡,幫助改進滑行輸入法的預測模型。
研究團隊首先收集了 665 名用戶的真實滑動輸入軌跡。他們的年齡在18-70歲之間,大約20%是左撇子。每人都被要求在6個不同布局和尺寸的屏幕上輸入,最終共收集5.5萬個英文單詞,平均每人畫出了3300條軌跡。
這些數據被用來訓練GAN,同時還涉及到風格轉移技術。結果顯示,GAN生成的滑動軌跡的確更像真實用戶的操作。
單詞“Anybody”的滑行軌跡:真實用戶軌跡(上),普通合成軌跡(左下),GAN生成軌跡(右下)
例如,在連接兩個距離較遠的字母時,人類的軌跡會出現自然的弧度,而不是一條直線。原因可能是屏幕尺寸較小,人們有時會轉動手腕帶動手指移動。此外,在單詞結尾處,人類偶爾受慣性影響會稍微滑過一些,不會100%停留在正確的字母上。
這些小細節都被GAN捕捉到了。最終測試顯示,將GAN生成的軌跡用于訓練預測模型后,該模型的準確率最高提升了4.6%。
5、預測詞語流行度,提高語音助手準確率
對于Siri之類的虛擬語音助手來說,當用戶只給出一個名詞時,往往是最困難的時刻。缺少背景資料和動詞,不僅會讓它不知所措,還會降低識別準確率,混淆發音相似的詞。
可是在日常生活中,很多人偏偏喜歡只說一個詞或者人名。通常是想查詢有關該實體的基本信息,但也帶著一絲考驗。
蘋果AI團隊專門研究了這種情況。在今年5月發表的論文中,他們探索了如何提升虛擬語音助手對此類問題的應對能力。
具體來說,論文討論了三大課題:
1.能否從虛擬助手的查詢記錄中預測某個詞語或實體的流行度,并用預測結果改善語音識別準確率?
2.添加更多的歷史數據能否改善實體流行度的預測準確度?
3.不同信號(模型特征)在相互獨立的狀態下能否有好的表現?
針對上述課題,研究團隊首先開發了一套框架,用于在自動語音識別系統(ASR)中找出經常出現的詞語主體。這實際上是對歷史語音數據的的檢索,因此用到了機器學習和信息檢索技術。
他們使用了兩套機器學習模型:AdaBoost和前饋神經網絡。模型本身并不復雜,但足以勝任該任務的分類器。
至于訓練數據,他們收集了超過30萬個不同實體名詞的語音數據。論文提到它們來自“某款美國流行的語音助手”,鑒于這是蘋果自家的研究團隊,十有八九是來自Siri的數據。
結果顯示,無論是AdaBoost和前饋神經網絡,都能有效降低單詞識別錯誤率。
歷史數據越多,準確率越高,但最明顯的是歷史數據時長從1周增加到2周,準確率提升了20%,隨后每增加1周數據,帶來的提升只有1%左右。此外,表現最好的模型是將所有特征集合起來,而非獨立狀態。
當然,除了5篇論文,蘋果還有很多論文值得一讀,例如用語音數據檢測用戶情緒元素,創造新的問題查詢分析框架Tempura,提升智能音箱的多語種處理能力等等。
責編AJX
-
蘋果
+關注
關注
61文章
24395瀏覽量
198565 -
人工智能
+關注
關注
1791文章
47186瀏覽量
238267 -
機器學習
+關注
關注
66文章
8407瀏覽量
132567
發布評論請先 登錄
相關推薦
評論