2017 年 10 月11 日,阿里巴巴 CTO 張建鋒在杭州云棲大會上正式宣布阿里成立達摩院,致力于開發基礎科學、顛覆性技術,旗下設 5 大領域 14 個實驗室,其中就包括主攻人工智能技術的機器智能實驗室。 當時,恰逢人工智能技術開啟商業化進程,阿里組建達摩院,也被認為是阿里全面升級人工智能的技術、商業布局的重要舉措。 阿里不算在人工智能上布局特別早的國內公司,但隨著達摩院這兩年的成長,其在人工智能技術布局的深度、應用的廣度上又到達新的階段。尤其機器智能實驗室,現已是整個阿里經濟體中最核心 AI 技術的輸出口。
圖丨達摩院 5 大領域 14 個實驗室(來源:達摩院)這主要體現在,達摩院機器智能團隊已經發展成為擁有 10 位 IEEE Fellow、20 多位知名大學教授的 AI 研發團隊,源于達摩院智能實驗室的技術,也正在成為阿里每日向全世界 15 億人提供的百億次服務背后的重要支撐。 “最核心的人工智能技術匯集在這個部門,我們這個部門定位支持所有其他阿里經濟體對人工智能追求的最大核心技術研發”,近日,達摩院機器智能實驗室智能技術事業部首席架構師王駿在接受 DeepTech 采訪時如此表示。
圖丨阿里巴巴人工智能版圖(來源:阿里巴巴)在機器智能算法體系上,阿里的 AI 技術研發方向已經涵蓋語音智能、語言技術、機器視覺、決策智能等方向。采訪當天,達摩院機器智能團隊也宣布其自主研發的語音合成技術突破——KAN-TTS。 達摩院語音實驗室高級算法專家雷鳴介紹稱,該突破可大幅提高合成語音與真人發聲的相似度,并將語音合成定制成本降低 10 倍以上。另外,當前業界商用系統的合成語音與原始音頻錄音的接近程度通常在 85% 到 90% 之間,而基于 KAN-TTS 技術的合成語音可將該數據提高到 97% 以上。更大的變化是,對于像 KAN-TTS 這樣的最新技術突破,阿里內部已經達成“最先進技術零時差上云”的共識,即“阿里有什么,阿里的客戶就能拿到什么”。
(來源:達摩院)
在近 2 個小時采訪的過程中,達摩院機器智能實驗室和我們分享了其成立以來取得的主要技術突破,以及從實驗室落地商業場景的邏輯,其中,一家國外公司被反復提及,而且和外界一般認知的不一樣,這家國外公司并不是 AI 公司。它就是博世。博世被屢屢提及的原因是,阿里已經明確發展 AI 技術要走“被集成”的模式,正如博世在汽車產業界中的地位和角色——盡管沒有一輛車掛著博世的牌子,但博世的零部件幾乎被集成到了每一輛車中。
(來源:博世)
目前阿里 AI 技術被集成的出海口,就是上云:AI 技術不但用以支撐阿里自己的業務,在某些特定場景中服務外部的頻次還會大于服務內部。但阿里現在并沒有一個固化的標準去衡量達摩院的 AI 技術能夠帶來的具體效益。對此,王駿表示:“我們是整個智能技術被阿里云集成的概念,我們這個部門的價值是被集成的價值,而不是那種簡單的商業價值”。 達摩院語音實驗室負責人鄢志杰也提到,現在還遠不到劃分一二、搶市場排位的階段,AI 技術究竟能夠為阿里、為行業帶來多大的價值,仍有待和行業的客戶一起探索。另外,DeepTech 了解到,在接下來 9 月的云棲大會上,達摩院還將宣布在 AI 上的重要突破,尤其是在芯片上的進展。去年的云棲大會上,阿里宣布將此前收購的中天微和達摩院自研芯片業務整合成“平頭哥半導體有限公司”。平頭哥成立的這近一年時間,達摩院的算法研發人員也和這支硬件隊伍有了大量的探索和合作。
圖丨阿里成立平頭哥(來源:阿里巴巴)以下為本次采訪的 Q&A 精華(經過基于原意的刪改):談研究方向:不會單做純理論的研究
問:達摩院的屬性有幾個重點,它是一個全球性的研究機構,研究創新跟產品研發并重,在確定重點研究方向上會給研究人員一些自由度,也會兼顧短期、中期、長期的規劃,聽起來和微軟亞洲研究院的感覺挺像的,你們會常和微軟亞洲研究院交流對比嗎?鄢志杰:技術方面的互相交流也好,或者是互相觀察也好,是很常見。馬上要開的一場業內語音學術會議,我們有8篇論文發表,來自新加坡、中國大陸跟美國的實驗室,也會在那個場子里面互相交流。在技術上,我們無論是與微軟還是谷歌,都有很密切的交流。 但是我自己認為不同的點在于,建立這個團隊的時候我們想把研究跟工程放到一起,希望有兩個循環,第一個循環是研發可以迅速轉化為產品,像我們在TTS的突破。從它的雛形做出來到最后的產品上線可能是非常短的一個耗時,讓阿里云智能圈子里面的客戶可以第一時間享受到。 同時,一個業務的需求如何沉淀為技術的成果?我們通過技術的工作、核心算法的工作,訂制一個成本數量級,跟業務放到一起的好處是,任何來自于真實社會的訴求,會第一時間傳到算法這邊來,幫助我們有方向上的判斷。所以你看到,我們團隊不單單會做所謂純理論性的項目,還會研發有實際應用情景的技術。
圖丨鄢志杰,中國科學技術大學博士,IEEE 高級會員。長期擔任語音領域頂級學術會議及期刊專家評審。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員(來源:達摩院)問:現在研究成果落地的場景是偏 C 端的多、B 端的多、還是 G 端的多一點?王駿:從我的角度看,我們三個方面都有。例如語音,語音是 2C 的技術,但我們用它服務 B 端的客戶,這是 2B2C 的模式。我們不做端到端的產品,而是做了一個模塊去 B 端集成,另外,我們還有一個訴求是要服務開發者,整個阿里已經有很多開源的技術,包括語音上我們去年發布了開源的模型。將來我們還有更多的開源產品去供給個人開發者以及集成的客戶。問:現在在研發中遇到過的問題是什么?王駿:我講兩個例子,剛才講數字化到智能化,但很多行業數字化都沒有做得很好。我們接觸過這樣的案例,行業很難形成一個標準的對 AI 的需求,技術供不應求,沒有辦法去做。我們有過幾次嘗試,發現這家做的東西那家用不了,這邊的模型到那邊不能用,基本上是信息化程度不夠的行業。我們也做了一些變通的方法,例如開發自學習的平臺,把制作 AI 的工具交給我們的合作伙伴,大家一起去做。阿里巴巴不可能把所有的事情都做了。談落地:最先進技術零時差上云
問:最先進的技術上云,但先進的技術用戶不一定會買賬,比如成本過高的時候它上云可能就會被冷落,這種情況怎么考慮?雷鳴:被冷落是被市場或者客戶冷落,我們跟市場客戶站在一起,從客戶市場拿到需求,整個過程中密切進行溝通,抓住他們的痛點做一些研發,做他們會愿意去接受、愿意花錢的產品或服務。客戶很多時候愿意和我們去共創一些東西。跟客戶站在一起往前走可以解決問題。
圖丨張建鋒曾提出阿里云戰略加速的“四級火箭”:達摩院加持的云、數據智能的云、最佳實踐的云和被集成的云(來源:阿里巴巴)問:企業設立的研究機構怎樣打破部門間的隔閡,怎么讓研發團隊和產品團隊能夠做好落地?為什么過去有些機構或項目做的效果不好、有的做的好?王駿:我們部門跟其他部門不一樣的是,我們底下有技術和工程、資金和產品,非常統一地整合到了一起,避免了很多技術低效率的問題,這是第一個。 整個對阿里集團來說,最核心的人工智能技術匯集在這個部門,我們這個部門定位支持所有其他阿里經濟體對人工智能追求的最大核心技術研發,不可能去做一些硬件。這個背景下,我們從集團層面解決了內部的問題。 阿里的經濟體非常復雜,我們找不出第二個有這樣豐富場景的存在,涵蓋電商、物流、娛樂等等,加上我們又是核心技術團隊,比較有機會在業務支持中,先把技術提煉出來。比如大規模的分類問題,拍立淘的搜索技術要支持手淘的需求,工作量都是千萬級的,我們開發這個技術,就要從圖像搜索到圖像識別都能支撐。問:機器智能實驗室今年有營收預期嗎?王駿:有也沒有。我們是整個智能技術被阿里云集成的概念。我們這個部門的價值是被集成的價值,而不是那種簡單的商業價值,因為人工智能技術和人工智能技術產品作為一個商品的存在,整個市場處于早期的階段。
圖丨達摩院至今在 AI 方向上取得的一些技術進展(來源:達摩院)談技術邊界:芯片、中臺、決策、深度學習框架
問:在達摩院內部,實驗室和芯片團隊的合作情況是?答:因為阿里自己做芯片,算法跟芯片的團隊有深入合作。芯片今年會有重要進展,但暫時不能透露更多了。問:阿里在做技術中臺,實驗室在其中扮演的角色是什么?怎么有助于跟其他的業務去協作?王駿:我覺得中臺你要清楚是業務還是什么。我們剛才講了跟業務平臺合作,表明了我們不去做那種端到端的業務,只做核心的技術。語音合成的技術,我們做出了 KAN-TTS,不可能做政法行業或者教育行業的系統。我們提供彈藥,通過伙伴去投放,他們做行業應用。問:中臺的建立有助于我們在阿里內部跟其他業務部門做協同嗎? 王駿:我覺得這是一個非常好的方式,可以提效,避免低質量。在核心數據上有一個核心的團隊去做,具體落地的時候,應用研發的可以交給業務團隊或者生態伙伴去做,更好發揮作用。
圖丨AI 大牛賈揚清今年 3 月加入阿里(來源:互聯網)問:今年阿里可能在 AI 上面,有一個比較重要的人事變動,那就是 Caffe 的核心作者賈揚清加入阿里云,他的加入會不會給達摩院的方向也帶來一些改變?未來也我們會去研發一個自有的深度學習框架?答:機器智能的四個實驗室主要是在做機器智能技術應用層,他負責的是我們阿里云的大計算平臺,還有超規模機器學習平臺,是做訓練的,比較偏底層,或者基礎訓練這一塊,賈揚清的加入肯定對于阿里 AI 的發展是一個非常重要的助力。問:達摩院的邊界是什么?王駿:整個達摩院的架構比較大。人工智能這個角度說,我們構建人工智能底層最核心的技術,從芯片到平臺到上面的核心算法,語音、優化等等。但我們不會做行業應用,會在行業里面和伙伴去發展。一句話總結,我們做人工智能整個生產鏈中最核心的從硬件到平臺到研發,大概就是這些。問:在決策方面,目前探索了哪些方面?今后有什么計劃?王駿:我個人的理解,人工智能技術分為三個階段,第一個階段是過去的知識總結,第二個是預測,第三個是優化。決策和優化是最后面的環節也是最難的之一。 目前來說,我們整個決策技術是以對內服務為主,因為你要改變這個系統,實際上最好在這個業務里面有一個強大的交互過程,簡單來說,就是語音計算怎么去優化,調度怎么去優化。這個方面我們仍以對內服務為主,從業務需求出發,然后進行匯總,服務好內部之后,再想辦法去慢慢形成產品化以后對外輸出。鄢志杰:補充一下語音的情況。我們團隊從成立到現在五年的時間,成果已經用在阿里淘寶和支付寶的客服,但是對外,我們的客戶也有很多行業頭部公司,比如說像中國移動,他們的客服量是非常大的,我覺得這些外部客戶加起來的服務量,整體上已經遠遠超過我們用在內部的客服的服務量,這是我想澄清一下我們的技術對內對外的關系。
另一個補充,我們的技術對內對外會不會有區別? 對內無非是支付寶、淘寶的客服場景,遇到問題,實驗室內部一起解決就好,但真正在對外服務的時候你會發現,很多客服中心的需求撲面而來。這個過程中我特別想提“共創”二字,而非“賦能”的說法。為什么呢?苦苦追尋的 AI 技術本身到底對我們的生活、跟我們2B的整個商業到底能產生什么實打實的價值,未知。所以我不想用賦能,好像顯得我們很有“能”一樣,我想用“共創”這個詞。 AI 到底能夠在行業里產生什么價值?大家要排誰是第一、第二、第三,但可能連題目都還沒有被定義。所以我覺得一切還為時尚早,而且現在已經過了單純比拼算法、單純打一個點的階段,大家面臨更廣闊的未知,就是到底這些所謂的算法能在生活中產生什么價值。這個探索才剛剛開始,現在的體量離大家去競爭市場排位還很遠。
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238264 -
阿里巴巴
+關注
關注
7文章
1613瀏覽量
47169
原文標題:阿里最核心AI技術團隊已成型,芯片今年將有重要進展丨對話阿里達摩院
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論