德國人工智能研究中心(DFKI)成立于1988年,是全球最大的基于人工智能的非營利軟件技術中心,是德國最大的從事軟件技術和應用的研究機構,研究方向覆蓋大數據分析、知識管理、畫面處理與理解、自然語言處理、人機交互、機器人等各個領域。中心成功吸引了谷歌、英特爾、微軟、寶馬等多家全球前十的頂級科技企業的投資。
不僅如此,DFKI在科技成果商業轉化方面也有深厚積累,已經孵化百余家創業公司。其中,50多家目前保持著較高的市場活躍度,在各自所處的細分領域也都極具競爭力。
3月29日,DFKI科學董事漢斯·烏思克爾特(Hans Uszkoreit)教授受邀出席2018新智元產業躍遷AI技術峰會,并與新智元交流了中美歐人工智能市場和技術發展差異,以及他認為有前景的研究方向。
如何構建一家偉大的人工智能研究機構?DFKI在科技成果轉化方面遵循一套怎樣的流程?深度學習在自然語言處理方面有怎樣的發展?本文一一給出解答。
漢斯·烏思克爾特(Hans Uszkoreit)
歐洲科學院院士
深知無限人工智能研究院院長兼首席科學家
漢斯·烏思克爾特教授是德國人工智能研究中心(DFKI)科學董事,北京深知無限人工智能研究院(AITC)院長兼首席科學家,聯想研究院人工智能首席顧問,柏林工業大學榮譽教授,歐洲科學院院士和國際計算語言學委員會成員。烏思克爾特教授多年來從事并引領著人工智能領域的學術及研究工作,尤其在語言和知識科技領域,擁有超過30年的經驗,參與創立并指導了數十家人工智能初創公司,其研究成果刊登于200多家國際出版物。
如何構建一家偉大的AI研究院:最激烈的競爭是爭取人才
DFKI是世界上最大的人工智能研究機構之一,到2018年正好有30年的歷史,成果豐碩。很自然地,如何創建以及管理這樣一家偉大的AI研究機構,就成了我們首先請教烏思克爾特教授的問題。
烏思克爾特教授告訴新智元,如今的情況與30年前發生了很大的變化。“30年前,就算前路坎坷,只要我們非常有遠見,有一個強大的團隊,得到業界和政府專門支持,就可以著手成立研究院。我們有充足的時間去發展和改變研究主題,同時探索和不斷適應商業化戰略。”
“但在今天,雖然社會對人工智能的需求變大了,但競爭也很激烈。最激烈的競爭就是爭取人才。因此,需要仔細計劃,選擇主題,決定次序,整理強有力的材料,才能找到需要的專業人才。
“總體來說,要完成現有前沿技術商業化,還需要踏踏實實、兢兢業業做好研究(以及金融支持),明天才可以獲得新成果,畢竟今天的技術也會成為歷史。”此外,擁有一個國際化的顧問團隊也很重要,“在疑惑時幫你做正確選擇,在受到資助方質疑時維護你、支持你,借鑒經驗,且保持科學高標準。”吸引人才的最強磁鐵是人才本身;錢不是最主要的,但沒有錢不行
如今,DFKI旗下有千名研究人員,其中不乏院士、兩院院士甚至三院院士,在眾多領域展開交叉合作。這對管理提出了極高的要求。與此同時,近幾年來,以谷歌為首的科技巨頭也在AI人才方面大量挖掘。作為DFKI的管理者,烏思克爾特教授表示,招聘和留住年輕的優秀人才和經驗豐富的專家,一直都是最大的挑戰之一。
“吸引人才的最強磁鐵是人才本身,尤其是成功人士。壯志酬酬的年輕研究人才會被值得學習的對象吸引,會被可以讓人才成長和增長才智的地方吸引。一個新成立的研究中心很難迅速達到這種程度。除非成立之初就有一批能人相助,不然就要慢慢積累以達到高水平。”“為了吸引年輕人才,錢不是最主要的。然而,想要在人才稀缺,薪酬隨之飛升的時代,要留住經驗豐富的領袖人才,錢就成了重要問題。”
“但還是有成熟的研究員愿意做基礎研究,即使同行的工資是他們的兩倍。但現在行業內工資上漲了三倍,產業界有很多機會從事振奮人心的研究,波動隨之變得很大。公共研發資助必須適應這種環境,年輕的博士生也要快速成長,承擔領導任務。”
孵化公司是研究成果商業化的一條重要渠道,要在市場需求產生前創立公司
DFKI成功的一大因素,在于其自籌建之初就非常注重對從研究到實際應用的轉化,積累了大量產業成果。不僅如此,自成立以來,DFKI在全球范圍內孵化了Chusable、B4、Ascella、Camelot、DHC、Digipen等在內的數十家分支機構,孵化了近百家AI科技公司。其中,50多家目前保持著較高的市場活躍度,在各自所處的細分領域也都極具競爭力。
烏思克爾特教授說,DFKI擁有多種渠道將研究成果商業化,孵化公司就是其中之一,也是很重要的一條渠道。“我們僅在極少數的情況下直接對接市場,換言之就是在規范的軟件平臺上出售產品,因為想要保持這種商業模式,必須建立和穩固銷售及支持團隊。”
DFKI成功實現商業化的原因之一,是他們的戰略規劃方案。每一個研究中心都有短期和長期發展路線圖,這些路線圖由研究團隊制定,再經DFKI指導委員會會議討論、修訂和最終協調確定,實現研究目標和研究機遇同實際需求和未來期望相互結合。如此一來,可以在熱點話題變成熱點之前開展研究。
“但找出最合適的一條商業化渠道,還是需要一段時間。”烏思克爾特教授說。
中國現有AI研究尚不足以支撐垂直領域解決方案
在AI技術落地方面,歐洲、美國和中國的現實情況存在很大不同。以創業公司為例:DFKI成功孵化了很多創業公司,但在德國或者歐洲,有時候孵化公司雖然成立,但市場還未產生前沿技術需求。
在德國,前沿技術需求市場數量很少,遠遠不及美國或者中國。很多德國公司規模尚小,又走不出歐洲市場。癥結或在于歐洲市場規模較小,市場估值較小,外資規模自然小于美國和中國。這就導致很多DFKI的孵化公司發展速度遠遠低于中國或美國的平均水平。
但烏思克爾特教授指出,這樣做仍然比在需求產生后再成立公司要好,因為市場需求產生后,經濟實力更加雄厚的競爭者會成立規模更大的公司。“即便市場還沒有準備好,初創技術公司仍然可以依靠堅實的創新技術繼續發展。”
另一點不同是產業結構。美國互聯網產業發展速度十分可觀,中國是全球唯一擁有大規模互聯網產業且能與美國媲美的國家。美國電子產品產業規模也十分巨大,中國、韓國和日本也擁有優勢,德國卻沒有。德國的制造業發展強勁,但大多服務于出口,中國也是如此。所以,“中國和德國都需要人工智能賦能制造業走向世界。”
烏思克爾特教授認為,在中國成熟人工智能技術商業化要容易得多。“如果在中國也有一家DFKI,市場需求規模大,投資規模大,商業化會比在歐洲容易得多。”
在中國,大多數人工智能研究都集中在幾個領域,近期重大突破促進技術發展日臻成熟。中國在計算機視覺產品開發方面處于領先地位,在機器人研究和人工智能增強數據分析方面實力雄厚,語音技術發展日趨強勁,機器翻譯逐步完善。
但是,“中國現有的研究還不能滿足垂直解決方案需求,這種方案結合多種人工智能技術和可循環利用的顯性知識,對制造業、醫療、交通和旅游業發展都有益處。在視覺產品開發方面,中國很有可能在國際市場上取得成功。我覺得中國在幾個有關機器人研究的領域也會取得領先地位。關于基于海量知識的應用,語言障礙是很大挑戰,因為就連結構化知識也極大地依賴于語言。”
最有前景領域:將深度學習和結構性知識相結合
在談到最近自然語言處理領域令他興奮的工作和進展時,烏思克爾特教授不出意外地提到了機器翻譯。機器翻譯實現跨越式發展令他非常激動,雖然現在的機器翻譯還不能完全取代專業譯員,但還是很受用戶歡迎。
“得益于深度學習,端對端的基于神經系統的自然語言處理發展速度非常驚人,相比之下,用于深度解讀,基于語言學和知識的自然語言系統發展速度就相對扎實平緩。這說明語音識別系統、語音生成系統、中等質量機器翻譯、簡單問答系統,甚至短篇新聞報道生成系統,都具備應用于現實的能力。”
但是,在自然語言處理領域和計算機視覺領域,要實現“理解”場景和觀察行為,我們需要更多世界知識,這也包括從標記文本、標記圖片中得到的常識知識。“大多數知識只有在你已經擁有很多知識的情況下才能獲得,對機器來說也是如此。”烏思克爾特教授說:“因此,現在應用于自然語言處理的學習方案,還不足以讓產品生成對話、文本理解或高質量翻譯,必須有更多知識才行。目前的系統在現有標注語言數據中還歸納不出這么多知識。”
“我覺得最有前景的研究領域就是把深度學習和在維基數據、DBpedia和谷歌搜索的知識圖譜中找到的結構性知識相結合。這并不意味著我們要將所有需要的知識機械地表達出來,大部分知識可以被自動提取。但這就意味著我們需要神經網絡實現系統的獲取知識,并不同階段持續學習。”
“研究機器學習會演化更大的領域,包括研究機器教學或全面機器教育,將涵蓋控制獲取基礎世界知識,常識知識,語言能力和專業領域知識。”
以下是漢斯·烏思克爾特教授在2018新智元產業·躍遷AI技術峰會上的演講《基于知識和機器學習技術的人工智能強化決策支持應用》。
漢斯·烏思克爾特:各位下午好!今天我想談一談AI在深度分析現有動態數據和動態資源方面的應用。
在機器學習出現之前,AI領域有兩種系統:一種是基于知識的系統,比如基于規則的信用檢查系統;一種是基于行為的系統,比如傳統反應性的機器人控制。機器學習出現后,機器不僅可以學習行為,也可以學習知識。
有些人可能會很意外,Google的機器翻譯并不是基于知識的,而是基于行為,或者說基于人類的經驗,它的基礎是大量已經有過翻譯的文獻和文本資料。無人駕駛也是基于人類行為的一種系統。同樣的還有閱讀理解,嚴格來講并不是“理解”,而只是從人類的語言當中學習記憶。
相反的,IBM Watson是基于知識的一種系統,文本分析系統也是基于知識的系統,還有聊天機器人,和人聊天的時候,在自己的系統當中尋找答案。
我們可以在這些基于知識的系統當中看到基于行為的系統,比如在學習的時候,除了以知識為基礎,還會學習行為和經驗。
我們為什么會看到這樣的發展?為什么以前沒有這樣的變革?因為五大領域的進展,包括大數據、機器學習、知識技術、互聯網技術和硬件。
AI發展有4個階段,啟發式搜索和推理,基于人工設置的規則進行知識處理,從海量數據中進行機器學習,最后是結合了機器學習和知識技術的認知系統。
現在有兩大令人興奮的發展,其中一個是網絡2.0、語義網(也即“網絡3.0”)和數據知識社區,比如維基百科、維基數據和DBPedia。另一個就是各種相連的系統,現在我們有非常多的數據庫,我們常說的物聯網信息物理系統,還有工業4.0當中的“數字雙胞胎”(Digital Twin,指物理資產或流程的軟件模型)、智能企業等以產品為驅動力的生產行為。總體來講,所有智能企業都是屬于這個領域。
在工業4.0概念中的智能工廠,其核心是智能制造,基礎是產品、經驗和記憶。拓展開去,外面的部分并不完全來自制造業,比如智能出行、智能物流和智能樓宇。
現在我們做的工作,原先并沒有出現在這幅圖景當中,但也十分重要,比如最重要的競爭者、消費者和供應商,有了這些,工廠才能正常運營,媒體也很重要,包括投資方和監管方,還有技術的提供方。
我們需要把這些結合到工廠的運作當中,要把圈內的內容和圈外的內容結合起來,才能做到企業的管理、工廠的管理。這些工作看起來好像和我們狹義的生產制造不是那么近,但其實這是很重要的,比如我們要知道智能客戶關系管理、客戶喜不喜歡我們的東西,還可以做到智能的項目管理,也要知道供應商提供的物料來源怎樣、價格怎樣,還需要社會政府關系,所有的這些都是我們工作的一部分,這樣才能帶來企業的成功。
因此,我們需要得到許多外部的信息和數據,很多可能需要買,但還有很多數據是開放和開源的,比如網絡上的資料、新聞媒體的報道、社交媒體的資料。我們可以分析這些外部的數據和信息,幫助圓圈內部的企業和工廠,加入到他們的決策和運作當中,比如我們可以做偏航的預警,也可以做到流程的優化和預測分析,根據過往的經驗預測這個月或者下個月哪種產品會有更好的銷量。
以產品的銷量分析為例,我們就希望能夠分析為什么有的時候銷量是上升的,有的時候銷量是下降的,再把銷量的數據和其他數據進行比較。現在我們專門拿出來一條天氣的曲線,比較天氣的曲線和銷量的曲線是有大致的相關性,但并不是完全相關。
我們繼續分析更多的信息,可以看到一個高點,紐波特舉辦游艇展的時候,給我們帶來了更多的銷量,這是不是因為有了更多的人來到這個區域?
不光是簡單分析一家企業或者工廠的數據,各個地區的許多家企業聯合在一起,都可以應用這樣一種分析的方法和思路。
這張圖展示了銅的銷量,高級銅的售價有升有降。為什么銅價會急劇上升?可以發現那段時間在智利的北部發生了地震,所有的這些紅點都是銅礦,所有的藍點都是煉銅廠。這個圓圈的波紋是地震的范圍。我們需要知道地震是否真的影響了銅價,做了分析以后發現,當時的地震和銅價的上升是沒有關系的。
有時候我們會聽到很多的傳聞,A影響了B,B影響了C,但不管是否最后真的相關,我們都需要讓機器來學習,因為并非每一個人都會根據特定的規則和傳統來行事,所以我們都需要讓機器來做分析和學習。
還是在這個銅價表上,藍色圓圈的位置是銅價下跌了,這個時候發生了什么事情呢?當時有新聞報道,中國的銅礦價格平穩。這條信息并沒有什么負面性,只是講到了中國的銅價是持平的,但展示了資訊的影響力。因此,緊跟資訊是一件很好的事情,能夠幫助我們做出商業上的決策。
這是大英百科全書的圖片,我們知道它的內容非常詳盡,但維基百科的資訊量更多,里面不僅有傳統百科全書的內容,還有很多新的數據和資訊。這里有達芬奇、蒙娜麗莎和米開朗其羅這些有關聯的概念,建立起了知識圖譜。
知識圖譜也是現在Google、百度、必應搜集和存儲信息的一種方式。這是開放數據網絡,有些是電影的數據庫,有些是元素的數據庫,可以說是無所不包,但它們都在語義上相互關聯,對知識系統來說越來越重要。
我們可以把所有的知識放在一個系統當中,這些知識系統沒有我們大腦的局限,在這種情況下,機器就會勝過我們,因為我們沒有辦法拓展我們的大腦。在智能工廠中和人互動的機器人,它們在情商和智能方面也會越來越高,這可能就是未來的發展方向。
在我們的項目當中,我們會把不同的數據結合起來,比如氣象學數據、地理數據,還有一些內部企業數據。我們說服一些公司,讓他們把知識放到我們的知識圖譜當中,這些數據就會變成一種新的形式。我們在想怎樣才能把公司內部和外部的數據鴻溝彌合起來,怎樣才能讓這些數據為人所用。
我們和西門子以及更小一些的市場研究公司,比如VICO、維基百科以及其他的合作伙伴,聯手建立了一個世界性的項目,總部在柏林。我們想把內部企業數據、公開數據和公開知識相連接,而為了實現這一點,我們就需要知識圖譜、開源方法和工具,通過語言、技術和結構性、統計性的學習,這種工具叫做Apache Flink,對流數據的處理更好一些,我們也有很多的流數據,所以把這些都嵌入到大數據的平臺當中,通過方法分析這些數據,并且和公司實現這些數據的利用。
我們有兩個商業領域的應用,供應鏈管理和市場研究。包括一些大公司在內,對于這兩個方面都有很大需求。這是Smart Data Web(SDW),就是智能數據網,可以將不同的數據結合起來。SDW的理念是把公網上的信息和企業的內部信息連接起來,這樣我們就能夠把公開數據和企業數據結合起來,而不是把這個企業的數據拿出來,因為企業不喜歡把他們的數據拿出來,另一方面,維基百科也不喜歡單獨的公司把他們的世界觀放到維基百科上面。
同時,我們必須找到方法來使用不斷增長的數據,獲取最核心、最重要的信息,比如地震在哪里,哪家公司可能會倒閉,哪家公司的高層人員要跳槽等等。現在問題的最大難點是什么呢?就是人類的語言,我們沒有辦法按照公式交流,同樣一件事情有很多不同的表述。
但是,還是能從中找到一些規律。我舉一個例子,舊金山有一家很出名的公司,叫做PowerSet,在2008年的時候以10億美元的價格被微軟收購。如何讓機器學會從大量信息中學到這個事件?實際上很簡單,用Google搜索可以發現很多不同的消息都是關于這起收購案,一旦提到“微軟”、“PowerSet”、“2008年”這三個詞,說的就是這件事,剩下的語言分析就簡單了。當然,也要注意虛假數據。可能是這樣的句子,PowerSet對另外一家公司感興趣,并不是講這個收購案的,所以我們需要剔除這樣的數據。
現在我們已經在應用這樣的技術了,正在為中國的一家制造企業提供相關的技術,之前這家公司從來沒有用過AI方面的軟件,但是在全世界范圍內都有很多的客戶,他們不知道客戶的想法是什么,因為他們不懂法語和德語,但我們幫助他們收集客戶評價,并且告訴他們產品到底是什么特點,客戶喜歡或者客戶不喜歡,競爭對手的產品當中,客戶喜歡什么或者不喜歡什么,其他產品價格如何,這些非常精準的分析可以為企業提供自身產品和競爭對手產品的比較。
-
人機交互
+關注
關注
12文章
1206瀏覽量
55384 -
AI
+關注
關注
87文章
30762瀏覽量
268905 -
人工智能
+關注
關注
1791文章
47207瀏覽量
238280
原文標題:歐洲科學院院士:中國領先計算機視覺和機器人領域,但AI研究還不足以支撐垂直領域解決方案
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論