斯坦福大學AI實驗室主任、人工智能和計算語言學領域的權威專家Christopher Manning教授,在美國長灘CVPR大會現場分享了人工智能研究的最新趨勢和挑戰,以及他參加本次大會的思考。
Christopher Manning是斯坦福大學計算機與語言學教授,也是將深度學習應用于自然語言處理領域的領軍者。
他在斯坦福大學獲得博士學位之后,曾先后執教于卡耐基梅隆大學和悉尼大學。Manning教授的研究專注于利用機器學習方法處理計算語言學問題,以使計算機能夠智能處理、理解并生成人類語言。Manning教授是ACM Fellow,AAAI Fellow 和ACL Fellow,他的多部著作,如《統計自然語言處理基礎》、《信息檢索導論》等成為經典教材。
今年是Manning教授第一次參加CVPR大會。他受邀作為主講嘉賓參加了“視覺問題問答”研討會。他指導的論文“GQA, a new dataset for compositional question answering over real-world images”也在大會發表。
Chris Manning:受隔壁吳恩達影響,開始關注深度學習
Robin.ly主持人Margaret Laffan:Chris,很高興能在CVPR邀請到你參加我們的訪談!今天你參加了哪些討論?
Chris Manning:
謝謝!我今天參加了視覺問答研討會,聽到了一些非常有意思的報告,還參與了很多互動環節。參加問答研討會的都是這個領域中非常優秀研究人員,我很高興成為這個群體中的一員,也讓我受益匪淺。
主持人:你最開始是一名計算語言學研究員,后來在自然語言處理和機器學習方面獲得了非常多的成就。能簡要介紹一下您在深度學習領域的一些經歷嗎?
Chris Manning:
好的。我的年紀比較大了,見證了神經網絡的第二次浪潮,即80年代末到90年代初的并行分布式處理或連接主義時代。那個時候我還是斯坦福大學的研究生,大衛·魯姆哈特(David Rumelhart)還在斯坦福大學任教,我參加了他的神經網絡課程,對這個領域有了一點了解,但并沒有把它作為我的研究領域。在過去的十幾年,我漸漸對深度學習產生了興趣。當時我的辦公室就在吳恩達(Andrew Ng)的隔壁,而Andrew非常熱衷于利用這方面的技術來促進通用認知的發展。我受到了他的影響,開始關注深度學習領域的研究。
Manning教授(圖片來源:Stanford University School of Engineering)
主持人:從學術界的角度來看,你覺得當時面臨的最大的挑戰是什么?
Chris Manning:
我不確定我跟學術界的想法是否一致。但對我來說,這個問題可以追溯到上世紀80年代,關于將神經網絡作為人類語言模型的是否有效存在很多爭議。我們一直沒有搞清楚人類語言的成分結構,單詞如何組成短語,短語如何組成從句,從句又如何組成完整的句子。因為人們似乎沒有任何方法可以很好地模擬這種人類語言的層次遞歸結構,80年代包含全連接層的扁平神經網絡架構在本世紀頭十年再次引起了人們的關注,所以我最初非常熱衷于這方面的研究。我于2009年至2013年間在斯坦福大學所完成的工作,很多都是跟Richard Socher合作的,主要目的就是了解如何構建樹形結構和遞歸神經網絡,并深入探索這些概念。
從研究到產品
主持人:與此同時,我們也看到了行業技術的發展,誕生了Alexa之類的語音助手產品。你如何看待從學術研究到產品開發的轉化趨勢?
Chris Manning:
像Alexa和Siri那樣的對話助手對自然語言處理產生了巨大的影響。最開始這些變化跟深度學習和自然語言處理關系不大,因為基本上用的都是人工編輯的腳本。所以這些積極的影響是得益于基于規則的自然語言處理的再度出現,跟機器學習和我從1995年到2010年主要研究的那種概率自然語言處理關系都不是很大。隨著時間推移,人們對這個領域的興趣日漸濃厚,我自己也開始研究如何構建基于神經網絡的對話助手。我認為這是一個值得進一步推進的領域,不過難度很高。
上周末,在長灘舉行了ICML機器學習會議,來自微軟的幾位研究人員演示了如何打造對話助手。他們的觀點是,人們仍然無法訓練端到端的完善的神經網絡對話助手,也不應該指望它們能夠正常工作。事實上,所有已經部署在商業領域的系統都是機器學習和神經網絡部件相結合的產物,許多功能仍然需要手工編碼。
斯坦福AI實驗室:研究方向五花八門
主持人:你現在負責管理斯坦福大學人工智能實驗室。考慮到人工智能的廣度和深度,能否介紹一下該實驗室當前的研究重點?
Chris Manning:
斯坦福AI實驗室實際上是一個結構相當松散的部門,并不需要一個負責人來告訴各個實驗室要做什么樣的研究。各個下屬實驗室的負責人可以自行決定研究課題。
但是你仍然可以看到明顯的趨勢。雖然有少數幾個方向仍然在使用手動搭建的控制系統進行機器人操作,但是深度學習的影響,甚至整個機器學習領域的影響是普遍存在的,幾乎覆蓋了所有領域。自然語言處理和視覺領域更是備受關注,幾乎成為了斯坦福人工智能實驗室的主要研究領域,這種情況跟十年前相比已經大不相同。
在過去幾年中發生的另一個積極的變化是,我們聘請了幾位頂尖的機器人專家,開展了一些機器人相關的研究項目。機器學習依然是實驗室的重中之重,其中一些應用包括可持續計算之類特定的問題,以及強化學習在教育領域的應用等等。總的來說研究方向涉獵很廣,五花八門。
斯坦福大學計算機系
計算機視覺的趨勢和挑戰
主持人:我們來聊一聊計算機視覺。這個領域一直在不斷發展、進步和成熟,那么你認為計算機視覺未來的趨勢和挑戰是什么?
Chris Manning:
沒錯,計算機視覺在近些年取得了巨大的進步。這個領域在十年前只能簡單的識別人臉,功能遠遠沒有現在這么強大;然而現在,計算機視覺已經可以在很多領域發揮重要作用,盡管很多應用還比較初級。現在這個領域已經出現了巨大的商業機會,在醫療領域有著大規模的應用。比如我們現在可以收集很多醫學影像數據,建立深度學習系統,可以達到甚至超過人類醫生的水準。從這個角度來說是一個很大進步。
但從某種意義上說,計算機視覺領域的大多數應用仍然相對比較初級。我們還需要完成更多的解釋性任務,可以稱之為更高級別的計算機視覺,也就是看到一個場景,可以理解其中所發生的事情。比如如果有人經過這里,就會知道有人在接受采訪。但是如果你把這個相同的場景展示給計算機視覺系統,它會識別出有兩個人、有泛光燈、有攝像機,可能會知道這兩個人正在互相看著對方,但卻無法理解這個場景代表了一個什么樣的事件。因此,我認為推動更高語義層面的理解是視覺領域一個重要前沿課題。在這個層面,自然語言處理和視覺的關系更加緊密,無論是從文本還是圖像入手,要解決的問題都變得更加相似。我認為另一個重要領域是對世界上正在發生的事情有一個更全面的理解,將我們看到的二維場景以及三維模型聯系起來,可以幫助我們預測未來會發生什么。
Manning教授在CVPR2019接受專訪
主持人:我最近在意大利的一家博物館看到,他們可以讓訪客跟史前時代的立體景象進行互動,這樣的進步讓我覺得非常不可思議。自動駕駛領域在過去的幾年中取得的進展也非常驚人,你對此有什么看法?
Chris Manning:
這顯然是一個巨大的進步,讓人們看到了大范圍的商業應用。但我們仍需要保持一定的謹慎態度。一方面,要認可所取得的巨大進步,事情正在往好的方向發展,像Waymo那樣的自動駕駛汽已經可以在灣區的道路上進行測試。另一方面,它也讓我們認識到現實世界存在很多特殊情況。人類對處理特殊的情況經驗很豐富,因為我們對周圍的環境非常熟悉,了解很多常識。但是自動駕駛系統還遠沒有達到這樣的程度,它們非常善于在一切正常的情況下沿著車道行駛,對一些特殊情況卻無法做出判斷。比如路中央有一個人在揮舞旗子,車輛就很難判斷這個人到底是在干什么。
自然語言處理的技術挑戰
主持人:我接下來有一些技術性的問題。如您所知,許多基于特征的方法中會使用句法解析。現在的趨勢是,句法解析在特征工程中的使用得越來越少了,更多時候是用在端到端系統中。那么你如何看待句法解析研究的未來?
Chris Manning:
這個問題問得很好,這種說法也是正確的。縱觀自然語言處理的歷史,句法解析被視為基礎性的工作,有助于后續的研發,比如打造機器翻譯工具。包括我在內的許多自然語言處理領域的研究人員花了很多時間,想要找到更好的句法解析方法。實際上,針對當前的很多任務,句法解析的效果不一定是最好的。目前,人們已經用最新的深度學習系統完成了一些任務,無論是問答系統,還是機器翻譯。如果你正在訓練大型神經網絡模型,其中并不包括明確的句法結構訓練,但是這樣的模型所呈現的數據仍然比我們之前獲得的任何結果都要好。這樣一來,你可能會覺得所有關于句法解析的研究可能都是有誤導性的。
我對此有幾點想法。一個是,如果你有一個包含大量數據的任務,你已經可以在沒有明確句法結構信息的情況下端到端的訓練模型了,還能得到比較好的結果。為什么這種方法能夠獲得比較好的結果?事實上,我最近與一名學生John Hewitt一起研究了一些深層語境語言模型,如ELMo(“嵌入語言模型”)和BERT,它們都是基于大量文本數據進行訓練的,其中不涉及任何句法結構。而事實上,我們已經能夠確定,像ELMo和BERT這樣的模型正在學習句法結構,它們接受了數十億字的文本訓練,已經開始識別模式并理解其功能,并自動進行歸納。因此從某種意義上說,這些模型證明了語言學家對句法的看法基本上是正確的:識別結構信號的類型并理解什么是關系從句對于能夠用語言進行預測和讓這些模型學習句法結構是非常重要的。從某種意義上說,這是一種進步,因為我們使用機器學習能夠獲得更好的結果,并且最終可能會得到比人類的手動添加符號結構更豐富的表現方式。
但另一方面,這一切的前提是擁有大量文本。我認為在很多情況下,你擁有的數據事實上很有限,無法進行端到端訓練,而具有句法結構是一個非常好的先決條件。例如今天我聽了一個視覺問答報告,他們將視覺場景圖與句子結構中的非獨立部分進行了匹配,展示了如何為視覺問答任務提供輔助信息。幾乎在任何訓練數據量有限的地方,你都可以利用句子結構以及單詞相互關聯的額外信息來得到重要的結論。所以我認為在很多情況下,明確的規則和句法結構仍然適用。
主持人:能不能談一談我們應該如何將知識庫整合到基于神經網絡的自然語言系統中?
Chris Manning:
這也是一個很好的問題。我認為這個問題還沒有完全解決。在我看來一個比較簡單的答案,也是目前最好的答案就是:就像我們在做其他任務時可以學習和參考一些文本數據一樣,我們也可以在做其他任務時試圖構建一個知識庫。目前,實現這一目標的最簡單的方法是將注意力機制引入到知識庫元素中。可以說注意力機制模式是自然語言處理中非常成功的技術,已經被用在在新一代的神經網絡翻譯系統中。對于諸如推理和獲取知識之類的工作,使用注意力機制就是比較好的方法。很多人在試圖打造類似鍵值神經網絡,用一個鍵值信息來查看知識庫中的內容,并將該內容傳遞回神經網絡。雖然我們始終感覺應該有其他方法可以更直接的獲取知識,但目前這是獲得神經網絡所能學習或參考的外部知識最成功的方法了。
自然語言處理的商業化進程
主持人:下一個問題是,你認為自然語言處理中哪些成果比較容易商業化?
Chris Manning:
我認為這很大程度上取決于你所處的領域和你的目標。比如,最近神經網絡機器翻譯已經取得了巨大的成功,但只有一小部分公司對這一成果感興趣。我認為對于更一般的應用實例,最受歡迎的應該是對話助手。因為對于許多公司來說,吸引新客戶,或者與已有的客戶進行互動交流蘊含著巨大的機會,但是從事這些工作的人力還比較有限。如果這些工作可以通過對話助手完成,那么從吸引潛在客戶到客服工作就能實現一個巨大的進步。這樣的工作很有意義,但跟人類相比,打造成功的、具備豐富的專業知識的對話助手難度很大。從另一個角度來看,其中涉及到的有很多問題都比較簡單,或者會重復性很高。因此,只要讓一個對話助手能處理80%的簡單問題,或者吸引一些新的客戶,就能夠滿足大部分要求,并且適用于各個領域的公司。
主持人:現實中有沒有結合了計算機視覺和自然語言處理的應用場景讓您覺得比較有意思的?
Chris Manning:
坦率的說,目前能夠實現商業化的技術并不多,能夠將二者結合產生商業效益的就更少了。但是實際上這樣的機會還是有的,比如描述用手機攝像頭拍攝到的場景能夠幫助盲人和游客了解身處的環境。不過目前我還沒看到充分結合了兩種技術的比較成功的應用場景。(完)
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238264 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13552
原文標題:斯坦福AI Lab主任、NLP大師Manning:我的第一次CVPR
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論