近日,第58屆國際計算語言學協會年會ACL 2020(The Association for Computational Linguistics)于線上開啟。這次會議,百度共有11篇論文被錄用,覆蓋自然語言處理眾多前沿研究方向;百度聯合谷歌、Facebook、清華大學等全球頂尖機構,共同舉辦首屆同聲傳譯研討會;在線上展臺主題技術TALK環節,百度還就開放域人機對話技術、ERNIE核心技術等業內關注的話題展開分享,展現了中國企業在自然語言處理及人工智能領域的技術創新與落地實踐能力。
ACL成立于1962年,是自然語言處理領域影響力最大、最具活力的國際學術組織之一。自成立之日起,致力于推動計算語言學及自然語言處理相關研究的發展和國際學術交流。百度的自然語言處理技術,在技術創新及應用上始終保持領先,一直被視為自然語言處理研究界的“第一梯隊”,此次在ACL 2020大會中的亮眼表現,正是源于百度在技術領域的長期積累。
除了在國際 AI 學界的影響力外,ACL 無論是審稿規范還是審稿質量,都是當今 AI 領域國際頂級會議中公認的翹楚。
本屆大會百度共有11篇論文被收錄,覆蓋了人機對話系統、情感分析/預訓練表示學習、NLP 文本生成與摘要、機器翻譯/同聲翻譯、知識推理、AI 輔助臨床診斷等諸多自然語言處理界的前沿研究方向,提出了包括端到端開放域生成模型PLATO、面向開放域對話的基于圖譜的對話管理機制、情感知識增強的語言模型預訓練方法、基于圖表示的多文檔生成式摘要方法 GraphSum 等諸多新框架、新算法、新數據,不僅極大提升了相關領域的研究水平,也將推動人機交互、機器翻譯、智慧醫療等場景的技術落地應用。
此次 ACL 2020的審稿周期,從去年12月一直持續到今年4月,相比往年幾乎增加了一倍。會議投稿數量為 3088 篇,共有 779 篇論文被接收,包括 571 篇長論文和 208 篇短論文,接收率僅為25.2%。百度11篇論文被收錄的成績,不僅意味著研究成果得到了國際學術界的認可,也證明了其研究本身在實驗嚴謹性、思路創新性等方面的實力。
同聲傳譯以其高效的信息傳遞方式,廣泛應用于國際會議、商務會談、新聞發布、法律訴訟等多種跨語言交流場景。機器同傳結合了機器翻譯(Machine Translation)、語音識別(Automatic Speech Recognition)和語音合成(Text-To-Speech)等人工智能技術,已經成為重要的前沿研究領域。目前,機器同傳還需要攻克高魯棒性、高翻譯質量、低延時的相關問題。
本次會議中,百度聯合國內外頂尖企業和高校共同舉辦全球首屆同聲傳譯研討會,匯集包括機器翻譯、語音處理和人類口譯領域的研究和從業人員,共同就機器同傳架構、翻譯模型、數據資源等問題展開研討。
研討會有多場高質量主題演講,百度技術委員會主席、百度自然語言處理首席科學家吳華等國內外多名專家就機器同傳研究現狀、面臨挑戰以及未來發展進行探討,加深了機器同傳與口譯兩個領域之間的交流,極大地推動了機器同傳技術發展以及機器和人工同傳的協同合作。
在本次研討會同期舉辦的國際首屆同傳評測比賽中,百度行業首發業內最大規模面向真實場景的中英同傳數據,涵蓋信息技術、經濟、文化、生物、藝術等多個領域。同時,基于百度深度學習平臺飛槳的一站式AI開發實訓平臺百度大腦AI Studio,百度為參賽選手提供在線編程環境、免費GPU算力、海量開源算法和開放數據,幫助開發者快速創建和部署模型。
在本次大會的線上展臺主題技術TALK環節,百度也展現出多個亮點,體現出百度領先的技術創新與落地實踐能力,圍繞ERNIE核心技術、開放域人機對話技術、智慧醫療、生物醫藥等業內關注的話題,百度獻上了精彩的演講。
在展臺主題技術TALK環節,百度研究人員做出主題為《ERNIE的技術原理、平臺與應用》的分享。百度提出了知識增強的語義表示模型 ERNIE 及持續學習語義理解框架 ERNIE 2.0,在16 個中英文任務上超越國際最好效果,取得了 SOTA 的效果。去年12月,ERNIE 在國際權威的通用語言理解評估基準 GLUE上首次突破90大關,超越人類三個點,取得全球第一。今年3月,在全球最大規模的國際語義評測 SemEval 上獲得5項世界冠軍。
近期,百度又相繼發布了面向生成的預訓練技術 ERNIE-Gen 和知識增強的視覺-語言預訓練模型 ERNIE-ViL。ERNIE-Gen 首次提出基于多流機制生成完整語義片段,在5個生成類任務上取得了SOTA效果。ERNIE-ViL首次將場景圖知識融入多模態預訓練, 刷新了5項多模態任務紀錄,并登頂權威榜單VCR。在剛剛舉行的世界人工智能大會上,百度文心(ERNIE)知識增強語義理解技術與平臺獲得了大會最高榮譽獎項“卓越人工智能引領者”(SAIL)獎。
在《基于意圖圖譜的開放域對話生成框架》分享中,百度研究人員介紹到,為了提升多輪對話下的整體對話質量,提出基于意圖圖譜的對話生成框架,在該框架中引入顯式的對話管理機制,以增強對多輪對話流的控制能力。在公開數據集上的實驗結果表明,以上模型或系統在主題連貫性、對話目標引導成功率等關鍵多輪效果指標上顯著超越基線模型。
同時,百度借助這次展臺技術Talk發布了業界首個基于隱變量的大規模對話模型PLATO以及基于PLATO相關工作擴展升級的PLATO-2。該模型使用了最多16億參數,發布了中英文版本。其中,英文效果超越了Google的Meena和Facebook AI Research的Blender,中文模型也遠超過現有基線。
在主題為《基于計算語言學的新冠病毒分析和疫苗設計算法》的分享中,針對新冠疫情,百度研究人員把自然語言處理領域的經典句法分析算法移植到核酸序列結構分析,介紹了全球首個線性時間的 RNA 結構預測算法 LinearFold,可以將新冠病毒基因組全序列結構分析的時間從55分鐘降低到 27 秒。在此基礎上,百度還研發出了全球首個mRNA 疫苗序列設計算法 LinearDesign,可以設計出結構最穩定的疫苗序列。對于新冠S蛋白,該算法16分鐘內就可設計出優化疫苗序列,解決了mRNA疫苗研發中的一個重大難題。目前,百度正在積極推進和中國疾控中心、各大疫苗公司和科研機構的合作。
在主題為《自然語言處理和知識圖譜技術在臨床輔助決策中的應用研究》的演講中,百度研究人員分享了靈醫智惠在臨床輔助決策中應用。以百度世界領先的中文自然語言處理和知識圖譜等技術為基礎,靈醫智惠打造了強大的醫療認知計算能力,形成了醫療場景下的語言、知識和認知計算三位一體的臨床輔助決策引擎。
近年來,中國 AI 企業、開發者及高校在國際AI頂會上的表現也愈發亮眼。ACL2020大會中,無論是論文入選量、領銜舉辦研討會、同傳比賽,百度都展現出中國 AI 行業頭雁的實力。百度NLP是百度AI技術和應用的萌芽起點和帶動力量,始終聚焦核心前沿,持續引領技術創新,持續引領中國NLP技術發展方向,不僅為此次大會交上了一份滿意的答卷,也為中國AI崛起、走向世界發展貢獻了重要的力量。
fqj
-
百度
+關注
關注
9文章
2270瀏覽量
90440 -
人工智能
+關注
關注
1791文章
47350瀏覽量
238740
發布評論請先 登錄
相關推薦
評論