日前,國際自然語言處理與計算語言學領域最高級別的學術會議ACL(Annual Meeting of the Association for Computational linguistics)錄取了京東智能廣告實驗室(JD Intelligent Advertising Lab簡稱JD IAL)和 Rensselaer Polytechnic Institute?(倫斯勒理工學院)聯(lián)合發(fā)表的題為“基于多語言多任務的低資源序列標注架構”的學術論文。論文首次提出了一種多語言多任務的監(jiān)督學習架構,該架構對中文自然語言處理以及低資源語言的學習效果提升具有積極意義。
眾所周知,由于語言的多樣性和復雜性,自然語言處理(NLP)在學術和工業(yè)應用上一直是非常具有挑戰(zhàn)的領域。同時由于中文語言的獨特性和高靈活特點,基于中文的自然語言處理任務會更加復雜。
京東在服務數(shù)以億計的用戶同時,積累了大量的文本信息,如商品的名稱,屬性,用戶評論和問答等。有效利用好這些文本信息,就能大幅提升京東的服務質量和用戶滿意度。然而,由于文本形式口語化,文本內容豐富,用以訓練模型的標注數(shù)據(jù)少等問題,工程師在實際NLP技術開發(fā)中遇到了很大的挑戰(zhàn)。
針對以上挑戰(zhàn),京東智能廣告實驗室提出了一種多語言多任務的監(jiān)督學習架構。該架構結合了多種遷移學習模型,通過利用多任務訓練的方式,極大地提升了低資源語言的學習效果。例如,在標準測試數(shù)據(jù)上,相比于傳統(tǒng)的單語言、單任務的學習方法,利用新方法在實體標注任務上取得了 4.5% 到 50% 的性能提升(F值)。
據(jù)京東集團副總裁、商業(yè)提升事業(yè)部總裁,同時也是京東智能廣告實驗室負責人顏偉鵬博士介紹,針對復雜和較少標注的中文數(shù)據(jù),通過引入大量的英文標注數(shù)據(jù),能夠有效提升中文序列標注(Sequence Labeling)的效果。目前該技術已經應用到京東的商品推薦,排序和文本生成等實際應用中。
京東智能廣告實驗室隸屬京東商城商業(yè)提升事業(yè)部,主要從事智能廣告相關的基礎研究和應用研究,研究范疇涵蓋視頻圖像、NLP、大規(guī)模機器學習、深度學習、推薦技術、廣告機制等多個領域。實驗室成員包括有學術能力的碩士、博士研究生以及經由實驗室招募的優(yōu)秀學者、在行業(yè)內和學術圈內有技術影響力的科學家。目前京東智能廣告實驗室已累計研究成果數(shù)十項,其中多個項目榮獲京東集團技術創(chuàng)新獎項,多篇論文被國內外知名學術機構收錄。
-
京東智能
+關注
關注
0文章
8瀏覽量
5597 -
nlp
+關注
關注
1文章
488瀏覽量
22033
原文標題:中文自然語言處理實現(xiàn)突破,京東智能廣告實驗室論文被ACL收錄
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論