從 2014 年的夏天小冰出現在我們的視野到今天,談到小冰,你的第一印象是什么?一款可愛、萌萌噠的聊天機器人?一款隨時在你身邊,可以幫你做一些場景任務的語音助手?如果說,這兩年智能音箱成為 AI 領域里的“流量明星”,那小冰更想讓你領略她“偶像與實力”兼備的魅力。
從第四代小冰到第六代小冰,武威從團隊的主要研發人員成為現在小冰核心技術的負責人、首席科學家。這幾年來,他一直致力于開放域對話的研究,為了深入了解小冰是如何走進我們的生活,走入我們的內心,AI科技大本營采訪到了微軟小冰首席科學家——武威,帶領大家深入了解小冰背后的技術以及聊天機器人的發展歷程與趨勢。
武威與三代小冰核心技術的成長史
武威:我個人的研究方向主要是開放域對話,探索的一個主要應用場景是聊天機器人的對話引擎,也就是聊天機器人對話引擎的核心算法。搭建開放域對話模型,主要有基于檢索和基于對話生成兩種方法。我們一直在研究檢索模型方法,通過研究實際對話中上下文與回復候選匹配等問題,構建檢索模型,并與小冰團隊的工程師們一起合作,把這種方法應用在小冰上。在持續研究兩三年后,我們又拓展出基于文本、視頻回復候選的匹配,也是在此之后,我和團隊把研究與應用拓展到多模態層面。關于對話生成,我們早期主要是基于上下文的回復生成, 后來研究并應用了共感模型,這些技術都成為每一代小冰背后的核心技術。同時,我個人也將研究領域拓展到基于生成模型的對話管理和生成模型的個性化對話管理。
在小冰的業務中,我參與了小冰諸多關鍵技術的研發工作。現在,小冰全球的生成模型,包括中國、日本、印度尼西亞和美國等不同語言的生成模型,主要都是由我負責。
正是小冰團隊多年來在聊天機器人領域的不斷研究與探索,在 2018 EMNLP 會議中,我與大家分享了聊天機器人領域的歷史、發展現狀與未來的趨勢。經過這些年的努力,聊天機器人對話模型的一些基本問題已經得到很好的解決,比如對話回復和對話生成兩個技術難點。
首先在對話回復方面,通過匹配的方法根據對話上下文找到合適的回復,其匹配精度在不斷提高。以小冰的模型方法在公開數據集上的性能表現為例,兩年間我們把模型的準確率從 66% 提升到了 80%,這還沒有考慮一些強力的預訓練模型比如 Bert。其次是對話生成,早期的方法經常給出無趣、萬能的回復,經過近幾年學界的研究,萬能回復問題雖不能說完全避免,但是從初期把簡單的機器翻譯模型應用在對話生成,到后來對上下文建模問題的探索,都是不斷提出針對這個問題更好的解決方案。現在工業界搭建聊天機器人,系統協調已經不再是一個難點問題。
目前,大家都在探討聊天機器人如何商業落地,這就需要我們把研究成果與技術發展更加緊密結合,推動聊天機器人的落地。關于未來的趨勢和熱點方向,其一是多模態在聊天機器人領域中的研究與應用。聊天機器人不僅可以綜合處理圖像、聲音和文字信息,同時可以進行綜合模態,甚至包括情感等特征信息的輸出與表達。目前,學界在這個領域的研究已經進入火熱態勢,也涌現了很多公開數據集,來探索如何利用多模態構建對話引擎。第二個方向是個性化分析與推薦的研究與應用,這也是目前學界和工業界都在發力的一個方向。
小冰的核心技術:對話引擎
小冰背后最核心部分是對話引擎。傳統的對話引擎主要分為 ASR+TTS、NLU、DM 和 NLG 四個模塊。隨著大數據技術和深度學習技術的發展,把 NLU、DM 和 NLG 模塊用統計模型的方法,進行端到端的訓練。
以小冰為代表的聊天機器人對話引擎,現在主要有兩種方法:基于檢索方法和基于生成式方法。兩種方法中,神經網絡都發揮著非常重要的作用:
基于檢索的方法:根據用戶輸入的數據(對話信息),系統查詢索引(Index)后找到所有可能的回復,對所有候選回復進行排序篩選,最后挑選出認為最合適的回復,返回給用戶,其關鍵在于構建索引庫(語料庫)。
基于生成式的方法:用于數據數據(對話信息),系統通過深度學習方法生成一個回復返回給用戶,其關鍵在于用深度學習方法構建一個生成模型。
近年來,深度學習的發展在自然語言處理領域也發揮著重要的作用,研究與應用的每一個技術幾乎都使用了深度學習的方法。
基于檢索的方法的關鍵在于如何根據上下文對話、語義理解與候選回復等信息設計并構建 Matching Models。隨著 Matching Models 越來越成熟,模式(pattern)覆蓋越來越多時,訓練性能和測試性能之間的差距,可能無法通過模型結構改善,因此現在我們將更注重模型的學習。
基于生成式方法的一個基本模型是 Encoder-Attention-Decoder 模型,其模型結構借鑒了 MT(機器翻譯)模型。現在基于生成模型的方法已經得到很多的關注,學界和工業界都在不斷研究與應用這個方法。
除了基于檢索與基于生成模型的方法,武威在報告中,還有很多主要的技術與每項技術使用的不同方法、不同網絡模型。如 NLP 任務中的 Word Embedding 與 Sentence Embedding 的各種模型,多樣性回復的解決方法,融入 Topic、情緒情感特征和表情的方法,強化學習、GAN 與 個性化等問題的研究與探索等等。
傳送門:《Deep Chit-Chat: Deep Learning for ChatBots》
http://www.ruiyan.me/pubs/tutorial-emnlp18.pdf
第六代小冰的共感模型
AI科技大本營:第六代小冰是如何做到根據當前話題與上下文,回復信息、引領對話、提出新對話甚至進行持續性對話?
武威:原來的聊天機器人集中于對話怎么回復、如何回復一些簡單的問題。而小冰第六代發布生成式的共感模型,旨在提供一個一致的框架,解決上下文理解、意圖識別與持續性對話三個問題。提出共感模型的關鍵在于把對話過程提升至一個被動與主動結合的交互過程。
在共感模型中,有三個重要環節:明確對話狀態、策略選擇與回復生成。首先,我們明確設定了幾種對話狀態。一種是無意識狀態,比如沒有額外意圖、無須太多反應的社交詞令。一種是有意識狀態,需要確認、主動提問或主動引導的話題狀態。明確對話狀態后,就到了回復生成與策略選擇的過程。當用戶開始對話后,我們首先要識別意圖,是問好、提問、陳述信息還是意在獲取信息等,其開放域對話的意圖非常寬泛。結合不同的意圖與當前對話內容,決定下一輪的對話策略,匹配之前識別到的意圖,最后生成回復的對話,這就形成了策略選擇和回復生成結合的過程。通過數據學習或正向學習等方法選擇合適的策略,讓整個對話更持續、更順暢的。
就像我們平時人與人之間的對話過程一樣,并不都是處在完全被動的互動過程,我們會根據對話內容決定說些什么,也會在某些時候引導或提出新對話,這背后的策略與想法也是共感建模的核心。
AI科技大本營:策略選擇與回復生成結合的過程是否是強化學習的過程?小冰是否應用了強化學習方法?
武威:強化學習過程中必不可少的一部分是獎勵函數(Reward Function),在開放域對話過程中,如何定義獎勵函數是一個具有挑戰的問題。在基于任務型對話中,最終是否完成任務以及完成所需輪數可以用作強化學習的獎勵函數,但是在開放域對話中,僅用對話輪數衡量不一定完全正確,同時也沒有找到合適度量人機交互滿意度的方式。我們確實嘗試過用強化學習方法構建共感模型,但實驗結果的提升并不十分明顯。在小冰產品的應用中也發現了這個現象。這也是研究和應用的不同之處。
多模態的高級認知體系
2017 年第五代小冰發布了全雙工語音交互,并在打電話和智能音箱兩個場景中落地。到了第六代小冰,融合了共感模型的對話引擎、全雙工語音和實時視覺三個類別的全新感官系統,并同時進行開放域對話。
AI科技大本營:隨著計算機視覺、NLP 等領域不斷取得突破,多模態信息在感知層面有好的表現是不夠的,深入到理解、更高級的認知能力時,現在小冰在多模態領域研究中做到了什么樣的程度?目前有哪些方面的新研究?
武威:目前小冰在多模態領域取得的進展可以總結為松耦合狀態,各個模態可以一起工作,但耦合之下還不夠十分緊密。比如,假如聊天機器人有了視覺,看到了視頻,看到了周圍的環境,同時又接收聲音、語音或文字信息,我們可以想象這些信息都應該對小冰的回復有所幫助,但是這兩種模態的信息是如何結合產生幫助的?什么時候應該結合一起,什么時候不需要結合?當模態變多后,耦合也會增多,那耦合之間是否會有所沖突?有了沖突,產生噪音,如何規避噪音?比如情感特征,聲音包含情感,如何與文字結合,使回復的對話也能帶有情感?乃至最終表達情感是通過 TTS 方式還是表情表達更為合適與自然?這些問題都還在研究過程中,但還不是完全清楚。
AI科技大本營:多模態在小冰情感計算模型發揮著怎樣的作用?
武威:第六代小冰已經是一個整體情感計算框架。通過小冰的探索,要實現帶有情感的聊天機器人,多模態是必不可少的。我們也從單模態進行考量,但是在對話交互中的效果并不是非常好。小冰從單模態到多模態,結合圖像、視頻、語音和文字等信息后,情感像一條紐帶,貫穿一起,架構于此。目前這還是一個具有挑戰性的課題,我們也在探索中。
AI科技大本營:除了多模態研究,還有哪些研究趨勢?
武威:除了多模態,個性化聊天機器人也是我們正在研究的方向。個性化不止一兩種,而是非常多的個性。其實,共性與個性的問題是如何平衡大數據與小數據間的問題,共性代表了大數據,個性代表了小數據,如果強調個性,數據太少,可能無法做出一個合格、有質量的對話引擎;如果用大數據搭建了高質量的對話模型,有可能就無法體現個性。所以,小數據的個性化離不開大數據。現在學界和工業界也都在探索大數據如何與小數據綜合利用,實現有質量的個性化對話模型。
小冰的 AI 創造力
武威:AI 創造一直是小冰的一個重點研究與應用方向,幾乎和對話同等重要。從早期小冰作詩、金融領域文本生成、音樂與歌曲生成,到現在小冰的有聲讀物,都是小冰在 AI 創造領域取得的成果。在 NLP 領域,目前,在短文本生成與創造已經有了比較不錯的效果,現在也已經有更多的研究投入在更復雜的任務上,比如基于文本或視頻講故事,長文寫作等。未來,我們也在想,小冰是否可以完成寫小說、寫散文等內容與藝術創造任務,這應該也是處于一個探索的“有待突破”的研究領域。
AI科技大本營:同行或同類產品中,也有以內容創作為主要落地場景,實現 AI 賦能與更多的商業價值,成為非常重視的方向,小冰未來在這方面有什么計劃?
武威:內容創作在一定程度上已經可以節省人力,在可與人類相媲的質量前提下,完成的更快更多,這本身確實具有一定的價值與商業價值。但是它能帶來更深層次的價值是什么樣子的,目前還不是十分清楚。比如,大家也都在討論的用 AI 創作藝術品,這個價值到底有多少,也很難衡量。
下一代小冰
AI科技大本營:小冰與很多第三平臺的合作,除了智能家居領域,還希望探索哪些應用場景?未來如何定位,實現商業化價值?
武威:小冰的產品線非常豐富,應用場景也在不斷豐富。不僅應用在智能家居、智能音箱中,小冰的聲音還有有聲讀物、節目主持以及企業垂直解決方案等。有聲讀物已經超過了 400 萬小時的收聽量,小冰姐姐講故事已經覆蓋了國內了 90% 以上的兒童早教機器人,80% 在線收聽品平臺。到現在,小冰一共參與生成主持了 55 檔電視節目。與日本 LAWSON 合作,幫助便利店發放優惠券等垂直解決方案。還有,國內個性化聊天機器人與網易、華為等公司合作,幫助他們打造自己的聊天機器人。所以,小冰乃至聊天機器人的應用除了 IOT 還有更多。因為,在我們看來,說話本身就是一種剛需,人在日常生活與工作中,很多事情都需要通過說話溝通來解決。我們也曾想過,要不要馬上去做目前大家都在談到的剛需,比如問答。但是,如果在解決實際問題解決時,機器人不能滿足用戶的需求,也無法讓用戶留存與活躍,而后續也就無從再談。所以,我們做小冰,是先做常態再滿足剛需。
和不同的第三方平臺合作,面對不同的需求,我們主要有三種拓展商業模式的方法:一種是我們根據對方平臺幫助其打造一個自有的 AI 產品;二是嵌入小冰平臺到對方平臺中,輔助對方 AI 產品,融入對方平臺的生態系統;三是我們提供平臺,對方利用微軟的技術、運營與產品打造自己平臺的一些差異化特征,推出相應產品與應用。
AI科技大本營:未來小冰如何保持領先?第七代小冰是否有發布計劃?
武威:在開放域對話這個賽道,希望大家一起努力把聊天機器人做的越來越好。比如 Facebook 現在也開始布局,目前 Alexa 主打還是任務導向,其實也在此領域開始投入。未來小冰仍將通過已有的優勢,比如用戶與數據優勢,持續打磨技術,希望繼續處于領先水平。未來,小冰的核心仍然是對話引擎、AI 創造以及解決方案。能夠在情感計算框架下誕生更多聊天機器人服務于更多的合作伙伴,也是我們期待的事情。第七代小冰還是值得大家期待的。
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100897 -
核心技術
+關注
關注
4文章
625瀏覽量
19629 -
聊天機器人
+關注
關注
0文章
339瀏覽量
12332
原文標題:“萬人迷”小冰背后的AI故事
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論