臨近歲末年初,各大科技廠商都卯著勁兒相繼發(fā)布新技術(shù)、新產(chǎn)品,其中,一場關(guān)于“新圖靈測試”的探討,及其所打開的廣袤空間,就成為業(yè)內(nèi)熱議的對象。年中的2020 智源大會上,京東集團技術(shù)委員會主席、京東智聯(lián)云總裁、京東人工智能研究院院長、IEEE Fellow 周伯文,在與斯坦福大學(xué)教授、人工智能實驗室負責(zé)人克里斯托弗·曼寧(Christopher Manning)的對話中,提出了圖靈測試的“替代方案”。
而前不久的CIIS2020上,京東將多模態(tài)內(nèi)容生成、多輪對話等AI技術(shù),與智能交互機器人流程自動化(RPA)相結(jié)合,打造出能夠適配千變?nèi)f化的消費者需求和服務(wù)產(chǎn)業(yè)復(fù)雜業(yè)態(tài)的智能交互技術(shù)體系。不僅讓“新圖靈測試”成為可能,也讓我們看到了AI與RPA結(jié)合的“京東思路”,正在從決策到管理、執(zhí)行的聯(lián)動,給產(chǎn)業(yè)數(shù)字化帶來的全新發(fā)展機遇,正逐步清晰地浮現(xiàn)在我們眼前。
一種悖論:為什么說圖靈測試不適合做產(chǎn)業(yè)數(shù)智化基準(zhǔn)
圖靈測試(The Turing test),是人工智能領(lǐng)域的基礎(chǔ)名詞,艾倫·麥席森·圖靈在1950年預(yù)測,到2000年人工智能可以在5分鐘的問答中騙過30%成年人。那么,發(fā)展了數(shù)十年的AI到底有沒有達到圖靈的預(yù)測標(biāo)準(zhǔn)呢?伴隨著GPT3、BERT等大規(guī)模、高性能的算法出現(xiàn),AI不僅能寫詩繪畫講故事,甚至還能模仿客服給消費者打營銷電話,騙取人類信任……看起來似乎已經(jīng)達到了預(yù)測中的水平。
但究其本質(zhì),圖靈的預(yù)言其實指向一種具有真正智能的機器的可能性,意味著人類能夠打造出具備思考能力的機器。2014年人工智能軟件尤金·古斯特曼(Eugene Goostman)通過了圖靈測試,被認為具有人類智能,但實際上,這位“尤金”還遠遠不能思考。這種表與里的悖論,讓圖靈測試作為智能的評測基準(zhǔn)(Benchmark),在落地產(chǎn)業(yè)AI化過程中存在兩個待解的問題:
一是無法量化。盡管目前許多算法可以通過圖靈測試,但這一評測基準(zhǔn)對AI應(yīng)用落地產(chǎn)業(yè)沒有直接幫助和參考。因為圖靈測試沒有規(guī)定問題的范圍和提問的標(biāo)準(zhǔn),跟人類進行隨機的、無特定內(nèi)容對話的交流。要評價一個AI系統(tǒng)的智能程度,就如克里斯托弗·曼寧教授在會議中所提到的那樣,“需要找一個另外的方法,標(biāo)量真正的理解、真正的持續(xù)對話”。
圖靈測試的第二個問題,則是無法檢驗AI系統(tǒng)在產(chǎn)業(yè)應(yīng)用的效率。在產(chǎn)業(yè)智能化進程中,AI往往需要被用來解決具象的問題,比如幫助零售商與消費者流暢地溝通,這就要求其具備一種“寬泛的心理能力”,需要調(diào)動意圖感知、語音識別、語義分析、內(nèi)容生成等等具體能力,而這都是圖靈測試無法具體評測到的。從這個角度看,尋找新的評測標(biāo)準(zhǔn),是AI走進社會化大生產(chǎn)之后水到渠成的產(chǎn)業(yè)需求。
一個可能:AI+RPA如何打開新圖靈測試的天地
既然圖靈測試并不能滿足產(chǎn)業(yè)應(yīng)用AI時的評測需求,所以周伯文才會提出一個很新穎的概念,直接讓兩個對話型 AI 做直播帶貨,通過統(tǒng)計以每小時能賣出多少商品的可量化指標(biāo),來對比哪個 AI 的對話更吸引人,從而評估對話型 AI 的智能化水平。這個創(chuàng)意,在CIIS 2020上就變成了現(xiàn)實。周伯文在現(xiàn)場分享了這個進階版的“帶貨測試”:
京東對數(shù)以億計SKU進行賣點挖掘,自動生成文案、背景音樂、虛擬形象,再配上咨詢導(dǎo)購客服,整套服務(wù)可以自動化地生成每件物品的專屬主播介紹,與觀眾用彈幕和語音實時交流,答疑解惑,把直播產(chǎn)業(yè)以規(guī)模化、自動化的方式推廣到億級的播放和商品銷售上去。
要完成這一實時、可量化的智能交互,需要的技術(shù)是非常多面的。首先需要利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和知識圖譜對物品資料進行識別和理解,然后系統(tǒng)根據(jù)多模態(tài)數(shù)字內(nèi)容生成技術(shù),可以自動生成一個精彩的解說詞,自動挖掘賣點、自動生成銷售文案、生成語音背景和音樂,還會為每個消費者生成獨特的虛擬形象,再利用京東TTS語音驅(qū)動虛擬主播進行講解。
舉個例子,當(dāng)消費者跟智能客服或智能主播對話時,用文字表達自己的困惑“我想找一件黃色的、有波浪邊的輕薄連衣裙”,多模態(tài)智能對話可以快速將這些文字以圖像化的形式表達出來,將符合要求的圖片呈現(xiàn)出來,同時,主播還會活靈活現(xiàn)地向消費者介紹“裙擺可以像風(fēng)一樣擺動哦~”解說過程中,根據(jù)消費者的實時彈幕,系統(tǒng)需要快速根據(jù)上下文多輪對話策略進行內(nèi)容識別、意圖感知,來實時調(diào)整自己的講解節(jié)奏、內(nèi)容、情緒。
令消費者縮短無效觀看時間,與主播一對一交流;同時也可以讓眾多商家低門檻、自動化地用直播方式帶貨。AI主播還可以進一步收集消費者的問題與困惑,及時地反饋給商家進行迭代和優(yōu)化,等于擁有了一個零售顧問。京東平臺的實踐數(shù)據(jù)顯示,目前該技術(shù)已經(jīng)在好貨頻道、社交電商、售前導(dǎo)購機器人京小智、搭配購、什么值得買APP等生成了5000萬個素材,其中AI素材曝光點擊率是人工素材的1.4倍。讓機器更懂人心、更會說話,這正是京東將AI+RPA融合之后的智能服務(wù)所帶來的魅力。
順著“帶貨主播”模式開始延伸,我們可以看到作為“新圖靈測試”背后的技術(shù)組合——AI+RPA到底與傳統(tǒng)的智能體有哪些不同?首先,同樣是人與機器的交互,AI+RPA的效果可以量化,支撐產(chǎn)業(yè)端的運營、管理、決策。比如對話型 AI 做直播帶貨,可以在與消費者的對話中不斷自我學(xué)習(xí)進化,在垂直領(lǐng)域變得更具智能感,輸出更吸引人的內(nèi)容。
其次,AI+RPA的協(xié)同賦予了自動化服務(wù)以自主判斷、決策、推理能力,設(shè)計了具體而清晰的協(xié)作任務(wù),如同一個智慧的大腦突然具備了四肢和行動能力,其中AI作為大腦可以提升系統(tǒng)的服務(wù)效率,獨立承擔(dān)起一些簡單、重復(fù)的工作。最后也是最重要的,AI+RPA背后的核心邏輯與技術(shù)體系有著很強的泛化能力,在服務(wù)業(yè)數(shù)智化轉(zhuǎn)型中的許多流程中都有著清晰的價值體現(xiàn)。
執(zhí)行層將服務(wù)員、客服等一線員工從重復(fù)中解放出來,幫助他們提升工作效率;管理層,抽離出有用的信息,利用邏輯推倒實時分析業(yè)務(wù)變化;最后形成直觀的可視化報告或數(shù)據(jù)圖,幫助決策層提升決策效率。比如基于京東在智能交互RPA和數(shù)據(jù)智能領(lǐng)域的積累,京東智聯(lián)云所打造的“咨詢大腦”,就被用來構(gòu)建城市咨詢智力中心,可以提供涵蓋民生、政務(wù)服務(wù)、精細化管理、公共安全等多個領(lǐng)域的服務(wù)。
從智能交互出發(fā),可以清晰地看到服務(wù)業(yè)的迭代路徑與可行性。這也是為什么,周伯文會說,這種任務(wù)導(dǎo)向型對話智能(Task-oriented Conversational Intelligence)將帶來人機交互技術(shù)驅(qū)動的萬億級市場。
三方突圍:京東如何破解服務(wù)業(yè)數(shù)智化的三重困境
在CIIS2020上,周伯文表示,產(chǎn)業(yè)數(shù)字化是傳統(tǒng)行業(yè)利用AI等新一代信息技術(shù)提升效率,而服務(wù)業(yè)涉及非常多的行業(yè),如金融、教育、電商、物流,數(shù)字化和智能化水平并不一致。接下來應(yīng)該是人和AI協(xié)作的深化,進一步提升服務(wù)的效能。這是智能時代科技企業(yè)的增長密碼,也是京東努力的核心方向。
目前來看,服務(wù)領(lǐng)域的數(shù)智化存在三重難題:
一是服務(wù)業(yè)的重塑之難:很多現(xiàn)有的標(biāo)準(zhǔn)化服務(wù)流程完全可以被重塑、重造,進而提升服務(wù)效能,但傳統(tǒng)服務(wù)業(yè)在智能技術(shù)認知和基礎(chǔ)設(shè)施方面相對較弱,加上需求、規(guī)模、痛點的千差萬別,需要一個全場景的體系來實現(xiàn)適配。
二是基礎(chǔ)設(shè)施的運維之難:許多服務(wù)業(yè)對于智能技術(shù)都存在認知不足、人才短缺等問題,而AI項目落地的成功率直接取決于其批量復(fù)制、高效運維的能力,如何把工程化的數(shù)據(jù)運維、模型運維、開發(fā)運維三大核心支柱,通過工具化的生命周期管理整合并提供給產(chǎn)業(yè),是科技企業(yè)必須努力解決的。
三是多模態(tài)的交互之難:在復(fù)雜的現(xiàn)實環(huán)境中,用戶的意圖往往會以多模態(tài)方式來展現(xiàn),語言、文字、圖像、視頻等等都可以作為媒介來傳遞信息,傳統(tǒng)AI一旦需要處理邊界和規(guī)則不清晰的問題,效率就迅速下降。只有在解決深度語義理解、多模態(tài)交互技術(shù)、對話內(nèi)容生成、復(fù)雜場景下的多輪對話與決策技術(shù)等等之后,智能交互才能真正釋放行業(yè)創(chuàng)新價值。
也正是如此,京東發(fā)布的多模態(tài)交互與內(nèi)容生成等一系列解決方案,讓千人千面的智能交互應(yīng)用開始真實地走入產(chǎn)業(yè)端,服務(wù)業(yè)數(shù)智化轉(zhuǎn)型的浪潮快速到來。
舉個例子,傳統(tǒng)的客服機器人只能將市民抱怨的問題記下來,然后提交給后臺工作人員去安排和處理。而伴隨著智能交互系統(tǒng)的落地,山西大同的12345近來就出現(xiàn)了一些顯而易見的改變,可以通過智能動態(tài)交互的方式準(zhǔn)確地理解是哪里、是什么情況、什么路燈,通過數(shù)字化的私有云管理體系調(diào)動相關(guān)區(qū)的衛(wèi)生局,通過和相關(guān)人員進行AI外呼聯(lián)系解決這個問題,并創(chuàng)建這個工單和狀態(tài)。
在確認修好之后,市長熱線再外呼電話,告訴市民修好了這種接訴即辦的智能服務(wù),會不會讓每一個打開電話的市民感受到一種城市管理的速度與文明呢?在疫情防控嚴(yán)格的當(dāng)下,智能交互基礎(chǔ)上的智能疫情外呼系統(tǒng),也可以自動化完成外呼疫情排查、通知、信息采集、病例回訪等工作,是不是可以有效減輕醫(yī)護和基層人員的負擔(dān)?
我想上述答案都會是肯定的。智能交互還可以應(yīng)用到客服領(lǐng)域。如果你也曾厭倦過撥打客服電話時冗長的等待、牛頭不對馬嘴的溝通,那么智能交互可能會在未來拯救你和客服雙方。傳統(tǒng)客服模式下,人工客服需要將三分之二時間用在理解客戶的需求上,剩下是用在后臺查詢、業(yè)務(wù)辦理,以及創(chuàng)建摘要,為客戶完成后續(xù)服務(wù)的跟蹤和閉環(huán)上。而京東智能交互可以在分配電話坐席前,就進行機器探索,把合乎的畫像和需求匹配到最適合的人工智客服那里;比如手機的特殊功能,會找到手機專家回答問題。
在實時對話中,系統(tǒng)會自動識別高濃度負面情緒。在疫情期間,智能客服就曾在與一位年輕客戶的交談中,感知到對方在購藥之后出現(xiàn)了情緒低沉的情況,在安撫的同時,及時聯(lián)系了心理咨詢專家。618期間,智能人機交互系統(tǒng)就為京東平臺服務(wù)了7800萬人次,使得原來的人海戰(zhàn)略客服變成智能接待的方式,使得客服中心效率提升90%。
從識別到理解,再到生成千人千面的個性化服務(wù),是AI能力的迭代進化,也展現(xiàn)出京東對連接技術(shù)與產(chǎn)業(yè)的獨特思考。在技術(shù)創(chuàng)新的同時,賦予其廣袤的產(chǎn)業(yè)價值機會點,在產(chǎn)業(yè)AI化、AI產(chǎn)業(yè)化的當(dāng)下,進一步點燃了AI改造世界的可能性。周伯文在發(fā)言的結(jié)尾說道:下一個10年,以技術(shù)為本、基于智能交互的服務(wù)業(yè)數(shù)智化將是我們下一個產(chǎn)業(yè)巨大的浪潮。
這是未來的起點,也是等待你我一起去挖掘和感受的特殊時刻。
fqj
-
智能化
+關(guān)注
關(guān)注
15文章
4869瀏覽量
55343
發(fā)布評論請先 登錄
相關(guān)推薦
評論