聲音與AI行為搭配在一起,會發生怎樣的化學反應呢?這一話題,正在成為國內外AI研究比較熱衷的新方向。
比如卡內基·梅隆大學和CMU機器人研究所,就在研究聲音和機器人動作之間的相互作用;國內則從數字人入手,搜狗分身技術團隊聯合清華大學天工智能計算研究院賈珈老師團隊,率先展開了音頻驅動身體動作的研究。
近日二者共同發表的數字人技術論文《ChoreoNet: 基于舞蹈動作單元的音樂-舞蹈合成框架》,就被2020國際頂級盛會ACM Multimedia錄用為長文。
作為計算機領域諾貝爾獎——圖靈獎的評選機構,ACM(國際計算機學會Association for Computing Machinery)的業界地位不用贅述,旗下的ACM Multimedia也被認為是多媒體技術領域奧運級別的頂級盛會,論文接受率很低。
那么,能得到頂會的認可,這一新技術究竟有哪些開創性呢?
聞聲起舞,“樂舞合成”是怎樣實現的?
讓數字人根據文本語義做出相對應的面部表情及肢體動作,目前已經有不少成熟的應用,比如AI合成主播。如果再能夠跟隨音頻做出同步、自然的肢體反應,無疑會在多種場景中產生奇妙的化學反應。
不過,隨聲而動這件事的難度在于,背后需要解決的技術問題不少,比如:
傳統音樂與舞蹈合成的方式是基線法,通過人體骨骼關鍵點的映射,但許多關鍵點難以捕捉和預測,就會出現高度冗余和噪聲,導致合成結果的不穩定、動作節銜接不像真人。
后來,雅爾塔等學者也提出要通過AI的弱監督學習來解決上述問題,但由于缺乏對人類舞蹈經驗知識的了解,依然會出現合成不夠自然、情感表達不夠流暢的問題。
另外,由于音樂片段比較長,背后伴隨著成千上萬的動作畫面,需要智能體記住并映射這種超長的序列也是一大挑戰。
搜狗及清華天工院研究團隊所做的突破,就是將人類專業知識融入算法,提出了一個模仿人類舞蹈編排的程序ChoreoNet,來根據音樂生成動態優美連貫、非線性高度擬真的舞蹈。
簡單來說,ChoreoNet是將專業舞者的各個動作單元與音樂旋律捕捉并數據化,然后讓AI在其中尋找規律,知道在怎樣的音樂節拍、旋律風格中應該做出怎樣的舞蹈動作,進而形成連貫的動作軌跡。
其中,研究人員共突破了兩個環節:
1.舞蹈知識化。用動作捕捉采集專業的人類舞者是如何根據音樂的節奏、旋律來編排動作的。研究人員收集了4種不同類型(恰恰、華爾茲、倫巴和探戈)的舞蹈數據,數個音樂節拍裁剪出一個編舞動作單元(CAUs) 相對應的片段,形成一個動作控制單元(CA),形成一個音樂與動作的映射序列。
2.之前采集的舞蹈動作只是人體骨骼關鍵點數據,怎樣讓它們之間的連續過渡更加自然呢?研究人員借助NLP語義理解,讓AI可以根據積累的知識進行實時反應。利用GAN設計了一個運動生成模型,讓AI可以繪制一些舞蹈動作,補上缺失的數據,從而實現舞蹈的平滑過渡,產生自然的效果。
實驗結果證明,與基線法相比,ChoreoNet性能更好,可以生成持續時間較長的結構化控件,來生成與音樂匹配的動作,并使其自然連接、情感流暢。
在這一突破中,搜狗對音頻驅動身體動作這一課題的敏銳感知,以及AI分身技術在身體動作及姿態生成方面的加成,無疑是領先技術能力與創新意識的絕佳組合。
持續領跑,搜狗與分身技術的不解之緣
可以看到,ChoreoNet的出現,既帶來了人機交互能力的提升,也給機器學習融入了知識元素。這可以看做是搜狗“分身技術”的一次進階,也側面印證了搜狗以“自然交互+知識計算”為核心的AI技術版圖,正在持續狂奔,也得以積蓄起不斷引領技術方向的勢能。
從2018年首創分身技術之后,搜狗的研發腳步從未停止,持續專注于如何以文本及音頻更好驅動數字人的面部表情及唇動進行研究。相繼在2D/3D數字人領域構建了音畫同步、逼真的面部表情唇動生成及驅動能力。
如何能夠讓數字人更加自然并且富有表現力也是搜狗分身的重點研究方向,其中身體動作以及姿態的表達至關重要。在對數字人的面部驅動達到較高標準后,搜狗將研究重點從面部為主的驅動轉到面部+動作的驅動,重點攻關如何讓肢體動作更具自然表現力。如在今年5月推出的3D AI合成主播身上,不僅有經得起高清鏡頭考驗的面部表現,同時實現了以文本語義為驅動的自如行走。
如今,ChoreoNet更進一步,實現了以音頻對AI數字人進行實時驅動。搜狗在業內率先嘗試并取得突破性研發結果的這一舉動,更是一改只能由文本、語義驅動AI分身面部+動作的現狀,為行業帶來了更多的創新可能,搜狗的分身技術理想與實力也躍然紙上。
不斷打造可視化、能自然交互的AI數字人,搜狗到底想做什么?
人機交互的未來,與搜狗的技術遠景
回歸到企業戰略層面,搜狗的AI理念是讓AI賦能于人。通過人機協作,把人從重復性工作中解放出來,更好地解放社會生產力。比如AI主播,就可以讓主持人不再困于朗讀既定內容,可以投身于更具創造性的工作。當然,這一切都要從更自然的人機交互開始,完成一次次交流與觸碰。
而此次ChoreoNet讓數字人跟隨音樂起舞,這個創意的突破不僅僅是技術上夠炫酷,應用空間也非常巨大。
不出意外,搜狗很大可能會將該技術同3D數字人相結合,因為相較2D數字人,3D數字人的肢體靈活性、可塑性驅動更強,從而有更廣泛的應用空間。音頻驅動技術的加入,不僅能豐富搜狗3D數字人在新聞播報、外景采訪的場景,更直接有助于突破融媒體領域、向娛樂、影視等領域落地進軍。可以看到,基于視覺的人機交互會越來越成為主流,比如當前流行的智能客服、虛擬偶像等等,往往需要大量文本、語義的輸入來進行推理與交互,虛擬偶像的動作也需要捕捉后由人工逐幀進行制作,而改為音頻驅動可以更為直接地實現語音交流,節省制作/計算的步驟與成本。
此外,人類知識體系與機器學習的結合,讓AI能力有極大的提升。通過垂直領域的知識數據進行訓練和學習,從而提供更精準、可靠的服務,大大提升AI客服的接受度。
當然,音頻驅動也可以生成更具人性化的個人秘書,幫助人減輕工作負擔、提高效率的同時,通過音頻識別與判斷來實時反應,表現力更加豐富,讓智能家居、服務機器人等更好地融入生活環境,在老人關懷、私人助理、兒童陪伴等等場景之中,扮演更積極的角色。
業內有個共識,一般情況下只有對日常生活和技術突破具有巨大影響潛力的研究項目,才會被ACM Multimedia通過和錄取。從這個角度看,搜狗與清華天工院所做的工作,遠遠不只是學術上的突破那么簡單。當全球科技巨頭都在探索如何用多模態交互締造新玩法、新功能的時候,搜狗已經向前邁出了讓人眼前一亮的步伐。
讓數字人更像人,就能更早地與人類達成親密無間的配合與協作,對于人類和AI來說,同樣重要。也正由于此,世界頂級盛會才會投注認可與鼓勵。下一次,搜狗會為數字人集齊怎樣的能力呢?我們拭目以待。
-
人機交互
+關注
關注
12文章
1208瀏覽量
55415 -
搜狗
+關注
關注
0文章
90瀏覽量
13937 -
3D
+關注
關注
9文章
2885瀏覽量
107604 -
數字
+關注
關注
1文章
1693瀏覽量
51327 -
清華
+關注
關注
0文章
15瀏覽量
18734
發布評論請先 登錄
相關推薦
評論