內容簡介:ChatGPT的火爆出圈使得AI生成(AIGC)技術受到了全社會前所未有的廣泛關注。此消彼長之下,傳統的知識工程遭受了諸多質疑。在多模態(tài)智能領域,AIGC的能力不斷提升,多模態(tài)知識工程工作應該何去何從?是否仍有價值?在本次分享中,講者將探討當前AIGC技術耀眼“光芒”背后的“暗面”,思考與展望AIGC時代的多模態(tài)知識工程研究。
關于AIGC時代的多模態(tài)知識工程思考與展望,我們將從以下六個方面展開介紹:
第一部分,我們回顧一下AIGC技術的發(fā)展歷程和它帶來的劃時代影響力;
第二部分,我們對AIGC技術的不足(阿克琉斯之踵)之處進行分析與總結;
第三部分,我們將介紹多模態(tài)認知智能的框架和兩種實現路徑,并進行對比分析;
第四~六部分,我們會展望當前AIGC大模型和MMKG多模態(tài)圖譜間如何競與合。
01
AIGC時代:未來已來
隨著人工智能總體階段的發(fā)展,生成式人工智能技術(AIGC)也在不斷迭代。從20世紀50年代到90年代中期,是AIGC的早期萌芽階段,這一時期受限于技術水平,AIGC僅限于小范圍實驗。這一時期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測試”,給出判斷機器是否具有“智能”的方法;1966年,世界上第一款可人機對話機器人“Eliza”的問世;以及在80年代中期IBM公司創(chuàng)造的語音控制打字機“Tangora”的出現。
而從20世紀90年代到21世紀10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術從實驗性向實用性轉變,但仍因受限于算法瓶頸,無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創(chuàng)作的小說《1 the road》的問世;以及2012年微軟開發(fā)的全自動同聲傳譯系統的出現,它能夠將英文語音自動翻譯成中文語音。
自21世紀10年代中期至今,是AIGC快速發(fā)展的階段,得益于深度學習算法不斷迭代,人工智能生成內容百花齊放。2014年,Goodfellow提出的生成對抗網絡GAN用于生成圖像;2019年,英偉達發(fā)布StyleGAN模型可以自動生成高質量圖片;2019年DeepMind發(fā)布DVD-GAN用于生成連續(xù)性視頻,直到2022年,OpenAI發(fā)布ChatGPT模型生成流暢的自然語言文本。
可以說,ChatGPT的爆紅出圈宣告了AIGC時代的到來。
現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今,已經有很多強大的算法被發(fā)明出來,如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術前沿的創(chuàng)業(yè)公司不斷推動AIGC技術的應用落地,如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發(fā)明都在解放著人類的內容創(chuàng)作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。
右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最后一篇推文“GPT-5也沒啥了不起的”——表達了創(chuàng)作者對當今AIGC技術飛速發(fā)展的隱隱擔憂。
那么,我們首先看一下多模態(tài)大模型的分類與發(fā)展脈絡。如上圖所示,多模態(tài)大模型發(fā)展非常迅速,我們可以將多模態(tài)大模型簡單分為多模態(tài)統一大模型和多模態(tài)文圖生成大模型,前者用于統一的多模態(tài)生成和理解,后者特指具備強大的多模態(tài)文到圖生成能力的大模型。
當前,文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。
還有一些文圖生成大模型,如斯坦福大學提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類質地細膩、細節(jié)精致的圖片,也可以通過簡筆畫來對圖像生成進行操控。
AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。
我們還看到Google發(fā)布的PaLM-E模型,展現了多模態(tài)AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態(tài)大模型,可以將真實世界的傳感器信號與文本輸入相結合,建立語言和感知的鏈接,可以用自然語言操控機器人完成操作規(guī)劃、視覺問答等任務。
AIGC的驚艷效果不禁讓很多人對符號主義(知識工程)的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出,唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱,“AI現在完全取決于規(guī)模,AI領域更難的挑戰(zhàn)已經解決了,游戲結束了!”。我們也看到,在大多數領域,大模型已經(暫時)戰(zhàn)勝了精心設計的知識工程。然而,AI的流派之爭真的結束了嗎?
02
AIGC的阿克琉斯之踵
第二部分,讓我們來看一下當前AIGC大模型實際存在的一些問題。
盡管今天的ChatGPT(包括GPT-4)很強大,它的諸多問題仍舊難以忽視:
第一、強語言弱知識的問題,ChatGPT無法理解用戶查詢中的知識性錯誤,它具備強大的語言能力,但知識能力仍舊較弱;
第二、實時信息自更新慢,新舊知識難以區(qū)分,目前ChatGPT的知識還停留在2021年,而每一次信息更新都需要成本高昂的重新訓練;
第三、其邏輯推理能力并不可靠,應該說尚不具備復雜數學邏輯推理與專業(yè)邏輯推理能力;
第四、由于缺乏領域知識,它也無法真正為領域類問題提供專業(yè)靠譜的答案。
當前的多模態(tài)大模型的跨模態(tài)生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說,當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此,盡管我們看到AIGC跨模態(tài)生成的視覺效果驚艷,但往往存在較大的模態(tài)間信息不對稱問題。
此外,當前多模態(tài)大模型的多模態(tài)理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到:
1)模型由于缺乏事實知識,無法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯誤回答成“nike”;
2)模型由于欠缺邏輯推理能力,不理解圖像場景和問題的邏輯關系,因而回答錯誤;
3)模型由于常識儲備不足,對某個具體場景(沖浪)下的意圖理解犯了常識性錯誤。
讓我們再來看一下Google的具身多模態(tài)大模型PaLM-E,雖然依賴如此大規(guī)模的參數實現了初步的機器人操控,但其demo視頻中所展示的空間范圍、物品種類、規(guī)劃和操作任務的復雜度等都非常有限。我們可以想象,如果要在真實世界的復雜場景中達到實用級別,PaLM-E的參數規(guī)模是否還需要增大百倍、千倍甚至萬倍?如果一味用海量參數存儲所有知識,那么智慧涌現的代價是否過于昂貴?
至此,我們對多模態(tài)大模型做個簡單的小結。首先,多模態(tài)大模型的本質是“用語言解釋視覺,用視覺完善語言”。換句話說,我們要將文本中的語言符號知識,與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”,就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解;而所謂“用視覺完善語言”,是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。
我們知道,多模態(tài)大模型能發(fā)揮重大作用的重要前提是:
1)具有海量高質量圖文配對數據;
2)文字富含事實知識和常識;
3)其邏輯推理過程可顯式化被學習。
而我們所面臨的現實情況卻是:
1)數據量大但質量差,信息不對稱;
2)純文字中的知識與常識也不完備;
3)其邏輯推理是隱性難以學習的。
正因為這些理想與現實間的差距,導致了前面提到的多模態(tài)大模型的種種問題與不足。綜上,我們認為,統計大模型始終難以較低成本,全面、準確地掌握人類知識、常識和邏輯推理能力。
03
多模態(tài)認知智能
第三部分,我們引出多模態(tài)認知智能,其研究旨在解決前一部分提到的問題。
上圖是我們提出的一個多模態(tài)認知智能的研究框架??偟膩碚f,多模態(tài)認知智能主要研究基于多模態(tài)數據的知識獲取、表示、推理與應用。在多模態(tài)知識獲取層面,我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態(tài)知識表示層面,可以使用多模態(tài)圖譜、常識圖譜、語言模型、大規(guī)模知識網絡等方法進行知識表示。基于多模態(tài)知識表示,可以進一步支撐多模態(tài)理解、推理和元認知等能力,從而賦能諸如跨模態(tài)搜索、推薦、問答、生成等多模態(tài)知識的應用。
多模態(tài)認知智能目前有兩種實現路徑。一種是多模態(tài)大模型,其代表了聯結主義和經驗主義的思想,從海量預訓練數據中學習概率關聯,是簡單而魯棒的,它屬于統計學習范疇,具備端到端、干預少和“數”盡其用的優(yōu)勢,其劣勢在于難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關系。
另一種實現路徑是多模態(tài)知識工程,其代表了符號主義的思想,從精選數據和專家知識中學習符號關聯,是精細而脆弱的,它往往通過專家系統和知識圖譜實現,具備易推理、可控、可干預、可解釋的優(yōu)點,但是它的劣勢主要在于將數據轉換成符號知識的過程往往伴隨著巨大的信息損失,而其中隱性知識等難以表達的知識往往是信息損失的主體。
結合多模態(tài)大模型和多模態(tài)知識工程的優(yōu)劣勢分析,我們認為:在AIGC大模型時代,多模態(tài)知識工程依然不可或缺。
當前,多模態(tài)知識工程的主要形式之一是多模態(tài)知識圖譜(MMKG)。多模態(tài)知識圖譜是在傳統知識圖譜的基礎上,增加多種模態(tài)數據以豐富符號知識表達的方法,其多模態(tài)數據包括但不限于圖像、視頻、語言、代碼等。多模態(tài)知識圖譜可以將符號接地到具象的視覺等模態(tài)對象上,實現跨模態(tài)語義對齊。
目前多模知識圖譜的主流形式有兩種。
一種是A-MMKG,其中多模態(tài)數據僅作為文字符號實體的關聯屬性存在;
另一種是N-MMKG,其中多模態(tài)數據也可作為圖譜中的實體存在,可與現有實體發(fā)生廣泛關聯。
至此,我們進一步分析AIGC多模態(tài)大模型和大規(guī)模多模態(tài)知識圖譜各自的優(yōu)缺點。
多模態(tài)大模型的優(yōu)點是:
1)關聯推理能力強:可以學習掌握大量跨模態(tài)知識模式,隱空間的關聯推理能力強,具有很強的泛化能力;
2)多任務通吃:一套大模型處理各類跨模態(tài)任務;
3)人工成本低:不依賴人工schema設計與數據標注;
4)適配能力強:可通過調優(yōu)訓練或prompt對話等方式來適配新的領域和任務。
而其不足之處在于:
1)可靠程度低:所生成的內容可靠性堪憂,存在誤差累積、隱私泄露等問題,無法勝任高精度嚴肅場景需求;
2)知識推理弱:沒有真正掌握數據背后的知識,缺乏知識推理能力,更無因果推理能力;
3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足;
4)訓練成本高:需要消耗大量計算資源和時間來進行訓練,需要強大的計算設備和高效的算法。
而與之對應的,多模態(tài)知識圖譜的優(yōu)點是:
1)專業(yè)可信度高:其結構和關系清晰,易于理解和解釋,可為人類決策提供參考,通常為某個具體應用場景構建,可提供更精準和針對性的知識支持;
2)可解釋性好:以結構化形式表示知識 ,知識的可訪問性、可重用性、可解釋性好,對人類友好;
3)可擴展性強:知識圖譜的內容可以隨著應用場景的需要進行不斷擴展和更新,可以不斷完善和改進。
而多模態(tài)知識圖譜的缺點在于:
1)推理能力弱:只能表示已有的知識和關系,對于未知或不確定的領域難以進行有效的知識建模和推理;
2)人工成本高:其構建需要依賴于人工或半自動的方式進行知識抽取和建模,難以實現完全自動化;
3)架構調整難:其基本schema架構通常是靜態(tài)的,不易根據新的數據或場景進行修改和調整。
由上分析可見:多模態(tài)大模型的優(yōu)點常常是多模態(tài)知識圖譜的不足,而多模態(tài)大模型的不足又往往是多模態(tài)知識圖譜的優(yōu)勢。因此,我們認為:當前階段,大模型與知識圖譜仍應繼續(xù)保持競合關系,互相幫助,互為補充。
04
AIGC for MMKG
第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。
第一,AIGC大模型為知識獲取降本增效。
(1)通過知識誘導(萃?。梢钥焖佾@取大量知識或常識。例如,我們可以從語言大模型中誘導語言知識和關系知識;我們也可以從多模態(tài)大模型中誘導跨模態(tài)對齊知識和視覺常識知識。
(2)AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如,我們可以利用ChatGPT對話大模型的理解和生成能力,從給定文本中抽取三元組知識;我們也可以利用多模態(tài)AIGC大模型的跨模態(tài)生成和理解能力,從給定圖文數據中抽取多模態(tài)知識。
(3)AIGC大模型可以顯著增強垂域多模態(tài)知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力,如基于多模態(tài)文檔的知識抽取。
第二,AIGC大模型助圖譜設計一臂之力。
大模型在部分領域上擁有領域常識知識,可以輔助完成schema的半自動化設計。在多模態(tài)場景中,也有一些嘗試,例如可以用多模態(tài)AIGC大模型生成cms領域的schema。
第三,AIGC大模型為知識推理保駕護航。
基于大模型的跨模態(tài)生成與推理能力,可以輔助完成KG表示學習、圖譜補全等任務。
第四,AIGC大模型為知識融合掃清障礙。
利用大模型的泛化能力和海量知識,可以輔助完成多模態(tài)知識圖譜融合。利于對于兩個MMKG的對齊,多模態(tài)AIGC大模型在兩者之間可以生成實體知識或語義層面的特征,輔助完成實體對齊。
第五,AIGC大模型為知識更新舔磚加瓦。
基于大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態(tài)AIGC大模型從新事實中輔助抽取新知識;當新知識抽取完成后,可以借助多模態(tài)AIGC大模型輔助更新多模態(tài)知識圖譜。此外,還可以借助多模態(tài)AIGC大模型輔助過期事實檢測,從而將過期知識從知識圖譜中刪除。
第六,AIGC大模型為知識問答錦上添花。
利用大模型的語言理解能力和解析能力,可以幫助更好的構建多模態(tài)知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著,且跨語言低資源情況下具有碾壓級效果,但是其數值類問題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務,可以提升問題解析能力,強化知識推理能力,提供外部知識輔助等。
05
MMKG for AIGC
第五部分,我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。
第一,MMKG參與AIGC大模型的生成能力評估。
基于多模態(tài)知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估,也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。
第二,MMKG引導AIGC大模型的可控約束生成。
已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進行可控生成??梢哉雇磥頃霈F多模態(tài)知識引導大模型約束生成的工作。比如對于圖像生成,可通過將文本鏈接到多模態(tài)知識圖譜的具體實體,提供實體圖像信息,幫助正確生成實體對應圖像;對于文本生成,通過鏈接到多模態(tài)知識圖譜的具體實體,提供實體關系屬性和實體圖像等實體畫像信息,幫助正確生成符合實體性質和特點的文本。
第三,MMKG幫助AIGC大模型進行知識編輯。
目前已有在文本大模型上的知識編輯的相關工作??梢灶A見,未來也會出現利用多模態(tài)知識圖譜來對多模態(tài)大模型進行知識編輯的研究工作。
第四,MMKG輔助AIGC大模型的領域(任務)適配。
用多模態(tài)知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如,在電商領域跨模態(tài)檢索場景,常常存在語義不匹配的問題。這種情況下,大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型,加上多模態(tài)知識輔助的方式,實現了大模型的輕量級領域適配。
06
AIGC+MMKG
第六部分,我們展望一下AIGC大模型和MMKG如何進一步合作。
我們認為,走向通用人工智能需要AIGC大模型和MMKG攜手并進。在未來,基于知識工程和統計模型的語言認知和多模態(tài)感知將會相互結合,并且借助MMKG和AIGC大模型,共同走向多模態(tài)認知的發(fā)展道路上。從視覺感知和語言認知到多模態(tài)認知,從連接主義和符號主義到神經符號主義,通用人工智能必將是一條融合之路。
AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型。目前知識增強的預訓練語言模型已有多種路徑實現。在多模態(tài)知識增強預訓練的方向上,也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態(tài)語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。
AIGC和MMKG的第二種融合方式是基于知識檢索增強的多模態(tài)生成。例如,給定文本提示,訪問外部多模態(tài)知識庫以檢索相關圖文對,將其用作生成圖像的參考。
AIGC和MMKG的第三種融合方式是因果知識增強的多模態(tài)生成。已有工作利用因果圖譜中的因果關系和圖推理能力,輔助大模型的因果決策,通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望,未來因果知識也可被用在對多模態(tài)大模型的理解與生成能力優(yōu)化上。
AIGC和MMKG的第四種融合方式是個性化知識接入的多模態(tài)生成。在未來,或許每個個體或企業(yè)都會擁有AI私有化助手,那么如何管理個性化多模態(tài)知識,諸如個人畫像知識圖譜、企業(yè)畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等,將這些知識以一種可插拔式的方式接入AIGC大模型中,提高大模型的個性化生成能力將是非常值得探索的方向。
實際上,Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。借助Microsoft Graph(可以看做是一種知識庫)與AIGC大模型的協作融合,助力Word、PowerPoint、Excel的生產力大提升。
此外,在行業(yè)落地層面,AIGC大模型和MMKG的融合更具價值。由于利用海量通用語料和通用知識訓練的通用大模型與行業(yè)應用場景之間依然存在鴻溝,因此需要進行行業(yè)數據挖掘和行業(yè)特色知識獲取來進一步訓練更加實用的行業(yè)大模型。
基于上述原因,行業(yè)落地往往需要多層次的模型,并有效與知識庫和外部工具進行配合,才能真正解決好行業(yè)問題。通用多模態(tài)預訓練生成大模型、行業(yè)領域預訓練模型、任務小模型以及行業(yè)知識庫、外部工具將構成一個模型共同體,協作解決行業(yè)復雜問題。
07
總 結
最后總結一下本次分享的主要觀點。首先,AIGC技術的發(fā)展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態(tài)領域,MMKG的構建與應用仍具重要價值。我們認為,AIGC和MMKG應該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來,符號知識和統計模型的競合方式有待進一步深入探索。
審核編輯 :李倩
-
AI
+關注
關注
87文章
30728瀏覽量
268886 -
深度學習
+關注
關注
73文章
5500瀏覽量
121111 -
ChatGPT
+關注
關注
29文章
1558瀏覽量
7595
原文標題:AIGC時代的多模態(tài)知識工程思考與展望
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論