ChatGPT原來是擁有心智的?!
“原本認為是人類獨有的心智理論(Theory of Mind,ToM),已經出現在ChatGPT背后的AI模型上。”
這是來自斯坦福大學的最新研究結論,一經發出就造成了學術圈的轟動:
這一天終于猝不及防地來了。
所謂心智理論,就是理解他人或自己心理狀態的能力,包括同理心、情緒、意圖等。
在這項研究中,作者發現:
davinci-002版本的GPT3(ChatGPT由它優化而來),已經可以解決70%的心智理論任務,相當于7歲兒童;
至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解決了93%的任務,心智相當于9歲兒童!
然而,在2022年之前的GPT系列模型身上,還沒有發現解決這類任務的能力。
也就是說,它們的心智確實是“進化”而來的。
△論文在推特上爆火
對此,有網友激動表示:
GPT的迭代肯定快得很,說不定哪天就直接成年了。(手動狗頭)
所以,這個神奇的結論是如何得出的?
為什么認為GPT-3.5具備心智?
這篇論文名為《心智理論可能在大語言模型中自發出現》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)。
作者依據心智理論相關研究,給GPT3.5在內的9個GPT模型做了兩個經典測試,并將它們的能力進行了對比。
這兩大任務是判斷人類是否具備心智理論的通用測試,例如有研究表明,患有自閉癥的兒童通常難以通過這類測試。
第一個測試名為Smarties Task(又名Unexpected contents,意外內容測試),顧名思義,測試AI對意料之外事情的判斷力。
以“你打開一個巧克力包裝袋,發現里面裝滿了爆米花”為例。
作者給GPT-3.5輸入了一系列提示語句,觀察它預測“袋子里有什么?”和“她發現袋子時很高興。所以她喜歡吃什么?”兩個問題的答案。
正常來說,人們會默認巧克力袋子里是巧克力,因此會對巧克力袋子里裝著爆米花感到驚訝,產生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花,驚喜說明喜歡吃爆米花,但都是針對“爆米花”而言。
測試表明,GPT-3.5毫不猶豫地認為“袋子里裝著爆米花”。
至于在“她喜歡吃什么”問題上,GPT-3.5展現出了很強的同理心,尤其是聽到“她看不見包裝袋里的東西”時一度認為她愛吃巧克力,直到文章明確表示“她發現里面裝滿了爆米花”才正確回答出答案。
為了防止GPT-3.5回答出的正確答案是巧合——萬一它只是根據任務單詞出現頻率進行預測,作者將“爆米花”和“巧克力”對調,此外還讓它做了10000個干擾測試,結果發現GPT-3.5并不僅僅根據單詞頻率來進行預測。
至于在整體的“意外內容”測試問答上,GPT-3.5成功回答出了20個問題中的17個,準確率達到了85%。
第二個是Sally-Anne測試(又名Unexpected Transfer,意外轉移任務),測試AI預估他人想法的能力。
以“約翰把貓放進籃子后離開,馬克趁他不在,把貓從籃子里放進盒子里”為例。
作者讓GPT-3.5讀了一段文字,來分別判斷“貓的位置”和“約翰回來后會去哪里找貓”,同樣這是它基于閱讀文本的內容量做出的判斷:
針對這類“意外轉移”測試任務,GPT-3.5回答的準確率達到了100%,很好地完成了20個任務。
同樣地,為了避免GPT-3.5又是瞎蒙的,作者給它安排了一系列“填空題”,同時隨機打亂單詞順序,測試它是否是根據詞匯出現的頻率在亂答。
測試表明,在面對沒有邏輯的錯誤描述時,GPT-3.5也失去了邏輯,僅回答正確了11%,這表明它確實是根據語句邏輯來判斷答案的。
但要是以為這種題很簡單,隨便放在哪個AI上都能做對,那就大錯特錯了。
作者對GPT系列的9個模型都做了這樣的測試,發現只有GPT-3.5(davinci-003)和GPT-3(2022年1月新版,davinci-002)表現不錯。
davinci-002是GPT-3.5和ChatGPT的“老前輩”。
平均下來,davinci-002完成了70%的任務,心智相當于7歲孩童,GPT-3.5完成了85%的意外內容任務和100%的意外轉移任務(平均完成率92.5%),心智相當于9歲孩童。
然而在BLOOM之前的幾個GPT-3模型,就連5歲孩童都不如了,基本上沒有表現出心智理論。
作者認為,在GPT系列的論文中,并沒有證據表明它們的作者是“有意而為之”的,換而言之,這是GPT-3.5和新版GPT-3為了完成任務,自己學習的能力。
看完這些測試數據后,有人的第一反應是:快停下(研究)!
也有人調侃:這不就意味著我們以后也能和AI做朋友了?
甚至有人已經在想象AI未來的能力了:現在的AI模型是不是也能發現新知識/創造新工具了?
發明新工具還不一定,但Meta AI確實已經研究出了可以自己搞懂并學會使用工具的AI。
LeCun轉發的一篇最新論文顯示,這個名叫ToolFormer的新AI,可以教自己使用計算機、數據庫和搜索引擎,來改善它生成的結果。
甚至還有人已經搬出了OpenAI CEO那句“AGI可能比任何人預料的更早來敲響我們的大門”。
但先等等,AI真的就能通過這兩個測試,表明自己具備“心智理論”了嗎?
會不會是“裝出來的”?
例如,中國科學院計算技術研究所研究員劉群看過研究后就認為:
AI應該只是學得像有心智了。
既然如此,GPT-3.5是如何回答出這一系列問題的?
對此,有網友給出了自己的猜測:
這些LLM并沒有產生任何意識。它們只是在預測一個嵌入的語義空間,而這些語義空間是建立在實際有意識的人的輸出之上的。
事實上,作者本人同樣在論文中給出了自己的猜測。
如今,大語言模型變得越來越復雜,也越來越擅長生成和解讀人類的語言,它逐漸產生了像心智理論一樣的能力。
但這并不意味著,GPT-3.5這樣的模型就真正具備了心智理論。
與之相反,它即使不被設計到AI系統中,也可以作為“副產品”通過訓練得到。
因此,相比探究GPT-3.5是不是真的有了心智還是像有心智,更需要反思的是這些測試本身——
最好重新檢查一下心智理論測試的有效性,以及心理學家們這數十年來依據這些測試得出的結論:
如果AI都能在沒有心智理論的情況下完成這些任務,如何人類不能像它們一樣?
屬實是用AI測試的結論,反向批判心理學學術圈了(doge)。
審核編輯 :李倩
-
AI
+關注
關注
87文章
30728瀏覽量
268886 -
模型
+關注
關注
1文章
3226瀏覽量
48807 -
ChatGPT
+關注
關注
29文章
1558瀏覽量
7595
原文標題:ChatGPT背后模型被證實具有人類心智!斯坦福新研究炸了,知名學者:“這一天終于來了”
文章出處:【微信號:All_best_xiaolong,微信公眾號:大魚機器人】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論