在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發公眾的遐想。
雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創作。但是,它在同人類對話時還是顯得非常“幼稚”。可盡管如此,技術人員依然認為,創造了 GPT-3 的技術可能是通往更高級 AI 的必經之路。
GPT-3 使用大量文本數據進行了訓練,那么,假如同時使用文本和圖像數據進行訓練,會發生什么呢?
艾倫人工智能研究所(AI2)在這個問題上取得了進展,技術人員開發了一種新的視覺語言模型,可以根據給定的文本生成對應圖像。
不同于 GAN 所生成的超現實主義作品,AI2 生成的這些圖像看起來非常怪異,但它的確可能是一個實現通用人工智能的新路徑。
AI“做題家”
GPT-3 在分類上屬于 “Transformer” 模型,隨著 Google BERT 的成功,該模型開始流行。而在 BERT 之前,語言模型可用性不佳。
它們雖然具備一定的預測能力,但并不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 “masking(遮罩)” 的新技術,使模型這方面的能力得到了大幅加強。
模型會被要求完成類似下面的填空題:
這位女士去___鍛煉。
他們買了一個___面包做三明治。
這個想法初衷是,如果強迫模型進行數百萬次的這類練習,它是否可能學會如何將單詞組合成句子以及如何將句子組合成段落。測試結果表明,模型確實獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關的搜索結果)。
在證明遮罩行之有效之后,技術人員試圖通過將文本中的單詞隱藏,將其應用于視覺語言模型,例如:
一只站立在樹木旁的___。(來源:MIT TR)
通過數百萬次的訓練,它不僅可以發現單詞之間的組合模式,還可以發現單詞與圖像中元素之間的關聯。
這樣的結果就是模型擁有了將文字描述與視覺圖像相關聯的能力,就像人類的嬰兒可以在他們所學的單詞同所見事物之間建立聯系一樣。
舉個例子,當模型讀取到下面的圖片,便可以給出一個較為貼切標題,如 “打曲棍球的女人”。或者它們可以回答諸如“球是什么顏色?” 之類的問題,因為模型可以將單詞 “球” 與圖像中的圓形物體關聯。
圖 | 女子曲棍球比賽 (來源:MIT TR)
一圖勝千言
技術人員想知道這些模型是否真的像嬰兒一樣 “學會” 了認識這個世界。
孩子不僅可以在看到圖像時聯想到單詞,還可以在看到單詞時在頭腦中浮現出對應的圖像,哪怕這個圖像是真實和想象的混合體。
技術人員嘗試讓模型做同樣的事情:根據文本生成圖像。然后模型吐出了無意義的像素圖案。
得到這樣的結果是有原因的,將文本轉換為圖像的任務相比其他要困難得多。AI2 的計算機視覺團隊負責人 Ani Kembhavi 說,文本并未指定圖像中包含的所有內容。因此,模型需要 “聯想” 許多現實世界的常識來填充細節。
例如,假設 AI 被要求繪制“在道路上行走的長頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。
因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過調整遮罩的方式,來教授 AI 所有這些隱式視覺知識。他們訓練模型不是為了從對應圖片中預測被遮蓋的單詞,而是為了讓它能從文本中 “腦補” 圖片中的缺失部分。
雖然模型最終生成的圖像并不完全真實,但這不是重點。重要的是這預示著模型已經包含了正確的高級視覺概念,即 AI 一定程度上具備了兒童的根據文本畫圖的能力。
圖 | AI2 模型根據文本生成的圖像示例 (來源:MIT TR)
視覺語言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實際上具有一定程度的抽象能力,而這是理解世界的基本技能。
未來,這項技術很可能對機器人領域產生極大影響。機器人可以使用語言進行交流,當它們對視覺信息的理解越好,就越能夠執行復雜的任務。
Hajishirzi 說,從短期來看,這種可視化還可以幫助技術人員更好地理解 AI 模型的學習過程。之后,AI2 團隊計劃展開更多實驗,以提高圖像生成的質量,并拓寬模型的視覺和語言。
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
31097瀏覽量
269434 -
人工智能
+關注
關注
1792文章
47409瀏覽量
238924
原文標題:這些令人不安的照片,表明AI越來越聰明了!它正在學習根據文字生成圖片
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論