還記得OpenAI在今年2月放出的GPT-2嗎?一個擁有15億參數的自然語言處理(NLP)模型,能夠根據用戶給出的一段文字、一句話,甚至是一個單詞,續寫出符合文法的連貫文本,真正實現了 “開頭一句話,剩下全靠編”。
當時在公布研究成果時,OpenAI沒有遵照業界以往的開源慣例,只是象征性地公開了包含1.17億參數的模型,不到全部參數的十分之一。據說因為他們認為自己的模型太過強大,怕被別有用心的人拿去編造假新聞,糟蹋了這套AI系統的初衷。
這一做法招來了很多爭議,“閹割版”GPT-2的效果比官方展示的效果差了很多,讓一些人認為OpenAI只是在制造噱頭,還嘲諷他們變成了CloseAI。
圖 |2月初放出的GPT-2模型(來源:OpenAI)
不過在5月初,OpenAI用行動回擊了質疑。他們將公開的模型參數翻了一倍,提升到了3.45億,還宣布向AI業界合作伙伴開放7.62億和15億參數模型,供他們研究和參考,共同推動NLP技術的發展。
另一方面,鑒于OpenAI將GPT-2模型開源在了GitHub上,一名加拿大工程師AdamKing利用里面的代碼,創建了一個名為TalkToTransformer.com的網頁。這樣一來,即使是不會編程的人,也可以在網頁上隨意輸入文字,體驗一下如何調戲AI。
看似流暢連貫,但缺乏邏輯
如果你初次訪問網頁,不知道該填寫些什么,網頁上面貼心地預設好了一些英文情景和段落,比如“科學家發現了一種會說英語的獨角獸”或者“今天科學家確認一顆大型小行星將會撞擊地球”。選取一種之后,AI就會自動續寫之后的文字。即使是相同的開頭,AI每次也都會續寫出完全不一樣的段落。
譬如下面兩張截圖,都是以“今天科學家確認一顆大型小行星將會撞擊地球(加粗部分)”為開頭,但AI的續接風格略有不同。
第一個續寫給出了撞擊的確切時間是2028年 5 月 29 日,甚至還虛構了一名 NASA 科學家 StevenShaver,像模像樣地援引了他對小行星的描述——“質量比美國還大”,頗有洋蔥新聞的感覺。
不過,AI 顯然不知道美國作為一個國家是不存在質量的,難道它說的是所有美國人加在一起的質量?
第二個續寫則是簡單粗暴,張口就來。AI 直接說小行星的撞擊“將消滅星球上的所有人,并且導致未來 10 - 15 年內,海水(平面)停留在我們所有幸存者的下面。”
你問我第二句什么意思?AI 大哥就是這么寫的,咱也不知道,也不敢問。
但如果你再仔細思考一下,AI 第一句話說了小行星會消滅星球上的所有人,那第二句里的幸存者是哪來的?莫非這個幸存者(all of us alive)指的是AI自己?可謂是細思極恐。
支持多語種,但只有英語最好
除了這些已有的句子,我們還可以嘗試 DIY 輸入任何文本,原則上沒有任何語種限制。
根據測試,AI 可以識別出中文、日語、法語、西班牙語、土耳其語,甚至是很多從沒聽說過,但存在于谷歌翻譯上的小眾語言,比如宿務語和庫爾德語。只是輸出的文字并不像英語那么通順,續寫效果非常差。如果輸入了中文,不僅不會寫出連貫句子,還會經常出現亂碼。
但除了中文和日語之外,AI 似乎無法識別絕大多數非字母的語言,像是韓語、阿拉伯語和老撾語等,它都無法識別和續寫,只能原封不動地顯示輸入值。看來 GPT-2并沒有系統地接受這類語言的訓練。
圖 |AI:“這道題超綱了,我不會。”
不過這并不妨礙我們調戲 AI,用英語就可以了。
AI 教你一本正經地胡說八道
比如你可以問它:“如何制造時光機?”
它可能會洋洋灑灑回復一大篇,但通讀下來全是廢話,先解釋一下什么是時光機,再解釋一下什么是時空穿越,就是不教你怎么制造(因為有字數限制,AI會中斷續寫)。
這個套路,深得雞湯文的精髓。
我們還可以輸入一些電影名言,像是《哈利波特與密室》中鄧布利多說的話:“哈利,決定我們是什么人的,不是我們的能力,而是我們的選擇。“
結果 AI 表示,這是哈利在被伏地魔殺死之前說的話。好吧,最起碼它知道《哈利波特》和伏地魔。
或者,《阿甘正傳》里面的“生活就像一盒巧克力,你永遠不知道你會得到什么。”
在我多次刷新后,AI 給出了一個乍看之下沒什么邏輯,但深思之后會眼前一亮的續寫:“我只能吃一個,因為它太貴重了。”
如果將兩句話連起來,AI 仿佛在勸你珍惜生活中的每一次選擇——“生活就像一盒巧克力,你永遠不知道你會得到什么,但它太貴重了,你只有吃一次的機會。”
不過相比這些,AI 更擅長的還是編寫假消息。
如果從維基百科上復制兩句美國總統特朗普的簡介,AI 可以用幾乎以假亂真的措辭和數據,讓續寫看起來非常真實,甚至是自發地打上來自于維基百科的標記。
上圖里,加粗的一段話是維基百科的原話,后面是AI瞎編的,說特朗普是個投資者,從 1972 年就在電信領域開了公司,還冠冕堂皇地打上了來源于維基百科的標記。在沒有其他求證手段的時候,的確很容易混淆視聽。
如果說混淆了特朗普的生平還算小事,那么偽造宣戰的惡劣性質就完全不同了。只要給出“某國對某國宣戰”的開頭,AI 可以分分鐘偽造出數十個不同版本。雖然有的會出現邏輯不通問題,但依然大大降低了造假的成本。
上圖中,我們給定開頭是“美國總統特朗普對俄羅斯宣戰。一發導彈…(假新聞)。”
AI 續寫:“…美國國防部長 JamesMattis 周三警告稱,盡管俄羅斯拒絕承認在克里米亞地區部署了核轟炸機和巡航導彈,但美國的一發導彈已經從驅逐艦上發射,標志著國際問題的劇烈升級。五角大樓表示,這是對俄羅斯參與烏克蘭軍事行動的回擊。”
怎么樣?除了 Mattis 已經辭職這一事實,面對AI的續寫,無論是通順程度,還是邏輯思維,普通人很難一眼看出破綻。
對關鍵詞求證之后,這樣的假新聞很容易被識破。但在現階段來看,Facebook 和推特等平臺依靠篩查系統,幾乎不可能第一時間將其屏蔽,很可能借助社交媒體廣泛傳播,造成非常惡劣的社會影響。
由此看來,OpenAI 最初的顧慮不無道理,科技的確是一把雙刃劍。
結語
從整體來看,這套 GPT-2 模型的續寫水平足以讓人眼前一亮,而且對語境擁有一定的了解,僅憑哈利這個關鍵詞就引出伏地魔。得益于天然英文素材的訓練內容,在大部分情況下,只要肯多刷新幾次,我們總會找到語法、詞匯和句式都能銜接很好的段落。整個過程頗有幾分抽獎的樂趣。
但是該模型也會時常出現邏輯和語義硬傷,而且常識儲備和自洽能力也有待提高(如所有人都死了,還有幸存者),總是會搞出很多莫名其妙的句子,也算是讓人忍俊不禁。或許擁有 15 億參數的完全體 GPT-2 會有更強大的表現。
-
人工智能
+關注
關注
1791文章
47208瀏覽量
238284 -
OpenAT
+關注
關注
0文章
5瀏覽量
8662 -
nlp
+關注
關注
1文章
488瀏覽量
22033
原文標題:開頭一句話,剩下全靠編,親測OpenAI“假新聞”生成器
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論