誰能想到,一夜之間,人們對于谷歌 Gemini 的看法竟發生了 180° 轉變。
昨天,谷歌在 X 上展示 Gemini 原生多模態能力的 6 分半鐘視頻下,幾乎是清一色的贊揚:
而到了今天,Gemini 還是那個 Gemini,但網友已經不買賬了:
發生了什么,才會讓人們的態度一夜轉變?原因在于那個 6 分半的 Gemini 演示視頻:它是假的,是經過剪輯的,甚至在被質疑后,谷歌還承認了!
1、Gemini 的視頻演示效果,是假的
相信看過 Gemini 演示視頻的人,多數都對它的“多模態能力”印象深刻。例如,Gemini 看到一只鴨子從草圖到填色的整個過程,可實時給出解釋和反饋,還能在換杯游戲中追蹤紙團、辨別各種手勢、重新排列行星草圖等——短短 6 分半的視頻,Gemini 給人的感覺是:仿佛可以實時觀察周圍世界并及時做出反應,還能與人類進行流暢的語音對話。
對于 Gemini 如此強大的能力,谷歌給出的解釋是:Gemini 是 AI 的新品種,即“原生多模態”。
“我們將 Gemini 設計為原生多模態,從一開始就針對不同模式進行了預訓練。然后我們使用額外的多模態數據對其進行微調,以進一步完善其有效性,這有助于 Gemini 從頭開始無縫地理解和推理各種輸入,因此遠遠優于現有的多模式模型。此外,Gemini 的多模態功能幾乎在每個領域都是最先進的。”
聽起來似乎有理有據,于是當一眾網友都沉浸于 Gemini 的強大、好奇它能否真正超越 GPT-4 的時候,彭博社作家 Parmy Olsen 突然發出了一個“不太和諧”的聲音:Gemini 的視頻演示效果,是假的。
一石激起千層浪!好在 Parmy Olsen 并沒有吊人胃口,很干脆地將谷歌的作假手法和證據全部公開:Gemini 并不能像視頻中那樣實時語音回答——它看到的只是視頻片段中的靜態圖像,其語音也只是在讀出人類給它的文本提示,且響應時間比視頻中展示的要長。
2、背后的人工提示過程,全部省略
舉個例子,Gemini 演示視頻中有一段識別動態手勢的片段:通過觀察左邊不斷變化的手勢,Gemini 回答道,“我知道你在干嘛!你在玩石頭剪刀布!”
這段視頻乍看之下,你是不是以為可以實時向 Gemini 展示不同的東西,并與它交流?但事實并非如此:Gemini 僅支持文本交流,并不能進行語音對話。
根據谷歌公布的文檔內容顯示,這段視頻顯然是經過“加工”的:
(1)先給 Gemini 陸續展示三張單個手勢的圖片,問它分別看到了什么;
(2)再把三張手勢圖片一起發給 Gemini,問它這是在干什么,并提示是一個“游戲”;
(3)通過以上一步步的提示和引導,Gemini 最終給出了答案:你在玩石頭剪刀布。
針對以上步驟,一位谷歌發言人解釋道:“為了測試 Gemini 在各種挑戰中的能力,我們通過捕捉錄像來制作演示。然后我們使用錄像中的靜態圖像幀提示 Gemini,并通過文本進行提示。”
Parmy Olsen 將其簡單翻譯了一下:“谷歌拍下了那雙手做很多事情的畫面,然后一張一張地向 Gemini 展示了這些鏡頭的照片。所以根本沒有語音對話,而是跟 ChatGPT 和 Bard 一樣的文本交流。”
此外,谷歌發言人還補充稱,用戶的配音都是從實際提示中摘錄的真實內容,用于生成隨后的Gemini輸出結果——對此,Parmy Olsen 的翻譯是:“你在視頻中聽到的聲音,只是在朗讀文字提示。”
也就是說,谷歌所展示的 Gemini 演示視頻,是省略了所有引導提示、跳過了等待響應的時間、并用配音合成的最終結果。
3、都是真實的,只是“為了簡潔”剪輯視頻
當然,Gemini 可能也真的做到了在視頻中展示的所有事情,但這兩種表現形式完全不同:
以文字形式,通過人工提示分步驟直接展示其多模態效果,對于 Gemini 的能力沒有過多修飾;
以視頻形式,經過剪輯、省略其背后大量引導過程的視頻來呈現,極大暗示了 Gemini 的實時高效。
由于 Parmy Olsen 的曝光,網友對于 Gemini 的態度瞬間改變,并發出了無數質疑。而對于被質疑造假的這個視頻,谷歌 DeepMind 研究副總裁 Oriol Vinyals 今天給出了回應:
“視頻中的所有用戶提示和輸出都是真實的,只是為了簡潔起見進行了縮短。該視頻展示了使用 Gemini 構建的多模態用戶體驗可能是什么樣子,我們制作該視頻是為了激發開發人員的靈感。”
換句話說,Oriol Vinyals 承認 Gemini 演示視頻經過了剪輯,原因是“為了簡潔”。不論其剪輯初衷是否真的只是為了“簡潔”,但不得不說:在谷歌沒明確說明視頻經過剪輯之前,多數人對于 Gemini 的速度、準確性以及與交互的基本模式,都產生了誤解。
如果在這個視頻開頭,谷歌就說“這是我們研究人員測試過的 Gemini 交互的理想化表現”,那網友就會有心理預期:哦,那這個視頻一半是現實,一半是理想化——但事實上,該視頻的開頭是,“本視頻重點介紹了我們與 Gemini 的一些有趣互動”,因此人們很難意識到這個視頻中 Gemini 的表現是經過“加工”的。
4、網友:“這就是虛假和誤導”
于是意料之中,Oriol Vinyals 的回應并沒有受到網友的理解,其 X 帖子下多是譴責谷歌虛假、夸大營銷:
“如果你想激勵開發者,那為什么不發布真實的內容呢?提示不可能既‘真實’又‘縮短’,這就是虛假和誤導。”
如今的 AI 初創公司,不就是像你們這樣夸張的演示來騙取資金的嗎?
“‘真實,縮短’,真的嗎?只是營銷罷了。”
另外值得一提的是,還有網友指出,谷歌Gemini 對比GPT-4 的測試基準也并不相同:“在MMLU測試中,Gemini下面有個灰色小字標CoT@32,即使用了思維鏈提示技巧、選取了32次中的最好結果,GSM8K 的性能也是用 Maj1@32 與 GPT-4 的 5-Shot CoT 進行對比的。”
那么對于谷歌聲稱Gemini 超越GPT-4 的說法,你又有何看法呢?
本文轉自公眾號“CSDN”,ID:CSDNnews
審核編輯:劉清
-
谷歌
+關注
關注
27文章
6161瀏覽量
105300 -
GPT
+關注
關注
0文章
352瀏覽量
15342 -
ChatGPT
+關注
關注
29文章
1558瀏覽量
7595
原文標題:Gemini 超越 GPT-4 靠作弊?谷歌承認:是的,演示視頻經過了剪輯
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論