色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

只有谷歌受傷的世界達成了,但“全能模型”到底該不該跟?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-05-20 14:34 ? 次閱讀

最近AI領域備受矚目的新聞中,OpenAI和谷歌的新品發布會,無疑占據了最多的頭條。

我們團隊當然也不例外,不僅第一時間觀看了兩家公司的發布會,還親身上手體驗了號稱“顛覆世界”“世界又科幻了”的GPT-4o。

一句話總結:

OpenAI發布會,失望;

谷歌發布會,無聊。

并不是我們要故作驚人之語。實際上,AI業內專業人士普遍都有類似的看法。

一些國內從事AI工程化項目的人表示,“不關心,因為又用不到”。而AI科學家和專家也有不少人直言,“看著看著睡著了,谷歌幾乎所有的東西都是對標和追趕,沒有太多的新鮮感”。

wKgZomZK7uuAc7bkAADCkjwJ9WM240.jpg

又又又一次在與OpenAI的較量中處于下風,一個只有谷歌受傷的世界達成了。

盡管兩大AI巨頭的新技術方向,仍然值得關注,但可以明確的是,隨著大型AI模型的產業化進程不斷深入,國內外參與者也越來越冷靜,更加專注于自身的AI策略與節奏。

有人將這兩場發布會比作是一場斗地主游戲,OpenAI打出一對二,谷歌就跟四個王。那么,這一次較量的核心——多模態大模型,國內AI行業是否要跟進呢?如果要跟進,又該提前考量到哪些問題呢?

每一次新產品問世,如果只跟著新聞“震驚”是很難進步的。不妨和我們一起,認真給GPT-4o算筆賬。

全能模型,究竟“驚艷”在哪里?

谷歌反擊OpenAI的發布會,被稱為“腹瀉式更新”,一口氣推出了十來款新品及升級。之所以讓人看到睡著,是因為大家已經在前一天被GPT-4o“驚艷”過了。

而這次谷歌開發者大會上所演示的其他產品,OpenAI早都發布過。對標GPT-4o的Gemini Astra,表現又略遜一籌,也難怪大家興趣缺缺。顯然,這是一次針對谷歌的精準狙擊。此前,谷歌已經對外放出了語音助手demo演示的預熱視頻,而GPT-4o最讓人驚艷的地方就是“天花板級別”的人機自然語音交互。

那么,OpenAI機關算盡、谷歌有備而來的多模態大模型,究竟有什么神奇之處?

GPT-4o中的“o”代表“omni”,意為“全能”,以此為版本號,凸顯了GPT-4o的多功能特性,可以從三個方面理解:

1.多模態。

GPT-4o接受文本、音頻和圖像的任意組合作為輸入,實時對音頻、視覺和文本進行推理,生成相應的輸出。相比ChatGPT的文生文、文生圖,Sora的文生視頻等,GPT-4o是一個原生多模態的融合體。這一點,谷歌的Gemini Astra也能實現,支持多模態的推理。在演示視頻中,谷歌的智能助手可以理解手機攝像頭拍攝的世界(視頻、圖像),并用文字詳細地講述出來。

wKgaomZK7uuAGtuPAABQ3AxqbdU517.jpg

當然,多模態大模型并不是什么新鮮事物。不只這倆AI巨頭,國內在多模態大模型領域也有一些研究和開發。此前就有浙大校友開源了多模態大模型LLaVA,對標OpenAI的GPT-4V。既然多模態大模型并不稀奇,那GPT-4o憑啥“驚艷”?答案就在第二點。

2.低時延。

GPT-4o是一個端到端、全鏈路貫穿的多模態大模型。

此前,語音產品一般由三個獨立模型組成:SLM1將音頻轉錄為文本——LLM將文本輸出為文本——SLM2將生成文本轉換為音頻。每一步的網絡延遲疊加起來,結果就是AI推理速度跟不上人嘴巴說話的速度。大家可能都有過類似的經歷,自己都說完了,AI大模型還沒識別完全,互動總被打斷,有時還會丟失很多信息,連基本的文字都聽不清,更別說從笑聲、停頓、嘆氣等因素中分析出人的情緒了,人當然也就沒有了說下去的興致。

而GPT-4o的端到端,就是省去了中間的處理步驟,由同一個神經網絡來接受并處理來自不同模態(如文本、視覺和音頻)的輸入數據,并直接輸出結果。這樣就可以將語音交互的響應時延,控制在232 毫秒以內,體感上比人類回應還要迅速。

OpenAI演示完GPT-4o,大家紛紛表示,科幻電影中《Her》跟機器談情說愛的未來就要實現了。不過,谷歌并不這樣想。

wKgZomZK7uyAQ-FSAAAf_gaHg-w185.jpg

(截圖自奧特曼的社交媒體)

在晚一天的谷歌發布會上,谷歌Gemini 1.5 Flash的響應其實也很快速,同樣能幾乎沒有延遲地跟人類流暢互動,但還是比GPT-4o要長一些。不過谷歌聲稱,自己的兩段演示視頻均為“單次拍攝、實時錄制完成”。

我們猜測,這是在暗示OpenAI又在“貸款領先”了GPT-4o實際可能無法很快真的落地,畢竟OpenAI搞誤導性營銷是有前科的,Sora就曾爆出,拿藝術家編輯過的視頻當原視頻宣傳,演示效果并非完全由AI生成。

展示效果是真是假,有待時間驗證,不過OpenAI和谷歌在端到端方面的工作,證明了人機語音交互的超低時延是可以實現的,達到媲美人類交流的水平。而這,就為語音交互的多場景應用,打下了新的技術根基。

3.多場景。

大家應該都還記得,ChatGPT問世時舉世震驚的效果。大語言模型的強大理解能力和泛化性,可以促成NLP在多種文本任務上帶來顛覆式的影響,而這類任務幾乎遍布在各行各業。

再看GPT-4o,多模態大模型在音視頻理解方面尤其出色,也是一個非常泛在的通用型技術。而毫不夸張地說,GPT-4o將語音交互體驗做到了“天花板級別”,這幾乎可以給語音場景都帶來改變。

wKgaomZK7uyABsC-AADf2uGTEj4339.jpg

比如OpenAI所展示的輔導孩子數學題,可以替代家長輔導作業,讓家家都過上和諧的日子;《Her》電影中跟智能語音機器人談戀愛的場景,可以讓人人都擁有自己的網絡戀愛/在線情感撫慰師。延展開來,此前曾被嘲笑“人工智障”的手機語音助手,銀行、電信等行業的客服機器人,缺乏充足師資力量的偏遠學校,游戲里跟玩家互動的NPC紙片人,以及能識別用戶情緒的精準營銷……

凡有人聲處,皆可詠AI,正隨著端到端多模態大模型的進化與落地,讓更自然、更逼真、富有感情的人機交互成為可能。

從這個角度說,GPT-4o所代表的技術前瞻性,確實配得上“全能o”這個詞。既然如此,為什么說只有谷歌一家受傷了呢?

不慌不忙,只有谷歌受傷的世界達成了

OpenAI一有新品發布,國內大眾的期待與緊張情緒便如同谷歌的皮猜(Sundar Pichai)一樣高漲,這幾乎已經是慣例了。

預判國內觀眾的預判,很多中文媒體也在OpenAI春季新品發布會剛發完的早晨,就炮制了一系列“顛覆世界”“炸裂登場”的新聞。有人說它要革谷歌的命,革Siri的命,革同傳的命,革心理咨詢師、情感輔導、私人教練等1V1咨詢的命……

或許還有不明真相的群眾信以為真,而谷歌也確實進行了反擊,但國內AI業內人士大多呵呵一笑。這可能是第一次,面對OpenAI的進攻,只有谷歌受傷的世界達成了。

wKgZomZK7u2ANfqkAAE1OP1OM1Q798.jpg

為什么國內AI從業者普遍對GPT-4o及對標GPT-4o的Gemini Astra,反應平平,甚至看發布會都能睡著?

首要原因,當然是新產品不達預期。

許多人原本滿懷期待地等OpenAI放出GPT-5,就算沒有,也得是跟Sora一樣驚艷的東西,但GPT-4o更多的是在現有技術框架內的一次迭代升級。而谷歌此前發布的Gemini也有多模態能力。可以說,雙方雖然都在多模態處理方面,做出了改進和增強,但并沒有實現根本性的技術飛躍。所以有人說,大家期待的是一個“核彈”,而OpenAI這次拿出的是一個“摔炮”。

另一個原因,是OpenAI“狼來了”玩太多次了。

OpenAI會營銷是共識,有不少人都在Sora翻車之后表示,“厭倦了OpenAI的精美Demo營銷”。投資人朱嘯虎OpenAI CEO Sam Altman奧特曼每次都把PR宣傳時間點拿捏得很準,顯示自己這波在“大氣層”,但幾個月之后都沒有開放給公眾使用。

越來越多人認識到這一點,也對OpenAI的“demo發布會”變得不信任、不耐煩了。

wKgaomZK7vGAOUP0AAGjO4FFdek680.jpg

(截圖自社交媒體,網友對OpenAI的評論)

當然,最關鍵的還是,經過一年多的大模型落地實踐,國內AI產業鏈上下游可能都對OpenAI和大模型“祛魅”了。

這就像打牌,面對別人擺下的龍門陣,剛剛坐上牌桌,對游戲規則和策略不夠熟悉,自然要先觀察和模仿對方的策略,趕緊先把大語言模型搞出來,也會下意識地聽取圍觀群眾的建議。明明自己才是干AI的,但一聽媒體分析師或網友說“落后了”,立馬焦慮,忙著對標ChatGPT、對標GPT-4,又容易“翻車”引發輿論危機。剛上牌桌,進退失據,亦步亦趨跟進OpenAI是難免的。

但一年多時間過去,很多真正做大模型和產業落地的人與企業,或許還沒徹底弄清楚中國大模型產業化、商業化應該怎么做,但一個共識很清楚——像OpenAI、谷歌那樣做不行。最簡單的,GPT-4o能第一時間拿到英偉達最先進的顯卡,這就是國內廠商很難擁有的資源。

此外,ToB領域對模型可控性的要求、私有化部署的需求等,國內企業的智能化要從數據清洗、知識庫等基礎工作開始,而不是直接調用最先進模型的API……

這些問題,導致國內AI產業界對追趕OpenAI“炸裂新品”的興趣,越來越小,找到了自己做大模型的節奏和策略。

這些背景綜合起來,導致只有緊跟在OpenAI身后苦苦追趕的谷歌,被GPT-4o傷得最深。

多模態大模型的收益比,到底怎么樣?

當然,不再一味追著OpenAI的節奏疲于奔命,并不意味著OpenAI和谷歌都在發力的技術方向,就不重要了,就可以不關心了。

只不過,在盯緊趨勢的基礎上,還得統籌牌局,算好收益比,究竟何時出牌、什么出牌順序,對大模型商業化的潛在收益風險比是最高的。

那么,GPT-4o及Gemini Astra這類端到端多模態大模型,對企業的潛在收益與風險,究竟如何呢?

先說收益。

目前來看,與豐富的軟硬件生態相結合,能夠更快落地、價值最大化。

比如谷歌Gemini Astra盡管在理解能力、時延上不及GPT-4o,但谷歌憑借強大應用生態的支持,讓跨模態理解生成,有了用武之地,股價也有所上漲。

硬件方面,谷歌Gemini的多模態能力與XR眼鏡整合,讓商業化遇阻的“谷歌眼鏡”再次回魂重塑;

軟件方面,GPT-4o被傳將與蘋果綁定,加速IOS的AI化進程。而谷歌則將多模態能力融入搜索,用戶可以通過語音、圖片等與搜索引擎交互,支持搜索視頻內容。

wKgaomZK7vKAI7aEAAA2qV60gZY712.jpg

(截圖自社交媒體,網友對GPT-4o的評論)

不過,這些都是展望。在實際落地、與軟硬件結合的過程中,AI公司可能會輸掉一些籌碼,潛在風險包括:

長期虧損。就連OpenAI都遭遇了流量危機,開始通過免費換用戶規模,這意味著在算力、人員等方面的長期投入。AGI是一個長期任務,可能需要十年、二十年的時間,如果在每一個階段,不能成功實現規模商業化,想一把賭個大的,靠后期非線性增長來扭虧為盈,很有可能“大業未成而中道崩阻”。

同質化競爭。OpenAI與谷歌的大模型競爭,撕咬得很緊,而技術領域想要徹底封閉是不可能的,這意味著底層模型能力很快會趨同,這時候用戶會轉變為價格敏感型,進入殘酷的價格戰。如果沒有差異化的營收模式,一味跟進底層模型的絕對領先,利潤會越來越微薄。

可能有人會說,還沒做出國產版GPT-4o就惦記著商業化、賺錢,真的很庸俗。

必須得說明一下,從收益比最優的角度,決定怎么出牌,OpenAI可算是熟手了。事實上,ChatGPT的推出是為了用聊天機器人來搶到關注度,而GPT-5遲遲不推出,除了坊間猜測的能力不達預期之外,也有對發布時機的考量。奧特曼已經表達過多次,“GPT-5很厲害,但我們還沒有確定如何將這些產品推向市場”。

師夷“算賬”以制夷,國內AI公司也得學會踩點市場節奏,做出更明智、收益比更高的商業策略,才能長期良性發展。網友大型“雙標”要不得。

從國內LLMtoB(面向B端市場的大模型)的一些實踐經驗來看,GPT-4o在當下確實還存在一些阻礙落地的實際問題。

比如可控性,AIGC生成的文本、圖片,都比較容易進行內容控制,由其他模型或人類專家來把控內容質量與合規風險,超低時延的實時語音交互如何保障內容質量?如果在輔導作業、醫生問診、心理咨詢等嚴肅場景中出現幻覺和胡說八道,甚至違法違規的內容,該怎么及時防范?

奧特曼在GPT-4o的技術博客中提到,該模型在網絡安全等風險維度上都“不超過中等水平”,也就是說,目前只能實現中等及以下的安全能力。無論是C端用戶,還是B端政企客戶,誰放心將喜怒哀樂、私密信息都告訴多模態大模型?怎么打消用戶的安全顧慮,還需要在數據源頭、模型訓練、規則機制設計、產品功能上都有充分細致地打磨。

更要問一句,創業公司和開發者的努力總是被新的模型能力覆蓋掉,是不是來自AI大模型廠商的一種“背刺”?什么樣的智能語音產業生態,才能吸引他們來用?

這些落地問題不解決,所謂的《Her》一般的科幻未來,就只能一直存在于OpenAI的demo中了。

從實際情況來說,跟上技術路線并不算真難題。算好收益比,搞清楚自己和對手手里的牌面,以及多模態大模型的商業牌局,才是更難也更緊迫的問題。

GPT-4o這一波,國內AI企業不用急著再上牌桌。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6211

    瀏覽量

    106486
  • AI
    AI
    +關注

    關注

    87

    文章

    32439

    瀏覽量

    271612
  • GPT
    GPT
    +關注

    關注

    0

    文章

    365

    瀏覽量

    15631
  • OpenAI
    +關注

    關注

    9

    文章

    1184

    瀏覽量

    6917
  • 大模型
    +關注

    關注

    2

    文章

    2781

    瀏覽量

    3432
收藏 人收藏

    評論

    相關推薦

    英偉達發布Cosmos世界基礎模型

    近日,在2025年1月6日于拉斯維加斯拉開帷幕的國際消費類電子產品展覽會(CES)上,英偉達宣布了一項重大創新——Cosmos世界基礎模型平臺。該平臺集成了先進的生成世界基礎
    的頭像 發表于 01-09 10:23 ?415次閱讀

    正負壓驅動波形詢問

    大哥們,這個PAI8233齊納二極管負壓關斷配置,測試DRV9與QGND之間的波形,能測出+12V、-3V嘛(電路只焊接了最小系統與驅動),穩壓二極管為3V,下面是我測試的波形(只有+15V),頻率18K(不知道是否正確,該不該是+12V、-3V)
    發表于 01-02 19:39

    NVIDIA與谷歌量子AI部門達成合作

    NVIDIA CUDA-Q 平臺使谷歌量子 AI 研究人員能夠為其量子計算機創建大規模的數字模型,以解決設計中面臨的各種挑戰
    的頭像 發表于 11-20 09:39 ?369次閱讀

    高通與谷歌達成多年戰略合作

    高通技術公司宣布與谷歌達成旨在推動汽車行業數字化轉型的多年技術合作。基于長期合作關系,雙方將利用驍龍數字底盤、Android汽車OS和谷歌云三者互為補充的各類技術,打造借助生成式AI(GenAI
    的頭像 發表于 11-08 09:43 ?342次閱讀

    谷歌計劃12月發布Gemini 2.0模型

    近日,有消息稱谷歌計劃在12月發布其下一代人工智能模型——Gemini 2.0。這一消息引發了業界的廣泛關注,因為谷歌在人工智能領域一直保持著領先地位,而Gemini系列模型更是其重要
    的頭像 發表于 10-29 11:02 ?836次閱讀

    霍尼韋爾宣布與谷歌達成合作

    近日,霍尼韋爾(Honeywell)宣布與谷歌云(Google Cloud)達成合作,共同將生成式人工智能Gemini引入工業領域。這一合作標志著霍尼韋爾在高科技和制造領域的又一次重要突破。
    的頭像 發表于 10-23 17:36 ?584次閱讀

    高通與谷歌達成戰略合作,推動汽車行業數字化轉型

    高通近日宣布與谷歌達成了一項多年的技術合作協議,旨在共同推動汽車行業的數字化轉型。
    的頭像 發表于 10-23 16:54 ?495次閱讀

    高通與谷歌達成多年技術合作,共推汽車行業數字化轉型

    北京時間10月23日,高通技術公司宣布與谷歌達成一項為期多年的技術合作,旨在加速c行業的數字化轉型。   基于雙方長期的合作關系,高通和谷歌將共同利用驍龍數字底盤、Android Automotive OS以及
    的頭像 發表于 10-23 11:53 ?1189次閱讀

    新火種AI 大模型公司紛紛被收編!創始人們逐漸變成了“最討厭的自己”?

    谷歌,微軟一類的大廠正在快速展開行動,不過,它們并不是單純要給大模型公司進行投資回血,而是對其展開了圍剿行動。 就在本月初,谷歌就“買下”了AI聊天機器人獨角獸公司Character.AI的創始人及其核心團隊,與此同時,
    的頭像 發表于 08-21 15:05 ?371次閱讀
    新火種AI 大<b class='flag-5'>模型</b>公司紛紛被收編!創始人們逐漸變<b class='flag-5'>成了</b>“最討厭的自己”?

    谷歌獲Character.AI大模型技術授權,創始人重歸谷歌懷抱

    8月5日最新資訊,創新企業Character.AI在上周五正式宣布,他們已經與科技巨頭谷歌的母公司Alphabet達成了一項重要合作,非獨家授權谷歌使用其先進的大型語言模型技術。此次合
    的頭像 發表于 08-05 14:35 ?538次閱讀

    谷歌發布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發人員,正式發布了其最新研發的大語言模型——Gemma 2。這款模型以其高效能和低成本的特點
    的頭像 發表于 06-29 09:48 ?558次閱讀

    微軟、谷歌等科技巨頭承諾安全開發AI模型

    近日,微軟、谷歌、OpenAI等16家科技巨頭在“人工智能(AI)首爾峰會”上達成共識,承諾在AI模型的開發過程中注重安全性,并在無法控制最極端風險時關閉其尖端系統。
    的頭像 發表于 05-22 11:25 ?572次閱讀

    谷歌發布AI文生圖大模型Imagen

    近日,谷歌在人工智能領域取得新突破,正式推出了Imagen文生圖模型。這款模型以其卓越的細節調整功能、逼真的光線效果以及從草圖快速生成高分辨率圖像的能力,引起了業界的廣泛關注。
    的頭像 發表于 05-16 09:30 ?639次閱讀

    STM32F103XX引腳拉低時,什么時候加下拉電阻,什么時候不加呢?

    想通過串口給stm32f103xx燒寫程序,這時boot0:boot1,要設置為1:0模式,在給boot1引腳拉低時我猶豫了,該不該加下拉電阻呢?boot0拉高時,該不該加上拉電阻呢??阻止分別
    發表于 05-08 07:58

    谷歌發布用于輔助編程的代碼大模型CodeGemma

    谷歌發布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發布的輕量級開源大模型 Gemma,針對 Gemma 的兩個不同參數規模的版本 Gemm
    的頭像 發表于 04-17 16:07 ?838次閱讀
    <b class='flag-5'>谷歌</b>發布用于輔助編程的代碼大<b class='flag-5'>模型</b>CodeGemma
    主站蜘蛛池模板: 国产超嫩一线天在线播放 | 国产精品美女久久久久浪潮AV | 久久国产主播福利在线 | 99蜜桃在线观看免费视频网站 | 99免费在线观看 | 午夜性爽视频男人的天堂在线 | 欧美午夜精品一区二区蜜桃 | 亚洲免费观看 | 办公室里做好紧好爽H | 国产人妻人伦精品98 | 7777色鬼xxxx欧美色夫 | 亚洲日韩中文字幕区 | 暖暖免费观看日本在线视频 | 久久精品热播在线看 | 亚洲国产日韩a精品乱码 | 亚洲高清在线天堂精品 | 一级做a爰片久久毛片苍井优 | 欧美人与动牲交A精品 | 视频一区二区中文字幕 | 日韩亚洲国产欧美免费观看 | 中文字幕无线观看不卡网站 | 国精产品一区二区三区 | 性色AV乱码一区二区三区视频 | 亚洲欧美中文字幕网站大全 | 亚洲欧美日韩中字视频三区 | 文中字幕一区二区三区视频播放 | 某上海少妇3P黑人完整版BD | 国产一区二区三区内射高清 | 嫩小幼处在线 | 久久xxxx | 人妻夜夜爽99麻豆AV | 精品国产福利一区二区在线 | 成人国产在线不卡视频 | 99re热有精品国产 | 精品久久久久中文字幕 | 无人区日本电影在线观看高清 | 兔费看少妇性L交大片免费 偷偷要色偷偷 | 双腿被绑成M型调教PLAY照片 | 国产色婷婷精品人妻蜜桃成熟 | 99久久综合 | 红桃视频国产AV |