一个人看www观看一个人,婷婷丁香色综合狠狠色,在线视频第一页

電子發燒友網報道（文/吳子鵬）近兩天，原本就火熱的人工智能大模型再度被澆上了一桶油，話題熱度更勝從前。不過，這一次大家探討的并不是大模型前景和算力這些，而是大模型之間互薅羊毛的問題。根據微博知名博主@闌夕爆料，對谷歌Gemini進行測試時，如果用中文詢問Gemini的身份，其回答竟然是百度文心一言。

更讓人大跌眼鏡的是，測試人員可以使用“小愛同學”“小度”等提示詞喚醒Gemini。并且，Gemini還能夠告訴測試人員，自己是如何獲取到百度的訓練數據的。

網傳對話場景

網傳對話場景

不過，此則消息應該是很快就引起了谷歌技術人員的關注，在消息曝光不久后，Gemini應對上述提示詞和問題的方式就發生了改變。通過“小愛同學”“小度”等提示詞無法再喚醒Gemini，且對于相關問題的闡述也發生了變化，顯然谷歌技術人員很快修復了一些bug。

谷歌Gemini飽受質疑

當地時間12月6日，谷歌宣布推出“最大、最強、最通用”的新大型語言模型Gemini，我們對此也進行了專門的報道。在發布會上谷歌聲稱，在32項廣泛使用的基準測試中，Gemini Ultra獲得了30個SOTA（State of the art，特指領先水平的大模型）。這也就意味著，Gemini 1.0版本在文本、代碼、音頻、圖像和視頻處理能力方面，以及推理、數學、代碼等方面都吊打GPT-4。

同時，在發布會上谷歌還展示了Gemini相關的能力。比如，Gemini可以非常高效地從數十萬份文件中獲取對科學家有用的數據，并創建數據集；Gemini可以在世界上最受歡迎的編程語言（如Python、Java、C++和Go）中理解、解釋和生成高質量的代碼。

不過，谷歌是通過視頻展示的Gemini的相關能力，而不是通過現場實操。于是乎，就在谷歌發布會的次日，有視頻制作人員質疑稱，谷歌的演示視頻并不是實錄，而是剪輯的。隨后，谷歌在博客文章中解釋了多模態交互過程，并提到了視頻演示中的猜拳，谷歌承認，不同于視頻中對于猜拳手勢的快速反應，只有在向Gemini同時展示這三個手勢并提示其這是游戲時，Gemini才會得出猜拳游戲的結論。

圖源：谷歌博文

因此，現在很多人都認為谷歌夸大了Gemini的能力，只有使用靜態圖片和多段提示詞拼湊，Gemini才能夠顯示出多模態的能力，這和谷歌宣稱的實時多模態反應明顯是不相符的。

大模型之間互薅羊毛

除了性能質疑之外，此次事件則揭露了大模型發展另一個規則——互薅羊毛。實際上，在Gemini自曝是百度文心一言之前，國內字節跳動就發生了相關問題。

近日，有外媒報道稱，字節跳動在使用OpenAI技術開發自己的大語言模型，違反了OpenAI服務條款，導致賬戶被暫停。對此，字節跳動相關負責人向記者回應稱：今年年初，當技術團隊剛開始進行大模型的初期探索時，有部分工程師將GPT的API服務應用于較小模型的實驗性項目研究中。該模型僅為測試，沒有計劃上線，也從未對外使用。4月公司引入GPT API調用規范檢查后，這種做法已經停止。字節跳動稱，后續會嚴格遵守OpenAI的使用協議。

從Gemini調整之后的回復來看，其在訓練過程中確實使用了百度文心一言的訓練數據，這其實也無可厚非。百度文心一言在中文理解及相關的多模態生成能力方面確實處于領先的位置，那么背后的原因定然是因為百度掌握著質量相對更好的中文訓練數據集，因此其他大模型如果想要在中文對話方面取得進展，使用文心一言的訓練數據確實是最高效的方式。

另外，除了字節跳動，此前谷歌也被質疑使用OpenAI數據來訓練Bard，最終谷歌的回應是Bard沒有使用ShareGPT或是ChatGPT的任何數據來進行訓練。另外，國內也有很多公司被質疑是采用OpenAI數據來完善自己的大模型。不過，這種行為大都見不得光，因此都被否認了。

為什么其他大模型頻傳借用OpenAI數據來訓練呢，重要原因在于GPT-4性能領先一個重要的原因就是數據集質量更高。根據semianalysis發布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章，GPT-4是一個使用1.8萬億巨量參數訓練的模型框架，而GPT-3只有約1750億個參數，另外GPT-4擁有16個專家模型，每個MLP專家大約有1110億個參數。這就是為什么在展示Gemini Ultra的MMLU訓練時，谷歌將“CoT@32”進行小字注釋，代表Gemini Ultra的MMLU測試使用了思維鏈提示技巧，嘗試了32次并從中選擇最好結果。與之對比，GPT-4無提示詞技巧給5個示例。就這樣，GPT-4的成績為86.4%，依然高于Gemini Ultra的83.7%。

另外，OpenAI用13萬億的token訓出了GPT-4。因為沒有高質量的token，這個數據集還包含了許多個epoch。

綜上所述，雖然GPT-4的訓練數據規模沒有官方說明，但是semianalysis文章可信度很高，這個規模比Gemini Ultra宣稱的萬億似乎更強，也不怪大家都想用GPT調優自己的模型。

當然，每一個模型都有自己擅長的地方，尤其是那些垂直的行業模型，在行業數據方面肯定是優于一般多模態大模型的，因此被薅羊毛的概率也很大，但是這大都不會被公開。

大模型數據集背后的產業鏈

為了讓GPT-4具有領先的性能，OpenAI的研發團隊在模型優化、數據選擇和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。對于大模型來說，預訓練數據集是一個非常關鍵的元素，很大程度上決定了大模型最終的性能水平。

在這個大背景下，隨著大模型產業發展，訓練數據也逐漸成為一種產業。比如國內的云測數據，云測創立于2011年，是一家以人工智能技術驅動的企業服務平臺，為全球超過百萬的企業及開發者提供云測試服務、AI訓練數據服務、安全服務。該公司的云測數據入選“北京市人工智能行業賦能典型案例(2023)”，在垂直大模型訓練數據服務方面很有造詣。

再比如，海天瑞聲作為國內領先基礎數據服務商，是國內首家且是目前唯一一家A股上市的人工智能訓練數據服務企業，為阿里巴巴、Meta、騰訊、百度、字節跳動等公司提供數據服務。

北京郵電大學科學技術研究院副院長曾雪云教授此前在受訪時表示，“互聯網上生成的這些數據，它是非結構化的數據，也是非標準化的數據。這樣的數據就是一種原始的、比較雜亂的、沒有規范的數據，它就需要在計算前進行顆粒度上的清洗，所以高質量數據通常都有從非結構化到結構化這樣的一個加工過程。”

“現在從對數據科學的研究、國家對數據的治理，到學術界對數據的研究、產業界對數據的利用都是一個藍海，都是一個剛開始的狀態?！痹┰平淌谔岬?。

當然不僅國內關注到這一塊的產業價值，作為頭部企業，OpenAI希望與機構合作建立新的人工智能訓練數據集。OpenAI為此創立了“數據伙伴關系”（Data Partnerships）計劃，該計劃旨在與第三方機構合作，建立用于人工智能模型訓練的公共和私有數據集。OpenAI 在一篇博文中表示，數據合作伙伴關系旨在“讓更多組織能夠幫助引導人工智能的未來”，并“從更有用的模型中獲益”。

結語

人工智能大模型其實是大數據時代的典型產物，那么也就無法脫離對大數據的依賴。大模型的火爆讓高質量訓練數據成為高價值、緊俏的資源，而這些數據往往掌握在頭部企業手里，這就是為什么大模型企業之間互相會薅羊毛。不過，相較于互聯網海量的數據，目前科技巨頭的訓練數據集還只是九牛一毛，如何從海量互聯網數據提取有價值的訓練數據集，已經逐漸成為一個產業鏈。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6161

瀏覽量
105300
字節跳動

字節跳動

+關注

關注
0

文章
317

瀏覽量
8922
OpenAI

OpenAI

+關注

關注
9

文章
1079

瀏覽量
6481
文心一言

文心一言

+關注

關注
0

文章
124

瀏覽量
1275
大模型

大模型

+關注

關注
2

文章
2423

瀏覽量
2640

百度文心一言APP升級為文小言

百度宣布其文心一言APP正式升級為文小言，標志著百度在智能搜索領域邁出了重要一步。文小

發表于 09-04 16:06 ?484次閱讀

【附實操視頻】聆思CSK6大模型開發板接入國內主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問）

接入文心一言、通義千問、豆包、智譜glm、kimi等國內的大模型，但由于各家接口和數據格式不一樣，調試驗證會浪費很多時間。因此本篇以聆思CS

發表于 08-22 10:12

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

接入文心一言、通義千問、豆包、智譜glm、kimi等國內的大模型，這個是必須可以的。但由于各家接口和數據格式不一樣，有些朋友直接參考chat

發表于 08-21 19:13

百度文心大模型4.0 Turbo，正式發布用戶規模已達3億

的最新數據，并正式發布文心大模型4.0 Turbo、飛槳框架3.0等最新技術，披露飛槳文心生態最新成果。 ?01?

發表于 06-29 10:06 ?853次閱讀

李彥宏高度評價百度文心一言模型及AI技術，強調商業化將持續推進

據了解，目前已有近10萬家企業使用了文心一言的能力，其中10%的大搜流量由該模型產生，每日有250萬用戶受益于文庫的AI功能。未來，百度計劃進一

發表于 05-11 10:44 ?514次閱讀

新火種AI|李彥宏發聲：文心一言4.0在國內可以取代ChatGPT！事實真的如此嗎？

文心一言 VS ChatGPT，誰更勝一籌？

發表于 04-19 10:14 ?754次閱讀

百度文心一言用戶破2億，AI原生應用開發數量達19萬

此外，李彥宏還提到，百度在去年 8 月宣布開放文心一言后，不僅在C端借助大模型改造用戶產品，將AI功能融入旗下多款產品；同時在B端，通過云業務推出企業級

發表于 04-16 15:05 ?606次閱讀

百度文心一言新增定制聲音功能，數秒即可生成個人語音

通過IT之家所述，用戶只需啟動文心一言App并點擊底部“+”按鈕，進入創建智能體界面；在聲音設置處找到專為個人量身打造的“創建我的聲音”功能。

發表于 04-07 16:20 ?847次閱讀

極越01 OTA V1.4.0升級，融合文心一言等技術，實現人車家深度融合

夏一平指出，目前極越 01已成功整合百度地圖、文心一言、Apollo以及小度等多項技術。此外，百度 Apollo 自動駕駛視覺大模型 VTA

發表于 03-26 11:20 ?685次閱讀

文心一言將在2024年貢獻數十億元的增量收入

百度文心一言在2024年有望為百度帶來數十億元人民幣的增量收入，這一預測由百度創始人、董事長兼首席執行官李彥宏親自公布。這一增長預期主要基于

發表于 03-04 11:32 ?1192次閱讀

百度起訴“文心一言”公司涉嫌商標侵權，不正當競爭糾紛即將開庭

公告中指責對方涉嫌商標侵權，引發了一場涉及人工智能領域的法律大戰。據了解，百度公司推出的“文心一言”是一款知識增強大語言

發表于 02-06 11:44 ?1643次閱讀

文心一言APP上線數字分身功能

文心一言APP近日上線了一項令人興奮的新功能——數字分身。這一功能允許用戶輕松創建自己的個性化虛擬形象，為用戶帶來全新的互動體驗。

發表于 02-04 10:32 ?1178次閱讀

百度文心一言用戶規模突破1億

在近日，百度公布了一個令人振奮的消息：文心一言大模型的用戶規模已經突破了1億。

發表于 01-02 16:10 ?653次閱讀

規模突破1億！文心一言披露最新用戶規模

“文心一言用戶規模突破1億?！?2月28日，百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰在第十屆WAVE SUMMIT深度學習開發者大會上宣布。會上，王海峰以《文

發表于 12-29 15:58 ?587次閱讀

文心一言用戶規模破1億應用已突破4000款

文心一言用戶規模破1億應用已突破4000款在第十屆WAVE SUMMIT深度學習開發者大會上百度首席技術官王海峰透露了組數據，自8月31日獲準開放對公眾提供服務以來，

發表于 12-28 18:18 ?1063次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

谷歌Gemini自曝用文心一言訓練，字節被OpenAI封號，大模型互薅羊毛是常態？

評論

百度文心一言APP升級為文小言

【附實操視頻】聆思CSK6大模型開發板接入國內主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問）

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

百度文心大模型4.0 Turbo，正式發布用戶規模已達3億

李彥宏高度評價百度文心一言模型及AI技術，強調商業化將持續推進

新火種AI|李彥宏發聲：文心一言4.0在國內可以取代ChatGPT！事實真的如此嗎？

百度文心一言用戶破2億，AI原生應用開發數量達19萬

百度文心一言新增定制聲音功能，數秒即可生成個人語音

極越01 OTA V1.4.0升級，融合文心一言等技術，實現人車家深度融合

文心一言將在2024年貢獻數十億元的增量收入

百度起訴“文心一言”公司涉嫌商標侵權，不正當競爭糾紛即將開庭

文心一言APP上線數字分身功能

百度文心一言用戶規模突破1億

規模突破1億！文心一言披露最新用戶規模

文心一言用戶規模破1億應用已突破4000款

搜索歷史

谷歌Gemini自曝用文心一言訓練，字節被OpenAI封號，大模型互薅羊毛是常態？

評論

谷歌Gemini自曝用文心一言訓練，字節被OpenAI封號，大模型互薅羊毛是常態？