亚洲福利一区二区,亚洲精品国产专区91在线,色综合色狠狠天天综合色

ChatGPT出來以后很多人都在說開源，認為只要OpenAI大發善心或者哪個高超的黑客黑進服務器，把ChatGPT的源碼發出來放到網上，那么到不了第二天天亮，全世界就會人手一個ChatGPT。

這是一種常見的誤解。

開源字面意思是公開源代碼，過去我們通常是指公開某款軟件項目的源代碼。知名的譬如說Linux 操作系統，準確來說是操作系統內核，我們拿到Linux的源碼，只要搭建好相應的編譯環境，就能在本地編譯一套一模一樣的操作系統內核。

當然，實際會復雜一點，同一套源碼用不同方法編譯，運行效率、資源占用等都可能不同。這里姑且不再細摳，總之，過去軟件開源給我們的印象就是，甭管什么閬苑仙葩，只要一開源就能人手一份，而且很快還會有各種換皮魔改，同人逼死官方。往好了說，這叫開源帶來澎湃力量。

但大語言模型的“開源”完全不是這么一回事。先別管OpenAI現在名叫鈕鈷祿氏·CloseAI，就算哪天良心發現，真的要找回自己做一個名副其實的OpenAI，洗心革面把GPT-4給開源了。先別著急著高興，對于99%的人來說，GPT-4的源碼毫無意義，對于剩下的1%里的99%，可能也就蹭一些研究論文。只有最后剩下的1%里的1%才會有真正幫助，不過，也只是有幫助，但不算很大。

為什么？原因不復雜，因為大語言模型的所謂開源，實際上是有三個對象。源碼只是其中之一。我不是針對誰，在座各位即使拿到了源碼，剩下能做的也就只有點贊鼓掌。

人工智能三要素，算法、算力和數據。也有人管最后叫算據，不太確定這倆詞是不是互通。總之，到了力大飛磚的大語言模型時代，這三要素就成了算法、高算力和大數據。只有同時滿足這三大要素，你才有可能最終得到一款和ChatGPT類似效果拔群的模型。

那么，源碼在哪呢？在算法。算法的核心部分主要包括有模型結構和訓練方法，這兩部分都有對應的源碼。哪天OpenAI公開源碼，我們應該就能看到的也就是模型結構和訓練方法兩部分。

當然，這只是核心部分。一款人工智能產品，尤其是大型人工智能產品，還會有許多工程問題需要解決，除了核心還需要其它配套部件。別看到“配套部件”就覺得沒什么。之前同樣是OpenAI，配套部件大概占九成。所以，別管它Open不Open吧，我們能看到的都是冰山一角。

拿到源碼之后，真正的挑戰才剛開始。接下來才是這個世界絕大多數人、研究機構和企業注定無法邁過的門檻：高算力和大數據。

高算力已經說了很多了，門檻很高，但從全世界范圍來說，總歸有一些企業擠擠還是有的。不過，大數據就未必了。

數據非常重要。無論是人工智能時代，還是人工智障時代，擴大數據的規模、提高數據的質量，通常都能顯著提高模型的最終表現。以前我們經常自嘲，說人工智能就是投入多少人工就產出多少智能，人工做什么呢？就是標數據。

千萬不要小看了標數據，這玩意費人、費錢，關鍵還費時間。搞一個大模型已經十分不易，搞一個能喂飽大模型的數據集更為困難。OpenAI這種光啟動資金就10億刀的富二代企業，標數據照樣也得想辦法省錢，后來還出了一條新聞。

這里插個的陰謀論，ChatGPT的免費用，換個角度看沒準就成了我們給OpenAI免費標數據。有沒有依據？有。OpenAI官方明著說了，你和ChatGPT的交互數據可能用于模型訓練，要知道那可是一億多的用戶，那得生產多少高質量的人工標注數據。技術領先優勢可以追趕，數據領先優勢則就未必了。

好了，假設你七星聚頂，三大要素都湊齊了，接下來是不是就能煉出ChatGPT了呢？前面我們說過，“你才有可能最終得到一款和ChatGPT類似效果拔群的模型”。為什么是有可能？因為模型訓練和編譯源碼不太一樣，里面還包含一些難以言說的玄學因素。我一直對Bard的表現耿耿于懷，百思不得其解，我懷疑谷歌可能就是栽倒在玄學因素上面。

那么，現在很多研究者在呼吁的開源，到底是要開源什么呢？開源模型，具體來說，是開源訓練好的模型參數。模型參數拿到手，基本上就能完整復現能力了。當然，這還是對于大企業、大機構來說，運行大語言模型雖然消耗的算力遠不如訓練，但也不是單卡就能負擔的。

何況，行話說的“單卡運行”，通常是指60G顯存往上。哥們那些打游戲的所謂高端顯卡，在這還沒夠上起步價。

最后多說兩句開源。開源很重要，人工智能能有今天的進步，開源功不可沒。人工智能的研究成果大概有幾種，首先就是論文。學術論文是要錢的，但是在人工智能領域，很多作者都免費公開了論文。當然，有些是論文，有些是名叫論文的文宣資料，通常倒數第三或者第四部分會放一些表格，表揚一下這次搞的模型在什么什么任務上面效果拔群，洋氣一點，叫SOTA。

然后是源碼。源碼不是必選項，有些研究者只發論文不發源碼，有一種原因是舍不得，覺得辛辛苦苦憋出來的成果不愿意簡簡單單就交給別人，當然也有可能覺得寫得太爛丟不起人，或者在論文里吹太過了，擔心別人復效不了質疑。

還有就是模型。前面說過，模型這玩意距離能力復現就一步之遙，有很多人愛開源模型，也有很多人不愛開源模型，原因和上面差不多，還有一種是大公司大機構才敢用，官方辭令很多，譬如“出于社會責任考慮”，或者“安全倫理存在巨大風險”等等。

谷歌在21年就搞出了大語言模型LaMDA，說技術過于先進不便展示，害得我對著論文流了好多口水。現在出來個Bard，還不如不展示。

這里為咱們的中文開源大語言模型打個Call吧，能講中文還開源的大語言模型真的不多，清華放出來的ChatGLM-6B應該是佼佼者，而是真·單卡就能運行。這里說的是消費級顯卡。

最后就是開源數據集了，這項工作很重要，但也很容易被圈外忽視。現在中文大語言模型缺的東西很多，抱怨的也很多，還有一票人天天平替這個平替那個，實在不知道怎么想。不過，講屁話沒有用，已經有一些開源項目開始做起來，這都是星星之火。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Linux操作系統

Linux操作系統

+關注

關注
0

文章
54

瀏覽量
11046
OpenAI

OpenAI

+關注

關注
9

文章
1082

瀏覽量
6484
ChatGPT

ChatGPT

+關注

關注
29

文章
1560

瀏覽量
7604

原文標題：開源大模型到底開源什么？

文章出處：【微信號：OSC開源社區，微信公眾號：OSC開源社區】歡迎添加關注！文章轉載請注明出處。

開源AI模型庫是干嘛的

開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練，能夠執行特定的任務。以下，是對

發表于 12-14 10:33 ?163次閱讀

開源大模型落地實踐分論壇亮點前瞻

隨著數據驅動時代的到來，開源大模型已成為技術領域的熱點話題。開源大模型憑借強大的數據處理和分析能力，正逐步滲透到各個行業，為產業升級和經濟發展注入新的活力。

發表于 12-13 15:30 ?217次閱讀

開源能帶我們走向何方

開源大模型、開源數據庫、開源框架、開源硬件......近些年，這些詞匯不絕于耳。雷軍說，好的代碼像詩一樣優美，自己大二時寫的代碼就已經

發表于 12-06 17:09 ?433次閱讀

阿里通義千問代碼模型全系列開源

近日，阿里云通義大模型團隊宣布了一項重大決策：將通義千問代碼模型全系列正式開源。此次開源的模型系列共包含6款Qwen2.5-Coder

發表于 11-14 15:26 ?325次閱讀

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

查看、修改、分發。開源自此深刻影響了互聯網行業的每一個角落。在大模型和GenAI崛起的當下，開源再次成為業界關注焦點，對于開源和閉源的爭論也久久未能平息。然而，大

發表于 11-03 10:46 ?227次閱讀

搭建開源大語言模型服務的方法

本文我們將總結5種搭建開源大語言模型服務的方法，每種都附帶詳細的操作步驟，以及各自的優缺點。

發表于 10-29 09:17 ?182次閱讀

Llama 3 與開源AI模型的關系

在人工智能（AI）的快速發展中，開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創新，還促進了全球開發者社區的合作。Llama 3，作為一個新興的AI項目，與開源AI模型的關系

發表于 10-27 14:42 ?363次閱讀

人民郵電報：“開源”到底是什么？為啥熱度越來越高？

? ? ? 本文轉載自人民郵電報這些年，“開源”這個詞越來越火，開源AI大模型、開源數據庫、開源框架、

發表于 10-17 14:21 ?517次閱讀

Matepad pro12.2 已上市半個月，但是還沒有在開源網站看到該項目的開源信息，違背開源精神

任何該項目的開源計劃，違背開源精神按照開源社區 licsence和公共庫開源licsence要求，對應的項目上市后都需要盡快開源并及時公布

發表于 08-27 17:25

浙大博導開源飛控planner源碼

浙大博導開源飛控planner源碼

發表于 06-12 11:43 ?4次下載

通義千問開源千億級參數模型

通義千問近日開源了其首個千億級參數模型Qwen1.5-110B，這是其全系列中首個達到千億級別的開源模型。Qwen1.5-110B模型繼承了

發表于 05-08 11:01 ?742次閱讀

通義千問推出1100億參數開源模型

通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B，這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數開源

發表于 05-06 10:49 ?577次閱讀

商業開源MES+源碼+送可拖拽式數據大屏

商業開源MES+源碼+送可拖拽式數據大屏+開發學習的好機會

發表于 04-15 11:21 ?906次閱讀

大模型開源開放評測體系司南正式發布

近日，大模型開源開放評測體系司南（OpenCompass2.0）正式發布，旨在為大語言模型、多模態模型等各類模型提供一站式評測服務。Open

發表于 02-05 11:28 ?1050次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?408次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

開源大模型到底開源什么？源碼在哪呢？

評論

開源AI模型庫是干嘛的

開源大模型落地實踐分論壇亮點前瞻

開源能帶我們走向何方

阿里通義千問代碼模型全系列開源

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

搭建開源大語言模型服務的方法

Llama 3 與開源AI模型的關系

人民郵電報：“開源”到底是什么？為啥熱度越來越高？

Matepad pro12.2 已上市半個月，但是還沒有在開源網站看到該項目的開源信息，違背開源精神

浙大博導開源飛控planner源碼

通義千問開源千億級參數模型

通義千問推出1100億參數開源模型

商業開源MES+源碼+送可拖拽式數據大屏

大模型開源開放評測體系司南正式發布

機器人基于開源的多模態語言視覺大模型