Text-Generation-Inference(又稱 TGI)是 Hugging Face 今年早些時候啟動的一個項目,作為支持 Hugging Face Inference API 和后來的 Hugging Chat 上的 LLM 推理的內部工具,旨在支持大型語言模型的優化推理。自推出后,該項目迅速流行,并被 Open-Assistant 和 nat.dev 等其他開源項目采用。
近日,Hugging Face 宣布,在最新推出的 TGI v1.0 版本中,其開源許可證將從 Apache 2.0 改為 HFOIL 1.0。HFOIL 代表 Hugging Face Optimized Inference License,是 HuggingFace 專為優化推理解決方案而設計的協議。Hugging Face 表示,HFOIL 并不是真正的開源許可證,雖然源代碼仍然可以訪問,但其增加了一項限制:要銷售基于 TGI 構建的托管或托管服務,需要單獨的協議。
為什么要更換許可證?
據悉,TGI 已成為 Hugging Face 商業產品(如推理端點)及其商業合作伙伴(如 Amazon SageMaker、Azure 機器學習和 IBM watsonx )的重要組成部分。而 Hugging Face 此次更換許可證也與其商業策略緊密相關。
根據 Hugging Face 的說法,TGI 最初是一個為其內部產品提供動力的項目,該公司將其視為商業解決方案的關鍵組成部分。“TGI 并不是一個社區驅動的項目,而是一個可供社區廣泛訪問的生產解決方案。我們希望繼續公開建設 TGI,并將繼續歡迎大家做出貢獻。但與 Transformers 和 Diffusers 等社區驅動的項目不同,TGI 專注于生產環境中的性能和穩健性,目標是構建商業產品。”
據悉,TGI 此前所有版本仍然在 Apache 2.0 下獲得許可,最后一個 Apache 2.0 版本是版本 0.9.4。
Hugging Face 表示,源代碼許可的這一變化對免費使用 TGI 的絕大多數社區用戶沒有影響,其推理端點客戶及商業合作伙伴的客戶也不會受到影響。但它將限制非合作云服務提供商在未請求許可的情況下提供 TGI v1.0+ 服務。
如果是 v1.0 之前的 TGI 現有用戶,當前的版本仍然是 Apache 2.0,可以不受限制地進行商業使用。
如果用戶將 TGI 用于個人用途或研究目的,則不受 HFOIL 1.0 的限制。
如果用戶將 TGI 作為內部公司項目的一部分用于商業目的(不作為托管或托管服務出售給第三方),則也不受 HFOIL 1.0 限制。
如果將 TGI 集成到出售給客戶的托管或托管服務中,則考慮升級到 v1.0 及更高版本的許可證。
“開源是一個誤稱,它應該是來源自由。”有網友評價道。也有網友表示,“開源不應過度限制我使用工具的方式。如果無法再將其嵌入到我銷售的產品中,則它是可用的源代碼,但不是開源的。”
有人提出,資產階級認為他們可以從公地獲取創新來建立帝國并壓迫群眾,至少應該為這種特權付出代價。對此,有開發者表示,“FSF (自由軟件基金會)對此的回答是使用 AGPLv3,它在網絡訪問上限制了 Copyleft。”
AGPL v3 協議規定,除非獲得商業授權,否則無論以何種方式修改或者使用代碼,都需要開源。開發者“kmeisthax”表示,“如果你唯一的目標就是阻止大型企業接觸您的代碼,那么當然可以使用這個許可證。但你也可以使用奇怪時髦的后現代許可證來做到這一點,這些許可證從技術上講不授予任何權利,很容易被用來限制 Copyleft 巨魔。但如果你只是想要公平且易于遵守的規則,那么該許可證就有問題。”“AGPLv3 僅對使用解釋性語言進行 Web 開發有意義,這樣可以輕松列出網站的代碼。”
“kmeisthax”進一步表示,“如果你想更嚴格,還有 OpenWatcom 許可證,它會在您使用軟件時觸發 Copylef,所以沒有私人分叉。實際上,這不像 AGPLv3 那樣令人頭疼,你不需要允許通過網絡下載源代碼,您只需在某處發布您的修改即可。FSF 拒絕碰它,因為他們認為私人分叉是一項人權。”
“kmeisthax”認為,阻止“資產階級”從公地掠奪所有創新的問題在于,這樣做會使軟件脫離公地,這比 AGPLv3、SSPL 或 OpenWatcom 更糟。任何試圖這樣做的人都不是想保護公地,而是想加入資產階級。因為不允許你為他人托管軟件,這是專有世界的語言。專有軟件許可之所以如此有利可圖,主要是因為使用限制——它允許你查看每個用戶的錢包,并從中提取最大金額的資金。
延綿近半世紀的開源許可證 要為 AI 改變?
自由軟件與開源許可證自上世紀七、八十年代起曾經歷演變以適應代碼編程的需求。如今,它需要再次轉型來應對 AI 模型帶來的新一波沖擊。
比如,ChatGPT 現在仍然使用的是開源代碼。特別是,分別由 Google 和 Facebook 開發的 TensorFlow 和 PyTorch 推動了 ChatGPT。這些框架為構建和訓練深度學習模型提供了必要的工具和庫。沒有它們,就沒有 ChatGPT。ChatGPT 另一個重要的開源部分就是 Hugging Face 的 Transformer,這是用于構建最先進的機器學習模型的領先開源庫。
得益于開源,但 OpenAI 卻沒有將 ChatGPT 開源。“ OpenAI 本來是作為一家開源(這就是為什么我將其命名為‘Open’AI)、非盈利公司而創建的,目的是作為谷歌的制衡,但現在它實際上已經成為一家閉源、利潤最大化的公司。由微軟控制。根本不是我想要的。”馬斯克曾批評道。
開源模型的流行也印證了大家對于 AI 模型開放的期盼。但實際上,基于版權法處理軟件代碼的自由軟件和開源許可證,并不適合支撐 AI 開源軟件之下的大語言模型(LLM)神經網絡與數據集。而另一方面,相當規模的編程數據集長期基于自由軟件與開源代碼,因此必須采取措施、順應轉變。有鑒于此,開放源碼倡議(OSI)執行董事 Stefano Maffulli 等開源和 AI 領導者,努力尋求一種對雙方均有積極意義的新方式,希望將 AI 與開源許可證結合起來。
去年 J. Doe 等人(匿名)起訴了 GitHub。原告在美國加州北區法院控訴微軟、OpenAI 和 GitHub 通過其基于 AI 的商業系統 OpenAI Codex 與 GitHub Copilot 竊取了開發者的開源代碼。原告方認為,“涉案”代碼幾乎就是直接從公共 GitHub 代碼倉庫中抓取的原始代碼副本,且未獲得開源許可承認。
目前案件仍在審理中,原告方修改了訴訟方向,包括指控被告違反《數字千年版權法》、違反合同(違反開源許可證)、存在不公平得利和不正當競爭行為,以及違反合同(違反 GitHub 政策中約定的銷售許可條款)。
這類麻煩困擾的不只有微軟。耶魯大學法學院網絡安全講師、耶魯大學隱私實驗室創始人 Sean O’Brien 認為,“很快就會出現與專利流氓類似的完整子產業,但這一次將主要圍繞 AI 生成的成果。隨著越來越多作者使用 AI 驅動工具在專有許可之下發布代碼,這將建立起新的反饋循環。軟件生態系統將被專有代碼所污染,而這些代碼將成為‘有心之人’的索賠載體。”
德國研究員兼政治家 Felix Reda 等人則聲稱,一切 AI 生成的代碼都屬于公共產出。SmartEdgeLaw Group 創始成員之一、美國律師 Richard Santalesa 認為,這里其實存在合同法與版權法的雙重糾紛。Santalesa 認為,出售 AI 生成代碼的企業將“與所有其他知識產權一樣,將其交付的材料(包括 AI 生成代碼)視為自有財產。”而公共領域代碼和開源代碼的處理方式并不相同。
更重要的是,這還涉及數據集如何獲取許可這個宏觀問題。雖然很多開源許可證之下都涵蓋大量“開放”數據集,但并不足以徹底解決目前的尖銳沖突。
如今的我們正站在類似的十字路口上。TensorFlow、PyTorch 和 Hugging Face Hub 等 AI 程序在其開源許可證下運行良好,但其他新 AI 成果卻不知該如何走出自己的道路。數據集、模型、權重等并不完全適合傳統的版權模型。Maffulli 認為,技術社區應當設計出一些更符合自身目標的新事物,而不能總是依賴于對已有規則的“魔改”。
Maffulli 解釋道,為軟件設計的開源許可證可能并不適合 AI 工件。例如,雖然 MIT 許可證強調的廣泛自由度在模型層面比較適用,但 Apache 或 GPl 等更復雜的許可證卻很可能引發問題。Maffulli 還強調,將開源原則應用于醫療保健等敏感領域同樣面臨著挑戰。在這些領域,關于數據訪問的法規已經成為行業發展道路上的障礙。簡而言之,法律規定醫療數據不得開源。
與此同時,大多數大語言模型的數據集都屬于黑盒子,我們根本不知道其中到底有些什么。因此,正如電子前沿基金會(EFF)所言,我們最終陷入了“垃圾進、寶貝出”的茫然境地。為此,EFF 建議必須開放訓練數據。
通過立法保護開源?
中國、歐盟、美國和英國等多國政府一直在努力開展 AI 監管。而 Hugging Face、GitHub、EleutherAI、Creative Commons、LAION 和 Open Future 等六家開源 AI 利益相關方組成的聯盟正向歐盟立法者請愿,呼吁在設定歐盟 AI 法案(將成為歐盟 AI 法案的最終版本,也將是全球第一部全面的人工智能法)時保護開源創新。
在日前發布的政策文件《在歐盟 AI 法案中支持開源與開放科學》(Supporting Open Source and Open Science in the EU AI Act)當中,開源 AI 領導者們提出了“如何確保 AI 法案適用于開源”的相關建議,原則要求“確保開放式 AI 開發實踐不會面臨在結構上不切實際的義務,或者其他有礙技術發展的義務。”
根據這份文件,有利于閉源及專有 AI 開發(例如 OpenAI、Anthropic 和谷歌等頂尖 AI 廠商開發的模型)的“過于廣泛的義務”,“可能會對開放 AI 生態系統造成不利影響。”
Hugging Face 機器學習與社會事務負責人 Hacine Jernite 在采訪中表示,雖然政策文件的內容相當豐富,但該聯盟想要強調的核心永遠是鼓勵創新。“我們認為,人們應該能從各類基礎模型、組件間自由選擇,并根據需求隨意組合和匹配,這一點非常重要。”
此外,該聯盟還希望強調開源 AI 的重要性、甚至是必要性,認為監管不應阻礙開源 AI 的創新道路。Jernite 解釋道,“開放本身并不能保證負責任的開發態度。但是,開放性和透明度卻是負責任治理的必要前提。因此,開放性不是要躲避責任,而責任也不應該妨礙開放發展。”
GitHub 高級政策經理 Peter Cihon 指出,隨著歐盟理事會及之后的歐盟議會制定出 AI 法案草案,立法者們開始審視整個價值鏈、思考如何減輕其中由 AI 發展早期引發的風險。
Cihon 在采訪中指出,“通過這一步驟,我們正加倍努力,確保法案不會在潛移默化中偏向于大企業、或者其他資源充足的 AI 參與者,而是將這份權利同樣交付給出于業余愛好的開源開發者、非營利性組織和學生。總而言之,立法者一直過于關注特定的價值鏈和特定的模型,大多是 API 模型——而這種關注在開源背景下并不真正適用。”
-
AI
+關注
關注
87文章
30728瀏覽量
268886 -
源代碼
+關注
關注
96文章
2945瀏覽量
66730 -
機器學習
+關注
關注
66文章
8406瀏覽量
132562
原文標題:一場 AI 引發的開源革命迫在眉睫?Hugging Face 更改文本推理軟件許可證,不再“開源”
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論