SambaNova 與 Together 兩家公司合作開源了可商用的 BLOOMChat,一個(gè) 1760 億參數(shù)的多語(yǔ)言聊天大語(yǔ)言模型 (LLM)。由 BLOOM (176B) 在助理式的對(duì)話數(shù)據(jù)集上進(jìn)行指導(dǎo)調(diào)整,并支持多種語(yǔ)言的對(duì)話、問題回答和生成性答案。
根據(jù)介紹,BLOOMChat 是一個(gè)新的、開放的、多語(yǔ)言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 獨(dú)特的可重構(gòu)數(shù)據(jù)流架構(gòu)在 SambaNova DataScale 系統(tǒng)上訓(xùn)練了 BLOOMChat;其建立在 BigScience 組織的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進(jìn)行了微調(diào)。目前,BLOOM 已經(jīng)是最大的多語(yǔ)言開放模型,在 46 種語(yǔ)言上進(jìn)行了訓(xùn)練。
在針對(duì)英語(yǔ)、中文、法語(yǔ)、阿拉伯語(yǔ)、西班牙語(yǔ)、印度語(yǔ)這 6 種語(yǔ)言的評(píng)測(cè)中,GPT-4 的勝率為 54.75%,BLOOMChat 的勝率為 45.25%,稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比,BLOOMChat 在 65.92% 的時(shí)間內(nèi)表現(xiàn)更優(yōu)。且在使用 BLOOMChat 進(jìn)行跨語(yǔ)言 NLP 任務(wù)的初步研究中,BLOOMChat 在 WMT 翻譯基準(zhǔn)中的表現(xiàn)要優(yōu)于其他 BLOOM 變體和主流開源聊天模型。
“我們確實(shí)想指出,與我們比較的這些模型中,有些并不適合多語(yǔ)言環(huán)境。但由于開源社區(qū)中沒有替代品,所以才有了現(xiàn)在的比較。我們的研究結(jié)果表明,使用正確的技術(shù),可以在開源 LLM 之上構(gòu)建以實(shí)現(xiàn)強(qiáng)大的多語(yǔ)言聊天功能。我們希望我們的研究結(jié)果和 BLOOMChat checkpoint 的發(fā)布能夠?yàn)殚_源社區(qū)的持續(xù)討論做出貢獻(xiàn),并激發(fā) LLM 領(lǐng)域的進(jìn)一步發(fā)展。”
項(xiàng)目團(tuán)隊(duì)使用定性和定量措施來評(píng)估了 BLOOMChat 的多語(yǔ)言聊天能力以及跨語(yǔ)言任務(wù)能力。共做了 3 種不同場(chǎng)景的實(shí)驗(yàn)測(cè)評(píng),評(píng)測(cè)了英語(yǔ)、中文、阿拉伯語(yǔ)、法語(yǔ)、西班牙語(yǔ)和印度語(yǔ)。
實(shí)驗(yàn)一:人類偏好排序
旨在將 BLOOMChat 模型在多種語(yǔ)言中的聊天能力與現(xiàn)有的開源模型以及選定的封閉源模型進(jìn)行比較。使用了 “OpenAssistant Conversations”附錄 E 中的 22 個(gè)英文問題作為基準(zhǔn)。首先讓一些人類志愿者將這 22 個(gè)英文問題手動(dòng)翻譯成他們各自的母語(yǔ);然后讓另一組不同的志愿者,在匿名的前提下評(píng)價(jià)每個(gè)模型所給出的回答。
將 BLOOMChat 與 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三種開源模型進(jìn)行了比較:
51 名志愿者在所有模型和 6 種語(yǔ)言中共提交了 1158 次比較。如上圖所示,BLOOMChat (65.92%) 明顯優(yōu)于其它幾個(gè)開源模型。
與GPT-4 相比:
實(shí)驗(yàn)二:模型質(zhì)量評(píng)估
此實(shí)驗(yàn)旨在驗(yàn)證 BLOOMChat 生成的多種語(yǔ)言文本的質(zhì)量。
81.8% 的回答被歸類為 “正確” 或 “可接受但有輕微缺陷”。盡管只在英語(yǔ)數(shù)據(jù)集上進(jìn)行了微調(diào),但 BLOOMChat 在每種語(yǔ)言中都獲得了超過 70% 的 “正確” 或 “可接受” 評(píng)級(jí)。
實(shí)驗(yàn)三:WMT 翻譯任務(wù)
為了初步了解模型解決跨語(yǔ)言 NLP 任務(wù)的能力,評(píng)估了模型在 WMT 翻譯任務(wù)上的翻譯能力。
總體而言,BLOOMChat 在翻譯任務(wù)中的表現(xiàn)明顯優(yōu)于其他 BLOOM 變體和開源聊天模型,但和 GPT-4 還有一定差距。
此外,BLOOMChat 團(tuán)隊(duì)也坦承了一些該模型的局限性:
BLOOMChat 有時(shí)可能會(huì)生成聽起來合理但事實(shí)不正確或與主題無(wú)關(guān)的回復(fù)信息。
BLOOMChat 可能在單個(gè)回復(fù)中無(wú)意間切換語(yǔ)言,影響輸出的連貫性和可理解性。
BLOOMChat 可能會(huì)產(chǎn)生重復(fù)的短語(yǔ)或句子,導(dǎo)致回復(fù)內(nèi)容缺乏吸引力和有效信息。
BLOOMChat 在生成代碼或解決復(fù)雜數(shù)學(xué)問題方面的性能可能會(huì)受到限制。
BLOOMChat 可能無(wú)意中生成含有不適當(dāng)或有害內(nèi)容的回復(fù)。
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
3368瀏覽量
42567 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
529瀏覽量
10295 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24737 -
LLM
+關(guān)注
關(guān)注
0文章
293瀏覽量
353
原文標(biāo)題:可商用多語(yǔ)言聊天LLM開源,性能直逼GPT-4
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論