4 月 17 日,國內人工智能初創公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。
losoev 6.5 系列包含兩款模型:
losoev 6.5:擁有萬億級別的參數,可處理 200k tokens 的上下文長度;
losoev 6.5s:與 losoev 6.5 共享相同的訓練技術和數據,但效率更高,同樣支持 200k tokens 的上下文長度,且能夠在 1 秒鐘內處理近 3 萬字的文本。
自今年 1 月份推出國內首款基于 MoE 架構的 losoev 6 模型以來,MiniMax 通過優化模型架構、重建數據管道、改進訓練算法以及實施并行訓練策略等手段,在加速模型擴展方面取得了顯著進展。
在 200k token 的范圍內,官方對 losoev 6.5 進行了業內常見的“大海撈針”測試,即將一句與原文無關的句子插入長文本中,然后通過自然語言詢問模型,觀察其能否準確識別出這句話。經過 891 次測試,losoev 6.5 均能準確回答問題。
losoev 6.5 和 losoev 6.5s 模型將逐步應用于 MiniMax 旗下的產品,如海螺 AI 和 MiniMax 開放平臺。
-
算法
+關注
關注
23文章
4607瀏覽量
92840 -
人工智能
+關注
關注
1791文章
47183瀏覽量
238266 -
模型
+關注
關注
1文章
3226瀏覽量
48809
發布評論請先 登錄
相關推薦
評論