中文版在线乱码在线看,婷婷久草,亚洲国产清纯

AI大模型火遍全球，中國產(chǎn)業(yè)也激發(fā)了對人工智能應(yīng)用的新熱情。

隨著各大廠商參與競逐，市場正在分化為通用與垂直兩大路徑，兩者在參數(shù)級別、應(yīng)用場景、商業(yè)模式等方面差異已逐步顯現(xiàn)。

企業(yè)涌入垂直大模型賽道

通用AI大模型像ChatGPT，能夠處理各種領(lǐng)域和場景的自然語言，但由于需要巨大的計算資源和數(shù)據(jù)量，已經(jīng)成為國內(nèi)外大廠的重點項目。

這類企業(yè)往往有著強大的技術(shù)團隊和資金支持，且有著自己的場景和流量優(yōu)勢。比如百度、阿里、騰訊、字節(jié)、華為等，在搜索、社交、電商、辦公等領(lǐng)域都有著自己的通用AI大模型。

相較之下，創(chuàng)業(yè)公司、細分領(lǐng)域企業(yè)很難在這樣的競爭中獲得先發(fā)優(yōu)勢或者差異化優(yōu)勢。

而垂直AI大模型只關(guān)注某個特定的領(lǐng)域或者場景，它能夠利用行業(yè)的數(shù)據(jù)和知識，提供更精準和高效的解決方案，更好地滿足用戶在某個領(lǐng)域或者場景下的需求和期待，如：醫(yī)療、金融、教育等。

同時，它可以利用一些開源或者閉源的通用AI大模型作為基礎(chǔ)，然后在其上進行指令微調(diào)（instruction tuning），來適應(yīng)自己的目標領(lǐng)域或者場景。

因此，它的參數(shù)規(guī)模比通用大模型低一個量級，如果讓數(shù)據(jù)飛輪和模型訓練能夠很好結(jié)合，在某些特定領(lǐng)域甚至比通用大模型的效果更好、成本更低。

在這樣的背景下，越來越多的企業(yè)加入了垂直大模型的賽道。

5月18日，深信服發(fā)布國內(nèi)首個自研安全大模型，成為安全領(lǐng)域GPT技術(shù)應(yīng)用首秀；

5月5日，學而思宣布正在進行自研數(shù)學大模型的研發(fā)，命名為MathGPT，面向全球數(shù)學愛好者和科研機構(gòu)；

3月，達觀數(shù)據(jù)公布正在開發(fā)曹植系統(tǒng)，專注于金融、政務(wù)、制造等垂直領(lǐng)域的大語言模型。

明確的商業(yè)化落地場景和更低的算力成本，為各類企業(yè)打開了進軍垂直大模型的大門。

垂直大模型的考驗

垂直大模型的優(yōu)勢在于不夠大：算力不夠大、算法難度低，但并不代表垂直大模型誰都能做。

眾所周知，AI大模型三要素：算力、算法、數(shù)據(jù)，都是喂養(yǎng)AI的“飼料”。

先說算力。

大模型之所以“大”，就是因為參數(shù)眾多和數(shù)據(jù)量龐大。AI大模型所需要的計算量，大致上相當于參數(shù)量與數(shù)據(jù)量的乘積。

過去5年，AI大模型的參數(shù)量幾乎每年提升一個數(shù)量級，例如GPT-4參數(shù)量是GPT-3的16倍，達到1.6萬億個。

隨著圖像、音視頻等多模態(tài)數(shù)據(jù)的引入，大模型的數(shù)據(jù)量也在飛速膨脹。這意味著想要玩轉(zhuǎn)大模型，必須擁有大算力。

而一套垂直大模型的訓練和推理成本，做個參考，在數(shù)字人垂類技術(shù)場景中，可以做到比Open AI同參數(shù)規(guī)模的模型低一個量級，像啟元世界的戰(zhàn)略總監(jiān)王思捷就曾提到：先構(gòu)建更小的垂類模型（比如百億參數(shù)、十億參數(shù)），讓數(shù)據(jù)飛輪和模型訓練能夠很好結(jié)合，垂類模型在某些領(lǐng)域可能比Open AI的效果更好成本更低。

即便垂直大模型在算力要求上已遠遠低于通用大模型，但對算力基礎(chǔ)設(shè)施的投入依然會阻擋部分小公司的入局。

再說算法。

在三要素中，算法的研發(fā)難度相對較低，每家公司都有自己實現(xiàn)大模型的路徑算法，且有眾多開源項目可作為參考，中國公司最容易縮短甚至抹平差距。

最后說數(shù)據(jù)。

高質(zhì)量的數(shù)據(jù)是助力AI訓練與調(diào)優(yōu)的關(guān)鍵，足夠多、足夠豐富的數(shù)據(jù)，是AI大模型的根基。

OpenAI此前披露，為了AI像人類那樣流暢交談，研發(fā)人員給GPT-3.5提供多達45TB的文本語料，相當于472萬套中國“四大名著”。這些語料的來源包括維基百科、網(wǎng)絡(luò)文章、書籍期刊等，甚至還將代碼開源平臺Github納入其中。

但是聚焦到細分行業(yè)，數(shù)據(jù)的獲取就沒那么容易了。

興業(yè)證券公開表示，要訓練專業(yè)的行業(yè)大模型，優(yōu)質(zhì)的行業(yè)數(shù)據(jù)、公共數(shù)據(jù)至關(guān)重要。

就國內(nèi)數(shù)據(jù)市場而言，據(jù)發(fā)改委官方批露，我國政府數(shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過3/4，但開放規(guī)模不足美國的10%，個人和企業(yè)可以利用的規(guī)模更是不及美國的7%。

而行業(yè)數(shù)據(jù)更是非常核心的私域數(shù)據(jù)，私域數(shù)據(jù)量越大，質(zhì)量越高，就越有價值。

比如，一個醫(yī)療公司擁有大量醫(yī)療數(shù)據(jù)、病例數(shù)據(jù)，那么它就能開發(fā)出醫(yī)療垂直大模型類的產(chǎn)品。同理，建筑行業(yè)的項目數(shù)據(jù)、金融行業(yè)的用戶畫像數(shù)據(jù)、海運行業(yè)的船位數(shù)據(jù)等，都是賦能垂直大模型的關(guān)鍵。

但是這些私域數(shù)據(jù)都攥在企業(yè)自己手中，而且為了數(shù)據(jù)安全和合規(guī)，絕大部分機構(gòu)是要本地化部署才會嘗試大模型訓練，很難想象企業(yè)會把自己的核心數(shù)據(jù)拿給別人去訓練。

此外，如何合理地給數(shù)據(jù)打上分級標簽、做好標注也非常重要。數(shù)據(jù)分級分類能夠幫助產(chǎn)品提效，而高精度的標注數(shù)據(jù)能夠進一步提升大模型的專業(yè)表現(xiàn)。

但現(xiàn)階段垂直行業(yè)想要獲取高精度標注數(shù)據(jù)的成本較高，而在公開數(shù)據(jù)庫中，行業(yè)專業(yè)數(shù)據(jù)也較少，因此對垂直大模型的建構(gòu)提出了很高的要求。

總體而言，想要做好垂直大模型，數(shù)據(jù)的重要性，遠超過算力和算法。

數(shù)據(jù)，已成為企業(yè)突破垂直大模型的“卡點”。

手握行業(yè)數(shù)據(jù)領(lǐng)先一步

垂類大模型講求應(yīng)用與場景先行的邏輯，而在國內(nèi)更是強調(diào)產(chǎn)業(yè)側(cè)的價值。

一方面，在當前中國的智能化浪潮下，產(chǎn)業(yè)側(cè)數(shù)字化革新本就有廣闊的市場需求；另一方面，在toB生態(tài)下，基于垂直應(yīng)用的實踐也有利于形成數(shù)據(jù)飛輪與場景飛輪。

而這一切的前提，是推出垂類大模型的公司在該行業(yè)已建立技術(shù)壁壘與護城河，即“人無我有”的競爭優(yōu)勢。

如此看來，在垂直行業(yè)深耕多年的企業(yè)或?qū)⒂懈蟮内A面。

這類企業(yè)在數(shù)據(jù)層面、大模型以及知識圖譜方面都有較為深厚的積累，對于大模型的優(yōu)化更具優(yōu)勢。同時，它們對于to B客戶需求和落地場景有很深的理解，能夠更好地保證垂直大模型產(chǎn)品的可信和可靠，滿足企業(yè)級對于安全可控合規(guī)的需求。

目前，已有一些垂類大模型在金融、教育、醫(yī)藥、營銷等場景中得到試煉。

例如，彭博社利用自身豐富的金融數(shù)據(jù)源，基于開源的GPT-3框架再訓練，開發(fā)出了金融專屬大模型BloombergGPT；

網(wǎng)易有道則面向教育場景，推出自研的類ChatGPT模型“子曰”；

在ChatGPT發(fā)布后僅幾周，谷歌公布了一個專門用于回答醫(yī)療保健相關(guān)問題的大型醫(yī)用語言模型Med-PaLM......

相信隨著越來越多企業(yè)入局，垂直大模型在各個行業(yè)和細分領(lǐng)域中將大量涌現(xiàn)。而那些能將一個垂直領(lǐng)域做專、做透，用高質(zhì)量的數(shù)據(jù)持續(xù)優(yōu)化模型，跑通商業(yè)閉環(huán)，構(gòu)建起產(chǎn)業(yè)生態(tài)的企業(yè)，最終將把價值鏈做到足夠長。

【關(guān)于科技云報道】

專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年，是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認可，可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7122

瀏覽量
89356
AI

AI

+關(guān)注

關(guān)注
87

文章
31399

瀏覽量
269808
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1566

瀏覽量
7913
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2523

瀏覽量
2986

天數(shù)智芯與無問芯穹合作突破千卡集群訓練優(yōu)化

近日，天數(shù)智芯與無問芯穹宣布達成深度合作，并在千卡集群訓練優(yōu)化領(lǐng)域取得了重大技術(shù)突破。這一合作基于天數(shù)智芯的天垓150卓越計算能力和無問芯穹自主研發(fā)的大模型訓練框架，共同推動了LLaMA千卡

發(fā)表于 01-21 14:31 ?71次閱讀

科普知識丨熱變形維卡軟化點測試儀是什么？

軟化點。熱變形溫度是指材料在一定負荷下，產(chǎn)生規(guī)定變形量時的溫度；維卡軟化點則是在規(guī)定的升溫速率下，標準壓針在試樣上壓入規(guī)定深度時的溫度。通過對這些參數(shù)的精確測量，能

發(fā)表于 01-08 10:40 ?96次閱讀

【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

，NVDIA與微軟的競爭。計算能力的飛速提升是大模型得以興起的重要基石。GPU/TPU 等高性能計算設(shè)備的迅猛發(fā)展，宛如為大模型的訓練打造了一臺強大的引擎。它們能夠以極高的速度處理海量的數(shù)據(jù)

發(fā)表于 12-24 13:10

【「大模型啟示錄」閱讀體驗】營銷領(lǐng)域大模型的應(yīng)用

使企業(yè)能夠提前洞察市場動向，制定前瞻性的市場策略，從而在競爭中占據(jù)有利地位。通過分析廣告投放的效果數(shù)據(jù)，大模型可以幫助企業(yè)優(yōu)化廣告內(nèi)容和投放策略。這包括確定最佳的廣告渠道、投放時間和目標受眾，以及

發(fā)表于 12-24 12:48

【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

的平衡，解釋得清清楚楚，讓我這個非專業(yè)人士也能明白大模型在實際應(yīng)用中面臨的挑戰(zhàn)和限制，也對這些模型的復雜性和挑戰(zhàn)有了更深的理解。而且，書中還提到了OpenAI的成功案例和CUDA技術(shù)壁壘的形成，這些

發(fā)表于 12-20 15:46

Kaggle知識點：使用大模型進行特征篩選

方法依賴于數(shù)據(jù)集中的樣本點進行統(tǒng)計推斷，而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關(guān)聯(lián)。這種方法利用了大型語言模型（LLMs）中豐富的語

發(fā)表于 12-03 01:06 ?1317次閱讀

中國電信人工智能研究院完成首個全國產(chǎn)化萬卡萬參大模型訓練

近日，中國電信人工智能研究院宣布了一項重大技術(shù)突破：成功完成國內(nèi)首個基于全國產(chǎn)化萬卡集群訓練的萬億參數(shù)大模型。

發(fā)表于 09-30 16:41 ?1746次閱讀

下載的TPS54360模型未發(fā)現(xiàn)操作點

從TI官網(wǎng)下載的TPS54360模型。導入到TINA-TI中，各個電路連接好，ERC無錯誤，無警告。運行顯示未發(fā)現(xiàn)操作點

發(fā)表于 08-19 14:02

萬卡集群解決大模型訓算力需求，建設(shè)面臨哪些挑戰(zhàn)

? 電子發(fā)燒友網(wǎng)報道（文/李彎彎）萬卡集群是指由一萬張及以上的加速卡（包括GPU、TPU及其他專用AI加速芯片）組成的高性能計算系統(tǒng)，主要用于加速人工智能模型的訓練和推理過程。這種集群的構(gòu)建旨在

發(fā)表于 06-02 06:18 ?4821次閱讀

澳鵬入選億歐大模型基礎(chǔ)層圖譜，以優(yōu)質(zhì)數(shù)據(jù)賦能AGI智能涌現(xiàn)

近日發(fā)布《2024中國"百模大戰(zhàn)"競爭格局分析報告》，全方位呈現(xiàn)大模型產(chǎn)業(yè)現(xiàn)狀。作為產(chǎn)業(yè)鏈上的重要一環(huán)，澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大

發(fā)表于 05-27 17:01 ?392次閱讀

NAND Flash（貼片式TF卡）存儲新突破，基礎(chǔ)示例

需求也在日益增長。在這個信息爆炸的時代，一款高效、穩(wěn)定、便攜的存儲設(shè)備顯得尤為重要。新品SD卡——SD NAND，應(yīng)運而生，為我們的數(shù)據(jù)存儲帶來了新的革命。　　SD卡的發(fā)展　　SD卡

發(fā)表于 05-21 17:13

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

，生成能力則使其能生成新的、連貫的文本，而涌現(xiàn)性則讓模型能生成未曾出現(xiàn)但邏輯上合理的內(nèi)容。從早期的統(tǒng)計模型到如今的大語言模型，AI領(lǐng)域不斷

發(fā)表于 05-04 23:55

安筱鵬：AI大模型重構(gòu)產(chǎn)業(yè)競爭力的五種模式

今天討論AI大模型，最重要的一個議題是，AI對一個產(chǎn)品、服務(wù)、產(chǎn)業(yè)意味著什么？對于一個個體、企業(yè)、區(qū)域、國家的競爭力意味著什么？未來3-5年，哪些產(chǎn)業(yè)的競爭力會被AI大模型重新定義，以

發(fā)表于 04-08 09:29 ?1499次閱讀

數(shù)勢聯(lián)動百川，發(fā)布首批大模型聯(lián)合解決方案，推動中國大模型價值落地

近日，行業(yè)領(lǐng)先的數(shù)據(jù)智能產(chǎn)品提供商北京數(shù)勢云創(chuàng)科技有限公司（以下簡稱“數(shù)勢科技”）和國內(nèi)通用大模型廠商北京百川智能科技有限公司（以下簡稱“百川”）聯(lián)合發(fā)布大模型數(shù)據(jù)分析

發(fā)表于 02-28 11:40 ?509次閱讀

探針卡設(shè)計之MLO介紹

作為芯片晶圓測試階段的重要工具之一，探針卡在不斷更新迭代。為滿足更高需求的晶圓測試，針卡類型也逐漸從懸臂針卡向垂直針卡升級。

發(fā)表于 01-25 10:29 ?8230次閱讀