亚洲精品另类,桃肉多多小说,亚洲剧情在线

目前，大模型（特別是在2023年及之后的語(yǔ)境中）通常特指大語(yǔ)言模型（LLM, Large Language Model），但其范圍也涵蓋其他領(lǐng)域的超大規(guī)模深度學(xué)習(xí)模型，例如圖像生成模型（如 DALL-E）、科學(xué)計(jì)算模型（如 AlphaFold）以及多模態(tài)模型。這些模型通過(guò)海量數(shù)據(jù)訓(xùn)練，展現(xiàn)出高度的泛用性。

比較有代表性的大語(yǔ)言模型（LLM)如：

模型	開(kāi)發(fā)方	特點(diǎn)
GPT-4	OpenAI	生成能力強(qiáng)，部分版本支持多模態(tài)輸入（如圖像理解）
文心一言	百度	針對(duì)中文優(yōu)化，適合國(guó)內(nèi)應(yīng)用場(chǎng)景
LLaMA	Meta	開(kāi)源，輕量化

大語(yǔ)言模型（LLM）是近年來(lái)人工智能領(lǐng)域的核心熱點(diǎn)，其訓(xùn)練目標(biāo)通常是語(yǔ)言生成和理解。這些模型通過(guò)在海量文本上進(jìn)行訓(xùn)練，能夠理解、生成和推理復(fù)雜的自然語(yǔ)言，甚至跨領(lǐng)域處理任務(wù)。其特點(diǎn)是擁有超大規(guī)模參數(shù)、具有強(qiáng)大的通用性和生成能力。由具有許多參數(shù)（通常數(shù)十億個(gè)權(quán)重或更多）的人工神經(jīng)網(wǎng)絡(luò)組成，使用自監(jiān)督學(xué)習(xí)對(duì)大量未標(biāo)記文本進(jìn)行訓(xùn)練

1. 大語(yǔ)言模型（LLM）的核心定義

基礎(chǔ)：大語(yǔ)言模型通常是基于深度學(xué)習(xí)架構(gòu)（如Transformer）開(kāi)發(fā)的，通過(guò)捕捉自然語(yǔ)言中的模式和語(yǔ)法規(guī)則，理解上下文和語(yǔ)義。

規(guī)?！按蟆保褐竻?shù)規(guī)模（數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù)）、訓(xùn)練數(shù)據(jù)量（TB 級(jí)別以上的文本）、以及計(jì)算需求的巨大。

目標(biāo)：預(yù)測(cè)文本中的下一個(gè)詞（語(yǔ)言建模），或在更高層次上，生成合理的文本輸出。

能力：除了文本生成，它還能執(zhí)行諸如翻譯、總結(jié)、分類(lèi)、問(wèn)答、推理、代碼生成等復(fù)雜任務(wù)。大語(yǔ)言模型是通用模型，在廣泛的任務(wù)中表現(xiàn)出色，而不是針對(duì)一項(xiàng)特定任務(wù)進(jìn)行訓(xùn)練

現(xiàn)在大火的智能體（AI Agent）的大腦就是基于大語(yǔ)言模型，詳見(jiàn)：

一文說(shuō)清楚什么是AI Agent(智能體)

2. 大語(yǔ)言模型（LLM）的核心技術(shù)和特性

2.1 Transformer 架構(gòu)

Transformer 是一種基于“注意力機(jī)制”的神經(jīng)網(wǎng)絡(luò)架構(gòu)，由 Google 于 2017 年提出。它的核心特性是：

自注意力機(jī)制（Self-Attention）：能捕獲句子中每個(gè)詞與其他詞之間的關(guān)系，量化它們的重要性，提取上下文語(yǔ)義。

并行計(jì)算：相比早期的 RNN 和 LSTM，Transformer 能更高效地處理長(zhǎng)文本。

LLM（如 GPT 系列）大多基于 Transformer 的變體。

2.1.1 看全局抓重點(diǎn)：注意力機(jī)制

想象你是一個(gè)班主任，班干部（Transformer）負(fù)責(zé)審閱學(xué)生的作業(yè)。如果有句子寫(xiě)得特別好（比如“春風(fēng)拂面百花開(kāi)”），班干部會(huì)特別關(guān)注這句話，并給它“打一個(gè)高分”。這就是 Transformer 的注意力機(jī)制，它知道哪些部分更重要，應(yīng)該重點(diǎn)關(guān)注。

2.1.2 并行處理：效率高

以前的模型像流水線工人，必須按順序一字一句地看完所有作業(yè)（比如傳統(tǒng)的 RNN）。而班干部（Transformer）更像是一群分工明確的審稿員，可以同時(shí)看整篇作業(yè)，快速抓住重點(diǎn)。

2.1.3 理解句子結(jié)構(gòu)：捕捉長(zhǎng)距離依賴

如果有學(xué)生寫(xiě)了一篇長(zhǎng)文章，開(kāi)頭提到“春天來(lái)了”，后面說(shuō)“鮮花盛開(kāi)”。班干部（Transformer）不會(huì)忘記開(kāi)頭的信息，會(huì)把“春天來(lái)了”和“鮮花盛開(kāi)”關(guān)聯(lián)起來(lái)。這種能力叫長(zhǎng)距離依賴捕捉，讓模型能理解前后文的語(yǔ)義聯(lián)系。

Transformer 的注意力機(jī)制讓每個(gè)詞都可以關(guān)注整個(gè)句子中的其他詞，而不是局限于前后相鄰的詞。這解決了傳統(tǒng) RNN 處理長(zhǎng)文本時(shí)容易“遺忘上下文”的問(wèn)題。

2.1.4 將文字變成數(shù)字：嵌入表示Embedding

班干部在看作業(yè)時(shí)，需要先把作業(yè)內(nèi)容分類(lèi)，比如：數(shù)學(xué)題歸類(lèi)到“數(shù)字”里，作文歸類(lèi)到“語(yǔ)言”里。同樣，Transformer 需要先把文字轉(zhuǎn)換成模型能理解的數(shù)字形式。這種表示叫“詞嵌入（Word Embedding）”。Transformer 中會(huì)用“位置編碼（Positional Encoding）”標(biāo)記每個(gè)詞的位置，確保模型理解詞語(yǔ)在句子中的順序。

Embedding詳見(jiàn)：一文說(shuō)清楚人工智能的嵌入（Embedding）是什么

2.2 Transformer 是如何生成答案的？

2.2.1 把重點(diǎn)重新組織：編碼器-解碼器結(jié)構(gòu)

班干部（Transformer）把學(xué)生的作業(yè)總結(jié)后，用自己的話重新寫(xiě)一遍。這就是編碼器-解碼器結(jié)構(gòu)的工作方式：

編碼器：像一個(gè)分析員，把輸入的內(nèi)容（句子）理解后轉(zhuǎn)化為內(nèi)部的知識(shí)表示。

解碼器：像一個(gè)寫(xiě)手，根據(jù)內(nèi)部的知識(shí)表示生成輸出（翻譯、回答問(wèn)題等）。

Transformer 的編碼器負(fù)責(zé)對(duì)輸入的句子進(jìn)行特征提取，而解碼器基于這些特征生成目標(biāo)輸出。這種結(jié)構(gòu)廣泛用于翻譯和生成任務(wù)（如機(jī)器翻譯、文本生成）。

2.2.2 輸入和輸出之間的關(guān)系：交叉注意力

班干部在總結(jié)學(xué)生的作業(yè)時(shí)，會(huì)參考原文里的句子重點(diǎn)（比如從題目到結(jié)尾）。這個(gè)過(guò)程叫交叉注意力，確保模型輸出的內(nèi)容和輸入有緊密關(guān)聯(lián)。

Transformer 在解碼器中，模型需要關(guān)注輸入的隱藏表示，通過(guò)計(jì)算解碼器和編碼器之間的注意力分?jǐn)?shù)，確保生成的輸出能準(zhǔn)確反映輸入的語(yǔ)義內(nèi)容。

交叉注意力應(yīng)用于編碼器-解碼器模型， GPT 是解碼器-only 模型，其架構(gòu)中不直接使用編碼器-解碼器的交叉注意力機(jī)制

2.3 為什么 Transformer 比傳統(tǒng)方法強(qiáng)？

2.3.1 一眼看全局：自注意力機(jī)制

傳統(tǒng)模型（如 RNN）像流水線工人，必須逐字逐句處理句子，而 Transformer 像一位高效的觀察者，可以一眼看到全文，快速抓住重點(diǎn)。自注意力機(jī)制讓模型對(duì)句子中的所有詞進(jìn)行“全局比較”，從而同時(shí)捕捉短距離和長(zhǎng)距離的關(guān)系。

2.3.2 提高效率：并行處理

如果文章特別長(zhǎng)，傳統(tǒng)模型處理起來(lái)很慢，而 Transformer 像一群同時(shí)工作的專(zhuān)家，可以并行處理，提高效率。通過(guò)將輸入句子分成塊，并行計(jì)算每個(gè)詞的注意力權(quán)重，Transformer 避免了序列模型的時(shí)間瓶頸，效率顯著提高。

2.3.3 適應(yīng)性強(qiáng)：預(yù)訓(xùn)練模型可遷移

班干部（Transformer）經(jīng)過(guò)訓(xùn)練后，不僅能看作文，還能學(xué)會(huì)批改數(shù)學(xué)題、物理題等。這是因?yàn)樗摹皩W(xué)習(xí)能力”很強(qiáng)，能根據(jù)不同的任務(wù)調(diào)整自己。模型可以先在大規(guī)模通用語(yǔ)料上預(yù)訓(xùn)練（如 GPT 或 BERT），學(xué)到語(yǔ)言的通用規(guī)律，再通過(guò)微調(diào)（Fine-tuning）適應(yīng)特定任務(wù)。

3. 為什么“大模型”目前特指"語(yǔ)言模型"？

1.技術(shù)推動(dòng)

大語(yǔ)言模型（如 GPT 系列）的出現(xiàn)展示了“通用人工智能”（AGI）的潛力，使得語(yǔ)言模型成為大模型的核心代表。

語(yǔ)言是人類(lèi)認(rèn)知和信息處理的基礎(chǔ)，訓(xùn)練語(yǔ)言模型可以讓 AI 在廣泛的領(lǐng)域表現(xiàn)出色。

2.應(yīng)用廣泛

從對(duì)話生成到代碼編寫(xiě)、從文檔翻譯到文本分析，大語(yǔ)言模型已經(jīng)在多種場(chǎng)景中展示了高效性和通用性。

3.市場(chǎng)驅(qū)動(dòng)

商業(yè)化需求（如 ChatGPT、Bard）讓大語(yǔ)言模型成為公眾認(rèn)知中的“大模型”代名詞。

4. 為什么叫“大”模型，還有“小”模型嗎？

1.參數(shù)規(guī)模

參數(shù)是模型中的可調(diào)節(jié)權(quán)重，用來(lái)捕獲數(shù)據(jù)中的模式。大模型通常有數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù)。例如，GPT-3 有 1750 億個(gè)參數(shù)，GPT-4 甚至更多。

參數(shù)數(shù)量越多，理論上模型能夠捕獲的復(fù)雜模式也越多，但這也意味著更高的計(jì)算和存儲(chǔ)成本。

2.訓(xùn)練數(shù)據(jù)量

大模型往往需要海量數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)越多，模型越有可能泛化，適應(yīng)更多樣的場(chǎng)景。

例如，大語(yǔ)言模型可能使用來(lái)自互聯(lián)網(wǎng)的數(shù)千TB文本數(shù)據(jù)。

3.計(jì)算資源

大模型的訓(xùn)練和推理（inference）需要高性能的硬件支持，比如 GPU 或 TPU 集群。

訓(xùn)練一個(gè)大模型可能需要數(shù)周或數(shù)月，耗費(fèi)數(shù)百萬(wàn)美元的計(jì)算成本。

3.能力范圍

大模型通常具備較強(qiáng)的通用性，可以跨越多個(gè)任務(wù)。例如，GPT-4 不僅可以生成文本，還能進(jìn)行翻譯、代碼生成等多種任務(wù)。

它們還能在新任務(wù)上實(shí)現(xiàn)良好的零樣本（Zero-shot）或少樣本（Few-shot）學(xué)習(xí)能力。

不過(guò)，大模型的“更大”并不總是等于“更好”。隨著參數(shù)數(shù)量的增長(zhǎng)，模型性能的提升并非線性遞增。在超過(guò)一定規(guī)模后，訓(xùn)練更大的模型可能僅帶來(lái)微弱的精度提升，但計(jì)算資源和能耗成本會(huì)顯著增加。

5.“小”模型有哪些

相對(duì)大模型，小模型是指參數(shù)數(shù)量較少、規(guī)模較小、專(zhuān)注于特定任務(wù)的模型。例如：

MobileNet：專(zhuān)為移動(dòng)設(shè)備設(shè)計(jì)的圖像識(shí)別模型，參數(shù)量較小，計(jì)算高效。

GPT-2 的小型版本：用于低資源環(huán)境，參數(shù)數(shù)量可能在百萬(wàn)級(jí)別。

LightGBM、XGBoost 等傳統(tǒng)機(jī)器學(xué)習(xí)模型：雖然嚴(yán)格意義上不是深度學(xué)習(xí)模型，但也屬于小模型范疇。

小模型的優(yōu)點(diǎn)

計(jì)算效率高：可以部署在資源有限的設(shè)備（如手機(jī)或嵌入式系統(tǒng)）上。

訓(xùn)練成本低：對(duì)硬件需求較低，訓(xùn)練時(shí)間更短。

專(zhuān)注性強(qiáng)：通常專(zhuān)注于解決單一任務(wù)，性能更高效。

在實(shí)際應(yīng)用中，小模型常用于邊緣設(shè)備上的實(shí)時(shí)推理，而大模型則在云端完成高復(fù)雜度的任務(wù)。通過(guò)這種協(xié)作，可以在性能和效率之間找到平衡。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31364

瀏覽量
269767
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2519

瀏覽量
2972
LLM

LLM

+關(guān)注

關(guān)注
0

文章
298

瀏覽量
360

原文標(biāo)題：一文說(shuō)清楚什么是AI大模型

文章出處：【微信號(hào)：深圳市賽姆烯金科技有限公司，微信公眾號(hào)：深圳市賽姆烯金科技有限公司】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

怎么才能開(kāi)啟ADS1115的快速模式？

ADS1115數(shù)據(jù)手冊(cè)上說(shuō)了這塊芯片可以開(kāi)啟快速模式，實(shí)在start之后發(fā)送一個(gè) 00001xxx的地址，這個(gè)地址不被ADS1115應(yīng)答然后說(shuō)xxx是HS mode code 但是并沒(méi)有說(shuō)清楚

發(fā)表于 01-07 08:01

文心大模型生態(tài)大會(huì)：?jiǎn)⒚髦秋@AI智能產(chǎn)品展現(xiàn)AI無(wú)限“模力”

12月26日，在人工智能蓬勃發(fā)展的浪潮中，以“模力無(wú)限星河共創(chuàng)”為主題的文心大模型生態(tài)大會(huì)在上?！埥茖W(xué)會(huì)堂盛大舉行。啟明智顯AI筆筒、AI潮玩底座、

發(fā)表于 12-26 18:33 ?393次閱讀

<b class='flag-5'>文</b>心大<b class='flag-5'>模型</b>生態(tài)大會(huì)：?jiǎn)⒚髦秋@<b class='flag-5'>AI</b>智能產(chǎn)品展現(xiàn)<b class='flag-5'>AI</b>無(wú)限“模力”

從箱子里找出來(lái)的示例：Air780E軟件指南之TCP應(yīng)用

今天翻箱倒柜，把塵封已久的關(guān)于Air780E軟件指南之TCP應(yīng)用教程翻出來(lái)給大家展示展示：讓我從概述、環(huán)境準(zhǔn)備、問(wèn)題等方面來(lái)給大家說(shuō)清楚。

發(fā)表于 11-02 11:58 ?446次閱讀

buffers內(nèi)存與cached內(nèi)存的區(qū)別

free 命令是Linux系統(tǒng)上查看內(nèi)存使用狀況最常用的工具，然而很少有人能說(shuō)清楚 “buffers” 與 “cached” 之間的區(qū)別。

發(fā)表于 07-29 14:17 ?550次閱讀

ai大模型和ai框架的關(guān)系是什么

AI大模型和AI框架是人工智能領(lǐng)域中兩個(gè)重要的概念，它們之間的關(guān)系密切且復(fù)雜。 AI大模型的定義和特點(diǎn)

發(fā)表于 07-16 10:07 ?4.3w次閱讀

ai大模型和傳統(tǒng)ai的區(qū)別在哪？

的BERT模型使用了33億個(gè)參數(shù)，而傳統(tǒng)AI模型通常只有幾千到幾百萬(wàn)個(gè)參數(shù)。模型復(fù)雜度 AI大模型

發(fā)表于 07-16 10:06 ?1510次閱讀

NONOS如何檢查是否實(shí)際發(fā)送了UDP數(shù)據(jù)包？

我發(fā)現(xiàn)進(jìn)入深度睡眠通常無(wú)法傳輸發(fā)送的最后一個(gè) UDP 數(shù)據(jù)包。我現(xiàn)在將睡眠延遲 30 毫秒，這是一個(gè)黑客。我寧愿有一種方法來(lái)檢查是否可以休眠，或者以其他方式能夠注冊(cè)指示數(shù)據(jù)包已發(fā)送的回調(diào)（無(wú)線電發(fā)送緩沖區(qū)為空）。

發(fā)表于 07-12 06:14

STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 05-27 07:15

請(qǐng)問(wèn)STM32 EXTI的脈沖發(fā)生器輸出可以連接什么外設(shè)？

的{:1:}。但手冊(cè)沒(méi)說(shuō)清楚這個(gè)脈沖發(fā)生器的輸出能連接到什么地方，也查不到相關(guān)資料，只是有些文章說(shuō)可以控制TIM和ADC。哪位能說(shuō)明一下？

發(fā)表于 05-06 08:32

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開(kāi)發(fā)套件評(píng)測(cè)4

在訓(xùn)練一只聰明的AI小動(dòng)物解決實(shí)際問(wèn)題，通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行推理，讓電腦也能像人一樣根據(jù)輸入信息做出決策。在上述示例中，我創(chuàng)建了一個(gè)

發(fā)表于 03-19 11:18

cubemx ai導(dǎo)入onnx模型后壓縮失敗了怎么解決？

cubemx ai導(dǎo)入onnx模型后壓縮失敗。請(qǐng)問(wèn)我怎么解決

發(fā)表于 03-19 07:58

AI大模型遠(yuǎn)程控制啟動(dòng)車(chē)輛（原創(chuàng)）

AI大模型

還沒(méi)吃飯
發(fā)布于 :2024年03月18日 15:18:29

使用cube-AI分析模型時(shí)報(bào)錯(cuò)的原因有哪些？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 03-14 07:09

是德科技如何賦能醫(yī)療AI大模型應(yīng)用呢？

自從ChatGPT爆火以來(lái)，各種AI大模型紛紛亮相，如百度科技的文心一言，科大訊飛的訊飛星火，華為的盤(pán)古AI大

發(fā)表于 02-28 09:35 ?2389次閱讀

三星Galaxy AI集成百度文心大模型

近日，中國(guó)三星與百度智能云宣布正式結(jié)成AI生態(tài)戰(zhàn)略合作伙伴，共同推動(dòng)AI技術(shù)在智能手機(jī)等設(shè)備上的應(yīng)用。作為這一合作的一部分，三星Galaxy AI

發(fā)表于 01-29 17:03 ?1280次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一文說(shuō)清楚什么是AI大模型

評(píng)論

怎么才能開(kāi)啟ADS1115的快速模式？

文心大模型生態(tài)大會(huì)：?jiǎn)⒚髦秋@AI智能產(chǎn)品展現(xiàn)AI無(wú)限“模力”

從箱子里找出來(lái)的示例：Air780E軟件指南之TCP應(yīng)用

buffers內(nèi)存與cached內(nèi)存的區(qū)別

ai大模型和ai框架的關(guān)系是什么

ai大模型和傳統(tǒng)ai的區(qū)別在哪？

NONOS如何檢查是否實(shí)際發(fā)送了UDP數(shù)據(jù)包？

STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因？

請(qǐng)問(wèn)STM32 EXTI的脈沖發(fā)生器輸出可以連接什么外設(shè)？

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開(kāi)發(fā)套件評(píng)測(cè)4

cubemx ai導(dǎo)入onnx模型后壓縮失敗了怎么解決？

AI大模型遠(yuǎn)程控制啟動(dòng)車(chē)輛（原創(chuàng)）

使用cube-AI分析模型時(shí)報(bào)錯(cuò)的原因有哪些？

是德科技如何賦能醫(yī)療AI大模型應(yīng)用呢？

三星Galaxy AI集成百度文心大模型