1. LLM(大語(yǔ)言模型)
大型語(yǔ)言模型 (LLMs) 是先進(jìn)的人工智能系統(tǒng),經(jīng)過(guò)大量文本數(shù)據(jù)集的訓(xùn)練,可以理解和生成類似人類的文本。他們使用深度學(xué)習(xí)技術(shù)以上下文相關(guān)的方式處理和生成語(yǔ)言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的發(fā)展,標(biāo)志著自然語(yǔ)言處理領(lǐng)域的重大進(jìn)步。
2. 訓(xùn)練
訓(xùn)練是指通過(guò)將語(yǔ)言模型暴露于大型數(shù)據(jù)集來(lái)教導(dǎo)語(yǔ)言模型理解和生成文本。該模型學(xué)習(xí)預(yù)測(cè)序列中的下一個(gè)單詞,并通過(guò)調(diào)整其內(nèi)部參數(shù)隨著時(shí)間的推移提高其準(zhǔn)確性。這個(gè)過(guò)程是開(kāi)發(fā)任何處理語(yǔ)言任務(wù)的人工智能的基礎(chǔ)。
3. 微調(diào)
微調(diào)是在較小的特定數(shù)據(jù)集上進(jìn)一步訓(xùn)練(或調(diào)整)預(yù)訓(xùn)練語(yǔ)言模型以專門(mén)針對(duì)特定領(lǐng)域或任務(wù)的過(guò)程。這使得模型能夠更好地執(zhí)行原始訓(xùn)練數(shù)據(jù)中未廣泛涵蓋的任務(wù)。
4. 參數(shù)
在神經(jīng)網(wǎng)絡(luò)(包括LLMs)的背景下,參數(shù)是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的模型架構(gòu)的可變部分。參數(shù)(如神經(jīng)網(wǎng)絡(luò)中的權(quán)重)在訓(xùn)練期間進(jìn)行調(diào)整,以減少預(yù)測(cè)輸出和實(shí)際輸出之間的差異。
5. 矢量
在機(jī)器學(xué)習(xí)中,向量是以算法可以處理的格式表示數(shù)據(jù)的數(shù)字?jǐn)?shù)組。在語(yǔ)言模型中,單詞或短語(yǔ)被轉(zhuǎn)換為向量,通常稱為嵌入,它捕獲模型可以理解和操作的語(yǔ)義。
6. 嵌入
嵌入是文本的密集向量表示,其中熟悉的單詞在向量空間中具有相似的表示。這項(xiàng)技術(shù)有助于捕獲單詞之間的上下文和語(yǔ)義相似性,這對(duì)于機(jī)器翻譯和文本摘要等任務(wù)至關(guān)重要。
7. 標(biāo)記化標(biāo)記化是將文本分割成多個(gè)片段,稱為標(biāo)記,可以是單詞、子詞或字符。這是使用語(yǔ)言模型處理文本之前的初步步驟,因?yàn)樗兄谔幚砀鞣N文本結(jié)構(gòu)和語(yǔ)言。
8. Transformer
Transformer 是神經(jīng)網(wǎng)絡(luò)架構(gòu),它依賴于自注意力機(jī)制來(lái)不同地權(quán)衡輸入數(shù)據(jù)不同部分的影響。這種架構(gòu)對(duì)于許多自然語(yǔ)言處理任務(wù)非常有效,并且是大多數(shù)現(xiàn)代 LLMs 的核心。
9. 注意力機(jī)制
神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制使模型能夠在生成響應(yīng)的同時(shí)專注于輸入序列的不同部分,反映了人類注意力在閱讀或聽(tīng)力等活動(dòng)中的運(yùn)作方式。這種能力對(duì)于理解上下文和產(chǎn)生連貫的響應(yīng)至關(guān)重要。
10. 推理
推理是指使用經(jīng)過(guò)訓(xùn)練的模型進(jìn)行預(yù)測(cè)。在 LLMs 的上下文中,推理是指模型使用在訓(xùn)練期間學(xué)到的知識(shí)基于輸入數(shù)據(jù)生成文本。這是LLMs實(shí)現(xiàn)實(shí)際應(yīng)用的階段。
11. 溫度
在語(yǔ)言模型采樣中,溫度是一個(gè)超參數(shù),它通過(guò)在應(yīng)用 softmax 之前縮放 logits 來(lái)控制預(yù)測(cè)的隨機(jī)性。較高的溫度會(huì)產(chǎn)生更多的隨機(jī)輸出,而較低的溫度會(huì)使模型的輸出更具確定性。
12. 頻率參數(shù)
語(yǔ)言模型中的頻率參數(shù)根據(jù)標(biāo)記的出現(xiàn)頻率來(lái)調(diào)整標(biāo)記的可能性。該參數(shù)有助于平衡常見(jiàn)詞和稀有詞的生成,影響模型在文本生成中的多樣性和準(zhǔn)確性。
13. 取樣
語(yǔ)言模型上下文中的采樣是指根據(jù)概率分布隨機(jī)選擇下一個(gè)單詞來(lái)生成文本。這種方法允許模型生成各種且通常更具創(chuàng)意的文本輸出。
14. Top-k 采樣
Top-k 采樣是一種技術(shù),其中模型對(duì)下一個(gè)單詞的選擇僅限于根據(jù)模型的預(yù)測(cè)的 k 個(gè)最可能的下一個(gè)單詞。此方法減少了文本生成的隨機(jī)性,同時(shí)仍然允許輸出的可變性。
15. RLHF(人類反饋強(qiáng)化學(xué)習(xí))
根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)是一種根據(jù)人類反饋而不僅僅是原始數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)的技術(shù)。這種方法使模型的輸出與人類的價(jià)值觀和偏好保持一致,從而顯著提高其實(shí)際有效性。
16. 解碼策略
解碼策略決定了語(yǔ)言模型在生成過(guò)程中如何選擇輸出序列。策略包括貪婪解碼(在每一步中選擇最有可能的下一個(gè)單詞)和波束搜索(通過(guò)同時(shí)考慮多種可能性來(lái)擴(kuò)展貪婪解碼)。這些策略顯著影響輸出的一致性和多樣性。
17. 語(yǔ)言模型提示
語(yǔ)言模型提示涉及設(shè)計(jì)指導(dǎo)模型生成特定類型輸出的輸入(或提示)。有效的提示可以提高問(wèn)題回答或內(nèi)容生成等任務(wù)的表現(xiàn),而無(wú)需進(jìn)一步培訓(xùn)。
18. Transformer-XL
Transformer-XL 擴(kuò)展了現(xiàn)有的 Transformer 架構(gòu),能夠?qū)W習(xí)超出固定長(zhǎng)度的依賴關(guān)系,而不會(huì)破壞時(shí)間一致性。這種架構(gòu)對(duì)于涉及長(zhǎng)文檔或序列的任務(wù)至關(guān)重要。
19. 掩碼語(yǔ)言建模(MLM)
掩碼語(yǔ)言建模需要在訓(xùn)練期間屏蔽某些輸入數(shù)據(jù)段,促使模型預(yù)測(cè)隱藏的單詞。該方法構(gòu)成了 BERT 等模型的基石,利用 MLM 來(lái)增強(qiáng)預(yù)訓(xùn)練效果。
20. 序列到序列模型(Seq2Seq)
Seq2Seq 模型旨在將序列從一個(gè)域轉(zhuǎn)換為另一個(gè)域,例如將文本從一種語(yǔ)言翻譯或?qū)?wèn)題轉(zhuǎn)換為答案。這些模型通常涉及編碼器和解碼器。
21. 生成式預(yù)訓(xùn)練變壓器(GPT)
Generative Pre-trained Transformer 是指 OpenAI 設(shè)計(jì)的一系列語(yǔ)言處理 AI 模型。GPT 模型使用無(wú)監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,根據(jù)輸入生成類似人類的文本。
22. 困惑度
困惑度衡量概率模型對(duì)給定樣本的預(yù)測(cè)準(zhǔn)確性。在語(yǔ)言模型中,困惑度的降低表明測(cè)試數(shù)據(jù)的預(yù)測(cè)能力更強(qiáng),通常與更流暢、更精確的文本生成相關(guān)。
23. 多頭注意力
多頭注意力是 Transformer 模型中的一個(gè)組件,使模型能夠同時(shí)關(guān)注不同位置的各種表示子空間。這增強(qiáng)了模型動(dòng)態(tài)關(guān)注相關(guān)信息的能力。
24. 上下文嵌入
上下文嵌入是考慮單詞出現(xiàn)的上下文的單詞表示。與傳統(tǒng)的嵌入不同,這些嵌入是動(dòng)態(tài)的,并根據(jù)周圍的文本而變化,提供更豐富的語(yǔ)義理解。
25. 自回歸模型
語(yǔ)言建模中的自回歸模型根據(jù)序列中先前的單詞來(lái)預(yù)測(cè)后續(xù)單詞。這種方法是 GPT 等模型的基礎(chǔ),其中每個(gè)輸出單詞都成為下一個(gè)輸入,從而促進(jìn)連貫的長(zhǎng)文本生成。
來(lái)源:自由坦蕩的湖泊AI、海豚實(shí)驗(yàn)室
-
人工智能
+關(guān)注
關(guān)注
1804文章
48783瀏覽量
246876 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
560瀏覽量
10691 -
LLM
+關(guān)注
關(guān)注
1文章
321瀏覽量
697
發(fā)布評(píng)論請(qǐng)先 登錄
小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

無(wú)法在OVMS上運(yùn)行來(lái)自Meta的大型語(yǔ)言模型 (LLM),為什么?
小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用
從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢?

評(píng)論