電子發燒友網>電子資料下載>電子資料>PyTorch教程15.4之預訓練word2vec

PyTorch教程15.4之預訓練word2vec

2512862 2023-06-05 | pdf | 0.14 MB | 次下載 | 免費

資料介紹

我們繼續實現 15.1 節中定義的 skip-gram 模型。然后我們將在 PTB 數據集上使用負采樣來預訓練 word2vec。首先，讓我們通過調用函數來獲取數據迭代器和這個數據集的詞匯表，這在第 15.3 節d2l.load_data_ptb中有描述

						import math
import torch
from torch import nn
from d2l import torch as d2l

batch_size, max_window_size, num_noise_words = 512, 5, 5
data_iter, vocab = d2l.load_data_ptb(batch_size, max_window_size,
                   num_noise_words)

						 

						Downloading ../data/ptb.zip from http://d2l-data.s3-accelerate.amazonaws.com/ptb.zip...

					

						import math
from mxnet import autograd, gluon, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

batch_size, max_window_size, num_noise_words = 512, 5, 5
data_iter, vocab = d2l.load_data_ptb(batch_size, max_window_size,
                   num_noise_words)

						 

15.4.1。Skip-Gram 模型

我們通過使用嵌入層和批量矩陣乘法來實現 skip-gram 模型。首先，讓我們回顧一下嵌入層是如何工作的。

15.4.1.1。嵌入層

如第 10.7 節所述，嵌入層將標記的索引映射到其特征向量。該層的權重是一個矩陣，其行數等于字典大小 ( input_dim)，列數等于每個標記的向量維數 ( output_dim)。一個詞嵌入模型訓練好之后，這個權重就是我們所需要的。

								embed = nn.Embedding(num_embeddings=20, embedding_dim=4)
print(f'Parameter embedding_weight ({embed.weight.shape}, '
   f'dtype={embed.weight.dtype})')

								 

								Parameter embedding_weight (torch.Size([20, 4]), dtype=torch.float32)

							

								embed = nn.Embedding(input_dim=20, output_dim=4)
embed.initialize()
embed.weight

								 

								Parameter embedding0_weight (shape=(20, 4), dtype=float32)

							

嵌入層的輸入是標記（單詞）的索引。對于任何令牌索引i，它的向量表示可以從ith嵌入層中權重矩陣的行。由于向量維度 ( output_dim) 設置為 4，因此嵌入層返回形狀為 (2, 3, 4) 的向量，用于形狀為 (2, 3) 的標記索引的小批量。

								x = torch.tensor([[1, 2, 3], [4, 5, 6]])
embed(x)

								tensor([[[-0.6501, 1.3547, 0.7968, 0.3916],
     [ 0.4739, -0.0944, 1.2308, 0.6457],
     [ 0.4539, 1.5194, 0.4377, -1.5122]],

    [[-0.7032, -0.1213, 0.2657, -0.6797],
     [ 0.2930, -0.6564, 0.8960, -0.5637],
     [-0.1815, 0.9487, 0.8482, 0.5486]]], grad_fn=<EmbeddingBackward0>)

							

								x = np.array([[1, 2, 3], [4, 5, 6]])
embed(x)

								array([[[ 0.01438687, 0.05011239, 0.00628365, 0.04861524],
    [-0.01068833, 0.01729892, 0.02042518, -0.01618656],
    [-0.00873779, -0.02834515, 0.05484822, -0.06206018]],

    [[ 0.06491279, -0.03182812, -0.01631819, -0.00312688],
    [ 0.0408415 , 0.04370362, 0.00404529, -0.0028032 ],
    [ 0.00952624, -0.01501013, 0.05958354, 0.04705103]]])

							

15.4.1.2。定義前向傳播

在正向傳播中，skip-gram 模型的輸入包括形狀為（批大小，1）的中心詞索引和形狀為（批大小，）center的連接上下文和噪聲詞索引，其中定義在第 15.3.5 節. 這兩個變量首先通過嵌入層從標記索引轉換為向量，然后它們的批量矩陣乘法（在第 11.3.2.2 節中描述）返回形狀為（批量大小，1，）的輸出。輸出中的每個元素都是中心詞向量與上下文或噪聲詞向量的點積。contexts_and_negativesmax_lenmax_lenmax_len

								def skip_gram(center, contexts_and_negatives, embed_v, embed_u):
  v = embed_v(center)
  u = embed_u(contexts_and_negatives)
  pred = torch.bmm(v, u.permute(0, 2, 1))
  return pred

								 

								def skip_gram(center, contexts_and_negatives, embed_v, embed_u):
  v = embed_v(center)
  u = embed_u(contexts_and_negatives)
  pred = npx.batch_dot(v, u.swapaxes(1, 2))
  return pred

								 

skip_gram讓我們為一些示例輸入打印此函數的輸出形狀。

								skip_gram(torch.ones((2, 1), dtype=torch.long),
     torch.ones((2, 4), dtype=torch.long), embed, embed).shape

								torch.Size([2, 1, 4])

							

								skip_gram(np.ones((2, 1)), np.ones((2, 4)), embed, embed).shape

								 

								(2, 1, 4)

							

15.4.2。訓練

在用負采樣訓練skip-gram模型之前，我們先定義它的損失函數。

15.4.2.1。二元交叉熵損失

根據15.2.1節負采樣損失函數的定義，我們將使用二元交叉熵損失。

								class SigmoidBCELoss(nn.Module):
  # Binary cross-entropy loss with masking
  def __init__(self):
    super().__init__()

  def forward(self, inputs, target, mask=None):
    out = nn.functional.binary_cross_entropy_with_logits(
      inputs, target, weight=mask, reduction="none")
    return out.mean(dim=1)

loss = SigmoidBCELoss()

								 

								loss = gluon.loss.SigmoidBCELoss()

								 

回想我們在第 15.3.5 節中對掩碼變量和標簽變量的描述。下面計算給定變量的二元交叉熵損失。

								pred = torch.tensor([[1.1, -2.2, 3.3, -4.4]] * 2)
label = torch.tensor([[1.0, 0.0, 0.0, 0.0], [0.0, 1.0, 0.0, 0.0]])
mask = torch.tensor([[1, 1, 1, 1], [1, 1, 0, 0]])
loss(pred, label, mask) * mask.shape[1] / mask.sum(axis=1)

								 

								tensor([0.9352, 1.8462])

							

								pred = np.array([[1.1, -2.2, 3.3, -4.4]] * 2)
label = np.array([[1.0, 0.0, 0.0, 0.0], [0.0, 1.0, 0.0, 0.0]])
mask = np.array([[1,
							

下載該資料的人也在下載下載該資料的人還在閱讀

更多 >

Pytorch深度學習訓練的方法 240次閱讀
大語言模型的預訓練 486次閱讀
預訓練模型的基本原理和應用 3034次閱讀
解讀PyTorch模型訓練過程 1126次閱讀
PyTorch如何訓練自己的數據集 1914次閱讀
什么是預訓練AI模型？ 1081次閱讀
pytorch實現斷電繼續訓練時需要注意的要點 1447次閱讀
利用視覺語言模型對檢測器進行預訓練 1430次閱讀
新的預訓練方法——MASS！MASS預訓練幾大優勢！ 7105次閱讀
自然語言處理的ELMO使用 3358次閱讀
討論嵌入的概念，以及使用word2vec生成嵌入的機制 3233次閱讀
詳解谷歌最強NLP模型BERT 3002次閱讀
OpenAI：用可擴展的多任務系統，在多語言任務上取得了良好的成績 2040次閱讀
介紹Word2Vec和Glove這兩種最流行的詞嵌入方法背后的直覺 5.9w次閱讀
Python自然語言用金庸的武俠小說做分析和處理 8480次閱讀

1山景DSP芯片AP8248A2數據手冊
1.06 MB | 532次下載 | 免費
2RK3399完整板原理圖（支持平板，盒子VR）
3.28 MB | 339次下載 | 免費
3TC358743XBG評估板參考手冊
1.36 MB | 330次下載 | 免費
4DFM軟件使用教程
0.84 MB | 295次下載 | 免費
5元宇宙深度解析—未來的未來-風口還是泡沫
6.40 MB | 227次下載 | 免費
6迪文DGUS開發指南
31.67 MB | 194次下載 | 免費
7元宇宙底層硬件系列報告
13.42 MB | 182次下載 | 免費
8FP5207XR-G1中文應用手冊
1.09 MB | 178次下載 | 免費

本月

1OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費
2555集成電路應用800例(新編版)
0.00 MB | 33566次下載 | 免費
3接口電路圖大全
未知 | 30323次下載 | 免費
4開關電源設計實例指南
未知 | 21549次下載 | 免費
5電氣工程師手冊免費下載(新編第二版pdf電子書)
0.00 MB | 15349次下載 | 免費
6數字電路基礎pdf(下載)
未知 | 13750次下載 | 免費
7電子制作實例集錦下載
未知 | 8113次下載 | 免費
8《LED驅動電路設計》溫德爾著
0.00 MB | 6656次下載 | 免費

總榜

1matlab軟件下載入口
未知 | 935054次下載 | 免費
2protel99se軟件下載(可英文版轉中文版)
78.1 MB | 537798次下載 | 免費
3MATLAB 7.1 下載 (含軟件介紹)
未知 | 420027次下載 | 免費
4OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費
5Altium DXP2002下載入口
未知 | 233046次下載 | 免費
6電路仿真軟件multisim 10.0免費下載
340992 | 191187次下載 | 免費
7十天學會AVR單片機與C語言視頻教程下載
158M | 183279次下載 | 免費
8proe5.0野火版下載(中文版免費下載)
未知 | 138040次下載 | 免費

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史