論文提出Dynamic Memory Induction Networks (DMIN) 網絡處理小樣本文本分類。
兩階段的(two-stage)few-shot模型:
在監督學習階段(綠色的部分),訓練數據中的部分類別被選為base set,用于finetune預訓練Encoder和分類器也就是Pretrained Encoder和Classfiier圖中的部分。
在元學習階段(紅色的部分),數據被構造成一個個episode的形式用于計算梯度和更新模型參數。對于C-way K-shot,一個訓練episode中的Support Set是從訓練數據中隨機選擇C個類別,每個類別選擇K個實例構成的。每個類別剩下的樣本就構成Query Set。也就是在Support Set上訓練模型,在Query Set上計算損失更新參數。
Pretrained Encoder
用[CLS]預訓練的句子的Bert-base Embedding來做fine-tune。$W_{base}$ 就作為元學習的base特征記憶矩陣,監督學習得到的。
Dynamic Memory Module
在元學習階段,為了從給定的Support Set中歸納出類級別的向量表示,根據記憶矩陣 $W_{base}$ 學習Dynamic Memory Module(動態記憶模塊)。
給定一個 $M$ ( $W_{base}$ )和樣本向量 q , q 就是一個特征膠囊,所以動態記憶路由算法就是為了得到適應監督信息 $ W_{base} $ 的向量 $q^{'}$ ,
$$ q^{'} \leftarrow DMR(M, q) $$ 學習記憶矩陣 $M$ 中的每個類別向量 $M^{'} $ 進行更新,
其中
這里的 $W_j$ 就是一個權重。因此變換權重 $W_j$ 和偏差 $b_j$ 在輸入時候是可以共享的, 因此計算 $\hat{m}{ij}$ 和 $\hat{q}_j$ 之間的皮爾遜相關系數
其中
接下來就是進行動態路由算法學習最佳的特征映射(這里添加了$p_{ij}$到路由協議中),到第11行為止。從第12行開始也會根據監督學習的記憶矩陣和膠囊的皮爾遜相關系數來更新$p_{ij}$,最后把部分膠囊
編輯:jq
-
數據
+關注
關注
8文章
7002瀏覽量
88943 -
Query
+關注
關注
0文章
11瀏覽量
9349 -
小樣本
+關注
關注
0文章
7瀏覽量
6821 -
動態路由
+關注
關注
0文章
16瀏覽量
23117 -
網絡處理
+關注
關注
0文章
5瀏覽量
6337
發布評論請先 登錄
相關推薦
評論