色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探討深度文本分類之DPCNN原理與代碼

8g3K_AI_Thinker ? 來源:cc ? 2019-02-13 14:59 ? 次閱讀

01

導讀

ACL2017 年中,騰訊 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。

論文中提出了一種基于 word-level 級別的網絡-DPCNN,由于 TextCNN不能通過卷積獲得文本的長距離依賴關系,而論文中 DPCNN 通過不斷加深網絡,可以抽取長距離的文本依賴關系。

實驗證明在不增加太多計算成本的情況下,增加網絡深度就可以獲得最佳的準確率。?

02

DPCNN 結構

究竟是多么牛逼的網絡呢?我們下面來窺探一下模型的芳容。

03

DPCNN 結構細節

模型是如何通過加深網絡來捕捉文本的長距離依賴關系的呢?下面我們來一一道來。為了更加簡單的解釋 DPCNN,這里我先不解釋是什么是 Region embedding,我們先把它當作 wordembedding。

等長卷積

首先交代一下卷積的的一個基本概念。一般常用的卷積有以下三類:

假設輸入的序列長度為n,卷積核大小為m,步長(stride)為s,輸入序列兩端各填補p個零(zero padding),那么該卷積層的輸出序列為(n-m+2p)/s+1。

(1)窄卷積(narrow convolution):步長s=1,兩端不補零,即p=0,卷積后輸出長度為n-m+1。

(2)寬卷積(wide onvolution):步長s=1,兩端補零p=m-1,卷積后輸出長度n+m-1。

(3)等長卷積(equal-width convolution):步長s=1,兩端補零p=(m-1)/2,卷積后輸出長度為n。如下圖所示,左右兩端同時補零p=1,s=3。

池化

那么DPCNN是如何捕捉長距離依賴的呢?這里我直接引用文章的小標題——Downsampling with the number of featuremaps fixed。

作者選擇了適當的兩層等長卷積來提高詞位 embedding 的表示的豐富性。然后接下來就開始Downsampling(池化)。

再每一個卷積塊(兩層的等長卷積)后,使用一個 size=3 和 stride=2 進行 maxpooling 進行池化。序列的長度就被壓縮成了原來的一半。其能夠感知到的文本片段就比之前長了一倍。

例如之前是只能感知3個詞位長度的信息,經過1/2池化層后就能感知6個詞位長度的信息啦,這時把 1/2 池化層和 size=3 的卷積層組合起來如圖所示。

固定 feature maps(filters) 的數量

為什么要固定feature maps的數量呢?許多模型每當執行池化操作時,增加feature maps的數量,導致總計算復雜度是深度的函數。與此相反,作者對 feature map 的數量進行了修正,他們實驗發現增加 feature map 的數量只會大大增加計算時間,而沒有提高精度

另外,夕小瑤小姐姐在知乎也詳細的解釋了為什么要固定featuremaps的數量。有興趣的可以去知乎搜一搜,講的非常透徹。

固定了 feature map 的數量,每當使用一個size=3和stride=2進行maxpooling進行池化時,每個卷積層的計算時間減半(數據大小減半),從而形成一個金字塔。

這就是論文題目所謂的Pyramid。

好啦,看似問題都解決了,目標成功達成。剩下的我們就只需要重復的進行等長卷積+等長卷積+使用一個 size=3 和 stride=2 進行 maxpooling 進行池化就可以啦,DPCNN就可以捕捉文本的長距離依賴啦!

Shortcut connections with pre-activation

但是!如果問題真的這么簡單的話,深度學習就一下子少了超級多的難點了。

(1) 初始化CNN的時,往往各層權重都初始化為很小的值,這導致了最開始的網絡中,后續幾乎每層的輸入都是接近0,這時的網絡輸出沒有意義;

(2) 小權重阻礙了梯度的傳播,使得網絡的初始訓練階段往往要迭代好久才能啟動;

(3)就算網絡啟動完成,由于深度網絡中仿射矩陣(每兩層間的連接邊)近似連乘,訓練過程中網絡也非常容易發生梯度爆炸或彌散問題。

當然,上述這幾點問題本質就是梯度彌散問題。那么如何解決深度 CNN 網絡的梯度彌散問題呢?當然是膜一下何愷明大神,然后把 ResNet 的精華拿來用啦!ResNet 中提出的shortcut-connection/ skip-connection/ residual-connection(殘差連接)就是一種非常簡單、合理、有效的解決方案。

類似地,為了使深度網絡的訓練成為可能,作者為了恒等映射,所以使用加法進行shortcut connections,即z+f(z),其中f用的是兩層的等長卷積。這樣就可以極大的緩解了梯度消失問題。

另外,作者也使用了pre-activation,這個最初在何凱明的 “Identity Mappings in Deep Residual Networks 上提及,有興趣的大家可以看看這個的原理。

直觀上,這種“線性”簡化了深度網絡的訓練,類似于 LSTM 中 constant errorcarousels 的作用。而且實驗證明pre-activation 優于 post-activation。

整體來說,巧妙的結構設計,使得這個模型不需要為了維度匹配問題而擔憂。

Region embedding

同時 DPCNN 的底層貌似保持了跟 TextCNN 一樣的結構,這里作者將 TextCNN 的包含多尺寸卷積濾波器的卷積層的卷積結果稱之為 Region embedding,意思就是對一個文本區域/片段(比如3gram)進行一組卷積操作后生成的embedding。

另外,作者為了進一步提高性能,還使用了tv-embedding (two-views embedding)進一步提高 DPCNN 的 accuracy。

上述介紹了 DPCNN 的整體架構,可見 DPCNN 的架構之精美。本文是在原始論文以及知乎上的一篇文章的基礎上進行整理。

本文可能也會有很多錯誤,如果有錯誤,歡迎大家指出來!建議大家為了更好的理解 DPCNN,看一下原始論文和參考里面的知乎。

04

用 Keras 實現 DPCNN 網絡

這里參考了一下 kaggle 的代碼,模型一共用了七層,模型的參數與論文不太相同。這里濾波器通道個數為64(論文中為256),具體的參數可以參考下面的代碼,部分我寫了注釋。

05

DPCNN 實戰

上面我們用 keras 實現了我們的 DPCNN 網絡,這里我們借助 kaggle 的有毒評論文本分類競賽來實戰下我們的 DPCNN 網絡。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    7580

    瀏覽量

    88933
  • cnn
    cnn
    +關注

    關注

    3

    文章

    353

    瀏覽量

    22246

原文標題:一文看懂深度文本分類之 DPCNN 原理與代碼

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    pyhanlp文本分類與情感分析

    語料庫本文語料庫特指文本分類語料庫,對應IDataSet接口。而文本分類語料庫包含兩個概念:文檔和類目。一個文檔只屬于一個類目,一個類目可能含有多個文檔。比如搜狗文本分類語料庫迷你版.zip,下載前
    發表于 02-20 15:37

    TensorFlow的CNN文本分類

    在TensorFlow中實現CNN進行文本分類(譯)
    發表于 10-31 09:27

    NLPIR平臺在文本分類方面的技術解析

    文本分類問題就是將一篇文檔歸入預先定義的幾個類別中的一個或幾個,而文本的自動分類則是使用計算機程序來實現這種文本分類,即根據事先指定的規則和示例樣本,自動從海量文檔中識別并訓練
    發表于 11-18 17:46

    基于文章標題信息的漢語自動文本分類

    文本分類文本挖掘的一個重要組成部分,是信息搜索領域的一項重要研究課題。該文提出一種基于文章標題信息的漢語自動文本分類方法,在HNC理論的領域概念框架下,通過標題
    發表于 04-13 08:31 ?10次下載

    基于apiori算法改進的knn文本分類方法

    隨著互聯網信息的飛速增長,文本分類變成了一項處理和資質文本信息的關鍵技術。文本分類技術可用于分類新聞,在互聯網上尋找有趣的信息,或者通過超文本
    發表于 11-09 10:25 ?9次下載
    基于apiori算法改進的knn<b class='flag-5'>文本分類</b>方法

    textCNN論文與原理——短文本分類

    是處理圖片的torchvision,而處理文本的少有提及,快速處理文本數據的包也是有的,那就是torchtext[1]。下面還是結合上一個案例:【深度學習】textCNN論文與原理——短文本分
    的頭像 發表于 12-31 10:08 ?2541次閱讀
    textCNN論文與原理——短<b class='flag-5'>文本分類</b>

    文本分類的一個大型“真香現場”來了

    ? 文本分類的一個大型“真香現場”來了:JayJay的推文《超強文本半監督MixText》中告訴大家不要浪費沒有標注過的數據,但還是需要有標注數據的!但今天介紹的這篇paper,文本分類居然不需要
    的頭像 發表于 02-05 11:02 ?1873次閱讀
    <b class='flag-5'>文本分類</b>的一個大型“真香現場”來了

    基于深度神經網絡的文本分類分析

      隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別是在卷積神經網絡和循環神經網絡方面,出現了許多新穎且有效的分類方法。對基于
    發表于 03-10 16:56 ?37次下載
    基于<b class='flag-5'>深度</b>神經網絡的<b class='flag-5'>文本分類</b>分析

    基于不同神經網絡的文本分類方法研究對比

    海量文本分析是實現大數據理解和價值發現的重要手段,其中文本分類作為自然語言處理的經典問題受到研究者廣泛關注,而人工神經網絡在文本分析方面的優異表現使其成為目前的主要研究方向。在此背景下,介紹卷積
    發表于 05-13 16:34 ?49次下載

    基于LSTM的表示學習-文本分類模型

    文本表示和分類是自然語言理解領域的研究熱點。目前已有很多文本分類方法,包括卷積網絡、遞歸網絡、自注意力機制以及它們的結合。但是,復雜的網絡并不能從根本上提高文本分類的性能,好的
    發表于 06-15 16:17 ?18次下載

    基于注意力機制的新聞文本分類模型

    基于注意力機制的新聞文本分類模型
    發表于 06-27 15:32 ?30次下載

    帶你從頭構建文本分類

    文本分類是 NLP 中最常見的任務之一, 它可用于廣泛的應用或者開發成程序,例如將用戶反饋文本標記為某種類別,或者根據客戶文本語言自動歸類。另外向我們平時見到的郵件垃圾過濾器也是文本分類
    的頭像 發表于 03-22 10:49 ?3614次閱讀

    PyTorch文本分類任務的基本流程

    文本分類是NLP領域的較為容易的入門問題,本文記錄文本分類任務的基本流程,大部分操作使用了**torch**和**torchtext**兩個庫。 ## 1. 文本數據預處理
    的頭像 發表于 02-22 14:23 ?1126次閱讀

    人工智能中文本分類的基本原理和關鍵技術

    在本文中,我們全面探討文本分類技術的發展歷程、基本原理、關鍵技術、深度學習的應用,以及從RNN到Transformer的技術演進。文章詳細介紹了各種模型的原理和實戰應用,旨在提供對文本分類
    的頭像 發表于 12-16 11:37 ?1322次閱讀
    人工智能中<b class='flag-5'>文本分類</b>的基本原理和關鍵技術

    卷積神經網絡在文本分類領域的應用

    在自然語言處理(NLP)領域,文本分類一直是一個重要的研究方向。隨著深度學習技術的飛速發展,卷積神經網絡(Convolutional Neural Network,簡稱CNN)在圖像識別領域取得了
    的頭像 發表于 07-01 16:25 ?749次閱讀
    主站蜘蛛池模板: 精品午夜中文字幕熟女人妻在线| 色青青草原桃花久久综合| 无码日韩人妻精品久久蜜桃免费| 国产精品久久久久久熟妇吹潮软件| 亚欧免费观看在线观看更新| 精品淑女少妇AV久久免费| 最新在线黄色网址| 乳色吐息在线观看全集免费观看 | 亚洲AV无码一区二区色情蜜芽| 九九99热久久999精品| a久久99精品久久久久久蜜芽| 日韩亚射吧| 久久国产伦子伦精品| c了瑜伽老师嗷嗷叫一节课视频| 无码精品AV久久久奶水| 久欠热视频精品首页| 刮伦人妇A极一片| 中文字幕一区久久久久| 色在线视频亚洲欧美| 久久免费特黄毛片| 国产成人无码视频一区二区三区 | 精品综合久久久久久8888| 99久久免热在线观看6| 性欧美video| 欧美大香线蕉线伊人久久| 国内精品伊人久久久久| 精品国产影院| 爱豆剧果冻传媒在线播放| 亚洲AV久久无码精品蜜桃 | 中文字幕精品在线观看| 91欧美秘密入口| 一边啪啪的一边呻吟声口述| 摥管专用动态图399期| 肉动漫h黄动漫日本免费观看| 欧美久久无码AV麻豆| 六级黄色片| 凌馨baby| 女厕所边摸边吃奶边做爽视频| 美女被撕开胸罩狂揉大乳| 老人FREE VIODES老少配| 老年日本老年daddy|