色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

入門自然語言處理的基本任務——文本匹配

深度學習自然語言處理 ? 來源:NLP情報局 ? 作者:Giant ? 2021-05-31 11:51 ? 次閱讀

2020年初,新冠疫情席卷全球。除了“待在家,不亂跑”,我想還能從哪為抗擊疫情出點微薄之力呢?

碰巧室友推送了一個天池公益賽“新冠疫情相似句對判定大賽”,秉持“重在參與”的心態參加了比賽。經過半個月的努力,最終結果勉強不錯(第6),收割了一臺Kindle。

2021年1月,疫情形勢依然嚴峻,幸運的是國家不僅及時穩住了疫情,還研發出了有效的疫苗。借助疫情主題的比賽,我希望幫助更多讀者,入門自然語言處理的基本任務——文本匹配。

開源代碼:

https://github.com/yechens/COVID-19-sentence-pair

01 數據分析任務背景非常直觀,主辦方給定了“肺炎”、“支氣管炎”、“上呼吸道感染”等醫療背景下的用戶真實提問,要求選手通過算法識別任意2個問題,是否表達同一個意思。舉例:

問題1:“輕微感冒需不需要吃藥?”

問題2:“輕微感冒需要吃什么藥?”

問題1關心“是否得吃藥”,問題2關心“該吃什么藥”,側重點不同所以意思不同。

數據集樣本都是三元組(query1, query2, label)。為了降低難度,每一個問題的長度被控制在20字以內。

比賽的訓練集、驗證集分別包含8746、2001條三元組。我們從dev中隨機保留了800條樣本作為最終dev,其余均加入訓練。

數據增強拿到數據簡單分析后,我發現數據集已經過清洗,竟然異常的干凈整齊(沒有雜亂的符號、不通順的句子),label分布幾乎也接近1:1。

再觀察數據,相同的query1總是按順序排列在一起,隨后跟著不同的query2。這種分布很容易想到一種數據增強策略:相似傳遞性。

A 《-》 B 相似 and A 《-》 C 相似 =》 B 《-》 C 相似

最終我額外獲得了5000條高質量的數據,比賽準確率因此提升了0.5%。

實體替換此外,我們也嘗試了訓練一個NER模型挖掘文本中的醫療實體,如“胸膜炎”、“肺氣腫”,再通過word2vec查找最接近的實體進行替換。

但這種方式并沒有提升最終結果。我覺得原因有2個:

1W條樣本規模偏小,NER模型識別誤差較大

詞向量沒有針對醫療場景訓練,包含的醫療實體很少

02 匹配方法實現文本匹配有非常多簡單又實用的方法,例如:

基于字符統計:字符串匹配、編輯距離、Jaccards距離

基于語言模型:word2vec/glove詞向量、BERT

基于神經網絡:孿生網絡、TextCNN、DSSM、FastText等

由于比賽需要盡可能獲得高分,這里主要介紹基于神經網絡和BERT的文本匹配算法。

BERT[1]是一種預訓練語言模型,通過海量文本、Transformer架構和MLM訓練任務在眾多NLP任務上取得了優異成果。對BERT不了解的讀者,可以參考我之前的文章“從BERT、XLNet到MPNet,細看NLP預訓練模型發展變遷史”[2]。

比賽中我們測試了5-6種不同的神經網絡方法,并最終選擇了3種在dev上表現最好的模型加權融合。具體可以參考 文件。

文本CNN(TextCNN)TextCNN是Yoon Kim[3]在2014年提出的用于句子分類的卷積神經網絡。文本匹配任務本質上可以理解成二分類任務(0:不相似,1:相似),所以一般的分類模型也能滿足匹配需求。

與圖像中的二維卷積不同,TextCNN采用的是一維卷積,每個卷積核的大小為 (h為卷積核窗口,k為詞向量維度)。文中采用了不同尺寸的卷積核,來提取不同文本長度的特征。

然后,作者對于卷積核的輸出進行最大池化操作,只保留最重要的特征。各個卷積核輸出經MaxPooling后拼接形成一個新向量,最后輸出到全連接層分類器(Dropout + Linear + Softmax)實現分類。

我們知道,文本中的關鍵詞對于判斷2個句子是否相似有很大影響,而CNN局部卷積的特效能很好的捕捉這種關鍵特征。同時TextCNN還具有參數量小,訓練穩定等優點。

文本RNN(TextRCNN)相比TextCNN,TextRCNN的模型結構看起來復雜一些。

簡單瀏覽論文后,會發現它的思路其實簡單,粗暴。

首先通過詞向量獲得字符編碼 ,隨后將其通過雙向RNN學習上下文特征,編碼得到兩個方向的特征。

再將詞向量 和 、 拼接得到新向量,輸入經tanh函數激活的全連接網絡。最后,將網絡的輸出最大池化,并輸入另一個全連接分類器完成分類。

RNN模型對于長文本有較好的上下文“記憶”能力,更適合處理文本這種包含時間序列的信息

BERT+MLP(fine-tune)最后一種方法,直接用語言模型BERT最后一層Transformer的輸出,接一層Dense實現文本匹配。

實驗中我們發現,對最終輸出的每個token特征取平均(MeanPooling)效果好于直接使用首字符“[CLS]”的特征。

模型權重上,崔一鳴等人[5]發布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

最后,我們根據這三種模型在dev上的準確率設置了不同比重,通過自動搜索找到最優權重組合,在線上測試集取得了96.26%的準確率。

讀者可以在“NLP情報局”后臺回復“文本匹配”直接下載模型論文。

03 漲分trick做一個深度學習主導的算法比賽,除了分析數據與模型,一些trick也是獲得高分的重要因素。這里羅列了一些常用策略。

數據增強[6]

標簽平滑

自蒸餾

文本對抗訓練[7]

模型融合

特征篩選

使用多個學習率[8]

針對這次文本匹配任務,數據增強、標簽平滑、模型融合、多學習率都被證明是有效的。

04 總結過去將近1年的天池“新冠疫情相似句對判定大賽”,任務并不復雜,是入門NLP項目實戰,提升編程能力的很好鍛煉機會。

比賽雖然結束了,疫情猶在。大家一定要保護好自己哦!

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100718
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22033

原文標題:天池NLP賽道top指南

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是一些具體的優化策略: 一、數據預
    的頭像 發表于 12-05 15:30 ?334次閱讀

    如何使用自然語言處理分析文本數據

    使用自然語言處理(NLP)分析文本數據是一個復雜但系統的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本數據: 1. 數據收集 收集
    的頭像 發表于 12-05 15:27 ?256次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大量文本數據中提取模式和知識,從而提高NLP系
    的頭像 發表于 12-05 15:21 ?452次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類
    的頭像 發表于 11-26 09:21 ?329次閱讀

    ASR與自然語言處理的結合

    。以下是對ASR與自然語言處理結合的分析: 一、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本。 NLP(
    的頭像 發表于 11-18 15:19 ?393次閱讀

    使用LSTM神經網絡處理自然語言處理任務

    自然語言處理(NLP)是人工智能領域的一個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,特別是循環神經網絡(RNN)及其變體——長短期記憶(LSTM)網絡的出現
    的頭像 發表于 11-13 09:56 ?372次閱讀

    使用LLM進行自然語言處理的優缺點

    語言任務,如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優缺點: 優點 強大的語言理解能力 : LLM通過訓練學習了大量的語言
    的頭像 發表于 11-08 09:27 ?417次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類
    的頭像 發表于 07-09 10:26 ?1061次閱讀

    自然語言處理技術有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言自然語言
    的頭像 發表于 07-03 14:30 ?1098次閱讀

    自然語言處理模式的優點

    得到了廣泛的應用,如搜索引擎、語音助手、機器翻譯、情感分析等。 1. 提高信息獲取效率 自然語言處理技術能夠快速地從大量文本數據中提取關鍵信息,幫助用戶節省查找和篩選信息的時間。例如,搜索引擎通過NLP技術理解用戶的查詢意圖,提
    的頭像 發表于 07-03 14:24 ?756次閱讀

    自然語言處理技術的核心是什么

    ,廣泛應用于機器翻譯、情感分析、語音識別、智能問答、文本摘要等眾多領域。 自然語言處理技術的發展可以追溯到20世紀50年代。1950年,圖靈提出了著名的圖靈測試,標志著自然語言
    的頭像 發表于 07-03 14:20 ?711次閱讀

    自然語言處理是什么技術的一種應用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它涉及到使用計算機技術來處理、分析和生成
    的頭像 發表于 07-03 14:18 ?812次閱讀

    自然語言處理包括哪些內容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標是讓計算機能夠理解、生成和處理
    的頭像 發表于 07-03 14:15 ?821次閱讀

    什么是自然語言處理 (NLP)

    理解和處理自然語言文本,從而實現人機交互的流暢和自然。NLP不僅關注理論框架的建立,還側重于實際技術的開發和應用,廣泛應用于法律、醫療、教育、安全、工業、金融等多個領域。
    的頭像 發表于 07-02 18:16 ?1153次閱讀

    2023年科技圈熱詞“大語言模型”,與自然語言處理有何關系

    電子發燒友網報道(文/李彎彎)大語言模型(LLM)是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,
    的頭像 發表于 01-02 09:28 ?2921次閱讀
    主站蜘蛛池模板: 久久无码AV亚洲精品色午夜| 伊人久99久女女视频精品免| 青青精品视频国产| 美女被免费喷白浆视频| 久草在线福利视频在线播放| 国产免费阿v精品视频网址| 国产AV精品久久久免费看| 大胸美女被cao哭| 风流少妇BBWBBW69视频| 凤楼app| 东北疯狂xxxxbbbb中国| 东北成人社区| 国产精品免费观看视频播放| 国产电影尺度| 国产婷婷综合在线视频中文| 国产欧美精品一区二区色综合| 国产精品亚洲第一区二区三区| 高清午夜福利电影在线| 国产精品久久久久精品A片软件| 国产精品久久久久久久久无码 | 囚禁固定在调教椅上扩张H| 欧美ⅹxxxx18性欧美| 欧美又粗又大AAAA片| 色情在线avav| 无限好资源免费观看| 亚洲第一色网站| 夜夜女人国产香蕉久久精品| 中文字幕在线观看亚洲视频| 97色伦图片97色伦图影院久久| aaaaaaa一级毛片| 大陆老太交xxxxxhd在线| 国产精彩视频在线| 国内精品久久久久久久999下| 九九九九九热| 欧美A级肉欲大片XXX| 日日摸夜添夜夜夜添高潮| 亚洲 日韩 自拍 视频一区| 一本到高清视频在线观看三区| 18禁黄无遮挡禁游戏在线下载| www.色小姐| 国产美熟女乱又伦AV|