色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

天池公益賽“新冠疫情相似句對判定大賽”NLP賽道top指南

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:Giant ? 2021-02-10 17:15 ? 次閱讀

2020年初,新冠疫情席卷全球。除了“待在家,不亂跑”,我想還能從哪為抗擊疫情出點微薄之力呢?

碰巧室友推送了一個天池公益賽“新冠疫情相似句對判定大賽”,秉持“重在參與”的心態參加了比賽。經過半個月的努力,最終結果勉強不錯(第6),收割了一臺Kindle。

2021年1月,疫情形勢依然嚴峻,幸運的是國家不僅及時穩住了疫情,還研發出了有效的疫苗。借助疫情主題的比賽,我希望幫助更多讀者,入門自然語言處理的基本任務——文本匹配。

開源代碼:

https://github.com/yechens/COVID-19-sentence-pair

01 數據分析

任務背景非常直觀,主辦方給定了“肺炎”、“支氣管炎”、“上呼吸道感染”等醫療背景下的用戶真實提問,要求選手通過算法識別任意2個問題,是否表達同一個意思。舉例:

問題1:“輕微感冒需不需要吃藥?”

問題2:“輕微感冒需要吃什么藥?”

問題1關心“是否得吃藥”,問題2關心“該吃什么藥”,側重點不同所以意思不同。

數據集樣本都是三元組(query1, query2, label)。為了降低難度,每一個問題的長度被控制在20字以內。

c331baa2-603d-11eb-8b86-12bb97331649.png

比賽的訓練集、驗證集分別包含8746、2001條三元組。我們從dev中隨機保留了800條樣本作為最終dev,其余均加入訓練。

數據增強

拿到數據簡單分析后,我發現數據集已經過清洗,竟然異常的干凈整齊(沒有雜亂的符號、不通順的句子),label分布幾乎也接近1:1。

再觀察數據,相同的query1總是按順序排列在一起,隨后跟著不同的query2。這種分布很容易想到一種數據增強策略:相似傳遞性。

c6750660-603d-11eb-8b86-12bb97331649.png

A <-> B 相似 and A <-> C 相似 => B <-> C 相似

最終我額外獲得了5000條高質量的數據,比賽準確率因此提升了0.5%。

實體替換

此外,我們也嘗試了訓練一個NER模型挖掘文本中的醫療實體,如“胸膜炎”、“肺氣腫”,再通過word2vec查找最接近的實體進行替換。

但這種方式并沒有提升最終結果。我覺得原因有2個:

1W條樣本規模偏小,NER模型識別誤差較大

詞向量沒有針對醫療場景訓練,包含的醫療實體很少

02匹配方法實現

文本匹配有非常多簡單又實用的方法,例如:

基于字符統計:字符串匹配、編輯距離、Jaccards距離

基于語言模型:word2vec/glove詞向量、BERT

基于神經網絡:孿生網絡、TextCNN、DSSM、FastText等

由于比賽需要盡可能獲得高分,這里主要介紹基于神經網絡和BERT的文本匹配算法。

BERT[1]是一種預訓練語言模型,通過海量文本、Transformer架構和MLM訓練任務在眾多NLP任務上取得了優異成果。對BERT不了解的讀者,可以參考我之前的文章“從BERT、XLNet到MPNet,細看NLP預訓練模型發展變遷史”[2]。

比賽中我們測試了5-6種不同的神經網絡方法,并最終選擇了3種在dev上表現最好的模型加權融合。具體可以參考文件。

文本CNN(TextCNN)

TextCNN是Yoon Kim[3]在2014年提出的用于句子分類的卷積神經網絡。文本匹配任務本質上可以理解成二分類任務(0:不相似,1:相似),所以一般的分類模型也能滿足匹配需求。

c738a11a-603d-11eb-8b86-12bb97331649.png

與圖像中的二維卷積不同,TextCNN采用的是一維卷積,每個卷積核的大小為(h為卷積核窗口,k為詞向量維度)。文中采用了不同尺寸的卷積核,來提取不同文本長度的特征。

然后,作者對于卷積核的輸出進行最大池化操作,只保留最重要的特征。各個卷積核輸出經MaxPooling后拼接形成一個新向量,最后輸出到全連接層分類器(Dropout + Linear + Softmax)實現分類。

我們知道,文本中的關鍵詞對于判斷2個句子是否相似有很大影響,而CNN局部卷積的特效能很好的捕捉這種關鍵特征。同時TextCNN還具有參數量小,訓練穩定等優點。

文本RNN(TextRCNN)

相比TextCNN,TextRCNN的模型結構看起來復雜一些。

c7774c80-603d-11eb-8b86-12bb97331649.png

簡單瀏覽論文后,會發現它的思路其實簡單,粗暴。

首先通過詞向量獲得字符編碼,隨后將其通過雙向RNN學習上下文特征,編碼得到兩個方向的特征。

再將詞向量和、拼接得到新向量,輸入經tanh函數激活的全連接網絡。最后,將網絡的輸出最大池化,并輸入另一個全連接分類器完成分類。

RNN模型對于長文本有較好的上下文“記憶”能力,更適合處理文本這種包含時間序列的信息

BERT+MLP(fine-tune)

最后一種方法,直接用語言模型BERT最后一層Transformer的輸出,接一層Dense實現文本匹配。

c8824ee0-603d-11eb-8b86-12bb97331649.png

實驗中我們發現,對最終輸出的每個token特征取平均(MeanPooling)效果好于直接使用首字符“[CLS]”的特征。

模型權重上,崔一鳴等人[5]發布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

c97a8a6a-603d-11eb-8b86-12bb97331649.png

最后,我們根據這三種模型在dev上的準確率設置了不同比重,通過自動搜索找到最優權重組合,在線上測試集取得了96.26%的準確率。

讀者可以在“NLP情報局”后臺回復“文本匹配”直接下載模型論文。

03漲分trick

做一個深度學習主導的算法比賽,除了分析數據與模型,一些trick也是獲得高分的重要因素。這里羅列了一些常用策略。

數據增強[6]

標簽平滑

自蒸餾

文本對抗訓練[7]

模型融合

特征篩選

使用多個學習率[8]

針對這次文本匹配任務,數據增強、標簽平滑、模型融合、多學習率都被證明是有效的。

04總結

過去將近1年的天池“新冠疫情相似句對判定大賽”,任務并不復雜,是入門NLP項目實戰,提升編程能力的很好鍛煉機會。

比賽雖然結束了,疫情猶在。大家一定要保護好自己哦!

[1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.?

[2] 從BERT、XLNet到MPNet,細看NLP預訓練模型發展變遷史: https://zhuanlan.zhihu.com/p/166013414

[3]Convolutional Neural Networks for Sentence Classification.

[4]Recurrent Convolutional Neural Networks for Text Classification.

[5] Chinese-BERT-wwm:https://github.com/ymcui/Chinese-BERT-wwm

[6]一文了解NLP中的數據增強方法:https://zhuanlan.zhihu.com/p/145521255

[7]【煉丹技巧】功守道:NLP中的對抗訓練 + PyTorch實現: https://zhuanlan.zhihu.com/p/91269728

[8]稱霸Kaggle的十大深度學習技巧:https://zhuanlan.zhihu.com/p/41379279

責任編輯:xj

原文標題:天池NLP賽道top指南

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13355
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22049

原文標題:天池NLP賽道top指南

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    昇騰AI創新大賽2024總決賽圓滿落幕

    12月19日,昇騰AI創新大賽2024全國總決賽在福建廈門成功舉辦。本屆賽事歷時8個月,吸引了全國25個賽區的開發者踴躍報名參賽。經過層層遴選,來自企業賽道和高校賽道的83支隊在總決
    的頭像 發表于 12-24 17:08 ?490次閱讀
    昇騰AI創新<b class='flag-5'>大賽</b>2024總決賽圓滿落幕

    芯華章持續助力EDA精英挑戰

    日前,2024中國研究生創“芯”大賽·EDA精英挑戰(以下簡稱EDA競賽)決賽在南京江北新區舉辦。今年EDA競賽首次升級為國,在全國超過500個參賽隊伍中,來自華南理工大學的"EDA240931參賽隊"從芯華章
    的頭像 發表于 12-17 15:47 ?262次閱讀

    CET中電技術獲第二屆能源電子產業創新大賽重點終端應用專題三等獎

    12月6日,由工業和信息化部產業發展促進中心和杭州市發展和改革委員會聯合主辦的第二屆能源電子產業創新大賽重點終端應用賽道專題在杭州閉幕,CET中電技術的建筑光儲直柔解決方案及其項目應用獲智能微電網
    的頭像 發表于 12-11 01:06 ?371次閱讀
    CET中電技術獲第二屆能源電子產業創新<b class='flag-5'>大賽</b>重點終端應用專題<b class='flag-5'>賽</b>三等獎

    CET中電技術獲2024年“數據要素×”大賽寧夏分水利應用賽道三等獎

    2024年“數據要素x”大賽寧夏分水利應用賽道三等獎。2024年“數據要素×”大賽寧夏分由國家數據局、寧夏回族自治區人民政府指導,寧夏回
    的頭像 發表于 11-08 01:07 ?417次閱讀
    CET中電技術獲2024年“數據要素×”<b class='flag-5'>大賽</b>寧夏分<b class='flag-5'>賽</b>水利應用<b class='flag-5'>賽道</b>三等獎

    CCF開源創新大賽決賽結果發布!OpenHarmony應用開發賽道盡展風采

    經過數月的激烈比拼與項目展示,第七屆CCF開源創新大賽決賽結果揭榜!其中,深開鴻的“OpenHarmony應用開發-開源項目貢獻賽道星光熠熠,表現突出。在此,發布頒獎典禮通知,讓我們共同見證開源
    的頭像 發表于 11-07 08:07 ?270次閱讀
    CCF開源創新<b class='flag-5'>大賽</b>決賽結果發布!OpenHarmony應用開發<b class='flag-5'>賽道</b>盡展風采

    50萬獎金池!開放原子大賽——第二屆OpenHarmony創新應用挑戰正式啟動

    第二屆OpenHarmony創新應用挑戰作為開放原子大賽旗下的重要項,聚焦 OpenHarmony應用開發,致力提升開發者的動手實踐能力與開發創新應用的能力。 項要求開發者
    發表于 10-24 15:40

    工信部第二屆能源電子產業創新大賽正式啟動,御芯微承辦“WIoTa能源物聯網應用”專題

    【江蘇溧陽】2024年9月26日,由工業和信息化部產業發展促進中心主辦的第二屆能源電子產業創新大賽暨第三屆先進儲能技術創新挑戰啟動會在江蘇溧陽隆重召開,會上針對本次大賽的賽事目標、賽道
    的頭像 發表于 09-28 08:04 ?641次閱讀
    工信部第二屆能源電子產業創新<b class='flag-5'>大賽</b>正式啟動,御芯微承辦“WIoTa能源物聯網應用”專題<b class='flag-5'>賽</b>

    上海智位機器人榮獲2024全球數字貿易創新大賽機器人與人工智能賽道銅獎

    9月25日,為期4天的2024全球數字貿易創新大賽(以下簡稱“數貿大賽”)在浙江杭州拉開帷幕。在首日舉行的“機器人與人工智能”賽道決賽中,上海智位機器人股份有限公司榮膺銅獎。頒獎儀式在當晚舉辦
    的頭像 發表于 09-27 09:22 ?283次閱讀

    10萬獎金池!CCF開源創新大賽-OpenHarmony應用開發大賽,等你來戰!

    生態建設的高質量發展。深開鴻發布“OpenHarmony應用開發-開源項目貢獻賽道,旨在通過開發開源鴻蒙北向應用、擴展開源鴻蒙開發工具鏈的方式,讓更多的開發者更低
    的頭像 發表于 07-17 08:33 ?702次閱讀
    10萬獎金池!CCF開源創新<b class='flag-5'>大賽</b>-OpenHarmony應用開發<b class='flag-5'>大賽</b>,等你來戰!

    RT-Thread 3個命題入選中國國際大學生創新大賽(2024)產業命題賽道

    6月28日,中國國際大學生創新大賽組織委員會發布《關于公布中國國際大學生創新大賽(2024)產業命題賽道入選命題的通知》,上海睿德電子科技有限公司共申報3項新工科類命題,全部成功入圍
    的頭像 發表于 07-03 08:35 ?415次閱讀
    RT-Thread 3個命題入選中國國際大學生創新<b class='flag-5'>大賽</b>(2024)產業命題<b class='flag-5'>賽道</b>

    TPU編程競賽系列|2024中國國際大學生創新大賽產業命題賽道,算能11項命題入選!

    開發板以供參賽者使用和選擇,我們誠摯邀請廣大開發者前來挑戰!算能命題2024中國國際大學生創新大賽產業命題賽道——算能命題序號題名稱1695基于國產TPU處理器的多
    的頭像 發表于 07-02 08:34 ?508次閱讀
    TPU編程競賽系列|2024中國國際大學生創新<b class='flag-5'>大賽</b>產業命題<b class='flag-5'>賽道</b>,算能11項命題入選!

    5月31日報名截止!開源鴻蒙原生應用設計大賽等你來戰!

    近日,第八屆全國大學生網絡與信息技術大賽(以下簡稱“大賽”)正式啟動,其中開源鴻蒙原生應用大賽賽道是由深開鴻與大賽組委會首次設置的
    的頭像 發表于 05-28 08:33 ?746次閱讀
    5月31日報名截止!開源鴻蒙原生應用設計<b class='flag-5'>大賽</b>等你來戰!

    開放原子開源大賽—基于OpenHarmony的團結引擎應用開發正式啟動!

    “基于OpenHarmony的團結引擎應用開發”是開放原子全球開源大賽下開設的新興及應用題之一,本次題旨在鼓勵更多開發者基于Ope
    發表于 03-13 10:45

    觸景無限榮獲英特爾邊緣挑戰全球Top10,致力發展工業新生產力

    近日,觸景無限科技憑借卓越的技術實力和創新的解決方案:《電廠熱力管道監測》(OCR賽道)與《尾礦庫風險監測》(缺陷檢測賽道),在2023英特爾邊緣解決方案挑戰中喜獲殊榮,成功入選全球Top
    的頭像 發表于 02-25 15:24 ?1066次閱讀

    全國大學生計算機系統能力大賽操作系統設計-LoongArch 賽道廣東龍芯2K1000LA 平臺資料分享

    ,可以參考龍芯開源社區,龍芯中科公司官網,龍芯在github的官方賬號以及龍芯實驗室為大賽設置的文檔倉庫 內核賽道選用的2K1000開發板參考資料 開發板資料包 提取碼:1111 。其中包括但不
    發表于 02-04 15:37
    主站蜘蛛池模板: 午夜在线播放免费人成无| 99视频精品国产在线视频| 国产精品久久久久久久伊一| 少妇无码太爽了视频在线播放 | 青柠视频在线观看高清HD| 被老总按在办公桌吸奶头| 色多多旧版污污破解版| 精品国产在线国语视频| 999精品免费视频| 色爱区综合小说| 久久re视频这里精品09首页| yellow日本动漫高清| 亚洲精品久久久午夜福利电影网| 理论片午午伦夜理片影院| 俄罗斯人与动ZOZ0| 在线看无码的免费网站| 色橹橹欧美在线观看视频高| 久久99这里只有精品| 东北成人社区| 最新国产成人综合在线观看| 特黄特黄aaaa级毛片免费看| 浪潮色诱AV久久久久久久| 国产精品99久久久久久AV下载| 伊人影院蕉久| 私密按摩师在线观看 百度网盘 | 国产一区二区精品视频| 99久久国产宗和精品1上映| 午夜国产一区在线观看| 妺妺窝人体色WWW偷窥女厕| 国产久青青青青在线观看| 99久久久国产精品免费调教| 亚洲乱亚洲乱妇13p| 强姧伦久久久久久久久| 久久re视频这里精品一本到99| 港台三级大全| 99热久久视频只有精品6国产| 亚洲精品成人a| 少妇被阴内射XXXB少妇BB| 男生J桶进女人P又色又爽又黄| 狠狠射首页| 国产精品久久久久久熟妇吹潮软件|