色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一些中文NLP領域,構建語料的經驗和技巧

lviY_AI_shequ ? 來源:數據科學雜談 ? 2020-05-12 09:57 ? 次閱讀

記得寫畢業論文那會兒,經常為語料發愁。由于大多數 NLP 問題都是有監督問題,很多時候我們往往缺的不是算法,而是標注好的語料。這在中文語料上更是明顯。今天就和大家分享一些中文 NLP 領域,構建語料的經驗和技巧,雖然未必看了此文就能徹底解決語料的問題,但是或多或少會有些啟發。

首先分享幾個常見的語料獲取渠道

國內外NLP領域的會議評測數據

相關研究機構、實驗室、論文公開的數據集

國內外數據科學競賽平臺,kaggle,天池,科賽,CCF等

互聯網企業自己舉辦的比賽,如百度,搜狐,知乎,騰訊這些企業都是土豪,通常會花費巨額的資金標注語料

Github 很多模型里面會自帶部分語料

雖然通過這些途徑,能夠搜集到不少的NLP語料,但這些“現成”的語料往往與我們需要解決的 NLP 問題不太一致,因此我們還得想辦法去變一些語料出來。

通過API或開源模型標注語料

比如我們需要訓練一個命名實體識別模型,就可以借助 bosonnlp 或者 hanlp、foolnltk 上去標注一些語料。這些API和模型有的時候只提供了模型的預測結果,沒有提供訓練的語料,但是我們可以拿這些別人訓練好的模型去構造語料。

知識蒸餾

我們可以將別人訓練的模型看做是Teacher, 然后用API標注的語料自己訓練的模型看做是Student, 雖然結果不能達到和原來模型一致的效果,但是也不至于差太多,這種方式在初期能夠幫助我們快速的推進項目,看到項目的效果后,后期再想辦法優化迭代

通過搜索引擎收集標注數據

假設我們需要做一個NER模型,其中一類實體是人名,可能我們想到的是從網上下載一批新聞,然后標出其中的人名,但是,這樣做有一個問題,一篇幾千字的新聞往往只有幾個人名,而我們只需要出現了人名的那部分句子,并不需要其他部分。如果直接在整篇文本上標注效率十分低。其實,我們可以轉換一下思路,找一份中文人名詞庫,然后放到百度中搜索,百度摘要返回的大部分結果基本是我們想要的語料,通過爬蟲把摘要爬下來,自己再過濾下就好啦。這樣的做法相當于,借助于一些過濾和排序算法,幫助我們快速找到待標注的語料。

二次加工已有語料

有的時候,一些語料和我們的需要解決的任務相似,但又完全不一樣,這時候我們可以嘗試利用其他任務的語料來構建出想要的語料。就拿百度2019信息抽取比賽來說吧,該比賽的任務是從

"text": "《逐風行》是百度文學旗下縱橫中文網簽約作家清水秋風創作的一部東方玄幻小說,小說已于2014-04-28正式發布"

這樣的句子中抽出實體和關系三元組

"spo_list": [{"predicate": "連載網站", "object_type": "網站", "subject_type": "網絡小說", "object": "縱橫中文網", "subject": "逐風行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風", "subject": "逐風行"}]screenshot-lic2019-ccf-org-cn-kg-1574584084691

百度總共提供了大概17萬的標注數據,而且數據標注質量頗高。訓練數據被標注為以下格式:

{"text": "《逐風行》是百度文學旗下縱橫中文網簽約作家清水秋風創作的一部東方玄幻小說,小說已于2014-04-28正式發布", "spo_list": [{"predicate": "連載網站", "object_type": "網站", "subject_type": "網絡小說", "object": "縱橫中文網", "subject": "逐風行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風", "subject": "逐風行"}]

由該數據我們可以構造什么數據呢?

命名實體識別語料

由于語料中的每個實體都標注了實體類別,所以可以通過實體類別,構造出命名實體識別任務的語料,這17萬數據集,提供了國家、城市、影視作品、人物、地點、企業、圖書等10幾個類別的實體,這些語料加上人名日報、msra、bosonnlp 公開的NER語料,我們就可以擴充一個更大的NER語料集;

開放關系抽取語料

雖然該數據集是面向封閉域關系抽取的數據集,其實改造一下,也能用于句子級別的開放域關系抽取任務中,比如我們可以構建一個基于序列標注的關系和實體聯合抽取模型,簡單的說就是給定(S,P,O)三元組和text,從中抽取一個代表關系的動賓短語或名詞性短語來。比如從《逐風行》是百度文學旗下縱橫中文網簽約作家清水秋風創作的一部東方玄幻小說,小說已于2014-04-28正式發這句話抽取(清水秋風,創作,《逐風行》)這樣的關系三元組。當然,要改造成適合開放關系抽取的語料,還有一些工作需要做。比如原來語料中的S和O是我們要抽取的內容,而P卻不是,因此,我們可能需要進行二次標注或者再構建一個模型去預測出P。

很多公開的語料都可以采用類似的做法,這里就拋磚引玉一下,不一一介紹了。

標注工具

工欲善其事,必先利其器 ,標注工具能夠大大提高標注效率,標注工具通過提供方便的快捷鍵和交互方式,讓我們在相同時間,標注更多的數據。同時,還可以在標注工具中嵌入一些AI輔助標注的能力,實現機器自動標注,而我們只需要修改和刪除小部分的錯誤標注樣本,進一步提高效率。

主動學習標注

機器學習任務中,由于數據標注代價高昂,如果能夠從任務出發,通過對任務的理解來制定標準,挑選最重要的樣本,使其最有助于模型的學習過程,將大大減少標注的成本, 主動學習就是解決這個問題的。關于主動學習背后的理論細節,感興趣可以自行谷歌,這里舉一個通俗易懂的例子簡要解釋一下。

可以

還記得支持向量機中的“支持向量”嗎?當我們在分類的時候,并不是所有的點對于分割線的位置都是起決定性作用的。在離超平面特別遠的區域,哪怕你增加10000個樣本點,對于分割線的位置,也是沒有作用的,因為分割線是由幾個關鍵點決定的(圖上三個),這幾個關鍵點支撐起了一個分割超平面,所以這些關鍵點,就是支持向量。借鑒大數據標注任務上,如果能夠準確的標出那些“重要”的樣本,就有可能實現“事半功倍”的效果。

隨機標注的結果可能是上圖中的b, 準確率大約為70%。而右圖就是主動學習方法找到的標注點,因為這些點幾乎構成了完美分界線的邊界,所以使用與中圖同樣的樣本數,但它能夠取得90%左右的準確率!

弱監督的數據標注

監督學習就是我們有一批高置信的標注數據,通過model來擬合效果。弱監督學習,就是我們很難獲取足夠量的高置信的標注數據,所以弱監督學習就是來解決這個問題。

這里為大家介紹一個斯坦福的研究者開源的弱監督學習通用框架 Snorkel ,由這種方法生成的標簽可用于訓練任意模型。已經有人將Snorkel用于處理圖像數據、自然語言監督、處理半結構化數據、自動生成訓練集等具體用途。

Snorkel 集成了多種知識來源作為弱監督,我們只需要在基于MapReduce模板的pipeline中編寫標記函數,每個標記函數都接受一個數據點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。在編寫標記函數的時候,我們可以利用一切可以利用知識來標記我們的數據,這些知識可能包括,人工規則、知識圖譜、已有的模型、統計信息、網頁等。

如上圖所示,假設我們在做NER任務,需要標注人名,可以用來構建標記函數的知識有:

文本是否在人名詞庫中

jieba、hanlp等NLP工具包給出的pos tag

文本是否是知識圖譜中的人物實體

基于以上知識,我們就可以寫出多個標記函數了。當然,通過 Snorkel 標注的數據是有噪聲的,甚至很多標記函數給出的結果互相沖突。這些我們完全不用擔心,因為Snorkel已經提供了解決這些問題的方法。

拿出項目的效果,向公司申請資源

最后的最后,我們可以想好算法的落地場景和價值,講好故事,向公司和老板的爭取資源!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8424

    瀏覽量

    132761
  • GitHub
    +關注

    關注

    3

    文章

    472

    瀏覽量

    16476
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22052

原文標題:一文詳解NLP語料構建技巧

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一些常見的動態電路

    無論是模電還是數電,理論知識相對來說還是比較枯燥,各種電路原理理解清楚不算容易,換種生動形象的方式或許會增加一些趣味性,也更容易理解這些知識。下面整理了一些常見的電路,以動態圖形的方式展示。 整流
    的頭像 發表于 11-16 09:26 ?399次閱讀
    <b class='flag-5'>一些</b>常見的動態電路

    分享一些常見的電路

    理解模電和數電的電路原理對于初學者來說可能比較困難,但通過一些生動的教學方法和資源,可以有效地提高學習興趣和理解能力。 下面整理了一些常見的電路,以動態圖形的方式展示。 整流電路 單相橋式整流
    的頭像 發表于 11-13 09:28 ?333次閱讀
    分享<b class='flag-5'>一些</b>常見的電路

    LED驅動器應用的一些指南和技巧

    電子發燒友網站提供《LED驅動器應用的一些指南和技巧.pdf》資料免費下載
    發表于 09-25 11:35 ?0次下載
    LED驅動器應用的<b class='flag-5'>一些</b>指南和技巧

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?798次閱讀

    nlp自然語言處理框架有哪些

    許多優秀的框架和工具,這些框架和工具為研究人員和開發者提供了強大的支持。以下是一些主要的NLP框架和工具的介紹: NLTK(Natural Language Toolkit) NLTK是Python編程
    的頭像 發表于 07-09 10:28 ?582次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多
    的頭像 發表于 07-09 10:26 ?1191次閱讀

    如何為ESP8266構建自定義盾牌?

    我正在尋找某種如何為ESP8266構建自定義盾牌的指南。 到目前為止,我已經使用 NODEMCU 構建了功能原型,但我現在想簡化事情并使其更小。 1. 是否有一些書面的、開放的硬件指南 (很好
    發表于 07-08 07:17

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP
    的頭像 發表于 07-05 09:59 ?661次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP
    的頭像 發表于 07-05 09:57 ?772次閱讀

    nlp自然語言處理的應用有哪些

    的應用。以下是一些NLP的主要應用領域,以及它們在各個領域的具體應用。 機器翻譯 機器翻譯是NLP
    的頭像 發表于 07-05 09:55 ?2680次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度學習簡介 深度學習是種基于人工神經網絡的
    的頭像 發表于 07-05 09:47 ?972次閱讀

    NLP技術在人工智能領域的重要性

    智能的橋梁,其重要性日益凸顯。本文將從NLP的定義、發展歷程、核心技術、應用領域以及對人工智能領域的深遠影響等多個維度,深入探討NLP技術在人工智能
    的頭像 發表于 07-04 16:03 ?571次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。
    的頭像 發表于 07-02 18:16 ?1216次閱讀

    細談SolidWorks教育版的一些基礎知識

    SolidWorks教育版是款廣泛應用于工程設計和教育領域的三維建模軟件。它具備直觀易用的操作界面和強大的設計功能,為學生提供了個學習和實踐的平臺。在本文中,我們將詳細探討SolidWorks教育版的
    的頭像 發表于 04-01 14:35 ?352次閱讀

    關于智能門禁設備做CCC認證申請的一些經驗分享

    CCC認證申請的一些經驗分享。1.了解CCC認證要求:首先,您需要詳細了解CCC認證的規定和要求,包括適用標準、測試項目、申請流程等內容。CCC認證涉及到產品的安
    的頭像 發表于 03-07 17:10 ?550次閱讀
    關于智能門禁設備做CCC認證申請的<b class='flag-5'>一些</b><b class='flag-5'>經驗</b>分享
    主站蜘蛛池模板: 亚洲精品免播放器在线观看| 国产AV一区二区三区传媒| 国产亚洲精品久久久999无毒| 四虎精品久久| 极品虎白在线观看| 中国bdsmchinesehd| 免费在线视频一区| 俄罗斯搜索引擎Yandex推广入口| 午夜在线观看免费观看 视频| 午夜AV内射一区二区三区红桃视| 国产久久re6免费热在线| 一个人免费视频在线观看高清版| 国产精品资源在线观看网站| 野花韩国视频中文播放| 麻豆成人久久精品二区三区网站| 夜夜艹日日干| 暖暖 日本 视频 在线观看免费| 各种场合肉H校园1V1| 亚洲日韩国产精品乱-久| 欧美18videosex性欧美老师| 在线亚洲色拍偷拍在线视频| 求个av网站| 精品午夜久久福利大片免费| jizz丝袜| 亚洲这里只有精品| 久久怡红院国产精品| 不卡人妻无码AV中文系列APP| 青草影院内射中出高潮-百度| 99国产强伦姧在线看RAPE| 乌克兰美女x?x?y?y| 久久综合丁香激情久久| 国产精品爽爽久久久久久无码 | 亚洲AV久久无码精品九号| 欧美多人群p刺激交换电影| 国内偷拍夫妻av| 印度12 13free| 四虎影视永久无码精品| 免费精品一区二区三区AA片| 国精产品一区一区三区有| 草莓视频在线免费观看| 中文字幕A片视频一区二区|