資源整理了文本分類、實(shí)體識(shí)別&詞性標(biāo)注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預(yù)訓(xùn)練詞向量or模型、中文完形填空等大量數(shù)據(jù)集,中文數(shù)據(jù)集平臺(tái)和NLP工具等。
本文內(nèi)容整理自:https://github.com/InsaneLife/ChineseNLPCorpus
文本分類
新聞分類
今日頭條中文新聞(短文本)分類數(shù)據(jù)集:https://github.com/fateleak/toutiao-text-classfication-dataset
數(shù)據(jù)規(guī)模:共38萬條,分布于15個(gè)分類中。
采集時(shí)間:2018年05月。
以0.7 0.15 0.15做分割 。
清華新聞分類語(yǔ)料:
根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成。
數(shù)據(jù)量:74萬篇新聞文檔(2.19 GB)
小數(shù)據(jù)實(shí)驗(yàn)可以篩選類別:體育, 財(cái)經(jīng), 房產(chǎn), 家居, 教育, 科技, 時(shí)尚, 時(shí)政, 游戲, 娛樂
http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
rnn和cnn實(shí)驗(yàn):https://github.com/gaussic/text-classification-cnn-rnn
中科大新聞分類語(yǔ)料庫(kù):http://www.nlpir.org/?action-viewnews-itemid-145
情感/觀點(diǎn)/評(píng)論 傾向性分析
實(shí)體識(shí)別&詞性標(biāo)注
微博實(shí)體識(shí)別
https://github.com/hltcoe/golden-horse
boson數(shù)據(jù)
包含6種實(shí)體類型。
https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
人民日?qǐng)?bào)數(shù)據(jù)集
人名、地名、組織名三種實(shí)體類型
1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
MSRA微軟亞洲研究院數(shù)據(jù)集
5 萬多條中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)(包括地點(diǎn)、機(jī)構(gòu)、人物)
https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
SIGHAN Bakeoff 2005:一共有四個(gè)數(shù)據(jù)集,包含繁體中文和簡(jiǎn)體中文,下面是簡(jiǎn)體中文分詞數(shù)據(jù)。
MSR: http://sighan.cs.uchicago.edu/bakeoff2005/
PKU :http://sighan.cs.uchicago.edu/bakeoff2005/
搜索匹配
OPPO手機(jī)搜索排序
OPPO手機(jī)搜索排序query-title語(yǔ)義匹配數(shù)據(jù)集。
鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n
網(wǎng)頁(yè)搜索結(jié)果評(píng)價(jià)(SogouE)
用戶查詢及相關(guān)URL列表
https://www.sogou.com/labs/resource/e.php
推薦系統(tǒng)
百科數(shù)據(jù)
維基百科
維基百科會(huì)定時(shí)將語(yǔ)料庫(kù)打包發(fā)布:
數(shù)據(jù)處理博客
https://dumps.wikimedia.org/zhwiki/
百度百科
只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。
指代消歧
CoNLL 2012 :http://conll.cemantix.org/2012/data.html
預(yù)訓(xùn)練:(詞向量or模型)
BERT
開源代碼:https://github.com/google-research/bert
模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
ELMO
開源代碼:https://github.com/allenai/bilm-tf
預(yù)訓(xùn)練的模型:https://allennlp.org/elmo
騰訊詞向量
騰訊AI實(shí)驗(yàn)室公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。
下載地址:https://ai.tencent.com/ailab/nlp/embedding.html
上百種預(yù)訓(xùn)練中文詞向量
https://github.com/Embedding/Chinese-Word-Vectors
中文完形填空數(shù)據(jù)集
https://github.com/ymcui/Chinese-RC-Dataset
中華古詩(shī)詞數(shù)據(jù)庫(kù)
最全中華古詩(shī)詞數(shù)據(jù)集,唐宋兩朝近一萬四千古詩(shī)人, 接近5.5萬首唐詩(shī)加26萬宋詩(shī). 兩宋時(shí)期1564位詞人,21050首詞。
https://github.com/chinese-poetry/chinese-poetry
保險(xiǎn)行業(yè)語(yǔ)料庫(kù)
https://github.com/Samurais/insuranceqa-corpus-zh
漢語(yǔ)拆字字典
英文可以做char embedding,中文不妨可以試試拆字
https://github.com/kfcd/chaizi
中文數(shù)據(jù)集平臺(tái)
搜狗實(shí)驗(yàn)室
搜狗實(shí)驗(yàn)室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集,時(shí)間比較早,多為2012年以前的數(shù)據(jù)。
https://www.sogou.com/labs/resource/list_pingce.php
中科大自然語(yǔ)言處理與信息檢索共享平臺(tái)
http://www.nlpir.org/?action-category-catid-28
中文語(yǔ)料小數(shù)據(jù)
包含了中文命名實(shí)體識(shí)別、中文關(guān)系識(shí)別、中文閱讀理解等一些小量數(shù)據(jù)。
https://github.com/crownpku/Small-Chinese-Corpus
維基百科數(shù)據(jù)集
https://dumps.wikimedia.org/
NLP工具
THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標(biāo)注功能。
HanLP:https://github.com/hankcs/HanLP
哈工大LTP:https://github.com/HIT-SCIR/ltp
NLPIR:https://github.com/NLPIR-team/NLPIR
jieba分詞:https://github.com/yanyiwu/cppjieba
責(zé)任編輯:xj
原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7074瀏覽量
89150 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13579 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13359 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22052
原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論