資料介紹
軟件簡介
中文詞法分析(LAC)
中文分詞(Word Segmentation)是將連續(xù)的自然語言文本,切分出具有語義合理性和完整性的詞匯序列的過程。因為在漢語中,詞是承擔(dān)語義的最基本單位,切詞是文本分類、情感分析、信息檢索等眾多自然語言處理任務(wù)的基礎(chǔ)。 詞性標(biāo)注(Part-of-speech Tagging)是為自然語言文本中的每一個詞匯賦予一個詞性的過程,這里的詞性包括名詞、動詞、形容詞、副詞等等。 命名實體識別(Named Entity Recognition,NER)又稱作“專名識別”,是指識別自然語言文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。 我們將這三個任務(wù)統(tǒng)一成一個聯(lián)合任務(wù),稱為詞法分析任務(wù),基于深度神經(jīng)網(wǎng)絡(luò),利用海量標(biāo)注語料進行訓(xùn)練,提供了一個端到端的解決方案。
我們把這個聯(lián)合的中文詞法分析解決方案命名為 LAC 。LAC 既可以認(rèn)為是?Lexical Analysis of Chinese?的首字母縮寫,也可以認(rèn)為是?LAC Analyzes Chinese?的遞歸縮寫。
特別注意:本項目依賴Paddle v0.14.0版本。如果您的Paddle安裝版本低于此要求,請按照安裝文檔中的說明更新Paddle安裝版本。
項目結(jié)構(gòu)
. ├──?AUTHORS??????????????#?貢獻者列表 ├──?CMakeLists.txt???????#?cmake配置文件 ├──?conf?????????????????#?運行本例所需的模型及字典文件 ├──?data?????????????????#?運行本例所需要的數(shù)據(jù)依賴 ├──?include??????????????#?頭文件 ├──?LICENSE??????????????#?許可證信息 ├──?python???????????????#?訓(xùn)練使用的python文件 ├──?README.md????????????#?本文檔 ├──?src??????????????????#?源碼 ├──?technical-report?????#?技術(shù)報告 └──?test?????????????????#?Demo程序
?
引用
如果您的學(xué)術(shù)工作成果中使用了LAC,請您增加下述引用。我們非常欣慰LAC能夠?qū)δ膶W(xué)術(shù)工作帶來幫助。
@article{jiao2018LAC, title={Chinese?Lexical?Analysis?with?Deep?Bi-GRU-CRF?Network}, author={Jiao,?Zhenyu?and?Sun,?Shuqi?and?Sun,?Ke}, journal={arXiv?preprint?arXiv:1807.01882}, year={2018}, url={https://arxiv.org/abs/1807.01882} }
?
模型
詞法分析任務(wù)的輸入是一個字符串(我們后面使用『句子』來指代它),而輸出是句子中的詞邊界和詞性、實體類別。序列標(biāo)注是詞法分析的經(jīng)典建模方式。我們使用基于GRU的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)特征,將學(xué)習(xí)到的特征接入CRF解碼層完成序列標(biāo)注。CRF解碼層本質(zhì)上是將傳統(tǒng)CRF中的線性模型換成了非線性神經(jīng)網(wǎng)絡(luò),基于句子級別的似然概率,因而能夠更好的解決標(biāo)記偏置問題。模型要點如下,具體細(xì)節(jié)請參考python/train.py
代碼。
-
輸入采用one-hot方式表示,每個字以一個id表示
-
one-hot序列通過字表,轉(zhuǎn)換為實向量表示的字向量序列;
-
字向量序列作為雙向GRU的輸入,學(xué)習(xí)輸入序列的特征表示,得到新的特性表示序列,我們堆疊了兩層雙向GRU以增加學(xué)習(xí)能力;
-
CRF以GRU學(xué)習(xí)到的特征為輸入,以標(biāo)記序列為監(jiān)督信號,實現(xiàn)序列標(biāo)注。
詞性和專名類別標(biāo)簽集合如下表,其中詞性標(biāo)簽24個(小寫字母),專名類別標(biāo)簽4個(大寫字母)。這里需要說明的是,人名、地名、機名和時間四個類別,在上表中存在兩套標(biāo)簽(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被標(biāo)注為第二套標(biāo)簽的詞,是模型判斷為低置信度的人名、地名、機構(gòu)名和時間詞。開發(fā)者可以基于這兩套標(biāo)簽,在四個類別的準(zhǔn)確、召回之間做出自己的權(quán)衡。
數(shù)據(jù)
訓(xùn)練使用的數(shù)據(jù)可以由用戶根據(jù)實際的應(yīng)用場景,自己組織數(shù)據(jù)。數(shù)據(jù)由兩列組成,以制表符分隔,第一列是utf8編碼的中文文本,第二列是對應(yīng)每個字的標(biāo)注,以空格分隔。我們采用IOB2標(biāo)注體系,即以X-B作為類型為X的詞的開始,以X-I作為類型為X的詞的持續(xù),以O(shè)表示不關(guān)注的字(實際上,在詞性、專名聯(lián)合標(biāo)注中,不存在O)。示例如下:
在抗日戰(zhàn)爭時期,朝鮮族人民先后有十幾萬人參加抗日戰(zhàn)斗??p-B?vn-B?vn-I?n-B?n-I?n-B?n-I?w-B?nz-B?nz-I?nz-I?n-B?n-I?d-B?d-I?v-B?m-B?m-I?m-I?n-B?v-B?v-I?vn-B?vn-I?vn-B?vn-I
?
-
我們隨同代碼一并發(fā)布了完全版的模型和相關(guān)的依賴數(shù)據(jù)。但是,由于模型的訓(xùn)練數(shù)據(jù)過于龐大,我們沒有發(fā)布訓(xùn)練數(shù)據(jù),僅在
data
目錄下的train_data
和test_data
文件中放置少數(shù)樣本用以示例輸入數(shù)據(jù)格式。 -
模型依賴數(shù)據(jù)包括:
-
輸入文本的詞典,在
conf
目錄下,對應(yīng)word.dic
-
對輸入文本中特殊字符進行轉(zhuǎn)換的字典,在
conf
目錄下,對應(yīng)q2b.dic
-
標(biāo)記標(biāo)簽的詞典,在
conf
目錄下,對應(yīng)tag.dic
-
在訓(xùn)練和預(yù)測階段,我們都需要進行原始數(shù)據(jù)的預(yù)處理,具體處理工作包括:
在訓(xùn)練階段,這些工作由
python/train.py
調(diào)用python/reader.py
完成;在預(yù)測階段,由C++代碼完成。
-
從原始數(shù)據(jù)文件中抽取出句子和標(biāo)簽,構(gòu)造句子序列和標(biāo)簽序列
-
將句子序列中的特殊字符進行轉(zhuǎn)換
-
依據(jù)詞典獲取詞對應(yīng)的整數(shù)索引
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
- 锂离子电池材料表征的分析解决方案21次下载
- 锂离子电池材料表征的分析解决方案4次下载
- HMC498LAC4 HMC499LAC4 HMC517LAC4 HMC962 HMC963革1次下载
- HMC1084LAC4革4次下载
- HMC519LAC4革0次下载
- HMC635LAC4革0次下载
- 5G锚点选择与LTE覆盖切换冲突的原因分析与解决方案资料下载7次下载
- ESD解决方案资料下载7次下载
- 待机功耗来源分析与低待机功耗解决方案资料下载13次下载
- 188万中文词库包括了输入法和机器学习与训练6次下载
- 语言与编译器设计课程之词法分析程序源程序0次下载
- 关于SMT回流焊中出现的缺陷及其解决方案资料下载30次下载
- 借助Lex和Yacc进行词法语法分析30次下载
- C语言词法分析器的代码85次下载
- 基于无向图序列标注模型的中文分词词性标注一体化系统12次下载
- 浮思特 | 新兴传感器技术:TMR与分流解决方案的对比分析179次阅读
- 自然语言处理过程的五个层次1539次阅读
- 示波器噪声太大的原因及解决方案3065次阅读
- 简仪同步水声及振动采集系统解决方案1147次阅读
- PLC常用专业英文词汇翻译总结2954次阅读
- 基于PyTorch AMD的解决方案1179次阅读
- 词法分析-Antlr-11004次阅读
- PLC编程常用专业英文词汇翻译1810次阅读
- Inventek物联网照明解决方案系统架构分析2175次阅读
- IPM内集成传感器的应用解决方案分析1473次阅读
- 技术 | 传感器性能如何支持状态监控解决方案?3063次阅读
- 如何使用Excel和TF实现Transformer详细步骤说明4292次阅读
- 解析自动驾驶解决方案优劣和功能安全需求5278次阅读
- 智慧医疗解决方案有哪些_智慧医疗解决方案供应商推荐18192次阅读
- 阿里智能硬件平台解决方案分析11150次阅读
下載排行
本周
- 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發(fā)指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應(yīng)用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關(guān)電源設(shè)計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅(qū)動電路設(shè)計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論