全文檢索Solr集成HanLP中文分詞

以前發布過HanLP的Lucene插件，后來很多人跟我說其實Solr更流行（反正我是覺得既然Solr是Lucene的子項目，那么稍微改改配置就能支持Solr），于是就抽空做了個Solr插件出來，開源在Github上，歡迎改進。

HanLP中文分詞solr插件支持Solr5.x，兼容Lucene5.x。

圖1

快速上手

1、將和hanlp-solr-plugin.jar共兩個jar放入${webapp}/WEB-INF/lib下

2、修改solr?core的配置文件${core}/conf/schema.xml：

??????

??????????

??????

??????????

??????

Solr5中文分詞器詳細配置

對于新手來說，上面的兩步可能太簡略了，不如看看下面的step?by?step。本教程使用Solr5.2.1，理論上兼容solr5.x。

放置jar

將上述兩個jar放到solr-5.2.1/server/solr-webapp/webapp/WEB-INF/lib目錄下。如果你想自定義詞典等數據，將hanlp.properties放到solr-5.2.1/server/resources，該目錄也是log4j.properties等配置文件的放置位置。HanLP文檔一直在說“將配置文件放到resources目錄下”，指的就是這個意思。作為Java程序員，這是基本常識。

啟動solr

首先在solr-5.2.1\bin目錄下啟動solr：

1.solr?start?-f

用瀏覽器打開http://localhost:8983/solr/#/，看到如下頁面說明一切正常：

圖2

創建core

在solr-5.2.1\server\solr下新建一個目錄，取個名字比如叫one，將示例配置文件solr-5.2.1\server\solr\configsets\sample_techproducts_configs\conf拷貝過來，接著修改schema.xml中的默認域type，搜索

1.???

2.?...

3.?

替換為

1.?

4.?

5.?

6.?

7.?

8.?

11.?

12.?

13.?

14.?

15.?

16.?

17.?

18.?

19.?

意思是默認文本字段類型啟用HanLP分詞器，text_general還開啟了solr默認的各種filter。

solr允許為不同的字段指定不同的分詞器，由于絕大部分字段都是text_general類型的，可以說這種做法比較適合新手。如果你是solr老手的話，你可能會更喜歡單獨為不同的字段指定不同的分詞器及其他配置。如果你的業務系統中有其他字段，比如location，summary之類，也需要一一指定其type="text_general"。切記，否則這些字段仍舊是solr默認分詞器，會造成這些字段“搜索不到”。

另外，切記不要在query中開啟indexMode，否則會影響PhaseQuery。indexMode只需在index中開啟一遍即可，要不然它怎么叫indexMode呢。

如果你不需要solr提供的停用詞、同義詞等filter，如下配置可能更適合你：

1.?

2.??????

3.??????????

4.??????

5.??????

6.??????????

7.??????????

8.??????

9.??

10.??

11.??

12.??

完成了之后在solr的管理界面導入這個core?one：

圖3

接著就能在下拉列表中看到這個core了：

圖4

上傳測試文檔

修改好了，就可以拿一些測試文檔來試試效果了。hanlp-solr-plugin代碼庫中的src/test/resources下有個測試文檔集合documents.csv，其內容如下：

1.?id,title

2.?1,你好世界

3.?2,商品和服務

4.?3,和服的價格是每鎊15便士

5.?4,服務大眾

6.?5,hanlp工作正常

代表著id從1到5共五個文檔，接下來復制solr-5.2.1\example\exampledocs下的上傳工具post.jar到resources目錄，利用如下命令行將數據導入：

1.?java?-Dc=one?-Dtype=application/csv?-jar?post.jar?*.csv

Windows用戶的話直接雙擊該目錄下的upload.cmd即可，Linux用戶運行upload.sh。

正常情況下輸出如下結果：

1.?SimplePostTool?version?5.0.0

2.?Posting?files?to?[base]?url?http://localhost:8983/solr/one/update?using?content-

3.?type?application/csv...

4.?POSTing?file?documents.csv?to?[base]

5.?1?files?indexed.

6.?COMMITting?Solr?index?changes?to?http://localhost:8983/solr/one/update...

7.?Time?spent:?0:00:00.059

8.?請按任意鍵繼續.?.?.

同時刷新一下core?one的Overview，的確看到了5篇文檔：

圖5

搜索文檔

是時候看看HanLP分詞的效果了，點擊左側面板的Query，輸入“和服”試試：

圖6

發現精確地查到了“和服的價格是每鎊15便士”，而不是“商品和服務”這種錯誤文檔：

圖7

這說明HanLP工作良好。

要知道，不少中文分詞器眉毛胡子一把抓地命中“商品和服務”這種錯誤文檔，降低了查準率，拉低了用戶體驗，跟原始的MySQL?LIKE有何區別？

索引模式的功能

索引模式可以對長詞進行全切分，得到其中蘊含的所有詞匯。比如“中醫藥大學附屬醫院”在HanLP索引分詞模式下的切分結果為：

1.?中0?醫1?藥2?大3?學4?附5?屬6?醫7?院8?

2.?[0:3?1]?中醫藥/n

3.?[0:2?1]?中醫/n

4.?[1:3?1]?醫藥/n

5.?[3:5?1]?大學/n

6.?[5:9?1]?附屬醫院/nt

7.?[5:7?1]?附屬/vn

8.?[7:9?1]?醫院/n

開啟indexMode后，無論用戶搜索“中醫”“中醫藥”還是“醫藥”，都會搜索到“中醫藥大學附屬醫院”：

圖8

高級配置

目前本插件支持如下基于schema.xml的配置:

圖9

對于更高級的配置，HanLP分詞器主要通過class?path下的hanlp.properties進行配置，請閱讀HanLP自然語言處理包文檔以了解更多相關配置，如：

1.停用詞

2.用戶詞典

3.詞性標注

4.……

代碼調用

在Query改寫的時候，可以利用HanLPAnalyzer分詞結果中的詞性等屬性，如

1.?String?text?=?"中華人民共和國很遼闊";

2.?for?(int?i?=?0;?i?

3.?{

4.?????System.out.print(text.charAt(i)?+?""?+?i?+?"?");

5.?}

6.?System.out.println();

7.?Analyzer?analyzer?=?new?HanLPAnalyzer();

8.?TokenStream?tokenStream?=?analyzer.tokenStream("field",?text);

9.?tokenStream.reset();

10.?while?(tokenStream.incrementToken())

11.?{

12.?????CharTermAttribute?attribute?=?tokenStream.getAttribute(CharTermAttribute.class);

13.?????//?偏移量

14.?????OffsetAttribute?offsetAtt?=?tokenStream.getAttribute(OffsetAttribute.class);

15.?????//?距離

16.?????PositionIncrementAttribute?positionAttr?=?kenStream.getAttribute(PositionIncrementAttribute.class);

17.?????//?詞性

18.?????TypeAttribute?typeAttr?=?tokenStream.getAttribute(TypeAttribute.class);

19.?????System.out.printf("[%d:%d?%d]?%s/%s\n",?offsetAtt.startOffset(),?offsetAtt.endOffset(),?positionAttr.getPositionIncrement(),?attribute,?typeAttr.type());

20.?}

在另一些場景，支持以自定義的分詞器（比如開啟了命名實體識別的分詞器、繁體中文分詞器、CRF分詞器等）構造HanLPTokenizer，比如：

1.?tokenizer?=?new?HanLPTokenizer(HanLP.newSegment()

2.?????????????????????.enableJapaneseNameRecognize(true)

3.?????????????????????.enableIndexMode(true),?null,?false);

4.?tokenizer.setReader(new?StringReader("林志玲亮相網友:確定不是波多野結衣？"));

5.?...

文章來源于網絡

閱讀全文

集成半橋驅動器的連續模式PFC和LLC控制器PLC810PG中文資料

電子發燒友網站提供《集成半橋驅動器的連續模式PFC和LLC控制器PLC810PG中文資料.pdf》資料免費下載

2024-03-22 09:33:30

STM32CubeMX有中文版或者漢化包嗎？

STM32CubeMX有中文版或者漢化包嗎

2024-03-11 07:42:05

功率半導體器件陶瓷基板用氮化鋁粉體專利解析及DOH新工藝材料介紹

數據庫包括CNTXT、ENTXTC、IncoPat，檢索語言包括中文（簡、繁）、英文、日文、德文、韓文，檢索截至日2023年7月31日。檢索結果經人工標引，篩選明確

2024-03-06 08:09:08

WS2812E-V3智能外控集成LED光源中文資料

電子發燒友網站提供《WS2812E-V3智能外控集成LED光源中文資料.pdf》資料免費下載

2023-12-29 11:11:36

40V/1.2A集成功率管LED驅動器SN3360中文手冊

電子發燒友網站提供《40V/1.2A集成功率管LED驅動器SN3360中文手冊.pdf》資料免費下載

2023-12-22 11:31:39

無監督域自適應場景：基于檢索增強的情境學習實現知識遷移

本文對比了多種基線方法，包括無監督域自適應的傳統方法（如Pseudo-labeling和對抗訓練）、基于檢索的LM方法（如REALM和RAG）和情境學習方法（如In-context learning）。

2023-12-05 14:14:08

161

安全文件中數據的加解密

安全存儲中的安全文件和dirf.db文件中的數據內容都是按照一定的格式保存的，主要由三部分組成： ? tee_fs_htree_image ? tee_fs_htree_node_image

2023-11-21 15:49:12

127

OP-TEE安全存儲安全文件的格式

安全文件、dirf.db文件的數據格式和操作過程 OP-TEE的安全存儲功能可滿足用戶保存敏感數據的需求，需要被保存的數據會被加密保存到文件系統或RPMB分區中。當選擇將數據保存到文件系統

2023-11-21 11:49:45

206

高效案例檢索工具，Alpha案例庫智慧檢索成為律師檢索工具首選

為不可逆轉的趨勢。從目前國內律所引入科技工具的現狀來看，Alpha法律智能操作系統具有較高的使用率，該系統在律師日常法律檢索和律所管理方面都產生了巨大的“動能”。其官網鏈接：法律檢索阿爾法最新的數據顯示，業已有多達

2023-11-20 11:27:19

274

數據庫select語句的基本用法

數據庫中的SELECT語句是用于從數據庫表中檢索數據的基本工具。它是數據庫語言（如SQL）中最常用的命令之一，幾乎在每個數據庫管理系統中都有。 SELECT語句的基本語法如下： SELECT 列名

2023-11-17 15:08:49

700

什么是檢索增強生成？

檢索增強生成是一種使用從外部來源獲取的事實，來提高生成式 AI 模型準確性和可靠性的技術。為了理解這一生成式 AI 領域的最新進展，讓我們以法庭為例。法官通常根據對法律的一般理解來審理和判決

2023-11-16 21:15:02

526

基于檢索的大語言模型簡介

簡介章節講的是比較基礎的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

280

用guidie做完界面，模擬器運行時中文不能顯示如何解決？

用guidie做完界面，用他自己的模擬器運行時，中文不能顯示，有辦法解決嗎

2023-11-13 07:27:03

IIC的12864OLED顯示屏有帶中文字庫的顯示屏嗎？

IIC的12864OLED顯示屏有帶中文字庫的顯示屏嗎

2023-11-08 08:32:01

FoolNLTK：簡單好用的中文NLP工具包

FoolNLTK — 作者號稱“可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞”。這個開源工具包基于 BiLSTM模型訓練而成，功能包含分詞，詞性標注，實體識別。并支持用戶自定義詞

2023-11-01 10:41:16

212

Python 更新 Elasticsearch 的幾種方法

全文檢索、結構化搜索、分析以及這三個功能的組合全局更新在 Elasticsearch 中，通過指定文檔的 _id , 使用 Elasticsearch 自帶的 index api 可以實現插入一條

2023-11-01 10:11:42

304

集成電路擊穿時是不是都會短路？

集成電路擊穿時是不是都會短路這個電阻為多少時就可以認定擊穿了

2023-10-31 07:42:19

關于瑞薩集成LO的問題

請教大俠們瑞薩的集成LO芯片8V97051，8V97051 L,8V97051 A 這三款有沒有區別？？

2023-10-30 12:36:41

FoolNLTK：簡單好用的中文NLP工具包

2023-10-30 09:40:50

604

請問LCD1602顯示屏能顯示中文漢字嗎?

LCD1602顯示屏是外文顯示屏，它本身帶的ROM固化的字型庫，只有英文數字特殊符號和日語假名，沒中文。這樣的屏能顯示中文嗎？

2023-10-28 08:07:34

Keil4打不上中文漢字是怎么回事？

我在使用Keil 4 時，無法打上中文漢字

2023-10-28 06:31:31

在英特爾開發套件上用OpenVIN實現中文圖文檢索

本文演示了使用 OpenVINO 與 Chinese-Clip 進行中文圖文相似性匹配任務：CLIP 模型以自監督的方式在數億或數十億（圖像，文本）對上進行訓練，它從輸入圖像和文本中提取特征向量

2023-10-27 11:06:33

278

不帶中文字庫的12864液晶怎么用C寫程序然后通過51單片機控制？

2023-10-20 08:03:31

STM32中文顯示有什么抗鋸齒方法？

STM32中文顯示有什么抗鋸齒方法

2023-10-15 11:49:31

AD20建立集成庫顯示錯誤不能關聯封裝

跪求指點，AD20 建立集成庫老是出錯，原理圖庫添加不了封裝，集成庫編譯過，有時候關閉了，下次打開又能關聯起來

2023-10-14 11:05:19

DS1302的中文手冊

DS1302中文手冊

2023-10-10 07:40:13

keil的編輯器時打中文會亂碼怎么解決？

我在使用keil的編輯器時，打中文會亂碼，英文沒有問題，有什么解決辦法嗎？

2023-10-07 08:20:21

IAR中UTF-8中文字符串不顯示怎么解決？

界面使用的是ucGUI原本使用GB2312編碼的中字符串可以直接讀取顯示，字庫也用FontCvt做了初始化的時候也添加了GUI_UC_SetEncodeutf8();函數后面換成UTF-8的中文

2023-10-07 07:11:52

MDK是否能使用中文進行宏定義？

有些傳感器的的寄存器太多了，能不能用中文來對寄存器進行宏定義

2023-09-28 07:34:39

全文更新：什么是Power Path？充電時是充電器供電還是電池供電？

▼關注公眾號：工程師看海▼ ? 昨天的文章誤刪了一部分，很多同學留言想看全文，現補充、更新如下：前段時間，交流群里有位同學提了個問題：手機插著充電器時，是充電器給手機供電還是電池給手機供電？覺得

2023-09-25 14:53:48

939

Spring Boot Starter需要些什么

starter組件，基本涵蓋了我們開發中的各個技術領域，比如數據庫訪問有jdbc、jpa，緩存有redis，全文檢索有elasticsearch，消息隊列有amqp、kafka等等

2023-09-25 11:35:13

430

STM32F4xx的中文參考手冊

STM32F4xx中文參考手冊

2023-09-25 06:52:16

任正非稱產品不夠先進不會拿出來賣任正非對話全文分享

任正非稱產品不夠先進不會拿出來賣任正非對話全文分享任正非在一次與南開大學新聞與傳播學院院長、科技日報原總編輯劉亞東交談過程中任正非明確表示華為的產品不夠先進不會拿出來賣。如果賣不了高價，那就

2023-09-22 19:54:49

780

HarmonyOS/OpenHarmony應用開發-DevEco Studio 中文插件的使用

DevEco Studio按照后，各項菜單欄默認是英文的，很多初學者，把菜單欄調整為中文的后，更容易上手與操作。具體步驟如下：一、打開文件二、選擇設置三、選擇插件四、選擇中文五

2023-09-12 17:04:03

檢索增強LLM的方案全面的介紹

分分享了 ChatGPT 這類模型是如何一步一步訓練的，后半部分主要分享了 LLM 模型的一些應用方向，其中就對檢索增強 LLM 這個應用方向做了簡單介紹。

2023-09-08 16:39:55

798

中文分詞_視頻(2)#Python數據分析

編程數據分析python

未來加油dz發布于 2023-09-03 14:06:37

中文分詞_視頻(1)#Python數據分析

編程數據分析python

未來加油dz發布于 2023-09-03 14:05:34

中文分詞和添加用戶詞典(2)#Python數據分析

編程python

未來加油dz發布于 2023-09-02 18:27:20

中文分詞和添加用戶詞典(1)#Python數據分析

編程python

未來加油dz發布于 2023-09-02 18:26:24

M451如何在終端上使用UART輸出中文字符

應用程序: 演示如何在終端終端上使用 UART 輸出中文字符 BSP 版本:M451系列BSP CMSIS V3.01.003 硬件: NuTiny-EVB-M451 LQFP100 V1.3

2023-08-30 07:23:23

集成電路的集成程度可以無限提高嗎？

集成電路的集成程度可以無限提高嗎？隨著電子科技的迅猛發展，集成電路的集成程度也不斷得到了提高，已經發展出了微電子技術和納米電子技術等高集成度的技術。但是，能否無限提高集成程度，這個問題的答案并不是

2023-08-29 16:25:07

1084

如何在終端上使用UART輸出中文字符

應用程序: 演示如何在終端上使用 UART 輸出中文字符 BSP 版本:M451系列BSP CMSIS V3.01.003 硬件: NuTiny-EVB-M451 LQFP100 V1.3 序列

2023-08-23 06:46:34

檢索增強的語言模型方法的詳細剖析

? 本篇內容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學習記錄，以此從問題設置、架構、應用、挑戰等角度全面了解檢索增強的語言模型，作為對后續工作的準備與入門，也希望能給大家帶來

2023-08-21 09:58:01

1230

哪位大神有MINI58系列驅動中文的參考指南？求分享

哪位大神有MINI58系列驅動中文的參考指南？能不能發我一份？

2023-08-21 06:47:37

《銅豌豆 Linux》-- 中文 Linux 桌面操作系統

文件，對安裝過程進行了大量優化。具體的優化措施有：采用 preseed 等技術，默認設置安裝過程中的很多配置選項，無需用戶輸入默認使用中文安裝界面、中文字符集默認集成常見無線網

2023-08-18 15:41:36

__194.美多商城項目商品搜索： 15.3 全文檢索方案Elasticsearch-Haystack介紹和

開發程序代碼Arduino

充八萬發布于 2023-08-08 22:39:58

__193.美多商城項目商品搜索： 15.2 全文檢索方案Elasticsearch-Elasticsear

開發程序代碼Arduino

充八萬發布于 2023-08-08 22:39:08

ide如何設置中文？

ide不知如何設置中文，版本是1.9.0。有沒有大神指教一下，謝謝

2023-08-07 15:05:18

請問一下stm32wb55中文數據手冊在哪找？

stm32wb55中文數據手冊在哪找

2023-08-07 07:44:25

UniVL-DR: 多模態稠密向量檢索模型

多模態數據的信息獲取需求在用戶搜索過程中尤為重要。 ▲?圖1. 不同多模態檢索框架示意圖為了實現多模態檢索過程，當前的多媒體搜索系統通常采用“分而治之”的方法。如

2023-08-06 22:00:03

451

xilinx平臺DDR3設計教程之設計篇_中文版教程3

2023-08-05 18:39:58

什么是集成電路？

自從人類開始使用電子設備以來，電子世界經歷了許多技術進步。然而，集成電路代表了這些技術發展中最重要和最具變革性的技術之一。集成電路不僅徹底改變了電子產品，而且永遠改變了其發展方向。電子產品的小型化

2023-08-01 11:23:10

iCourt旗下AlphaGPT引領中國律師進入AI檢索時代

了以AlphaGPT為代表的智能法律檢索系統，這極大地推動了法律AI檢索的進程與發展。對于律師等法律行業群體而言，檢索扮演著極其重要的角色。這是因為法律法規浩如煙海，即使律師有多年的理論學習積累和豐富的辦案經驗，也不能完全靠

2023-07-20 09:17:03

9505

4296

如何從PC檢索BMP圖像到代碼并將相同的圖像轉儲到Flash？

我需要從我的電腦中檢索我保存在桌面上的二進制圖像，然后我需要在運行該程序后將相同的圖像復制到 IMXRT1170 的閃存“W25Q128JV”。我正在根據要求修改以下驅動程序示例

2023-03-30 08:55:01

空間和輪廓域紋理圖像檢索算法

摘要 Contourlet變換已被廣泛應用于許多圖像處理應用中包括數字圖像去噪、紋理圖像檢索等。當contourlet變換用于紋理圖像檢索問題，諸如標準差、偏度、峰度、L1能量等特征，L2能量和輪廓

2023-03-27 10:21:47

已全部加載完成

搜索歷史

全文檢索Solr集成HanLP中文分詞

評論