Elasticsearch 默認配置 IK 及 Java AnalyzeRequestBuilder 使用
摘要: 原創出處 www.bysocket.com 「泥瓦匠BYSocket 」歡迎轉載,保留摘要,謝謝!
『 春夏秋冬失去了你,我怎麼過一年四季- 民謠歌詞 』
本文提綱
一、什麼是 Elasticsearch-analysis-ik
二、默認配置 IK
三、使用 AnalyzeRequestBuilder 獲取分詞結果
四、小結
運行環境:JDK 7 或 8、Maven 3.0+、ElasticSearch 2.3.2、Elasticsearch-analysis-ik 1.9.2
技術棧:SpringBoot 1.5+、Spring-data-elasticsearch 2.1.0
前言
在 Elasticsearch 和插件 elasticsearch-head 安裝詳解 https://www.bysocket.com/?p=1744 文章中,我使用的是 Elasticsearch 5.3.x。這裏我改成了 ElasticSearch 2.3.2。是因為版本對應關係 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix:
Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z)x <= 1.3.5 y <= 1.3.4 z <= 1.7.2*x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0*** - 隻需要你修改下對應的 pom 文件版本號** - 下一個 ES 的版本會有重大的更新
這裏可以看出,5.3.x 不在第二行範圍內。因此這裏我講下,如何在 ElasticSearch 2.3.2 中默認配置 IK。
一、什麼是 Elasticsearch-analysis-ik
了解什麼是 Elasticsearch-analysis-ik,首先了解什麼是 IK Analyzer。 IK Analyzer 是基於 lucene 實現的分詞開源框架。官方地址:https://code.google.com/p/ik-analyzer/ 。
Elasticsearch-analysis-ik 則是將 IK Analyzer 集成 Elasticsearch 的插件,並支持自定義詞典。GitHub 地址:https://github.com/medcl/elasticsearch-analysis-ik。特性支持:
分析器 Analyzer: ik_smart 或 ik_max_word 分詞器 Tokenizer: ik_smart 或 ik_max_word
二、默認配置 IK
在 Elasticsearch-analysis-ik 官網中可以看到,其中版本需要對應:
IK版 ES版本 主 5.x -> master 5.3.2 5.3.2 5.2.2 5.2.2 5.1.2 5.1.2 1.10.1 2.4.1 1.9.5 2.3.5 1.8.1 2.2.1 1.7.0 2.1.1 1.5.0 2.0.0 1.2.6 1.0.0 1.2.5 0.90.x 1.1.3 0.20.x 1.0.0 0.16.2 -> 0.19.0
這裏使用的是 Elasticsearch-analysis-ik 1.9.2,支持 ElasticSearch 2.3.2。下載地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip,下載成功後進行安裝。
解壓 zip 文件,複製裏麵的內容到 elasticsearch-2.3.2/plugins/ik。
cd elasticsearch-2.3.2/plugins mkdir ik cp ...
在 elasticsearch-2.3.2/config/elasticsearch.yml 增加配置:
index.analysis.analyzer.default.tokenizer : "ik_max_word" index.analysis.analyzer.default.type: "ik"
配置默認分詞器為 ik,並指定分詞器為 ik_max_word。
然後重啟 ES 即可。驗證 IK 是否成功安裝,訪問下
localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com可以得到下麵的結果集:
{ "tokens": [ { "token": "泥瓦匠", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "泥", "start_offset": 0, "end_offset": 1, "type": "CN_WORD", "position": 1 }, { "token": "瓦匠", "start_offset": 1, "end_offset": 3, "type": "CN_WORD", "position": 2 }, { "token": "匠", "start_offset": 2, "end_offset": 3, "type": "CN_WORD", "position": 3 }, { "token": "博客", "start_offset": 4, "end_offset": 6, "type": "CN_WORD", "position": 4 }, { "token": "bysocket.com", "start_offset": 8, "end_offset": 20, "type": "LETTER", "position": 5 }, { "token": "bysocket", "start_offset": 8, "end_offset": 16, "type": "ENGLISH", "position": 6 }, { "token": "com", "start_offset": 17, "end_offset": 20, "type": "ENGLISH", "position": 7 } ] }
記得在Docker 容器安裝時,需要對應的端口開發。
三、使用 AnalyzeRequestBuilder 獲取分詞結果
ES 中默認配置 IK 後,通過 Rest HTTP 的方式我們可以進行得到分詞結果。那麼在 Spring Boot 和提供的客戶端依賴 spring-data-elasticsearch 中如何獲取到分詞結果。
加入依賴 pom.xml
<!-- Spring Boot Elasticsearch 依賴 --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId> </dependency>
在 application.properties 配置 ES 的地址:
# ES spring.data.elasticsearch.repositories.enabled = true spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300
然後創建一個方法,入參是搜索詞,返回的是分詞結果列表。
@Autowired private ElasticsearchTemplate elasticsearchTemplate; /** * 調用 ES 獲取 IK 分詞後結果 * * @param searchContent * @return */ private List<String> getIkAnalyzeSearchTerms(String searchContent) { // 調用 IK 分詞分詞 AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(), AnalyzeAction.INSTANCE,"indexName",searchContent); ikRequest.setTokenizer("ik"); List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens(); // 循環賦值 List<String> searchTermList = new ArrayList<>(); ikTokenList.forEach(ikToken -> { searchTermList.add(ikToken.getTerm()); }); return searchTermList; }
indexName 這裏是指在 ES 設置的索引名稱。
從容器注入的 ElasticsearchTemplate Bean 中獲取 Client ,再通過 AnalyzeRequestBuilder 分析請求類型中進行分詞並獲取分詞結果 AnalyzeResponse.AnalyzeToken 列表。
四、小結
默認配置了 IK 分詞器,則 DSL 去 ES 查詢時會自動調用 IK 分詞。
如果想要自定義詞庫,比如比較偏的領域性。可以參考 Elasticsearch-analysis-ik GiHub 地址去具體查閱。
推薦開源項目:《springboot-learning-example》
spring boot 實踐學習案例,是 spring boot 初學者及核心技術鞏固的最佳實踐
最後更新:2017-05-04 15:07:42