538 阿裏雲技術社區[雲棲]

Elasticsearch 默認配置 IK 及 Java AnalyzeRequestBuilder 使用

摘要: 原創出處 www.bysocket.com 「泥瓦匠BYSocket 」歡迎轉載，保留摘要，謝謝！

『春夏秋冬失去了你，我怎麼過一年四季- 民謠歌詞』

本文提綱

一、什麼是 Elasticsearch-analysis-ik

二、默認配置 IK

三、使用 AnalyzeRequestBuilder 獲取分詞結果

四、小結

運行環境：JDK 7 或 8、Maven 3.0+、ElasticSearch 2.3.2、Elasticsearch-analysis-ik 1.9.2

技術棧：SpringBoot 1.5+、Spring-data-elasticsearch 2.1.0

前言

在 Elasticsearch 和插件 elasticsearch-head 安裝詳解 https://www.bysocket.com/?p=1744 文章中，我使用的是 Elasticsearch 5.3.x。這裏我改成了 ElasticSearch 2.3.2。是因為版本對應關係 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix：

Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z)

x <= 1.3.5 y <= 1.3.4 z <= 1.7.2*

x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0**

* - 隻需要你修改下對應的 pom 文件版本號

** - 下一個 ES 的版本會有重大的更新

這裏可以看出，5.3.x 不在第二行範圍內。因此這裏我講下，如何在 ElasticSearch 2.3.2 中默認配置 IK。

一、什麼是 Elasticsearch-analysis-ik

了解什麼是 Elasticsearch-analysis-ik，首先了解什麼是 IK Analyzer。 IK Analyzer 是基於 lucene 實現的分詞開源框架。官方地址：https://code.google.com/p/ik-analyzer/ 。

Elasticsearch-analysis-ik 則是將 IK Analyzer 集成 Elasticsearch 的插件，並支持自定義詞典。GitHub 地址：https://github.com/medcl/elasticsearch-analysis-ik。特性支持：

分析器 Analyzer: ik_smart 或 ik_max_word
分詞器 Tokenizer: ik_smart 或 ik_max_word

二、默認配置 IK

在 Elasticsearch-analysis-ik 官網中可以看到，其中版本需要對應：

IK版    ES版本
主 5.x -> master
5.3.2    5.3.2
5.2.2    5.2.2
5.1.2    5.1.2
1.10.1    2.4.1
1.9.5    2.3.5
1.8.1    2.2.1
1.7.0    2.1.1
1.5.0    2.0.0
1.2.6    1.0.0
1.2.5    0.90.x
1.1.3    0.20.x
1.0.0    0.16.2 -> 0.19.0

這裏使用的是 Elasticsearch-analysis-ik 1.9.2，支持 ElasticSearch 2.3.2。下載地址：https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip，下載成功後進行安裝。

解壓 zip 文件，複製裏麵的內容到 elasticsearch-2.3.2/plugins/ik。

cd  elasticsearch-2.3.2/plugins
mkdir ik
cp ...

在 elasticsearch-2.3.2/config/elasticsearch.yml 增加配置：

index.analysis.analyzer.default.tokenizer : "ik_max_word"
index.analysis.analyzer.default.type: "ik"

配置默認分詞器為 ik，並指定分詞器為 ik_max_word。

然後重啟 ES 即可。驗證 IK 是否成功安裝，訪問下

localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com

可以得到下麵的結果集：

{
    "tokens": [
        {
            "token": "泥瓦匠",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "泥",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "瓦匠",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "匠",
            "start_offset": 2,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "博客",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "bysocket.com",
            "start_offset": 8,
            "end_offset": 20,
            "type": "LETTER",
            "position": 5
        },
        {
            "token": "bysocket",
            "start_offset": 8,
            "end_offset": 16,
            "type": "ENGLISH",
            "position": 6
        },
        {
            "token": "com",
            "start_offset": 17,
            "end_offset": 20,
            "type": "ENGLISH",
            "position": 7
        }
    ]
}

記得在Docker 容器安裝時，需要對應的端口開發。

三、使用 AnalyzeRequestBuilder 獲取分詞結果

ES 中默認配置 IK 後，通過 Rest HTTP 的方式我們可以進行得到分詞結果。那麼在 Spring Boot 和提供的客戶端依賴 spring-data-elasticsearch 中如何獲取到分詞結果。

加入依賴 pom.xml

<!-- Spring Boot Elasticsearch 依賴 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>

在 application.properties 配置 ES 的地址：

# ES
spring.data.elasticsearch.repositories.enabled = true
spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300

然後創建一個方法，入參是搜索詞，返回的是分詞結果列表。

    @Autowired
    private ElasticsearchTemplate elasticsearchTemplate;

    /**
     * 調用 ES 獲取 IK 分詞後結果
     *
     * @param searchContent
     * @return
     */
    private List<String> getIkAnalyzeSearchTerms(String searchContent) {
        // 調用 IK 分詞分詞
        AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(),
                AnalyzeAction.INSTANCE,"indexName",searchContent);
        ikRequest.setTokenizer("ik");
        List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens();

        // 循環賦值
        List<String> searchTermList = new ArrayList<>();
        ikTokenList.forEach(ikToken -> { searchTermList.add(ikToken.getTerm()); });

        return searchTermList;
    }

indexName 這裏是指在 ES 設置的索引名稱。

從容器注入的 ElasticsearchTemplate Bean 中獲取 Client ，再通過 AnalyzeRequestBuilder 分析請求類型中進行分詞並獲取分詞結果 AnalyzeResponse.AnalyzeToken 列表。

四、小結

默認配置了 IK 分詞器，則 DSL 去 ES 查詢時會自動調用 IK 分詞。

如果想要自定義詞庫，比如比較偏的領域性。可以參考 Elasticsearch-analysis-ik GiHub 地址去具體查閱。

推薦開源項目：《springboot-learning-example》 spring boot 實踐學習案例，是 spring boot 初學者及核心技術鞏固的最佳實踐

歡迎掃一掃我的公眾號關注 — 及時得到博客訂閱哦！

— https://www.bysocket.com/ —

— https://github.com/JeffLi1993 —

最後更新：2017-05-04 15:07:42

Elasticsearch 默認配置 IK 及 Java AnalyzeRequestBuilder 使用

前言

一、什麼是 Elasticsearch-analysis-ik

二、默認配置 IK

三、使用 AnalyzeRequestBuilder 獲取分詞結果

四、小結

上一篇： ECS資源下載慢，如何分析定位？

下一篇：以“1”為基，助力“300”——“1+30+300”工程項目詳解

相關內容

熱門內容

最新內容

Elasticsearch 默認配置 IK 及 Java AnalyzeRequestBuilder 使用

前言

一、什麼是 Elasticsearch-analysis-ik

二、默認配置 IK

三、使用 AnalyzeRequestBuilder 獲取分詞結果

四、小結

上一篇： ECS資源下載慢 ，如何分析定位？

下一篇： 以“1”為基，助力“300”——“1+30+300”工程項目詳解

相關內容

熱門內容

最新內容

上一篇： ECS資源下載慢，如何分析定位？

下一篇：以“1”為基，助力“300”——“1+30+300”工程項目詳解