ElasticSearch7.3学习(十五)—-中文分词器(IK Analyzer)及自定义词库

文章目录 显示

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475

1、中文分词器

1.1 默认分词器

先来看看ElasticSearch中默认的standard 分词器，对英文比较友好，但是对于中文来说就是按照字符拆分，不是那么友好。

GET /_analyze
{
  "analyzer": "standard",
  "text": "中华人民共和国"
}

我们想要的效果是什么：“中华人民共和国”作为一整个词语。

得到的结果是：

{
  "tokens" : [
    {
      "token" : "中",
      "start\_offset" : 0,
      "end\_offset" : 1,
      "type" : "",
      "position" : 0
    },
    {
      "token" : "华",
      "start\_offset" : 1,
      "end\_offset" : 2,
      "type" : "",
      "position" : 1
    },
    {
      "token" : "人",
      "start\_offset" : 2,
      "end\_offset" : 3,
      "type" : "",
      "position" : 2
    },
    {
      "token" : "民",
      "start\_offset" : 3,
      "end\_offset" : 4,
      "type" : "",
      "position" : 3
    },
    {
      "token" : "共",
      "start\_offset" : 4,
      "end\_offset" : 5,
      "type" : "",
      "position" : 4
    },
    {
      "token" : "和",
      "start\_offset" : 5,
      "end\_offset" : 6,
      "type" : "",
      "position" : 5
    },
    {
      "token" : "国",
      "start\_offset" : 6,
      "end\_offset" : 7,
      "type" : "",
      "position" : 6
    }
  ]
}

得到的结果不如人意，IK分词器就是目前最流行的es中文分词器

1.2 安装ik分词器

安装我就不详细说了，教程很多。

1.3 ik分词器基础知识

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国，中华人民，中华，华人，人民共和国，人民大会堂，人民大会，大会堂”，会穷尽各种可能的组合；

GET /_analyze
{
  "analyzer": "ik\_max\_word",
  "text": "中华人民共和国人民大会堂"
}

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start\_offset" : 0,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 0
    },
    {
      "token" : "中华人民",
      "start\_offset" : 0,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 1
    },
    {
      "token" : "中华",
      "start\_offset" : 0,
      "end\_offset" : 2,
      "type" : "CN\_WORD",
      "position" : 2
    },
    {
      "token" : "华人",
      "start\_offset" : 1,
      "end\_offset" : 3,
      "type" : "CN\_WORD",
      "position" : 3
    },
    {
      "token" : "人民共和国",
      "start\_offset" : 2,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 4
    },
    {
      "token" : "人民",
      "start\_offset" : 2,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 5
    },
    {
      "token" : "共和国",
      "start\_offset" : 4,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 6
    },
    {
      "token" : "共和",
      "start\_offset" : 4,
      "end\_offset" : 6,
      "type" : "CN\_WORD",
      "position" : 7
    },
    {
      "token" : "国人",
      "start\_offset" : 6,
      "end\_offset" : 8,
      "type" : "CN\_WORD",
      "position" : 8
    },
    {
      "token" : "人民大会堂",
      "start\_offset" : 7,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 9
    },
    {
      "token" : "人民大会",
      "start\_offset" : 7,
      "end\_offset" : 11,
      "type" : "CN\_WORD",
      "position" : 10
    },
    {
      "token" : "人民",
      "start\_offset" : 7,
      "end\_offset" : 9,
      "type" : "CN\_WORD",
      "position" : 11
    },
    {
      "token" : "大会堂",
      "start\_offset" : 9,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 12
    },
    {
      "token" : "大会",
      "start\_offset" : 9,
      "end\_offset" : 11,
      "type" : "CN\_WORD",
      "position" : 13
    },
    {
      "token" : "会堂",
      "start\_offset" : 10,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 14
    }
  ]
}

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国，人民大会堂”。

GET /_analyze
{
  "analyzer": "ik\_smart",
  "text": "中华人民共和国人民大会堂"
}

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start\_offset" : 0,
      "end\_offset" : 7,
      "type" : "CN\_WORD",
      "position" : 0
    },
    {
      "token" : "人民大会堂",
      "start\_offset" : 7,
      "end\_offset" : 12,
      "type" : "CN\_WORD",
      "position" : 1
    }
  ]
}

1.4 ik分词器的使用

存储时，使用ik_max_word，搜索时，使用ik_smart，原因也很容易想到：存储时，尽量存储多的可能性，搜索时做粗粒度的拆分

例如，创建以下映射

PUT /my_index 
{
  "mappings": {
      "properties": {
        "text": {
          "type": "text",
          "analyzer": "ik\_max\_word",
          "search\_analyzer": "ik\_smart"
        }
      }
  }
}

2、ik配置文件

ik配置文件地址：插件的config目录下

97a5ab1d98aab5a8142bc9fba0300054 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

部分文件内容如下：

IKAnalyzer.cfg.xml：用来配置自定义词库
main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起，都会按照这个里面的词语去分词，ik原生最重要的两个配置文件之一
preposition.dic: 介词
quantifier.dic：放了一些单位相关的词，量词
suffix.dic：放了一些后缀
surname.dic：中国的姓氏
stopword.dic：包含了英文的停用词，a the and at but等。会在分词的时候，直接被干掉，不会建立在倒排索引中。ik原生最重要的两个配置文件之一

3、自定义词库

3.1 自定义分词词库

每年都会涌现一些特殊的流行词，内卷，耗子尾汁，不讲武德等，这些词一般不会出现在ik的原生词典里，分词的时候也不会把这些词汇当作整个词汇来进行分词。所以需要我们自己补充自己的最新的词语，到ik的词库里面。

就拿耗子尾汁来说，不做自定义分词的效果如下。

f1b18f1a805a10cffe4ec4526a61863c - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

在实际的搜索过程中，肯定不希望把它分词，而是希望把它作为一个整体的词汇。

（1）首先在IK插件的config目录下，有一个IKAnalyzer.cfg.xml文件。

fdea91b4174e078d872c84b92c958f05 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（2）使用Notepad++打开该文件

xml version=<span class="hljs-string""1.0" encoding="UTF-8"?>
"http://java.sun.com/dtd/properties.dtd">

 IK Analyzer 扩展配置

 "ext\_dict">

 "ext\_stopwords">

（3）可以看到上面的提示

e2038b47e7407f26c8e85d6a2fb51ce7 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（4）于是我们创建一个名为mydict.dic的文件，内容如下

0e3bc97c7b240b1f6c0132494fa55a22 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（5）注意如果多个词语，就着下一行接着录入，然后把这个文件放在与配置文件的相同目录下。

45575502174ac033b868ae8f143aede0 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（6）然后再把文件名mydict.dic添加在IKAnalyzer.cfg.xml文件中，然后保存

c22de560f128c444bc65137c61fe5f14 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（7）然后重启es，查看效果

f69c57dc05c9add27e0cfd3150ef8344 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

（9）可以看到，耗子尾汁这个词已经能够作为一个整体的词语来做分词了。

3.2 自定义停用词库

比如了，的，啥，么，我们可能并不想去建立索引，让人家搜索。

做法与上面自定义词库类似，这里只是简单的说一下，比方说建立一个mystop.dic文件，把不想建立的索引的词写进文件，把文件与配置文件放在同一个目录，然后在把文件名写进配置文件对应的位置，如下所示

263a1c91cb752a8898c4ccd45496cb3a - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

然后在重启es，就可以查看效果了。

这样做的一个好处就是，已经有了常用的中文停用词，但是可以补充自己的停用词。

4、热更新词库

4.1 热更新

每次都是在es的扩展词典中，手动添加新词语，很坑

（1）每次添加完，都要重启es才能生效，非常麻烦

（2）es是分布式的，可能有数百个节点，你不能每次都一个一个节点上面去修改

所以引出热更新的解决方案。es不停机，直接我们在外部某个地方添加新的词语，es中立即热加载到这些新词语

热更新的方案

（1）基于ik分词器原生支持的热更新方案，部署一个web服务器，提供一个http接口，通过modified和tag两个http响应头，来提供词语的热更新，这种方式在官网也提到过。https://github.com/medcl/elasticsearch-analysis-ik

![](https://img-blog.csdnimg.cn/img_convert/d3318785414d034d97726a14e18221bb.png)修改了插件配置之后需要重启，如果之后对远程的词库.txt文件修改就不需要再重启ES了，该插件支持热更新分词。

（2）修改ik分词器源码，然后手动支持从数据库中每隔一定时间，自动加载新的词库

一般来说采用第二种方案，第一种，ik git社区官方都不建议采用，觉得不太稳定

4.2 步骤

1、下载源码，https://github.com/medcl/elasticsearch-analysis-ik/releases

ik分词器，是个标准的java maven工程，直接导入idea就可以看到源码

2、修改源

org.wltea.analyzer.dic.Dictionary类，160行Dictionary单例类的初始化方法，在这里需要创建一个我们自定义的线程，并且启动它

org.wltea.analyzer.dic.HotDictReloadThread类：就是死循环，不断调用Dictionary.getSingleton().reLoadMainDict()，去重新加载词典

Dictionary类，399行：this.loadMySQLExtDict(); 加载mysql字典。

Dictionary类，609行：this.loadMySQLStopwordDict();加载mysql停用词

config下jdbc-reload.properties。mysql配置文件

3、mvn package打包代码

target\releases\elasticsearch-analysis-ik-7.3.0.zip

4、解压缩ik压缩包

将mysql驱动jar，放入ik的目录下

5、修改jdbc相关配置

6、重启es

观察日志，日志中就会显示我们打印的那些东西，比如加载了什么配置，加载了什么词语，什么停用词

7、在mysql中添加词库与停用词

8、分词实验，验证热更新生效

这里只是大概的一个步骤，具体情况按照自己的业务逻辑进行开发。

如果您觉得阅读本文对您有帮助，请点一下“**推荐**”按钮，您的**“推荐”**将是我最大的写作动力！欢迎各位转载，但是未经作者本人同意，转载文章之后**必须在文章页面明显位置给出作者和原文连接**，否则保留追究法律责任的权利。

转载请注明：xuhss » ElasticSearch7.3学习(十五)—-中文分词器(IK Analyzer)及自定义词库

xuhss 简单、充实的学习

ElasticSearch7.3学习(十五)—-中文分词器(IK Analyzer)及自定义词库

Python微信订餐小程序课程视频

Python实战量化交易理财系统

1、中文分词器

1.1 默认分词器

1.2 安装ik分词器

1.3 ik分词器基础知识

1.4 ik分词器的使用

2、ik配置文件

3、自定义词库

3.1 自定义分词词库

3.2 自定义停用词库

4、热更新词库

4.1 热更新

4.2 步骤

您必须登录才能发表评论！

Python微信订餐小程序课程视频

Python实战量化交易理财系统

1、 中文分词器

1.1 默认分词器

1.2 安装ik分词器

1.3 ik分词器基础知识

1.4 ik分词器的使用

2、ik配置文件

3、自定义词库

3.1 自定义分词词库

3.2 自定义停用词库

4、热更新词库

4.1 热更新

4.2 步骤

您必须 登录 才能发表评论！

1、中文分词器

您必须登录才能发表评论！