一、 内置分词器
ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es。查询分析则主要分为两个步骤:
- 词条化:分词器将输入的文本转为一个一个的词条流。
- 过滤:比如停用词过滤器会从词条中去除不相干的词条(的,嗯,啊,呢);另外还有同义词过滤器、小写过滤器等。
ElasticSearch 中内置了多种分词器可以供使用。
分词器 | 作用 |
---|
Standard Analyzer | 标准分词器使用于英语 | Simple Analyzer | 简单分词器,基于非字母字符进行分词,将单词转化为小写字母 | Whitespace Analyzer | 空格分词器,会依据空格进行分词 | Stop Analyzer | 类似于简单分词器,但是添加了停用词的功能 | KeyWord Analyzer | 关键词分词器,输入文本等于输出文本 | Pattern Analyzer | 利用正则表达式切分 | Language Analyzer | 正对于特定语言分词 | Fingerprint Analyzer | 指纹分析仪分词器,通过创建标记进行重复检测 |
二、中文分词器
在 Es 中,使用较多的中文分词器是 elasticsearch-analysis-ik,这个是 es 的一个第三方插件,代码托管在 GitHub 上:
https://github.com/medcl/elasticsearch-analysis-ik
三、安装中文分词器
两种使用方式:(选择分词器版本是尽量选择和es版本一致的)
1、首先打开分词器官网:https://github.com/medcl/elasticsearch-analysis-ik。
2、在 https://github.com/medcl/elasticsearch-analysis-ik/releases 页面找到最新的正式版,下载下来。我们这里的下载链接是 https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip。
3、将下载文件解压。
4、在 es/plugins 目录下,新建 ik 目录,并将解压后的所有文件拷贝到 ik 目录下。
5、重启 es 服务。
./bin/elasticsearch-plugin install https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip
安装成功
四、测试中文分词器
- es 重启成功后,首先创建一个名为 test 的索引:
- 在该索引中进行分词测试:
不用分词器 使用分词器
|