| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Elasticsearch 中文分词器 IK 的安装与使用 -> 正文阅读 |
|
[大数据]Elasticsearch 中文分词器 IK 的安装与使用 |
前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
正文ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 那么我们接下来就来安装IK分词器,以实现中文的分词 第一步:三台机器安装IK分词器
三台机器执行以下命令停止es服务并重启es服务
第二步、创建索引库并配置IK分词器
第三步、查看分词效果在kibana当中执行以下查询,并验证分词效果
第四步、插入测试数据
查看分词器 对"希拉里和韩国"进行分词查询 ikmaxword分词后的效果:希|拉|里|希拉里|和|韩国
第五步、配置热词更新查看分词效果
WHY?我们会发现,随着时间的推移和发展,有些网络热词我们并不能进行分词,因为网络热词并没有定义在我们的词库里面,这就需要我们经常能够实时的更新我们的网络热词,我们可以通过 1、node03配置Tomcat使用hadoop用户来进行配置tomcat,此处我们将tomcat装在node03机器上面即可,将我们的tomcat安装包上传到node03服务器的/opt/bigdata/soft路径下,然后进行解压
tomcat当中添加配置hot.dic
启动tomcat
浏览器访问以验证tomcat是否安装成功
如果能够访问到,则证明tomcat安装成功 2、 三台机器修改配置文件三台机器都要修改es的配置文件(使用es用户来进行修改即可)
修改完成之后拷贝到node02与node03机器上面去
3、三台机器重新启动es三台机器重新启动es服务,三台机器先使用kill -9杀死es的服务,然后再执行以下命令进行重启
在kibana当中执行以下命令,查看我们的分词过程
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 13:04:06- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |