IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> ik分词器 -> 正文阅读

[大数据]ik分词器

? ? ? ? 大家好,我是javaBoy_ahua,昨天我写了一篇关于elasticsearch的文章,也提到过分词这个概念。

? ? ? ? 分词无非就是将一句话或者是要搜索的关键字分分成很多个词语,再举个栗子。还是拿百度举例子:

?可以看到,可以搜索到我的博客,但是下面是不是还有些别的信息呀,比如说Java,是吧,这就有了一个分词的概念了,咱们搜索的是javaBoy_ahua 那javaBoy_ahua的权重肯定是最高的,所以我博客的信息排在最前面,然后就是java,它可以根据javaBoy_ahua,分成java,boy,ahua,javaBoy,_ahua等等,我叙述的可能不是很直观,所以还是直接看代码:

可以看到,“旺仔雷猴啊”,分成了 "旺"、“仔”、“雷猴啊”?,唉~

现在就有小伙伴问了,为什么“雷猴啊",都拼接出来了,“旺仔”怎么就是分开的呢???

问的好,为什么呢,因为我自己扩展的字典里没有加入旺仔,加入了雷猴啊,后面我会教大家怎么去扩张自己的字典,现在先不要方,但是大家现在一定要记住这个列子哟,是为后面做伏笔的。

over,ik分词器的作用应该都知道了吧,下面咱们安装直接上教程:

首先咱们得去下载ik分词器这个插件,下载地址:https://github.com/medcl/elasticsearch-analysis-ik

下载完之后直接找到咱们的elasticsearch下面的plugins,新建一个一个IK的文件夹,把下载好的ik放在里面解压好,再重写启动elasticsearch就可以使用咱们的ik分词插件啦.。

使用的语法:

?关于ik_max_word和ik_smart的区别的话,是一个颗粒度的一个区别,就是一个分的更细一点,一个分的更粗糙一点。

????????over~后面我就可以去扩展,咱们的字典啦,等下,为什么要扩展咱们的字典?因为ik没有咱们想的那么智能,就比如,一些不存在的词语,我们最近才发明的,比如之前很火的 什么 “绝绝子” 这种网络热词,一开始我也还不知道是什么意思,我说哎,大家为什么都 绝绝子,绝绝子这样说,是我与时代落伍了吗哈哈哈哈,我作为oo后都表示不解,over~回归正题,就对于这种自造的新词汇,ik分词器肯定是识别不了的,所以要分词这种词语,就得我们最近去字典里面,去加。

? ? ? ? 当然扩展字典得是配置好咱们ik分词器才能用哦,如果还没有配好的,请重新看这篇文章,一看就没有好好看哈哈哈。

找到咱们elasticsearch下面的plugins\IK\config

看到唯一xml为后缀的文件了吗,编辑它

?看到custom.dic了吗,那是我自己加的,大家就可以再相同的位置,写上自己扩张字典的名字,然后退出去,对照这个字典名称建一个以dic结尾的文件,然后再去编辑咱们的那个文件。

在里面加上旺仔

?大家还记得我刚开始说的伏笔吗,就是只查到了雷猴啊,没有拼接出来旺仔的那个现在我加了一个旺仔,再去执行一下。刚刚试了一下,没效果,怎么回事?忘记重启elasticsearch啦哈哈哈

再来:

悟了吗,是不是,“旺仔”,“雷猴啊”都分出来啦

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-29 09:09:56  更:2021-08-29 09:26:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 16:57:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码