| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> ik分词器 -> 正文阅读 |
|
[大数据]ik分词器 |
? ? ? ? 大家好,我是javaBoy_ahua,昨天我写了一篇关于elasticsearch的文章,也提到过分词这个概念。 ? ? ? ? 分词无非就是将一句话或者是要搜索的关键字分分成很多个词语,再举个栗子。还是拿百度举例子: ?可以看到,可以搜索到我的博客,但是下面是不是还有些别的信息呀,比如说Java,是吧,这就有了一个分词的概念了,咱们搜索的是javaBoy_ahua 那javaBoy_ahua的权重肯定是最高的,所以我博客的信息排在最前面,然后就是java,它可以根据javaBoy_ahua,分成java,boy,ahua,javaBoy,_ahua等等,我叙述的可能不是很直观,所以还是直接看代码: 可以看到,“旺仔雷猴啊”,分成了 "旺"、“仔”、“雷猴啊”?,唉~ 现在就有小伙伴问了,为什么“雷猴啊",都拼接出来了,“旺仔”怎么就是分开的呢??? 问的好,为什么呢,因为我自己扩展的字典里没有加入旺仔,加入了雷猴啊,后面我会教大家怎么去扩张自己的字典,现在先不要方,但是大家现在一定要记住这个列子哟,是为后面做伏笔的。 over,ik分词器的作用应该都知道了吧,下面咱们安装直接上教程: 首先咱们得去下载ik分词器这个插件,下载地址:https://github.com/medcl/elasticsearch-analysis-ik 下载完之后直接找到咱们的elasticsearch下面的plugins,新建一个一个IK的文件夹,把下载好的ik放在里面解压好,再重写启动elasticsearch就可以使用咱们的ik分词插件啦.。 使用的语法: ?关于ik_max_word和ik_smart的区别的话,是一个颗粒度的一个区别,就是一个分的更细一点,一个分的更粗糙一点。 ????????over~后面我就可以去扩展,咱们的字典啦,等下,为什么要扩展咱们的字典?因为ik没有咱们想的那么智能,就比如,一些不存在的词语,我们最近才发明的,比如之前很火的 什么 “绝绝子” 这种网络热词,一开始我也还不知道是什么意思,我说哎,大家为什么都 绝绝子,绝绝子这样说,是我与时代落伍了吗哈哈哈哈,我作为oo后都表示不解,over~回归正题,就对于这种自造的新词汇,ik分词器肯定是识别不了的,所以要分词这种词语,就得我们最近去字典里面,去加。 ? ? ? ? 当然扩展字典得是配置好咱们ik分词器才能用哦,如果还没有配好的,请重新看这篇文章,一看就没有好好看哈哈哈。 找到咱们elasticsearch下面的plugins\IK\config 看到唯一xml为后缀的文件了吗,编辑它 ?看到custom.dic了吗,那是我自己加的,大家就可以再相同的位置,写上自己扩张字典的名字,然后退出去,对照这个字典名称建一个以dic结尾的文件,然后再去编辑咱们的那个文件。 在里面加上旺仔 ?大家还记得我刚开始说的伏笔吗,就是只查到了雷猴啊,没有拼接出来旺仔的那个现在我加了一个旺仔,再去执行一下。刚刚试了一下,没效果,怎么回事?忘记重启elasticsearch啦哈哈哈 再来: 悟了吗,是不是,“旺仔”,“雷猴啊”都分出来啦 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 16:57:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |