IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Elasticsearch词频统计实现 -> 正文阅读

[大数据]Elasticsearch词频统计实现

IK分词器 & pinyin分词器的安装

ES的安装目录下执行

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.2.0/elasticsearch-analysis-ik-7.2.0.zip

若是离线安装可以使用下列命令

cd plugins/
mkdir ik
mkdir pinyin
unzip ../plugin-zips/elasticsearch-analysis-ik-7.5.1.zip -d plugins/ik

IK分词器的说明

ik_max_word 和 ik_smart 什么区别

ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合

ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”

下面的例子使用ik_max_word并需要启用 fielddata 的能力


PUT message_index
{
   "mappings": {
       "properties":{
            "message": {
               "analyzer": "ik_max_word",
               "term_vector": "with_positions_offsets",
                "boost": 8,
                "type": "text",
                "fielddata":"true"
            }
        }
  }
}

POST message_index/_doc/1
{
  "message":"《原神》霄宫角色PV——「鸣神岛夏天的象征」"
}

POST message_index/_doc/2
{
  "message":"原神神里和霄宫该如何选择?全网最强评测"
}

POST message_index/_doc/3
{
  "message":"原神:雷神心口拔刀,一刀斩败主角,最后还嫌我太慢抽完万叶抽神里,没有人比我更懂原神保底"
}

POST message_index/_doc/4
{
  "message":"原神:神里怎么会加血?雷神稳稳的了,常驻池五虎上将齐了"
}

POST message_index/_doc/4
{
  "message":"将会出现雷神和心海,还会有个神秘的5星角色原神"
}

POST message_index/_doc/5
{
  "message":"氪金原神2.0,脸黑无下限!亏到自闭!"
}

POST message_index/_doc/6
{
  "message":"我宣布原神氪金不再适合我,歪到大气层外面的万叶不抽也罢"
}

POST message_index/_doc/7
{
  "message":"联合参展视频烟绯生日快乐哦"
}

POST message_index/_doc/8
{
  "message":"可莉的生日礼物《原神》拾枝杂谈"
}

POST message_index/_doc/9
{
  "message":"神里怎么会加血?雷神稳稳的了,常驻池五虎上将齐了"
}

执行并查看结果


POST message_index/_search
{
   "size" : 0,  
    "aggs" : {   
        "messages" : {   
            "terms" : {   
               "size" : 15,
              "field" : "message"
            }  
        }  
    }
}

## 返回结果
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 9,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "messages" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 91,
      "buckets" : [
        {
          "key" : "神",
          "doc_count" : 8
        },
        {
          "key" : "原",
          "doc_count" : 7
        },
        {
          "key" : "的",
          "doc_count" : 4
        },
        {
          "key" : "里",
          "doc_count" : 3
        },
        {
          "key" : "雷",
          "doc_count" : 3
        },
        {
          "key" : "万",
          "doc_count" : 2
        },
        {
          "key" : "叶",
          "doc_count" : 2
        },
        {
          "key" : "和",
          "doc_count" : 2
        },
        {
          "key" : "宫",
          "doc_count" : 2
        },
        {
          "key" : "氪",
          "doc_count" : 2
        },
        {
          "key" : "生日",
          "doc_count" : 2
        },
        {
          "key" : "角色",
          "doc_count" : 2
        },
        {
          "key" : "金",
          "doc_count" : 2
        },
        {
          "key" : "霄",
          "doc_count" : 2
        },
        {
          "key" : "2.0",
          "doc_count" : 1
        }
      ]
    }
  }
}
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-07 12:09:17  更:2021-08-07 12:10:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/17 20:15:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码