IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> elasticsearch之bucket aggregations -> 正文阅读

[大数据]elasticsearch之bucket aggregations

引言

Bucket aggregations本文译为桶聚合
桶聚合(bucket aggregation)不像指标聚合(Metric aggregation)那样计算字段的指标,而是创建文档存储桶。 每个存储桶都与一个标准(取决于聚合类型)相关联,该标准确定当前上下文中的文档是否“落入”其中。 换句话说,存储桶有效地定义了文档集。 除了存储桶本身之外,存储桶聚合还计算并返回落入每个存储桶的文档数量。

1.Terms Aggregation

术语聚合(Terms Aggregation)在文档的指定字段中搜索唯一值,并为找到的每个唯一值构建存储桶。
给出一个稍微复杂的例子:获取每个每个国家中每个省份的平均年龄

GET users/_search
{
  "size": 0,
  "aggs": {
    "countries": {
      "terms": {
        "field": "country"
      },
      "aggs": {
        "provinces": {
          "terms": {
            "field": "province"
          },
          "aggs": {
            "average_age": {
              "avg": {
                "field": "age"
              }
            }
          }
        }
      }
    }
  }
}

响应结果:

  "aggregations" : {
    "countries" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "cn",
          "doc_count" : 3,
          "countries" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "zhejiang",
                "doc_count" : 2,
                "average_age" : {
                  "value" : 32.0
                }
              },
              {
                "key" : "shanghai",
                "doc_count" : 1,
                "average_age" : {
                  "value" : 30.0
                }
              }
            ]
          }
        },
        {
          "key" : "us",
          "doc_count" : 3,
          "countries" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "newyork",
                "doc_count" : 2,
                "average_age" : {
                  "value" : 33.0
                }
              },
              {
                "key" : "pennsylvania",
                "doc_count" : 1,
                "average_age" : {
                  "value" : 44.0
                }
              }
            ]
          }
        }
      ]
    }

从结果可以看到terms agg返回是各个buckets,每个bucket都有对应的key和属于该桶的文档数doc_count。默认情况下,响应将返回10个桶。当然也可以指定size参数改变返回的桶的数量。
下面说下对应的参数含义和用途

  • size:size 参数指定返回的桶的数量,默认值10。当size的值小于对应field真实个数时,返回的doc_count可能不是精确的。

官方给出了详细的例子,总结就是,因为每个shard节点都有返回最合适size个结果,然后基于每个shard节点的结果,给出最终合适的size结果给客户端,这就存在误差,比如某个term在其中一个节点的文档数小于top size的排序,则这个节点的term的文档数,不会返回作为最终结果的一部分,导致数据不准确。

  • shard_size:上面讲到size的大小可能影响数据的精确,当我们每次查询都把size设置超大的时候是可以保证数据的精确,但是代价也是很大的,因为每个shard节点都要获取size大小返回到客户端,最终得到最优的结果,(特殊是数据规模较大的数据)导致es内部网络开销比较大,而且shard节点返回的大部分数据都是无用的。所以就有了shard_size可以控制每个shard节点返回对应的size的大小。默认情况下,shard_size的大小为 (size * 1.5 + 10)
  • sum_other_doc_count:表示不在size分桶中文档个数。
  • doc_count_error_upper_bound:这个值表示的是在聚合中,没有在最终结果中的term最大可能有doc_count_error_upper_bound个文档。这是ES预估可能出现的最坏的结果,它的计算公式是每个shard节点最后一个term文档数之和(例如size是10,就是取每个shard排序第10个term文档数之和)
  • show_term_doc_count_error:显示每个分桶可能错误的上限。是个boolean值,默认是false,需改为true,才会显示。它的计算方式是:响应结果中的term,把没有返回该term的shard节点,最后一个term文档数加起来之和。(例如响应结果中有anhui,但是其中有一个shard节点,该anhuiterm并没有在前size中,那么该值就是第sizeterm文档数)。
  • order:聚合结果按照指定域排序。默认情况下,是按照doc_count降序排序的。返回对应size个分桶。
举几个例子
按照文档数升序
"order" : { "_count" : "asc" }
按照term字符串升序
"order" : { "_term" : "asc" }
还可以按照子聚合的参数进行排序,建议到官网查看。
  • min_doc_count:限制响应结果的最小文档数,如果桶中文档数小于指定的文档数,将不会响应给客户端,默认值1。
  • includeexclude:根据业务只展示有需要的term。
{
    "aggs" : {
        "tags" : {
            "terms" : {
                "field" : "tags",
                "include" : ".*sport.*",
                "exclude" : "water_.*"
            }
        }
    }
}

{
    "aggs" : {
        "JapaneseCars" : {
             "terms" : {
                 "field" : "make",
                 "include" : ["mazda", "honda"]
             }
         },
        "ActiveCarManufacturers" : {
             "terms" : {
                 "field" : "make",
                 "exclude" : ["rover", "jensen"]
             }
         }
    }
}
  • 分组:当响应返回大量的桶时,我们可以把这些桶进行分组,然后分组处理。
{
   "size": 0,
   "aggs": {
      "expired_sessions": {
         "terms": {
            "field": "account_id",
            "include": {
               "partition": 0,
               "num_partitions": 20
            },
            "size": 10000,
            "order": {
               "_term": "asc"
            }
         }
      }
   }
}

例如上面的分组,account_id存在大量的不同值,所以采用分组返回,分组字段为:num_partitions, 获取对应分组的数据为partition,范围为[0-num_partitions-1],每个分组的大小为:size

分组内的排序不是全局排序,只是当前分组内数据的排序。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 11:33:51  更:2021-07-24 11:34:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 0:08:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码