iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >Elasticsearch聚合的方法怎么用
  • 830
分享到

Elasticsearch聚合的方法怎么用

2023-06-05 02:06:42 830人浏览 八月长安
摘要

本篇内容介绍了“elasticsearch聚合的方法怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、前言聚合是一种基于搜索的数据汇总

本篇内容介绍了“elasticsearch聚合的方法怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

一、前言

聚合是一种基于搜索的数据汇总,通过组合可以完成复杂的操作。聚合可以对文档进行汇总、分组等。通过聚合,我们会得到一个数据的概览,是分析和总结一律的数据,而不是寻觅单个文档。

二、分类

  • Bucket Aggregation:少量列满足特定条件的文档的集合,相似MySQL的“group by”

  • Metric Aggregation:少量数学运算,可以对文档字段进行统计分析,比方max、min、sum等。

  • Pipeline Aggregation:对其余的聚合结果进行二次聚合

  • Matrix Aggregation:支持对多个字段的操作并提供一个结果矩阵,7.x版本合并到Metric Aggregation中了。

三、聚合结构

{    "size": 0,     ["query": {}, ]?    "aggs" : {        "${my_name}" : {            "${aggregation_type}" : {                <aggregation_body>            }            [,"meta" : {  [<meta_data_body>] } ]?            [,"aggs" : { [<sub_aggregation>]+ } ]?        }        [,"${my_name}" : { ... } ]*    }}
  • 聚合可以进行嵌套,比方上面的“aggs”内部又嵌套了一个“aggs”

  • “aggs”是简写,也可以写完整“aggregations”

  • 最上面的“size”一般设置为0,聚合操作用于统计数据,无需输出文档

  • query 查询,可选

  • my_name 自己设置名字

四、测试数据

使用kibana导入“kibana_sample_data_flights”,这个是飞机的航班信息,有地区、价格、天气等信息。

操作路径:Home --> 增加数据 --> 样例数据 --> Sample flight data

五、Bucket Aggregation

1、子聚合

根据目的地(DestCountry)进行分组,查看航班的数量

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry"      }    }  }}

2、数字区间分组

根据价格区间进行分组,比方0到100元多少个,100到200元多少个

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {     // 自己设置名字      "histogram": {        "field": "AvgTicketPrice",        "interval": 100     // 指定区间      }    }  }}

输出的结果中,key为“100.0”代表0到100.0的数据,计算公式如下

bucket_key = Math.floor(value / interval) * interval

3、日期区间分组

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {      "date_histogram": {        "field": "timestamp",        "calendar_interval": "month"      }    }  }}

注意:日期间隔设置,7.x版本用“calendar_interval”,老版本用“interval”。

支持的时间间隔表达式

  • 分钟:minute, 1m

  • 小时:hour, 1h

  • 天:day, 1d

  • 星期:week, 1w

  • 月:month, 1M

  • 季度:quarter, 1q

  • 年:year, 1y

六、Metric Aggregation

计算度量这类的聚合操作是以使用一种方式或者者从文档中提取需要聚合的值为基础的。这些数据不但可以从文档(使用数据属性)的属性中提取出来,也可以使用脚本生成。

支持max、min、count、sum、avg、stats(各种统计信息)、cardinality(去重后数量)、percentiles(百分位)、geo_bounds(地理边界)

1、最值

输出航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "max_price": {      "max": {        "field": "AvgTicketPrice"      }    },    "mix_price": {      "min": {        "field": "AvgTicketPrice"      }    }  }}

2、嵌套操作

输出各个目的地航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "dest_count":{      "terms": {        "field": "DestCountry"      },      "aggs": {        "max_price": {          "max": {            "field": "AvgTicketPrice"          }        },        "min_price": {          "min": {            "field": "AvgTicketPrice"          }        }      }    }  }}

3、stats

一次性输出各种统计结果,包括count、min、max、sum、avg

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_stats":{      "stats": {        "field": "AvgTicketPrice"      }    }  }}

4、cardinality

去重后数量统计

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_cardinality":{      "cardinality": {        "field": "DestCountry"      }    }  }}

5、top_hits

top_hits 操作,最开头的几个文档。
获取去每个国家的航班的最小价格,下面的“"size": 5”代表获取5个国家的航班,“"size": 2”代表最低的2个价格。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_count": {      "terms": {        "field": "DestCountry",        "size": 5      },      "aggs": {        "my_min_price": {          "top_hits": {            "size": 2,            "sort": [              {                "AvgTicketPrice": {                  "order": "asc"                }              }            ]          }        }      }    }  }}

6、ranges 自己设置范围分组

比方下面,小于200一个分组,200到500一个分组,大于500个分组,可以指定输出的key。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_price_range":{      "range": {        "field": "AvgTicketPrice",        "ranges": [          {            "to": 200          },          {            "from": 200,            "to": 500          },          {            "key": ">500",             "from": 500          }        ]      }    }  }}

7、百分位聚合

百分位聚合,可以利用百分位聚合的结果评估数据分布,判断数据能否扭曲,判断数据能否双峰分布等。压测的时候经常使用,比方95百分位对应的值表示这个值大于95%的所有值。假设结果是“10%:12ms ,..., 70%:55ms, 99%:100ms”,说明通常情况下(70%),网页的响应时间在12ms~55ms,99%的网页在100ms内加载完成。

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_price_percentiles":{      "percentiles": {        "field": "AvgTicketPrice",        "percents": [          1,          5,          25,          50,          75,          95,          99        ]      }    }  }}

8、地理边界聚合

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_geo_bounds": {      "geo_bounds": {        "field": "DestLocation",        "wrap_longitude": true      }    }  }}

9、优化 Terms 聚合的性能

设置 eager_global_ordinals 为true,会在内存中预先加载这些数据。

七、Pipeline Aggregation

对聚合分析的结果再次做聚合分析。

分两类

  • Sibling:结果和现有分析结果同级。有min_bucket、max_bucket、avg_bucket、sum_bucket、stats_bucket、percentiles_bucket

  • Parent:结果内嵌到现有的聚合分析结果之中。有derivative(差值,与前一个的差值,用于看趋势)、cumulative_sum(累计求和)、moving_avg(移动平均,数据在一个固定大小窗口里的平均值)

说明,bucket_path参数,指定路径,假如是二级路径,注意有一个“>”。

1、Sibling的例子

根据不同的目的地获取平均票据,并对这些平均票价做分析。
注意,my_distancemy_avg_pricemy_result这三个是自己设置的变量名,buckets_path指定路径。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry"      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        }      }    },    "my_result": {      "stats_bucket": {        "buckets_path": "my_distance>my_avg_price"      }    }  }}

2、Parent的例子

统计每50km的平均票价,并查看其波动

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "histogram": {        "field": "DistanceKilometers",        "interval": 50      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        },        "my_result": {          "derivative": {            "buckets_path": "my_avg_price"          }        }      }    }  }}

八、排序

根据数量(_count)进行排序,数量相同根据返回的key进行排序

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry",        "order": [          {            "_count": "asc"          },          {            "_key": "desc"          }        ]      }    }  }}

根据最终返回的结果进行排序,比方下面的my_stats

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry",        "order": {          "my_stats.min": "asc"        }      },      "aggs": {        "my_stats": {          "stats": {            "field": "AvgTicketPrice"          }        }      }    }  }}

九、聚合分析的原理及精准度问题

Elasticsearch聚合的方法怎么用

聚合分析

Terms 聚合分析不准的起因,数据分散在多个分片上,Coordinating node 无法获取数据全貌。

打开 show_term_doc_count_error,可以多看到两个返回值。

  • doc_count_error_upper_bound:被遗漏的term 分桶,包含的文档,有可能的最大值

  • sum_other_doc_count:除了返回结果 bucket的 terms 以外,其余 terms 的文档总数(总数-返回的总数)

Elasticsearch聚合的方法怎么用

Trems 不正确的案例

那么如何处理呢?

  • 处理方案 1:当数据量不大时,设置 Primary Shard 为 1;实现精确性。

  • 处理方案 2:在分布式数据上,设置 shard_size 参数,提高准确度。原理:每次从 Shard 上额外多获取数据,提升精确率,但会降低响应时间。

shard_size 的默认大小 “shard_size = size * 1.5 * 10”,可以根据自己的需要进行设置。

“Elasticsearch聚合的方法怎么用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: Elasticsearch聚合的方法怎么用

本文链接: https://www.lsjlt.com/news/240871.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • c#程序自启动怎么设置
    c# 程序的自启动方法有三种:注册表:在指定注册表项下创建新值,并将其设置为程序可执行文件路径。任务计划程序:创建一个新任务,并在触发器和动作部分分别指定登录时或特定时间触发,以及启动程...
    99+
    2024-05-14
    c#
  • c#怎么调用dll文件
    可在 c# 中轻松调用 dll 文件:引用 dll(使用 dllimport 特性)定义与 dll 函数签名匹配的函数原型调用 dll 函数(如同 c# 函数)附加技巧:使用 chars...
    99+
    2024-05-14
    c#
  • 如何构建 Golang RESTful API,并实现 CRUD 操作?
    通过创建 golang 项目并安装必要的包,我们可以构建一个功能齐全的 restful api。它使用 mysql 数据库进行 crud 操作:1. 创建和连接数据库;2. 定义数据结构...
    99+
    2024-05-14
    go crud mysql git golang
  • c#怎么添加类文件
    在c#中添加类文件的步骤:1. 创建新项目,2. 添加新类,3. 为类添加代码,4. 在另一个类中引用新类。using语句引用类文件所在的命名空间;new运算符创建类的新实例;点运算符访...
    99+
    2024-05-14
    c#
  • 使用 C++ 构建高性能服务器架构的最佳实践
    遵循 c++++ 中构建高性能服务器架构的最佳实践可以创建可扩展、可靠且可维护的系统:使用线程池以重用线程,提高性能。利用协程减少上下文切换和内存开销,提升性能。通过智能指针和引用计数优...
    99+
    2024-05-14
    c++ 高性能服务器架构 数据访问
  • c#怎么添加字段
    在 c# 中添加字段包括以下步骤:声明字段:在类或结构中使用 字段类型 字段名; 语法声明字段。访问修饰符:用于限制对字段的访问,如 private、public、protected 和...
    99+
    2024-05-14
    c#
  • c#中怎么添加引用
    c# 中添加引用的方法有四种:使用 nuget 包管理器添加软件包。添加项目引用以包含其他项目。手动编辑项目文件 (.csproj) 以添加引用。从编译器命令行使用 /reference...
    99+
    2024-05-14
    c#
  • c#怎么创建文本文件
    在 c# 中创建文本文件的方法包括:创建 filestream 对象以打开或创建文件。使用 streamwriter 写入文本至文件。关闭 streamwriter 对象释放资源。关闭 ...
    99+
    2024-05-14
    c#
  • c#怎么定义属性
    如何在 c# 中定义属性 属性是一种编程构造,它包含一个 get 访问器和一个 set 访问器,允许以一种类属性的方式访问字段。它们提供了一种安全且封装的方式来访问和修改类的内部数据。 ...
    99+
    2024-05-14
    c#
  • 基于 C++ 的服务器架构的安全性考虑因素
    在设计基于 c++++ 的服务器架构时,安全考虑至关重要:使用 std::string 或 std::vector 避免缓冲区溢出。使用正则表达式或库函数验证用户输入。采用输出转义防止跨...
    99+
    2024-05-14
    安全性 关键词: c++ 服务器架构 c++ lsp
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作