Hive数据去重的两种方式 (distinct和group by)

hive数据去重复 hive 数据去重 hive删除重复数据 2023-01-03 12:01:54 608人浏览泡泡鱼

摘要

目录1.distinct消除重复行2.group by 分组语句3.区别总结实现数据去重有两种方式：distinct 和 group by 1.distinct消除重复行 dist

1.distinct消除重复行

distinct支持单列、多列的去重方式。

单列去重的方式简明易懂，即相同值只保留1个。

多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才会被认为是重复的信息。

(1)作用于单列

　　select distinct name from A    //对A表的name去重然后显示

(2)作用于多列

　　select distinct id,name from A   //对A表的id和name去重然后显示

注意，distinct作用于多列的时候只在开头加上即可，并不用每个字段都加上。

　　 distinct必须在开头，在中间是不可以的，会报错。

　　select id,distinct name from A   //错误

(3)配合count使用

　　select count(distinct name) from A  //对A表的不同的name进行计数

2.group by 分组语句

  　　select name from A group by name   //跟上述等价,对name分组，相当于去重。

　　在使用group by的时候，前边一般会有聚合语句，例如sum，一些没有聚合的字段必须要加到group by 后边。

　　 select a,sum(b) from A group by a   //后边必须要有a，否则报错

3.区别

其实二者没有什么可比性，但是对于不包含聚集函数的GROUP BY操作来说，和DISTINCT操作是等价的。不过虽然二者的结果是一样的，但是二者的执行计划并不相同。

distinct只是将重复的行从结果中出去；

group by是按指定的列分组，一般这时在select中会用到聚合函数。

distinct是把不同的记录显示出来。

group by是在查询时先把纪录按照类别分出来再查询。

group by 必须在查询结果中包含一个聚集函数，而distinct不用。

总结

到此这篇关于Hive数据去重的两种方式的文章就介绍到这了,更多相关Hive数据去重内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Hive数据去重的两种方式 (distinct和group by)

本文链接: https://www.lsjlt.com/news/176449.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Hive数据去重的两种方式 (distinct和group by)

目录1.distinct消除重复行2.group by 分组语句3.区别总结实现数据去重有两种方式：distinct 和 group by 1.distinct消除重复行 distinct支持单列、多列的去重方式。单...

99+

2023-01-03

hive数据去重复 hive 数据去重 hive删除重复数据
Hive数据去重的两种方式 (distinct和group by)

目录1.distinct消除重复行2.group by 分组语句3.区别总结实现数据去重有两种方式：distinct 和 group by 1.distinct消除重复行 dist...

99+

2023-01-03

hive数据去重复 hive 数据去重 hive删除重复数据
MySQL去重中distinct和group by的区别浅析

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）我把问题的过程用sql语句演示给大家演示一下首先我使用的是myBATis-p...

99+

2024-04-02
MySQL去重中distinct和group by的区别浅析

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）我把问题的过程用sql语句演示给大家演示...

99+

2022-11-13

mysql去重distinct和group by mysql distinct group by MySQL去重复
Mysql中distinct与group by的去重方面的区别

distinct简单来说就是用来去重的，而group by的设计目的则是用来聚合统计的，两者在能够实现的功能上有些相同之处，但应该仔细区分。单纯的去重操作使用distinct，速度是快于group by的...

99+

2024-04-02
Oracle listagg去重distinct的三种方式总结

目录一、简介二、方法【a】第一种方法【b】第二种方法【c】第三种方法三、总结一、简介最近在工作中，在写oracle统计查询的时候，遇到listagg聚合函数分组聚合之后出现很多重复数据的问题，于是研究了一下lista...

99+

2022-11-18

Oracle listagg去重distinct Oracle listagg去重 listagg去重distinct
详解mysql数据去重的三种方式

目录一、背景二、数据去重三种方法使用1.通过MySQL DISTINCT：去重（过滤重复数据）2.group by3.row_number窗口函数三、总结一、背景最近在和系统模块...

99+

2024-04-02
mysql通过group by分组取最大时间对应数据的两种有效方法

1、项目记录表project_record的结构和数据如下：以下为项目记录表project_record的所有数据。project_id为项目Id，on_project_time...

99+

2024-04-02
七种JS实现数组去重的方式

目录1.利用Set()+Array.from() 2.利用两层循环+数组的splice方法 3.利用数组的indexOf方法 4.利用数组的includes方法 5.利用数组的fil...

99+

2024-04-02
mysql通过group by分组取最大时间对应的数据，提供两种有效方法。

1、项目记录表project_record的结构和数据如下：以下为项目记录表project_record的所有数据。project_id为项目Id，on_project_time为上项目时间。（每一条数据代表着上某个项目（project...

99+

2023-09-03

sql 数据库 java
Android解析JSON格式数据的两种方式(JSONObject和Gson)

目录Json数据JSONObjectGSON添加依赖实际操作实体类总结Json数据接下来主要学习在Android中使用两种解析方式：JSONObject和Gson。 JSONObj...

99+

2024-04-02
SQL中去除重复数据的几种方法汇总(窗口函数对数据去重)

目录方法1：distinct方法2：group by方法3：窗口函数使用SQL对数据进行提取和分析时，我们经常会遇到数据重复的场景，需要我们对数据进行去重后分析。以某电商公司的销售报表为例，常见的去重方法我们用到dis...

99+

2023-05-05

sql去除重复数据 sql去重复
Mybatis批量插入数据的两种方式

总体描述软件开发过程中需要批量插入数据的场景有几种：从离线文件(excel， csv等)导入大批量数据到系统。从其它系统定时或者人工同步大批量数据到系统。程序自身的某些算法执行时会生成大批量数据保...

99+

2023-09-07

mybatis java 开发语言 batch insert
SpringBoot整合多数据源的两种方式

⭐️作者简介：一个力求全干的Java后端开发者。💗个人主页：CVcode码农的博客 👉当前专栏：SpringBoot整合篇✔️本文内容：多数据源的配置，项目中如果需...

99+

2023-09-13

spring boot java mybatis mysql 面试
Python实现列表拼接和去重的三种方式

目录列表拼接三种方式方式一：简简单单的“+” 方法二：切片赋值方式三：列表自带的extend() 列表去重的三种方式利用集合set的特性利用字典key的不可重复属性利用in...

99+

2024-04-02
sql中数据去重的方式有哪些

在SQL中，可以使用以下方式对数据进行去重：1. 使用DISTINCT关键字：SELECT DISTINCT column_...

99+

2023-09-23

sql
SQL数据去重的3种方法实例详解

目录1、使用distinct去重2、使用group by3、使用ROW_NUMBER() OVER 或 GROUP BY 和 COLLECT_SET/COLLECT_LIST3.1 ROW_NUMBER() OVER3....

99+

2023-01-03

SQL数据去重 sql 去重方法 sql去重的多种方式
MySQL过滤重复数据的两种方法示例

目录方法1：加关键字 DISTINCT方法2：用GROUP By 分组最后方法1：加关键字 DISTINCT 在mysql中，可以利用“SELECT”...

99+

2023-05-16

mysql查询过滤重复数据 mysql如何去除重复数据数据库过滤重复语句
Docker中数据卷(volume)管理的两种方式

上篇文章给大家介绍过 docker基础知识之挂载本地目录的方法，今天给大家介绍Docker中数据卷(volume)管理的两种方式，具体内容如下所示：什么是数据卷数据卷...

99+

2024-04-02
python连接clickhouse数据库的两种方式小结

目录python连接clickhouse数据库主要针对clickhouse_driver的使用进行简要介绍python将数据写入clickhousepython连接clickhous...

99+

2024-04-02