mysql中去除重复数据，只保留一条。

mysql 数据库 2023-08-31 15:08:44 512人浏览独家记忆

摘要

梳理一下关于删除重复记录的逻辑目录前期准备：建表插入数据 1、通过group by 和count（1）>1找出有重复的数据 2、通过每个分组中的最小id来去重 2.1、添加主键id列

梳理一下关于删除重复记录的逻辑

前期准备：建表插入数据

1、通过group by 和count（1）>1找出有重复的数据

2、通过每个分组中的最小id来去重

2.1、添加主键id列

2.2 去重

2.2.1、首先找出每个分组中count(1) >1的数据中的最小id【min(id)】,sql语句如下：

2.2.2、再将上表和emp表做表连接,sql语句如下：

前期准备：建表插入数据

-- 创建表格empDROP TABLE IF EXISTS `emp`;CREATE TABLE `emp`  (  `EMPNO` int(0) NULL DEFAULT NULL,  `ENAME` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,  `JOB` varchar(9) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,  `MGR` int(0) NULL DEFAULT NULL,  `HIREDATE` date NULL DEFAULT NULL,  `SAL` int(0) NULL DEFAULT NULL,  `COMM` int(0) NULL DEFAULT NULL,  `DEPTNO` int(0) NULL DEFAULT NULL) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_0900_ai_ci ROW_FORMAT = Dynamic;-- 插入数据INSERT INTO `emp` VALUES (7566, '琼斯1', '经理', 7839, '1981-04-02', 2975, NULL, 20);INSERT INTO `emp` VALUES (7654, '马丁', '售货员', 7698, '1981-09-28', 1250, 1400, 30);INSERT INTO `emp` VALUES (7782, '克拉克', '经理', 7839, '1981-06-09', 2450, NULL, 10);INSERT INTO `emp` VALUES (7788, '斯科特', '分析师', 7566, '1987-04-19', 3000, NULL, 20);INSERT INTO `emp` VALUES (7839, '国王', '总统', NULL, '1981-11-17', 5000, NULL, 10);INSERT INTO `emp` VALUES (7844, '特纳', '售货员', 7698, '1981-09-08', 1500, 0, 30);INSERT INTO `emp` VALUES (7876, '亚当斯', '店员', 7788, '1987-05-23', 1100, NULL, 20);INSERT INTO `emp` VALUES (7900, '詹姆斯', '店员', 7698, '1981-12-03', 950, NULL, 30);INSERT INTO `emp` VALUES (7902, '福特', '分析师', 7566, '1981-12-03', 3000, NULL, 20);INSERT INTO `emp` VALUES (7521, '沃德', '售货员', 7698, '1981-02-22', 1250, 500, 30);INSERT INTO `emp` VALUES (7934, '米勒', '店员', 7782, '1982-01-23', 1300, NULL, 10);INSERT INTO `emp` VALUES (7499, '艾伦', '售货员', 7698, '1981-02-20', 1600, 300, 30);INSERT INTO `emp` VALUES (7698, '布莱克', '经理', 7839, '1981-05-01', 2850, NULL, 30);INSERT INTO `emp` VALUES (7566, '琼斯', '经理', 7839, '1981-04-02', 2975, NULL, 20);SET FOREIGN_KEY_CHECKS = 1;

表格来自oracle自带emp表。

1、通过group by 和count（1）>1找出有重复的数据

SELECT  ename,count(1) FROM emp GROUP BY ename HAVING count(1) >1;

在group by 之后 count（1）> 1代表其分组数据是重复的。

具体group by 字段根据实际情况需求添加。

结果如下：

2、通过每个分组中的最小id来去重

2.1、添加主键id列

由于表格没有主键列，所以需要新增id自增。

ALTER TABLE emp add id int first; -- 改变表结构，增加名为id的列ALTER table emp MODIFY id int PRIMARY key auto_increment; -- 将id字段设置为主键自增；

2.2 去重

2.2.1、首先找出每个分组中count(1) >1的数据中的最小id【min(id)】,sql语句如下：

SELECT min(id) id,ename,count(0) FROM emp GROUP BY ename HAVING count(1) >1;

结果如下：

2.2.2、再将上表和emp表做表连接,sql语句如下：

SELECT t1.*,t2.* fromemp t1inner join (SELECT min(id) id,ename,count(0) FROM emp GROUP BY ename HAVING count(1) >1) t2on t1.ENAME = t2.ENAME;

结果如下：

可以看出t1.id和t2.id之间的联系，我们只需要删除t1.id > t2.id的数据，只留下每组中id最小的值和count（1）= 1 的数据。

需要用到Mysql DELETE语句使用INNER JOIN子句，语法如下：

DELETE  a FROM table1 AS a LEFT JOIN table2 AS b ON 连接条件 WHERE 过滤条件;

完整去重sql语句如下：

DELETE t1 fromemp t1inner join (SELECT min(id) id,ename,count(0) FROM emp GROUP BY ename HAVING count(1) >1) t2on t1.ENAME = t2.ENAMEwhere t1.id > t2.id;

来源地址：https://blog.csdn.net/weixin_75052326/article/details/130744456

您可能感兴趣的文档:

--结束END--

本文标题: mysql中去除重复数据，只保留一条。

本文链接: https://www.lsjlt.com/news/386068.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python连接和操作PostgreSQL数据库的流程步骤

目录引言环境搭建安装 PostgreSQL在 Windows 上安装 PostgreSQL在 linux 上安装 PostgreSQL在 MACOS 上安装 PostgreSQL安装 python 和相关库连接数据库导入...

99+

2026-04-21

Python连接和操作PostgreSQL Python连接PostgreSQL Python操作PostgreSQL Python PostgreSQL
关于SQL建表语句使用详解

目录SQL 建表语句详解1. 基本语法2. 数据类型3. 约束4. 示例5. 创建带有默认值的表6. 创建带有复合主键的表7. 创建带有检查约束的表8. 创建带有唯一约束的表9. 创建带有自增列的表10. 创建带有注释的...

99+

2026-04-21

SQL建表语句使用 SQL建表语句 SQL语句
RedisTemplate的使用与注意事项小结

目录一.什么是RedisTemplate二.如何使用RedisTemplateRedisTemplate的API序列化三.StringRedisTemplate一.什么是RedisTemplate RedisTempla...

99+

2026-04-21

RedisTemplate使用
使用MySQL从JSON字符串提取数据的方法详解

目录1. 背景知识2. 示例数据3. SQL 查询分析3.1 查询结构解析4. 查询结果5. 性能考虑6. 总结1. 背景知识 jsON（JavaScript Object Notation）是一种轻量级的数据交换格式，...

99+

2026-04-21

MySQL从JSON提取数据 MySQL JSON提取数据 MySQL提取数据 MySQL JSON
MySQL免密登录的几种配置方式小结

目录使用操作系统用户实现免密登录具体步骤：Step 1: 修改 mysql 配置文件Step 2: 重启 MySQL 服务Step 3: 使用系统用户登录 MySQL使用 mysql_config_editor 配置免密...

99+

2026-04-21

MySQL免密登录配置 MySQL免密登录 MySQL登录
Oracle更换监听端口的流程步骤

目录1.场景描述2.环境查看1）监听情况2）测试已连端口3）用户连接3.实验验证3.1 修改监听中的端口号3.2 重启监听3.3 注册数据库服务3.4 结果验证4.总结1.场景描述业务需求：由于安全考虑，需要将Orac...

99+

2026-04-21

Oracle更换监听端口 Oracle更换端口 Oracle修改端口 Oracle端口
Linux的HBASE数据库集群部署方法

1.HBASE是一个key-value型的nosql数据库,与Redis不同的是HBASE主要解决海量数据,快速检索 2.安装 (前提,具有zookeeper,jdk,hadoop的软件安装) HBASE的镜像安装 ht...

99+

2026-04-21

Linux HBASE集群部署 Linux HBASE部署
MySQL与HBase在数据湖架构中的互补与融合

MySQL与HBase在数据湖架构中可以互补与融合，各自发挥其优势，共同支持大规模数据处理和实时分析的需求。以下是MySQL与HBase在数据湖架构中的互补与融合的相关信息： MySQL与HBase的互补性 MySQL的优势：MySQL是...

99+

2026-04-21

mysql
HBase的Region Server资源分配与调度策略

HBase是一个分布式、可扩展、高可靠性的大数据存储系统，它由多个Region Server组成，每个Region Server负责管理一部分数据。为了实现高效的资源分配和调度，HBase采用了一系列策略和技术。 Region分配策略：...

99+

2026-04-21

hbase
MySQL的查询优化器与HBase的查询优化策略在大数据查询中的协同

MySQL和HBase是两种不同类型的数据库，分别适用于不同的使用场景和需求。MySQL是一个关系型数据库，适用于事务处理和数据一致性要求较高的应用；而HBase是一个分布式的、面向列的NoSQL数据库，适用于大数据的实时读写和存储。它们在...

99+

2026-04-21

mysql
HBase在大数据审计与合规性追踪中的应用

HBase在大数据审计与合规性追踪中扮演着重要角色，其分布式、可扩展的特性使其能够高效处理大量数据，从而帮助企业和组织实现数据的实时监控和分析，确保审计和合规性追踪的准确性和效率。以下是HBase在大数据审计与合规性追踪中的应用： HBas...

99+

2026-04-21

hbase
MySQL的分区与HBase的Region在大数据分区策略中的对比

MySQL的分区和HBase的Region都是大数据分区策略中常用的技术，它们各自适用于不同的场景和需求。以下是它们在大数据分区策略中的对比： MySQL分区定义：MySQL分区是将大型表拆分成更小、更可管理的分区（子表），每个分区可以...

99+

2026-04-21

mysql
HBase在大数据实时推荐系统中的数据组织与优化

HBase在大数据实时推荐系统中扮演着重要角色，其数据组织与优化策略对于提升系统的性能和效率至关重要。以下是对HBase在大数据实时推荐系统中数据组织与优化相关信息的介绍： HBase在大数据实时推荐系统中的应用实时数据分析：HBase...

99+

2026-04-21

hbase
MySQL与HBase在大数据金融分析中的性能与可扩展性对比

MySQL与HBase在大数据金融分析中各有优势，选择合适的数据库系统对于确保数据的高效管理和分析至关重要。以下是对两者在性能与可扩展性方面的详细对比：性能对比 MySQL：适用于在线事务处理，提供了低延迟和高并发的读写操作，适合小规模...

99+

2026-04-21

mysql
HBase的Region Server之间的网络通信优化

HBase的Region Server之间的网络通信优化是一个重要的课题，因为Region Server之间需要频繁地交换数据以支持分布式操作。以下是一些建议来优化HBase的Region Server之间的网络通信：使用高速网络设备：...

99+

2026-04-21

hbase
MySQL的二进制日志与HBase的WAL在数据复制延迟中的控制

MySQL的二进制日志（Binary Log, Binlog）和HBase的Write-Ahead Log（WAL）都是用于数据复制和恢复的关键日志机制，但它们在实现方式、应用场景和配置上有显著差异。以下是它们在数据复制延迟控制方面的具体介...

99+

2026-04-21

mysql
HBase在大数据监控与告警系统中的实时数据处理能力

HBase在大数据监控与告警系统中展现出了卓越的实时数据处理能力，这得益于其分布式架构、列式存储、以及一系列优化技术。以下是HBase在大数据监控与告警系统中实时数据处理能力的相关信息： HBase的实时数据处理能力高性能：HBase采...

99+

2026-04-21

hbase
HBase的RowKey设计原则及其在数据分布中的作用

HBase的RowKey设计原则对于数据分布和查询性能有着至关重要的影响。以下是对HBase的RowKey设计原则及其在数据分布中作用的详细分析： HBase的RowKey设计原则唯一性：RowKey必须是唯一的，确保每个行都可以被准确...

99+

2026-04-21

hbase
MySQL的索引与HBase的索引机制在大数据查询优化中的选择

在大数据查询优化中，选择MySQL的索引还是HBase的索引机制，取决于具体的应用场景和查询需求。以下是MySQL和HBase索引机制的特点和适用场景： MySQL索引机制索引类型：MySQL支持B+树索引、哈希索引、全文索引等。适用...

99+

2026-04-21

mysql
HBase在实时数据分析与报表生成中的性能优势

HBase在实时数据分析与报表生成中展现出了显著的性能优势，这些优势使其成为处理大规模数据、需要低延迟应用场景的理想选择。以下是HBase在实时数据分析与报表生成中的性能优势：实时随机访问：HBase支持实时的随机读写操作，能够迅速地查...

99+

2026-04-21

hbase