广告
返回顶部
首页 > 资讯 > 数据库 >MongoDB中如何优雅地删除大量数据
  • 773
分享到

MongoDB中如何优雅地删除大量数据

MongoDB中如何优雅地删除大量数据 2017-11-11 08:11:38 773人浏览 才女
摘要

删除大量数据,无论是在哪种数据库中,都是一个普遍性的需求。除了正常的业务需求,我们需要通过这种方式来为数据库“瘦身”。 为什么要“瘦身”呢? 表的数据量到达一定量级后,数据量越大,表的查询性能会越差。 毕竟数据量越大,B+树的层级会越

MongoDB中如何优雅地删除大量数据

删除大量数据,无论是在哪种数据库中,都是一个普遍性的需求。除了正常的业务需求,我们需要通过这种方式来为数据库“瘦身”。

为什么要“瘦身”呢?

  1. 表的数据量到达一定量级后,数据量越大,表的查询性能会越差。

    毕竟数据量越大,B+树的层级会越高,需要的io也会越多。

  2. 表的数据有冷热之分,将很多无用或很少用到的数据存储在数据库中会消耗数据库的资源。

    譬如会占用缓存;会增加备份集的大小,进而影响备份的恢复时间等。

所以,对于那些无用的数据,我们会定期删除。

对于那些很少用到的数据,则会定期归档。归档,一般是将数据写入到归档实例或抽取到大数据组件中。归档完毕后,会将对应的数据从原实例中删除。

一般来说,这种删除操作涉及的数据量都比较大。

对于这类删除操作,很多开发童鞋的实现就是一个简单的DELETE操作。看上去,简单明了,干净利落。

但是,这种方式,危害性却极大。

Mysql 为例:

  • 会造成大事务

    大事务会导致主从延迟,而主从延迟又会影响数据库的高可用切换。

  • 回滚表空间会不断膨胀

    mysql 8.0之前,回滚表空间默认是放到系统表空间中,而系统表空间一旦”膨胀“,就不会收缩。

  • 定的记录多

    相对而言,更容易导致锁等待。

即使是分布式数据库,如TiDB,如果一次删除了大量数据,这批数据在进行Compaction时有可能会触发流控。

所以,对于线上的大规模删除操作,建议分而治之。具体来说,就是批量删除,每次只删除一部分数据,分多次执行。

就如何删除大量数据,接下来我们看看mongoDB中的落地方案。

本文主要包括以下四部分内容。

  1. MonGoDB中删除数据的三种方式。
  2. 三种方式的执行效率对比。
  3. 通过Write Concern规避主从延迟。
  4. 删除过程中碰到的Bug。

MongoDB中删除数据的三种方式

在MongoDB中删除数据,可通过以下三种方式:

  • db.collection.remove()

    删除单个文档或满足条件的所有文档。

  • db.collection.deleteMany()

    删除满足条件的所有文档。

  • db.collection.bulkWrite()

    批量操作接口,可执行批量插入、更新、删除操作。

接下来,对比下这三种方式的执行效率。

三种方式的执行效率对比

环境:MongoDB 3.4.4,副本集。

测试思路:分别使用 remove、deleteMany、bulkWrite 删除 10w 条记录(每批删除 5000 条),交叉执行 5 次。

1. remove

// delete_date是删除条件
var delete_date = new Date("2021-01-01T00:00:00.000Z");
// 获取程序开始时间
var start_time = new Date();
// 获取满足删除条件的记录数
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
// 定义每批需要删除的记录数
var batch_num = 5000;
while (rows > 0) {
    // rows也可理解为剩余记录数
    // 如果剩余记录数小于batch_num,则将剩余记录数赋值给batch_num
    // 为什么要怎么做,后面会提到。
    if (rows < batch_num) {
        batch_num = rows;
    }
    // 获取满足删除条件的最小的5000个_id(ObjectID)
    var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
    rows = rows - batch_num;
    cursor.forEach(function (each_row) {
        // 通过remove删除记录,这里指定了"justOne": true,每次只能删除一条记录。
        // 为了避免误删除,这里同时指定了主键和删除条件。
        db.test_collection.remove({"_id": each_row["_id"], "createtime": {"$lt": delete_date}}, {
            "justOne": true,
            w: "majority"
        })
    });
}
// 获取程序结束时间
var end_time = new Date();
// 两者的差值,即为程序执行时长
print((end_time - start_time) / 1000);

2. deleteMany

实例思路同remove类似,只不过会将待删除的_id放到一个数组中,最后再通过deleteMany一次性删除。

具体代码如下:

var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
var batch_num = 5000;
while (rows > 0) {
    if (rows < batch_num) {
        batch_num = rows;
    }
    var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
    rows = rows - batch_num;
    var delete_ids = [];
    // 将满足条件的主键值放入到数组中。
    cursor.forEach(function (each_row) {
        delete_ids.push(each_row["_id"]);
    });
    // 通过deleteMany一次删除5000条记录。
    db.test_collection.deleteMany({
        "_id": {"$in": delete_ids},
        "createTime": {"$lt": delete_date}
    },{w: "majority"})
}
var end_time = new Date();
print((end_time - start_time) / 1000);

3. bulkWrite

实现思路同deleteMany类似,也是将待删除的_id放到一个数组中,最后再调用bulkWrite进行删除。

具体代码如下:

var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
var batch_num = 5000;
while (rows > 0) {
    if (rows < batch_num) {
        batch_num = rows;
    }
    var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
    rows = rows - batch_num;
    var delete_ids = [];
    cursor.forEach(function (each_row) {
        delete_ids.push(each_row["_id"]);
    });
    db.test_collection.bulkWrite(
        [
            {
                deleteMany: {
                    "filter": {
                        "_id": {"$in": delete_ids},
                        "createTime": {"$lt": delete_date}
                    }
                }
            }
        ],
        {ordered: false},
        {writeConcern: {w: "majority", wtimeout: 100}}
    )
}
var end_time = new Date();
print((end_time - start_time) / 1000);

接下来,看看三者的执行效率。

删除方式平均执行时间(s)第一次第二次第三次第四次第五次
remove 47.341 49.606 48.487 49.314 47.572 41.727
deleteMany 16.951 16.566 18.669 17.932 18.66 12.928
bulkWrite 16.476 17.247 14.181 16.151 18.403 16.397

结合表中的数据,可以看出,

  1. 执行最慢的是remove,执行最快的是bulkWrite,前者差不多是后者的 2.79 倍。
  2. deleteMany 和 bulkWrite 的执行效率差不多,但就语法而言,前者比后者简洁。

所以线上如果要删除大量数据,推荐使用 deleteMany + ObjectID 进行批量删除。

通过 Write Concern 规避主从延迟

虽然是批量删除,但在Mysql中,如果没控制好节奏,还是很容易导致主从延迟。在MongoDB中,其实也有类似的担忧,不过我们可以通过 Write Concern 进行规避。

Write Concern,可理解为写安全策略,简单来说,它定义了一个写操作,需要在几个节点上应用(Apply)完,才会给客户端反馈。

看下面这个原理图。

 

图中是一个一主两从的副本集,设置了w: "majority",代表一个写操作,需要等待副本集中绝大多数节点(本例中是两个)应用完,才能给客户端反馈。

在前面的代码中,无论是remove,deleteMany还是bulkWrite方法,都设置了w: "majority"。

之所以这样设置,一方面是为了保证数据的安全性,毕竟删除操作能在多个节点落盘,另一方面,还能有效降低批量操作可能导致的主从延迟风险。

Write Concern的完整语法如下,

w: , j: , wtimeout:  }

其中,

w:指定节点数或tags。其有如下取值:

  • :显式指定节点数量。

    设置为0,无需Server端反馈。

    设置为1,只需Primary节点反馈。

    设置为2,在副本集中,需要一个Primary节点(Primary节点必需)和一个Secondary节点反馈。

    需要注意的是,这里的Secondary节点必须是数据节点,可以是隐藏节点、延迟节点或Priority为 0 的节点,但仲裁节点(Arbiter)绝对不行。

    一般来说,设置的节点数越多,数据越安全,写入的效率也会越低。

  • majority:副本集大多数节点。

    与上面不一样的是,这里的Secondary节点不仅要求是数据节点,它的votes(members[n].votes)还必须大于0。

  • :指定tags。

    tag,顾名思义,是给节点打标签。常用于多数据中心部署场景。

    如一个集群,有5个节点,跨机房部署。其中3个节点在A机房,另外2个节点在B机房,因为对数据的安全性、一致性要求很高,我们希望写操作至少能在A机房的2个节点落盘,B机房的1个节点落盘。

    对于这种个性化的需求,只有通过tags才能实现。

    具体使用,可参考:https://docs.mongodb.com/manual/tutorial/configure-replica-set-tag-sets/#configure-custom-write-concern。

j:是否需要等待对应操作的日志持久化到磁盘中。

在MongoDB中,一个写操作会涉及到三个动作:更新数据,更新索引,写入oplog,这三个动作要么全部成功,要么全部失败,这也是MongoDB单行事务的由来。

对于每个写操作,WiredTiger都会记录一条日志到 journal 中。

日志在写入journal之前,会首先写入到 journal buffer(最大128KB)中。

Journal buffer会在以下场景持久化到 journal 文件中:

  • 副本集中,当有操作等待oplog时。

    这类操作包括:针对oplog最新位置点的扫描查询;Causally consistent session中的读操作;对于Secondary节点,每次批量应用oplog后。

  • Write Concern 设置了 j: true。

  • 每100ms。

    由 storage.journal.commitIntervalMs 参数指定。

  • 创建新的 journal 文件时。

    当 journal 文件的大小达到100MB时会自动创建一个新的journal 文件。

wtimeout:超时时长,单位ms。

不设置或设置为0,命令在执行的过程中,如果遇到了锁等待或节点数不满足要求,会一直阻塞。

如果设置了时间,命令在这个时间内没有执行成功,则会超时报错,具体报错信息如下:

rs:PRIMARY> db.test.insert({"a": 1}, {writeConcern: {w: "majority", wtimeout: 100}})
WriteResult({
    "nInserted": 1,
    "writeConcernError": {
        "code": 64,
        "codeName": "WriteConcernFailed",
        "errInfo": {
            "wtimeout": true
        },
        "errmsg": "waiting for replication timed out"
    }
})

删除过程中遇到的Bug

其实,最开始的删除程序是下面这个版本。

var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
var batch_num = 5000;
while (1 == 1) {
    var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
    delete_ids = []
    cursor.forEach(function (each_row) {
        delete_ids.push(each_row["_id"])
    });

    if (delete_ids.length == 0) {
        break;
    }
    db.test_collection.deleteMany({
        "_id": {"$in": delete_ids},
        "createtime": {"$lt": delete_date}
    }, {w: "majority"})
}
var end_time = new Date();
print((end_time - start_time) / 1000);

相对于效率对比章节的版本,这个版本的代码简洁不少。

  1. 不用额外获取需要删除的记录数。
  2. batch_num在整个执行过程中也是不变的。

但用这个版本在线上删除数据时,发现了一个问题。

在删除到最后一批时,程序会hang在那里。重试了多次依然如此。分析如下:

  • 最后一批的文档数小于batch_num时,会出现这个问题。

    删除同实例下另外一个集合,也出现了类似的问题。

    但在测试环境,删除一个简单的集合却没有复现出来,怀疑这个Bug与线上集合的记录过长有关。

  • cursor只是一个迭代对象,并不是查询结果。基于cursor可以分批返回记录,类似于python中的迭代器。

    最后一批也不是完全没有返回,而是在返回100条之后才hang在那里。

  • 不使用sort没有这个问题。

    为什么要使用sort呢?这样可保证得到的id是有序且在物理上的存储是相邻的。这样,在执行批量删除操作时,效率也会相对较高。

    经过实际测试,当要删除的数据量较大时,使用sort的效率确实比不使用的要高。

    如果删除的数据量较小,使不使用sort则没多大区别。

总结

从最佳实践的角度出发,无论是在哪种数据库中,如果都删除(更新)大量数据,都建议分而治之,分批执行。

在MongoDB中,如果要删除大量数据,推荐使用deleteMany + ObjectID进行批量删除。

为了保证操作的安全性及规避批量操作带来的主从延迟风险,建议在执行删除操作时,将Write Concern设置为w: "majority"。

参考

[1] Journaling 

[2] Write Concern

您可能感兴趣的文档:

--结束END--

本文标题: MongoDB中如何优雅地删除大量数据

本文链接: https://www.lsjlt.com/news/8842.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • MongoDB中如何优雅地删除大量数据
    删除大量数据,无论是在哪种数据库中,都是一个普遍性的需求。除了正常的业务需求,我们需要通过这种方式来为数据库“瘦身”。 为什么要“瘦身”呢? 表的数据量到达一定量级后,数据量越大,表的查询性能会越差。 毕竟数据量越大,B+树的层级会越...
    99+
    2017-11-11
    MongoDB中如何优雅地删除大量数据
  • MongoDB中优雅删除大量数据的三种方式
    目录为什么要“瘦身”呢?MongoDB中删除数据的三种方式三种方式的执行效率对比1. remove2. deleteMany3. bulkWrite通过 Write Concern ...
    99+
    2022-11-12
  • Mysql在大表中删除大量数据的优化
    假设有一个表有3000万条记录,需要在业务不停止的情况下删除其中status=1的所有记录,差不多有600万条。 如果直接使用delete from tab_name where status=1; 会触发lock wa...
    99+
    2023-09-01
    mysql 数据库 sql
  • mongodb如何删除数据
    mongodb中删除数据的方法:在mongodb中可以使用remove()和delete()方法函数来删除集合中的文档数据,需要注意的是在执行remove()方法函数前,最好先使用find()命令来查看是否正确;而delete方法分别有两种...
    99+
    2022-10-10
  • 浅谈MySQL如何优雅的做大表删除
    随着时间的推移或者业务量的增长,数据库空间使用率也不断的呈稳定上升状态,当数据库空间将要达到瓶颈的时候,可能我们才会发现数据库有那么一两张的超级大表!他们堆积了从业务开始到现在的全部数据,但是90%的数据都是没有业务...
    99+
    2022-05-18
    MySQL 大表删除
  • mongodb如何删除数据库
    在mongodb中可以使用db.dropDatabase()方法删除数据库,语法格式为:“db.dropDatabase()”,该语法意思是删除当前数据库,默认为test。具体内容如下:MongoDB 删除数据库的语法格式db.dropDa...
    99+
    2022-10-03
  • Python和Git:如何优雅地管理大数据?
    在当今信息化时代,数据已成为企业和个人必不可少的资产。随着数据量的不断增长,如何有效地管理和处理数据已经成为一个亟待解决的问题。Python和Git是两个非常有用的工具,可以帮助我们优雅地管理大数据。 Python是一种高级编程语言,被广...
    99+
    2023-10-13
    git 大数据 numy
  • MySQL如何优雅的删除大表实例详解
    前言 删除表,大家下意识想到的命令可能是直接使用DROP TABLE "表名",这是初生牛犊的做法,因为当要删除的表达空间到几十G,甚至是几百G的表时候。这样一条命令下去,MySQL可能就直接夯住了,外在表现就是Q...
    99+
    2022-05-11
    mysql 删除大表 mysql删除表的字段 mysql删除表内的数据语句
  • oracle如何快速删除大量数据
    要在Oracle中快速删除大量数据,可以尝试以下方法:1. 使用TRUNCATE语句:TRUNCATE语句可以快速删除表中的所有数据...
    99+
    2023-10-08
    oracle
  • 如何优雅地删除 Linux 中的垃圾文件的方法
    不知道大家是否也跟我一样,是一只要把的自己电脑文件安排的条理有序,把没用的文件会及时删掉的程序猿呢?如果是的话,那么我们可以愉快地探讨下文章的内容。如果不是的话,你也可以留下来凑凑热闹嘛(>-<)。 下面...
    99+
    2022-06-03
    Linux 垃圾文件 Linux 删除垃圾文件
  • mongodb如何删除全部数据
    mongodb中删除全部数据的方法:使用drop()方法来删除mongodb中的集合,从而实现删除mongodb中全部数据,语法格式为:“db.collection.drop()”,这里collection指的是需要删除集合的名称。具体内容...
    99+
    2022-10-25
  • mongodb如何删除表中所有数据
    mongodb删除表中所有数据的方法:在mongodb中可以使用db.表名.drop()删除表中所有的数据,该方法只能删除当前库中存在的表。如果需要删除表记录可以使用“db. 集合名 .remove({ 条件 })”或“db. 集合名 .d...
    99+
    2022-10-07
  • mongodb如何定时删除数据库
    MongoDB没有内置的定时删除数据库的功能。但是可以使用操作系统的定时任务来完成这个任务。如果你使用的是Linux系统,可以在命令...
    99+
    2023-09-06
    mongodb 数据库
  • 数据库中如何批量删除数据
    这篇文章将为大家详细讲解有关数据库中如何批量删除数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 在一个Oracle数据库运行过程中,有时候会遇到要批量删除数据的情况...
    99+
    2022-10-18
  • mongodb如何清理collection中大量数据
    小编给大家分享一下mongodb如何清理collection中大量数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧! 1 sh...
    99+
    2022-10-19
  • Java函数处理大数据:如何优雅地进行重定向?
    在Java编程中,我们经常需要处理大量的数据。而重定向是一个常用的技术,可以将程序的输出和错误信息写入到文件中,方便后续的分析和处理。本文将介绍如何优雅地进行重定向,并提供相关代码演示。 什么是重定向? 在Java中,重定向是指将程序...
    99+
    2023-08-23
    函数 大数据 重定向
  • GO 语言中如何优雅地实现大数据的接口加载?
    随着大数据时代的到来,越来越多的企业开始关注数据的价值,而数据的处理和分析需要依托于高效的接口加载。GO 语言是一种高效的编程语言,而且它在网络编程方面也有着很高的性能表现。在这篇文章中,我们将探讨如何利用 GO 语言优雅地实现大数据的接...
    99+
    2023-06-17
    接口 load 大数据
  • 如何用GO语言优雅地处理分布式大数据?
    随着数据量的增加和业务的扩展,分布式大数据的处理已经成为许多企业必不可少的一部分。而GO语言由于其高效、简洁、并发的特性,成为了越来越多企业选择的编程语言。那么,如何用GO语言优雅地处理分布式大数据呢?下面我们来一起探讨。 一、选择适合的...
    99+
    2023-07-18
    分布式 大数据 npm
  • 如何优雅地处理大文件?Java 大数据开发必备技巧!
    在大数据时代,处理海量数据已经成为了每个数据工程师的必修课。而对于 Java 开发者来说,掌握一些处理大文件的技巧也是非常重要的。在本文中,我们将介绍一些在 Java 中优雅地处理大文件的技巧,帮助你更加高效地处理大数据。 使用缓冲流 ...
    99+
    2023-06-20
    大数据 文件 ide
  • 如何在SQL SERVER中快速有条件地删除海量数据
    这篇文章主要讲解了“如何在SQL SERVER中快速有条件地删除海量数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何在SQL SERVER中快速有条件...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作