广告
返回顶部
首页 > 资讯 > 数据库 >Java实现百万级数据量向MySQL批量插入
  • 322
分享到

Java实现百万级数据量向MySQL批量插入

mysqljavamybatis 2023-08-25 12:08:09 322人浏览 薄情痞子
摘要

业务背景: 大数据向Mysql表同步百万级数量,我们需要将大数据表里同步过来的数据分别向三张业务表做数据同步,最终将业务表的数据展示给前台进行相关业务操作。 数据量级 大数据表:700w数据量 三张业务表分别需要同步:23w、80w、680

业务背景:

大数据Mysql表同步百万级数量,我们需要将大数据表里同步过来的数据分别向三张业务表做数据同步,最终将业务表的数据展示给前台进行相关业务操作。
数据量级
大数据表:700w数据量
三张业务表分别需要同步:23w、80w、680w

技术方案设计

针对批量插入选择方案:

  1. mybatis批量插入
  2. mybatis批量插入+数据分批
  3. 原生jdbc批量插入+开启事务
  4. 原生jdbc批量插入+开启事务+数据分批
  5. 原生jdbc批量插入+开启事务+数据分批+多线程

方案对比结果:

  1. mybatis批量插入 1k数据量级
  2. mybatis批量插入+数据分批 10k数据量级
  3. 原生jdbc批量插入+开启事务 10w数据量级
  4. 原生jdbc批量插入+开启事务+数据分批 100w数据量级
  5. 原生jdbc批量插入+开启事务+数据分批+多线程 1000w数据量级

方案对比参考资料:
Mybatis与JDBC批量插入MySQL数据库性能测试
JAVA向Mysql插入亿级别数据
Mybatis批量插入
Mybatis批量插入优化

知识点分析

mybatis批量插入优缺点
优点:便于书写,代码优美,适用于小数据量批量插入
缺点:大数据量的批处理性能低下、批量处理数据量大小受限、导致对象回收GC问题
原生jdbc批量插入优缺点
优点:大数据量的批量处理速度快
缺点:大数据量需要数据分批、受制于JVM资源配置、mysql服务器配置、需要手动关闭数据库连接

原生jdbc批量插入速度优于mybatis原因:
mybatis需要对插入的字段做ORM对象映射 数据量越大消耗的资源和时间越多

大数据量批量更新问题背景

完成上述三张业务表插入数据后,我还需要对其中一张23w的表里两个字段做统计,统计的内容是对另一张业务表的80w数据根据客编号进行订单主体数和付款人数量进行统计

  1. 使用多线程,多线程配置没考虑java服务器配置 导致资源内存不足 产生OOM
  2. 在内存里进行大数据量的统计

多线程配置:

注:io密集型(某大厂实践经验)
核心线程数 = CPU核数 / (1-阻塞系数)
或着
CPU密集型:核心线程数 = CPU核数 + 1
IO密集型:核心线程数 = CPU核数 * 2

多线程配置资料参考
java线程池合理设置最大线程数和核心线程数

内存里进行大数据量的统计 改为数据库进行统计 返回统计结果进行批量更新

内存统计优缺点:
优点:不需要频繁访问数据库和占用数据库连接资源
缺点:占用大量内存资源

数据库统计优缺点:
优点:不需要占用大量内存资源
缺点:需要频繁访问数据库、频繁IO、会占用数据库连接资源

来源地址:https://blog.csdn.net/abc_lx123/article/details/130046164

您可能感兴趣的文档:

--结束END--

本文标题: Java实现百万级数据量向MySQL批量插入

本文链接: https://www.lsjlt.com/news/380206.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作