iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Java面试题冲刺第三十天--数据库(6)
  • 948
分享到

Java面试题冲刺第三十天--数据库(6)

2024-04-02 19:04:59 948人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录面试题1:有个需求需要快速删除Mysql表中一亿条数据,表中有2亿数据,能说一下你的思路么?1、复制表+删除索引2、分批插入数据3、drop删除掉老表4、重命名新表为n

面试题1:有个需求需要快速删除Mysql表中一亿条数据,表中有2亿数据,能说一下你的思路么?

我们知道MySQL删除数据的方式有多种比如DELETE、TRUNCATE、DROP等,都属于物理删除,但在实际场景中,很多时候是不能直接用的。

比如咱们说的这张表中有2亿条数据,要删其中1亿条,以InnoDB引擎为例,直接加WHERE条件DELETE是不现实的,因为DELETE是一条一条删,要把操作记录到binlog日志(前提开启了binlog),删除少量数据还可以,删除1亿条会非常慢,并且不会释放出磁盘空间,还得用optimize或repair来压缩数据表来释放硬盘空间。如果字段内容多,io成本很高,CPU各种过高,耗时更长,不可行。

如果我用truncate删数据,速度倒是很快,能直接释放磁盘空间,但这是全表数据删除,直接清空数据文件或分区磁盘空间,剩下不用删的1亿条又怎么办呢?

因此我们要根据实际情况入手,比如表中有2亿条数据,要删其中1亿条;

方法一:着急的话,可以临时使用逻辑删除,选一个字段或加一个字段如is_deleted,作为逻辑删除标志,然后通过该字段过滤后继续处理数据,等到夜深人静。。。

方法二:可以新建一张表结构一致的表,把不用删除的数据导进去,然后drop原表,再把新表名称改为原表名称;这是一种比较常见的方式,要注意的是,如果索引较多或索引字段较大的话,记得先导数据,再加索引,别问我为什么。

我们简单看一下方法二的操作流程:

1、复制表+删除索引


create table new_T like T;
ALTER TABLE new_T DROP INDEX index_name1;
ALTER TABLE new_T DROP INDEX index_name2;

2、分批插入数据

建议为10w-50w一次,根据你的MySQL服务器性能来定,可以按ID查询后插入,也可以null as id按新顺序插入。

如:


insert into new_T (select null as id,col1,col2,col3 from T where id>500000 and id<=600000);
insert into new_T (select null as id,col1,col2,col3 from T where id>600000 and id<=700000);
...

3、drop删除掉老表


drop table T;

4、重命名新表为new_T


alter table new_T rename to T;

面试题2:刚才你提到了逻辑删除,你是怎么看逻辑删除和物理删除的?

我理解物理删除指的将数据从磁盘中真实删除,而逻辑删除则是在代码层面的,多是将删除数据行的is_deleted字段置成1,后续只操作is_deleted=0的那些未被删除的数据。

在严谨的开发环境中,实际上是没有删除这一说的。订单作废,用户禁用,优惠券作废都是状态的变化,而不应该让数据从磁盘消失。所以 SQL 里面 DELETE 在真实生产环境里都不应该出现,除DBA账号外的其他用户不应有DELETE、TRUNCATE、DROP权限,而只有UPDATE权限。

我还见过有单位将MySQL的update命令封装成删除命令的~~然后用户只能看到表中或视图中is_deleted=0的数据,好像是实现了权限隔离,其实就是闲的慌。

当然了,逻辑删除其实也是有问题的,逻辑删除的设计还会导致常用的unique key 失效;脏数据量大的时候研发人员可能会发现表中明明数据不多,但检索速度很慢,可能会误导研发人员的维护工作。

面试题3:大型项目中,mysql的主键需要全局唯一怎么办?

在只使用单数据库时,使用自增主键ID无疑是最适合的。但在集群、主从架构上时就会有一些问题,比如怎么做到主键的全局唯一。

使用UUID

这时我们首先想到的解决方法可能是以UUID为主键,对于InnoDB这种聚集主键类型的引擎来说,数据会按照主键进行排序,由于UUID的无序性,InnoDB会产生巨大的IO压力,此时不适合使用UUID做物理主键,但可以把它作为逻辑主键,物理主键依然使用自增ID。

另外,innodb会对主键进行物理排序,这对auto_increment_int是个好消息,因为后一次插入的主键位置总是在最后。但是对uuid来 说,这却是个坏消息,因为uuid是杂乱无章的,每次插入的主键位置是不确定的,可能在开头,也可能在中间,在进行主键物理排序的时候,势必会出现大量 IO操作影响效率。

使用自增ID

  • 方法一:比如4台数据库,第一台mysql主键从1开始每次加4,第二台从2开始每次加4,以此类推。这里的4代表数据库总量,我们叫它步长,从而保证主键的全局唯一,我们需要保证的就是确保自增 ID 起始点(auto_increment_offset)以及 ID 自增步长(auto_increment_increment)的正确性即可。

修改MySQL默认自动增长的步长


-- 设置序列的增长值
set global auto_increment_increment=1; 
  • 方法二:通过集群编号加集群内的自增(auto_increment类型)两个字段共同组成唯一主键。优点是实现简单,维护也比较简单,对应用透明。缺点是引用关联操作相对比较复杂,需要两个字段,主键占用空间较大,在使用 InnoDB 的时候这一点的副作用很明显(但是这方式仅仅多了一个smallint两个字节,100W也就多2M)。

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注编程网的更多内容!

--结束END--

本文标题: Java面试题冲刺第三十天--数据库(6)

本文链接: https://www.lsjlt.com/news/135409.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Java面试题冲刺第三十天--数据库(6)
    目录面试题1:有个需求需要快速删除MySQL表中一亿条数据,表中有2亿数据,能说一下你的思路么?1、复制表+删除索引2、分批插入数据3、drop删除掉老表4、重命名新表为n...
    99+
    2024-04-02
  • Java面试题冲刺第十三天--数据库(3)
    目录面试题1:MySQL有哪些数据类型?追问1:char 和 varchar 的区别是什么?1、固定长度 & 可变长度2、存储方式3、存储容量4、思考:既然VARCHAR长度...
    99+
    2024-04-02
  • Java面试题冲刺第十九天--数据库(4)
    目录面试题1:说一下你对聚集索引与非聚集索引的理解,以及他们的区别?1、聚集索引2、非聚集索引追问1:为什么聚集索引可以创建在任何一列上,如果此表没有主键约束,即有可能存在重复行数据...
    99+
    2024-04-02
  • Java面试题冲刺第十二天--数据库(2)
    目录面试题2:并发场景下事务会存在哪些数据问题? 正经回答:深入追问:追问1:那Innodb是如何解决幻读问题的呢?面试题3:说一下MySQL中你都知道哪些锁?正经回答:深入追问: ...
    99+
    2024-04-02
  • Java面试题冲刺第十天--MyBatis2
    目录面试题1:说说你对Mybatis的理解?追问1:说一下MyBatis的工作原理和流程吧。追问2:列举几个MyBatis的核心组件,说说分别干啥用?面试题2:(问几个实际使用的问题...
    99+
    2024-04-02
  • Java面试题冲刺第二十八天--数据库(5)
    目录面试题1:MySQL数据库cpu飙升到500%的话你会怎么处理?面试题2:什么是存储过程?有哪些优缺点优点在数据库中集中业务逻辑使数据库更安全较快的执行速度缺点不可移植性复杂存储...
    99+
    2024-04-02
  • Java面试题冲刺第二十三天--算法(2)
    目录面试题1:你说一下常用的排序算法都有哪些?追问1:谈一谈你对快排的理解吧追问2:说一下快排的算法原理追问3:来吧!给我手敲一个快排面试题2:来!再给我手撸一个Spring追问1:...
    99+
    2024-04-02
  • Java面试题冲刺第四天--数据库
    目录面试题1:你对数据库优化有哪些了解呀?正经回答:深入追问:追问1:那你对SQL优化方面有哪些技巧呢?追问2:嗯,那你说一下为什么不建议用SELECT * 呢?二、SELE...
    99+
    2024-04-02
  • Java面试题冲刺第二十三天--分布式
    目录面试题1:说说什么分布式事务?解释一下什么是CAP?CAP理解:追问1:怎么理解强一致性、弱一致性和最终一致性?面试题2:了解BASE理论么?追问1:基于BASE理论,举几个实际...
    99+
    2024-04-02
  • Java面试题冲刺第二十七天--JVM2
    目录面试题1:简单说一下java的垃圾回收机制。面试题2:JVM会在什么时候进行GC呢?追问1:介绍一下不同代空间的垃圾回收机制 追问2:能说一下新生代空间的构成与执行逻辑...
    99+
    2024-04-02
  • Java面试题冲刺第二十二天-- Nginx
    目录面试题1:谈一下你对 Nginx 的理解为啥我们总说Nginx好用?追问1:正向代理和反向代理区别在哪?正向代理面试题2:常用的 Nginx 做负载均衡的策略有哪些?1.指定权重...
    99+
    2024-04-02
  • Java面试题冲刺第二十一天--JVM
    目录面试题1:你遇到过哪些OOM情况,什么原因造成的?怎么解决的?Java heap spaceGC overhead limit exceeded Permgen spa...
    99+
    2024-04-02
  • Java面试题冲刺第二十九天--JVM3
    目录面试题1:如何判断对象是否存活1.引用计数算法2.可达性分析算法面试题2:哪些对象可以作为GC Roots?面试题3:你了解的对象引用方式都有哪些?1 强引用2 软引用3 弱引用...
    99+
    2024-04-02
  • Java面试题冲刺第二十天--算法(1)
    目录手撸算法1:查找数组中重复元素和重复元素的个数1. 两层循环比较方式2. 转成Map集合处理方式手撸算法2:写个二分查找demo吧手撸算法3:把两个有序数组合并成一个有序数组总结...
    99+
    2024-04-02
  • Java面试题冲刺第十四天--PRC框架
    目录面试题1:说说你对RPC框架的理解?追问1:RPC框架实现原理是什么样的1、建立通信2、服务寻址3、网络传输4、服务调用面试题2:常见的RPC框架有哪些?面试题3:说说RPC和S...
    99+
    2024-04-02
  • Java面试题冲刺第十八天--Spring框架3
    面试题1:Bean 的加载过程是怎样的? 我们知道, Spring 的工作流主要包括以下两个环节: 解析,读 xml 配置,扫描类文件,从配置或者注解中获取 Bean 的定...
    99+
    2024-04-02
  • Java面试题冲刺第十五天--设计模式
    目录面试题1:面向对象程序设计(OOP)的六大原则分别有哪几个面试题2:你说一下什么是设计模式追问1:那你怎么理解高内聚和低耦合?面试题3:设计模式有哪几种?追问1:你比较熟悉哪种设...
    99+
    2024-04-02
  • Java面试题冲刺第十六天--消息队列
    目录面试题1:说说你对消息队列的理解,消息队列为了解决什么问题?解耦异步削峰追问1:消息队列有什么优缺点面试题2:对于消息中间机,你们是怎么做技术选型的?面试题3:如何确保消息正确地...
    99+
    2024-04-02
  • Java面试题冲刺第十七天--基础篇3
    目录面试题1:JDK1.8的新特性有哪些?接口的默认和静态方法:Lambda 表达式:方法与构造函数引用:函数式接口:Annotation 注解:支持多重注解:新的日期时间 API:...
    99+
    2024-04-02
  • Java面试题冲刺第三天--集合框架篇
    目录面试题1:对比 Vector、ArrayList、LinkedList 有何区别?适合在什么场景下使用正经回答:深入追问:追问1:多线程场景下就不能使用ArrayList么?追问...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作