首页 > 资讯 > 数据库 >MySQL提取Json内部字段转储为数字

253

分享到

MySQL提取Json内部字段转储为数字

MySQL Json转储为数字 mysql提取json 2022-05-20 20:05:45 253人浏览薄情痞子

摘要

目录背景问题分析1、属性值是 JSON 格式的，需要使用 json 操作函数处理2、字段内容不规范，乱七八糟3.又要抽取内容、又要格式化，记录还有 900w+，太慢了最后执行结果比较数据导入比较总结这只是一次简单数据

背景

用户眼科属性表记录数大概 986w，目的是把大概 29w 记录的属性值（json 格式）的其中八个字段解析为数字，转储为统计表的记录，用于图表分析。

以下结构、数据都大部分我瞎诌的，不可当真

用户眼科属性表结构如下


CREATE TABLE `property` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `ownerId` int(11) NOT NULL COMMENT '记录ID或者模板ID',
  `ownerType` tinyint(4) NOT NULL COMMENT '类型。0：记录 1：模板',
  `recorderId` bigint(20) NOT NULL DEFAULT '0' COMMENT '记录者ID',
  `userId` bigint(20) NOT NULL DEFAULT '0' COMMENT '用户ID',
  `roleId` bigint(20) NOT NULL DEFAULT '0' COMMENT '角色ID',
  `type` tinyint(4) NOT NULL COMMENT '字段类型。0：文本 1：备选项 2：时间 3：图片 4：ICD10 9：新图片',
  `name` varchar(128) NOT NULL DEFAULT '' COMMENT '字段名称',
  `value` mediumtext NOT NULL COMMENT '字段值',
  PRIMARY KEY (`id`),
  UNIQUE KEY `idxOwnerIdOwnerTypeNameType` (`ownerType`,`ownerId`,`name`,`type`) USING BTREE,
  KEY `idxUserIdRoleIdRecorderIdName` (`userId`,`roleId`,`recorderId`,`name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='属性';

问题分析

1、属性值是 Json 格式的，需要使用 Json 操作函数处理

因为属性值是 Json 格式的，如下。较大的一个 Json，但是只需要其中 8 个字段值，提取出来分门别类归为不同统计指标下。


{   ......
    "sight": {
        "nakedEye": {
            "left": "0.9",
            "right": "0.6"
        },
        "correction": {
            "left": "1",
            "right": "1"
        }
    },
    ......
    "axialLength": {
        "left": "21",
        "right": "12"
    },
    "korneaRadius": {
        "left": "34",
        "right": "33"
    },
    ......
}

所以，需要用到 Json 操作函数：json_extract(value,'$.key1.key2')。

但是需要注意的是这个函数提取的值是带""。比如对上述记录执行json_extract(value,'$.sight.nakedEye.left')的结果是"22"；也可能字段值是空字符串，那结果就是""。

所以，需要使用 replace函数把结果中的 "" 删除掉，最后提取字段的表达式就是：replace(json_extract(value,'$.sight.nakedEye.left'),'"','')。

如果字段不存在的话，结果就是 NULL；无论是外层 sight 不存在，或是内层 left 不存在。

2、字段内容不规范，乱七八糟

理想下，填写的都是规范数字，那经过上面那一步就可以提取完直接导入新表。

但是，现实很残酷，填的东西那叫一个乱七八糟。比如：

数字 + 备注：1(配合欠佳)、1-\+（我猜这是想表示偏高或偏低）
数字 + 单位：跟上面相似，1mm
多数值或区间：22.52/42.45、1-5
纯文本描述：不配合、无法记录
文本、数字混杂描述：较上次增长 10、<1、小于1、BD234/KD23

没办法，找产品和业务对情况，好在不多，就 4000 多条，大致扫一下心里有数。得出以下几条解决方案：

数字开头：数字开头都是正确记录的数据，省略掉文字描述即可
多数值或区间：取最前面的数即可
纯文本：说明没有数据，排除掉
文本、数字混杂：具体问题具体分析，把其他处理掉之后看还有多少

具体怎么做呢？

排除正常的数字数据和空数据


WHERE `nakedEyeLeft` REGEXP '[^0-9.]' = 1 // 这个已经可以排除 null 了
 AND `nakedEyeLeft` != ''

如果不包含数字，将其设置 NULL 或空字符串


SET nakedEyeLeft = IF(nakedEyeLeft NOT regexp '[0-9]', '', nakedEyeLeft)

提取数字开头的数据的首个数值


SET nakedEyeLeft = IF((nakedEyeLeft + 0 = 0), nakedEyeLeft, nakedEyeLeft + 0)

结合起来就是


SET nakedEyeLeft = IF(nakedEyeLeft NOT regexp '[0-9]''', '', 
                      IF((nakedEyeLeft + 0 = 0), nakedEyeLeft, nakedEyeLeft + 0))
WHERE `nakedEyeLeft` REGEXP '[^0-9.]' = 1 // 这个已经可以排除 null 了
 AND `nakedEyeLeft` != ''

PS：处理一个字段的SQL 看着就简单，但是因为批量一次处理 8 个字段，组合起来就很长。

千万注意不要写错字段。

最后剩下的就是第四类：文本、数字混杂，40 多条。

有些看着简单的，可以用正则自动化处理，比如<1、小于1。

记录的增长值，需要查找上次记录进行计算：较上次增长 10。

剩下有点复杂的，就需要人为处理，提取出可用数据，比如BD234/KD23

不知道看到这里的各位是不是也觉得有些麻烦呢？

我也以为咬着牙搞了，结果业务说直接处理成 0，到时候发现是 0 的话，可以通过页面重新保存的。

就不需要判断是不是数字打头了，直接 + 0；如果是数字打头，会保留开头的数字；否则 = 0。

那最后数据格式化SQL：


UPDATE property 
SET nakedEyeLeft = IF(nakedEyeLeft NOT regexp '[0-9]''', '', nakedEyeLeft + 0)
WHERE `nakedEyeLeft` REGEXP '[^0-9.]' = 1 // 这个已经可以排除 null 了
 AND `nakedEyeLeft` != '';

3.又要抽取内容、又要格式化，记录还有 900w+，太慢了

property 表有 900w+ 的数据，而所需记录的条件，只有name、ownerType、type是可知的，没法命中现有的索引。

如果直接查找的话，直接就是全表扫描，外加数据提取和格式化；更何况还需要关联其他表，补充统计指标的一些其他字段。

这种情况下，直接导入统计表的话，结果就是把两张表+关联表一起锁较长时间，期间没法更改和插入，这样不大现实。

减少扫描行数

做法一：给 name、ownerType、type 加上索引，将扫描记录缩减到 20 w。

但是问题是900w 数据加索引，用完需要删除索引（因为不是业务情况需要），就会导致两次波动；

再加上后续处理锁表时长，问题还是很大。

做法二：将一个记录较少的表做驱动表，这个表可以关联目标表。


CREATE TABLE `property` (
  `ownerId` int(11) NOT NULL COMMENT '记录ID或者模板ID',
  `ownerType` tinyint(4) NOT NULL COMMENT '类型。0：记录 1：模板',
  `type` tinyint(4) NOT NULL COMMENT '字段类型。0：文本 1：备选项 2：时间 3：图片 4：ICD10 9：新图片',
  `name` varchar(128) NOT NULL DEFAULT '' COMMENT '字段名称',
  `value` mediumtext NOT NULL COMMENT '字段值',
    省略其他字段
  UNIQUE KEY `idxOwnerIdOwnerTypeNameType` (`ownerType`,`ownerId`,`name`,`type`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='属性';

表中ownerId 可以关联到记录表，加上之前的条件name、ownerType、type，如此刚好命中并``idxOwnerIdOwnerTypeNameType (ownerType,ownerId,name,type) 。


CREATE TABLE `medicalrecord` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) NOT NULL DEFAULT '' COMMENT '记录名称',
  `type` tinyint(4) NOT NULL DEFAULT '0' COMMENT '记录类型。',
    省略其他字段
  KEY `idxName` (`name`) USING BTREE
) ENGINE=InnoDB  DEFAULT CHARSET=utf8mb4 COMMENT='记录';

记录表可以通过 name='眼科记录'命中索引idxName，扫描行数只有2w，加上属性表 29w，最后扫描行数只有 30w 左右，比之全表扫描属性表少了 30 倍！！！。

避免数据提取和格式化的锁表时长

因为存在 8 个字段，每个字段都需要提取和格式化，中间还需要进行判断。这样子一个 SQL 里面同样的提取和格式化操作就要多次执行了。

所以，为了避免这样的问题，需要中间表暂存提取和格式化结果。


CREATE TABLE `propertytmp` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
   `value` mediumtext NOT NULL COMMENT '字段值',
  `nakedEyeLeft` varchar(255) DEFAULT NULL COMMENT '视力-裸眼-左眼',
  `nakedEyeRight` varchar(255) DEFAULT NULL COMMENT '视力-裸眼-右眼',
  `correctionLeft` varchar(255) DEFAULT NULL COMMENT '视力-矫正-左眼',
  `correctionRight` varchar(255) DEFAULT NULL COMMENT '视力-矫正-右眼',
  `axialLengthLeft` varchar(255) DEFAULT NULL COMMENT '眼轴长度-左眼',
  `axialLengthRight` varchar(255) DEFAULT NULL COMMENT '眼轴长度-右眼',
  `korneaRadiusLeft` varchar(255) DEFAULT NULL COMMENT '角膜曲率-左眼',
  `korneaRadiusRight` varchar(255) DEFAULT NULL COMMENT '角膜曲率-右眼',
  `updated` datetime NOT NULL COMMENT '更新时间',
  `deleted` tinyint(1) NOT NULL DEFAULT '0',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8mb4;

先将数据导入该表，在此基础上做提取，然后格式化。

最后执行结果比较

数据导入比较

结果：全表扫描属性表导入中间表（40s），属性表新增索引+导入（6s + 3s），关联导入（1.4s）。

因为需要关联其他表，并没有预测的那么理想。

中间表数据提取：7.5s


UPDATE `propertytmp` 
SET nakedEyeLeft = REPLACE(json_extract(value,'$.sight.axialLength.left'),'"',''),
nakedEyeLeft = REPLACE(json_extract(value,'$.sight.nakedEye.left'),'"',''),
nakedEyeRight = REPLACE(json_extract(value,'$.sight.nakedEye.right'),'"',''),
correctionLeft = REPLACE(json_extract(value,'$.sight.correction.left'),'"',''),
correctionRight = REPLACE(json_extract(value,'$.sight.correction.right'),'"',''),
axialLengthLeft = REPLACE(json_extract(value,'$.axialLength.left'),'"',''),
axialLengthRight = REPLACE(json_extract(value,'$.axialLength.right'),'"',''),
korneaRadiusLeft = REPLACE(json_extract(value,'$.korneaRadius.left'),'"',''),
korneaRadiusRight = REPLACE(json_extract(value,'$.korneaRadius.right'),'"','');

中间表数据格式化：2.3s

正则判断比我想象的要快啊


UPDATE propertytmp 
SET nakedEyeLeft = IF(nakedEyeLeft NOT REGEXP '[0-9]' AND nakedEyeLeft != '', '', nakedEyeLeft + 0), 
nakedEyeRight = IF(nakedEyeRight NOT REGEXP '[0-9]' AND nakedEyeRight != '', '', nakedEyeRight + 0), 
correctionLeft = IF(correctionLeft NOT REGEXP '[0-9]' AND correctionLeft != '', '', correctionLeft + 0),
correctionRight = IF(correctionRight NOT REGEXP '[0-9]' AND correctionRight != '', '', correctionRight + 0),
axialLengthLeft = IF(axialLengthLeft NOT REGEXP '[0-9]' AND axialLengthLeft != '', '', axialLengthLeft + 0),
axialLengthRight = IF(axialLengthRight NOT REGEXP '[0-9]' AND axialLengthRight != '', '', axialLengthRight + 0),
korneaRadiusLeft = IF(korneaRadiusLeft NOT REGEXP '[0-9]' AND korneaRadiusLeft != '', '', korneaRadiusLeft + 0),
korneaRadiusRight = IF(korneaRadiusRight NOT REGEXP '[0-9]' AND korneaRadiusRight != '', '', korneaRadiusRight + 0)
WHERE (`nakedEyeLeft` REGEXP '[^0-9.]' = 1
       AND `nakedEyeLeft` != '')
  OR (`nakedEyeRight` REGEXP '[^0-9.]' = 1
      AND `nakedEyeRight` != '')
  OR (`correctionLeft` REGEXP '[^0-9.]' = 1
      AND `correctionLeft` != '')
  OR (`correctionRight` REGEXP '[^0-9.]' = 1
      AND `correctionRight` != '')
  OR (`axialLengthLeft` REGEXP '[^0-9.]' = 1
      AND `axialLengthLeft` != '')
  OR (`axialLengthRight` REGEXP '[^0-9.]' = 1
      AND `axialLengthRight` != '')
  OR (`korneaRadiusLeft` REGEXP '[^0-9.]' = 1
      AND `korneaRadiusLeft` != '')
  OR (`korneaRadiusRight` REGEXP '[^0-9.]' = 1
      AND `korneaRadiusRight` != '');

统计指标中间表

因为实际导入统计指标表时，还需要排除为空数据，以及关联其他表做补充。

为了减少对指标表的影响，又建了指标表的中间表，结构完全一致，ID自增是目标表 + 10000。

将属性中间表的数据导入指标中间表，最后直接 INSERT ... SELECT FROM，就很快了。

当然这步其实有点矫枉过正了，但是为了避免线上的一些波动，还是谨慎一些较好。

总结

这是一次简单的数据迁移经历记录。

没有索引优化、SQL优化的内容，只是觉得大家需要有这种关注性能和对用户影响的考虑。

到此这篇关于Mysql提取Json内部字段转储为数字的文章就介绍到这了,更多相关mysql提取Json转储为数字内容请搜索自学编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持自学编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: MySQL提取Json内部字段转储为数字

本文链接: https://www.lsjlt.com/news/10441.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

MySQL提取Json内部字段转储为数字

目录

背景

问题分析

1、属性值是 Json 格式的，需要使用 Json 操作函数处理

2、字段内容不规范，乱七八糟

3.又要抽取内容、又要格式化，记录还有 900w+，太慢了

最后执行结果比较

数据导入比较

总结

本篇文章演示代码以及资料文档资料下载

MySQL提取Json内部字段转储为数字

如何将 MySQL 表字段类型从 BLOB 转换为 JSON？

mysql将行数据转为json字符串

mysql根据json字段内容作为查询条件(包括json数组)检索数据

MySQL对JSON类型字段数据进行提取和查询的实现

mysql实现将字符串字段转为数字排序或比大小

使用mybatisplus接收mysql字段为json类型的数据

Java如何取掉json数据中值为null的属性字段

mysql解析json数据组获取数据组所有字段的方法实例

MySQL查询函数之为表和字段取别名的案例

MYSQL： sql中某一个字段内容为用逗号分割的字符串转换成多条数据(适用于部分树机构)

mysql相同内容的字段怎么合并为一条数据

mysql 数据库不同数据类型字段设置长度大小、取值范围及存储空间

【MySQL】如何在MySQL中获取表中的某个字段为最大值和倒数第二条的整条数据？

oracle中delete用法

oracle中‖是什么意思

sqlplus未找到命令怎么解决

oracle中事务是什么

oracle中translate用法

oracle中不等于怎么写

oracle中双引号与单引号的区别是什么

oracle中sum函数怎么求各部门总和

oracle中数字保留整数怎么设置字符大小为10位

sql中用代码删除两列内容怎么删