大数据预处理综述

大数据预处理综述 2021-12-10 03:12:30 165人浏览绘本

摘要

数据预处理背景大数据项目开发流程数据质量准确性：数据是正确的，数据存储在数据库中的值对应于真实世界的值。数据不准确的原因数据收集设备故障。数据输入错误。数据传输过程出错。命名约定、数据输入、输入字段格式不

大数据预处理综述

数据预处理背景

大数据项目开发流程

数据质量

准确性：数据是正确的，数据存储在数据库中的值对应于真实世界的值。
数据不准确的原因
1. 数据收集设备故障。
2. 数据输入错误。
3. 数据传输过程出错。
4. 命名约定、数据输入、输入字段格式不一致。
相关性：指数据与特定的应用和领域有关。
相关性应用场景
1. 构造预测模型时，需要采集与模型相关的数据。
2. 相同的数据再不同的应用场景，相关性也是不一样的。
完整性：指信息具有一个实体描述的所有必需的部分，在传统关系型数据库中，完整性通常与空值（NULL）有关。一般包括记录的缺失和记录属性的缺失。
数据不完整原因
1. 涉及隐私，无法获取相关属性。
2. 数据输入时由于人为疏忽。
3. 数据输入时由于机器故障。
时效性：指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。
相关场景：
1. 城市交通。
2. 商品推荐。
一致性：在数据库中，不同地方存储和使用的同一数据应当是等价的，表示数据有相等的值和相同的含义。
常见不一致情况
1. 逻辑不一致。
2. 记录规范不一致：同一个数据，在不同的地方显示存储不一致，比如男女存储。
可信性可解释性
可行性
1. 数据来源的权威性。
2. 数据的规范性。
3. 数据产生的时间。
可解释性
1. 反应数据是否容易理解。

数据预处理目的

数据预处理的目的就是提升数据质量。

重要性：数据预处理是数据挖掘中必不可少的关键一步，更是进行数据挖掘前的准备工作。

目的

达到改进数据的质量，提高数据挖掘过程的准确率和效率。
保证数据挖掘的正确性和有效性。
通过对数据格式和内容的调整，使得数据更符合挖掘的需要。

数据预处理的流程

1. 数据清理

清理脏数据：由于重复录入，并发处理等不规范的操作，导致产生不完整，不准确的，无效的数据。

1.1 缺失值处理

现有数据集中某个或某些属性的值是不完整的。

缺失值处理方法

忽略元组
人工填写
使用全局常量替换空缺值
属性的中心度量来填充
使用于给定元组同一类的所有样本中心度量值
使用最可能的值

1.2 噪声处理

不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。

噪声数据产生

数据收集工具的问题。
数据输入错误。
数据传输错误。
技术的限制。
命名规则不一致。

噪声处理的方法：

分箱法：通过考察数据的近邻值来光滑有序数据值。

举例：8、24、15、41、6、10、18、67、25等9个数。
排序：6、8、10、15、18、24、25、41、67。
分箱：

箱1： 6、8、10
箱2： 15、18、24
箱3： 25、41、67
分别用三种不同的分箱法求出平滑存储数据的值：
平均值：8 箱1： 8,8,8。
中值： 18 箱2： 18,18,18 。
边界值：6、67 箱3：25,25,67，箱中的最大和最小值被视为箱边界。
回归
聚类