数据预处理背景 大数据项目开发流程 数据质量 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。 数据不准确的原因 数据收集设备故障。 数据输入错误。 数据传输过程出错。 命名约定、数据输入、输入字段格式不
准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。
数据不准确的原因
- 数据收集设备故障。
- 数据输入错误。
- 数据传输过程出错。
- 命名约定、数据输入、输入字段格式不一致。
相关性:指数据与特定的应用和领域有关。
相关性应用场景
- 构造预测模型时,需要采集与模型相关的数据。
- 相同的数据再不同的应用场景,相关性也是不一样的。
完整性:指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。
数据不完整原因
- 涉及隐私,无法获取相关属性。
- 数据输入时由于人为疏忽。
- 数据输入时由于机器故障。
时效性:指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。
相关场景:
- 城市交通。
- 商品推荐。
一致性:在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
常见不一致情况
- 逻辑不一致。
- 记录规范不一致:同一个数据,在不同的地方显示存储不一致,比如男女存储。
可信性可解释性
可行性
- 数据来源的权威性。
- 数据的规范性。
- 数据产生的时间。
可解释性
- 反应数据是否容易理解。
数据预处理的目的就是提升数据质量。
重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。
清理脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。
现有数据集中某个或某些属性的值是不完整的。
不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。
分箱法:通过考察数据的近邻值来光滑有序数据值。
举例:8、24、15、41、6、10、18、67、25等9个数。
排序:6、8、10、15、18、24、25、41、67。
分箱: 箱1: 6、8、10
箱2: 15、18、24
箱3: 25、41、67
分别用三种不同的分箱法求出平滑存储数据的值:
平均值:8 箱1: 8,8,8。
中值: 18 箱2: 18,18,18 。
边界值:6、67 箱3:25,25,67,箱中的最大和最小值被视为箱边界。
回归
聚类
将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。
由于在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。
为了帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
--结束END--
本文标题: 大数据预处理综述
本文链接: https://www.lsjlt.com/news/5554.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
2024-05-02
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0