广告
返回顶部
首页 > 资讯 > 数据库 >大数据预处理综述
  • 165
分享到

大数据预处理综述

大数据预处理综述 2021-12-10 03:12:30 165人浏览 绘本
摘要

数据预处理背景 大数据项目开发流程 数据质量 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。 数据不准确的原因 数据收集设备故障。 数据输入错误。 数据传输过程出错。 命名约定、数据输入、输入字段格式不

大数据预处理综述

数据预处理背景

大数据项目开发流程

数据质量

  • 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。

    数据不准确的原因

    1. 数据收集设备故障。
    2. 数据输入错误。
    3. 数据传输过程出错。
    4. 命名约定、数据输入、输入字段格式不一致。
  • 相关性:指数据与特定的应用和领域有关。

    相关性应用场景

    1. 构造预测模型时,需要采集与模型相关的数据。
    2. 相同的数据再不同的应用场景,相关性也是不一样的。
  • 完整性:指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。

    数据不完整原因

    1. 涉及隐私,无法获取相关属性。
    2. 数据输入时由于人为疏忽。
    3. 数据输入时由于机器故障。
  • 时效性:指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。

    相关场景:

    1. 城市交通。
    2. 商品推荐。
  • 一致性:在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

    常见不一致情况

    1. 逻辑不一致。
    2. 记录规范不一致:同一个数据,在不同的地方显示存储不一致,比如男女存储。
  • 可信性可解释性

    可行性

    1. 数据来源的权威性。
    2. 数据的规范性。
    3. 数据产生的时间。

    可解释性

    1. 反应数据是否容易理解。

数据预处理目的

数据预处理的目的就是提升数据质量。

重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。

目的

  • 达到改进数据的质量,提高数据挖掘过程的准确率和效率。
  • 保证数据挖掘的正确性和有效性。
  • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。

数据预处理的流程

1. 数据清理

清理脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。

1.1 缺失值处理

现有数据集中某个或某些属性的值是不完整的。

缺失值处理方法
  1. 忽略元组
  2. 人工填写
  3. 使用全局常量替换空缺值
  4. 属性的中心度量来填充
  5. 使用于给定元组同一类的所有样本中心度量值
  6. 使用最可能的值

1.2 噪声处理

不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。

噪声数据产生
  1. 数据收集工具的问题。
  2. 数据输入错误。
  3. 数据传输错误。
  4. 技术的限制。
  5. 命名规则不一致。
噪声处理的方法:
  1. 分箱法:通过考察数据的近邻值来光滑有序数据值。

    举例:8、24、15、41、6、10、18、67、25等9个数。
    排序:6、8、10、15、18、24、25、41、67。
    分箱:

    ​ 箱1: 6、8、10
    ​ 箱2: 15、18、24
    ​ 箱3: 25、41、67
    分别用三种不同的分箱法求出平滑存储数据的值:
    平均值:8 箱1: 8,8,8。
    中值: 18 箱2: 18,18,18 。
    边界值:6、67 箱3:25,25,67,箱中的最大和最小值被视为箱边界。

  2. 回归

  3. 聚类

2. 数据集成

将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。

2.1 数据集成方法

  1. 联邦数据库:各数据源的数据视图,集成为全局模式。
  2. 中间件集成:通过统一的全局数据模型,来访问异构的数据源。
  3. 数据复制:将各个数据源的数据复制,到同一处,即数据仓库

2.2 集成过程要处理的问题

  1. 实体识别:匹配多个信息源在现实世界中的等价实体。
  2. 冗余与相关分析:属性重复,属性相关冗余,元组重复。
  3. 数据冲突和检测: 对现实世界的同一实体,来自不同数据源的属性定义不同。原因:表示方法,度量单位、编码或比例的差异

3. 数据变换

3.1 转换目的

将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。

3.2 方法策略

  1. 光滑:去掉数据中的噪音。
  2. 属性构造:由给定的属性构造新的属性并添加到属性集中,帮助数据分析和挖掘。
  3. 聚集:对数据进行汇总或聚集
  4. 规范化:将属性数据按比例缩放,使之落入一个小的特定区间
  5. 离散化:数值属性用区间标签或概念标签替换。
  6. 由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country

4 数据归约

由于在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。

为了帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

4.1 数据归约分类

  1. 维归约:用于检测并删除不相关、弱相关或冗余的属性。
  2. 数量归约:用替代的、较小的数据表示形式替换原数据,来减少数据量。
  3. 数据压缩:用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。
您可能感兴趣的文档:

--结束END--

本文标题: 大数据预处理综述

本文链接: https://www.lsjlt.com/news/5554.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 大数据预处理综述
    数据预处理背景 大数据项目开发流程 数据质量 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。 数据不准确的原因 数据收集设备故障。 数据输入错误。 数据传输过程出错。 命名约定、数据输入、输入字段格式不...
    99+
    2021-12-10
    大数据预处理综述
  • python数据预处理
    Ⅰ.数据源 Ⅱ.导入库 import pandas as pdimport numpy as npfrom scipy import statsimport matplotlib.pyplot a...
    99+
    2023-09-21
    python 数据分析
  • torchvision.transforms 数据预处理:ToTensor()
    文章目录 1、ToTensor() 函数的作用2、读取图像时 PIL 和 opencv 的选择2.1 使用 PIL2.2 使用 opencv 3、ToTensor() 的使用3.1 关键...
    99+
    2023-10-08
    python numpy pytorch
  • 数据挖掘(2.3)--数据预处理
    目录 三、数据集成和转换 1.数据集成  2.数据冗余性  2.1 皮尔森相关系数 2.2卡方检验  3.数据转换 四、数据的规约和变换 1.数据归约 2数据离散化 三、数据集成和转换 1.数据集成  数据集成是将不同来源的数据整合...
    99+
    2023-09-10
    人工智能 python 数据挖掘 数据分析
  • 大数据技术栈浅述
    最近在做企业安全建设,企业安全建设中最常见的一项就是做监控,监控的种类多种多样,但是底层的技术栈却基本是一致的————大数据技术,下面我记录一下我最近学习到的一些大数据技术,下文只是描述个脉络而已。 大数据的技术栈,以及对应的上下...
    99+
    2014-10-01
    大数据技术栈浅述
  • 数据分析处理库Pandas——概述
    导入Pandas库 创建DataFrame结构 读取.csv文件 titanic_train.csv文件:https://files.cnblogs.com/files/gloria-zhang/titanic_train.rar...
    99+
    2023-01-31
    数据 Pandas
  • 数学建模--数据预处理
    目录 一、数据统计 1、行列式的最大元素和最小元素 2、求向量的平均值和中值  3、对矩阵做排序  二、数据优化(数据残缺值和异常值的处理) 1、数据残缺 ①插值 ②拟合  ③邻近替换 ④KNN算法填充 2、数据异常 ①拉依达准则 ②替换异...
    99+
    2023-09-04
    python 算法 numpy
  • 头歌:数据预处理之数据清洗
    本关任务:完成泰坦尼克号遇难数据的清洗。   案例背景 泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。 编程要求 根据提示,你需要完成: 缺失值填充离群点检测 ...
    99+
    2023-10-07
    python 开发语言
  • 数据预处理方法整理(数学建模)
    这篇文章主要是整理了一些作者在各种建模比赛中遇到的数据预处理问题以及方法,主要针对excel或csv格式的数据,为后续进行机器学习或深度学习做前期准备 数据清洗 导入库和文件,这里使用的是绝对路径,可改为相对路径 import pandas...
    99+
    2023-09-10
    python 数据分析 机器学习 深度学习 cnn
  • 怎么用Python做数据预处理
    这篇文章给大家介绍怎么用Python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索...
    99+
    2023-06-02
  • 国家海洋大数据中心-GBASE综合数据库解决方案
    项目介绍 为实现国家海洋大数据中心建设目标,海洋综合数据库(二期)需在海洋环境综合数据库(一期)项目搭建完成的海洋专网海洋环境综合数据库平台基础上,扩展涉密网及互联网数据库平台及海洋目标和极地数据建设,完成...
    99+
    2022-10-18
  • GO web 数据库预处理的实现
    目录什么是预处理? 那么预处理有啥好处? Go实现 MySQL 的事务 sqlx使用 gin + mysql + rest full api  上一篇文章我们进行了数据操作...
    99+
    2022-11-12
  • 使用Python对EXCEL数据的预处理
    一、熟悉数据 我们将EXCEL中的数据导入之后,需要对数据进行大致性的了解,当对数据充分地了解之后,才便于后期的分析工作。 该部分涉及到四个基本方法,分别为“shape&...
    99+
    2023-03-22
    Python EXCEL数据预处理 Python 数据预处理
  • 有哪些数据预处理的方法
    今天就跟大家聊聊有关有哪些数据预处理的方法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。数据预处理的方法有:1、数据清理,通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致...
    99+
    2023-06-14
  • Python中如何进行数据预处理?
    Python是一种广泛使用的编程语言,它在数据科学和机器学习领域中也非常受欢迎。在这些领域中,数据预处理是一个至关重要的步骤,因为原始数据通常是不完整、不一致和不可靠的。在本文中,我们将讨论Python中如何进行数据预处理。 1.导入数据 ...
    99+
    2023-08-11
    日志 numy load
  • Python如何处理大数据?
    Python如何处理大数据? 在现代数据处理技术中,大数据处理是一个非常重要的领域。Python作为一种高效、易学、易用的编程语言,也在大数据处理领域中占据着重要的地位。Python可以通过多种方式处理大数据,包括使用Python内置库、第...
    99+
    2023-10-21
    http 大数据 对象
  • Python能否处理大数据?
    Python是一门广泛使用的编程语言,其简洁、易学、跨平台等特性,使其成为了数据科学家和工程师的首选语言之一。然而,面对大数据处理,Python能否胜任呢?本文将探讨Python在处理大数据方面的优势和局限性。 Python处理大数据的优势...
    99+
    2023-10-28
    http 大数据 自然语言处理
  • PHP中的大数据处理
    随着互联网的发展和大数据技术的不断应用,服务器端脚本语言PHP也越来越受到广泛的关注。而PHP的优点不仅仅体现在它的易学易用上,还在于它能够处理大规模的数据,尤其是在大数据处理方面,PHP的能力也在不断增强。下面我们就来探讨一下PHP中的大...
    99+
    2023-05-23
    数据分析 PHP 大数据处理
  • 自然语言处理(二)——PTB数据集的预处
    参考书 《TensorFlow:实战Google深度学习框架》(第2版) 首先按照词频顺序为每个词汇分配一个编号,然后将词汇表保存到一个独立的vocab文件中。 #!/usr/bin/env python # -*- coding...
    99+
    2023-01-30
    自然语言 数据 PTB
  • python数据预处理的方法有哪些
    Python数据预处理的方法有:1. 数据清洗:处理缺失值、异常值、重复值等问题。2. 数据整合:将不同来源的数据整合到一起,如合并...
    99+
    2023-08-09
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作