iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >数据预处理的四个步骤分别是什么
  • 624
分享到

数据预处理的四个步骤分别是什么

2023-06-06 19:06:21 624人浏览 独家记忆
摘要

小编给大家分享一下数据预处理的四个步骤分别是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约;而

小编给大家分享一下数据预处理的四个步骤分别是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约;而数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理;数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。

数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有:数据清洗、数据集成、数据变换、数据归约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。

一、数据清洗

数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。

形式上的脏,如:缺失值、带有特殊符号的;

内容上的脏,如:异常值。

1、缺失值

缺失值包括缺失值的识别和缺失值的处理。

在R里缺失值的识别使用函数is.na判别,函数complete.cases识别样本数据是否完整。

缺失值处理常用的方法有:删除、替换和插补。

  • 删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit函数可以删除所含缺失值的行。

    这就相当于减少样本量来换取信息的完整度,但当变量有较大缺失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成。mydata表示所删数据集的名字,p是该删除变量的列数,-表示删除。

  • 替换法 :替换法顾名思义对缺失值进行替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的中位数或众数替换。

  • 插补法 :插补法分为回归插补和多重插补。

    回归插补指的是将插补的变量当作因变量y,其他变量看错自变量,利用回归模型进行拟合,在R里使用lm回归函数对缺失值进行插补;

    多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice包可以进行多重插补。

2、异常值

异常值跟缺失值一样包括异常值的识别和异常值的处理。

  • 异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart是绘制单变量散点图的函数,boxplot函数绘制箱现图;在图形中,把远离正常范围的点当作异常值。

  • 异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。

二、数据集成

所谓数据集成就是将多个数据源合并放到一个数据存储中,当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。

数据集成的实现是将两个数据框以关键字为依据,在R里用merge函数实现,语句为merge(dataframe1, dataframe2,by=”关键字“”),默认按升序排列。

在进行数据集成时可能会出现如下问题:

  1. 同名异义,数据源A中某属性名字和数据源B中某属性名字相同,但所表示的实体不一样,不能作为关键字;

  2. 异名同义,即两个数据源某个属性名字不一样但所代表的实体一样,可作为关键字;

  3. 数据集成往往造成数据冗余,可能是同一属性多次出现,也可能是属性名字不一致导致的重复,对于重复属性一个先做相关分析检测,如果有再将其删除。

三、数据变换

数据变换就是转化成适当的形式,来满足软件或分析理论的需要。

1、简单函数变换

简单函数变换用来将不具有正态分布的数据变成有正态分布的数据,常用的有平方、开方、取对数、差分等。如在时间序列里常对数据对数或差分运算,将非平稳序列转化成平稳序列。

2、规范化

规范化就是剔除掉变量量纲上的影响,比如:直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较。

  • 最小-最大规范化:也叫离差标准化,对数据进行线性变换,将其范围变成[0,1]

  • 零-均值规范化:也叫标准差标准化,处理后的数据均值等于0,标准差为1

  • 小数定标规范化:移动属性值的小数位数,将属性值映射到[-1,1]

3、连续属性离散化

将连续属性变量转化成分类属性,就是连续属性离散化,特别是某些分类算法要求数据是分类属性,如:ID3算法。

常用的离散化方法有如下几种:

  1. 等宽法:将属性的值域分成具有相同宽度的区间,类似制作频率分布表;

  2. 等频法:将相同的记录放到每个区间;

  3. 一维聚类:两个步骤,首先将连续属性的值用聚类算法,然后将聚类得到的集合合并到一个连续性值并做同一标记。

四、数据归约

数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。

数据规归能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。

1、属性归约

属性归约是寻找最小的属性子集并确定子集概率分布接近原来数据的概率分布。

  1. 合并属性:将一些旧的属性合并一个新的属性;

  2. 逐步向前选择:从一个空属性集开始,每次在原来属性集合选一个当前最优属性添加到当前子集中,一直到无法选择最优属性或满足一个约束值为止;

  3. 逐步先后选择:从一个空属性集开始,每次在原来属性集合选一个当前最差属性并剔除当前子集中,一直到无法选择最差属性或满足一个约束值为止;

  4. 决策树归纳:没有出现在这个决策树上的属性从初始集合中删除,获得一个较优的属性子集;

  5. 主成份分析:用较少的变量去解释原始数据中大部分变量(用相关性高的变量转化成彼此相互独立或不相关的变量)。

2、数值归约

通过减少数据量,包括有参数和无参数方法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。

以上是“数据预处理的四个步骤分别是什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网精选频道!

--结束END--

本文标题: 数据预处理的四个步骤分别是什么

本文链接: https://www.lsjlt.com/news/248322.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 数据预处理的四个步骤分别是什么
    小编给大家分享一下数据预处理的四个步骤分别是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约;而...
    99+
    2023-06-06
  • mysql数据库的四个范式分别是什么
    这篇文章给大家分享的是有关mysql数据库的四个范式分别是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、1NF(第一范式)第一范式是指数据库表中的每一列都是不可分割的基本...
    99+
    2024-04-02
  • AS400处理数据高效率的几个原因分别是什么
    本篇文章为大家展示了AS400处理数据高效率的几个原因分别是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。AS400传统写法比开放平台数据库执行SQL效率高的几...
    99+
    2024-04-02
  • mysql创建数据库的五个步骤是什么
    通过遵循以下五个步骤,可以创建 mysql 数据库:1. 访问 mysql 服务器;2. 创建数据库;3. 选择数据库;4. 创建表格(可选);5. 授权用户(可选)。 创建 MySQ...
    99+
    2024-04-22
    mysql navicat
  • Kafka演进的四个阶段分别是什么
    这篇文章将为大家详细讲解有关Kafka演进的四个阶段分别是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。  Kafka是当下热门的消息队列中间件,它可以...
    99+
    2024-04-02
  • Python中self的四个秘密分别是什么
    这篇文章给大家介绍Python中self的四个秘密分别是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。self的谜团毫无疑问,几乎每一门Python课程都有一个关于(class)类...
    99+
    2024-04-02
  • 分析线程和线程安全的5个步骤分别是什么
    本篇文章为大家展示了分析线程和线程安全的5个步骤分别是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 什么是线程中断?在我们的Java程序中其实有不止一条执行线程,只有当所有的线程都运...
    99+
    2023-06-17
  • java事务处理的步骤是什么
    在Java中进行事务处理通常包括以下步骤: 获取数据库连接:首先需要建立与数据库的连接,通常使用JDBC或者ORM框架来获取数据...
    99+
    2024-03-07
    java
  • Oracle数据库隐含参数使用的五个原则和四个建议分别是什么
    这期内容当中小编将会给大家带来有关Oracle数据库隐含参数使用的五个原则和四个建议分别是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。隐含参数是数据库参数名中前缀为...
    99+
    2024-04-02
  • PLSQL导入数据的步骤是什么
    在PL/SQL中导入数据的步骤如下: 创建一个表来存储要导入的数据,确保表的结构与要导入数据的结构匹配。 使用SQLLoad...
    99+
    2024-04-09
    PLSQL
  • SQL SERVER中四个系统表分别是什么
    这篇文章主要介绍了SQL SERVER中四个系统表分别是什么,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。SQL SERVER 中有四个系统...
    99+
    2024-04-02
  • oracle导出数据的步骤是什么
    导出Oracle数据库中的数据有以下步骤:1. 使用SQL Developer或者其他工具连接到Oracle数据库。2. 执行SEL...
    99+
    2023-08-31
    oracle
  • 设计数据库的步骤是什么
    设计数据库的步骤如下:1. 确定需求:与相关人员沟通,了解数据库的目标和要求,明确数据库所需存储的数据类型、数量和关系等。2. 设计...
    99+
    2023-08-26
    数据库
  • 部署SD-WAN之前要执行的三个步骤分别是什么
    部署SD-WAN之前要执行的三个步骤分别是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。随着企业制定网络战略和技术路线图,其中一项热门技术是SD-WAN,这是一种重要的...
    99+
    2023-06-03
  • 数据库事务正确执行的四个基本要素分别是什么呢
    这篇文章给大家介绍数据库事务正确执行的四个基本要素分别是什么呢,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。 ACID是数据库事务正确执行的四个基本要素的...
    99+
    2024-04-02
  • Java数据预统计处理的方法是什么
    Java中可以使用一些方法对数据进行预统计处理,其中常用的方法包括:1. 循环遍历:使用循环结构(如for循环、while循环)遍历...
    99+
    2023-08-24
    Java
  • 四种C#参数类型分别是什么
    这篇文章将为大家详细讲解有关四种C#参数类型分别是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。C#参数类型有四种:值类型引用类型输出类型数组型参数C#参数类型(1):值参数所谓值参数,...
    99+
    2023-06-17
  • 升级SQL Server 2014的四个要点分别是什么
    这篇文章将为大家详细讲解有关升级SQL Server 2014的四个要点分别是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。升级并不容易,但是有一些特性...
    99+
    2024-04-02
  • ADO.NET 批处理更新步骤是什么
    本篇内容介绍了“ADO.NET 批处理更新步骤是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在ADO.NET 批处理中,批处理更新只可...
    99+
    2023-06-17
  • Mongodb数据迁移步骤是什么
    本篇内容介绍了“Mongodb数据迁移步骤是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!需求:需要将...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作