iis服务器助手广告广告
返回顶部
首页 > 资讯 > 数据库 >数据清洗和转换的方法步骤
  • 569
分享到

数据清洗和转换的方法步骤

2024-04-02 19:04:59 569人浏览 独家记忆
摘要

本篇内容介绍了“数据清洗和转换的方法步骤”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 01 了

本篇内容介绍了“数据清洗和转换的方法步骤”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

 01 了解数据集

数据准备的关键和重复阶段是数据探索。一组因为太大而无法由人工手动读取、检查和编辑每个值的数据,仍需要验证其质量和适用性,然后才可以将其委托给一个值得花费时间和计算的模型。

数据清洗和转换的方法步骤

与将大型数据集的样本转储到电子表格程序中的方法一样简单,只需查看每列中出现的值的类型或范围,即可识别诸如不负责任的默认值之类的错误(例如,在没有测量值的情况下,使用零而不是NULL)或不可能的范围或不兼容的合并(数据似乎来自多个来源,每个来源中使用了不同的单位。例如,华氏度与摄氏度)。

数据分析工具非常丰富。当数据集太大而无法在电子表格程序中打开时,python脚本或像RStudio这样的应用程序具有可视化、汇总或报告数据的强大功能。使用你熟悉的任何方法,至少要确定不同属性值的格式和一般分布。

02 数据处理工具

在能够使用数据集之前,有许多工具可以用于清洗、处理和了解数据集。Python是这方面的事实标准,它有很多工具来理解和处理数据。

Matplotlib之类的包,通常可以非常容易地生成用于可视化检查的数据图表。

Pillow提供各种处理、转换和操作图像的功能。

Python有一个用于执行统计的内置程序包,如果需要更多功能的话,NumPy也有。

Python还具有广泛的内置和第三方支持内容,可处理你将要遇到的几乎所有文件格式,包括CSV、JSON、YAML、XML和html,以及更深奥的格式(如TOML或INI文件)。

如果这些都不起作用,则有一个值得搜索的软件包索引器,可以查看是否有解决你的问题的方法。或者,只需搜索“我想用Python做事情”,大多数情况下,你会发现某人遇到了相同的问题,并为此提供了解决方案,或者至少提供了一些可以查看的指引。

如果你不喜欢Python,那么几乎所有选择的编程语言都具有类似的工具和功能。我们之所以喜欢Python,是因为这些工作已经为你完成了,而且有很多例子可以作为起点。Python在这方面没有什么神奇之处,但它是最受欢迎的选择,所以我们提倡坚持使用主流工具。

另一个不错的选择是电子表格程序,例如excel、Numbers或Google Sheets。它们经常受到指责,因为在这些程序中进行数据准备可能很麻烦,但在需要使用Python(或你选择的其他工具)之前,你可以使用它们非常快速地获得大量有用的洞见和准备。作为系统附赠的工具,你基本上肯定已经安装了其中一个,并且可以在你的机器上运行。

最后,不要害怕跳出框架思考——一些像压缩数据集这样简单的东西,甚至不需要看数据集内部就能大致了解数据集的熵大小。如果一个数据集压缩得非常好,而来自相同来源的另一个数据集压缩得不那么好,那么第二个数据集的数据的熵可能比第一个数据集的大。

图像数据集不是那么容易观察到的,但绝对值得花时间浏览一下图像的总体质量,以及图像使用了哪些裁剪方法。像Turi Create这样的可视化功能对于了解数据非常有用。图3-1显示了一个例子。

数据清洗和转换的方法步骤

▲图3-1 通过Turi Create了解你的数据

03 清洗数据

在了解数据集的过程中,你可能会遇到一些错误。记录数据可能会产生错误。需要检查的错误有以下几类:

  • 一致值错误

  • 单值错误

  • 缺失值

一致值错误包括可能导致整列或一组值不准确的情况,例如,使用仪器记录某个被统一量校准错误的数据,从产生额外热量的物体旁边测量温度,使用未提前归零的天平称重,等等。这还包括来自不同来源的数据未经转换就被不当合并的情况:简单压缩一组来自美国和一组来自英国的数据,现在系统认为100摄氏度完全合理。

单值错误用于描述离群值或不一致的错误校准,仅在少数情况下导致不准确或完全不合逻辑的值。可能出现的情况,如传感器超载一天,产生的值比理论可能的高1000%(应该是相当明显的)。

当用于记录数据的方法出现问题,或者数据集在其生命周期的某个时刻经历了某种畸形的转换时,可能会出现缺失值。这些可能是简单的nil或NULL值,或者一些不太有用的值,例如字符串"NONE"或默认值0。有些甚至可能只是无意义的字符,什么都有可能出现。

如果可以识别出一致误差,那么这通常可以通过按一致误差值缩放或转换整个值集来纠正。单值错误和缺失值要求你要么猜测需要使用某种可行方法替换的值,要么完全删除行或者观察值以防止出现误差。

你可以通过以下方法来猜测该值:获取该列中所有其他值的平均值;使用该列中与缺失值最接近的观察值;使用一些使用其他属性知识的特定于应用程序的方法。

数据清洗和转换的方法步骤

04 转换数据

在使用数据之前进行转换有两个主要原因:为了满足要使用的算法的格式要求;使用新的推断属性改进或扩展当前数据。对于这两种目的,通常有三种数据转换:

1. 归一化(nORMalization)

一种用于数值数据的方法,它将上界和下界绑定到一个数值范围上,使它们更容易处理。

这方面的一个例子是对数值数据的观察值需要与不同的度量进行比较。如果你试图根据鱼的长度、体重、年龄和失去眼睛的数量来评估不同鱼的健康状况,大概每个人都会同意用不同的标准来比较两条鱼(例如,一只眼睛与一年的鱼,或者一厘米长度的相比较)。如果用同样的标准来比较,则会得出不同的结果。

归一为正数值很简单:

数据清洗和转换的方法步骤

2. 泛化(generalization)

一种将特定值替换为更高级别的概念,以更好地进行群体观察的方法。

当记录某些属性的方法比需要的更精确时,通常会发生这种情况。例如,如果你具有某人运动的GPS统计信息,则可以将纬度和经度归纳为一个地址,从而防止系统将每一个小运动都视为位置变化。或者,将数值测量值转换为人类群体,这意味着相关因素可能不是将个人的身高测量值以毫米为单位,而是将其分为低于、接近或高于平均的身高。

3. 聚合(aggregation)

对某些复杂属性进行总结以使分析更有效的一种方法。

例如,可以从文本中提取关键字(甚至是单词频率),而不是分析文本的段落(Attribute: Text,Classification: Class),只显示与所给出的分类最相关或最独特的方面。

在这些步骤之前、之间或之后,可能会出现不同类型的数据转换,数据可能被更改、扩展或缩减:

  • 特征构建(feature construction)

一种创建新属性的方法,通常通过推理或组合已有的其他值来实现。

这方面的一个例子是泛化或聚合,其中原始值也被保留,或者更常见的是,当存在两个或多个值时(或允许发现第三个值)。例如,如果你有一家公司的名称和经营所在国,可以查一下它的商业登记号;如果你有某人的身高和体重,可以构建他们的BMI。

  • 数据规约(data reduction)

一种删除某些属性的方法,这些属性可能与另一个属性相关,也可能与你试图解决的问题无关。

例如,如果你有某人的地址、邮编和区号,这些信息中至少有一条是多余的。也许—就像在特征构建的例子中那样—你由于一些算法的原因想要同时分析两者,但这是不可能的。两个或多个属性之间的高度相关性表明,它们可能在分析中导致错误,并可能被删除。

05 验证数据集的适应性

到了这一步,你应该花更多的时间仔细地看看你试图解决的问题和打算用于任务的数据集。在ai应用程序之前的数据分析世界中,可能没有你想要的那么严格的规则,但你通常会知道一个解决方案是否可行,一个数据集是否能讲述你想要的故事。

相信这个小小的声音,因为如果你回头看,会发现浪费的工作是有价值的。

再次探索你的数据。浏览并可视化它,用少量的数据子集测试你的解决方案—做你需要做的任何事情。如果感觉还是正确的,那就继续前进。

“数据清洗和转换的方法步骤”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

您可能感兴趣的文档:

--结束END--

本文标题: 数据清洗和转换的方法步骤

本文链接: https://www.lsjlt.com/news/61583.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 数据清洗和转换的方法步骤
    本篇内容介绍了“数据清洗和转换的方法步骤”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 01 了...
    99+
    2024-04-02
  • SQL数据清洗和转换的方法是什么
    数据去重:使用SELECT DISTINCT语句去除重复的数据行。 数据格式转换:使用CAST或CONVERT函数将数据类型转换为...
    99+
    2024-04-29
    SQL
  • Flume怎么转换和清洗数据
    Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统,它可以帮助用户方便地收集、处理和传输大规模数据。在Flume中...
    99+
    2024-04-02
  • Apache Pig中怎么清洗和转换数据
    在Apache Pig中,可以使用Pig Latin语言来清洗和转换数据。以下是一些常见的数据清洗和转换操作: 数据过滤:使用F...
    99+
    2024-04-02
  • 如何配置Graylog的数据清洗和转换规则
    在Graylog中,数据清洗和转换规则可以通过Pipeline进行配置。以下是一个简单的示例来配置数据清洗和转换规则: 登录到G...
    99+
    2024-04-02
  • 如何在Couchbase中实现数据清洗和转换
    在Couchbase中实现数据清洗和转换可以通过以下几种方法: 使用N1QL查询语言:N1QL是Couchbase提供的SQL-...
    99+
    2024-04-09
    Couchbase
  • 数据清洗的方法是什么
    这篇文章主要介绍数据清洗的方法是什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!数据清洗方法包括:1、分箱法,将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情...
    99+
    2023-06-15
  • 学会使用pandas进行高效的数据清洗步骤
    快速上手!使用Pandas进行数据清洗的方法 引言:随着数据的快速增长和不断积累,数据清洗成为了数据分析过程中不可忽视的一部分。而Pandas是Python中一种常用的数据分析工具库。它提供了高效且灵活的数据结构,使得数据清洗变...
    99+
    2024-01-24
    快速上手
  • SQL的数据清洗方法有哪些
    这篇文章主要讲解了“SQL的数据清洗方法有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“SQL的数据清洗方法有哪些”吧!大纲如图:01 删除指定列、重命...
    99+
    2024-04-02
  • 如何使用C++实现复杂的数据转换和清洗任务?
    非常抱歉,由于您没有提供文章标题,我无法为您生成一篇高质量的文章。请您提供文章标题,我将尽快为您生成一篇优质的文章。...
    99+
    2024-05-15
  • 从混乱到清晰:数据库数据清洗的转型
    数据清洗 数据质量 数据库 ETL 数据标准化 在当今数据驱动的时代,企业数据量的激增给数据管理带来了巨大的挑战。这些数据通常以不同的格式和质量存在,导致混乱和不可靠,从而阻碍企业做出明智的决策。数据清洗是解决这些问题的关键,它将混...
    99+
    2024-02-16
    数据库数据清洗是一项至关重要的过程 它能改善数据质量 提高数据的可信度和可操作性。通过遵循适当的步骤 企业可以从混乱的数据中获得清晰的信息 从而做出更明智的决策。
  • spark数据库清洗的方法是什么
    在Spark中进行数据清洗通常可以使用以下方法: 使用Spark SQL:可以使用Spark SQL提供的查询语言和函数来进行数...
    99+
    2024-04-02
  • 利用pandas进行数据清洗的方法
    目录1、完整性1.1 缺失值1.2 空行2、全面性列数据的单位不统一3、合理性 非ASCII字符4、唯一性4.1 一列有多个参数4.2 重复数据我们有下面的一个数据,利用其...
    99+
    2024-04-02
  • 阿里云清空空间数据库的方法和步骤
    在使用阿里云空间数据库时,有时会遇到需要清空数据库空间的情况,以释放更多的存储空间。这篇文章将详细介绍如何清空阿里云空间数据库。 清空阿里云空间数据库的方法和步骤清空阿里云空间数据库,可以释放更多的存储空间,使得数据库能够正常运行。下面将详...
    99+
    2023-11-05
    阿里 清空 步骤
  • Python中的数据清洗方法是什么
    这里数据清洗需要用到的库是pandas库,下载方式还是在终端运行 : pip install pandas.首先我们需要对数据进行读取import pandas as pd data = pd.read_csv(r'E:\PYt...
    99+
    2023-05-14
    Python
  • pandas实现数据清洗有哪些方法
    pandas实现数据清洗的方法有:1、缺失值处理;2、重复值处理;3、数据类型转换;4、异常值处理;5、数据规范化;6、数据筛选;7、数据聚合和分组;8、数据透视表等。详细介绍:1、缺失值处理,Pandas提供了多种处理缺失值的方法,对于缺...
    99+
    2023-11-22
    数据清洗 Pandas
  • 高效的数据处理利器:pandas的数据清洗方法
    数据清洗利器:pandas的高效处理方法 引言:随着大数据时代的到来,数据的处理变得愈发重要,尤其是在数据科学和数据分析领域。在这些场景下,数据通常是杂乱无章的,需要进行清洗和整理,才能有效地进行分析和建模。而pandas作为P...
    99+
    2024-01-24
    Pandas 数据清洗 高效处理
  • 数据库重生:数据清洗的奇迹疗法
    数据是现代企业不可或缺的资产,但数据质量问题却成为阻碍其价值释放的主要障碍之一。数据清洗,作为一种修复和恢复数据完整性、一致性和准确性的过程,正逐渐成为企业提升数据质量的必备良药。 数据清洗的必要性 数据清洗之所以如此重要,是因为低质量数...
    99+
    2024-04-02
  • 数据清洗的魔法师:让数据焕然一新
    数据清洗的重要性 提高数据质量:数据清洗消除了不准确、重复或不一致的数据点,从而提高了数据的整体质量。 增强数据分析:清理后的数据提供了更可靠的基础,用于执行准确的数据分析和机器学习模型。 提升决策制定:基于干净、准确的数据做出的决策更...
    99+
    2024-04-02
  • 探索Pandas中深入去重方法:数据清洗的利器
    数据清洗利器Pandas:深入解析去重方法 引言:在数据分析与处理中,数据去重是一项非常重要的工作。不仅可以帮助我们处理重复值带来的数据不准确性的问题,还可以提高数据的整体质量。而在Python中,Pandas库提供了强大的去重...
    99+
    2024-01-24
    Pandas 数据清洗 去重方法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作