首页 > 资讯 > 后端开发 > Python >使用Python进行数据清洗的完整指南

632

分享到

使用Python进行数据清洗的完整指南

Python 数据集数据清洗 2023-05-14 21:05:08 632人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

你一定听说过这句著名的数据科学名言：在数据科学项目中， 80% 的时间是在做数据处理。如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是

你一定听说过这句著名的数据科学名言：

在数据科学项目中， 80% 的时间是在做数据处理。

如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。 机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是良好模型性能的先决条件。当然干净的数据并不意味着一直都有好的性能，模型的正确选择(剩余 20%)也很重要，但是没有干净的数据，即使是再强大的模型也无法达到预期的水平。

在本文中将列出数据清洗中需要解决的问题并展示可能的解决方案，通过本文可以了解如何逐步进行数据清洗。

缺失值

当数据集中包含缺失数据时，在填充之前可以先进行一些数据的分析。因为空单元格本身的位置可以告诉我们一些有用的信息。例如：

NA值仅在数据集的尾部或中间出现。这意味着在数据收集过程中可能存在技术问题。可能需要分析该特定样本序列的数据收集过程，并尝试找出问题的根源。
如果列NA数量超过 70–80%，可以删除该列。
如果 NA 值在表单中作为可选问题的列中，则该列可以被额外的编码为用户回答(1)或未回答(0)。

missingno这个python库就可以用于检查上述情况，并且使用起来非常的简单，例如下图中的白线是 NA：

import missingno as msno
msno.matrix(df)

使用Python进行数据清洗的完整指南

对于缺失值的填补计算有很多方法，例如：

平均，中位数，众数
kNN
零或常数等

不同的方法相互之间有优势和不足，并且没有适用于所有情况的“最佳”技术。具体可以参考我们以前发布的文章

异常值

异常值是相对于数据集的其他点而言非常大或非常小的值。它们的存在极大地影响了数学模型的性能。让我们看一下这个简单的示例：

使用Python进行数据清洗的完整指南

在左图中没有异常值，我们的线性模型非常适合数据点。在右图中有一个异常值，当模型试图覆盖数据集的所有点时，这个异常值的存在会改变模型的拟合方式，并且使我们的模型不适合至少一半的点。

对于异常值来说我们有必要介绍一下如何确定异常，这就要从数学角度明确什么是极大或极小。

大于Q3+1.5 x IQR或小于Q1-1.5 x IQR都可以作为异常值。 IQR(四分位距) 是 Q3 和 Q1 之间的差 (IQR = Q3-Q1)。

可以使用下面函数来检查数据集中异常值的数量：

def number_of_outliers(df):

df = df.select_dtypes(exclude = 'object')

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

return ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()

处理异常值的一种方法是可以让它们等于 Q3 或 Q1。下面的lower_upper_range 函数使用 pandas 和 numpy 库查找其外部为异常值的范围，然后使用clip 函数将值裁剪到指定的范围。

def lower_upper_range(datacolumn):
sorted(datacolumn)
Q1,Q3 = np.percentile(datacolumn , [25,75])
IQR = Q3 - Q1
lower_range = Q1 - (1.5 * IQR)
upper_range = Q3 + (1.5 * IQR)
return lower_range,upper_range

for col in columns: 
lowerbound,upperbound = lower_upper_range(df[col])
df[col]=np.clip(df[col],a_min=lowerbound,a_max=upperbound)

数据不一致

异常值问题是关于数字特征的，现在让我们看看字符类型(分类)特征。数据不一致意味着列的唯一类具有不同的表示形式。例如在性别栏中，既有m/f，又有male/female。在这种情况下，就会有4个类，但实际上有两类。

这种问题目前没有自动处理的办法，所以需要手动进行分析。 pandas 的unique函数就是为了这个分析准备的，下面看一个汽车品牌的例子：

df['CarName'] = df['CarName'].str.split().str[0]
print(df['CarName'].unique())

使用Python进行数据清洗的完整指南

maxda-mazda, Nissan-nissan, porcshce-porsche, toyouta-toyota等都可以进行合并。

df.loc[df['CarName'] == 'maxda', 'CarName'] = 'mazda'
df.loc[df['CarName'] == 'Nissan', 'CarName'] = 'nissan'
df.loc[df['CarName'] == 'porcshce', 'CarName'] = 'porsche'
df.loc[df['CarName'] == 'toyouta', 'CarName'] = 'toyota'
df.loc[df['CarName'] == 'vokswagen', 'CarName'] = 'volkswagen'
df.loc[df['CarName'] == 'vw', 'CarName'] = 'volkswagen'

无效数据

无效的数据表示在逻辑上根本不正确的值。例如，

某人的年龄是 560;
某个操作花费了 -8 小时;
一个人的身高是1200 cm等;

对于数值列，pandas的 describe 函数可用于识别此类错误：

df.describe()

使用Python进行数据清洗的完整指南

无效数据的产生原因可能有两种：

1、数据收集错误：例如在输入时没有进行范围的判断，在输入身高时错误的输入了1799cm 而不是 179cm，但是程序没有对数据的范围进行判断。

2、数据操作错误

数据集的某些列可能通过了一些函数的处理。例如，一个函数根据生日计算年龄，但是这个函数出现了BUG导致输出不正确。

以上两种随机错误都可以被视为空值并与其他 NA 一起估算。

重复数据

当数据集中有相同的行时就会产生重复数据问题。这可能是由于数据组合错误(来自多个来源的同一行)，或者重复的操作(用户可能会提交他或她的答案两次)等引起的。处理该问题的理想方法是删除复制行。

可以使用 pandas duplicated 函数查看重复的数据：

df.loc[df.duplicated()]

在识别出重复的数据后可以使用pandas 的 drop_duplicate 函数将其删除：

df.drop_duplicates()

数据泄漏问题

在构建模型之前，数据集被分成训练集和测试集。测试集是看不见的数据用于评估模型性能。如果在数据清洗或数据预处理步骤中模型以某种方式“看到”了测试集，这个就被称做数据泄漏(data leakage)。所以应该在清洗和预处理步骤之前拆分数据：

使用Python进行数据清洗的完整指南

以选择缺失值插补为例。数值列中有 NA，采用均值法估算。在 split 前完成时，使用整个数据集的均值，但如果在 split 后完成，则使用分别训练和测试的均值。

第一种情况的问题是，测试集中的推算值将与训练集相关，因为平均值是整个数据集的。所以当模型用训练集构建时，它也会“看到”测试集。但是我们拆分的目标是保持测试集完全独立，并像使用新数据一样使用它来进行性能评估。所以在操作之前必须拆分数据集。

虽然训练集和测试集分别处理效率不高(因为相同的操作需要进行2次)，但它可能是正确的。因为数据泄露问题非常重要，为了解决代码重复编写的问题，可以使用sklearn 库的pipeline。简单地说，pipeline就是将数据作为输入发送到的所有操作步骤的组合，这样我们只要设定好操作，无论是训练集还是测试集，都可以使用相同的步骤进行处理，减少的代码开发的同时还可以减少出错的概率。

以上就是使用Python进行数据清洗的完整指南的详细内容，更多请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 使用Python进行数据清洗的完整指南

本文链接: https://www.lsjlt.com/news/205327.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

使用Python进行数据清洗的完整指南

你一定听说过这句著名的数据科学名言：在数据科学项目中， 80% 的时间是在做数据处理。如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是...

99+

2023-05-14

Python 数据集数据清洗
利用Python进行数据清洗的操作指南

目录缺失值异常值数据不一致无效数据重复数据数据泄漏问题你一定听说过这句著名的数据科学名言：在数据科学项目中， 80% 的时间是在做数据处理。如果你没有听过，那么请记住：数据清洗是...

99+

2024-04-02
怎么使用Python进行数据清洗

这篇文章主要讲解了“怎么使用Python进行数据清洗”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么使用Python进行数据清洗”吧！缺失值当数据集中包含缺失数据时，在填充之前可以先进行一...

99+

2023-07-06
如何用Python进行数据清洗

这篇文章主要介绍“如何用Python进行数据清洗”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何用Python进行数据清洗”文章能帮助大家解决问题。数据清洗是...

99+

2024-04-02
怎么在Python中使用Pandas进行数据清洗

怎么在Python中使用Pandas进行数据清洗？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。python的五大特点是什么python的五大特点：1.简单易学，...

99+

2023-06-14
利用pandas进行数据清洗的方法

目录1、完整性1.1 缺失值1.2 空行2、全面性列数据的单位不统一3、合理性非ASCII字符4、唯一性4.1 一列有多个参数4.2 重复数据我们有下面的一个数据，利用其...

99+

2024-04-02
Python怎么利用Pandas与NumPy进行数据清洗

本文小编为大家详细介绍“Python怎么利用Pandas与NumPy进行数据清洗”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一...

99+

2023-06-30
使用Python怎么清洗数据

今天就跟大家聊聊有关使用Python怎么清洗数据，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。下面我们用一副待清洗的扑克牌作为示例，假设它保存在代码文件相同的目录下，在 Jupyte...

99+

2023-06-16
学会使用pandas进行高效的数据清洗步骤

快速上手！使用Pandas进行数据清洗的方法引言：随着数据的快速增长和不断积累，数据清洗成为了数据分析过程中不可忽视的一部分。而Pandas是Python中一种常用的数据分析工具库。它提供了高效且灵活的数据结构，使得数据清洗变...

99+

2024-01-24

快速上手
使用PHP PDO连接数据库的完整指南

非常抱歉，由于您没有提供文章标题，我无法为您生成一篇高质量的文章。请您提供文章标题，我将尽快为您生成一篇优质的文章。...

99+

2024-05-21
MySQL中怎么使用LOOP循环进行数据清洗

在MySQL中，可以使用存储过程和游标来实现循环遍历数据并进行数据清洗操作。以下是一个使用存储过程和游标进行数据清洗的示例：创建...

99+

2024-04-30

MySQL
如何在Python中进行数据清洗和处理

如何在Python中进行数据清洗和处理数据清洗和处理是数据分析和挖掘过程中非常重要的一步。清洗和处理数据可以帮助我们发现数据中的问题、缺失或异常，并且为后续的数据分析和建模提供准备。本文将介绍如何使用Python进行数据清洗和处理，并提供具...

99+

2023-10-22

Python编程（Python programming）数据清洗（Data Cleaning）数据处理（Data P
详解Python如何利用Pandas与NumPy进行数据清洗

目录准备工作DataFrame 列的删除DataFrame 索引更改DataFrame 数据字段整理str 方法与 NumPy 结合清理列apply 函数清理整个数据集DataFra...

99+

2024-04-02
PHP 中使用 Elasticsearch 进行数据清洗与聚合计算

概要：本文将介绍如何在 PHP 中使用 Elasticsearch 进行数据清洗和聚合计算。Elasticsearch 是一个强大而灵活的分布式搜索和分析引擎，它可以帮助我们通过对数据进行索引和查询来进行数据清洗和聚合计算。本文将通过具体的...

99+

2023-10-21

PHP 数据清洗 elasticsearch 聚合计算
怎么在Python中使用numpy清洗数据

这篇文章给大家介绍怎么在Python中使用numpy清洗数据，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Python主要用来做什么Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用...

99+

2023-06-14
用 PHP 实现复杂数据结构的完整指南

php 提供了数组、哈希表、链表、堆栈、队列、树和图等复杂数据结构的完整指南，可用于有效存储和管理不同数据类型和结构，增强 php 程序的性能和效率。用 PHP 实现复杂数据结构的完...

99+

2024-05-07

php 复杂数据结构键值对
使用PyCharm打包项目的完整指南

PyCharm项目打包教程：一步步教你如何打包项目，需要具体代码示例导言：在开发Python项目的过程中，往往需要将项目打包成可执行文件或者可发布的代码包。PyCharm作为一款强大的Python开发工具，提供了方便的打包功能，本文将详细介...

99+

2023-12-30

教程 Pycharm 项目打包
大数据对象在Python中的应用与挑战：一份完整指南

大数据对象在Python中的应用与挑战：一份完整指南随着大数据时代的到来，数据量的增加和数据类型的多样化成为了一个巨大的挑战。在这个背景下，Python作为一种高效的编程语言，被广泛应用于大数据处理中。本文将介绍大数据对象在Python中...

99+

2023-10-21

http 大数据对象
从零开始：ASP 中使用 NumPy 库进行自然语言处理的完整指南

自然语言处理是一种涉及计算机科学、人工智能和语言学的交叉学科。它的目的是让计算机能够理解和处理人类使用的自然语言。在这个领域中，使用 NumPy 库可以方便地进行各种文本处理和分析任务。本文将介绍如何从零开始使用 NumPy 库进行自然...

99+

2023-11-08

load 自然语言处理 numy
利用Python的NumPy库处理大数据和自然语言的完整指南。

Python作为一种高级编程语言，广泛应用于数据科学和自然语言处理领域。NumPy是Python中最常用的科学计算库之一，它提供了高效的多维数组操作和数学函数，是处理大数据和自然语言的理想工具之一。本文将为您提供一份完整的指南，介绍如何使用...

99+

2023-09-13

自然语言处理大数据 numy