广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python数据预处理常用的5个技巧
  • 465
分享到

Python数据预处理常用的5个技巧

2024-04-02 19:04:59 465人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录前言数据集示例 1示例 2示例 3示例 4示例 5总结前言 我们知道数据是一项宝贵的资产,近年来经历了指数级增长。但是原始数据通常不能立即使用,它需要进行大量清理和转换。 pan

前言

我们知道数据是一项宝贵的资产,近年来经历了指数级增长。但是原始数据通常不能立即使用,它需要进行大量清理和转换。

pandaspython数据分析和操作库,它有多种清理数据的方法和函数。在本文中,我将做5个示例来帮助大家掌握数据清理技能。

数据集

这是一个包含脏数据的示例数据框

让我们看看可以做些什么来使这个数据集变得干净。

第一列是多余的,应该删除;

Date 没有标准;

Name 写成姓氏、名字,并有大写和小写字母;

Payment 代表一个数量,但它们显示为字符串,需要处理;

在 Note 中,有一些非字母数字应该被删除;

示例 1

删除列是使用 drop 函数的简单操作。除了写列名外,我们还需要指定轴参数的值,因为 drop 函数用于删除行和列。 最后,我们可以使用 inplace 参数来保存更改。

import pandas as pd
df.drop("Unnamed: 0", axis=1, inplace=True)

示例 2

我们有多种选择将日期值转换为适当的格式。一种更简单的方法是使用 astype 函数来更改列的数据类型。
它能够处理范围广泛的值并将它们转换为整洁、标准的日期格式。

df["Date"] = df["Date"].astype("datetime64[ns]")

示例 3

关于名称列,我们首先需要解决如下问题:

首先我们应该用所有大写或小写字母来表示它们。另一种选择是将它们大写(即只有首字母是大写的);

切换姓氏和名字的顺序;

df["Name"].str.split(",", expand=True)

然后,我将取第二列与第一列结合起来,中间有一个空格。最后一步是使用 lower 函数将字母转换为小写。

df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()

示例 4

支付Payment的数据类型是不能用于数值分析的。在将其转换为数字数据类型(即整数或浮点数)之前,我们需要删除美元符号并将第一行中的逗号替换为点。

我们可以使用 Pandas 在一行代码中完成所有这些操作

df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")

示例 5

Note 列中的一些字符也需要删除。在处理大型数据集时,可能很难手动替换它们。

我们可以做的是删除非字母数字字符(例如?、!、-、. 等)。在这种情况下也可以使用 replace 函数,因为它接受正则表达式

如果我们只想要字母字符,下面是我们如何使用替换函数:

df["Note"].str.replace('[^a-zA-Z]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral
Name: Note, dtype: object

如果我们想要字母和数字(即字母数字),我们需要在我们的正则表达式中添加数字:

df["Note"].str.replace('[^a-zA-Z0-9]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral0
Name: Note, dtype: object

请注意,这次没有删除最后一行中的 0,我只需选择第一个选项。如果我还想在删除非字母数字字符后将字母转换为小写

df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()

与初始形式相比,数据集看起来要好得多。当然,它是一个简单的数据集,但这些清理操作在处理大型数据集时肯定会对你有所帮助。

总结

到此这篇关于Python数据预处理常用的5个技巧的文章就介绍到这了,更多相关Python数据预处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python数据预处理常用的5个技巧

本文链接: https://www.lsjlt.com/news/138835.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python数据预处理常用的5个技巧
    目录前言数据集示例 1示例 2示例 3示例 4示例 5总结前言 我们知道数据是一项宝贵的资产,近年来经历了指数级增长。但是原始数据通常不能立即使用,它需要进行大量清理和转换。 Pan...
    99+
    2022-11-13
  • Python数据预处理常用的技巧有哪些
    本篇内容介绍了“Python数据预处理常用的技巧有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!数据集这是一个包含脏数据的示例数据框让我...
    99+
    2023-06-29
  • Python 处理大数据重定向:5个必须知道的技巧
    在现代计算机时代,数据量已经变得越来越大。因此,如何处理大数据并且进行有效的分析,已经成为了每个数据科学家的必修课。Python 作为一种流行的编程语言,它的高效性和灵活性赢得了越来越多的关注。Python 处理大数据时,经常需要进行重定...
    99+
    2023-10-18
    大数据 重定向 load
  • Python数据处理的三个实用技巧分享
    目录1 Pandas 移除某列2 统计标题单词数3 Genre 频次统计我使用的 Pandas 版本如下,顺便也导入 Pandas 库。 >>> import pa...
    99+
    2022-11-13
  • Python数据处理的26个Pandas实用技巧总结
    目录从剪贴板中创建DataFram将DataFrame划分为两个随机的子集多种类型过滤DataFrameDataFrame筛选数量最多类别处理缺失值一个字符串划分成多列Series扩...
    99+
    2022-11-13
  • Python编程中的5个实用算法技巧
    Python是一门强大而灵活的编程语言,它的多种数据结构和内置函数使它成为了数据科学和机器学习的首选语言。在Python编程中,算法是重要的一环,因为它们可以帮助我们处理和分析数据,并解决各种问题。本文将介绍,包括排序、搜索、计数、过滤和...
    99+
    2023-11-03
    日志 django 编程算法
  • Python数据处理的实用技巧有哪些
    今天小编给大家分享一下Python数据处理的实用技巧有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。我使用的 Panda...
    99+
    2023-06-29
  • python中常用的九个语法技巧
    目录前言数字分隔符交换变量值连续比较式字符串乘法列表拼接与乘法列表切片打包解包With语句对文件操作列表解析式总结前言 python语言简单、方便,尤其体现在语法方面,在其它语言中需...
    99+
    2022-11-13
  • Python中的异常处理技巧有哪些?
    Python中的异常处理技巧有哪些?需要具体代码示例Python是一种易于学习和使用的编程语言,它提供了强大的异常处理机制,可以帮助程序员增强代码的可靠性和可维护性。在编写Python程序时,我们经常会遇到各种各样的异常情况,如文件读写错误...
    99+
    2023-10-22
    Python 技巧 异常处理
  • 处理大数据:Python日志存储技巧
    在当今信息时代,数据已经成为了企业最重要的资源之一。随着技术的不断发展,数据的存储和处理也变得越来越方便。Python作为一种流行的编程语言,可以帮助我们处理大量的数据。在本文中,我们将介绍Python中的日志存储技巧,以便更有效地处理大...
    99+
    2023-06-19
    日志 存储 大数据
  • 使用Python对EXCEL数据的预处理
    一、熟悉数据 我们将EXCEL中的数据导入之后,需要对数据进行大致性的了解,当对数据充分地了解之后,才便于后期的分析工作。 该部分涉及到四个基本方法,分别为“shape&...
    99+
    2023-03-22
    Python EXCEL数据预处理 Python 数据预处理
  • Python如何处理大数据?3个技巧效率提升攻略
    如果你有个5、6 G 大小的文件,想把文件内容读出来做一些处理然后存到另外的文件去,你会使用什么进行处理呢?不用在线等,给几个错误示范:有人用multiprocessing 处理,但是效率非常低。于是,有人用python处理大文件还是会存在...
    99+
    2023-06-05
  • MySQL数据库的常用技巧
    这篇文章主要讲解了“MySQL数据库的常用技巧”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“MySQL数据库的常用技巧”吧! 正则表达式-- 是否...
    99+
    2022-10-18
  • 怎么用Python做数据预处理
    这篇文章给大家介绍怎么用Python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索...
    99+
    2023-06-02
  • 【宝藏系列】20个常用的Python技巧
    【宝藏系列】20个常用的Python技巧 ...
    99+
    2023-08-31
    python windows 开发语言
  • 怎么用Python制作一个数据预处理小工具
    这篇文章主要讲解了“怎么用Python制作一个数据预处理小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python制作一个数据预处理小工具”吧!在我们平常使用Python进行数据...
    99+
    2023-06-15
  • 你需要掌握的20个Python常用技巧
    目录1.字符串反转2.每个单词的第一个字母大写3.字符串查找唯一元素4.重复打印字符串和列表n次5.列表生成6.变量交换7.字符串拆分为子字符串列表8.多个字符串组合为一个字符串9....
    99+
    2022-11-13
  • 5个常用的MySQL数据库管理工具是什么呢
    这篇文章将为大家详细讲解有关5个常用的MySQL数据库管理工具是什么呢,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。  MySQL是一个非常流行...
    99+
    2022-10-19
  • PHP中的表格数据处理技巧
    在网站的开发中,表格是一个常见的元素,用于展示数据、进行数据录入和数据处理等。而在PHP中,对表格数据的处理也是比较常见的操作。在本文中,我们将介绍一些常用的PHP表格数据处理技巧。从表单获取数据在PHP中,表单数据可以通过$_POST或$...
    99+
    2023-05-25
    PHP表格处理 数据处理技巧 表格数据处理
  • Linux脚本操作的数据处理技巧与Python实现
    Linux脚本操作的数据处理技巧与Python实现引言:在日常工作中,数据处理是一个重要的环节。而在Linux系统中,使用脚本进行数据处理是非常高效的方法。本文将介绍一些在Linux脚本操作中常用的数据处理技巧,并结合Python语言,给出...
    99+
    2023-10-22
    Python Linux 脚本 数据处理
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作