iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Pandas数据清洗函数总结
  • 811
分享到

Pandas数据清洗函数总结

pandas数据清洗 2023-01-13 18:01:30 811人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、drop():删除指定行列 1. 删除指定行2. 删除指定列二、del():删除指定列三、isnull():判断是否为缺失1. 判断是否为缺失2. 判断哪些列存在缺

一、drop():删除指定行列

drop()函数用于删除指定行,指定列,同时可以删除多行多列

语法格式

DataFrame.drop(
        self,
        labels=None,
        axis: Axis = 0,
        index=None,
        columns=None,
        level: Level | None = None,
        inplace: bool = False,
        errors: str = "raise",
    )

参数说明

  • labels:要删除的行列的名字,接收列表参数,列表内有多个参数时表示删除多行或者多列
  • axis:要删除的轴,与labels参数配合使用。默认为0,指删除行;axis=1,删除列
  • index:直接指定要删除的行
  • columns:直接指定要删除的列
  • inplace:是否直接在原数据上进行删除操作,默认为False(删除操作不改变原数据),而是返回一个执行删除操作后的新dataframe;inplace=True,直接在原数据上修改。

 1. 删除指定行

当 axis=0 时,删除指定行

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, 4, 5, 5, 5]},index=list('abcdefgh'))
print(df_obj)
# 删除第一行
df_obj.drop(labels='a', axis=0, inplace=True)
print(df_obj)

运行结果:

在这里插入图片描述

2. 删除指定列

当 axis=1 时,删除指定列

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, 4, 5, 5, 5]}, index=list('abcdefgh'))
print(df_obj)
# 删除data2 
df_obj.drop(labels='data2', axis=1, inplace=True)
print(df_obj)

运行结果:

在这里插入图片描述

二、del():删除指定列

del()函数与drop()函数相比就没有那么灵活了,此操作会对原数据df进行删除,且一次只能删除一列。

语法格式

del df[‘列名']

案例:

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, 4, 5, 5, 5]}, index=list('abcdefgh'))
print(df_obj)
# 删除data1
del df_obj['data1']
print(df_obj)

运行结果:

在这里插入图片描述

三、isnull():判断是否为缺失

判断序列元素是否为缺失(返回与序列长度一样的bool值)

1. 判断是否为缺失

示例代码:

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'b', 'b', 'c'],
                       'data2': [1, 2, 3, 4, 5],
                       'data3': np.NaN})
print(df_obj)
print(df_obj.isnull())

运行结果:

在这里插入图片描述

2. 判断哪些列存在缺失

isnull().any()会判断哪些”列”存在缺失值,数据清洗中经常用的小技巧

print(df_obj.isnull().any())

运行结果:

在这里插入图片描述

3. 统计缺失个数

isnull().sum()统计每一列的缺失个数

print(df_obj.isnull().sum())

运行结果:

在这里插入图片描述

四、notnull():判断是否不为缺失

判断序列元素是否不为缺失(返回与序列长度一样的bool值),用法与isnull()相似

print(df_obj.notnull())

运行结果:

在这里插入图片描述

五、dropna():删除缺失值

dropna()函数可以删除缺失值

语法格式:

DataFrame.dropna(
        self,
        axis: Axis = 0,
        how: str = "any",
        thresh=None,
        subset=None,
        inplace: bool = False,
    )

参数说明

  • axis:移除行或列,默认为0,即行含有空值移除行
  • how:‘all’所有值为空移除,'any’默认值,包含空值移除
  • thresh:包含thresh个空值时移除
  • subset:axis轴上,指定需要处理的标签名称列表
  • inplace:是否替换原始数据,默认False

1. 导入数据

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', np.NaN, 'b', 'c'],
                       'data2': [1, 2, np.NaN, 4, 5],
                       'data3': np.NaN,
                       'data4': [1, 2, 3, 4, 5]})
print(df_obj)

运行结果:

在这里插入图片描述

2. 删除含有NaN值的所有行

默认 axis=0

print(df_obj.dropna())

运行结果:

在这里插入图片描述

3. 删除含有NaN值的所有列

设置 axis=1 删除列

print(df_obj.dropna(axis=1))

运行结果:

在这里插入图片描述

4. 删除元素都是NaN值的行

设置参数 how="all",只有行一整行数据都是NaN的时候才会删除

print(df_obj.dropna(axis=0,how="all"))

运行结果:由于所有行都有至少有一个有效值,所有都没删除

在这里插入图片描述

5. 删除元素都是NaN值的列

print(df_obj.dropna(axis=1,how="all"))

运行结果:

在这里插入图片描述

6. 删除指定列中含有缺失的行

subset参数设置指定列

# 删除data1列有含有缺失的行
print(df_obj.dropna(subset=["data1"], axis=0))

运行结果:

在这里插入图片描述

六. fillna():缺失值填充

缺失值填充

语法格式

fillna(
        self,
        value: object | ArrayLike | None = None,
        method: Fillnaoptions | None = None,
        axis: Axis | None = None,
        inplace: bool = False,
        limit=None,
        downcast=None,
    ) -> DataFrame | None

参数说明

  • value:用于填充的空值的值。
  • method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值, backfill / bfill表示用后面行/列的值,填充当前行/列的空值。
  • axis:选择轴,默认0(行),axis=1:列
  • inplace:是否替换原始数据
  • limit:int, default None。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)
  • downcast:dict, default is None,字典中的项为,为类型向下转换规则。或者为字符串“infer”,此时会在合适的等价类型之间进行向下转换,比如float64 to int64 if possible。

1. 导入数据

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', np.NaN, 'b', 'c'],
                       'data2': [1, 2, np.NaN, 4, 5],
                       'data3': np.NaN,
                       'data4': [1, 2, 3, 4, 5]})
print(df_obj)

运行结果:

在这里插入图片描述

2. 默认全部填充

# 用0填补空值
print(df_obj.fillna(value=0))

运行结果:

在这里插入图片描述

3. 用前一行的值填补空值

设置参数 method='pad' 用前一行的值填补空值

# 用前一行填充
print(df_obj.fillna(method='pad',axis=0))

运行结果:

在这里插入图片描述

4. 用后一列的值填补空值

设置参数 method='backfill'

# 用后一列的值填补空值
print(df_obj.fillna(method='backfill', axis=1))

运行结果:

在这里插入图片描述

5. 设置填充个数

limit=数字,设置填充个数

# 用后一列的值填补空值,只填充两个
print(df_obj.fillna(method='backfill', axis=1, limit=2))

运行结果:

在这里插入图片描述

七、ffill():用前一个元素填充

前向后填充缺失值,用缺失值的前一个元素填充,与fillna()相比没有那么多可选性

语法格式

ffill(
        self: DataFrame,
        axis: None | Axis = None,
        inplace: bool = False,
        limit: None | int = None,
        downcast=None,
    ) -> DataFrame | None

案例说明:

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, np.NaN, 5, 5, np.NaN]})
print(df_obj)
print(df_obj.ffill())

运行结果:

在这里插入图片描述

八、bfill():用后一个元素填充

后向填充缺失值,用缺失值的后一个元素填充

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, np.NaN, 5, 5, np.NaN]})
print(df_obj)
print(df_obj.bfill())

在这里插入图片描述

九、duplicated():判断序列元素是否重复

判断序列元素是否重复

语法格式

DataFrame.duplicated(subset=None,keep='first')

参数说明

  • subset:列标签,可选, 默认使用所有列,只考虑某些列来识别重复项传入列标签或者列标签的序列
  • keep:{‘first’,‘last’,False},默认’first’
    • first:删除第一次出现的重复项。
    • last:删除重复项,除了最后一次出现。
    • false:删除所有重复项

返回布尔型Series表示每行是否为重复行

示例代码:

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, 4, 5, 5, 5]})
print(df_obj)

print(df_obj.duplicated())

运行结果:

在这里插入图片描述

十、drop_duplicates():删除重复行

删除重复行,默认判断全部列,可指定按某些列判断

语法格式

DataFrame.drop_duplicates(
        self,
        subset: Hashable | Sequence[Hashable] | None = None,
        keep: Literal["first"] | Literal["last"] | Literal[False] = "first",
        inplace: bool = False,
        ignore_index: bool = False,
    ) -> DataFrame | None

参数说明

  • subset:列标签,可选, 默认使用所有列,只考虑某些列来识别重复项传入列标签或者列标签的序列
  • keep:{‘first’,‘last’,False},默认’first’
    • first:删除第一次出现的重复项。
    • last:删除重复项,除了最后一次出现。
    • false:删除所有重复项
  • inplace:是否替换原数据,默认是False,生成新的对象,可以复制到新的DataFrame
  • ignore_index:bool,默认为False,如果为True,则生成的轴将标记为0,1,…,n-1。

1. 判断所有列

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, 4, 5, 5, 5]})
print(df_obj)

print(df_obj.drop_duplicates())

运行结果:

在这里插入图片描述

2. 按照指定列进行判断

print(df_obj.drop_duplicates('data2'))

运行结果:

在这里插入图片描述

十一、replace():替换元素

替换元素,可以使用正则表达式

语法格式

replace(
        self,
        to_replace=None,
        value=None,
        inplace: bool = False,
        limit=None,
        regex: bool = False,
        method: str = "pad",
    )

参数说明

  • to_replace: 需要替换的值
  • value:替换后的值
  • inplace: 是否在原数据表上更改,默认 inplace=False
  • limit:向前或向后填充的最大尺寸间隙,用于填充缺失值
  • regex: 是否模糊查询,用于正则表达式查找,默认 regex=False
  • method: 填充方式,用于填充缺失值
    • pad: 向前填充
    • ffill: 向前填充
    • bfill: 向后填充

1. 单个值替换

to_replace接收字符串

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, np.NaN, 5, 5, np.NaN]})
print(df_obj)

print(df_obj.replace('a',"A"))

运行结果:

在这里插入图片描述

2. 多个值替换一个值

to_replace接收列表

print(df_obj.replace([1, 2], -100))

运行结果:

在这里插入图片描述

3. 多个值替换多个值

to_replace接收列表,value接收列表

print(df_obj.replace([1, 2], [-100, -200]))

运行结果:

在这里插入图片描述

4. 使用正则表达式:

to_replace接收正则语法,设置 regex=True

import numpy as np
import pandas as pd

df_obj = pd.DataFrame({'data1': ['ab', 'abc', 'aaa', 'b', 'b', 'b', 'c', 'c'],
                       'data2': [1, 1, 2, 3, np.NaN, 5, 5, np.NaN]})
print(df_obj)
# 替换a开头的
print(df_obj.replace('a.?',"A",regex=True))

运行结果:

在这里插入图片描述

十二、str.replace():替换元素

替换元素,可使用正则表达式

import numpy as np
import pandas as pd

s = pd.Series(['foo', 'fuz', np.nan])
print(s)
print(s.str.replace('f.', 'ba', regex=True))

运行结果:
在这里插入图片描述

十三、str.split.str():分割元素

以指定字符切割列

import numpy as np
import pandas as pd

data = {'洗漱用品':['毛巾|牙刷|牙膏']}

df = pd.DataFrame(data)
print(df)
print(df['洗漱用品'].str.split('|',expand=True))

运行结果:

在这里插入图片描述

 到此这篇关于Pandas数据清洗函数总结的文章就介绍到这了,更多相关pandas数据清洗 内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Pandas数据清洗函数总结

本文链接: https://www.lsjlt.com/news/177704.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Pandas数据清洗函数总结
    目录一、drop():删除指定行列 1. 删除指定行2. 删除指定列二、del():删除指定列三、isnull():判断是否为缺失1. 判断是否为缺失2. 判断哪些列存在缺...
    99+
    2023-01-13
    pandas数据清洗
  • PHP函数的数据清洗函数
    随着网站和应用程序的开发变得越来越普遍,保护用户输入数据的安全也变得越来越重要。在PHP中,许多数据清洗和验证函数可用于确保用户提供的数据是正确的、安全的和合法的。本文将介绍一些常用的PHP函数,以及如何使用它们来清洗数据以减少安全问题的出...
    99+
    2023-05-18
    函数 PHP 数据清洗
  • pandas数据清洗如何实现删除
    这篇文章主要介绍“pandas数据清洗如何实现删除”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“pandas数据清洗如何实现删除”文章能帮助大家解决问题。准备工作(导入库、导入数据)import&n...
    99+
    2023-07-02
  • pandas实现数据清洗有哪些方法
    pandas实现数据清洗的方法有:1、缺失值处理;2、重复值处理;3、数据类型转换;4、异常值处理;5、数据规范化;6、数据筛选;7、数据聚合和分组;8、数据透视表等。详细介绍:1、缺失值处理,Pandas提供了多种处理缺失值的方法,对于缺...
    99+
    2023-11-22
    数据清洗 Pandas
  • 利用pandas进行数据清洗的方法
    目录1、完整性1.1 缺失值1.2 空行2、全面性列数据的单位不统一3、合理性 非ASCII字符4、唯一性4.1 一列有多个参数4.2 重复数据我们有下面的一个数据,利用其...
    99+
    2022-11-12
  • 三个Python常用的数据清洗处理方式总结
    目录1. strip函数清除空格2. duplicated函数清除重复数据3. 数据缺失值补全4. 数据保存关于python数据处理过程中三个主要的数据清洗说明,分别是缺失值/空格/...
    99+
    2022-12-20
    Python数据清洗处理 Python数据清洗
  • 【玩转pandas系列】数据清洗(文末送书)
    文章目录 一、重复值检测二、元素替换1️⃣ 元素替换replace2️⃣ 数据映射map 三、修改索引1️⃣ 修改索引名rename2️⃣ 设置索引和重置索引 四、数据处理1️⃣ a...
    99+
    2023-08-31
    pandas 机器学习 python
  • 【Pandas总结】第五节 Pandas 数据查询方法总结_df.loc()总结
    文章目录 一、写在前面二、查询方法:`df.loc()`2.1 查询单个值2.2 查询列表对应的值2.3 查询区间内的结果2.4 条件查询2.5 按照函数要求查询 三、写在最后 ...
    99+
    2023-09-26
    pandas python 数据分析
  • 怎么在Python中使用Pandas进行数据清洗
    怎么在Python中使用Pandas进行数据清洗?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。python的五大特点是什么python的五大特点:1.简单易学,...
    99+
    2023-06-14
  • pandas数据清洗实现删除的项目实践
    目录准备工作(导入库、导入数据)检测数据情况DataFrame.drop(labels=None,axis=0, index=None, columns=None, inp...
    99+
    2022-11-11
  • Python怎么利用Pandas与NumPy进行数据清洗
    本文小编为大家详细介绍“Python怎么利用Pandas与NumPy进行数据清洗”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一...
    99+
    2023-06-30
  • Python Pandas常用函数方法总结
    初衷 NumPy、Pandas、Matplotlib、SciPy 等可以说是最最最常用的 Python 库了。我们在使用 Python 库的时候,通常会遇到两种情况。以 Pandas 举例。 我想对 Pan...
    99+
    2022-06-02
    Pandas常用函数方法 python pandas
  • pandas数据清洗(缺失值和重复值的处理)
    目录前言缺失值处理缺失值的判断缺失值统计缺失值筛选缺失值类型 插入缺失值缺失值填充插值填充interpolate() 的具体参数 缺失值删除 缺失值删除...
    99+
    2022-11-11
  • python数据处理67个pandas函数总结看完就用
    目录导⼊数据导出数据查看数据数据选取数据处理数据分组、排序、透视数据合并不管是业务数据分析 ,还是数据建模。数据处理都是及其重要的一个步骤,它对于最终的结果来说,至关重...
    99+
    2022-11-12
  • python如何清洗数据
    在Python中,可以使用各种库和工具来清洗数据。下面是一些常用的方法:1. 数据去重:使用pandas库的`drop_d...
    99+
    2023-09-12
    python
  • 详解Python如何利用Pandas与NumPy进行数据清洗
    目录准备工作DataFrame 列的删除DataFrame 索引更改DataFrame 数据字段整理str 方法与 NumPy 结合清理列apply 函数清理整个数据集DataFra...
    99+
    2022-11-10
  • pandas实现数据读取&清洗&分析的项目实践
    目录一、数据读取和写入1.1 CSV和txt文件:1.2 Excel文件:1.3 MYSQL数据库:二、数据清洗2.1 清除不需要的行数据2.2 清除不需要的列2.3 调整列的展示顺...
    99+
    2022-11-11
  • pandas数据处理清洗实现中文地址拆分案例
    目录一、案例场景二、初步方案三、优化方案一、案例场景 字段login_place,一共267725行记录,随机15条记录如下:   后续数据分析工作需要用...
    99+
    2022-11-12
  • 头歌:数据预处理之数据清洗
    本关任务:完成泰坦尼克号遇难数据的清洗。   案例背景 泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。 编程要求 根据提示,你需要完成: 缺失值填充离群点检测 ...
    99+
    2023-10-07
    python 开发语言
  • Python如何实现数据清洗
    小编给大家分享一下Python如何实现数据清洗,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!数据清洗小工具箱在下面的代码片段中,数据清洗代码被封装在了一些函数中,代码的目的十分直观。你可以直接使用这些代码,无需将它们嵌入到...
    99+
    2023-06-28
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作