Python pandas处理缺失值方法详解(dropna、drop、fillna)

2024-04-02 19:04:59 424人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录面对缺失值三种处理方法：对于option1：对于option 2:对于option3总结面对缺失值三种处理方法： option 1：去掉含有缺失值的样本（行）option 2：

面对缺失值三种处理方法：

option 1：去掉含有缺失值的样本（行）
option 2：将含有缺失值的列（特征向量）去掉
option 3：将缺失值用某些值填充（0，平均值，中值等）

对于dropna和fillna,dataframe和series都有，在这主要讲datafame的

对于option1：

使用DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明：

axis:
- axis=0: 删除包含缺失值的行
- axis=1: 删除包含缺失值的列
how: 与axis配合使用
- how=‘any’ :只要有缺失值出现，就删除该行货列
- how=‘all’: 所有的值都缺失，才删除行或列
thresh： axis中至少有thresh个非缺失值，否则删除
比如 axis=0，thresh=10：标识如果该行中非缺失值的数量小于10，将删除改行
subset: list
在哪些列中查看是否有缺失值
inplace: 是否在原数据上操作。如果为真，返回None否则返回新的copy，去掉了缺失值

建议在使用时将全部的缺省参数都写上，便于快速理解

examples:

 	   	      df = pd.DataFrame(
                                        {"name": ['Alfred', 'Batman', 'Catwoman'],         
                                          "toy": [np.nan, 'Batmobile', 'Bullwhip'],
                                         "born": [pd.NaT, pd.Timestamp("1940-04-25")     
                                                        pd.NaT]})
 			>>> df
 			       name        toy       born
 			0    Alfred        NaN        NaT
 			1    Batman  Batmobile 1940-04-25
 			2  Catwoman   Bullwhip        NaT
 			
 			# Drop the rows where at least one element is missing.
 			>>> df.dropna()
 			     name        toy       born
 			1  Batman  Batmobile 1940-04-25
 			
 			# Drop the columns where at least one element is missing.
 			>>> df.dropna(axis='columns')
 			       name
 			0    Alfred
 			1    Batman
 			2  Catwoman
 			
 			# Drop the rows where all elements are missing.
 			>>> df.dropna(how='all')
 			       name        toy       born
 			0    Alfred        NaN        NaT
 			1    Batman  Batmobile 1940-04-25
 			2  Catwoman   Bullwhip        NaT
 			
 			# Keep only the rows with at least 2 non-NA values.
 			>>> df.dropna(thresh=2)
 			       name        toy       born
 			1    Batman  Batmobile 1940-04-25
 			2  Catwoman   Bullwhip        NaT
 			
 			# Define in which columns to look for missing values.
 			>>> df.dropna(subset=['name', 'born'])
 			       name        toy       born
 			1    Batman  Batmobile 1940-04-25
 			
 			# Keep the DataFrame with valid entries in the same variable.	
 			>>> df.dropna(inplace=True)
 			>>> df
 			     name        toy       born
 			1  Batman  Batmobile 1940-04-25

对于option 2:

可以使用dropna 或者drop函数
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

labels: 要删除行或列的列表
axis: 0 行；1 列

	df = pd.DataFrame(np.arange(12).reshape(3,4),                 
	                  columns=['A', 'B', 'C', 'D'])
	
	>>>df
	   	   A  B   C   D
		0  0  1   2   3
		1  4  5   6   7
		2  8  9  10  11

	# 删除列
	>>> df.drop(['B', 'C'], axis=1)
	   A   D
	0  0   3
	1  4   7
	2  8  11
	>>> df.drop(columns=['B', 'C'])
	   A   D
	0  0   3
	1  4   7
	2  8  11
	
	# 删除行（索引）
	>>> df.drop([0, 1])
	   A  B   C   D
	2  8  9  10  11

对于option3

使用DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

value: Scalar, dict, Series, or DataFrame
dict 可以指定每一行或列用什么值填充
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
在列上操作
- ffill / pad: 使用前一个值来填充缺失值
- backfill / bfill :使用后一个值来填充缺失值
limit 填充的缺失值个数限制。应该不怎么用

f = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                   columns=list('ABCD'))
 >>> df
     A    B   C  D
0  NaN  2.0 NaN  0
1  3.0  4.0 NaN  1
2  NaN  NaN NaN  5
3  NaN  3.0 NaN  4

# 使用0代替所有的缺失值
>>> df.fillna(0)
    A   B   C   D
0   0.0 2.0 0.0 0
1   3.0 4.0 0.0 1
2   0.0 0.0 0.0 5
3   0.0 3.0 0.0 4

# 使用后边或前边的值填充缺失值
>>> df.fillna(method='ffill')
    A   B   C   D
0   NaN 2.0 NaN 0
1   3.0 4.0 NaN 1
2   3.0 4.0 NaN 5
3   3.0 3.0 NaN 4

>>>df.fillna(method='bfill')
     A	B	C	D
0	3.0	2.0	NaN	0
1	3.0	4.0	NaN	1
2	NaN	3.0	NaN	5
3	NaN	3.0	NaN	4

# Replace all NaN elements in column ‘A', ‘B', ‘C', and ‘D', with 0, 1, 2, and 3 respectively.
# 每一列使用不同的缺失值
>>> values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
>>> df.fillna(value=values)
    A   B   C   D
0   0.0 2.0 2.0 0
1   3.0 4.0 2.0 1
2   0.0 1.0 2.0 5
3   0.0 3.0 2.0 4

#只替换第一个缺失值
 >>>df.fillna(value=values, limit=1)
    A   B   C   D
0   0.0 2.0 2.0 0
1   3.0 4.0 NaN 1
2   NaN 1.0 NaN 5
3   NaN 3.0 NaN 4

房价分析：

在此问题中，只有bedroom一列有缺失值，按照此三种方法处理代码为：

# option 1 将含有缺失值的行去掉
housing.dropna(subset=["total_bedrooms"])  

# option 2 将"total_bedrooms"这一列从数据中去掉
housing.drop("total_bedrooms", axis=1)  

 # option 3 使用"total_bedrooms"的中值填充缺失值
median = housing["total_bedrooms"].median()
housing["total_bedrooms"].fillna(median)

sklearn提供了处理缺失值的 Imputer类，具体的使用教程在这:https://www.jb51.net/article/259441.htm

总结

到此这篇关于python pandas处理缺失值(dropna、drop、fillna)的文章就介绍到这了,更多相关pandas处理缺失值内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python pandas处理缺失值方法详解(dropna、drop、fillna)

本文链接: https://www.lsjlt.com/news/119983.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python pandas处理缺失值方法详解(dropna、drop、fillna)

目录面对缺失值三种处理方法：对于option1：对于option 2:对于option3总结面对缺失值三种处理方法： option 1：去掉含有缺失值的样本（行）option 2：...

99+

2024-04-02
Python Pandas删除替换并提取其中的缺失值NaN(dropna,fillna,isnull)

目录前言Pandas中缺少值NaN的介绍将缺失值作为Pandas中的缺少值NaN缺少值NaN的删除方法删除所有值均缺失的行/列删除至少包含一个缺失值的行/列根据不缺少值的元素数量删除...

99+

2024-04-02
Python Pandas知识点之缺失值处理详解

前言数据处理过程中，经常会遇到数据有缺失值的情况，本文介绍如何用Pandas处理数据中的缺失值。一、什么是缺失值对数据而言，缺失值分为两种，一种是Pandas中的空值，另一种是...

99+

2024-04-02
Python缺失值处理方法

前言：前面python重复值处理得方法我们讲了重复值是怎么处理的，今天就来说说缺失值。缺失值主要分为机械原因和人为原因。机械原因就是存储器坏了，机器故障等等原因导致某段时间未能收集...

99+

2024-04-02
python sklearn与pandas实现缺失值数据预处理流程详解

注：代码用 jupyter notebook跑的，分割线线上为代码，分割线下为运行结果 1.导入库生成缺失值通过pandas生成一个6行4列的矩阵，列名分别为'col1&#...

99+

2024-04-02
Python数据分析的八种处理缺失值方法详解

目录1. 删除有缺失值的行或列2. 删除只有缺失值的行或列3. 根据阈值删除行或列4. 基于特定的列子集删除5. 填充一个常数值6. 填充聚合值7. 替换为上一个或下一个值8. 使用...

99+

2024-04-02
Python3 DataFrame缺失值的处理方法

目录一、缺失值的判断二、缺失值数据的过滤三、缺失值数据的填充四、缺失值的删除一、缺失值的判断在通过Pandas做数据分析时，数据中往往会因为一些原因而出现缺失值NaN (Nota ...

99+

2024-04-02
详解pandas中缺失数据处理的函数

目录一、缺失值类型1、np.nan2、None3、NA标量二、缺失值判断1、对整个dataframe判断缺失2、对某个列判断缺失三、缺失值统计1、列缺失2、行缺失3、缺失率四、缺失值...

99+

2024-04-02
Python处理缺失值的8种不同方法实例

目录前言1. 删除有缺失值的行或列2. 删除只有缺失值的行或列3. 根据阈值删除行或列4. 基于特定的列子集删除5. 填充一个常数值6. 填充聚合值7. 替换为上一个或下一个值8. ...

99+

2024-04-02
Python数据分析之缺失值检测与处理详解

目录检测缺失值缺失值处理删除缺失值填补缺失值检测缺失值我们先创建一个带有缺失值的数据框(DataFrame)。 import pandas as pd df = pd.Dat...

99+

2024-04-02
Python数据预处理时缺失值的不同处理方式总结

目录1. 固定值填充2. 均值填充3. 中位数填充4. 插补法填充在使用python做数据分析的时候，经常需要先对数据做统一化的处理，缺失值的...

99+

2022-12-22

Python数据预处理缺失值 Python数据预处理 Python 预处理
详解用Python处理Args的3种方法

1. sys 模块 Python 中的 sys 模块具有 argv 功能。当通过终端触发 main.py 的执行时，此功能将返回提供给 main.py 的所有命令行参数的列表。除了其...

99+

2024-04-02
Python处理文本数据的方法详解

目录前言用python处理文本数据用python处理数值型数据前言 HI，好久不见，今天是关闭朋友圈的第60天，我是野蛮成长的AC-Asteroid。人生苦短，我用Python,通...

99+

2024-04-02
Python详解复杂CSV文件处理方法

目录项目简介项目笔记与心得1.分批处理与多进程及多线程加速2.优化算法提高效率总结项目简介鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：海量数据：...

99+

2024-04-02
python优化数据预处理方法Pandaspipe详解

我们知道现实中的数据通常是杂乱无章的，需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一，它提供了多种对原始数据进行预处理的方法。 import nump...

99+

2024-04-02
Python实现处理apiDoc转swagger的方法详解

目录需要转换的接口apiDoc格式swagger格式思路代码需要转换的接口现在我需要转换的接口全是nodejs写的数据，而且均为post传输的json格式接口 apiDoc格式 a...

99+

2023-02-02

Python apiDoc转swagger Python apiDoc swagger
Python高效处理大文件的方法详解

目录开始处理文本串行处理多进程处理并行处理并行批量处理将文件分割成批运行并行批处理tqdm 并发结论为了进行并行处理，我们将任务划分为子单元。它增加了程序处理的作业数量，减少了整体处...

99+

2024-04-02
Python使用Kafka处理数据的方法详解

目录一、安装Kafka-Python包二、生产者三、消费者四、批量发送和批量消费五、总结Kafka是一个分布式的流数据平台，它可以快速地处理大量的实时数据。Python是一种广泛使用...

99+

2023-05-16

Python Kafka处理数据 Python Kafka数据 Python 处理数据 Python Kafka
如何使用Pandas处理数据中的重复值：全面解析去重方法

Pandas去重方法全面解析：轻松处理数据中的重复值，需要具体代码示例引言：在数据分析和处理过程中，常常遇到数据中包含重复值的情况。这些重复值可能会对分析结果产生误导或影响数据的准确性。因此，去重是数据处理的重要一环。Pand...

99+

2024-01-24

Pandas 数据处理去重
如何在Python中进行数据缺失值处理和填充的最佳实践和算法选择

如何在Python中进行数据缺失值处理和填充的最佳实践和算法选择引言数据分析中常常会遇到缺失值的情况。缺失值的存在可能会严重影响数据分析和模型训练的结果。因此，对于缺失值的处理和填充成为了数据分析的重要一环。本文将介绍在Python中进行数...

99+

2023-10-22

Python 填充关键词：缺失值处理