iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python pandas找出、删除重复的数据实例
  • 678
分享到

Python pandas找出、删除重复的数据实例

2024-04-02 19:04:59 678人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录前言一、duplicated()二、drop_duplicates()总结前言 当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,

前言

当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,或者如何直接删除重复的数据是一个关键的步骤,pandas提供了很方便的方法:duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset:默认为None,需要标记重复的标签或标签序列

keep:默认为‘first’,如何标记重复标签

  • first:将除第一次出现以外的重复数据标记为True
  • last:将除最后一次出现以外的重复数据标记为True
  • False:将所有重复的项都标记为True(不管是不是第一次出现)

Series.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

例子:

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0 

df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(keep='last')

0     True
1    False
2    False
3    False
4    False
dtype: bool

df.duplicated(keep=False)

0     True
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

关于Index的重复标记:

df = df.set_index('brand')
df

        style  rating
brand                
Yum Yum   cup     4.0
Yum Yum   cup     4.0
Indomie   cup     3.5
Indomie  pack    15.0
Indomie  pack     5.0

df.index.duplicated()
array([False,  True, False,  True,  True])

二、drop_duplicates()

与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • subset:与duplicated()中相同
  • keep:与duplicated()中相同
  • inplace:与pandas其他函数的inplace相同,选择是修改现有数据还是返回新的数据

Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates()

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates(inplace = True)

df

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

总结

有剩余无,pandas有很多好用的库,但是系统学下来很不现实,都是在实际项目中不断的发现、积累、记录下来。

到此这篇关于python pandas找出、删除重复数据的文章就介绍到这了,更多相关pandas找出删除重复数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python pandas找出、删除重复的数据实例

本文链接: https://www.lsjlt.com/news/119245.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python pandas找出、删除重复的数据实例
    目录前言一、duplicated()二、drop_duplicates()总结前言 当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,...
    99+
    2022-11-11
  • 怎么使用Python pandas找出删除重复的数据
    这篇文章主要介绍了怎么使用Python pandas找出删除重复的数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么使用Python pandas找出删除重复的数据文章都会有所收获,下面...
    99+
    2023-07-02
  • pandas删除重复数据
     1、pandas中重复索引问题 df = df[~df.index.duplicated()] 2、pandas删除重复数据行 # 首先导入常用的两个包import pandas as pdimport numpy as np# 1.删除...
    99+
    2023-09-01
    pandas python 数据分析
  • SQL删除重复数据的实例教程
    目录1 SQL去重2 distinct3 group by1. 查询根据名字去重后数据(名字相同取id值大的)2. 删除名字相同数据(名字相同保留id值大的)4 总结1 SQL去重 ...
    99+
    2022-11-13
  • Pandas DataFrame.drop()删除数据的方法实例
    目录语法参数结果展示扩展总结df.drop()通过指定标签名称和相应的轴,或直接给定索引或列名称来删除行或列 语法 df.drop(labels = None, axis = 0, ...
    99+
    2022-11-11
  • Python pandas删除指定行/列数据的方法实例
    目录1.滤除缺失数据dropna()1)滤除含有NaN值的所有行2)滤除含有NaN值的所有列3)滤除元素都是NaN值的行4)滤除元素都是NaN值的列5)滤除指定列中含有缺失的行2.删...
    99+
    2022-11-13
  • postgresql 删除重复数据案例详解
    1.建表 -- ---------------------------- -- Table structure for test -- ------------------...
    99+
    2022-11-12
  • php怎么查找和删除数组中的重复数据
    在Web开发中,经常会遇到需要对大量数据进行查找和操作的情况,例如从数据库中查询某些特定记录或者对数据进行删除操作。在这样的情景下,PHP作为一种广泛应用的Web开发语言,其内置的函数和库往往可以方便地完成这些任务。本文将介绍如何使用PHP...
    99+
    2023-05-14
    php php数组
  • php如何查找和删除数组中的重复数据
    本文小编为大家详细介绍“php如何查找和删除数组中的重复数据”,内容详细,步骤清晰,细节处理妥当,希望这篇“php如何查找和删除数组中的重复数据”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。查找重复项首先,在进行...
    99+
    2023-07-05
  • MySQL数据库中怎么查找删除重复行
    这篇文章给大家介绍MySQL数据库中怎么查找删除重复行,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。当你对b字段排序(分组),相同值的c被分到不同的组,因此不能用COUNT(DISTI...
    99+
    2022-10-18
  • pandas删除某行或某列数据的实现示例
    目录1、drop()函数2、del函数首先,创建一个DataFrame格式数据作为举例数据。 # 创建一个DataFrame格式数据 data = {'a': ['a0', 'a1'...
    99+
    2022-11-11
  • postgresql如何找到表中重复数据的行并删除
    目录PostgreSQL找到表中重复数据的行并删除创建测试表并插入数据找到重复行并删除postgresql常用的删除重复数据方法最高效方法PG中三种删除重复数据方法总结postgresql找到表中重复数据的行并删除 创建...
    99+
    2023-05-05
    postgresql删除重复数据 删除表重复数据行 postgresql重复数据删除
  • Python实现删除重复文件的示例代码
    此程序主要是针对某个目录下的全部文件进行筛选,会删除重复的文件。 原理很简单,会计算每个文件的哈希,将哈希存入一个字典,文件名对应哈希。 import os import hashl...
    99+
    2023-02-14
    Python删除重复文件 Python删除文件 Python重复文件
  • mysql查找删除表中重复数据方法总结
    在数据库表里,我们有时候会保存了很多重复的数据,这些重复的数据浪费资源,我们要将其删除掉,应该怎么处理呢?下面来看一下。 先看下我们的表数据,有一些数据是重复的。 要查找重复数据,我们可以使用mysql里...
    99+
    2022-10-18
  • sql怎么找出重复的数据
    要找出重复的数据,可以使用SQL语句中的GROUP BY和HAVING子句。 下面是一个示例,假设有一个名为employee...
    99+
    2023-10-22
    sql
  • pandas删除部分数据后重新生成索引的实现
    目录pandas删除部分数据后重新索引原数据删除部分数据后附件:网上查到的格式化用的编码pandas常用的index索引设置1.读取时指定索引列2. 使用现有的 DataFrame ...
    99+
    2022-11-11
  • dbca中找不到要删除的数据库实例
    使用dbca删除数据库或配置数据库选件时会遇到无法找到或找不了一个不是当前启动的数据库实例,如下所示:[oracle@prodb-s ~]$ ps -ef |grep...
    99+
    2022-10-18
  • SQL删除重复数据的方法
    这篇文章将为大家详细讲解有关SQL删除重复数据的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在sql中,可以使用select语句删除重复数据,语法为:“s...
    99+
    2022-10-18
  • MySQL删除重复数据的方法
    这篇文章主要介绍MySQL删除重复数据的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!最近在做一个批量数据导入到MySQL数据库的功能,从批量导入就可以知道,这样的数据在插入数据...
    99+
    2022-10-18
  • SQLServer删除表中的重复数据
    添加示例数据 create table Student( ID varchar(10) not null, Name varchar...
    99+
    2022-11-13
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作