广告
返回顶部
首页 > 资讯 > 后端开发 > Python >pandas去除重复值的实战
  • 677
分享到

pandas去除重复值的实战

2024-04-02 19:04:59 677人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据 首先,我们需要加载到所需要的数据,这里我们所

加载数据

首先,我们需要加载到所需要的数据,这里我们所需要的数据是同过sample函数采样过来的。


import pandas as pd 
#这里说明一下,clean_beer.csv数据有两千多行数据
#所以从其中采样一部分,来进行演示,当然可以简单实用data.head()也可以做练习
data = pd.read_csv('clean_beer.csv')
data_sam = data.sample(frac=0.1,weights=data['ounces'].values)
data_sam1 = data_sam
data_sam

我们采用data[‘ounces']列为权重对数据进行采样,并将结果赋值给data_sam1,其中data_sam和data_sam1是后续我们需要用到的两个数据(因为需要将两个数据合并,并去除重复)

此时,data_sam和data_sam1的数据是一样的。

data_sam数据


data_sam

data_sam

data_sam1数据


data_sam1

在这里插入图片描述

sample抽样函数

简要介绍一下sample函数

df.sample()就是抽样函数,参数如下:


df.sample(n=None,frac=None,replace=Flase,weights=None,random_state=None,axis=None)

参数说明:

**n:**就是样本量,如果不写,就是抽一条数据

**frac:**抽样比,就是样本量占全样本的比例,如frac=0.3 ,注意n和frac不能共存

replace:是否放回,默认是不放回,如果有放回(replace=True)可以选择比df长度更多的元素回来

weights:样本权重,自动归一化,可以以某一列为权重

random_state:随机状态。就是为了保证程序每次运行得到的结果都一样

axis:抽样维度,0是行,1是列,默认为0

指定需要更新的值

接下来,我们对data_sam1的值进行更新,主要是将data_sam1的ounces属性列值加上后缀'.0 oz',具体代码如下:


data_sam1['ounces'] = data_sam1['ounces'].astype('str') + '.0 oz'
data_sam1

对data_sam1的值进行显示,其中我们可以看到,ounces的值已经全部加上了我们所指定的后缀:

在这里插入图片描述

现在,我们已经得到的新的值,接下来的目标就是如何将我们已经得到的新值,更新到data_sam中

append直接添加

从标题可以看到,我们使用的是append方法进行直接添加。


data_sam = data_sam.append(data_sam1,ignore_index=True)
data_sam

我们将data_sam1使用append方法添加到data_sam最后一行的后面。下面展示其结果,并详细介绍append的用法。

append

可以看到,行数已经有原来的241改为现在的482rows,显然我们此时已经成功使用append添加数据成功。不过我们想要的不止是简简单单的添加数据在最后一行,而是想要把我们增加后缀的那一列更新到原来的数据中,所以最后一步就是去重。

append函数用法

append()函数的语法为:


DataFrame.append(other,ignore_index=False,verify_integrity=False,sort=None)

参数说明:

  • other: DataFrame,Series或Dict式对象,其行将添加到调用方DataFrame中。
  • ignore_index: 如果为True,则将忽略源DataFrame对象中的索引
  • verify_integrity:如果为True,则在创建具有重复项的索引时引发ValueError 。
  • sort: 如果源DataFrame列未对齐,则对列进行排序。 不建议使用此功能。 因此,我们必须传递sort=True来排序和静音警告消息。 如果传递了sort=False ,则不会对列进行排序,并且会忽略警告。

根据某一列key值进行去重(key唯一)

接下来,就是最后一个步骤,也就是根据ounces列对数据进行去重。
通过duplicated()函数可以看到数据还是有很多重复的。


data_sam.duplicated(['id'],keep='first')

在这里插入图片描述


DataFrame.drop_duplicated(self,subset = None,keep ='first')

subset : 列标签或标签序列,可选仅考虑某些列来标识重复项,默认情况下使用所有列
keep : {'first','last',False},默认为'first'
		first:将重复项标记True为第一次出现的除外。
		last:将重复项标记True为最后一次除外。
		False:将所有重复项标记为True。

既然知道数据中是有重复项的,通过对数据的观察可以看到,数据的id是唯一的,所以我们以id这一列为契机,来进行我们的去重操作。具体代码如下:


data_sam = data_sam.drop_duplicates(subset = 'id')
data_sam

最后来看一看,我们最后的结果是不是已经成功去重,或者说是不是我们想要的最终结果呢???

在这里插入图片描述

根据上面的图片结果,可以看到我们已经执行成功,得到的确实是我们起初想要的一个数据结果。有兴趣的也可以去试一下merge和update联合的操作进行更新数据,看看是不是也能成功。

到此这篇关于pandas去除重复值的实战的文章就介绍到这了,更多相关pandas去除重复值内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: pandas去除重复值的实战

本文链接: https://www.lsjlt.com/news/135857.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • pandas去除重复值的实战
    目录加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据 首先,我们需要加载到所需要的数据,这里我们所...
    99+
    2022-11-12
  • php怎么去除重复值
    本教程操作环境:windows7系统、PHP8.1版、Dell G3电脑。php怎么去除重复值?php去除数组中重复值,并返回结果!array_unique(array) 只能处理value只有单个的数组。去除有多个value数组,可以使用...
    99+
    2022-10-21
  • php如何去除重复值
    这篇文章主要讲解了“php如何去除重复值”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php如何去除重复值”吧!php去除重复值的方法:1、使用“function more_array_un...
    99+
    2023-07-04
  • thinkphp如何去除重复值
    本篇内容介绍了“thinkphp如何去除重复值”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!thinkphp去除重复值的方法:1、打开相应的...
    99+
    2023-06-26
  • Python教程pandas数据分析去重复值
    目录加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据 首先,我们需要加载到所需要的数据,这里我们所...
    99+
    2022-11-12
  • Python Pandas中DataFrame.drop_duplicates()删除重复值详解
    目录语法参数结果展示扩展:识别重复值总结语法 df.drop_duplicates(subset = None, keep = 'first',...
    99+
    2022-11-11
  • Python Pandas中DataFrame.drop_duplicates()怎么删除重复值
    这篇“Python Pandas中DataFrame.drop_duplicates()怎么删除重复值”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能...
    99+
    2023-07-02
  • hashset去除重复值原理实例解析
    Java中的set是一个不包含重复元素的集合,确切地说,是不包含e1.equals(e2)的元素对。Set中允许添加null。Set不能保证集合里元素的顺序。在往set中添加元素时,如果指定元素不存在,则添加成功。也就是说,如果set中不存...
    99+
    2023-05-30
    hashset 去除重复对象 原理
  • php如何去除重复数组值
    这篇文章主要介绍php如何去除重复数组值,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!php去除重复数组值的方法:首先打开相应的PHP代码文件;然后通过“array_unique($ordernum);”去掉重复的字...
    99+
    2023-06-14
  • php如何去除文本中的重复值
    这篇文章主要讲解了“php如何去除文本中的重复值”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php如何去除文本中的重复值”吧!一、PHP中去除数组中的重复值在PHP中,可以使用array_...
    99+
    2023-07-05
  • mysql实现合并结果集并去除重复值
    目录mysql 合并结果集并去除重复值mysql 合并结果集(union,union all)union 与 union all 执行结果不同对UNION,UNION...
    99+
    2022-12-21
    mysql合并结果集 mysql去除重复值 mysql结果集 mysql重复值
  • pandas中DataFrame检测重复值的实现
    本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重 DataFrame.duplicated(subset=None, keep='firs...
    99+
    2022-11-12
  • php数组怎么去除0和重复值
    php数组去除0和重复值的步骤:1、利用array_diff()函数去除数组中的0,语法“array_diff($arr, [0])”,会返回一个去0数组;2、使用array_unique()函数删除去0数组中的重复值即可,语法“array...
    99+
    2022-07-05
    php php数组
  • php数组如何去除0和重复值
    本篇内容介绍了“php数组如何去除0和重复值”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!php数组去除0和重复值的步骤:1、利用array...
    99+
    2023-07-02
  • js中如何实现两数组去除重复数值
    这篇文章主要介绍js中如何实现两数组去除重复数值,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!实例如下://两数组去除重复数值 mergeArray: function(a...
    99+
    2022-10-19
  • python的list去除重复
    我直接上脚本:方法1:#!/usr/bin/env python n = [1,2,3,3,4,3,1,2,3,2,1,4,5,5,5,5,6,6,4,3,2,1,2,6,8,2] m = [] for x in n:     if x ...
    99+
    2023-01-31
    python list
  • Python合并字典键值并去除重复元素的实例
    假设在python中有一字典如下: x={‘a':'1,2,3', ‘b':'2,3,4'} 需要合并为: x={‘c':'1,2,3,4'} 需要做到三件事: 1. 将字符串转化为数值列表 2. 合并...
    99+
    2022-06-04
    键值 字典 实例
  • php中两个数组怎么去除重复值
    去除步骤:1、利用array_intersect()获取两个数组的重复值(交集元素),语法“array_intersect(原数组1,(原数组2)”,会返回一个交集数组;2、使用array_diff()分别将两个原数组和交集数组进行对比,获...
    99+
    2022-08-08
    php php数组
  • mysql如何实现合并结果集并去除重复值
    本篇内容介绍了“mysql如何实现合并结果集并去除重复值”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!mysql 合并结果集并去除重复值SE...
    99+
    2023-07-04
  • python去除列表中的空值元素实战技巧
    目录python去除列表中的空值元素实战技巧产生需求的原因:需求目标:具体实操:去除列表中的空值元素补充:python list清理列表中的空元素或特定元素python去除列表中的空...
    99+
    2023-02-02
    python去除列表空值元素 python删除列表空值
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作