iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python数据分析之Pandas Dataframe怎么合并和去重
  • 382
分享到

Python数据分析之Pandas Dataframe怎么合并和去重

2023-06-30 15:06:13 382人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍“python数据分析之pandas Dataframe怎么合并和去重”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Dataf

这篇文章主要介绍“python数据分析pandas Dataframe怎么合并和去重”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Dataframe怎么合并和去重”文章能帮助大家解决问题。

一、之 Pandas Dataframe合并

Pandas 提供了merge()方法来进行合并操作,使用语法如下:

pd.merge(left, right, how="inner", on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=False)

常用的参数说明:

  • left、right:指定左右两个要进行合并的 DataFrame 对象

  • how:指定合并类型,可以选择left、right、outer、inner,此参数可以确定以哪边(左边、右边或者左右共有)的键为基准,如果出现匹配失败的用NaN填充,默认为inner,具体如下:

    • left:代表左连接,以左DataFrame为基准,右侧匹配失败的用NaN填充

    • right:代表右连接,以右DataFrame为基准,左侧匹配失败的用NaN填充

    • inner:代表内连接,取交集

    • outer:代表外连接,取并集,匹配失败的用NaN填充

  • on:指定用于连接的键,也就是列名,传递改参数的话,必须保证传递的“键”在左右两边的DataFrame中都存在

  • left_on:指定左侧DataFrame中用于连接的键

  • right_on:指定右侧DataFrame中用于连接的键

  • left_index & right_index:表示以行索引作为合并基准,默认为False

  • sort:指定是否按照字典顺序通过连接键对结果DataFrame进行排序,默认为False

例如,对下面两个 DataFrame 对象执行合并操作:

import pandas as pddata = {"name": ["Alice", "Bob", "Cindy", "David"], "age": [25, 23, 28, 24], "gender": ["woman", "man", "woman", "man"]}df1 = pd.DataFrame(data)df1

Python数据分析之Pandas Dataframe怎么合并和去重

data = {"name": ["Alice", "Bob", "Cindy", "Emilie"], "city": ["beijing", "beijing", "jinan", "shanghai"]}df2 = pd.DataFrame(data)df2

Python数据分析之Pandas Dataframe怎么合并和去重

使用name作为连接键:

merge_pd = pd.merge(df1, df2, on="name")merge_pd

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

设置为左连接:

merge_pd = pd.merge(df1, df2, on="name", how="left")merge_pd

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

在进行数据分析时,数据的质量可能并不理想,有可能包含一些重复数据,那我们就要进行数据的“去重”操作,删除重复的数据,保留唯一的数据项,从而提高数据集整体的精确度,同时也可以节省空间、提升读写性能等,接下来就来介绍一下 Pandas Dataframe 的去重操作。

二、去重操作

Pandas 提供了drop_duplicates()方法进行数据的去重操作,具体使用格式如下:

df.drop_duplicates(subset=None, keep="first", inplace=False, ignore_index=False)

参数说明如下:

  • subset:指定要进行去重的列名,默认为None,可以使用列表指定一个或多个列名

  • keep:有三个参数可选:first、last、False,默认为first,表示只保留第一次出现的重复项,删除其余重复项;last表示只保留最后一次出现的重复项;False表示删除所有重复项

  • inplace:是否在原Dataframe对象上进行操作

  • ignore_index:默认为False,设置为True可以重新生成行索引。

例如,对下面 DataFrame 对象进行去重操作:

Python数据分析之Pandas Dataframe怎么合并和去重

可以看到该DataFrame 对象中索引为1、3的行是重复的,下面进行去除:

保留第一次出现的重复项

df.drop_duplicates(inplace=True)df

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

删除所有重复项

df.drop_duplicates(keep=False, inplace=True)df

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

ignore_index参数使用

df.drop_duplicates(inplace=True, ignore_index=True)df

Python数据分析之Pandas Dataframe怎么合并和去重

ignore_index设置为True后,通过结果可以看到,行索引进行了重排。

当然drop_duplicates()方法也可以根据指定列名去重,给subset传递参数即可,例如根据name列进行去重:

df.drop_duplicates(subset=["name"], inplace=True)

关于“Python数据分析之Pandas Dataframe怎么合并和去重”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网Python频道,小编每天都会为大家更新不同的知识点。

--结束END--

本文标题: Python数据分析之Pandas Dataframe怎么合并和去重

本文链接: https://www.lsjlt.com/news/329933.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python数据分析之Pandas Dataframe怎么合并和去重
    这篇文章主要介绍“Python数据分析之Pandas Dataframe怎么合并和去重”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Dataf...
    99+
    2023-06-30
  • Python数据分析之 Pandas Dataframe合并和去重操作
    目录一、之 Pandas Dataframe合并二、去重操作一、之 Pandas Dataframe合并 在数据分析中,避免不了要从多个数据集中取数据,那就避免不了要进行数据的合并,...
    99+
    2024-04-02
  • pandas中DataFrame数据合并连接的实例分析
    这篇文章主要介绍了pandas中DataFrame数据合并连接的实例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。pandas作者Wes McKinney 在【PYTHO...
    99+
    2023-06-15
  • Python数据分析之Pandas Dataframe如何自定义
    今天小编给大家分享一下Python数据分析之Pandas Dataframe如何自定义的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们...
    99+
    2023-06-30
  • Python数据分析之 Pandas Dataframe应用自定义
    目录前言:应用函数apply 方法applymap 方法前言: 在进行数据分析时,难免需要对数据集应用一些我们自定义的一些函数,或者其他库的函数,得到我们想要的数据,这种情况下,可能...
    99+
    2024-04-02
  • Python数据分析之Pandas Dataframe怎么修改、删除及查询
    这篇文章主要介绍“Python数据分析之Pandas Dataframe怎么修改、删除及查询”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Da...
    99+
    2023-06-30
  • Pandas数据分析之批量拆分/合并Excel
    目录前言一、假造数据二、程序演示 1、将一个大Excel等份拆成多个Excel2、合并多个小Excel到一个大Excel总结前言 笔者最近正在学习Pandas数据分析,将自...
    99+
    2024-04-02
  • Python教程pandas数据分析去重复值
    目录加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据 首先,我们需要加载到所需要的数据,这里我们所...
    99+
    2024-04-02
  • Python数据分析Pandas Dataframe排序操作
    目录1.索引的排序2.值的排序前言: 数据的排序是比较常用的操作,DataFrame 的排序分为两种,一种是对索引进行排序,另一种是对值进行排序,接下来就分别介绍一下。 1.索引的排...
    99+
    2024-04-02
  • Python数据分析之 Pandas Dataframe修改和删除及查询操作
    目录一、查询操作元素的查询二、修改操作行列索引的修改元素值的修改三、行和列的删除操作一、查询操作 可以使用Dataframe的index属性和columns属性获取行、列索引。 im...
    99+
    2024-04-02
  • Python数据分析之 Pandas Dataframe条件筛选遍历详情
    目录一、条件筛选二、Dataframe数据遍历for...in...语句iteritems()方法iterrows()方法itertuples()方法一、条件筛选 查询Pandas ...
    99+
    2024-04-02
  • Python数据分析之Pandas Dataframe条件筛选遍历的方法
    这篇文章主要介绍“Python数据分析之Pandas Dataframe条件筛选遍历的方法”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Dat...
    99+
    2023-06-30
  • python数据分析之pandas数据选
      Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。   Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据...
    99+
    2023-01-30
    数据 python pandas
  • Python数据分析库之pandas,你
    写这个系列背后的故事 咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~ pandas吧 外国人开发的 翻译成汉语叫 熊猫 厉害厉害,很接地气 一个基于numpy的库 干啥的? 做数据分析用的 而数据分析是python体系下一个...
    99+
    2023-01-31
    数据 Python pandas
  • Python数据分析Pandas Dataframe排序操作的方法
    本文小编为大家详细介绍“Python数据分析Pandas Dataframe排序操作的方法”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python数据分析Pandas Dataframe排序操作的方法”文章能帮助大家...
    99+
    2023-06-30
  • Python必备技巧之Pandas数据合并函数
    目录1. concat2. append3. merge4. join5. combine总结1. concat concat是pandas中专门用于数据连接合并的函数,功能非常强大...
    99+
    2024-04-02
  • python中DataFrame数据合并merge()和concat()方法怎么用
    这篇文章主要讲解了“python中DataFrame数据合并merge()和concat()方法怎么用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python中DataFrame...
    99+
    2023-07-02
  • Python高级数据分析之pandas和matplotlib绘图
    目录一、matplotlib 库二、Pandas绘图1.绘制简单的线型图1.1)简单的Series图表示例 .plot()1.2) 两个Series绘制的曲线可以叠加2.数据驱动的线...
    99+
    2024-04-02
  • Python数据分析之pandas函数详解
    目录一、apply和applymap二、排序三、处理缺失数据一、apply和applymap 1. 可直接使用NumPy的函数 示例代码: # Numpy ufunc 函数 df...
    99+
    2024-04-02
  • 深入解析pandas数据聚合和重组
    目录1GroupBy技术1.1简介1.3选取一个或一组列 1.4通过字典或Series进行分组1.5利用函数进行分组2数据聚合2.1简介2.1面向列的多函数应用2.2以&l...
    99+
    2023-05-16
    pandas数据聚合 pandas聚合 pandas重组
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作