iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Pandas实现数据拼接的操作方法详解
  • 520
分享到

Pandas实现数据拼接的操作方法详解

2024-04-02 19:04:59 520人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录merge 操作merge 拼接方式merge 举例join 操作join 举例concat 操作concat 举例append 举例数据科学领域日常使用 python 处理大规

数据科学领域日常使用 python 处理大规模数据集的时候经常需要使用到合并、链接的方式进行数据集的整合,其中应用的数据类型包括 Series 和 DataFrame,可以使用的方法也很多,比如本文中介绍的 .merge()、 .join() 和 .concat() 三种方法,进行拼接处理后的数据集可以发挥最大的用途。

merge 操作

.merge() 方法是用于组合通用列或索引上的数据,这个方法有点类似于 Mysql 中的 join 操作,可以实现左拼接、右拼接、全连接等操作。

通过关键字的索引进行拼接,实现多对一、一对多、多对多(笛卡尔乘积)连接。

merge 中参数解释:

  • how:定义合并方式,选择参数有 『inner』,『outer』, 『left’』,『right』。
  • on:定义2个 DataFrame 中都必须包含的列用于连接(索引键)。
  • left_on 和 right_on:指定要合并的左侧或右侧对象中存在的列或索引。
  • left_index 和 right_index:默认为 False,设置为以索引列作为合并基准。
  • suffixes:字符串元组,用于附加到不是合并键的相同列名。

merge 拼接方式

一张图就能看明白不同关键字参数 merger 的方式。

merge 举例

数据读取

我们要进行势力所属和人物直接关系的拼接操作,读取的数据包括下面的2个列表,并将 人物历史登入数据 中没有势力的数据剔除。

import pandas as pd
country  = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")

# 剔除不包含的势力数据,即武将在野的状态
people = people[people["勢力"]!="-"]

country.head()

people.head()

内部联接

使用 merge 默认参数可以直接进行内部连接,匹配两个DataFrame交集的结果。

将人物和所属势力进行一个拼接,这里我们取的是这个人物最终归属的势力,即改人物数据聚合后的最后一条数据信息。

people_new = people.groupby('名前').nth(-1)
people_new["名前"] = people_new.index
people_new.reset_index(drop=True,inplace=True)
people_new

merge 中DataFrame的顺序决定了拼接结果的顺序。

inner_merged_total = pd.merge(country,people_new,on=["勢力"])
inner_merged_total.head()

inner_merged_total = pd.merge(people_new,country,on=["勢力"])
inner_merged_total.head()

外连接

外连接(也称为完全外连接)中,来自两个 DataFrame 的所有行都将出现在新的 DataFrame 中。

本质上对于数据全的 df_A 和包含的 df_B 进行 outer 拼接,相当于 pd.merge(df_A ,df_B,on=[“key”])

outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged.head()

如果我们不剔除在野武将的数据的话会发现是整张表单进行拼接。

country  = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")
outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged

左连接

新合并的 DataFrame 与左侧 DataFrame 中的所有行一起保留(即merge中的第一个dataframe),同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。

left_merged = pd.merge(people_new,country,how="left",on=["勢力"])
left_merged

右连接

新合并的 DataFrame 与右侧 DataFrame 中的所有行一起保留(即merge中的第二个dataframe),同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。

right_merged = pd.merge(people_new,country,how="right",on=["勢力"])
right_merged 

join 操作

join 操作和 merge 很相似,是在列或索引上组合数据,join 相当于指定了 merge 中的第一个 DataFreme 。并且命名冲突的列可以定义后缀进行重新命名。

这个结果和之前的左右 merger 很相似。

join 中参数解释:

  • other:定义要拼接的 DataFrame。
  • on:指定左侧 DataFrame 的可选列或索引名称。如果设置为 None,这是默认 index 连接。
  • how:与 merge 中的 how 具有相同,如果不指定列则使用索引拼接。
  • lsuffix 和 rsuffix:类似 merge() 中的后缀。
  • sort:对生成后的 DataFrame 进行排序

join 举例

people_new.join(country, lsuffix="left", rsuffix="right")

仅仅是index的横向拼接。

concat 操作

concat 操作起来就比较灵活,可以进行横向的拼接操作,也可以进行纵向的拼接操作。

纵向拼接操作

横拼接操作

concat 中参数解释:

  • objs:要连接的任何数据对象。可以是List,Serices,DataFrame,Dict 等等。
  • axis:连接的轴。默认值为0(行轴),1(纵直)连接。
  • join:类似于 merger 中的 how 参数,只接受值 inner 或 outer 。
  • ignore_index:默认为False。True 为设置新的组合数据集将不会保留 axis 参数中指定的轴中的原始索引值。
  • keys:构建分层索引,用于查询不同的行来自的原始数据集。
  • copy:是否要复制源数据,默认值为True。

concat 举例

我们使用三国的宝物数据来观察,数据 74 行。

import pandas as pd
items  = pd.read_excel("Romance of the Three Kingdoms 13/道具列表.xlsx")
items.head()

横向拼接后,保持数据最大行数 74。

pd.concat([items, items], axis=1)

纵向拼接后,最大行数变成 74 的 2倍。

pd.concat([items, items], axis=0)

append 举例

append 也是 DataFrame 数据进行拼接的有效方式,方式同 concat 的纵向拼接,返回的结果需要对变量重新定义才能生效。

注意下面2个 append 行数的区别

items.append(items)
items

items = items.append(items)
items

到此这篇关于Pandas实现数据拼接的操作方法详解的文章就介绍到这了,更多相关Pandas数据拼接内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Pandas实现数据拼接的操作方法详解

本文链接: https://www.lsjlt.com/news/117410.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Pandas实现数据拼接的操作方法详解
    目录merge 操作merge 拼接方式merge 举例join 操作join 举例concat 操作concat 举例append 举例数据科学领域日常使用 Python 处理大规...
    99+
    2024-04-02
  • Python pandas DataFrame数据拼接方法
    目录前言DataFrame数据拼接方法一:使用.append()方法。DataFrame数据拼接方法二:使用.concat()方法。补充:Python同时合并多个DataF...
    99+
    2024-04-02
  • pandas数据的合并与拼接的实现
    目录1.Merge方法1.1内连接1.2外连接1.3左连接1.4右连接1.5基于多列的连接算法1.6基于index的连接方法2.join方法3.concat方法3.1series类型...
    99+
    2024-04-02
  • python中数据拼接的实现方法
    小编给大家分享一下python中数据拼接的实现方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Python主要用来做什么Python主要应用于:1、Web开发;...
    99+
    2023-06-15
  • pandas如何实现数据的合并与拼接
    这篇文章将为大家详细讲解有关pandas如何实现数据的合并与拼接,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Pandas包的merge、join、concat方法可以完成数据的合并和拼接,merge方法...
    99+
    2023-06-21
  • Python Pandas数据处理高频操作详解
    目录引入依赖算法相关依赖获取数据生成df重命名列增加列缺失值处理独热编码替换值删除列数据筛选差值计算数据修改时间格式转换设置索引列折线图散点图柱状图热力图66个最常用的pandas数...
    99+
    2024-04-02
  • Android拼接实现动态对象方法详解
    目录1. 前言2. 动态选密钥3. 换肤上的使用4. 总结1. 前言 我们往往有些配置文件,当项目大的时候,一些配置文件或者一些判断逻辑就会变得复杂,会出现很多判断语句,我在想,能...
    99+
    2023-03-01
    Android拼接动态对象 Android 动态对象
  • Pandas读存JSON数据操作示例详解
    目录引言读取json数据模拟数据参数oridentorident="split"orient="records"orient="in...
    99+
    2024-04-02
  • Pandas处理时间序列数据操作详解
    目录前言一、获取时间二、时间索引三、时间推移前言 一般从数据库或者是从日志文件读出的数据均带有时间序列,做时序数据处理或者实时分析都需要对其时间序列进行归类归档。而Pandas是处理...
    99+
    2024-04-02
  • Python数据分析Pandas Dataframe排序操作的方法
    本文小编为大家详细介绍“Python数据分析Pandas Dataframe排序操作的方法”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python数据分析Pandas Dataframe排序操作的方法”文章能帮助大家...
    99+
    2023-06-30
  • 详解C++ OpenCV实现图像拼接的原理及方法
    目录前言一、图像拼接相关原理 图像特征采集特征提取算法透视变换透视矩阵图像拷贝二、案例实现Step1:导入目标图片Step2:特征点提取和匹配 Step3:图像配...
    99+
    2024-04-02
  • Pandas实现两个表的连接功能的方法详解
    目录准备数据先导入模块输出内容连接内连接外连接左连接右连接上次介绍了pandas的多条件筛选,这些都是一些数据处理的必要技能,也不贪多,咱们每次学习一点。 这次咱们说说pandas的...
    99+
    2024-04-02
  • Mybatis操作多数据源实现的方法
    今天小编给大家分享的是Mybatis操作多数据源实现的方法,相信很多人都不太了解,为了让大家更加了解,所以给大家总结了以下内容,一起往下看吧。一定会有所收获的哦。现在有一个Mysql数据源和一个Postgresql数据源,使用Mybatis...
    99+
    2023-07-06
  • Pandas中怎么实现SQL查询数据操作
    本篇文章给大家分享的是有关Pandas中怎么实现SQL查询数据操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1. 选择行SELECT...
    99+
    2024-04-02
  • Pandas数据连接pd.concat的实现
    目录1.按行连接2.按列连接 3.合并交集扩展 4.与序列合并 5.指定索引Pandas数据可以实现纵向和横向连接,将数据连接后会形成一个新对象(Ser...
    99+
    2024-04-02
  • Ruby操作CSV格式数据方法详解
    CSV格式的数据默认是以逗号分隔各个字段的一条一条记录,默认用换行符分隔每一条记录。此外,有的CSV有标题行,有的没有。还有其他一些格式, 它们都有默认值,但都可以在读、写CSV数据...
    99+
    2024-04-02
  • Python实现数据的序列化操作详解
    目录Json 模块dumps()函数dump()函数loads()函数load()函数Pickle 模块dumps()函数dump()函数loads()函数load()函数总结​在日...
    99+
    2024-04-02
  • python 实现 pymysql 数据库操作方法
    目录一、安装二、连接数据库三、创建数据库四、创建数据表五、插入一条数据六、插入多条数据七、数据统计八、获取表名信息九、获取单条数据十、查询多条数据十一、查询所有数据十二、上下文管理一...
    99+
    2024-04-02
  • 使用pandas模块实现数据的标准化操作
    如下所示: 3σ 原则 (u-3*σ ,u+3*σ ) ...
    99+
    2024-04-02
  • CMD命令操作MySql数据库的方法详解
    第一:mysql服务的启动和停止 net stop mysql net start mysql ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作