iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >pandas怎么使用merge实现百倍加速的操作
  • 871
分享到

pandas怎么使用merge实现百倍加速的操作

2023-06-14 10:06:34 871人浏览 八月长安
摘要

小编给大家分享一下pandas怎么使用merge实现百倍加速的操作,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一个非常直接的实现方法:先生成一串目标时间序列,从某个开始日到今天为止,每七天一个日期。把这些日期map到数据

小编给大家分享一下pandas怎么使用merge实现百倍加速的操作,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!

一个非常直接的实现方法:

先生成一串目标时间序列,从某个开始日到今天为止,每七天一个日期。

把这些日期map到数据集的日期, Eg. {“2019-06-18”:“2019-06-15”…} 。

把map到的数据抽出来用pd.concat接起来。

代码如下:

target_dates = pd.date_range(end=now, periods=100, freq="7D")full_dates = pd.date_range(start, now).tolist()org_dates = df.date.tolist()last_date = Nonefor d in full_dates: if d in org_dates:  date_map[d] = d  last_date = d elif last_date is not None:  date_map[d] = last_date else:  continuenew_df = pd.DataFrame()for td in target_dates: new_df = pd.concat([new_df, df[df["date"]==date_map[td]])

这样的一个算法处理一个接近千万量级的数据集上大概需要十多分钟。仔细检查发现,每一次合并的dataframe数据量并不小,而且总的操作次数达到上万次。

所以就想如何避免高频次地使用pd.concat去合并dataframe。

最终想到了一个巧妙的方法,只需要修改一下前面的第三步,把日期的map转换成dataframe,然后和原始数据集做merge操作就可以了。

target_dates = pd.date_range(end=now, periods=100, freq="7D")full_dates = pd.date_range(start, now).tolist()org_dates = df.date.tolist()last_date = Nonefor d in full_dates: if d in org_dates:  date_map[d] = d  last_date = d elif last_date is not None:  date_map[d] = last_date else:  continue  #### main change is from here #####date_map_list = []for td in target_dates: date_map_list.append({"target_date":td, "org_date":date_map[td]}) date_map_df = pd.DataFrame(date_map_list)new_df = date_map_df.merge(df, left_on=["org_date"], right_on=["date"], how="inner")

改进之后,所有的循环操作都在一个微数量级上,最后一个merge操作得到了所有有用的数据,运行时间在5秒左右,大大提升了性能。

补充:Pandas DataFrames 中 merge 合并的坑点(出现重复连接键)

在我的实际开发中遇到的坑点,查阅了相关文档 总结一下

left = pd.DataFrame({'A': [1, 2], 'B': [2, 2]})

pandas怎么使用merge实现百倍加速的操作

right = pd.DataFrame({'A': [4, 5, 6], 'B': [2, 2, 2]})

pandas怎么使用merge实现百倍加速的操作

result = pd.merge(left, right, on='B', how='outer')

pandas怎么使用merge实现百倍加速的操作

警告:在重复键上加入/合并可能导致返回的帧是行维度的乘法,这可能导致内存溢出。在加入大型DataFrame之前,重复值。

pandas怎么使用merge实现百倍加速的操作

检查重复键

如果知道右侧的重复项DataFrame但希望确保左侧DataFrame中没有重复项,则可以使用该 validate='one_to_many'参数,这不会引发异常。

pd.merge(left, right, on='B', how='outer', validate="one_to_many") # 打印的结果: A_x B A_y0 1 1 NaN1 2 2 4.02 2 2 5.03 2 2 6.0

参数:

validate : str, optionalIf specified, checks if merge is of specified type.“one_to_one” or “1:1”: check if merge keys are unique in both left and right datasets.“one_to_many” or “1:m”: check if merge keys are unique in left dataset.“many_to_one” or “m:1”: check if merge keys are unique in right dataset.“many_to_many” or “m:m”: allowed, but does not result in checks.

看完了这篇文章,相信你对“pandas怎么使用merge实现百倍加速的操作”有了一定的了解,如果想了解更多相关知识,欢迎关注编程网精选频道,感谢各位的阅读!

--结束END--

本文标题: pandas怎么使用merge实现百倍加速的操作

本文链接: https://www.lsjlt.com/news/270060.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • pandas 使用merge实现百倍加速的操作
    对于非连续数据集,数据可视化时候需要每七天一个采样点。要求是选择此前最新的数据作为当日的数据展示,譬如今天是2019-06-18,而数据集里只有2019-06-15,那就用2019-...
    99+
    2024-04-02
  • pandas怎么使用merge实现百倍加速的操作
    小编给大家分享一下pandas怎么使用merge实现百倍加速的操作,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一个非常直接的实现方法:先生成一串目标时间序列,从某个开始日到今天为止,每七天一个日期。把这些日期map到数据...
    99+
    2023-06-14
  • 怎么使用Git删除merge操作
    今天小编给大家分享一下怎么使用Git删除merge操作的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、回顾Git merg...
    99+
    2023-07-05
  • Python实现GPU加速的基本操作
    目录CUDA的线程与块用GPU打印线程编号用GPU打印块编号用GPU打印块的维度用GPU打印线程的维度总结GPU所支持的最大并行度GPU的加速效果总结概要CUDA的线程与块 GPU从...
    99+
    2024-04-02
  • 使用pandas模块实现数据的标准化操作
    如下所示: 3σ 原则 (u-3*σ ,u+3*σ ) ...
    99+
    2024-04-02
  • Pandas中怎么实现SQL查询数据操作
    本篇文章给大家分享的是有关Pandas中怎么实现SQL查询数据操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1. 选择行SELECT...
    99+
    2024-04-02
  • C#中怎么使用Cache框架快速实现Cache操作
    这篇“C#中怎么使用Cache框架快速实现Cache操作”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“C#中怎么使用Cach...
    99+
    2023-07-02
  • 怎么使用JavaScript实现链表的操作
    本篇内容介绍了“怎么使用JavaScript实现链表的操作”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!链...
    99+
    2024-04-02
  • 使用Kotlin怎么实现操作符与操作符重载
    这篇文章将为大家详细讲解有关使用Kotlin怎么实现操作符与操作符重载,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。Kotlin基础教程之操作符与操作符重载Kotlin操作符的使用方法与其他...
    99+
    2023-05-31
    kotlin 操作符重载 操作符
  • 怎么使用Golang实现删除操作
    这篇文章主要介绍“怎么使用Golang实现删除操作”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用Golang实现删除操作”文章能帮助大家解决问题。一、Golang基本删除操作Golang提供...
    99+
    2023-07-05
  • C#中使用Cache框架快速实现Cache操作
    .NET 4.0中新增了一个System.Runtime.Caching的名字空间,它提供了一系列可扩展的Cache框架,本文就简单的介绍一下如何使用它给程序添加Cache。 一个C...
    99+
    2024-04-02
  • mysql中怎么实现日期加减操作
    mysql中怎么实现日期加减操作,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。 1. MySQL 为日期增加一个时间间隔:date_ad...
    99+
    2024-04-02
  • MongoDB中怎么实现数据增加操作
    这期内容当中小编将会给大家带来有关MongoDB中怎么实现数据增加操作,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。 只要是数据库那么就绝对离...
    99+
    2024-04-02
  • 怎么利用CDN实现API加速
    要利用CDN实现API加速,可以按照以下步骤进行操作: 选择合适的CDN服务商:首先需要选择一个可靠的CDN服务商,如Akama...
    99+
    2024-04-25
    CDN
  • 如何在 Windows 上使用 NumPy 加速 Go 的缓存操作?
    缓存操作是大多数计算机程序的重要组成部分。在高负载场景下,缓存操作的性能往往是应用程序性能的瓶颈。为了提高缓存操作的性能,我们可以使用 NumPy 库,这是一个用于 Python 的开源数学库。在本文中,我们将介绍如何在 Windows ...
    99+
    2023-07-10
    缓存 windows numy
  • 使用PyMySQL怎么实现增删查改操作
    使用PyMySQL怎么实现增删查改操作?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1、PyMySQL的使用步骤:2、案例:1 查询数据库中的表的信息: #&nb...
    99+
    2023-06-15
  • Python 使用dict实现switch的操作
    Python3还是没有switch,可以利用if-else来实现,但是非常不方便。使用dict来实现会比较简洁优雅。 # -*- coding: utf-8 -*- """ Py...
    99+
    2024-04-02
  • nodejs中怎么实现密码加密处理操作
    这篇文章将为大家详细讲解有关nodejs中怎么实现密码加密处理操作,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、关于node加密模块crypto的介绍其...
    99+
    2024-04-02
  • Node.js怎么操作redis实现添加查询功能
    这篇文章将为大家详细讲解有关Node.js怎么操作redis实现添加查询功能,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在实际开发中,免不了要操作mysql,mongo...
    99+
    2024-04-02
  • JavaScript的BOM操作怎么实现
    今天小编给大家分享一下JavaScript的BOM操作怎么实现的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。window对象...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作