iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >数据分析之Pandas VS SQL!
  • 617
分享到

数据分析之Pandas VS SQL!

2023-06-02 09:06:16 617人浏览 薄情痞子
摘要

编辑:zone来源:数据管道作者:艾德宝器Abstractpandas是一个开源的python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。对于数据开发工程师或分析师

编辑:zone

来源:数据管道

作者:艾德宝器

Abstract

  • pandas是一个开源python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。

  • 对于数据开发工程师或分析师而言,sql 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。

Pandas简介 

Pandas把结构化数据分为了三类:

  • Series,可以理解为一个一维的数组,只是index可以自己改动。

  • DataFrame,一个类似于表格的数据类型的2维结构化数据。

  • Panel,3维的结构化数据。

Dataframe实例:

数据分析之Pandas VS SQL!

对于DataFrame,有一些固有属性:

数据分析之Pandas VS SQL!

SQL VS Pandas

SELECT(数据选择)

在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列):

数据分析之Pandas VS SQL!

在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。相关语法如下:

  • loc,基于列label,可选取特定行(根据行index)

  • iloc,基于行/列的位置

  • ix,为loc与iloc的混合体,既支持label也支持position

  • at,根据指定行index及列label,快速定位DataFrame的元素;

  • iat,与at类似,不同的是根据position来定位的;

数据分析之Pandas VS SQL!
数据分析之Pandas VS SQL!
数据分析之Pandas VS SQL!

WHERE(数据过滤)

在SQL中,过滤是通过WHERE子句完成的:

数据分析之Pandas VS SQL!

在pandas中,Dataframe可以通过多种方式进行过滤,最直观的是使用布尔索引

数据分析之Pandas VS SQL!

在where子句中常常会搭配and, or, in, not关键词,Pandas中也有对应的实现:

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现:

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

DISTINCT(数据去重)

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

宝器带你画重点

  • subset,为选定的列做数据去重,默认为所有列;

  • keep,可选择{'first', 'last', False},保留重复元素中的第一个、最后一个,或全部删除;

  • inplace ,Pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改,默认为False,返回一个新的Dataframe;若为True,不创建新的对象,直接对原始对象进行修改。

GROUP BY(数据分组)

groupby()通常指的是这样一个过程:我们希望将数据集拆分为组,应用一些函数(通常是聚合),然后将这些组组合在一起:

数据分析之Pandas VS SQL!

常见的SQL操作是获取数据集中每个组中的记录数。

数据分析之Pandas VS SQL!

Pandas中对应的实现:

数据分析之Pandas VS SQL!

注意,在Pandas中,我们使用size()而不是count()。这是因为count()将函数应用于每个列,返回每个列中的非空记录的数量。具体如下:

数据分析之Pandas VS SQL!

还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天的小费金额有什么不同。

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

更多关于Groupy和数据透视表内容请阅读

  • 这些祝福和干货比那几块钱的红包重要的多!

JOIN(数据合并)

  • 可以使用join()或merge()执行连接。

  • 默认情况下,join()将联接其索引上的DataFrames。

  • 每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引)

数据分析之Pandas VS SQL!

现在看一下不同的连接类型的SQL和Pandas实现:

  • INNER JOIN

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!
  • LEFT OUTER JOIN

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!
  • RIGHT JOIN

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!
  • FULL JOIN

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

ORDER(数据排序)

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

UPDATE(数据更新)

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

DELETE(数据删除)

SQL:

数据分析之Pandas VS SQL!

Pandas:

数据分析之Pandas VS SQL!

总结

本文从Pandas里面基本数据结构Dataframe的固定属性开始介绍,对比了做数据分析过程中的一些常用SQL语句的Pandas实现。

参考:

Http://m.v.qq.com/play/play.htmlcoverid=&vid=q0836f6kewx&ptag=4_6.7.0.22106_qq

--结束END--

本文标题: 数据分析之Pandas VS SQL!

本文链接: https://www.lsjlt.com/news/229597.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 数据分析之Pandas VS SQL!
    编辑:zone来源:数据管道作者:艾德宝器AbstractPandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。对于数据开发工程师或分析师...
    99+
    2023-06-02
  • 数据分析之pandas模块
          一、Series   类似于一位数组的对象,第一个参数为数据,第二个参数为索引(索引可以不指定,就默认用隐式索引) Series(data=np.random.randint(1,50,(10,))) Series(data...
    99+
    2023-01-30
    模块 数据 pandas
  • 数据分析利器之Pandas
    Pandas是一个python的开源库,它基于Numpy,提供了多种高性能且易于使用的数据结构。Pandas最初被用作金融数据分析工具而开发,由于它有着强大的功能,目前广泛应用于数据分析、机器学习以及量化投资等。下面来跟随作者一起认识下Pa...
    99+
    2023-06-02
  • Pandas数据分析之pandas文本处理
    目录前言文本数据类型字符操作文本格式文本对齐​文本计数和编码格式判断文本高级处理文本分割 文本切片选择 slice划分 partition文本替换指定位置替换重复替换文本连...
    99+
    2022-11-11
  • python数据分析之pandas数据选
      Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。   Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据...
    99+
    2023-01-30
    数据 python pandas
  • Python数据分析之pandas读取数据
    一、三种数据文件的读取 二、csv、tsv、txt 文件读取 1)CSV文件读取: 语法格式:pandas.read_csv(文件路径) CSV文件内容如下: import pandas as pd file...
    99+
    2022-06-02
    python pandas读取数据 pandas数据读取
  • Python数据分析库之pandas,你
    写这个系列背后的故事 咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~ pandas吧 外国人开发的 翻译成汉语叫 熊猫 厉害厉害,很接地气 一个基于numpy的库 干啥的? 做数据分析用的 而数据分析是python体系下一个...
    99+
    2023-01-31
    数据 Python pandas
  • Pandas数据分析之pandas数据透视表和交叉表
    目录前言整理透视 pivot 聚合透视 Pivot Table 聚合透视高级操作交叉表crosstab()数据融合melt()数据堆叠 stack前言 panda...
    99+
    2022-11-11
  • Python数据分析之pandas函数详解
    目录一、apply和applymap二、排序三、处理缺失数据一、apply和applymap 1. 可直接使用NumPy的函数 示例代码: # Numpy ufunc 函数 df...
    99+
    2022-11-12
  • Python数据分析之pandas比较操作
    目录一、比较运算符和比较方法二、两个DataFrame比较三、两个Series比较四、与数字或字符串比较五、与array进行比较一、比较运算符和比较方法 比较运算符用于判断是否相等和比较大小,Python中的比较运算...
    99+
    2022-06-02
    Python pandas比较操作 python pandas比较运算符
  • Pandas数据分析之批量拆分/合并Excel
    目录前言一、假造数据二、程序演示 1、将一个大Excel等份拆成多个Excel2、合并多个小Excel到一个大Excel总结前言 笔者最近正在学习Pandas数据分析,将自...
    99+
    2022-11-12
  • Python入门之使用pandas分析excel数据
    目录1.问题2.方案2.1.安装2.2.读写文件2.3.数据操作2.4.数据筛选2.5.数据写入2.6.数据删除3.讨论 总结1.问题 在python中,读写excel数据方法很多,...
    99+
    2022-11-12
  • Python高级数据分析之pandas和matplotlib绘图
    目录一、matplotlib 库二、Pandas绘图1.绘制简单的线型图1.1)简单的Series图表示例 .plot()1.2) 两个Series绘制的曲线可以叠加2.数据驱动的线...
    99+
    2022-11-13
  • Python数据分析之Pandas Dataframe如何自定义
    今天小编给大家分享一下Python数据分析之Pandas Dataframe如何自定义的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们...
    99+
    2023-06-30
  • Python数据分析之 Pandas Dataframe应用自定义
    目录前言:应用函数apply 方法applymap 方法前言: 在进行数据分析时,难免需要对数据集应用一些我们自定义的一些函数,或者其他库的函数,得到我们想要的数据,这种情况下,可能...
    99+
    2022-11-11
  • Python实践之使用Pandas进行数据分析
    目录一. 导入Pandas库二. 读取数据三. 查看数据四. 选择数据五. 数据清洗六. 数据分析七. 数据可视化八. 导出数据九. 实战案例总结在数据分析领域,Python的Pan...
    99+
    2023-05-18
    Python Pandas数据分析 Pandas数据分析 Python Pandas
  • Pandas数据分析-pandas数据框的多层索引
    目录前言创建多层索引 多层索引操作 索引名称的查看 索引的层级 索引内容的查看数据查询 数据分组前言 pandas数据框针对高维数据...
    99+
    2022-11-11
  • Pandas数据分析之groupby函数用法实例详解
    目录正文一、了解groupby二、数据文件简介三、求各个商品购买量四、求各个商品转化率五、转化率最高的30个商品及其转化率小小の总结正文 今天本人在赶学校课程作业的时候突然发现gro...
    99+
    2022-11-11
  • Python数据分析之真实IP请求Pandas详解
    前言 pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结...
    99+
    2022-06-04
    详解 真实 数据
  • Python数据分析--Pandas知识
    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘 1. 重复值的处理 利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID. 1 import pandas as p...
    99+
    2023-01-30
    知识 数据 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作