首页 > 资讯 > 后端开发 > Python >Python Pandas模块实现数据的统计分析的方法

290

分享到

Python Pandas模块实现数据的统计分析的方法

Pandas模块实现数据的统计分析 Python pandas 2022-06-02 22:06:11 290人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

一、groupby函数 python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块 import pandas as p

一、groupby函数

python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块


import pandas as pd

首先导入我们所需要用到的数据集


customer = pd.read_csv("Churn_Modelling.csv")
marketing = pd.read_csv("DirectMarketing.csv")

我们先从一个简单的例子着手来看，


customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).mean()

从上面的结果可以得知，在“法国”这一类当中的“女性(Female)”这一类的预估工资的平均值达到了99564欧元，“男性”达到了100174欧元

当然除了求平均数之外，我们还有其他的统计方式，比如“count”、“min”、“max”等等，例如下面的代码


customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).agg(['mean','count','max'])

当然我们也可以对不同的列采取不同的统计方式方法，例如


customer[['Geography','EstimatedSalary','Balance']].groupby('Geography').agg({'EstimatedSalary':'sum', 'Balance':'mean'})

我们对“EstimatedSalary”这一列做了加总的操作，而对“Balance”这一列做了求平均值的操作

二、Crosstab函数

在处理数据时，经常需要对数据分组计算均值或者计数，在Microsoft excel中，可以通过透视表轻易实现简单的分组运算。而对于更加复杂的分组计算，“Pandas”模块中的“Crosstab”函数也能够帮助我们实现。

例如我们想要计算不同年龄阶段、不同性别的平均工资，同时保留一位小数，代码如下


pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc='mean').round(1)

当然我们还可以用该函数来制作一个更加复杂一点的透视表，例如下面的代码


pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc='mean', margins=True).round(1)

三、Pivot_table函数

和上面的“Cross_tab”函数的功能相类似，对于数据透视表而言，由于它的灵活性高，可以随意定制你的分析计算要求，而且操作性强，因此在实际的工作生活当中被广泛使用，

例如下面的代码，参数“margins”对应表格当中的“All”这一列


pd.pivot_table(data=marketing, index=['Age', 'Married'], columns='Gender', values='Salary', aggfunc='mean', margins=True).round(1)

四、Sidetable函数

“Sidetable”可以被理解为是“Pandas”模块中的第三方的插件，它集合了制作透视表以及对数据集做统计分析等功能，让我们来实际操作一下吧

首先我们要下载安装这个“Sidetable”组件，


pip install sidetable

五、Freq函数

首先介绍的是“Sidetable”插件当中的“Freq”函数，里面包含了离散值每个类型的数量，其中是有百分比形式来呈现以及数字的形式来呈现，还有离散值每个类型的累加总和的呈现，具体大家看下面的代码和例子


import sidetable
marketing.stb.freq(['Age'])

“Age”这一列有三大类分别是“Middle”、“Young”以及“Old”的数据，例如我们看到表格当中的“Middle”这一列的数量有508个，占比有50.8%


marketing.stb.freq(['Age'], value='AmountSpent')

例如上面的代码，显示的则是比方说当“Age”是“Middle”的时候，也就是中年群体，“AmountSpent”的总和，也就是花费的总和是762859元

六、Missing函数

“Sidetable”函数当中的“Missing”方法顾名思义就是返回缺失值的数量以及百分比，例如下面的代码,“History”这一列的缺失值占到了30.3%


marketing.stb.missing()

七、Counts函数

“Sidetable”函数当中的“counts”方法用来计算各个类型的离散值出现的数量，具体看下面的例子


marketing.stb.counts()

例如“Gender”这一列中，总共有两个，也就是“unique”这一列所代表的值，其中“Female”占到的比重更大，有506个，而“Male”占到的比重更小一些，有494个

到此这篇关于Python Pandas模块实现数据的统计分析的方法的文章就介绍到这了,更多相关Pandas模块实现数据的统计分析内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python Pandas模块实现数据的统计分析的方法

本文链接: https://www.lsjlt.com/news/11027.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python Pandas模块实现数据的统计分析的方法

一、groupby函数 Python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块 import pandas as p...

99+

2022-06-02

Pandas模块实现数据的统计分析 Python pandas
Python数据分析Pandas Dataframe排序操作的方法

本文小编为大家详细介绍“Python数据分析Pandas Dataframe排序操作的方法”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python数据分析Pandas Dataframe排序操作的方法”文章能帮助大家...

99+

2023-06-30
Pandas数据集的分块读取的实现

目录一、直接用分块方式读取数据集文件（更直接）二、先将数据集读取为可迭代对象，再分块读取（更灵活）总结所谓“分块”，顾名思义，就是将数据集分成几块进行读取，比...

99+

2022-11-11
Python利用Pandas进行数据分析的方法详解

本篇文章给大家带来了关于Python的相关知识，其中Pandas是最流行的用于数据分析的 Python 库。它提供高度优化的性能。本文将利用Python进行数据分析，下面一起来看一下，希望对大家有帮助。【相关推荐：Python3视频教程】...

99+

2022-09-06
Python的Pandas时序数据实例分析

这篇文章主要讲解了“Python的Pandas时序数据实例分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python的Pandas时序数据实例分析”吧！Pandas时序数据前言在数据分...

99+

2023-06-29
Python Pandas中的数据结构实例分析

今天小编给大家分享一下Python Pandas中的数据结构实例分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。...

99+

2023-07-02
Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块

Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块一、利用Numpy模块计算均值、方差、标准差等二、利用Numpy模块计算均值、方差、标准差等 ...

99+

2023-10-26

python numpy 均值算法
Python数据分析之Pandas Dataframe条件筛选遍历的方法

这篇文章主要介绍“Python数据分析之Pandas Dataframe条件筛选遍历的方法”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python数据分析之Pandas Dat...

99+

2023-06-30
使用pandas模块实现数据的标准化操作

如下所示： 3σ 原则 (u-3*σ ,u+3*σ ) ...

99+

2022-11-12
100天精通Python（数据分析篇）——第62天：pandas常用统计方法大全（含案例）

文章目录一、常用统计方法与案例 1. 求和（sum） 2. 求平均值（mean） 3. 求最小值（min） 4. 求最大值（max） 5. 求中...

99+

2023-10-09

python pandas 数据分析
怎么实现Java模块化系统的分析

这篇文章给大家介绍怎么实现Java模块化系统的分析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Java 模块化系统自提出以来经历了很长的时间，直到 2014 年晚些时候才最终以 JSR（JSR-376）定稿，而且这...

99+

2023-06-17
python中pandas对多列进行分组统计的实现

使用groupby([ ]).size()统计的结果，值相同的字段值会不显示如上图所示，第一个空着的行是982499 7 3388 1，因为此行与前面一行的这两个字段值是一样...

99+

2022-11-12
Python Pandas数据分析之iloc和loc的用法详解

Pandas 是一套用于 Python 的快速、高效的数据分析工具。它可以用于数据挖掘和数据分析，同时也提供数据清洗功能。本篇目录如下：一、iloc 1.定义 iloc索引器用于...

99+

2022-11-12
Python实现多进程共享数据的方法分析

本文实例讲述了Python实现多进程共享数据的方法。分享给大家供大家参考，具体如下：示例一： # -*- coding:utf-8 -*- from multiprocessing import Pr...

99+

2022-06-04

进程方法数据
PHP中使用Redis实现统计数据的分析

随着互联网应用的不断发展，数据分析和统计成为了应用开发中的重要一环。在Web应用开发中，为获取实时的统计数据，往往需要从众多的数据来源和不同的应用系统中读取数据，然后进行分析、汇总和展示。此时，Redis作为一个持久化的内存数据库，为数据...

99+

2023-05-15

PHP redis 统计数据分析
Python pandas替换指定数据的方法实例

目录一、构造dataframe二、替换指定数据（fillna、isin、replace)1、用"sz"列的同行数据将"bj"列的空值替换掉2、...

99+

2022-11-11
Pandas数据查询的集中实现方法

目录Pandas查询数据的几种方法Pandas使用df.loc查询数据的方法0、进行数据预处理1、使用单个label值查询数据2、使用值列表批量查询3、使用数值区间进行范围查询4、使...

99+

2023-02-27

Pandas数据查询 Pandas查询数据
python 动态导入模块实现模块热更新的方法

最近有个部署需求，需要读取py文件格式的配置项，我的实现思路是把配置文件解析到内存中。主要使用两种方法： importlib.import_moduletypes.ModuleTyp...

99+

2022-11-11
Python实现创建模块的方法详解

目录楔子__import__importlib.machinery通过 module 类创建模块将一个类的实例变成一个模块小结楔子导入一个模块，我们一般都会使用 import 关键...

99+

2022-11-11
Node.js缓冲区（Buffer）模块的方法及实例分析

二进制流是大量的二进制数据的集合。由于通常情况下二进制流的大小挺大的，因此二进制流一般不会一起运送，而会在运输前切分成小块然后逐一发送。当数据处理单元暂时不再接收其他数据流时，剩余...

99+

2022-11-12