首页 > 资讯 > 后端开发 > Python >【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

127

分享到

【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

信息可视化 python pandas 2023-09-10 06:09:11 127人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录 1 描述性统计（Descriptive Statistics） 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计（Descriptive Statistics）描述性统计是一种用于汇总和理解数据集

1 描述性统计（Descriptive Statistics）

2 数据分组和聚合

3 数据透视表

4 相关性分析

1 描述性统计（Descriptive Statistics）

描述性统计是一种用于汇总和理解数据集的方法，它提供了关于数据分布、集中趋势和离散度的信息。pandas 提供了 describe() 方法，它可以生成各种描述性统计信息，包括均值、标准差、最小值、最大值、四分位数等。以下是详细的描述性统计示例：

首先，假设你有一个包含一些学生考试成绩的 DataFrame：

import pandas as pddata = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],        'Math': [85, 92, 78, 88, 95],        'English': [78, 85, 89, 92, 88],        'Science': [90, 86, 76, 93, 89]}df = pd.DataFrame(data)# 使用 describe() 方法生成描述性统计信息description = df.describe()# 输出结果print(description)

输出结果将会是：

2 数据分组和聚合

数据分组和聚合是数据分析中常用的操作，用于根据某些特征将数据分组，并对每个分组应用聚合函数，以便获得有关每个组的统计信息。在 Pandas 中，你可以使用 groupby() 方法来实现数据分组，然后使用各种聚合函数对分组后的数据进行计算。以下是详细的示例和解释：

假设你有一个包含不同城市销售数据的 DataFrame：

import pandas as pddata = {'City': ['New York', 'Los Angeles', 'ChicaGo', 'New York', 'Chicago', 'Los Angeles'],        'Sales': [1000, 750, 800, 1200, 900, 850]}df = pd.DataFrame(data)# 使用 groupby() 方法按城市分组grouped = df.groupby('City')# 对每个组应用聚合函数（例如，计算平均销售额）result = grouped['Sales'].mean()# 输出结果print(result)

使用 groupby() 方法将数据按城市分组，并对每个城市的销售数据进行聚合：

输出结果：

在这个示例中，我们首先使用 groupby() 方法按城市分组，然后对每个城市的销售数据应用了 mean() 聚合函数。结果中包含了每个城市的平均销售额。

你还可以应用其他聚合函数，如 sum()、max()、min() 等，以获取更多信息。例如，你可以计算每个城市的总销售额：

total_sales = grouped['Sales'].sum()

除了单个聚合函数外，你还可以同时应用多个聚合函数，并将结果合并到一个 DataFrame 中。这可以通过 agg() 方法来实现：

import pandas as pddata = {'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Chicago', 'Los Angeles'],        'Sales': [1000, 750, 800, 1200, 900, 850]}df = pd.DataFrame(data)# 使用 groupby() 方法按城市分组grouped = df.groupby('City')# 同时计算平均销售额和总销售额，并将结果合并到一个 DataFrame 中result = grouped['Sales'].agg(['mean', 'sum'])# 输出结果print(result)

输出结果：

3 数据透视表

数据透视表是一种用于对数据进行多维度汇总和分析的工具。在 Pandas 中，你可以使用 pivot_table() 函数来创建数据透视表。下面是一个详细的数据透视表示例：

假设你有一个包含销售数据的 DataFrame：

import pandas as pddata = {'Date': ['2023-09-01', '2023-09-01', '2023-09-02', '2023-09-02', '2023-09-03'],        'Product': ['A', 'B', 'A', 'B', 'A'],        'Sales': [1000, 750, 1200, 800, 900]}df = pd.DataFrame(data)

现在，假设你想要创建一个数据透视表，以便查看每个产品每天的总销售额。你可以使用 pivot_table() 来实现这个目标：

# 创建数据透视表，以Date为行索引，Product为列，计算总销售额pivot = df.pivot_table(index='Date', columns='Product', values='Sales', aggfunc='sum')# 输出结果print(pivot)

输出结果：

在这个示例中，我们使用了 pivot_table() 函数，将 "Date" 列作为行索引，"Product" 列作为列，并计算了每个组合的销售额之和。结果是一个数据透视表，它以日期为行，以产品为列，每个单元格中包含了对应日期和产品的销售额。

如果某个日期没有某个产品的销售数据，相应的单元格将显示为 NaN（Not a Number）。你还可以在 aggfunc 参数中指定其他聚合函数，例如 'mean'、'max'、'min' 等，以根据你的需求生成不同类型的数据透视表。

4 相关性分析

相关性分析是用来确定两个或多个变量之间关系的统计方法，通常用于了解它们之间的相关程度和方向。在 Pandas 中，你可以使用 corr() 方法来计算相关性系数（如 Pearson 相关系数）来衡量两个数值列之间的相关性。以下是相关性分析的详细示例和解释：

假设你有一个包含两个数值列的 DataFrame，表示学生的数学和英语成绩：

import pandas as pddata = {'Math': [85, 92, 78, 88, 95],        'English': [78, 85, 89, 92, 88]}df = pd.DataFrame(data)

接下来，你可以使用 corr() 方法来计算这两个列之间的相关性：

# 使用 corr() 方法计算数学和英语成绩之间的相关性correlation = df['Math'].corr(df['English'])# 输出结果print("Correlation between Math and English scores:", correlation)

输出结果：

在这个示例中，我们使用了 corr() 方法计算了数学和英语成绩之间的相关性系数。相关性系数的值范围从 -1 到 1，其中：

1 表示完全正相关：当一个变量增加时，另一个变量也增加，变化方向相同。
0 表示无相关性：两个变量之间没有线性关系。
-1 表示完全负相关：当一个变量增加时，另一个变量减少，变化方向相反。

来源地址：https://blog.csdn.net/qq_35831906/article/details/132713476

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

本文链接: https://www.lsjlt.com/news/402027.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

目录 1 描述性统计（Descriptive Statistics） 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计（Descriptive Statistics）描述性统计是一种用于汇总和理解数据集...

99+

2023-09-10

信息可视化 python pandas
【100天精通Python】Day53：Python 数据分析_NumPy数据操作和分析进阶

目录 1. 广播 2 文件输入和输出 3 随机数生成 4 线性代数操作 5 进阶操作 6 数据分析示例 1. 广播广播是NumPy中的一种机制，用于在不同形状的数组之间执行元素级操作，使它们具有兼容的形状。广播允许...

99+

2023-09-06

python 数据分析 numpy
100天精通Python（数据分析篇）——第65天：Pandas聚合操作与案例

文章目录一、聚合 (aggregation) 1. 内置的聚合函数 2. 可自定义函数，传入agg方法中 3. 应用多个聚合函数 4. 对不同的列分别...

99+

2023-09-11

python pandas 数据分析
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

文章目录一、分组 (groupby) 1. GroupBy对象：DataFrameGroupBy，SeriesGroupBy 1）分组操作 ...

99+

2023-09-05

pandas python 数据分析
100天精通Python（数据分析篇）——第66天：Pandas透视表基础+实战案例（pivot_table函数）

文章目录一、透视表基础参数说明+实战案例 0. 导入Excel数据 1. data 2. index 3. values 4. columns ...

99+

2023-09-07

python pandas 数据分析
【100天精通Python】Day51：Python 数据分析_数据分析入门基础与Anaconda 环境搭建

目录 1 科学计算和数据分析概述 2. 数据收集和准备 2.1 数据收集 2.1.1 文件导入： 2.1.2 数据库连接： 2.1.3 API请求： 2.1.4 网络爬虫： 2.2 数据清洗 2.2.1 处理缺失值： 2.2.2 去除重复...

99+

2023-09-27

python 数据分析信息可视化
【100天精通Python】Day58：Python 数据分析_Pandas时间序列数据处理,创建和解析时间数据pd.to_datetime()，.loc[]，resample() 用法示例

目录时间序列数据处理 1. 解析日期和时间数据 2 创建时间索引 3. 访问时间索引数据 3.1 按年、月、日等级别访问数据 (.loc[]) 3.2 使用部分日期作为索引 (.loc[ ], .loc[ : ]) 3.3 使用时间索...

99+

2023-10-09

python pandas 数据分析
100天精通Python（数据分析篇）——第75天：Pandas数据预处理之数据标准化

文章目录专栏导读 1. 数据标准化是什么？ 2. 数据标准化的作用 3. 数据标准化的方法 4. 离差标准化 5. 标准差标准化 6. 小数定标标准化书籍介绍 ...

99+

2023-10-07

python pandas 数据分析数据标准化
【100天精通Python】Day56：Python 数据分析_Pandas数据清洗和处理（删除填充插值，数据类型转换，去重，连接与合并）

目录数据清洗和处理 1.处理缺失值 1.1 删除缺失值： 1.2 填充缺失值： 1.3 插值： 2 数据类型转换 2.1 数据类型转换 2.2 日期和时间的转换： 2.3 分类数据的转换： 2.4 自定义数据类型的转换： 3 数据去重 ...

99+

2023-09-16

信息可视化 python
Python数据分析Numpy中常用相关性函数

目录摘要：一、股票相关性分析二、多项式三、求极值的知识摘要： NumPy中包含大量的函数，这些函数的设计初衷是能更方便地使用，掌握解这些函数，可以提升自己的工作效率。这些函数包括数组...

99+

2024-04-02
python肯德尔系数相关性数据分析示例

目录前言一、定义二、使用条件三、计算公式及代码示例1.Tau-a2.Tau-b前言相关性分析算是很多算法以及建模的基础知识之一了，十分经典。关于许多特征关联关系以及相关趋势都可以...

99+

2023-02-15

python肯德尔系数相关性 python 数据分析
python皮尔逊相关性数据分析分析及实例代码

目录前言数值类型皮尔逊系数使用场景皮尔逊相关系数(Pearson correlation)1.定义2.线性关系判定3.正态检验1.KS检验4.计算代码前言相关性分析算是很多算法以...

99+

2023-02-15

python皮尔逊相关性 python 数据分析
如何用Python对数据进行相关性分析

这期内容当中小编将会给大家带来有关如何用Python对数据进行相关性分析，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。在进行数据分析时，我们所用到的数据往往都不是一维的，而这些数据在分析时难度就增加了不少...

99+

2023-06-16
100天精通Python（数据分析篇）——第62天：pandas常用统计方法大全（含案例）

文章目录一、常用统计方法与案例 1. 求和（sum） 2. 求平均值（mean） 3. 求最小值（min） 4. 求最大值（max） 5. 求中...

99+

2023-10-09

python pandas 数据分析
100天精通Python（数据分析篇）——第69天：Pandas常用数据筛选方法（between、isin、loc、iloc）

文章目录一、布尔索引二、between() 三、isin() 1. 单列筛选 2. 多列筛选 3. 通过字典的形式传递多个条件 4. 删除异常值...

99+

2023-09-17

python pandas 数据分析
Python数据分析Numpy中常用相关性函数是什么

今天小编给大家分享一下Python数据分析Numpy中常用相关性函数是什么的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。摘要...

99+

2023-06-30
100天精通Python丨黑科技篇 —— 24、英雄属性面板分析 ①掌握爬虫技术；②Python数据可视化

不积跬步，无以至千里；不积小流，无以成江海。 ——鲁迅互帮互助，你不是一个人在编程！ ——西红柿今日重点： ① 掌握爬虫技术，体会python爬虫流程，可见即可爬； ② 学会使用python数据可...

99+

2023-08-31

python 你说梦想遥不可及却从不起早原力计划
100天精通Python（数据分析篇）——第67天：Pandas数据连接、合并、加入、添加、重构函数（merge、concat、join、append、stack、unstack）

文章目录一、数据连接（pd.merge） 1. left、right 2. how 3. on 4. left_on、right_on 5. s...

99+

2023-09-02

python pandas 数据分析
详解Python进行数据相关性分析的三种方式

目录相关性实现NumPy 相关性计算SciPy 相关性计算Pandas 相关性计算线性相关实现线性回归：SciPy 实现等级相关排名：SciPy 实现等级相关性：NumPy 和 Sc...

99+

2024-04-02
100天精通Python（数据分析篇）——第61天：Pandas.to_datetime函数基础+代码实战（处理时间）

文章目录一、to_datetime参数说明（代码实战） 1. arg 2. errors 3. dayfirst 4. yearfirst 5....

99+

2023-09-26

python pandas 数据分析