首页 > 资讯 > 后端开发 > Python >python DataFrame数据分组统计groupby()函数的使用

305

分享到

python DataFrame数据分组统计groupby()函数的使用

2024-04-02 19:04:59 305人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录groupby()函数1. groupby基本用法1.1 一级分类_分组求和1.2 二级分类_分组求和1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）2

groupby()函数

在python的DataFrame中对数据进行分组统计主要使用groupby()函数。

1. groupby基本用法

1.1 一级分类_分组求和

import pandas as pd
data = [['a', 'A', 109], ['b', 'B', 112], ['c', 'A', 125], ['d', 'C', 120],
        ['e', 'C', 126], ['f', 'B', 133], ['g', 'A', 124], ['h', 'B', 134],
        ['i', 'C', 117], ['j', 'C', 128]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
columns = ['name', 'class', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class').sum()       # 分组统计求和
print(df1)

在这里插入图片描述

1.2 二级分类_分组求和

给groupby()传入一个列表，列表中的元素为分类字段，从左到右分类级别增大。(一级分类、二级分类…)

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby(['class_1', 'class_2']).sum()       # 分组统计求和
print(df1)

在这里插入图片描述

1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）

其中，df.groupby(‘class_1’)得到一个DataFrameGroupBy对象，对该对象可以使用列名进行索引，以对指定的列进行统计。
如：df.groupby(‘class_1’)[‘num’].sum()

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class_1')['num'].sum()
print(df1)

代码运行结果同上。

2. 对分组数据进行迭代

2.1 对一级分类的DataFrameGroupBy对象进行遍历

for name, group in DataFrameGroupBy_object

其中，name指分类的类名，group指该类的所有数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

# 获取目标数据。
df1 = df[['name', 'class_1', 'num']]
for name, group in df1.groupby('class_1'):
        print(name)
        print("=============================")
        print(group)
        print("==================================================")

在这里插入图片描述

2.2 对二级分类的DataFrameGroupBy对象进行遍历

对二级分类的DataFrameGroupBy对象进行遍历，
以for (key1, key2), group in df.groupby([‘class_1’, ‘class_2’]) 为例
不同于一级分类的是， (key1, key2)是一个由多级类别组成的元组，而group表示该多级分类类别下的数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")


for (key1, key2), group in df.groupby(['class_1', 'class_2']):
        print(key1, key2)
        print("=============================")
        print(group)
        print("==================================================")

程序运行结果如下：

在这里插入图片描述

(部分)

3. agg()函数

使用groupby()函数和agg()函数实现分组聚合操作运算。

3.1一般写法_对目标数据使用同一聚合函数

以分组求均值、求和为例

给agg()传入一个列表

df1.groupby([‘class_1’, ‘class_2’]).agg([‘mean’, ‘sum’])

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'class_2', 'num1', 'num2']]
print(df1.groupby(['class_1', 'class_2']).agg(['mean', 'sum']))

在这里插入图片描述

3.2 对不同列使用不同聚合函数

给agg()方法传入一个字典

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'num1', 'num2']]
print(df1.groupby('class_1').agg({'num1': ['mean', 'sum'], 'num2': ['sum']}))

在这里插入图片描述

3.3 自定义函数写法

也可以自定义一个函数（以名为max1为例）传入agg()中。

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

max1 = lambda x: x.value_counts(dropna=False).index[0]
max1.__name__ = "类别数量最多"
df1 = df.agg({'class_1': [max1],
        'num1': ['sum', 'mean'],
        'num2': ['sum', 'mean']})
print(df1)

在这里插入图片描述

4. 通过字典和 Series 对象进行分组统计

groupy()不仅仅可以传入单个列，或多个列组成的列表，
也可以传入一个字典或者一个Series来实现分组。

4.1通过一个字典

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

mapping = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}

df1 = df.groupby(mapping, axis=1).sum()
print(df1)

程序运行结果：

在这里插入图片描述

4.2通过一个Series

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

data = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}
s1 = pd.Series(data)
df1 = df.groupby(s1, axis=1).sum()
print(df1)

程序运行结果：

在这里插入图片描述

参考资源： Python数据分析从入门到精通明日科技编著清华大学出版社

到此这篇关于python DataFrame数据分组统计groupby()函数的使用的文章就介绍到这了,更多相关python DataFrame groupby() 内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python DataFrame数据分组统计groupby()函数的使用

本文链接: https://www.lsjlt.com/news/141984.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python DataFrame数据分组统计groupby()函数的使用

目录groupby()函数1. groupby基本用法1.1 一级分类_分组求和1.2 二级分类_分组求和1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）2...

99+

2024-04-02
python中分组函数groupby和分组运算函数agg的使用

目录groupby:agg：今天来介绍pandas中一个很有用的函数groupby，其实和hive中的groupby的效果是一样的，区别在于两种语言的写法问题。groupby在Pyt...

99+

2024-04-02
怎么使用python中分组函数groupby和分组运算函数agg

这篇文章主要介绍“怎么使用python中分组函数groupby和分组运算函数agg”，在日常操作中，相信很多人在怎么使用python中分组函数groupby和分组运算函数agg问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希...

99+

2023-06-25
python中groupby函数如何使用

在Python中，groupby函数是通过pandas库的DataFrame对象使用的。该函数用于根据一个或多个列对数据进行分组。下...

99+

2023-09-20

python
怎么使用python groupby函数实现分组后选取最值

这篇文章主要介绍“怎么使用python groupby函数实现分组后选取最值”，在日常操作中，相信很多人在怎么使用python groupby函数实现分组后选取最值问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作...

99+

2023-07-02
PHP 数组分组函数在统计分析中的应用

使用 php 的 array_group_by() 函数可以对数组中的数据进行分组，从而方便进行统计分析，包括：分组后，可以通过 array_map() 函数计算每个组中的元素数量。还可...

99+

2024-05-02

php 数组分组
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

文章目录一、分组 (groupby) 1. GroupBy对象：DataFrameGroupBy，SeriesGroupBy 1）分组操作 ...

99+

2023-09-05

pandas python 数据分析
PHP函数的数据统计函数

随着互联网技术的不断发展和应用，开发人员需要在Web应用程序中使用各种数据统计和分析功能来了解其应用程序的性能和用户行为。PHP是一种流行的Web编程语言，具有丰富的函数库，包括许多用于数据统计和分析的函数。这篇文章将介绍PHP函数中常用的...

99+

2023-05-18

函数数据统计 PHP函数
Pandas数据分析之groupby函数用法实例详解

目录正文一、了解groupby二、数据文件简介三、求各个商品购买量四、求各个商品转化率五、转化率最高的30个商品及其转化率小小の总结正文今天本人在赶学校课程作业的时候突然发现gro...

99+

2024-04-02
Python数据分析之堆叠数组函数怎么使用

今天小编给大家分享一下Python数据分析之堆叠数组函数怎么使用的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。numpy 堆...

99+

2023-07-05
Python学习——数据分组统计、分组运算及透视

目录 1 数据分组统计 groupby1.1 按照单列进行分组统计df.groupby('列名').count()1.2 按照多列进行分组统计 df.groupby(['列名1','列名2']...

99+

2023-09-01

python 学习
sql server中怎么使用over()函数实现分组统计

本篇文章为大家展示了sql server中怎么使用over()函数实现分组统计，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。需求：求出以产品类别为分组，各个分组里价...

99+

2024-04-02
怎么用python dataframe统计行列中零值的个数

今天小编给大家分享一下怎么用python dataframe统计行列中零值的个数的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来...

99+

2023-06-29
python groupby函数实现分组选取最大值与最小值

现在需要将course分组,然后选择出每一组里面的最大值和最小值,并保留下来实现下面数据结果：直接使用groupby函数,不能直接达到此效果,需要在groupby函数上添加a...

99+

2024-04-02
MySQL如何统计每个分组的数据条数

在MySQL中，可以使用COUNT函数来统计每个分组的数据条数。下面是一个示例查询： SELECT column_name1...

99+

2024-04-09

MySQL
【数据分析之道-Numpy(八)】numpy统计函数

文章目录专栏导读1、np.mean()2、np.median()3、np.std()4、np.var()5、np.min()6、np.max()7、np.sum()8、np.prod()9...

99+

2023-09-25

numpy python
mysql按照日期分组统计数据

目录前言按天统计按周统计按月统计按年统计date_format参数前言 mysql的date_format函数想必大家都使用过吧，一般用于日期时间转化 # 例如select...

99+

2023-10-18

mysql 数据库
PHP 数组分组函数在数据整理中的应用

php 的 array_group_by 函数可根据键或闭包函数对数组中的元素分组，返回一个关联数组，其中键是组名，值是属于该组的元素数组。 PHP 数组分组函数在数据整理中的应用引...

99+

2024-05-04

php 数组
PHP 数组分组函数在数据清洗中的作用

php 的分组函数在数据清洗中发挥着重要作用，包括 array_group_by()、array_column() 和 array_multisort()。这些函数可用于对数组进行分组，...

99+

2024-05-03

数据清洗
PHP 数组分组函数在数据聚合中的应用

php array_group_by() 函数可根据指定键对数组元素进行分组，形成以键为索引、以数组为值的数组。实例如，根据产品字段分组销售记录后，分组后的数组中键为产品值，值为属于此产...

99+

2024-05-01

php 数据聚合