iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python如何利用pd.cut()和pd.qcut()对数据进行分箱操作
  • 620
分享到

python如何利用pd.cut()和pd.qcut()对数据进行分箱操作

2023-07-02 09:07:28 620人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇“python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇

这篇“python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”文章吧。

1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。

假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()

import numpy as npimport pandas as pd# 我们先给 scores传入30个从0到100随机的数scores = np.random.unifORM(0,100,size=30)# 然后使用 np.round()函数控制数据精度scores = np.round(scores,1)# 指定分箱的区间grades = [0,59,70,85,100]cuts = pd.cut(scores,grades)print('\nscores:')print(scores)print('\ncuts:')print(cuts)# 我们还可以计算出每个箱子中有多少个数据print('\ncats.value_counts:')print(pd.value_counts(cuts))======output:======scores:[ 6.  50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4 63.4 21.3 17.2  3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81.  82. 70.2 54.1]cuts:[(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]]Length: 30CateGories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]]cuts.value_counts:(0, 59]      17(70, 85]      8(59, 70]      4(85, 100]     1dtype: int64

默认情况下,cat()的区间划分是左开右闭,可以传递right=False来改变哪一边是封闭的

代码示例:

cuts = pd.cut(scores,grades,right=False)

也可以通过向labels选项传递一个列表或数组来传入自定义的箱名

代码示例:

group_names = ['不及格','及格','良','优秀']cuts = pd.cut(scores,grades,labels=group_names)

当我们不需要自定义划分区间时,而是需要根据数据中最大值和最小值计算出等长的箱子。

代码示例:

# 将成绩均匀的分在四个箱子中,precision=2的选项将精度控制在两位cuts = pd.cut(scores,4,precision=2)

2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据

代码示例:

import numpy as npimport pandas as pd# 正态分布data = np.random.randn(100)# 分四个箱子cuts = pd.qcut(data,4)print('\ncuts:')print(cuts)print('\ncuts.value_counts:')print(pd.value_counts(cuts))======output:======cuts:[(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]]Length: 100Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] <                                    (0.889, 2.834]]cuts.value_counts:(0.889, 2.834]                   25(-0.0723, 0.889]                 25(-0.745, -0.0723]                25(-3.1599999999999997, -0.745]    25dtype: int64

以上就是关于“python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网Python频道。

--结束END--

本文标题: python如何利用pd.cut()和pd.qcut()对数据进行分箱操作

本文链接: https://www.lsjlt.com/news/340953.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python利用pd.cut()和pd.qcut()对数据进行分箱操作
    目录1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据1.cut()可以实现类似于对成绩进行...
    99+
    2024-04-02
  • python如何利用pd.cut()和pd.qcut()对数据进行分箱操作
    这篇“python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇...
    99+
    2023-07-02
  • Android中怎么利用LitePal对数据库进行操作
    Android中怎么利用LitePal对数据库进行操作,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。首先在app/build.grade文件中编辑dependencies{.....
    99+
    2023-06-04
  • Pandas对数值进行分箱操作的方法有哪些
    这篇文章主要讲解了“Pandas对数值进行分箱操作的方法有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Pandas对数值进行分箱操作的方法有哪些”吧!前言使用 Pandas 的betw...
    99+
    2023-06-30
  • 利用Python进行数据清洗的操作指南
    目录缺失值异常值数据不一致无效数据重复数据数据泄漏问题你一定听说过这句著名的数据科学名言: 在数据科学项目中, 80% 的时间是在做数据处理。 如果你没有听过,那么请记住:数据清洗是...
    99+
    2024-04-02
  • 怎么在python中利用openpyxl和xlsxwriter对Excel进行操作
    本篇文章给大家分享的是有关怎么在python中利用openpyxl和xlsxwriter对Excel进行操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。简介Python中操作...
    99+
    2023-06-06
  • Impala中如何进行数据分区操作
    在 Impala 中,数据分区操作可以通过 PARTITION BY 子句来实现。在创建表的时候,可以指定一个或多个列作为分区键,例...
    99+
    2024-03-06
    Impala
  • ODBC中怎么利用CRecordset类对数据库进行操作
    ODBC中怎么利用CRecordset类对数据库进行操作,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。 1.MFC中的ODBC类...
    99+
    2024-04-02
  • Pandas对数值进行分箱操作的4种方法总结
    目录前言1、between & loc2、cut3、qcut4、value_counts前言 使用 Pandas 的between 、cut、qcut 和 value_cou...
    99+
    2024-04-02
  • 如何使用ContentValues对数据库进行相关操作
    本篇内容介绍了“如何使用ContentValues对数据库进行相关操作”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够...
    99+
    2024-04-02
  • 如何使用占位符对数据库进行操作
    这篇文章将为大家详细讲解有关如何使用占位符对数据库进行操作,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。效果图 在main.xml中:<xml versi...
    99+
    2024-04-02
  • 如何在Python中进行数据库操作
    如何在Python中进行数据库操作在当今信息化的时代,数据已经成为了一种非常重要的资源,而数据库的操作就成为了一种必不可少的技能。Python作为一种简单易学的编程语言,也提供了丰富的库和模块来帮助我们进行数据库的操作。本文将介绍如何在Py...
    99+
    2023-10-22
    Python 数据库操作
  • 利用Python进行数据分析_Panda
    申明:本系列文章是自己在学习《利用Python进行数据分析》这本书的过程中,为了方便后期自己巩固知识而整理。 import pandas as pd import numpy as np file = 'D:\example.xls'...
    99+
    2023-01-30
    数据 Python _Panda
  • 如何利用spark进行数据分析
    使用Spark进行数据分析可以遵循以下步骤: 准备数据:将数据加载到Spark中,可以使用Spark的DataFrame API...
    99+
    2024-04-02
  • 怎么在Python中利用Selenium对Cookie进行操作
    本文章向大家介绍怎么在Python中利用Selenium对Cookie进行操作的基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象...
    99+
    2023-06-06
  • Java中怎么利用Streams对数据库进行查询操作
    Java中怎么利用Streams对数据库进行查询操作,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。示例数据库我们使用的示例数据库是Saki...
    99+
    2024-04-02
  • 利用hibernate怎么对数据库进行增删改查操作
    本篇文章给大家分享的是有关利用hibernate怎么对数据库进行增删改查操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Hibernate对数据删除操作删除User表中个一条...
    99+
    2023-05-31
    hibernate
  • python中如何对文件进行操作
    这篇文章主要介绍python中如何对文件进行操作,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一.文件基本操作1.1 文件打开和关闭open(‘文件名称','打开模式')模式:r(只读,指针再...
    99+
    2023-06-15
  • 利用mybatis怎么对数据库进行增删改查操作
    这篇文章将为大家详细讲解有关利用mybatis怎么对数据库进行增删改查操作,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。所需要用到的其他工具或技术:项目管理工具 : Maven测试运行工具 ...
    99+
    2023-05-31
    mybatis
  • Python利用CNN实现对时序数据进行分类
    目录一、数据集介绍二、数据预处理2.1 获取原始数据2.2 获取原始标签2.3 数据分割2.4 整合数据和标签2.5 保存三、数据训练3.1 读取数据并进行处理3.2 构建数据结构3...
    99+
    2023-02-22
    Python CNN时序数据分类 Python CNN数据分类 Python CNN
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作