Python实现对相同数据分箱的小技巧分享

2024-04-02 19:04:59 279人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录前言思路类型一：数字类型二：元组附：利用python的cut方法可以对数据进行分箱。总结前言博主最近工作中刚好用到数据分箱操作（对相同数据进行遍历比较，避免了全部遍历比较，大大

前言

博主最近工作中刚好用到数据分箱操作（对相同数据进行遍历比较，避免了全部遍历比较，大大减少了电脑io次数，提高程序运行速度），翻了很多博文都没有找到解决方法，写一下我自己的解决思路！！！

什么是分箱？

简单点说就是将不同的东西，按照特定的条件放到一个指定容器里，比如水果把绿色的放一个篮子里，红色一个篮子等等，这个篮子就是箱，而水果就是数据颜色就是条件

什么样式的数据要进行分箱

数据主要分为连续变量和分类变量，分箱的操作主要针对于连续变量。

为什么要对数据进行分箱操作

稳定性，时间复杂度，看的舒服，提高准确度等等

思路

先给定 last 为列表第一个（并存入temp列表）,将后面的数据从第二个开始与 last 比较，如果相同存入 temp 中。

当不相同时，则将 last 切换为不同的那个数（并存入temp），并将 temp列表放入一个空列表中。

类型一：数字

实现效果

[1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

# 转变为
[[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

代码实现

box = [1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

last = box[0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a == last:
        temp.append(a)
    else:
        last = a
        temp = [a]
        box_list.append(temp)

print(box_list) # [[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

# 实现按每一个分箱列表遍历数据（而不用全部遍历）
for boxs in box_list:
    for i in boxs:
        print(i)

类型二：元组

实现效果

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]

# 实现把名字相同的元组放入一个列表
[[('小黑', '20', '四川'), ('小黑', '21', '北京')], [('张三', '18', '上海'), ('张三', '22', '上海'), ('张三', '30', '北京')], [('李四', '10', '广州')]]

代码实现

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]


last = box[0][0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a[0] == last:
        temp.append(a)
    else:
        last = a[0]
        temp = [a]
        box_list.append(temp)
       
print(box_list)    

# 实现按每一个分箱列表遍历数据（而不用全部遍历）
for boxs in box_list:
    for i in boxs:
        print(i[0]) # 0取的姓名，1取年龄，3取地址

附：利用Python的cut方法可以对数据进行分箱。

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

# 随机生成一组数据
score_list = np.random.randint(25,100,size = 20)  # 随机生成最小值25，最大值100的20个数据

# 分箱的区间
bins = [0,59,70,80,100]

# 分箱
score_cat = pd.cut(score_list,bins)

# 统计不同区间的个数
pd.value_counts(score_cat)


# 生成一个空的DataFrame
df = DataFrame()
df['Score'] = score_list
df['Name'] =  [pd.util.testing.rands(5) for i in range(20)] # 生成20个姓名
df['CateGories'] =pd.cut(df['Score'],bins,labels = ['不及格','一般','优秀','厉害']) 
# labels对应的是bins的

总结

到此这篇关于Python实现对相同数据分箱的文章就介绍到这了,更多相关Python相同数据分箱内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实现对相同数据分箱的小技巧分享

本文链接: https://www.lsjlt.com/news/163172.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实现对相同数据分箱的小技巧分享

目录前言思路类型一：数字类型二：元组附：利用Python的cut方法可以对数据进行分箱。总结前言博主最近工作中刚好用到数据分箱操作（对相同数据进行遍历比较，避免了全部遍历比较，大大...

99+

2022-11-13
如何使用Python实现对相同数据分箱

小编给大家分享一下如何使用Python实现对相同数据分箱，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！什么是分箱？简单点说就是将不同的东西，按照特定的条件放到一个...

99+

2023-06-28
分享python数据统计的一些小技巧

最近在用python做数据统计，这里总结了一些最近使用时查找和总结的一些小技巧，希望能帮助在做这方面时的一些童鞋。有些技巧是很平常的用法，平时我们没有注意，但是在特定场景，这些小方法还是能带来很大的帮助。 ...

99+

2022-06-04

小技巧数据统计 python
Python数据处理的三个实用技巧分享

目录1 Pandas 移除某列2 统计标题单词数3 Genre 频次统计我使用的 Pandas 版本如下，顺便也导入 Pandas 库。 >>> import pa...

99+

2022-11-13
Python同步方法变为异步方法的小技巧分享

目录背景怎么做？Asyncerawaitableaioify总结背景在我们平时的FastApi工作中，经常会用到一些异步的操作，为了保持一致，我们一般会编写配套的异步代码。但如果...

99+

2022-11-10
Golang的数据转换技巧与实例分享

Golang的数据转换技巧与实例分享引言：Golang是一种功能强大的编程语言，在处理各种数据类型和格式转换时提供了很多方便的功能和技巧。本文将分享一些在Golang中进行数据转换的实用技巧，并提供具体的代码示例。一、字符串与整数之间的转换...

99+

2023-12-23

类型转换字符串操作数据解析
加速Python数据分析的小技巧分别有哪些

这期内容当中小编将会给大家带来有关加速Python数据分析的小技巧分别有哪些，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时...

99+

2023-06-16
十个 Python 小技巧，覆盖了90%的数据分析需求！

数据分析师日常工作会涉及各种任务，比如数据预处理、数据分析、机器学习模型创建、模型部署。在本文中，我将分享10个 Python 操作，它们可覆盖90%的数据分析问题。有所收获点赞、收藏、关注。1、阅读数据集阅读数据是数据分析的组成部分，了解...

99+

2023-05-14

Python 数据集数据分析
大数据开发必备：Python IDE 中的调试技巧与实战案例分享。

近年来，随着大数据技术的快速发展，Python 成为了大数据开发中最受欢迎的编程语言之一。在 Python 开发过程中，IDE 调试技巧的掌握是必不可少的。本文将为您介绍在 Python IDE 中的调试技巧，并结合实战案例分享。一、Py...

99+

2023-09-09

ide 大数据 laravel
如何在PHP中使用不同的数据类型？shell重定向技巧分享！

PHP作为一种流行的脚本语言，为开发人员提供了许多有用的工具和功能，其中包括不同的数据类型和shell重定向技巧。在本文中，我们将深入探讨如何在PHP中使用不同的数据类型和shell重定向技巧，为您提供有关这些主题的详细信息。 PHP中的...

99+

2023-08-09

数据类型 shell 重定向
Python实现的mqtt客户端工具分享，小巧且超轻量级(python+tkinter+paho.mqtt)

mqtt协议调试时需要个客户端工具，但网上找的体积包都很大，都不够小巧和便携。于是趁周末时间用python搞出来了个客户端工具，使用python+tinker+paho.mqtt实现。源码量很少但功能不弱，相当的轻量级。分享给有需要的小...

99+

2023-09-24

python mqtt mqtt客户端工具 tkinter
分享Python实现多继承的技巧和经验，提高开发效率

高效利用Python实现多继承的技巧与经验分享引言：Python是一种强大而灵活的编程语言，其支持多继承的特性使得我们可以更加灵活地设计和组织代码。本文将分享一些关于如何高效利用Python实现多继承的技巧和经验，并提供具体的代码示例。一、...

99+

2023-12-30

Python编程 (Python Programming) Python实现多继承时的多继承 (Multiple in
实时数据分析必备：Python 接口的使用技巧

随着大数据时代的到来，越来越多的公司需要对海量数据进行实时分析。而Python作为一种高效、易用的编程语言，已经成为了数据分析领域的重要工具。本文将介绍Python接口的使用技巧，帮助您更好地进行实时数据分析。一、Python接口的基本...

99+

2023-07-28

接口大数据实时
Python实现多进程共享数据的方法分析

本文实例讲述了Python实现多进程共享数据的方法。分享给大家供大家参考，具体如下：示例一： # -*- coding:utf-8 -*- from multiprocessing import Pr...

99+

2022-06-04

进程方法数据
二维码技术与大数据分析的结合，Python IDE的应用实践分享。

二维码技术与大数据分析的结合，Python IDE的应用实践分享随着信息技术的快速发展和普及，二维码技术已经成为了日常生活中不可或缺的一部分。二维码技术不仅可以实现信息的快速传递和交流，还可以实现商品的快速溯源和定位。同时，随着大数据分析...

99+

2023-09-26

ide 二维码大数据
Python数据结构之栈、队列的实现代码分享

1. 栈栈（stack）又名堆栈，它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被称为栈顶，相对地，把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈，它是把新元素放...

99+

2022-06-04

数据结构队列代码
Python面向对象实现数据分析的实例详解

目录案例需求分析实现步骤代码实例1实例2实例3可视化数据集案例某公司，有2份数据文件，现需要对其进行分析处理，计算每日的销售额并以柱状图表的形式进行展示。需求...

99+

2023-01-03

Python 面向对象数据分析 Python数据分析
如何在Python path 中实现大数据同步？几种方法对比分析。

Python是一种广泛使用的编程语言，用于开发各种应用程序，包括大数据应用程序。在大数据应用程序中，数据同步是一个关键问题。本文将介绍如何使用Python path实现大数据同步，并对几种方法进行比较和分析。 Python path是一个环...

99+

2023-10-12

path 大数据同步
mysql实用技巧之比较两个表是否有不同数据的方法分析

本文实例讲述了mysql比较两个表是否有不同数据的方法。分享给大家供大家参考，具体如下：在数据迁移中，我们经常需要比较两个表，以便在一个表中标识另一个表中没有相应记录的记录。例如，我们有一个新的数据库，...

99+

2022-10-18
Python实现一个转存纯真IP数据库的脚本分享

前言之前写过很多关于扫描脚本的文章，一直都没写自己的扫描IP段是哪里搞来的，也会有朋友经常来问一些扫描经验，说实话我觉得这个工具并没有实际的技术含量，但是能提高工作效率，就共享出来给大家耍耍～谈到扫描经...

99+

2022-06-04

脚本纯真数据库