iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python实现对相同数据分箱的小技巧分享
  • 279
分享到

Python实现对相同数据分箱的小技巧分享

2024-04-02 19:04:59 279人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录前言思路类型一:数字类型二:元组附:利用python的cut方法可以对数据进行分箱。总结前言 博主最近工作中刚好用到数据分箱操作(对相同数据进行遍历比较,避免了全部遍历比较,大大

前言

博主最近工作中刚好用到数据分箱操作(对相同数据进行遍历比较,避免了全部遍历比较,大大减少了电脑io次数,提高程序运行速度),翻了很多博文都没有找到解决方法,写一下我自己的解决思路!!!

什么是分箱?

简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件

什么样式的数据要进行分箱

数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。

为什么要对数据进行分箱操作

稳定性,时间复杂度,看的舒服,提高准确度 等等

思路

先给定 last 为列表第一个(并存入temp列表),将后面的数据从第二个开始与 last 比较,如果相同存入 temp 中。

当不相同时,则将 last 切换为 不同的那个数(并存入temp),并将 temp列表 放入一个空列表中。

类型一:数字

实现效果

[1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

# 转变为
[[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

代码实现

box = [1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

last = box[0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a == last:
        temp.append(a)
    else:
        last = a
        temp = [a]
        box_list.append(temp)

print(box_list) # [[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

# 实现按每一个分箱列表遍历数据(而不用全部遍历)
for boxs in box_list:
    for i in boxs:
        print(i)

类型二:元组

实现效果

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]

# 实现把名字相同的元组放入一个列表
[[('小黑', '20', '四川'), ('小黑', '21', '北京')], [('张三', '18', '上海'), ('张三', '22', '上海'), ('张三', '30', '北京')], [('李四', '10', '广州')]]

代码实现

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]


last = box[0][0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a[0] == last:
        temp.append(a)
    else:
        last = a[0]
        temp = [a]
        box_list.append(temp)
       
print(box_list)    

# 实现按每一个分箱列表遍历数据(而不用全部遍历)
for boxs in box_list:
    for i in boxs:
        print(i[0]) # 0取的姓名,1取年龄,3取地址

附:利用Python的cut方法可以对数据进行分箱。

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

# 随机生成一组数据
score_list = np.random.randint(25,100,size = 20)  # 随机生成最小值25,最大值100的20个数据

# 分箱的区间
bins = [0,59,70,80,100]

# 分箱
score_cat = pd.cut(score_list,bins)

# 统计不同区间的个数
pd.value_counts(score_cat)


# 生成一个空的DataFrame
df = DataFrame()
df['Score'] = score_list
df['Name'] =  [pd.util.testing.rands(5) for i in range(20)] # 生成20个姓名
df['CateGories'] =pd.cut(df['Score'],bins,labels = ['不及格','一般','优秀','厉害']) 
# labels对应的是bins的

总结

到此这篇关于Python实现对相同数据分箱的文章就介绍到这了,更多相关Python相同数据分箱内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python实现对相同数据分箱的小技巧分享

本文链接: https://www.lsjlt.com/news/163172.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作