广告
返回顶部
首页 > 资讯 > 后端开发 > Python >分析总结Python数据化运营KMeans聚类
  • 769
分享到

分析总结Python数据化运营KMeans聚类

2024-04-02 19:04:59 769人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

内容介绍 以 python 使用 Keans 进行聚类分析的简单举例应用介绍聚类分析。 聚类分析 或 聚类 是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)

内容介绍

python 使用 Keans 进行聚类分析的简单举例应用介绍聚类分析。

聚类分析 或 聚类 是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)与其他组(聚类)中的对象更相似(在某种意义上)。

它是探索性数据挖掘的主要任务,也是统计数据分析的常用技术,用于许多领域,包括机器学习,模式识别,图像分析,信息检索,生物信息学,数据压缩和计算机图形学。

一般应用场景

目标用户的群体分类:

根据运营或商业目的挑选出来的变量,对目标群体进行聚类,将目标群体分成几个有明显的特征区别的细分群体,在运营活动中为这些细分群体采用精细化、个性化的运营和服务,提升运营的效率和商业效果。

不同产品的价值组合:

按特定的指标变量对众多产品种类进行聚类。将产品体系细分成具有不同价值、不同目的、多维度产品组合,在此基础上制定相应的产品开发计划、运营计划和服务计划。

探索、发现孤立点及异常值:

主要是风控应用。孤立点可能会存在欺诈的风险成分。

聚类的常见方法

分为基于划分、层次、密度、网格、统计学、模型等类型的算法,典型算法包括K均值(经典的聚类算法)、DBSCAN、两步聚类、BIRCH、谱聚类等。

Keans聚类实现


import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import metrics
import random
# 随机生成100组包含3组特征的数据
feature = [[random.random(),random.random(),random.random()] for i in range(100)]
label = [int(random.randint(0,2)) for i in range(100)]
# 转换数据格式
x_feature = np.array(feature)
# 训练聚类模型
n_clusters = 3  # 设置聚类数量
model_kmeans = KMeans(n_clusters=n_clusters, random_state=0)  # 建立聚类模型对象
model_kmeans.fit(x_feature)  # 训练聚类模型
y_pre = model_kmeans.predict(x_feature)  # 预测聚类模型
y_pre

在这里插入图片描述

聚类的评估指标

inertias

是K均值模型对象的属性,表示样本距离最近的聚类中心的总和,它是作为在没有真实分类结果标签下的非监督式评估指标。

该值越小越好,值越小证明样本在类间的分布越集中,即类内的距离越小。


# 样本距离最近的聚类中心的总和
inertias = model_kmeans.inertia_ 

adjusted_rand_s:

调整后的兰德指数(Adjusted Rand Index),兰德指数通过考虑在预测和真实聚类中在相同或不同聚类中分配的所有样本对和计数对来计算两个聚类之间的相似性度量。

调整后的兰德指数通过对兰德指数的调整得到独立于样本量和类别的接近于0的值,其取值范围为[-1, 1],负数代表结果不好,越接近于1越好意味着聚类结果与真实情况越吻合。


# 调整后的兰德指数
adjusted_rand_s = metrics.adjusted_rand_score(label, y_pre)

mutual_info_s:

互信息(Mutual InfORMation, MI),互信息是一个随机变量中包含的关于另一个随机变量的信息量,在这里指的是相同数据的两个标签之间的相似度的量度,结果是非负值。


# 互信息
mutual_info_s = metrics.mutual_info_score(label, y_pre)

adjusted_mutual_info_s:

调整后的互信息(Adjusted Mutual Information, AMI),调整后的互信息是对互信息评分的调整得分。

它考虑到对于具有更大数量的聚类群,通常MI较高,而不管实际上是否有更多的信息共享,它通过调整聚类群的概率来纠正这种影响。

当两个聚类集相同(即完全匹配)时,AMI返回值为1;随机分区(独立标签)平均预期AMI约为0,也可能为负数。


# 调整后的互信息
adjusted_mutual_info_s = metrics.adjusted_mutual_info_score(label, y_pre) 

homogeneity_s:

同质化得分(Homogeneity),如果所有的聚类都只包含属于单个类的成员的数据点,则聚类结果将满足同质性。其取值范围[0,1]值越大意味着聚类结果与真实情况越吻合。


# 同质化得分
homogeneity_s = metrics.homogeneity_score(label, y_pre)  

completeness_s:

完整性得分(Completeness),如果作为给定类的成员的所有数据点是相同集群的元素,则聚类结果满足完整性。其取值范围[0,1],值越大意味着聚类结果与真实情况越吻合。


# 完整性得分
completeness_s = metrics.completeness_score(label, y_pre) 

v_measure_s:

它是同质化和完整性之间的谐波平均值,v = 2 (均匀性 完整性)/(均匀性+完整性)。其取值范围[0,1],值越大意味着聚类结果与真实情况越吻合。


v_measure_s = metrics.v_measure_score(label, y_pre) 

silhouette_s:

轮廓系数(Silhouette),它用来计算所有样本的平均轮廓系数,使用平均群内距离和每个样本的平均最近簇距离来计算,它是一种非监督式评估指标。其最高值为1,最差值为-1,0附近的值表示重叠的聚类,负值通常表示样本已被分配到错误的集群。


# 平均轮廓系数
silhouette_s = metrics.silhouette_score(x_feature, y_pre, metric='euclidean') 

calinski_harabaz_s:

该分数定义为群内离散与簇间离散的比值,它是一种非监督式评估指标。


# Calinski和Harabaz得分
calinski_harabaz_s = metrics.calinski_harabasz_score(x_feature, y_pre) 

聚类效果可视化


# 模型效果可视化
centers = model_kmeans.cluster_centers_  # 各类别中心
colors = ['#4EACC5', '#FF9C34', '#4E9A06']  # 设置不同类别的颜色
plt.figure()  # 建立画布
for i in range(n_clusters):  # 循环读类别
    index_sets = np.where(y_pre == i)  # 找到相同类的索引集合
    cluster = x_feature[index_sets]  # 将相同类的数据划分为一个聚类子集
    plt.scatter(cluster[:, 0], cluster[:, 1], c=colors[i], marker='.')  # 展示聚类子集内的样本点
    plt.plot(centers[i][0], centers[i][1], 'o', markerfacecolor=colors[i], markeredgecolor='k',
             markersize=6)  # 展示各聚类子集的中心
plt.show()  # 展示图像

在这里插入图片描述

数据预测


# 模型应用
new_X = [1, 3.6,9.9]
cluster_label = model_kmeans.predict(np.array(new_X).reshape(1,-1))
print ('聚类预测结果为: %d' % cluster_label)

在这里插入图片描述

以上就是分析总结Python数据化运营KMeans聚类的详细内容,更多关于Python数据化运营KMeans聚类的资料请关注编程网其它相关文章!

--结束END--

本文标题: 分析总结Python数据化运营KMeans聚类

本文链接: https://www.lsjlt.com/news/133601.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 分析总结Python数据化运营KMeans聚类
    内容介绍 以 Python 使用 Keans 进行聚类分析的简单举例应用介绍聚类分析。 聚类分析 或 聚类 是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)...
    99+
    2022-11-12
  • Python 数据化运营之KMeans聚类分析总结
    目录Python 数据化运营1、内容介绍2、一般应用场景3、聚类的常见方法4、Keans聚类实现 5、聚类的评估指标6、聚类效果可视化7、数据预测Python 数据化运营 1、内容介...
    99+
    2022-11-12
  • 总结分析python数据化运营关联规则
    目录内容介绍一般应用场景关联规则实现关联规则应用举例内容介绍 以 Python 使用 关联规则 简单举例应用关联规则分析。 关联规则 也被称为购物篮分析,用于分析数据集各项之间的关联...
    99+
    2022-11-12
  • 回归预测分析python数据化运营线性回归总结
    目录内容介绍一般应用场景线性回归的常用方法线性回归实现线性回归评估指标线性回归效果可视化数据预测内容介绍 以 Python 使用 线性回归 简单举例应用介绍回归分析。 线性回归是利用...
    99+
    2022-11-12
  • python数据分析之聚类分析(cluster analysis)
    何为聚类分析 聚类分析或聚类是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)与其他组(聚类)中的对象更相似(在某种意义上)。它是探索性数据挖掘的主要任务,也...
    99+
    2022-11-12
  • 数据化用户运营的示例分析
    这篇文章将为大家详细讲解有关数据化用户运营的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。建立数据化用户运营的必要性一是在于定量衡量你工作的价值,二是实现精细化运营的基础。流程化和精细化为每个运营...
    99+
    2023-06-10
  • Python数据分析案例03——天气K均值聚类分析
    聚类常用的算法肯定是K均值聚类了,本次案例采用陕西的十个地区的天气数据,构建特征,进行聚类分析。 首先数据都装在‘天气数据’这个文件夹里面,如图: 打开其中一个excel,长这个样子    下面开始数据处理 数据预处理  导入包 imp...
    99+
    2023-09-15
    python 数据分析 数据挖掘 pandas numpy
  • Python+ChatGPT实战之进行游戏运营数据分析
    目录数据目标解决方案1. DAU2. 用户等级分布3. 付费率4. 收入情况5. 付费用户的ARPU总结最近ChatGPT蛮火的,今天试着让ta写了一篇数据分析实战案例,大家来评价一...
    99+
    2023-02-23
    Python ChatGPT游戏运营数据分析 Python ChatGPT游戏数据分析 Python ChatGPT数据分析 Python ChatGPT
  • 怎么使用Python+ChatGPT进行游戏运营数据分析
    本篇内容介绍了“怎么使用Python+ChatGPT进行游戏运营数据分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!数据您的团队已经为您提...
    99+
    2023-07-05
  • Python数据分析 | 各种图表对比总结
    本期将带领大家一起对在数据可视化的过程中常用的一些图表进行下总结: 条形图 【适用场景】 适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较,用于显示一段时间内的数据变化或显示各项之间的比较情况。 【优势】 条形图...
    99+
    2023-08-30
    数据分析 python 信息可视化
  • Python数据分析处理(三)--运动员信息的分组与聚合
    目录3.1 数据的爬取3.2统计男篮、女篮运动员的平均年龄、身高、体重3.3统计男篮运动员年龄、身高、体重的极差值3.4 统计男篮运动员的体质指数3.4.1添加体重指数3.4.2计算...
    99+
    2022-11-12
  • Python数据分析之Matplotlib的常用操作总结
    目录使用准备1、简单的绘制图像2、视图面板的常用操作3、样式及各类常用修饰属性4、legend图例的使用5、添加文字等描述6、不同类型图像的绘制总结使用准备 使用matplotlib...
    99+
    2022-11-12
  • Python数据分析之堆叠数组函数示例总结
    目录numpy 堆叠数组ravel() 函数stack() 函数vstack()函数hstack()函数concatenate() 函数numpy 堆叠数组 在做图像和 nlp 的...
    99+
    2023-02-23
    Python堆叠数组函数 Python 数据分析
  • Python数据分析23种Pandas核心操作方法总结
    目录基本数据集操作基本数据处理DataFrame 操作Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法。一般而言,Pandas 是使 P...
    99+
    2022-11-11
  • NumPy库中的矩阵运算:优化Python数据分析的必备工具
    在Python数据分析领域,矩阵运算是非常重要的一环。NumPy库是Python中最常用的科学计算库之一,它提供了丰富的矩阵运算功能,可以极大地优化Python数据分析的效率。本文将介绍NumPy库中的矩阵运算功能,以及如何使用它们来优化...
    99+
    2023-11-09
    同步 numy 日志
  • 如何分析Python的数据类型、变量、字符串和格式化
    这篇文章主要为大家分析了如何分析Python的数据类型、变量、字符串和格式化的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习“如何分析Python的数据类型、变...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作