首页 > 资讯 > 后端开发 > Python >Python 数据化运营之KMeans聚类分析总结

809

分享到

Python 数据化运营之KMeans聚类分析总结

2024-04-02 19:04:59 809人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录python 数据化运营1、内容介绍2、一般应用场景3、聚类的常见方法4、Keans聚类实现 5、聚类的评估指标6、聚类效果可视化7、数据预测Python 数据化运营 1、内容介

Python 数据化运营

1、内容介绍

以 Python 使用 Keans 进行聚类分析的简单举例应用介绍聚类分析。

聚类分析 或 聚类 是对一组对象进行分组的任务，使得同一组（称为聚类）中的对象（在某种意义上）与其他组（聚类）中的对象更相似（在某种意义上）。它是探索性数据挖掘的主要任务，也是统计数据分析的常用技术，用于许多领域，包括机器学习，模式识别，图像分析，信息检索，生物信息学，数据压缩和计算机图形学。

2、一般应用场景

（1）目标用户的群体分类：根据运营或商业目的挑选出来的变量，对目标群体进行聚类，将目标群体分成几个有明显的特征区别的细分群体，在运营活动中为这些细分群体采用精细化、个性化的运营和服务，提升运营的效率和商业效果。

（2）不同产品的价值组合：按特定的指标变量对众多产品种类进行聚类。将产品体系细分成具有不同价值、不同目的、多维度产品组合，在此基础上制定相应的产品开发计划、运营计划和服务计划。

（3）探索、发现孤立点及异常值：主要是风控应用。孤立点可能会存在欺诈的风险成分。

3、聚类的常见方法

分为基于划分、层次、密度、网格、统计学、模型等类型的算法，典型算法包括K均值（经典的聚类算法）、DBSCAN、两步聚类、BIRCH、谱聚类等。

4、Keans聚类实现


import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import metrics
import random

# 随机生成100组包含3组特征的数据
feature = [[random.random(),random.random(),random.random()] for i in range(100)]
label = [int(random.randint(0,2)) for i in range(100)]

# 转换数据格式
x_feature = np.array(feature)

# 训练聚类模型
n_clusters = 3  # 设置聚类数量
model_kmeans = KMeans(n_clusters=n_clusters, random_state=0)  # 建立聚类模型对象
model_kmeans.fit(x_feature)  # 训练聚类模型
y_pre = model_kmeans.predict(x_feature)  # 预测聚类模型
y_pre

实现如图：

5、聚类的评估指标

inertias 是K均值模型对象的属性，表示样本距离最近的聚类中心的总和，它是作为在没有真实分类结果标签下的非监督式评估指标。该值越小越好，值越小证明样本在类间的分布越集中，即类内的距离越小。


# 样本距离最近的聚类中心的总和
inertias = model_kmeans.inertia_

adjusted_rand_s：调整后的兰德指数（Adjusted Rand Index），兰德指数通过考虑在预测和真实聚类中在相同或不同聚类中分配的所有样本对和计数对来计算两个聚类之间的相似性度量。调整后的兰德指数通过对兰德指数的调整得到独立于样本量和类别的接近于0的值，其取值范围为[-1, 1]，负数代表结果不好，越接近于1越好意味着聚类结果与真实情况越吻合。


# 调整后的兰德指数
adjusted_rand_s = metrics.adjusted_rand_score(label, y_pre)

mutual_info_s：互信息（Mutual InfORMation, MI），互信息是一个随机变量中包含的关于另一个随机变量的信息量，在这里指的是相同数据的两个标签之间的相似度的量度，结果是非负值。


# 互信息
mutual_info_s = metrics.mutual_info_score(label, y_pre)

adjusted_mutual_info_s：调整后的互信息（Adjusted Mutual Information, AMI），调整后的互信息是对互信息评分的调整得分。它考虑到对于具有更大数量的聚类群，通常MI较高，而不管实际上是否有更多的信息共享，它通过调整聚类群的概率来纠正这种影响。当两个聚类集相同（即完全匹配）时，AMI返回值为1；随机分区（独立标签）平均预期AMI约为0，也可能为负数。


# 调整后的互信息
adjusted_mutual_info_s = metrics.adjusted_mutual_info_score(label, y_pre)

homogeneity_s：同质化得分（Homogeneity），如果所有的聚类都只包含属于单个类的成员的数据点，则聚类结果将满足同质性。其取值范围[0,1]值越大意味着聚类结果与真实情况越吻合。


# 同质化得分
homogeneity_s = metrics.homogeneity_score(label, y_pre)

completeness_s：完整性得分（Completeness），如果作为给定类的成员的所有数据点是相同集群的元素，则聚类结果满足


完整性。其取值范围[0,1]，值越大意味着聚类结果与真实情况越吻合。

# 完整性得分
completeness_s = metrics.completeness_score(label, y_pre)

v_measure_s：它是同质化和完整性之间的谐波平均值，v = 2 （均匀性完整性）/（均匀性+完整性）。其取值范围[0,1]，值越大意味着聚类结果与真实情况越吻合。


v_measure_s = metrics.v_measure_score(label, y_pre)

silhouette_s：轮廓系数（Silhouette），它用来计算所有样本的平均轮廓系数，使用平均群内距离和每个样本的平均最近簇距离来计算，它是一种非监督式评估指标。其最高值为1，最差值为-1,0附近的值表示重叠的聚类，负值通常表示样本已被分配到错误的集群。


# 平均轮廓系数
silhouette_s = metrics.silhouette_score(x_feature, y_pre, metric='euclidean')

calinski_harabaz_s：该分数定义为群内离散与簇间离散的比值，它是一种非监督式评估指标。


# Calinski和Harabaz得分
calinski_harabaz_s = metrics.calinski_harabasz_score(x_feature, y_pre)

6、聚类效果可视化


# 模型效果可视化
centers = model_kmeans.cluster_centers_  # 各类别中心
colors = ['#4EACC5', '#FF9C34', '#4E9A06']  # 设置不同类别的颜色
plt.figure()  # 建立画布
for i in range(n_clusters):  # 循环读类别
    index_sets = np.where(y_pre == i)  # 找到相同类的索引集合
    cluster = x_feature[index_sets]  # 将相同类的数据划分为一个聚类子集
    plt.scatter(cluster[:, 0], cluster[:, 1], c=colors[i], marker='.')  # 展示聚类子集内的样本点
    plt.plot(centers[i][0], centers[i][1], 'o', markerfacecolor=colors[i], markeredgecolor='k',
             markersize=6)  # 展示各聚类子集的中心
plt.show()  # 展示图像

如图：

7、数据预测


# 模型应用
new_X = [1, 3.6,9.9]
cluster_label = model_kmeans.predict(np.array(new_X).reshape(1,-1))
print ('聚类预测结果为: %d' % cluster_label)

到此这篇关于Python 数据化运营之KMeans聚类分析总结的文章就介绍到这了,更多相关Python 数据化运营内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python 数据化运营之KMeans聚类分析总结

本文链接: https://www.lsjlt.com/news/133658.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python 数据化运营之KMeans聚类分析总结

目录

Python 数据化运营

1、内容介绍

2、一般应用场景

3、聚类的常见方法

4、Keans聚类实现

5、聚类的评估指标

6、聚类效果可视化

7、数据预测

本篇文章演示代码以及资料文档资料下载

Python 数据化运营之KMeans聚类分析总结

分析总结Python数据化运营KMeans聚类

总结分析python数据化运营关联规则

回归预测分析python数据化运营线性回归总结

python数据分析之聚类分析(cluster analysis)

Python+ChatGPT实战之进行游戏运营数据分析

Python数据分析之Matplotlib的常用操作总结

Python数据分析之堆叠数组函数示例总结

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容