Python实现K-means聚类算法并可视化生成动图步骤详解

Python可视化K-means聚类算法 Python K-means聚类算法 2022-06-02 22:06:01 654人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

K-means算法介绍简单来说，K-means算法是一种无监督算法，不需要事先对数据集打上标签，即ground-truth，也可以对数据集进行分类，并且可以指定类别数目牧师-村民模型 K-means 有一个著名的

K-means算法介绍

简单来说，K-means算法是一种无监督算法，不需要事先对数据集打上标签，即ground-truth，也可以对数据集进行分类，并且可以指定类别数目牧师-村民模型

K-means 有一个著名的解释：牧师—村民模型：

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的村民，于是每个村民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的村民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个村民又去了离自己最近的布道点……
就这样，牧师每个礼拜更新自己的位置，村民根据自己的情况选择布道点，最终稳定了下来。

牧师的目的非常明显，就是要让每个来上自己课的村民走的路程最少

算法步骤

指定k个中心点
更新数据点所属类别：计算每个数据点到这k个点的欧氏距离，距离最小即为这个数据点的类别
更新中心点坐标：对每一个类别的数据点求平均，平均值即为新的中心点位置

伪代码


获取m个n维的数据
随即选取k个点作为初始中心点
while keep_changing:
	for i in range(m):
		for j in range(k):
			计算每个点到center的距离
			判断离哪个点更近
		for center in range(k):
			更新类别中心点的坐标

用python实现K-means聚类算法


import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as datasets

def create_data():
    X,y = datasets.make_blobs(n_samples=1000,n_features=2,centers=[[1,0],[5,4],[2,3],[10,8],[7,4]])
    return X,y

def init_centers(data,k):
    m, n =data.shape
    # m 样本个数，n特征个数
    center_ids = np.random.choice(m,k)
    centers = data[center_ids]
    return centers

def cal_dist(ptA,ptB):
   return np.linalg.nORM(ptA-ptB)

def kmeans_process(data,k):
    centers = init_centers(data, k)
    m, n = data.shape
    keep_changing = True
    pred_y = np.zeros((m,))

    while keep_changing:
        keep_changing = False
        # 计算剩余样本所属类别
        for i in range(m):
            min_distance = np.inf
            for center in range(k):
                distance = cal_dist(data[i,:],centers[center,:])
                if distance<min_distance: # 判断离哪个更近
                    min_distance = distance
                    idx = center # 类别换下
            if pred_y[i] != idx:   # 判断是否发生了改变
                keep_changing = True
            pred_y[i] = idx
        # 更新类别中心点坐标
        for center in range(k):
            cluster_data = data[pred_y==center]
            centers[center,:] = np.mean(cluster_data, axis=0) # 求相同类别数据点的质心点
        print(centers)
    return centers, pred_y

if __name__ == '__main__':
    X, y = create_data()
    centers , pred_y = kmeans_process(data=X, k=5)
    plt.scatter(X[:,0], X[:,1], s=3, c=pred_y)
    plt.scatter(centers[:,0], centers[:,1], s=10, c='k')
    plt.show()

效果图

在这里插入图片描述

到此这篇关于Python实现K-means聚类算法并可视化生成动图步骤详解的文章就介绍到这了,更多相关Python可视化K-means聚类算法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实现K-means聚类算法并可视化生成动图步骤详解

本文链接: https://www.lsjlt.com/news/10563.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实现聚类K-means算法详解

目录手动实现sklearn库中的KMeansK-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差注：为避免运行时间过长，通常设置一个最大运行轮数或最小调整幅度...

99+

2024-04-02
利用python实现聚类分析K-means算法的详细过程

K-means算法介绍 K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近...

99+

2024-04-02
python 实现k-means聚类算法银行客户分组画像实战（超详细，附源码）

想要数据集请点赞关注收藏后评论区留言留下QQ邮箱 k-means具体是什么这里就不再赘述，详情可以参见我这篇博客 k-means 问题描述：银行对客户信息进行采集，获得了200位客户的数据，客户特征包括以下四个1：社保号码 2：姓名 ...

99+

2023-09-09

聚类 kmeans 数据挖掘 python 机器学习
Python实战实现爬取天气数据并完成可视化分析详解

目录实现需求：爬虫代码:实现需求：从网上(随便一个网址，我爬的网址会在评论区告诉大家，dddd）获取某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能...

99+

2024-04-02
Python基于纹理背景和聚类算法实现图像分割详解

目录一.基于纹理背景的图像分割二.基于K-Means聚类算法的区域分割三.总结一.基于纹理背景的图像分割该部分主要讲解基于图像纹理信息（颜色）、边界信息（反差）和背景信息的图像分割...

99+

2023-01-03

Python 纹理图像分割 Python 聚类算法图像分割 Python图像分割