iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 中怎么实现一个k-means 均值聚类算法
  • 603
分享到

Python 中怎么实现一个k-means 均值聚类算法

2023-06-02 02:06:04 603人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分

python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

scikti-learn 将机器学习分为4个领域,分别是分类(classification)、聚类(clustering)、回归(regression)和降维(dimensionality reduction)。k-means均值算法虽然是聚类算法中比较简单的一种,却包含了丰富的思想内容,非常适合作为初学者的入门习题。

Python 中怎么实现一个k-means 均值聚类算法

关于 k-means 均值聚类算法的原理介绍、实现代码,网上有很多,但运行效率似乎都有点问题。今天稍微有点空闲,写了一个不足20行的 k-means 均值聚类算法,1万个样本平均耗时20毫秒(10次均值)。同样的数据样本,网上流行的算法平均耗时3000毫秒(10次均值)。差距竟然达百倍以上,令我深感意外,不由得再次向 numpy 献上膝盖!

以下是我的代码,包含注释、空行总共26行,有效代码16行。

 1import numpy as np 2 3Def kmeans_xufive(ds, k): 4 """k-means聚类算法 5 6 k - 指定分簇数量 7 ds - ndarray(m, n),m个样本的数据集,每个样本n个属性值 8 """ 910 m, n = ds.shape # m:样本数量,n:每个样本的属性值个数11 result = np.empty(m, dtype=np.int) # m个样本的聚类结果12 cores = np.empty((k, n)) # k个质心13 cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 从m个数据样本中不重复地随机选择k个样本作为质心1415 while True: # 迭代计算16 d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)17 distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k),每个样本距离k个质心的距离,共有m行18 index_min = np.argmin(distance, axis=1) # 每个样本距离最近的质心索引序号1920 if (index_min == result).all(): # 如果样本聚类没有改变21 return result, cores # 则返回聚类结果和质心数据2223 result[:] = index_min # 重新分类24 for i in range(k): # 遍历质心集25 items = ds[result==i] # 找出对应当前质心的子样本集26 cores[i] = np.mean(items, axis=0) # 以子样本集的均值作为当前质心的位置

这是网上比较流行的 k-means 均值聚类算法代码,包含注释、空行总共57行,有效代码37行。

 1import numpy as np 2 3# 加载数据 4def loadDataSet(fileName): 5 data = np.loadtxt(fileName,delimiter='\t') 6 return data 7 8# 欧氏距离计算 9def distEclud(x,y):10 return np.sqrt(np.sum((x-y)**2)) # 计算欧氏距离1112# 为给定数据集构建一个包含K个随机质心的集合13def randCent(dataSet,k):14 m,n = dataSet.shape15 centroids = np.zeros((k,n))16 for i in range(k):17 index = int(np.random.unifORM(0,m)) #18 centroids[i,:] = dataSet[index,:]19 return centroids2021# k均值聚类22def kmeans_open(dataSet,k):2324 m = np.shape(dataSet)[0] #行的数目25 # 第一列存样本属于哪一簇26 # 第二列存样本的到簇的中心点的误差27 clusterASSMent = np.mat(np.zeros((m,2)))28 clusterChange = True2930 # 第1步 初始化centroids31 centroids = randCent(dataSet,k)32 while clusterChange:33 clusterChange = False3435 # 遍历所有的样本(行数)36 for i in range(m):37 minDist = 100000.038 minIndex = -13940 # 遍历所有的质心41 #第2步 找出最近的质心42 for j in range(k):43 # 计算该样本到质心的欧式距离44 distance = distEclud(centroids[j,:],dataSet[i,:])45 if distance < minDist:46 minDist = distance47 minIndex = j48 # 第 3 步:更新每一行样本所属的簇49 if clusterAssment[i,0] != minIndex:50 clusterChange = True51 clusterAssment[i,:] = minIndex,minDist**252 #第 4 步:更新质心53 for j in range(k):54 pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]] # 获取簇类所有的点55 centroids[j,:] = np.mean(pointsInCluster,axis=0) # 对矩阵的行求均值5657 return clusterAssment.A[:,0], centroids

函数create_data_set(),用于生成测试数据。可变参数 cores 是多个三元组,每一个三元组分别是质心的x坐标、y坐标和对应该质心的数据点的数量。

 1def create_data_set(*cores): 2 """生成k-means聚类测试用数据集""" 3 4 ds = list() 5 for x0, y0, z0 in cores: 6 x = np.random.normal(x0, 0.1+np.random.random()/3, z0) 7 y = np.random.normal(y0, 0.1+np.random.random()/3, z0) 8 ds.append(np.stack((x,y), axis=1)) 910 return np.vstack(ds)

测试代码如下:

 1import time 2import matplotlib.pyplot as plt 3 4k = 4 5ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500)) 6 7t0 = time.time() 8result, cores = kmeans_xufive(ds, k) 9t = time.time() - t01011plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))12plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))13plt.show()1415print(u'使用kmeans_xufive算法,1万个样本点,耗时%f0.3秒'%t)1617t0 = time.time()18result, cores = kmeans_open(ds, k)19t = time.time() - t02021plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))22plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))23plt.show()2425print(u'使用kmeans_open算法,1万个样本点,耗时%f0.3秒'%t)

测试结果如下:

1PS D:\Xufivegit\CSDN\code> py -3 .\k-means.py2使用kmeans_xufive算法,1万个样本点,耗时0.0156550.3秒3使用kmeans_open算法,1万个样本点,耗时3.9990890.3秒

效果如下:

Python 中怎么实现一个k-means 均值聚类算法

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网Python频道,感谢您对编程网的支持。

--结束END--

本文标题: Python 中怎么实现一个k-means 均值聚类算法

本文链接: https://www.lsjlt.com/news/228545.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 中怎么实现一个k-means 均值聚类算法
    Python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分...
    99+
    2023-06-02
  • Python实现聚类K-means算法
    本文内容、数据参考周志华《机器学习》,代码部分为个人实现,如有错误还请指出。 K-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 E ...
    99+
    2023-09-20
    聚类 算法 python
  • Python实现聚类K-means算法详解
    目录手动实现sklearn库中的KMeansK-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 注:为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度...
    99+
    2024-04-02
  • Python如何实现聚类K-means算法
    今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means...
    99+
    2023-07-02
  • 利用Python如何实现K-means聚类算法
    目录前言算法原理 目标函数 算法流程  Python实现 总结 前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,...
    99+
    2024-04-02
  • 人工智能——K-Means聚类算法及Python实现
    目录1 概述1.1 无监督学习1.2 聚类1.3 K-Mean均值算法2 K-Mean均值算法 2.1 引入2.2 针对大样本集的改进算法:Mini Batch K-Mea...
    99+
    2024-04-02
  • 如何使用Python语言实现K-Means聚类算法
    这篇文章给大家分享的是有关如何使用Python语言实现K-Means聚类算法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1 概述1.1 无监督学习      在一个典型的监督学习中...
    99+
    2023-06-26
  • python怎么实现K-means算法
    本篇内容介绍了“python怎么实现K-means算法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  K-means 聚类算法  特点  ...
    99+
    2023-06-01
  • (python实现)一篇文章教会你k-means聚类算法(包括最优聚类数目k的确定)
    目录 摘要1. K-means算法1.1 聚类算法简介1.2 K-means聚类算法1.3 代码实现 2. 最优聚类数目K的确定2.1 手肘法--Elbow(经验方法)2.2 Silhou...
    99+
    2023-09-11
    聚类 python 算法
  • K均值聚类算法的Java版实现代码示例
    1.简介K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚...
    99+
    2023-05-30
    java k均值聚类 算法
  • 利用python实现聚类分析K-means算法的详细过程
    K-means算法介绍   K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近...
    99+
    2024-04-02
  • K-Means聚类算法及其python实现(已附上代码至本博客)
    目录 一、算法公式讲解二、算法流程三、算法实现代码四、代码结果分析五、K-Means库函数六、K-Means算法时间复杂度 一、算法公式讲解 对于 n代表了x有n维,x上标j表示第j维的特...
    99+
    2023-10-27
    聚类 算法 kmeans
  • 如何用K-means算法的Java实现聚类分析681个三国武将
    如何用K-means算法的Java实现聚类分析681个三国武将,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一,k-means算法介绍:k-means算法接受输入量 k ;然后...
    99+
    2023-06-17
  • K-means算法怎么在Python中应用
    这篇文章将为大家详细讲解有关K-means算法怎么在Python中应用,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动...
    99+
    2023-06-14
  • 利用Python实现K-Means聚类的方法实例(案例:用户分类)
    目录K-Means聚类算法介绍K-Means聚类算法基础原理K-Means聚类算法实现流程开始做一个简单的聚类数据导入数据探索 开始聚类查看输出结果聚类质心K-Means聚...
    99+
    2024-04-02
  • python中k-means和k-means++原理是什么及怎么实现
    这篇文章主要介绍“python中k-means和k-means++原理是什么及怎么实现”,在日常操作中,相信很多人在python中k-means和k-means++原理是什么及怎么实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作...
    99+
    2023-06-30
  • python k-means聚类算法 物流分配预测实战(超详细,附源码)
    数据集和地图可以点赞关注收藏后评论区留下QQ邮箱或者私信博主要 聚类是一类机器学习基础算法的总称。 聚类的核心计算过程是将数据对象集合按相似程度划分成多个类,划分得到的每个类称为聚类的簇 聚类不等于分类,其主要区别在于聚类所面对的目标...
    99+
    2023-09-27
    聚类 算法 python
  • python 实现k-means聚类算法 银行客户分组画像实战(超详细,附源码)
    想要数据集请点赞关注收藏后评论区留言留下QQ邮箱 k-means具体是什么这里就不再赘述,详情可以参见我这篇博客 k-means 问题描述:银行对客户信息进行采集,获得了200位客户的数据,客户特征包括以下四个1:社保号码 2:姓名 ...
    99+
    2023-09-09
    聚类 kmeans 数据挖掘 python 机器学习
  • python中opencvK均值聚类的实现示例
    目录K均值聚类K均值聚类的基本步骤K均值聚类模块简单例子K均值聚类 预测的是一个离散值时,做的工作就是“分类”。预测的是一个连续值时,做的工作就是&ldquo...
    99+
    2024-04-02
  • Python中怎么利用DBSCAN实现一个密度聚类算法
    Python中怎么利用DBSCAN实现一个密度聚类算法,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。基于密度这点有什么好处呢我们知道kmeans聚类算法只能处理球形的簇,也就是...
    99+
    2023-06-16
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作