iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python sklearn中的K-Means聚类如何使用
  • 459
分享到

Python sklearn中的K-Means聚类如何使用

2023-07-04 19:07:17 459人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要讲解了“python sklearn中的K-Means聚类如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python sklearn中的K-Means

这篇文章主要讲解了“python sklearn中的K-Means聚类如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python sklearn中的K-Means聚类如何使用”吧!

初步认识

k-means翻译过来就是K均值聚类算法,其目的是将样本分割为k个簇,而这个k则是KMeans中最重要的参数:n_clusters,默认为8。

下面做一个最简单的聚类

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.datasets import make_blobsX, y = make_blobs(1500)fig = plt.figure()for i in range(2):    ax = fig.add_subplot(1,2,i+1)    y = KMeans(i+2).fit_predict(X)    plt.scatter(X[:, 0], X[:, 1], c=y)plt.show()

其中,y是聚类结果,其数值表示对应位置X所属类号。

效果如图所示,对于下面这组数据来说,显然最好是分为两类,但如果KMeansn_clusters设为3,那就会聚成3类。

Python sklearn中的K-Means聚类如何使用

上面调用的KMeans是一个类,sklearn中同样提供了函数形式的调用,其使用方法如下

from sklearn.cluster import k_meanscen, y, interia = k_means(X, 3)

其中,cen表示聚类后,每一类的质心;y为聚类后的标签;interia表示均方误差之和。

初值选取

KMeans最重要的概念是簇,也就是被分割后的数据种类;而每个簇都有一个非常重要的点,就是质心。在设定好簇的个数之后,也就相当于确定了质心的个数,而KMeans算法的基本流程是

  • 选择k个点作为k个簇的初始质心

  • 计算样本到这k个质心(簇)的距离,并将其划入距离最近的簇中

  • 计算每个簇的均值,并使用该均值更新簇的质心

重复上述2-3的操作,直到质心区域稳定或者达到最大迭代次数。

从这个流程可以看出来,KMeans算法至少有两个细节需要考虑,一个是初始化方案,另一个则是质心更新的方案。

KMeans类或者k_means函数中,提供了两种初始化质心方案,通过参数init来控制

  • 'random':表示随机生成k个质心

  • 'k-means++':此为默认值,通过kMeans++方法来初始化质心。

kMeans++初始化质心的流程如下

  • 随机选择1个点作为初始质心 x 0

  • 计算其他点到最近质心的距离

  • 假定现有 n n n个质心了,那么选择距离当前质心较远的点作为下一个质心 x n x_n xn

重复步骤2和3,直到质心个数达到 k k k个。

若希望直接调用kMeans++函数,则可使用kmeans_plusplus

小批

sklearn提供了KMeans的一个变种MiniBatchKMeans,可在每次训练迭代中随机抽样,这种小批量的训练过程大大减少了运算时间。

当样本量非常巨大时,小批KMeans的优势是非常明显的

from sklearn.cluster import MiniBatchKMeansimport timeys, xs = np.indices([4,4])*6cens = list(zip(xs.reshape(-1), ys.reshape(-1)))X, y = make_blobs(100000,centers=cens)km = KMeans(16)mbk = MiniBatchKMeans(16)def test(func, value):    t = time.time()    func(value)    print("耗时", time.time()-t)test(km.fit_predict, X)# 耗时 3.2028110027313232test(mbk.fit_predict, X)# 耗时 0.2590029239654541

可见效果非常明显,其中fit_predictpredict相似,但并没有返回值,km.fit_predict(X)运行之后,会更改km中的labels_属性,此即分类结果

fig = plt.figure()ax = fig.add_subplot(1,2,1)ax.scatter(X[:,0], X[:,1], c=km.labels_,     marker='.', alpha=0.5)ax = fig.add_subplot(1,2,2)ax.scatter(X[:,0], X[:,1], c=mbk.labels_,     marker='.', alpha=0.5)plt.show()

效果如图所示,可见小批的KMeans算法和KMeans算法从结果上来看区别不大。

Python sklearn中的K-Means聚类如何使用

感谢各位的阅读,以上就是“Python sklearn中的K-Means聚类如何使用”的内容了,经过本文的学习后,相信大家对Python sklearn中的K-Means聚类如何使用这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: Python sklearn中的K-Means聚类如何使用

本文链接: https://www.lsjlt.com/news/347284.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python sklearn中的K-Means聚类如何使用
    这篇文章主要讲解了“Python sklearn中的K-Means聚类如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python sklearn中的K-Means...
    99+
    2023-07-04
  • Python如何实现聚类K-means算法
    今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means...
    99+
    2023-07-02
  • 如何使用Python语言实现K-Means聚类算法
    这篇文章给大家分享的是有关如何使用Python语言实现K-Means聚类算法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1 概述1.1 无监督学习      在一个典型的监督学习中...
    99+
    2023-06-26
  • 利用Python如何实现K-means聚类算法
    目录前言算法原理 目标函数 算法流程  Python实现 总结 前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,...
    99+
    2024-04-02
  • Pythonsklearn中的K-Means聚类使用方法浅析
    目录初步认识初值选取小批初步认识 k-means翻译过来就是K均值聚类算法,其目的是将样本分割为k个簇,而这个k则是KMeans中最重要的参数:n_clusters,默认为8。 下面...
    99+
    2022-12-20
    Python K-Means聚类 Python sklearn K-Means聚类
  • Python+OpenCV中如何利用K-Means 聚类进行色彩量化
    小编给大家分享一下Python+OpenCV中如何利用K-Means 聚类进行色彩量化,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!利用 K-Means...
    99+
    2023-06-21
  • Python如何使用OpenCV和K-Means聚类对毕业照进行图像分割
    这篇文章给大家分享的是有关Python如何使用OpenCV和K-Means聚类对毕业照进行图像分割的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。我们将看到一种图像分割方法,即K-Means Clustering。...
    99+
    2023-06-15
  • Python 中怎么实现一个k-means 均值聚类算法
    Python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分...
    99+
    2023-06-02
  • Python使用OpenCV和K-Means聚类对毕业照进行图像分割
    图像分割是将图像分割成多个不同区域(或片段)的过程。目标是将图像的表示变成更容易和更有意义的图像。 在这篇博客中,我们将看到一种图像分割方法,即K-Means Clustering。...
    99+
    2024-04-02
  • Python K-means实现简单图像聚类的示例代码
    这里直接给出第一个版本的直接实现: import os import numpy as np from sklearn.cluster import KMeans import ...
    99+
    2024-04-02
  • 详解基于K-means的用户画像聚类模型
    目录一、概述二、理论三、实现一、概述 使用K-means进行用户聚类划分主要的目的是实现用户画像的电影推荐系统,该推荐包括两部分,第一部分通过协同过滤实现电影推荐 ,第二部分,构建用...
    99+
    2024-04-02
  • 如何使用Golang基本数据结构与算法k-means聚类算法
    本篇内容介绍了“如何使用Golang基本数据结构与算法k-means聚类算法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读...
    99+
    2024-04-02
  • 利用Python实现K-Means聚类的方法实例(案例:用户分类)
    目录K-Means聚类算法介绍K-Means聚类算法基础原理K-Means聚类算法实现流程开始做一个简单的聚类数据导入数据探索 开始聚类查看输出结果聚类质心K-Means聚...
    99+
    2024-04-02
  • Python+OpenCV实战之利用 K-Means 聚类进行色彩量化
    目录前言利用 K-Means 聚类进行色彩量化完整代码显示色彩量化后的色彩分布前言 K-Means 聚类算法的目标是将 n 个样本划分(聚类)为 K 个簇,在博文《OpenCV与机器...
    99+
    2024-04-02
  • 利用python实现聚类分析K-means算法的详细过程
    K-means算法介绍   K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近...
    99+
    2024-04-02
  • (python实现)一篇文章教会你k-means聚类算法(包括最优聚类数目k的确定)
    目录 摘要1. K-means算法1.1 聚类算法简介1.2 K-means聚类算法1.3 代码实现 2. 最优聚类数目K的确定2.1 手肘法--Elbow(经验方法)2.2 Silhou...
    99+
    2023-09-11
    聚类 python 算法
  • python 基于空间相似度的K-means轨迹聚类的实现
    这里分享一些轨迹聚类的基本方法,涉及轨迹距离的定义、kmeans聚类应用。 需要使用的python库如下 import pandas as pd import numpy as ...
    99+
    2024-04-02
  • 如何用K-means算法的Java实现聚类分析681个三国武将
    如何用K-means算法的Java实现聚类分析681个三国武将,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一,k-means算法介绍:k-means算法接受输入量 k ;然后...
    99+
    2023-06-17
  • Python中如何使用kmeans聚类
    这篇文章给大家分享的是有关Python中如何使用kmeans聚类的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、用kmeans分为五个聚类,每个聚类内部的数据为一个list,五个list组成聚类中心。k&nbs...
    99+
    2023-06-15
  • Python sklearn CountVectorizer如何使用
    本篇内容介绍了“Python sklearn CountVectorizer如何使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作