首页 > 资讯 > 后端开发 > 其他教程 >R语言实现KMeans聚类算法实例教程

390

分享到

R语言实现KMeans聚类算法实例教程

2024-04-02 19:04:59 390人浏览安东尼

摘要

目录什么是k-means聚类算法R 实现kmeans聚类算法加载包加载示例数据寻找最佳聚类数量使用最优k执行kmeans聚类kmeans 算法的优缺点总结本文和你一起学习无监督机器学

什么是k-means聚类算法

聚类是从数据集中对观测值进行聚类的机器学习方法。它的目标是聚类相似观测值，不同类别之间差异较大。聚类是一种无监督学习方法，因为它仅尝试从数据集中发现结构，而不是预测应变量的值。

下面是一个市场营销中对客户分类的场景，通过下面客户信息：

家庭收入
住房面积
户主职业
据城区距离

我们利用这些信息进行聚类，可识别相似家庭，从而能够识别某类型家庭可能购买某种产品或对某种类型的广告反应更好。

最常用的聚类算法就是k-means聚类算法，下面我们介绍k-means算法并通过示例进行说明。

k-means聚类算法把数据集中每个观测值分为K个类别。每个分类中的观测值相当类似，K类之间彼此差异较大。实际应用中执行下列几步实现k-means聚类算法：

1.确定K值

首先确定把数据集分为几类。通常我们简单测试几个不同值K，然后分析结果，确定那个值更有现实意义。

2.将每个观察结果随机分配到一个初始簇中，从1到K。

3.执行以下步骤，直到集群分配停止变化。

对于K个集群中的每一个，计算集群的质心。这仅仅是第k个簇中观测的p特征的向量。

将每个观测值分配到质心最近的簇中。在这里最接近的是用欧氏距离来定义的。

下面通过示例展示R的实现过程。

R 实现kmeans聚类算法

加载包

首先加载两个包，包括kmeans算法的一些辅助函数。

library(factoextra)
library(cluster)

加载示例数据

对于本例我们将使用R中内置的usarrest数据集，该数据集包含1973年美国每个州每10万居民因谋杀、袭击和强奸而被捕的人数，以及每个州居住在城市地区的人口百分比(UrbanPop)。

#load data
df <- USArrests

#remove rows with missing values
df <- na.omit(df)

#scale each variable to have a mean of 0 and sd of 1
df <- scale(df)

#view first six rows of dataset
head(df)

#                Murder   Assault   UrbanPop         Rape
# Alabama    1.24256408 0.7828393 -0.5209066 -0.003416473
# Alaska     0.50786248 1.1068225 -1.2117642  2.484202941
# Arizona    0.07163341 1.4788032  0.9989801  1.042878388
# Arkansas   0.23234938 0.2308680 -1.0735927 -0.184916602
# California 0.27826823 1.2628144  1.7589234  2.067820292
# Colorado   0.02571456 0.3988593  0.8608085  1.864967207

上面代码首先加载USArrests数据集，删除缺失值，对数据值进行标准化。

寻找最佳聚类数量

执行kmeans聚类算法，我们可以使用内置包stat中的kmeans()函数，语法如下：

kmeans(data, centers, nstart)

data : 数据集名称
centers: 聚类数量,即选择k的值
nstart: 初始配置个数。因为不同的初始启动集合可能会导致不同的结果，所以建议使用几种不同的初始配置。k-means算法将找到导致簇内变异最小的初始配置。

既然在使用kmeans函数之前并不确定最优聚类数量，下面通过两个图来辅助我们决定：

1.聚类数量 vs. 总体平方和

首先使用 fviz_nbclust 函数创建一个图，展示聚类数量及总体平方和之间的关系：

fviz_nbclust(df, kmeans, method = "wss")

通常我们创建这类图形寻找某个K类对应的平方和值开始弯曲或趋于平缓的肘形。这通常是最理想的聚类数量。上图中显然在k = 4个时出现肘形。

2.聚类数量 vs. 差距统计

另一个决定最佳聚类数量的是使用指标：差距统计。它用于比较不同k值聚类差距变化情况。使用cluster包中的clusGap()以及fviz_gap_stat()函数画图：

#calculate gap statistic based on number of clusters
gap_stat <- clusGap(df,
                    FUN = kmeans,
                    nstart = 25,
                    K.max = 10,
                    B = 50)

#plot number of clusters vs. gap statistic
fviz_gap_stat(gap_stat)

从上图可以看到k=4时，差距统计最大，这与前面图的结果一致。

使用最优k执行kmeans聚类

最后，我们执行kmeans函数，使用k=4作为最优值：

# 设置随机种子，让结果可以重现
set.seed(1)

# 调用kmeans聚类算法 k = 4
km <- kmeans(df, centers = 4, nstart = 25)

# 查看结果
km

# Show in New Window
# Clustering k = 1,2,..., K.max (= 10): .. done
# Bootstrapping, b = 1,2,..., B (= 50)  [one "." per sample]:
# .................................................. 50 
# R Console
# 
# 
# Show in New Window
# K-means clustering with 4 clusters of sizes 13, 13, 16, 8
# 
# Cluster means:
#       Murder    Assault   UrbanPop        Rape
# 1 -0.9615407 -1.1066010 -0.9301069 -0.96676331
# 2  0.6950701  1.0394414  0.7226370  1.27693964
# 3 -0.4894375 -0.3826001  0.5758298 -0.26165379
# 4  1.4118898  0.8743346 -0.8145211  0.01927104
# 
# Clustering vector:
#        Alabama         Alaska        Arizona       Arkansas     California       Colorado 
#              4              2              2              4              2              2 
#    Connecticut       Delaware        Florida        Georgia         Hawaii          Idaho 
#              3              3              2              4              3              1 
#       Illinois        Indiana           iowa         Kansas       Kentucky      Louisiana 
#              2              3              1              3              1              4 
#          Maine       Maryland  Massachusetts       Michigan      Minnesota    Mississippi 
#              1              2              3              2              1              4 
#       Missouri        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
#              2              1              1              2              1              3 
#     New Mexico       New York North Carolina   North Dakota           Ohio       Oklahoma 
#              2              2              4              1              3              3 
#         OreGon   Pennsylvania   Rhode Island South Carolina   South Dakota      Tennessee 
#              3              3              3              4              1              4 
#          Texas           Utah        Vermont       Virginia     Washington  West Virginia 
#              2              3              1              3              3              1 
#      Wisconsin        Wyoming 
#              1              3 
# 
# Within cluster sum of squares by cluster:
# [1] 11.952463 19.922437 16.212213  8.316061
#  (between_SS / total_SS =  71.2 %)
# 
# Available components:
# 
# [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
# [6] "betweenss"    "size"         "iter"         "ifault"

从结果可见：

16 州分在第一个类
13 州分在第二个类
13 州分在第三个类
8 州分在第四个类

我们可以通过fviz_cluster()函数在二维空间中以散点图方式展示结果：

#plot results of final k-means model
fviz_cluster(km, data = df)

也可以使用aggregate()函数查看每个类中变量的均值：

#find means of each cluster
aggregate(USArrests, by=list(cluster=km$cluster), mean)

# cluster	  Murder   Assault	UrbanPop	    Rape
# 				
# 1	3.60000	  78.53846	52.07692	12.17692
# 2	10.81538 257.38462	76.00000	33.19231
# 3	5.65625	 138.87500	73.87500	18.78125
# 4	13.93750 243.62500	53.75000	21.41250

输出结果解释如下：

在第一类中的州中平均每100,000人谋杀数为 3.6
在第一类中的州中平均每100,000人袭击数为 78.5
在第一类中的州中平均每100,000人城区居民率为 52.1%
在第一类中的州中平均每100,000人强奸数为 3.6 12.2

最后我们把聚类结果附加到原始数据集中：

#add cluster assigment to original data
final_data <- cbind(USArrests, cluster = km$cluster)

#view final data
head(final_data)

# 	    Murder	Assault	UrbanPop  Rape	 cluster
# 				
# Alabama	    13.2	236	58	  21.2	 4
# Alaska	    10.0	263	48	  44.5	 2
# Arizona	     8.1	294	80	  31.0	 2
# Arkansas     8.8	190	50	  19.5	 4
# California   9.0	276	91	  40.6	 2
# Colorado     7.9	204	78	  38.7	 2

kmeans 算法的优缺点

优点：

很快的算法能够处理大数据集

缺点：

在执行算法之前需要指定聚类数量对异常值敏感总结

本文我们讨论了kmeans算法的概念，并在R中给详细实现示例和步骤。

总结

到此这篇关于R语言实现KMeans聚类算法教程的文章就介绍到这了,更多相关R语言KMeans聚类算法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: R语言实现KMeans聚类算法实例教程

本文链接: https://www.lsjlt.com/news/153209.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

R语言实现KMeans聚类算法实例教程

目录什么是k-means聚类算法R 实现kmeans聚类算法加载包加载示例数据寻找最佳聚类数量使用最优k执行kmeans聚类kmeans 算法的优缺点总结本文和你一起学习无监督机器学...

99+

2024-04-02
如何利用python的KMeans和PCA包实现聚类算法

如何利用python的KMeans和PCA包实现聚类算法，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。题目：通过给出的驾驶员行为数据（trip.csv），对驾...

99+

2023-06-02
如何使用Python语言实现K-Means聚类算法

这篇文章给大家分享的是有关如何使用Python语言实现K-Means聚类算法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。1 概述1.1 无监督学习在一个典型的监督学习中...

99+

2023-06-26
基于TF-IDF+KMeans聚类算法构建中文文本分类模型（附案例实战）

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬...

99+

2023-09-02

python 聚类数据挖掘 k-means tf-idf
Python实现聚类K-means算法

本文内容、数据参考周志华《机器学习》，代码部分为个人实现，如有错误还请指出。 K-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差 E ...

99+

2023-09-20

聚类算法 python
C语言如何写类实现教程示例

目录引言操空MYSQL的C程序定义个联合体+结构体类型 Parameter引言以前用C++BUILDER 写类非常爽. 类把涉及数据相关的操作打...

99+

2023-05-17

C语言如何写类 C语言类
R语言因子类型的实现

目录1.因子2.table() 函数3.tapply() 函数4.forcats 包的因子函数1.因子 &nb...

99+

2024-04-02
R语言数据类型与相应运算的实现

目录一、常量与变量1.常量 2.变量二、数据类型三、数值型向量3.1 c()函数3.2 le...

99+

2024-04-02
Python实现聚类K-means算法详解

目录手动实现sklearn库中的KMeansK-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差注：为避免运行时间过长，通常设置一个最大运行轮数或最小调整幅度...

99+

2024-04-02
Python如何实现聚类K-means算法

今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。K-means...

99+

2023-07-02
R语言中怎么实现随机森林算法

在R语言中，您可以使用 randomForest 包来实现随机森林算法。以下是一个简单的示例代码，演示如何在R中使用随机森林算法进行...

99+

2024-04-03

R语言
R语言逻辑型运算的实现

目录一、逻辑型向量与比较运算二、逻辑运算三、逻辑运算函数一、逻辑型向量与比较运算逻辑...

99+

2024-04-02
R语言实现随机森林的方法示例

目录随机森林算法介绍算法介绍：决策树生长步骤：投票过程：基本思想：随机森林的优点：缺点R语言实现随机森林模型搭建1:randomForest()函数用于构建随机森林模型2:impor...

99+

2024-04-02
K均值聚类算法的Java版实现代码示例

1.简介K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚...

99+

2023-05-30

java k均值聚类算法
C语言实现快速排序算法实例

首先我们要对一组数据进行排序：在数组中选一个基准数（通常为数组第一个，黄圈圈标记了）；将数组中小于基准数的数据移到基准数左边，大于基准数的移到右边，怎么移动，后面说；对于基准数...

99+

2024-04-02
Spectral clustering谱聚类算法的实现代码

目录1.作者介绍2.关于谱聚类的介绍2.1 谱聚类概述2.2 无向权重图2.3 邻接矩阵2.4 相似矩阵2.5 度矩阵2.6 拉普拉斯矩阵2.7 K-Means3.Spectral ...

99+

2024-04-02
R语言实现list类型数据转换

例如： > a=list(c('232','34'),c('good','bad'),c(1,5)) > a [[1]] [1] "232" "34" [[2]]...

99+

2024-04-02
R语言实现线性回归的示例

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。简单对来说就是用来确定两种或...

99+

2024-04-02
R语言函数详解及实例用法

函数是一组组合在一起以执行特定任务的语句。 R 语言具有大量内置函数，用户可以创建自己的函数。在R语言中，函数是一个对象，因此R语言解释器能够将控制传递给函数，以及函数完成动作所需...

99+

2024-04-02
R语言绘制尺子的实现示例

本文使用基本的绘图命令plot、rect、segments、text绘制一把长10厘米的直尺。话不多说上教程。 1、定义基本单位 xcm <- 0.07 ycm <- 0...

99+

2024-04-02