python实现层次聚类的方法

2024-04-02 19:04:59 201人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

层次聚类算法顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的是

层次聚类算法

顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的是由下向上的凝聚方法。

分裂法：

分裂法指的是初始时将所有的样本归为一个类簇，然后依据某种准则进行逐渐的分裂，直到达到某种条件或者达到设定的分类数目。用算法描述：
输入：样本集合D，聚类数目或者某个条件（一般是样本距离的阈值，这样就可不设置聚类数目）
输出：聚类结果

1.将样本集中的所有的样本归为一个类簇；
repeat：
    2.在同一个类簇（计为c）中计算两两样本之间的距离，找出距离最远的两个样本a,b；
    3.将样本a，b分配到不同的类簇c1和c2中；
    4.计算原类簇（c）中剩余的其他样本点和a，b的距离，若是dis(a)<dis(b)，则将样本点归到c1中，否则归到c2中；
util：达到聚类的数目或者达到设定的条件

凝聚法：

凝聚法指的是初始时将每个样本点当做一个类簇，所以原始类簇的大小等于样本点的个数，然后依据某种准则合并这些初始的类簇，直到达到某种条件或者达到设定的分类数目。用算法描述：
输入：样本集合D，聚类数目或者某个条件（一般是样本距离的阈值，这样就可不设置聚类数目）
输出：聚类结果

1.将样本集中的所有的样本点都当做一个独立的类簇；
   repeat：
        2.计算两两类簇之间的距离（后边会做介绍），找到距离最小的两个类簇c1和c2；
        3.合并类簇c1和c2为一个类簇；
   util：达到聚类的数目或者达到设定的条件

例图：

在这里插入图片描述

欧式距离的计算公式

[image:E08D07F4-264A-4362-B98A-429FA4210548-6915-000000737A78FA8B/Euclidean-distance1.png]

类簇间距离的计算方法有许多种：
(1)就是取两个类中距离最近的两个样本的距离作为这两个集合的距离，也就是说，最近两个样本之间的距离越小，这两个类之间的相似度就越大
(2)取两个集合中距离最远的两个点的距离作为两个集合的距离
(3)把两个集合中的点两两的距离全部放在一起求一个平均值，相对也能得到合适一点的结果。
e.g.下面是计算组合数据点(A,F)到(B,C)的距离，这里分别计算了(A,F)和(B,C)两两间距离的均值。

[image:0CB2E090-F082-4282-91D6-8D6709BA4395-6915-00000073E16E99F7/AFtoBC-1024x110.png]

(4)取两两距离的中值，与取均值相比更加能够解除个别偏离样本对结果的干扰。
(5)求每个集合的中心点(就是将集合中的所有元素的对应维度相加然后再除以元素个数得到的一个向量)，然后用中心点代替集合再去就集合间的距离

实现

接下来以世界银行样本数据集进行简单实现。该数据集以标准格式存储在名为WBClust2013.csv的CSV格式的文件中。其有80行数据和14个变量。数据来源

在这里插入图片描述

为了使得结果可视化更加方便，我将最后一栏人口数据删除了。并且在实现层次聚类之后加入PCA降维与原始结果进行对比。


from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np


data = pd.read_csv('data/WBClust2013.csv')
data.pop('Pop')
# data.pop('RuralWater')
# data.pop('CellPhone')
# data.pop('LifeExp')
data = data[:20]
country = list(data['Country'])
data.pop('Country')

# 以下代码为仅使用层次聚类

plt.figure(figsize=(9, 7))
plt.title("original data")
mergings = linkage(data, method='average')
# print(mergings)
dendrogram(mergings, labels=country, leaf_rotation=45, leaf_font_size=8)
plt.show()
Z = linkage(data, method='average')
print(Z)
cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')
print(cluster_assignments)
for i in range(1, 4):
    print('cluster', i, ':')
    num = 1
    for index, value in enumerate(cluster_assignments):
        if value == i:
            if num % 5 == 0:
                print()
            num += 1
            print(country[index], end='  ')
    print()

# 以下代码为加入PCA进行对比
class myPCA():

    def __init__(self, X, d=2):
        self.X = X
        self.d = d

    def mean_center(self, data):
        """
        去中心化
        :param data: data sets
        :return:
        """
        n, m = data.shape
        for i in range(m):
            aver = np.sum(self.X[:, i])/n
            x = np.tile(aver, (1, n))
            self.X[:, i] = self.X[:, i]-x

    def runPCA(self):

        # 计算协方差矩阵，得到特征值，特征向量
        S = np.dot(self.X.T, self.X)
        S_val, S_victors = np.linalg.eig(S)
        index = np.argsort(-S_val)[0:self.d]
        Y = S_victors[:, index]
        # 得到输出样本集
        Y = np.dot(self.X, Y)
        return Y

# data_for_pca = np.array(data)
# pcaObject=myPCA(data_for_pca,d=2)
# pcaObject.mean_center(data_for_pca)
# res=pcaObject.runPCA()

# plt.figure(figsize=(9, 7))
# plt.title("after pca")
# mergings = linkage(res,method='average')
# print(mergings)
# dendrogram(mergings,labels=country,leaf_rotation=45,leaf_font_size=8)
# plt.show()
# Z = linkage(res, method='average')
# print(Z)
# cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')
# print(cluster_assignments)
# for i in range(1,4):
#     print('cluster', i, ':')
#     num = 1
#     for index, value in enumerate(cluster_assignments):
#         if value == i:
#             if num % 5 ==0:
#                 print()
#             num+=1
#             print(country[index],end='  ')
#     print()

两次分类结果都是一样的：


cluster 1 :
China  United States  Indonesia  Brazil  
Russian Federation  Japan  Mexico  Philippines  Vietnam  
Egypt, Arab Rep.  Germany  Turkey  Thailand  France  
United Kingdom  
cluster 2 :
India  Pakistan  Nigeria  Bangladesh  
cluster 3 :
Ethiopia

通过树状图对结果进行可视化

原始树状图：

在这里插入图片描述

PCA降维后的结果：

在这里插入图片描述

到此这篇关于python实现层次聚类的文章就介绍到这了,更多相关Python层次聚类内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python实现层次聚类的方法

本文链接: https://www.lsjlt.com/news/156052.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python实现层次聚类的方法

层次聚类算法顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的是...

99+

2024-04-02
python实现层次聚类的方法是什么

本篇内容介绍了“python实现层次聚类的方法是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！层次聚类算法顾名思义，层次聚类就是一层一层...

99+

2023-06-25
Python层次聚类怎么应用

本文小编为大家详细介绍“Python层次聚类怎么应用”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python层次聚类怎么应用”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。层次聚类和K-means有什么不同？K...

99+

2023-07-06
一文读懂层次聚类（Python代码）

首先要说，聚类属于机器学习的无监督学习，而且也分很多种方法，比如大家熟知的有K-means。层次聚类也是聚类中的一种，也很常用。下面我先简单回顾一下K-means的基本原理，然后慢慢引出层次聚类的定义和分层步骤，这样更有助于大家理解。层次聚...

99+

2023-05-14

代码 Python 层次聚类
Python实现层次分析法及自调节层次分析法的示例

假设我们遇到如下问题： ①对于M个方案，每个方案有N个属性，在已知各个方案每个属性值&&任意两个属性的重要程度的前提下，如何选择最优的方案？ ②对于一个层级结构，在已...

99+

2024-04-02
Python实现聚类K-means算法

本文内容、数据参考周志华《机器学习》，代码部分为个人实现，如有错误还请指出。 K-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差 E ...

99+

2023-09-20

聚类算法 python
图像聚类的python实现

因为之后的项目要用到影像聚类，之前一直是用ENVI实现，现在想学下python。学习的这一篇：小项目聚类 import cv2import matplotlib.pyplot as pltimport numpy as np imPat...

99+

2023-01-31

图像 python
K-MEANS聚类——Python实现

一、概述（1）物以类聚，人以群分，聚类分析是一种重要的多变量统计方法，但记住其实它是一种数据分析方法，不能进行统计推断的。当然，聚类分析主要应用在市场细分等领域，也经常采用聚类分析技术来实现对抽样框的分层。它和分类不同，它属于无监督问题。...

99+

2023-09-18

聚类 python kmeans
Python实现聚类K-means算法详解

目录手动实现sklearn库中的KMeansK-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差注：为避免运行时间过长，通常设置一个最大运行轮数或最小调整幅度...

99+

2024-04-02
Python如何实现聚类K-means算法

今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。K-means...

99+

2023-07-02
利用Python实现K-Means聚类的方法实例(案例:用户分类)

目录K-Means聚类算法介绍K-Means聚类算法基础原理K-Means聚类算法实现流程开始做一个简单的聚类数据导入数据探索开始聚类查看输出结果聚类质心K-Means聚...

99+

2024-04-02
OpenLayers实现点要素图层的聚合显示的方法

目录1、前言2、点要素图层的聚合3、聚合特殊处理一4、聚合特殊处理二5.、结语1、前言在很多情况下，点要素图层中的要素数量可能会成百上千，这时候如果不做任何处理直接加载到地图上不仅...

99+

2024-04-02
利用Python如何实现K-means聚类算法

目录前言算法原理目标函数算法流程 Python实现总结前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集，...

99+

2024-04-02
【机器学习】DBSCAN聚类算法（含Python实现）

文章目录一、算法介绍二、例子三、Python实现3.1 例13.2 算法参数详解3.3 鸢尾花数据集一、算法介绍 DBSCAN（Density-Based Spatial Clus...

99+

2023-10-01

聚类机器学习 python BBSCAN
如何利用python实现kmeans聚类

目录一、先上手撸代码！二、接下来是调库代码！（sklearn）附：对k-means算法的认识总结一、先上手撸代码！ 1、首先是导入所需要的库和数据 import pandas as ...

99+

2024-04-02
10个Python实现的最频繁使用的聚类算法

目录一、聚类二、聚类算法三、聚类算法示例1、库安装2、聚类数据集3、亲和力传播4、聚合聚类5、BIRCH6、DBSCAN7、K均值8、Mini-Batch K-均值9、均值漂移聚类1...

99+

2022-12-29

Python实现聚类算法 Python常用聚类算法 Python聚类算法
tensorflow+k-means聚类简单实现猫狗图像分类的方法

目录一、前言二、k-means聚类三、图像分类一、前言本文使用的是 kaggle 猫狗大战的数据集：https://www.kaggle.com/c/dogs-vs-cats/da...

99+

2024-04-02
python中opencvK均值聚类的实现示例

目录K均值聚类K均值聚类的基本步骤K均值聚类模块简单例子K均值聚类预测的是一个离散值时，做的工作就是“分类”。预测的是一个连续值时，做的工作就是&ldquo...

99+

2024-04-02
人工智能——K-Means聚类算法及Python实现

目录1 概述1.1 无监督学习1.2 聚类1.3 K-Mean均值算法2 K-Mean均值算法 2.1 引入2.2 针对大样本集的改进算法：Mini Batch K-Mea...

99+

2024-04-02
如何利用python的KMeans和PCA包实现聚类算法

如何利用python的KMeans和PCA包实现聚类算法，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。题目：通过给出的驾驶员行为数据（trip.csv），对驾...

99+

2023-06-02