iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python实现层次聚类的方法是什么
  • 552
分享到

python实现层次聚类的方法是什么

2023-06-25 12:06:47 552人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容介绍了“python实现层次聚类的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!层次聚类算法顾名思义,层次聚类就是一层一层

本篇内容介绍了“python实现层次聚类的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

层次聚类算法

顾名思义,层次聚类就是一层一层的进行聚类,可以由上向下把大的类别(cluster)分割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法;但是一般用的比较多的是由下向上的凝聚方法。

分裂法:

分裂法指的是初始时将所有的样本归为一个类簇,然后依据某种准则进行逐渐的分裂,直到达到某种条件或者达到设定的分类数目。用算法描述:
输入:样本集合D,聚类数目或者某个条件(一般是样本距离的阈值,这样就可不设置聚类数目)
输出:聚类结果

将样本集中的所有的样本归为一个类簇;
repeat:
    2.在同一个类簇(计为c)中计算两两样本之间的距离,找出距离最远的两个样本a,b;
    3.将样本a,b分配到不同的类簇c1和c2中;
    4.计算原类簇(c)中剩余的其他样本点和a,b的距离,若是dis(a)<dis(b),则将样本点归到c1中,否则归到c2中;
util: 达到聚类的数目或者达到设定的条件

凝聚法:

凝聚法指的是初始时将每个样本点当做一个类簇,所以原始类簇的大小等于样本点的个数,然后依据某种准则合并这些初始的类簇,直到达到某种条件或者达到设定的分类数目。用算法描述:
输入:样本集合D,聚类数目或者某个条件(一般是样本距离的阈值,这样就可不设置聚类数目)
输出:聚类结果

 1.将样本集中的所有的样本点都当做一个独立的类簇;
   repeat:
        2.计算两两类簇之间的距离(后边会做介绍),找到距离最小的两个类簇c1和c2;
        3.合并类簇c1和c2为一个类簇;
   util: 达到聚类的数目或者达到设定的条件

例图:

python实现层次聚类的方法是什么

欧式距离的计算公式

python实现层次聚类的方法是什么

类簇间距离的计算方法有许多种:
(1)就是取两个类中距离最近的两个样本的距离作为这两个集合的距离,也就是说,最近两个样本之间的距离越小,这两个类之间的相似度就越大
(2)取两个集合中距离最远的两个点的距离作为两个集合的距离
(3)把两个集合中的点两两的距离全部放在一起求一个平均值,相对也能得到合适一点的结果。
e.g.下面是计算组合数据点(A,F)到(B,C)的距离,这里分别计算了(A,F)和(B,C)两两间距离的均值。

python实现层次聚类的方法是什么

(4)取两两距离的中值,与取均值相比更加能够解除个别偏离样本对结果的干扰。
(5)求每个集合的中心点(就是将集合中的所有元素的对应维度相加然后再除以元素个数得到的一个向量),然后用中心点代替集合再去就集合间的距离

实现

接下来以世界银行样本数据集进行简单实现。该数据集以标准格式存储在名为WBClust2013.csv的CSV格式的文件中。其有80行数据和14个变量。数据来源

python实现层次聚类的方法是什么

为了使得结果可视化更加方便,我将最后一栏人口数据删除了。并且在实现层次聚类之后加入PCA降维与原始结果进行对比。

from scipy.cluster.hierarchy import linkage, dendrogram, fclusterimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npdata = pd.read_csv('data/WBClust2013.csv')data.pop('Pop')# data.pop('RuralWater')# data.pop('CellPhone')# data.pop('LifeExp')data = data[:20]country = list(data['Country'])data.pop('Country')# 以下代码为仅使用层次聚类plt.figure(figsize=(9, 7))plt.title("original data")mergings = linkage(data, method='average')# print(mergings)dendrogram(mergings, labels=country, leaf_rotation=45, leaf_font_size=8)plt.show()Z = linkage(data, method='average')print(Z)cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')print(cluster_assignments)for i in range(1, 4):    print('cluster', i, ':')    num = 1    for index, value in enumerate(cluster_assignments):        if value == i:            if num % 5 == 0:                print()            num += 1            print(country[index], end='  ')    print()# 以下代码为加入PCA进行对比class myPCA():    def __init__(self, X, d=2):        self.X = X        self.d = d    def mean_center(self, data):        """        去中心化        :param data: data sets        :return:        """        n, m = data.shape        for i in range(m):            aver = np.sum(self.X[:, i])/n            x = np.tile(aver, (1, n))            self.X[:, i] = self.X[:, i]-x    def runPCA(self):        # 计算协方差矩阵,得到特征值,特征向量        S = np.dot(self.X.T, self.X)        S_val, S_victors = np.linalg.eig(S)        index = np.argsort(-S_val)[0:self.d]        Y = S_victors[:, index]        # 得到输出样本集        Y = np.dot(self.X, Y)        return Y# data_for_pca = np.array(data)# pcaObject=myPCA(data_for_pca,d=2)# pcaObject.mean_center(data_for_pca)# res=pcaObject.runPCA()# plt.figure(figsize=(9, 7))# plt.title("after pca")# mergings = linkage(res,method='average')# print(mergings)# dendrogram(mergings,labels=country,leaf_rotation=45,leaf_font_size=8)# plt.show()# Z = linkage(res, method='average')# print(Z)# cluster_assignments = fcluster(Z, t=3.0, criterion='maxclust')# print(cluster_assignments)# for i in range(1,4):#     print('cluster', i, ':')#     num = 1#     for index, value in enumerate(cluster_assignments):#         if value == i:#             if num % 5 ==0:#                 print()#             num+=1#             print(country[index],end='  ')#     print()

两次分类结果都是一样的:

cluster 1 :China  United States  Indonesia  Brazil  Russian Federation  Japan  Mexico  Philippines  Vietnam  Egypt, Arab Rep.  Germany  Turkey  Thailand  France  United Kingdom  cluster 2 :India  Pakistan  Nigeria  Bangladesh  cluster 3 :Ethiopia

通过树状图对结果进行可视化

Python实现层次聚类的方法是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: python实现层次聚类的方法是什么

本文链接: https://www.lsjlt.com/news/304520.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python实现层次聚类的方法是什么
    本篇内容介绍了“python实现层次聚类的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!层次聚类算法顾名思义,层次聚类就是一层一层...
    99+
    2023-06-25
  • python实现层次聚类的方法
    层次聚类算法 顾名思义,层次聚类就是一层一层的进行聚类,可以由上向下把大的类别(cluster)分割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法;但是一般用的比较多的是...
    99+
    2024-04-02
  • Python层次聚类怎么应用
    本文小编为大家详细介绍“Python层次聚类怎么应用”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python层次聚类怎么应用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。层次聚类和K-means有什么不同?K...
    99+
    2023-07-06
  • python聚类算法指的是什么
    这篇文章主要介绍了python聚类算法指的是什么,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。说明聚类常用于数据探索或挖掘前期,在没有先验经验的背景下进行探索性分析,也适用于...
    99+
    2023-06-20
  • Python实现层次分析法及自调节层次分析法的示例
    假设我们遇到如下问题: ①对于M个方案,每个方案有N个属性,在已知各个方案每个属性值&&任意两个属性的重要程度的前提下,如何选择最优的方案? ②对于一个层级结构,在已...
    99+
    2024-04-02
  • PostgreSQL聚合函数的实现方法是什么
    本篇内容介绍了“PostgreSQL聚合函数的实现方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!...
    99+
    2024-04-02
  • python聚类分析是什么
    这篇文章主要讲解了“python聚类分析是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python聚类分析是什么”吧!何为聚类分析聚类分析或聚类是对一组对象进行分组的任务,使得同一组(...
    99+
    2023-06-25
  • Python实现聚类K-means算法
    本文内容、数据参考周志华《机器学习》,代码部分为个人实现,如有错误还请指出。 K-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 E ...
    99+
    2023-09-20
    聚类 算法 python
  • 层次选择器的用法是什么
    层次选择器的用法是什么,需要具体代码示例 层次选择器是CSS中的一种选择器,它可以通过元素之间的关系来选择特定的元素。层次选择器包括子选择器、后代选择器、相邻兄弟选择器和一般兄弟选择器...
    99+
    2024-02-22
    html元素
  • 图像聚类的python实现
    因为之后的项目要用到影像聚类,之前一直是用ENVI实现,现在想学下python。学习的这一篇:小项目聚类 import cv2import matplotlib.pyplot as pltimport numpy as np imPat...
    99+
    2023-01-31
    图像 python
  • php二次开发的实现方法是什么
    在PHP二次开发中,有许多不同的实现方法可以使用。以下是一些常见的实现方法:1. 使用框架:使用现有的PHP框架,如Laravel、...
    99+
    2023-08-24
    php
  • Python实现聚类K-means算法详解
    目录手动实现sklearn库中的KMeansK-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 注:为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度...
    99+
    2024-04-02
  • Python如何实现聚类K-means算法
    今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means...
    99+
    2023-07-02
  • 利用Python实现K-Means聚类的方法实例(案例:用户分类)
    目录K-Means聚类算法介绍K-Means聚类算法基础原理K-Means聚类算法实现流程开始做一个简单的聚类数据导入数据探索 开始聚类查看输出结果聚类质心K-Means聚...
    99+
    2024-04-02
  • OpenLayers实现点要素图层的聚合显示的方法
    目录1、前言2、点要素图层的聚合3、聚合特殊处理一4、聚合特殊处理二5.、结语1、前言 在很多情况下,点要素图层中的要素数量可能会成百上千,这时候如果不做任何处理直接加载到地图上不仅...
    99+
    2024-04-02
  • json多层嵌套转化实体类对象的方法是什么
    要将多层嵌套的JSON转化为实体类对象,可以使用以下方法:1. 创建对应的实体类对象,包括多层嵌套的属性。2. 使用JSON解析库(...
    99+
    2023-08-12
    json
  • 基python+selenium的二次封装方法是什么
    本篇内容主要讲解“基python+selenium的二次封装方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“基python+selenium的二次封装方法是什么”吧!  首先在根目录下创...
    99+
    2023-06-02
  • Maven聚合开发的方法是什么
    这篇文章主要介绍“Maven聚合开发的方法是什么”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Maven聚合开发的方法是什么”文章能帮助大家解决问题。一、Maven聚合开发_继承关系 &n...
    99+
    2023-07-05
  • 利用Python如何实现K-means聚类算法
    目录前言算法原理 目标函数 算法流程  Python实现 总结 前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,...
    99+
    2024-04-02
  • 【机器学习】DBSCAN聚类算法(含Python实现)
    文章目录 一、算法介绍二、例子三、Python实现3.1 例13.2 算法参数详解3.3 鸢尾花数据集 一、算法介绍 DBSCAN(Density-Based Spatial Clus...
    99+
    2023-10-01
    聚类 机器学习 python BBSCAN
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作