iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >【机器学习】DBSCAN聚类算法(含Python实现)
  • 827
分享到

【机器学习】DBSCAN聚类算法(含Python实现)

聚类机器学习pythonBBSCAN 2023-10-01 14:10:46 827人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

文章目录 一、算法介绍二、例子三、Python实现3.1 例13.2 算法参数详解3.3 鸢尾花数据集 一、算法介绍 DBSCAN(Density-Based Spatial Clus

文章目录

一、算法介绍

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,可以将数据点分成不同的簇,并且能够识别噪声点(不属于任何簇的点)。

DBSCAN聚类算法的基本思想是:

在给定的数据集中,根据每个数据点周围其他数据点的密度情况,将数据点分为核心点、边界点和噪声点。

  • 核心点是周围某个半径内有足够多其他数据点的数据点;
  • 边界点是不满足核心点要求,但在某个核心点的半径内的数据点;
  • 噪声点则是不满足任何条件的点。

接着,从核心点开始,通过密度相连的数据点不断扩张,形成一个簇。

在这里插入图片描述

DBSCAN算法的优点是能够处理任意形状的簇,不需要先预先指定簇的个数,能够自动识别噪声点并将其排除在聚类之外。

然而,该算法的缺点是对于密度差异较大的数据集,可能无法有效聚类。此外,算法的参数需要根据数据集的特性来合理选择,如半径参数和密度参数。

二、例子

假设我们有以下的数据点集合

[(1,1), (1,2), (2,1), (8,8), (8,9), (9,8), (15,15)]

我们可以使用DBSCAN算法来将这些点分成不同的簇。

首先,我们需要设置两个参数:

  • 半径 ϵ \epsilon ϵ
  • 最小样本数 minPts minPts minPts

我们这里设置 ϵ = 2 \epsilon=2 ϵ=2 m i n P t s = 3 minPts=3 minPts=3

接下来,我们从数据集中选取一个点,比如第一个点 ( 1 , 1 ) (1,1) (1,1)作为种子点,并将该点标记为“核心点”,因为它周围有超过 m i n P t s minPts minPts个点在半径 ϵ \epsilon ϵ的范围内。

然后,我们找到与该点距离在 ϵ \epsilon ϵ内的所有点,将它们标记为与该点“密度直达”(density-reachable),并将这些点加入到同一个簇内。这里包括(1,2)和(2,1)。

接着,我们选取下一个未被分类的点,这里是(8,8),将其标记为“核心点”,并将与它距离在 ϵ \epsilon ϵ内的所有点加入同一簇中,这里包括(8,9)和(9,8)。

最后,我们选取最后一个未被分类的点,(15,15),但该点只有一个点在 ϵ \epsilon ϵ内,不足以满足 m i n P t s minPts minPts的要求,因此该点被标记为噪声点。

于是,最终的聚类结果为:

Cluster 1: [(1,1), (1,2), (2,1)]Cluster 2: [(8,8), (8,9), (9,8)]Noise: [(15,15)]

可以看出,DBSCAN算法成功地将数据点分成了两个簇,并且将噪声点(15,15)排除在聚类之外。

三、python实现

3.1 例1

我们还是以上面例子为例,进行Python实现:

from sklearn.cluster import DBSCANimport numpy as np# 输入数据X = np.array([(1,1), (1,2), (2,1), (8,8), (8,9), (9,8), (15,15)])# 创建DBSCAN对象,设置半径和最小样本数dbscan = DBSCAN(eps=2, min_samples=3)# 进行聚类labels = dbscan.fit_predict(X)# 输出聚类结果for i in range(max(labels)+1):    print(f"Cluster {i+1}: {list(X[labels==i])}")print(f"Noise: {list(X[labels==-1])}")

在这里插入图片描述
与手算结果一致。

我们使用chatgpt对上面的代码翻译一下:

在这里插入图片描述

这表明DBSCAN算法已经在输入数据中识别出了三个簇,第一个簇有三个点,第二个簇有三个点,第三个簇有一个点。在这个特定的数据集中没有噪声。

3.2 算法参数详解

下面对sklearn.cluster模块中的参数进行说明:

在这里插入图片描述
总之,不同的聚类算法具有不同的参数设置,可以根据具体问题选择不同的算法和参数组合来实现最佳的聚类效果。

DBSCAN算法的调用方法如下:

DBSCAN(eps=0.5, *, min_samples=5, metric='euclidean', metric_params=None, alGorithm='auto', leaf_size=30, p=None, n_jobs=None)

该算法提供了多个可调参数,以控制算法的聚类效果。下面对常用的参数进行详细说明:

  • eps:控制着半径的大小,是判断两个数据点是否属于同一簇的距离阈值。默认值为0.5。
  • min_samples: 控制着核心点周围所需的最小数据点数。默认值为5。
  • metric: 用于计算距离的度量方法,可以选择的方法包括欧式距离(euclidean)、曼哈顿距离(manhattan)等。默认值为欧式距离。
  • algorithm: 用于计算距离的算法,可以选择的算法包括Ball Tree(ball_tree)、KD Tree(kd_tree)和brute force(brute)。Ball Tree和KD Tree算法适用于高维数据,brute force算法适用于低维数据。默认值为auto,自动选择算法。
  • leaf_size: 如果使用Ball Tree或KD Tree算法,这个参数指定叶子节点的大小。默认值为30。
  • p: 如果使用曼哈顿距离或闵可夫斯基距离(minkowski),这个参数指定曼哈顿距离的p值。默认值为2,即欧式距离。
  • n_jobs: 指定并行运算的CPU数量。默认值为1,表示单CPU运算。如果为-1,则使用所有可用的CPU。
  • metric_params: 如果使用某些度量方法需要设置额外的参数,可以通过这个参数传递这些参数。默认值为None。

这些参数对于控制DBSCAN算法的聚类效果非常重要,需要根据具体的数据集和需求进行选择和调整。在使用DBSCAN算法时,我们通常需要对这些参数进行多次实验和调整,以达到最佳的聚类效果。

3.3 鸢尾花数据集

再以著名的鸢尾花数据集为例进行Python实现:

from sklearn.cluster import DBSCANfrom sklearn.datasets import load_irisfrom sklearn.preprocessing import StandardScaler# 加载数据集iris = load_iris()X = iris.data# 数据预处理,标准化数据scaler = StandardScaler()X = scaler.fit_transfORM(X)# 使用DBSCAN聚类算法dbscan = DBSCAN(eps=0.5, min_samples=5)y_pred = dbscan.fit_predict(X)# 输出聚类结果print('聚类结果:', y_pred)

在这里插入图片描述

代码解释如下:

在这里插入图片描述
在这里插入图片描述

总之,这段代码演示了如何使用sklearn.cluster模块中的DBSCAN聚类算法对数据进行聚类分析,首先通过标准化对数据进行预处理,然后设置DBSCAN算法的参数,对数据集进行拟合和预测,最后输出聚类结果。

不过这次结果中将很多点设置为了噪声点(当然我们可以将噪声点归为一类),如果觉得现在的结果不满意,可以进一步调整算法中的参数。这里就省略了。

来源地址:https://blog.csdn.net/wzk4869/article/details/129775584

--结束END--

本文标题: 【机器学习】DBSCAN聚类算法(含Python实现)

本文链接: https://www.lsjlt.com/news/422314.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 【机器学习】DBSCAN聚类算法(含Python实现)
    文章目录 一、算法介绍二、例子三、Python实现3.1 例13.2 算法参数详解3.3 鸢尾花数据集 一、算法介绍 DBSCAN(Density-Based Spatial Clus...
    99+
    2023-10-01
    聚类 机器学习 python BBSCAN
  • Python实现机器学习算法的分类
    Python算法的分类 对葡萄酒数据集进行测试,由于数据集是多分类且数据的样本分布不平衡,所以直接对数据测试,效果不理想。所以使用SMOTE过采样对数据进行处理,对数据去重,去空,处...
    99+
    2024-04-02
  • Python中怎么利用DBSCAN实现一个密度聚类算法
    Python中怎么利用DBSCAN实现一个密度聚类算法,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。基于密度这点有什么好处呢我们知道kmeans聚类算法只能处理球形的簇,也就是...
    99+
    2023-06-16
  • Python实现聚类K-means算法
    本文内容、数据参考周志华《机器学习》,代码部分为个人实现,如有错误还请指出。 K-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 E ...
    99+
    2023-09-20
    聚类 算法 python
  • 机器学习:基于Kmeans聚类算法对银行客户进行分类
    机器学习:基于Kmeans聚类算法对银行客户进行分类 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如...
    99+
    2023-08-31
    机器学习 聚类 kmeans python 原力计划
  • 怎么在python中实现dbscan算法
    今天就跟大家聊聊有关怎么在python中实现dbscan算法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概...
    99+
    2023-06-15
  • Python实现聚类K-means算法详解
    目录手动实现sklearn库中的KMeansK-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差 注:为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度...
    99+
    2024-04-02
  • Python如何实现聚类K-means算法
    今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means...
    99+
    2023-07-02
  • Python机器学习k-近邻算法怎么实现
    这篇文章主要介绍“Python机器学习k-近邻算法怎么实现”,在日常操作中,相信很多人在Python机器学习k-近邻算法怎么实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python机器学习k-近邻算法怎...
    99+
    2023-06-21
  • 机器学习算法有哪几类
    这篇文章主要介绍“机器学习算法有哪几类”,在日常操作中,相信很多人在机器学习算法有哪几类问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”机器学习算法有哪几类”的疑惑有所帮助!接...
    99+
    2024-04-02
  • Python机器学习实战之k-近邻算法的实现
    目录K-近邻算法概述工作原理实施KNN算法示例:手写识别系统K-近邻算法概述 简单地说, k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高...
    99+
    2024-04-02
  • 深度解读Python如何实现dbscan算法
    目录DBScan 算法解释说明DBScan 算法的应用场景Python 实现的 DBScan 算法Python 实现 dbscan 高级算法再演示一种 python 实现 dbsca...
    99+
    2023-02-06
    Python实现dbscan算法 Python dbscan算法
  • python机器学习实现oneR算法(以鸢尾data为例)
    目录一、导包与获取数据二、划分为训练集和测试集三、定义函数:获取某特征值出现次数最多的类别及错误率四、定义函数:获取每个特征值下出现次数最多的类别、错误率五、调用函数,获取最佳特征值...
    99+
    2024-04-02
  • python如何实现感知器学习算法
    这篇文章主要介绍python如何实现感知器学习算法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!我们将研究一种判别式分类方法,其中直接学习评估 g(x)所需的 w 参数。我们将使用感知器学习算法。感知器学习算法很容易...
    99+
    2023-06-29
  • Python机器学习算法之决策树算法的实现与优缺点
    目录1.算法概述2.算法种类3.算法示例4.决策树构建示例5.算法实现步骤 6.算法相关概念7.算法实现代码8.算法优缺点9.算法优化总结1.算法概述 决策树算法是在已知各...
    99+
    2024-04-02
  • 利用Python如何实现K-means聚类算法
    目录前言算法原理 目标函数 算法流程  Python实现 总结 前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,...
    99+
    2024-04-02
  • Python机器学习之KNN近邻算法
    目录一、KNN概述二、使用Python导入数据三、numpy.array()四、实施KNN分类算法五、计算已知类别数据集中的点与当前点之间的距离六、完整代码七、数据处理、分析、测试八...
    99+
    2024-04-02
  • 【python】机器学习-K-近邻(KNN)算法
             目录 一 . K-近邻算法(KNN)概述  二、KNN算法实现 三、 MATLAB实现 四、 实战 一 . K-近邻算法(KNN)概述          K-近邻算法(KNN)是一种基本的分类算法,它通过计算数据点之...
    99+
    2023-10-22
    python matlab 机器学习 算法
  • 分享python机器学习中应用所产生的聚类数据集方法
    目录01直接生成一、基础类型1、月牙形数据集合2、方形数据集3、螺旋形数据集合02样本生成器一、基础数据集1、点簇形数据集合2、线簇形数据集合3、环形数据集合4、月牙数据集合测试结论...
    99+
    2024-04-02
  • 机器学习之决策树算法怎么实现
    决策树是一种常用的机器学习算法,主要用于分类和回归问题。下面是决策树算法的实现步骤:1. 数据预处理:将原始数据进行清洗和转换,包括...
    99+
    2023-10-11
    机器学习
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作