iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >深入浅出KNN算法(一) KNN算法原理
  • 806
分享到

深入浅出KNN算法(一) KNN算法原理

算法深入浅出原理 2023-01-31 00:01:13 806人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那么什么是KNN算法呢,接

KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那么什么是KNN算法呢,接下来我们就来介绍介绍吧。

KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕,还是看看图吧。
KNN原理1

图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些,比如这个例子中是蓝色三角形多一些,新来的绿色点就归类到蓝三角了。

KNN原理2

但是,当K=5的时候,判定就变成不一样了。这次变成红圆多一些,所以新来的绿点被归类成红圆。从这个例子中,我们就能看得出K的取值是很重要的。

明白了大概原理后,我们就来说一说细节的东西吧,主要有两个,K值的选取点距离的计算

2.1距离计算

要度量空间中点距离的话,有好几种度量方式,比如常见的曼哈顿距离计算,欧式距离计算等等。不过通常KNN算法中使用的是欧式距离,这里只是简单说一下,拿二维平面为例,,二维空间两个点的欧式距离计算公式如下:

二维空间欧式距离

这个高中应该就有接触到的了,其实就是计算(x1,y1)和(x2,y2)的距离。拓展到多维空间,则公式变成这样:

多维空间欧式距离

这样我们就明白了如何计算距离,KNN算法最简单粗暴的就是将预测点与所有点距离进行计算,然后保存并排序,选出前面K个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助,比如最大堆,这里就不多做介绍,有兴趣可以百度最大堆相关数据结构的知识。

2.2 K值选择

通过上面那张图我们知道K的取值比较重要,那么该如何确定K取多少值好呢?答案是通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据,比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。

通过交叉验证计算方差后你大致会得到下面这样的图:
K值与Error

这个图其实很好理解,当你增大k的时候,一般错误率会先降低,因为有周围更多的样本可以借鉴了,分类效果会变好。但注意,和K-means不一样,当K值更大的时候,错误率会更高。这也很好理解,比如说你一共就35个样本,当你K增大到30的时候,KNN基本上就没意义了。

所以选择K点的时候可以选择一个较大的临界K点,当它继续增大或减小的时候,错误率都会上升,比如图中的K=10。具体如何得出K最佳值的代码,下一节的代码实例中会介绍。

KNN是一种非参的惰性的算法模型。什么是非参,什么是惰性呢?

非参的意思并不是说这个算法不需要参数,而是意味着这个模型不会对数据做出任何的假设,与之相对的是线性回归(我们总会假设线性回归是一条直线)。也就是说KNN建立的模型结构是根据数据来决定的,这也比较符合现实的情况,毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢?想想看,同样是分类算法,逻辑回归需要先对数据进行大量训练(tranning),最后才会得到一个算法模型。而KNN算法却不需要,它没有明确的训练数据的过程,或者说这个过程很快。

KNN算法的优势和劣势

了解KNN算法的优势和劣势,可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看KNN算法都有哪些优势以及其缺陷所在!

KNN算法优点

  1. 简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
  2. 模型训练时间快,上面说到KNN算法是惰性的,这里也就不再过多讲述。
  3. 预测效果好。
  4. 对异常值不敏感

KNN算法缺点

  1. 对内存要求较高,因为该算法存储了所有训练数据
  2. 预测阶段可能很慢
  3. 对不相关的功能和数据规模敏感

至于什么时候应该选择使用KNN算法,sklearn的这张图给了我们一个答案。
sklearn算法选择
简单得说,当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了。

OK,本次先对KNN算法做一个介绍,下一节解析sklearn的参数,以及K值选取。

--结束END--

本文标题: 深入浅出KNN算法(一) KNN算法原理

本文链接: https://www.lsjlt.com/news/181704.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 深入浅出KNN算法(一) KNN算法原理
    KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那么什么是KNN算法呢,接...
    99+
    2023-01-31
    算法 深入浅出 原理
  • 深入浅出KNN算法(二) sklearn
    姊妹篇: 深入浅出KNN算法(一) 原理介绍 上次介绍了KNN的基本原理,以及KNN的几个窍门,这次就来用sklearn实践一下KNN算法。 要使用sklearnKNN算法进行分类,我们需要先了解sklearnKNN算法的一些基本参数,...
    99+
    2023-01-31
    深入浅出 算法 KNN
  • KNN算法原理及python实现
    文章目录 1 KNN算法原理1.1 基本概念1.2 KNN算法原理1.3 实现步骤1.3 KNN算法优缺点 2 python手工实现KNN算法2.1 KNN算法预测单个数据2.2 KNN算...
    99+
    2023-10-22
    python 机器学习
  • 使用Python处理KNN分类算法
    本篇文章给大家带来了关于Python的相关知识,KNN分类算法(K-Nearest-Neighbors Classification),又叫K近邻算法,是一个概念极其简单,而分类效果又很优秀的分类算法,下面一起来看一下,希望对大家有帮助。前...
    99+
    2022-09-07
  • 怎样理解和实现KNN算法
    今天就跟大家聊聊有关怎样理解和实现KNN算法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。knn介绍邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数...
    99+
    2023-06-04
  • 使用Python处理KNN分类算法的实现代码
    目录KNN分类算法的介绍测试数据Python代码实现结果分析简介: 我们在这世上,选择什么就成为什么,人生的丰富多彩,得靠自己成就。你此刻的付出,决定了你未来成为什么样的人...
    99+
    2022-11-11
  • Python中怎么利用KNN算法处理缺失数据
    这篇文章将为大家详细讲解有关Python中怎么利用KNN算法处理缺失数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。KNN代表" K最近邻居",这是一种简单算法,可根据...
    99+
    2023-06-16
  • 深入浅析React中diff算法
    React中diff算法的理解 diff算法用来计算出Virtual DOM中改变的部分,然后针对该部分进行DOM操作,而不用重新渲染整个页面,渲染整个DOM结构的过程中开销是很大的...
    99+
    2022-11-12
  • 深入浅析Vue2中的Diff算法
    为什么要用 Diff 算法虚拟 DOM因为 Vue2 底层是用虚拟 DOM 来表示页面结构的,虚拟 DOM其实就是一个对象,如果想知道怎么生成的,其实大概流程就是:首先解析模板字符串,也就是 .vue 文件然后转换成 AST 语法树接着生成...
    99+
    2023-05-14
    diff算法 Vue.js 前端
  • C++深入浅出讲解希尔排序算法的实现
    目录希尔排序1.基本思想预排序2.算法实现3.时间复杂度插入排序分为两种:直接插入排序&希尔排序 希尔排序 1.基本思想 希尔排序是在直接插入排序基础上的优化,属于非常牛掰的...
    99+
    2022-11-13
  • python算法深入理解风控中的KS原理
    目录一、业务背景二、直观理解区分度的概念三、KS统计量的定义四、KS计算过程及业务分析KS常用的计算方法:上标指标计算逻辑:五、风控中选择KS的原因例1:模糊性例2:连续性一、业务背...
    99+
    2022-11-12
  • C语言深入浅出讲解直接插入排序算法的实现
    目录直接插入排序1.基本思想2.算法实现3.时间复杂度插入排序分为两种:直接插入排序&希尔排序 直接插入排序 1.基本思想 直接插入排序是一种简单的插入排序算法,其基本思想是...
    99+
    2022-11-13
  • 深入聊一聊虚拟DOM与diff算法
    目录虚拟DOM与diff算法snabbdom环境搭建虚拟DOM和h函数diff算法patch函数patchVnode函数updateChildren函数v-for中key作...
    99+
    2022-11-13
  • 深入理解JVM垃圾回收算法
    目录一、垃圾标记阶段1.1、引用计数法(java没有采用)1.2、可达性分析算法二、对象的finalization机制2.1、对象是否"死亡"三、使用(MAT与JProfiler)工...
    99+
    2022-11-12
  • 深入浅出 PHP 打包算法,让你在 LeetCode 编程竞赛中游刃有余!
    PHP 是一门广泛应用于 Web 开发的编程语言,而在 LeetCode 等编程竞赛中,打包算法是经常用到的一个重要算法。本文将深入浅出地介绍 PHP 打包算法,为你在编程竞赛中游刃有余提供帮助。 一、什么是打包算法 打包算法是一种常用于优...
    99+
    2023-06-28
    打包 leetcode 编程算法
  • 深入理解JavaScript内存管理和GC算法
    目录前言内存的生命周期JavaScript中的内存分配在JavaScript中使用内存释放内存JavaScript中的垃圾回收GC算法引用计数算法标记清除算法标记整理算法V8中的内存...
    99+
    2022-11-13
  • python遗传算法之geatpy的深入理解
    目录1. geatpy的安装2. geatpy的基础数据结构2.1 种群染色体2.2 种群表现型2.3 目标函数值2.4 个体适应度2.5 违反约束程度矩阵2.6 译码矩阵2.7 进...
    99+
    2022-11-10
  • 深入理解vue2中的VNode和diff算法
    虚拟dom和diff算法是vue学习过程中的一个难点,也是面试中必须掌握的一个知识点。这两者相辅相成,是vue框架的核心。今天我们再来总结下vue2中的虚拟dom 和 diff算法。(学习视频分享:vue视频教程)什么是 VNode我们知道...
    99+
    2022-11-22
    VNode diff算法 Vue vue.js
  • 带你入门java雪花算法原理
    雪花算法(SnowFlake) 雪花算法是Twitter开源的分布式ID生成算法. 主要是由64bit的long型生成的全局ID,引入了时间戳和ID保持自增的属性. 64bit分为四...
    99+
    2022-11-12
  • 深度强化学习-DDPG算法原理与代码
    深度强化学习-DDPG算法原理与代码 引言 1 DDPG算法简介 2 DDPG算法原理 2.1 经验回放 2.2 目标网络 2.2.1 算法更新过程 2.2.2 目标网络的更新 2.2.3 引入目标网络的目的 2.3 噪声探索 3 DDPG...
    99+
    2023-09-01
    python 人工智能 pytorch 深度学习 机器学习
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作