Python机器学习之底层实现KNN

Python底层实现KNN Python KNN算法 2022-06-02 22:06:09 511人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

一、导入数据借助python自带的pandas库导入数据，很简单。用的数据是下载到本地的红酒集。代码如下（示例）： import pandas as pd def read_xlsx(csv_path):

一、导入数据

借助python自带的pandas库导入数据，很简单。用的数据是下载到本地的红酒集。

代码如下（示例）：


import pandas as pd
def read_xlsx(csv_path):
    data = pd.read_csv(csv_path)
    print(data)
    return data

二、归一化

KNN算法中将用到距离，因此归一化是一个重要步骤，可以消除数据的量纲。我用了归一化，消除量纲也可以用标准化，但是作为新手，我觉得归一化比较简单。

其中最大最小值的计算用到了Python中的numpy库，pandas导入的数据是DateFrame形式的，np.array()用来将DateFrame形式转化为可以用numpy计算的ndarray形式。

代码如下（示例）：


import numpy as np
def MinMaxScaler(data):
    col = data.shape[1]
    for i in range(0, col-1):
        arr = data.iloc[:, i]
        arr = np.array(arr) #将DataFrame形式转化为ndarray形式，方便后续用numpy计算
        min = np.min(arr)
        max = np.max(arr)
        arr = (arr-min)/(max-min)
        data.iloc[:, i] = arr
    return data

三、分训练集和测试集

先将数据值和标签值分别用x和y划分开，设置随机数种子random_state，若不设置，则每次运行的结果会不相同。test_size表示测试集比例。


def train_test_split(data, test_size=0.2, random_state=None):
    col = data.shape[1]
    x = data.iloc[:, 0:col-1]
    y = data.iloc[:, -1]
    x = np.array(x)
    y = np.array(y)
    # 设置随机种子，当随机种子非空时，将锁定随机数
    if random_state:
        np.random.seed(random_state)
        # 将样本集的索引值进行随机打乱
        # permutation随机生成0-len(data)随机序列
    shuffle_indexs = np.random.permutation(len(x))
    # 提取位于样本集中20%的那个索引值
    test_size = int(len(x) * test_size)
    # 将随机打乱的20%的索引值赋值给测试索引
    test_indexs = shuffle_indexs[:test_size]
    # 将随机打乱的80%的索引值赋值给训练索引
    train_indexs = shuffle_indexs[test_size:]
    # 根据索引提取训练集和测试集
    x_train = x[train_indexs]
    y_train = y[train_indexs]
    x_test = x[test_indexs]
    y_test = y[test_indexs]
    # 将切分好的数据集返回出去
    # print(y_train)
    return x_train, x_test, y_train, y_test

四、计算距离

此处用到欧氏距离，pow()函数用来计算幂次方。length指属性值数量，在计算最近邻时用到。


def CountDistance(train,test,length):
    distance = 0
    for x in range(length):
        distance += pow(test[x] - train[x], 2)**0.5
    return distance

五、选择最近邻

计算测试集中的一条数据和训练集中的每一条数据的距离，选择距离最近的k个，以少数服从多数原则得出标签值。其中argsort返回的是数值从小到大的索引值，为了找到对应的标签值。

tip:用numpy计算众数的方法


import numpy as np
#bincount（）：统计非负整数的个数，不能统计浮点数
counts = np.bincount(nums)
#返回众数
np.argmax(counts)

少数服从多数原则，计算众数，返回标签值。


def getNeighbor(x_train,test,y_train,k):
    distance = []
    #测试集的维度
    length = x_train.shape[1]
    #测试集合所有训练集的距离
    for x in range(x_train.shape[0]):
        dist = CountDistance(test, x_train[x], length)
        distance.append(dist)
    distance = np.array(distance)
    #排序
    distanceSort = distance.argsort()
    # distance.sort(key= operator.itemgetter(1))
    # print(len(distance))
    # print(distanceSort[0])
    neighbors =[]
    for x in range(k):
        labels = y_train[distanceSort[x]]
        neighbors.append(labels)
        # print(labels)
    counts = np.bincount(neighbors)
    label = np.argmax(counts)
    # print(label)
    return label

调用函数时：


getNeighbor(x_train,x_test[0],y_train,3)

六、计算准确率

用以上KNN算法预测测试集中每一条数据的标签值，存入result数组，将预测结果与真实值比较，计算预测正确的个数与总体个数的比值，即为准确率。


def getAccuracy(x_test,x_train,y_train,y_test):
    result = []
    k = 3
    # arr_label = getNeighbor(x_train, x_test[0], y_train, k)
    for x in range(len(x_test)):
        arr_label = getNeighbor(x_train, x_test[x], y_train, k)
        result.append(arr_label)
    correct = 0
    for x in range(len(y_test)):
        if result[x] == y_test[x]:
           correct += 1
    # print(correct)
    accuracy = (correct / float(len(y_test))) * 100.0
    print("Accuracy:", accuracy, "%")
    return accuracy

总结

KNN算是机器学习中最简单的算法，实现起来相对简单，但对于我这样的新手，还是花费了大半天时间才整出来。

在GitHub上传了项目：https://github.com/chenyi369/KNN

到此这篇关于Python机器学习之底层实现KNN的文章就介绍到这了,更多相关Python底层实现KNN内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python机器学习之底层实现KNN

本文链接: https://www.lsjlt.com/news/11007.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python机器学习之KNN近邻算法

目录一、KNN概述二、使用Python导入数据三、numpy.array()四、实施KNN分类算法五、计算已知类别数据集中的点与当前点之间的距离六、完整代码七、数据处理、分析、测试八...

99+

2024-04-02
Python对象的底层实现源码学习

目录1. PyObject：对象的基石2. PyVarObject：变长对象的基础2.1 浮点对象2.2 列表对象3. PyTypeObject：类型的基石4. PyType_Typ...

99+

2024-04-02
【python】机器学习-K-近邻（KNN）算法

目录一 . K-近邻算法（KNN）概述二、KNN算法实现三、 MATLAB实现四、实战一 . K-近邻算法（KNN）概述 K-近邻算法（KNN）是一种基本的分类算法，它通过计算数据点之...

99+

2023-10-22

python matlab 机器学习算法
机器学习——线性回归-KNN-决策树(实

1 import numpy as np 2 import pandas as pd 3 from sklearn.linear_model import LinearRegression 4 from sklearn.preproc...

99+

2023-01-30

线性机器决策树
Java基础学习之集合底层原理

目录一、Collection集合二、List接口三、Set（Set底层是由Map实现的，所以一般都是问Map）四、Map一、Collection集合 Collection接口是单列...

99+

2024-04-02
Python机器学习之手写KNN算法预测城市空气质量

目录一、KNN算法简介二、KNN算法实现思路三、KNN算法预测城市空气质量1. 获取数据2. 生成测试集和训练集3. 实现KNN算法一、KNN算法简介 KNN（K-Nearest N...

99+

2024-04-02
python机器学习基础K近邻算法详解KNN

目录一、k-近邻算法原理及API1.k-近邻算法原理2.k-近邻算法API3.k-近邻算法特点二、k-近邻算法案例分析案例信息概述第一部分：处理数据1.数据量缩小2.处理时间3.进一...

99+

2024-04-02
Python DPED机器学习之实现照片美化

目录前言环境部署项目结构tensorflow安装其他依赖安装VGG-19下载项目运行准备图片素材测试效果前言最近发现了一个可以把照片美化的项目，自己玩了玩，挺有意思的，分享一下。 ...

99+

2024-04-02
（机器学习）——使用KNN进行水果分类

（机器学习）——使用KNN进行水果分类（详解）实验目标是：导入素材文件fruit_data.txt，使用SKlearn中的neighbors模块对水果数据进行分类，然后预测A、B两种水果的类别。以...

99+

2023-10-26

分类 python
Python机器学习之随机梯度下降法的实现

目录随机梯度下降法随机梯度下降法的实现随机梯度下降法为什么使用随机梯度下降法？如果当我们数据量和样本量非常大时，每一项都要参与到梯度下降，那么它的计算量时非常大的，所以我们可以采...

99+

2023-02-27

Python随机梯度下降法 Python梯度下降法 Python梯度下降
Python机器学习实战之k-近邻算法的实现

目录K-近邻算法概述工作原理实施KNN算法示例：手写识别系统K-近邻算法概述简单地说, k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法优点：精度高...

99+

2024-04-02
Python机器学习之随机梯度下降法如何实现

本文小编为大家详细介绍“Python机器学习之随机梯度下降法如何实现”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python机器学习之随机梯度下降法如何实现”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。随机梯...

99+

2023-07-05
机器学习Python实现 SVD 分解

这篇文章主要是结合机器学习实战将推荐算法和SVD进行相应的结合任何一个矩阵都可以分解为SVD的形式其实SVD意义就是利用特征空间的转换进行数据的映射，后面将专门介绍SVD的基础概念，先给出python，这里先给出一个简单的矩阵，表示用...

99+

2023-01-31

分解机器 Python
Python机器学习之决策树

目录一、要求二、原理三、信息增益的计算方法四、实现过程五、程序六、遇到的问题一、要求二、原理决策树是一种类似于流程图的结构，其中每个内部节点代表一个属性上的“测试”，每个分支代...

99+

2024-04-02
Python机器学习多层感知机原理解析

目录隐藏层从线性到非线性激活函数ReLU函数sigmoid函数tanh函数隐藏层我们在前面描述了仿射变换，它是一个带有偏置项的线性变换。首先，回想下之前下图中所示的softmax回...

99+

2024-04-02
pyTorch深度学习多层感知机的实现

目录激活函数多层感知机的PyTorch实现激活函数前两节实现的传送门 pyTorch深度学习softmax实现解析 pyTorch深入学习梯度和Linear Regression实...

99+

2024-04-02
Python机器学习之逻辑回归

目录一、题目二、目的三、平台四、基本原理4.1 逻辑回归4.2 损失函数五、实验步骤一、题目 1.主题：逻辑回归 2.描述：假设你是某大学招生主管，你想根据两次考试的结果决定每个申请...

99+

2024-04-02
python机器学习之神经网络

手写数字识别算法 import pandas as pd import numpy as np from sklearn.neural_network import MLPReg...

99+

2024-04-02
Python机器学习之基础概述

目录一、基础概述二、算法分类三、研究内容一、基础概述机器学习（Machine Learing）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...

99+

2024-04-02
Python机器学习之如何基于Pytorch实现猫狗分类

这篇文章给大家分享的是有关Python机器学习之如何基于Pytorch实现猫狗分类的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。一、环境配置安装Anaconda具体安装过程，请点击本文配置Pytorchpip&n...

99+

2023-06-15