广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python实现计算AUC的示例代码
  • 894
分享到

Python实现计算AUC的示例代码

2024-04-02 19:04:59 894人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录为什么这样一个指标可以衡量分类效果auc理解AUC计算方法一方法二实现及验证AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积

AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积,如下图:

这里写图片描述

要理解这张图的含义,得先理解下面这个表:

这里写图片描述

表中列代表预测分类,行代表实际分类:

  • 实际1,预测1:真正类(tp)
  • 实际1,预测0:假负类(fn)
  • 实际0,预测1:假正类(fp)
  • 实际0,预测0:真负类(tn)
  • 真实负样本总数=n=fp+tn
  • 真实正样本总数=p=tp+fn

在第一张图中,

横坐标false positive rate 代表假正类率,由fp/n计算得到,

意为 在实际负样本中出现预测正样本的概率。

纵坐标true positive rate 代表真正类率,由tp/p计算得到,

意为 在实际正样本中出现预测正样本的概率。

为什么这样一个指标可以衡量分类效果

先来看看如何得到这条曲线:

1. 通过分类器得到每个样本的预测概率,对其从高到低进行排序

2. 从高到低,分别以每一个预测概率作为阈值,大于该阈值的认定其为1,小于的为0,计算fp rate和tp rate。

对于一个有分类效果(效果比随机要好)的分类器,刚开始将高概率作为阈值时,阈值以上的真正样本占全部正样本的比例(tp rate)>阈值以上的假正样本占全部负样本的比例(fp rate)。

auc理解

auc就是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

AUC计算

方法一

在有M个正样本,N个负样本的数据集里。一共有M*N对样本(一对样本即,一个正样本与一个负样本)。统计这M*N对样本里,正样本的预测概率大于负样本的预测概率的个数。

这里写图片描述

举个例子:

这里写图片描述

假设有4条样本。2个正样本,2个负样本,那么M*N=4。

即总共有4个样本对。分别是:

(D,B),(D,A),(C,B),(C,A)。

在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1

同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.

那么auc如下:

这里写图片描述

假如出现得分一致的时候:

这里写图片描述

同样本是4个样本对,对于样本对(C,B)其I值为0.5。

这里写图片描述

方法二

利公式:

● 对预测概率从高到低排序

● 对每一个概率值设一个rank值(最高的概率的rank为n,第二高的为n-1)

● rank实际上代表了该score(预测概率)超过的样本的数目

为了求的组合中正样本的score值大于负样本,如果所有的正样本score值都是大于负样本的,那么第一位与任意的进行组合score值都要大,我们取它的rank值为n,但是n-1中有M-1是正样例和正样例的组合这种是不在统计范围内的(为计算方便我们取n组,相应的不符合的有M个),所以要减掉,那么同理排在第二位的n-1,会有M-1个是不满足的,依次类推,故得到后面的公式M*(M+1)/2,我们可以验证在正样本score都大于负样本的假设下,AUC的值为1

● 除以M*N

这里写图片描述

举例说明:

这里写图片描述

排序。按概率排序后得到:

按照上面的公式,只把正样本的序号加起来也就是只把样本C,D的rank值加起来后减去一个常数项:

这里写图片描述

得到:

这里写图片描述

如果出现得分一样的情况:

这里写图片描述

假如有4个取值概率为0.5,而且既有正样本也有负样本的情况。计算的时候,其实原则就是相等得分的rank取平均值。具体来说如下:

先排序:

这里写图片描述

这里需要注意的是:相等概率得分的样本,无论正负,谁在前,谁在后无所谓。

由于只考虑正样本的rank值:

对于正样本A,其rank值为7

对于正样本B,其rank值为6

对于正样本E,其rank值为(5+4+3+2)/4

对于正样本F,其rank值为(5+4+3+2)/4

这里写图片描述

实现及验证

采用sklearn中的库函数验证:

import numpy as np
from sklearn.metrics import roc_curve
from sklearn.metrics import auc

#---自己按照公式实现
def auc_calculate(labels,preds,n_bins=100):
    postive_len = sum(labels)
    negative_len = len(labels) - postive_len
    total_case = postive_len * negative_len
    pos_histogram = [0 for _ in range(n_bins)]
    neg_histogram = [0 for _ in range(n_bins)]
    bin_width = 1.0 / n_bins
    for i in range(len(labels)):
        nth_bin = int(preds[i]/bin_width)
        if labels[i]==1:
            pos_histogram[nth_bin] += 1
        else:
            neg_histogram[nth_bin] += 1
    accumulated_neg = 0
    satisfied_pair = 0
    for i in range(n_bins):
        satisfied_pair += (pos_histogram[i]*accumulated_neg + pos_histogram[i]*neg_histogram[i]*0.5)
        accumulated_neg += neg_histogram[i]

    return satisfied_pair / float(total_case)

if __name__ == '__main__':

    y = np.array([1,0,0,0,1,0,1,0,])
    pred = np.array([0.9, 0.8, 0.3, 0.1,0.4,0.9,0.66,0.7])


    fpr, tpr, thresholds = roc_curve(y, pred, pos_label=1)
    print("-----sklearn:",auc(fpr, tpr))
    print("-----py脚本:",auc_calculate(y,pred))

这里写图片描述

AUC的优点

它不受类别不平衡问题的影响,不同的样本比例不会影响AUC的评测结果。在训练时,可以直接使用AUC作为损失函数。

到此这篇关于python实现计算AUC的示例代码的文章就介绍到这了,更多相关Python计算AUC内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python实现计算AUC的示例代码

本文链接: https://www.lsjlt.com/news/119294.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python实现计算AUC的示例代码
    目录为什么这样一个指标可以衡量分类效果auc理解AUC计算方法一方法二实现及验证AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积...
    99+
    2022-11-11
  • Python实现计算信息熵的示例代码
    目录一:数据集准备二:信息熵计算三:完整源码分享一:数据集准备 如博主使用的是: 多层感知机(MLP)实现考勤预测二分类任务(sklearn)对应数据集 导入至工程下 二:信息熵计...
    99+
    2022-12-26
    Python计算信息熵 Python 信息熵
  • Python实现计算AUC的方式有哪些
    今天小编给大家分享一下Python实现计算AUC的方式有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。介绍AUC(Are...
    99+
    2023-07-02
  • Django+Bootstrap实现计算器的示例代码
    目录准备工作导入Bootstrap前端框架编写前端内容编写视图函数准备工作 创建一个应用 添加应用到配置 创建一个html 编写视图函数 from django.short...
    99+
    2022-11-12
  • Python实现计算AUC的三种方式总结
    目录介绍实现代码方法补充介绍 AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线...
    99+
    2022-11-11
  • Python 多核并行计算的示例代码
    以前写点小程序其实根本不在乎并行,单核跑跑也没什么问题,而且我的电脑也只有双核四个超线程(下面就统称核好了),觉得去折腾并行没啥意义(除非在做IO密集型任务)。然后自从用上了32核128GB内存,看到 ht...
    99+
    2022-06-04
    多核 示例 代码
  • Python实现K-近邻算法的示例代码
    目录一、介绍二、k-近邻算法的步骤三、Python 实现四、约会网站配对效果判定五、手写数字识别六、算法优缺点优点缺点一、介绍 k-近邻算法(K-Nearest Neighbour ...
    99+
    2022-11-11
  • 使用SQL实现车流量的计算的示例代码
    目录卡口转换率1、查出每个地区下每个路段下的车流量2、通过错位连接获取每辆车的行车记录3、获取行车过程中的车辆数4、获取每个卡口的总车辆数5、求出卡口之间的转换率卡口转换率 将数据导...
    99+
    2022-11-13
  • python实现动态规划算法的示例代码
    动态规划(Dynamic Programming,DP)是一种常用的算法思想,通常用于解决具有重叠子问题和最优子结构性质的问题。动态规划算法通常是将问题分解为子问题,先解决子问题,再...
    99+
    2023-02-16
    python 动态规划算法
  • Python实现12种降维算法的示例代码
    目录为什么要进行数据降维数据降维原理主成分分析(PCA)降维算法其它降维算法及代码地址1.KPCA(kernel PCA)2.LDA(Linear Discriminant Anal...
    99+
    2022-11-10
  • Python和Matlab实现蝙蝠算法的示例代码
    目录1前言2 蝙蝠算法原理细讲3 详细步骤4Python实现4.1代码4.2结果5Matlab实现5.1 代码5.2 结果 5.3&...
    99+
    2022-11-13
  • Python实现七大查找算法的示例代码
    目录查找算法 -- 简介顺序查找二分查找插值查找斐波那契查找树表查找1、二叉树查找算法。2、平衡查找树之2-3查找树(2-3 Tree)3、平衡查找树之红黑树(Red-Black T...
    99+
    2022-11-12
  • Java实现Kruskal算法的示例代码
    目录介绍一、构建后的图二、代码三、测试介绍 构造最小生成树还有一种算法,即 Kruskal 算法:设图 G=(V,E)是无向连通带权图,V={1,2,...n};设最小生成树 T=(...
    99+
    2022-11-13
  • PHP实现LRU算法的示例代码
    本篇文章主要给大家介绍了PHP的相关知识,LRU是Least Recently Used 近期最少使用算法, 内存管理的一种页面置换算法,下面将详解LRU算法的原理以及实现,下面一起来看一下,希望对大家有帮助。(推荐教程:PHP视频教程)原...
    99+
    2022-08-08
    php
  • Java实现Floyd算法的示例代码
    目录一 问题描述二 代码三 实现一 问题描述 求节点0到节点2的最短路径。 二 代码 package graph.floyd; ...
    99+
    2022-11-13
  • C++实现Dijkstra算法的示例代码
    目录一、算法原理二、具体代码1.graph类2.PathFinder类3. main.cpp三、示例一、算法原理 链接: Dijkstra算法及其C++实现参考这篇文章 二、具体代码...
    99+
    2022-11-13
  • Java实现Dijkstra算法的示例代码
    目录一 问题描述二 实现三 测试一 问题描述 小明为位置1,求他到其他各顶点的距离。 二 实现 package graph.dij...
    99+
    2022-11-13
  • Redis实现UV统计的示例代码
    目录一、HyperlogLog1、为什么用HyperLogLog2、HyperLogLog是什么二、实现UV统计一、HyperLogLog 1、为什么用HyperLogLog 先介绍两个概念: UV:全称 Unique ...
    99+
    2023-01-29
    Redis UV统计
  • Python&Matlab实现灰狼优化算法的示例代码
    目录1 灰狼优化算法基本思想2 灰狼捕食猎物过程2.1 社会等级分层2.2 包围猎物2.3 狩猎2.4 攻击猎物2.5 寻找猎物3 实现步骤及程序框图3.1 步骤3.2 程序框图4 ...
    99+
    2022-11-13
  • Python实现随机生成算术题的示例代码
    目录前言1、环境准备2、主程序3、效果展示前言 前几天去我姐家里蹭饭吃,发现我姐家里的小外甥女儿已经上小学了,正在疯狂赶作业,加减乘除还有很多题目都经常出错。 我姐说老师每天给他们布...
    99+
    2023-05-14
    Python实现随机生成算术题 Python随机生成算术题 Python生成算术题
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作