Python实现计算AUC的三种方式总结

2024-04-02 19:04:59 594人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录介绍实现代码方法补充介绍 AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线

介绍

AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

auc计算方式：参考python实现计算AUC的示例代码

实现代码

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = [1,1,0,0,1,1,0]
y_pred = [0.8,0.7,0.5,0.5,0.5,0.5,0.3]
print(roc_auc_score(y_true, y_pred))
# 下面实现的是方法1
# https://blog.csdn.net/lieyingkub99/article/details/81266664?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242
def cal_auc1(y_true, y_pred):
    n_bins = 10
    postive_len = sum(y_true)  # M正样本个数
    negative_len = len(y_true) - postive_len  # N负样本个数
    total_case = postive_len * negative_len  # M * N样本对数
    pos_histogram = [0 for _ in range(n_bins)]  # 保存每一个概率值下的正样本个数
    neg_histogram = [0 for _ in range(n_bins)]  # 保存每一个概率值下的负样本个数
    bin_width = 1.0 / n_bins
    for i in range(len(y_true)):
        nth_bin = int(y_pred[i] / bin_width)  # 概率值转化为整数下标
        if y_true[i] == 1:
            pos_histogram[nth_bin] += 1
        else:
            neg_histogram[nth_bin] += 1
    print(pos_histogram)
    print(neg_histogram)
    accumulated_neg = 0
    satisfied_pair = 0
    for i in range(n_bins):
        satisfied_pair += (pos_histogram[i] * accumulated_neg + pos_histogram[i] * neg_histogram[i] * 0.5)
        print(pos_histogram[i], neg_histogram[i], accumulated_neg, satisfied_pair)
        accumulated_neg += neg_histogram[i]
 
    return satisfied_pair / float(total_case)
print(cal_auc1(y_true, y_pred))
# 下面实现的是方法2
# Https://blog.csdn.net/lieyingkub99/article/details/81266664?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242
def cal_auc2(y_true, y_pred):
    n_bins = 10
    postive_len = sum(y_true)  # M正样本个数
    negative_len = len(y_true) - postive_len  # N负样本个数
    total_case = postive_len * negative_len  # M * N样本对数
    prob_rank = [0 for _ in range(n_bins)]  # 保存每一个概率值的rank
    prob_num = [0 for _ in range(n_bins)]  # 保存每一个概率值出现的次数
    bin_width = 1.0 / n_bins
    raw_arr = []
    for i in range(len(y_true)):
        raw_arr.append([y_pred[i], y_true[i]])
    arr = sorted(raw_arr, key=lambda d: d[0]) # 按概率由低到高排序
    for i in range(len(arr)):
        nth_bin = int(arr[i][0] / bin_width)  # 概率值转化为整数下标
        prob_rank[nth_bin] = prob_rank[nth_bin] + i + 1
        prob_num[nth_bin] = prob_num[nth_bin] + 1
    satisfied_pair = 0
    for i in range(len(arr)):
        if arr[i][1] == 1:
            nth_bin = int(arr[i][0] / bin_width)  # 概率值转化为整数下标
            satisfied_pair = satisfied_pair + prob_rank[nth_bin] / prob_num[nth_bin]
    return (satisfied_pair - postive_len * (postive_len + 1) / 2 ) / total_case
 
 
 
print(cal_auc2(y_true, y_pred))
 
# 根据roc曲线,找不同点算下面积, 需要点足够多
def cal_auc3(y_true, y_pred):
    """Summary
    Args:
        raw_arr (TYPE): Description
    Returns:
        TYPE: Description
    """
    raw_arr = []
    for i in range(len(y_true)):
        raw_arr.append([y_pred[i], y_true[i]])
    print(raw_arr)
    arr = sorted(raw_arr, key=lambda d:d[0], reverse=True)
    pos, neg = 0., 0.
    for record in arr:
        if record[1] == 1.:
            pos += 1
        else:
            neg += 1
 
    fp, tp = 0., 0.
    xy_arr = []
    for record in arr:
        if record[1] == 1.:
            tp += 1
        else:
            fp += 1
        xy_arr.append([fp/neg, tp/pos])
    print(xy_arr)
    auc = 0.
    prev_x = 0.
    prev_y = 0.
    for x, y in xy_arr:
        if x != prev_x:
            auc += ((x - prev_x) * (y + prev_y) / 2.)
            prev_x = x
            prev_y = y
        print(auc)
    import numpy as np
    from sklearn.metrics import roc_auc_score
    y_true = [1, 1, 0, 0, 1, 1, 0]
    y_pred = [0.8, 0.7, 0.5, 0.5, 0.5, 0.5, 0.3]
    print(roc_auc_score(y_true, y_pred))

方法补充

下面是小编为大家找到的另外三个计算AUC的代码，会输出三种方法各自的auc，以及通过面积计算AUC时的ROC曲线。

在通过面积计算AUC的方法中，没有遍历数据的预测概率作为分类阈值，而是对[0,1]区间等分得到一系列阈值。

# AUC的计算
import numpy as np
import matplotlib.pyplot as plt

for e in range(3):
    print("\nRound: ", e+1)

    num = 1000
    auc1 = auc2 = auc3 = 0.

    # 准备数据
    pred_prob = list(np.random.unifORM(low=0,high=1, size=[num]))
    labels = [int(prob>0.5) for prob in list(np.random.uniform(low=0,high=1, size=[num]))]

    # 检查数据
    # print("pred_prob:\n", pred_prob)
    # print("labels:\n", labels)

    # 方法一，面积加和
    roc_point = []
    for i in range(num):
        i = pred_prob[i]
        TP = 0  # 真阳样本数
        FP = 0  # 假阳样本数
        TP_rate = 0.  # 真阳率
        FP_rate = 0.  # 假阳率
        pos_num = 0   # 预测真样本数

        # 计数过程
        for ind, prob in enumerate(pred_prob):
            if prob>i:
                pos_num += 1
            if prob>i and labels[ind]>0.5:
                TP+=1
            elif prob>i and labels[ind]<0.5:
                FP+=1
        if pos_num!=0:
            TP_rate = TP / sum(labels)
            FP_rate = FP / (num-sum(labels))
        roc_point.append([FP_rate, TP_rate])  # 记录ROC中的点
    # 画出ROC曲线
    roc_point.sort(key=lambda x: x[0])
    plt.plot(np.array(roc_point)[1:, 0], np.array(roc_point)[1: ,1])
    plt.xlabel("FPR")
    plt.ylabel("TPR")
    plt.show()

    # 计算每个小长方形的面积，求和即为auc
    lastx = 0.
    for x,y in roc_point:
        auc1 += (x-lastx)*y  # 底乘高
        lastx = x

    print("方法一 auc:", auc1)

    # 方法二，利用AUC关于排列概率的定义计算
    auc2 = 0
    P_ind = []  # 正样本下标
    F_ind = []  # 负样本下标
    P_F = 0  # 正样本分数高于负样本的数量
    F_P = 0  # 负样本分数高于正样本的数量

    #  计数过程
    for ind, val in enumerate(labels):
        if val > 0.5:
            P_ind.append(ind)
        else:
            F_ind.append(ind)
    for Pi in P_ind:
        for Fi in F_ind:
            if pred_prob[Pi] > pred_prob[Fi]:
                P_F += 1
            else:
                F_P += 1
    auc2 = P_F/(len(P_ind)*len(F_ind))
    print("方法二 auc:", auc2)

    # 方法三，方法二的改进，简化了计算，降低了时间复杂度
    new_data = [[p, l] for p, l in zip(pred_prob, labels)]
    new_data.sort(key=lambda x:x[0])

    # 求正样本rank之和
    rank_sum = 0
    for ind, [prob,label] in enumerate(new_data):
        if label>0.5:
            rank_sum+=ind
    auc3 = (rank_sum - len(P_ind)*(1+len(P_ind))/2) / (len(P_ind)*len(F_ind))
    print("方法三 auc:", auc3)

运行结果

到此这篇关于Python实现计算AUC的三种方式总结的文章就介绍到这了,更多相关Python计算AUC内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实现计算AUC的三种方式总结

本文链接: https://www.lsjlt.com/news/119292.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实现计算AUC的三种方式总结

目录介绍实现代码方法补充介绍 AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线...

99+

2022-11-11
Python实现计算AUC的方式有哪些

今天小编给大家分享一下Python实现计算AUC的方式有哪些的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。介绍AUC（Are...

99+

2023-07-02
SpringMVC实现Controller的三种方式总结

目录实现Controller的三种方式1.实现Controller接口2.实现HttpRequestHandler接口3.全注解关于SpringMVC的控制器(Controller)...

99+

2022-11-13
总结三种常见php算法的实现方法

PHP是一种强大的脚本语言，它在Web开发领域中广泛应用。除了在网站开发中使用，PHP还可以用于实现各种算法和数据结构。在本文中，我们将介绍三个常见的算法，包括冒泡排序、快速排序和二分查找，以及在PHP中如何实现它们。一、冒泡排序冒泡排序是...

99+

2023-05-14
python 实现多线程的三种方法总结

1._thread.start_new_thread(了解) import threading import time import _thread def job(): ...

99+

2022-11-12
Android自定义View的三种实现方式总结

在毕设项目中多处用到自定义控件，一直打算总结一下自定义控件的实现方式，今天就来总结一下吧。在此之前学习了郭霖大神博客上面关于自定义View的几篇博文，感觉受益良多，本文中就参考...

99+

2022-06-06

view Android
Python实现计算AUC的示例代码

目录为什么这样一个指标可以衡量分类效果auc理解AUC计算方法一方法二实现及验证AUC（Area under curve）是机器学习常用的二分类评测手段，直接含义是ROC曲线下的面积...

99+

2022-11-11
Python协程的四种实现方式总结

目录一、yield关键字实现方式二、greenlet实现方式三、asyncio实现方式四、async和await关键字实现方式一、yield关键字实现方式以yield关键字方式实现...

99+

2023-01-14

Python实现协程方式 Python协程
nginx配置防盗链的三种实现方式总结

目录什么是资源盗链一、引导案例二、Nginx防盗链实现原理三、Nginx防盗链具体实现实现方式一实现方式二实现方式三总结什么是资源盗链资源盗链是指内容不在自己服务器上，而通过技术手...

99+

2022-11-13
OpenFeign设置header的三种方式总结

目录设置OpenFeign的FeignClient的Header信息1、在@RequestMapping注解里添加headers属性2、在方法参数前面添加@RequestHeader...

99+

2023-05-14

openfeign header openfeign设置header openfeign使用
Vue实现刷新当前页面的三种方式总结

目录背景思路实现方式1-通过location.reload和$router.go(0)方法方式2-通过空白页面方式3-通过provide和inject背景项目当中如果做新增/修改/...

99+

2023-01-14

Vue刷新当前页面 Vue刷新页面
MongoDB日志切割的三种方式总结

目录前言方法如下1. 通过 MongoDB 管理命令进行切割2. 通过 Linux 系统自带的服务 logrotate 进行切割3. 通过向进程发送 SIGUSR1 信号来切割日志总...

99+

2022-11-12
Oracle listagg去重distinct的三种方式总结

目录一、简介二、方法【a】第一种方法【b】第二种方法【c】第三种方法三、总结一、简介最近在工作中，在写oracle统计查询的时候，遇到listagg聚合函数分组聚合之后出现很多重复数据的问题，于是研究了一下lista...

99+

2022-11-18

Oracle listagg去重distinct Oracle listagg去重 listagg去重distinct
Golang实现解析JSON的三种方法总结

目录背景示例Json例子解释1）反序列化成map2）反序列化成对象3）复杂json的解析总结背景这是一篇写给0-1年新人的文章，短平快的教会你如何解析json字符串。示例Json...

99+

2022-11-11
Java项目开发中实现分页的三种方式总结

目录前言使用1、SpringDataJPA分页2、MyBatis分页3、Hutools工具类分页总结前言 Java项目开发中经常要用到分页功能，现在普遍使用SpringBoot进行快...

99+

2022-11-13
chatgpt赋能python：用Python计算三角函数的方法总结

用Python计算三角函数的方法总结介绍三角函数是许多科学和工程领域中常用的数学工具之一。在计算机编程中，Python可以用来计算三角函数，如正弦、余弦和正切等。本篇文章将介绍几种用Python计...

99+

2023-10-09

chatgpt python 开发语言计算机
Unity3D 计时器的实现代码(三种写法总结)

1、每帧检查定义一个时间变量 timer，每帧将此时间减去帧间隔时间 Time.deltaTime，如果小于或者等于零，说明定时器到了，执行相应功能代码，将此定时器重置，代码如下：...

99+

2022-11-12
Spring AOP的几种实现方式总结

Spring AOP的几种实现方式总结如下：1. 基于XML配置：在Spring配置文件中使用元素来定义切面和通知的配置，然后通过元...

99+

2023-08-17

Spring AOP
MySQL实现字段或字符串拼接的三种方式总结

目录一、CONCAT函数1.1、拼接非空字段或字符串1.2、拼接空(NULL)字段二、CONCAT_WS函数2.1、拼接非空字段或字符串2.2、拼接空（NULL）字段三、GROUP_CONCAT函数3.1、默认以逗号分隔...

99+

2023-01-05

MySQL字段拼接 MySQL字符串拼接 MySQL拼接
eclipse创建springboot项目的三种方式总结

目录方法一安装STS插件新建spring boot项目项目启动方法二1.创建Maven项目2.选择项目类型3.选择项目4.编写项目组和名称-finish即可5.修改pom.xml文件...

99+

2022-11-12