首页 > 资讯 > 后端开发 > Python >Python机器学习pytorch交叉熵损失函数的深刻理解

866

分享到

Python机器学习pytorch交叉熵损失函数的深刻理解

2024-04-02 19:04:59 866人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录1.交叉熵损失函数的推导2. 交叉熵损失函数的直观理解3. 交叉熵损失函数的其它形式4.总结说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：

1.交叉熵损失函数的推导

我们知道，在二分类问题模型：例如逻辑回归「LoGIStic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。
Sigmoid 函数的表达式和图形如下所示：

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

我们说了，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

很明显，当前样本标签为 0 的概率就可以表达成：

重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：

不懂极大似然估计也没关系。我们可以这么来看：

当真实样本标签 y = 0 时，上面式子第一项就为 1，概率等式转化为：

当真实样本标签 y = 1 时，上面式子第二项就为 1，概率等式转化为：

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：

我们希望 log P(y|x) 越大越好，反过来，只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数，且令 Loss = -log P(y|x)即可。则得到损失函数为：

非常简单，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

2. 交叉熵损失函数的直观理解

我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢？而不是仅仅记住这个公式。好问题！接下来，我们从图形的角度，分析交叉熵函数，加深理解。

首先，还是写出单个样本的交叉熵损失函数：

我们知道，当 y = 1 时

这时候，L 与预测输出的关系如下图所示：

看了 L 的图形，简单明了！横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。

当 y = 0 时：

这时候，L 与预测输出的关系如下图所示：

同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

3. 交叉熵损失函数的其它形式

什么？交叉熵损失函数还有其它形式？没错！我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉熵损失函数。

这种形式下假设真实样本的标签为 +1 和 -1，分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质：

这个性质我们先放在这，待会有用。

好了，我们之前说了 y = +1 时，下列等式成立：

如果 y = -1 时，并引入 Sigmoid 函数的性质，下列等式成立：

重点来了，因为 y 取值为 +1 或 -1，可以把 y 值带入，将上面两个式子整合到一起：

这个比较好理解，分别令 y = +1 和 y = -1 就能得到上面两个式子。

接下来，同样引入 log 函数，得到：

要让概率最大，反过来，只要其负数最小即可。那么就可以定义相应的损失函数为：

还记得 Sigmoid 函数的表达式吧？将 g(ys) 带入：

好咯，L 就是我要推导的交叉熵损失函数。如果是 N 个样本，其交叉熵损失函数为：

接下来，我们从图形化直观角度来看。当 y = +1 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

横坐标是 s，纵坐标是 L。显然，s 越接近正无穷，损失函数 L 越小；s 越接近负无穷，L 越大。

另一方面，当 y = -1 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

同样，s 越接近负无穷，损失函数 L 越小；s 越接近正无穷，L 越大。

4.总结

本文主要介绍了交叉熵损失函数的数学原理和推导过程，也从不同角度介绍了交叉熵损失函数的两种形式。第一种形式在实际应用中更加常见，例如神经网络等复杂模型；第二种多用于简单的逻辑回归模型。

需要注意的是：第一个公式中的变量是sigmoid输出的值，第二个公式中的变量是sigmoid输入的值。

以上就是python机器学习交叉熵损失函数的深刻理解的详细内容，更多关于PyTorch交叉熵损失函数的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python机器学习pytorch交叉熵损失函数的深刻理解

本文链接: https://www.lsjlt.com/news/137801.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

PythonOOP 的力量：封装与抽象类的超级英雄联盟

...

99+

2024-05-15
Python 代码的建筑师：封装与抽象类的蓝图和构建工具

...

99+

2024-05-15
PythonOOP 的航海图：封装与抽象类的船帆和指南针

...

99+

2024-05-15
Python 封装与抽象类的实验室：试验和发现的乐趣

...

99+

2024-05-15
Python 代码的可读性之钥：封装与抽象类的解读指南

...

99+

2024-05-15
PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

...

99+

2024-05-15
Python 代码的组织大师：封装与抽象类的秩序之道

...

99+

2024-05-15
Python 封装与抽象类的终极秘籍：通往对象导向编程之路

...

99+

2024-05-15
PythonOOP 的宝藏：封装与抽象类的寻宝之旅

...

99+

2024-05-15
Python 代码的救星：封装与抽象类的代码重构秘籍

...

99+

2024-05-15

软考高级职称资格查询

软考职称历年真题下载

2023下半年-信息系统项目管理师-真题考点汇总（完整版）
164.2 KB 查看
2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版)
143.67 KB 查看
2023上半年软考高级《信息系统项目管理师》真题答案（抢先版）
500.26 KB 查看
2022年下半年软考高级职称考试考情分析
823.36 KB 查看
2022年下半年软考高级职称考试真题
569.84 KB 查看

软考职称资料下载

热门wiki

近期文章

基于聚合数据的短信API接口调用示例-Python版

基于聚合数据的老黄历接口调用示例-Python版

基于Python的免费手机号码归属地查询

基于Python的免费IP地址归属地查询

python利用pyqt5和opencv打开电脑摄像头并进行拍照

用python 修改word中表格数据，插入图片 +实例分析

基于Python的免费天气预报接口查询

基于Python的免费新闻头条接口查询

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python机器学习pytorch交叉熵损失函数的深刻理解

目录

1.交叉熵损失函数的推导

2. 交叉熵损失函数的直观理解

3. 交叉熵损失函数的其它形式

4.总结

本篇文章演示代码以及资料文档资料下载

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

Python 代码的救星：封装与抽象类的代码重构秘籍

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容