[人工智能] softmax（二）：softmax交叉熵不是真正的目标函数

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> softmax（二）：softmax交叉熵不是真正的目标函数 -> 正文阅读

[人工智能]softmax（二）：softmax交叉熵不是真正的目标函数

最近一直在消化、吸收大神的输出，在这里主要把思路捋顺，试着增加自己的理解和扩展。
首先，上链接，还有我的膝盖，拜王峰大神，可以直接看大神的文字！
从最优化的角度看待Softmax损失函数
 Softmax理解之Smooth程度控制

一、优化的目标函数

做分类的都知道，softmax交叉熵，是常用的分类损失函数，那么，它是怎么来的呢？
用CNN提取n维特征之后，我们想要拿这个n维特征，去预测，是狗，是猫，还是人？怎么预测呢，总不能直接拿n维特征吧，我们想要只想知道，是狗，是猫，还是人。为了解决这个问题，我们将n维特征经过一个线性变换，让cnn网络输出3分数，论文里面常叫做logit，来告诉我们，是猫多少分，是狗多少分，是人多少分。如果真实类别是狗，那么我们的目标函数希望，狗的分数，要比猫和人的分数都高，可以这么说，输出C个分数，时目标分数比最大的非目标分数更大：
$\max(\max_{i \neq y}{z_i} - z_y, 0)\tag{1}$
其中， $z_y$ 是我们的目标分数，即是狗的分数。当然，这个目标函数之前，还有一些其他的，可自己去看王峰大神的博客。
注意看，公式（1），每次都从非目标中挑出一个最大值参与目标函数，那么，也就是说，每次，最多只有一个正梯度（因为只有一个非目标分数）和一个负梯度（只有一个目标分数），那这优化起来也太慢了吧，于是，max的smooth版本就出来了。

二、目标函数的第一次smooth：LogSumExp

LogSumExp函数如下：
$\sum_{i}^nexp(x_i)$
二者的关系是：
$L S E > = m a x$
至于为啥，这个真的是非常数学的东西了，感兴趣的，可以自行去google，这里再次膜拜一下数学，学好数学，称霸天下！
用上LSE，就会发现，非目标分数的最大值，不管选择了谁，都和其他非目标分数扯上了关系，这样，其他非目标分数的分支，也会有梯度了。
smooth之后的目标函数如下：
$loss_{lse} = \max(log \sum_{i=1,i \neq y}^Ce^{z_i} - z_y,0)$

不懂之处：峰神说，使用LogSumExp函数相当于变相地加了一定的m???

三、目标函数的第二次smooth：softmax交叉熵

峰神说了，接着smooth，Relu函数 $\max(x,0)$ 也有一个smooth版本，即softplus函数， $log(1+e^x)$ ，那么用这个函数，接着smooth
$\begin{aligned} L_{softmax} & = log(1 + e^{log (\sum_{i=1,i \neq y}^Ce^{z_i}) - z_y}) \\ &=log(1+ \frac{\sum_{i=1,i \neq y}^Ce^{z_i}}{e^{z_y}}) \\ &= log{\frac{\sum_{i=1}^Ce^{z_i}}{e^{z_y}}} \\ &= -log{\frac{e^{z_y}}{\sum_{i=1}^Ce^{z_i}}} \end{aligned}$
这个就是我们熟知的softmax交叉熵。