开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习损失函数之似然函数 -> 正文阅读

[人工智能]机器学习损失函数之似然函数

似然函数定义——Adeshen原创：Maybe人工智能作业

顾名思义，似然似然，即是可能Maybe好像，就是像某个东西的可能性。在统计学上定义为给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。
似然函数在推断统计学（Statistical inference）中扮演重要角色，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。
```
  你们看懂了吗，反正我没弄清概率和似然的区别。所以我就都理解成概率
```

逻辑回归中的似然损失函数

逻辑回归为什么使用似然损失，而不是使用均方损失，大概是均方损失函数导出来梯度下降公式的十分丑陋，导致运算量巨大。

$minE(x)=\frac{1}{n}\sum_{i=0}^n(g(w^Tx_i)-y_i)^2$
而逻辑回归函数又长这样 $g(w^Tx_i)=\frac{1}{1+e^{w^Tx}}$

外导一个2还可以，内导就恶心了，直接一个分式指数，不知道你们算这个心情如何，反正我是吃不下饭了。
$\frac{\partial E}{\partial w}=-\frac{1}{n}\sum_{i=0}^n2(\frac{1}{1+e^{w^Tx}}-y_i)(1+e^{w^Tx})^{-2}e^{w^Tx}x_i$

这能忍吗，就算咱们忍的下去，cpu也忍不了啊，所以方差损失就被无情抛弃

然后需要一个更加美丽的损失函数登场了——似然函数

似然函数

首先得先知道逻辑回归是为了解决01问题
知道这个我们就能三下五除二写出它似然函数的一小小块

$P(y_i|x_i;w)=y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w)$

当 $y_i=1$ 就是左边那个 $P(y_i=1|x_i;w)$ 有效，
当 $y_i=0$ 就是右边那个 $P(y_i=0|x_i;w)$ 有效

哇,小小一个 $y_i$ 竟然有如此妙用，当然这一切都建立在 $y_i$ 只能取0或1，要取个0到1就麻烦了.
然后问题来了，这个 $P(y_i=1|x_i;w)$ 是啥子，从外表来看，它是条件概率，在x、w的取值基础上 $y_i=1$ 的概率。而我们的对象是逻辑回归，逻辑回归函数又不能从其他地方引入，并且逻辑回归的值恰好为0到1，这很概率，所以从此引入逻辑回归函数就很舒服

$P(y_i=1|x_i;w)=\frac{1}{1+e^{w^Tx}}$
$P(y_i=0|x_i;w)=1-\frac{1}{1+e^{w^Tx}}=\frac{e^{w^{T}x}}{1+e^{w^Tx}}$

那么现在就将所有案例的概率值都累乘起来就是最终似然函数的形态了。
$L=\prod_{i=0}^{n}P(y_i|x_i;w)$
不要忘记我们的目的——求出梯度下降的公式。
一级展开：
$L=\prod_{i=0}^{n}(y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w))$
二级展开：
$L=\prod_{i=0}^{n}(y_i\frac{1}{1+e^{w^Tx_i}}+(1-y_i)\frac{e^{w^{T}x}}{1+e^{w^Tx}})$
然后同分母合并一下
$L=\prod_{i=0}^{n}(y_i+(1-y_i)e^{w^Tx_i})\frac{1}{1+e^{w^Tx_i}}$

还是有点复杂，我们再用对数化，把分子分母分开：
$lnL=\sum_{i=0}^{n}[ln(y_i+(1-y_i)e^{w^Tx_i})-ln(1+e^{w^Tx_i})]$

这个时候在观察一下
左边的东西，似乎有些有趣的性质，

$ln(y_i+(1-y_i)e^{w^Tx_i})=\left\{ \begin{aligned} &lny_i=0, &&y_i=1 \\ & lne^{w^Tx_i}=w^Tx_i ,&& y_i=0 \end{aligned} \right.$ ,
那么，就可以将其简化一下。
$ln(y_i+(1-y_i)e^{w^Tx_i})=(1-y_i)w^Tx_i$