IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 为什么交叉熵，极大似然，最小二乘能做损失函数？ -> 正文阅读

[数据结构与算法]为什么交叉熵，极大似然，最小二乘能做损失函数？

最小二乘

$Loss=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2$

极大似然估计法如何做损失函数？

什么是极大似然估计法？

似然值是指真实的情况已经发生，我们假设事件有很多概率模型，然后根据概率模型计算真实情况发生的概率。这个概率就叫似然值。

假设投硬币事件，现实世界投十次硬币，7正三反。我们假设理念世界有三个概率模型，分别为

正0.1反0.9
正0.7反0.3
正0.8反0.2

根据这三个概率模型，我们计算现实世界7正3反发生的概率。

$0.1^7·0.9^3$
$0.7^7·0.3^3$
$0.8^7·0.2^3$

上面这三个值就是似然值。

有了似然值的概念，最大似然估计法就自然而然产生了。
- 硬币既然投出了7正3反的结果。那这个硬币它本来的概率模型，虽然我们永远无法准确的确定。但是选择似然值最大的，那这个似然值对应的概率模型就理所应当更靠近硬币原本的概率模型。
这就是极大似然估计法

总结

所以当我们知道事情发生的结果，去反推产生这个结果的概率模型的时候，往往就会用到极大似然估计法。所以极大似然估计法就是在计算神经网络里面的概率模型的似然值。

公式推导

根据上述的投硬币的例子，可以用公式表示 $P(C_1C_2C_3,...,C_{10}|\theta)$ ，其中 $C_i$ 是现实投一次硬币事件。 $\theta$ 是我们假设的概率模型。现在我们将其对应于神经网络

$P_{NN}=P(y_1,y_2,y_3,...,y_m|W,b)$

这表示在 $W, b$ 概率模型下，现实事件 $y_1,...,y_m$ 发生的概率。所以:

$P_{NN}=\prod_{i=1}^mP(y_i|W,b)$

举个例子，如果此时有一个神经网络用来判断某张照片是不是猫。假设有五张照片，现实我们判断三张是猫二张不是。那上述的公式，就是来表示在 $W ， b$ 的情况下，发生三张是猫二张不是的概率。这个结果就是该神经网络的似然值。当这个似然值最大的时候，我们就可以认定W,b确定的概率模型就是"完美神经网络"的本来的概率模型（这里的完美是指跟人脑一样能够完美判断是否是猫的）

我们知道 $W ， b$ 可以判断输入的张片是否是猫的概率，我们假设神经模型输出的值为 $\hat{y_i}$ 。则

$P_{NN}=\prod_{i=1}^mP(y_i|\hat{y_i})$

其次，我们知道 $y_i$ 要么是0，要么是1。也就是说 $y_i$ 符合伯努利分布:

$f(x)=p^x(1-p)^{1-x}=\begin{dcases} p, \enspace x=1 \\ 1-p \enspace, x=0 \end{dcases}$

所以我们能将 $P_{NN}$ 展开为

$P_{NN}=\prod_{i=1}^m\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i})$

最后，我们习惯上喜欢连加(也有可能是求导方便）。我们对 $P_{NN}$ 求对数(log不改变单调性)

$logP_{NN}=\sum_{i=1}^mlog(\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i}))\\=\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}})$

回到原本，我们的目的是求似然值最大，所以我们只要求得 $max logP_{NN}$ 。但是在计算的时候我们更习惯求最小值(优化问题)，我们会加个负号，求最小值。

$\min logP_{NN}=\min -\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}})$

到这里是不是就非常眼熟了？这就是为什么会有极大似然估计法作为损失函数的原因。

交叉熵如何做损失函数?

看这一部分时，需要前置知识。

$\\=\sum_{i=1}^np_i·(-log_2^{q_i})\\=\sum_{i=1}^ny_i·(-log_2^{\hat{y_i}})$

其中，有一点要知道 $y_i$ 的取值是有两种的： $\enspace or \enspace 0$ ，所公式可以继续演变成

$=-\sum_{i=1}^m(y_i·log_2^{\hat{y_i}}+(1-y_i)log_2^{1-\hat{y_i}})$

其中，左半部分是模型判断整例时候的损失，右半部分是判断反例的时候的损失。因为 $log_2^{\hat{y_i}}$ 是模型判断样本 $x_i$ 是正例的信息量，所以 $log_2^{1-\hat{y_i}}$ 就是模型判断 $x_i$ 是反例的信息量了。

数据结构与算法最新文章

【力扣106】从中序与后续遍历序列构造二叉

leetcode 322 零钱兑换

哈希的应用：海量数据处理

动态规划|最短Hamilton路径

华为机试_HJ41 称砝码【中等】【menset】【

【C与数据结构】——寒假提高每日练习Day1

基础算法——堆排序

2023王道数据结构线性表--单链表课后习题部

LeetCode 之反转链表的一部分

【题解】lintcode必刷50题＜有效的括号序列

上一篇文章下一篇文章查看所有文章

加:2021-10-20 12:44:30 更:2021-10-20 12:45:50

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/1 22:08:44-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码