IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习损失函数之似然函数 -> 正文阅读

[人工智能]机器学习损失函数之似然函数

似然函数定义——Adeshen原创:Maybe人工智能作业

  • 顾名思义,似然似然,即是可能Maybe好像,就是像某个东西的可能性。在统计学上定义为给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。

  • 似然函数在推断统计学(Statistical inference)中扮演重要角色,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。

      你们看懂了吗,反正我没弄清概率和似然的区别。所以我就都理解成概率
    

逻辑回归中的似然损失函数

  • 逻辑回归为什么使用似然损失,而不是使用均方损失,大概是均方损失函数导出来梯度下降公式的十分丑陋,导致运算量巨大。

    m i n E ( x ) = 1 n ∑ i = 0 n ( g ( w T x i ) ? y i ) 2 minE(x)=\frac{1}{n}\sum_{i=0}^n(g(w^Tx_i)-y_i)^2 minE(x)=n1?i=0n?(g(wTxi?)?yi?)2
    而逻辑回归函数又长这样 g ( w T x i ) = 1 1 + e w T x g(w^Tx_i)=\frac{1}{1+e^{w^Tx}} g(wTxi?)=1+ewTx1?

外导一个2还可以,内导就恶心了,直接一个分式指数,不知道你们算这个心情如何,反正我是吃不下饭了。
? E ? w = ? 1 n ∑ i = 0 n 2 ( 1 1 + e w T x ? y i ) ( 1 + e w T x ) ? 2 e w T x x i \frac{\partial E}{\partial w}=-\frac{1}{n}\sum_{i=0}^n2(\frac{1}{1+e^{w^Tx}}-y_i)(1+e^{w^Tx})^{-2}e^{w^Tx}x_i ?w?E?=?n1?i=0n?2(1+ewTx1??yi?)(1+ewTx)?2ewTxxi?

这能忍吗,就算咱们忍的下去,cpu也忍不了啊,所以方差损失就被无情抛弃

然后需要一个更加美丽的损失函数登场了——似然函数

似然函数

  • 首先得先知道逻辑回归是为了解决01问题
    知道这个我们就能三下五除二写出它似然函数的一小小块

P ( y i ∣ x i ; w ) = y i P ( y i = 1 ∣ x i ; w ) + ( 1 ? y i ) P ( y i = 0 ∣ x i ; w ) P(y_i|x_i;w)=y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w) P(yi?xi?;w)=yi?P(yi?=1xi?;w)+(1?yi?)P(yi?=0xi?;w)

  1. y i = 1 y_i=1 yi?=1就是左边那个 P ( y i = 1 ∣ x i ; w ) P(y_i=1|x_i;w) P(yi?=1xi?;w)有效,
  2. y i = 0 y_i=0 yi?=0就是右边那个 P ( y i = 0 ∣ x i ; w ) P(y_i=0|x_i;w) P(yi?=0xi?;w)有效

哇,小小一个 y i y_i yi?竟然有如此妙用,当然这一切都建立在 y i y_i yi?只能取0或1,要取个0到1就麻烦了.
然后问题来了,这个 P ( y i = 1 ∣ x i ; w ) P(y_i=1|x_i;w) P(yi?=1xi?;w)是啥子,从外表来看,它是条件概率,在x、w的取值基础上 y i = 1 y_i=1 yi?=1的概率。而我们的对象是逻辑回归,逻辑回归函数又不能从其他地方引入,并且逻辑回归的值恰好为0到1,这很概率,所以从此引入逻辑回归函数就很舒服

P ( y i = 1 ∣ x i ; w ) = 1 1 + e w T x P(y_i=1|x_i;w)=\frac{1}{1+e^{w^Tx}} P(yi?=1xi?;w)=1+ewTx1?
P ( y i = 0 ∣ x i ; w ) = 1 ? 1 1 + e w T x = e w T x 1 + e w T x P(y_i=0|x_i;w)=1-\frac{1}{1+e^{w^Tx}}=\frac{e^{w^{T}x}}{1+e^{w^Tx}} P(yi?=0xi?;w)=1?1+ewTx1?=1+ewTxewTx?

那么现在就将所有案例的概率值都累乘起来就是最终似然函数的形态了。
L = ∏ i = 0 n P ( y i ∣ x i ; w ) L=\prod_{i=0}^{n}P(y_i|x_i;w) L=i=0n?P(yi?xi?;w)
不要忘记我们的目的——求出梯度下降的公式。
一级展开:
L = ∏ i = 0 n ( y i P ( y i = 1 ∣ x i ; w ) + ( 1 ? y i ) P ( y i = 0 ∣ x i ; w ) ) L=\prod_{i=0}^{n}(y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w)) L=i=0n?(yi?P(yi?=1xi?;w)+(1?yi?)P(yi?=0xi?;w))
二级展开:
L = ∏ i = 0 n ( y i 1 1 + e w T x i + ( 1 ? y i ) e w T x 1 + e w T x ) L=\prod_{i=0}^{n}(y_i\frac{1}{1+e^{w^Tx_i}}+(1-y_i)\frac{e^{w^{T}x}}{1+e^{w^Tx}}) L=i=0n?(yi?1+ewTxi?1?+(1?yi?)1+ewTxewTx?)
然后同分母合并一下
L = ∏ i = 0 n ( y i + ( 1 ? y i ) e w T x i ) 1 1 + e w T x i L=\prod_{i=0}^{n}(y_i+(1-y_i)e^{w^Tx_i})\frac{1}{1+e^{w^Tx_i}} L=i=0n?(yi?+(1?yi?)ewTxi?)1+ewTxi?1?

还是有点复杂,我们再用对数化,把分子分母分开:
l n L = ∑ i = 0 n [ l n ( y i + ( 1 ? y i ) e w T x i ) ? l n ( 1 + e w T x i ) ] lnL=\sum_{i=0}^{n}[ln(y_i+(1-y_i)e^{w^Tx_i})-ln(1+e^{w^Tx_i})] lnL=i=0n?[ln(yi?+(1?yi?)ewTxi?)?ln(1+ewTxi?)]

这个时候在观察一下
左边的东西,似乎有些有趣的性质,

l n ( y i + ( 1 ? y i ) e w T x i ) = { l n y i = 0 , y i = 1 l n e w T x i = w T x i , y i = 0 ln(y_i+(1-y_i)e^{w^Tx_i})=\left\{ \begin{aligned} &lny_i=0, &&y_i=1 \\ & lne^{w^Tx_i}=w^Tx_i ,&& y_i=0 \end{aligned} \right. ln(yi?+(1?yi?)ewTxi?)={?lnyi?=0,lnewTxi?=wTxi?,??yi?=1yi?=0?,
那么,就可以将其简化一下。
l n ( y i + ( 1 ? y i ) e w T x i ) = ( 1 ? y i ) w T x i ln(y_i+(1-y_i)e^{w^Tx_i})=(1-y_i)w^Tx_i ln(yi?+(1?yi?)ewTxi?)=(1?yi?)wTxi?

简化完成

带入原来的式子
l n L = ∑ i = 0 n [ ( 1 ? y i ) w T x i ? l n ( 1 + e w T x i ) ] lnL=\sum_{i=0}^{n}[(1-y_i)w^Tx_i-ln(1+e^{w^Tx_i})] lnL=i=0n?[(1?yi?)wTxi??ln(1+ewTxi?)]

然后呢就可以开始求w的偏导了
? ( l n L ) ? w = ∑ i = 0 n [ ( 1 ? y i ) x i ? x i 1 + e w T x i ] = ∑ i = 0 n [ ] \frac{\partial (lnL)}{\partial w}=\sum_{i=0}^{n}[(1-y_i)x_i-\frac{x_i}{1+e^{w^Tx_i}}] =\sum_{i=0}^{n}[] ?w?(lnL)?=i=0n?[(1?yi?)xi??1+ewTxi?xi??]=i=0n?[]

剩下的交给你们…

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-22 20:35:19  更:2022-03-22 20:39:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 1:21:27-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码