IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习数学语言学习报告:第三天 -> 正文阅读

[人工智能]机器学习数学语言学习报告:第三天

累加、累乘与积分作业

  1. ∑ i ? m o d ? 2 = 0 x i \sum_{i\,mod\,2 =0}x_i imod2=0?xi??

  2. 问:求向量 X \textbf{X} X中非负分量的加权和,权重向量 W \textbf{W} W?非负

    答: ∑ x i ≥ 0 w i x i \sum_{x_i \geq 0}w_i x_i xi?0?wi?xi??

    问:将上式变为累乘形式

    答: ln ? ∏ x i ≥ 0 e w i x i \ln\prod_{x_i \geq 0} \mathrm{e}^{w_ix_i} lnxi?0?ewi?xi??

    问:?????求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度

    答: D K L ( P ∥ Q ) = ∫ ? ∞ ∞ p ( x ) ln ? p ( x ) q ( x ) ? d x \displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x DKL?(PQ)=??p(x)lnq(x)p(x)?dx?

  3. 三重累加的常用于计算三维张量的和,如图像的各类归一化方法(Batch Norm、Layer Norm 和 Group Norm)中求均值和方差的过程。

  4. 定积分 ∫ 0 π x sin ? x ? d x = π \int_0^\pi x \sin x \, \mathrm{d} x=\pi 0π?xsinxdx=π???的python求解程序为:

    import math
    delta = 0.01
    sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
    

    结果为3.141537512485255,误差小于1e-5。

线性回归作业

  1. 最小二乘法例子

    令函数 y = 3 x + 5 y=3x+5 y=3x+5 x x x取1,4,5, y ^ \hat{y} y^?的取值分别为9,16,19。

    建立线性模型 y ^ = f ( x ) = a x + b \hat{y} = f(x) = ax+b y^?=f(x)=ax+b,使用最小二乘法求系数 a a a b b b?。

    a = ∑ i = 1 3 x i y ^ i ? 3 x  ̄ y  ̄ ∑ i = 1 3 x i 2 ? 3 x  ̄ 2 ≈ 3.02 a=\frac{\sum^3_{i=1}x_i\hat{y}_i-3\overline{x}\overline{y}}{\sum_{i=1}^3x_i^2-3\overline{x}^2} \approx3.02 a=i=13?xi2??3x2i=13?xi?y^?i??3xy??3.02??

    b = y  ̄ ? a x  ̄ ≈ 4.59 b=\overline{y}-a\overline{x}\approx4.59 b=y??ax4.59?

  2. 岭回归推导

    优化目标为 arg ? min ? L ( w ) = arg ? min ? w ∥ X w ? Y ∥ 2 2 + λ ∥ w ∥ 2 2 \arg\min{\mathcal{L}(\mathbf{w})}= \underset{\mathbf{w}}{{\arg\min}}\|\mathbf{X}\mathbf{w}-\mathbf{Y}\|^2_2+\lambda\|\mathbf{w}\|^2_2 argminL(w)=wargmin?Xw?Y22?+λw22?

    L ( w ) = ( X w ? Y ) T ( X w ? Y ) + λ w T w = w T X T X w ? Y T X w ? w T X T Y + Y T + Y T Y + λ w T w \mathcal{L}(\mathbf{w})=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathsf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})+\lambda \mathbf{w}^{\mathsf{T}}\mathbf{w}=\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{Y}+\mathbf{Y}^{\mathsf{T}}+\mathbf{Y}^{\mathsf{T}}\mathbf{Y}+\lambda \mathbf{w}^{\mathsf{T}} \mathbf{w} L(w)=(Xw?Y)T(Xw?Y)+λwTw=wTXTXw?YTXw?wTXTY+YT+YTY+λwTw

    即令 ? L ? w = 2 X T X w ? X T Y ? X T Y ? 2 λ w = X T X w ? X T Y ? λ w = 0 \frac{\partial\mathcal{L}}{\partial\mathbf{w}}=2\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-2\lambda\mathbf{w}=\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\lambda\mathbf{w}=0 ?w?L?=2XTXw?XTY?XTY?2λw=XTXw?XTY?λw=0?

    因此 w = ( X T X + λ I ) ? 1 X T Y \mathbf{w}=(\mathbf{X}^{\mathsf{T}}\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^{\mathsf{T}}\mathbf{Y} w=(XTX+λI)?1XTY

Logistic 回归推导

x \textbf{x} x为输入, w \textbf{w} w为学习参数, y y y类别标签,使用sigmoid函数分类概率有
P ( y = 1 ∣ x ; w ) = 1 1 + e ? x w P(y = 1 \vert \mathbf {x}; \mathbf {w}) = \frac {1}{1 + e^{-\mathbf {xw}}} P(y=1x;w)=1+e?xw1?
统一 y i y_i yi?的不同取值(0 或 1):
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 ? P ( y i = 1 ∣ x i ; w ) ) 1 ? y i P\left(y_{i} \vert \mathbf{x}_{i} ; \mathbf{w}\right)=P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)^{y_{i}}\left(1-P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)\right)^{1-y_{i}} P(yi?xi?;w)=P(yi?=1xi?;w)yi?(1?P(yi?=1xi?;w))1?yi?
若数据共有 n n n个,总的概率为各个概率的乘积,即
P a l l = P ( y 1 ∣ x 1 ; w ) P ( y 2 ∣ x 2 ; w ) P ( y 3 ∣ x 3 ; w ) … P ( y n ∣ x n ; w ) = ∏ n = 1 n P ( y i ∣ x i ; w ) \begin{aligned} &P_{all}=P\left(y_{1} \vert \boldsymbol{x}_{1}; \mathbf{w}\right) P\left(y_{2} \vert \boldsymbol{x}_{2}; \mathbf{w}\right) P\left(y_{3} \vert \boldsymbol{x}_{3}; \mathbf{w}\right) \ldots P\left(y_{n} \vert \boldsymbol{x}_{n}; \mathbf{w}\right) \\ &=\prod_{n=1}^{n} P(y_i \vert \mathbf{x}_i; \mathbf{w}) \end{aligned} ?Pall?=P(y1?x1?;w)P(y2?x2?;w)P(y3?x3?;w)P(yn?xn?;w)=n=1n?P(yi?xi?;w)?优化目标为最大化上式
arg ? max ? w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \underset{\mathbf{w}}{\arg \max } L(\mathbf{w})=\prod_{i=1}^{n} P\left(y_{i} \vert\mathbf{x}_{i} ; \mathbf{w}\right) wargmax?L(w)=i=1n?P(yi?xi?;w)
可以通过两边取对数来把连乘变成连加,从而简化运算:
log ? L ( w ) = ∑ i = 1 n log ? P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ? P ( y i = 1 ∣ x i ; w ) + ( 1 ? y i ) log ? ( 1 ? P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ? P ( y i = 1 ∣ x i ; w ) 1 ? P ( y i = 1 ∣ x i ; w ) + log ? ( 1 ? P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w ? log ? ( 1 + e x i w ) \begin {aligned}\log L (\mathbf {w}) & = \sum_{i = 1}^n \log P (y_i \vert \mathbf {x}i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}))\\& = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)?=i=1n?logP(yi?xi;w)=i=1n?yi?logP(yi?=1xi?;w)+(1?yi?)log(1?P(yi?=1xi?;w))=i=1n?yi?log1?P(yi?=1xi?;w)P(yi?=1xi?;w)?+log(1?P(yi?=1xi?;w))=i=1n?yi?xi?w?log(1+exi?w)?
w \textbf{w} w求偏导得:
? log ? L ( w ) ? w = ∑ i = 1 n y i x i ? e x i w 1 + e x i w x i = ∑ i = 1 n ( y i ? e x i w 1 + e x i w ) x i \begin {aligned} \frac {\partial \log L (\mathbf {w})}{\partial \mathbf {w}} & = \sum_{i = 1}^n y_i \mathbf {x}_i - \frac {e^{\mathbf {x}_i \mathbf {w}}}{1 + e^{\mathbf {x}_i \mathbf {w}}} \mathbf {x}_i\\ & = \sum_{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned} ?w?logL(w)??=i=1n?yi?xi??1+exi?wexi?w?xi?=i=1n?(yi??1+exi?wexi?w?)xi??
令偏导为0得到迭代方程:
w t + 1 = w t ? α ? log ? L ( w ) ? w \mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wt?α?w?logL(w)?
该方法的特点为

  • 名字叫回归却常用于分类问题,利用sigmoid函数对问题建模,比线性函数更符合分类问题。
  • sigmoid函数任意阶可导,具有良好的数学性质,使得方法简单易实现,许多机器学习算法都会用到该函数。
  • 模型的可解释性好,特征的权重能反映不同特征对最后结果的影响。
  • 没有假设数据分布,具有更强的泛用性。
  • 输出为概率形式,可以用于辅助决策。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:38:10  更:2021-07-29 11:40:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:59:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码