累加、累乘与积分作业

$\sum_{i\,mod\,2 =0}x_i$ ?
问：求向量 $\textbf{X}$ 中非负分量的加权和，权重向量 $\textbf{W}$ ?非负

答： $\sum_{x_i \geq 0}w_i x_i$ ?

问：将上式变为累乘形式

答： $\ln\prod_{x_i \geq 0} \mathrm{e}^{w_ix_i}$ ?

问：?????求真实概率分布 $P$ 与近似概率分布 $Q$ 的KL散度

答： $\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x$ ?
三重累加的常用于计算三维张量的和，如图像的各类归一化方法（Batch Norm、Layer Norm 和 Group Norm）中求均值和方差的过程。
定积分 $\int_0^\pi x \sin x \, \mathrm{d} x=\pi$ ???的python求解程序为：
```
import math
delta = 0.01
sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
```
结果为3.141537512485255，误差小于1e-5。

线性回归作业

最小二乘法例子

令函数 $y = 3 x + 5$ ， $x$ 取1，4，5， $\hat{y}$ 的取值分别为9，16，19。

建立线性模型 $\hat{y} = f(x) = ax+b$ ，使用最小二乘法求系数 $a$ 和 $b$ ?。

$a=\frac{\sum^3_{i=1}x_i\hat{y}_i-3\overline{x}\overline{y}}{\sum_{i=1}^3x_i^2-3\overline{x}^2} \approx3.02$ ??

$b=\overline{y}-a\overline{x}\approx4.59$ ?
岭回归推导

优化目标为 $\arg\min{\mathcal{L}(\mathbf{w})}= \underset{\mathbf{w}}{{\arg\min}}\|\mathbf{X}\mathbf{w}-\mathbf{Y}\|^2_2+\lambda\|\mathbf{w}\|^2_2$

$\mathcal{L}(\mathbf{w})=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathsf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})+\lambda \mathbf{w}^{\mathsf{T}}\mathbf{w}=\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{Y}+\mathbf{Y}^{\mathsf{T}}+\mathbf{Y}^{\mathsf{T}}\mathbf{Y}+\lambda \mathbf{w}^{\mathsf{T}} \mathbf{w}$

即令 $\frac{\partial\mathcal{L}}{\partial\mathbf{w}}=2\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-2\lambda\mathbf{w}=\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\lambda\mathbf{w}=0$ ?

因此 $\mathbf{w}=(\mathbf{X}^{\mathsf{T}}\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^{\mathsf{T}}\mathbf{Y}$

Logistic 回归推导

$\textbf{x}$ 为输入， $\textbf{w}$ 为学习参数， $y$ 类别标签，使用sigmoid函数分类概率有
$\vert \mathbf {x}; \mathbf {w}) = \frac {1}{1 + e^{-\mathbf {xw}}}$
统一 $y_i$ 的不同取值（0 或 1）：
$P\left(y_{i} \vert \mathbf{x}_{i} ; \mathbf{w}\right)=P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)^{y_{i}}\left(1-P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)\right)^{1-y_{i}}$
若数据共有 $n$ 个，总的概率为各个概率的乘积，即
$\begin{aligned} &P_{all}=P\left(y_{1} \vert \boldsymbol{x}_{1}; \mathbf{w}\right) P\left(y_{2} \vert \boldsymbol{x}_{2}; \mathbf{w}\right) P\left(y_{3} \vert \boldsymbol{x}_{3}; \mathbf{w}\right) \ldots P\left(y_{n} \vert \boldsymbol{x}_{n}; \mathbf{w}\right) \\ &=\prod_{n=1}^{n} P(y_i \vert \mathbf{x}_i; \mathbf{w}) \end{aligned}$ 优化目标为最大化上式
$\underset{\mathbf{w}}{\arg \max } L(\mathbf{w})=\prod_{i=1}^{n} P\left(y_{i} \vert\mathbf{x}_{i} ; \mathbf{w}\right)$
可以通过两边取对数来把连乘变成连加，从而简化运算：
$\begin {aligned}\log L (\mathbf {w}) & = \sum_{i = 1}^n \log P (y_i \vert \mathbf {x}i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}))\\& = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned}$
对 $\textbf{w}$ 求偏导得：
$\begin {aligned} \frac {\partial \log L (\mathbf {w})}{\partial \mathbf {w}} & = \sum_{i = 1}^n y_i \mathbf {x}_i - \frac {e^{\mathbf {x}_i \mathbf {w}}}{1 + e^{\mathbf {x}_i \mathbf {w}}} \mathbf {x}_i\\ & = \sum_{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned}$
令偏导为0得到迭代方程：
$\mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}$
该方法的特点为