线性回归、Lasso回归、岭回归、逻辑回归的损失函数

线性回归:
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2$
Lasso回归：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}|\theta|$
岭回归：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}\theta^2$
LR：
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[(1-y^{(i)})log(1-h(x^{(i)}))+y^{(i)}log(h(x^{(i)}))]$

推导LR

LR的损失函数推导

根据sigmoid函数的定义， $P(y=1|x,\theta)=h(x)$ ， $P(y=0|x,\theta)=1-h(x)$
因此， $P(y|x,\theta)=h(x)^y[1-h(x)]^{1-y}$ 。
目标是最大化 $P (y ∣ x)$ ，即最大化其对数。
令似然函数L= $P (y ∣ x)$ ， $l n L = y l o g (h (x) + (1 ? y) l o g (1 ? h (x))$ 。
损失函数求最小化，注意加负号： $J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h(x^{(i)}))+(1-y^{(i)})log(1-h(x^{(i)}))]$

LR的导数推导

对损失函数 $J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h(x^{(i)}))+(1-y^{(i)})log(1-h(x^{(i)}))]$ 求导：
$\begin{aligned} J'(\theta_j)&=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\frac{h'_{\theta}(x^{(i)})}{h(x^{(i)})}+(1-y^{(i)})\frac{h'_{\theta}(x^{(i)})}{1-h(x^{(i)})}]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\frac{h(x^{(i)})[1-h(x^{(i)})](x_j^{(i)})}{h(x^{(i)})}+(1-y^{(i)})\frac{h(x^{(i)})[1-h(x^{(i)})](x_j^{(i)})}{1-h(x^{(i)})}]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m[(y^{(i)}-h(x^{(i)}))x_j^{(i)}] \end{aligned}$
$\theta_j=\theta_j+\alpha\frac{1}{m}\sum_{i=1}^m[(y^{(i)}-h(x^{(i)}))x_j^{(i)}]$
对比线性回归对参数的导数： $J'(\theta_j)=\frac{1}{m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})x_j^{(i)}$
$\theta_j=\theta_j+\alpha\frac{1}{m}\sum_{i=1}^m[(y^{(i)}-h(x^{(i)}))x_j^{(i)}]$
可以发现二者虽然损失函数不同，但导数和梯度下降的公式却是相同的（神奇）