逻辑回归中的梯度下降

梯度下降法的作用是：在测试集上，通过最小化代价函数 $J (w, b)$ 来训练的参数 $w$ 和 $b$ 。
$w:=w-a\frac{\partial J(w,b)}{\partial w}$
$b:=w-a\frac{\partial J(w,b)}{\partial b}$
$: =$ 表示更新参数
$a$ 表示学习率（learning rate），用来控制步长（step）
$\partial$ 表示求偏导符号
$\frac{\partial J(w,b)}{\partial w}$ 是 $J (w, b)$ 对 $w$ 求偏导，代码使用 $d w$ 表示
$\frac{\partial J(w,b)}{\partial b}$ 是 $J (w, b)$ 对 $b$ 求偏导，代码使用 $d b$ 表示

单样本梯度下降

回想逻辑回归的公式定义：
$z={{w}^{T}}x+b$
$\hat{y}=a=\sigma (z)=\frac{1}{1+{{e}^{-z}}}$
损失函数： ${{{\hat{y}}}^{(i)}},{{y}^{(i)}})=-{{y}^{(i)}}\log {{\hat{y}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{\hat{y}}^{(i)}})$
代价函数： $J\left( w,b \right)=\frac{1}{m}\sum\nolimits_{i}^{m}{L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})}$
假设样本只有两个特征 ${{x}_{1}}$ 和 ${{x}_{2}}$ ，只考虑一个样本，为了计算 $z$ ，我们需要输入参数 ${{w}_{1}}$ 、 ${{w}_{2}}$ 和 $b$ ，还有特征值 ${{x}_{1}}$ 和 ${{x}_{2}}$ 。
$z={{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+b$
$L(a,y)=-(y\log (a)+(1-y)\log (1-a))$
其中 $a$ 是逻辑回归的输出， $y$ 是样本的标签值。
根据导数链式法则进行反向传播
$da=\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$
$\frac{da}{dz}=a\cdot (1-a)$
所以：
$dz=\frac{dL(a,y)}{dz}=(\frac{dL}{da})\cdot (\frac{da}{dz})=a-y$
$d{{w}_{1}}=\frac{\partial L}{\partial {{w}_{1}}}={{x}_{1}}\cdot dz$
$d{{w}_{2}}=\frac{\partial L}{\partial {{w}_{2}}}={{x}_{2}}\cdot dz$
$d b = d z$
更新 ${{w}_{1}}={{w}_{1}}-a d{{w}_{1}}$ ，
更新 ${{w}_{2}}={{w}_{2}}-a d{{w}_{2}}$ ，
更新 $b=b-\alpha db$ 。
这就是关于单个样本实例的梯度下降算法中参数更新一次的步骤。

向量化

向量化是非常基础的去除代码中for循环的艺术，在深度学习安全领域、深度学习实践中是提高代码运行速度非常关键的技巧。

python中向量化使用的常用指令
import numpy as np 
w= np.array(n(x), 1) 
u=np.zeros(n(x), 1)
c= np.dot(a,b)   #a和b矩阵乘法
u=np.log         #计算对数函数($log$)
u=np.abs()       #计算数据的绝对值
u=np.maximum(v, 0)   #按元素计算$v$中每个元素和和0相比的最大值

矩阵乘法的定义就是： $u_{i} =\sum_{j}^{}{A_{\text{ij}}v_{i}}$ ，这取决于你怎么定义 $u_{i}$ 值。同样使用非向量化实现， $u = n p . z e r o s (n, 1)$ ，并且通过两层循环 $f o r (i) : f o r (j) :$ ，得到 $u [i] = u [i] + A [i] [j] ? v [j]$ 。现在就有了 $i$ 和 $j$ 的两层循环，这就是非向量化。向量化方式就可以用 $u = n p . d o t (A, v)$ ，右边这种向量化实现方式，消除了两层循环使得代码运行速度更快。

多样本梯度下降

$z={{w}^{T}}x+b$ ， $w$ 、 $x$ 都是列向量

$z= w^{T}X + b = np.dot( w.T,X)+b$
$\sigma( Z )$
$d Z = A ? Y$
$\frac{1}{m}*X*dz^{T}\ }$
$\frac{1}{m}*np.sum( dZ)$
$w : = w ? a ? d w$
$b : = b ? a ? d b$
利用前五个公式完成了前向和后向传播，实现了对所有训练样本进行预测和求导，利用后两个公式，梯度下降更新参数。不使用for循环，通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要for循环，放在最外层。