机器学习知识简要总结

监督学习：给算法一个数据集，其中包含正确答案（有标记），数据集中的每个样本都给出正确答案，算法的目的是给出更多的正确答案。
无监督学习：对于给定的数据集，在未给出正确答案（无标记）的情况下将其分为不同的类，比如聚类算法。
回归：设法预测连续值的输出。
分类：预测离散值的输出。

线性回归:
拟合曲线Hypothesis： $y=\theta_0+\theta_1x$
平方误差代价函数Cost function： $J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$ ， $m$ 为点的个数， $y^i$ 为真实值， $y\left(x^i\right)$ 表示函数值。
目标Goal： $J(\theta_0,\theta_1)$

梯度下降法

$\theta_j:=\theta_j-\alpha\frac{\partial }{\partial \theta_j}J(\theta_0,\theta_1) \quad (for \quad j=0 \quad and \quad j=1)$
$\alpha$ 表示学习率，用来控制梯度下降步子大小。先计算 $\theta_0$ 和 $\theta_1$ ，再同时更新 $\theta_0$ 和 $\theta_1$ ，不能先计算 $\theta_0$ ，再带回式子计算 $\theta_1$ 。
在梯度下降的过程中，当接近极值时，导数值会自动变的越来越小。

矩阵和向量

矩阵Matrix：行数×列数。
$A_{ij}$ ： $i^{th}$ row， $j^{th}$ column
向量Vector：n×1 matrix
例： $h_\theta(x) = -40+0.25x$ ，x值：2 3 4 5
$\begin{bmatrix} 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{bmatrix} × \begin{bmatrix} -0.40 \\ 0.25 \end{bmatrix} = \begin{bmatrix} -40×1+2×0.25 \\ -40×1+3×0.25 \\ -40×1+4×0.25 \\ -40×1+5×0.25 \end{bmatrix}$
矩阵乘法特征：
一般情况下， $\neq B×A$ 。特殊： $A \times I = I \times A = A$ ， $I$ 为单位矩阵。
结合律
单位矩阵Identity Matrix： $I_{n×n}$ 例如：
$\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ $\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 &0 \\ 0 & 0 & 1 \end{bmatrix}$
矩阵的逆运算： $AA^{-1}=A^{-1}A=I$ 。
没有逆矩阵的矩阵叫做奇异矩阵，例如零矩阵。
矩阵转置Matrix Transpose：设 $A$ 是 $m \times n$ 的矩阵， $B=A^T$ ，则 $B$ 为 $n \times m$ 的矩阵，并且 $B_{ij}=A_{ij}$

多元线性回归：

多特征向量： $n$ = 特征个数， $x^{(i)}$ 表示第 $i$ 组特征向量， $x_j^{(i)}$ = 第 $i$ 个特征向量的第 $j$ 个特征的值。
拟合函数Hypothesis： $h_\theta(x)=\theta^Tx=h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$
参数Parameters： $\theta_0,\theta1,...,\theta_n$
代价函数Cost Function： $J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

特征缩放Feature Scaling：将特征值缩小到-1到1之间，目的是为了使梯度下降的收敛速度更快，迭代次数更少。
均值归一化Z-Score：将 $x_i$ 变为 $\frac{x_i-\mu_i}{\sigma}$ , $\sigma$ 为该特征的标准差。

正规方程Normal equation

$X$ 是一个 $m \times (n + 1)$ 的矩阵，m表示样本的个数，n表示特征个数， $y$ 是一个m维的向量，则可通过式子： $\theta=(X^TX)^{-1}X^Ty$ 计算 $\theta$ 参数。
当 $\frac{\partial}{\partial\theta_j}J(\theta)=0(j=1,2,...,n)$ 时，求出的n个参数 $\theta_j$ 就是最合理的参数，即能使代价函数最小的参数。
正规方程与梯度下降法的区别：
正规方程不需要选择学习率，也不需要迭代，但是对于多特征来说计算量很大，比如当有上万个特征时。而梯度下降法需要选择学习率和多次迭代，但适合于多特征。

logistic回归

Sigmoid function/Logistic function： $g(z)=\frac{1}{1+e^{-z}}$ 只要z大于0，则g(z)就会大于0.5，预测值为1，小于0.5，预测值为0.
如何选择参数 $\theta$ ？假设 $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
代价函数： $Cost(h_\theta(x),y)=\begin{cases} -log(h_\theta(x)) &\text{if } y=1 \\ -log(1-h_\theta(x)) &\text{if } y=0 \end{cases}$
可简化为： $Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$

过拟合问题

减少过拟合现象：
1、减少选取变量的数量：选取重要的变量。
2、正则化：保留所有特征变量，但是减少量级或参数\theta的大小。

正则化

正则化：修改代价函数中参数大小——在代价函数后面加一个正则化项，以缩小每一个参数。因为有正则化参数的存在，为了让代价函数最小化，必须让对应的参数尽可能的小甚至趋于0。
$J\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{m}\theta_j^2]$ ，不给 $\theta_0$ 添加项。如果正则化参数 $\lambda$ 太大，则会使代价函数的参数几乎接近于0，容易产生欠拟合现象。
线性回归正则化：
1.梯度下降： $\theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{{i}}$
$\theta_j=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{{i}}$
2.正规方程(不要求掌握)： $\theta=(X^TX+\lambda\begin{bmatrix} 0 & 0 &... &0 \\ 0 & 1 & ... & 0 \\ & & ... \\ ... & ... & ... & 1 \end{bmatrix} )^{-1}X^Ty$ 计算 $\theta$ 参数。
当 $\frac{\partial}{\partial\theta_j}J(\theta)=0(j=1,2,...,n)$
逻辑回归正则化：
代价函数： $J(\theta)=-\frac{1}{m}[\sum_{i=1}^my^{(i)}log(h_\theta(x^{(i)}))-(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$

卷积神经网络

前向传播：逻辑回归。
在这里插入图片描述
卷积神经网络中的代价函数：

代价函数最小化：反向传播Backpropagation

总误差对权重求偏导
注意！！不懂可以看这篇文章：https://blog.csdn.net/weixin_38347387/article/details/82936585

卷积神经网络训练步骤：
1.随机初始化权重，通常把权重初始化为很小的值，接近于0。
2.执行前向传播算法。
3.计算代价函数。
4.反向传播。
5.使用梯度检查比较已经计算得到的偏导数项，将反向传播得到的篇导数值与用数值方法得到的估计值进行比较。
6.用梯度下降算法或者更高级的优化算法和反向传播算法进行结合，来最小化代价函数。