1、什么是神经网络

$\qquad$ 一个关于房价预测的简单神经网络示意图如下图所示：
在这里插入图片描述
$\qquad$ 其中，最左测的所有特征称为输入层(Input layer)，中间一层称为全连接层(dense layer)，最右侧一层称为输出层(output layer)。

2、使用神经网络做监督学习

$\qquad$ 使用神经网咯做监督学习的使用案例如下所示：
在这里插入图片描述
$\qquad$ 基本神经网络，卷积神经网络(CNN)和循环神经网络(RNN)的示意图如下图所示：

$\qquad$ 结构化数据： 每一个特征的数据都能都被准确地进行量化，如房价，房间数量；用户年龄，用户ID，etc。
$\qquad$ 非结构化数据： 当输入的信息时声音，图片或者文本时，特征的数据无法准确地进行量化，如图像可以使用像素，文本可以使用单次编码。

3、使用神经网络做逻辑回归

$\qquad$ 加入我们现在的目标是通过二元分类来判断某张图片是否中的图像是否是“猫”，则首先需要将图片的像素值提取出来作为神经网络的输入特征向量，假如一幅图片的大小为64×64个像素点，而每一个像素点又包括红黄蓝三种色彩，将所有的像素点伸缩称为一个特征向量x，则x的大小为64×64×3。
在这里插入图片描述

3.1 符号定义

$\qquad$ 单个样本 $\in R^n, y \in \{0,1\}$ ，其中x表示特征向量，y表示真值。
$\qquad$ $m$ 个训练样本： ${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)}), \}$ ；
$\qquad$ 所有特征组成的向量集合 $X=[x^{(1)},x^{(2)},...,x^{(m)}], X \in R^{(n × m)}$ ；
$\qquad$ 所有真值的集合 $Y=[y^{(1)},y^{(2)},...,y^{(m)}]$

3.2 逻辑回归模型

$\qquad$ 给定一组训练数据，需要预测 $\hat{y}=P(y=1|x)$ ；给定参数： $\in R^{n}, b \in R^{n}$ ；输出预测值 $\hat{y}=\sigma(w^Tx+b)$ 。其中， $sigmoid=\frac{1}{1+e^{-z}}$ 函数图像如下所示：
在这里插入图片描述
$\qquad$ 逻辑回归模型使用交叉熵误差： $L(\hat{y},y)=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$ ，使用交叉熵误差的原因如下所示：

$\qquad$ 逻辑回归的成本函数如下所示： $J(w,b)=\frac{1}{m}\sum_{i=1}^{m}{L(\hat{y},y)}$

3.3 使用梯度下降训练神经网络

$\qquad$ 神经网络的成本函数是 $J (w, b)$ ，目标是选择合适的参数 $w, b$ 使得成本函数 $J (w, b)$ 尽可能地小，所以使用梯度下降时，首先需要计算 $J (w, b)$ 关于参数 $w, b$ 的偏导数，之后让参数 $w, b$ 沿着导数的方向进行移动，直到算法收敛。参数 $w, b$ 更新的方式如下所示： $w:=w-\alpha \frac{\partial J(w,b)}{\partial w}\\ b:=b-\alpha \frac{\partial J(w,b)}{\partial b}$