开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习、人工智能、大数据学习中笔记 -> 正文阅读

[人工智能]机器学习、人工智能、大数据学习中笔记

学习中记得一些笔记：来源：李沐老师《动手学习深度学习_pytorch版本》、李航老师《统计学习方法》、葫芦娃《百面机器学习》《百面深度学习》、网络各种资料。现在是在做笔记，待做完以后再重新整理归类。实时更新。

代码实现

CrossEntropyLoss

$o_j$ 为为归一化预测的 $o$ 的第 $j$ 个元素。
$\hat y_j=softmax(o)=\frac{exp(o_j)}{\sum_{k}exp(o_k)}$
这里就会发现当 $o_j$ 足够大时数值会上溢出。一般处理方法是 $o_j-max(o)$ 。这样softmax公式就变成了:
$sofmax(o)=\frac{exp(o_j-max(o))}{\sum_{k}{exp(o_k-max(o))}}$
这样有效防止上溢出。
但对于之后求损失函数：
$l=-\sum_{k}{y_ilog(\hat y_i)}$
$l=-log(\hat y_i)$
当 $\hat y_i$ 足够小时便会下溢出那么对于原公式进行化简：
$l=-log(\frac{exp(o_j)}{\sum_{k}exp(o_k)})$
$l=-o_j+log({\sum_{k}exp(o_k)})$

实现nn.seqential

import torch
import torch.nn as nn
from torch.nn import functional as F


class MySequential(nn.Module):
    def __init__(self, *arg):
        super().__init__()
        for block in arg:
            self._modules[block] = block

    def forward(self, x):
        for block in self._modules.values():
            x = block(x)
        return x

验证

net = MySequential(nn.Linear(20, 30), nn.ReLU(), nn.Linear(30, 2))
x = torch.randn((2, 20))
net(x)

输出：

tensor([[ 0.2447, -0.0728],
        [ 0.0344, -0.3802]], grad_fn=<AddmmBackward0>)

这里需要注意nn.ReLU 和F.ReLU的区别。
$\acute x = \begin{cases} 1, & \text{$x$>threshold} \\ 0, & \text{$x$<threshold} \\ \end{cases}$

机器学习

准确率（Accuracy）精准率（Precision）召回率（Recall）均方根误差（RMSE）区别和局限

准确率： $Accuary=\frac{n_correct}{n_total}\quad$
当出现样本类别不平衡时这类方法无法有效区分、比如正样本1000个负样本10个只要预测时全为正样本就可以让正确率99%。
精准率：分类器分类正确的样本个数占分类器分为正样本中的比例。
召回率：分类正确的正样本数占正真正样本的数量的比例。
单独用精准率和召回率进行评估是不准确的，因此也引入了F1值。
$F1=\frac{2\times precision\times recall}{precision+recall}\quad$
$RMSE=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{n}\quad}$ 因为RMSE对于较大的离群样本会非常敏感即使模型效果较好但当遇见较少的离群较远样本也会使得RMSE值很差。
为此可以使用平均绝对比五擦汗提高鲁棒性。
$MAPE=\sum_{i=1}^n\mid\frac{y_i-\hat{y_i}}{y_i}\mid \times \frac{100}{n}$ 该方法相当于对每个误差点进行归一化。

生成方法和判别方法区别

判别方法：数据直接学习决策函数f(x)或者条件概率分布 $p (y ∣ x)$ 作为预测模型。该方法关心给定输入x，应该预测什么样的输出y。（KNN、感知机、决策树、逻辑斯蒂回归、SVM等）
生成方法：生成模型由数据学生西联合概率分布 $p (x, y)$ 然后求出概率条件分布 $p (y ∣ x)$ 作为预测模型。模型表示了给定输入x产生输出y的生成关系（朴素贝叶斯法和隐马尔可夫模型）

过拟合应该如何处理

两种方法：

基于模型：
简化模型（非线性模型变为线性模型）、添加约束（结构风险最小化、正则化）、集成学习、Dropout超参数等。
基于数据：
数据扩充：对原始数据适当变换达到扩充数据的效果。

对于类别数据应该如何处理

常用的三种方法：

序号编码：比如衣服尺码三种s,m,l分别为1，2，3
one-hot：分别为(1,0,0)，(0,1,0)，(0,0,1)
二进制编码：分别为(0,1)，(1,0)，(1,1)

除此以外还有Helmert Contrast、Sum Contrast、Polynomial Contrast等。

KL散度是什么

又称相对熵、是衡量相同空间中两个概率分布相对差距的测度。两个概率 $p (x)$ 和 $q (x)$ 的KL散度为：

$D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\quad$

交叉熵是什么、

用于衡量估计模型和真是概率分布之间的差异。
随机变量 $X\backsim p(x)$ ，模型 $q (x)$ 用于近似 $p (x)$ 的分布，
$H(X,q)=H(X)+D(p||q)\\=-\sum_{x\in X}p(x)logq(x)\\=E_p(log\frac1{q(x)})$

人工智能、机器学习、深度学习区别

人工智能泛指让机器具有人的智力的技术。
机器学习指计算机通过观察环境（学习数据特征）自我更新进步。
深度学习是机器学习的一种方法。基于神经网络。

特征工程是什么

对原始数据进行处理将其提炼为特征。从本质上讲特征工程是一个表现和展示数据的过程。实际工作生产中，特征工程指的是去除原始数据中的杂质和冗余。

为什么要做归一化、哪些类型数据需要做

是各个特征之间具有可比性（统一量纲）。使模型能够更容易通过梯度下降找到最优解。
在这里插入图片描述上图来源

主要方法有线性归一化。
$\acute x=\frac{x-x_{min}}{x_{max}-x_{min}}\quad$
标准化有些地方也叫零均值归一化
$\acute x=\frac{x-\bar x}{\sigma}\quad$
使用场景：

对输出范围有要求
数据较稳定，不存在极端最大值或最小值。
存在异常值或者较多噪声使用标准化，通过中心化避免异常值和极端值影响。
SVM,KNN,PCA等模型必须进行归一化或者标准化。

决策树不需要归一化因为其计算的是信息增益比，信息增益比和特征是否归一化无关。

归一化和标准化区别

归一化会改变数据的原始距离、分布和信息。标准化不会。

深度学习

深度学习优势

能够处理人们并不完全懂得问题，也更加擅长处理含噪声或不完全的数据。

卷积网络

什么是感受野、怎样计算感受野

对于某层输出特征图上某个点，在卷积网络的原始输入数据上能够影响到这个点的取值的区域。

一维卷积是什么

普通卷积可以转化为矩阵乘法。
$y = A x$
x,y为卷的输入输出（展平为一维向量的形式）维度分别为 $d^{(i)}和 d^{o}$ ，A是由卷积核、滑动步长决定的长对角矩阵维度为 $d^{0}\times d^{i}$ ，其每一行对应着卷积核的一次滑动位置。
定义一维输入向量 $x=[a,b,c,d,e,f,g]^T$ ，卷积核为 $K = [x, y, z]$ ,设卷积的滑动步长为2，则输出向量为：
$y=\begin{bmatrix} ax+by+cz \\ cx+dy+ez \\ ex+fy+gz\\ \end{bmatrix}=\begin{bmatrix} x&y&y&z&0&0&0&0 \\0&0&x&y&y&z&0&0\\ 0&0&0&0&x&y&y&z\\ \end{bmatrix}\begin{bmatrix} a\\ b\\ c\\ d\\e\\f\\g\\\end{bmatrix}\\=Ax$

卷积网络变种有哪些

分组卷积：将输入通道和输出通道都划分为同样的组数，然后让处于相同组号的输入输出通道互相进行“全连接”。记 $g$ 为输入\输出通道所分的组数，则其参数量和计算量都降低为普通卷积的 $1 / g$ 。
转置矩阵：普通卷积为 $y = A x$ 记 $A^T$ 为矩阵 $A$ 的转置，定义转置卷积运算为： $\hat{y}=A^T\hat{x}$
$\hat{x}和\hat{y}$ 为转置卷积的输入和输出。起作用：1.转置卷积能够将普通卷积中输入到输出的尺寸变换逆反。2.转置卷积的信息正向传播与普通卷积的反向传播所用矩阵相同。实现对特征图进行扩展或者上采样。
空洞卷积：在不使用池化的情况下扩大感受野。

卷积网络和全连接层的区别

MLP是输出层每个节点于输入层每个节点都有连接。
卷积神经网络具有局部连接和权值共享
卷积核通过对输入的多通道特征图进行扫描和运算。
在这里插入图片描述

局部链接：因为卷积核尺寸小于输入的特征图尺寸，所以输出层的每个节点都只和输入层的部分节点相关，这与生物视觉信号相似，存在一个感受野的概念。全连接层中节点之间的连接时稠密的。
权值共享：因为卷积核参数一致是的在输出层上不同位置的节点与输入层权值连接都一样。全连接层中不同节点连接权值不同。
为什么要权值共享：百度百科：另外，换个角度理解为什么权值要固定，比如我有个曲线的特征过滤器，那么这个过滤器在扫描全图的时候，我们想要提取出所有的曲线区域，是不是这个过率器不能变？如果在上半部分过滤器是曲线，到下半部分变成了直线，那么在图像上下区域内提取出来的曲线特征是真正的曲线吗？个人认为从这个直白的角度更容易理解。
百面深度学习：权值共享降低内存和计算复杂度。
输入/输出数据结构化：在输入输出时保持原始数据的结构、空间对应特征。（二维图像进入全连接层会损失数据与原始数据结构上的对应）

卷积神经网络基本操作

自然语言处理

自然语言中如何计算交叉熵

$H(L,q)=-\lim_{n \to \infty}\frac{1}{n}\quad\sum_{x_1^n}p(x_1^n)logq(x_1^n)$
$x_1^n=x_1,x_2,\ldots,x_n$ 为L词序列。 $p(x_1^n)$ 为为模型q对 $x_1^n$ 的概率估计。当L为稳态的遍历性随机时。
$H(L,q)\approx-\lim_{n \to \infty}\frac{1}{n}logq(x_1^n)$