[人工智能] 第二周作业：多层感知机

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 第二周作业：多层感知机 -> 正文阅读

[人工智能]第二周作业：多层感知机

2109060912

模型过拟合欠拟合

目标是发现模式，训练集所来自的潜在总体的规律。如何发现可以泛化的模式是机器学习的根本问题。

困难在于，当我们训练模型时，我们只能访问数据中的小部分样本。当我们使用有限的样本时，可能会遇到这样的问题：当收集到更多的数据时，会发现之前找到的明显关系并不成立。

将模型在训练数据上拟合得比在潜在分布中更接近的现象称为过拟合（overfitting），用于对抗过拟合的技术称为正则化（regularization）。如果有足够多的神经元、层数和训练迭代周期，模型最终可以在训练集上达到完美的精度，此时测试集的准确性却下降了。

训练误差和验证误差都很严重，但它们之间仅有一点差距。如果模型不能降低训练误差，这可能意味着我们的模型过于简单（即表达能力不足），无法捕获我们试图学习的模式。由于我们的训练和验证误差之间的泛化误差很小，我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合（underfitting）。

另一方面，当我们的训练误差明显低于验证误差时要小心，这表明严重的过拟合（overfitting）。注意，过拟合并不总是一件坏事。特别是在深度学习领域，众所周知，最好的预测模型在训练数据上的表现往往比在保留数据上好得多。最终，我们通常更关心验证误差，而不是训练误差和验证误差之间的差距。

训练误差和泛化误差

训练误差（training error）是指，我们的模型在训练数据集上计算得到的误差。泛化误差（generalization error）是指，当我们将模型应用在同样从原始样本的分布中抽取的无限多的数据样本时，我们模型误差的期望。

由于不能基于训练误差来估计泛化误差，因此简单地最小化训练误差并不一定意味着泛化误差的减小。机器学习模型需要注意防止过拟合，来使得泛化误差最小。
验证集可以用于模型选择，但不能过于随意地使用它。欠拟合是指模型无法继续减少训练误差。过拟合是指训练误差远小于验证误差。
我们应该选择一个复杂度适当的模型，避免使用数量不足的训练样本。

多层感知机

我们可以通过在网络中加入一个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。要做到这一点，最简单的方法是将许多全连接层堆叠在一起。每一层都输出到上面的层，直到生成最后的输出。把最后一层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron），通常缩写为MLP。
多层感知机在输出层和输入层之间增加一个或多个全连接的隐藏层，并通过激活函数转换隐藏层的输出。

定义一个灵活的程序算法，其输出由许多参数（parameter）决定。然后我们使用数据集来确定当下的“最佳参数集”，这些参数通过某种性能度量来获取完成任务的最佳性能。

1 从一个随机初始化参数的模型开始，这个模型基本毫不“智能”。
2 获取一些数据样本。
3 调整参数，使模型在这些样本中表现得更好。
4 重复第2步和第3步，直到模型在任务中的表现令你满意。

数据操作：1）获取数据；（2）在将数据读入计算机后对其进行处理

? 感知机是一个二分类模型，是最早的Al模型之一
? 它的求解算法等价于使用批量大小为1的梯度下降
? 它不能拟合XOR函数，导致的第一次 Al 寒冬

过拟合欠拟合
模型容量不是越大越好，随着模型容量增加训练误差会越来越小，但是泛化误差越来越大。
估计模型容量