开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习概述 -> 正文阅读

[人工智能]机器学习概述

一、关于概率的基本概念

离散型随机变量：伯努利分布p(x) = ux(1-u)(1-x)、二项分布P(X=k) = Cnkuk(1-u)n-k、
连续型随机变量：∫f(x) dx = 1。高斯分布(正态分布)、指数分
累计分布函数CDF: 随机变量X取值小于等于x的概率cdf(x) = P(X≤x)
联合概率分布(Joint Probability Distribution)、条件概率(Conditional Probability)
采样(Sampling)：给定一个概率分布p(x)生成满足条件的样本。
直接采样：均匀分布Uniform[0,1),xt+1=(axt+c) mod m线性同余发生器
逆变换采样：对[0,1]均匀采样，然后x = cdf-1(y)
期望(Expectation)：均值EX =∫xf(x)dx, EX =1/n Σxp(x)
大数定律(Law of Large Numbers)：样本均值和真实均值充分接近，均值收敛于期望值。

二、机器学习定义

1. 机器学习≈自动构建一个映射函数

在这里插入图片描述

现实世界的问题都比较复杂：构造很多训练样本，让计算机自己找到规则。

2. 如何构建映射函数？从大量数据中学习规律。–function

x(reprentation) ? y(label); （注意区别：建立两个两边之间的关系—拟合问题）
y = g(x)关系不知道。服从的Pr(x,y)分布也不知道。
① 采样x(1)y(1); x(2)y(2); …; x(n)y(n). training data。
② 构造假设空间(函数族)，f1(x); f2(x); …; fk(x). 挑选最优的f*(x).
③ f*(x)是希望可以应用到位置的数据上，而拟合是希望可以适合更多的训练数据。

3. 机器学习(Machine Learning, ML)

是指从有限的观测数据中学习（或“猜测”）出具有一般性的规律，并利用这些规律对位置数据进行预测的方法。
在这里插入图片描述

三、机器学习类型

回归问题（Regression）：输出是一个连续值。票房预测、股价预测、房价预测
分类问题（Classification）：手写数字识别、人脸检测、垃圾邮件检测Spam Detection
图像聚类（Clustering Images）:无监督学习问题，只有x没有y。
强化学习：通过与环境进行交互来学习。AlphaGo、
在这里插入图片描述

典型监督学习问题：回归输出连续值，分类输出离散值。
**加粗样式**

典型无监督学习问题：
在这里插入图片描述

四、机器学习的要素

四个基本要素：数据、模型、学习准则、优化算法。

1. 数据

有x, y则是监督问题，y是连续的则是回归问题，y是离散的则是分类问题。只有x则是无监督问题。
从原始数据中怎么抽取特征，就是特征抽取问题。如果自动抽取特征的话就是一个表示学习的问题。

2. 模型

首先要给定一个假设空间，然后选择一个最优的模型。能够建模就是预测x和y之间的关系。

3. 学习准则

有一个准则来判断学习的模型是好是坏。

4. 优化算法

给定一个准则后可以用一些数学优化的算法去学到我们期望的模型。
★模型：（以回归为例）
线性模型f(x;θ) = wTx+b;
非线性模型f(x;θ) = wTΦ(x)+b; 如果Φ(x)为可学习的非线性基函数，f(x,θ)就等价于神经网络。
★学习准则
一个好的模型应该在所有去之上都与真实映射函数一致：|f(x;θ )-y| < ε
① 损失函数（Loss Function）是一个非负实数函数，用来量化模型预测和真实标签之间的差异。L(y, f(x;θ))
比如平方损失函数1/2(y-f(x;θ))2。所以就希望找一个θ能让损失函数更小。
② 期望风险（Expected Risk）：R(θ)=E(x,y)~pr(x,y)[ L(y, f(x;θ))]. pr(x,y)是真实的数据分布，L是损失函数。pr未知，所以R(θ)没法儿算 --> 大数定律来逼近。
③ 经验风险（Empirical Risk）: RDemp (θ)=1/N·Σ L(y(n), f(x(n);θ))。用经验风险来逼近期望风险。
经验风险最小化（Empirical Rick Minimization, ERM）寻找一个参数θ*，使得经验风险函数最小化。
θ* = arg min RDemp (θ). --> 优化问题
★最优化问题min f(x)
凸优化问题（Convex）、非凸优化问题(Non-convex)：极值点导数等于0.
梯度下降法（Gradient Descent）：搜索步长α也叫学习率（Leaning Rate），需要人为选择，与θ不同。
在这里插入图片描述

随机梯度下降法（Stochastic Gradient Descent, SGD）：只选取一个样本，无法利用并行计算的资源。
小批量（Mini-Batch）随机梯度下降法。
在这里插入图片描述

五、泛化与正则化（核心）

在这里插入图片描述

机器学习更关注的不是训练集上的错误率，而是整个数据包括测试集上的错误率。也就是期望风险。
**加粗样式**

1. 泛化误差

期望风险与经验风险的插值。比如一个模型，经验风险特别低，期望风险特别高，那么泛化误差也就特别大。就是出现了过拟合。
所以机器学习的目标就是经验风险比较低的，同时泛化误差也比较低。

2. 优化

经验风险最小。正则化：降低模型复杂度。
正则化（Regualrization）：所有损害优化的方法都是正则化。降低泛化误差的方法。
增加优化约束、干扰优化过程

六、线性回归

1. 回归（Regression）

训练集：{x(n), y(n)}n=1,…, N
回归问题：x(n)∈RD, y(n) ∈R, 求解x, y之间的映射关系。y=f(x;θ)

2. 线性回归（Linear Regression）

在这里插入图片描述

3. 经验风险最小化（ERM）

训练集D上的经验风险
在这里插入图片描述

矩阵微分

4. 结构风险最小化（Structure Risk Minimization, SRM）

特征之间存在共线性，XXT不可逆：特征之间存在冗余性。

经验风险基础上加上一个正则化项：在这里插入图片描述

令其最小化得到： (岭回归方法) 在这里插入图片描述

七、多项式回归

曲线拟合（Curve Fitting）
多项式曲线拟合（Polynomial Curve Fitting）：如何选择多项式的次数。
损失函数
在这里插入图片描述

控制过拟合：正则化（Regularization）、增加训练样本数量
在这里插入图片描述

八、线性回归的概率视角

1. 从概率角度来看线性回归

假设标签y为一个随机变量，其服从以均值为wTx，方差为o2的高斯分布
在这里插入图片描述

2. 似然函数（Likelihood）

似然函数时关于统计模型p(x;w)的参数w的函数
概率p(x;w)是描述固定参数w时随机变量x的分布情况
似然p(x;w)则是描述一直随机变量x时不同个参数w对其分布的影响。
线性回归中的似然函数：参数w在训练集D上的似然函数
在这里插入图片描述

最大似然估计（Maximum Likelihood Estimate, MLE）：找到一组参数w使得似然函数p(y|X;w,o)最大，偏导等于零。（等于经验风险最小解）

3. 贝叶斯的视角

贝叶斯学习：将参数w也看作随机变量。目标：给定一组观测数据X，球参数w的分布p(w|X)，也称为后验分布（Posterior）。
后验、似然、先验的关系：正比。
在这里插入图片描述

九、模型选择与“偏差-方差”分解

如何选择一个合适的模型？模型选择：能力过强容易过拟合，限制模型复杂度容易欠拟合。在模型选择的时候测试集不可见。模型选择（Model Selection）

1. 引入验证集（Validation Set）

将训练集分为两个部分：训练集Training Set和验证集Validation Set。在训练集上训练不同模型，选择在验证集上错误最小的模型。
–> 数据稀疏问题：交叉验证（Cross-Validation），训练集分为S组，每次使用S-1组作为训练集，剩下1组作为验证集。取验证集上平均性能最好的一组。