[人工智能] 机器学习进阶（7）：Adaboost模型的推导

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习进阶（7）：Adaboost模型的推导 -> 正文阅读

[人工智能]机器学习进阶（7）：Adaboost模型的推导

前言

Adaboost算法的模型是加法模型，损失函数为指数函数，学习算法为前向分布算法的二类学习方法。这里仅介绍模型。

模型建立

设训练样本为 $\mathrm{T}=\left\{ \left( \mathrm{x}_1,\mathrm{y}_1 \right) ,\left( \mathrm{x}_2,\mathrm{y}_2 \right) ...\left( \mathrm{x}_{\mathrm{N}},\mathrm{y}_{\mathrm{N}} \right) \right\}$
初始化训练数据的权值分布：
$D_1=\left( w_{11},w_{12}\cdots w_{1i}\cdots ,w_{1N} \right) ,w_{1i}=\frac{1}{N},i=1,2,\cdots ,N$
使用具有权值分布的训练数据学习，得到m次训练的基本分类器：
$G_m(x):\quad \chi \rightarrow \{-1,+1\}$
可以将样本X映射到-1和+1类，也就是预测值为±1表示的正负类。

计算 $G_m(x)$ 在训练数据集上的分类误差率：
$e_m=P\left( G_m\left( x_i \right) \ne y_i \right) =\sum_{i=1}^N{w_{mi}}I\left( G_m\left( x_i \right) \ne y_i \right)$
即为预测值≠真实值的概率，但是这里计算的时候需要乘上样本的权值。

计算 $G_m(x)$ 的系数：
$\alpha _m=\frac{1}{2}\log \frac{1-e_m}{e_m}$
这个系数可以认为是分类器的权值，依靠于分类误差率来建立。当 $e_m$ 取0的时候， $\alpha _m$ 的值为0；当 $e_m$ 取1的时候， $\alpha _m$ 的值为-∞。

当有了 $\alpha _m$ 时，可以实现数据权值的更新：
$w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp \left( -\alpha _my_iG_m\left( x_i \right) \right) ,i=1,2,\cdots ,N$
其中 $Z_m$ 为规范化因子：
$Z_m=\sum_{i=1}^N{w_{mi}}\exp \left( -\alpha _my_iG_m\left( x_i \right) \right)$
这里展开讲一下 $Z_m$ ：可以注意到该式子为 $w_{mi}\exp \left( -\alpha _my_iG_m\left( x_i \right) \right)$ 的求和，是为了保证下一次更新的权值分布仍然满足求和为1，exp项为进行修改的增益。化简一下：
$w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp \left( -\alpha _my_iG_m\left( x_i \right) \right) \Rightarrow Z_mw_{m+1,i} \\ =w_{mi}\exp \left( -\alpha _my_iG_m\left( x_i \right) \right) \Rightarrow Z_1w_{2,i}=w_{1i}\exp \left( -\alpha _1y_iG_1\left( x_i \right) \right)$
观察式子可以发现，规范化因子目的仅是使得 $D_{m+1}$ 也满足成为一个概率分布。其中分类错误的样本的权值将会提高。