前言

本篇文章是笔者在学习周志华老师《机器学习》第三章节对数几率回归部分过程中，结合各方参考资料，记录下的对数几率回归模型的重点知识与内容，并加以自己的理解详细讲述。

以下是本篇文章正文内容

一、对数几率回归模型

在线性回归模型中，预测值y往往是一个具体的实值，而在分类预测场景当中，一个具体的预测实值不足以形成最终的分类预测。因此我们可以考虑将线性回归模型产生的预测实值，转换为0/1等分类值。

单位阶跃函数(unit-step function)就是一种比较理想的分类函数:
$\left\{\begin{aligned}0,z<0 \\0.5,z=0\\1,z>0\end{aligned}\right. \tag{1.1}$

单位阶跃函数图像如图所示：
在这里插入图片描述

单位阶跃函数即表示当预测值z大于零就判为正例，小于零则判为反例，预测值为临界值零则可任意判别。但是由于单位阶跃函数不连续，不能作为广义线性回归模型的联系函数
$g^{-1}(\omega^{T}x+b) \tag{1.2}$

即 $g (?)$ 函数的连续性需与 $\omega^{T}x+b$ 保持一致

在这里考虑用一个无限接近单位近阶跃函数的连续函数来代替单位阶跃函数，并希望它单调可微(与线性回归模型保持一致)。而对数几率函数(logistic function)正是这样一个常用的替代函数。
$\frac{1}{1+e^{-z}} \tag{1.3}$

对数几率函数图像如图所示：

对数几率函数是一种Sigmoid函数，它将z值转化为一个接近0或者1的y值。将对数几率函数代入广义线性模型得到
$\frac{1}{1+e^{-(\omega^Tx+b)}} \tag{1.4}$
该式可变化为
$ln\frac{y}{1-y}= \omega^Tx+b \tag{1.5}$
若将y视为样本作为正例的可能性，则1-y是其反例的可能性，两者的比值称为“几率”，反映了样本作为正例的相对可能性.
$\frac{y}{1-y} \tag{1.6}$
对几率取对数则可得到“对数几率”
$ln\frac{y}{1-y} \tag{1.7}$
对数几率回归实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率，特别需要注意到，虽然它的名字是“回归”，但实际上是一种分类学习方法。对数回归求解的目标函数是任意阶可导的凸函数。

要确定线性回归模型中的 $\omega$ 和 $b$ ，将式(1.5)中的y视为后验概率估计 $p (y = 1 ∣ x)$ , 即式子可重写为
$ln\frac{p(y=1|x)}{p(y=0|x)}=\omega^{T}x + b\tag{1.8}$
后验概率在这里可以理解为已知样本x，其为正例或者反例的概率

对式子1.8进行变式
$\begin{aligned} e^{ln\frac{p(y=1|x)}{1-p(y=1|x)}}&=e^{\omega^{T}x+b}\\ \frac{p(y = 1| x)}{1-p(y=1|x)}&=e^{\omega^Tx+b} \end{aligned}$
最终得到
$\begin{aligned} p(y=1|x)&=\frac{e^{\omega^{T}x+b}}{1+e^{\omega^{T}x+b}} \tag{1.9} \end{aligned}$
$\begin{aligned} p(y=0|x)&=\frac{1}{1+e^{\omega^{T}x+b}} \tag{1.10} \end{aligned}$

二、对率回归模型最大化“对数似然”

最大似然估计的基本思想为：在已知实验结果以及模型分布的情况下，找出让该实验结果发生概率最大时的参数值。

应用到对率回归模型中，给定的数据集即为已知的实验结果，而每一个样本发生的概率也由式1.9和式1.10给出，对该对率回归模型作最大化似然估计，其中m为数据集中样本的个数：
$l(\omega,b)=\sum_{i=1}^{m}p(y_i|x_i;\omega,b)\tag{2.1}$
式1.9和式1.10中涉及指数运算，为了让运算过程变得简单且不影响其单调性，对最大似然函数取对数,实现“对数似然”
$l(\omega,b)=\sum_{i=1}^{m}\ln p(y_i|x_i;\omega,b)\tag{2.2}$
对率回归模型中的参数 $\omega$ 和 $b$ 的取值要使式2.2中的值达到最大值，即令每个样本属于其真实标记的概率越大越好

为了便于讨论，令 $\beta=(\omega;b)$ , $\hat{x}=\left(x;1\right)$ ，则 $\omega x+b$ 可简写为 $\beta^{T}\hat{x}$ . 再令 $p_{1}\left(\hat{x};\beta\right)=p(y=1|\hat{x};\beta)$ ， $p_{0}\left(\hat{x};\beta\right)=1 - p(y=1|\hat{x};\beta)$ ，则式2.2中的似然项可重写为
$p(y_i|x_i;\omega,b)=y_{i}p_{1}(\hat{x}_{i};\beta) + (1-y_{i})p_{0}(\hat{x}_{i};\beta)\tag{2.3}$

将式2.3代入式2.2，并根据式1.9和式1.10，推导出演算过程
$\begin{aligned} \ln p(y_i|x_i;\omega,b)&=ln(\frac{y_{i}\cdot e^{\beta^{T}x}}{1+e^{\beta^{T}\hat{x}}}+(1-y_{i})\cdot\frac{1}{1+e^{\beta^{T}\hat{x}}})\\ &=ln(\frac{y_{i}\cdot e^{\beta^{T}\hat{x}}+(1-y_{i})}{1+e^{\beta^{T}\hat{x}}})\\ &=y_{i}\cdot ln(e^{\beta^{T}\hat{x}}) - ln(1+e^{\beta^{T}\hat{x}})\\ &=y_{i}\cdot\beta^{T}\hat{x} - ln(1+e^{\beta^{T}\hat{x}})\tag{2.4} \end{aligned}$
需要对演算过程中注意的是对 $1-y_{i}$ 的化简，对 $y_{i}$ 考虑两种情况分别为0和1
当 $y_{i}=1$ 时, $1-y_{i}=0$
$y_{i}\cdot e^{\beta^{T}\hat{x}}+(1-y_{i})=y_{i}\cdot e^{\beta^{T}\hat{x}}\tag{2.5}$
当 $y_{i}=0$ 时， $y_{i}\cdot e^{\beta^{T}\hat{x}}+(1-y_{i})$ 项整体为0，即式2.5成立

已知求最大值即求其相反数的最小值，对算式2.4取相反数并代入式2.2可得：
$l(\beta)=\sum_{1}^{m}-y_{i}\cdot\beta^{T}\hat{x} + ln(1+e^{\beta^{T}\hat{x}})\tag{2.6}$
式2.6是关于 $\beta$ 的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降、牛顿法等都可求得其最优解。