开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 牛顿法，高斯-牛顿法 -> 正文阅读

[人工智能]牛顿法，高斯-牛顿法

牛顿法（Newton’s method）

假如已知函数 $f (x)$ ，想要求 $f (x) = 0$ 的解（或者叫根）。

牛顿法（Newton’s method）大致的思想是：
（1）选一个初始位置 $x_0$ （这个位置最好是在根的附近）；
（2）在这个位置上找一个 $f (x)$ 的近似函数（通常用泰勒展开）；
（3）令近似函数为 $0$ ，求解；
（4）以这个解为新的位置 $x_1$ ；
（5）重复上述迭代，到第 $n$ 次迭代得到 $x_n$ ，当 $x_n - x_{n-1}|$ 足够小，结束。
$x_n$ 就是 $f (x) = 0$ 的近似解。

下面的解释1是一个比较直观的过程，不过问题的设计不太合理。解释2会好一点。

例子： 求 $f (x)$ 的极小值。

解释1

假如 $f (x)$ 长这样：

在这里插入图片描述

首先，选一个初始值估计值 $x_0$ ，由于函数已知，带入得到对应的函数值为 $f(x_0)$ 。
由于函数在该点处可导，可以求得该点的导数为 $f'(x_0)$ 。
该点的导数值，就是该点的切线的斜率。

已知一个点和斜率，可以求得直线方程： $\dfrac{y-f(x_0)}{x-x_0} = f'(x_0) \\ \Downarrow \\ y = f'(x_0)(x-x_0) + f(x_0) \tag{1}$
公式(1)即为图中红色直线的方程，其中 $x_0$ ， $f(x_0)$ ， $f'(x_0)$ 都是已知量。

现在，求红色直线与 $x$ 轴的交点： $x_1$ 的值。
往公式(1)带入 $y = 0$ 即可。

在这里插入图片描述

求得 $x_1 = x_0 - \frac{f(x_0)}{f'(x_0)}$

把 $x_1$ 代回原方程，得到对应的函数值 $f(x_1)$ 。在该点处继续求切线方程，重复上述步骤。

在这里插入图片描述

求直线与 $x$ 轴的交点，得到 $x_2$ ：

在这里插入图片描述

从图中可以看到， $f(x_2)$ 已经几乎是极小值了。

实际操作中会判断两次迭代的差值 $f(x_n) - f(x_{n-1})$ ，如果足够小，就可以结束迭代了。
（这貌似有点像梯度下降）（对于这个问题直接求导数，令导数等于 $0$ 也可以。）

我这个问题得设计好像有点 bug 。继续迭代会出问题， $f(x_2)$ 处可能无法求导， $x_3$ 也不知道去到哪儿了。如果导数接近于 $0$ 也可以结束迭代吧。
总之牛顿法的过程大概是这样。具体可以看百度百科或者其它资料。

贴一个维基百科的图：

像这个例子，是对这种 $f (x) + a = 0$ 的问题用牛顿法。

解释2

来自知乎：https://zhuanlan.zhihu.com/p/103724149

一维情况

迭代公式：

$x_{n+1}=x_n - \dfrac{f'(x_n)}{f''(x_n)}$

牛顿法的推导基于二阶可微函数的泰勒展开，以一维函数为例，在 $x_0$ 处 $f (x)$ 的泰勒展开：
$\textcolor{#417991}{ f(x)} \approx \textcolor{#D97600}{f(x_0) + f'(x_0)(x-x_0) + \dfrac{1}{2} f''(x_0)(x-x_0)^2}$

即在 $x_0$ 附近可以用 $\textcolor{#D97600}{f(x_0) + f'(x_0)(x-x_0) + \dfrac{1}{2} f''(x_0)(x-x_0)^2} \tag{2}$ 近似替代 $\textcolor{#417991}{f(x)}$ 。

式子(2)是对 $\textcolor{#417991}{f(x)}$ 在 $x_0$ 处的二阶近似，如下图橙色曲线：
在这里插入图片描述

蓝色曲线代表原函数 $\textcolor{#417991}{f(x)}$ 。绿色点代表当前点 $\textcolor{#007500}{x_0}$ 。

对橙色曲线求导，求倒数的零点，得到下一次迭代的位置 $x_1$ 。
也就是对式子(2)求导，得到： $f'(x_0) + f''(x_0)(x-x_0) \tag{3}$
然后令式子(3)等于 $0$ ，求得 $x_1=x_0 - \dfrac{f'(x_0)}{f''(x_0)} \tag{4}$

式子(4)即为一维函数的牛顿法迭代公式。

高维情况

迭代公式：

$\boldsymbol{x}_{n+1} = \boldsymbol{x}_n - H(\boldsymbol{x}_n)^{-1} \nabla f(\boldsymbol{x}_n)$

对于高维函数，推导过程基于多元函数的泰勒展开：

$f(\boldsymbol{x}) \approx f(\boldsymbol{x}_0) + \nabla f(\boldsymbol{x}_0)^T \cdot (\boldsymbol{x} - \boldsymbol{x}_0) + \frac{1}{2} (\boldsymbol{x} - \boldsymbol{x}_0)^T \cdot H(\boldsymbol{x}_0) \cdot (\boldsymbol{x} - \boldsymbol{x}_0) \tag{5}$

上面公式用高维二次曲面在 $\boldsymbol{x}_0$ 处逼近原函数。
用下面的图片表示类似的意思。（ $\boldsymbol{x}_0$ 就是当前点，相当于图里面的 $\textbf{x}^{(\text{k})}$ ）
在这里插入图片描述

接下来，和一维的情况一样，令式子(5)右边的那部分对 $\boldsymbol{x}$ 求导，令导数等于 $0$ ：
$H(\boldsymbol{x}_0) (\boldsymbol{x} - \boldsymbol{x}_0) + \nabla f(\boldsymbol{x}_0) = 0 \tag{6}$

解得 $\boldsymbol{x}_{1} = \boldsymbol{x}_0 - H(\boldsymbol{x}_0)^{-1} \nabla f(\boldsymbol{x}_0) \tag{7}$

其中 $H$ 是 Hessian Matrix （海森矩阵），其实就是个二阶导的矩阵。
对于 $n$ 元变量：
$\begin{bmatrix} \dfrac{\partial^2 f}{\partial x_1^2} & \dfrac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \dfrac{\partial^2 f}{\partial x_1 \partial x_n} \\[1.5em] \dfrac{\partial^2 f}{\partial x_2 \partial x_1} & \dfrac{\partial^2 f}{\partial x_2^2} & \cdots & \dfrac{\partial^2 f}{\partial x_2 \partial x_n} \\[1.5em] \vdots & \vdots & \ddots & \vdots \\[1.5em] \dfrac{\partial^2 f}{\partial x_n \partial x_1} & \dfrac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \dfrac{\partial^2 f}{\partial x_n^2} \end{bmatrix} \\[1.5em]$

牛顿法的优点是收敛速度快，缺点是需要求矩阵的逆，计算量比较大。
此外，如果矩阵非正定（在一维情况下表现为泰勒展开的二阶导数小于 $0$ ），极值点为极大值，而非极小值。
如果初始位置离最优点太远，也会导致迭代过程中目标函数不严格递减的情况。

解决这个问题的方法之一是拟牛顿法（Quasi-Newton Methods）。

高斯-牛顿法（Gauss–Newton algorithm）

介绍：
高斯-牛顿法（Gauss–Newton algorithm）是牛顿法的特例，它是牛顿法的修改版，用于寻找函数的最小值。
和牛顿法不一样，它只能用于解决最小二乘问题。
优点是，不需要二阶导数（二阶导数可能很难计算）。

例子：
设我们有 $m$ 组样本（数据集）： $\{ (\boldsymbol{x}^{(1)}, y^{(1)}), (\boldsymbol{x}^{(2)}, y^{(2)}), \dots, (\boldsymbol{x}^{(m)}, y^{(m)}) \} ，\; \; \boldsymbol{x}\in \mathbb{R}^n$ 上标括号 $^{(\cdot)}$ 表示第几组样本（学吴恩达的表示法）。

我们希望找到包含 $n$ 个参数的非线性函数 $f(\boldsymbol{x}, \boldsymbol{\theta})$ ，拟合上面 $m$ 组数据。
其中 $\boldsymbol{\theta}$ 是我们要找的参数， $\boldsymbol{\theta} \in \mathbb{R}^n$ 。

为了方便描述，设代入第 $i$ 个样本后，函数值为 $f^{(i)}(\boldsymbol{\theta})$ 。也就是 $f^{(i)}(\boldsymbol{\theta}) = f( \boldsymbol{x}^{(i)}, \boldsymbol{\theta} )$ 。

则最小二乘目标函数（或者叫平方误差函数？）为：

$\epsilon (\boldsymbol{\theta}) = \sum_{i=1}^m \| f^{(i)}(\boldsymbol{\theta}) - y^{(i)} \| ^2 \tag{8}$

（一般用 $J$ 表示代价函数，但是这里用了 $\epsilon$ ，原因是稍后要用 $J$ 表示雅可比矩阵）

我们需要找到一组参数 $\boldsymbol{\theta} = [\theta_1, \theta_2, \dots, \theta_n]^T$ ，使式子(8)最小。也就是： $\arg\min_{\boldsymbol{\theta}} \epsilon(\boldsymbol{\theta})$

用式子(8)对第 $j$ 个参数 $\theta_j$ 求导：
$\frac{\partial \epsilon(\boldsymbol{\theta}) }{ \theta_j } = \sum_{i=1}^m 2 \cdot \left( f^{(i)}(\boldsymbol{\theta}) - y^{(i)} \right) \cdot \frac{ \partial f^{(i)}(\boldsymbol{\theta}) }{ \partial \theta_j } \tag{9}$

令雅可比矩阵（jacobi matrix） $J$ 为：
$\begin{bmatrix} \dfrac{\partial f^{(1)}(\boldsymbol{\theta})}{\partial \theta_1} & \dfrac{\partial f^{(1)}(\boldsymbol{\theta}) }{\partial \theta_2} & \cdots & \dfrac{\partial f^{(1)}(\boldsymbol{\theta}) }{\partial \theta_n} \\[1.5em] \dfrac{\partial f^{(2)}(\boldsymbol{\theta})}{\partial \theta_1} & \dfrac{\partial f^{(2)}(\boldsymbol{\theta}) }{\partial \theta_2} & \cdots & \dfrac{\partial f^{(2)}(\boldsymbol{\theta}) }{\partial \theta_n} \\[1.5em] \vdots & \vdots & \ddots & \vdots \\[1.5em] \dfrac{\partial f^{(m)}(\boldsymbol{\theta})}{\partial \theta_1} & \dfrac{\partial f^{(m)}(\boldsymbol{\theta}) }{\partial \theta_2} & \cdots & \dfrac{\partial f^{(m)}(\boldsymbol{\theta}) }{\partial \theta_n} \end{bmatrix}$

所以 $J$ 是一个 $m$ 行 $n$ 列的矩阵， $m\times n$ 。
第 $1$ 行的含义为，第 $1$ 个样本对于每个参数的偏导。

令残差（residual，样本与拟合值之间的差） $\textbf{r}$ 为：
$\textbf{r} = \begin{bmatrix} f^{(1)}(\boldsymbol{\theta}) -y_1 \\[0.5em] f^{(2)}(\boldsymbol{\theta}) -y_2 \\[0.5em] \vdots \\[0.5em] f^{(m)}(\boldsymbol{\theta}) -y_m \end{bmatrix}$

则式子(9)可以写成矩阵形式：
$\nabla \epsilon(\boldsymbol{\theta}) = 2 J^T \textbf{r} \tag{10}$

接下来求海森矩阵第 $k$ 行 $j$ 列的元素：
$\begin{aligned} \frac{\partial ^2\epsilon(\boldsymbol{\theta})} { \partial \theta_k \partial \theta_j } &= \frac{\partial}{\partial \theta_k} \frac{\partial \epsilon(\boldsymbol{\theta})}{ \partial \theta_j} \\[1.5em] &=\frac{\partial}{\partial \theta_k} \left( \sum_{i=1}^m 2 \cdot \left( f^{(i)}(\boldsymbol{\theta}) - y^{(i)} \right) \cdot \frac{ \partial f^{(i)}(\boldsymbol{\theta}) }{ \partial \theta_j } \right)\\[1.5em] &= 2 \sum_{i=1}^m \left( \frac{ f^{(i)}(\boldsymbol{\theta}) }{ \partial \theta_k } \frac{ f^{(i)}(\boldsymbol{\theta}) }{ \partial \theta_j } + \left( f^{(i)}(\boldsymbol{\theta}) - y^{(i)} \right) \cdot \frac{\partial ^2 f^{(i)} (\boldsymbol{\theta})} { \partial \theta_k \partial \theta_j } \right) \\ \tag{11} \end{aligned}$

令 $H$ 为 $\epsilon(\boldsymbol{\theta})$ 的海森矩阵，由(11)可知： $\cdot (J^T J + S)$ 其中：

$S_{k,j} = \sum_{i=1}^m \left( f^{(i)}(\boldsymbol{\theta}) - y^{(i)} \right) \cdot \frac{\partial ^2 f^{(i)} (\boldsymbol{\theta})} { \partial \theta_k \partial \theta_j }$

把 (10) 和 (12) 带入 (7) 得：
$\begin{aligned} \boldsymbol{\theta}_{n+1} & = \boldsymbol{\theta}_{n} - H^{-1} \nabla \epsilon(\boldsymbol{\theta}) \\ & = \boldsymbol{\theta}_n - \left( J^T J + S \right) ^{-1} \cdot \, J^T \textbf{r} \end{aligned} \tag{13}$

很多时候 (13) 中的 $S$ 可以忽略，最终高斯-牛顿法的迭代公式为：
$\boldsymbol{\theta}_{n+1} = \boldsymbol{\theta}_n - \left( J^T J \right) ^{-1} \cdot \, J^T \textbf{r} \tag{14}$

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-04-06 23:10:15 更:2022-04-06 23:13:23

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 3:22:06-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码