METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS（四）

3.3. Powell 的 Dog Leg方法

与列文伯格-马尔夸特方法一样，该方法使用高斯-牛顿法和最陡下降方向的组合。但是通过信赖域的半径显式控制两种方法之间的切换，参见第 2.4 节。 Powell 的名字与算法有关，因为他提出了如何找到由 (2.23) 定义的 $\pmb{h}_{tr}$ 的近似值。

给定 $\mathbb{R}^n \to \mathbb{R}^m$ 。在当前迭代点 $\pmb{x}$ 处，高斯-牛顿步长 $\pmb{h}_{gn}$ 是如下线性系统的最小二乘解
$\pmb{J}(\pmb{x})\pmb{h} \approx -\pmb{f}(\pmb{x}) \tag{3.17}$

它可以通过求解下面的正规方程来计算
$(\pmb{J}(\pmb{x})^T\pmb{J}(\pmb{x}))\pmb{h}_{gn} = -\pmb{J}(\pmb{x})^T\pmb{f}(\pmb{x}) \tag{3.18 a}$

最陡下降方向由下式给出
$\pmb{h}_{sd} = -\pmb{g} = -\pmb{J}(\pmb{x})^T\pmb{f}(x) \tag{3.18 b}$

这是一个方向，而不是步长，为了知道我们应该走多远，我们观察线性模型
$f(\pmb{x}+\alpha \pmb{h}_{sd}) \approx \pmb{f}(\pmb{x}) + \alpha \pmb{J}(\pmb{x}) \pmb{h}_{sd}$

$F(\pmb{x}+\alpha \pmb{h}_{sd}) = \approx \frac{1}{2} ||\pmb{f}(\pmb{x}) + \alpha \pmb{J}(\pmb{x}) \pmb{h}_{sd}||^2 \\ =F(\pmb{x}) + \alpha \pmb{h}_{sd}^T \pmb{J}(\pmb{x})^T \pmb{f}(\pmb{x}) + \frac{1}{2}\alpha^2 ||\pmb{J}(\pmb{x})\pmb{h}_{sd}||^2$

这个关于 $\alpha$ 的函数的最小值为
$\alpha = - \frac{\pmb{h}_{sd}^T \pmb{J}(\pmb{x}) ^T \pmb{f}(\pmb{x})}{||\pmb{J}(\pmb{x}) \pmb{h}_{sd}||^2} = \frac{||\pmb{g}||^2}{||\pmb{J}(\pmb{x})\pmb{g}||^2} \tag{3.19}$

现在我们从当前点 $\pmb{x}$ 开始有两个候选步长： $\pmb{a} = \alpha \pmb{h}_{sd}$ 和 $\pmb{b} = \pmb{h}_{gn}$ 。Powell 建议当信赖域半径为 $\Delta$ 时使用以下策略来选择步长。

$\quad \quad \quad \quad if \quad ||\pmb{h}_{gn}|| \leq \Delta \\ \quad \quad \quad \quad \pmb{h}_{dl}:= \pmb{h}_{gn} \\ \quad \quad \quad \quad \quad \quad elseif \quad ||\alpha \pmb{h}_{sd}|| \geq \Delta \\ \quad \quad \quad \quad \quad \quad \quad \pmb{h}_{dl}:=(\frac{\Delta}{||\pmb{h}_{sd}||})\pmb{h}_{sd} \\ else \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \pmb{h}_{dl}:= \alpha \pmb{h}_{sd} + \beta(\pmb{h}_{gn - \alpha \pmb{h}_{sd}}) \tag{3.20 a}$

其中选择 $β$ 的选择需要满足使 $||\pmb{h}_{dl}|| = \Delta$ 。

图 3.4 说明了策略中的最后一种情况。

请添加图片描述

Dog Leg 的名称取自高尔夫：“Dog leg” 处的球道形状为从 $\pmb{x}$ （开球点）通过 $\pmb{a}$ 的终点到 $\pmb{h}_{dl}$ 的终点（球洞）的线。Powell 是一位热心的高尔夫球手！

使用上面定义的 $\pmb{a}$ 和 $\pmb{b}$ ，并且 $\pmb{a}^T(\pmb{b}-\pmb{a})$ 我们可以写出
$\psi(\beta) = ||\pmb{a} + \beta(\pmb{b}-\pmb{a})||^2 - \Delta^2= ||\pmb{b}-\pmb{a}||^2\beta^2 + 2c\beta +||\pmb{a}^2|| - \Delta^2$

我们为这个二阶多项式求根，并注意当 $\beta \to - \infty$ 时 $\psi \to \infty$ ； $\psi(0) = ||\pmb{a}||^2 - \Delta^2 < 0$ ; $\psi(1) = ||\pmb{h}_{gn}||^2 - \Delta^2 > 0$ 。因此， $\psi$ 在 $] 0, 1 [$ 中有一个负根和一个根。我们寻求后者，其最准确的计算值由下式给出

根据二次函数的形式 $] 0, 1 [$ 应该表示 0 的左边和 0-1 之间，但这个表示方法确实没见过

$\quad c<0 \\ \beta = (-c + \sqrt{c^2 + ||\pmb{b}-\pmb{a}|| ^2 (\Delta^2 - ||\pmb{a}||^2)}) / ||\pmb{b}-\pmb{a}||^2 \\ else \\ \beta = (\Delta ^2 - ||\pmb{a}||^2 )/ (c+ \sqrt{c^2 + ||\pmb{b}-\pmb{a}|| ^2 (\Delta^2 - ||\pmb{a}||^2)}) \tag{3.20 b}$

与 L-M 方法一样，我们可以使用增益比率
$\wp = \frac{F(x) - F(x+h_{dl})}{L(0) - L(h_{dl})}$

来控制迭代。同样， $L$ 是线性模型
$L(\pmb{h}) = \frac{1}{2} ||\pmb{f}(\pmb{x}) + \pmb{J}(\pmb{x})\pmb{h}||^2$

在 L-M 方法中，我们使用 $\wp$ 来控制阻尼参数的大小。在这里，我们使用它来控制信赖域的半径 $\Delta$ 。较大的 $\wp$ 值表示线性模型良好。我们可以增加 $\Delta$ 从而使用更长的步长，它们将更接近高斯-牛顿方向。如果 $\wp$ 很小（甚至可能是负数），那么我们会减小 $\Delta$ ，这意味着更小的步长，更接近最陡的下降方向。下面我们总结一下算法。

请添加图片描述

我们有以下说明。

初始化。 $\pmb{x}_0$ 和 $\Delta_0$ 应由用户提供。
我们使用补充了 $||\pmb{f}(\pmb{x})||_{\infty} \leq \epsilon_3$ 的停止准则 (3.15)，体现了 $m = n$ 时 $\pmb{f}(\pmb{x}^*) = 0$ 的情况，即非线性方程组的求解问题。
如果 $m = n$ ，那么 $\approx$ 被 $=$ 代替，参见（3.6），并且我们不使用正规方程（3.18a）对应的迂回策略；见例 3.9
对应于（3.20a）中的三种情况，我们可以证明
$L(\pmb{0}) - L(\pmb{h}_{dl}) = \begin{cases} F(\pmb{x}) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad if \quad \pmb{h}_{dl} = \pmb{h}_{gn} \\ \frac{\Delta(2||\alpha \pmb{g}|| - \Delta)}{2 \alpha} \quad \quad \quad \quad \quad \quad \quad \quad if \quad \pmb{h}_{dl} = \frac{-\Delta}{||\pmb{g}||} \pmb{g} \\ \frac{1}{2} \alpha (1-\beta)^2 ||\pmb{g}||^2 + \beta(2-\beta) F(\pmb{x}) \quad otherwise\end{cases}$
策略（2.19）用于更新信赖域半径。
额外的停止标准。如果 $\Delta \leq \epsilon_2 (||\pmb{x}|| + \epsilon_2)$ ，那么在下一步中肯定会满足（3.15b）。

示例 3.9.

在示例 3.6 中，我们简要讨论了步长 $\pmb{h}_{lm}$ 的计算并认为我们不妨通过正规方程（3.13）来计算它。假设 $\mu$ 不是非常小，则矩阵的条件相当好，并且不会有舍入误差的过度影响。

Dog Leg 方法也适用于求解非线性方程组，即其中 (3.17) 是如下线性方程组的平方系统
$\pmb{J}(\pmb{x})\pmb{h} = -\pmb{f}(\pmb{x})$

解 $\pmb{h} = \pmb{h}_{nr}$ ，牛顿-拉夫森步长，参见示例 3.2。雅各比矩阵 $\pmb{J}$ 可能是病态的（甚至是奇异的），在这种情况下，如果我们使用（3.18a）计算 $\pmb{h}_{gn}$ ，则舍入误差往往会主导解。

在 immoptibox 中的 dogleg 实现中，针对这些问题计算了 (3.17) 的解。如果 $\pmb{J}(\pmb{x})$ 的列不是显著线性独立的，则最小二乘解 $\pmb{h}$ 不是唯一的，并且 $\pmb{h}_{gn}$ 为具有最小范数的 $\pmb{h}$ 。该计算的一些细节在附录 B 中给出。

示例 3.10.

图 3.5 说明了Dog Leg方法应用于示例 3.2 和 3.8 中的 Powell 问题的性能，起点 $\pmb{x}_0 = [3, 1]^T$ ， $\Delta_0 = 1$ ，停止标准由 $\epsilon_1 = \epsilon_2 = 10^{?15}$ , $\epsilon_3= 10^{?20}$ ， $k_{max} = 100$ 给出。

请添加图片描述

由于梯度很小，迭代在 37 步后停止，返回 $\pmb{x} = [ ?2.41\cdot 10^{?35}, 1.26\cdot 10^{?9} ]^T$ ，这是 $\pmb{x}^? = 0$ 的一个很好的近似值。如图 3.5 所示最终收敛是线性的（由 $\pmb{J}(\pmb{x}^*)$ 的奇异性引起），但比马尔夸特方法快得多。

示例 3.11.

我们在示例 1.1、3.4 和 3.7 中的数据拟合问题上使用了算法 3.21。与示例 3.7 一样，我们使用起点 $\pmb{x}_0 = [-1, -2, 1, -1]^T$ ，并取 $\Delta_0 = 1$ 和 $\epsilon_1 = \epsilon_2 = \epsilon_3 = 10^{-8}$ ， $k_{max} = 200$ 给出的停止迭代标准。算法在 $\pmb{x}\approx [?4, ?5, 4, ?4]^T$ 对应的的 30 次迭代步骤后停止。性能如下图所示。如图 3.6 所示，我们注意到最终收敛速度非常快。