? ? ? ? 假设有一个函数 $F$ ，该函数是一个从n维空间映射到m维空间的函数。也就是说，这个函数由m个实函数 $\{y_{1}, y_{2}, \cdots, y_{m}\}$ 组成，每个实函数都具有n个参数 $\left \{ x_{1}, x_{2}, \cdots, x_{n} \right \}$ 。如果将这些函数对这些参数的一阶偏导数罗列在一起（假设它们都是存在的），就可以组成一个m*n的矩阵。这个矩阵就是雅各比矩阵。

$\LARGE J(F)=\begin{aligned}\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right]\end{aligned}$

? ? ? ? ?因此，梯度属于雅各比矩阵的一种简单情况

1.3?海森矩阵（Hessian矩阵）

? ? ? ? 假设有一个实函数 $f(x_{1}, x_{2}, \cdots, x_{n})$ ，其如果将该函数对所有参数的二阶偏导数都罗列在一起（假设它们都是存在的），就可以组成一个n*n的矩阵。这个矩阵就是海森矩阵。

$\LARGE H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$

? ? ? ? 海森矩阵可以用来描述函数的局部曲率。

1.4?基于梯度的优化方法——牛顿法

? ? ? ? 牛顿法是求解函数零点的方法。利用牛顿法求解目标函数的最小值实际上指的是利用牛顿法求解目标函数一阶导数的零点。因为函数极值点处一阶导数为0。

? ? ? ? 牛顿法是一个以随即位置开始，不断迭代得到新位置，直到新位置与零点位置重合时停止的方法。更具体来说，假设目标函数的导数是一个一元函数 $f(x)$ ，我们先在横坐标上随机选取一个位置 $x_{0}$ ，计算 $(x_{0}, f(x_{0}))$ 处切线与x轴的交点的横坐标 $x_{1}$ 。然后以 $x_{1}$ 为新位置重复该过程，直到切点与零点重合为止。

? ? ? ? ?假设目标函数为 $L(\theta)$ ，则牛顿法的迭代公式如下：

$\theta:=\theta- \frac{L^{\prime}(\theta)}{L^{\prime\prime}(\theta)}$

? ? ? ? 如果 $\theta$ 是一个向量，则牛顿法的迭代公式还可以表示为：

$\theta:=\theta- H^{-1}J^{T}$

? ? ? ? 其中 $H$ 和 $J$ 就是 $L(\theta)$ 对应的海森矩阵和雅各比矩阵。

? ? ? ? 牛顿法在优化目标函数时具有以下优势：

? ? ? ? 1.?收敛速度快，比梯度下降要快很多；

? ? ? ? 2.?海森矩阵的逆在迭代工程中会不断变小，可以起到逐步减小步长的效果；

? ? ? ? 牛顿法的缺点如下：

? ? ? ? 1.?目标函数必须二阶可导；

? ? ? ? 2.?初始点需要足够“靠近”极小点，否则，有可能导致算法不收敛。因为牛顿法是不能控制方向的，有可能会向错误的方向优化。因此有了阻尼牛顿法，简单来说就是引入的一个阻尼系数以控制步长，即

$\theta:=\theta-\lambda H^{-1}J^{T}$

? ? ? ?不过这个阻尼系数不一定是固定的，也需要计算。这里不做介绍。

????????3.?海森矩阵的逆求解复杂。因此有了拟牛顿法。

2. 线性代数（范数）

2.1?向量范数

? ? ? ? 假设向量 $\vec{x}=(x_{1}, x_{2}, \cdots, x_{m})$ ，则：

? ? ? ? 1-范数

$\|\vec{x}\|_{1}=\sum_{i=1}^{m}\left|x_{i}\right|$

? ? ? ? n-范数（n>1）

$\|\vec{x}\|_{n}=\sqrt[n]{\sum_{i=1}^{m}x_{i}^{n}}$

? ? ? ? $\infty$ -范数

$\|\vec{x}\|_{\infty}=\max _{1 \leq i \leq n}\left|x_{i}\right|$

2.2?矩阵范数

? ? ? ? 1-范数（列范数，实际是每个列绝对值最大的元素的和）

$\|A\|_{1}=\max _{1 \leq j \leq n} \sum_{i=1}^{n}\left|a_{i, j}\right|$

? ? ? ? 2-范数（谱范数，实际是矩阵 $AA^{T}$ 的最大特征值）

$\|A\|_{2}=\sqrt{\lambda_{1}}$

???????? $\infty$ -范数（行范数，实际是每个行绝对值最大的元素的和）

$\|A\|_{\infty}=\max _{1 \leq i \leq n} \sum_{j=1}^{n}\left|a_{i, j}\right|$

3. 概率论（全概公式和逆概公式）

3.1?全概公式

? ? ? ? 如果事件 $A_{1}, A_{2}, \cdots, A_{n}$ 是一个完备事件组，则：

$\begin{gathered} P(B)=P\left(A_{1}\right) P\left(B \mid A_{1}\right)+P\left(A_{2}\right) P\left(B \mid A_{2}\right)+\cdots+P\left(A_{n}\right) P\left(B \mid A_{n}\right) \\ =\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right) \end{gathered}$

3.2?逆概公式

????????如果事件 $A_{1}, A_{2}, \cdots, A_{n}$ 是一个完备事件组，则对任意事件 $B$ ，有：

$P\left(A_{i} \mid B\right)=\frac{P\left(A_{i} B\right)}{P(B)}=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right)}$

4.?作业

4.1?问题1

? ? ? ? 在数学最优化中，Rosenbrock函数是一个用来测试最优化算法性能的非凸函数，由Howard Harry Rosenbrock在1960年提出。也称为Rosenbrock山谷或Rosenbrock香蕉函数。已知Rosenbrock函数的表达式为

$f(x)=(a-x_{1})^{2}+b(x_{2}-x_{1})^{2}$

请编程完成以下工作：

（1）为a和b取不同的值，绘制3D表面。观察a和b的不同取值对曲面形状的影响

（2）编写算法找到全局最小值以及相应的最小解，并在3D图像中标出。分析算法的时空效率，给出运行时间

a与b的不同取值结果
	$b \in (-\infty, 0)$	$b=0$	$b \in (0, +\infty)$
$a\in (-\infty, 0)$
$a=0$
$a \in (0, +\infty)$

全局最小值（x, y, z）和运行时间
	$b=-100$	$b=0$	$b=100$
$a=-1$	（1， 1， 0） 2.41s	（1， 1， 0） 2.56s	（1， 1， 0） 2.54s
$a=0$	（1， 1， 0） 2.63s	（1， 1， 0） 3.15s	（1， 1， 0） 2.40s
$a=1$	（1， 1， 0） 2.49s	（1， 1， 0） 2.47s	（1， 1， 0） 2.46s

? ? ? ? 对教案中的代码做了一些修改，自动生成所有不同取值的图像和结果

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
%matplotlib inline
from mpl_toolkits.mplot3d import Axes3D
import itertools

class Rosenbrock():
    def __init__(self, a, b):
        self.x1 = np.arange(-100, 100, 0.0001)
        self.x2 = np.arange(-100, 100, 0.0001)
        #self.x1, self.x2 = np.meshgrid(self.x1, self.x2)
        self.a = a
        self.b = b
        self.newton_times = 1000
        self.answers = []
        self.min_answer_z = []


    # 准备数据
    def data(self):
        z = np.square(self.a - self.x1) + self.b * np.square(self.x2 - np.square(self.x1))
        #print(z.shape)
        return z

    # 随机牛顿
    def snt(self,x1,x2,z,alpha):
        rand_init = np.random.randint(0,z.shape[0])
        x1_init,x2_init,z_init = x1[rand_init],x2[rand_init],z[rand_init]
        x_0 =np.array([x1_init,x2_init]).reshape((-1,1))
        #print(x_0)


        for i in range(self.newton_times):
            x_i = x_0 - np.matmul(np.linalg.inv(np.array([[12*x2_init**2-4*x2_init+2,-4*x1_init],[-4*x1_init,2]])),np.array([4*x1_init**3-4*x1_init*x2_init+2*x1_init-2,-2*x1_init**2+2*x2_init]).reshape((-1,1)))
            x_0 = x_i
            x1_init = x_0[0,0]
            x2_init = x_0[1,0]
        answer = x_0
        return answer


    # 绘图
    def plot_data(self,min_x1,min_x2,min_z):
        x1 = np.arange(-100, 100, 0.1)
        x2 = np.arange(-100, 100, 0.1)
        x1, x2 = np.meshgrid(x1, x2)
        a = self.a
        b = self.b
        z = np.square(a - x1) + b * np.square(x2 - np.square(x1))
        fig4 = plt.figure()
        ax4 = plt.axes(projection='3d')
        ax4.plot_surface(x1, x2, z, alpha=0.3, cmap='winter')  # 生成表面， alpha 用于控制透明度
        ax4.contour(x1, x2, z, zdir='z', offset=-3, cmap="rainbow")  # 生成z方向投影，投到x-y平面
        ax4.contour(x1, x2, z, zdir='x', offset=-6, cmap="rainbow")  # 生成x方向投影，投到y-z平面
        ax4.contour(x1, x2, z, zdir='y', offset=6, cmap="rainbow")  # 生成y方向投影，投到x-z平面
        ax4.contourf(x1, x2, z, zdir='y', offset=6, cmap="rainbow")  # 生成y方向投影填充，投到x-z平面，contourf()函数
        ax4.scatter(min_x1,min_x2,min_z,c='r')
        # 设定显示范围
        ax4.set_xlabel('X')
        ax4.set_ylabel('Y')
        ax4.set_zlabel('Z')
        plt.title('a = %d, b = %d' % (self.a, self.b))
        plt.show()
        plt.close()

    # 开始
    def start(self):
#         times = int(input("请输入需要随机优化的次数："))
#         alpha = float(input("请输入随机优化的步长"))
        times = 100
        alpha = 0.02
        z = self.data()
        start_time = time.time()
        for i in range(times):
            answer = self.snt(self.x1,self.x2,z,alpha)
            self.answers.append(answer)
        min_answer = np.array(self.answers)
#         print(min_answer)
        for i in range(times):
            self.min_answer_z.append((1-min_answer[i,0,0])**2+(min_answer[i,1,0]-min_answer[i,0,0]**2)**2)
        optimal_z = np.min(np.array(self.min_answer_z))
        optimal_z_index = np.argmin(np.array(self.min_answer_z))
        optimal_x1,optimal_x2 = min_answer[optimal_z_index,0,0],min_answer[optimal_z_index,1,0]
        print(optimal_x1, optimal_x2, optimal_z)
        end_time = time.time()
        running_time = end_time-start_time
        print("优化的时间:%.2f秒!" % running_time)
        self.plot_data(optimal_x1,optimal_x2,optimal_z)
if __name__ == '__main__':
    parameter_a = [-1, 0, 1];
    parameter_b = [-100, 0, 100];
    for a, b in itertools.product(parameter_a, parameter_b):
        print(a, b)
        snt = Rosenbrock(a, b)
        snt.start()

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-08-18 12:42:30 更:2021-08-18 12:44:42

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/18 1:51:00-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码