梯度: 不仅仅是f(x)在某一点变化最快的方向,而且是上升最快的方向. 梯度下降法 : 逆着梯度,下降最快,又叫最速下降法. 迭代公式: r是步长。 牛顿法 : 牛顿法最初用于求解方程根 f(x) = 0。 首先得到一个初始解 x0, 一阶展开:f(x) ≈ f(x0)+(x-x0)f'(x0) 令 f(x0)+(x-x0)f'(x0) = 0 求解得到x,相比于x0,f(x)<f(x0) 最优化问题中, 牛顿法首先则是将问题转化为求 f‘(x) = 0 这个方程的根。 首先得到一个初始解 x0, 一阶展开:f ’(x) ≈ f ‘(x0)+(x-x0)f '’(x0) 令 f ‘(x0)+(x-x0)f '’(x0) = 0 求解得到x,相比于x0,f ‘(x)<f ’(x0) 最小化f(x)之高维情况: 梯度 代替了低维情况中的 一阶导 Hessian矩阵 代替了 二阶导 求逆 代替了 除法 梯度下降法(红色)总是沿着当前点最快下降的方向(几乎垂直于等高线),相当于贪心 算法 。 牛顿法利用了曲面本身的信息,能够更直接,更快的收敛。 高斯牛顿法: 高斯牛顿法实际上是牛顿法的在求解 非线性最小二乘问题 时的一个特例。 目标函数: 迭代公式: 和牛顿法中的最优化问题高维迭代公式一样 目标函数可以简写: , 梯度向量在方向上的分量: (1) Hessian 矩阵的元素则直接在梯度向量的基础上求导: 高斯牛顿法的一个小技巧是,将二次偏导省略 ,于是: (2) 将(1)(2)改写成 矩阵相乘形式: 其中 Jr 是雅克比矩阵,r是 ri 组成的列向量。 代入牛顿法高维迭代方程的基本形式,得到高斯牛顿法迭代方程: 即 , 高斯牛顿法只能用于最小化平方和问题,但是优点是,不需要计算二阶导数