Posts

Showing posts from March, 2018

Logistic vs Softmax

logistic函数也是神经网络最为常用的激活函数,即sigmoid函数,  应用于分类和回归 logistic具体针对的是二分类问题, softmax函数经常用在神经网络的最后一层,作为输出层, 解决的是多分类问题,因此从这个角度也可以理 解logistic函数是softmax函数的一个特例。 softmax建模使用的分布是 多项式分布 ,而logistic则基于 伯努利分布 softmax回归进行的多分类,类与类之间是 互斥的 ,即一个输入只能被归为一类; 多个logistic回归进行多分类,输出的类别并 不是互斥的 ,即"苹果"这个词语既属于"水果"类也属于"食物"类别。

Numerical Optimization

Image
梯度: 不仅仅是f(x)在某一点变化最快的方向,而且是上升最快的方向. 梯度下降法 : 逆着梯度,下降最快,又叫最速下降法. 迭代公式: r是步长。 牛顿法 : 牛顿法最初用于求解方程根 f(x) = 0。 首先得到一个初始解 x0, 一阶展开:f(x) ≈ f(x0)+(x-x0)f'(x0) 令 f(x0)+(x-x0)f'(x0) = 0  求解得到x,相比于x0,f(x)<f(x0) 最优化问题中, 牛顿法首先则是将问题转化为求 f‘(x) = 0 这个方程的根。 首先得到一个初始解 x0, 一阶展开:f ’(x) ≈ f ‘(x0)+(x-x0)f '’(x0) 令 f ‘(x0)+(x-x0)f '’(x0) = 0  求解得到x,相比于x0,f ‘(x)<f ’(x0) 最小化f(x)之高维情况: 梯度  代替了低维情况中的 一阶导 Hessian矩阵 代替了 二阶导 求逆  代替了 除法 梯度下降法(红色)总是沿着当前点最快下降的方向(几乎垂直于等高线),相当于贪心 算法 。 牛顿法利用了曲面本身的信息,能够更直接,更快的收敛。 高斯牛顿法: 高斯牛顿法实际上是牛顿法的在求解 非线性最小二乘问题 时的一个特例。 目标函数: 迭代公式: 和牛顿法中的最优化问题高维迭代公式一样 目标函数可以简写:   , 梯度向量在方向上的分量:                   (1) Hessian 矩阵的元素则直接在梯度向量的基础上求导: 高斯牛顿法的一个小技巧是,将二次偏导省略 ,于是: (2) 将(1)(2)改写成 矩阵相乘形式: 其中 Jr 是雅克比矩阵,r是 ri 组成的列向量。 代入牛顿法高维迭代方程的基本形式,得到高斯牛顿法迭代方程: 即 , 高斯牛顿法只能用于最小化平方和问题,但是优点是,不需要计算二阶导数