网站备案和icp备案/线上推广有哪些渠道

梯度下降:
假设目标函数为
在这里取
梯度下降与牛顿法的比较:
梯度下降是求解目标函数值的极值,比如上例就是求得
梯度下降法用目标函数的一阶偏导、以负梯度方向作为搜索方向,只考虑目标函数在迭代点的局部性质。牛顿法同时考虑了目标函数的一、二阶偏导数,考虑了梯度变化趋势,因而能更合适的确定搜索方向加快收敛。
从收敛速度来看,梯度下降是线性收敛,牛顿法是二阶收敛
牛顿法:
对于矩阵:
其中g为一阶导数梯度向量,H为二阶导数海森矩阵。
1. 牛顿法收敛的前提是目标二阶导数必须存在,必须连续可微。如果在下降的某一处存在线性变化区域,二阶导数不存在,则无法收敛。
2. 牛顿法收敛速度为二阶,对于正定二次函数一步迭代即达最优解。比如$(x-1)^2$
3. 牛顿法是局部收敛的,当初始点选择不当时,往往导致不收敛。
4. 牛顿法不是下降算法,当二阶海塞矩阵非正定时,不能保证产生方向是下降方向。
5. 二阶海塞矩阵必须可逆。
牛顿法步骤:

计算举例:
假设目标函数为:
取初始值
牛顿法总结:
当目标函数是二次函数时,由于二次泰勒展开函数与原目标函数不是近似而是完全相同的二次式,海森矩阵退化成一个常数矩阵,从任一初始点出发,只需要一步即可达到极小值点,因此牛顿法是一种具有二次收敛性的算法,对于非二次函数,若函数的二次态度较强,或迭代点已进入极小点的领域,则其收敛速度也是非常快。但是,原始牛顿法由于迭代公式中没有步长因子,而是定步长迭代,对于非二次型目标函数,有时会使函数值上升,即出现