做简历最好的网站/百度关键词排名原理
初始化权重
在网络的初始时刻,如果神经元的权重都是随便初始化的,那么激活的下一层的神经元的均值尾0,但是方差就是巨大的,这会导致neural saturation的情况,所以在初始化的时候就根据神经元的联入的树木来进行计算,使得最后基本上w的求和之后的结果均值为0,方差为1.
所以初始化权重最后的结果就是把我们的结果能够很好的进行一个初始化之后能够加速训练。
问题来了
1. 如果我的yita*lambda <<n,那么为什么我的权重是按照exp(-yita*lambda/m)进行衰减的?
2. 假设lambda不是很大,那么weight decay就能够最后大约变成1/(n)1/2?
n是网络中w的总数。