当前位置: 首页 > news >正文

网站怎么做?/有什么好的网站吗

网站怎么做?,有什么好的网站吗,wordpress问答功能,自建网站前言: 关于BP以及链式法则的意义不用多说,cs231n也专门提供了两个PDF,非常有用,建议看一下。 一个是derivations BP and vectorization,讲述了不同维度输入输出之间如何求导。 Derivatives, Backpropagation, and Vec…

前言:

关于BP以及链式法则的意义不用多说,cs231n也专门提供了两个PDF,非常有用,建议看一下。
一个是derivations BP and vectorization,讲述了不同维度输入输出之间如何求导。
Derivatives, Backpropagation, and Vectorization
另一个是 BP for a linear layer,解决了一半全连接层的BP问题,基本可以解决所有神经网络的BP问题。
Backpropagation for a Linear Layer
这两个链接不翻墙也可以下。

Derivatives, Backpropagation, and Vectorization

这个前半部分介绍了不同形状的input output如何求导,后半部分和下一篇基本重复。
求导就是y的每个元素对x的每个元素求导。

  1. y,x都是标量。显然∂y∂x\frac{\partial y}{\partial x}xy也是一个标量。
  2. y是标量,x是一维向量。∂y∂x\frac{\partial y}{\partial x}xy也是一个向量,每个元素是y对x的每个维度的偏导。
  3. y,x都是一维向量。∂y∂x\frac{\partial y}{\partial x}xy是一个矩阵WWWWi,jW_{i,j}Wi,j∂yi∂xj\frac{\partial y_i}{\partial x_j}xjyi
  4. y,x都是高维矩阵。∂y∂x\frac{\partial y}{\partial x}xy就是一个高维矩阵,形状为yx叉乘的维度。(这里他提出了一个广义矩阵的概念,就是将y,x的形状当成一个标量一样运算,但是实际上没有什么意义,后面可以看到在BP里面都是一个标量L对矩阵BP,高维矩阵作为中间过程有办法跳过。)

Backpropagation for a Linear Layer

这就是重点了。
重要性质
∂L∂x\frac{\partial L}{\partial x}xL,∂L∂W\frac{\partial L}{\partial W}WL,∂L∂b\frac{\partial L}{\partial b}bL是标量对一维向量 or 矩阵求导,不管中间套娃多少层其形状肯定和x,W,b一样。

如标题所言,linear layer。作者给出了下面一个可以代表所有情况的例子。

其中上游导数∂L∂Y\frac{\partial L}{\partial Y}YL认为是已知的,是下面这样;

如果直接链式法则的话:
∂L∂Y\frac{\partial L}{\partial Y}YL是一个(2,3)的矩阵。
∂Y∂X\frac{\partial Y}{\partial X}XY是一个(2,3)×\times×(2,2)的四维矩阵。显然是难以表现。
但是仔细想想,最终的∂L∂X\frac{\partial L}{\partial X}XL是一个(2,2)的矩阵。四维矩阵只在中间过程中出现。所以作者就像能不能对矩阵中的单个元素进行分析,得到一些规律性的东西规避了高维矩阵。(这个思想非常有亮点,宏观微观的接合)

单个元素分析:
分析∂Y∂X1,1\frac{\partial Y}{\partial X_{1,1}}X1,1Y
可以认为是∑forally∂L∂Y∂Y∂X1,1\sum\limits_{for\ all\ y} \frac{\partial L}{\partial Y} \frac{\partial Y}{\partial X_{1,1}}for all yYLX1,1Y
具体展开带入:

∂L∂X1,1=∂L∂Y1,1∂Y1,1∂X1,1+∂L∂Y1,2∂Y1,2∂X1,1+......+∂L∂Y2,3∂Y2,3∂X1,1\frac{\partial L}{\partial X_{1,1}}=\frac{\partial L}{\partial Y_{1,1}}\frac{\partial Y_{1,1}}{\partial X_{1,1}}+\frac{\partial L}{\partial Y_{1,2}}\frac{\partial Y_{1,2}}{\partial X_{1,1}}+......+\frac{\partial L}{\partial Y_{2,3}}\frac{\partial Y_{2,3}}{\partial X_{1,1}}X1,1L=Y1,1LX1,1Y1,1+Y1,2LX1,1Y1,2+......+Y2,3LX1,1Y2,3
其中后三项都是零,所以:
∂L∂X1,1=∂L∂Y1,1w1,1+∂L∂Y1,2w1,2+∂L∂Y1,3w1,3\frac{\partial L}{\partial X_{1,1}}=\frac{\partial L}{\partial Y_{1,1}}w_{1,1}+\frac{\partial L}{\partial Y_{1,2}}w_{1,2}+\frac{\partial L}{\partial Y_{1,3}}w_{1,3}X1,1L=Y1,1Lw1,1+Y1,2Lw1,2+Y1,3Lw1,3
然后整合一下,通过目测法:

作者算这个∂L∂X1,1\frac{\partial L}{\partial X_{1,1}}X1,1L最后还是变成矩阵了,可能更加有道理,但是我的更好理解,至少对我来说。

结论

这个两个结论是最重要的,后面直接用不需要再依照元素分析了。
ifY=XW:if\ Y=XW:if Y=XW:
∂L∂W=XT∂L∂Y\frac{\partial L}{\partial W}=X^T\frac{\partial L}{\partial Y}WL=XTYL
∂L∂W=∂L∂YWT\frac{\partial L}{\partial W}=\frac{\partial L}{\partial Y}W^TWL=YLWT

http://www.jmfq.cn/news/4852315.html

相关文章:

  • qq免费的推广引流软件/seo案例分析及解析
  • 有哪些网站做美食的图片很精致/网站外链发布平台
  • 做个网站怎么做/深圳seo外包公司
  • 网站建设销售技巧和话术/百度网站流量查询
  • 惠州网/百度手机端排名如何优化
  • 小程序申请流程/开封seo公司
  • 手机移动端网站做多大/暴风seo论坛
  • 微商/百度上做优化
  • 织梦手机网站怎么安装/qq群推广拉人
  • 杭州知名网站制作公司/seo长沙
  • 二手优品哪个网站做/厦门seo推广外包
  • 中国建设网建设通官方网站/网址查询站长工具
  • 去别人网站挂黑链/推广方案流程
  • 郑州做网站的公司哪家/网站seo优化方案项目策划书
  • wordpress时光轴页面/免费seo快速排名工具
  • 网站地图怎么弄/seo谷歌外贸推广
  • 深圳有做网站公司/百度账号怎么改名字
  • 郑州网站制作公司哪家好/seo优化是怎么回事呢
  • 营销型网站方案ppt模板/新网站推广方案
  • 公司网站维护是做什么的/如何优化关键词的排名
  • 域名未绑定 网站过期 以及其他原因/百度手机版网页
  • 电商网站建设实验原理/杭州关键词自动排名
  • 重庆有的设计网站/百度识图网页版入口
  • php wap网站源码/上海关键词推广公司
  • 如何建设好一个网站/旺道seo软件技术
  • 泊头做网站电话/网络推广方案范文
  • 免费拥有自己的网站/seo是什么软件
  • 网站引导页面制作的四个任务名称/网络推广方法技巧
  • 怎么在各大网站做推广/互联网营销师证书是国家认可的吗
  • 广州市网站建设公司/查网站是否正规