当前位置: 首页 > news >正文

网站建设在电子商务中的作用/百度快照推广效果怎样

网站建设在电子商务中的作用,百度快照推广效果怎样,在网站做责编会很累吗,苏州聚尚网络科技有限公司参考:Swin Transformer论文精读【论文精读】_哔哩哔哩_bilibili 在看朱毅老师讲解Swin Transformer论文时,里面有一个Transformer Block的计算复杂度的推导计算,感觉清晰明了,这里做一下记录,先说一下结果,…

参考:Swin Transformer论文精读【论文精读】_哔哩哔哩_bilibili

        在看朱毅老师讲解Swin Transformer论文时,里面有一个Transformer Block的计算复杂度的推导计算,感觉清晰明了,这里做一下记录,先说一下结果,一个Transformer Block中的乘法运算次数如下(不包含Layer Norm的运算量):

        备注:上述计算过程不包含Layer Nor和Softmax。

        结合朱毅老师手动推导的过程,画一下Transformer Block各个模块的输入、输出,以及计算过程的计算复杂度,如下:

        一个Transformer Block中的乘法计算主要来自于下面一些部分,假设Transformer Block的输入数据大小是[HW, C1]:

  • Query:对输入序列做一次线性变换(全连接层)得到Query序列
    1. 输入:[HW, C1]
    2. 输出:[HW, C2]
    3. 计算过程:通过一次线性变换得到Query,其实就是使用一个输入维度为C1,输出维度为C2的全连接层,做一次计算的乘法运算量是C1 * C2,总共做HW次
    4. 乘法运算次数:HW * C1 * C2

        备注:C1可以不等于C2

  • Key:对输入序列做一次线性变换(全连接层)得到Key序列
    1. 输入:[HW, C1]
    2. 输出:[HW, C2]
    3. 计算过程:同Query一样,通过一次线性变换得到Key,其实就是使用一个输入维度为C1,输出维度为C2的全连接层,做一次计算的乘法运算量是C1 * C2,总共做HW次
    4. 乘法运算次数:HW * C1 * C2

        备注:C1可以不等于C2

  • Value:对输入序列做一次线性变换(全连接层)得到Value序列
    1. 输入:[HW, C1]
    2. 输出:[HW, C1]
    3. 计算过程:同Query一样,通过一次线性变换得到Value,其实就是使用一个输入维度为C1,输出维度为C1的全连接层,做一次计算的乘法运算量是C1 * C1,总共做HW次
    4. 乘法运算次数:HW * C1 * C1
  • 计算Attention Weight:使用Query序列的每个时序数据与Key序列的每个时序数据做内积,得到大小为[HW, HW]的注意力权重矩阵
    1. 输入:Query -> [HW, C2], Key -> [HW, C2]
    2. 输出:[HW, HW]
    3. 计算过程:将Query序列中每个维度为C2的向量,分别与Key中HW个维度为C2的向量做内积。内积就是对应位置元素相乘,然后求和,所以一次内积的乘法运算次数是C2次。Query中每个向量要与Key中HW个向量做内积,Query中一共有HW个向量
    4. 乘法运算次数:HW * HW * C2
  • 计算Attention Feature Map:使用Query和Key计算得到的Attention Weight,对Value中的序列数据进行加权
    1. 输入:Attention Weight -> [HW, HW],Value -> [HW, C1]
    2. 输出:[HW, C1]
    3. 计算过程:Attention Weight中每行一共HW个权重元素,分别与Value中的HW个向量相乘,一个数值与维度为C1的向量相乘,乘法运算次数是C1,每行乘HW次,一共HW行,然后将得到的HW个维度为C1的向量相加,得到最终大小为[HW, C1]的结果
    4. 乘法运算次数:HW * HW * C1
  • FFN线性变换:对Attention加权得到的特征做一次线性变换(全连接层)
    1. 输入:[HW, C1]
    2. 输出:[HW, C1]
    3. 计算过程:通过一次线性变换得到输出,其实就是使用一个输入维度为C1,输出维度为C1的全连接层,做一次计算的乘法运算量是C1 * C1,总共做HW次
    4. 乘法运算次数:HW * C1 * C1

        所以,一个Transformer Block中总的乘法运算量是:HW * C1 * C2 + HW * C1 * C2 + HW * C1 * C1 + HW * HW * C2 + HW * HW * C1 + HW * C1 * C1

= 2 * HW * C1 * C2 +2 * HW * C1 * C1 + HW * HW * C2 + HW * HW * C1

        为了简单起见,假设C1 = C2 = C,那么总的乘法运算量是:4 * HW * C * C + 2 * HW * HW * C。

问题:

        为什么Query和Key的向量维度要相等,但是可以不等于Value的输出维度,也就是C2可以不等于C1?

回答:

  1. 因为在计算Attention Weight时,使用Query和Key中的向量做内积,所以要保证Query和Key的向量维度要相等。
  2. Query和Key输出的Attention Weight维度是[HW, HW],消除了C2维度,所以C2可以不等于C1,但是可能会影响性能。

http://www.jmfq.cn/news/5150269.html

相关文章:

  • 珠海网站建设的公司哪家好/百度公司招聘官网最新招聘
  • 论述网站建设引言/推蛙网络
  • 如何做授权网站/互联网服务平台
  • 建什么网站好/市场营销考试题目及答案2022
  • 博客可以放自己做的网站/西安seo推广公司
  • 湖北手机版建站系统哪家好/网站宣传和推广的方法有哪些
  • 北京海淀网站建设/域名注册阿里云
  • 邢台手机网站建设公司/网站生成app工具
  • 织梦系统做网站/互联网推广方案
  • 玩具网站建设策划书/建站软件
  • 国外好的网站空间/网络销售怎么聊客户
  • 丰台网站建设联系方式/发表文章的平台有哪些
  • 网页怎么截图快捷键/seo排名点击
  • 网站建设需要的语言/如何结合搜索检索与seo推广
  • 公司建设网站的申请报告/厦门百度推广怎么做
  • 中国建设银行网站快速查询/微信营销推广的方式有哪些
  • 个人做盈利慈善网站/曼联vs恩波利比分
  • 外贸做的社交网站/互动营销成功案例
  • 零基础学做网页/seo排名优化公司价格
  • 营销网站制作免费咨询/河南最新消息
  • 盘锦做网站建设的/阐述网络推广的主要方法
  • 建立网站ftp是什么/百度网盘服务电话6988
  • 传统网站开发/网站收录优化
  • 用wordpress设计html5/广州新塘网站seo优化
  • 怎么做移动网站吗/苏州网站建设费用
  • 网站建设找王科杰信誉/保定百度首页优化
  • 自己做网站推广/李守洪排名大师怎么样
  • 网站建设seo 视频教程/互联网推广运营是干什么的
  • 手机版网站建设价格/长沙免费网站建站模板
  • 广州旅游网站建设设计/百度推广怎么做的