当前位置: 首页 > news >正文

ydblog wordpress/惠州seo排名收费

ydblog wordpress,惠州seo排名收费,营销策划案ppt优秀案例,怎么建立属于自己的网站传统的CNN得弱点在于一般都是读取局部信息,而没有考虑整个全局的信息。此时如果使用很大的kernel size一次覆盖掉所有的输入。但是弱点有: 在机器翻译中的输入长度不定。这种情况下的kernel参数量非常多,容易overfitting。 self-attention就是一种可以…

传统的CNN得弱点在于一般都是读取局部信息,而没有考虑整个全局的信息。此时如果使用很大的kernel size一次覆盖掉所有的输入。但是弱点有:

  1. 在机器翻译中的输入长度不定。
  2. 这种情况下的kernel参数量非常多,容易overfitting。

self-attention就是一种可以考虑全局信息的机制。相关论文为: attention is all you need
在这里插入图片描述

self-attention可以和CNN和FC结合使用。

self-attention计算方法如下:

  1. 计算a1a^1a1与其他输入的相似度:
    在这里插入图片描述

连个vector相似度的计算方法有点积和相加两种:
在这里插入图片描述

对于dot-product, 将连个向量分别乘以两个矩阵WqW^qWqWkW^kWk,然后讲得到的向量相乘得到:
α=q⋅k\alpha = q\cdot k α=qk

然后分别计算a1a_1a1a1,a2,a3,a4a_1, a_2, a_3, a_4a1,a2,a3,a4的关联性:
在这里插入图片描述
注意这里的querykey的名字,表示qqq是要搜寻的向量,kkk是要比较的向量。

接下来就可以得到a1a^1a1与其他向量的相似度:
在这里插入图片描述

接下来利用相似度来提取sequence的信息,即将输入aaa乘以一个矩阵WvW^vWv得到一个新的value,然后再与相似度进行加权求和:
在这里插入图片描述
接下来同样的方法得到b2b^2b2:
在这里插入图片描述
有些情况下,相关性有多种不同的定义,因此就需要multi-head attention。即使用多个k,q,vk, q, vk,q,v:
在这里插入图片描述

注意这里qi,1q^{i, 1}qi,1之和ki,1k^{i, 1}ki,1vi,1v^{i, 1}vi,1做相似度计算,不和ki,2k^{i, 2}ki,2, vi,2v^{i, 2}vi,2做相似度计算。

得到多个相似度之后拼接起来然后乘以一个矩阵得到最终的输出:
在这里插入图片描述
以上即为multi-head attention的计算过程。

但是问题在于: 这样的机制么有考虑输入sequence的位置信息。即将位置打乱后没有任何差别。

因此需要将位置的信息加入进去, 在self-attention中使用positional encoding方法:
在这里插入图片描述
将位置信息eie^iei直接加到原始输入aia^iai上。

不同的positioning encoding的生成方法有:
在这里插入图片描述
如果sequence过长,可以使用truncated self-attention,即计算相似度时限制范围:
在这里插入图片描述
self-attention与CNN的区别:

  1. CNN只计算了receptive field范围内的相似度, self-attention考虑了整个图像的相似度。self-attention是复杂版本的CNN. 即self-attention是自动定义receptive field. CNN是self-attention的特例。但是self-attention需要更多的数据集,而CNN需要的数据量相对较少。

相关文章: On the Relationship between Self-Attention and Convolutional Layers
, 讨论了CNN和self-attention的关系。

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
讨论了不同的数据量下self-attention和CNN的性能。

RNN与self-attention的区别:

  1. RNN会存在长期记忆遗忘的问题,self-attention没有。
  2. RNN是串行输出, 而self-attention则可以并行处理,可以一次性一起输出。因此self-attention计算效率更高。

相关文章: Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

self-attention与graph的应用:
在这里插入图片描述
self-attention的效果和效率的关系:
在这里插入图片描述

self-attention和attention的区别:

  • Attention机制发生在Target的元素Query和Source中的所有元素之间。

  • Self Attention不是Target和Source之间的Attention机制,而是Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制。

其具体计算过程是一样的,只是计算对象发生了变化而已。

http://www.jmfq.cn/news/4922677.html

相关文章:

  • 安丘网站建设报价/电脑优化软件
  • 专门做批发的网站吗/企业查询信息平台
  • 网站制作关键技术/新网域名查询
  • 深圳网站建设开发/网站指数查询
  • 做网站怎么去找客户/房地产估价师考试
  • 电子pcb做兼职的网站/端点seo博客
  • 济南能源建设网站/营销型网站建设服务
  • 在国外做盗版电影网站吗/企业站seo价格
  • wordpress导出app/东莞seo优化公司
  • 网站开发人才/海外广告投放渠道
  • 网站建设合同鉴于甲方委托乙方/商城全网推广运营公司
  • 如何做拼多多商城官网站/广东省疫情最新
  • 什么样的笔记本电脑适合网站开发/网站域名注册
  • 给设计网站做图/百度站长工具
  • 广州网站推广找谁/百度免费推广网站
  • 电商网站 设计/现在做百度推广有用吗
  • 酒店要做关于网站ppt怎么做/品牌推广策划方案怎么写
  • 在哪个网站做图片视频带音乐/免费的推广引流软件
  • 制作好的网站/关键词排名网络推广
  • 网站运营建设的培训/杭州网站优化体验
  • 汕头站扩建招标/河南网站设计
  • 网站有限公司免费/万网域名官网
  • 做淘宝客最大的网站是叫什么名字/外贸平台
  • 视频网站直播怎么做的/seo教程搜索引擎优化
  • 上海seo关键字推广/郑州网站建设专业乐云seo
  • 第18讲:商品模型 织梦网站系统 dedecms 教学课件/域名注册 阿里云
  • 百度网站建设是什么意思/前端优化网站
  • html网站模板 免费/写文章在哪里发表挣钱
  • 做公众号策划的网站/线上推广员是做什么的
  • 在线做爰视频网站/泉州seo按天收费