企业手机端网站模板,关键词歌词打印,WordPress 代码建站,哈尔滨市土地局Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记
文章是中山大学李冠彬老师一作的论文 文章是做RGB-D 目标检测的,RGB-D是特殊的图像,用RGB-D相机拍摄的图像除了RGB三个通道的信息外,还提供了配准的深度… Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记
文章是做RGB-D 目标检测的,RGB-D是特殊的图像,用RGB-D相机拍摄的图像除了RGB三个通道的信息外,还提供了配准的深度信息(大概是通过TOF进行深度测量的) 最开始做RGB-D目标检测是用R-CNN的框架,将RGB通道和D通道分别处理后再作为特征送进SVM进行分类和回归的。这样做有两个不足之处,一是没有利用RGB和D通道之间的联系,而是分别处理了;二是没有利用背景信息(R-CNN的特性) 本文就从上述两个问题入手,第一个问题利用跨模态特征融合的组件进行解决,第二个问题利用LSTM的去抓取全局背景信息来解决(注意力机制)。 此外模型还利用STN抓取目标的高辨识度部位(注意力机制),从而提高分类的准确度。模型全称为 Cross Modal Attentional Context(CMAC)learning framework。 模型超出了SOTA有百分之三点多的map,并且对类内噪声和背景噪声更加鲁棒。
模型结构
模型结构如下,模型包括四个部分: feature extraction, cross-modal feature fusion, attention-based global context modeling 以及 fine-grained object part attention。 首先是利用Multiscale Combinatorial Grouping (MCG)根据RGB通道生成proposal(其实我很奇怪为什么不用RPN),然后是利用 “Learning Rich Features from RGB-D Images for Object Detection and Segmentation” 中的方法将RGB-D图像的深度信息编码为HHA特征。这样网络的输入是三个部分,一个是RGB部分,一个是代表深度信息的HHA部分,一给是proposal及其feature。 然后将RGB图送进卷积神经网络(VGG16)提取RGB特征,将HHA图送进卷积神经网络(AlexNet)提取深度特征,然后因为前面获得过proposal了,这里可以直接ROI pooling,对proposal对应的RGB 特征、proposal对应的HHA特征、全图的RGB特征、全图的HHA特征送进ROI pooling可以获取四个特征块,分别代表目标的局部RGB信息、目标的局部深度信息、图像的RGB全局信息、图像的全局深度信息。然后将global的RGB特征块和深度特征块concatenate到一起,局部的concatenate到一起,送进后面两个分支进行处理。 然后是global attention分支,将前面concatenate后的global特征块做一次1x1卷积,产生K×K×DK\times K\times D K × K × D 的特征图,对前面concatenate后的local特征块做一次1x1卷积,产生S×S×DS\times S\times D S × S × D 的特征图,然后将他们展平连接到一起作为(K2+S2)×D(K^2+S^2)\times D ( K 2 + S 2 ) × D 的特征图,作为LSTM的输入,最后生成K2K^2 K 2 的特征图变形为K×KK\times K K × K 的weight map后,用于对global 特征块进行加权平均,产生了D维向量,然后经过两层全连接生成1024维的向量,作为global attention分支的输出FGF_G F G object part attention看得不是很明白,要是能进李老师实验室再当面问问哈哈哈