钟落潭有没有做网站的/软文代写平台
一、anchor机制
anchor是目标检测中非常重要的一种预设框机制,在卷积层出来的feature map上,使用一组预定义的比例尺和纵横比在空间域上均匀采样锚点,一般情况下,一个锚点就是该feature map上的一个像素点,在该锚点上,可以得到以该锚点为中心的,长宽比不同,的k个anchor(box),作为预设框,目标框是在该预设框的基础上,做中心位置的偏移,以及尺寸的缩放得到的,偏移值和缩放值就是网络要预测的值。
二、现存的anchor机制的问题(论文提出的)
- 论文认为:设置固定的anchor尺寸和比例,效率不高,而且为了得到很高的召回率,需要设置大量的anchor的尺寸来捕获目标,但其实,这些大量的achor box中,真正能为检测到目标做贡献的,不多。
- 我的思考:就是,训练之前,怎么为一个检测场景设置更贴合的anchor?就是怎么判断anchor设置的好不好?这里有个思路(之前没有试过,以后有机会可以试一试):1)、将某层feature上的anchor框在输入图片(网络输入,例如512x512)上重现;2)、gt 重现到输入图片上;3)、计算所有gt和所有anchor的iou矩阵;4)、分析iou矩阵,可以发现,anchor设置的不合理,导致anchor不覆盖所有的gt,即有些gt不能和所有的anchor匹配上。
三、针对问题,论文提出的解决方案
论文的思路是,将固定的shape和scale变成可变的shape和scale。分为两步:首先判断一个子区域是否含有目标,然后再该子区域内决定目标的shapes。
-
Anchor Location Prediction Net
特征图F从卷积层出来之后,一个分支进入anchor预测网络,该网络生成一个概率图p,大小和F一样,概率图上p(i,j)表示,在输入图片上,以((i + 0.5)*s, (j + 0.5)*s)为中心,s是stride,存在一个目标的概率。通过这个网络,可以过滤到90%的无用的区域,并且保证相同的召回率。 -
Anchor Shape Prediction Net
该网络负责预测宽w和高h的值,直接预测不可能,因为这两个值不稳定,因此使用下面的转换公式进行预测:
该公式将预测范围从[0,1000]转换为[-1,1]
四、代码解刨
mmdetection 中加入了Guided Anchoring的代码,该部分是通过解读代码,深挖论文的细节。
未完待续!!!