来自 科技 2021-10-04 20:29 的文章

采用英特尔ViT的密集预测超过卷积,性能提升2

最近,英特尔用它开发了一个密集预测模型,结果表明,与全卷积相比,该模型在单目深度估计应用任务中的性能提高了28%。
 
 
 
其中,它的结果更加细粒度和全局一致。
 
 
 
在语义分割任务上,该模型在ADE20K数据集上创建了一个具有49.02% mIoU的新SOTA。
 
 
 
这一次,Transformer在CV中展示了另一波操作。
 
遵循编码-解码结构。
该模型称为DPT,是密集预测变压器的简称。
 
一般来说,DPT遵循卷积网络中常用的编码器-解码器结构,主要是在编码器的基本计算构造块中使用变压器。
 
它以ViT为骨干,将ViT提供的词包重组为不同分辨率的图像特征表示,然后利用卷积解码器将这些表示逐步组合成最终的密集预测结果。
 
模型图如下:
 
 
 
具体来说,首先将输入图像转换为标记(上图中的橙色块)。有两种方法:
 
(1)通过展开图像表示的线性投影提取不重叠的图像块(得到的模型是DPT-Base和DPT-large);
 
(2)或者直接通过ResNet-50的特征提取器(得到的模型是DPT-Hybrid)。
 
然后,将位置嵌入添加到获得的令牌中,并独立于图像块(上图中的红色块)读出令牌。
 
然后这些令牌由转换器处理。
 
然后,在每个阶段中由转换器获得的令牌被重新组合成具有不同分辨率的图像表示(绿色部分)。请注意,此时它只是一个图像。
 
下图显示了重组过程。令牌被组装成空间分辨率为输入图像1/s的特征图。
 
 
 
最后,这些图像表示由融合模块(紫色)逐渐“拼接”并上采样,以生成我们最终想要的密集预测结果。
 
赞美诗该模块使用残差卷积单元来组合特征并对特征图进行上采样。
 
 
 
以上是DPT的大概生成过程。与全卷积网络不同,ViT主干在初始图像嵌入计算完成后放弃下采样,在所有处理阶段保持图像表示维数不变。
 
此外,它在每个阶段都有一个全局感受野。
 
正是这两个差异特别有利于密集的预测任务,使DPT模型的结果更加细粒度和全局一致。
 
两种任务被用来测试效果。
 
具体效果如何?
研究人员将DPT应用于两个密集的预测任务。
 
由于transformer只有在大的训练集中才能充分发挥潜力,因此单目深度估计是测试DPT能力的理想任务。
 
通过将DPT与SOTA模型在该任务上进行比较,他们采用的数据集包含约140万幅图像,这是迄今为止最大的单目深度估计训练集。
 
 
 
因此,两种DPT变体的性能明显优于最新型号(上述指标越低越好)。
 
与采用SOTA架构的MiDaS相比,DPT-Hybrid的平均相对改善率超过23%,DPT-Large的平均相对改善率超过28%。
 
为了确保这一成就不仅仅是由于训练集的扩展,研究人员还在更大的数据集上重新训练了MiDaS,DPT仍然获胜。
 
从视觉对比图也可以看出,在挑战卷积结构的区域(如较大的均匀区域),DPT可以更好地重构细节,提高全局一致性。
 
 
 
此外,通过微调,研究人员发现DPT也可以有效地应用于较小的数据集。
 
在竞争语义分割任务上,研究者在ADE20K数据集上训练了240历元的DPT。
 
研究发现,DPT-Hybrid优于现有的所有全卷积结构,并以49.02的mIoU实现了SOTA(其更清晰和更细粒度的边界效应显示在开头)。
 
但是DPT-Large的性能有点差,研究人员可能会分析,因为使用的数据集比之前的实验小很多。
 
 
 
同时,他们在Pascal上对性能优异的DPT-Hybrid进行了50 epoch的微调,发现DPT的性能依然强劲。
 
 
 
最后是“眼见为实”,如果你想体验DPT的真实效果,可以去Huggingface官网。