但现在,"变形金刚"实际上可以为CNN做这项工作,而且还不错。
例如,微软亚洲研究所(Microsoft Institute Of Asia Research)最近提出的Swin转换器,在分割和检测可可数据集的任务上一举超过了Sota。
变形金刚跨越CNN,解决了计算复杂性问题。
那么,问题就在这里。
关注NLP的朋友们必须问,使用变压器执行简历任务的想法由来已久,CNN的地位也没有动摇过,而Swin变压器和Swin转换器之间有什么区别呢?
这涉及变压器简历应用中的两个主要问题:
首先,基于转换器模型,标记的长度是固定的。这当然对NLP中的单词没有问题,但在CV字段中,视觉元素的比例会发生变化,超过场景中不同大小的对象。其次,图像中的像素要求比文本中的文本更高的分辨率。传统的自我关注计算复杂性是图像大小的平方,这就导致了像素级的密集预测问题。
另一方面,Swin变压器的目的是解决NLP和CV之间的差异所造成的问题。
通过移动窗口计算,层次化变压器跨越CNN之外的边界,也解决了计算复杂性的问题。
斯文变压器的诡计的核心是两把斧头:
基于层次特征图,利用特征金字塔网络(Ffn)或U网进行密集预测,将自身注意力的计算限制在不重叠的局部窗口上,允许交叉窗口连接,从而提高了效率。转换器跨越cnn,解决了计算复杂性问题。
这把第二把斧头,是以移动窗口的自我注意为基础的:

如上所示,在l层中,使用规则的窗口分区方案来计算每个窗口中的自我注意。
在1≤1的下一层上,移动窗口分区以产生新窗口。新窗口中的自我注意计算跨越l层窗口的边界,并提供新的关联信息。
变形金刚跨越CNN,解决了计算复杂性问题。
具体来说,"变形金刚"的整体架构是茅台姑妈的:
将RGB图像划分为不重叠的图像块(令牌);应用MLP(多层感知机)将原始特征转换为任意维;应用多个Swin转换器块修改自关注计算,保持令牌数目;在2×2窗口中合并相邻图像块,减少令牌数目,使特征深度加倍。
研究人员要求Swin转换器分别在ImageNet-1K、CoCO和ADE20K上挑战图像分类、目标检测和语义分割。
其中,ImageNet-22K数据集用于预培训,ImageNet-1K数据集用于微调。
结果表明,在COCO分割和检测任务以及ADE20K语义分割任务方面,Swin转换器的性能优于CNN。
在ImageNet-1K的分类任务中,虽然不能超过效率网,但效果是相等的和更快的。