Transformer跨界超越CNN,还解决了计算复杂度难题

2021-03-31 10:05:28 信息来源:网络
  说到变压器,你可能会想到一堆NLP车型。
  但现在,"变形金刚"实际上可以为CNN做这项工作,而且还不错。
  例如,微软亚洲研究所(Microsoft Institute Of Asia Research)最近提出的Swin转换器,在分割和检测可可数据集的任务上一举超过了Sota。
  变形金刚跨越CNN,解决了计算复杂性问题。
  那么,问题就在这里。
  关注NLP的朋友们必须问,使用变压器执行简历任务的想法由来已久,CNN的地位也没有动摇过,而Swin变压器和Swin转换器之间有什么区别呢?
  这涉及变压器简历应用中的两个主要问题:
  首先,基于转换器模型,标记的长度是固定的。这当然对NLP中的单词没有问题,但在CV字段中,视觉元素的比例会发生变化,超过场景中不同大小的对象。其次,图像中的像素要求比文本中的文本更高的分辨率。传统的自我关注计算复杂性是图像大小的平方,这就导致了像素级的密集预测问题。
  另一方面,Swin变压器的目的是解决NLP和CV之间的差异所造成的问题。
  通过移动窗口计算,层次化变压器跨越CNN之外的边界,也解决了计算复杂性的问题。
  斯文变压器的诡计的核心是两把斧头:
  基于层次特征图,利用特征金字塔网络(Ffn)或U网进行密集预测,将自身注意力的计算限制在不重叠的局部窗口上,允许交叉窗口连接,从而提高了效率。转换器跨越cnn,解决了计算复杂性问题。
  这把第二把斧头,是以移动窗口的自我注意为基础的:
  如上所示,在l层中,使用规则的窗口分区方案来计算每个窗口中的自我注意。
  在1≤1的下一层上,移动窗口分区以产生新窗口。新窗口中的自我注意计算跨越l层窗口的边界,并提供新的关联信息。
  变形金刚跨越CNN,解决了计算复杂性问题。
  具体来说,"变形金刚"的整体架构是茅台姑妈的:
  将RGB图像划分为不重叠的图像块(令牌);应用MLP(多层感知机)将原始特征转换为任意维;应用多个Swin转换器块修改自关注计算,保持令牌数目;在2×2窗口中合并相邻图像块,减少令牌数目,使特征深度加倍。
  研究人员要求Swin转换器分别在ImageNet-1K、CoCO和ADE20K上挑战图像分类、目标检测和语义分割。
  其中,ImageNet-22K数据集用于预培训,ImageNet-1K数据集用于微调。
  结果表明,在COCO分割和检测任务以及ADE20K语义分割任务方面,Swin转换器的性能优于CNN。
  在ImageNet-1K的分类任务中,虽然不能超过效率网,但效果是相等的和更快的。
资讯中心
家居
本站所刊登的各种资讯﹑信息和各种专题专栏资料,均为武汉热线-今日武汉版权所有,未经协议授权禁止下载使用。

Copyright © 2000-2020 All Rights Reserved