TransT工作


TransT - Transformer Tracking [CVPR2021]

[2103.15436] Transformer Tracking (arxiv.org)

引入

视觉目标跟踪是计算机视觉中的一项基本任务,其目的是预测给定目标在每个视频帧中的位置和形状。它在机器人视觉、视频监控、无人驾驶等领域有着广泛的应用。跟踪的主要挑战是大的遮挡,严重的变形,来自类似物体的干扰,等等。近年来已经做了很多努力,但是设计高精度、实时的跟踪器仍然是一个具有挑战性的任务。

这篇文章的主要内容是介绍一种名为Transformer Tracking(TransT)的跟踪器。该跟踪器使用了Transformer模型,并基于注意力机制实现了特征融合。

文章中提出的TransT方法包括两个关键模块:自我上下文增强模块跨特征增强模块。自我上下文增强模块利用自注意力机制,将目标模板的特征与搜索区域的特征进行融合。跨特征增强模块则通过交叉注意力机制,进一步增强了特征的表征能力。

TransT采用了类似Siamese的特征提取主干,并设计了基于注意力的特征融合机制。同时,该方法还包括了分类和回归头部,用于实现目标跟踪任务中的分类和位置回归。

与其他跟踪器相比,TransT具有简单高效的特点,并且没有在线更新模块。在实验中,作者使用相同的模型和超参数在多个测试集上进行了测试,并取得了良好的跟踪效果。

总结来说,这篇文章介绍了一种基于Transformer模型和注意力机制的跟踪器TransT。通过特征融合和设计的注意力机制,TransT在目标跟踪任务中展现了良好的性能和高效的特点。

为什么传统的相关性操作在设计高精度跟踪算法时存在局限性?

传统的相关性操作是一种简单的特征融合方法,用于衡量模板和搜索区域之间的相似度。然而,相关性操作本身是一种局部线性匹配过程,会导致语义信息的丢失,并容易陷入局部最优解,这可能是设计高精度跟踪算法的瓶颈。相关性操作仅考虑了线性的局部关系,缺乏对模板和搜索区域之间复杂非线性交互的捕捉能力。为了解决这个问题,提出了一种新的特征融合方法,即基于注意力机制的特征融合网络。该方法可以取代相关性操作,将模板和搜索区域的特征进行组合,从而有助于目标的定位和边界框的回归。实验结果表明,与现有的算法相比,该方法在许多基准测试中表现显著优于其他算法,并且实时运行速度达到了实际需求。

在视觉对象跟踪任务中,目标对象的位置和外观特征在不同帧之间可能会发生变化。同时,目标对象与其周围环境之间的交互也可能十分复杂。传统的方法如卷积神经网络(CNN)可能无法充分捕捉这种长期依赖和复杂交互的特征。而Transformer模型利用自注意力机制,可以灵活地建模每一帧中目标对象与周围环境的关联,从而有效地处理长期依赖和复杂交互的情况。

相关介绍:

相关操作(correlation operation)是视觉对象跟踪算法中一种常用的特征融合方式,用于计算模板图像和搜索区域图像之间的相似度。

具体来说,相关操作会将模板图像和搜索区域图像作为输入,然后计算两个图像在各个位置重叠时的线性相关性或相似性。其数学表达式通常如下:

C(x,y) = ∑ I_T(i,j) * I_S(x+i, y+j)

这里I_T是模板图像,I_S是搜索区域图像,(x,y)表示搜索区域中的一个位置。相关操作将计算模板图像与这个位置重叠时的像素值相关性。

通过计算搜索区域中每个位置与模板的相关性,可以得到一个二维相关图(correlation map),表示模板与搜索区域的相似度分布。相关性值高的位置表示更可能是目标所在位置。

相比复杂的特征提取和融合过程,相关操作直接基于像素信息,计算代价低且速度快。但其仅包含线性相似性信息,语义提取能力有限。所以许多新算法会在相关操作基础上引入非线性层,以增强融合特征的表达能力。

总之,相关操作是一种高效的线性特征融合方式,广泛应用于Visual Tracking领域,但也存在信息损失的局限性。先进算法通常在此基础上进行扩展以获得更强大的特征表达。

TransT在哪些数据集上取得了非常有希望的结果?

TransT在六个具有挑战性的数据集上取得了非常有希望的结果,特别是在大规模的LaSOT、TrackingNet和GOT-10k基准测试上。它在GPU上的运行速度约为每秒50帧。这些数据集包括LaSOT、TrackingNet和GOT-10k,TransT在这些数据集上取得了很好的表现。其中,TransT(ori)-np在LaSOT上的AUC得分为60.9%,在TrackingNet上的AUC得分为80.9%,在GOT-10k上的AO得分为68.6%,这些得分甚至超过了许多最先进的算法。同时,在TrackingNet上,TransT的AUC、P Norms和P分别达到了81.4%、86.7%和80.3%,超过了所有其他方法。总之,TransT在LaSOT、TrackingNet和GOT-10k数据集上取得了非常有希望的结果。

关键点

这篇论文的关键点:

  • 本文提出了一个称为Transformer Tracking(TransT)的新的视觉对象跟踪算法。其关键创新是用一个受Transformer网络启发的基于attention的特征融合方法来替代传统跟踪算法中广泛使用的相关操作,以实现模板和搜索区域特征的融合。
  • 所提出的特征融合方法包含两个模块:
    • Ego-Context增强(ECA): 使用多头自注意力机制增强特征表达。
    • 交叉特征增强(CFA): 使用多头交叉注意力机制实现模板和搜索区域特征的融合。
  • 这种设计可以让模型自适应地聚焦在有用的信息上,并在模板和搜索区域特征间建立长程的关联。作者认为这可以捕获比相关操作更丰富的语义信息。
  • TransT的整体架构包含了一个特征提取的backbone网络,多个堆叠的ECA和CFA模块进行特征融合,以及一个预测头负责分类和回归。
  • 在LaSOT、TrackingNet、GOT-10k等主要跟踪基准上的实验表明,该方法取得了 state-of-the-art 的结果,特别是在大规模数据集上的表现突出。TransT可以以每秒50帧的速度运行在GPU上。
  • 消融实验证明了所提出的基于attention的特征融合相比相关操作的重要性,并且展示了TransT优于使用原始Transformer结构的跟踪方法。
  • 对attention图的可视化分析提供了模型跟踪时关注的信息的有趣洞见。

总之,本文的主要贡献是提出了一个新的基于attention的特征融合方法,取得了非常突出的跟踪结果,同时方法概念简单优雅。用更强大的attention机制取代相关操作似乎大有可为。

术语介绍

多头自注意力机制

多头自注意力机制增强特征表达指的是使用多头自注意力(multi-head self-attention)来增强特征的表示能力。

自注意力(self-attention)是注意力机制在处理单个序列上计算其不同位置之间相关性的一种特例。它可以建立序列中任意两个位置之间的关联,从而获得整体的上下文信息。

而多头自注意力机制(multi-head self-attention)是将自注意力模块扩展到多个“头”(head),每个头计算一份独立的注意力分布(attention map),这些注意力分布 encodes 了输入在不同表示子空间(subspace)中的相关信息。

将这种机制应用到特征增强中,输入特征映射(feature map)被看作是一个特征向量序列。多头自注意力会分析特征图中不同位置向量之间的相关性,聚焦于包含目标信息的关键区域,为每个位置提供整体上下文作为增强。

相比仅使用局部区域特征,这种全局上下文信息可以帮助模型更好地判断每个位置属于目标的概率,输出更加区分目标和背景的增强特征表达。这种基于自注意力的特征增强方法已经在多个视觉任务中被验证是有效的。

多头交叉注意力机制

多头交叉注意力机制(Multi-head cross-attention)是对交叉注意力(Cross-attention)的扩展,它允许Attention模块同时处理两个不同的输入序列,计算其之间的相关性。

交叉注意力中的Queries来自第一个序列,Keys和Values来自第二个序列。而多头交叉注意力机制是将交叉注意力模块扩展到多个头,每个头计算Queries与Keys的相关性,得到一份注意力分布(Attention map),然后用该分布为Queries选择相应的Values。

最后,每个头输出的结果经过拼接和线性转换,得到增强的Queries特征表示。

具体在跟踪框架中,模板特征作为Queries,搜索区域特征作为Keys和Values,多头交叉注意力允许网络学习模板与不同搜索区域位置之间的相关性,有助于生成对目标位置更敏感的特征表示。

相比普通的点积相关操作,多头交叉注意力建立非线性的模板-搜索区域关联,可以提取更丰富的语义信息,是更强大的特征融合机制。

图解

image-20230814121535535

  1. 输入图片包括模板图像patch和搜索区域图像patch,进入backbone网络提取特征。
  2. backbone网络分别输出模板图像特征和搜索区域特征。
  3. 特征通过1x1卷积降维,然后被flatten打平为特征序列。
  4. 特征序列进入特征融合网络,这个网络包含若干个特征增强模块。
  5. 每个特征增强模块包含ECA(自注意力增强)和CFA(交叉注意力增强)。
  6. ECA模块通过多头自注意力机制增强自己的特征表示。
  7. CFA模块输入自己的特征和另一路的特征,通过多头交叉注意力机制进行特征融合。
  8. 多层ECA和CFA堆叠,逐层增强特征。
  9. 最后一个CFA模块输出增强后的融合特征。
  10. 预测头模块对融合特征进行分类和回归,输出跟踪结果。

文章作者: QT-7274
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 QT-7274 !
评论
  目录