Vision Mamba - Efficient Visual Representation Learning With Bidirectional SSM

Machine Translated by Google
Vision Mamba：
双向高效视觉表示学习
状态空间模型
Lianghui Zhu1 , 廖本成1* , Qian Zhang2 , Xinlong Wang3 , Wenyu Liu1 , Xinggang Wang1
1
华中科技大学2
地平线机器人 3
北京人工智能研究院
代码和模型： hustvl/Vim
叔叔
74 41 2.6 80
DeiT‑Ti Vim‑Ti
卢(
米
)%
73 40 2.54 2.29
钛
姆
维
c名
.c)%前
A
1(
72 39 2.2 60
2.25 2.07
点
快
71 38
小
较
2.05 1.91
40.09
%8.6内
存
8‑
70 37 1.8 1.71 40
SP带
的
度
刻
数
对
F
分类
存
内
G(
)BPG
两者都不。
帮助。
8倍
快
.2
U
金
合
钛
46 40
1.57
1.4 20
）％地
（
图
）％地
（
图
45 39 12.48
8.09
44 38 1.26 4.56 11.14
DeiT‑Ti Vim‑Ti 8.13
3.32 4.22 5.03
43 37 1 0
42 36 第512章 640 第738章 1024 1248 第512章 640 第738章 1024 1248
检测插入。
说。解决解决
(a) 准确度比较 (b) 速度比较 (c) GPU 显存比较
图 1. DeiT [60]和我们的 Vim 模型之间的性能和效率比较。为了进行准确性比较，我们首先在 IN1K 分类数据集[10] 上预训练 DeiT 和 Vim，
然后在不同的下
游密集预测任务（即语义分割、对象检测、实例分割）上微调通用主干。结果表明，所提出的 Vim 在预训练和微调任务上都优于 DeiT。对于速度比较，由于其次
二次时间计算，所提出的 Vim 在处理大图像时明显快于 DeiT。对于 GPU 内存比较， Vim 通过其线性内存复杂性推断大图像所需的 GPU 内存比 DeiT 少。所
提出的 Vim 不仅在视觉任务上具有出色的准确性，而且在处理大图像方面也比 DeiT 更高效。例如，当对分辨率为 1248×1248 的图像（即每张图像 6084
个 token）执行批量推理提取特征时， Vim 比 DeiT 快 2.8 倍，
并节省 86.8% 的 GPU 内存。
抽象的同时还展示了计算和内存效率的显着提高。
例如，
在对分辨率为
1248×1248 的图像执行批量推理提取特征时，
Vim 比 DeiT 快 2.8 倍，
最近，
具有高效硬件感知设计的状态空间模型（SSM），
即 Mamba，并节省 86.8% 的 GPU 内存。
结果表明，
Vim 能够克服对高分辨率图像执
在长序列建模方面表现出了巨大的潜力。
纯粹基于 SSM 构建高效且通用行 Transformer 式理解时的计算和内存限制，
并且具有成为视觉基础模
的视觉主干是一个有吸引力的方向。
然而，
由于视觉数据的位置敏感性以及型的下一代骨干的巨大潜力。
视觉理解的全局上下文的要求，
表示视觉数据对于 SSM 来说是一个挑战。
0日
4i2.Xs7
]V:vC
1v71490.1042 年
月
rca
2[
1
在本文中，
我们证明视觉表示学习对自注意力的依赖是不必要的，
并提出
了一种具有双向 Mamba 块（Vim）
的新通用视觉主干，
它用位置嵌入标
记图像序列并压缩双向状态空间模型的视觉表示。
在 ImageNet 分类、
COCO 对象检测和 ADE20k 语义分割任务上，
与 DeiT 等成熟的视觉转一、
简介
换器相比，
Vim 实现了更高的性能，
最近的研究进展引起了人们对状态空间模型（SSM）
的兴趣激增。
现代
SSM源自经典的状态空间模型[30]，
擅长捕获远程依赖性并从并行训练中
受益。
一些基于SSM的方法，
例如线性状态空间层（LSSL） [22]、
结构化
状态空间序列模型（S4） [21]、
对角状态空间（DSS） [24]、
* Lianghui Zhu and Bencheng Liao contributed equally to this work.

Corresponding author: Xinggang Wang (xgwang@hust.edu.cn).
1
和S4D [23]，
被提议来处理跨序列数据前者，
Vim 可以在无人监督的情况下进行大规模预训练
广泛的任务和模式，
特别是在建模长期依赖性方面。
他们长期高效视觉数据以获得更好的视觉表示。
感谢
Mamba 的效率更高，
大规模预训练
由于卷积计算和近线性计算而产生的序列。
二维 SSM [2]、
SGConvNeXt [37]、 Vim 可以用较低的计算成本来实现。
与其他基于 SSM 的视觉模型相比
ConvSSM [52]将SSM与CNN或Trans‑former架构结合起来处理2D数据。
最 Vim 是一种基于纯 SSM 的方法，
以序列方式对图像进行建模，
这对于
近的工作，
Mamba [20]，
将时变参数纳入通用且高效的骨干。
得益于双向
SSM 并提出了一种硬件感知算法来实现通过位置感知来压缩建模，
Vim 是
高效的训练和推理。 Mamba 卓越的扩展性能表明它是语言建模领域第一个基于纯 SSM 的模型来处理密集预测
Transformer 的一个有前途的替代品。
尽管如此，任务。
与最有说服力的基于 Transformer 的模型 DeiT [60]相比， Vim 在
ImageNet 分类上取得了优异的性能。
此外，
维姆
尚未探索基于纯 SSM 的通用骨干网
用于视觉任务。在 GPU 内存和推理方面更加高效
Vision Transformers (ViTs) 取得了巨大成功高分辨率图像的时间。

效率方面
在视觉表示学习方面，
在大规模自监督预训练和高性能方面表现出色内存和速度使 Vim 能够直接执行顺序视觉表示学习，
而无需依赖
下游任务。
与卷积神经网络相比 2D 先验（例如ViTDet [38]中的 2D 局部窗口）
网络，
核心优势在于ViT可以提供高分辨率视觉理解任务，
同时实现
每个图像补丁都具有数据/补丁相关的全局上下文比 DeiT 更高的准确度。

我们的主要贡献可概括如下：
通过自我关注。
这与使用相同参数的卷积网络不同，
即卷积网络
‧ 我们提出 Vision Mamba (Vim)，
其中包含
过滤器，
适用于所有位置。
另一个优点是通过将图像视为一系列的模态不可知用于数据依赖的全局视觉上下文建模的双向 SSM 和用于位置感知视觉理
建模解的位置嵌入。
补丁没有 2D 归纳偏置，
这使其成为多模态应用的首选架构[3,36,40 ] 。
‧ 无需注意，
提议的 Vim 已经
与此同时，
Trans‑formers 中的自注意力机制在处理远程视觉依赖性时在速与 ViT 具有相同的建模能力，
但它只有
度和内存使用方面提出了挑战，
例如：次二次时间计算和线性内存复杂性。
具体来说，
我们的 Vim 比 DeiT 快 2.8
倍
处理高分辨率图像。执行批处理时节省 86.8% GPU 内存

以分辨率提取图像特征的推理
受到 Mamba 在语言建模方面的成功的激励，
我们也可以 1248×1248。
将这种成功转移出去，这是很有吸引力的
‧ 我们对ImageNet 分类和密集预测下游任务进行了广泛的实验。
结果表明
从语言到视觉，
即利用先进的SSM方法设计通用且高效的视觉主干。
Vim 实现了卓越的性能
然而，
Mamba 面临两个挑战，
即单向建模和缺乏位置意识。
到
与成熟且高度优化的
普通视觉 Transformer，
即 DeiT。
为了应对这些挑战，
我们提出了 Mamba 愿景
‧ 受益于高效的硬件感知设计
(Vim) 块，
其中包含双向 SSM
对于高分辨率计算机来说， Mamba、
Vim 比基于自注意力的 DeiT [60]效
数据依赖的全局视觉上下文建模和位置
率要高得多
用于位置感知视觉识别的嵌入。
我们首先
视觉任务，
例如视频分割、
航空图像分析、
医学图像分割、
计算病理学。
将输入图像分割成块并线性投影它们
作为 Vim 的向量。
图像块被视为 Vim 块中的序列数据，
从而有效地压缩
所提出的双向选择状态空间的视觉表示。
此外，
位置嵌入 2.相关工作
Vim 块提供了对空间信息的感知，
这使得 Vim 在密集预测任务中更加鲁棒。
在通用视觉主干的架构。
在早期的
现阶段，
我们训练 Vim 模型目前，
ConvNet [34]已成为事实上的标准网络
计算机视觉设计。
许多卷积神经架构[ 25,26,33,50,51,56–58,63,72 ]已经被
使用 ImageNet 的监督图像分类任务 _
数据集，
然后使用预训练的 Vim 作为骨干被提议作为各种视觉应用的视觉支柱。
开创性的工作，
Vision Transformer
对下游密集预测任务执行顺序视觉表示学习，
即语义分割， (ViT) [14]
改变景观。
它将图像视为一系列
对象检测和实例分割。
就像跨‑ 展平 2D 补丁并直接应用纯 Transformer
2
建筑学。 ViT 在图像分类上的令人惊讶的结果及其缩放能力鼓励了大量的后 SSM无需关注。

续研究
作品[ 16,59,61,62 ] 。
其中一系列工作重点是通过引入 2D 卷积来进行混合架视觉应用的状态空间模型。 [27]用途
构设计 1D S4 处理长期时间依赖性
先验进入 ViT [9,13,15,69 ] 。 PVT [66]提出了一种金字塔结构的视频分类。 [47]进一步扩展 1D S4 以处理包括 2D 图像和 3D 的多维数据
Transformer。 Swin变压器[42]适用
班次窗口内的自我关注。
另一条线的作品
视频。 [28]结合了S4和self‑attention的优点
专注于改进传统的 2D ConvNets 构建 TranS4mer 模型，
实现电影场景检测的最先进性能。 [64]介绍一本小
高级设置[41, 67]。 ConvNeXt [43]回顾了设计空间并提出了纯 ConvNet，说
它可以像 ViT 及其变体一样进行扩展。 RepLKNet [12]提出 S4的选择性机制，
大大提高了S4在长格式视频理解上的性能
扩大现有卷积网络的内核大小以带来改进。更低的内存占用。 [73]用更具可扩展性的基于SSM的骨干网取代了注意力机

制，
以生成高分辨率图像并在可承受的计算下处理细粒度的表示。 [45]建议
尽管这些主要的后续作品表明
随着大规模视觉的激增，
通过引入 2D 先验，
在 Ima‑geNet [10]和各种下游任
务[39, 74]上实现卓越的性能和更高的效率 U‑Mamba，
一种混合 CNN‑SSM 架构，
用于处理
生物医学图像分割中的远程依赖性。
上述作品要么将SSM应用于特定的视觉
预训练[1, 5, 17]和多模态应用[3,
29, 35, 36, 40, 49]，
香草变形金刚风格模型来袭应用程序或通过组合构建混合架构
回到计算机视觉的中心舞台。
优点具有卷积或注意力的 SSM。
与他们不同的是，
具有更大的建模能力、
统一的多模态表示、
对自监督学习友好等，我们建立了一个基于纯SSM的模型，
可以采用
作为通用视觉支柱。
使其成为首选架构。
然而，
数量
由于二次复杂度，
视觉标记的数量受到限制 3. 方法
的变压器。
有很多作品[ 7,8,11,32,48 ,
55, 65]来解决这个长期存在且突出的挑战，
但很少有人关注视觉应用。
最近， Vision Mamba (Vim) 的目标是将先进的状态空间模型 (SSM)，
即 Mamba
LongViT [68]通过扩张为计算病理学应用构建了一个高效的 Transformer [20]引入计算机视觉。

本节首先描述
架构
SSM 的预备工作。
接下来是 Vim 的概述。
注意力。 LongViT的线性计算复杂度然后，

我们详细介绍 Vim 块如何处理输入标记序列，
并继续说明以下架构的详
允许它编码极长的视觉序列。
在细信息
在这项工作中，我们从 Mamba [20]和 ex‑plore 中汲取灵感，

构建了维姆。
本节最后分析了所提议的 Vim 的效率。
一个基于纯 SSM 的模型作为通用愿景

不使用注意力机制，
同时保留 ViT 的顺序、
模态不可知的建模优点。 3.1.预赛
基于 SSM 的模型，
即结构化状态空间序列模型 (S4) 和 Mamba 受到连续系
统的启发，
它映射一维函数或序列
用于长序列建模的状态空间模型。 [21]
提出了结构化状态空间序列（S4）
模型， x(t) Î R → y(t) Î R 通过隐藏状态 h(t) Î R
氮
。
CNN 或 Transformer 的新颖替代方案，

用于建模该系统使用 A ∈ R
N×N
作为进化参数和
长程依赖。
线性的有前途的性质 B ∈ R N×1 , C ∈ R 1×N 作为投影参数。
序列长度的缩放吸引了进一步的探索。 [53]
通过引入 MIMO SSM 提出了新的 S5 层， H′ (t) = Ah(t) + Bx(t),
(1)
高效并行扫描到 S4 层。 [18]设计了一个新的 y(t) = Ch(t)。
SSM 层 H3 几乎填补了语言建模中 SSM 和 Transformer 注意力之间的性
能差距。 [46]在 S4 上构建门态空间层： S4 和 Mamba 是连续系统的离散版本，
其中包括时间尺度参数 Δ
引入更多的门控单元以提高表现力。将连续参数A、
B变换为离散参数A、
B。常用的变换方法是零阶保持(ZOH)，
其定
最近， [20]提出了一个数据依赖的SSM层和义如下：
构建了一个通用语言模型主干 Mamba，
大规模优于各种尺寸的 Transformer
真实数据并享受序列长度的线性缩放。
在
在这项工作中，
我们探索将 Mamba 的成功转移到 A = exp (ΔA),
−1
(2)
愿景，
即纯粹基于 B = (ΔA) (exp (ΔA) − I) · ΔB。
3
A、
B离散化后的离散化版本算法1： Vim 块处理
方程的(1)使用步长 Δ 可以重写为：输入：
令牌序列Tl−1 : (B, M, D)
输出： token 序列Tl : (B, M, D) /* 标准化
ht = Aht−1 + Bxt， yt = Cht。输入序列T′ l−1 */
(3)
1 T′ ：（B，
M，D） ←范数（Tl−1）
l−1
2 x : (B, M, E) ←线性x(T′ ）
l−1
最后，
模型通过全局卷积计算输出。
3 z : (B, M, E) ← Linearz (T′ ）
l−1
/* 不同方向的处理 */ 4 for o in {forward,backward} do
M−1
K = (CB, CAB, ..., CA 乙），
(4) 5×o
′ : (B, M, E) ← SiLU(Conv1do(x))
y=x*K，
6 Bo : (B, M, N) ← LinearB (x ′ ）
氧氧
其中M是输入序列x的长度，
K ∈ R是结构化卷积核。
中号
7 Co : (B, M, N) ← LinearC (x /* ′ ）
氧氧
softplus 确保Δo为正*/ 8 Δo : (B, M, E) ←
3.2.愿景曼巴 log(1 + exp(LinearΔo (x /* ′ ) +参数Δo ))

氧
ParameterA的形状为(E, N) */
所提出的 Vim 的概述如图 2 所示。
标准 Mamba 是为一维序列设计的。
为了处氧
9 Ao : (B, M, E, N) ← Δo参数A
理视觉任务，
我们首先将二维图像转换为扁平的二维补丁xp ∈ R J×(P t ∈ 氧
10 Bo : (B, M, E, N) ← Δo Bo
R 其中 (H, W) 是输入图像的大小，
C 是通道数, P 是图像块的大小。
接下来，
我
2
高×宽×厚
Epos 们将 xp 线性投影到大小为 D 的向量，
并添加位置嵌入
·C）
, 11 是: (B, M, E) ← SSM(Ao, Bo, Co)(x ′ ）
氧
∈ R (J+1)×D 12 end /
* 门控哟*/ ′
: (B, M, E) ← y 向前SiLU(z) 13 y向前
, 如下： ′
向后14年 : (B, M, E) ← y向后SiLU(z)
/* 剩余连接 */
15 Tl : (B, M, D) ← LinearT(y ′ + y向前 ′

1 2 J 向后) + Tl−1
T0 = [tcls; t 功率； tpW ； · · · ; t pW] + Epos， (5)
16返回： Tl
2
j ·C)×D为
其中 t p 是 t 的第 j 个 patch，
W ∈ R (P可学习投影矩
阵。
受到 ViT [14]和 BERT [31] 的启发，
我们还使用类 token 来表示整个
将标准化序列归一化为维度大小为 E 的 x 和 z。
然后，
我们从前向和后向处理
patch 序列，
记为tcls。
然后将标记序列(Tl−1)发送到 Vim 编码器的第 l 层，
并
x。
对于每个方向，
我们首先对 x 应用一维卷积并得到 x
得到输出Tl。
最后，
我们对输出类标记T0进行归一化，
并将其馈送到多层感知器
（MLP ) 得到最终的预测 p ，
如下： ′
氧。
然后我们将分别线性投影到Bo、 Co、 Δo 。
然后
′
xo 使用 Δo分别变换Ao、 Bo 。
最后，
我们通过SSM计算yforward和ybackward 。
然后yforward和
_
L
ybackward由 z 选通并加在一起以获得输出令牌序列T1 。
Tl = Vim(Tl−1) + Tl−1,
0
f = 范数(T (6)
L ), p = MLP(f), 3.4.架构细节
其中 Vim 是建议的视觉曼巴块，
L 是层数，
Norm 是归一化层。综上所述，
我们架构的超参数如下：
3.3. Vim 块 L：
块数，
最初的 Mamba 模块是为一维序列设计的，

它不适合需要空间感知理解的视 D：
隐藏状态维度，
觉任务。
在本节中，
我们介绍 Vim 模块，
它结合了视觉任务的双向序列建模。 E：
扩展状态维度，
Vim 块如图 2 所示。 N：
SSM 尺寸。
遵循 ViT [14]和 DeiT [61]，

我们首先采用 16×16 内核大小的投影层来获得
非重叠补丁嵌入的一维序列。
随后，
我们直接堆叠L个Vim块。
默认情况下，
我们
具体来说，
我们介绍了 Algo 中 Vim 块的操作。 1.输入标记序列Tl‑1首先将块数 L 设置为 24，
SSM 维度 N 设置为 16。
为了与模型对齐
由归一化层归一化。
接下来，
我们线性投影
4
丁
补
入
嵌
投影层MLP 预言长×
向前向前
补丁令牌
转换1d SSM
视觉曼巴编码器
0 1 位置嵌入。
落后落后
* 类令牌
*0123456789
规范
转换1d SSM
输入图像
展平和线性投影激活
愿景曼巴 (Vim) 视觉曼巴编码器
图 2. 所提出的 Vim 模型的概述。

我们首先将输入图像分割成补丁，
然后将它们投影到补丁标记中。
最后，
我们将标记序列发送到建议的 Vim 编码器。
为了执行 ImageNet 分类，
我们将额外的可学习分类标记连接到补丁标记序列。
与 Mamba 进行文本序列建模不同，
Vim 编码器以向前和向后方向处理标记序列。
对于 DeiT 系列的大小，
我们将小尺寸变体的隐藏状态维度 D 设置为因为激活值占用大量内存，
但重新计算速度很快。
192，
将扩展状态维度 E 设置为 384。
对于小尺寸变体，
我们将 D 设置为
384，
将 E 设置为 768。
计算效率。 Vim 模块中的 SSM（Algo.1 中的第 11 行）
和 Transformer
中的自注意力机制在自适应地提供全局上下文方面都发挥着关键作用。给
3.5.效率分析
定视觉序列 T ∈ R1×M×D和默认设置 E = 2D，
全局自注意力和 SSM
传统的基于 SSM 的方法利用快速傅立叶变换来增强卷积运算，如式（1）的计算复杂度
所示。（4）。对于依赖于数据的方法，例如 Mamba，
Algo 第 11 行中
的 SSM 操作。 1不再等同于卷积。
为了解决这个问题， Mamba 和提议是：
的 Vim 选择了一种现代硬件友好的方式来确保效率。这种优化的关键 2

Ω(自注意力) = 4MD2 + 2M D、 (7)
思想是避免现代硬件加速器 (GPU) 的 IO 限制和内存限制。
2
Ω(SSM) = 3M(2D)N + M(2D)N , (8)
其中 self‑attention 与序列长度 M 成二次方，

SSM 与序列长度 M 成线
性（N 是固定参数，默认设置为 16）。计算效率使 Vim 可扩展用于具有
大序列长度的十亿像素应用程序。
IO 效率。高带宽内存 (HBM) 和 SRAM 是 GPU 的两个重要组件。其中

SRAM的带宽较大， HBM的内存大小较大。 Vim 的 SSM 操作与 HBM 的
标准实现需要 O(BMEN) 量级的内存 IO 数量。受到 Mamba 的启发， 4. 实验
Vim 首先从慢速 HBM 读取 O(BME + EN) 字节内存(Δo, Ao, Bo, Co)到
快速 SRAM。然后，Vim在 SRAM 中获取大小为 (B, M, E, N) 的离散Ao, 4.1.图像分类
Bo 。
最后，Vim 在 SRAM 中执行 SSM 操作，
并将大小为 (B, M, E) 的输出设置。我们在 ImageNet‑1K 数据集[10] 上对 Vim 进行基准测试，该数
写回 HBM。此方法有助于将 IO 从 O(BMEN) 减少到 O(BME + EN)。据集包含来自 1,000 个类别的 128 万张训练图像和 5 万张验证图像。所
有模型都在训练集上进行训练，并报告验证集上的 top‑1 准确率。为了
公平比较，我们的训练设置主要遵循 DeiT [61]。具体来说，我们应用随机
裁剪、随机水平翻转、标签平滑正则化、混合和随机擦除作为数据增强。在
对 2242 个输入图像进行训练时，我们采用动量为 0.9、总批量大小为
1024、
权重衰减为 0.05 的AdamW [44]来优化模型。我们使用余弦计
划、1×10−3初始学习率和 EMA训练 Vim 模型 300 个时期。
内存效率。为了避免内存不足问题并在处理长序列时实现较低的内存使用
量， Vim 选择了与 Mamba 相同的重新计算方法。对于大小为 (B, M, E,
N) 的中间状态来计算梯度， Vim 在网络向后传递时重新计算它们。对于中
间激活，
例如激活函数和卷积的输出，
Vim 还会重新计算它们以优化 GPU
内存需求，
在测试过程中，我们在验证集上应用中心裁剪以裁剪出 2242 张图像。
实
验在 8 台上进行
A800 GPU。
5
图像 ImageNet 超过 DeiT‑Small。
与基于 SSM 的 S4ND‑ViT‑B [47] 相比， Vim 实
方法 #参数。
尺寸 top‑1 依据。现了类似的 top‑1 精度，但精度降低了 3 倍
网络参数。
图1 (b)和(c)比较FPS和GPU内存
ResNet‑18 [25] 2242 12M 69.8 小型 Vim 和 DeiT。
随着图像分辨率的提高，
Vim 在速度和内存方面表现出更
ResNet‑50 [25] 2242 25M 76.2 好的效率。
ResNet‑101 [25] 2242 45M 77.4 具体来说，
当图像大小为 512 时，
Vim 实现与 DeiT 类似的 FPS 和内存。
随着
ResNet‑152 [25] 2242 60M 78.3 图像尺寸增大到
77.6 1248，
Vim 比 DeiT 快 2.8 倍，
节省 86.8% GPU
ResNeXt50‑32x4d [72] 2242 25M
记忆。 Vim 在序列长度方面的线性缩放的显着优势使其为高分辨率做好了准
RegNetY‑4GF [50] 2242 21M 80.0
备
变形金刚下游视觉应用和长序列多模态应用。
ViT‑B/16 [14] 3842 86M 77.9

ViT‑L/16 [14] 3842 307M 76.5 4.2.语义分割
DeiT‑Ti [61] 2242 6M 72.2
设置。
我们在 ADE20K [74]数据集上进行语义分割实验。 ADE20K包含150
天T‑S [61] 2242 22M 79.8
个
SSM 细粒度语义类别，
分别具有 20K、
2K 和 3K 图像用于训练、
验证和测试。
我们
S4ND‑ViT‑B [47] 2242 89M 80.4

选择UperNet [70]作为我们的基础框架。
在培训中，
维姆钛 2242 7M 73.1 我们使用权重衰减为 0.01 的 AdamW，
总共
Vim‑S 2242 26M 80.3 批量大小为 16，
用于优化模型。
所采用的训练计划使用 6×10−5 的初始学习
率 , 线性
表 1. ImageNet‑1K 上不同主干网的比较学习率衰减，
线性预热 1, 500 次迭代，
验证集。
总共训练160K次迭代。
数据增强遵循常见设置，
包括随机水平
图像瓦尔翻转，
在比例范围[0.5，
2.0]内随机重新缩放，
方法骨干 #参数。
尺寸米卢和随机光度畸变。
在评估过程中，
我们
DeepLab v3+ [6] ResNet‑101 5122 63M 44.1 重新缩放图像，
使其较短边为 512。
上网[71] ResNet‑50 5122 67M 41.2
上网[71] ResNet‑101 5122 86M 44.9
结果。
如表所示。 2、
Vim 在不同尺度上始终优于 DeiT：
高出 1.0 mIoU
上网[71] 钛钛合金 5122 11M 39.2
上网[71] 日T‑S 5122 43M 44.0 Vim‑Ti 比 DeiT‑Ti 高 0.9 mIoU，
Vim‑S 比 DeiT‑Ti 高 0.9 mIoU
维姆钛 5122 13M 40.2 DeiT‑S。
与 ResNet‑101 主干相比，
我们的 Vim‑S 实现了相同的分割性能，
并
上网[71]
上网[71] Vim‑S 5122 46M 44.9 且几乎
参数减少 2 倍。
表 2. ADE20K val 上的语义分割结果为了进一步评估下游任务的效率，

放。即分割、
检测和实例分割，
我们
将主干网与常用的特征金字塔网络（FPN）
模块结合起来，
并对它们的 FPS 和
结果。
标签。 1将 Vim 与基于 ConvNet 的比较， GPU内存。
如图3和图4所示，
效率
基于 Transformer 和 SSM 的主干网。
比较的曲线显示了与纯的类似的比较结果
相对于基于 ConvNet 的 ResNet [25]， Vim 展示了卓越的性能。
例如，
当参主干（图1），
尽管我们在主干上附加了一个重 FPN
数骨干。
卓越的线性缩放性能是
大致相似，
Vim‑Small 的 top‑1 准确率这归功于我们提出的高效骨干 Vim，
它
达到80.3，
比去年高出4.1分为以端到端的方式学习十亿像素级视觉表示奠定了基础，
而无需
ResNet50。
与传统的基于自注意力的 ViT [14] 相比， Vim 的性能明显优于它
多级编码（例如，
航空图像、
医学图像、
在参数数量和分类精度方面。
与高度优化的 ViT 变体相比，和计算病理学）。
4.3.对象检测和实例分割
即 DeiT [61]， Vim 在不同尺度上超越了它
可比较的参数数量：
Vim‑Tiny 比 DeiT‑Tiny 高 0.9 个点，
Vim‑Small 高 0.5 设置。
我们进行物体检测实验
个点以及 COCO 2017 数据集上的实例分割[39]。
6
叔叔
2.6 80
德维姆
2.52
2.27
65
2.2
2.24 2.06
1.90 50
2.00
小
较
1.8 1.70
点
快
%2.3内
存
7‑
40.03
SP带
的
度
刻
数
对
F
35
存
内
G(
)BPG
U
8倍
快
.2
1.56
1.4
20 22.59
1.25 12.48
德维姆 8.09 15.86
5.52
1 5.04 6.88 8.54
5
第512章 640 第738章 1024 1248 第512章 640 第738章 1024 1248
解决解决
图 3. DeiT‑Ti [60]和我们的 Vim‑Ti 在常用下游框架上的FPS 比较。

我们表演图 4. DeiT‑Ti [60]和我们的 Vim‑Ti 在常用下游框架上的GPU 内存效率比较。
我们在具有
主干和 FPN 的架构上执行批量推理并对 GPU 内存进行基准测试。 Vim 需要
在具有骨干网和 FPN 的架构上进行批量推理和对数缩放 FPS 的基准测试。 Vim 在小
分辨率（即 512）
下实现了与 DeiT 相当的性能。
GPU 内存与小分辨率的 DeiT 相当，
即
图像分辨率提高，
Vim 将会有更高的 FPS。 512. 随着输入图像分辨率的增加，
Vim 将使用显着更少的 GPU 内存。
骨干APbox APbox 50 AP盒75 AP盒s AP盒米 AP盒我
ImageNet ADE20K
钛钛合金 44.4 63.0 47.8 26.1 47.4 61.8 双向策略
米卢
top‑1 依据。
维姆钛 45.7 63.9 49.6 26.1 49.0 63.2
没有任何 73.2 32.3
骨干AP掩码AP掩码 50 AP掩码
75 AP掩码
s AP掩码
米
AP掩码
33.6
我
双向层 70.9
钛钛合金 38.1 59.9 40.5 18.1 40.5 58.4 双向SSM 72.8 33.2
维姆钛 39.2 60.9 41.7 18.2 41.8 60.2 双向 SSM + Conv1d 73.1 34.8
表 3. 目标检测和实例分割的结果表 4. 双向设计的消融研究。
默认设置
COCO val 集使用 Cascade Mask R‑CNN [4]框架。 Vim 标记为蓝色。
COCO 2017 数据集包含 118K 训练图像、 5K 验证图像和 20K 测试图我们想强调的是，由于 DeiT 配备了窗口注意力，
因此精度优势并非
像。微不足道。
我们使用规范的 Cascade Mask R‑CNN [4]作为基础 Vim 以纯序列建模方式工作。具体来说，在高分辨率上执行表示学习
框架。对于基于 ViT 的主干网，我们应用额外的配置（例如，
交错窗口和
全局注意力）图像（即 1024×1024），
我们遵循 ViTDet [38]并使用 2D 窗口注意
处理 ViTDet [38]之后的高分辨率图像。力修改 DeiT 主干，
对于基于SSM的Vim，我们直接使用它，不做任何修改。
其他训练和评估它注入了 2D 先验并打破了顺序建模
设置只是变压器的性质。感谢所示的效率
相同的。
在训练过程中，
我们使用 AdamW ，
其权重为在秒。 3.5、图1和图4，
我们可以直接应用Vim
衰减为 0.1，
总批量大小为 64，以优化模型。 1024×1024 输入图像并学习用于对象检测和实例分割的顺序视觉表
所采用的训练计划使用初始学习率示
1×10−4 的, 线性学习率衰减，以及总训练不需要主干中的 2D 先验。
380K 次迭代。数据增强使用大规模
抖动数据增强[19]到1024×1024输入图像。 4.4.消融研究
在评估过程中，我们重新缩放图像以使其更短
1024 的一侧。我们消除了 Vim 的关键双向设计，使用 ImageNet‑1K 分类和
Segmenter [ 54]
ADE20K 语义分割。为全面评估
结果。标签。图 3使用 Cas‑cade Mask R‑CNN 框架比较了 Vim‑Ti 和由于 ImageNet 上学习表示的力量，我们使用只有 2 层的简单
DeiT‑Ti [4]。 Vim‑Ti 超过 DeiT‑Ti 1.3 box AP 和 1.1 mask AP。
对于 Segmenter 头来执行传输
中号学习语义分割。我们研究这些双向策略：
和大尺寸物体， Vim‑Ti 比 DeiT‑Ti 好 1.6
AP盒米 /1.3 AP掩码米
和1.4 AP盒 /1.8 AP掩码 , 证明
我我 ‧ 没有任何。
我们直接采用Mamba块来处理视觉
比 DeiT 更好的远程上下文学习（图5）。仅具有前向的序列。
7
GT 钛钛合金维姆钛
图 5. DeiT‑Ti [61]和我们的 Vim‑Ti 在 Cascade Mask R‑CNN [4]框架上的可视化比较。感谢远距离

通过 SSM 的上下文学习，我们可以捕获图像中非常大的物体，这是 DeiT‑Ti 对应物无法感知的。
‧ 双向序列。
在训练过程中，
我们随机在处理高分辨率图像时，
Vim 的年龄明显优于 ViT。
标准计算机视觉基准上的
翻转视觉序列。
这就像数据增强一样。实验结果验证了 Vim 的建模能力和高效率，
表明 Vim
‧ 双向块。
我们将堆叠的块配对。
这
每对的第一个块处理视觉序列具有成为下一代视觉支柱的巨大潜力。
向前方向处理，
每对中的第二个块向后方向处理。在未来的工作中，
具有位置嵌入的双向 SSM 建模的 Vim 适用于无监督
‧ 双向SSM。
我们为每个块添加一个额外的 SSM 诸如掩模图像建模预训练和
向后处理视觉序列。与 Mamba 类似的架构支持多模式任务
‧ 双向SSM + Conv1d。
基于双向例如 CLIP 式的预训练。
基于预训练的
SSM，
我们在后向SSM之前进一步添加后向Conv1d（图2）。 Vim 权重，
探索 Vim 在分析高分辨率医学图像、
遥感图像、
如表所示。 4、
直接采用Mamba块还有长视频，
可以算是下游
在分类方面取得了良好的表现。
但是，
那任务，
非常简单。
不自然的单向方式给下游密集预测带来了挑战。
具体来说，
使用 Bi Direction
Block 的初步双向策略达到了 7 致谢
We would like to acknowledge Tianheng Cheng, Yuxin

点降低了分类的 top‑1 准确度。
然而，
它的性能比普通单向 Mamba 模块高
Fang, Shusheng Yang, Bo Jiang, and Jingfeng Yao for their
1.3
对草案有帮助的反馈。
mIoU 语义分割。
通过添加额外的后向 SSM 和 Conv1d，
我们实现了类似的
分类参考
准确度（73.1 top‑1 acc 与 73.2 top‑1 acc）
和卓越
分割优势（34.8 mIoU vs. 32.3 mIoU）。
我们 [1] Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. Beit:
使用双向 SSM + Conv1d 策略作为 Vim 块中的默认设置。图像转换器的 BERT 预训练。 ICLR， 2022 年。 3
[2] 伊桑·巴伦、伊塔玛·齐默尔曼和利奥尔·沃尔夫。二维 ssm： A
视觉变压器的通用空间层。 arXiv 预印本
5. 结论和未来工作 arXiv:2306.06635, 2023. 2
[3] 罗汉·巴维什、
埃里希·埃尔森、
柯蒂斯·霍桑、
麦克斯韦
我们提出了 Vision Mamba (Vim) 来探索
Nye、
Augustus Odena、
Arushi Somani 和 Sagnak Tas¸ rlar。
最近的有效状态空间模型，
即 Mamba，
如介绍我们的多式联运模式， 2023. 2, 3
通用视觉骨干。
与使用混合架构或等效全局 2D 卷积核的视觉任务的先前状态 [4] Zhaowei Cai and Nuno Vasconcelos. Cascade r‑cnn: High
空间模型不同，
Vim 以序列建模方式学习视觉表示，
而不是质量对象检测和实例分割。 TPAMI，
2019年7月8日
´ ´
[5] 玛蒂尔德·卡隆、雨果·图夫龙、
伊尚·米斯拉、埃尔韦·杰古、
朱利安·迈拉尔、皮
引入图像特定的归纳偏差。
感谢奥特·博亚诺夫斯基和阿曼德·朱林。自监督视觉转换器的新兴特性。在
提出双向状态空间建模，
Vim实现
ICCV, 2021. 3
依赖于数据的全局视觉上下文并享有相同的
[6] Liang‑Chieh Chen, Yukun Zhu, George Papandreou, Florian
具有 Transformer 的建模能力，
同时具有较低的计算复杂度。
受益于硬件感
施罗夫和哈特维格·亚当。带 atrous 的编码器‑解码器
知
用于语义图像分割的可分离卷积。在
Mamba 的设计、
推理速度和内存使用
ECCV, 2018. 6
8
[7] Rewon Child、

Scott Gray、
Alec Radford 和 Ilya Sutskever。 [22] Albert Gu、
Isys Johnson、
Karan Goel、
Khaled Saab、Tri Dao、
Atri Rudra 和
´
使用稀疏变压器生成长序列。 arXiv 预印本 arXiv:1904.10509, 2019. 3 Christopher Re。将循环模型、卷积模型和连续时间模型与线性状态空间层相结合。
在 NeurIPS，
2021. 1
[8] Krzysztof Marcin Choromanski、
Valerii Likhosherstov、
David Dohan、
Xingyou
Song、
Andreea Gane、
Tamas Sar‑los、
Peter Hawkins、
Jared Quincy Davis、 [23] Albert Gu、
Karan Goel、
Ankit Gupta 和 Christopher Re。
关于对角状态空间模型的
Afroz Mohiuddin、
Lukasz Kaiser、
David Benjamin Belanger、
Lucy J Colwell 参数化和初始化。
见 NeurIPS，
2022 年。
2 [24] Ankit Gupta、
Albert Gu 和 Jonathan
和 Adrian Weller。
重新思考对表演者的关注。 ICLR，
2021 年。 3 [9] Zihang Dai、 Berant。
对角状态空间与结构化状态空间一样有
Hanxiao Liu、
Quoc V Le 和 Mingxing Tan。效。
在 NeurIPS，
2022. 1
Coatnet: Marrying convolution and attention for all data sizes. NeurIPS,
[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
34, 2021. 3 [10] Jia Deng, Wei
用于图像识别的深度残差学习。 CVPR，
2016. 2, 6 [26] 高黄，
庄刘，
Laurens Van
Dong, Richard Socher, Li‑Jia Li, Kai Li, and Li Fei‑Fei. Imagenet: A large‑scale
Der Maaten，
hierarchical image database. In CVPR, 2009. 1, 3, 5
和 Kil‑ian Q Weinberger。
密集连接的卷积网络。 CVPR，
2017 年。
2
[11] Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shao‑han Huang, Wenhui
Wang, Nanning Zheng, and Furu Wei.
[27] Md Mohaiminul Islam 和 Gedas Bertasius。
使用状态空间视频模型对长影片剪辑进
Longnet: Scaling transformers to 1,000,000,000 tokens. arXiv preprint
行分类。
在 ECCV 中，
2022 年。 3
arXiv:2307.02486, 2023. 3 [12] Xiaohan Ding, Xiangyu
Zhang, Jungong Han, and Guiguang Ding. Scaling up your kernels to 31x31:
[28] Md Mohaiminul Islam、
Mahmudul Hasan、
Kishan Shamsun‑dar Athrey、
Tony
Revisiting large kernel design in cnns. In CVPR, 2022. 3 [13] Xiaoyi Dong,
Jianmin Bao, Dongdong Chen, Weiming Zhang, Braskich 和 Gedas Bertasius。
使用状态空间转换器进行高效的电影场景检测。
Nenghai Yu, Lu Yuan, Dong Chen, and Baining Guo. CVPR，

2023。 3 [29] Chao Jia、
Yinfei Yang、
Ye Xia、
Yi‑Ting Chen、
Zarana Parekh、
Hieu Pham、
Quoc
Cswin Transformer：
带有十字形窗口的通用视觉变压器主干。 CVPR，
2022。
3 [ 14] Le、
Yun‑Hsuan Sung、
Zhen Li 和 Tom Duerig。
通过嘈杂的文本监督扩大视觉和视觉语言
Alexey Dosovitskiy、
Lucas Beyer、
Alexander Kolesnikov、表示学习。 ICML，
2021 年。
3 [30] 鲁道夫·埃米尔·卡尔曼。
线性滤波的新方法
Dirk Weissenborn、
Xiaohua Zhai、
Thomas Unterthiner、
Mostafa Dehghani、
Matthias
Minderer、
Georg Heigold、
Syl‑vain Gelly 等。
一张图像相当于 16x16 个单词：
用于
大规模图像识别的 Trans‑formers。 ICLR ， 2020.2,4,6 _
和预测问题。 1960. 1
[31] 雅各布·德夫林·张明伟·肯顿和李·克里斯蒂娜·图塔诺娃。 Bert：

用于语言理解的深度双
´ 向变换器的预训练。
在 NAACL‑HLT，
2019 年。 4
[15] Stephane d Ascoli、
Hugo Touvron、
Matthew L Leavitt、
Ari S Morcos、
Giulio
Biroli 和 Levent Sagun。 Convit：
利用软卷积归纳偏置改进视觉变换器。
[32] 尼基塔·基塔耶夫、
卢卡斯·凯泽和安塞姆·列夫斯卡娅。 Re‑former：
高效变压器。
在 ICML，
2021 年。 3 ICLR，
2020 年。
3
[16] Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, and Qi
[33] Alex Krizhevsky、
Ilya Sutskever 和 Geoffrey E Hinton。
Tian. Msg‑transformer: Exchanging lo‑cal spatial information by
使用深度卷积神经网络进行 Imagenet 分类。
见 NeurIPS，
2012。
2 [ 34] Yann
manipulating messenger tokens. In CVPR, 2022. 3 [17] Yuxin Fang, Wen
LeCun、 Leon Bottou、
Yoshua Bengio
Wang, Binhui Xie, ´
和 Patrick Haffner。
基于梯度的学习应用于文档识别。 IEEE 会议录，
86(11):2278–2324,
Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao.
1998. 2
Eva: Exploring the limits of masked visual representa‑tion learning at scale.
In CVPR, 2023. 3 [18] Daniel Y Fu, Tri Dao, Khaled Kamal Saab, Armin W
Thomas, Atri Rudra, and Christopher Re. Hungry
[35] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi.
hungry hippos: Towards language modeling with state space mod‑els. In ICLR,
Blip：
引导语言图像预训练，
以实现统一的视觉语言理解和生成。
在 ICML，
2022 年。
2023. 3 [19] Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung‑Yi Lin,
3
Ekin D Cubuk, Quoc V Le, and Barret Zoph. Simple copy‑paste is a strong
data augmentation
method for instance segmentation. In CVPR, 2021. 7 [36] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi.
Blip‑2：
使用冻结图像编码器和大型语言模型引导语言图像预训练。 arXiv 预印本
arXiv:2301.12597, 2023. 2, 3
[20] 顾伟，
Tri Dao。 Mamba：
具有选择性状态空间的线性时间序列建模。 arXiv 预印本 [37] Yuhong Li, Tianle Cai, Yi Zhang, Deming Chen, and De‑badeepta Dey. What
arXiv:2312.00752, 2023. 2, 3 makes convolutional models great on long sequence modeling? In ICLR,
2022. 2 [38] Yanghao Li, Hanzi Mao, Ross Girshick, and
´
[21] Albert Gu、
Karan Goel 和 Christopher Re。
使用结构化状态空间对长序列进行有效建 Kaiming He.
模。 arXiv 预印本 arXiv:2111.00396, 2021. 1, 3 探索用于目标检测的普通视觉变压器主干。
在 ECCV 中，
2022. 2, 7
9
[39] 林宗毅、
迈克尔·梅尔、
塞尔吉·贝隆吉、
詹姆斯·海斯、网络：
大型语言模型 Transformer 的继承者。 arXiv 预印本 arXiv:2307.08621,
´
彼得罗·佩罗纳 (Pietro Perona)、
德瓦·拉马南 (Deva Ramanan)、
皮奥特·多拉 (Piotr Dollar) 和 2023. 3
C·劳伦斯·齐特尼克 (C Lawrence Zitnick)。 Microsoft coco：
上下文中的常见对象。
在 [56] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
ECCV, 2014. 3, 6 斯科特·里德、
德拉戈米尔·安格洛夫、
杜米特鲁·埃尔汉、
文森特
[40] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 范霍克和安德鲁·拉宾诺维奇。
更深入地了解
视觉指令调整。 arXiv 预印本 arXiv:2304.08485, 卷积。 CVPR，
2015 年。
2
2023年2月3日 [57] 谭明星，
郭乐。 Efficientnet：
重新思考模型
[41] Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao 卷积神经网络的缩放。
在 ICML，
2019 年。
¡
Xiao, Boqian Wu, Tommi Karkk ¨ ainen, Mykola Pechenizkiy, Decebal [58] 谭明星，
郭乐。 Efficientnetv2：
较小的模型
Mocanu, and Zhangyang Wang. More convnets in 和更快的训练。
在 ICML，
2021 年。
2
2020 年代：
使用稀疏性将内核扩展到 51x51 以上。 [59] Ilya O Tolstikhin、
Neil Houlsby、
Alexander Kolesnikov、
Lucas Beyer、
Zhaihua
arXiv 预印本 arXiv:2207.03620, 2022. 3 Zhai、
Thomas Unterthiner、
Jessica Yung，
[42] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng 安德烈亚斯·斯坦纳、
丹尼尔·凯泽斯、
雅各布·乌兹科雷特等人。
Zhang, Stephen Lin, and Baining Guo. Swin transformer: Mlp‑mixer：

用于视觉的全 MLP 架构。
在 NeurIPS 中，
2021年3月
使用移动窗口的分层视觉变换器。
在
ICCV, 2021. 3 [60] 雨果·图夫龙、
马蒂厄·科德、
马蒂斯·杜兹、
弗朗西斯科
´ ´
[43] Zhuang Liu, Hanzi Mao, Chao‑Yuan Wu, Christoph Feicht‑enhofer, Trevor 马萨、
亚历山大·萨布莱罗勒和埃尔韦·杰古。
通过注意力训练数据高效的图像转换器和
Darrell, and Saining Xie. A convnet for the 蒸馏。

在 ICML，
2021. 1, 2, 7
2020年代。
在 CVPR，
2022 年。 3
[44] 伊利亚·洛什奇洛夫和弗兰克·哈特。
解耦权重衰减 [61] 雨果·图夫龙、
马蒂厄·科尔德、
马蒂斯·杜兹、
弗朗西斯科
´ ´
正则化。 ICLR，
2019 年。
5 马萨、
亚历山大·萨布莱罗勒和埃尔韦·杰古。
通过注意力训练数据高效的图像转换器和
蒸馏。 ICML ， 2021年。
3、4、
5、6、
8_
[45] Jun Ma, Feifei Li, and Bo Wang. U‑mamba: Enhancing
生物医学图像分割的远程依赖性。
[62] 雨果·图夫龙、
皮奥特·博雅诺夫斯基、
玛蒂尔德·卡隆、
马蒂厄
arXiv 预印本 arXiv:2401.04722, 2024. 3
Cord、
Alaaeldin El‑Nouby、
Edouard Grave、
Gautier Izac‑ard、
Armand Joulin、
[46] 哈什·梅塔、
安基特·古普塔、
阿肖克·卡特科斯基和贝纳姆
Gabriel Synnaeve、
Jakob Verbeek 等。
内沙布尔。
通过门控状态进行远程语言建模
Resmlp：
用于图像分类的前馈网络
空间。 ICLR，
2023 年。 3
数据高效的培训。 TPAMI，
2022. 3
[47] 埃里克·阮、
卡兰·戈尔、
艾伯特·顾、
戈登·唐斯、
普雷
´ [63] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang,
沙阿、
Tri Dao、
斯蒂芬·巴克斯和克里斯托弗·雷。 S4nd：
将图像和视频建模为多维信
Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui
号
谭兴刚，
等。用于视觉识别的深度高分辨率表示学习。 TPAMI，
2020. 2
与状态空间。
在 NeurIPS，
2022. 3, 6
[48] Zhen Qin, Songlin Yang, and Yiran Zhong. Hierarchically
[64] Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu,
用于序列建模的门控循环神经网络。
在
穆罕默德·奥马尔和拉菲·哈米德。
选择性结构化
NeurIPS，
2023. 3
用于长格式视频理解的状态空间。
在CVPR中，
[49] 亚历克·雷德福、
金钟郁、
克里斯·哈拉西、
阿迪亚 2023年3月
拉梅什、
加布里埃尔·吴、
桑迪尼·阿加瓦尔、
吉里什·萨斯特里、
[65]王思农，
李贝琳达，
马迪安·卡布萨，
韩芳，
等
阿曼达·阿斯克尔、
帕梅拉·米什金、
杰克·克拉克等。
从自然语言监督中学习可转移的
浩妈。 Linformer：
具有线性复杂度的自注意力。
视觉模型。
在 ICML，
2021 年。 3
arXiv 预印本 arXiv:2006.04768, 2020. 3
[66] Wenhai Wang, Enze Xie, Xiang Li, Deng‑Ping Fan, Kaitao
[50] Ilija Radosavovic、
Raj Prateek Kosaraju、
Ross Girshick、
´ 宋、
丁良、
童路、
平罗、
凌邵。 Pyra‑mid 视觉转换器：
无需卷积即可进行密集预测的
何凯明，皮奥特·达勒。设计网络设计空间。 CVPR, 2020. 2, 6
多功能主干。
在 ICCV 中，
2021 年。 3
[51]凯伦·西蒙尼安和安德鲁·齐瑟曼。
用于大规模图像识别的非常深的卷积网络。 arXiv [67] Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang,
Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu,
预印本 arXiv:1409.1556, 2014. 2 李红生，
等。 Internimage：
探索具有可变形卷积的大规模视觉基础模型。
在
[52] 吉米·TH·史密斯、
沙利尼·德梅洛、
简·考茨、
斯科特·林德曼和 Wonmin Byeon。
卷积状
态空间模型 CVPR, 2023. 3
用于远程时空建模。
在 NeurIPS，
2023 年。 [68] Wenhui Wang, Shuming Ma, Hanwen Xu, Naoto Usuyama,
2
丁家玉，
潘海丰，
魏福如。
当图像是
[53] 吉米·TH·史密斯、
安德鲁·沃灵顿和斯科特·林德曼。
用于序列建模的简化状态空间层。价值 1,024 x 1,024 个字：
计算领域的案例研究
病理。 arXiv 预印本 arXiv:2312.03558, 2023. 3
ICLR，
2023 年。 3 [69] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu,
[54] 罗宾·斯特鲁德尔、
里卡多·加西亚、
伊万·拉普捷夫和科迪莉亚 Xiyang Dai, Lu Yuan, and Lei Zhang. Cvt: Introducing con‑volutions to
施密德。 Segmenter：
用于语义分割的转换器。
在 ICCV 中，
2021 年。 7 vision transformers. In ICCV, 2021. 3
[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and
[55] Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing 孙健.用于场景理解的统一感知解析。
在ECCV中，
2018年。
6
Xia, Jilong Xue, Jianyong Wang, and Furu Wei. Retentive
10
[71] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and
孙健.用于场景理解的统一感知解析。
在ECCV中，
2018年。
6
´
[72] 谢赛宁，
Ross Girshick，
Piotr Dollar，
屠卓文，
何凯明。
深度聚合残差变换
神经网络。 CVPR ， 2017.2,6
[73] Jing Nathan Yan, Jiatao Gu, and Alexander M Rush.

没有注意的扩散模型。 arXiv 预印本
arXiv:2311.18257, 2023. 3
[74]周博雷、
赵航、
Xavier Puig、
Tete Shaw、
Sanja Fi‑dler、
Adela Barriuso 和 Antonio
Torralba。
通过 ade20k 数据集对场景进行语义理解。
国际JCV，
2019。
3, 6
11

Vision Mamba - Efficient Visual Representation Learning With Bidirectional SSM

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Vision Mamba - Efficient Visual Representation Learning With Bidirectional SSM

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

(a) 准确度比较 (b) 速度比较 (c) GPU 显存比较

* Lianghui Zhu and Bencheng Liao contributed equally to this work.

Vision Transformers (ViTs) 取得了巨大成功 高分辨率图像的时间。

每个图像补丁都具有数据/补丁相关的全局上下文 比 DeiT 更高的准确度。

处理高分辨率图像。 执行批处理时节省 86.8% GPU 内存

建筑学。 ViT 在图像分类上的令人惊讶的结果及其缩放能力鼓励了大量的后 SSM无需关注。

扩大现有卷积网络的内核大小以带来改进。 更低的内存占用。 [73]用更具可扩展性的基于SSM的骨干网取代了注意力机

LongViT [68]通过扩张为计算病理学应用构建了一个高效的 Transformer [20]引入计算机视觉。

注意力。 LongViT的线性计算复杂度 然后，

在这项工作中， 我们从 Mamba [20]和 ex‑plore 中汲取灵感，

一个基于纯 SSM 的模型作为通用愿景

CNN 或 Transformer 的新颖替代方案，

softplus 确保Δo为正*/ 8 Δo : (B, M, E) ←

3.2.愿景曼巴 log(1 + exp(LinearΔo (x /* ′ ) +参数Δo ))

15 Tl : (B, M, D) ← LinearT(y ′ + y向前 ′

最初的 Mamba 模块是为一维序列设计的，

遵循 ViT [14]和 DeiT [61]，

愿景曼巴 (Vim) 视觉曼巴编码器

图 2. 所提出的 Vim 模型的概述。

的 Vim 选择了一种现代硬件友好的方式来确保效率。 这种优化的关键 2

其中 self‑attention 与序列长度 M 成二次方，

IO 效率。高带宽内存 (HBM) 和 SRAM 是 GPU 的两个重要组件。 其中

ViT‑B/16 [14] 3842 86M 77.9

S4ND‑ViT‑B [47] 2242 89M 80.4

表 2. ADE20K val 上的语义分割结果 为了进一步评估下游任务的效率，

图 3. DeiT‑Ti [60]和我们的 Vim‑Ti 在常用下游框架上的FPS 比较。

骨干APbox APbox 50 AP盒75 AP盒s AP盒米 AP盒 我

图 5. DeiT‑Ti [61]和我们的 Vim‑Ti 在 Cascade Mask R‑CNN [4]框架上的可视化比较。 感谢远距离

We would like to acknowledge Tianheng Cheng, Yuxin

[7] Rewon Child、

Nenghai Yu, Lu Yuan, Dong Chen, and Baining Guo. CVPR，

[31] 雅各布·德夫林·张明伟·肯顿和李·克里斯蒂娜·图塔诺娃。 Bert：

Zhang, Stephen Lin, and Baining Guo. Swin transformer: Mlp‑mixer：

Darrell, and Saining Xie. A convnet for the 蒸馏。

神经网络。 CVPR ， 2017.2,6

[73] Jing Nathan Yan, Jiatao Gu, and Alexander M Rush.

You might also like

Vision Transformers (ViTs) 取得了巨大成功高分辨率图像的时间。

每个图像补丁都具有数据/补丁相关的全局上下文比 DeiT 更高的准确度。

处理高分辨率图像。执行批处理时节省 86.8% GPU 内存

扩大现有卷积网络的内核大小以带来改进。更低的内存占用。 [73]用更具可扩展性的基于SSM的骨干网取代了注意力机

注意力。 LongViT的线性计算复杂度然后，

在这项工作中，我们从 Mamba [20]和 ex‑plore 中汲取灵感，

的 Vim 选择了一种现代硬件友好的方式来确保效率。这种优化的关键 2

IO 效率。高带宽内存 (HBM) 和 SRAM 是 GPU 的两个重要组件。其中

表 2. ADE20K val 上的语义分割结果为了进一步评估下游任务的效率，

骨干APbox APbox 50 AP盒75 AP盒s AP盒米 AP盒我

图 5. DeiT‑Ti [61]和我们的 Vim‑Ti 在 Cascade Mask R‑CNN [4]框架上的可视化比较。感谢远距离