Professional Documents
Culture Documents
Vision Mamba - Efficient Visual Representation Learning With Bidirectional SSM
Vision Mamba - Efficient Visual Representation Learning With Bidirectional SSM
Vision Mamba:
双向高效视觉表示学习
状态空间模型
Lianghui Zhu1 , 廖本成1* , Qian Zhang2 , Xinlong Wang3 , Wenyu Liu1 , Xinggang Wang1
1
华中科技大学2
地平线机器人 3
北京人工智能研究院
代码和模型: hustvl/Vim
叔叔
74 41 2.6 80
DeiT‑Ti Vim‑Ti
卢(
米
)%
73 40 2.54 2.29
钛
姆
维
c名
.c)%前
A
1(
72 39 2.2 60
2.25 2.07
点
快
71 38
小
较
2.05 1.91
40.09
%8.6内
存
8‑
70 37 1.8 1.71 40
SP带
的
度
刻
数
对
F
分类
存
内
G(
)BPG
两者都不。
帮助。
8倍
快
.2
U
金
合
钛
46 40
1.57
1.4 20
)%地
(
图
)%地
(
图
45 39 12.48
8.09
44 38 1.26 4.56 11.14
DeiT‑Ti Vim‑Ti 8.13
3.32 4.22 5.03
43 37 1 0
42 36 第512章 640 第738章 1024 1248 第512章 640 第738章 1024 1248
检测 插入。
说。 解决 解决
图 1. DeiT [60]和我们的 Vim 模型之间的性能和效率比较。 为了进行准确性比较, 我们首先在 IN1K 分类数据集[10] 上预训练 DeiT 和 Vim,
然后在不同的下
游密集预测任务(即语义分割、 对象检测、实例分割) 上微调通用主干。 结果表明, 所提出的 Vim 在预训练和微调任务上都优于 DeiT。 对于速度比较, 由于其次
二次时间计算, 所提出的 Vim 在处理大图像时明显快于 DeiT。 对于 GPU 内存比较, Vim 通过其线性内存复杂性推断大图像所需的 GPU 内存比 DeiT 少。 所
提出的 Vim 不仅在视觉任务上具有出色的准确性, 而且在处理大图像方面也比 DeiT 更高效。 例如,当对分辨率为 1248×1248 的图像(即每张图像 6084
个 token) 执行批量推理提取特征时, Vim 比 DeiT 快 2.8 倍,
并节省 86.8% 的 GPU 内存。
抽象的 同时还展示了计算和内存效率的显着提高。
例如,
在对分辨率为
1248×1248 的图像执行批量推理提取特征时,
Vim 比 DeiT 快 2.8 倍,
最近,
具有高效硬件感知设计的状态空间模型(SSM),
即 Mamba, 并节省 86.8% 的 GPU 内存。
结果表明,
Vim 能够克服对高分辨率图像执
在长序列建模方面表现出了巨大的潜力。
纯粹基于 SSM 构建高效且通用 行 Transformer 式理解时的计算和内存限制,
并且具有成为视觉基础模
的视觉主干是一个有吸引力的方向。
然而,
由于视觉数据的位置敏感性以及 型的下一代骨干的巨大潜力。
视觉理解的全局上下文的要求,
表示视觉数据对于 SSM 来说是一个挑战。
0日
4i2.Xs7
]V:vC
1v71490.1042 年
月
rca
2[
1
在本文中,
我们证明视觉表示学习对自注意力的依赖是不必要的,
并提出
了一种具有双向 Mamba 块(Vim)
的新通用视觉主干,
它用位置嵌入标
记图像序列并压缩双向状态空间模型的视觉表示。
在 ImageNet 分类、
COCO 对象检测和 ADE20k 语义分割任务上,
与 DeiT 等成熟的视觉转 一、
简介
换器相比,
Vim 实现了更高的性能,
最近的研究进展引起了人们对状态空间模型(SSM)
的兴趣激增。
现代
SSM源自经典的状态空间模型[30],
擅长捕获远程依赖性并从并行训练中
受益。
一些基于SSM的方法,
例如线性状态空间层(LSSL) [22]、
结构化
状态空间序列模型(S4) [21]、
对角状态空间(DSS) [24]、
1
Machine Translated by Google
和S4D [23],
被提议来处理跨序列数据 前者,
Vim 可以在无人监督的情况下进行大规模预训练
广泛的任务和模式,
特别是在建模长期依赖性方面。
他们长期高效 视觉数据以获得更好的视觉表示。
感谢
Mamba 的效率更高,
大规模预训练
由于卷积计算和近线性计算而产生的序列。
二维 SSM [2]、
SGConvNeXt [37]、 Vim 可以用较低的计算成本来实现。
与其他基于 SSM 的视觉模型相比
ConvSSM [52]将SSM与CNN或Trans‑former架构结合起来处理2D数据。
最 Vim 是一种基于纯 SSM 的方法,
以序列方式对图像进行建模,
这对于
近的工作,
Mamba [20],
将时变参数纳入 通用且高效的骨干。
得益于双向
SSM 并提出了一种硬件感知算法来实现 通过位置感知来压缩建模,
Vim 是
高效的训练和推理。 Mamba 卓越的扩展性能表明它是语言建模领域 第一个基于纯 SSM 的模型来处理密集预测
Transformer 的一个有前途的替代品。
尽管如此, 任务。
与最有说服力的基于 Transformer 的模型 DeiT [60]相比, Vim 在
ImageNet 分类上取得了优异的性能。
此外,
维姆
尚未探索基于纯 SSM 的通用骨干网
用于视觉任务。 在 GPU 内存和推理方面更加高效
在视觉表示学习方面,
在大规模自监督预训练和高性能方面表现出色 内存和速度使 Vim 能够直接执行顺序视觉表示学习,
而无需依赖
下游任务。
与卷积神经网络相比 2D 先验(例如ViTDet [38]中的 2D 局部窗口)
网络,
核心优势在于ViT可以提供 高分辨率视觉理解任务,
同时实现
过滤器,
适用于所有位置。
另一个优点是通过将图像视为一系列的模态不可知 用于数据依赖的全局视觉上下文建模的双向 SSM 和用于位置感知视觉理
建模 解的位置嵌入。
补丁没有 2D 归纳偏置,
这使其成为多模态应用的首选架构[3,36,40 ] 。
‧ 无需注意,
提议的 Vim 已经
与此同时,
Trans‑formers 中的自注意力机制在处理远程视觉依赖性时在速 与 ViT 具有相同的建模能力,
但它只有
度和内存使用方面提出了挑战,
例如: 次二次时间计算和线性内存复杂性。
具体来说,
我们的 Vim 比 DeiT 快 2.8
倍
然而,
Mamba 面临两个挑战,
即单向建模和缺乏位置意识。
到
与成熟且高度优化的
普通视觉 Transformer,
即 DeiT。
为了应对这些挑战,
我们提出了 Mamba 愿景
‧ 受益于高效的硬件感知设计
(Vim) 块,
其中包含双向 SSM
对于高分辨率计算机来说, Mamba、
Vim 比基于自注意力的 DeiT [60]效
数据依赖的全局视觉上下文建模和位置
率要高得多
用于位置感知视觉识别的嵌入。
我们首先
视觉任务,
例如视频分割、
航空图像分析、
医学图像分割、
计算病理学。
将输入图像分割成块并线性投影它们
作为 Vim 的向量。
图像块被视为 Vim 块中的序列数据,
从而有效地压缩
所提出的双向选择状态空间的视觉表示。
此外,
位置嵌入 2.相关工作
Vim 块提供了对空间信息的感知,
这使得 Vim 在密集预测任务中更加鲁棒。
在 通用视觉主干的架构。
在早期的
现阶段,
我们训练 Vim 模型 目前,
ConvNet [34]已成为事实上的标准网络
计算机视觉设计。
许多卷积神经架构[ 25,26,33,50,51,56–58,63,72 ]已经被
使用 ImageNet 的监督图像分类任务 _
数据集,
然后使用预训练的 Vim 作为骨干 被提议作为各种视觉应用的视觉支柱。
开创性的工作,
Vision Transformer
对下游密集预测任务执行顺序视觉表示学习,
即语义分割, (ViT) [14]
改变景观。
它将图像视为一系列
对象检测和实例分割。
就像跨‑ 展平 2D 补丁并直接应用纯 Transformer
2
Machine Translated by Google
架构
SSM 的预备工作。
接下来是 Vim 的概述。
允许它编码极长的视觉序列。
在 细信息
基于 SSM 的模型,
即结构化状态空间序列模型 (S4) 和 Mamba 受到连续系
统的启发,
它映射一维函数或序列
用于长序列建模的状态空间模型。 [21]
提出了结构化状态空间序列(S4)
模型, x(t) Î R → y(t) Î R 通过隐藏状态 h(t) Î R
氮
。
引入更多的门控单元以提高表现力。 将连续参数A、
B变换为离散参数A、
B。常用的变换方法是零阶保持(ZOH),
其定
最近, [20]提出了一个数据依赖的SSM层和 义如下:
构建了一个通用语言模型主干 Mamba,
大规模优于各种尺寸的 Transformer
真实数据并享受序列长度的线性缩放。
在
在这项工作中,
我们探索将 Mamba 的成功转移到 A = exp (ΔA),
−1
(2)
愿景,
即纯粹基于 B = (ΔA) (exp (ΔA) − I) · ΔB。
3
Machine Translated by Google
A、
B离散化后的离散化版本 算法1: Vim 块处理
方程的(1)使用步长 Δ 可以重写为: 输入:
令牌序列Tl−1 : (B, M, D)
输出: token 序列Tl : (B, M, D) /* 标准化
ht = Aht−1 + Bxt, yt = Cht。 输入序列T′ l−1 */
(3)
1 T′ : (B,
M,D) ←范数(Tl−1)
l−1
2 x : (B, M, E) ←线性x(T′ )
l−1
最后,
模型通过全局卷积计算输出。
3 z : (B, M, E) ← Linearz (T′ )
l−1
/* 不同方向的处理 */ 4 for o in {forward,backward} do
M−1
K = (CB, CAB, ..., CA 乙),
(4) 5×o
′ : (B, M, E) ← SiLU(Conv1do(x))
y=x*K,
6 Bo : (B, M, N) ← LinearB (x ′ )
氧 氧
其中M是输入序列x的长度,
K ∈ R是结构化卷积核。
中号
7 Co : (B, M, N) ← LinearC (x /* ′ )
氧 氧
ParameterA的形状为(E, N) */
所提出的 Vim 的概述如图 2 所示。
标准 Mamba 是为一维序列设计的。
为了处 氧
9 Ao : (B, M, E, N) ← Δo参数A
理视觉任务,
我们首先将二维图像转换为扁平的二维补丁xp ∈ R J×(P t ∈ 氧
10 Bo : (B, M, E, N) ← Δo Bo
R 其中 (H, W) 是输入图像的大小,
C 是通道数, P 是图像块的大小。
接下来,
我
2
高×宽×厚
Epos 们将 xp 线性投影到大小为 D 的向量,
并添加位置嵌入
·C)
, 11 是: (B, M, E) ← SSM(Ao, Bo, Co)(x ′ )
氧
∈ R (J+1)×D 12 end /
* 门控哟*/ ′
: (B, M, E) ← y 向前SiLU(z) 13 y向前
, 如下: ′
向后14年 : (B, M, E) ← y向后SiLU(z)
/* 剩余连接 */
Tl = Vim(Tl−1) + Tl−1,
0
f = 范数(T (6)
L ), p = MLP(f), 3.4.架构细节
其中 Vim 是建议的视觉曼巴块,
L 是层数,
Norm 是归一化层。 综上所述,
我们架构的超参数如下:
3.3. Vim 块 L:
块数,
觉任务。
在本节中,
我们介绍 Vim 模块,
它结合了视觉任务的双向序列建模。 E:
扩展状态维度,
Vim 块如图 2 所示。 N:
SSM 尺寸。
4
Machine Translated by Google
丁
补
入
嵌
投影层MLP 预言 长×
向前 向前
补丁令牌
转换1d SSM
视觉曼巴编码器
0 1 位置嵌入。
落后 落后
* 类令牌
*0123456789
规范
转换1d SSM
输入图像
展平和线性投影 激活
对于 DeiT 系列的大小,
我们将小尺寸变体的隐藏状态维度 D 设置为 因为激活值占用大量内存,
但重新计算速度很快。
192,
将扩展状态维度 E 设置为 384。
对于小尺寸变体,
我们将 D 设置为
384,
将 E 设置为 768。
计算效率。 Vim 模块中的 SSM(Algo.1 中的第 11 行)
和 Transformer
中的自注意力机制在自适应地提供全局上下文方面都发挥着关键作用。 给
3.5.效率分析
定视觉序列 T ∈ R1×M×D和默认设置 E = 2D,
全局自注意力和 SSM
传统的基于 SSM 的方法利用快速傅立叶变换来增强卷积运算, 如式(1) 的计算复杂度
所示。 (4)。 对于依赖于数据的方法, 例如 Mamba,
Algo 第 11 行中
的 SSM 操作。 1不再等同于卷积。
为了解决这个问题, Mamba 和提议 是:
5
Machine Translated by Google
图像 ImageNet 超过 DeiT‑Small。
与基于 SSM 的 S4ND‑ViT‑B [47] 相比, Vim 实
方法 #参数。
尺寸 top‑1 依据。 现了类似的 top‑1 精度, 但精度降低了 3 倍
网络 参数。
图1 (b)和(c)比较FPS和GPU内存
ResNet‑18 [25] 2242 12M 69.8 小型 Vim 和 DeiT。
随着图像分辨率的提高,
Vim 在速度和内存方面表现出更
ResNet‑50 [25] 2242 25M 76.2 好的效率。
ResNet‑101 [25] 2242 45M 77.4 具体来说,
当图像大小为 512 时,
Vim 实现与 DeiT 类似的 FPS 和内存。
随着
ResNet‑152 [25] 2242 60M 78.3 图像尺寸增大到
77.6 1248,
Vim 比 DeiT 快 2.8 倍,
节省 86.8% GPU
ResNeXt50‑32x4d [72] 2242 25M
记忆。 Vim 在序列长度方面的线性缩放的显着优势使其为高分辨率做好了准
RegNetY‑4GF [50] 2242 21M 80.0
备
变形金刚 下游视觉应用和长序列多模态应用。
图像 瓦尔 翻转,
在比例范围[0.5,
2.0]内随机重新缩放,
方法 骨干 #参数。
尺寸 米卢 和随机光度畸变。
在评估过程中,
我们
DeepLab v3+ [6] ResNet‑101 5122 63M 44.1 重新缩放图像,
使其较短边为 512。
上网[71] ResNet‑50 5122 67M 41.2
上网[71] ResNet‑101 5122 86M 44.9
结果。
如表所示。 2、
Vim 在不同尺度上始终优于 DeiT:
高出 1.0 mIoU
上网[71] 钛钛合金 5122 11M 39.2
上网[71] 日T‑S 5122 43M 44.0 Vim‑Ti 比 DeiT‑Ti 高 0.9 mIoU,
Vim‑S 比 DeiT‑Ti 高 0.9 mIoU
维姆钛 5122 13M 40.2 DeiT‑S。
与 ResNet‑101 主干相比,
我们的 Vim‑S 实现了相同的分割性能,
并
上网[71]
上网[71] Vim‑S 5122 46M 44.9 且几乎
参数减少 2 倍。
结果。
标签。 1将 Vim 与基于 ConvNet 的比较, GPU内存。
如图3和图4所示,
效率
基于 Transformer 和 SSM 的主干网。
比较的 曲线显示了与纯的类似的比较结果
相对于基于 ConvNet 的 ResNet [25], Vim 展示了卓越的性能。
例如,
当参 主干(图1),
尽管我们在主干上附加了一个重 FPN
数 骨干。
卓越的线性缩放性能是
大致相似,
Vim‑Small 的 top‑1 准确率 这归功于我们提出的高效骨干 Vim,
它
达到80.3,
比去年高出4.1分 为以端到端的方式学习十亿像素级视觉表示奠定了基础,
而无需
ResNet50。
与传统的基于自注意力的 ViT [14] 相比, Vim 的性能明显优于它
多级编码(例如,
航空图像、
医学图像、
在参数数量和分类精度方面。
与高度优化的 ViT 变体相比, 和计算病理学)。
4.3.对象检测和实例分割
即 DeiT [61], Vim 在不同尺度上超越了它
可比较的参数数量:
Vim‑Tiny 比 DeiT‑Tiny 高 0.9 个点,
Vim‑Small 高 0.5 设置。
我们进行物体检测实验
个点 以及 COCO 2017 数据集上的实例分割[39]。
6
Machine Translated by Google
叔叔
2.6 80
德维姆
2.52
2.27
65
2.2
2.24 2.06
1.90 50
2.00
小
较
1.8 1.70
点
快
%2.3内
存
7‑
40.03
SP带
的
度
刻
数
对
F
35
存
内
G(
)BPG
U
8倍
快
.2
1.56
1.4
20 22.59
1.25 12.48
德维姆 8.09 15.86
5.52
1 5.04 6.88 8.54
5
第512章 640 第738章 1024 1248 第512章 640 第738章 1024 1248
解决 解决
ImageNet ADE20K
钛钛合金 44.4 63.0 47.8 26.1 47.4 61.8 双向策略
米卢
top‑1 依据。
维姆钛 45.7 63.9 49.6 26.1 49.0 63.2
没有任何 73.2 32.3
骨干AP掩码AP掩码 50 AP掩码
75 AP掩码
s AP掩码
米
AP掩码
33.6
我
双向层 70.9
钛钛合金 38.1 59.9 40.5 18.1 40.5 58.4 双向SSM 72.8 33.2
维姆钛 39.2 60.9 41.7 18.2 41.8 60.2 双向 SSM + Conv1d 73.1 34.8
表 3. 目标检测和实例分割的结果 表 4. 双向设计的消融研究。
默认设置
COCO val 集使用 Cascade Mask R‑CNN [4]框架。 Vim 标记为蓝色 。
COCO 2017 数据集包含 118K 训练图像、 5K 验证图像和 20K 测试图 我们想强调的是,由于 DeiT 配备了窗口注意力,
因此精度优势并非
像。 微不足道。
我们使用规范的 Cascade Mask R‑CNN [4]作为基础 Vim 以纯序列建模方式工作。 具体来说, 在高分辨率上执行表示学习
框架。对于基于 ViT 的主干网, 我们应用额外的配置(例如,
交错窗口和
全局注意力) 图像(即 1024×1024),
我们遵循 ViTDet [38]并使用 2D 窗口注意
处理 ViTDet [38]之后的高分辨率图像。 力修改 DeiT 主干,
对于基于SSM的Vim, 我们直接使用它,不做任何修改。
其他训练和评估 它注入了 2D 先验并打破了顺序建模
设置只是 变压器的性质。 感谢所示的效率
相同的。
在训练过程中,
我们使用 AdamW ,
其权重为 在秒。 3.5、图1和图4,
我们可以直接应用Vim
衰减为 0.1,
总批量大小为 64, 以优化模型。 1024×1024 输入图像并学习用于对象检测和实例分割的顺序视觉表
所采用的训练计划使用初始学习率 示
1×10−4 的, 线性学习率衰减, 以及总训练 不需要主干中的 2D 先验。
380K 次迭代。数据增强使用大规模
抖动数据增强[19]到1024×1024输入图像。 4.4.消融研究
在评估过程中, 我们重新缩放图像以使其更短
1024 的一侧。 我们消除了 Vim 的关键双向设计, 使用 ImageNet‑1K 分类和
Segmenter [ 54]
ADE20K 语义分割。 为全面评估
结果。 标签。 图 3使用 Cas‑cade Mask R‑CNN 框架比较了 Vim‑Ti 和 由于 ImageNet 上学习表示的力量, 我们使用只有 2 层的简单
DeiT‑Ti [4]。 Vim‑Ti 超过 DeiT‑Ti 1.3 box AP 和 1.1 mask AP。
对于 Segmenter 头来执行传输
中号 学习语义分割。 我们研究这些双向策略:
和大尺寸物体, Vim‑Ti 比 DeiT‑Ti 好 1.6
AP盒米 /1.3 AP掩码 米
和1.4 AP盒 /1.8 AP掩码 , 证明
我 我 ‧ 没有任何。
我们直接采用Mamba块来处理视觉
比 DeiT 更好的远程上下文学习(图5)。 仅具有前向的序列。
7
Machine Translated by Google
GT 钛钛合金 维姆钛
‧ 双向序列。
在训练过程中,
我们随机 在处理高分辨率图像时,
Vim 的年龄明显优于 ViT。
标准计算机视觉基准上的
翻转视觉序列。
这就像数据增强一样。 实验结果验证了 Vim 的建模能力和高效率,
表明 Vim
‧ 双向块。
我们将堆叠的块配对。
这
每对的第一个块处理视觉序列 具有成为下一代视觉支柱的巨大潜力。
向前方向处理,
每对中的第二个块向后方向处理。 在未来的工作中,
具有位置嵌入的双向 SSM 建模的 Vim 适用于无监督
‧ 双向SSM。
我们为每个块添加一个额外的 SSM 诸如掩模图像建模预训练和
向后处理视觉序列。 与 Mamba 类似的架构支持多模式任务
‧ 双向SSM + Conv1d。
基于双向 例如 CLIP 式的预训练。
基于预训练的
SSM,
我们在后向SSM之前进一步添加后向Conv1d(图2)。 Vim 权重,
探索 Vim 在分析高分辨率医学图像、
遥感图像、
如表所示。 4、
直接采用Mamba块 还有长视频,
可以算是下游
在分类方面取得了良好的表现。
但是,
那 任务,
非常简单。
不自然的单向方式给下游密集预测带来了挑战。
具体来说,
使用 Bi Direction
Block 的初步双向策略达到了 7 致谢
8
Machine Translated by Google
Coatnet: Marrying convolution and attention for all data sizes. NeurIPS,
[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
34, 2021. 3 [10] Jia Deng, Wei
用于图像识别的深度残差学习。 CVPR,
2016. 2, 6 [26] 高黄,
庄刘,
Laurens Van
Dong, Richard Socher, Li‑Jia Li, Kai Li, and Li Fei‑Fei. Imagenet: A large‑scale
Der Maaten,
hierarchical image database. In CVPR, 2009. 1, 3, 5
和 Kil‑ian Q Weinberger。
密集连接的卷积网络。 CVPR,
2017 年。
2
[11] Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shao‑han Huang, Wenhui
Wang, Nanning Zheng, and Furu Wei.
[27] Md Mohaiminul Islam 和 Gedas Bertasius。
使用状态空间视频模型对长影片剪辑进
Longnet: Scaling transformers to 1,000,000,000 tokens. arXiv preprint
行分类。
在 ECCV 中,
2022 年。 3
arXiv:2307.02486, 2023. 3 [12] Xiaohan Ding, Xiangyu
Zhang, Jungong Han, and Guiguang Ding. Scaling up your kernels to 31x31:
[28] Md Mohaiminul Islam、
Mahmudul Hasan、
Kishan Shamsun‑dar Athrey、
Tony
Revisiting large kernel design in cnns. In CVPR, 2022. 3 [13] Xiaoyi Dong,
Jianmin Bao, Dongdong Chen, Weiming Zhang, Braskich 和 Gedas Bertasius。
使用状态空间转换器进行高效的电影场景检测。
Cswin Transformer:
带有十字形窗口的通用视觉变压器主干。 CVPR,
2022。
3 [ 14] Le、
Yun‑Hsuan Sung、
Zhen Li 和 Tom Duerig。
通过嘈杂的文本监督扩大视觉和视觉语言
Alexey Dosovitskiy、
Lucas Beyer、
Alexander Kolesnikov、 表示学习。 ICML,
2021 年。
3 [30] 鲁道夫·埃米尔·卡尔曼。
线性滤波的新方法
Dirk Weissenborn、
Xiaohua Zhai、
Thomas Unterthiner、
Mostafa Dehghani、
Matthias
Minderer、
Georg Heigold、
Syl‑vain Gelly 等。
一张图像相当于 16x16 个单词:
用于
大规模图像识别的 Trans‑formers。 ICLR , 2020.2,4,6 _
和预测问题。 1960. 1
´ 向变换器的预训练。
在 NAACL‑HLT,
2019 年。 4
[15] Stephane d Ascoli、
Hugo Touvron、
Matthew L Leavitt、
Ari S Morcos、
Giulio
Biroli 和 Levent Sagun。 Convit:
利用软卷积归纳偏置改进视觉变换器。
[32] 尼基塔·基塔耶夫、
卢卡斯·凯泽和安塞姆·列夫斯卡娅。 Re‑former:
高效变压器。
在 ICML,
2021 年。 3 ICLR,
2020 年。
3
[16] Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, and Qi
[33] Alex Krizhevsky、
Ilya Sutskever 和 Geoffrey E Hinton。
Tian. Msg‑transformer: Exchanging lo‑cal spatial information by
使用深度卷积神经网络进行 Imagenet 分类。
见 NeurIPS,
2012。
2 [ 34] Yann
manipulating messenger tokens. In CVPR, 2022. 3 [17] Yuxin Fang, Wen
LeCun、 Leon Bottou、
Yoshua Bengio
Wang, Binhui Xie, ´
和 Patrick Haffner。
基于梯度的学习应用于文档识别。 IEEE 会议录,
86(11):2278–2324,
Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao.
1998. 2
Eva: Exploring the limits of masked visual representa‑tion learning at scale.
In CVPR, 2023. 3 [18] Daniel Y Fu, Tri Dao, Khaled Kamal Saab, Armin W
Thomas, Atri Rudra, and Christopher Re. Hungry
[35] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi.
hungry hippos: Towards language modeling with state space mod‑els. In ICLR,
Blip:
引导语言图像预训练,
以实现统一的视觉语言理解和生成。
在 ICML,
2022 年。
2023. 3 [19] Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung‑Yi Lin,
3
Ekin D Cubuk, Quoc V Le, and Barret Zoph. Simple copy‑paste is a strong
data augmentation
method for instance segmentation. In CVPR, 2021. 7 [36] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi.
Blip‑2:
使用冻结图像编码器和大型语言模型引导语言图像预训练。 arXiv 预印本
arXiv:2301.12597, 2023. 2, 3
[20] 顾伟,
Tri Dao。 Mamba:
具有选择性状态空间的线性时间序列建模。 arXiv 预印本 [37] Yuhong Li, Tianle Cai, Yi Zhang, Deming Chen, and De‑badeepta Dey. What
arXiv:2312.00752, 2023. 2, 3 makes convolutional models great on long sequence modeling? In ICLR,
2022. 2 [38] Yanghao Li, Hanzi Mao, Ross Girshick, and
´
[21] Albert Gu、
Karan Goel 和 Christopher Re。
使用结构化状态空间对长序列进行有效建 Kaiming He.
模。 arXiv 预印本 arXiv:2111.00396, 2021. 1, 3 探索用于目标检测的普通视觉变压器主干。
在 ECCV 中,
2022. 2, 7
9
Machine Translated by Google
[39] 林宗毅、
迈克尔·梅尔、
塞尔吉·贝隆吉、
詹姆斯·海斯、 网络:
大型语言模型 Transformer 的继承者。 arXiv 预印本 arXiv:2307.08621,
´
彼得罗·佩罗纳 (Pietro Perona)、
德瓦·拉马南 (Deva Ramanan)、
皮奥特·多拉 (Piotr Dollar) 和 2023. 3
C·劳伦斯·齐特尼克 (C Lawrence Zitnick)。 Microsoft coco:
上下文中的常见对象。
在 [56] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
ECCV, 2014. 3, 6 斯科特·里德、
德拉戈米尔·安格洛夫、
杜米特鲁·埃尔汉、
文森特
[40] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 范霍克和安德鲁·拉宾诺维奇。
更深入地了解
视觉指令调整。 arXiv 预印本 arXiv:2304.08485, 卷积。 CVPR,
2015 年。
2
2023年2月3日 [57] 谭明星,
郭乐。 Efficientnet:
重新思考模型
[41] Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao 卷积神经网络的缩放。
在 ICML,
2019 年。
¡
Xiao, Boqian Wu, Tommi Karkk ¨ ainen, Mykola Pechenizkiy, Decebal [58] 谭明星,
郭乐。 Efficientnetv2:
较小的模型
Mocanu, and Zhangyang Wang. More convnets in 和更快的训练。
在 ICML,
2021 年。
2
2020 年代:
使用稀疏性将内核扩展到 51x51 以上。 [59] Ilya O Tolstikhin、
Neil Houlsby、
Alexander Kolesnikov、
Lucas Beyer、
Zhaihua
arXiv 预印本 arXiv:2207.03620, 2022. 3 Zhai、
Thomas Unterthiner、
Jessica Yung,
[42] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng 安德烈亚斯·斯坦纳、
丹尼尔·凯泽斯、
雅各布·乌兹科雷特等人。
2020年代。
在 CVPR,
2022 年。 3
[44] 伊利亚·洛什奇洛夫和弗兰克·哈特。
解耦权重衰减 [61] 雨果·图夫龙、
马蒂厄·科尔德、
马蒂斯·杜兹、
弗朗西斯科
´ ´
正则化。 ICLR,
2019 年。
5 马萨、
亚历山大·萨布莱罗勒和埃尔韦·杰古。
通过注意力训练数据高效的图像转换器和
蒸馏。 ICML , 2021年。
3、4、
5、6、
8_
[45] Jun Ma, Feifei Li, and Bo Wang. U‑mamba: Enhancing
生物医学图像分割的远程依赖性。
[62] 雨果·图夫龙、
皮奥特·博雅诺夫斯基、
玛蒂尔德·卡隆、
马蒂厄
arXiv 预印本 arXiv:2401.04722, 2024. 3
Cord、
Alaaeldin El‑Nouby、
Edouard Grave、
Gautier Izac‑ard、
Armand Joulin、
[46] 哈什·梅塔、
安基特·古普塔、
阿肖克·卡特科斯基和贝纳姆
Gabriel Synnaeve、
Jakob Verbeek 等。
内沙布尔。
通过门控状态进行远程语言建模
Resmlp:
用于图像分类的前馈网络
空间。 ICLR,
2023 年。 3
数据高效的培训。 TPAMI,
2022. 3
[47] 埃里克·阮、
卡兰·戈尔、
艾伯特·顾、
戈登·唐斯、
普雷
´ [63] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang,
沙阿、
Tri Dao、
斯蒂芬·巴克斯和克里斯托弗·雷。 S4nd:
将图像和视频建模为多维信
Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui
号
谭兴刚,
等。用于视觉识别的深度高分辨率表示学习。 TPAMI,
2020. 2
与状态空间。
在 NeurIPS,
2022. 3, 6
[48] Zhen Qin, Songlin Yang, and Yiran Zhong. Hierarchically
[64] Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu,
用于序列建模的门控循环神经网络。
在
穆罕默德·奥马尔和拉菲·哈米德。
选择性结构化
NeurIPS,
2023. 3
用于长格式视频理解的状态空间。
在CVPR中,
[49] 亚历克·雷德福、
金钟郁、
克里斯·哈拉西、
阿迪亚 2023年3月
拉梅什、
加布里埃尔·吴、
桑迪尼·阿加瓦尔、
吉里什·萨斯特里、
[65]王思农,
李贝琳达,
马迪安·卡布萨,
韩芳,
等
阿曼达·阿斯克尔、
帕梅拉·米什金、
杰克·克拉克等。
从自然语言监督中学习可转移的
浩妈。 Linformer:
具有线性复杂度的自注意力。
视觉模型。
在 ICML,
2021 年。 3
arXiv 预印本 arXiv:2006.04768, 2020. 3
[66] Wenhai Wang, Enze Xie, Xiang Li, Deng‑Ping Fan, Kaitao
[50] Ilija Radosavovic、
Raj Prateek Kosaraju、
Ross Girshick、
´ 宋、
丁良、
童路、
平罗、
凌邵。 Pyra‑mid 视觉转换器:
无需卷积即可进行密集预测的
何凯明, 皮奥特·达勒。 设计网络设计空间。 CVPR, 2020. 2, 6
多功能主干。
在 ICCV 中,
2021 年。 3
[51]凯伦·西蒙尼安和安德鲁·齐瑟曼。
用于大规模图像识别的非常深的卷积网络。 arXiv [67] Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang,
Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu,
预印本 arXiv:1409.1556, 2014. 2 李红生,
等。 Internimage:
探索具有可变形卷积的大规模视觉基础模型。
在
[52] 吉米·TH·史密斯、
沙利尼·德梅洛、
简·考茨、
斯科特·林德曼和 Wonmin Byeon。
卷积状
态空间模型 CVPR, 2023. 3
用于远程时空建模。
在 NeurIPS,
2023 年。 [68] Wenhui Wang, Shuming Ma, Hanwen Xu, Naoto Usuyama,
2
丁家玉,
潘海丰,
魏福如。
当图像是
[53] 吉米·TH·史密斯、
安德鲁·沃灵顿和斯科特·林德曼。
用于序列建模的简化状态空间层。 价值 1,024 x 1,024 个字:
计算领域的案例研究
病理。 arXiv 预印本 arXiv:2312.03558, 2023. 3
ICLR,
2023 年。 3 [69] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu,
[54] 罗宾·斯特鲁德尔、
里卡多·加西亚、
伊万·拉普捷夫和科迪莉亚 Xiyang Dai, Lu Yuan, and Lei Zhang. Cvt: Introducing con‑volutions to
施密德。 Segmenter:
用于语义分割的转换器。
在 ICCV 中,
2021 年。 7 vision transformers. In ICCV, 2021. 3
[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and
[55] Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing 孙健.用于场景理解的统一感知解析。
在ECCV中,
2018年。
6
Xia, Jilong Xue, Jianyong Wang, and Furu Wei. Retentive
10
Machine Translated by Google
[71] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and
孙健.用于场景理解的统一感知解析。
在ECCV中,
2018年。
6
´
[72] 谢赛宁,
Ross Girshick,
Piotr Dollar,
屠卓文,
何凯明。
深度聚合残差变换
[74]周博雷、
赵航、
Xavier Puig、
Tete Shaw、
Sanja Fi‑dler、
Adela Barriuso 和 Antonio
Torralba。
通过 ade20k 数据集对场景进行语义理解。
国际JCV,
2019。
3, 6
11