You are on page 1of 112

视觉与感知

徐 丰
复旦大学
提纲
 视觉信息编码
 视觉光学系统
 视网膜神经环路
 视觉信息通路
 初级视觉皮层
 次级视觉皮层
 视觉信息推理
 深度线索
 运动线索
 注意力
 视觉感知与先验
视觉神经信息系统

 眼球、视网膜、视神经(optic nerve)、视交叉(optic chiasm)、视


神经束(optic tract)、外膝体(lateral geniculate nucleus (LGN))、
视辐射(optic radiation)、视觉皮层(V1、V2、etc.)
视觉光学系统
 光聚焦在视网膜上
 视网膜上光敏细胞将光信号变为神经信号
 photoreceptor->biplor cells -> rential ganglion cells
 线性时不变系统

[Heeger,2022]
视觉光学系统
 聚光系统
 角膜(Cornea)
 2/3聚焦能力
 虹膜(Iris)、瞳孔(pupil)
 晶状体(Lens)
 1/3聚焦能力
 睫状肌调节焦距

[Wandell,2022]
视觉光学系统
 感光系统
 视网膜
 光敏细胞(photoreceptor)
 视神经纤维
 黄斑(fovea)
 盲点(optic disk、blind spot)
 盲点实验:两手伸直-相差6英寸

[Wandell,2022]
视网膜神经环路
 视网膜
 光信号转成神经信号
 视觉信号编码的第一步
 视网膜神经元(神经元细胞)
 神经节细胞(Ganglion)
 对极细胞(bipolar)
 感光细胞(photoreceptor)
 Between Receptors:
horizontal cells
 Between Bipolars:
amacrine cells

[Heeger,2022]
视网膜神经环路
 视杆细胞
 ~ 1亿个/眼
 更敏感、适应暗光
(scotopic)
 不能分辨颜色与细节
 分布在边缘(中央凹没有)
 多个合并为一个视束神经元
 视锥细胞
 ~5百万个/眼
 不敏感、适应亮光
(photopic)
 分辨细节和颜色
 集中于中央凹(2.5um密度)
(周边稀疏)
 一个分给多个视束神经元

[Wandell,2022]
颜色
 颜色是人类视觉感知概念
 自然光由其频率定义
 三种视锥感光细胞
 三条光谱响应函数
 构造高维到三维的线性映射

高维→嵌入三维编码空间

线性系统假设→三种感光细胞

[Heeger,2022]
亮度
 光强的自动调节(adaptation)
 调节10^5倍
 瞳孔(1mm-8mm)
 调节64倍
 感光细胞切换
 Cone -> Rod
 感光素漂白
 感光素在暗光条件下增多
 邻域归一化
 汇聚周边感光细胞信号
 Horizontal cell反馈调节响应性

 “Afterimages”
 部分感光细胞响应能力的调整
时滞效应引起
[Heeger,2022]
邻域—感受野
 神经节细胞的感受野(Receptive Field)

[Kuffler, 1950s]

[Heeger,2022]
Gabor滤波器
邻域—感受野
 线性时不变系统
 光学信号作为输入
 视网膜神经信号为输出

[Heeger,2022]
感知恒定性(Perceptual Constancy)
白纸/黑纸在不同光
 对物体的视觉感知不随环 照下视觉感知一致
境变化
 Brightness Constancy
 Adaptation
 对邻域归一化
 环境光不影响感知
 Color Constancy
 各颜色通道具备独立光强相
对于环境的自适应调节能力
 实现颜色自适应调节
 从而补偿环境光的平均效应

[Heeger,2022]
归一化机制(normalization)
 神经元的动态范围限制
 保持特征不变性
 领域神经元的竞争机制Winner-takes-all
 多个功能区的神经元均发现有归一化机制
归一化机制
幻觉
 优点:对环境不敏感
 缺点:有时带来错觉
幻觉
幻觉
幻觉
幻觉

•Shading: change in surface orientation from a to b.


•Reflectance: change in surface material (e.g., paint) from b to c.
•Illumination: the shadow has less illumination than the unshadowed portion of the ground..
幻觉
视野
视野-Lateralization
 左/右脑与右/坐边身体交互(感知/控制)
 视觉:对应于左右侧视野而非左右眼

 视网膜、视神经(optic nerve)、视交叉(optic chiasm)、视神经束(optic


tract)、外膝体(lateral geniculate nucleus (LGN))、视辐射(optic
radiation)、视觉皮层(V1、V2、etc.)
外膝体(LGN)-视网膜图
 外膝体(LGN)包含6层组织
 每层与视网膜图( retinal map “retinotopic”)的半个视野保持对应
 各层交替来自与两个眼球,相邻两层将双目视野配准
 LGN不做神经信息处理(其神经元细胞的感受野与视网膜神经节细胞一致)
 LGN的90%输入来自于脑干和大脑皮层,用于调节视觉信号、与大脑交互
初级视觉皮层V1(Primary Visual Cortex)

 V1是视觉神经信息处理的第一步
 LGN的所有6层轴突均连到V1
 V1输出到V2, V3, V4, etc
视觉神经信息处理-V1
 V1区域的神经元空间分布保持了与视网膜图的映射关系
 V1空间与视网膜由扭曲,视野中心10度区域占50%的V1
视觉神经信息处理-V1
 V1区域的视网膜图映射
视觉神经信息处理-V1
 Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
 发现V1区神经生理学机理
 三种神经元细胞
 Simple cell
 Complex cell
 Hpercomplex Cell
 V1神经元感受野
 取向选择性
 取向差40度没有相应
视觉神经信息处理-V1
 Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
 发现V1区神经生理学机理
 三种神经元细胞
 Simple cell
 Complex cell
 Hpercomplex Cell
 V1神经元感受野
 取向选择性
 运动方向选择性
 朝反方向运动没有相应
视觉神经信息处理-V1
 V1三种神经元
 Simple cell
 对特定取向的条状敏感
 随着条的长度增加相应增加,但超过一定长度后饱和
视觉神经信息处理-V1
 V1三种神经元
 Simple cell
 Complex cell
 局部位移不改变相应
视觉神经信息处理-V1
 V1三种神经元
 Simple cell
 Complex cell
 Hpercomplex Cell
 End-stopping:条状长度增加→响应先增强后减弱,对短条更敏感
视觉神经信息处理-V1

 LGN、V1等视觉神经信息
处理初级阶段,近似满足
线性系统特性
 神经元具有局部感受野
 神经元保持视网膜图的空
间映射关系
 平移不变性→卷积
视觉神经信息处理-V1
视觉神经信息处理-V1
 V1神经元的柱状结构
 局域微尺度:
 相同功能的神经元深度
维上堆叠为柱状结构:
 切向维度1:左右眼交替
 切向维度2:取向变化
 深度维:功能相同
 全局大尺度:
 一个Hypercolumn
1mmx1mmx3mm
 对应于视野中同一个位

视觉神经信息处理-V1
 V1在深度维的6层网络(灰质)
 灰质是神经元细胞核、树突、突触等
 白质是神经元轴突,即不同灰质区域之间的连接
大脑网络的连接
 Diffusion Tensor Imaging (DTI)
 MRI对水分子扩散运动进行成像
 水分子在轴突的轴向运动更快
 可反演水分子运动速度场

White matter fiber tracts in the adult human brain.


Image Credit: Zeynep Saygin, mcgovern.mit.edu
次级视觉皮层
 如何定义视觉皮层区域(visual cortical area )
 功能,如神经元感受野
 组织,神经元细胞形态 区域 功能
 连接,神经元之间的连接 V2 Stereo
V3 Color
V3a Texture segregation
V3b Segmentation, grouping
V4 Color / Recognition
V5 Attention
V7 Face recognition / Working
Memory
MT Motion
IT Recognition
MST Working memory, mental imagery
Monkey Visual Cortex
视觉神经信息通路
 视觉神经信息由多个并行通路构成
 顶叶通路(Parietal)Where:导航、取向、注意力
 颞叶通路(Temporal)What:物体识别
视觉推理:双目立体视觉
 双目视差(Binocular
Disparity)
 注视点(fixation point)
在左右视网膜上的位置是
对齐的
 不同深度(depth)的物体
在左右视网膜上的位置有
不同的偏移量
 双目视觉由此判断物体深

视觉推理:双目立体视觉
 视界圆(Horoptor):存在一个椭球面,其上的点在左右视网膜上的
位置是对齐的(相对于注视点位置,因此注视点必然在该面上)
 交叉视差:近处目标,需要交叉双眼才能注视
 非交叉视差:远处目标,需要扩散双眼注视线才能注视
视觉推理:双目立体视觉
 双目视差特征在视觉神经信息处理的初级阶段即被融

 对视野某处的所有神经元,分别对不同视差有响应
视觉推理:三维重建
 利用不同视角的照片对物理进行三维重建
 构建两个投影方程,即点的三维坐标到图像二维坐标的映射关系
 根据同名点在图像中的二维坐标,可以解算该点在世界中的三维坐标
 若相机位置没有给出,则可以通过多视角中的同名点同时解算相机位置
 同名点匹配,对极几何(Epipolar Geometry)——加速同名点匹配
 对极线:根据视点𝐶0 和位置𝑥可知𝑝点在𝑝𝑐0 线上,其对应同名点必然在极线𝑙1 上

https://zhuanlan.zhihu.com/p/81016834
视觉推理:深度线索
 双目线索(生理性,初级视觉处理)
 双目视差(适用中距离)
 动眼线索(生理性,眼部肌肉)
 双目动眼线索Vergence:Convergence vs. Divergence,双目汇聚视线,适用近距离<10m
 单目动眼线索Accommodation:聚焦到近距离物体上时产生的睫状肌拉力,近距离<2m
 单目线索(心理性,高级视觉处理)
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
 物体尺寸
 经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸:将物体尺寸与同一视野中其他位置物体比较
 透视
 线性透视(Linear Perspective ):平行线延伸相交于地平线
 大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
 地平线仰角:物体靠近地平线给人感觉更远
 运动线索
 运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不同距离的物体运动速度不

 动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断三维形状
https://www.zhihu.com/question/46552885
视觉推理:深度线索
 动眼线索(生理性,眼部肌肉)
 双目动眼线索Vergence:Convergence vs. Divergence,双目汇聚视线,适用近距离<10m
 单目动眼线索Accommodation:聚焦到近距离物体上时产生的睫状肌拉力,近距离<2m

http://howthingswork.org/biologyelectronics-depth-perception-and-3d-movie/
https://www.zhihu.com/question/46552885
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
幻觉
幻觉
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 光影
 遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
 阴影(投影、动态阴影)
 纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
 灰度(shading)
 轮廓(contour)
视觉推理:深度线索
 图像线索
 物体尺寸
 经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
 图像线索
 物体尺寸
 经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
 图像线索
 物体尺寸
 经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
 图像线索
 透视
 线性透视(Linear Perspective ):平行线延伸相交于地平线
 大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
 地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
 图像线索
 透视
 线性透视(Linear Perspective ):平行线延伸相交于地平线
 大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
 地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
 图像线索
 透视
 线性透视(Linear Perspective ):平行线延伸相交于地平线
 大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
 地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
 运动线索
 运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不
同距离的物体运动速度不同
 动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断
三维形状
视觉推理:深度线索
 运动线索
 运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不
同距离的物体运动速度不同
 动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断
三维形状
视觉推理:深度线索
 运动线索
 运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不同距离的物体运动速
度不同
 动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断三维形状(SFM)

http://www.georgemather.com/MotionDemos/KDEMP4.html
视觉推理:深度线索

[Jerald, 2016: The VR Book]


视觉推理:运动线索
 对运动的感知是重要功能
 感知必然是时序的
 运动/变化引起视觉注意
 运动有助于前景和背景进行分割
 运动恢复三维几何
 运动提供深度线索
 运动帮助估计自身的状态
视觉推理:运动线索
 MT视觉皮层负责运动感知(光流)
 MT区神经元对运动方向具有选择性
 对特定速度和方向敏感
 MT区神经元响应与运动感知相关
 MT区损伤导致运动感知功能失常
 MT区运动感知通路模型
视觉推理:注意力
 外显注意(overt):眼动/头动,保持注意力区域在视
野中央
 内隐注意(Covert ):视野中搜索感兴趣的区域
 视觉注意的必要性
 有限资源处理最感兴趣的信息
 视网膜获取的信息速率10^8~10^9 bit per sec
 大脑消耗的能量仅能支撑~0.1 spike/sec/neuron
 任意时刻平均有1%神经元保持活跃
 注意力是将不同特征粘在一起形成物体的概念
视觉推理:注意力
 内生注意:
 有意的
 目标驱动
 自上而下
 持续时间长:300ms
 外生注意
 无意的
 刺激信号驱动
 自下而上
 短暂 ~100ms
视觉推理:注意力
 注意力与空间分辨率
 视觉搜索
 改变分辨率
视觉推理:识别
 物体识别:将视觉输入与记忆中概念关联,或建立新概念
 确定物体类别——这是猫
 确定具体个体——是这只猫
 确定记忆中的对象——是昨天那只猫
 匹配两个物体——两只是同一只猫
 物体识别的难点
 个体差异大、呈现方式多样
 视角、光照、遮挡等因素影响大
视觉推理:识别
 物体识别的难点
 个体差异大、呈现方式多样
视觉推理:识别
 物体识别的难点
 个体差异大、呈现方式多样
视觉推理:识别
 物体识别的难点
 个体差异大、呈现方式多样
 视角、光照、遮挡等因素影响大
视觉推理:识别
 物体识别的难点
 个体差异大、呈现方式多样
 视角、光照、遮挡等因素影响大
视觉推理:识别
 物体识别的难点
 个体差异大、呈现方式多样
 视角、光照、遮挡等因素影响大
视觉推理:识别
 类别特殊性(Category Specificity)
 Faces vs. Places
 表征机制(Nature of Representation)
 3D viewpoint-invariant vs. 2D viewpoint-dependent
 感知组织(Perceptual Organization)
 Grouping vs. Segmentation
视觉推理:识别
 类别特殊性(Category Specificity)
 Faces vs. Places
 不同程度脸盲症:影响2.5%的人
视觉推理:识别
 类别特殊性(Category Specificity)
 Faces vs. Places
 不同程度脸盲症:影响2.5%的人
 物盲症
视觉推理:识别
 类别特殊性(Category Specificity)
 Faces vs. Places
 不同程度脸盲症:影响2.5%的人
 物盲症
视觉推理:识别
 表征机制(Nature of Representation)
 3D viewpoint-invariant vs. 2D viewpoint-dependent
 人脑对物体的识别不受视角、光照、阴影、遮挡的影响
 Recognition by component (Biederman)
视觉推理:识别
 表征机制(Nature of Representation)
 3D viewpoint-invariant vs. 2D viewpoint-dependent
 人脑对物体的识别不受视角、光照、阴影、遮挡的影响
 View-dependent recognition
视觉推理:识别
 感知组织(Perceptual Organization)
 只有经过合理的组合与分割,才能识别正确的物体
 Grouping:如何将部件识别为一个整体
 Segmentation:如何将物体识别为不同部件
视觉推理:识别
 感知组织(Perceptual Organization)
 The mind “informs” what the eye sees by perceiving a series of
individual elements as a whole.
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Similarity(相似律,相似的部分更容易组合在一起)
 Proximity(接近律,根据部分之间接近程度进行组合)
 Continuity(连续律,组合使得部分能连接在一起)
 Closure(闭合律,组合使得完成某种图形,完形)
 Symmetry(对称律,对称的部分容易被组合)
 Figure/Ground(背景与前景区分)
 Common Fate(相同运动或者变化的物体组合在一起)
 Common Region(相同背景区域)
 Law of Prägnanz / Simplicity
 People interpret ambiguous or complex images as the simplest
form(s) possible

https://www.toptal.com/designers/ui/gestalt-principles-of-design
Gestalt Law / Perceptual Grouping

[Wagemans et al. 2012]


视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Similarity(相似律,相似的部分更容易组合在一起)

https://www.usertesting.com/blog/gestalt-principles
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Proximity(接近律,根据部分之间接近程度进行组合)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Continuity(连续律,组合使得部分能连接在一起)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Closure(闭合律,组合使得完成某种图形,完形)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Symmetry/Order(对称律,对称的部分容易被组合)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Figure/Ground(背景与前景区分)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Common Fate(相同运动或者变化的物体组合在一起)

https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
 感知组织(Perceptual Organization)
 Gestalt Law / Perceptual Grouping (格式塔组织原则)
 Common Region(相同背景区域)

https://www.usertesting.com/blog/gestalt-principles
视觉推理:三维物体的识别
 人看到三维物体投射在视网膜上的二维图像时:
 能理解为三维形状
 能识别该三维物体
 因此需要研究:
 如何由二维投影来重构三维形状
 如何在不同视角、光影、遮挡情况下识别同一个三维物体
视觉推理:三维物体的识别
 Perceptual Constancies
 人类视觉的这种能力称为Shape Constancy,即人对于形
状的感知不受视角、光影等因素影响
 其他类似的有:size, speed, lightness (lightness adaption),
color (color constancy);但这些constancy的实现机制基本
是low-level的,而且原理基本是对邻域/环境(context)的归
一化,如brightness constancy可以通过视网膜神经节的归
一化机制解释
 Shape Constancy涉及到High-level机制
视觉推理:三维物体的识别
 Shape Perception
 从二维图像重建三维形状,本质上必然是模糊的,该逆问
题是欠定的
 但现实中任意两个不同的物体的二维视角投影几乎不可能
是一模一样,这里暗示了:从二维图像到三维形状的逆映
射是一对一的,可解的
 因此需要加入的约束是重建的三维形状的真实性
(Veridicality),也即:符合真实世界的先验约束
视觉推理:三维重建
 由二维图像重建三维形状(理解)本身是一个欠定的
逆问题,因此需要先验约束,因此很多研究聚焦于:
 构建三维重建的计算模型
 归纳各种有效的先验约束
视觉推理:三维重建
 普遍认为,各种Depth Cues在三维重建中起了重要作

 此外,解决该欠定问题依赖于两种先验Priors
 个体对于该物体或类似物体的视觉经验(之前见过的类似
景象,及其与三维物体的关联记忆)
 普适性的规律也起了先验约束的作用(外界物体或世界的
一些规律,使其成为所有个体的内生直觉体验,该直觉可
能是进化赋予的先天直觉、也可能是后天视觉经验所归纳
的)
视觉推理:三维物体的识别
 Perception of 3D Object,即:人脑视觉如何从二维
感知(甚至单目视觉)获取环境与目标的三维概念
(notion)
 Shape Constancy?,即:人如何实现不同视角、光照
等条件下对物体的识别
 Low-level visual processing
 Depth cue(深度线索)
 这些线索不一定完全适用,而且肯定不是精确
 但它们是经验,从而变成了先验
 对于人眼判断反演物体三维信息,提供了先验约束
 因此需要High-level visual processing
视觉推理:三维物体的识别
 High-level 3D perception theories
 按表征模型的属性
 视角无关的三维结构
 一个整体(Marr,1982)
 由二维视角重构三维模型
 由多个基元Geon构成(Biederman,1987)
 Geon与视角无关,可以通过任意视角识别
 因此可以在任意视角识别出所有Geon及其连接关系,从而可以识别
物体
 多个视角关联的二维表征
 物体为中心(Ullman,1989)
 观察者为中心(Poggio,Edelman,Ullman,1990-1992)
视觉推理:三维物体的识别
 High-level 3D perception theories
 按表征模型的属性
 视角无关的三维结构
 一个整体(Marr,1982)
 由二维视角重构三维模型
 观察者为中心Viewer-Centered
 Generalized Cylinder分解
视觉推理:三维物体的识别
 High-level 3D perception theories
 按表征模型的属性
 视角无关的三维结构
 由多个基元Geon构成(Biederman,1987)
 Geon与视角无关,可以通过任意视角识别
 因此可以在任意视角识别出所有Geon及其连接关系,从而可以识别
物体
视觉推理:三维物体的识别
 High-level 3D perception theories
 按表征模型的属性
 多个视角关联的二维表征
 物体为中心(Ullman,1989)

 Recognition by alignment
 1)保存物体三维模型
 2)识别新视角:将三维模型投影获得二维图像与输入图像匹配
 3)需要大脑具有投影变换能力,Mental Rotation
视觉推理:三维物体的识别
 High-level 3D perception theories
 按表征模型的属性
 多个视角关联的二维表征
 观察者为中心
 在Visual guidance of interactions with objects中是必要的
 (1)Aspect Graph(Koenderink 1990)
 节点:distinct views
 变换矩阵:对distinct view进行略微视角变换
 (2)视角插值(Poggio,Edelman,Ullman,1990-1992)
 保存少量视角的二维表征
 通过这些视角之间的线性插值来识别新视角
 识别性能随着视角差异增大而降低
 数学上可以证明,如果不同视角之间的同名点是匹配好的,那么最多
仅需6个视角即可通过线性组合恢复任何视角
视觉推理:三维物体的识别
 目前基本观点是(Peters 2000)
 记忆是视角关联的二维表征
 不同视角的重要程度不同,有些特征视角更重要
 新视角的识别是可以通过视角之间插值实现
 编码时:视角连续变化有重要作用
 ( Papenmeier & Schwan, 2016 )研究发现:人们在构建表征(对物体进行编码)
时利用了运动产生的深度线索,而识别时(提取或匹配物体记忆)利用了双目视
差产生的深度线索。
 说明:大脑记忆中的物体表征是深度结构而非底层的深度线索(比如双目视差)
 视觉皮层处理中具有层次化的操作,既涉及到物体为中心的表征,也涉及
到观察者为中心的表征
 在STS皮层区域,发现神经元对某个物体的某个视角有响应,但对其他视角没有
响应;也发现神经元对某个物体的所有视角都有响应
 说明视觉神经信息处理是层次化的:从视角/取向等关联的底层处理到视角/取向
等不变的高层处理
 因此:两种理论共存,既有视角二维表征、又有视角无关三维表征
视觉推理:三维物体的识别
 多种机制在人脑中共存,既有视角二维表征、又有视角无关三维表征
 针对不同任务,倾向于使用不同的表征和机制
 层次化的处理机制:
 底层处理:
 二维景象进入视网膜,进行特征提取,经过关联聚类,成为Mental Images,利用Depth
Cues获取三维特征
 高层处理:
 通过连续视角观察,构建三维模型的表征,在高层脑区保存多种三维模型,并具备对三维模
型的渲染能力(投影产生新视角的二维表征)
 新视角的识别:
 二维表征通过相似度先激发二维Mental Image,如果匹配则立刻识别;
 否则激发关联的三维模型,搜索该三维模型的其他视角,并与输入二维进行匹配,根据两者
差异进一步引发思考(如对其进行解释,比如多一个部件;对其进行调整,如根据差异换一
个视角)直到两者吻合,因此识别时间随着思考时间加长
 Interplay/Interact of Bottom-up and Top-down processing
 可见:大脑也采用时间换区内存方法(类似于同步计算电路),即为了避免记忆无数二维视
角mental images、将相同的三维渲染操作功能汇聚到一个高层脑区,二通过迭代、交互式思
考推理来对新视角进行理解
References
– Brian A. Wandell, Foundations of Vision, accessed 2022
http://foundationsofvision.stanford.edu/
– David Heeger, Perception Lecture Notes, accessed 2022
https://www.cns.nyu.edu/~david/courses/perception/lecture-notes.html
– https://www.zhihu.com/question/46552885
– Jerald, 2016: The VR Book
– G. Peters, 2000: Theories of Three-Dimensional Object Perception A Survey
Thank You
Q &A

fengxu@fudan.edu.cn
www.emwlab.fudan.edu.cn

You might also like