INFO AI Ch5

视觉与感知
徐丰
复旦大学
提纲
 视觉信息编码
 视觉光学系统
 视网膜神经环路
 视觉信息通路
 初级视觉皮层
 次级视觉皮层
 视觉信息推理
 深度线索
 运动线索
 注意力
 视觉感知与先验
视觉神经信息系统
 眼球、视网膜、视神经（optic nerve）、视交叉（optic chiasm）、视

神经束（optic tract）、外膝体（lateral geniculate nucleus (LGN)）、
视辐射（optic radiation）、视觉皮层（V1、V2、etc.）
视觉光学系统
 光聚焦在视网膜上
 视网膜上光敏细胞将光信号变为神经信号
 photoreceptor->biplor cells -> rential ganglion cells
 线性时不变系统
[Heeger,2022]
视觉光学系统
 聚光系统
 角膜(Cornea)
 2/3聚焦能力
 虹膜(Iris)、瞳孔(pupil)
 晶状体(Lens)
 1/3聚焦能力
 睫状肌调节焦距
[Wandell,2022]
视觉光学系统
 感光系统
 视网膜
 光敏细胞（photoreceptor）
 视神经纤维
 黄斑（fovea）
 盲点（optic disk、blind spot）
 盲点实验：两手伸直-相差6英寸
[Wandell,2022]
视网膜神经环路
 视网膜
 光信号转成神经信号
 视觉信号编码的第一步
 视网膜神经元（神经元细胞）
 神经节细胞（Ganglion）
 对极细胞（bipolar）
 感光细胞（photoreceptor）
 Between Receptors:
horizontal cells
 Between Bipolars:
amacrine cells
[Heeger,2022]
视网膜神经环路
 视杆细胞
 ~ 1亿个/眼
 更敏感、适应暗光
（scotopic）
 不能分辨颜色与细节
 分布在边缘（中央凹没有）
 多个合并为一个视束神经元
 视锥细胞
 ~5百万个/眼
 不敏感、适应亮光
（photopic）
 分辨细节和颜色
 集中于中央凹（2.5um密度）
（周边稀疏）
 一个分给多个视束神经元
[Wandell,2022]
颜色
 颜色是人类视觉感知概念
 自然光由其频率定义
 三种视锥感光细胞
 三条光谱响应函数
 构造高维到三维的线性映射
高维→嵌入三维编码空间
线性系统假设→三种感光细胞
[Heeger,2022]
亮度
 光强的自动调节（adaptation）
 调节10^5倍
 瞳孔（1mm-8mm）
 调节64倍
 感光细胞切换
 Cone -> Rod
 感光素漂白
 感光素在暗光条件下增多
 邻域归一化
 汇聚周边感光细胞信号
 Horizontal cell反馈调节响应性
能
 “Afterimages”
 部分感光细胞响应能力的调整
时滞效应引起
[Heeger,2022]
邻域—感受野
 神经节细胞的感受野（Receptive Field）
[Kuffler, 1950s]
[Heeger,2022]
Gabor滤波器
邻域—感受野
 线性时不变系统
 光学信号作为输入
 视网膜神经信号为输出
[Heeger,2022]
感知恒定性（Perceptual Constancy）
白纸/黑纸在不同光
 对物体的视觉感知不随环照下视觉感知一致
境变化
 Brightness Constancy
 Adaptation
 对邻域归一化
 环境光不影响感知
 Color Constancy
 各颜色通道具备独立光强相
对于环境的自适应调节能力
 实现颜色自适应调节
 从而补偿环境光的平均效应
[Heeger,2022]
归一化机制（normalization）
 神经元的动态范围限制
 保持特征不变性
 领域神经元的竞争机制Winner-takes-all
 多个功能区的神经元均发现有归一化机制
归一化机制
幻觉
 优点：对环境不敏感
 缺点：有时带来错觉
幻觉
幻觉
幻觉
幻觉
•Shading: change in surface orientation from a to b.

•Reflectance: change in surface material (e.g., paint) from b to c.
•Illumination: the shadow has less illumination than the unshadowed portion of the ground..
幻觉
视野
视野-Lateralization
 左/右脑与右/坐边身体交互（感知/控制）
 视觉：对应于左右侧视野而非左右眼
 视网膜、视神经（optic nerve）、视交叉（optic chiasm）、视神经束（optic

tract）、外膝体（lateral geniculate nucleus (LGN)）、视辐射（optic
radiation）、视觉皮层（V1、V2、etc.）
外膝体（LGN）-视网膜图
 外膝体（LGN）包含6层组织
 每层与视网膜图（ retinal map “retinotopic”）的半个视野保持对应
 各层交替来自与两个眼球，相邻两层将双目视野配准
 LGN不做神经信息处理（其神经元细胞的感受野与视网膜神经节细胞一致）
 LGN的90%输入来自于脑干和大脑皮层，用于调节视觉信号、与大脑交互
初级视觉皮层V1（Primary Visual Cortex）
 V1是视觉神经信息处理的第一步
 LGN的所有6层轴突均连到V1
 V1输出到V2, V3, V4, etc
视觉神经信息处理-V1
 V1区域的神经元空间分布保持了与视网膜图的映射关系
 V1空间与视网膜由扭曲，视野中心10度区域占50%的V1
 V1区域的视网膜图映射
 Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
 发现V1区神经生理学机理
 三种神经元细胞
 Simple cell
 Complex cell
 Hpercomplex Cell
 V1神经元感受野
 取向选择性
 取向差40度没有相应
 Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
 发现V1区神经生理学机理
 三种神经元细胞
 Simple cell
 Complex cell
 V1神经元感受野
 取向选择性
 运动方向选择性
 朝反方向运动没有相应
 V1三种神经元
 Simple cell
 对特定取向的条状敏感
 随着条的长度增加相应增加，但超过一定长度后饱和
 Simple cell
 Complex cell
 局部位移不改变相应
 Simple cell
 Complex cell
 End-stopping：条状长度增加→响应先增强后减弱，对短条更敏感
 LGN、V1等视觉神经信息
处理初级阶段，近似满足
线性系统特性
 神经元具有局部感受野
 神经元保持视网膜图的空
间映射关系
 平移不变性→卷积
 V1神经元的柱状结构
 局域微尺度：
 相同功能的神经元深度
维上堆叠为柱状结构：
 切向维度1：左右眼交替
 切向维度2：取向变化
 深度维：功能相同
 全局大尺度：
 一个Hypercolumn
1mmx1mmx3mm
 对应于视野中同一个位
置
 V1在深度维的6层网络（灰质）
 灰质是神经元细胞核、树突、突触等
 白质是神经元轴突，即不同灰质区域之间的连接
大脑网络的连接
 Diffusion Tensor Imaging (DTI)
 MRI对水分子扩散运动进行成像
 水分子在轴突的轴向运动更快
 可反演水分子运动速度场
White matter fiber tracts in the adult human brain.

Image Credit: Zeynep Saygin, mcgovern.mit.edu
次级视觉皮层
 如何定义视觉皮层区域（visual cortical area ）
 功能，如神经元感受野
 组织，神经元细胞形态区域功能
 连接，神经元之间的连接 V2 Stereo
V3 Color
V3a Texture segregation
V3b Segmentation, grouping
V4 Color / Recognition
V5 Attention
V7 Face recognition / Working
Memory
MT Motion
IT Recognition
MST Working memory, mental imagery
Monkey Visual Cortex
视觉神经信息通路
 视觉神经信息由多个并行通路构成
 顶叶通路（Parietal）Where：导航、取向、注意力
 颞叶通路（Temporal）What：物体识别
视觉推理：双目立体视觉
 双目视差（Binocular
Disparity）
 注视点（fixation point）
在左右视网膜上的位置是
对齐的
 不同深度（depth）的物体
在左右视网膜上的位置有
不同的偏移量
 双目视觉由此判断物体深
度
 视界圆（Horoptor）：存在一个椭球面，其上的点在左右视网膜上的
位置是对齐的（相对于注视点位置，因此注视点必然在该面上）
 交叉视差：近处目标，需要交叉双眼才能注视
 非交叉视差：远处目标，需要扩散双眼注视线才能注视
 双目视差特征在视觉神经信息处理的初级阶段即被融
合
 对视野某处的所有神经元，分别对不同视差有响应
视觉推理：三维重建
 利用不同视角的照片对物理进行三维重建
 构建两个投影方程，即点的三维坐标到图像二维坐标的映射关系
 根据同名点在图像中的二维坐标，可以解算该点在世界中的三维坐标
 若相机位置没有给出，则可以通过多视角中的同名点同时解算相机位置
 同名点匹配，对极几何（Epipolar Geometry）——加速同名点匹配
 对极线：根据视点𝐶0 和位置𝑥可知𝑝点在𝑝𝑐0 线上，其对应同名点必然在极线𝑙1 上
https://zhuanlan.zhihu.com/p/81016834
视觉推理：深度线索
 双目线索（生理性，初级视觉处理）
 双目视差（适用中距离）
 动眼线索（生理性，眼部肌肉）
 双目动眼线索Vergence：Convergence vs. Divergence，双目汇聚视线，适用近距离<10m
 单目动眼线索Accommodation：聚焦到近距离物体上时产生的睫状肌拉力，近距离<2m
 单目线索（心理性，高级视觉处理）
 图像线索
 光影
 遮挡关系（occlusion）：轮廓完整的在前景，轮廓不连续的在背景
 阴影（投影、动态阴影）
 纹理梯度（Texture Gradient）：同一个表面的纹理随着距离变远而变得光滑
 灰度（shading）
 轮廓（contour）
 物体尺寸
 经验尺寸：将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸：将物体尺寸与同一视野中其他位置物体比较
 透视
 线性透视（Linear Perspective ）：平行线延伸相交于地平线
 大气透视（Aerial Perspective）：地平线上远处的景象受大气折射影响变蓝
 地平线仰角：物体靠近地平线给人感觉更远
 运动线索
 运动视差(motion parallax)：头部运动引起的连续几帧图像之间的视差，不同距离的物体运动速度不
同
 动能视差（Kinetic Depth Effect）：物体旋转等运动时，根据轮廓变换判断三维形状
https://www.zhihu.com/question/46552885
 动眼线索（生理性，眼部肌肉）
 双目动眼线索Vergence：Convergence vs. Divergence，双目汇聚视线，适用近距离<10m
 单目动眼线索Accommodation：聚焦到近距离物体上时产生的睫状肌拉力，近距离<2m
http://howthingswork.org/biologyelectronics-depth-perception-and-3d-movie/
https://www.zhihu.com/question/46552885
 图像线索
 光影
 遮挡关系（occlusion）：轮廓完整的在前景，轮廓不连续的在背景
 阴影（投影、动态阴影）
 纹理梯度（Texture Gradient）：同一个表面的纹理随着距离变远而变得光滑
 灰度（shading）
 轮廓（contour）
 图像线索
 光影
 图像线索
 光影
 图像线索
 光影
 图像线索
 光影
 图像线索
 光影
 图像线索
 光影
 图像线索
 光影
幻觉
幻觉
 图像线索
 光影
 图像线索
 光影
 图像线索
 物体尺寸
 经验尺寸：将物体尺寸与经验中类似物体的尺寸比较
 相对尺寸：将物体尺寸与同一视野中其他位置物体比较
 图像线索
 物体尺寸
 图像线索
 物体尺寸
 图像线索
 透视
 线性透视（Linear Perspective ）：平行线延伸相交于地平线
 大气透视（Aerial Perspective）：地平线上远处的景象受大气折射影响变蓝
 地平线仰角：物体靠近地平线给人感觉更远
 图像线索
 透视
 图像线索
 透视
 运动线索
 运动视差(motion parallax)：头部运动引起的连续几帧图像之间的视差，不
同距离的物体运动速度不同
 动能视差（Kinetic Depth Effect）：物体旋转等运动时，根据轮廓变换判断
三维形状
 运动线索
 运动视差(motion parallax)：头部运动引起的连续几帧图像之间的视差，不
同距离的物体运动速度不同
 动能视差（Kinetic Depth Effect）：物体旋转等运动时，根据轮廓变换判断
三维形状
 运动线索
 运动视差(motion parallax)：头部运动引起的连续几帧图像之间的视差，不同距离的物体运动速
度不同
 动能视差（Kinetic Depth Effect）：物体旋转等运动时，根据轮廓变换判断三维形状（SFM）
http://www.georgemather.com/MotionDemos/KDEMP4.html
[Jerald, 2016: The VR Book]

视觉推理：运动线索
 对运动的感知是重要功能
 感知必然是时序的
 运动/变化引起视觉注意
 运动有助于前景和背景进行分割
 运动恢复三维几何
 运动提供深度线索
 运动帮助估计自身的状态
视觉推理：运动线索
 MT视觉皮层负责运动感知（光流）
 MT区神经元对运动方向具有选择性
 对特定速度和方向敏感
 MT区神经元响应与运动感知相关
 MT区损伤导致运动感知功能失常
 MT区运动感知通路模型
视觉推理：注意力
 外显注意（overt）：眼动/头动，保持注意力区域在视
野中央
 内隐注意（Covert ）：视野中搜索感兴趣的区域
 视觉注意的必要性
 有限资源处理最感兴趣的信息
 视网膜获取的信息速率10^8~10^9 bit per sec
 大脑消耗的能量仅能支撑~0.1 spike/sec/neuron
 任意时刻平均有1%神经元保持活跃
 注意力是将不同特征粘在一起形成物体的概念
 内生注意：
 有意的
 目标驱动
 自上而下
 持续时间长：300ms
 外生注意
 无意的
 刺激信号驱动
 自下而上
 短暂 ~100ms
 注意力与空间分辨率
 视觉搜索
 改变分辨率
视觉推理：识别
 物体识别：将视觉输入与记忆中概念关联，或建立新概念
 确定物体类别——这是猫
 确定具体个体——是这只猫
 确定记忆中的对象——是昨天那只猫
 匹配两个物体——两只是同一只猫
 物体识别的难点
 个体差异大、呈现方式多样
 视角、光照、遮挡等因素影响大
 类别特殊性（Category Specificity）
 Faces vs. Places
 表征机制（Nature of Representation)
 3D viewpoint-invariant vs. 2D viewpoint-dependent
 感知组织（Perceptual Organization）
 Grouping vs. Segmentation
 不同程度脸盲症：影响2.5%的人
 物盲症
 物盲症
 人脑对物体的识别不受视角、光照、阴影、遮挡的影响
 Recognition by component (Biederman)
 人脑对物体的识别不受视角、光照、阴影、遮挡的影响
 View-dependent recognition
 只有经过合理的组合与分割，才能识别正确的物体
 Grouping：如何将部件识别为一个整体
 Segmentation：如何将物体识别为不同部件
 The mind “informs” what the eye sees by perceiving a series of
individual elements as a whole.
 Gestalt Law / Perceptual Grouping （格式塔组织原则）
 Similarity（相似律，相似的部分更容易组合在一起）
 Proximity（接近律，根据部分之间接近程度进行组合）
 Continuity（连续律，组合使得部分能连接在一起）
 Closure（闭合律，组合使得完成某种图形，完形）
 Symmetry（对称律，对称的部分容易被组合）
 Figure/Ground（背景与前景区分）
 Common Fate（相同运动或者变化的物体组合在一起）
 Common Region（相同背景区域）
 Law of Prägnanz / Simplicity
 People interpret ambiguous or complex images as the simplest
form(s) possible
https://www.toptal.com/designers/ui/gestalt-principles-of-design
Gestalt Law / Perceptual Grouping
[Wagemans et al. 2012]

 Similarity（相似律，相似的部分更容易组合在一起）
https://www.usertesting.com/blog/gestalt-principles
 Proximity（接近律，根据部分之间接近程度进行组合）
 Continuity（连续律，组合使得部分能连接在一起）
 Closure（闭合律，组合使得完成某种图形，完形）
 Symmetry/Order（对称律，对称的部分容易被组合）
 Figure/Ground（背景与前景区分）
 Common Fate（相同运动或者变化的物体组合在一起）
 Common Region（相同背景区域）
https://www.usertesting.com/blog/gestalt-principles
视觉推理：三维物体的识别
 人看到三维物体投射在视网膜上的二维图像时：
 能理解为三维形状
 能识别该三维物体
 因此需要研究：
 如何由二维投影来重构三维形状
 如何在不同视角、光影、遮挡情况下识别同一个三维物体
 Perceptual Constancies
 人类视觉的这种能力称为Shape Constancy，即人对于形
状的感知不受视角、光影等因素影响
 其他类似的有：size, speed, lightness (lightness adaption),
color (color constancy)；但这些constancy的实现机制基本
是low-level的，而且原理基本是对邻域/环境(context)的归
一化，如brightness constancy可以通过视网膜神经节的归
一化机制解释
 Shape Constancy涉及到High-level机制
 Shape Perception
 从二维图像重建三维形状，本质上必然是模糊的，该逆问
题是欠定的
 但现实中任意两个不同的物体的二维视角投影几乎不可能
是一模一样，这里暗示了：从二维图像到三维形状的逆映
射是一对一的，可解的
 因此需要加入的约束是重建的三维形状的真实性
（Veridicality），也即：符合真实世界的先验约束
 由二维图像重建三维形状（理解）本身是一个欠定的
逆问题，因此需要先验约束，因此很多研究聚焦于：
 构建三维重建的计算模型
 归纳各种有效的先验约束
 普遍认为，各种Depth Cues在三维重建中起了重要作
用
 此外，解决该欠定问题依赖于两种先验Priors
 个体对于该物体或类似物体的视觉经验（之前见过的类似
景象，及其与三维物体的关联记忆）
 普适性的规律也起了先验约束的作用（外界物体或世界的
一些规律，使其成为所有个体的内生直觉体验，该直觉可
能是进化赋予的先天直觉、也可能是后天视觉经验所归纳
的）
 Perception of 3D Object，即：人脑视觉如何从二维
感知（甚至单目视觉）获取环境与目标的三维概念
（notion）
 Shape Constancy?，即：人如何实现不同视角、光照
等条件下对物体的识别
 Low-level visual processing
 Depth cue（深度线索）
 这些线索不一定完全适用，而且肯定不是精确
 但它们是经验，从而变成了先验
 对于人眼判断反演物体三维信息，提供了先验约束
 因此需要High-level visual processing
 High-level 3D perception theories
 按表征模型的属性
 视角无关的三维结构
 一个整体（Marr,1982）
 由二维视角重构三维模型
 由多个基元Geon构成（Biederman,1987）
 Geon与视角无关，可以通过任意视角识别
 因此可以在任意视角识别出所有Geon及其连接关系，从而可以识别
物体
 多个视角关联的二维表征
 物体为中心（Ullman,1989）
 观察者为中心（Poggio,Edelman,Ullman，1990-1992）
 一个整体（Marr,1982）
 由二维视角重构三维模型
 观察者为中心Viewer-Centered
 Generalized Cylinder分解
 由多个基元Geon构成（Biederman,1987）
 Geon与视角无关，可以通过任意视角识别
 因此可以在任意视角识别出所有Geon及其连接关系，从而可以识别
物体
 物体为中心（Ullman,1989）
 Recognition by alignment
 1）保存物体三维模型
 2）识别新视角：将三维模型投影获得二维图像与输入图像匹配
 3）需要大脑具有投影变换能力，Mental Rotation
 观察者为中心
 在Visual guidance of interactions with objects中是必要的
 （1）Aspect Graph（Koenderink 1990）
 节点：distinct views
 变换矩阵：对distinct view进行略微视角变换
 （2）视角插值（Poggio,Edelman,Ullman，1990-1992）
 保存少量视角的二维表征
 通过这些视角之间的线性插值来识别新视角
 识别性能随着视角差异增大而降低
 数学上可以证明，如果不同视角之间的同名点是匹配好的，那么最多
仅需6个视角即可通过线性组合恢复任何视角
 目前基本观点是（Peters 2000）
 记忆是视角关联的二维表征
 不同视角的重要程度不同，有些特征视角更重要
 新视角的识别是可以通过视角之间插值实现
 编码时：视角连续变化有重要作用
 （ Papenmeier & Schwan, 2016 ）研究发现：人们在构建表征（对物体进行编码）
时利用了运动产生的深度线索，而识别时（提取或匹配物体记忆）利用了双目视
差产生的深度线索。
 说明：大脑记忆中的物体表征是深度结构而非底层的深度线索（比如双目视差）
 视觉皮层处理中具有层次化的操作，既涉及到物体为中心的表征，也涉及
到观察者为中心的表征
 在STS皮层区域，发现神经元对某个物体的某个视角有响应，但对其他视角没有
响应；也发现神经元对某个物体的所有视角都有响应
 说明视觉神经信息处理是层次化的：从视角/取向等关联的底层处理到视角/取向
等不变的高层处理
 因此：两种理论共存，既有视角二维表征、又有视角无关三维表征
 多种机制在人脑中共存，既有视角二维表征、又有视角无关三维表征
 针对不同任务，倾向于使用不同的表征和机制
 层次化的处理机制：
 底层处理：
 二维景象进入视网膜，进行特征提取，经过关联聚类，成为Mental Images，利用Depth
Cues获取三维特征
 高层处理：
 通过连续视角观察，构建三维模型的表征，在高层脑区保存多种三维模型，并具备对三维模
型的渲染能力（投影产生新视角的二维表征）
 新视角的识别：
 二维表征通过相似度先激发二维Mental Image，如果匹配则立刻识别；
 否则激发关联的三维模型，搜索该三维模型的其他视角，并与输入二维进行匹配，根据两者
差异进一步引发思考（如对其进行解释，比如多一个部件；对其进行调整，如根据差异换一
个视角）直到两者吻合，因此识别时间随着思考时间加长
 Interplay/Interact of Bottom-up and Top-down processing
 可见：大脑也采用时间换区内存方法（类似于同步计算电路），即为了避免记忆无数二维视
角mental images、将相同的三维渲染操作功能汇聚到一个高层脑区，二通过迭代、交互式思
考推理来对新视角进行理解
References
– Brian A. Wandell, Foundations of Vision, accessed 2022
http://foundationsofvision.stanford.edu/
– David Heeger, Perception Lecture Notes, accessed 2022
https://www.cns.nyu.edu/~david/courses/perception/lecture-notes.html
– https://www.zhihu.com/question/46552885
– Jerald, 2016: The VR Book
– G. Peters, 2000: Theories of Three-Dimensional Object Perception A Survey
Thank You
Q &A
fengxu@fudan.edu.cn
www.emwlab.fudan.edu.cn

INFO AI Ch5

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

INFO AI Ch5

Uploaded by

Copyright:

Available Formats

视觉与感知

 眼球、视网膜、视神经（optic nerve）、视交叉（optic chiasm）、视

•Shading: change in surface orientation from a to b.

 视网膜、视神经（optic nerve）、视交叉（optic chiasm）、视神经束（optic

White matter fiber tracts in the adult human brain.

[Jerald, 2016: The VR Book]

[Wagemans et al. 2012]

You might also like