Professional Documents
Culture Documents
INFO AI Ch5
INFO AI Ch5
徐 丰
复旦大学
提纲
视觉信息编码
视觉光学系统
视网膜神经环路
视觉信息通路
初级视觉皮层
次级视觉皮层
视觉信息推理
深度线索
运动线索
注意力
视觉感知与先验
视觉神经信息系统
[Heeger,2022]
视觉光学系统
聚光系统
角膜(Cornea)
2/3聚焦能力
虹膜(Iris)、瞳孔(pupil)
晶状体(Lens)
1/3聚焦能力
睫状肌调节焦距
[Wandell,2022]
视觉光学系统
感光系统
视网膜
光敏细胞(photoreceptor)
视神经纤维
黄斑(fovea)
盲点(optic disk、blind spot)
盲点实验:两手伸直-相差6英寸
[Wandell,2022]
视网膜神经环路
视网膜
光信号转成神经信号
视觉信号编码的第一步
视网膜神经元(神经元细胞)
神经节细胞(Ganglion)
对极细胞(bipolar)
感光细胞(photoreceptor)
Between Receptors:
horizontal cells
Between Bipolars:
amacrine cells
[Heeger,2022]
视网膜神经环路
视杆细胞
~ 1亿个/眼
更敏感、适应暗光
(scotopic)
不能分辨颜色与细节
分布在边缘(中央凹没有)
多个合并为一个视束神经元
视锥细胞
~5百万个/眼
不敏感、适应亮光
(photopic)
分辨细节和颜色
集中于中央凹(2.5um密度)
(周边稀疏)
一个分给多个视束神经元
[Wandell,2022]
颜色
颜色是人类视觉感知概念
自然光由其频率定义
三种视锥感光细胞
三条光谱响应函数
构造高维到三维的线性映射
高维→嵌入三维编码空间
线性系统假设→三种感光细胞
[Heeger,2022]
亮度
光强的自动调节(adaptation)
调节10^5倍
瞳孔(1mm-8mm)
调节64倍
感光细胞切换
Cone -> Rod
感光素漂白
感光素在暗光条件下增多
邻域归一化
汇聚周边感光细胞信号
Horizontal cell反馈调节响应性
能
“Afterimages”
部分感光细胞响应能力的调整
时滞效应引起
[Heeger,2022]
邻域—感受野
神经节细胞的感受野(Receptive Field)
[Kuffler, 1950s]
[Heeger,2022]
Gabor滤波器
邻域—感受野
线性时不变系统
光学信号作为输入
视网膜神经信号为输出
[Heeger,2022]
感知恒定性(Perceptual Constancy)
白纸/黑纸在不同光
对物体的视觉感知不随环 照下视觉感知一致
境变化
Brightness Constancy
Adaptation
对邻域归一化
环境光不影响感知
Color Constancy
各颜色通道具备独立光强相
对于环境的自适应调节能力
实现颜色自适应调节
从而补偿环境光的平均效应
[Heeger,2022]
归一化机制(normalization)
神经元的动态范围限制
保持特征不变性
领域神经元的竞争机制Winner-takes-all
多个功能区的神经元均发现有归一化机制
归一化机制
幻觉
优点:对环境不敏感
缺点:有时带来错觉
幻觉
幻觉
幻觉
幻觉
V1是视觉神经信息处理的第一步
LGN的所有6层轴突均连到V1
V1输出到V2, V3, V4, etc
视觉神经信息处理-V1
V1区域的神经元空间分布保持了与视网膜图的映射关系
V1空间与视网膜由扭曲,视野中心10度区域占50%的V1
视觉神经信息处理-V1
V1区域的视网膜图映射
视觉神经信息处理-V1
Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
发现V1区神经生理学机理
三种神经元细胞
Simple cell
Complex cell
Hpercomplex Cell
V1神经元感受野
取向选择性
取向差40度没有相应
视觉神经信息处理-V1
Hubel and Wiesel 1958猫实验 (1981诺贝尔奖)
发现V1区神经生理学机理
三种神经元细胞
Simple cell
Complex cell
Hpercomplex Cell
V1神经元感受野
取向选择性
运动方向选择性
朝反方向运动没有相应
视觉神经信息处理-V1
V1三种神经元
Simple cell
对特定取向的条状敏感
随着条的长度增加相应增加,但超过一定长度后饱和
视觉神经信息处理-V1
V1三种神经元
Simple cell
Complex cell
局部位移不改变相应
视觉神经信息处理-V1
V1三种神经元
Simple cell
Complex cell
Hpercomplex Cell
End-stopping:条状长度增加→响应先增强后减弱,对短条更敏感
视觉神经信息处理-V1
LGN、V1等视觉神经信息
处理初级阶段,近似满足
线性系统特性
神经元具有局部感受野
神经元保持视网膜图的空
间映射关系
平移不变性→卷积
视觉神经信息处理-V1
视觉神经信息处理-V1
V1神经元的柱状结构
局域微尺度:
相同功能的神经元深度
维上堆叠为柱状结构:
切向维度1:左右眼交替
切向维度2:取向变化
深度维:功能相同
全局大尺度:
一个Hypercolumn
1mmx1mmx3mm
对应于视野中同一个位
置
视觉神经信息处理-V1
V1在深度维的6层网络(灰质)
灰质是神经元细胞核、树突、突触等
白质是神经元轴突,即不同灰质区域之间的连接
大脑网络的连接
Diffusion Tensor Imaging (DTI)
MRI对水分子扩散运动进行成像
水分子在轴突的轴向运动更快
可反演水分子运动速度场
https://zhuanlan.zhihu.com/p/81016834
视觉推理:深度线索
双目线索(生理性,初级视觉处理)
双目视差(适用中距离)
动眼线索(生理性,眼部肌肉)
双目动眼线索Vergence:Convergence vs. Divergence,双目汇聚视线,适用近距离<10m
单目动眼线索Accommodation:聚焦到近距离物体上时产生的睫状肌拉力,近距离<2m
单目线索(心理性,高级视觉处理)
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
物体尺寸
经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
相对尺寸:将物体尺寸与同一视野中其他位置物体比较
透视
线性透视(Linear Perspective ):平行线延伸相交于地平线
大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
地平线仰角:物体靠近地平线给人感觉更远
运动线索
运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不同距离的物体运动速度不
同
动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断三维形状
https://www.zhihu.com/question/46552885
视觉推理:深度线索
动眼线索(生理性,眼部肌肉)
双目动眼线索Vergence:Convergence vs. Divergence,双目汇聚视线,适用近距离<10m
单目动眼线索Accommodation:聚焦到近距离物体上时产生的睫状肌拉力,近距离<2m
http://howthingswork.org/biologyelectronics-depth-perception-and-3d-movie/
https://www.zhihu.com/question/46552885
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
幻觉
幻觉
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
光影
遮挡关系(occlusion):轮廓完整的在前景,轮廓不连续的在背景
阴影(投影、动态阴影)
纹理梯度(Texture Gradient):同一个表面的纹理随着距离变远而变得光滑
灰度(shading)
轮廓(contour)
视觉推理:深度线索
图像线索
物体尺寸
经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
图像线索
物体尺寸
经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
图像线索
物体尺寸
经验尺寸:将物体尺寸与经验中类似物体的尺寸比较
相对尺寸:将物体尺寸与同一视野中其他位置物体比较
视觉推理:深度线索
图像线索
透视
线性透视(Linear Perspective ):平行线延伸相交于地平线
大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
图像线索
透视
线性透视(Linear Perspective ):平行线延伸相交于地平线
大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
图像线索
透视
线性透视(Linear Perspective ):平行线延伸相交于地平线
大气透视(Aerial Perspective):地平线上远处的景象受大气折射影响变蓝
地平线仰角:物体靠近地平线给人感觉更远
视觉推理:深度线索
运动线索
运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不
同距离的物体运动速度不同
动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断
三维形状
视觉推理:深度线索
运动线索
运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不
同距离的物体运动速度不同
动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断
三维形状
视觉推理:深度线索
运动线索
运动视差(motion parallax):头部运动引起的连续几帧图像之间的视差,不同距离的物体运动速
度不同
动能视差(Kinetic Depth Effect):物体旋转等运动时,根据轮廓变换判断三维形状(SFM)
http://www.georgemather.com/MotionDemos/KDEMP4.html
视觉推理:深度线索
https://www.toptal.com/designers/ui/gestalt-principles-of-design
Gestalt Law / Perceptual Grouping
https://www.usertesting.com/blog/gestalt-principles
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Proximity(接近律,根据部分之间接近程度进行组合)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Continuity(连续律,组合使得部分能连接在一起)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Closure(闭合律,组合使得完成某种图形,完形)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Symmetry/Order(对称律,对称的部分容易被组合)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Figure/Ground(背景与前景区分)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Common Fate(相同运动或者变化的物体组合在一起)
https://www.toptal.com/designers/ui/gestalt-principles-of-design
视觉推理:识别
感知组织(Perceptual Organization)
Gestalt Law / Perceptual Grouping (格式塔组织原则)
Common Region(相同背景区域)
https://www.usertesting.com/blog/gestalt-principles
视觉推理:三维物体的识别
人看到三维物体投射在视网膜上的二维图像时:
能理解为三维形状
能识别该三维物体
因此需要研究:
如何由二维投影来重构三维形状
如何在不同视角、光影、遮挡情况下识别同一个三维物体
视觉推理:三维物体的识别
Perceptual Constancies
人类视觉的这种能力称为Shape Constancy,即人对于形
状的感知不受视角、光影等因素影响
其他类似的有:size, speed, lightness (lightness adaption),
color (color constancy);但这些constancy的实现机制基本
是low-level的,而且原理基本是对邻域/环境(context)的归
一化,如brightness constancy可以通过视网膜神经节的归
一化机制解释
Shape Constancy涉及到High-level机制
视觉推理:三维物体的识别
Shape Perception
从二维图像重建三维形状,本质上必然是模糊的,该逆问
题是欠定的
但现实中任意两个不同的物体的二维视角投影几乎不可能
是一模一样,这里暗示了:从二维图像到三维形状的逆映
射是一对一的,可解的
因此需要加入的约束是重建的三维形状的真实性
(Veridicality),也即:符合真实世界的先验约束
视觉推理:三维重建
由二维图像重建三维形状(理解)本身是一个欠定的
逆问题,因此需要先验约束,因此很多研究聚焦于:
构建三维重建的计算模型
归纳各种有效的先验约束
视觉推理:三维重建
普遍认为,各种Depth Cues在三维重建中起了重要作
用
此外,解决该欠定问题依赖于两种先验Priors
个体对于该物体或类似物体的视觉经验(之前见过的类似
景象,及其与三维物体的关联记忆)
普适性的规律也起了先验约束的作用(外界物体或世界的
一些规律,使其成为所有个体的内生直觉体验,该直觉可
能是进化赋予的先天直觉、也可能是后天视觉经验所归纳
的)
视觉推理:三维物体的识别
Perception of 3D Object,即:人脑视觉如何从二维
感知(甚至单目视觉)获取环境与目标的三维概念
(notion)
Shape Constancy?,即:人如何实现不同视角、光照
等条件下对物体的识别
Low-level visual processing
Depth cue(深度线索)
这些线索不一定完全适用,而且肯定不是精确
但它们是经验,从而变成了先验
对于人眼判断反演物体三维信息,提供了先验约束
因此需要High-level visual processing
视觉推理:三维物体的识别
High-level 3D perception theories
按表征模型的属性
视角无关的三维结构
一个整体(Marr,1982)
由二维视角重构三维模型
由多个基元Geon构成(Biederman,1987)
Geon与视角无关,可以通过任意视角识别
因此可以在任意视角识别出所有Geon及其连接关系,从而可以识别
物体
多个视角关联的二维表征
物体为中心(Ullman,1989)
观察者为中心(Poggio,Edelman,Ullman,1990-1992)
视觉推理:三维物体的识别
High-level 3D perception theories
按表征模型的属性
视角无关的三维结构
一个整体(Marr,1982)
由二维视角重构三维模型
观察者为中心Viewer-Centered
Generalized Cylinder分解
视觉推理:三维物体的识别
High-level 3D perception theories
按表征模型的属性
视角无关的三维结构
由多个基元Geon构成(Biederman,1987)
Geon与视角无关,可以通过任意视角识别
因此可以在任意视角识别出所有Geon及其连接关系,从而可以识别
物体
视觉推理:三维物体的识别
High-level 3D perception theories
按表征模型的属性
多个视角关联的二维表征
物体为中心(Ullman,1989)
Recognition by alignment
1)保存物体三维模型
2)识别新视角:将三维模型投影获得二维图像与输入图像匹配
3)需要大脑具有投影变换能力,Mental Rotation
视觉推理:三维物体的识别
High-level 3D perception theories
按表征模型的属性
多个视角关联的二维表征
观察者为中心
在Visual guidance of interactions with objects中是必要的
(1)Aspect Graph(Koenderink 1990)
节点:distinct views
变换矩阵:对distinct view进行略微视角变换
(2)视角插值(Poggio,Edelman,Ullman,1990-1992)
保存少量视角的二维表征
通过这些视角之间的线性插值来识别新视角
识别性能随着视角差异增大而降低
数学上可以证明,如果不同视角之间的同名点是匹配好的,那么最多
仅需6个视角即可通过线性组合恢复任何视角
视觉推理:三维物体的识别
目前基本观点是(Peters 2000)
记忆是视角关联的二维表征
不同视角的重要程度不同,有些特征视角更重要
新视角的识别是可以通过视角之间插值实现
编码时:视角连续变化有重要作用
( Papenmeier & Schwan, 2016 )研究发现:人们在构建表征(对物体进行编码)
时利用了运动产生的深度线索,而识别时(提取或匹配物体记忆)利用了双目视
差产生的深度线索。
说明:大脑记忆中的物体表征是深度结构而非底层的深度线索(比如双目视差)
视觉皮层处理中具有层次化的操作,既涉及到物体为中心的表征,也涉及
到观察者为中心的表征
在STS皮层区域,发现神经元对某个物体的某个视角有响应,但对其他视角没有
响应;也发现神经元对某个物体的所有视角都有响应
说明视觉神经信息处理是层次化的:从视角/取向等关联的底层处理到视角/取向
等不变的高层处理
因此:两种理论共存,既有视角二维表征、又有视角无关三维表征
视觉推理:三维物体的识别
多种机制在人脑中共存,既有视角二维表征、又有视角无关三维表征
针对不同任务,倾向于使用不同的表征和机制
层次化的处理机制:
底层处理:
二维景象进入视网膜,进行特征提取,经过关联聚类,成为Mental Images,利用Depth
Cues获取三维特征
高层处理:
通过连续视角观察,构建三维模型的表征,在高层脑区保存多种三维模型,并具备对三维模
型的渲染能力(投影产生新视角的二维表征)
新视角的识别:
二维表征通过相似度先激发二维Mental Image,如果匹配则立刻识别;
否则激发关联的三维模型,搜索该三维模型的其他视角,并与输入二维进行匹配,根据两者
差异进一步引发思考(如对其进行解释,比如多一个部件;对其进行调整,如根据差异换一
个视角)直到两者吻合,因此识别时间随着思考时间加长
Interplay/Interact of Bottom-up and Top-down processing
可见:大脑也采用时间换区内存方法(类似于同步计算电路),即为了避免记忆无数二维视
角mental images、将相同的三维渲染操作功能汇聚到一个高层脑区,二通过迭代、交互式思
考推理来对新视角进行理解
References
– Brian A. Wandell, Foundations of Vision, accessed 2022
http://foundationsofvision.stanford.edu/
– David Heeger, Perception Lecture Notes, accessed 2022
https://www.cns.nyu.edu/~david/courses/perception/lecture-notes.html
– https://www.zhihu.com/question/46552885
– Jerald, 2016: The VR Book
– G. Peters, 2000: Theories of Three-Dimensional Object Perception A Survey
Thank You
Q &A
fengxu@fudan.edu.cn
www.emwlab.fudan.edu.cn