视觉SLAM十四讲全网电子书， v：Shuyou099（补发）

还督己天进步一吗？
还天读的习惯吗？
还为找不己喜欢的书恼吗？
愿意与我成为书友吗？
国当下行书
各图书量行书
量工具书
我受益终生的书
……
量电版、纸质版书及音频课程
还有贴心的“ 习 ”服务哦！
微：shuyou099
内容简介
本书介了视觉SLAM（同时位与图构建）所需的本知
识与核心，既包理论础，三空的刚运动、非
性优化，又包计机视觉的现，视图几、环检
等。此，我还了量的代码读习研究，从更
这些。
本书可以为 SLAM感兴趣的研究人员的材料，也可以
为SLAM相关的高校本科生研究生课程材用。
未许可，不得以方式制袭本书之分。
版权所有，权必究。
图书在版编目（CIP）数据
视觉SLAM十讲：从理论 /高等著.—北京：电工业出
版社，2017.3
ISBN 978-7-121-31104-8
I. ① 视 … 　 II. ① 高 … 　 III. ① 人工智 -视觉 -研究　
IV.①TP18
中国版本图书馆CIP 核字（2017）第053910号
：柳
责：白　
印　　刷：北京蜂印刷厂
装　　订：北京蜂印刷厂
出版发行：电工业出版社
北京市区万 173 　　　：100036
开　　本：720×1000　1/16　　印张：25　　字：560千字
版　　次：2017年3月第1版
印　　次：2017年3月第1次印刷
　　价：75.00
凡所购买电工业出版社图书有问题，请向购买书店调。
书店售，请与本社发行，及购电话：（ 010 ）
88254888，88258888。
质量诉请发件至zlts@phei.com.cn，盗版权举报请发件
至dbqq@phei.com.cn。
本书咨询方式：（010）51260888-819faq@phei.com.cn。
阅读须知
本书图片
为方，书中介图片相关时直用了应的彩名
称，应纸面上即。此，分图片可需要观，纸面
上无呈现应有果。为此，书中图片博视方站下
。
读者服务
松册成为博视社区用（www.broadview.com.cn），您
即可享受以下服务。
•下载资源：本书所的示代码及资件可下资
下。
•提交勘误：您书中的修意见可交勘误交，
被，获赠博视社区积分（您购买电书时，积分可用
来相应额）。
•与作者交流：页面下方读评论留下您的疑问观，
与和其读一同习交。
页面口：http://www.broadview.com.cn/31104
目　录
介
读须知
第1讲　预知识
1.1　本书讲什么
1.2　用本书
1.2.1　组织方式
1.2.2　代码
1.2.3　面向的读
1.3　风格约
1.4　致谢和明
第2讲　识SLAM
2.1　引：萝卜的
2.2　典视觉SLAM框架
2.2.1　视觉里程计
2.2.2　后端优化
2.2.3　环检
2.2.4　建图
2.3　SLAM问题的表
2.4　：程础
2.4.1　安装Linux操
2.4.2　Hello SLAM
2.4.3　用cmake
2.4.4　用库
2.4.5　用IDE
第3讲　三空刚运动
3.1　旋转矩阵
3.1.1　和向量，坐标
3.1.2　坐标的变
3.1.3　变矩阵与齐次坐标
3.2　：Eigen
3.3　旋转向量和角
3.3.1　旋转向量
3.3.2　角
3.4　
3.4.1　的义
3.4.2　的运
3.4.3　用表示旋转
3.4.4　旋转矩阵的转
3.5　*相、、影变
3.6　：Eigen几
3.7　可视化示
第4讲　李与李代
4.1　李与李代础
4.1.1　
4.1.2　李代的引出
4.1.3　李代的义
4.1.4　李代 so(3)
4.1.5　李代 se(3)
4.2　与映
4.2.1　SO(3)上的映
4.2.2　SE(3)上的映
4.3　李代导与动
4.3.1　BCH公式与近形式
4.3.2　SO(3)李代上的导
4.3.3　李代导
4.3.4　动（左乘）
4.3.5　SE(3)上的李代导
4.4　：Sophus
4.5　*相变与李代
4.6　
第5讲　相机与图
5.1　相机
5.1.1　相机
5.1.2　畸变
5.1.3　双目相机
5.1.4　RGB-D相机
5.2　图
5.3　：图的存取与访问
5.3.1　安装OpenCV
5.3.2　操 OpenCV图
5.4　：云
第6讲　非性优化
6.1　态估计问题
6.1.1　最后验与最
6.1.2　最二乘的引出
6.2　非性最二乘
6.2.1　一阶和二阶梯度
6.2.2　高斯顿
6.2.3　列伯格—马夸方
6.2.4　
6.3　：Ceres
6.3.1　Ceres 介
6.3.2　安装Ceres
6.3.3　用Ceres 合曲
6.4　：g2o
6.4.1　图优化理论介
6.4.2　g2o的译与安装
6.4.3　用g2o 合曲
6.5　
第7讲　视觉里程计1
7.1　征
7.1.1　征
7.1.2　ORB 征
7.1.3　征匹
7.2　：征取和匹
7.3　2D-2D：极几
7.3.1　极约束
7.3.2　本质矩阵
7.3.3　单应矩阵
7.4　：极约束解相机运动
7.5　三角量
7.6　：三角量
7.6.1　三角量代码
7.6.2　讨论
7.7　3D-2D：PnP
7.7.1　直性变
7.7.2　P3P
7.7.3　Bundle Adjustment
7.8　：解PnP
7.8.1　用EPnP 解位
7.8.2　用BA优化
7.9　3D-3D：ICP
7.9.1　SVD方
7.9.2　非性优化方
7.10　：解ICP
7.10.1　SVD方
7.10.2　非性优化方
7.11　
8.1　直的引出
8.2　光（OpticalFlow）
8.3　：LK光
8.3.1　用TUM公开集
8.3.2　用LK光
8.4　直（DirectMethod）
8.4.1　直的推导
8.4.2　直的讨论
8.5　：RGB-D的直
8.5.1　稀疏直
8.5.2　义直的
8.5.3　用直估计相机运动
8.5.4　半稠直
8.5.5　直的讨论
8.5.6　直优总
第9讲　：设计前端
9.1　建VO框架
9.1.1　确程序框架
9.1.2　确本构
9.1.3　Camera
9.1.4　Frame
9.1.5　MapPoint
9.1.6　Map
9.1.7　Con fi g
9.2　本的VO：征取和匹
9.2.1　两两帧的视觉里程计
9.2.2　讨论
9.3　进：优化PnP的果
9.4　进：图
9.5　
第10讲　后端1
10.1　
10.1.1　态估计的率解
10.1.2　性和KF
10.1.3　非性和EKF
10.1.4　EKF的讨论
10.2　BA与图优化
10.2.1　影和BA代价
10.2.2　BA的解
10.2.3　稀疏性和化
10.2.4　鲁棒核
10.2.5　
10.3　：g2o
10.3.1　BA 集
10.3.2　g2o 解BA
10.3.3　解
10.4　：Ceres
10.4.1　Ceres 解BA
10.4.2　解
10.5　
第11讲　后端2
11.1　位图（PoseGraph）
11.1.1　Pose Graph的意义
11.1.2　Pose Graph的优化
11.2　：位图优化
11.2.1　g2o原生位图
11.2.2　李代上的位图优化
11.2.3　
11.3　* 图优化步
11.3.1　贝叶斯
11.3.2　图
11.3.3　量性
11.4　* ：gtsam
11.4.1　安装gtsam 4.0
11.4.2　位图优化
第12讲　环检
12.1　环检
12.1.1　环检的意义
12.1.2　方
12.1.3　确率和召率
12.2　词袋
12.3　字典
12.3.1　字典的构
12.3.2　：创建字典
12.4　相度计
12.4.1　理论分
12.4.2　：相度的计
12.5　验分析与评
12.5.1　加字典规
12.5.2　相性评分的理
12.5.3　关帧的理
12.5.4　检之后的验证
12.5.5　与机器习的关
第13讲　建图
13.1　
13.2　单目稠重建
13.2.1　立视觉
13.2.2　极与匹
13.2.3　高斯分布的度器
13.3　：单目稠重建
13.4　验分析与讨论
13.4.1　梯度的问题
13.4.2　度
13.4.3　图的变
13.4.4　并行化：率的问题
13.4.5　其的进
13.5　RGB-D稠建图
13.5.1　：云图
13.5.2　八叉树图
13.5.3　：八叉树图
13.6　*TSDF 图和Fusion 列
13.7　
第14讲　SLAM：现与未来
14.1　当前的开方案
14.1.1　MonoSLAM
14.1.2　PTAM
14.1.3　ORB-SLAM
14.1.4　LSD-SLAM
14.1.5　SVO
14.1.6　RTAB-MAP
14.1.7　其
14.2　未来的SLAM话题
14.2.1　视觉+惯性导 SLAM
14.2.2　语义SLAM
14.2.3　SLAM的未来
附录A　高斯分布的
附录B　ROS
参献
第1讲　预备知识
1.1　本书讲什么
这是一本介视觉SLAM的书，也很可是第一本以视觉SLAM为主题
的中书。
么，SLAM是什么？
SLAM 是 Simultaneous Localization and Mapping 的，中译
同时定位与地图构建
“ ”[1] 。是传感器的主，没
有环境先验信息的情下，于运动过程中环境建立的，同时估计
运动
己的 [2]
。果这里的感器主要为相机，称为“视觉
SLAM”。
本书的主题是视觉SLAM。这里我刻意许个义一句话
中，是希望读有一个明确的念。首先，SLAM的目的是解 “
位”与“ 图构建”这两个问题。也是说，一要估计感器的
位，一要建立周环的。么怎么解呢？这需要用感
器的息。感器以一形式观的世界，不过不同感器观
的方式是不同的。之所以要一本书的去讨论这个问题，是为
很难—— 是我希望、实时地没有先验知识
的情下进行
SLAM。当用相机为感器时，我要的是根一张张连运动的
图（形成了一视频），从中推断相机的运动，以及周环的
情。
这乎是个很直观的问题。我己走进陌生的环时不是这么
的吗？
计机视觉（ComputerVision）创立之，人想象着有朝一
日计机和人一样，过眼睛去观世界，理解周的，未
知的领 ——这是一个又的梦想，吸引了无的科研人员日
[3]
为之。我曾以为这件事情并不难，进展却远不预
想的么顺。我眼中的草树木、虫鱼鸟兽，计机中却是样
的不同：只是一个个由字列成的矩阵（Matrix）。让计机
理解图的，让我己理解这些字一样难。我既不了
解己理解图，也不知计机该理解、这个世界。于
是我惑了很久，直几十年后的今天，才发现了一成功的
象：过人工智（ Arti fi cial Intelligence ）和机器习
（Machine Learning）技术，计机出、人、
音、字——尽所用的方式（率建）与我是此不同。另
一方面， SLAM发展了近30年之后，我的相机才开认识
的位，发觉己运动——虽方式还是和我人有巨的
差异。不过，至研究已成功建出种种时SLAM ，有的
快速位，有的甚至进行时的三重建。
这件事情确很难，我已有了很的进展。更令人兴的
是，近年来随着科技的发展，现出了一与SLAM相关的应用。
许方，我希望知的位：的扫机和移动机器人需
要位，野的动驾驶需要位，空中的无人机需要位，虚
现和强现的设也需要位。SLAM是样重要。有，扫机
无房主移动，只盲目荡；用机器人无
令确某个房；虚现也远座椅之上——所有这些
新的事无出现现生中，么令人憾。
今天的研究和应用开发人员，逐意识了SLAM技术的重要性。
国际上，SLAM已有近三十年的研究历史，也一直是机器人和计机
视觉的研究。21世以来，以视觉感器为中心的视觉
SLAM 技术
，理论和上历了明显的转变与突破，正逐步从验研究迈
向市应用。同时，我又憾发现，至国，与SLAM相关的论
、书仍非常匮乏，让许 SLAM技术感兴趣的无从一窥
径。虽 SLAM的理论框架本趋于稳，其程现仍为杂，
有着高的技术。刚步 SLAM领的研究，不得不很的时
，习量的知识，往往要走过许弯才得以近SLAM技术的核
心。
本书面介了以视觉感器为主的视觉SLAM技术，我
希望（分）补这方面资料的空白。我会详细介 SLAM的
理论景、架构，以及各个的主。同时，极其重视实践
：本书介的所有
重要，给出可以运行的际代码，以加
读的理解。之所以这么，主要是虑 SLAM毕竟是一项和
相关的技术。再亮的理论，果不转化为可以运行的代码，
仍是可望不可即的空中，有际意义。我相，出真
知，出真。只有际过各种之后，才真正认识
SLAM，真正喜欢上科研。
1986年出以来[4] ，SLAM一直是机器人领的问题。关于
的献以千计，想要 SLAM发展史上的所有及变种一个的
说明，是十分难且有必要的。本书中会介 SLAM所涉的景知
识，影几、计机视觉、态估计理论、李李代等，并
这些景知识之上，给出SLAM这棵树的主干，略去一分形
、纹理杂的枝叶。我认为这种是有的。果读
主干的髓，么会有力去些的、细的、杂
的前知识。所以，我的目的是，让SLAM的过读本书快速
成为这个领的研究。另一方面，即已是
SLAM领的研究人员，本书也可有一些还觉得陌生的方，可以让
产生新的见解。
目前，与SLAM相关的书主要有《率机器人》（ Probabilistic
robotics） [5] 、《计机视觉中的视图几》（ Multiple View
Geometry in Computer Vision ）、《机器人中的态估计》
[3]
（ State Estimation for Robotics:A Matrix-Lie-Group Approach ）

[6]
等。丰、论面、推导严谨，是SLAM研究中人口
的典材。目前来看，还存两个重要的问题：其一，这些图
书的目的于介础理论，SLAM只是其应用之一。此，并不
是专讲解SLAM的书。其二，的重于理论，本不
涉及程现，导致读常出现“书看懂却不会程”的情。
我认为，只有读亲现了，调试了各个参，才谈得上真
正理解了问题本。
我会及SLAM的历史、理论、、现，并的SLAM
分成几个：视觉里程计、后端优化、建图，以及环检。我
陪着读一现这些中的核心分，讨什么情下有
，什么情下会出问题，并导己的机器上运行这些代码。
会触一些必要的理论和许程知识，会用 Eigen 、
OpenCV、PCL、g2o、Ceres等库[1] ， Linux操中的用
方。
从风格上，我不想本书成枯的理论书。技术图书
应该是严谨可靠的，严谨不意味着刻板。一本优秀的技术书应该是生
动有趣易于理解的。果觉得“这个怎么这么不正 ”，请
原谅，为我并不是一个非常严的人[2] 。无论，有一件事是可以
的：只要这新技术感兴趣，习本书的过程中会有所
获！您会与SLAM相关的理论知识，的程力也有明显的进
步。很时，您会有一种“我陪一起科研”的感觉，这正是
我所希望的。愿您此过程中发现研究的乐趣，喜欢这种“ 过一
番努力，看事情顺运行”的成感。
了，话不说，祝旅行愉快！
1.2　如何使用本书
1.2.1　组织方式
本书名为“视觉SLAM十讲”。顾名思义，我会校里讲课
样，以“讲” 为本书的本单。一讲应一个的主题，
其中会穿 “理论分”和“ 分”两种。常是理论分
前，分后。理论分中，我介理解算法所必需的
知识，并且时以叙的方式，不是科书样用“
义— 理—推论”的方式，为我觉得这样的方式读起来更易一
些，尽有时显得不么严谨。分主要是程现，讨论程序
里各分的含义及验果。看标题中带有“ ”两个字的章，
应该（兴致勃勃）开电，和我一起愉快代码了。
得一的是，我只会与解问题相关的知识书里，
并尽量显。虽我是工科生，也要承认，某些只要验
上用，必要非得上。只要我知这些工
，并且告诉了我什么情下可不工，么我表
示意，不究些看际杂的证明（当有
己的价）。由于SLAM 涉了太景，为了止本书变成
科书，我一些细上的推导和证明留习题和补读材
料，方感兴趣的读进一步读参献，更相关细。
一讲正之后，我设计了一些习题。其中，带*号的习题是具有
一难度的。我强建议读习题练习一，这这些知
识很有帮助[3] 。
书主要分为两个分。
1.第一分为数学基础，我会以显易懂的方式，与视觉
SLAM相关的
知识，包：
•第1讲是前言，介这本书的本息，习题分主要包一些
题。
•第2讲为SLAM ，介一个SLAM 由哪些组成，各
的具工是什么。分介程环的建过程以及IDE的
用。
•第3讲介三空运动，触旋转矩阵、、角
的相关知识，并且 Eigen当中用。
•第4讲为李和李代。即现不懂李代为，也有关
。李代的义和用方式，后过Sophus操。
•第5讲介相机以及图计机中的表。用
OpenCV来调取相机的参。
•第6讲介非性优化，包态估计理论础、最二乘问题、
梯度下降方。会成一个用Ceres和g2o进行曲合的验。
这些是我要用的所有知识了，当，其中还隐含了以
前过的高等和性代。我证看起来不会很难。当
，想进一步，我会一些参资料读，些
材料可会比正里讲的知识难一些。
2.第二分为SLAM 技术。我会用第一分所介的理论，讲
视觉SLAM中各个的工原理。
•第7讲为征的视觉里程计。该讲比，包征的
取与匹、极几约束的计、PnP和ICP等。中，用这
些方去估计两个图之的运动。
•第8讲为直的视觉里程计。习光和直的原理，
后用g2o 现一个单的RGB-D直。
•第9讲为视觉里程计的章，建一个视觉里程计框架，
合运用先前过的知识，现的本功。这个过程中，会碰一
些问题，优化的必要性、关帧的等。
•第10讲为后端优化，主要为 Bundle Adjustment的讨论，包
本的BA，以及用稀疏性加速解过程。用Ceres和g2o分
书一个BA程序。
•第11讲主要讲后端优化中的位图。位图是表关帧之约束
的一种更的形式。用g2o和gtsam 一个位球进行优化。
•第12讲为环检，主要介以词袋方为主的环检。
用dbow3书字典训练程序和环检程序。
•第13讲为图构建。我会讨论用单目进行稠度图的估
计（以及这是么不可靠），后讨论RGB-D的稠图构建过程。会
书极与匹的程序，后 RGB-D中云图和八叉树
图的构建问题。
•第14讲主要介当前的开 SLAM项目以及未来的发展方向。相
读了前面的知识之后，会更易理解的原理，现己的新想
。
最后，果看不懂上面说什么，么恭喜！这本书很
合！加！
1.2.2　代码
本书所有代码 github上：
https://github.com/gaoxiang12/slambook
强建议读下以随时查看。代码是章分的，比
，第7讲的会 ch7 件夹中。此，于书中用的一些
库，会以压包的形式 3rdparty 件夹下。于 OpenCV 种
中库，我会第一次出现时介其安装方。果代码有
疑问，请单击GitHub上的Issues ，交问题。果确是代码
出现问题，我会及时进行修；即是的理解有差，我也会尽
可。果不习惯用Git，么单击右包含download字样的
代码下至本即可。
1.2.3　面向的读者
本书面向 SLAM感兴趣的生和研究人员。读本书需要一的
础，我设具以下知识：
• 高等数学、线性代数、概率论。这些是分读应该本
科阶触过的本知识。应当明白矩阵和向量是什么，
微分和积分是什么意思。于SLAM中用的专业知识，我会额加以
介。
•C++语言基础。由于我用C++ 为码语言，所以建议读至
悉这语言的语。比，应该知是什么，用C++标
库，板用，等等。我会过用技巧，有些方
确无。此，我还用了一些C++11标的，不过，我
会用的方加以解。
基础
•Linux 。我的开发环是Linux 非Windows，并且只
不会
Linux下的程序，再我们认为，
Windows下的开发方介。
掌握是一个研究人员所必需的，请初学者暂时不要问为什
Linux SLAM
么，把本书的知识学好之后相信你会和我们有同样的想法。各种程序
库 Linux下的非常，也会此过程中会 Linux的
。果读此前从未用过Linux，么最找一本Linux的材稍加
习（本知识即可，一是相关图书的前面几章）。我
不要读具高超的Linux操技，希望读至知 “ 开终
端，进代码目录”是操的。本讲的习题里有一些Linux知识
题，果楚题的案，么读本书代码不会有问题。
SLAM感兴趣不具上知识的读，可读本书时会感
难。果不了解C++的本知识，可以读一 C++Primer Plus
之
的图书；果相关的知识，也可以先读一些相关
材补知识，不过我认为，本科平的朋友，读懂本
书所需的景是具了。代码方面，最时亲
一，再调里面的参，看看果会发生怎样的变。这会习很
有帮助。
本书可为SLAM相关课程的材，亦可为课材料用。
1.3　风格约定
本书既有理论介，也有程现，此，为方读，不
同用了不同版方式加以区分。
1. 公式单列出，重要的公式还右标了序号，：
标量用斜字（ a ），向量和矩阵用斜（ a,A ）。空

心代表集合，集R、集Z。李代分用哥，
se(3)。
2.程序代码以方框框出，用一些的字号，左带有行号。果
程序，方框会延下一页：
3.当代码量有的分与之前列出的重，不合列
书中时，我会仅给出重要片段，并以“片 ”二字明。此，我
强建议读 GitHub上下所有代码，成练习，以更本
书知识。
4.由于版原，书中展示的代码可与GitHub中的代码有稍许不
同，请以GitHub上的代码为。
5.我用的个库，第一次出现的时会有比详细的说明，
后的用中则不再赘。所以，建议读章顺序读本书
。
6. 一讲的开会列出本讲的要，末尾会有和练习
题。引用的参献书末尾列出。
7.以星号开的章是读分，读可以根兴趣读。过
不会理解后章产生影响。
8. 中重要的以黑体标出，相已习惯了。
9.我设计的验是示性质的。看懂了不代表已
悉个库的用。所以我建议课一时，本书常用
的几个库进行习。
10.本书的习题和读可需要己额材料，所以需
要会用引擎。
1.4　致谢和声明
本书的过程中，我得了许人的帮助，包不
于：
•中科院的贺一博为第5讲的相机分了材料。
•颜睿了第7讲的公式推导材料。
•华中科的刘博为本书第6讲和第10讲了材料。
•众的师、同为本书了修意见：、谢晓、
欣、李帅杰、刘强、袁梦、孙志明、昊升、王京、朱晏、丁
东、帝楷、衡昱帆、高扬、李朋、吴博、雪、张、帆、卢
、杨楠，等等。此向表示感谢。
此，感谢我的导师张一直以来我的和帮助。感谢电
工业出版社柳的。有的帮助，本书不可以现
的面貌来读面前。本书的成书与出版是所有人同努力的晶，尽
我列列表中，是的出版离不开的工。
本书过程中参了量献和论。其中分理论知识
是前人研究的成果，并非我的原创。一分验设计亦来各开代
码的示程序，不过分是我己的。此，也有一些图片
公开发表的期会议论，中已明。未说明的图，为原
创，来，恕不一一列举。有问题，请与我，我会
第一时加以修正。
本书涉及知识众，所难。有疑问，欢过电
件与我。
我的是：gaoxiang12@mails.tsinghua.edu.cn。
感谢我的人刘丽莲期的理解和。这本书是献给的。
习题（基本知识自测题）
1.有性方程 Ax =b ，已知 A,b ，需要解 x ，该解？这
A 和b 有哪些要？示：从A 的度和秩角度来分析。
2.高斯分布是什么？的一形式是什么样？的高形式是什
么样？
3. 知 C++中的类吗？知 STL吗？用过吗？
4. 以前怎样书 C++程序？（可以说只 Visual C++6.0下
过C++工程，只要有 C++和C语言的验行。）
5. 知 C++11标吗？其中哪些新性听说过用过？有有其
的标？
6. 知 Linux吗？有有至用过一种（不安卓），比
Ubuntu？
7.Linux的目录构是什么样的？知哪些本命令，比 ls,cat
等？
8. Ubuntu中安装软件（不开软件中心的情下）？这些软
件被安装什么方？果只知的软件名称（比想要装一个名
称中含有eigen的库），应该安装？
9.* 一个时习一下Vim，为迟早会用。可以终端中
vimtutor 读一所有。我不需要非常练操，只
要习本书的过程中用代码即可。不要在它的插件上浪
费时间，不要想着把 Vim IDE 用成，我们只用它做文本编辑的工作。
[1] 果有听说过，么应该感兴，这说明会从本书中获很知
识。
[2] 会常中发现一些神的东西。
[3] 也可成为今后相关行业的面试题，许还帮找工时留个印象。

第2讲　初识SLAM
主要目标
1.理解一个视觉SLAM框架由哪几个组成，各的务是什
么。
2. 建程环，为开发和验。
3.理解 Linux下译并运行一个程序，果程序出了问题，又
该进行调试。
4. cmake的本用方。
本讲介一个视觉SLAM 的构，为后的。
分介环建、程序本知识，最后成一个 “Hello
SLAM”程序。
2.1　引子：小萝卜的例子
设我组装了一台叫 “ 萝卜”的机器人，的样图2-1
所示。
图2-1　萝卜设计图。左：正视图；右：视图。设有相机、轮、笔记

本，是装饰品。
虽有 “安卓”，并不是靠安卓来计的。我一

台笔记本进了的后（方我随时出来调试程序）。
什么呢？
我希望萝卜具有自主运动能力
。虽世界上也有桌面
件一样的机器人，和人说话音乐，不过一台平板电可
以这些事情。为机器人，我希望萝卜房里由移
动。不我哪里呼一，会走过来。
要移动首先得有轮和电机，所以我萝卜的下方安装了轮
（足式机器人步态很杂，我暂时不虑）。有了轮，机器人
行动了，不加控制的话，萝卜不知行动的目标，只
乱走，更的情下会上造成。为了这种情的发
生，我的袋上安装了一个相机。安装相机的主要动机，是虑
这样一个机器人和人类非常相似
——从画面上一眼看出。有眼
睛、和的人，意环里松行走、，我
（天真）觉得机器人也成这件事。为了萝卜一
个房，至需要知两件事：
1.我什么方？—— 位。
2.周环是什么样？——建图。
“ 位”和“建图”，可以看成感知的“ 之分”。为一
个“ 兼修”的萝卜，一方面要明白的状态
（即位），另一
方面也要了解的环境
（即图）。当，解这两个问题的方非
常。比方说，我可以房板上设导引，上贴识二
码，桌上无电位设。果，还可以萝卜
袋上安装位设（机一样）。有了这些东西之后，位问
题是否已解了呢？我不这些感器（见图2-2）分为两。
一感器是携带于机器人本体上
的，机器人的轮式码器、
相机、光感器，等等。另一是安装于环境中
的，前面讲的导
、二码标志，等等。安装于环中的感设，常直量
机器人的位息，单有解位问题。，由于必须
环中设，一程度上制了机器人的用。比方说，有些
方有GPS 号，有些方无设导，这时该怎么位呢？
图2-2　一些感器。（a）用二码进行位的强现软件；（b）GPS 位

装；（c）设导的；（d）光雷；（e）IMU单；（f）双目相机。
我看，这约束感器了环。只有这些约束足时，
于的位方案才工。反之，当约束无足时，我
进行位了。所以说，虽这感器单可靠，无一个
普的、用的解方案。相，些带于机器人本上的感
器，比光感器、相机、轮式码器、惯性量单（Inertial
Measurement Unit，IMU）等，的常是一些的理量
不是直的位。，轮式码器会轮转动的角度，IMU
量运动的角速度和加速度，相机和光感器则读取环的某种观
。我只过一些的，从这些推己的位。
虽这听上去是一种术，更明显的是，有环出
要，从得这种位方案可用于未知环。
顾前面讨论过的SLAM 义，我 SLAM中非常强调未知环。
理论上，我制萝卜的用环 [1] ，这意味着我设
GPS这些感器顺工。此，用带式的感器来成
SLAM是我重关心的问题。，当谈论视觉SLAM时，我主要是
相机
用解位和建图问题。
视觉SLAM是本书的主题，所以我其关心萝卜的眼睛些
什么事。SLAM中用的相机与我平时见的单反并不是同一个
东西。往往更加单，不带昂贵的，是以一速率周
的环，形成一个连的视频。普的以秒 30张图片的
速度集图，高速相机则更快一些。工方式的不同，相机可以
分为单目相机（Monocular）、双目相机（Stereo）和度相机（RGB-
D）三，图2-3所示。直观看来，单目相机只有一个，双目
有两个， RGB-D原理杂，除了集彩图片之，还读出
个与相机之的离。度相机常带个，工原理
和普相机不尽相同，第5讲会详细介其工原理，此读只需有
一个直观念即可。此，SLAM中还有景相机[7] 、Event相机[8] 等
新兴的种。虽看 SLAM中的应用，不过目前为
止还有成为主。从样上看，萝卜用的乎是双目相机[2] 。
图2-3　形形的相机：单目、双目和度相机。
我来分看一看各种相机用来 SLAM时有什么。
单目相机
只用一个进行 SLAM 的称为单目 SLAM （ Monocular
SLAM）。这种感器构单，成本低，所以单目SLAM非常受
研究关。见过单目相机的：片。是的，为一张
片，有什么呢？
片本质上是时的景（Scene）相机的成平面上留下的一
个投影它以二维的形式反映了三维的世界。
。显，这个过程丢了
景的一个度，也是所谓的度（离）。单目相机中，我
无过单张图片来计景中与我之的距离
（远近）。之后
我会看，这个离是SLAM中非常关的息。由于我人见过
量的图，形成了一种天生的直觉，分景有一个直观的距
离感（空间感），可以帮助我断图中的远近关。比
说，我认出图中的，并且知其致的；比，近
的会住远的，太、月亮等天一很远的方；
再，受光后会留下影，等等。这些息可以帮助我断
的远近，也存一些情会这种离感，这时我无
断的远近及其真了。图2-4所示是这样一个。这张
图中，我无仅过来断后面些人是真的人，还是
。除非我转视角，观景的三构。言之，单张图
里，无确一个的真。可是一个很很远的
，也可是一个很近很的。由于近远的原，可
图中变成同样的样。
图2-4　单目视觉中的：不知度时，上的人是真人还是？
由于单目相机的图只是三空的二影，所以，果真

想恢三构，必须变相机的视角。单目SLAM中也是同样的原
理。我必须移动相机，才估计的运动
（Motion），同时估计景
中的远近和，不称之为结构
（Structure）。么，怎么估
计这些运动和构呢？从生验中我知，果相机往右移动，
么图里的东西会往左移动——这给我推运动带来了息。
另一方面，我还知：近处的物体移动快，远处的物体则运动缓慢。
于是，当相机移动时，这些图上的运动形成了视差。过视
差，我量断哪些离得远，哪些离得近。
，即我知了远近，仍只是一个相的。比
我看电影时，虽知电影景中哪些比另一些，
无确电影里些的“真度”：些是真的高
厦，还是桌上的？厦的是真怪兽，还是穿着服
装的员？直观说，果相机的运动和景同时两，单
目相机所看的是一样的。同样，这个乘以意，我
看一样的景象。这说明，单目SLAM估计的和图与真的
和图相差一个，也是所谓的尺度
（Scale）[3] 。由于单目
SLAM无仅图确这个真度，所以又称为尺度不确定性
。
平移之后才计度，以及无确真度，这两件事情给单
目SLAM的应用造成了很的麻。其根本原是过单张图无确
度。所以，为了得这个度，人开用双目和度相机。
双目相机和深度相机
用双目相机和度相机的目的，于过某种量与我
之的离，服单目相机无知离的。一旦知了离，
景的三构可以过单个图恢出来，也消除了度不确
性。尽是为了量离，双目相机与度相机量度的原理是
不一样的。双目相机由两个单目相机组成，这两个相机之的离
〔称为基线（Baseline）〕是已知的。我过这个来估计个
的空位 ——这和人眼非常相。我人可以过左右眼图的
差异断的远近，计机上也是同样的理（见图2-5）。果
双目相机进行展，也可以建目相机，不过本质上并有什么不
同。
图2-5　双目相机的：左眼图，右眼图。过左右眼的差异，断

景中与相机之的离。
计机上的双目相机需要量的计才（不太可靠）估计一

个的度，相比于人真是非常笨。双目相机量的度
与相关。离越，量的越远，所以无人上
的双目常会是个很的伙。双目相机的离估计是比左右眼的
图获得的，并不赖其感设，所以既可以应用，亦可
应用于。双目目相机的是与标为杂，其度
量程和度受双目的与分率所，且视差的计非常消计
资，需要用GPU和FPGA设加速后，才时出张图的离
息。此现有的条件下，计量是双目的主要问题之一。
度相机（又称RGB-D相机，本书中主要用RGB-D这个名称）是
2010年左右开兴起的一种相机，最的是可以过构光
Time-of-Flight（ToF）原理，光感器样，过主动向发
光并的光，出与相机之的离。这分并不双目
相机样过软件计来解，是过理的量，所以相比于
双目相机可省量的计（见图2-6）。目前常用的RGB-D相机包
Kinect/Kinect V2、Xtion Pro Live、RealSense等。不过，现
RGB-D相机还存量窄、、视野、易受日光干、无
量透材质等诸问题， SLAM方面，主要用于，则难应
用。
图2-6　RGB-D ：度相机可以直量的图和离，从恢三

构。
我讨论了几种常见的相机，相过以上的说明，已
有了直观的了解。现，想象相机景中运动的过程，我得一
列连变化的图 [4] 。视觉SLAM的目标，是过这样的一些图，进
行位和图构建。这件事情并有我想象的么单。不是某种
，只要我，可以往不断出位和图息了。
SLAM需要一个善的框架，过研究期的努力工，现有
这个框架已了。
2.2　经典视觉SLAM框架
下面来看典的视觉SLAM框架，图2-7所示，了解一下视觉SLAM究
竟由哪几个组成。
图2-7　视觉SLAM 程图。
个视觉SLAM 程包以下步骤。
1. 感器息读取。视觉SLAM中主要为相机图息的读取和预
理。果是机器人中，还可有码盘、惯性感器等息的读取和
同步。
2. 视觉里程计（Visual Odometry，VO）。视觉里程计的务是估
相图相机的运动，以及图的样。VO又称为前端（Front
End）。
3. 后端优化
（Optimization）。后端受不同时刻视觉里程计量
的相机位，以及环检的息，进行优化，得一致的
和图。由于 VO之后，又称为后端（Back End）。
4.回环检测（Loop Closing）。环检断机器人是否过先
前的位。果检环，会息给后端进行理。
5.建图（Mapping）。根估计的，建立与务要应的
图。
典的视觉SLAM框架是过去十几年的研究成果。这个框架本及其
所包含的已本，并且已许视觉程序库和机器人程序
库中。靠这些，我构建一个视觉SLAM ，之正
如果把工作环境限定
常的工环里时位与建图。此，我说，
在静态、刚体，光照变化不明显、没有人为干扰的场景，么，这个
SLAM 是相当成的了[9] 。
读可还有理解上面几个的念，下面来详细介各个
具的务。是，确理解其工原理需要一些知识，我
本书的第二分进行。这里读只需各有一个直观的、
性的理解即可。
2.2.1　视觉里程计
视觉里程计关心的是相邻图像
之的相机运动，最单的情当
是两张图之的运动关。，当看图2-8时，我会反应
出右图应该是左图向左旋转一角度的果（视频情下感觉会更加
）。我不思一下：己是怎么知 “向左旋转”这件事情的
呢？人早已习惯于用眼睛世界，估计己的位，又往往难以
用理性的语言我的直觉。看图2-8时，我会认为，这个
景中离我近的是吧台，远是和黑板。当相机向左转动时，吧
台离我近的分出现视野中，右远的柜则移出了视野。
过这些息，我断相机应该是向左旋转了。
图2-8　相机的图片与人眼反应的运动方向。
是，果进一步问：否确旋转了度，平移了厘？

我很难给出一个确切的案了。为我的直觉这些具的字
并不感。是，计机中，又必须确量这运动息。所以
我要问：计算机是如何通过图像确定相机的运动的呢？
前面也过，计机视觉领，人直觉上看来十分的事
情，计机视觉中却非常难。图计机里只是一个矩阵。
这个矩阵里表着什么东西，计机无念（这也正是现机器习
要解的问题）。视觉SLAM中，我只看一个个，知
是某些空相机的成平面上影的果。所以，为了量估
计相机运动，必须先了解相机与空间点的几何关系。
要讲这个几关以及VO的现方，需要一些景知识。
这里我先让读 VO有个直观的念。现只需知，VO 过
相帧的图估计相机运动，并恢景的空构。称为“里程
计”是为和际的里程计一样，只计相时刻的运动，和再往
前的过去的息有关。这一上，VO 一种只有短时记忆的
种。
现，我已有了一个视觉里程计，估计了两张图的相机
运动。么，只要相时刻的运动“串”起来，构成了机器人的运
动，从解了位问题。另一方面，我根个时刻的相机位
，计出各应的空的位，得了图。这么说来，有
了VO，是不是解了SLAM问题呢？
视觉里程计确是SLAM的关，我也会量的幅来介。
，仅过视觉里程计来估计，不可出现累积漂移
（Accumulating Drift）。这是由于视觉里程计（最单的情下）
只估计两个图的运动造成的。我知，次估计带有一的误
差，由于里程计的工方式，先前时刻的误差会下一时刻，
导致过一时之后，估计的不再确（见图2-9）。比方说，
机器人先向左转90 ° ，再向右转90 ° 。由于误差，我第一个90 °
估计成了89 ° 。我会发现，向右转之后机器人的估计位
并有原。更的是，即之后的估计再确，与真相
-
比，会带上这 1 ° 的误差。
图2-9　积误差与环检的校正果[10] 。

这也是所谓的漂移（Drift）。导致我无建立一致的
图。会发现原本直的走廊变成了斜的，原本90 ° 的直角变成了的
——这是一件很难令人忍受的事情！为了解移问题，我还需
要两种技术：后端优化
[5]
和回环检测。环检负责 “机器人
原位 ”的事情检出来，后端优化则根该息，校正个
的形。
2.2.2　后端优化
笼说，后端优化主要噪声
理SLAM过程中的问题。虽我
很希望所有的是确的，现中，再确的感器也带有一
的。的感器量误差，昂贵的可会一些，有的
感器还会受磁、度的影响。所以，除了解 “ 从图估计出相
机运动”之，我还要关心这个估计带有的，这些是
从上一时刻下一时刻的，我又当前的估计有的
。后端优化要虑的问题，是从这些带有的中估计
个的态，以及这个态估计的不确性有 ——这称为最后
验率估计（Maximum-a-Posteriori，MAP）。这里的态既包机器人
的，也包含图。
相，视觉里程计分有时被称为“前端”。 SLAM框架中，前
端给后端待优化的，以及这些的。后端负责
的优化过程，往往面的只有，不必关心这些底来什么
感器。在视觉中，前端和计算机视觉研究领域更为相关，比如
SLAM
图像的特征提取与匹配等，后端则主要是滤波与非线性优化算法。
从历史意义上来说，现我称为后端优化的分，很一时
直被称为“SLAM研究”。早期的SLAM问题是一个态估计问题——正
是后端优化要解的东西。最早出SLAM的一列论中，当时的人
称为“空态不确性的估计”（Spatial Uncertainty）[4,11] 。
虽有一些晦，也确反映出了SLAM问题的本质：对运动主体自身
和周围环境空间不确定性的估计。为了解 SLAM问题，我需要态估
计理论，位和建图的不确性表出来，后用器非性
优化，估计态的和不确性（方差）。态估计与非性优化的
具第6讲、第10讲和第11讲介。让我暂时过的原理说
明，往下介。
2.2.3　回环检测
环检，又称闭环检（Loop Closure Detection），主要解
位估计随时间漂移的问题。怎么解呢？设际情下机器人过
一时的运动后了原，是由于移，的位估计却有
原。怎么办呢？我想，果有某种，让机器人知 “
了原 ”这件事， “原 ”识出来，我再位估计
“ ”过去，可以消除移了。这是所谓的环检。
环检与“ 位”和“建图”二有切的关。事上，我
认为，图存的主要意义是让机器人知晓己过的方。为了
现环检，我需要让机器人具有识别到过的场景
的力。的现
有很。前面说的样，我可以机器人下方设一个标
志（一张二码图片）。只要看了这个标志，知己
了原。是，该标志质上是一种环中的感器，应用环
了制（万一不贴二码怎么办？）。我更希望机器人用带
的感器——也是图本，来成这一务。，可以断图像
间的相似性来成环检。这一和人是相的。当我看两张相
的图片时，易认来同一个方。果环检成功，可以
显著积误差。所以，视觉环检质上是一种计图
相性的。由于图的息非常丰，得正确检环的难度降
低了不。
检环之后，我会 “A与B是同一个 ”这样的息告诉
后端优化。后，后端根这些新的息，和图调符
合环检果的样。这样，果我有分且正确的环检，
可以消除积误差，得一致的和图。
2.2.4　建图
建图（Mapping）是构建图的过程。图（见图2-10）是环
的，这个并不是的，需要视SLAM的应用。
图2-10　形形的图[12] 。
于用扫机器人来说，这种主要低矮平面里运动的机器人，
只需要一个二的图，标记哪里可以过，哪里存障碍，
一导了。于一个相机，有6 由度的运动，我至
需要一张三的图。有些时，我想要一个亮的重建果，不仅
是一组空，还需要带纹理的三角面片。另一些时，我又不关心
图的样，只需要知 “A B 可过， B C 不行”这样的
事情。甚至，有时不需要图，图可以由其人，，行
驶的往往可以得已绘制的当图。
于图，我有太的想和需。此，相比于前面的视
觉里程计、环检和后端优化，建图并有一个的形式和。
一组空的集合也可以称为图，一个亮的3D 亦是图，一个
标记着市、村庄、、的图片还是图。图的形式随SLAM的
应用合。上讲，可以分为与度量地图拓扑地图
两种。
度量地图（ Metric Map）
度量图强调确表示图中的位关，常用稀疏
（Sparse）与稠（Dense）其分。稀疏图进行了一程度的
象，并不需要表所有的。，我一分具有代表意义的
东西，称之为标（Landmark），么一张稀疏图是由标组成的
图，不是标的分可以忽略。相，稠图着重于建
所有看的东西。于位来说，稀疏标图足了。用于导
时，则往往需要稠的图（否则上两个标之的怎么办？）。
稠图常某种分率，由许个组成。于二度量图
是许个格（ Grid ），于三度量图则是许方
（Voxel）。一，一个含有占、空、未知三种态，以表
该格是否有。当查询某个空位时，图给出该位是否
可以过的息。这样的图可以用于各种导， A*、D*[6] 等，
为机器人研究所重视。是我也看，这种图需要存一个格
的态，会费量的存空，且情下图的许细
分是无用的。另一方面，规度量图有时会出现一致性问题。很
的一转向误差，可会导致两屋的出现重叠，图。
拓扑地图（ Topological Map）
相比于度量图的确性，图则更强调图之的关
。图是一个图（Graph），由和组成，只虑的连
性， A、B 是连的，不虑从A B 。松了
图确位的需要，去了图的细问题，是一种更为的表
方式。，图不表具有杂构的图。图进
行分割形成与，又用图进行导与径规，仍是
有待研究的问题。
2.3　SLAM问题的数学表述
过前面的介，读应该 SLAM中各个的组成和主要功有
了直观的了解。仅仅靠直观印象并不帮助我出可以运行的程
序。我要上升理性层次，也是用语言来 SLAM过程。
我会用一些变量和公式，请读心，我会尽量让足
楚。
设萝卜正带着某种感器未知环里运动，怎么用语
言这件事呢？首先，由于相机常是某些时刻集的，所以
我也只关心这些时刻的位和图。这一连时的运动变成
了离时刻 =1t ,···,K
当中发生的事情。这些时刻，用表示 x
萝卜的位。于是各时刻的位记为 1 K ，构成 x ,···,x
了萝卜的。图方面，我设图是由许个路标
（Landmark）组成的，个时刻，感器会量一分标，得
的观。不设标一有个，用 1 N 表示 N y ,···,y
。这样的设中，“ 萝卜带着感器环中运动”，由
下两件事情：
1.什么是运动？我要虑从k- 1时刻 k 时刻，萝卜的位 x
是变化的。
2.什么是观测？设萝卜 k 时刻于xk 了某一个标yj
，我要虑这件事情是用语言来的。
先来看运动。常，机器人会带一个量运动的感器，比
说码盘惯性感器。这个感器可以量有关运动的读，不一
直是位之差，还可是加速度、角速度等息。，无论是
什么感器，我用一个用的、象的：
这里， uk 是运动感器的读（有时也叫输入），wk 为。

意，我用一个一来 f
这个过程，不具明的用 f
方式。这得个可以代意的运动感器，成为一个用的方
程，不必于某个的感器上。我称为。运动方程
与运动方程相应，还有一个。观方程观测方程的是，当
萝卜 x
k 位上看某个标 j ，产生了一个观 y z k,j 。同样，
用一个象的 h来这个关：
这里，vk,j 是这次观里的。由于观所用的感器形式更

，这里的观 z 以及观方程h 也有许不同的形式。
读许会说，我用的 f,h ，乎并有具说明运动和
x y z
观是怎么事？同时，这里的 , , 又是什么东西呢？事上，根
萝卜的真运动和感器的种，存着干种方式参数化
（Parameterization）。什么叫参化呢？举来说，设萝卜平
面中运动，么，的位 [7] 由两个位和一个转角来，即 k = x
同时，运动感器量萝卜意两个时隔位和
转角的变化量于是，此时运动方程可以具化为这是
单的性关。不过，并不是所有的感器直量出位移和角
度变化，所以也存着其形式更加杂的运动方程，时我可需
要进行动力分析。关于观方程，比方说萝卜带着一个二光
感器。我知光感器观一个2D 标时，两个量：
r
标与萝卜本之的离和夹角ϕ 。记标为 =[ x y ]T y p ,p
（为，省略了下标），观为 z =[r,ϕ ]
T
，么观方程
具化为：
虑视觉SLAM时，感器是相机，么观方程是“ 标
后，得图中的 ”的过程。这个过程涉相机的，
第5讲中详细介，这里暂且略过。
可见，不同的感器，这两个方程有不同的参化形式。果
我用性，取成用的象形式，么SLAM过程可总为
两个本方程：
这两个方程了最本的SLAM问题：当知运动量的读， u
以及感器的读 z 时， x
解位问题（估计）和建图问题（估
y
计）？这时，我 SLAM问题建成了一个状态估计问题
：
过带有的量，估计的、隐藏着的态变量？
态估计问题的解，与两个方程的具形式，以及服从哪种
分布有关。运动和观方程是否为性，是否服从高斯分布进
行分，分为线性非线性高斯非高斯
/ 和 / 。其中性高斯
（Linear Gaussian，LG ）是最单的，的无的最优估计可以由
卡曼器（Kalman Filter，KF）给出。杂的非性非高斯
（Non-Linear Non-Gaussian，NLNG ）中，我会用以展卡
曼器（Extended Kalman Filter，EKF）和非性优化两方去
解。直至21世早期，以EKF为主的器方 SLAM中占了主导
位。我会工性化，并以预 —更新两步骤进行
解（见第10讲）。最早的时视觉SLAM 即是于EKF[2] 开发的。随
后，为了服EKF的（性化误差和高斯分布设），人
开用器（Particle Filter）等其器，乃至用非
性优化的方。时至今日，主视觉 SLAM 用以图优化（ Graph
Optimization）为代表的优化技术进行态估计[13] 。我认为优化技术
已明显优于器技术，只要计资许，常向于用优化
方（见第10讲和第11讲）。
相读已 SLAM的有了致的了解，我仍需
一些问题。首先，要说明机器人位置 x 是什么
。我方才说是位置
有些的。也许读理解，平面中运动的萝卜可以用两个坐
标加一个转角的形式位参化。，虽我的画风格有些二次
，萝卜更时是一个三空里的机器人。我知三空
的运动由3个构成，所以萝卜的运动要由3个上的平移，以及着3
个的旋转来，一有6个由度。是否意味着随用一个R6 中的
向量了呢？我发现事情并有么单。 6 由度的位
姿 [8]
，表，优化，需要一幅来介，这是第3
讲和第4讲的主要。随后，我要说明视觉SLAM中，观测方程
参化。句话说，空中的标是影一张片上的。这
需要解相机的成，我第5讲介。最后，当知了这些
息，怎么求解上述方程？这需要非性优化的知识，是第6讲的。
这些组成了本书知识的分。进行之后，我
细讨论视觉里程计、后端优化等更详细的知识了。可以看，
本讲介的构成了本书的一个要。果读还有很理解上
面的念，不过再读一。下面要开介程序啦！
2.4　实践：编程基础
2.4.1　安装Linux操作系统
终于开令人兴的环啦！是否了呢？为了成本
书的环，我需要一台电。可以用笔记本台式机，
当最是个人的电，为我需要上面安装操进行
验。
我的程序以Linux上的C++程序为主。验过程中，我会
用量程序库。分程序库只 Linux 了的，
Windows上的则相（相当）麻。此，我不得不已具
关于Linux的本知识了（参见上一讲的练习题），包用本的命
令，了解软件安装。这样我才无须讲解这些。当，不必
了解 Linux下开发C++程序，这正是下面会详细讲解的。
我先来建本书所需的验环。为一本面向的书，我
用Ubuntu 为开发环。 Linux的各发行版中，Ubuntu及其衍生
版本一直享有用友的誉。Ubuntu是一个开操，的
和软件可以方站（http://cn.ubuntu.com）费下，并且
了详细的安装方式说明。同时，华、中科等国各高校也
了Ubuntu软件，软件的安装十分。于，建议用和
我一样的环：Ubuntu 14.04。果想试试其口味，么Ubuntu
16.04、Ubuntu Kylin、Debian 7/8和Linux Mint 17/18也是不的
。我证书中所有代码 Ubuntu 14.04下过了的试，
果其发行版，则无确是否会问题。可需要费
一些时解问题（不过也可以当己的机会）。
来说，Ubuntu 各种库的为善，软件也非常丰。尽我
不制具用哪种Linux发行版，不过讲解中，我们会以 Ubuntu
为例
14.04 ，且主要用Ubuntu下的命令（ apt-get），不谈其
Linux下怎么操了。一情下，程序 Linux 移植不会非常
琐。果想 Windows OS X下用本书中的程序，则需要有一的
移植验。
现，请己的PC上安装 Ubuntu 14.04。关于Ubuntu的安
装，可以上量程，只要即可，此略过。最单的方
式是用虚机（见图2-11），需要占用量存（我的验是4GB
以上）和CPU才畅；也可以安装双，这样会快一些，需
要一个空白的U盘来为启动盘。另，虚机软件硬件的往
往不，果希望用际的感器（双目、Kinect等），则建议
用双来安装Linux。
图2-11　一个运行虚机中的Ubuntu 14.04。
关于安装的示：
•安装操时请不要 “安装中下更新”，并且断开连
，这样可以高安装速度。至于更新可以安装毕后再装。
果有SSD硬盘，这个过程用时15分。
•安装成后，请务必软件设离近的服务器上，以获得
更快的下速度。我用华的软件常以10MB/s的速度安
装软件[9] 。
现，设已成功安装 Ubuntu，无论是用虚机还是双
的方式。果还不悉Ubuntu，可以试试的各种软件，验一下
的界面和交互方式[10] 。不过我必须提醒
，是新朋友：不要
Ubuntu的用界面上费太时！Linux有许可费时的
方，可会找某些众的软件、一些戏，甚至会为找一张纸
费不时。是请记住，是用Linux来工的。是本书中，
是用Linux来习SLAM的，所以要尽量时习SLAM上。
了，我一个目录，本书中SLAM程序的代码。，可
以代码目录（/home）的“slambook”下。以后我这个目
录称为“ 代码根目录 ”。同时，可以另一个目录，本书的Git
代码制下来，方验时随时。本书的代码是章分的。
比，本讲的代码 slambook/ch2下，下一讲则 slambook/ch3下。
所以，现请读进 slambook/ch2下（应该会新建件夹并进该
件夹了吧）。
2.4.2　Hello SLAM
我从最本的程序开。与许计机书一样，我来书
一个HelloSLAM程序。不过这件事之前，我先来程序是什么。
Linux中，程序是一个具有行权的件。可以是一个本，
也可以是一个二进制件，不过我不的后名（不 Windows
样需要成.exe 件）。我常用的cd、ls等命令，是位于/bin目
录下的可行件。于其方的可行程序，只要有可行权
，么当我终端中程序名时，会运行。 C++ 程时，我
下面这样用译器一个本件译成可行程序。
这是一个非常单的程序。应该不费力看懂，所以这里
不加解 —— 果际情不是这样，请先补习一下C++的本知
识。这个程序只是一个字符串出屏幕上已。可以用本
器gedit（ Vim，果上一讲习了Vim）这些代码，并存
上面列出的径下。现，我用译器g++（g++是一个C++ 译器）
译成一个可行件。：
果顺，这条命令应该有出。果机器上出现“command
not found”的误息，说明可还有安装g++，请用下命令进
行安装：
果出现的误，请再检查一刚才的程序是否正确。

刚才这条译命令 helloSLAM.cpp这个本件译成了一个可
行程序。我检查当前目录，会发现了一个a.out 件，且具有
行权（终端里颜不同）。我 ./a.out即可运行此程序：
我所想，这个程序出“Hello SLAM!”，告诉我正确运

行。
请顾一下我之前的事情。这个中，我用器
了helloSLAM.cpp的代码，后调用g++ 译器进行译，得了
可行件。g++默认件译成a.out这个名字的程序（虽有些
古怪，是可以受的）。果我愿意，也可以这个出的件
名（留习题）。这是一个极其单的，我用了量的默认参
，几乎省略了所有中步骤，为的是给读一个的印象（虽
可有会）。下面我要用cmake来译这个程序。
2.4.3　使用cmake
理论上说，意一个C++程序可以用g++来译。当程序规越
来越时，一个工程可有许个件夹和件，这时的译命
令越来越。常一个 C++项目可含有十几个，各还存
着杂的赖关。其中一分要译成可行件，另一分译成
库件。果仅靠g++命令，我需要量的译令，个译过
程会变得异常琐。此，于C++项目，用一些工程理工具会更加
高。历史上工程师曾用make fi le进行动译，下面要谈
的cmake比更加方。并且，我会看后面的库用
cmake来理代码。
一个cmake工程中，我会用cmake命令生成一个make fi le
件，后，用make命令根这个make fi le 件的译个工程。
读可还不知 make fi le是什么东西，不过关，我会过
来习。仍以上面的helloSLAM.cpp为，这次我不是直用
g++，是用cmake来制一个工程，后再译。 slambook/ch2/中
新建一个CMakeLists.txt 件，下：
slambook/ch2/CMakeLists.txt
CMakeLists.txt 件用于告诉cmake我要这个目录下的件什

么事情。CMake-Lists.txt 件的需要守cmake的语。这个示
中，我示了最本的工程：一个工程名和一个可行程序。根
，读应该理解句话了些什么。
现，当前目录下（slambook/ch2/），调用cmake 该工程进行
分析：
cmake会出一些译息，后当前目录下生成一些中件，
其中最重要的是MakeFile[11] 。由于MakeFile是动生成的，我不必
修。现，用make命令工程进行译：
译过程中会出一个译进度。果顺过，我可以得

CMakeLists.txt中明的个可行程序helloSLAM。行：
为我并有修代码，所以得的果和之前是一样的。请
读想想这种和之前直用g++ 译的区。这次我用cmake–
make的，cmake过程理了工程件之的关， make过程际调
用了g++来译程序。虽这个过程中了调用cmake和make的步骤，
我项目的译理工，从一串g++命令，变成了护干个比
直观的CMakeLists.txt 件，这明显降低护个工程的难度。比
，果想新一个可行件，只需 CMakeLists.txt 中加一
行“add_executable”命令即可，后的步骤是不变的。cmake会帮我
解代码的赖关，无须一串g++命令。
现这个过程中唯一让我不的是，cmake生成的中件还留
我的代码件当中。当想要发布代码时，我并不希望这些中
件一同发布出去。这时我还需要一个个除，十分不。一种
更的是让这些中件一个中目录中，译成功后，
这个中目录除即可。所以，更常见的译cmake工程的下：
我新建了一个中件夹“build”，后进 build 件夹，
过cmake..命令上一层件夹，也是代码所的件夹进行译。这
样，cmake产生的中件会生成 build 件夹中，与代码分开。
当发布代码时，只要 build 件夹即可。请读行这种方
式 ch2中的代码进行译，后调用生成的可行程序（请记得上一
步产生的中件）。
2.4.4　使用库
一个C++工程中，并不是所有代码会译成可行件。只有带
有main 的件才会生成可行程序。另一些代码，我只想
包成一个东西，其程序调用。这个东西叫。库
一个库往往是许、程序的集合，我会之后的练习中触
许库。，OpenCV库了许计机视觉相关的， Eigen
库了矩阵代的计。此，我要习用cmake生成库，并且
用库中的。现书下libHelloSLAM.cpp 件。
slambook/ch2/libHelloSLAM.cpp
这个库了一个printHello ，调用此出一条息。

是有 main ，这意味着这个库中有可行件。我
CMakeLists.txt里加上下：
这条命令告诉 cmake ，我想这个件译成一个叫
“hello”的库。后，和上面一样，用cmake 译个工程：
这时， build 件夹中会生成一个libhello.a 件，这是我

得的库。
静态库共享库
Linux中，库件分成和两种[12] 。静态库以.a
为后名，享库以.so 尾。所有库是一些包后的集合，差
于静态库每次被调用都会生成一个副本，而共享库则只有一个副本
，更省空。果想生成享库不是静态库，只需用以下语句即
可。
此时得的件是libhello_shared.so了。
库件是一个压包，里面有译的二进制。不过，果仅
有.a .so库件，么我并不知里面的底是什么，调用的形
式又是什么样。为了让人（己）用这个库，我需要一
个头文件，说明这些库里有些什么。此，于库的用，只要拿
到了头文件和库文件，就可以调用这个库了。下面 libhello的
件。
slambook/ch2/libHelloSLAM.h
这样，根这个件和我刚才译得的库件，可以用
printHello 了。下面一个可行程序来调用这个单的：
slambook/ch2/useHello.cpp
后， CMakeLists.txt中加一个可行程序的生成命令，

刚才用的库上：
过这两行语句，useHello程序顺用hello_shared库中的
代码了。这个示了生成并调用一个库。请意，于人
的库，我也可用同样的方式进行调用，合己的程序
中。
除了已示的功之，cmake还有许语和项，这里不一一
列举。习题中包含了一些cmake的读材料，感兴趣的读可行读。
现，单顾一下我之前了哪些事：
1.首先，程序代码由件和件组成。
2.带有main 的件译成可行程序，其的译成库
件。
3. 果可行程序想调用库件中的，需要参该库的
件，以明白调用的格式。同时，要可行程序库件上。
这几个步骤应该是单楚的，际操中可会上一些问
题。比说，果代码里引用了库的，忘了程序库上，
会发生什么呢？请试试 CMake-Lists.txt中的分去，看看会发
生什么情。看懂cmake报告的误消息吗？
2.4.5　使用IDE
最后，我来谈谈用集成开发环（ Integrated
Development Environment，IDE）。前面的程可以用一个单的
本器来成。，可需要各个件来去，查询某
个的明和现。当件很时，这仍很琐。IDE为开发
了转、补、断调试等很方的功，所以，我建议读
一个IDE进行开发。
Linux下的IDE有很种。虽与Windows下的Visual Studio还有一
些差，不过 C++开发的也有几种，：Eclipse、QtCreator、
Code::Blocks、Clion，等等。同样，我不强制读用某种的
IDE，仅给出我的建议。我用的是Kdevelop（见图2-12）。是
一个费软件， Ubuntu的中了，这意味着可以用apt-get来安
装。Kdevelop的优列举下：
1. cmake工程。
2. C++ （包 11标）。有高亮、转、补等功。
动版代码。
3. 方看各个件和目录树。
4.有一译、断调试等功。
5.无须费。
图2-12　Kdevelop界面。
本上，我一个IDE的功要具，所以读不试一

下。有时会碰一些问题，某些板的解析响应比慢
等，确还不善。不过相比于其 IDE，是不的。
Kdevelop 原生 cmake 工程。具是，终端建立
CMakeLists.txt后，用Kdevelop中的“工程 → 开 /导工程 ” 开
CMakeLists.txt。软件会询问几个问题，并且默认建立一个build 件
夹，帮调用刚才的cmake和make命令。只要下快 F8，这些可以
动成。图2-12的下面分显示了译息。
我应IDE的务交给读己来成，并不书中进行
详细说明。果是从Windows转过来的，会觉得的界面与Visual
C++ Visual Studio 相。请用Kdevelop 开刚才的工程后进行
译，看看出什么息。相会觉得比开终端更方一些。
不过，本重想讲的是 IDE中进行调试。 Windows下程
的同半会有 Visual Studio下断调试的历。不过 Linux中，
默认的调试工具gdb只了本界面，新来讲不太方。有些IDE
了断调试功（底层仍旧是gdb），Kdevelop 是其中之一。要
用Kdevelop的断调试功，需要成以下几件事：
1. CMakeLists.txt中工程调为Debug 译式。
2.告诉Kdevelop 想运行哪个程序。果有参，也要的参
和工目录。
3.进断调试界面，可以单步运行，看中变量的了。
第一步， CMakeLists.txt中加下面的命令来设译式：
cmake 带一些译相关的变量，可以译过程进行更

细的控制。于译，常有调试用的 Debug 式与发布用的
Release 式。 Debug 式中，程序运行慢，可以进行断调试；
Release 式则速度快，有调试息。我程序设成Debug
式，断了。下来，告诉Kdevelop 想启动哪个程序。
第二步，开“运行 →
启动器 ” ，后单击左的 “Add
→
New 应用程序”。这一步中，我的务是告诉Kdevelop想要启动
哪一个程序。图2-13所示，既可以直一个cmake的工程目标（也
是我用add_executable 令构建的可行程序），也可以直向
一个二进制件。建议用第二种方式，根我的验，这样更出
现问题。
图2-13　启动器设界面。
第二栏里，可以设程序的运行参和工目录。有时程序是有

运行参的，会为main 的参被。果有则可以留
空，于工目录亦是此。这两项后，可以单击“OK”
存果。
刚才这几步我了一个应用程序的启动项。于一个启动
项，我可以单击 “Execute” 直启动这个程序，也可单
击“Debug” 进行断调试。读可以试着单击“Execute”
，查看出的果。现，为了调试这个程序，单击printHello 行
的左，加一个断。后，单击“Debug” ，程序会留断
等待，图2-14所示。
图2-14　调试界面。
调试时，Kdevelop会切调试式，界面会发生一变化。断

，可以用单步运行（F10 ）、单步进（F11 ）、单步出（F12
）功控制程序的运行。同时，可以开左的界面，查看变量
的。 “ 止” ，束调试。调试束后，Kdevelop会
正常的开发界面。
现应该悉了个断调试的程。今后，果程序运行阶
发生了误，导致程序崩，可以用断调试确出的位，
后加以修正[13] 。
习题
1. 读献[1]和[14]，看懂其中的吗？
2.* 读SLAM的献， [9,15,16,17,18]等。这些献关于
SLAM的看与本书有异同？
3.g++命令有哪些参？怎么参可以更生成的程序件名？
4. 用build 件夹来译的cmake工程，后 Kdevelop中试
试。
5.刻意代码中加一些语误，看看译会生成什么样的
息。看懂g++的误息吗？
6. 果忘了库可行程序上，译会报吗？报什么样的
？
7.* 读《cmake 》，了解cmake的其语。
8.* 善hello SLAM 程序，成一个程序库，安装本硬
盘中。后，新建一个工程，用 fi nd_package找这个库并调用。
9.* 寻找其 cmake 材料，了解 cmake ，
https://github.com/TheErk/CMake-tutorial。
10.找 Kdevelop的方站，看看还有哪些性。用上了
吗？
11. 果上一讲习了Vim，请试试Kdevelop的Vim 功。
[1] 不过现中我会有一个的，和的区分。
[2] 画成单目会比吓人。
[3] 上的原会视觉里程计一讲中解。
[4] 可以用机录个视频试试。
[5] 更时称为后端（Back End）。由于主要用的是优化方，称为后端优化。
[6] https://en.wikipedia.org/wiki/A*_search_algorithm
[7] 本书中，我以“位 ”这个词表示“位 ”加上“ 态”。
[8] 我以后称为位（Pose），以与位进行区。我说的位，包含了旋转

（Rotation）和平移（Translation）。
[9] 感谢TUNA同的护！
[10] 人第一次看 Ubuntu 觉得很亮。
[11] MakeFile是一个动化译的本，读现可以理解成一动生成的

译令，无须理会其。
[12] 半猜了，并不叫动态库。
[13] 不是直给我发件询问怎么理的问题。

第3讲　三维空间刚体运动
主要目标
1.理解三空的刚运动方式：旋转矩阵、变矩阵、
和角。
2. Eigen库的矩阵、几用方。
上一讲中，我讲解了视觉SLAM的框架与。本讲介视觉
SLAM的本问题之一：一个刚体在三维空间中的运动是如何描述的。我
当知这由一次旋转加一次平移组成。平移确有太问题，
旋转的理是件麻事。我介旋转矩阵、、角的意
义，以及是运和转的。分，我介性代
库Eigen。了C++中的矩阵运，并且的Geometry 还了
等刚运动的。Eigen的优化非常善，是的用方有
一些的方，我会程序中介。
3.1　旋转矩阵
3.1.1　点和向量，坐标系
我日常生的空是三的，此我生来习惯于三空的
运动。三空由3个组成，所以一个空的位可以由3个坐标
。不过，我现要虑刚体
，不光有位，还有的态。相
机也可以看成三空的刚，于是位是相机空中的哪个
方，态则是相机的朝向。合起来，我可以说，“相机正于
, ,
空 (0 0 0) ，朝向正前方”这样的话。是这种语言很
琐，我更喜欢用语言来。
我从最本的讲起：和点向量
。的几意义很易理
解。向量是什么呢？是性空中的一个，可以想象成从原
向某的一个。需要读的是，请不要向量与的坐标
两个念。一个向量是空当中的一样东西，比说。这里并 a a
不是和干个相关的。只有当我这个三空中的某个坐
标系时，才可以谈论该向量此坐标下的坐标，也是找干个
应这个向量。，三空中的某个向量的坐标可以用R3 当中的3
个来。某个的坐标也可以用R3 来。怎么呢？果我
确了一个坐标，也是一个性空的 ( 1 3 )， e ,e ,e
么
a 坐标了：
2
可以谈论向量这组下的
所以坐标的具取，一是和向量本有关，二是和坐标的取

有关。坐标常由3个正交的坐标组成（尽也可以有非正交的，
际中很见）。，给和时， x y z
可以过右（左
）则由 x×y义出来。根义方式的不同，坐标又分为左
和右。左的第3个与右方向相反。验来讲，人更习
惯用右，尽也有一分程序库仍用左。
根本的性代知识，我可以谈论向量与向量，以及向量与
之的运，乘、加、、积、积等。乘和则运
是相当本的，这里不再赘。积读来说可有些陌
生，这里给出的运方式。于 a,b∈
R3 ，积可以成：
积可以向量的影关。积则是这个样：
积的方向直于这两个向量，为 sin |a||b|

，是两〈a,b〉
个向量张成的形的有向面积。于积，我引了 ∧ 符号， a
成一个矩阵。事上是一个反称矩阵（Skew-symmetric），可以
∧ 记成一个反称符号。这样积 a×b
成了矩阵与向量的乘
a b
∧ ，变成了性运。这个符号后常用，请记住
。积只三向量存义，我还用积表示向量的。旋转
为什么积可以表示旋转呢？
虑两个不平行的向量 a,b
，我要从之是旋转 a b
的，图3-1所示。我可以用一个向量来三空中两个向量的旋
转关。右则下，我用右的4个从转向，朝向 a b
是旋转向量的方向，事上也是 a×b
的方向。的则由和的 a b
夹角。过这种方式，我构造了从 a b
的一个旋转向量。这个
向量同样位于三空中，此坐标下，可以用3个来。
图3-1　左右的区与向量的旋转。a b 的旋转可以由向量w 来。
3.1.2　坐标系间的欧氏变换
与向量的旋转，同样可以两个坐标之的旋转关，
再加上平移，称为坐标之的变换关。机器人的运动过程中，
常见的是设一个惯性坐标（叫世界坐标），可以认为
是不动的， x ,y ,z
图3-2中的 W W W 义的坐标。同时，相机
机器人则是一个移动坐标， xC ,yC ,zC 义的坐标。我可
会问：相机视野中某个向量p ，的坐标为pc ，世界坐标下看，
的坐标pw 。这两个坐标之是转的呢？这时，需要先得该
机器人坐标的坐标，再根机器人位转世界坐标
中，这个转关由一个矩阵T 来，图3-2所示。
p
图3-2　坐标变。于同一个向量，世界坐标下的坐标 pw和相机坐
标下的坐标 p c 是不同的。这个变关由坐标的变矩阵T 来。
相机运动是一个刚运动，证了同一个向量各个坐标下的

度和夹角不会发生变化。这种变称为。想象机欧氏变换
空中，落碎之前，只可有空位和态的不同，
己的度、各个面的角度等性质不会有变化。这样一个变由
一个旋转和一个平移两分组成。首先来虑旋转。我设某个单位正
交过一次旋转变成了么，于同一个向量 a
（意该向量并有随着坐标的旋转发生运动），两个坐标
下的坐标为和根坐标的义，有：
为了两个坐标之的关，我上等式的左右两同时左
乘么左的变成了单位矩阵，所以：
我中的矩阵出来，义成一个矩阵。这个矩阵由两组 R
之的积组成，刻画了旋转前后同一个向量的坐标变关。只要旋
转是一样的，么这个矩阵也是一样的。可以说，矩阵了旋转本 R
。此又称为。旋转矩阵
旋转矩阵有一些的性质。事上，是一个行列式为1的正交矩
阵[1] 。反之，行列式为1的正交矩阵也是一个旋转矩阵。所以，可以
旋转矩阵的集合义下：
SO( )是 n 正交（Special Orthogonal Group）的意思。我

解 “ ”的留下一讲。这个集合由 n
空的旋转矩阵组
成，，SO(3) 是三空的旋转了。过旋转矩阵，我可以直
谈论两个坐标之的旋转变，不用再从开谈起。句话
说，旋转矩阵可以描述相机的旋转。
由于旋转矩阵为正交矩阵，的（即转）了一个相反的旋
转。上面的义方式，有：
显 R T
刻画了一个相反的旋转。
变中，除了旋转之还有平移。虑世界坐标中的向量 a
，过一次旋转（用 R
）和一次平移后，得了 ′ ，么旋转 t a
和平移合一起，有：
t
其中，称为平移向量。相比于旋转，平移分只需这个平移量
加旋转之后的坐标上，显得非常。过上式，我用一个旋转矩
R
阵和一个平移向量了一个 t
空的坐标变关。
3.1.3　变换矩阵与齐次坐标
式（3.8）表了空的旋转与平移，不过还存一个
问题：这里的变关不是一个性关。设我进行了两次变： R
1,t
1 和 2 R ,t 2 ，足：
是从a c 的变为
这样的形式变次之后会过于杂。此，我要引齐次坐

标和变矩阵重式(3.8)：
这是一个技巧：我一个三向量的末尾加1，其变成了

向量，称为齐次坐标。于这个向量，我可以旋转和平移
一个矩阵里面，得个关变成性关。该式中，矩阵称为 T
变换矩阵（ Transform Matrix） a
。我暂时用表示的齐次坐标。
稍微说一下齐次坐标。是影几里的念。过加最后一
，我用4个了一个三向量，这显了一个由度，
许我变成性的形式。齐次坐标中，某个的个分量同 x
乘一个非零常后， k 仍然表示同一个点
。此，一个的具坐标
, , , , , ,
不是唯一的。 [1 1 1 1]T 和[2 2 2 2]T 是同一个。当最后
一项不为零时，我总可以所有坐标除以最后一项，强制最后一项为
1，从得一个唯一的坐标表示（也是转成非齐次坐标）：
这时，忽略最后一项，这个的坐标和空是一样的。

靠齐次坐标和变矩阵，两次变的加可以有很的形式：
是区分齐次和非齐次坐标的符号令我感厌。不引起义
的情下，以后我直成 = 的样b Ta ，默认其中是齐次坐
标了。
T
关于变矩阵，具有比的构：左上角为旋转矩阵，右
为平移向量，左下角为0向量，右下角为1。这种矩阵又称为
（Special Euclidean Group）：
与SO(3)一样，解该矩阵的表示一个反向的变：
最后，为了符号的，不引起义的情下，我以后不

区齐次坐标与普坐标的符号，默认使用的是符合运算法则的那一种
。，当我 Ta
时，用的是齐次坐标（不计）。 Ra
时，用的是非齐次坐标。果一个等式中，设齐次坐标普
坐标的转，是已了的—— 为齐次坐标和非齐次坐标之的
转事上非常易。
顾一下：首先，介了向量及其坐标表示，并介了向量的运
；后，坐标之的运动由变，由平移和旋转组成。
旋转可以由旋转矩阵SO(3) ，平移直由一个R3 向量。最后，
果平移和旋转一个矩阵中，形成了变矩阵SE(3)。
3.2　实践：Eigen
本讲的分有两。第一分中，讲解用Eigen来表示
矩阵、向量，随后引申至旋转矩阵与变矩阵的计。本的代码
slambook/ch3/useEigen中。
Eigen[2] 是一个C++开性代库。了快速的有关矩阵的
性代运，还包解方程等功。许上层的软件库也用Eigen进行
矩阵运，包 g2o、Sophus等。应本讲的理论分，我来习一下
Eigen的程。
的PC上可还有安装Eigen。请以下命令进行安装：
分常用的库已 Ubuntu软件中。以后，想要安装某

个库，不先一下Ubuntu的软件中是否已。过apt命令，我
方安装Eigen。顾上一讲的知识，我知一个库由件
和库件组成。 Eigen 件的默认位
“/usr/include/eigen3/” 中。果不确，可以以下命令查
找：
相比于其库，Eigen的之于，是一个用件建起

来的库（这非常神！）。这意味着只找的件，有.so
.a 样的二进制件。用时，只需引 Eigen的件即可，不需
要库件（为有库件）。下面一代码来际练习一下
Eigen的用：
slambook/ch3/useEigen/eigenMatrix.cpp
这个程示了Eigen矩阵的本操与运。要译，需要
CMakeLists.txt里 Eigen的件目录：
重一，为 Eigen 库只有件，所以不需要再用
target_link_libraries语句程序库上。不过，于其分
库，时需要用命令。这里的并不见得是最的，为
其人可 Eigen安装了不同位，么必须动修这里的
件目录。之后的工中，我会用 fi nd_package命令去库，
不过本讲中暂时这个样。译这个程序后，运行，可以看
各矩阵的出果。
由于代码中给出了详细的，此不一一解行语句了。
本书中，我仅给出几重要方的说明（后面的分亦
这个风格）。
1.读最亲一上面的代码（不包）。至要译
运行一上面的程序。
2.Kdevelop可不会示C++成员运，这是得不善导致
的。请着上面的即可，不必理会是否示误。
3.Eigen 的矩阵和MATLAB很相，几乎所有的当矩阵来
理。是，为了现更的率， Eigen中需要矩阵的和
。于译时期知的矩阵，理起来会比动态变化的
矩阵更快一些。此，旋转矩阵、变矩阵这样的，可
译时期确的和。
4.Eigen 的矩阵现比杂，这里不介，我希望
用 fl oat、double等样用Eigen的矩阵。这应该是符
合其设计衷的。
5.Eigen矩阵不动升，这和C++的建有
差异。 C++程序中，我可以一个 fl oat 和double 相加、
相乘，编译器会自动把数据类型转换为最合适的那种。 Eigen中，
出于性的虑，必须显式地矩阵进行转。果忘了这样
， Eigen 会（不太友）示一个 “YOU MIXED DIFFERENT
NUMERIC TYPES...”的译误。可以试找一下这条息出现
误示的哪个分。果误息太最存一个件里再找。
6.同理，计过程中也需要证矩阵的正确性，否则会出
现“YOU MIXED MATRICES OF DIFFERENT SIZES” 误。请不要怨这种
误示方式，于C++ 板程，示出可以读的息已是
很幸运的了。以后，发现Eigen出，可以直寻找的分，推
出了什么问题。
7. 我的程只介了本的矩阵运。可以读
http://eigen.tuxfamily.org/dox-devel/modules.html 习更的
Eigen知识。这里只示了最单的分，看懂示程序不等于已
练操 Eigen。
最后一代码中比了与 QR分解的运行率，可以看看
己机器上的时差异，两种方是否有明显的差异？
3.3　旋转向量和欧拉角
3.3.1　旋转向量
我重新理论分。有了旋转矩阵来旋转，有了变矩阵
一个6 由度的三刚运动，是不是已足了呢？矩阵表示方式
至有以下几个：
1.SO(3)的旋转矩阵有9个量，一次旋转只有3个由度。此这种
表方式是的。同理，变矩阵用16个量表了6 由度的变。
么，是否有更的表示呢？
2.旋转矩阵带有约束：必须是个正交矩阵，且行列式为1。变
矩阵也是此。当想要估计优化一个旋转矩阵/变矩阵时，这些约
束会得解变得更难。
此，我希望有一种方式旋转和平移。，用
一个三向量表旋转，用六向量表变，可行吗？事上，前
面介积的分，我过这件事。我介了用
积表两个向量的旋转关。于坐标的旋转，我知，意旋转
可以用一个旋转轴和一个旋转角来刻画。于是，我可以用一个向
量，其方向与旋转一致，度等于旋转角。这种向量称为旋转向量
（角，Axis-Angle）。这种表示只需一个三向量即可旋
转。同样，于变矩阵，我用一个旋转向量和一个平移向量即可
表一次变。这时的正是六。
事上，旋转向量是下一讲介的李代。所以本讲中读
只需知旋转可以这样表示即可。剩下的问题是，旋转向量和旋转矩阵
之是转的呢？设有一个旋转为，角度为 n θ
的旋转，显
，应的旋转向量为 θn
。从旋转向量旋转矩阵的转过程由罗
德里格斯公式（Rodrigues’s Formula）表明，由于推导过程比
杂，这里不，只给出转的果[3] ：
符号 ∧ 是向量反称的转符，见式（3.3）。反之，我也可

以计从一个旋转矩阵旋转向量的转。于转角，有： θ
此：
关于转 n ，由于旋转上的向量旋转后不发生变，说明
此，转 n
是矩阵 R
征 1 应的征向量。解此方程，再归
一化，得了旋转。读也可以从“旋转过旋转之后不变”的
几角度看待这个方程。顺一下，这里的两个转公式下一讲仍
出现，会发现正是SO(3)上李与李代的应关。
3.3.2　欧拉角
下面来说说角。
无论是旋转矩阵、旋转向量，虽旋转，我人
是非常不直观的。当我看一个旋转矩阵旋转向量时，很难想象出
这个旋转究竟是什么样的。当变时，我也不知是向哪个
方向转动。角则了一种非常直观的方式来旋转——
用了3 个分离的转角
，一个旋转分解成3次不同的旋转。当，
由于分解方式有许种，所以角也存着不同的义方。比
说，先旋转，再 X ，最后 Y Z
，得了一个的旋 XY Z
转。同理，可以义、 ZY Z ZY X
等旋转方式。果讨论得更细一些，
还需要区分次是固定轴
旋转的，还是旋转之后的轴
旋转的，这
也会给出不一样的义方式。
许空、中听说过“俯角”“ 角”这些词。
角当中比常用的一种，是用“ - 俯 - 转 ” （ yaw-pitch-
roll）3个角度来一个旋转的。由于等价于的旋转，此 ZY X
以 ZY X
为。设一个刚的前方（朝向我的方向）为，右 X
为Y ，上方为 Z
，图3-3所示。么， ZY X
转角相当于意旋
转分解成以下3个上的转角：
1. Z 旋转，得
的角yaw；
2. 旋转之后的Y 旋转，得俯角pitch；
3. 旋转之后的X 旋转，得转角roll。
此时，可以用[r,p,y ] 这样一个三的向量

T
意旋转。这个
向量十分直观，我可以从这个向量想象出旋转的过程。其的角
亦是过这种方式，旋转分解 3个上，得一个三的向量，只不
过用的及顺序不一样。这里介的rpy角是比常用的一种，只有很
的角种会有rpy这样人口的名字。不同的角是旋转
的顺序来称呼的。，rpy角的旋转顺序是。同样，也有 ZY X XY
Z,ZY Z
这样的角—— 是有专的名字了。得一的
是，分领用角时有各的坐标方向和顺序上的习惯，
不一和我这里说的相同。
角的一个重是会碰著名的万向问题（Gimbal Lock[4]

）：俯角为 ±
90 ° 时，第一次旋转与第三次旋转用同一个
，得丢了一个由度（由3次旋转变成了2次旋转）。这被称
为异性问题，其形式的角中也同样存。理论上可以证明，
只要想用3个来表三旋转时，会不可碰异性问题。
由于这种原理，角不于和代，往往只用于人机交互中。我
也很 SLAM程序中直用角表态，同样不会优
化中用角表旋转（为具有异性）。不过，想验证
己的是否有，转成角快速分果是否正确。
图3-3　角的旋转示意图。上方为ZYX角义。下方为pitch=90 ° 时，第三次

旋转与第一次转角相同，得丢了一个由度。果还有理解万向
，可以看看相关视频，理解起来会更方。
3.4　四元数
3.4.1　四元数的定义
旋转矩阵用9个量 3 由度的旋转，具有性；角和旋转
向量是的，具有异性。事上，我找不不带奇异性的三维
向量描述方式 [19]
。这有于用两个坐标表示球表面（度和
度），必存异性（度为 ±
90 ° 时度无意义）。三旋
转是一个三形，想要无异性表，用3个量是不的。
忆以前习过的。我用集C表示平面上的向量，
的乘则表示平面上的旋转：，乘上 i相当于时一
个向量旋转90 ° 。，表三空旋转时，也有一种于
的代：四元数
（Quaternion）。是Hamilton找的一种
展的。既是紧凑的，也没有奇异性。果说，不直
观，其运稍杂些。
一个 q 有一个和三个虚。本书前面（也
有方后面），下面这样：
其中i,j,k 为的三个虚。这三个虚足以下关式：
由于的这种表示形式，有时人也用一个标量和一个向量来

表：
这里，称为 s 的， v
称为的虚。果一个
的虚为0，称之为实四元数。反之，的为0，则称之为虚四元
数。
这和非常相。虑三空需要3个，也有3个虚
，么，一个虚不应一个空呢？事上我是
这样的。同理，我知一个为1的可以表示平面上的旋
转（有度的），么，三空中的旋转是否用单位
表呢？案也是的。
我用单位四元数
表示三空中意一个旋转，不过这种表
方式和有着微的不同。中，乘以意味着旋转90 ° 。这是 i
否意味着中，乘 i
是 i
旋转90 ° ？么， = 是否意 ij -k
味着，先 i
转90 ° ，再 j
转90 ° ，等于转 90 ° ？读可 k -
以找一机比一下—— 后会发现情并不是这样。正确的情形
应该是，乘以 i
应着旋转180 ° ，这样才证 = 的性质。 ij -k i
2
-= 1，意味着 i
旋转360 ° 后得一个相反的东西。这个东西要
旋转两周才会和原先的样相等。
这乎有些玄了，的解需要引太额的东西，我还
是静一下眼前。至，我知单位表三空的
旋转。这种表方式和旋转矩阵、旋转向量有什么关呢？我不先
来看旋转向量。设某个旋转是单位向量 =[ x y z ]T 进行了角 n n ,n ,n
度为 θ 的旋转，么这个旋转的形式为
反之，亦可从单位中计出应旋转与夹角：
这个式给了我一种微的“转了一半”的感觉。同样，式

（3.19）的θ加上2 π
，我得一个相同的旋转，此时应的
-q
变成了。此，中，任意的旋转都可以由两个互为相反数
的四元数表示。同理，取为0，则得一个有 θ
旋转的
：
3.4.2　四元数的运算
和常一样，可以进行一列的运。常见的有则运
、乘、、轭等。下面分介。
现有两个 qa ,qb ，的向量表示为[ sa ,va ], [sb ,vb ]，
原表示为
么，其运可表示下。
1.加和
qa ,qb 的加运为
2.乘
乘是 qa 的一项与 qb 的项相乘，最后相加，虚要式
（3.18）进行。理可得：
虽稍为杂，形式上是齐有序的。果成向量形式并用

积运，该表会更加：
该乘义下，两个的乘积仍是的，这与也是一

致的。，意，由于最后一项积的存，乘常是不
可交的，除非 a 和 b v v
R3 中，此时积项为零。
3. 轭
的轭是虚取成相反：
轭与其本相乘，会得一个，其为的
平方：
4.
的义为
可以验证，两个乘积的即为的乘积。这证了单位

相乘后仍是单位。
5.
一个的为
此义，和己的的乘积为 1：
果为单位 q ，其和轭是同一个量。同时，乘积的
有和矩阵相的性质：
6. 乘与乘
和向量相，可以与相乘：
乘是两个个位上的分相乘：
3.4.3　用四元数表示旋转
我可以用表一个的旋转。设一个空三 p=
[x,y,z ∈ ] R3 ，以及一个由角 n,θ 的旋转。三 p 过旋转
之后变为 p′ 。果用矩阵，么有 p′ =Rp 。果用
旋转，的关又来表呢？
首先，三空用一个虚来：
这相当于的3个虚与空中的3个相应。后，参

式(3.19)，用 q 表示这个旋转：
么，旋转后的 p′ 即可表示为这样的乘积：
可以验证（留习题），计果的为0，为虚。其

虚的3个分量表示旋转后3D 的坐标。
3.4.4　四元数到旋转矩阵的转换
意单位了一个旋转，该旋转亦可用旋转矩阵旋转向
量。从旋转向量的转方式已式（3.20）中给出。
此，现看来转为矩阵的最直观方，是先转 q
为角 θ n
和，后再根德里格斯公式转为矩阵。不过样要计
一个arccos ，代价。际上这个计是可以过一的技巧
过的。这里省略推导过程，直给出旋转矩阵的转方式。
设 q =q +q i +q j +q k ，
0 1 2 3 应的旋转矩阵为 R
反之，由旋转矩阵的转下。设矩阵为 R ={mij

},i,j∈ [1, 2, 3]，其应的 q 由下式给出：
得一的是，由于和 q -q
表示同一个旋转，事上一个应的 R
表示并不是唯一的。同时，除了上面给出的转方式之，还存
其几种计方，本书省略了。际程中，当 0 近0时， q
其 3个分量会非常，导致解不稳，此时我再虑用其的方式
进行转。
最后，无论是、旋转矩阵还是角，可以用来同
一个旋转。我应该际中最为方的形式，不必于某种
的形式。随后的和习题中，我会示各种表方式之的
转，以加读的印象。
3.5　*相似、仿射、射影变换
3D空中的变，除了变之，还存其几种，只不过
变是最单的。一分和量几有关，为之后的讲解中
可会，所以先列出来。变了向量的度和夹角，相
当于我一个刚原不动进行了移动旋转，不变的样
。其几种变则会变的形。有的矩阵表示。
1.相变
相变比变了一个由度，许进行匀，
其矩阵表示为
意旋转分了一个，表示我 s向量旋转之

后，可以 x,y,z
三个坐标上进行匀。由于含有，相变
不再图形的面积不变。可以想象一个为1的立方过相变
后，变成为10的样（仍是立方）。
2. 变
变的矩阵形式下：
与变不同的是，变只要是一个可矩阵， A 不必

是正交矩阵。变也叫正交影。过变之后，立方不
再是方的了，是各个面仍是平行形。
3. 影变
影变是最一的变，的矩阵形式为
A
的左上角为可矩阵，右上角为平移，左下角为 T
。由 t a
于用了齐次坐标，当 v/
=0时，我可以个矩阵除以得一个右 v
下角为1的矩阵；否则得右下角为0的矩阵。此，2D的影变一
有8个由度，3D则有15个由度。影变是现讲过的变中，形
式最为一的。从真世界相机片的变可以看成一个影变。
读可以想象一个原本方形的板砖，片当中是什么样：首先，
不再是方形的。由于近远的关，甚至不是平行形，是
一个不规则的形。
表3-1总了目前讲的几种变的性质。意 “不变性质”中，
从上下是有包含关的。，变除了积之，也具有
平行、相交等性质。
表3-1常见变性质比
我之后会说，从真世界相机片的变是一个影变。
果相机的为无穷远，么这个变为变。不过，详细讲
相机之前，我只要有个致的印象即可。
3.6　实践：Eigen几何模块
现，我来际练一下前面讲的各种旋转表方式。我
Eigen中用、角和旋转矩阵，示之的变方式。
我还会给出一个可视化程序，帮助读理解这几个变的关。
slambook/ch3/useGeometry/useGeometry.cpp
Eigen中各种形式的表方式总下。请意种有单
度和双度两种，且和之前一样，不由译器动转。
下面以双度为，可以最后的d 成f，即得单度的
构。
•旋转矩阵（3× 3）：Eigen::Matrix3d。
•旋转向量（3× 1）：Eigen::AngleAxisd。
• 角（3× 1）：Eigen::Vector3d。
• （4× 1）：Eigen::Quaterniond。
• 变矩阵（4× 4）：Eigen::Isometry3d。
• 变（4× 4）：Eigen::A ffi ne3d。
• 影变（4× 4）：Eigen::Projective3d。
我译此程序的问题交给读。这个程序中，示了
用Eigen中的旋转矩阵、旋转向量（AngleAxis）、角和
。我用这几种旋转方式去旋转一个向量，发现果是一样的（不 v
一样真是见鬼了）。同时，也示了程序中转这几种表方
式。想进一步了解 Eigen 的几的读可以参
（ http://eigen.tuxfamily.org/dox/group__TutorialGeometry.html ）
。
3.7　可视化演示
最后，我为读了一个程序，位于
slambook/ch3/visualizeGeometry中。以可视化的形式示了各种表
方式的异同（见图3-4）。读可以用鼠标操一下，看看是
变化的。
图3-4　旋转矩阵、角、的可视化程序。
这个程序中，我坐标原了一个彩立方。用鼠标

可以平移/旋转相机。可以时看相机态的变化。我显示了变
矩阵 R,t
、角和的3种态，可以际验一下这几个量
是变化的。根我的验，除了角之，应该看不出
直观的含义。
关于该程序的代码，这里不解了，果感兴趣，可以
行查看。该程序的译说明请参其中的Readme.txt。
得一的是，际中，我会至义两个坐标：世界坐标系
和相机坐标系。该义下，设某个世界坐标中的坐标为 pw ，
相机坐标下为 pc ，么：
这里 Tcw 表示世界坐标相机坐标的变。可以用反过来

的 Twc ：
原则上， T 和 T 可以用来表示相机的位，事上也只
T T
wc cw
差一个已。当中用更加常见，更为直观。果

pc 取成零向量，也
cw wc
上面两式的是相机坐标中的原，么，此时的

pw 是相机原世界坐标下的坐标：
我发现这正是 T 的平移分。此，可以从 T 中直看相

机在何处，这也是我说T
wc wc
更为直观的原。此，可视化程序
里，我显示了T 不是T
wc
wc cw 。
习题
1.验证旋转矩阵是正交矩阵。
2.*寻找德里格斯公式的推导过程并加以理解。
3.验证旋转某个后，果是一个虚（为零），
所以仍应一个三空（式3.34）。
4.画表总旋转矩阵、角、角、的转关。
5. 设有一个的Eigen矩阵，想的左上角3 × 3的取出来，
后赋 I
为 3 × 3 。请程现。
6.*一性方程Ax =b 有哪几种？ Eigen中现吗？

7.设有萝卜一号和萝卜二号位于世界坐标中。萝卜一号的
位为q =[0. 35, 0. 2, 0. 3, 0. 1],t =[0. 3, 0. 1, 0. 1] T
（q 的第一项为。请 q 归一化后再进行计）。这里的 q 和 t 表

1 2
的是T ，也是世界坐标相机坐标的变关。萝卜二号

的位为 q =[- 0. 5, 0. 4,- 0. 1, 0. 2],t =[- 0. 1, 0. 5, 0.
cw
2
T
3] 。现，萝卜一号看某个的坐标下坐标为p =[0. 5,
0, 0. 2] ，该向量
T
萝卜二号坐标下的坐标。请程现。
[1] 正交矩阵即为转的矩阵。
[2] 方主页：http://eigen.tuxfamily.org/index.php?title=Main_Page。
[3] 感兴趣的读请参见

https://en.wikipedia.org/wiki/Rodrigues%27_rotation_formula。
[4] https://en.wikipedia.org/wiki/Gimbal_lock。
第4讲　李群与李代数
主要目标
1.理解李与李代的念， ,
SO(3) SE(3)与应李代的表
示方式。
2.理解BCH近的意义。
3. 会李代上的动。
4. 用Sophus 李代进行运。
上一讲，我介了三世界中刚运动的方式，包旋转矩
阵、旋转向量、角、等干种方式。我重介了旋转的
表示，是 SLAM中，除了表示之，我还要进行估计和优
化。为 SLAM中位是未知的，我需要解什么样的相机位姿最
符合当前观测数据这样的问题。一种典的方式是构建成一个优化
问题，解最优的R,t ，得误差最化。
前所言，旋转矩阵是带有约束的（正交且行列式为1）。
为优化变量时，会引额的约束，优化变得难。过李 —李
代的转关，我希望位估计变成无约束的优化问题，化
解方式。虑读可还有李李代的本知识，我从最
本的知识开讲起。
4.1　李群与李代数基础
上一讲，我介了旋转矩阵和变矩阵的义。当时，我说三
旋转矩阵构成了特殊正交群 SO(3)，变矩阵构成了特殊欧氏群
SE(3)：
不过，当时我并未详细解群的含义。细心的读应该会意

，旋转矩阵也，变矩阵也，它们对加法是不封闭的。句话
说，于意两个旋转矩阵 1 R ,R 2 ，矩阵加的义，和不再是
一个旋转矩阵：
于变矩阵亦是此。我发现，这两种矩阵并有义的

加，相，只有一种的运：乘。SO(3)和SE(3)关于乘
是闭的:
我知，乘应着旋转变的合，两个旋转矩阵相乘表示
了两次旋转。于这种只有一个运的集合，我称之为。群
4.1.1　群
（Group）是一种集合加上一种运算的代构。我集合记
A，运记，· 么可以记 G =(A,· )。要这个运足
以下几个条件：
1. 闭性：∀a ,a ∈A,a ·a ∈A .
1 2 1 2
2. 合律： ∀ a ,a ,a ∈A, (a ·a )·a =a · (a
·a
1 2 3 1 2 3 1 2
3 ).
3.幺：∃a ∈A,s.t.∀a∈A,a ·a =a·a =a .

0 0 0
4. ：∀a∈A,∃a- ∈A,s.t.a·a- =a .
1 1
0
读可以记 “ 幺 ”[1] 。我可以验证，旋转矩阵集合和矩

阵乘构成，同样变矩阵和矩阵乘也构成（此才称为
旋转矩阵和变矩阵）。其常见的包的加 (Z +)，去 ,
0后的有理的乘（幺为1）(Q 0 )，等等。矩阵中常见的 \ ,·
有：
•一性 n n×n 的可矩阵，
GL( ) 矩阵乘成。
• 正交 SO(n )也是所谓的旋转矩阵，其中SO(2)和SO(3)最
为常见。
• SE( n )也是前面的 n 变， SE(2)和
SE(3)。
构证了上的运具有的性质，论则是研究的
各种构和性质的理论，这里不加介。感兴趣的读可以参
意一本近世代材。
李群是
具有连（光）性质的。 Z 样离的
有连性质，所以不是李。 SO( )和SE( ) 空上是连 n n
的。我直观想象一个刚连空中运动，所以
是李。由于SO(3)和SE(3) 于相机态估计其重要，所以我主
要讨论这两个李。果读李的理论性质感兴趣，请参献
[20]。
下面，我先从单的SO(3)开讨论，我发现个李有
应的李代。我首先引出SO(3)上面的李代 so(3)。
4.1.2　李代数的引出
虑意旋转矩阵 R ，我知足：
R
现，我说，是某个相机的旋转，会随时连变化，即
为时的 R t
： ( )。由于仍是旋转矩阵，有
等式两时导，得：
理得：
R t R t
可以看出˙ ( ) ( )T 是一个矩阵。忆一下，我反对称
式（3.3）介叉积时，引了 ∧ 符号，一个向量变成了反称矩
阵。同理，于意反称矩阵，我亦找一个与之应的向量。
这个运用符号 ∨ 表示：
于是，由于˙ R (t )R (t ) 是一个反
T
称矩阵，我可以找一个
三向量ϕ (t )∈ R 与之应。于是有：
3
等式两右乘R (t )，由于R 为正交阵，有：

可以看，旋转矩阵一次导，只需左乘一个ϕ∧ ( )矩阵即 t
t
可。为方讨论，我设 0 =0，并设此时旋转矩阵为 (0)= 。导 R I
义，可以 R (t ) 0附近进行一阶勒展开：
我看 ϕ 反映了的导 R 性质，称 SO(3)原附近的正切空

(Tangent Space)上。同时 t0 附近，设ϕ t
为常 ϕ ( 0 )=ϕ 0
。么根式（4.8），有：
上式是一个关于 R 的微分方程，且知 R (0)=I ，解之，

得：
读可以验证上式微分方程和成立。不过，由于了一

的设，所以只 t
=0附近有。我看，旋转矩阵与另一个 R
反称矩阵ϕ 0 过关发生了。也是说，当我知某个时
R
刻的时，存一个向量ϕ ，足这个矩阵关。是矩阵的
是什么呢？这里我有两个问题需要：
1. 果上式成立，么给某时刻的，我得一个ϕ ， R
了 R 的导关。与 R
应的ϕ 有什么含义呢？后面会看
，ϕ 正是应 SO(3)上的李代 so(3)；
2.其次，矩阵 exp(ϕ∧ ) 计？事上，这正是李与李代

的 / 映。
下面一一加以介。
4.1.3　李代数的定义
个李有与之应的李代。李代了李的性质。
用的李代的义下：
李代由一个集合V，一个 F和一个二运 [ ]组成。 , 果
足以下几条性质，则称(V F , , , [ ])为一个李代，记 g。
1. 闭性∀X,Y∈ V, [X,Y ]∈ V.
2.双性∀X,Y,Z∈ V,a,b∈ F, 有：
3. ∀X∈ V, [X,X ]=0.

反性[2]
4. 雅可比等价 ∀X,Y,Z∈ V, [X, Y,Z
[ Z, [X,Y
]]+[ ]]+[Y, [Z,X
]]=0.
其中二运被称为李括号
。从表面上来看，李代所需要的性质
还是的。相比于中的为单的二运，李号表了两个
的差异。不要合律，要和己李号之后为零的性
质。为，三向量R3 上义的叉积是一种李号，此g=(R3 ×
, ,×
R )构成了一个李代。读可以试叉积的性质代上面
条性质中。
4.1.4　李代数so(3)
之前的ϕ ，事上是一种李代。SO(3) 应的李代是义
R3 上的向量，我记 ϕ 。根前面的推导，个ϕ 可以生成一个反
称矩阵：
此义下，两个向量ϕ 1 ,ϕ 2 的李号为
读可以验证该义下的李号足上面的几条性质。由于ϕ 与反

称矩阵关很，不引起义的情下，说so(3)的是三
向量三反称矩阵，不加区：
至此，我已楚了so(3)的。是一个由三向量组成的集

合，个向量应一个反称矩阵，可以表旋转矩阵的导。与
SO(3)的关由映给：
映会稍后介。由于已介了so(3)，我顺带先来看

SE(3)上应的李代。
4.1.5　李代数se(3)
于SE(3)，也有应的李代 se(3)。为省幅，这里不介
引出se(3)了。与so(3)相，se(3)位于R6 空中：
我个se(3) 记 ξ
，是一个六向量。前三为平移
（含义与变矩阵中的平移不同，分析见后），记；后三为旋 ρ
转，记 ϕ ，质上是so(3) [3]
。同时，我展了 ∧ 符号的含
义。 se(3)中，同样用 ∧ 符号，一个六向量转成矩阵，
这里不再表示反称：
我仍用 ∧ 和 ∨ 符号来代“从向量矩阵”和“从矩阵向

量”的关，以和so(3)上的一致性。读可以单 se(3)理解
成“由一个平移加上一个so(3) 构成的向量”（尽这里的 ρ 还不
直是平移）。同样，李代 se(3)亦有于so(3)的李号：
读可以验证是否足李代的义（留习题）。至此我已

见过两种重要的李代 so(3)和se(3)了。
4.2　指数与对数映射
4.2.1　SO(3)上的指数映射
现来虑第二个问题：exp(ϕ∧ )是计的？是一个矩阵的
，李和李代中，称为映（Exponential Map）。同样，
我会先讨论so(3)的映，再讨论se(3)的情形。
意矩阵的映可以成一个勒展开，是只有的情
下才会有果，其果仍是一个矩阵。
同样， so(3)中意 ϕ ，我亦可此方式义的映
：
我来细推导一下这个义。由于ϕ 是三向量，我可以义

的和的方向，分记 θ a
和，于是有ϕ = 。这里是一 θa a
a
个度为1的方向向量。首先，于 ∧ ，有以下两条性质：
以及
读可以行验证上性质。了理 a∧ 高阶项的方。
用这两个性质，我可以映成：
最后得一个曾相识的式：
想前一讲，和德里格斯公式，即式（3.14）出一。
这表明，so(3) 际上是由所谓的旋转向量组成的空，映
即德里格斯公式。过，我 so(3)中意一个向量应了一
个位于SO(3)中的旋转矩阵。反之，果义映，也 SO(3)中
的应 so(3)中：
不过我常不勒展开去计映。第3讲中，我已

介过根旋转矩阵计应的李代，即用式（3.16），
用的性质分解转角和转，用种方式更加省事一些。
现，我介了映的计方。读可会问，映
性质呢？是否于意的 R
找一个唯一的ϕ ？很憾，
映只是一个。这意味着个SO(3)中的，可以找一个
so(3) 与之应；是可存个so(3)中的，应同一个
SO(3)。至于旋转角 θ，我知转360 ° 和有转是一样的
—— 具有周期性。是，果我旋转角度之，么±π
李和李代是一一应的。
SO(3)与so(3)的论乎我的意料之中。和我前面讲的旋
转向量与旋转矩阵很相，映即是德里格斯公式。旋转矩阵
的导可以由旋转向量，导着旋转矩阵中进行微积分运
。
4.2.2　SE(3)上的指数映射
下面介 se(3)上的映。为了省幅，我不再 so(3)
样详细推导映。se(3)上的映形式下：
果有心，可以着so(3)上的推导， exp进行勒展开

推导此式。从果上看， ξ 的映左上角的是我 R 知的SO(3)
中的，与se(3)当中的旋转分ϕ 应。右上角的则可理为 J
θa
（设ϕ = ）：
该式与德里格斯公式有些相，不一样。我看，平移

分过映之后，发生了一次以 J 为矩阵的性变。请读
J
重视这里的，为后面还要用。
同样，虽我也可以比推得映，不过根变矩阵 T
so(3)上的应向量也有更省事的方式：从左上角的计旋转向量，R
右上角的 t 足：
J
由于可以由ϕ 得，所以这里的 ρ
亦可由此性方程解得。现
，我已弄了李、李代的义与相互的转关，总图
4-1所示。果读有哪里不明白，可以去几页看看公式推导。
, , ,
图4-1　SO(3) SE(3) so(3) se(3)的应关。
4.3　李代数求导与扰动模型
4.3.1　BCH公式与近似形式
用李代的一动机是进行优化，优化过程中导是非常必
要的息（我会第6讲详细介）。下面来虑一个问题。虽我
已楚了SO(3)和SE(3)上的李与李代关，是，当 SO(3)中
成两个矩阵乘时，李代中so(3)上发生了什么变呢？反过来说，当
so(3)上两个李代的加时，SO(3)上是否应着两个矩阵的乘积？
果成立，相当于：
果ϕ 1 ,ϕ 2 为标量，显该式成立；此我计的是矩阵
的，非标量的。言之，我研究下式是否成立：
很憾，该式矩阵时并不成立。
两个李代映乘积的形式，由Baker-Campbell-Hausdor
ff公式（BCH公式） [4] 给出。由于其形式杂，我只给出其展
开式的前几项：
其中[]为李号。BCH公式告诉我，当理两个矩阵之积时，

会产生一些由李号组成的项。，虑SO(3)上的李代
当ϕ 1 ϕ 2 为量时，量二次以上的项可以被忽
略。此时，BCH 有性近表：
以第一个近为。该式告诉我，当一个旋转矩阵 R （李代

R
2
为ϕ 2 ）左乘一个微旋转矩阵 1 （李代为ϕ 1 ）时，可以近看

，原有的李代 ϕ 2 上加上了一项 Jl (ϕ 2 ) - 1
ϕ 1 。同理，第二
个近了右乘一个微位移的情。于是，李代 BCH近下，分
成了左乘近和右乘近两种，用时我须意用的是左乘
还是右乘。
本书以左乘为。左乘BCH近雅可比Jl 事上是式（4.26）的
：
的为
右乘雅可比仅需要变量取负号即可：
这样，我可以谈论李乘与李代加的关了。为了方

读理解，我重新叙一下BCH近的意义。
R
某个旋转，应的李代为ϕ 。我给左乘一个微旋
R
转，记 ∆ ，应的李代为∆ϕ 。么，李上，得的果是
R·R
∆ ，李代上，根 BCH近，为合并起来，可以
单成：
反之，果我李代上进行加，让一个ϕ 加上∆ϕ ，么可以

近为李上带左右雅可比的乘：
这为之后李代上微积分了理论础。同样，于

SE(3)，亦有的BCH近公式：
这里 Jl 形式比杂，是一个6 × 6的矩阵，读可以参献
[6]中式(7.82)和(7.83)的。由于我计中不用该雅可比，
这里略去的际形式。
4.3.2　SO(3)李代数上的求导
下面来讨论一个带有李代的，关于该李代导的问
题。该问题有很强的际景。 SLAM中，我要估计一个相机的位
和态，该位是由SO(3)上的旋转矩阵 SE(3)上的变矩阵的。
不设某个时刻萝卜的位为。观 T
了一个世界坐标位于的 p
，产生了一个观 z
。么，由坐标变关知：
，由于观 w
的存，往往不可 z 确足 z =Tp 的
关。所以，我常会计理想的观与际的误差：
N
设一有个这样的标和观，于是有 N 个上式。么，
萝卜的位估计，相当于是寻找一个最优的 T ，得误差最
化：
解此问题，需要计目标 J 关于变矩阵T 的导。我

具的留后面再讲。这里重要说的是，我们经常会构建与位姿
有关的函数，然后讨论该函数关于位姿的导数，以调整当前的估计值
。，SO(3), SE(3)上并有义的加，只是。果我
T 当成一个普矩阵来理优化，必须加以约束。从李
代角度来说，由于李代由向量组成，具有的加运。此，
用李代解导问题的思分为两种：
1.用李代表示态，后根李代加来李代导。
2. 李左乘右乘微动，后该动导，称为左动
和右动。
第一种方式应李代的导，第二种则应动
。下面来讨论这两种思的异同。
4.3.3　李代数求导
首先，虑SO(3)上的情。设我一个空进行了旋转， p
得了 Rp
。现，要计旋转之后的坐标相于旋转的导，我不
严谨记为[5] ：
由于SO(3) 有加，所以该导无导的义进行计。设

R 应的李代为ϕ ，我转计：
导的义，有：
第2行的近为BCH 性近，第3行为勒展开去高阶项后的近

，第4行至第5行反称符号看叉积，交之后变号。于是，我
推导出了旋转后的相于李代的导：
不过，由于这里仍含有形式比杂的 Jl ，我不太希望计
。下面要讲的动则了更单的导计方式。
4.3.4　扰动模型（左乘）
另一种导方式，是 R
进行一次动∆ 。这个动可以乘左 R
也可以乘右，最后果会有一微的差异，我以左动为
。设左动∆ R应的李代为。后， φ
导，即： φ
该式的导比上面更为单：
可见，相比于直李代导，省去了一个雅可比 Jl 的计。这
得动更为用。请读务必理解这里的导运，这位估
计当中具有重要的意义。
4.3.5　SE(3)上的李代数求导
最后，我给出SE(3)上的动，直李代上的导不再
介了。设某空 p 过一次变（应李代为 T
），得 ξ Tp
[6]
T
。现，给左乘一个动∆ =exp( T δξ
∧ )，我设动项的李代
δξ δρ,δ
为 =[ ϕ ]T ，么：
我最后的果义成一个符 ⊙ [7]
，一个齐次坐标的空
变 ×
成一个4 6的矩阵。
至此，我已介了李李代上的微分运。之后的章中，
我应用这些知识去解际问题。关于李李代的某些重要
性质，我为习题留给读。
4.4　实践：Sophus
我已介了李代的知识，现是过练巩一下
所知识的机会了。我来讨论程序中操李代。第3讲中，
我看 Eigen 了几，有李代的。一个的
李代库是Strasdat 护的Sophus库[8] 。Sophus库本章主要讨论的
,
SO(3)和SE(3)，此还含有二运动SO(2) SE(2)以及相变 Sim(3)
的。是直 Eigen 础上开发的，我不需要安装额的赖
库。读可以直从GitHub上获取Sophus[9] ，，本书的代码目录
slambook/3rdparty下也了Sophus 代码。由于历史原，Sophus早
期版本只了双度的李 /李代。后版本成了板。
板的Sophus中可以用不同度的李 /李代，同时加了用难
度。本书用非模板类的Sophus库。果读用GitHub上的
Sophus，请确用的是非模板类的版本。可以以下命令获得非
板的Sophus：
本书的3rdparty中的Sophus也是非板版本。Sophus本亦是

一个cmake工程。想必已了解译cmake工程了，这里不再赘
。Sophus库只需译即可，无须安装。
下面来示一下Sophus库中的SO(3)和SE(3)运：
slambook/ch4/useSophus/useSophus.cpp
该示程序分为两分。前半分介 SO(3)上的操，后半分则
为SE(3)。我示了 ,
构造SO(3) SE(3) 象，进行、
映，以及当知更新量后，李进行更新。果读切
理解了本讲，么这个程序来说应该有什么难度。为了
译，请 CMakeLists.txt里加以下几行：
slambook/ch4/useSophus/CMakeLists.txt
fi nd_package命令是cmake 的寻找某个库的件与库件的

令。果cmake 找，会件和库件所的目录的变
量。 Sophus 这个中，是 Sophus_INCLUDE_DIRS 和
Sophus_LIBRARIES这两个变量。根，我 Sophus库引
己的cmake工程了。请读行查看此程序的出息，与我之前的
推导是一致的。
4.5　*相似变换群与李代数
最后，我要一下单目视觉中用的相变 Sim(3)，以及
应的李代 sim(3)。果只双目SLAM RGB-D SLAM感兴趣，可以
过本。
我已介过单目的度不确性。果单目SLAM中用SE(3)
表示位，么由于度不确性与度移，个SLAM过程中的度
会发生变化，这 SE(3)中未现出来。此，单目情下我一
会显式度表出来。用语言来说，于位于空的 p
，相机坐标下要过一个，非相似变换
变：
相变中，我 s
度表了出来。同时用的3个坐 p
标之上， p
进行了一次。与SO(3)、SE(3)相，相变亦矩
阵乘构成，称为相变 Sim(3)：
同样，Sim(3)也有应的李代、映、映等。李代

sim(3) 是一个7 向量 ζ 。的前6 与se(3)相同，最后了一
σ
项。
比se(3) 了一项 σ 。关 Sim(3)和sim(3)的仍是映和

映。映为
其中Js 形式为
过映，我找李代与李的关。于李代
ζ ，与李的应关为
旋转分和SO(3)是一致的。平移分， se(3)中需要乘一个雅可
J
比，相变的雅可比更杂一些。于度，可以看李
s
中的即为李代中的。σ
Sim(3)的BCH近与SE(3)是的。我可以讨论一个过相 p
变 Sp S
后，相于的导。同样，存微分和动两种
方式，动为单。我省略推导过程，直给出动的
果。设给予 Sp
左一个动exp( ∧ )，并 ζ
于动的导。 Sp
为 Sp
是4 的齐次坐标， ζ
是7 向量，该导应该是4 7的雅可 ×
比。为了方起见，记 Sp
的前3 组成向量，么： q
关于Sim(3)，我介这里。更详细的关于Sim(3)的资料，建
议读参见献[21]。
4.6　小结
本讲引了李 SO(3) 和 SE(3) ，以及应的李代 so(3) 和
se(3)。我介了位上面的表和转，后过BCH的性
近，我可以位进行导和动了。这给之后讲解位的优化
下了理论础，为我需要常某一个位的估计进行调，
应的误差。只有弄楚位进行调和更新之后，
我才下一步的。
可本讲的比理论化，毕竟不计机视觉样常有
看的图片可以展示。相比于讲解李李代的科书，由于我
只关心用的，所以讲的非常，速度相快了一些。请读
务必理解本章，是解后许问题的础，是位估计
分。
习题
1.验证SO(3)、SE(3)和Sim(3)关于乘成。
2.验证(R3 , R,× )构成李代。

3.验证so(3)和se(3) 足李代要的性质。
4.验证性质（4.20）和（4.21）。
5.证明：
6.证明：
该式称为SO(3)上的伴随性质。同样， SE(3)上亦有随性质：
其中：
7. 左动的推导，推导SO(3)和SE(3) 右动下的导。
8. cmake的 fi nd_package 令是运的。有哪些可的
参？为了让cmake找某个库，需要哪些先条件？
[1] 谐音“ 咬 ”。
[2] 反性是己与己的运为零。
[3] 请意有些方旋转前面，平移后面，也是可行的。
[4] 参见https://en.wikipedia.org/wiki/Baker-Campbell-Hausdorff_formula。
[5] 请意这里并不矩阵微分来义导，这只是一个记号。同时，后极

运中，严谨的需要分进行转，才得现的果。这里为方书省
去。
p
[6] 请意为了乘成立，必须用齐次坐标。
[7] 我会读 “咚”，一个石井里的音。
[8] 最早出李代的是Sophus Lie，这个库以的名字命名了。
[9] https://github.com/strasdat/Sophus。
第5讲　相机与图像
主要目标
1.理解相机的、参与径向畸变参。
2.理解一个空是影相机成平面的。
3. OpenCV的图存与表方式。
4. 会本的标方。
前面两讲中，我介了“机器人表示位 ”的问题，
分解了 SLAM 典中变量的含义和运动方程分。本讲讨
论“机器人观世界”，也是观方程分。以相机为
主的视觉SLAM中，观主要是的过程。相机成像
我现生中看量的片。计机中，一张片由很
个组成，个记录了彩亮度的息。三世界中的一个
反发出的光，穿过相机光心后，影相机的成平面上。
相机的感光器件光后，产生量，得了，形成了我
见的片。这个过程否用原理来呢？本讲首先讨论相
机，说明影关具，相机的参是什么。同时，单
介双目成与RGB-D相机的原理。后，介二片的本操
。最后，根参的含义，示一个云的验。
5.1　相机模型
相机三世界中的坐标（单位为）映二图平面（单
位为）的过程用一个几进行。这个有很种，
其中最单的称为针孔模型。是很常用且有的，
了一束光过之后，面影成的关。本书中我
用一个单的相机来这种映关进行建。同时，由于
相机上的透的存，得光影成平面的过程中会产生畸
变。此，我用和畸变两个来个影过程。
本先给出相机的，再透的畸变进行讲解。这
两个的三影相机成平面，构成相机的内
参数。
5.1.1　针孔相机模型
中理课上，我可见过一个蜡影验：一个暗
的前方着一的蜡，蜡的光透过暗上的一个影
暗的后方平面上，并这个平面上形成一个立的蜡图。这个
过程中，三世界中的蜡影一个二成平面。
同理，我可以用这个单的来解相机的成过程，图5-1所
示。
图5-1　相机
现来这个单的进行几建。设为相机坐 O-x-y-z

标，习惯上我让 z
向相机前方，向右，向下。为 x 机y O
的光心，也是中的。现世界的空，过 P O
影之后，落理成平面 ′ O -x -y
′ ′ 上，成为 ′ 。设的坐标 P P
为[X,Y,Z ] ，P′ 为[X′ ,Y′ ,Z′ ] ，并且设理成
T T
平面的
离为f （）。么，根三角形相关，有：
其中负号表示成的是立的。为了化，我可以成平
面称相机前方，和三空一起机坐标的同一，
图5-2的中图所示。这样可以公式中的负号去，式更加：
图5-2　真成平面，称成平面，归一化成平面的图示。
理得：
读可要问，为什么我可以看随意成平面前方
呢？这只是我理真世界与相机影的，并且，相
机出的图并不是 ——相机的软件会帮转这张图，所
以看的一是正着的，也是称的成平面上的。所以，尽
从理原理来说，成应该是，由于我图了预
理，所以理解成称平面上的并不会带来什么坏。于是，不引
起义的情下，我也不加制称后一种情为。
式（5.3）了 P
和的之的空关。不过，相机中，
我最终获得的是一个个的，这需要成平面上进行样和
量化。为了感器感受的光转成图的过程，我设
理成平面上着一个平面。我平面得了o-u-v
P
′ 的像素坐标 u,v
：[ ]T 。
像素坐标系常的义方式是：原 o′ 位于图的左上角，u

[1]
向右与 x 平行， v 向下与 y 平行。坐标与成平面之

，相差了一个缩放和一个原点的平移。我设坐标 u 上
了α ， v 上了β 。同时，原平移了[cx ,cy ] 。 T
么，P′ 的坐标与坐标[u,v ] 的关为 T
代式（5.3）并 αf 合并成fx ， βf 合并成fy ，得：
其中， f 的单位为， α,β 的单位为 / ，所以 fx ,fy 的单位

为。该式成矩阵形式会更加，不过左需要用齐次坐
标：
我的习惯 Z 左：
该式中，我中的量组成的矩阵称为相机的内参数矩阵
K
（CameraIntrinsics）。常认为，相机的参出厂之后是
的，不会用过程中发生变化。有的相机生产厂商会告诉相机的
参，有时需要己确相机的参，也是所谓的。于标标定
业已成，且上找量的标，这里不介了。
有参，也有相的参。虑式（5.6）中我用的是
P 相机坐标下的坐标。由于相机运动，所以的相机坐标应该是 P
P
的世界坐标（记为 w ），根相机的当前位变相机坐标下的
果。相机的位由的旋转矩阵 R 和平移向量t 来。么有：
意后一个式隐含了一次齐次坐标非齐次坐标的转（看

出来吗？）。了的世界坐标 P坐标的影关。其中，相
机的位 R,t
又称为相机的外参数
（Camera Extrinsics）。相比于不
变的参，参会随着相机运动发生变，同时也是SLAM中待估计的目
标，代表着机器人的。
上式两是齐次坐标。为齐次坐标乘上非零常后表同样的
含义，所以可以单去： Z
这样等号意义变了，成为齐次坐标下相等的念，相差了一

个非零常。为了麻，我还是从意义上来义书等号。
这里还是一下隐含着的齐次非齐次的变。可以看，右的
TPw 表示一个世界坐标下的齐次坐标变相机坐标下。为了
与K 相乘，需要取的前三组成向量—— 为TPw 最后一为1。此
时，于这个三向量，我还可以齐次坐标的方式，最后一
进行归一化处理，得 P 相机归一化平面上的影：
Pc 可以看成一个二的齐次坐标，称为归一化坐标。位于
这时
相机前方z =1 的平面上。该平面称为归一化平面。由于 Pc 过参
之后得了坐标，所以我可以坐标[u,v ] 看成归一化
T
平面上的进行量化量的果。
至此，相机的成我讲楚了。
5.1.2　畸变
为了获得的成果，我相机的前方加了透。透的加
成过程中光的会产生新的影响：一是透的形光
的影响，二是机械组装过程中，透和成平面不可平
行，这也会得光穿过透影成面时的位发生变化。
由透
形引起的畸变称为。径向畸变
中，一条直
影平面上还是一条直。可是，际的片中，机的
透往往得真环中的一条直图片中变成了曲 [2] 。越靠近图
的，这种现象越明显。由于际加工制的透往往是中心称
的，这得不规则的畸变常径向称。主要分为两：桶形畸
变枕形畸变
和，图5-3所示。
图5-3　径向畸变的两种。
桶形畸变是由于图率随着与光之的离加，
枕形畸变则恰相反。这两种畸变中，穿过图中心和光有交的
直还形不变。
除了透的形会引径向畸变，相机的组装过程中由于不
透和成面严格平行也会引切向畸变，图5-4所示。
图5-4　切向畸变来示意图。
为更理解径向畸变和切向畸变，我用更严格的形式两
进行。我知，平面上的意一 p
可以用笛卡坐标表示为
x,y
[ ]T ，也可以成极坐标的形式[ r,θ
]T ，其中表示与 r p
坐标原之的离， θ 表示与平的夹角。径向畸变可看成坐标
着度方向发生了变化 δr
，也是其离原的度发生了变
化。切向畸变可以看成坐标着切方向发生了变化，也是平夹
角发生了变化δθ 。
于径向畸变
，无论是桶形畸变还是枕形畸变，由于是随着
与中心之的离加加，此可以用一个项式来畸变
前后的坐标变化：这畸变可以用与中心的离有关的二次及高次
项式进行正。其中[ x,y
]T 是未正的的坐标，[ corrected x ,y
corrected ]T 是正后的的坐标。意，是归一化平面上的，
不是平面上的。
式(5.11) 的正中，于畸变的图中心区，畸

变正主要是 1 起用；k 于畸变的区，主要是 2 起 k
用。普用这两个很正径向畸变。畸变很的
，比鱼眼，可以加 k 3 畸变项畸变进行正。
另一方面，于切向畸变，可以用另的两个参 p ,p

1 2 来进
行正：
此，合式 (5.11) 和式 (5.12) ，于相机坐标中的一 P
(X,Y,Z )，我过5个畸变找这个平面上的正确位
：
1. 三空影归一化图平面。设的归一化坐标为[ x,y
]T 。
2. 归一化平面上的进行径向畸变和切向畸变正。
3. 正后的过参矩阵影平面，得该图
上的正确位。
上面的正畸变的过程中，我用了5个畸变项。际应用中，
可以正，比只 k ,p ,p
1 1 2 这3项等。
这一中，我相机的成过程用进行了建，也

透引起的径向畸变和切向畸变进行了。际的图中，
出了很其的，比相机的和透视等，同时
也存很其的畸变。虑视觉SLAM中一用普的
，有及径向畸变和切向畸变已足，此，我不再
其进行。
得一的是，存两种去畸变理（Undistort，称畸变校正）
。我可以先张图进行去畸变，得去畸变后的图，
后讨论此图上的的空位。，也可以先虑图中的某个
，后去畸变方程，讨论其去畸变后的空位。二是可行
的，不过前视觉SLAM中乎更加常见一些。所以，当一个图去畸
变之后，我可以直用建立影关，不用虑畸变
了。此，后的讨论中，我可以直设图已进行了去畸变
理。
最后，我一下单目相机的成过程：
1.首先，世界坐标下有一个 P ，世界坐标为Pw 。
的
2.由于相机运动，的运动由 R,t 变矩阵 T∈ SE(3) 。 P

的相机坐标为
3.这时的仍有 X,Y,Z
三个量，影归一化平面 Z =1上，
得 P
的归一化相机坐标： c =[ / P X Z,Y /Z, 1] T [3]
。
4.最后， P 的归一化坐标过参后，应的坐标： Puv

=KPc 。
上所，我一谈了种坐标：世界坐标、相机坐标、归一
化相机坐标和坐标。请读厘的关，反映了个成的
过程。
5.1.3　双目相机模型
相机了单个相机的成。，仅根一个
，我是无确这个空的具位的。这是为，从相机光心
归一化平面连上的所有，可以影至该 P
上。只有当的
度确时（比过双目 RGB-D相机），我才确切知的空
位。图5-5所示。
图5-5　可存的位。
量离（度）的方式有很种，人眼可以根左右
眼看的景差异（称视差）来断与我之的离。双目相
机的原理亦是此：过同步集左右相机的图，计图视差，
来估计一个的度。下面单讲讲双目相机的成原理（图5-6
所示）。
双目相机一由左眼相机和右眼相机两个平的相机组成。当
也可以成上下两个目[4] ，不过我见的主双目是成左右形
式的。左右双目相机中，我可以两个相机看相机。
是平的，意味着两个相机的光中心位于 x
上。两之的
离称为双目相机的基线（Baseline，记b），是双目相机的重要参
。
图5-6　双目相机的成。O L ,O R 为左右光中心，方框为成平面，为 f
。 u L 和u R 为成平面的坐标。请意，图中坐标义， u R 应该是负
，所以图中标出的离为 -u R 。
现，虑一个空 P，左眼相机和右眼相机各成一，记
PL ,PR。由于相机的存，这两个成位是不同的。理想情
下，由于左右相机只 x 上有位移，此 P 的也只 x （应图
的u ）上有差异。记的左坐标为uL ，右坐标为uR 。么，其
几关图5-6右所示。根 △PPL PR 和△POL OR 的相关，有：
稍加理，得：
d
这里，为左右图的坐标之差，称为（Disparity）。根视差
视差，我可以估计一个与相机之的离。视差与离成反比：
视差越，离越近[5] 。同时，由于视差最为一个，于是双目的
度存一个理论上的最，由确。我看，当 fb 越时，
双目的最离会越远；反之，双目器件则只量很近
的离。
虽由视差计度的公式很，视差 d本的计却比
难。我需要确切知左眼图某个出现右眼图的哪一个位
（即应关），这件事亦属于“人觉得易计机觉得
难”的务。当我想计个的度时，其计量与度成
为问题，且只有图纹理变化丰的方才计视差。由于计
量的原，双目度估计仍需要用GPU FPGA来计。这第13讲中
。
5.1.4　RGB-D相机模型
相比于双目相机过视差计度的方式，RGB-D相机的更
为“主动”一些，主动量个的度。目前的RGB-D相机
原理可分为两（见图5-7）：
1. 过红外结构光（Structured Light）来量离的。
有Kinect 1代、Project Tango 1代、Intel RealSense等。
2. 过飞行时间法（Time-of- fl ight，ToF）原理量离
的。有Kinect 2代和一些现有的ToF 感器等。
图5-7　RGB-D相机原理示意图
无论是哪种，RGB-D相机需要向目标发一束光（常

是光）。构光原理中，相机根的构光图案，计
与之的离。 ToF原理中，相机向目标发光，后根
发之的光束飞行时，确与之的离。ToF原理
和光感器十分相，只不过光是过逐扫来获取离， ToF
相机则可以获得个图的度，这也正是RGB-D相机的。所
以，果一个RGB-D相机开，常会发现除了普的之，
至会有一个发器和一个器。
量度之后，RGB-D相机常生产时的各相机位，
己成度与彩图之的，出一一应的彩图和度
图。我可以同一个图位，读取彩息和离息，计
的3D相机坐标，生成云（Point Cloud）。 RGB-D ，既可以
图层面进行理，亦可云层面理。本讲的第二个验示
RGB-D相机的云构建过程。
RGB-D相机时量个的离。是，由于这种发
- 的量方式，其用比受。用光进行度量的
RGB-D相机，易受日光其感器发的光干，此不
用，同时用个时也会相互干。于透材质的，为
不反光，所以无量这些的位。此，RGB-D相机成
本、功方面，有一些劣势。
5.2　图像
相机加上，三世界中的息转成了一张由组成的
片，随后存计机中，为后理的来。中，图
可以用一个矩阵来；计机中，占一连的磁盘
存空，可以用二组来表示。这样一来，程序不必区理
的是一个矩阵，还是有际意义的图了。
本，我介计机图理的一些本操。，过
OpenCV中图的理，理解计机中理图的常见步骤，为后
章下础。
计算机中图像的表示
我从最单的图 —— 度图说起。一张度图中，个
位 (x,y ) 应一个度 I ，所以，一张度为 w 、高度为 h 的图
，上可以记为一个矩阵：
，计机并不表个空，所以我只某个
图进行量化。，常见的度图中，用0～255的（即一个
unsigned char，1个字）来表图的度。么，一张度为
640 、高度为480 分率的度图可以表示为
为什么这里的二 ×
组是480 640呢？为程序中，图以二
组形式存。的第一个下标是组的行，第二个下标则是列。
图中，组的行应图的高度，列应图的度。
下面这幅图的。图是由组成的。当访问某一
个时，需要明所的坐标，图5-8所示。
图5-8　图坐标示意图。
图5-8左显示了坐标的义方式。坐标原位于

图的左上角， X
向右， Y
向下（也是前面所说的坐标）。 u,v
果还有第三个 —— Z
，么根右则，应该是向前 Z
的。这种义方式是与相机坐标一致的。我平时说的图的度
列，应着 X；图的行高度，则应着的。 Y
根这种义方式，果我讨论一个位于 x,y 的，么
程序中的访问方式应该是
应着度 ( I x,y
)的读。请意这里的和的顺序。虽 x y
我不厌其讨论坐标的问题，是这种下标顺序的误，仍
会是新调试过程中常碰的，且具有一隐蔽性的误之一。
果程序时不慎调了的坐标，译器无x,y 息，
所看的只是程序运行中的一个越界误已。
一个的度可以用8位记录，也是一个0～255的。当我
要记录的息更时，一个字恐怕不了。， RGB-D相机的
度图中，记录了各个与相机之的离。这个离常是以
为单位， RGB-D相机的量程常十几左右，超过了255。这时，人
会用16位（C++中的unsigned short）来记录度图的息，也
是位于0～65536的。成的话，最可以表示65 ，足 RGB-D
相机用了。
彩图的表示则需要（channel）的念。计机中，我
用、和蓝这三种颜的组合来表意一种彩。于是于
一个，要记录其R、G、B三个，一个称为一个
。，最常见的彩图有三个，个由8位表示。
这种规下，一个占 24位空。
的量、顺序是可以由义的。 OpenCV的彩图中，
的默认顺序是B、G、R。也是说，当我得一个24位的时，
前8位表示蓝，中 8位为，最后8位为。同理，亦可用
R、G、B的顺序表示一个彩图。果还想表图的透明度，用
R、G、B、A 个。
5.3　实践：图像的存取与访问
下面过一个示程序来理解， OpenCV中图是存取，我
又是访问其中的的。
5.3.1　安装OpenCV
OpenCV[6] 了量的开图，是计机视觉中用极广的
图理库。本书也用OpenCV 本的图理。用之前，
建议读从代码安装。 Ubuntu下，有从源代码安装只安装库文和
件两种方式可以：
1.从代码安装，是从OpenCV 站下所有的OpenCV 代码，并
机器上译安装，以用。是可以的版本比丰，且
看代码，不过需要费一些译时。
2.只安装库件，是过Ubuntu来安装由Ubuntu社区人员已
译的库件，这样无须重新译一。
由于我用新版本的OpenCV，所以必须从代码来安装。一
来，可以调一些译项，匹程环（，需不需要GPU加速
等）；再，代码安装可以用一些额的功。OpenCV目前护了
两个主要版本，分为OpenCV 2.4 列和OpenCV 3 列。本书用OpenCV
3 列。
由于OpenCV工程比，不本书的3rdparty下了。请读从
http://opencv.org/downloads.html下， OpenCV for Linux版本
即可。会获得一个 opencv-3.1.0.zip这样的压包。解压
意目录下，我发现OpenCV亦是一个cmake工程。
译之前，先来安装OpenCV的赖项：
事上，OpenCV的赖项很，某些译项会影响的分功

（不过我也不会用所有功）。OpenCV会 cmake阶检查赖项
是否会安装，并调己的功。果的电上有GPU并且安装了相关
赖项，OpenCV也会 GPU加速开。不过于本书，上面些赖项
足了。
随后的译安装和普的cmake工程一样，请 make之后，调用sudo
make install OpenCV安装的机器上（不是仅仅译）。视机
器，这个译过程需要二十分一个时不等。果的CPU
比强，可以用“make-j4”这样的命令，调用个程进行译（-j
后面的参是用的程量）。安装后， OpenCV 默认存
/usr/local目录下。可以去寻找OpenCV 件与库件的安装位
，看看哪里。另，果之前已安装了OpenCV 2 列，
么建议 OpenCV 3安装的方（想想这应该操）。
5.3.2　操作OpenCV图像
下来过一个程悉一下OpenCV 图的操。
slambook/ch5/imageBasics.cpp
该程中，我示了下几个操：图读取、显示、
历、制、赋等。分的解已代码里面。译该程序时，
需要 CMakeLists.txt中加OpenCV的件，后程序库
件上。同时，由于用了C++11标（ nullptr和chrono），还需要设
一下译器：
关于代码，我给出几说明：

1.程序从argv[1]，也是命令行的第一个参中读取图位。我
为读了一张图（ubuntu.png，一张Ubuntu的纸，希望喜
欢）试用。此，译之后，用下命令调用此程序：果
Kdevelop中调用此程序，请务必确参同时给。这可以启动项
中。
2.程序的10～17行，用cv::imread 读取图，并图和

本息显示出来。
3. 32～52行，历了图中的所有，并计了个循环所用
的时。请意的历方式并不是唯一的，且程给出的方式也
不是最高的。OpenCV 了代器，可以过代器历图的
。，cv::Mat::data 了向图开的，可以直
过该行计移量，后得的际存位。程所用
的方式是为了于读理解图的构。笔的机器上（虚机），
历这张图用时约12.74ms。可以比一下己机器上的速度。不
过，我用的是cmake默认的debug 式，果用release 式会快很
。
4.OpenCV 了许图进行操的，我此不一一列
举，否则本书会变成OpenCV操册了。程给出了为常见的读
取、显示操，以及制图中可陷的贝误区。程过程
中，读还会碰图的旋转、等操，这时应该行查
应的档，以了解的原理与用方式。
应该出，OpenCV并不是唯一的图库，只是许图库里用
广的一个。不过，图库图的表是同异的。我
希望读了解了OpenCV 图的表示后，理解其库中图的表
，从需要格式时己理。
另，由于cv::Mat亦是矩阵，除了表示图之，我也可以用
来存位等矩阵。只是一认为，Eigen 于的矩阵
用起来率更高一些。
5.4　实践：拼接点云
最后，我来练习一下相机参的用方。本程序了5张
RGB-D图，并且知个图的参和参。根 RGB-D图和相机
参，我可以计一个相机坐标下的位。同时，根相
机位，又计这些世界坐标下的位。果所有的
空坐标出来，相当于构建一张于图的东西。现我来
练习一下。
我了5 图，位于slambook/ch5/joinMap中。 color/下有
1.png 5.png 5张RGB图， depth/下有5张应的度图。同时，
T
pose.txt 件给出了5张图的相机位（以 wc 形式）。位记录的形
式是平移向量加旋转：
其中 qw 是的。，第一图的参为：
下面我一程序，成两件事：(1).根参计一 RGB-D图

应的云；(2).根各张图的相机位（也是参），云加
起来，组成图。
本书的云库用PCL（Point Cloud Library） [7] 。PCL的安装比

易，行以下命令即可 [8] ：安装成后， PCL 的件安装
/usr/include/pcl-1.7下，库件位于/usr/lib/下。
现分的程序：
slambook/ch5/joinMap/joinMap.cpp
一说明：
1.14～37行，读取彩和度图及位息，并位从
与平移向量转为变矩阵。意程序里用了boost::format进行字
符串的格式化。
2.65～78行：计位于( u,v )、
度为的 d 相机坐标下的
位，并根参变世界坐标。我知 p
，相机坐标 c
坐标( u,v,d )的关为
反推 pc 的形式亦非常单。设 pc =[x,y,z ]，么：
3.为了译此程序，我需3个库：Eigen、OpenCV和PCL。此主程

序的CMake-Lists.txt应该下：
最后，我生成的云以PCD格式存 map.pcd中。用PCL 的
可视化程序开这个件：
随后可以看合的云图了（见图5-9）。可以动鼠标查

看。
图5-9　查看合的云图。
这个程中，我用相机参和参来计世界坐标

中的位，并合并成一个云。这是一个合性的示，请读
细会并其。
习题
1.*寻找一相机（的机笔记本的即可），标的
参。可会用标板，己印一张标用的棋盘格。
2.叙相机参的理意义。果一相机的分率变为原来的两
其方不变，的参变化？
3. 相机（鱼眼景相机）的标方。与普的
有不同
4.调研快相机（global shutter）和卷帘快相机（rolling
shutter）的异同。 SLAM中有优？
5.RGB-D相机是标的？以Kinect为，需要标哪些参？
（参 https://github.com/code-iai/iai_kinect2。）
6.除了示程序示的历图的方式，还举出哪些历图
的方？
7.* 读OpenCV 方程，习的本用。
[1] 图坐标，见本讲第2 。
[2] 是的，不再直了，是变成弯的。果往里弯，称为桶形真；往弯则是枕形

真。
[3] 意可 Z
于1，说明该位于归一化平面后面，可不会相机平面上成
，当中要检查一次。
[4] 样的话观会有些。
[5] 读可以己用眼睛一下。
[6] 方主页：http://opencv.org。
[7] ：http://pointclouds.org/。
[8] Ubuntu 16.04下请过apt-get安装，想想这该怎么。

第6讲　非线性优化
主要目标
1.理解最二乘的含义和理方式。
2.理解高斯顿（Gauss-Newton）、列伯格—马夸方
（Levenburg-Marquadt）等下降略。
3. 习Ceres库和g2o库的本用方。
前面几讲，我介了典SLAM 的运动方程和观方程。现
我已知，方程中的位可以由变矩阵来，后用李代
进行优化。观方程由相机成给出，其中参是随相机的，
参则是相机的位。于是，我已弄了典SLAM 视觉情
下的具表。
，由于的存，运动方程和观方程的等式必不是确
成立的。尽相机可以非常符合，憾的是，我得
的常是受各种未知影响的。即我有高度的相机，运动
方程和观方程也只近成立。所以，与其设必须符合方程，
不来讨论有的中进行确的态估计。
现代视觉SLAM 不需要么高成本的感器，甚至也不
需要么昂贵的理器来计这些，这是的功劳。由于
SLAM问题中，同一个往往会被一相机不同的时次观，同
一相机个时刻观的也不止一个。这些交织一起，
我有了更的约束，最终从中恢出我需要
的东西。本介过优化理，并且由这些表层逐
图优化本质，给出图优化的解步介并且训练
。
6.1　状态估计问题
6.1.1　最大后验与最大似然
着前面几讲的，我顾一下第2讲讨论的典SLAM 。
由一个态方程和一个运动方程构成，式(2.5)所示：
过第4讲的知识，我了解这里的 xk 乃是相机的位。我可以

用变矩阵李代表示。至于观方程，第5讲已说明，即
相机。为了让读有更的印象，我不讨论一下其具
参化形式。首先，位变量 k 可以由 k x
exp( )表，二是等价 T
的。由于运动方程视觉SLAM中有性，我暂且不讨论，主要
讨论观方程。设 k x
标 j 进行了一次观，应图上的 y
位 zk,j ，么，观方程可以表示成
根上一讲的，读应该知，这里为相机 K s

参，为
的离。同时，这里的 k,j 和 j z
必须以齐次坐标来 y ，且中有
一次齐次非齐次的转。果还不悉这个过程，请上一讲再
细读。
现，虑受影响后会发生什么变。运动和观方程
中，我通常设两个 w ,v
项 k k,j 足零的高斯分布：
这些的影响下，我希望过带的 z 和u 推断位 x
和 y
图（以及的率分布），这构成了一个态估计问题。由于
SLAM过程中，这些是随时逐来的，所以历史上很一
时，研究用器，其是展卡曼器（EKF）解
。卡曼器关心当前时刻的态估计 k ， x
之前的态则不
虑；相，近年来普用的非性优化方，用所有时刻集
的进行态估计，被认为优于的器[13] ，成为当前视觉
SLAM的主方。此，本书重介以非性优化为主的优化方，
卡曼器则留第10讲再进行讨论。本讲介非性优化的
本知识，后第10讲、第11讲中进行更的分析。
首先，从率角度来看一下我正讨论什么问题。非性优
化中，所有待估计的变量一个“ 态变量”中：
现，我说，机器人态的估计，是已知 u 和观

z 的条件下，计 x
态的条件率分布：
x u z
于，这里和也是所有的称。，当有
量运动的感器，只有一张张的图时，即只虑观方程带来的
时，相当于估计 ( P x|z )的条件率分布。果忽略图时上的
，看一彼此有关的图片，该问题也称为Structure
from Motion（SfM），即从许图中重建三空构[22] 。这
种情下，SLAM可以看图具有时先后顺序，需要时解一个SfM
问题。为了估计态变量的条件分布，用贝叶斯则，有：
贝叶斯则左常称为后验概率，右的P (z|x )称为似然，

P x
另一分 ( )称为先验直接求后验分布是困难的，但是求一个状
。
态最优估计，使得在该状态下后验概率最大化（ Maximize a
Posterior， MAP），则是可行的：
请意贝叶斯则的分 x
分与待估计的态无关，可以忽
略。贝叶斯则告诉我，解最后验率相当于最大化似然和先验
的乘积。进一步，我当也可以说，不起，我不知机器人位
什么方，此时先验
有了 x 最大似然估计
。么，可以解的
（，
Maximize Likelihood Estimation ）
MLE ：
直观讲，是 “ 现的位下，可产生怎样的观

”。由于我知观，所以最估计可以理解成：“ 在什
么样的状态下，最可能产生现在观测到的数据” 。这是最估
计的直观意义。
6.1.2　最小二乘的引出
么最估计呢？我说，高斯分布的设下，最
有单的形式。顾观，于某一次观：
由于我设了项 vk ～N (0,Qk,j )，所以观的条件率

为
是一个高斯分布。为了计最化的 xk ,yj ，我往往
用最小化负对数的方式来一个高斯分布的最。
高斯分布负下有的形式。虑意高高斯分布 x～
N (µ, Σ)，的率度展开形式为
其取负，则变为
原分布最化相当于负最化。最化上式的 x
x
时，第一项与无关，可以略去。于是，只要最化右的二次项，
得了态的最估计。代 SLAM的观，相当于：
我发现，该式等价于最化项（即误差）的平方（Σ 意
义下）。此，于所有的运动和意的观，我义与估计
之的误差：
并该误差的平方和：这样得了一个总意义下的最二乘问

题（Least Square Problem）。我明白的最优解等价于态的最
估计。直观讲，由于的存，当我估计的与图代
SLAM的运动、观方程中时，并不会成立。这时怎么办呢？
我态的估计进行微调，得的误差下降一些。当这个下
降也有度，一会极小值
一个。这是一个典非性优化的
过程。
细观式(6.12)，我发现SLAM中的最二乘问题具有一些
的构：
•首先，个问题的目标由许个误差的（加权的）平方和组
成。虽总的态变量很高，个误差项是单的，仅与一
两个态变量有关。 x ,x
，运动误差只与 k- 1 k 有关，观误差只与
xk ,yj 有关。个误差项是一个规的约束，我之后会谈论
进行性近，最后再这个误差项的雅可比矩阵
的雅可比矩阵中。由于这种，我称个误差项应的优化变量为
参数块（Parameter Block 。）
• 误差由很误差项之和组成的问题，其量方程的解会
具有一的稀疏性（会第10讲详细讲解），得规时亦可
解。
•其次，果用李代表示，则该问题是的最二乘问无约束
题。果用旋转矩阵（变矩阵）位，则会引旋转矩阵
的约束（旋转矩阵必须是正交矩阵且行列式为1）。额的约束会优化
变得更难。这现了李代的优势。
•最后，我用了平方形式（二）度量误差，是直观的，相
当于空中离的平方。也存着一些问题，并且不是唯一的度
量方式。我亦可用其的构建优化问题。
现，我介解这个最二乘问题。本讲介非线性优
化的基本知识，，这样一个用的无约束非性最二乘问
题，讨是解的。后几讲，我会量用本讲的果，
详细讨论 SLAM前端、后端中的应用。
6.2　非线性最小二乘
我先来虑一个单的最二乘问题：
这里变量 x∈
R f
n ，是意非性，我设有 m ： f (x
)∈ R m 。下面讨论解这样一个优化问题。
果是个 f 形式上很单的，么问题也许可以用解析形
式来。令目标的导为零，后解 x 的最优，和二
的极一样：
解此方程，得了导为零的极。可是极、极
鞍的，只要逐个比的即可。是，这个方程是
否易解呢？这取于导的形式。 SLAM中，我用李代 f
来表示机器人的旋转和位移。尽我李代一讲讨论了的导形
式，这不代表我顺解上式这样一个杂的非性方程。
于不方直解的最二乘问题，我可以用迭代的方式，从
一个出发，不断更新当前的优化变量，目标下降。具
步骤可列下：
1.给某个 x 0 。
2. 于第 k次代，寻找一个量∆ xk ，得 ‖f (xk +∆xk )‖ 2

2
极。
3. ∆ xk 足，则止。
4.否则，令 xk +1 = xk +∆xk ，第2步。
这让解导为零的问题变成了一个不断寻找梯度并下降的过
程。直某个时刻量非常，无再下降。此时，目
标了一个极，我也成了寻找极的过程。这个过程
中，我只要找代的梯度方向即可，无须寻找导为零
的情。
下来的问题是，量∆ xk 确？际上，研究已费
了量力量的解方式。我介两办，用不同的
来寻找这个量。目前这两种方视觉SLAM的优化问题上被广
用，优化库可以用。
6.2.1　一阶和二阶梯度法
解量最直观的方式是目标 x 附近进行勒展开：
J ‖f x ‖
这里是 x
( ) 2 关于的导（雅可比矩阵），则是二 H
阶导（〔Hessian〕矩阵）。我可以留勒展开的一阶
二阶项，应的解方则为一阶梯度二阶梯度。果留一阶梯
度，么量的解为
的直观意义非常单，只要我着反向梯度方向前进即可。

常我还会计该方向上的一个步 λ ，得最快的下降方式。这种方
被称为最速下降法。
另一方面，果留二阶梯度息，么量方程为
右 x
等式关于∆ 的导并令为零，得了量的解：
该方又称为顿。我看，一阶和二阶梯度十分直观，

只要代附近进行勒展开，并更新量最化即可。
由于勒展开之后变成了项式，所以解量时只需解性方程
即可，了直导为零这样的非性方程的难。不过，这两
种方也存的问题。最速下降过于贪心，易走出齿
，反加了代次。顿则需要计目标的矩阵，这 H
问题规时非常难，我常向于的计。所以， H
下来我详细介两更加用的方：高斯顿和列伯格—马
夸方。
6.2.2　高斯牛顿法
高斯顿是最优化中最单的方之一。的思想是 f (x
)进行一阶的勒展开（请意不是目标 f x
( )2 ）：
J x f x x
这里 ( )为 ( )关于的导，际上是一个矩阵，也是 m×n
一个雅可比矩阵。根前面的框架，当前的目标是寻找下降矢量∆ ， x
得‖f x x ‖
( +∆ ) 2 最。为了 ∆ ，我需要解一个性的最x
二乘问题：
这个方程与之前有什么不一样呢？根极条件，上目标
∆x 导，并令导为零。由于这里虑的是∆ 的导（不是 x x
），我最后得一个性的方程。为此，先展开目标的平方
项：
x
上式关于∆ 的导，并令其为零：
可以得下方程组：
意，我要解的变量是∆ ，此这是一个 x 线性方程组

，我
称为增量方程，也可以称为高斯牛顿方程
（ Gauss Newton
正规方程
equation）（Normal equation）。我左的
H
义为，右 g
义为，么上式变为
这里左记 H 是有意义的。比顿可见，高斯顿用 T J
J 为顿中二阶Hessian矩阵的近，从省略了计的过程。 H 求
解增量方程是整个优化问题的核心所在。果我顺解出该方
程，么高斯顿的步骤可以成：
1.给 x 0 。
2. 于第 k次代，出当前的雅可比矩阵 J (xk )和误差f (xk )。
3. 解量方程： H ∆xk =g 。
4. xk 足
∆ ，则止。否则，令 xk +1 xk +∆xk ，
= 第2步。
从步骤中可以看，量方程的解占着主要位。原则

上，要我所用的近 H 矩阵是可的（且是正的），际
中计得的 T J J
却只有半正性。也是说，用高斯顿
J J
时，可出现 T 为异矩阵病态（illcondition）的情，此时
量的稳性差，导致不。更严重的是，我设非 H
异也非病态，果我出来的步 ∆ 太，也会导致我 x 用的
近 (6.19)不确，这样一来我甚至无证的代，哪
怕是让目标变得更是有可的。
尽高斯顿有这些，得我去习，为非
性优化里，相当的可以归为高斯顿的变种。这些
助了高斯顿的思想并且过己的进修正其。一些
线搜索方法 (line search method)，这进是加了一个标量 α
x
，确了∆ 后进一步找得α ( + ‖f x α x ‖
∆ ) 2
最，
不是高斯顿样单令 =1。α
列伯格—马夸方一程度上修正了这些问题，一认为
比高斯顿更为。尽的速度可会比高斯顿更
慢，被称为阻尼牛顿法（Damped Newton Method），是 SLAM里面却
被量应用。
6.2.3　列文伯格—马夸尔特方法
由于高斯顿中用的近二阶勒展开只展开附近有
的近果，所以我很想应该给∆ 加一个赖区 x
（Trust Region），不让太得近不确。非性优化中有
一列这方，这方也被称为信赖区域方法
（ Trust Region
Method）。赖区里，我认为近是有的；出了这个区，
近可会出问题。
么确这个赖区的呢？一个比的方是根我
的近际之的差异来确：果差异，我让
尽可；果差异，我这个近。此，虑用
来
断勒近是否。 ρ
的分是际下降的，分是
近下降的。果 ρ 近于1，则近是的。果太，说 ρ
明际的远于近的，则认为近比差，需要近
。反之，果比 ρ ，则说明际下降的比预计的更，我
可以近。
于是，我构建一个版的非性优化框架，该框架会比高斯
顿有更的果：
1.给 x 0 ，以及优化半径 µ。
2. 于第 k次代，解：
这里 µ 是赖区的半径，D 后说明。
3.计 ρ 。
4. 则µ =2µ 。
5. 则µ =0. 5µ 。
6. 果ρ 于某，则认为近可行。令xk +1 =xk +∆xk 。
7. 断是否。不则第2步，否则束。
这里近的和是验，可以替成的
。式(6.24)中，我量于一个半径为的球中，认为只 µ
这个球才是有的。带上之后，这个球可以看成一个椭球。列 D
伯格出的优化方中，取成单位阵，相当于直 D ∆ 约束一 I x
个球中。随后，马夸出取成非负 D
角阵—— 际中常用 T J
J的角平方根，得梯度的度上约束更一些。
不论，列伯格—马夸优化中，我需要解式(6.24)
样一个问题来获得梯度。这个问题是带不等式约束的优化问题，
我用格朗日乘转化为一个无约束优化问题：
这里 λ
为格朗日乘。于高斯顿中的，展开
后，我发现该问题的核心仍是计量的性方程：
可以看，量方程相比于高斯顿，了一项 λDT D 。果

D I
虑的化形式，即 = ，么相当于解：
我看，当参比 λ H
时，占主要位，这说明二次近
该是比的，列伯格—马夸方更近于高斯顿
。另一方面，当比 λ 时， λI
占主要位，列伯格—马夸
方更近于一阶梯度下降（即最速下降），这说明附近的二次近
不。列伯格—马夸方的解方式，可一程度上
性方程组的矩阵的非异和病态问题，更稳、更确的
x
量∆ 。
际中，还存许其的方式来解的量， Dog-Leg
等方。我这里所介的，只是最常见且最本的方式，也是视
觉SLAM中用得最的方式。总言之，非性优化问题的框架，分为
Line Search和Trust Region两。Line Search先方向，后
该方向寻找步，以最速下降和高斯顿为代表。 Trust
Region则先区，再虑找该区的最优。此方以列
伯格—马夸方为代表。际问题中，我常高斯顿
列伯格—马夸方为梯度下降略。
6.2.4　小结
由于不希望这本书变成一本让人觉得疼的科书，所以这里
只列了最常见的两种非性优化方案——高斯顿和列伯格—马
夸方。我开了许性质上的讨论。果读优化感兴
趣，可以进一步读专介优化的书（这是一个很的课
题）， [23]。以高斯顿和列伯格—马夸方为代表的优
化方，很开的优化库中已现并给用，我会下
进行验。最优化是理许际问题的本工具，不光视觉
SLAM中起着核心用，于度习等其领，也是解问题
的核心方之一。我希望读根力，去了解更的最优
化。
也许发现了，无论是高斯顿还是列伯格—马夸方，
最优化计时，需要变量的。也许会问，这个
否随意设？当不是。际上非性优化的所有代解方
案，需要用来一个的。由于目标太杂，导致
解空上的变化难以琢磨，问题不同的往往会导致不
同的计果。这种情是非性优化的病：易陷
极。此，无论是哪科问题，我应该有科
，视觉SLAM问题中，我会用ICP、PnP之的优化
。总之，一个的最优化问题非常重要！
也许读还会上面的最优化产生疑问：解性量方
程组呢？我只讲了量方程是一个性方程，是直矩阵
进行岂不是要进行量的计？当不是。视觉SLAM 里，
常 x
∆ 的度几百上千，果是要规的视觉三
重建，会常发现这个度可以易几十万甚至更高的级。要
么个矩阵进行是理器无负的，此存着许
性方程组的解方。不同的领有不同的解方式，
几乎有一种方式是直矩阵的，我会用矩阵分解的方
来解性方程， QR、Cholesky等分解方。这些方常矩阵论
等科书中可以找，我不加介。
幸运的是，视觉SLAM里这个矩阵往往有的稀疏形式，这为时
解优化问题了可性。我第10讲中详细介的原理。
用稀疏形式的消、分解，最后再进行解量，会让解的率
高。很开的优化库上，度为一万的变量一的PC上可
以几秒甚至更短的时被解出来，其原也是用了更加高级的
工具。视觉SLAM 现时现，也亏了矩阵是稀疏
的，果矩阵是稠的，恐怕优化这视觉SLAM 不会被界广
了[24,25,26] 。
6.3　实践：Ceres
我前面说了很理论，现来一下前面的优化。
本讲的分中，我主要向介两个C++的优化库：来谷的
Ceres库[27] 以及于图优化的g2o库 [28] 。由于g2o的用还需要介一
图优化的相关知识，所以我先来介 Ceres，后介一些图优化理
论，最后来讲g2o。由于优化之后的“视觉里程计”和“后端”中
会出现，所以请读务必优化的意义，理解程序的。
6.3.1　Ceres简介
Ceres库面向用的最二乘问题的解，为用，我需要的
是义优化问题，后设一些项，进Ceres 解即可。Ceres
解的最二乘问题最一的形式下（带界的核最二乘）：
可以看，目标由许平方项过一个核函数 ρ (· )之后

和组成[1] 。最单的情下，取为恒等 ρ ，则目标即为许
项的平方和。这个问题中，优化变量为 1 x ,···,xn ，fi 称为代
价函数（Cost function）， SLAM中亦可理解为误差项。lj 和uj 为第
j 个优化变量的上和下。最单的情下，取 lj =-∞,uj =∞
（不制优化变量的界），并且取ρ 为恒等时，得了无约束
的最二乘问题，和我先前说的是一致的。
Ceres中，我义优化变量 x 和个代价 fi ，再调用
Ceres进行解。我可以用高斯顿列伯格—马夸
方进行梯度下降，并设梯度下降的条件，Ceres会优化之后最优
估计。下面，我过一个曲合的验来际操一下
Ceres，理解优化的过程。
6.3.2　安装Ceres
为了用 Ceres ，首先需要进行译安装！建议去 GitHub 上下
Ceres：https://github.com/ceres-solver/ceres-solver。本书资的
3rdparty下也附带了Ceres库。
与之前碰的库一样，Ceres是一个cmake工程。先来安装的赖
项， Ubuntu中可以用apt-get安装，主要是谷己用的一些日志和
试工具：
后，进 Ceres库目录下，用cmake 译并安装。这个过程我

已过很了，此不再赘。安装成后，
/usr/local/include/ceres 下找 Ceres 的件，并
/usr/local/lib/下找名为libceres.a的库件。有了这些件，
可以用Ceres进行优化计了。
6.3.3　使用Ceres拟合曲线
我的示验包用Ceres和下来的g2o进行曲合。设
有一条足以下方程的曲：
其中 a,b,c
为曲的参，为高斯。我 w
意了这样一
个非性，以问题不至于太单。现，设我有个关于 N x,y
的观，想根这些出曲的参。么，可以解下
面的最二乘问题以估计曲参：
请意，这个问题中，待估计的变量是 a,b,c ， x
不是。我
一个程序，先根生成 x,y
的真，后真中加高斯分布
的。随后，用Ceres从带的合参。
slambook/ch6/ceres_curve_ fi tting/main.cpp
程序中需要说明的方已加。可以看，我用OpenCV的
生成器生成了100个带高斯的，随后用Ceres进行合。
Ceres的用下：
1. 义Cost Function 。方是书一个，并中义带
板参的()运符，这样该成为了一个（Functor，C++术
语）。这种义方式得Ceres可以调用一样，该的某个象
（比 a）调用a<double>()方 ——这象具有样的行为。
2.调用AddResidualBlock 误差项加目标中。由于优化需
要梯度，我有干种：（1）用Ceres的动导（Auto Di
ff）；（2）用导（Numeric Di ff）；（3）行推导解析的导
形式，给Ceres。其中动导码上是最方的，于是我
用动导。
3. 动导需要误差项和优化变量的度。这里的误差是标
量，度为1；优化的是 a,b,c
三个量，度为3。于是，动导
的板参中设变量度为1、3。
4.设问题后，调用solve 进行解。可以 options里
（非常详细的）优化项。，可以用Line Search还是
Trust Region、代次、步，等等。读可以查看Options的义，
看看有哪些优化方可，当默认的已可用于很广的问题
了。
最后，我来看看验果。调用build/curve_ fi tting查看优化
果：
从Ceres给出的优化过程可以看，误差约从18248下降了
50.9，并且梯度也是越来越。代22次后，最后的估计
为
我设的真为
相差不。
为了更直观显示，可以画出来，图6-1所示。其中显示
了带的、真和估计，可以看估计和真
非常近，几乎重合。我同时记录了Ceres的运行时，这样一个
100个的优化问题，计时约1.3ms（虚机上）。
希望读过这个单的 Ceres的用方有一个致了解。
的优是了动导工具，得不必去计很麻的雅可比矩
阵。Ceres的动导是过板现的，译时期可以成动
导工，不过仍是导。本书分时仍会介雅可比矩
阵的计，为样理解问题更有帮助，且优化中更出现问
题。此，Ceres的优化过程也很丰，其合很广的最二乘
优化问题，包 SLAM中的各种问题。
图6-1　用Ceres进行曲合。真和估计非常近。
6.4　实践：g2o
本讲的第2个分介另一个（主要 SLAM领）广为用的
优化库：g2o（General Graphic Optimization，G2 O）。是一个于
图优化的库。图优化是一种非性优化与图论合起来的理论，此
用之前，我一幅介一下图优化理论。
6.4.1　图优化理论简介
我已介了非性最二乘的解方式。是由很个误差
项之和组成的。，仅有一组优化变量和许个误差项，我并不
楚之的关联 x
。比，某个优化变量 j 存于个误差项中呢？
我证的优化是有意义的吗？进一步，我希望直观看
该优化问题长什么样。于是，涉了图优化。
图优化，是优化问题表现成图（ Graph）的一种方式。这里的图
是图论意义上的图。一个图由干个顶点（ Vertex），以及连着这
些顶的边（ Edge）组成。进，用顶点表示优化变量，用边表示
误差项。于是，意一个上形式的非性最二乘问题，我可以
构建与之应的一个图。
图6-2是一个单的图优化。我用三角形表示相机位，
用形表示标，构成了图优化的顶；同时，表示相机的
运动，虚表示观，构成了图优化的。此时，虽
个问题的形式仍是式(6.12) 样，现我可以直观看问题
的结构了。果希望，也可以去掉孤立顶点优先优化边数较多
（或按图论的术语，度数较大）的顶点这样的进。是最本的图优
化是用图来表一个非性最二乘的优化问题。我可以用
图的某些性质更的优化。
图6-2　图优化的。
g2o为SLAM 了图优化所需的。下面示一下g2o的用方

。
6.4.2　g2o的编译与安装
用一个库之前，我需要进行译和安装。读应该已
验过很次这种过程了，本同异。关于g2o，读可以从
GitHub下：https://github.com/RainerKuemmerle/g2o，从本书
的第三方代码库中获得。
解压代码包后，会看 g2o库的所有码，也是一个cmake工
程。我先来安装的赖项（分赖项与Ceres重合）：
后， cmake的方式 g2o进行译安装即可，这里略去该过

程的说明。安装成后，g2o的件位于/usr/local/g2o下，库件
位于/usr/local/lib/下。现，我重新虑Ceres 程中的曲合
验， g2o中验一。
6.4.3　使用g2o拟合曲线
为了用g2o，首先要曲合问题象成图优化。这个过程中，
只要记住节点为优化变量，边为误差项即可。曲合的图优化问题可
以画成图6-3的形式。
图6-3　曲合应的图优化。（莫明其有些华为的标志）
曲合问题中，个问题只有一个顶：曲的参 a,b,c

；各个带的，构成了一个个误差项，也是图优化的。
这里的与我平时想的不太一样，是一元边
（ Unary
Edge），即只连接一个顶点 —— 为个图只有一个顶。所以图6-
3中，我只画成己连己的样。事上，图优化中一条
可以连一个、两个个顶，这主要反映个误差与个优化变
量有关。稍有些玄的说中，我叫超边
（Hyper Edge），
个图叫超图
（Hyper Graph）[2] 。
弄了这个图之后，下来是 g2o中建立该进行优化
了。为g2o的用，我要的事主要包含以下步骤：
1. 义顶和的。
2.构建图。
3. 优化。
4.调用g2o进行优化，果。
下面示一下程序。
slambook/ch6/g2o_curve_ fi tting/main.cpp
这个程序中，我从g2o 生出了用于曲合的图优化顶和
：CurveFittingVertex和CurveFittingEdge，这质上展了g2o的
用方式。这两个生中，我重了重要的虚：
1.顶的更新：oplusImpl。我知优化过程最重要的是量
x
∆ 的计，该 x x x
理的是 k +1 = k +∆ 的过程。读也许觉得这
并不是什么得一的事情，为仅仅是个单的加已，为什么g2o
不帮我成呢？曲合过程中，由于优化变量（曲参）本
位于向量空间
中，这个更新计确是单的加。是，当优化变
x
量不向量空中时，比说是相机位，本不一有加运
。这时，需要重新义增量如何加到现有的估计上
的行为了。
第4讲的解，我可用左乘更新右乘更新，不是直的加。
2.顶的重：setToOriginImpl。这是平凡的，我估计
零即可。
3. 的误差计：computeError。该需要取出所连的
顶的当前估计，根曲，与的观进行比。这和最
二乘问题中的误差是一致的。
4.存盘和读盘：read、write。由于我并不想进行读/ 操
，所以留空。
义了顶和之后，我 main 里明了一个图，后
生成的，往图中加顶和，最后调用优化进
行优化。g2o会给出优化的果：
我用列伯格—马夸方进行梯度下降，代了16次
后，最后优化果与Ceres 验中相差无几。我也程序中了用
高斯顿和DogLeg下降方式，请读去前面的符号，行
比各种梯度下降方的差异。
6.5　小结
本介了SLAM中常碰的一种非性优化问题：由许个误差
项平方和组成的最二乘问题。我介了的义和解，并且讨论
了两种主要的梯度下降方式：高斯顿和列伯格—马夸方。
分中，分用了Ceres和g2o两种优化库解同一个曲合
问题，发现给出了相的果。
由于还有详细谈Bundle Adjustment，所以分了曲
合这样一个单有代表性的，以示一的非性最二乘解
方式。，果用g2o来合曲，必须先问题转为图优化，
义新的顶和，这种是有一些的——g2o的主要目的并不
此。相比之下，Ceres 义误差项曲合问题则了很，为
本即是一个优化库。， SLAM中更的问题是，一个带有许个
相机位和许个空的优化问题解。，当相机位以
李代表示时，误差项关于相机位的导计，是一件得详
细讨论的事。我后发现，g2o 了量的顶和的
，非常于相机位估计问题。 Ceres中，我不得不己现
一个Cost Function，有一些不。
分的两个程序中，我有去计曲关于三个参
的导，是用了优化库的导，这得理论和代码会一
些。Ceres库了于板的动导和运行时的导， g2o
只了运行时导这一种方式。是，于问题，果
推导出雅可比矩阵的解析形式并告诉优化库，可以导中
的诸问题。
最后，希望读应Ceres和g2o这些量用板程的方
式。也许一开会看上去比吓人（是Ceres设 Problem和g2o
化分的代码），是悉之后，会觉得这样的方式是的，且
易展。我 SLAM后端一讲中讨论稀疏性、核、位图
（Pose Graph）等问题。
习题
1.证明性方程 Ax =b 当矩阵 A超时，最二乘解为 x =(A T
A)- A b。
1 T
2.调研最速下降、顿、高斯顿和列伯格—马夸方

各有什么优。除了我举的Ceres库和g2o库，还有哪些常用的优
化库？（可会找一些MATLAB上的库。）
3.为什么高斯顿的量方程矩阵可不正？不正有什
么几含义？为什么这种情下解不稳了？
4.DogLeg是什么？与高斯顿和列伯格—马夸方有
异同？请相关的材料[3] 。
5. 读 Ceres 的材料（ http://ceres-
solver.org/tutorial.html）以更其用。
6. 读g2o 带的档，看懂吗？果还不看懂，请
第10讲和第11讲之后来再看。
7.*请更曲合验中的曲，并用Ceres和g2o进行优化
验。，可以用更的参和更杂的。
[1] 核的详细讨论见第10讲。
[2] 虽笔个人并不太喜欢有些弄玄虚的说。
[3] ，
http://www.numerical.rl.ac.uk/people/nimg/course/lectures/raphael/lectures/l
ec7slides.pdf。
主要目标
1.理解图征的意义,并单幅图中取出征及幅
图中匹征的方。
2.理解极几的原理，用极几的约束，恢出图之的
机的三运动。
3.理解PNP问题，以及用已知三构与图的应关解
机的三运动。
4.理解ICP问题，以及用云的匹关解机的三运动。
5.理解过三角化获得二图上应的三构。
本书前面介了运动方程和观方程的具形式，并讲解了以非
性优化为主的解方。从本讲开，我束础知识的步
正题：第2讲的，分介视觉里程计、优化后端、环检和
图构建4个。本讲和下一讲主要介为视觉里程计的主要理论，
后第9讲中进行一次。本讲关于征方式的视觉里程计
。我介什么是征、取和匹征，以及根
的征估计相机运动。
7.1　特征点法
顾第2讲的，我说过视觉SLAM主要分为视觉前端和优化后
端。前端也称为视觉里程计（VO）。根相图的息估计出略
的相机运动，给后端的。VO的现方，是否需要
取征，分为征的前端及不征的直前端。于征
的前端，久以来（直现）被认为是视觉里程计的主方。运
行稳，光、动态不感，是目前比成的解方案。本
讲中，我从征，习取、匹图征，后
估计两帧之的相机运动和景构，从现一个本的两帧视觉
里程计。
7.1.1　特征点
VO的主要问题是根图来估计相机运动。，图本是
一个由亮度和彩组成的矩阵，果直从矩阵层面虑运动估计，
会非常难。所以，我习惯于用这样一种：首先，从图中
取比有代表性点的。这些相机视角发生量变化后会不
变，所以我会各个图中找相同的。后，这些的础
上，讨论相机位估计问题，以及这些的位问题。典SLAM
中，称为路标。视觉 SLAM 中，标则是图征
（Feature）。
根百科的义，图征是一组与计务相关的息，计
务取于具的应用[29] 。言之，特征是图像信息的另一种数
字表达形式。一组的征于务上的最终表现至关重要，所
以年来研究费了量的力征进行研究。字图计
机中以度矩阵的方式存，所以最单的，单个图也是一
种“ 征”。是，视觉里程计中，我希望特征点在相机运动之后
保持稳定，度受光、形变、材质的影响严重，不同图
变化非常，不稳。理想的情是，当景和相机视角发生量
变时，还从图中断哪些方是同一个，此仅度是不
的，我需要图取征。
征是图里一些特别的地方
。以图7-1为。我可以图
中的角、和区当成图中有代表性的方。不过，我更
易确出，某两幅图中出现了同一个角；同一个则稍微
难一些，为着该前进，图是相的；同一个区则是最
难的。我发现，图中的角、相比于区言更加“
”，不同图之的识度更强。所以，一种直观的取征的方
式是不同图认角，确的应关。这种中，
角是所谓的征。
，应用中，单的角不足我的很需
。，从远看上去是角的方，当相机走近之后，可不显
示为角了。，当旋转相机时，角的观会发生变化，我也
不易认出是同一个角。为此，计机视觉领的研究
年的研究中设计了许更加稳的图征，著名的SIFT[30] 、
SURF[31] 、ORB[32] ，等等。相比于朴的角，这些人工设计的征
有下的性质：
1.可重性（Repeatability）：相同的“区 ”可以不同的图
中找。
2.可区性（Distinctiveness）：不同的“区 ”有不同的表。
3.高率（E ffi ciency）：同一图中，征的量应远于
的量。
4.本性（Locality）：征仅与一片图区相关。
图7-1　可以为图征的分：角、、区
征由关键点
（Key-point）和描述子
（Descriptor）两分组
成。比，当谈论SIFT 征时，是 “ 取SIFT关，并计 SIFT
”两件事情。关是该征图里的位，有些征还
具有朝向、等息。常是一个向量，某种人为设计的
方式，了该关周的息。是 “ 外观相似的特
征应该有相似的描述子 ”的原则设计的。此，只要两个征的
向量空上的离相近，可以认为是同样的征。
历史上，研究出过许图征。有些很确，相机
的运动和光变化下仍具有相的表，相应需要的计量。
其中， SIFT （度不变征变， Scale-Invariant Feature
Transform）当属最为典的一种。分虑了图变过程中出现
的光、度、旋转等变化，随之来的是极的计量。由于个
SLAM过程中图征的取与匹仅仅是诸环中的一个，目前
（2016年）为止，普 PC的CPU还无时计 SIFT 征，进行位与
建图。所以 SLAM中我甚用这种“ ”的图征。
另一些征，则虑当降低度和性，以升计的速度。
， FAST 关属于计快的一种征（意这里“关
”的表，说明有）。 ORB （ Oriented FAST and
Rotated BRIEF）征则是目前看来非常具有代表性的时图征。
[33]
进了FAST检不具有方向性的问题，并用速度极快的二进制
BRIEF[34] ，个图征取的环加速。根论
中所试，同一幅图中同时取约1000个征的情下，ORB约
要费15.3ms，SURF约费217.3ms，SIFT约费5228.7ms。由此可以看
出，ORB 了征具有旋转、度不变性的同时，速度方面升明
显，于时性要很高的SLAM来说是一个很的。
分征取具有的并行性，可以过GPU等设来加速计
。过GPU加速后的SIFT，可以足时计要。是，引 GPU
带来个SLAM成本的升。由此带来的性升是否足以去出的
计成本，需要的设计人员细量。目前的SLAM方案中，ORB是
质量与性之的中，此，我以ORB为代表介取征的
个过程。
7.1.2　ORB特征
ORB 征亦由关键点描述子
和两分组成。的关称
为“Oriented FAST”，是一种进的FAST角，关于什么是FAST角我
下介。的称为BRIEF（Binary Robust Independent
Elementary Feature）。此，取ORB 征分为下两个步骤：
1.FAST角取：找出图中的“角 ”。相于原版的FAST，ORB
中计了征的主方向，为后的BRIEF 加了旋转不变性。
2.BRIEF ：前一步取出征的周图区进行。
下面分介 FAST和BRIEF。
FAST 关键点
FAST是一种角，主要检度变化明显的方，以速度
快著称。的思想是：果一个与的差（过亮过
暗），么更可是角。相比于其角检，FAST只需比
亮度的，十分快。的检过程下（见图7-2）：
1. 图中取 p，设的亮度为 Ip 。
2.设一个 T （比， Ip 的20%）。
3.以 p 为中心，取半径为3的上的16个。
4. 取的上有连的 N个的亮度于 Ip +T 于 Ip -T ，
么 p 可以被认为是征（N
常取12，即为FAST-12。其常用
N
的取为9和11，分被称为FAST-9和FAST-11）。
5.循环以上步，一个行相同的操。
FAST-12 中，为了更高，可以加一项预试操，以快速
除不是角的。具操为，于个，直检
上的第1,5,9,13个的亮度。只有当这4个中有3个同时
I T
于 p + 于 p I -T
时，当前才有可是一个角，否则应该直
除。这样的预试操加速了角检。此，原的FAST角
常出现“扎 ”的现象。所以第一检之后，还需要用非极
制（Non-maximal suppression），一区仅留响应极
的角，角集中的问题。
图7-2　FAST 征 [33] 。
FAST 征的计仅仅是比亮度的差异，速度非常快，

也有一些问题。首先，FAST 征量很且不确，我往往希
望图取量的征。此， ORB中原的FAST 进行了
进。我可以最终要取的角量，原 FAST角分计 N
N
Harris响应，后取前个具有最响应的角为最终的角
集合。
其次，FAST角不具有方向息。且，由于取半径为3的
，存度问题：远看着是角的方，近后看可不是角
了。 FAST角不具有方向性和度的弱，ORB 加了度和旋转
的。度不变性由构建图字 [1] ，并字的一层上检
角来现。征的旋转是由度质心（Intensity Centroid）
现的。我稍微介一下。
所谓质心是以图度为权重的中心。其具操步骤
下[35] ：
1. 一个的图 B 中，义图的矩为
2. 过矩可以找图的质心：
3.连图的几中心 O 与质心C ，得一个方向向量于是
征的方向可以义为
过以上方，FAST角具有了度与旋转的，从

升了其不同图之表的性。所以 ORB中，这种进后的
FAST称为Oriented FAST。
BRIEF描述子
取Oriented FAST关后，我个计其。ORB
用进的BRIEF 征。我先来介一下BRIEF是什么。
BRIEF是一种二进制，其向量由许个0和1组成，这里
的0和1 码了关附近两个（比和）的p q 关：果 p
比q ，则取1，反之取0。果我取了128个这样的 p,q
，最后得
128 由0、1组成的向量。么，和 p q 取呢？原的论
中给出了干种方，上是某种率分布，随机
p q和的位，读可以读BRIEF论 OpenCV 码以查看其具
现[34] 。BRIEF 用了随机的比，速度非常快，且由于用了二
进制表，存起来也十分方，用于时的图匹。原的BRIEF
不具有旋转不变性，此图发生旋转时易丢。 ORB
FAST 征取阶计了关的方向，所以可以用方向息，计
了旋转之后的“Steer BRIEF” 征 ORB的具有的旋转不
变性。
由于虑了旋转和，得ORB 平移、旋转和的变下仍
有的表现。同时，FAST和BREIF的组合也非常高，得ORB 征
时SLAM中非常受欢。我图7-3中展示了一张图取ORB之后的
果，下面来介不同的图之进行征匹。
图7-3　OpenCV 的ORB 征检果。
7.1.3　特征匹配
征匹（图7-4所示）是视觉SLAM中极为关的一步，
说，征匹解了SLAM中的关问题（dataassociation），即确
当前看的标与之前看的标之的应关。过图与图
图与图之的进行确匹，我可以为后的态
估计、优化等操量负。，由于图征的性，误
匹的情广存，且期以来一直有得有解，目前已
成为视觉SLAM中制约性升的一瓶颈。分原是景中常存
量的重纹理，得征非常相。这种情下，仅用
征解误匹是非常难的。
图7-4　两帧图的征匹。
不过，让我先来看正确匹的情，等验再去讨论误

匹问题。虑两个时刻的图。果图 I t 中取征
图 It 中取征寻找
暴力匹配（
+1
这两个集合的应关呢？最单的征匹方是
）
Brute-Force Matcher 。即一个征与所有的量
的离，后序，取最近的一个为匹。离表示了两
个征之的相似程度，不过际运用中还可以取不同的离度量
。于的，用离进行度量即可。于二进
制的（比 BRIEF这样的），我往往用明离（Hamming
distance）为度量——两个二进制串之的明离，的是其不同
位数的个数。
，当征量很时，暴力匹的运量变得很，
是当想要匹某个帧和一张图的时。这不符合我 SLAM中的
时性需。此时快速近似最近邻（ FLANN 更加合于匹）量
极的情。由于这些匹理论已成，且现上也已集成
OpenCV，所以这里不再的技术细了。感兴趣的读可以参
读献[36]。
7.2　实践：特征提取和匹配
图7-5　验用的两帧图。
目前主的几种图征 OpenCV开图库中已集成，我

可以很方进行调用。下面来际练习一下OpenCV的图征
取、计和匹的过程。我为此验了两张图，位于
slambook/ch7/下的1.png和2.png，图7-5所示。是来公开
集[37]中的两张图，我看相机发生了微的运动。本程序示
取ORB 征并进行匹。下一个程序示估计相机运动。
征取与匹代码：
slambook/ch7/feature_extraction.cpp
运行此程序（需要两个图位），出运行果：
图7-6显示了程的运行果。我看未的匹中带有量的

误匹。过一次之后，匹量了许，匹是
正确的。这里，的汉明距离小于最小距离的两倍
是，这是一种
工程上的验方，不一有理论。不过，尽示图中
出正确的匹，我仍不证所有其图中得的匹
是正确的。此，后面的运动估计中，还需要用去除误匹的
。
下来，我希望根匹的估计相机的运动。这里由于相机
的原理不同，情发生了变化：
1.当相机为单目时，我只知 2D的坐标，问题是根两
组点
2D 估计运动。该问题用对极几何来解。
2.当相机为双目、RGB-D时，过某种方得了离息，
么问题是根两组点
3D 估计运动。该问题常用ICP来解。
3. 果有3D 及其相机的影位，也估计相机的运动。该问
题过PnP 解。
此，下面几来介这三种情形下的相机运动估计。我从
最本的2D-2D情形出发，看看解，解过程又具有哪些麻的
问题。
图7-6　征取与匹果。
7.3　2D-2D：对极几何
7.3.1　对极约束
现，设我从两张图中得了一的征，图7-7
所示。果有干这样的匹，可以过这些二图的应
关，恢出两帧之机的运动。这里“ 干 ”具是
呢？我会下介。下面先来看看两个图当中的匹有什么几
关。
图7-7　极几约束。
以图7-7为，我 I ,I 之的运动，设第一
希望取两帧图
帧第二帧的运动为R,t 。两个相机中心分为O ,O 。现，虑I
1 2
中有一个征 p ， I 中应着征 p 。我知两是
1 2
确是同一个空间点在
1 1 2 2
过征匹得的。果匹正确，说明
两个成像平面上的投影。这里需要一些术语来之的几关
。首先，连和连三空中会相交于 P 。这时
O ,O ,P 三个可以确一个平面，称为极平面（ Epipolar
plane）。O O 连与平面I ,I 的交分为 e ,e 。 e
1 2
,e 称为极点（ Epipoles），O O 被称为基线（ Baseline）。

1 2 1 2 1 2 1
我称极平面与两个平面 I ,I 之的相交 l ,l 为极线（

2 1 2
Epipolar line）。
1 2 1 2
直观讲，从第一帧的角度看，是某个像素可能出现的空间
位置 —— 为该上的所有会影同一个。同时，果
不知 P 的位，么当我第二幅图上看时，连也是
第二幅图中的极）是P 可出现的影的位，也是
第二个相机中的影。现，由于我过征匹确了p 的
推断P 的空位，以及相机的运动。要
2
位，所以读的
是，这完全多亏了正确的特征匹配。果有征匹，我确
p 底极的哪个位了。时，必须极上以获得正确
2
的匹，这第13讲中。
现，我从代角度来看一下这里出现的几关。第一帧的
坐标下，设的空位为 P
根第5讲介的相机，我知两个 p ,p1 2 的
位为
K
这里为相机参矩阵，为两个坐标的相机运动（ R,t 果我
愿意，也可以成李代形式）。果用齐次坐标，也可以上式
成乘以非零常下成立的（up to a scale）等式[2] ：
现，取：
这里的 x ,x
1 2 是两个的归一化平面上的坐标。代上式，
得：
两同时左乘 t∧ 。忆 ∧ 的义，这相当于两同时与 t

积：
后，两同时左乘
观等式左， t∧ x 2 是一个与 t 和x 2 直的向量。再和 x

2 积时，得 0。此，我得了一个的式：
重新代 p ,p
1 2 ，有：
这两个式称为对极约束，以形式著名。的几意义是

O ,P,O 2 三面。极约束中同时包含了平移和旋转。我中
F
1
分记两个矩阵：础矩阵（Fundamental Matrix）和本质矩阵

E
（Essential Matrix），于是可以进一步化极约束：
极约束给出了两个匹的空位关。于是，相机位

估计问题变为以下两步：
1.根的位出 E F。
2.根 E F 出 R,t 。
E F
由于和只相差了相机参，参 SLAM中常是已知的[3] ，
所以当中往往用形式更单的 E E
。我以为，介上面两个
问题解。
7.3.2　本质矩阵
根义，本质矩阵 = ∧ E t R 。是一个3× 3的矩阵，有9个未
知。么，是不是意一个3 × 3的矩阵可以被当成本质矩阵呢？从
E的构造方式上看，有以下得意的方：
•本质矩阵是由极约束义的。由于极约束是等式为零的约
束，所以 E
乘以意非零常后，对极约束依然满足。我这件事
情称为 E
不同度下是等价的。
•根 = ∧ E t R
，可以证明[3] ，本质矩阵 E的异必 σ,σ,
是[
0]T 的形式。这称为。本质矩阵的内在性质
•另一方面，由于平移和旋转各有3个由度， t∧ R 有6个由
度。由于度等价性，际上有5个由度。 E
E 具有5个由度的事，表明我最可以用5 来解E 。
是，E 的性质是一种非性性质，解性方程时会带来麻，
此，也可以只虑的尺度等价性，用8 来估计 E ——这是
典的八点法（ Eight-point-algorithm ）。八只用了 E [38,39]
的性性质，此可以性代框架下解。下面我来看八是

工的。
虑一匹，的归一化坐标为 x 1 =[u ,v , 1] ,x
1 1
T
2 =
[u ,v , 1]
2 2
T
。根极约束，有：
我矩阵 E 展开，成向量的形式：
么极约束可以成与 e 有关的性形式：
同理，于其也有相同的表示。我所有一个方

程中，变成性方程组（ i i 表示第个征 u ,v i ，以此推）：
这8个方程构成了一个性方程组。的矩阵由征位构
成，为8 × e
9。位于该矩阵的零空中。果矩阵是秩的
（即秩为8），么的零空为1，也是构成一条。这与 e e
的度等价性是一致的。果8 匹组成的矩阵足秩为8的条件，
么的各 E 可由上方程解得。
下来的问题是 E
根已估得的本质矩阵，恢出相机的运
动 R,t 。这个过程是由 E
异分解（SVD）得的。设的SVD分解为
其中 U,V 为正交阵，Σ为异矩阵。根 E 的性质，我知

Σ=diag( σ,σ, 0)。 SVD分解中，于意一个E ，存两个可
的 t,R
与应：
其中表示 Z
旋转90 ° 得的旋转矩阵。同时，由于和 -E
E等价，所以 t
意一个取负号，也会得同样的果。此，从 E
分解 t,R
时，一存 4 可的解。个
图7-8形象展示了分解本质矩阵得的4个解。我已知空
相机（蓝）上的影（），想要解相机的运动。
不变的情下，可以画出4种可的情。不过幸运的是，只有第一
种解中 P
两个相机中具有正的度。此，只要意一代 4种
解中，检该两个相机下的度，可以确哪个解是正确的了。
图7-8　分解本质矩阵得的4个解。影（）不变的情下，两

个相机及空一有4种可的情。
果用的 E
性质，么只有5个由度。所以最可以过
5 来解相机运动[40,41] 。这种形式杂，从工程现角度
虑，由于平时常会有几十乃至上百的匹，从8 至5 意
义并不明显。为单，我这里只介本的八。
剩下的问题还有一个：根性方程解出的，可不足的 E E
性质—— 的异不一为 0的形式。这时， σ,σ,
SVD时我
会刻意 Σ矩阵调成上面的样。常的是，八得的 E
进行SVD分解后，会得异矩阵Σ=diag( 1 3 )，不 σ ,σ ,σ
σ σ σ
2
设 1 ≥ 2 ≥ 3 。取：
这相当于是出来的矩阵影了所的形上。当，更 E

单的是异矩阵取成diag(1 1 0)，为具有度等价性， , , E
所以这样也是合理的。
7.3.3　单应矩阵
除了本矩阵和本质矩阵，还有单应矩阵（Homography）， H
了两个平面之的映关。景中的征落同一平面上
（比、面等），则可以过单应性来进行运动估计。这种情
无人机带的俯视相机扫机带的顶视相机中比常见。由于之前
有过单应，此这里稍微介一下。
单应矩阵常于同平面上的一些两张图之的变
关。虑图 I 和I 有一匹的征 1 和 2 。这些 p p
P 上，设这个平面
1 2
征落平面足方程：
稍加理，得：
后，顾本开的式(7.1)，得：
于是，我得了一个直图坐标 p 和p 之的变，
H ，于是：
1 2
中这分记为
的义与旋转、平移及平面的参有关。与础矩阵，单 F

H ×
应矩阵也是一个3 3的矩阵，解时的思也和，同样可以先 F
根匹计，后 H分解以计旋转和平移。上式展开，
得：
请意，这里的等号是非零下成立的。我际理中
常乘以一个非零 h
得 9 =1（取非零时）。后根第3行，
去这个非零，于是有：
理得：
这样一组匹可以构造出两项约束（事上有三个约束，

是为性相关，只取前两个），于是由度为8的单应矩阵可以过4
匹征出（意，这些征不有三的情），即
h
解以下的性方程组（当 9 =0时，右为零）：
这种 H
矩阵看成了向量，过解该向量的性方程来恢 H
，又称直性变（Direct Linear Transform）。与本质矩阵相
，出单应矩阵以后需要其进行分解，才可以得相应的旋转矩阵 R
t
和平移向量。分解的方包 [42,43]
与解析 [44] 。与本质矩阵
的分解，单应矩阵的分解同样会 4组旋转矩阵与平移向量，并且
同时可以计出分应的景所平面的向量。果已知成
的图的度为正（即相机前方），则又可以除两组解。
最后仅剩两组解，这时需要过更的先验息进行断。常我可
以过设已知景平面的向量来解，景平面与相机平面平
n
行，么向量的理论为1T 。
单应性 SLAM中具有重要意义。当征面相机发生旋转
时，础矩阵的由度下降，这出现了所谓的化（degenerate）。
现中的总包含一些，这时果用八解础矩
阵，础矩阵出来的由度会主要由。为了
化现象造成的影响，常我会同时估计础矩阵和单应矩阵， F H
重影误差比的个为最终的运动估计矩阵。
7.4　实践：对极约束求解相机运动
下面，我来练习一下过本质矩阵解相机运动。上一
分的程序了征匹，这次我用匹的征来计
E,F H
和，进分解得 E R,t
。个程序用OpenCV 的进
行解。我上一的征取装成，以后面用。本只
展示位估计分的代码。
slambook/ch7/pose_estimation_2d2d.cpp（片）
该了从征解相机运动的分，后，我主
中调用，得相机的运动：
我中 E,F 和H 的
出了，后验证了极约束是否成
t R E
立，以及 ∧ 和非零乘下等价的事。现，调用此程序即可看
出果：
程序的出果可以看出，极约束的足度约 10 - 3 量
级。根前面的讨论，分解得的 R,t
一有4种可性。不过，OpenCV
会替我用三角化检角的度是否为正，从出正确的解。
需要意的方是，我要弄程序解出来的 R,t 是什么意义。
程的义，我的极约束是从
得的。这里的 R,t 组成的变矩阵，是第一个图第二个图的坐

标变矩阵：
请读中务必楚这里用的变顺序（为有时我会用 T

12 ），非常容易搞反。
讨论
从 E F
示程序中可以看，出的和之相差了相机参矩阵。
虽上并不直观，可以验证的关。从和 E,F H
H
可以分解出运动，不过需要设征位于平面上。于本验的
，这个设是不的，所以我这里主要用来分解运动。 E
E
得一的是，由于本具有度等价性，分解得的也 t,R
有一个度等价性。 R∈
SO(3) 具有约束，所以我认为具有一 t
个尺度。言之，分解过程中， t
乘以意非零常，分解是成
立的。此，我常进行 t 归一化
，让的度等于1。
尺度不确定性
t 度的归一化，直导致了单目视觉的尺度不确定性（ Scale
Ambiguity）。，程序中出的 t 第一约为0.822。这个0.822究
竟是 0.822 还是0.822厘，我是确的。为 t 乘以意
比常后，极约束是成立的。言之，单目SLAM中，
和图同时意，我得的图是一样的。这第2讲中
已向读介过了。
单目视觉中，我两张图的归一化相当于t 。虽固定了尺度
我不知的际度是，我以这时的为单位1，计相 t
机运动和征的3D位。这被称为单目SLAM的。化之初始化
后，可以用3D-2D来计相机运动了。化之后的和图的单
位，是化时的度。此，单目SLAM有一步不可的初始
化。化的两张图必须有一程度的平移，后的和图
以此步的平移为单位。
除了 t
进行归一化之，另一种方是令化时所有的征
平度为1，也可以一个度。相比于令 t 度为1的，
征度归一化可以控制景的规，计上更稳些。
不过这并有理论上的差。
初始化的纯旋转问题
从 E 分解 R,t 的过程中，果相机发生的是旋转，导致 t 为
零，么，得的E 也为零，这导致我无从解R 。不过，此时
我可以靠H 取旋转，仅有旋转时，我无用三角量估计
征的空位（这下），于是，另一个论是，单目初始
化不能只有纯旋转，必须要有一定程度的平移。果有平移，单目
无化。当中，果化时平移太，会得位解
与三角化果不稳，从导致败。相，果相机左右移动
不是原旋转，易让单目SLAM 化。，有验的SLAM研究人
员，单目SLAM情下常让相机进行左右平移以顺进行
化。
多于 8对点的情况
当给的于8 时（比，程找了79 匹），我可以
计一个最二乘解。忆式(7.12)中性化后的极约束，我左
的矩阵记为： A
于八，的 A ×
为8 9。果给的匹于8，该方程
构成一个超方程，即不一存得上式成立。e 此，可以过最
化一个二次来：
于是 E
出了最二乘意义下的矩阵。不过，当可存误匹
的情时，我会更向于用随机采样一致性（
Random Sample
，
Concensus RANSAC）来，不是最二乘。RANSAC是一种用的
，用于很带误的情，可以理带有误匹的。
7.5　三角测量
之前两我用极几约束估计了相机运动，也讨论了这种方
的性。得运动之后，下一步我需要用相机的运动估计征
的空位。单目SLAM中，仅过单张图无获得的度
息，我需要过三角测量（ Triangulation 的方来）（或三角化）
估计图的度，图7-9所示。
图7-9　三角化获得图度
三角量是，过两观同一个的夹角，从确该的
离。三角量最早由高斯出并应用于量中，天、理
的量中有应用。，我可以过不同观的星星的角
度，估计离我的离。 SLAM中，我主要用三角化来估计
的离。
和上一，虑图 I
I ，以左图为参，右图的变矩
和
阵为T 。相机光心为O 和O 。 I 中有征 p ，应 I 中有
1 2
征 p 。理论上直 O p 与O p 景中会相交于一 P ，
1 2 1 1 2
2 1 1 2 2
该即两个征所应的图三景中的位。由于
的影响，这两条直往往无相交。此，可以过最二乘解。
极几中的义，设 x ,x1 2 为两个征的归一化坐标，
么足：
现我已知了 R,t ，想要解的是两个征的 s ,s

度
s 果要 s ，
1 2
。当这两个度是可以分开的，比，先来看 2 。 2
么先上式两左乘一个 x∧ 1 ，得：
该式左为零，右可看成 s 的一个方程，可以根直得 s

s s
2
。有了，也非常易出。于是，我得了两帧下的的

R,t
2 2 1
度，确了的空坐标。当，由于的存，我估得的

不一确式(7.24)为零，所以更常见的是最二乘解不是
零解。
7.6　实践：三角测量
7.6.1　三角测量代码
下面，我示根之前用极几解的相机位，过
三角化出上一征的空位。我调用 OpenCV 的
triangulation 进行三角化。
slambook/ch7/triangulation.cpp（片断）
同时， main 中加三角量分，并验证重影关：
我印了个空两个相机坐标下的影坐标与坐标
P
——相当于的影位与看的征位。由于误差的存，
会有一些微的差异。以下是某一征的息：
可以看，误差的量级约后第3位。可以看，三角化
征的离约为15。由于度不确性，我并不知这里的15究
竟是。
7.6.2　讨论
关于三角量，还有一个必须意的方。
三角量是由平移
得的，有平移才会有极几中的三角形，才
谈得上三角量。此，旋转是无用三角量的，为极约束
远足。平移存的情下，我还要关心三角量的不确
性，这会引出一个三角测量的矛盾
。
图7-10所示，当平移很时，上的不确性导致的
度不确性。也是说，果征运动一个，得视角变 δx
化了一个角度 δθ
，么量度有 δd
的变化。从几关可
以看，当t 时， δd
明显变，这说明平移时，同样的
相机分率下，三角化量更确。该过程的量分析可以用正
弦理得，不过这里先虑性分析。
此，要高三角化的度，其一是高征的取度，也
是高图分率—— 这会导致图变，加计成本。另一方式
是平移量。是，这会导致图的外观
发生明显的变化，比
原先被住的面显示出来，又比反光发生变化，等等。观变
化会得征取与匹变得难。总言之，再平移，会导致匹
；平移太，则三角化度不 ——这是三角化的矛盾。
图7-10　三角量的矛盾。
虽本只介了三角化的度估计，只要我愿意，也

量计位置不确定性
个征的及。所以，果设征服从
高斯分布，并且不断进行观，息正确的情下，我
期望它的方差会不断减小乃至收敛。这得了一个滤波器
，称为
深度滤波器（）
Depth Filter 。不过，由于的原理杂，我
留第13讲再详细讨论。下面，我来讨论从3D-2D的匹来估计相
机运动，以及3D-3D的估计方。
7.7　3D-2D：PnP
PnP（Perspective-n-Point）是解3D 2D 运动的方。
了当知 n 个3D空及其影位时，估计相机的位。前面
说，2D-2D的极几方需要8个 8个以上的（以八为
），且存着化、旋转和度的问题。，果两张图中
其中一张征的3D位已知，么最只需3个（需要至一个额
验证果）可以估计相机运动。征的3D位可以由三角化
RGB-D相机的度图确。此，双目 RGB-D的视觉里程计中，我
可以直用PnP估计相机运动。单目视觉里程计中，必须先进行
化，后才用PnP。3D-2D方不需要用极约束，又可以
很的匹中获得的运动估计，是最重要的一种态估计方。
PnP问题有很种解方，，用3 估计位的P3P[45] 、直
性变（DLT）、EPnP（E ffi cientPnP） [46] 、UPnP[47] ，等等。
此，还用非线性优化的方式，构建最二乘问题并代解，也
是万式的Bundle Adjustment。我先来看DLT，后再讲解Bundle
Adjustment。
7.7.1　直接线性变换
虑某个空 P，的齐次坐标为 P =(X,Y,Z, 1)
T
。图 I 1
中，影征 x
u ,v , 1) （以归一化平面齐次坐标表
=( T
示）。此时相机的位 R,t 是未知的。与单应矩阵的解

1 1 1
，我
义广矩阵[R|t ]为一个3× 4的矩阵，包含了旋转与平移息。我 [4]
其展开形式列下：
用最后一行 s 消去，得两个约束：为了化表示，义 T 的行

向量：
于是有：
和
t
请意，是待的变量，可以看，个征了两个关于 t
的性约束。设一有个征，则可以列出下 N 性方程组：
t
由于一有12 ，此，最过6 匹即可现矩阵的 T
性解，这种方称为直性变（ Direct Linear Transform ，
DLT）。当匹于6 时，也可以用SVD等方超方程最二
乘解。
DLT 解中，我直矩阵看成了12个未知，忽略了 T 之
的。为旋转矩阵 R∈
SO(3)，用DLT 出的解不一足该约
束，是一个一矩阵。平移向量比办，属于向量空。于旋
R
转矩阵，我必须 DLT估计的左 3 3的矩阵，寻找一个最 T ×
的旋转矩阵进行近。这可以由QR分解成[3,48] ，相当于果
从矩阵空重新影 SE(3) 形上，转成旋转和平移两分。
需要解的是，我这里的 x 用了归一化平面坐标，去了参
K 参K
1
矩阵的影响——这是为 SLAM中常设为已知。即参

未知，也用PnP去估计 K,R,t 三个量。由于未知量，果会差
一些。
7.7.2　P3P
下面讲的P3P是另一种解PnP的方。仅用3 匹，要
，此这里也单介一下（这分推导了献[49]）。
P3P需要用给的3个的几关。的为3 3D-2D匹
。记3D 为，2D 为 A,B,C
，其中字代表的为应 a,b,c
字代表的相机成平面上的影，图7-11所示。此，P3P
还需要用一验证，以从可的解中出正确的一个（于
极几情形）。记验证 D-d
为，相机光心为。请意，我知 O
的是A,B,C 世界坐标系中的坐标，不是。在相机坐标系中的坐标
一旦3D 相机坐标下的坐标出，我得了3D-3D的应
， PnP问题转为了ICP问题。
首先，显三角形之存应关：
图7-11　P3P问题示意图。
来虑Oab 和OAB 的关。用弦理，有：
于其两个三角形亦有性质，于是有：
以上三式除以 OC 2
，并且记 x =OA /OC,y =OB /OC ，得：
记 v =AB /OC ,uv =BC /OC ,wv =AC /OC
2 2 2 2 2 2
，有：
我可以第一个式中的 v 等式一，并代其后两式，

得：
意这些方程中的已知量和未知量。由于我知 2D 的图位
，3个弦角cos〈a,b〉, 〈b,c〉, 〈a,c〉
cos cos 是已知的。同
u BC AB ,w AC AB
时， = 2
/ 2 A,B,C
= 2 / 2 可以过世界坐标下的坐
标出，变相机坐标下之后，这个比并不变。该式中的 x,y
是未知的，随着相机移动会发生变化。此，该方程组是关于的一 x,y
个二二次方程（项式方程）。解析解该方程组是一个杂的过
程，需要用吴消。这里不展开该方程解的介，感兴趣的读
请参献[45]。 E
于分解的情，该方程最可得 4个解，
我可以用验证来计最可的解，得相机坐标下的3D A,B,C
坐标。后，根 3D-3D的，计相机的运动。这分 7.9 R,t
介。
从P3P的原理可以看出，为了解PnP，我用了三角形相性
质，解影 a,b,c
相机坐标下的3D坐标，最后问题转成一
个3D 3D的位估计问题。后看，带有匹息的3D-3D位
解非常易，所以这种思是非常有的。其的一些方，
EPnP，亦用了这种思。，P3P也存着一些问题：
1.P3P只用3个的息。当给的于3组时，难以用更
的息。
2. 果3D 2D 受影响，存误匹，则。
所以后人还出了许的方， EPnP、UPnP等。用
更的息，且用代的方式相机位进行优化，以尽可消除
的影响。不过，相于P3P来说，原理会更加杂一些，所以我建
议读读原的论，过来理解PnP过程。 SLAM当中，常
的是先用P3P/EPnP等方估计相机位，后构建最二乘优化
问题估计进行调（Bundle Adjustment）。下来我从非性优
化角度来看一下PnP问题。
7.7.3　Bundle Adjustment
除了用性方之，我还可以 PnP问题构建成一个义于李
代上的非性最二乘问题。这用本书第4讲和第5讲的知识。前
面说的性方，往往是先求相机位姿，再求空间点位置
，非性优
化则是看成优化变量，一起优化。这是一种非常用的
解方式，我可以用 PnP ICP给出的果进行优化。 PnP中，这个
Bundle Adjustment问题，是一个最化重投影误差（
Reprojection
error）的问题。我本给出此问题两个视图下的本形式，
后第10讲讨论规的BA问题。
虑 n 个三空 P 及其影 p ，我希望计相机的位 R,t
，的李代 ξ 。设某空
表示为坐标为 Pi =[Xi ,Yi ,Zi ]
T
，其
影的坐标为ui =[ui ,vi ] 。根
T
第5讲的，位与空
位的关下：
除了用表示相机 ξ 态之，的和前面的义一致。成

矩阵形式是：
请读补中隐含着的齐次坐标非齐次的转，否则矩阵的
乘来说，度是不的 [5] 。现，由于相机位未知及观的
，该等式存一个误差。此，我误差和，构建最二乘问
题，后寻找最的相机位，最化：
该问题的误差项，是坐标（观的影位）与3D

当前估计的位进行影得的位相比得的误差，所以称为重投
影误差。用齐次坐标时，这个误差有3 。不过，由于最后一为 u
1，该度的误差一直为零，我更时用非齐次坐标，于是误
差只有2 了。图7-12所示，我过征匹知了 1 和 2 是 p p
同一个空 P的影，是不知相机的位。中， P 的
p
影ˆ 2 与际的p 2 之有一的离。于是我调相机的位，
得这个离变。不过，由于这个调需要虑很个，所以最后
个的误差常不会确为零。
最二乘优化问题已第6讲介过了。用李代，可以构建无
约束的优化问题，很方过高斯顿、列伯格—马夸方
等优化进行解。不过，用高斯顿和列伯格—马夸
方之前，我需要知个误差项关于优化变量的导，也是线性
化：
图7-12　重影误差示意图。
J
这里的的形式是得讨论的，甚至可以说是关所。我
可以用导，果推导出解析形式，则我会优先虑解
析导。现，当为 e
坐标误差（2 ），为相机位（6 ） x
时，J ×
是一个2 6的矩阵。我来推导的形式。 J
忆李代的，我介了用动来李代的导
。首先，记变相机坐标下的空坐标为 P′ ，并且其前3
取出来：
么，相机影相于 P′ 为
展开：
用第3行消去 s（际上是P′ 的离），得：

这与之前讲的相机是一致的。当我误差时，可以这里的
u,v
与际的量比，差。义了中变量后，我 ∧ 左 ξ
乘动量 δξ e
，后虑的变化关于动量的导。用式则，
可以列下：
这里的 ⊕ 李代上的左乘动。第一项是误差关于影的导

，式(7.40)已列出了变量之的关，易得：
第二项为变后的关于李代的导，根 4.3.5 中的推导，

得：
P′ 的义中，我取出了前3 ，于是得：
这两项相乘，得了2 × 6的雅可比矩阵：
这个雅可比矩阵了重影误差关于相机位李代的一阶变化
关。我留了前面的负号，这是为误差是由义观测值减预测值
的。当也可反过来，义成“预观 ”的形式。种情
下，只要去前面的负号即可。此，果se(3)的义方式是旋转
前，平移后，只要这个矩阵的前3列与后3列调即可。
另一方面，除了优化位，我还希望优化征的空位。
此，需要讨论关于空 e 的导 P 。所幸这个导矩阵相来说易
一些。仍用式则，有：
第一项前面已推导，关于第二项，义
我发现 P′ P 导后只剩下R 。于是：
于是，我推导出了观相机方程关于相机位与征的两个导

矩阵。十分重要，优化过程中重要的梯度方向，导
优化的代。
7.8　实践：求解PnP
7.8.1　使用EPnP求解位姿
下面，我过验理解一下PnP的过程。首先，我用OpenCV
的EPnP 解PnP问题，后过g2o 果进行优化。由于PnP需要用3D
，为了化带来的麻，我用了RGB-D相机中的度图
（1_depth.png）为征的3D位。首先来看OpenCV 的PnP
：
程中，得征后，我第一个图的度图中寻找

的度，并出空位。以此空位为3D ，再以第二个图的
位为2D ，调用EPnP 解PnP问题。程序出下：
读可以比先前2D-2D情下解的 R,t
看看有什么不同。可以看
R
，有3D 息时，估计的几乎是相同的，相差得 t
。这是由
于引了新的度息所致。不过，由于Kinect 集的度图本会有
一些误差，所以这里的3D 也不是确的。我会希望位和所有 ξ
三征 P
同时优化。
7.8.2　使用BA优化
下面示进行BundleAdjustment。我用前一步的估计
为。优化可以用前面讲的Ceres g2o库现，这里用g2o
为。
g2o的本知识第6讲中已介过了。用g2o之前，我要
问题建成一个最二乘的图优化问题，图7-13所示。
图7-13　PnP的Bundle Adjustment的图优化表示。
这个图优化中，和的下：
1. 节点：第二个相机的位 ξ∈ se(3)，所有征的空位
P∈ R 。 3
2.边：个3D 第二个相机中的影，以观方程来：
由于第一个相机位为零，我有优化变量里，

习题中，希望第一个相机的位与观也虑进来。现我
根一组3D 和第二个图中的2D 影，估计第二个相机的位。所
以我第一个相机画成虚，表明不希望虑。
g2o 了许关于BA的和，我不必己从现所有的计
。 g2o/types/sba/types_six_dof_expmap.h中则了李代表
的和。请读开这个件，找 VertexSE3Expmap（李代位
）、VertexSBAPointXYZ（空位）和EdgeProjectXYZ2UV（影
方程）这三个。我来单看一下的义，
VertexSE3Expmap：
请意的板参。第一个参 6表示存的优化变量
度，可以看这是一个6 的李代。第二个参是优化变量的，这
里用了g2o 义的相机位：SE3Quat。这个用了四元数加位
移向量来存位，同时也李代上的运，映（log
）和李代上量（update ）等操。我可以的现
代码，看看g2o 李代是操的：
这里不个义过来了。从板参可以看，空
位的度为3，是 Eigen 的 Vector3D 。另一方面，
EdgeProjectXYZ2UV连了前面说的两个顶，的观为2 ，由
Vector2D表示，际上是空的坐标。的误差计表
了影方程的误差计方，也是我前面 z-h ξ,P
的 ( )的方
式。
现，进一步观 EdgeProjectXYZ2UV的linearizeOplus 的
现。这里用了我前面推导的雅可比矩阵：
细研究此代码，我会发现与式(7.45)和(7.47)是一致的。
成员变量 “_jacobianOplusXi” 是误差空的导
，“_jacobianOplusXj”是误差相机位的导，以李代的左乘
动表。稍有差的是，g2o的相机里用一 f
x y ，并且李代 f ,f
义顺序不同（g2o是旋转前，平移后；我是平移前，旋转
后），所以矩阵前3列和后3列与我的义是相反的，此一致。
得一的是，我亦可己现相机位，并用
Sophus::SE3来表位，的导过程。，既 g2o已
了这样的，有额要的情下，己重新现有必要
了。现，我上一个 PnP 程的础上，加上 g2o 的 Bundle
Adjustment。
程序上和第6讲的g2o 。我首先明了g2o图优化，并
优化解器和梯度下降方。后根估计的征，位和空
图中。最后调用优化进行解。读可以看优化的果
下：
代11轮后，列伯格—马夸方发现优化目标近不

变，于是止优化。我出了最后得的位变矩阵，比之前 T
直 PnP的果，约后第3位发生了一些变化。这主要是由
于我同时优化了征和相机位导致的。
Bundle Adjustment是一种用的。可以不于两幅图。我
可以幅图匹的位和空进行代优化，甚至可
以个SLAM过程进来。种规，主要后端用，我
会第10讲再次这个问题。前端，我常虑相机位和
征的 Bundle Adjustment问题，希望进行时解和优化。
7.9　3D-3D：ICP
最后，我来介 3D-3D的位估计问题。设我有一组的
3D （比我两幅RGB-D图进行了匹）：
现，想要找一个变 R,t ，得：
这个问题可以用代最近（Iterative Closest Point，ICP）

解。读应该意了，3D-3D位估计问题中并有出现相机，也
是说，仅虑两组3D 之的变时，和相机并有关。此，
光SLAM中也会碰 ICP，不过由于光征不丰，我无从知
两个集之的匹配关系
，只认为离最近的两个为同一个，所
以这个方称为代最近。视觉中，征为我了的
匹关，所以个问题变得更单了。 RGB-D SLAM中，可以用这
种方式估计相机位。下我用ICP 代匹配好的
两组的运动估
计问题。
和PnP ，ICP的解也分为两种方式：用性代的解（主
要是 SVD ），以及用非性优化方式的解（于 Bundle
Adjustment）。下面分进行介。
7.9.1　SVD方法
首先来看以SVD为代表的代方。根前面的ICP问题，我
先义第 i
的误差项：
后，构建最二乘问题，误差平方和极的R,t ：
下面来推导的解方。首先，义两组的质心：

请意，质心是有下标的。随后，误差中下的理：
意交叉项分中( pi -p-R (pi ′ -p′ )) 和之后为零，此

优化目标可以化为
细观左右两项，我发现左只和旋转矩阵相关，右 R 既

R t
有也有，只和质心相关。只要我获得了，令第二项为零 R
得 t
。于是，ICP可以分为以下三个步骤解：
1.计两组的质心位 p,p′ ，后计个的去质心坐标：
2.根以下优化问题计旋转矩阵：
3.根第2步的 R计 t：
我看，只要出了两组之的旋转，平移量是非常易得

的。所以我重关 R的计。展开关于的误差项，得： R
意第一项和 R 无关，第二项由于R R =I ，亦与 R 无关。
T
此，际上优化目标变为
下来，我介怎样过SVD解出上问题中最优的。关于最优 R

性的证明为杂，感兴趣的读请参献[50,51]。为了解，先 R
义矩阵：
W 是一个3× 3的矩阵， W 进行SVD分解，得：
其中，Σ为异组成的角矩阵，角从列， U

V
和为角矩阵。当 W 秩时，为R
解得R 后，式(7.53) 解t 即可。

7.9.2　非线性优化方法
解ICP的另一种方式是用非性优化，以代的方式去找最优
。该方和我前面讲的PnP非常相。以李代表位时，目标
可以成
单个误差项关于位的导前面已推导，用李代动即
可：
于是，非性优化中只需不断代，找极。且，可

以证明 [6] ，ICP问题存唯一解无穷解的情。唯一解的情
下，只要找极解，么这个极小值就是全局最优值
—— 此不
会极非最的情。这也意味着ICP 解可以意
。这是已匹时解ICP的一。
需要说明的是，我这里讲的ICP是已由图征给了匹的情
下进行位估计的问题。匹已知的情下，这个最二乘问题
际上具有解析解[52,53,54] ，所以并有必要进行代优化。ICP的研究
往往更加关心匹未知的情。不过， RGB-D SLAM中，由于一个
的度可量不，所以我可以合着用PnP和ICP优化：
于度已知的征，建的3D-3D误差；于度未知的征
，则建 3D-2D的重影误差。于是，可以所有的误差同一个问
题中虑，得解更加方。
7.10　实践：求解ICP
7.10.1　SVD方法
下面示一下用SVD及非性优化来解ICP。本我用
两幅RGB-D图，过征匹获取两组3D ，最后用ICP计的位
变。由于OpenCV目前还有计两组带匹的ICP的方，且
的原理也并不杂，所以我己来现一个ICP。
ICP的现方式和前讲的是一致的。我调用Eigen进行SVD，
后计 R,t 矩阵。我出了匹后的果，不过请意，由于前面的
推导是 pi =Rp′ i +t 进行的，这里的 R,t 是第二帧第一帧的变
，与前面PnP 分是相反的。所以出果中，我同时印了变
：
读可以比一下ICP与PnP、极几的运动估计果之的差
异。可以认为，这个过程中我用了越来越的息（有度—
有一个图的度—有两个图的度），此，度确的情下，得
的估计也越来越确。是，由于Kinect的度图存，且
有可存丢的情，得我不得不丢弃一些有度的
征。这可导致ICP的估计不确，并且，果征丢弃得太
，可引起由于征太，无进行运动估计的情。
7.10.2　非线性优化方法
下面虑用非性优化来计 ICP。我用李代来表相机
位。与SVD思不同的方于，优化中我不仅虑相机的位，
同时会优化3D 的空位。我来说，RGB-D相机次可以观
标的三位，从产生一个3D观。不过，由于g2o/sba中有
3D 3D的，我又想用g2o/sba中李代现的位，所
以最的方式是义一种这样的，并向g2o 解析导方式。
slambook/ch7/pose_estimation_3d3d.cpp
这是一个一，于前面的
g2o::EdgeSE3ProjectXYZ，不过观量从2 变成了3 ，有相机
，并且只关一个。请读意这里雅可比矩阵的书，
必须与我前面的推导一致。雅可比矩阵给出了关于相机位的导，
是一个3× 6的矩阵。
调用g2o进行优化的代码是相的，我设图优化的和即
可。这分代码请读查看件，这里不再列出。现，来看看优化
的果：
我发现，只代一次后总误差已稳不变，说明仅一次

代之后即已。从位解的果可以看出，和前面SVD给出
的位果几乎一一样，这说明SVD已给出了优化问题的解析解。所
以，本验中可以认为SVD给出的果是相机位的最优。
需要说明的是，本的ICP中，我用了两个图有度读
的征。事上，只要其中一个图度确，我用于
PnP的误差方式，也加优化中来。同时，除了相机位之，
空也为优化变量虑，亦是一种解问题的方式。我应当
楚，际的解是非常的，不必于某种的形式。果同时
虑和相机，个问题变得更自由了，可会得其的解。比
，可以让相机转一些角度，移动一些。这从另一面反映
出， Bundle Adjustment里面，我会希望有尽可的约束，为
次观会带来更的息，我更确估计个变量。
7.11　小结
本讲介了于征的视觉里程计中的几个重要的问题。包：
1. 征是取并匹的。
2. 过2D-2D的征估计相机运动。
3. 从2D-2D的匹估计一个的空位。
4.3D-2D的PnP问题，其性解和Bundle Adjustment解。
5.3D-3D的ICP问题，其性解和Bundle Adjustment解。
本讲为丰，且合应用了前几讲的本知识。读觉得
理解有难，可以前面知识稍加顾。最亲一验，以理解
个运动估计的。
需要解的是，为证行畅，我省略了量关于某些情
的讨论。，果极几解过程中给的征面，会发
生什么情（这单应矩阵中了）？ H又会发生什么情？
PnP和ICP中给这样的解，又会导致什么情？解否识这
些的情，并报告所得的解可不可靠？尽是得研究和
的，的讨论势必让本书变得琐。且工程现
中，这些情甚出现，所以本书介的方，是际工程中
有运行的方，我了些见的情并不发生。果关心这
些见的情，可以读[3]等论，献中我常会研究一些
情下的解方案。
习题
1.除了本书介的ORB 征，还找哪些征？请说说
SIFT SURF的原理，并比与ORB之的优劣。
2.设计程序调用OpenCV中的其种征。计取1000个
征时的机器上所用的时。
3.*我发现，OpenCV 的ORB 征图当中分布不匀。
是否找出让征分布更加匀的方？
4.研究FLANN为快速理匹问题。除了FLANN之，还有哪
些可以加速匹的？
5. 示程序用的EPnP 成其 PnP方，并研究的工原
理。
6. PnP优化中，第一个相机的观也虑进来，程序应书
？最后果会有变化？
7. ICP程序中，空也为优化变量虑进来，程序应书
？最后果会有变化？
8.* 征匹过程中，不可会误匹的情。果我
误匹 PnP ICP中，会发生怎样的情？想哪些
误匹的方？
9.* 用Sophus的SE3 ，己设计g2o的与，现PnP和ICP的
优化。
10.* Ceres中现PnP和ICP的优化。
[1] 字是图进行不同层次的降样，以获得不同分率的图。
[2] 也是说，等式一乘以意非零常时，我认为等式仍是成立的。
[3] SfM研究中则有可是未知有待估计的。
[4] 请意，这和SE(3)中的变矩阵是不同的。 T

ξ P × K ×
[5] exp( ∧ ) i 果是4 1的，其左的是3 3的，所以必须 exp( ξ∧
P
) i 的前三取出来，变成三的非齐次坐标。这前面讲过。
样章此束
需要版
扫下面二码
加微：shuyou099
领取
附录B　ROS入门
ROS是机器人研究领一个广为讨的主题。为了本书读
太高，我有正和程中。近年来，ROS正逐步
各高校的生中得推广，为人所知和受，所以这
里也介一下ROS，希望读有所帮助。
B.1ROS是什么
ROS（Robot Operating System）是Willow Garage公司于2007年
发布的一个开机器人操，为软件开发人员开发机器人应用
程序了许优秀的工具和库。同时，还有优秀的开发不断为
贡献代码。本质上，ROS并不是一个真正意义上的操，更
是于操之上的一个软件包。了众际机器人中可
的：导、、径规，等等。
ROS的版本代号是字顺序来的，并随着Ubuntu 发布
更新。常一个ROS版本会两三个Ubuntu 版本。ROS从Box
Turtle开，止本书时（2016年），已更新了Kinetic
Kame（见图B-1）。同时，ROS也已彻底重构，推出了时性更强的
2.0版本。
ROS 很操，最善的是Ubuntu及其衍生版本
（Kubuntu、Linux Mint、Ubuntu GNOME等），其 Linux发布版
本、Windows等的也有，不过有么善。此，推荐读用
Ubuntu操来进行开发和研究。
ROS 目前被广用的面向象的程语言C++，以及本语
言Python。可以己喜欢的语言进行开发。
图B-1　ROS各版本命名方式
B.2ROS的特点
ROS的设计衷，是机器人开发计机开发一样，屏蔽
底层硬件及其口的不一致性，最终得软件可以用。
软件用也正是软件工程优性最集中的现之一，ROS 以
一消息格式来得只需要关层面的设计，底层硬件的
根本目的是各种各样的消息，图、等。各个硬件厂商
的一 ROS所规的一消息格式下，即可让用方
用各种开的机器人相关。
第 14 讲中的常见的开 SLAM 方案中， ORB-SLAM 、 ORB-
SLAM2 、 LSDSLAM 、 SVO 、 DVO 、 RTAB-MAP 、 RGBD-SLAM-V2 、 Hector
SLAM、Gmapping、ROVIO等有ROS版本的开代码，可以很方
ROS中运行、调试和修。
调试SLAM程序时，的来常有3种：感器、集，以
及bag 件。有相应的感器，常需要用虚的来
跑 SLAM 程序。其中，最方的方式当属用ROS下的bag 件发布
topic，后SLAM程序可以监视topic发出的，用真的
感器集一样。后面我会单介一下用bag 件来
真的感器。
B.3如何快速上手ROS
ROS有善的。，的介机器上安装应
版本的 ROS： http://wiki.ros.org/ROS/Installation；后，读
ROS 带的程序即可。会习 ROS的本念、主题的发布和
订，以及用Python和C++控制。果觉得麻，也可以用
ROS 制的 Ubuntu ：
http://www.aicrobo.com/ubuntu_for_ros.html。
除了本知识之，还可以一些ROS的常用工具，：
1.rqt。rqt是ROS下的一个软件框架，以件的方式了各种
各样方用的GUI（用图形界面）。rqt的功非常强，可以
时查看ROS中动的消息。
2.rosbag。rosbag是ROS 的一个非常用的录制及 topic
的工具。当想际跑一下SLAM程序，囿于有际的
感器时，可以虑用公开的bag 件来进行图的
，这种方式与用一个真的感器感觉上并无不同。rosbag的
用方式请参 ROS的页面。此，许公开集也会 bag
格式的件。
3.rviz。rviz是ROS 的可视化，可以过时查看
ROS中的图、云、图、规的径，等等，从更方调试程
序。
我相，机器人的硬件层面和软件层面一会向着一架构
的方向前行， ROS正是软件架构层面标化一个重要的里程碑。其
中，ROS 1.x 之前被量用于验的研究，公司产品demo的研
发阶， ROS2则解了ROS 时性的问题，未来很有可被直用于
际产品的研发，为推进工业级机器人和服务机器人的应用出重要
的贡献。
本附录性介了有关ROS的历史、优，以及用ROS
中的一些可视化工具来助SLAM程序开发等。我希望读
习ROS，并用ROS开发己的SLAM程序。
参考文献
[1]L.Haomin,Z.Guofeng,andB.Hujun,“Asurveyofmonocularsimu
ltaneouslocalizationandmapping,” Journal of Computer-Aided
Design and Compute Graphics ,vol.28,no.6,pp.855–868,2016.in
Chinese.
[2]A.Davison,I.Reid,N.Molton,and
O.Stasse,“Monoslam:Real-time single camera IEEE
SLAM,”
Transactions on Pattern Analysis and Machine Intelligence
,vol.29,no.6,pp.1052–1067,2007.
[3]R.Hartley and A.Zisserman, Multiple View Geometry in
Computer Vision .Cambridge university press,2003.
[4]R.C.Smith and P.Cheeseman,“On the representation and
estimation of spatial uncertainty,” International Journal of
Robotics Research ,vol.5,no.4,pp.56–68,1986.
[5]S.Thrun,W.Burgard,and D.Fox,Probabilistic robotics
.MIT Press,2005.
[6]T.Barfoot,“State estimation for robotics:A matrix lie
group approach,”2016.
[7]A.Pretto,E.Menegatti,andE.Pagello,“Omnidirectionalden
selarge-scalemappingandnavigation based on meaningful
triangulation,” 2011 IEEE International Conference on
Robotics and Automation(ICRA 2011) ,pp.3289–96,2011.
[8]B.RueckauerandT.Delbruck,“Evaluationofevent-
basedalgorithmsforoptical fl owwithgroundtruth from inertial
measurement sensor,” Frontiers in neuroscience,vol.10,2016.
[9]C.Cesar,L.Carlone,H.C.,Y.Latif,D.Scaramuzza,J.Neira,I.
D.Reid,andL.JohnJ.,“Past,present,and future of simultaneous
localization and mapping:Towards the robust-perception
age,” arXiv preprint arXiv:1606.05830 ,2016.
[10]P.Newman and K.Ho,“Slam-loop closing with visually
salient features,”in proceedings of the 2005 IEEE
International Conference on Robotics and Automation
,pp.635–
642,IEEE,2005.
[11]R.Smith,M.Self,and P.Cheeseman,“Estimating uncertain
spatial relationships in robotics,”in Autonomous robot
vehicles ,pp.167–193,Springer,1990.
[12]P.Beeson,J.Modayil,andB.Kuipers,“Factoringthemapping
problem:Mobilerobotmap-building in the hybrid spatial
semantic hierarchy,” International Journal of Robotics
Research ,vol.29,no.4,pp.428–459,2010.
[13]H.Strasdat,J.M.Montiel,and A.J.Davison,“Visual
slam:Why fi lter?,” Image and Vision Computing
,vol.30,no.2,pp.65–77,2012.
[14]M.Liang,H.Min,and R.Luo,“Graph-based slam:A
survey,” ROBOT
,vol.35,no.4,pp.500–512,2013.in Chinese.
[15]J.Fuentes-Pacheco,J.Ruiz-Ascencio,and J.M.Rendón-
Mancha,“Visual simultaneous localization and mapping:a
survey,” Arti fi cial Intelligence Review,vol.43,no.1,pp.55
–81,2015.
[16]J.Boal,Á.Sánchez-Miralles,and Á.Arranz,“Topological
simultaneous localization and mapping:a survey,” Robotica
,vol.32,pp.803–821,2014.
[17]S.Y.Chen,“Kalman fi lter for robot vision:A
survey,” IEEE Transactions on Industrial Electronics
,vol.59,no.11,pp.4409–4420,2012.
[18]Z.Chen,J.Samarabandu,andR.Rodrigo,“Recentadvancesins
imultaneouslocalizationandmapbuilding using computer
vision,” Advanced Robotics ,vol.21,no.3-4,pp.233–265,2007.
[19]J.Stuelpnagel,“On the parametrization of the three-
dimensional rotation group,” SIAM Review
,vol.6,no.4,pp.422–
430,1964.
[20]V.S.Varadarajan, Lie groups,Lie algebras,and their
representations ,vol.102.Springer Science&Business
Media,2013.
[21]H.Strasdat, Localaccuracyandglobalconsistencyfore ffi
cientvisualslam .PhDthesis,Citeseer,2012.
[22]S.Agarwal,N.Snavely,I.Simon,S.M.Seitz,and
R.Szeliski,“Building rome in a day,”in2009 IEEE 12th
international conference on computer vision ,pp.72–
79,IEEE,2009.
[23]J.Nocedal and S.Wright, Numerical Optimization
.Springer Science&Business Media,2006.
[24]M.I.Lourakis and A.A.Argyros,“Sba:A software package
for generic sparse bundle adjustment,” ACM Transactions on
Mathematical Software(TOMS) ,vol.36,no.1,p.2,2009.
[25]G.Sibley,“Relativebundleadjustment,” DepartmentofEng
ineeringScience,OxfordUniversity,Tech.Rep
,vol.2307,no.09,2009.
[26]B.Triggs,P.F.McLauchlan,R.I.Hartley,and
A.W.Fitzgibbon,“Bundle adjustment:a modern synthesis,”in
Vision algorithms:theory and practice
,pp.298–
372,Springer,2000.
[27]S.Agarwal,K.Mierle,and Others,“Ceres
solver.”http://ceres-solver.org.
[28]R.Kummerle,G.Grisetti,H.Strasdat,K.Konolige,and
W.Burgard,“G2o:a general framework for graph
optimization,”in IEEE International Conference on Robotics
and Automation(ICRA) ,pp.3607–3613,IEEE,2011.
[29]Wikipedia,“Feature(computervision).”"https://en.wik
ipedia.org/wiki/Feature_(computer_vision)",2016.
[Online;accessed 09-July-2016].
[30]D.G.Lowe,“Distinctive image features from scale-
invariant keypoints,” International Journal of Computer
Vision ,vol.60,no.2,pp.91–110,2004.
[31]H.Bay,T.Tuytelaars,and L.Van Gool,“Surf:Speeded up
robust features,”in Computer Vision–ECCV 2006,pp.404–
417,Springer,2006.
[32]E.Rublee,V.Rabaud,K.Konolige,and G.Bradski,“Orb:an e
ffi cient alternative to siftor surf,”in 2011 IEEE
International Conference on Computer Vision(ICCV) ,pp.2564–
2571,IEEE,2011.
[33]E.Rosten and T.Drummond,“Machine learning for high-
speed corner detection,”in European conference on computer
vision ,pp.430–443,Springer,2006.
[34]M.Calonder,V.Lepetit,C.Strecha,and
P.Fua,“Brief:Binary robust independent elementary
features,”in European conference on computer vision ,pp.778
–792,Springer,2010.
[35]P.L.Rosin,“Measuringcornerproperties,” ComputerVisio
nandImageUnderstanding,vol.73,no.2,pp.291–307,1999.
[36]M.Muja and D.G.Lowe,“Fast approximate nearest
neighbors with automatic algorithm con fi guration.,”in
VISAPP(1) ,pp.331–340,2009.
[37]J.Sturm,N.Engelhard,F.Endres,W.Burgard,and
D.Cremers,“A benchmark for the evaluation of rgb-d SLAM
systems,”in 2012 IEEE/RSJ International Conference on
Intelligent Robots and Systems(IROS) ,pp.573–580,IEEE,2012.
[38]R.I.Hartley,“In defense of the eight-point
algorithm,” IEEE Transactions on pattern analysis and machine
intelligence ,vol.19,no.6,pp.580–593,1997.
[39]H.C.Longuet-Higgins,“A computer algorithm for
reconstructing a scene from two projections,” Readings in
Computer Vision:Issues,Problems,Principles,and Paradigms,MA
Fischler and O.Firschein,eds ,pp.61–62,1987.
[40]H.Li and R.Hartley,“Five-point motion estimation
made easy,”in 18th International Conference on Pattern
Recognition(ICPR’06),vol.1,pp.630–633,IEEE,2006.
[41]D.Nistér,“An e ffi cient solution to the fi ve-point
relative pose problem,” IEEE Transactions on Pattern Analysis
and Machine Intelligence,vol.26,no.6,pp.756–770,2004.
[42]O.D.Faugeras and F.Lustman,“Motion and structure
from motion in a piecewise planar
environment,” InternationalJournal ofPattern
RecognitionandArti fi cial Intelligence ,vol.2,no.03,pp.485–
508,1988.
[43]Z.Zhang and A.R.Hanson,“3d reconstruction based on
homography mapping,” ARPA Image Understanding Workshop
,pp.1007–1012,1996.
[44]E.Malis and Deeper understanding of the
M.Vargas,
homography decomposition for vision-based control .PhD
thesis,INRIA,2007.
[45]X.-S.Gao,X.-R.Hou,J.Tang,and H.-F.Cheng,“Complete
solution classi fi cation for the perspective-three-point
problem,” IEEE Transactions on Pattern Analysis and Machine
Intelligence ,vol.25,pp.930–943,Aug 2003.
[46]V.Lepetit,F.Moreno-Noguer,and P.Fua,“Epnp:An
accurate o(n)solution to the pnp problem,” International
Journal of Computer Vision ,vol.81,no.2,pp.155–166,2008.
[47]A.Penate-Sanchez,J.Andrade-Cetto,and F.Moreno-
Noguer,“Exhaustive linearization for robust camera pose and
focal length estimation,” IEEE Transactions on Pattern
Analysis and Machine Intelligence ,vol.35,no.10,pp.2387–
2400,2013.
[48]L.Chen,C.W.Armstrong,and D.D.Raftopoulos,“An
investigation on the accuracy of threedimensional space
reconstruction using the direct linear transformation
technique,” Journal of Biomechanics ,vol.27,no.4,pp.493–
500,1994.
[49]iplimage,“P3p(blog).”"http://iplimage.com/blog/p3p-
perspective-point-overview/",2016.
[50]K.S.Arun,T.S.Huang,and S.D.Blostein,“Least-squares
fi tting of two 3-d point sets,” Pattern Analysis and Machine
Intelligence,IEEE Transactions on,no.5,pp.698–700,1987.
[51]F.Pomerleau,F.Colas,and R.Siegwart,“A review of
point cloud registration algorithms for mobile
robotics,” Foundations and Trends in Robotics(FnTROB)
,vol.4,no.1,pp.1–104,2015.
[52]O.D.Faugeras and M.Hebert,“The
representation,recognition,and locating of 3-d objects,” The
International Journal of Robotics Research ,vol.5,no.3,pp.27
–52,1986.
[53]B.K.Horn,“Closed-form solution of absolute
orientation using unit quaternions,” JOSA A
,vol.4,no.4,pp.629–642,1987.
[54]G.C.Sharp,S.W.Lee,andD.K.Wehe,“Icpregistrationusingi
nvariantfeatures,” IEEETransactions on Pattern Analysis and
Machine Intelligence ,vol.24,no.1,pp.90–102,2002.
[55]G.Silveira,E.Malis,and P.Rives,“An e ffi cient
direct approach to visual slam,” IEEE Transactions on
Robotics ,vol.24,no.5,pp.969–979,2008.
[56]C.Forster,M.Pizzoli,and D.Scaramuzza,“Svo:Fast semi-
direct monocular visual Robotics and
odometry,”in
Automation(ICRA),2014 IEEE International Conference on
(rs,ed.),pp.15–22,IEEE,2014.
[57]J.Engel,T.Schöps,and D.Cremers,“Lsd-slam:Large-scale
direct monocular slam,”in Computer Vision–ECCV 2014
,pp.834
–849,Springer,2014.
[58]J.Engel,V.Koltun,and D.Cremers,“Direct sparse
odometry,” arXiv preprint arXiv:1607.02565,2016.
[59]J.Engel,J.Sturm,and D.Cremers,“Semi-dense visual
Proceedings of the IEEE
odometry for a monocular camera,”in
International Conference on Computer Vision ,pp.1449–
1456,2013.
[60]V.Usenko,J.Engel,J.Stueckler,and D.Cremers,“Direct
visual-inertial odometry with stereo IEEE
cameras,”in
International Conference on Robotics and Automation(ICRA)
,May 2016.
[61]Wikipedia,“Randomsampleconsensus.”"https://en.wikip
edia.org/wiki/Random_sample_consensus",2016.[Online;accessed
09-July-2016].
[62]V.Sujan and S.Dubowsky,“E ffi cient information-
based visual robotic mapping in unstructured
environments,” International Journal of Robotics Research
,vol.24,no.4,pp.275–293,2005.
[63]F.Janabi-Shari fi and M.Marey,“A kalman- fi lter-
based method for pose estimation in visual servoing,” IEEE
Transactions on Robotics ,vol.26,no.5,pp.939–947,2010.
[64]S.Li and P.Ni,“Square-root unscented kalman fi lter
based simultaneous localization and mapping,”in Information
and Automation(ICIA),2010 IEEE International Conference on
,pp.2384–2388,IEEE,2010.
[65]R.Sim,P.Elinas,and J.Little,“A study of the rao-
blackwellised particle fi lter for e ffi cient and accurate
vision-based slam,” International Journal of Computer Vision
,vol.74,no.3,pp.303–318,2007.
[66]J.S.Lee,S.Y.Nam,and W.K.Chung,“Robust rbpf-slam for
indoor mobile robots using sonar sensors in non-static
environments,” Advanced Robotics ,vol.25,no.9-10,pp.1227–
1248,2011.
[67]A.Gil,O.Reinoso,M.Ballesta,and M.Julia,“Multi-robot
visual slam using a rao-blackwellized particle fi
lter,” Robotics and Autonomous Systems ,vol.58,no.1,pp.68–
80,2010.
[68]G.Sibley,L.Matthies,and G.Sukhatme,“Sliding window
fi lter with application to planetary landing,” Journal of
Field Robotics ,vol.27,no.5,pp.587–608,2010.
[69]L.M.Paz,J.D.Tardós,and J.Neira,“Divide and
conquer:Ekf slam in o(n),” IEEE Transactions on Robotics
,vol.24,no.5,pp.1107–1120,2008.
[70]O.G.Grasa,J.Civera,and J.Montiel,“Ekf monocular slam
with relocalization for laparoscopic sequences,”in Robotics
and Automation(ICRA),2011 IEEE International Conference on
,pp.4816–4821,IEEE,2011.
[71]E.Süli and D.F.Mayers, An Introduction to Numerical
Analysis .Cambridge university press,2003.
[72]L.Polok,V.Ila,M.Solony,P.Smrz,and
P.Zemcik,“Incremental block cholesky factorization for
nonlinear least squares in robotics.,”in Robotics:Science
and Systems ,2013.
[73]R.Mur-Artal,J.Montiel,and J.D.Tardos,“Orb-slam:a
versatile and accurate monocular slam system,” arXiv preprint
arXiv:1502.00956 ,2015.
[74]S.Leutenegger,S.Lynen,M.Bosse,R.Siegwart,and
P.Furgale,“Keyframe-based visual–inertial odometry using
nonlinear optimization,” The International Journal of
[75]“Bundle adjustment in the
large.”http://grail.cs.washington.edu/projects/bal/.
[76]J.Sherman and W.J.Morrison,“Adjustment of an inverse
matrix corresponding to a change in one element of a given
matrix,” The Annals of Mathematical Statistics
,vol.21,no.1,pp.124–127,1950.
[77]H.Strasdat,A.J.Davison,J.M.M.Montiel,and
K.Konolige,“Double window optimisation for constant time
visual SLAM,” 2011 IEEE International Conference On Computer
Vision(ICCV) ,pp.2352–2359,2011.
[78]G.Dubbelman and B.Browning,“Cop-slam:Closed-form
online pose-chain optimization for visual
slam,” Robotics,IEEE Transactions on ,vol.31,pp.1194–
1213,Oct 2015.
[79]D.Lee and H.Myung,“Solution to the slam problem in
low dynamic environments using a pose graph and an rgb-d
sensor,” Sensors ,vol.14,no.7,pp.12467–12496,2014.
[80]Y.Latif,C.Cadena,and J.Neira,“Robust loop closing
over time for pose graph slam,” The International Journal of
[81]G.Klein and D.Murray,“Parallel tracking and mapping
for small ar workspaces,”in Mixed and Augmented
Reality,2007.ISMAR 2007.6th IEEE and ACM International
Symposium on ,pp.225–234,IEEE,2007.
[82]D.Koller and N.Friedman,Probabilistic graphical
models:principles and techniques .MIT press,2009.
[83]M.Kaess,A.Ranganathan,and
F.Dellaert,“isam:Incremental smoothing and mapping,” IEEE
Transactions on Robotics ,vol.24,no.6,pp.1365–1378,2008.
[84]M.Kaess,H.Johannsson,R.Roberts,V.Ila,J.J.Leonard,and
F.Dellaert,“isam2:Incremental smoothing and mapping using
the bayes tree,” The International Journal of Robotics
Research ,p.0278364911430419,2011.
[85]D.M.Rosen,M.Kaess,and J.J.Leonard,“Rise:An
incremental trust-region method for robust onlinesparseleast-
squaresestimation,” IEEETransactionsonRobotics
,vol.30,no.5,pp.1091–1108,2014.
[86]J.Sola,“Course on
slam.”https://github.com/joansola/slamtb/raw/graph/courseSLA
M.pdf,2016.
[87]F.Dellaert,“Factor graphs and gtsam:A hands-on
introduction,”2012.
[88]F.Endres,J.Hess,J.Sturm,D.Cremers,andW.Burgard,“3-
dmappingwithanrgb-dcamera,” IEEE Transactions on Robotics
,vol.30,no.1,pp.177–187,2014.
[89]D.Hahnel,W.Burgard,D.Fox,and S.Thrun,“An e ffi cient
fastslam algorithm for generating maps of large-scale cyclic
environments from raw laser range measurements,”in
Intelligent Robots and Systems,2003.
(IROS2003).Proceedings.2003IEEE/RSJInternationalConferenceon
,vol.1,pp.206–211,IEEE,2003.
[90]I.Ulrich and I.Nourbakhsh,“Appearance-based place
recognition for topological localization,”in Robotics and
Automation,2000.Proceedings.ICRA’00.IEEE International
Conference on ,vol.2,pp.1023–1029,Ieee,2000.
[91]X.Gao and T.Zhang,“Robust rgb-d simultaneous
localization and mapping using planar point
features,” Robotics and Autonomous Systems ,vol.72,pp.1–
14,2015.
[92]S.Lloyd,“Leastsquaresquantizationinpcm,” IEEEtransac
tionsoninformationtheory,vol.28,no.2,pp.129–137,1982.
[93]D.Arthur and S.Vassilvitskii,“K-means++:The
advantages of careful seeding,”in Proceedings of the
eighteenth annual ACM-SIAM symposium on Discrete algorithms
,pp.1027–1035,Society for Industrial and Applied
Mathematics,2007.
[94]M.Cummins and P.Newman,“Fab-map:Probabilistic
localization and mapping in the space of appearance,” The
International Journal of Robotics Research
,vol.27,no.6,pp.647–665,2008.
[95]M.Cummins and P.Newman,“Accelerating fab-MAP with
concentration inequalities,” IEEE Transactions On Robotics
,vol.26,no.6,pp.1042–1050,2010.
[96]M.CumminsandP.Newman,“Appearance-
onlyslamatlargescalewithfab-map2.0,” International Journal of
[97]C.ChowandC.Liu,“Approximatingdiscreteprobabilitydist
ributionswithdependencetrees,” IEEE transactions on
Information Theory ,vol.14,no.3,pp.462–467,1968.
[98]D.Galvez-Lopez and J.D.Tardos,“Bags of binary words
for fast place recognition in image sequences,” IEEE
Transactions On Robotics,vol.28,no.5,pp.1188–1197,2012.
[99]J.L.Bentley,“Multidimensionalbinarysearchtreesusedfo
rassociativesearching,” Communications of the ACM
,vol.18,no.9,pp.509–517,1975.
[100]J.SivicandA.Zisserman,“Videogoogle:Atextretrievalap
proachtoobjectmatchinginvideos,”in Computer
Vision,2003.Proceedings.Ninth IEEE International Conference
on ,pp.1470–1477,IEEE,2003.
[101]S.Robertson,“Understandinginversedocumentfrequency:
ontheoreticalargumentsforidf,” Journal of documentation
,vol.60,no.5,pp.503–520,2004.
[102]D.Nister and H.Stewenius,“Scalable recognition with
2006 IEEE Computer Society Conference
a vocabulary tree,”in
on Computer Vision and Pattern Recognition(CVPR’06)
,vol.2,pp.2161–2168,IEEE,2006.
[103]C.Cadena,D.Galvez-Lopez,J.D.Tardos,and
J.Neira,“Robust place recognition with stereo
sequences,” IEEE Transactions on Robotics ,vol.28,no.4,pp.871
–885,2012.
[104]X.Gao and T.Zhang,“Loop closure detection for
visual slam systems using deep neural networks,”in Control
Conference(CCC),2015 34th Chinese,pp.5851–5856,IEEE,2015.
[105]X.GaoandT.Zhang,“Unsupervisedlearningtodetectloopsu
singdeepneuralnetworksforvisual slam system,” Autonomous
Robots ,pp.1–18,2015.
[106]B.Williams,M.Cummins,J.Neira,P.Newman,I.Reid,andJ.Ta
rdós,“Acomparisonofloopclosing techniques in monocular
slam,” Robotics and Autonomous Systems,vol.57,no.12,pp.1188
–1197,2009.
[107]M.LabbéandF.Michaud,“Onlinegloballoopclosuredetecti
onforlarge-scalemulti-
sessiongraphbasedslam,”in 2014IEEE/RSJInternationalConference
onIntelligentRobotsandSystems ,pp.2661–2666,IEEE,2014.
[108]R.F.Salas-
Moreno,R.A.Newcombe,H.Strasdat,P.H.J.Kelly,and
A.J.Davison,“Slam++:Simultaneous localisation and mapping at
the level of objects,” 2013 IEEE Conference on Computer
Vision and Pattern Recognition(CVPR) ,pp.1352–9,2013.
[109]M.Pizzoli,C.Forster,andD.Scaramuzza,“Remode:Probabi
listic,monoculardensereconstruction in real time,”in 2014
IEEE International Conference on Robotics and
Automation(ICRA) ,pp.2609–2616,IEEE,2014.
[110]“Correlation based similarity measure-
summary.”https://siddhantahuja.wordpress.com/tag/stereo-
matching/.
[111]H.HirschmullerandD.Scharstein,“Evaluationofcostfunc
tionsforstereomatching,”in 2007IEEE Conference on Computer
Vision and Pattern Recognition ,pp.1–8,IEEE,2007.
[112]G.VogiatzisandC.Hernández,“Video-based,real-
timemulti-viewstereo,” ImageandVisionComputing
,vol.29,no.7,pp.434–441,2011.
[113]A.Handa,R.A.Newcombe,A.Angeli,and
A.J.Davison,“Real-time camera tracking:When is high frame-
rate best?,”in European Conference on Computer Vision
,pp.222–235,Springer,2012.
[114]J.Montiel,J.Civera,andA.J.Davison,“Uni fi
edinversedepthparametrizationformonocularslam,” analysis
,vol.9,p.1,2006.
[115]J.Civera,A.J.Davison,and J.M.Montiel,“Inverse depth
parametrization for monocular slam,” IEEE transactions on
robotics ,vol.24,no.5,pp.932–945,2008.
[116]M.Kazhdan,M.Bolitho,and H.Hoppe,“Poisson surface
reconstruction,”in Proceedings of the fourth Eurographics
symposium on Geometry processing ,vol.7,2006.
[117]J.Stuckler and S.Behnke,“Multi-resolution surfel
Journal
maps for e ffi cient dense 3d modeling and tracking,”
of Visual Communication and Image Representation
,vol.25,no.1,pp.137–147,2014.
[118]A.Hornung,K.M.Wurm,M.Bennewitz,C.Stachniss,and
W.Burgard,“Octomap:An e ffi cient
probabilistic3dmappingframeworkbasedonoctrees,” AutonomousRob
ots ,vol.34,no.3,pp.189–206,2013.
[119]M.Burri,H.Oleynikova,M.W.Achtelik,and
R.Siegwart,“Real-time visual-inertial mapping,re-
localization and planning onboard mavs in unknown
environments,”in Intelligent Robots and Systems(IROS),2015
IEEE/RSJ International Conference on ,pp.1872–
1878,IEEE,2015.
[120]R.A.Newcombe,A.J.Davison,S.Izadi,P.Kohli,O.Hilliges,
J.Shotton,D.Molyneaux,S.Hodges,D.Kim,and
A.Fitzgibbon,“Kinectfusion:Real-time dense surface mapping
and tracking,”in 2011 10th IEEE international symposium on
Mixed and augmented reality(ISMAR) ,pp.127–136,IEEE,2011.
[121]R.A.Newcombe,D.Fox,and
S.M.Seitz,“Dynamicfusion:Reconstruction and tracking of
nonrigid scenes in real-time,”in Proceedings of the IEEE
conference on computer vision and pattern recognition ,pp.343
–352,2015.
[122]T.Whelan,S.Leutenegger,R.F.Salas-
Moreno,B.Glocker,and A.J.Davison,“Elasticfusion:Dense slam
without a pose graph,” Proc.Robotics:Science and
Systems,Rome,Italy ,2015.
[123]M.Dou,S.Khamis,Y.Degtyarev,P.Davidson,S.R.Fanello,A.
Kowdle,S.O.Escolano,C.Rhemann,D.Kim,J.Taylor, et al.
,“Fusion4d:real-time performance capture of challenging
scenes,” ACM Transactions on Graphics(TOG)
,vol.35,no.4,p.114,2016.
[124]M.Innmann,M.Zollhöfer,M.Nießner,C.Theobalt,and
M.Stamminger,“Volumedeform:Realtime volumetric non-rigid
reconstruction,” arXiv preprint arXiv:1603.08161
,2016.
[125]A.J.Davison,“Real-
C
timesimultaneouslocalisationandmappingwithasinglecamera,”in
omputer Vision,2003.Proceedings.Ninth IEEE International
Conference on ,pp.1403–1410,IEEE,2003.
[126]C.Kerl,J.Sturm,andD.Cremers,“Robustodometryestimati
onforrgb-dcameras,”in Roboticsand Automation(ICRA),2013 IEEE
International Conference on ,pp.3748–3754,IEEE,2013.
[127]C.Kerl,J.Sturm,and D.Cremers,“Dense visual slam for
rgb-d cameras,”in 2013 IEEE/RSJ International Conference on
Intelligent Robots and Systems ,pp.2100–2106,IEEE,2013.
[128]J.Gui,D.Gu,S.Wang,and H.Hu,“A review of visual
inertial odometry from fi ltering and optimisation
perspectives,” Advanced Robotics
,vol.29,pp.1289–1301,Oct 18
2015.
[129]A.Martinelli,“Closed-formsolutionofvisual-
inertialstructurefrommotion,” InternationalJournal of
Computer Vision ,vol.106,no.2,pp.138–152,2014.
[130]M.Bloesch,S.Omari,M.Hutter,and R.Siegwart,“Robust
visual inertial odometry using a direct ekf-based
approach,”in Intelligent Robots and Systems(IROS),2015
IEEE/RSJ International Conference on ,pp.298–304,IEEE,2015.
[131]M.Li and A.I.Mourikis,“High-precision,consistent
ekf-based visual-inertial odometry,” International Journal of
Robotics Research ,vol.32,pp.690–711,MAY 2013.
[132]G.Huang,M.Kaess,andJ.J.Leonard,“Towardsconsistentvi
2014IEEE International Conference
sual-inertialnavigation,”in
on Robotics and Automation(icra) ,IEEE International
Conference on RoboticsandAutomationICRA,pp.4926–
4933,2014.IEEEInternationalConferenceonRobotics and
Automation(ICRA),Hong Kong,PEOPLES R CHINA,MAY 31-JUN
07,2014.
[133]C.Forster,L.Carlone,F.Dellaert,andD.Scaramuzza,“Imu
preintegrationonmanifoldfore ffi cient visual-inertial
maximum-a-posteriori estimation,”in Robotics:Science and
Systems XI ,no.EPFLCONF-214687,2015.
[134]M.Tkocz and K.Janschek,“Towards consistent state
and covariance initialization for monocular slam fi
lters,” Journal of Intelligent&Robotic Systems
,vol.80,pp.475
–489,DEC 2015.
[135]A.NüchterandJ.Hertzberg,“Towardssemanticmapsformobi
lerobots,” RoboticsandAutonomous Systems
,vol.56,no.11,pp.915
–926,2008.
[136]J.Civera,D.Gálvez-López,L.Riazuelo,J.D.Tardós,and
J.Montiel,“Towards semantic slam using a monocular
camera,”in Intelligent Robots and Systems(IROS),2011
IEEE/RSJ International Conference on ,pp.1277–
1284,IEEE,2011.
[137]H.S.Koppula,A.Anand,T.Joachims,and
A.Saxena,“Semantic labeling of 3d point clouds for indoor
scenes,”in Advances in Neural Information Processing Systems
,pp.244–252,2011.
[138]A.Anand,H.S.Koppula,T.Joachims,and
A.Saxena,“Contextually guided semantic labeling and search
for three-dimensional point clouds,” The International
Journal of Robotics Research ,p.0278364912461538,2012.
[139]N.Fioraio and L.Di Stefano,“Joint
detection,tracking and mapping by semantic bundle
adjustment,” 2013 IEEE Conference on Computer Vision and
Pattern Recognition(CVPR) ,pp.1538–45,2013.
[140]R.F.Salas-Moreno,B.Glocken,P.H.Kelly,and
A.J.Davison,“Dense planar slam,”in Mixed and Augmented
Reality(ISMAR),2014 IEEE International Symposium on ,pp.157–
164,IEEE,2014.
[141]J.Stückler,N.Biresev,and S.Behnke,“Semantic mapping
using object-class segmentation of rgb-d images,”in 2012
IEEE/RSJ International Conference on Intelligent Robots and
Systems ,pp.3005–3010,IEEE,2012.
[142]I.Kostavelis and A.Gasteratos,“Learning spatially
semantic representations for cognitive robot
navigation,” Robotics and Autonomous Systems
,vol.61,no.12,pp.1460–1475,2013.
[143]C.Couprie,C.Farabet,L.Najman,and Y.LeCun,“Indoor
semantic segmentation using depth information,” arXiv
preprint arXiv:1301.3572 ,2013.
[144]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,and L.Fei-
Fei,“Imagenet:A large-scale hierarchical image database,”in
CVPR09 ,2009.
[145]A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet
classi fi cation with deep convolutional neural networks,”in
Advances in neural information processing systems ,pp.1097–
1105,2012.
[146]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual
learning for image recognition,” arXiv preprint
arXiv:1512.03385 ,2015.
[147]S.Ren,K.He,R.Girshick,andJ.Sun,“Fasterr-
cnn:Towardsreal-timeobjectdetectionwithregion proposal
networks,”in Advances in neural information processing
systems ,pp.91–99,2015.
[148]J.Long,E.Shelhamer,and T.Darrell,“Fully
convolutional networks for semantic segmentation,” arXiv
preprint arXiv:1411.4038 ,2014.
[149]S.Zheng,S.Jayasumana,B.Romera-
Paredes,V.Vineet,Z.Su,D.Du,C.Huang,and P.Torr,“Conditional
random fi elds as recurrent neural networks,”in
International Conference on Computer Vision(ICCV) ,2015.
[150]S.Gupta,P.Arbeláez,R.Girshick,and J.Malik,“Indoor
scene understanding with rgb-d images:Bottom-up
segmentation,object detection and semantic
segmentation,” International Journal of Computer Vision,pp.1
–17,2014.
[151]K.Konda and R.Memisevic,“Learning visual odometry
with a convolutional network,”in International Conference on
Computer Vision Theory and Applications
,2015.
[152]A.Kendall,M.Grimes,and R.Cipolla,“Posenet:A
convolutional network for real-time 6-dof camera
relocalization,”in Proceedings of the IEEE International
Conference on Computer Vision ,pp.2938–2946,2015.
[153]Y.Hou,H.Zhang,and S.Zhou,“Convolutional neural
network-based image representation for visual loop closure
detection,” arXiv preprint arXiv:1504.05241
,2015.
[154]S.Y.An,J.G.Kang,L.K.Lee,and S.Y.Oh,“Line segment-
based indoor mapping with salient line feature
extraction,” Advanced Robotics ,vol.26,no.5-6,pp.437–
460,2012.
[155]H.Zhou,D.Zou,L.Pei,R.Ying,P.Liu,andW.Yu,“Structslam
:Visualslamwithbuildingstructure lines,” Vehicular
Technology,IEEE Transactions on ,vol.64,pp.1364–1375,April
2015.
[156]D.Benedettelli,A.Garulli,and
A.Giannitrapani,“Cooperative slam using m-space
representation of linear features,” Robotics and Autonomous
Systems ,vol.60,no.10,pp.1267–1278,2012.
[157]J.P.Saarinen,H.Andreasson,T.Stoyanov,and
A.J.Lilienthal,“3d normal distributions transform occupancy
maps:An e ffi cient representation for mapping in dynamic
environments,” The International Journal of Robotics Research
,vol.32,no.14,pp.1627–1644,2013.
[158]W.Maddern,M.Milford,and G.Wyeth,“Cat-
slam:probabilistic localisation and mapping using a
continuousappearance-
basedtrajectory,” InternationalJournalofRoboticsResearch
,vol.31,no.4SI,pp.429–451,2012.
[159]H.Wang,Z.-G.Hou,L.Cheng,and M.Tan,“Online mapping
with a mobile robot in dynamic and
unknownenvironments,” InternationalJournalofModelling,Identi
fi cationandControl ,vol.4,no.4,pp.415–423,2008.
[160]D.Zou and P.Tan,“Coslam:Collaborative visual SLAM
IEEE Transactions On Pattern
in dynamic environments,”
Analysis And Machine Intelligence ,vol.35,no.2,pp.354–
366,2013.
[161]T.A.Vidal-
Calleja,C.Berger,J.Sola,andS.Lacroix,“Largescalemultiplerobo
tvisualmappingwith heterogeneous landmarks in semi-structured
terrain,” Robotics and Autonomous Systems ,vol.59,no.9,pp.654
–674,2011.

视觉SLAM十四讲 全网电子书， v：Shuyou099（补发）

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

视觉SLAM十四讲 全网电子书， v：Shuyou099（补发）

Uploaded by

Copyright:

Available Formats

还 督 己 天进步一 吗？

还 为找不 己喜欢的书 恼吗？

7.4 ： 极约束 解相机运动

9.2 本的VO： 征 取和匹

11.2.2 李代 上的位 图优化

（ State Estimation for Robotics:A Matrix-Lie-Group Approach ）

标量 用斜 字（ a ），向量和矩阵 用 斜 （ a,A ）。空

[3] 也可 成为今后相关行业的面试题， 许还 帮 找工 时留个 印象。

图2-1 萝卜设计图。左 ：正视图；右 ： 视图。设 有相机、轮 、笔记

虽 有 “安卓”， 并不是靠安卓 来计 的。我 一

图2-2 一些 感器。（a） 用二 码进行 位的 强现 软件；（b）GPS 位

图2-4 单目视觉中的 ：不知 度时， 上的人是真人还是 ？

由于单目相机 的图 只是三 空 的二 影，所以， 果真

图2-5 双目相机的 ：左眼图 ，右眼图 。 过左右眼的差异， 断

计 机上的双目相机需要 量的计 才 （不太可靠 ）估计 一

图2-6 RGB-D ： 度相机可以直 量 的图 和 离，从 恢 三

图2-7 视觉SLAM 程图。

是， 果进一步问： 否确 旋转了 度，平移了 厘 ？

图2-9 积误差与 环检 的校正 果[10] 。

这里， uk 是运动 感器的读 （有时也叫 输入 ），wk 为 。

这里，vk,j 是这次观 里的 。由于观 所用的 感器形式更

图2-11 一个运行 虚 机中的Ubuntu 14.04。

果出现 的 误，请再检查一 刚才的程序是否 正确。

我 所想，这个程序 出“Hello SLAM!”，告诉我 正确运

CMakeLists.txt 件用于告诉cmake我 要 这个目录下的 件 什

译过程中会 出一个 译进度。 果顺 过，我 可以得

这个库 了一个printHello ，调用此 出一条 息。

这时， build 件夹中 会生成一个libhello.a 件，这 是我

后， CMakeLists.txt中 加一个可 行程序的生成命令，

本上，我 一个IDE的功 要 具 ，所以读 不 试一

cmake 带一些 译相关的 变量， 可以 译过程进行更

第二栏里，可以设 程序的运行参 和工 目录。有时程序是有

调试时，Kdevelop会切 调试 式，界面会发生一 变化。 断

[1] 不过现 中我 会有一个 的 ， 和 的区分。

[2] 画成单目会比 吓人。

[3] 上的原 会 视觉里程计一讲中解 。

[4] 可以用 机录个 视频试试。

[5] 更 时 称为后端（Back End）。由于主要 用的是优化方 ， 称为后端优化。

[7] 本书中，我 以“位 ”这个词表示“位 ”加上“ 态”。

[8] 我 以后称 为位 （Pose），以与位 进行区 。我 说的位 ，包含了旋转

[10] 人第一次看 Ubuntu 觉得很 亮。

[11] MakeFile是一个 动化 译的 本，读 现 可以 理解成一 动生成的

[12] 半猜 了， 并不叫 动态库。

[13] 不是直 给我 发 件询问怎么 理 的问题。

所以坐标的具 取 ，一是和向量本 有关，二是和坐标 的 取

积的方向 直于这两个向量， 为 sin |a||b|

相机运动是一个刚 运动， 证了同一个向量 各个坐标 下的

为了 两个坐标之 的关 ，我 上 等式的左右两 同时左

SO( )是 n 正交 （Special Orthogonal Group）的意思。我

这样的形式 变 次之后会过于 杂。 此，我 要引 齐次坐

这是一个 技巧：我 一个三 向量的末尾 加1， 其变成了

这时，忽略 最后一项，这个 的坐标和 空 是一样的。

与SO(3)一样， 解该矩阵的 表示一个反向的变 ：

最后，为了 符号的 ， 不引起 义的情 下，我 以后不

分常用的库 已 Ubuntu软件 中 。以后， 想要安装某

相比于其 库，Eigen的 之 于， 是一个 用 件 建起

符号 ∧ 是向量 反 称的转 符，见式（3.3）。反之，我 也可

关于转 n ，由于旋转 上的向量 旋转后不发生 变，说明

此时，可以 用[r,p,y ] 这样一个三 的向量

角的一个重 是会碰 著名的万向 问题（Gimbal Lock[4]

图3-3 角的旋转示意图。上方为ZYX角 义。下方为pitch=90 ° 时，第三次

其中i,j,k 为 的三个虚 。这三个虚 足以下关 式：

由于 的这种 表示形式，有时人 也用一个标量和一个向量来

反之，亦可从单位 中计 出 应旋转 与夹角：

视觉SLAM十四讲全网电子书， v：Shuyou099（补发）

视觉SLAM十四讲全网电子书， v：Shuyou099（补发）

还督己天进步一吗？

还为找不己喜欢的书恼吗？

7.4　：极约束解相机运动

9.2　本的VO：征取和匹

11.2.2　李代上的位图优化

标量用斜字（ a ），向量和矩阵用斜（ a,A ）。空

[3] 也可成为今后相关行业的面试题，许还帮找工时留个印象。

图2-1　萝卜设计图。左：正视图；右：视图。设有相机、轮、笔记

虽有 “安卓”，并不是靠安卓来计的。我一

图2-2　一些感器。（a）用二码进行位的强现软件；（b）GPS 位

图2-4　单目视觉中的：不知度时，上的人是真人还是？

由于单目相机的图只是三空的二影，所以，果真

图2-5　双目相机的：左眼图，右眼图。过左右眼的差异，断

计机上的双目相机需要量的计才（不太可靠）估计一

图2-6　RGB-D ：度相机可以直量的图和离，从恢三

图2-7　视觉SLAM 程图。

是，果进一步问：否确旋转了度，平移了厘？

图2-9　积误差与环检的校正果[10] 。

这里， uk 是运动感器的读（有时也叫输入），wk 为。

这里，vk,j 是这次观里的。由于观所用的感器形式更

图2-11　一个运行虚机中的Ubuntu 14.04。

果出现的误，请再检查一刚才的程序是否正确。

我所想，这个程序出“Hello SLAM!”，告诉我正确运

CMakeLists.txt 件用于告诉cmake我要这个目录下的件什

译过程中会出一个译进度。果顺过，我可以得

这个库了一个printHello ，调用此出一条息。

这时， build 件夹中会生成一个libhello.a 件，这是我

后， CMakeLists.txt中加一个可行程序的生成命令，

本上，我一个IDE的功要具，所以读不试一

cmake 带一些译相关的变量，可以译过程进行更

第二栏里，可以设程序的运行参和工目录。有时程序是有

调试时，Kdevelop会切调试式，界面会发生一变化。断

[1] 不过现中我会有一个的，和的区分。

[2] 画成单目会比吓人。

[3] 上的原会视觉里程计一讲中解。

[4] 可以用机录个视频试试。

[5] 更时称为后端（Back End）。由于主要用的是优化方，称为后端优化。

[7] 本书中，我以“位 ”这个词表示“位 ”加上“ 态”。

[8] 我以后称为位（Pose），以与位进行区。我说的位，包含了旋转

[10] 人第一次看 Ubuntu 觉得很亮。

[11] MakeFile是一个动化译的本，读现可以理解成一动生成的

[12] 半猜了，并不叫动态库。

[13] 不是直给我发件询问怎么理的问题。

所以坐标的具取，一是和向量本有关，二是和坐标的取

积的方向直于这两个向量，为 sin |a||b|

相机运动是一个刚运动，证了同一个向量各个坐标下的

为了两个坐标之的关，我上等式的左右两同时左

SO( )是 n 正交（Special Orthogonal Group）的意思。我

这样的形式变次之后会过于杂。此，我要引齐次坐

这是一个技巧：我一个三向量的末尾加1，其变成了

这时，忽略最后一项，这个的坐标和空是一样的。

与SO(3)一样，解该矩阵的表示一个反向的变：

最后，为了符号的，不引起义的情下，我以后不

分常用的库已 Ubuntu软件中。以后，想要安装某

相比于其库，Eigen的之于，是一个用件建起

符号 ∧ 是向量反称的转符，见式（3.3）。反之，我也可

关于转 n ，由于旋转上的向量旋转后不发生变，说明

此时，可以用[r,p,y ] 这样一个三的向量

角的一个重是会碰著名的万向问题（Gimbal Lock[4]

图3-3　角的旋转示意图。上方为ZYX角义。下方为pitch=90 ° 时，第三次

其中i,j,k 为的三个虚。这三个虚足以下关式：

由于的这种表示形式，有时人也用一个标量和一个向量来

反之，亦可从单位中计出应旋转与夹角：

这个式给了我一种微的“转了一半”的感觉。同样，式

虽稍为杂，形式上是齐有序的。果成向量形式并用

该乘义下，两个的乘积仍是的，这与也是一

可以验证，两个乘积的即为的乘积。这证了单位

这相当于的3个虚与空中的3个相应。后，参

可以验证（留习题），计果的为0，为虚。其

反之，由旋转矩阵的转下。设矩阵为 R ={mij

意旋转分了一个，表示我 s向量旋转之

与变不同的是，变只要是一个可矩阵， A 不必

这个程序中，我坐标原了一个彩立方。用鼠标

这里 Tcw 表示世界坐标相机坐标的变。可以用反过来

差一个已。当中用更加常见，更为直观。果

上面两式的是相机坐标中的原，么，此时的

我发现这正是 T 的平移分。此，可以从 T 中直看相

6.*一性方程Ax =b 有哪几种？ Eigen中现吗？