3D Object Recognition and Pose Estimation

自動化科技研究所
碩士學位論文
三維物件之辨識與姿態估測
3D Object Recognition and Pose Estimation
研究生：邱駿展
指導教授：陳金聖博士
中華民國九十八年一月
摘要
論文名稱：三維物件之辨識與姿態估測頁數：87

校所別：國立臺北科技大學自動化科技研究所
畢業時間：九十七學年度第一學期學位：碩士
研究生：邱駿展指導教授：陳金聖
關鍵詞：物體識別、視覺追蹤、特徵比對
物體識別(Object recognition)與姿態估測在目前影像伺服與機器視覺等相關
應用中仍是一個重要且基礎的問題。本篇論文主要在發展一個三維物體識別與
姿態估測之視覺系統，對特定的目標物進行識別且鎖定，並利用立體視覺量測
的方式獲得該物體的三維座標與姿態。
本論文之視覺系統之架構可分為離線訓練階段與線上操作階段，離線訓練
階段進行目標物的特徵提取(Feature detector)與特徵描述(Feature descriptor)計
算、建立粗與細之搜尋結構和相機校正，線上操作階段進行輸入影像的特徵提
取與特徵描述計算、目標物識別和估測目標物位置與姿態。因本視覺系統同時
考量穩定性與即時性，所以本論文提出改良的直覺式角點外觀偵測方式，以達
到快速特徵點提取的效果，特徵描述部份使用 SIFT 的描述方式，並透過 PCA
的方式來降低其描述空間的維度，不同的是，離線訓練階段使用多解析度的特
徵描述範圍，但線上操作階段只使用單一解析度的特徵描述範圍，在目標物識
別時本論文提出階層式的比對方式，此方式利用縮減搜尋空間來加快比對速
度。由實驗結果顯示，使用本論文所提出之特徵點能夠迅速識別出單一目標物，
而在一般雜亂之環境下仍然有足夠的能力識別出目標物，並能進一步求得其三
維空間上的座標位置，了解該目標物的在空間上的姿態。
i
ABSTRACT
Title： 3D Object Recognition and Pose Estimation Pages：87

School：National Taipei University of Technology
Department：Graduate Institute of Automation Technology
Time：January, 2009 Degree：Master
Researcher：Chun-Chan Chiu Advisor：Chin-Sheng Chen
Keywords：object recognition, visual tracking, feature matching
3D object recognition and pose estimation is a fundamental technique for many

applications of machine vision, including target tracking, visual servo, robot vision,
just to name a few. This thesis proposes a high speed and robust vision system for 3D
objects recognition and poses estimation based on stereo projective.
The algorithm architecture of this paper consists of two phases: (1) the off-line
training phase, and (2) the on-line operating phase. In the training phase, the data set
corresponding to the targets are collected, then the feature points are detected and the
feature descriptions are represents. With this information, the algorithm creates the
hierarchical structures of feature descriptions to improve the speed of patch matching.
In the other hand, the camera calibration is also finished in this phase. For the operating
phase, the target images are input and the same processes for feature detection and
representation are done. Finally, the recognition algorithm based on the hierarchical
structures improves the performance of object detection and the 3D pose is further
estimated. This thesis proposes the modified intuitive corner detection to quickly
extract the features, and the feature descriptions based on SIFT and PCA are applied.
In patch matching process, the multi-resolution patch in training phase and single
resolution patch in operating phase are loaded respectively and the two stages matching,
coarse and fine matching based on hierarchical structures of feature descriptions to
reduce the range of candidates, are proposed to reduce the matching computation time.
Experimental results show that the proposed algorithms can rapidly detect the target
even in the complex environment. Furthermore, the pose of 3D object can be easily
estimated using the transformation formula from 2D to 3D.
ii
誌謝
在就讀研究所的期間，首先要感謝最辛苦的指導教授陳金聖老師，老師是
個有耐心又親切的人，在老師的耐心指導下，不但學習到專業知識，更可以學
到做人處事的道理，在學生往後的人生規劃提出寶貴的經驗；再者要感謝百忙
之中特地趕過來幫學生口試的兩位口試委員李恆寬博士與顏炳郎教授，在長
達兩小時的口試時間內提供寶貴的意見與指正，讓學生知道自己的缺點並糾
正，在此由衷的感謝。
接著要感謝所辦小姐郭淑玲小姐，在學校就讀期間指導我學校的相關事務
和做人處事之道，感謝她對長期對我們所上的學生關懷與照顧。在研究期間，
首先感謝博士班大學長陳立業學長，憑著多才多藝的本事幫忙實驗室的學弟
們，在研究期間解決我遭遇的問題，還有葉郡維、魏漢樹、林士傑、許希孜等
學長們，都很用心地照顧我們學弟，非常感謝你們；還有感謝建旭、潁聰、家
琳、峻奭及班上所有同學們，還有建量、聖鈗、天一、銘富、彥廷、宥宏等學
弟們，在求學期間互相幫助並開心地相處了一段時間，謝謝你們。
最後要感謝我的家人，我的爸爸、媽媽、姐姐這多年來對我的幫忙和支持，
由於我出外求學期間而無法經常陪伴你們，非常抱歉。這裡希望大家都能平平
安安、快快樂樂的生活。
iii
目錄
中文摘要 ........................................................................................................................... i
英文摘要 ..........................................................................................................................ii
誌謝 ...............................................................................................................................iii
目錄 ................................................................................................................................. iv
表目錄 ............................................................................................................................. vi
圖目錄 ............................................................................................................................vii
第一章緒論.................................................................................................................. 1
1.1 研究背景與目的 ..................................................................................... 1
1.2 文獻回顧 .................................................................................................. 2
1.3 系統規劃與研究概述 ............................................................................. 3
1.4 論文架構 ................................................................................................ 7
第二章特徵提取與描述方式..................................................................................... 8
2.1 特徵點偵測 .................................................................................................. 8
2.1.1 Harris特徵點偵測演算法 ................................................................ 8
2.2 特徵描述..................................................................................................... 18
2.2.1 方向矯正原理 ................................................................................. 18
2.2.2 SIFT的描述方式............................................................................. 21
2.2.3 PCA降維方式 ................................................................................. 23
第三章特徵對應與識別方式................................................................................... 26
3.1 相關背景..................................................................................................... 26
3.2 目標物體之資料庫建立............................................................................ 27
3.3 特徵資料搜尋與對應 ................................................................................ 30
3.3.1 資料對應方式 ................................................................................. 30
3.3.2 資料搜尋方式 ................................................................................. 31
3.3.3 幾何限制估測 ................................................................................. 35
3.3.4 整體識別流程 ................................................................................. 36
第四章位置與姿態的估測 ................................................................................... 38
4.1 相機投影幾何 ............................................................................................ 38
4.1.1 相機投影模型 ................................................................................. 38
4.1.2 相機參數 ......................................................................................... 39
4.1.3 平面投影轉換 ................................................................................. 42
4.1.4 徑向透鏡扭曲................................................................................ 44
4.2 雙眼立體視覺原理 ............................................................................... 46
4.3 同軸幾何與基礎矩陣 ........................................................................... 48
4.3.1 同軸限制 ........................................................................................ 48
iv
4.3.2 基礎矩陣 ........................................................................................ 49
4.4 目標物體之三維空間資訊估算........................................................... 52
第五章實驗測試與評估 ........................................................................................... 54
5.1 實驗平台架構 ............................................................................................. 54
5.2 實驗測試評估與討論 ................................................................................. 56
5.2.1 特徵點重現性實驗 ......................................................................... 56
5.2.2 特徵點重現性實驗之討論 ............................................................. 65
5.2.3 物體識別性能測試實驗之設置..................................................... 65
5.2.4 物體識別性能測試實驗(測試環境 1)........................................... 69
5.2.5 物體識別性能測試實驗(測試環境 1)之討論 .............................. 72
5.2.6 物體識別性能測試實驗(測試環境 2)........................................... 73
5.2.7 物體識別性能測試實驗(測試環境 2)之討論 .............................. 76
5.2.8 物體之三維位置估測實驗 ............................................................. 77
5.2.9 物體之三維位置估測實驗之討論................................................. 83
第六章結論與未來方向 ........................................................................................... 84
參考文獻 ........................................................................................................................ 85
v
表目錄
表1 特徵點偵測之重現性比較 ................................................................................. 64
表2 測試群組的特徵資料統計 ................................................................................. 69
表3 識別性能測試(測試環境 1，近距離，正放).................................................... 69
表4 識別性能測試(測試環境 1，近距離，旋轉約 45 度)...................................... 70
表5 識別性能測試(測試環境 1，近距離，自旋約 15 度)...................................... 70
表6 識別性能測試(測試環境 1，遠距離，正放).................................................... 71
表7 識別性能測試(測試環境 1，遠距離，旋轉約 45 度)...................................... 71
表8 識別性能測試(測試環境 1，遠距離，自旋約 15 度)...................................... 72
表9 識別性能測試(測試環境 2，近距離，正放) ................................................... 73
表 10 識別性能測試(測試環境 2，近距離，旋轉約 45 度) ................................... 74
表 11 識別性能測試(測試環境 2，近距離，自旋約 15 度).................................... 74
表 12 識別性能測試(測試環境 2，遠距離，正放) ................................................. 75
表 13 識別性能測試(測試環境 2，遠距離，旋轉約 45 度) ................................... 75
表 14 識別性能測試(測試環境 2，遠距離，自旋約 15 度) ................................... 76
vi
圖目錄
圖 1.1 系統流程圖 .......................................................................................................... 6

圖 2.1 矩形區域在影像中移動示意圖 .......................................................................... 9
圖 2.2 特徵值α、β與影像灰階變化的關係圖 ............................................................ 10
圖 2.3 角點外觀偵測示意圖(1).................................................................................... 12
圖 2.4 角點外觀偵測示意圖(2).................................................................................... 12
圖 2.5 角點外觀偵測示意圖(3).................................................................................... 13
圖 2.6 角點偵測測試結果(1)........................................................................................ 14
圖 2.7 角點外觀夾角檢查示意圖 ................................................................................ 15
圖 2.8 角點偵測測試結果(2)........................................................................................ 16
圖 2.9 角點偵測整體流程圖 ........................................................................................ 17
圖 2.10 特徵點偵測的實際情形 .................................................................................. 17
圖 2.11 基準方向示意圖............................................................................................... 18
圖 2.12 基準方向挑選示意圖 ...................................................................................... 20
圖 2.13 特徵點與基準梯度方向矯正的實際情形 ...................................................... 20
圖 2.14 SIFT特徵描述說明圖(32 維) ...................................................................... 22
圖 2.15 SIFT特徵描述向量(32 維) .......................................................................... 23
圖 2.16 SIFT特徵描述向量(128 維) ........................................................................ 23
圖 3.1 多種解析度的特徵描述範圍示意 .................................................................. 27
圖 3.2 物件之特徵點描述群建立示意圖 .................................................................. 28
圖 3.3(a) 特徵點描述群之結構示意圖...................................................................... 29
圖 3.3(b) 目標物體資料庫之結構示意圖 ................................................................. 30
圖 3.4 局部歐幾里德距離之判斷流程 ...................................................................... 32
圖 3.5 資料分群示意圖 ............................................................................................... 33
圖 3.6 階層式搜尋流程 ............................................................................................... 35
圖 3.7 整體識別流程 ................................................................................................... 37
圖 4.1 相機的透視投影模型示意圖 .......................................................................... 39
vii
圖 4.2 影像平面與影像座標的關係 .......................................................................... 40
圖 4.3 世界座標與相機座標示意圖 .......................................................................... 41
圖 4.4 平面投影示意圖 ............................................................................................... 42
圖 4.5 兩個影像平面轉換的情形 .............................................................................. 43
圖 4.6 鏡頭徑向扭曲示意圖....................................................................................... 45
圖 4.7 雙眼立體視覺之量測示意圖 .......................................................................... 46
圖 4.8 雙眼視覺的相機設置(a)向內(b)向外............................................................. 47
圖 4.9 同軸幾何示意圖 ............................................................................................... 48
圖 4.10 以基礎矩陣進行對應點搜尋 .......................................................................... 50
圖 4.11 目標物體的視覺對應搜尋示意....................................................................... 53
圖 5.1 硬體架構圖 ....................................................................................................... 54
圖 5.2 硬體設置實際情形 ........................................................................................... 55
圖 5.3 Graffiti 測試影像............................................................................................. 57
圖 5.4 Boat 測試影像................................................................................................. 57
圖 5.5 Graffiti 測試影像集合中a轉換至b的特徵點偵測結果................................. 58
圖 5.6 Graffiti 測試影像集合中a轉換至c的特徵點偵測結果 ................................. 59
圖 5.7 Graffiti 測試影像集合中a轉換至d的特徵點偵測結果................................. 59
圖 5.8 Graffiti 測試影像集合中a轉換至e的特徵點偵測結果 ................................. 60
圖 5.9 Graffiti 測試影像集合中a轉換至f的特徵點偵測結果 ................................. 61
圖 5.10 Boat 測試影像集合中a轉換至b的特徵點偵測結果 ................................... 61
圖 5.11 Boat 測試影像集合中a轉換至c的特徵點偵測結果 ................................... 62
圖 5.12 Boat 測試影像集合中a轉換至d的特徵點偵測結果 ................................... 63
圖 5.13 Boat 測試影像集合中a轉換至e的特徵點偵測結果 ................................... 63
圖 5.14 Boat 測試影像集合中a轉換至f的特徵點偵測結果.................................... 64
圖 5.15 物體擺設示意圖 .............................................................................................. 66
圖 5.16 (a)輕微雜亂的環境 (b)正常雜亂的環境 ..................................................... 66
圖 5.17 物體識別之實際情形 ...................................................................................... 67
圖 5.18 測試物體群組 .................................................................................................. 68
圖 5.19 三維座標位置之相對關係示意 ...................................................................... 77
viii
圖 5.20 測試使用的目標物體 ...................................................................................... 78
圖 5.21 識別與視覺對應情形(目標物a，中距離) (45 筆資料) ................................. 79
圖 5.22 目標物體之三維座標轉換結果(目標物a，中距離)(45 筆資料) .................. 79
圖 5.23 識別與視覺對應情形(目標物a，遠距離) (21 筆資料) ................................. 80
圖 5.24 目標物體之三維座標轉換結果(目標物a，遠距離) (21 筆資料) ................. 80
圖 5.25 識別與視覺對應情形(目標物b，中距離) (14 筆資料) ................................. 81
圖 5.26 目標物體之三維座標轉換結果(目標物b，中距離)(14 筆資料) .................. 81
圖 5.27 識別與視覺對應情形(目標物b，遠距離) (10 筆資料) ................................. 82
圖 5.28 目標物體之三維座標轉換結果(目標物b，遠距離) (10 筆資料) ................. 82
ix
第一章緒論
1.1 研究背景與目的
電腦視覺(Computer vision)藉由數位相機、攝影機等週邊設備擷取影像，經
過影像演算程式轉換成有用的數位資訊，近年來隨著電腦科技的快速發展，中
央處理器的運算時脈大幅提升以及硬體成本逐年下降，已大幅縮短影像處理的
運算時間與建置的成本，使得以電腦視覺為基礎的系統具實用性與發展潛力。
近幾年來，由於局部特徵擷取演算上的重大突破，許多電腦視覺的應用已
有相當成功的研究成果，例如視覺伺服 (Visual servo) 、視覺追蹤 (Visual
tracking) 、三維場景重建 (3D scene reconstruction) 、機器人導航 (Robot
navigation)、視覺比對(Visual matching)、物體識別(Object recognition)、紋理識
別 (Texture recognition) 、影像檢索 (Image retriecal) 、影像校正 (Image
alignment)、擴增實境(Augmented reality)等。
有關視覺伺服(Visual servo)或機器人視覺(Robot vision)的應用中，目標偵測

與定位在工作上，其穩定性、準確性與即時性都是重要的問題，這些應用大多
需要工作在大範圍與自然真實的環境下，對於目標物的偵測，不使用任何基準
的(Fiducial)或人工的標誌作為目標物，而使用真實且結構複雜的物體作為目標
物，所以視覺演算上需要考慮多種情況，例如光源的變動、尺寸與旋轉的變化、
透視與扭曲的轉換和物體遮蔽問題等，在考量上述的條件下以達到穩定且準確
地目標物偵測與定位。在即時性的考量上，整體的系統上包含視覺處理與伺服
控制部份，視覺處理部份應需要處理大量資訊，在整體系統的時間花費佔據了
相當大的比重，所以需要在視覺處理中有效率地處理大量資訊與發展快速的演
算方式來縮減計算時間，提升整體系統的即時性。
本論文提出一個基於三維物體之辨識與定位的視覺系統，能夠應用在有關
視覺伺服、視覺追蹤和機器人導航方面的視覺部份，實行上使用兩組相機來擷
取影像作為系統的輸入資訊，從輸入資訊中提取特徵點的資訊並進行目標物識
1
別，對所要的目標物來估測其三維位置與姿態，系統設計針對穩定性與即時性
的考量，首先在提取特徵點時使用直覺式的角點外觀偵測方式，以達到快速提
取特徵資料的目的，在識別部份時發展出一種階層性的資料比對方式，利用此
方式能有效地加快特徵比對，藉由結合上述的方式來縮減的計算時間，提升整
體視覺系統的效能。
1.2 文獻回顧
近幾年來隨著科技的快速發展，對於電腦視覺與視覺伺服相關研究與應用
方面，其涵蓋領域也越來越廣泛，如視覺追蹤與伺服 [1-4]、機器手臂應用[5-6]、
機器人導航[7-10]、三維場景重建[11-12]、擴增實境[13-14]、影像識別與分類
[15-17]等，這些應用大都需要藉由影像上的特徵作為重要資訊而達到所要的功
能，而影像上的特徵包含特徵點(或角點)、邊緣、顏色或亮度等，其中特徵點的
資訊較為豐富且應用上較為彈性，吸引大量的學者投入其相關的研究，所以已
發展許多的演算法與相關應用，在這期間也發表大量的相關文獻，至今，特徵
點的相關研究仍然是一個具吸引力且重要的主題。
特徵點偵測與特徵點描述的方式已經發展許多年了，早期的特徵點偵測方
式如 Moravec[18]使用一個矩形視窗沿著水平與垂直方向對影像搜尋，依據其灰
階變化程度來判定特徵點，Harris 與 Stephens[19]改進了 Moravec 的方法並減少
雜訊，相關應用如 Zhang 等人[21]使用 Harris 的特徵點提取方式，對大範圍的影
像進行強健性立體視覺比對，Susan [20]使用圓形遮罩的方式對影像搜尋，依據
其灰階分佈情形來判定特徵點。
近年來，基於能夠更彈性地應用的考量，在特徵點提取方式與特徵描述方
式均加入尺度(Scale)變化與仿射(Affine)變化的考量，[22-23]針對尺度變化大的
情形下來進行特徵點偵測，而[24-25]則考慮在幾何變化大(視角變化大)的情形下
進行特徵點偵測， Lowe 使用尺寸不變特徵轉換 (Scale Invariant Feature
Transform-SIFT)的特徵點偵測與特徵描述之演算方式來進行視覺比對與物體識
別[26-27]，其特徵點偵測與特徵描述方式都具有不錯的性能，而 Ke 與 Sukthankar
提出基於 PCA(Principal Components Analysis)概念的 PCA-SIFT 方式[28]，在與
SIFT 的性能比較中，部分情形的準確性與特徵比對速度優於 SIFT。
Mikolajcyk 與 Schmid 結合 SIFT 與 PCA 的方式，並使用極座標的形式而發
2
展出 GLOH(Gradient location and orientation histogram)的特徵描述方式[32]，在
整體的性能評估上勝過原本的 SIFT。
對於特徵點偵測演算的優劣情形，[29]針對較早期的特徵點偵測方法進行性
能評估與比較，[30]則針對近年來的特徵點偵測方式進行性能評估與比較；而對
於特徵描述的優劣情形，[31-32]針對近年來的特徵描述方式進行性能評估與比
較，在整體性的性能評估中，SIFT 與 GLOH 的方式展現了極好的能力。
最近幾年也針對即時性考量來進行研究，如[33]使用高速的特徵點偵測方式
來完成即時性剛體視覺追蹤，[34-35]運用快速的特徵點偵測演算與快速的分類
架構來完成物體識別與姿態估測，[36]使用快速的特徵點偵測演算完成視覺伺服
與姿態追蹤的工作。
由於本文的視覺追蹤系統需要考慮演算花費時間，而在少量的時間花費下
達到一定的功能與穩定性，所以選擇在特徵點偵測階段採用快速的演算方式，
而在特徵描述部份使用穩定性較高的演算方式，藉由此種搭配方式來達成所要
的功能。
1.3 系統規劃與研究概述
本論文所實現的視覺追蹤系統主要是在真實的環境下，進行特定目標物的
識別與定位，利用基座上的兩組 CCD Camera 擷取真實場景的影像資訊，偵測
該場景影像上所有顯著的特徵點並計算其描述向量，然後使用此描述向量集合
(輸入場景)與資料庫中已記錄的特徵描述向量集合(特定目標物)進行搜尋和比
對，藉此識別出所屬的目標物，在確認出目標物後利用其特徵點透過立體量測
的方式獲得三維座標資訊與姿態。
本論文的視覺追蹤系統之工作分配可分為離線訓練階段與線上操作階段，
而研究目標主要針對即時性和識別能力，為了使線上操作階段上的整體演算過
程能夠快速完成，而針對特徵擷取與特徵描述階段進行改善，將部分演算消耗
轉移至離線訓練階段，以下針對離線訓練階段與線上操作階段之工作進行簡述：
1.在離線訓練階段時：
主要包含物體識別預處理階段和相機校正階段，在物體識別預處理
3
階段中，收集所需要識別的目標物影像(或照片)，將這些影像進行特徵擷
取與計算其描述向量，在計算特徵描述向量時，使用多解析度的特徵描
述方式，也就是選取多種範圍的影像資料以適應遠近縮放變化的情形，
在將多種範圍的資料正規化成與輸入影像(上述 1.中)相同的尺寸，在取得
各個目標物所屬的特徵描述向量集合後，對於每個目標物，依據其特徵
描述向量總和的分佈關係來連結其資料結構，此結構可進行階層性的比
對以減少搜尋空間，其餘細節部份將於第三章進一步詳述。
在相機校正階段中，估測兩台相機間的同軸幾何關係，這些參數將
會提升本文追蹤系統的效能，其餘細節部份將於第四章進一步詳述。
2.在線上操作階段時：
擷取輸入影像上所有顯著的特徵點並計算其特徵描述向量，在此使
用以直覺式的角點外觀偵測方式來達到快速地提取特徵點，而計算特徵
描述向量時，不使用尺寸不變性(Scale-invariant)的方式來估測其獨特的描
述範圍，這裡使用單一尺寸的描述範圍以節省計算時間，在此描述範圍
內使用旋轉不變性的描述方式來增進識別性能，在所有的特徵描述向量
計算完成後，接著進行識別程序，識別程序會對所要的目標物進行階層
性的對應搜尋，依搜尋結果來判斷該目標物是否存在，對於對應到該目
標物的所有特徵點進行 RANSAC(Random sample consensus)的方式進行
幾何評估，進一步分隔非分離點的資料(Inliers)與分離點(Outliers)的資
料，使用已識別的目標物中非分離點的資料(Inliers)進行三維座標推算與
姿態估測，完成視覺追蹤的工作，本文所使用的特徵擷取與描述方式將
於第二章進一步詳述，而完整的識別程序將於第三章進一步詳述。
圖 1-1 為本論文所提出的系統流程圖，主要分成 10 個步驟，以下針對系統

流程圖中各步驟的執行工作進行簡述：
a1. 使用基座上的兩架 CCD Camera 擷取影像資訊作為整體視覺系統的輸

入。
4
a2. 對兩組的影像輸入資訊使用直覺式的角點外觀偵測，快速地提取特徵
點。
a3. 對已提取的(輸入)特徵點使用單一尺寸的描述範圍，進行特徵描述向量
的計算與記錄。
a4. 利用輸入影像的特徵描述向量集合與樣本資料庫裡的特徵描述向量集
合進行階層性的比對搜尋，依據此比對搜尋結果來判斷目標物是否存
在，若目標物判定為存在則利用其對應的特徵點座標資訊進行
RANSAC(隨機取樣)的方式進行幾何評估，進一步分隔非分離點的資料
(Inliers)與分離點(Outliers)的資料，保留非分離點的資料(Inliers)給下一步
驟(10.)使用。
a5. 利用視覺對應與三角量測方式求出目標物的三維物理座標與姿態，在這
之前，先利用基礎矩陣形成的同軸幾何關係來做為立體比對搜尋時的限
制條件，去除錯誤的特徵點的視覺對應關係，增進三維座標與姿態估測
的準確性。
b1. 收集所要識別的目標物之影像，將所收集的目標物影像依序載入程式
中。
b2. 對所有收集的目標物影像進行特徵點提取，特徵點提取的方式與 a2.相

同。
b3. 對目標物影像中所有已提取的特徵點進行特徵描述的動作，使用多解析
度的特徵描述方式，選取多種範圍的圖像資料並正規化成與 a3.中(輸入
影像)相同的尺寸，再進行特徵描述向量的計算與記錄。
b4. 在取得各個目標物所屬的所有特徵描述向量集合後，對於每個目標物，
依據其特徵描述向量總和的分佈關係來連結其描述向量的結構，形成一
個階層性的結構，將所有目標物的階層性的結構連結進資料庫作為樣本
使用，稱為樣本資料庫。
b5. 對於兩台相機的視角關係，進行基礎矩陣(Fundamental Matrix)的估測。
5
圖 1.1 系統流程圖
6
1.4 論文架構
本文主要分為六章，如下：
第一章：緒論
說明研究目的與方向，且簡述相關文獻與整體研究架構。
第二章：特徵提取與描述方式
說明本論文使用的特徵點擷取與特徵描述的方式。
第三章：特徵對應與識別方式
說明特徵點對應原理與本論文使用的階層性的比對方式。
第四章：位置與姿態的估測
簡述相機基本透視原理、轉換關係、三維座標的轉換與估測方式。
第五章：實驗測試與評估
簡述實驗平台架構，各項實驗測試與評估結果。
第六章：結論與未來方向
為全文做總結，敘述本文所提出的架構與未來發展方向。
7
第二章特徵提取與描述方式
對於使用局部特徵進行識別與對應的演算方式主要分為三個階段：特徵點
偵測、特徵點描述與特徵點比對。雖然前兩階段的演算方式常會一起設計，但
在實行時可以各自獨立地使用與搭配，而特徵點比對階段的效能會因為前兩個
階段的工作能力而產生相當的變動。
在本文的目的是要進行目標物識別，並且考慮光源與視角變動等條件，在
特徵點偵測階段會找出顯著且穩定的點以應付一般變動的情形，使得工作時能
在相同物體但不同影像上得到正確的對應位置，在特徵點描述階段會從該特徵
點的周圍取得資訊(特徵描述)，這些資訊擁有區分不同目標物的功用，這些經由
偵測而取得的特徵點位置實際上包含了有用的資訊，如位置、特徵描述等，這
些資訊將會聯合起來與資料庫中資訊做比對，並嘗試找到正確的目標物，本章
節之後會介紹特徵點偵測與特徵描述這兩部分。
2.1 特徵點偵測
特徵點偵測(Feature point detection 或 Keypoint detection)主要的目的是在

影像中找出感興趣的點(Interest point)也就是特徵點的位置，即使影像在經由幾
何變換、明亮變化或雜訊干擾下，其偵測結果都能達到一定的穩定度，這些特
徵點偵測的性能主要使用重現性(Repeatability)與資訊內容(Information content)
等準則來進行評估[29]，當特徵點具有較高的重現性時，這些特徵點將會有較高
的機率在經由幾何變換、明亮變化或雜訊干擾等情形下的影像中產生成功的配
對，而當特徵點具有較豐富的資訊內容時，表示其特徵描述向量將具有較高的
獨特性與區別能力，以下介紹早期的 Harris 特徵點偵測原理與本文使用的直覺
式外觀角點之特徵點偵測原理並進行初步測試。
2.1.1 Harris 特徵點偵測演算法

Harris 特徵擷取演算法是由 Harris 於 1988 年所提出[19]，主要觀念是從 1980
年 Moravec[18]根據觀察局部區域中灰階的變化特性來決定特徵點的位置，再加以
8
延伸與改進，它是使用一個局部的矩形區域於影像上移動並偵測該區域內梯度
(Gradient) 的變化情形，以此尋找出影像中顯著且有意義的特徵點或稱角點
(Coner)，矩形區域的移動可由圖 2.1 來表示，其中 2.1(a)表示矩形區域在平坦的影
像區域中移動，2.1(b)表示矩形區域在邊緣或線的影像區域中移動，2.1(c)表示矩形
區域在具有特徵的影像區域中移動。
(a) (b) (c)

圖 2.1 矩形區域在影像中移動示意圖
矩形區域在偵測時使用式(2.1)計算出原始灰階影像 I 的 x 方向與 y 方向的導

數(Derivative)，使用分別將影像 I 與(-1,0,1)和(-1,0,1)T 作旋積(Convolution)而得
到，為了減少影像中雜訊的影響，接著對整個梯度影像進行高斯函數進行濾波。
⎡ ∂I ⎤
⎡Gradient _ x ⎤ ⎡ I ⊗ ( −1,0 ,1 ) ⎤ ⎢ ∂x ⎥
∇I = ⎢ ⎥=⎢ T⎥
= ⎢ ∂I ⎥ (2.1)
⎣Gradient _ y ⎦ ⎣ I ⊗ ( −1,0 ,1 ) ⎦ ⎢ ⎥
⎣⎢ ∂y ⎦⎥
將上述兩個方向的梯度影像(∂I/∂x 與 ∂I/∂y)，在計算兩方向梯度影像的平方
值，然後對此平方值進行高斯濾波，使用以下三個計算式(式(2.2)、式(2.3)、式
(2.4))來獲得 A、B、C 三種梯度濾波的結果，其中 ω 為高斯函數，計算所示式
(2.5)。
2
⎛ ∂I ⎞
A = ⎜ ⎟ ⊗ω (2.2)
⎝ ∂x ⎠
2
⎛ ∂I ⎞
B = ⎜⎜ ⎟⎟ ⊗ ω (2.3)
⎝ ∂y ⎠
9
2
⎛ ∂I ∂I ⎞
C = ⎜⎜ ⋅ ⎟⎟ ⊗ ω (2.4)
⎝ ∂x ∂y ⎠
2
+ v 2 ) / 2σ 2
ωuv = e −( u (2.5)
對於影像上的每一個位置，可建立一個 2×2 的對稱矩陣，如式(2.6)所示
⎡A C⎤
M=⎢ ⎥ (2.6)
⎣C B ⎦
由式(2.7)來計算影像上的每個位置的響應(Response)值，其中 α 與 β 表示矩
陣 M 的特徵值(Eigen value)。
R ( x, y ) = Det (M ) − k ⋅ [Trace(M )]2 (2.7)
其中 Det (M ) = AB − C 2 = αβ Trace(M ) = A + B = α + β
在原 Moravec 的想法中，矩陣 M 的特徵值 α 與 β 數值愈大時，不管矩形區

域的梯度量往哪個方向移動，灰階變化皆非常明顯；而經由 α 、β與灰階變化
關係的分析， Moravec 認為有以下幾種情形。
1.若 α、β 值皆小，則表示此影像區域的灰階變化不明顯。
2. 若 α、β 值為一大一小，則表示此影像區域的沿著某一方向的灰階變化較大，
有就是該區域中有邊緣或線存在。
3. 若 α、β 皆大，則表示影像區域不管往哪個方向移動，其灰階變化皆很明顯。
α、β 與灰階變化關係如圖 2.2 所示。
圖 2.2 特徵值 α、β 與影像灰階變化的關係圖
10
而這裡 Harris 的方式是利用式(2.7)所得到的 R(x,y) 響應值，根據此響應值
的大小可以衡量出該位置 (x,y)在影像上是屬於特徵(Corner)或邊緣 (Edge)，其中 k
為一個自訂的常數，執行時會判斷影像中每個位置的 R(x,y)值是否大於某個臨界
值 T，若 R(x,y)大於 T 則判定該位置為特徵點，否則判定為邊緣或平坦(Flat)無
特色的點，在不使用矩陣 M 的兩個特徵值來判斷下，能夠有效地降低運算量與
縮減整體偵測時間。
2.1.2 直覺式的角點外觀偵測演算法
這一類的偵測方式主要以直覺或直觀方式來檢查影像中的角點 (Corner) 以
作為特徵點，對於影像中每個待測的位置，觀察該位置周圍的外觀(或外型 )是否
長的像“角點＂，以此概念來篩選特徵點，在近幾年來，在 [33-36]等研究中，
他們運用此類的方式來擷取特徵點而達成高速的影像識別與影像追蹤，本文的
特徵點偵測方式是依據 [36]的概念進行延伸與調整，由於此額外的調整使得特徵
點偵測演算變得更穩定且更有效率，以下將針對本文使用的特徵點偵測方式作
說明，其中包含原本的部份 [36]與本文中額外新增的部份。
這裡先介紹 [36]的原概念與方式，在影像中偵測角點時，使用一個圓形輪廓
的區域對影像中的所有待測點進行檢查，如圖 2.3 所示，使用此圓形輪廓區域上
每個彼此相對的檢查區來判斷該待測點的周圍外型是否呈現出一個銳角，其中
待測點的位置為 p， R 為此圓形輪廓的半徑， α 為目前圓形輪廓檢查區與位置 p
的夾角，其範圍為 0 到 π，dRα 為目前圓形輪廓的檢查區與位置 p 之間水平方向
與垂直方向的位移，即 dRα=(Rcos(α) ， Rsin(α))，每個彼此相對的檢查區位置
分別為 p+dRα 與 p-dRα，此圓形輪廓檢查區域的大小由 α 的夾角間距與 R 的大小
來決定，若 α 的間距越小且 R 越大則需要花費越多的時間來偵測角點。
11
圖 2.3 角點外觀偵測示意圖(1)
對於每個彼此相對的檢查區，其判斷角點的準則(判斷準則一)如下：
假如 I ( p) − I ( p + dRα ) ≤ + τ 且 I ( p) − I ( p − dRα ) ≤ + τ ，則認定該位置 p
不是一個角點 (特徵點 )，其中 α 的範圍為 0 到 π， I( )為該影像的灰階強度值，p

為待測位置，τ 為一個自訂的灰階強度臨界值，在所有相對的檢查區都沒有符合
上述的條件時，才認定該位置 p 為一個角點(特徵點)，以下使用圖 2.4 作為例子。
在圖 2.4(a)、(b)中， a 與 a′為一組彼此相對的檢查位置，p 為待測位置，I

為待測影像，在(a)的情形中，a 與 a′兩個檢查位置都未達到上述兩個條件，而(b)
的情形中，a 檢查位置有達到上述的一個條件，但 a′檢查位置則沒有，最後 (a)
和(b)這兩種情形都會判定位置 p 為角點。
(a) (b)
實際上，圓形輪廓區域在影像上的位置是經由量化得到，所以此輪廓區域
12
並不是一個完美的圓形，所以在角點偵測上只依靠彼此相對位置來檢查並無法
完全排除邊緣的情形，必需再考慮其相鄰區域的位置來判斷，這裡以圖 2.5(a)
來說明，其中 a 與 a′和圖 2.4 相同，為一組彼此相對的檢查位置，a1 與 a2 為位
置 a 的兩個相鄰位置，若只依據彼此相對的檢查位置，依據上述的判斷準則將
會認定該位置 p 是一個角點，但實際上該點是位於一條邊緣上，並不是我們想
要的角點，若將 a1 與 a2 這兩個位置也加入來判斷的話，其判斷準則會增加至 4
個，其中 I ( p ) − I (a1) > + τ 而 I ( p ) − I (a 2) < + τ (判斷準則二 )，由於 a2 的關
係最後會判定位置 p 並非角點，這兩個額外的判斷準則可避免位於邊緣上的點
被誤判而成為角點。
(a) (b)
在對影像進行上述的角點偵測方式後，一般會在已認可的角點位置附近再
產生符合準則的角點，因而產生大量且不必要的資料量，此時會進行刪減角點
的工作，通常會針對一小區域內的所有角點進行評估，在此區域內只保留一個
最好的角點，其餘較差的角點都捨去，評估準則一般使用 LOG(Laplacian of
gaussian)的方式來進行，在這裡它可使近似成式(2.8)的形式。
LOG ( p) ≈ ∑ ( I ( p − dRα ) − I ( p) + I ( p + dRα ))

α ∈[0;π ]
(2.8)
實際運用時，在擷取足夠判斷的角點數量後並計算其 LOG 的評估值，對於

每一個角點，比較其 LOG 評估值與該區域內其他角點的 LOG 評估值，若該角
點的 LOG 評估值都大於該區域內其他角點的 LOG 評估值時保留該角點，否則
將該角點去除，此方式不僅可以減少許多資料量，而且保留下的角點也具有較
13
高的重現性。
在本文中採用半徑為 3(即 R=3)的圓形輪廓檢查區域範圍，經由量化後在此

圓形輪廓上可產生 16 個位置，利用這 16 個位置來篩選所要的角點，如圖 2.5(b)
的藍色區域所示，這裡使用多個簡單的幾何圖形來進行上述的角點偵測試驗，
而灰階強度臨界值 τ 設定為 50，其試驗結果如圖 2.6 所示，其中紅色方框部分
的位置表示偵測到的角點，在這裡可以明顯觀察到在某些直線邊緣上會產生許
多的位置點而某些直線上則沒有，這些位於直線上的位置點並非是我們想要的
角點，在這些位置點周圍的外觀特徵具有較差的獨特性 (或特色 )，對於之後將進
行的特徵點比對階段，此種情形不但會產生大量的資料點而且會大大降低正確
配對的機率，造成許多無謂的搜尋時間消耗，在物體識別等相關應用中因避免
此種情形。
圖 2.6 角點偵測測試結果(1)
對於上述的非角點的情況，雖然上述的兩個角點偵測準則的第二個 ( 如圖
2.5(a)的判斷準則) 準則已考慮到因量化而在邊緣上產生的角點誤判問題，但實
際在圖 2.6 中，由於在直線邊界上的灰階值大都介於全黑(0)與全白 (255)的中間
附近，使得第二個判斷準則無法有效地去除邊緣上的角點誤判問題，而只去除
某些方向的邊緣誤判情形。為了解決此種情形，本文使用新的判斷準則並加在
上述的第二個判斷準則之後，作為第三個判斷準則來去除剩下的邊緣誤判情
14
形，以下說明此判斷準則並使用相同的幾何圖形進行測試。
本文所提出判斷準則是對圓形輪廓檢查區域進行分類與統計，將此檢查區
分為｀暗＇與｀亮＇兩群，對於圓形輪廓上的一個檢查區 a，若 I(p)-I(a) > + τ 則
將此檢查區 a 屬於暗群，反之當 I(a)-I(p) > + τ 時，則 a 屬於亮群，其中參數 p
與 τ 與上述相同，當其中一群的數量遠大於另一群時，則會呈現一個銳角的外
型，而當這兩群的數量相當時，則會呈現一個直線邊緣的外型，如圖 2.7(a)(b)
所示，其中暗群以綠色表示而亮群以紅色表示，圖 2.7(a)為直線邊緣的情形而圖
2.7(b)為銳角外型的情形，所以利用這兩群 (暗群與亮群 )的數量差距作為角點的
判斷依據，即當 N b − N d > N T (判斷準則三)時則判定為一個角點，Nb 表示亮群的
數量而 Nd 表示暗群的數量，NT 為一自訂的差量臨界值。
I I
p p
dR dR
(a) (b)
圖 2.7 角點外觀夾角檢查示意圖
使用原有的兩個準則再加入新的判斷準則來進行測試，這裡再使用與上述
相同的參數(R=3，τ=50)與相同的幾何圖形作測試，NT 為設定為 8，其試驗結果
如圖 2.8 所示，其中紅色方框部分的位置表示偵測到的角點，這裡可明顯觀察
到，所偵測到的角點不再呈現和上述圖 2.7 的相同的情形，這些角點的位置都不
在直線邊緣上，所以都屬於我們想要的角點。
15
圖 2.8 角點偵測測試結果(2)
本文所使用的角點外觀偵測演算法的整體流程如圖 2.9 所示，針對物體識別

的應用實例，使用圖 2.10(a)(b)來進行說明，圖 2.10(a)(b)的影像是本文用來識別
的樣本影像之ㄧ，圖 2.10(a)為使用原本兩個判斷準則的角點偵測結果，而圖 2.10(b)
是使用新的三個判斷準則的角點偵測結果(紅色方框部分)，相互觀察這兩張圖可
知，使用新的角點偵測不但可以有效地去除在邊緣上且不具特色的資料點，而且
也減少資料運算的消耗和提高特徵點配對的機率，對於本文所使用的角點外觀偵
測方式之性能將於第五章的實驗做進一步的測試與比較。
16
圖 2.9 角點偵測整體流程圖
(a) 原方式(兩個判斷準則) (267 點) (b) 新的方式(三個判斷準則)(199 點)

圖 2.10 特徵點偵測的實際情形
17
2.2 特徵描述
在得到所要的特徵點後，接著使用特徵描述運算從每個特徵點的周圍領域
中獲得有用且具特色的資訊，這些資訊能夠賦予這些特徵點對應的能力，而對
於特徵描述的運算方式，本文使用近年來受歡迎且性能佳的 SIFT 特徵描述方式
並利用 PCA 的操作降低 SIFT 特徵描述的維度，藉此提高對應點搜尋時的效率，
而使用 SIFT 特徵描述方式前需要對其描述範圍進行方向矯正以符合旋轉不變
的需求，以下各節將會依據特徵描述運算時的順序，依序詳述方向矯正原理、
SIFT 描述方式與 PCA 降維操作。
2.2.1 方向矯正原理
對於每個特徵點進行方向矯正是為了實現當影像旋轉時，其特徵描述的內容
仍可維持不變，此步驟是進行特徵描述運算前的預處理程序，在本文中採用
Lowe[26]所規劃的方向矯正方式，其方式是以特徵點的位置為中心，選取一個矩
形區域來分析此區域內中每個梯度大小與梯度方向(角度)的分佈情況，此分佈情形
可使用一方向直方統計圖(Orientation histogram)來進行紀錄，以圖 2.11 來說明，其
中直方統計圖在這裡為了方便說明而只劃分成 8 個刻度(Bins)，之後再依據此方向
直方統計圖推算出此特徵點的基準方向(紅色箭頭)，此基準方向將在之後的特徵描
述計算時作為矯正使用，藉此達到旋轉不變的能力。
圖 2.11 基準方向示意圖
梯度大小的計算方式使用式(2.9)，其中(x,y)表示矩形區域內的 2 維座標位置，
18
I(x,y)表示位於位置(x,y)上的影像灰階值，而梯度方向的計算使用式(2.10)，計算完
成後，矩形區域內每個位置都會得到一組梯度方向 (θ(x,y)) 與對應的梯度大小
(m(x,y))。
m( x, y ) = ( I ( x + 1, y ) − I ( x − 1, y )) 2 + ( I ( x, y + 1) − I ( x, y − 1)) 2 (2.9)
θ ( x, y ) = tan −1 ( ( I ( x, y + 1) − I ( x, y − 1)) /( I ( x + 1, y − I ( x − 1, y )) ) (2.10)
1 2
+ y 2 ) / 2σ 2
w( x, y ) = G ( x, y,σ ) = e −( x (2.11)
2πσ 2
該方向直方統計在規劃上，梯度方向以徑度為單位，範圍為 0 到 2π，在統計

時將所有的梯度方向的角度範圍分成 36 組刻度(Bins)來統計，所以每組刻度會涵
蓋 10 度(Deg)的範圍，每組刻度都將針對符合其方向(角度)範圍內的梯度大小進行
累計，進行累計工作時，矩形區域內中每個梯度大小都需再乘上一組 2 維高斯分
佈的權重係數後才進行累計，權重係數使用式(2.11)計算，其中 w(x,y)為矩形區域
內中位置(x,y)所對應的權重係數，在每組刻度都累計完畢後，挑選擁有最大累計數
值的刻度，其刻度所代表的方向(角度)就作為該特徵點的基準方向，如圖 2.12(a)
所示，在實際操作時可能會產生多組刻度都擁有很大的累計數值且彼此都差距都
很小，此時為了提高穩定性會考慮採用多個基準方向來矯正此特徵點，如圖 2.12(b)
所示，根據以下準則：
當其他刻度(方向)的累計數值有達到最大累計數值的 80％範圍內，且該刻度的
累計數值在相鄰的刻度中仍然維持最大，則該刻度(方向)符合基準方向的標準。以
圖 2.12(b)來說明，其中方向直方圖的梯度方向刻度共分成 10 格，其上方的數字代
表該刻度的編號，由此方向直方圖可知，最大的累計數值位於刻度 3 中，而位於
該最大累計數值(刻度 3 中的累計數值)的 80％範圍內(綠色方框內)的尚有刻度 4 與
刻度 7，依據上述的準則，將會對刻度 4 與刻度 7 進行評估，刻度 4 的兩個相鄰刻
度為刻度 3 與刻度 5，由於刻度 4 的累計數值並沒有大於刻度 3 與刻度 5，所以刻
度 4 不列入考量，而刻度 7 的兩個相鄰刻度為刻度 6 與刻度 8 且刻度 7 的累計數
值大於刻度 6 與刻度 8，所以刻度 4 符合基準方向的標準，最後此特徵點的基準方
向會選擇刻度 3 與刻度 7 所對應的方向，這兩個方向將作為該特徵點描述在矯正
時的依據。
19
(a) (b)
圖 2.12 基準方向挑選示意圖
圖 2.13 為針對實際影像進行特徵點偵測與推算其基準方向的結果，其中紅色
部分表示偵測到的特徵點，綠色直線的方向(由紅色點朝向外延伸)表示該特徵點的
基準方向，這裡只顯示最大累計數值所對應的方向，而圖中 4 個藍色方框表示經
由基準方向矯正後得到的 4 個特徵描述範圍。
圖 2.13 特徵點與基準梯度方向矯正的實際情形
20
2.2.2 SIFT 的描述方式
SIFT(Scale-invariant feature transform)是由 Lowe[26]對於物體識別應用而提出
的一種有效的特徵提取方式，此方式包含特徵點偵測與特徵描述兩部份，特徵點
偵測部分使用 DOG(Difference-of-gaussians)的方法在多種尺度空間(Scale space)上
搜尋符合的特徵點，使得這些特徵點在尺度變化下依然具有一定的穩定性，而特
徵描述部分使用在該區域範圍內連續的梯度變化進行直方圖統計，在本文中是單
獨地使用 SIFT 中特徵描述部分的方式對現有的特徵點進行特徵描述的計算，以下
只針對 SIFT 的特徵描述部分進一步說明。
SIFT 的特徵描述方式是如同 2.2.1 節的方向矯正的方式相似，在以特徵點位置

為中心的矩形區域中統計該區域內所有位置的梯度方向與對應的梯度大小，其梯
度方向計算使用式(2.10)而梯度大小計算使用式(2.9)，這裡使用圖 2.14 為例來說明
[26]，在此圖中的矩形區域主要分成四個子區域，每個子區域又劃分成 16 個位置(即
長度與寬度都為 4)，所以總共有 16×4=64 個梯度方向與對應的梯度大小，如圖
2.14(a)所示，其中每個位置上的箭頭方向表示其梯度方向，而箭頭長度表示其梯度
大小，每個子區域會個別地統計該區域內的梯度方向與梯度大小，子區域的統計
方式與 2.2.1 方向矯正的方式相似，子區域將所所有的梯度方向的角度分成 8 組刻
度(Bins)來統計，每組刻度會涵蓋 45 度(Deg)的角度範圍，然後將屬於該刻度範圍
內的梯度方向所對應的梯度大小進行累計，梯度大小在累計時也需乘上一組 2 維
高斯分佈的權重係數後才進行累計，權重係數也使用式(2.11)計算，此權重係數是
以矩形區域的中心向外涵蓋之所有位置，如圖 2.14(a)中的藍色圓形輪廓所示，在
這 4 個的子區域都各別地統計完後，會形成如圖 2.14(b)中 a，b，c，d 這 4 個方向
直方統計圖，以下將使用圖 2.15 來進一步說明。
21
(a) (b)
圖 2.14 SIFT 特徵描述說明圖(32 維)
如圖 2.15 所示，這裡將圖 2.14(b)中的 4 個方向直方統計圖(a，b，c，d)重新

排列來說明，每個方向直方統計圖中都含有 8 個箭頭(箭頭標號 0 至 7)也就是 8 種
梯度方向，箭頭的長度表示屬於該梯度方向的梯度累計量，方向直方圖可視為一
個 8 個元素的向量，所以可使用這 4 組向量(a，b，c，d)來描述該特徵點的矩形區
域，這 4 組向量共有 4×8=32 個元素，可合併為一個 32 個元素的向量(v=[a b c d])
來描述該矩形區域，稱為特徵描述向量(Feature descriptor vector)。
實際使用時，特徵點的矩形區域劃分 4×4=16 個子區域來進行統計，每個子

區域可形成一個 8 個元素的向量，所以總共可合併為一個 128 個元素的向量來描
述該矩形區域，如圖 2.16 所示，而子區域範圍的規劃上，其長度與寬度可使用 4，
5，6..等像素(Pixel)長度來調整該特徵點的矩形區域涵蓋範圍及需計算的資料量，
而矩形區域範圍大小會影響其識別能力與整體效率，在經由上述過程求得的特徵
描述向量的每個元素的數值必須再作正規化的調整，在經由線性的數值調整後，
在特徵點比對過程中能夠降低在光源變動的情形下所產生的影響。
22
a b c d
2
2 2
3 1 3 2
3 1 3 1 1
4 0 4 0 4 0 4 0
5 5 7 5 7
6 7 6 6 7 5 6
圖 2.15 SIFT 特徵描述向量(32 維)
圖 2.16 SIFT 特徵描述向量(128 維)
2.2.3 PCA 降維方式

主成分分析(Principal Component Analysis : PCA)[37]是一種常見的降低資料
維度的方式，並且廣泛應用在電腦視覺相關的研究中，例如圖形識別 (Patten
recognition)與人臉辨識(Face recognition )等，PCA 主要的優點在於能夠藉由降低資
料維度來壓縮資料，並且不會損失大多資訊，但由於它是假定資料呈現高斯分佈
(Gaussian distributions)的前提下對資料進行線性映射轉換，若這些資料的分佈情形
與高斯分佈的差異過大時則會大大降低其效能，在本文研究中利用 PCA 的線性轉
換方式將上述 2.2.2 節的 SIFT 特徵描述向量(128 維)刪減成更少的維度以利於資料
搜尋並節省耗費的時間。
23
PCA 的方式能夠將高維度的資料線性投影到一個低維度的空間，稱為特徵
空間(Eigenspace)，在使用時需要預先建立特徵空間並求得其投影轉換關係，之
後再利用此轉換關係來對原始的高維度資料進行投影轉換，所以會在該特徵空
間中產生新的低維度資料，以下會針對特徵空間的建立與特徵空間投影轉換這
兩大部份作進一步的說明。
建立特徵空間：
假設輸入的原始資料共有 M 筆，每筆資料的維度大小為 D(即含有 D 個元

素 )且以 Xi 來表示，而轉換後的資料其維度大小為 K(即含有 K 個元素 )，首先計
算所有資料各個維度的元素的平均值，如式(2.12)所示，其中 Ψ 表示為一個大小
為 1×D 的平均值向量，接者使用式(2.13)對所有原始資料 Xi 作正規化而形成 Ω，
i
Ωi 與 Xi 相同都為 1×D 的向量，在所有原始資料都進行正規化轉換後，使用式

(2.14)來計算一個斜方差矩陣(Covariance matrix)C，其中 C 為一大小為 D×D 的
矩陣， A 為一大小為 1×D 的矩陣，使用此斜方差矩陣 C 來求出特徵值
(Eigenvalues)e 與對應的特徵向量(Eigenvectors)v，而特徵向量 v 為一組大小為
1×D 的向量，總共有 D 組特徵向量，在所有的特徵向量 v 中以特徵值 e 的大小
為依據 (大到小 )，選擇前 K 組特徵向量作為 K 維資料的特徵空間，此 K 組特徵
向量將作為新資料空間上的基準。
M
1
Ψ=
M
∑X
i =1
i (2.12)
Ωi = Xi − Ψ (2.13)
M
1
∑Ω
T
C= i Ωi = AT A (2.14)
M i =1
特徵空間投影轉換：
只要上述的 K 組特徵空間已建立，則可對輸入資料作線型投影轉換，對於
想要轉換至 K 維度的所有 D 維度資料 Xi，首先同上述先使用式 (2.12)計算出其
各個維度元素的平均值向量 Ψ，再使用式 (2.13)作正規化而形成 Ωi，其大小為
1×D 的向量，接者使用式(2.15)對 Ωi 進行投影轉換而形成新的 K 維度資料 Φi，
其中 Φi(k)表示第 k 個元素，而 Φi 為一個 1×K 的向量(即 Φi=(Φi(1)…Φi(K)) )， vk
24
為上一個步驟作為特徵空間的 K 組特徵向量，其大小為 1×D，在所有 D 維度資
料 Xi 都經由式 (2.15)轉換為 K 維度資料 Φi 後即完成資料降維的工作。
Φ i ( k ) = ωi k 其中 ωi k = Ω i v k
T
∀k = 1...K (2.15)
對於本文使用的物體識別應用裡，樣本資料與輸入資料原本都是 D 個維
度，而特徵空間是使用所有的樣本資料而求得的，再使用式(2.15)對這些樣本資
料進行降維的動作(降成 K 維 )，而之後的輸入資料也使用式(2.15) 進行降維的
動作 (降成 K 維)，使得輸入資料與樣本資料都落於相同的特徵空間，其後再進
行資料搜尋與比對，通常維度 K 會比維度 D 小的多，使得資料搜尋與比對所花
費的時間也會遠比原本的小得多。
25
第三章特徵對應與識別方式
物體的特徵與其之間的對應關係在影像檢索或物體識別等應用中相當重
要，識別的工作主要是經由資料搜尋的方式找出這些特徵之間的對應關係，在
本章節會先介紹有關物體識別的相關背景，其後會依序說明本文使用的目標物
資料庫建立、特徵資料搜尋與對應與幾何限制的方式。
3.1 相關背景
在有關物體識別的研究領域中，大致上可分為全域的 (Global) 與區域的
(Local)識別方式。
在全域方式中，使用統計分類的技術來比較輸入影像與多張目標物體的樣
本影像，藉此決定輸入影像上是否有我們所要的目標物體，使用的方式從較簡
單的 PCA 與 NNS(Nearest neighbor search)到複雜的 AdaBoost 等分類器之技術，
這些全域方式中，由於使用整個目標物體的影像資訊來進行比較或訓練，若目
標物體處於有部分遮蔽 (Occlusions) 與雜亂的環境或者目標物體 ( 輸入 ) 的姿態與
該樣本影像有明顯差異時，則無法達到合理的識別能力，而且這些全域方式無
法提供精確的目標物姿態估測。
在區域方式中，不使用整個的影像資訊做比較，反而是在輸入影像與樣本
影像上提取多個簡單的二維局部特徵，例如角點 (Corners) 與邊緣 (Edges) ，對於
有部分遮蔽與雜亂的環境中，這些特徵在使用上較為彈性，利用這些特徵進行
配對然後識別目標物，在配對搜尋中，若產生錯誤的配對可藉由幾何限制
(Geometric constraints)來刪除，即使有部分的特徵遺漏，仍然有足夠的能力對該
目標物進行比對與識別，而且這些特徵能夠提供精確的目標物姿態估測。
本文所提出的視覺系統主要針對影像伺服等應用而設計的，需要提供足夠
精確的目標物位置與姿態等資訊，在整合這些資訊後使得對應的伺服機構能夠
完成所要的工作，所以本文的視覺系統採用區域識別方式來取得上述的這些資
訊，以利於後續的研究發展與延伸。
26
3.2 目標物體之資料庫建立
在建立目標物體之資料庫前，首先收集所要識別的目標物體之影像，在擁
有這些目標物體的影像後，對這些影像進行特徵點偵測與特徵描述的計算，特
徵點偵測方式採用 2.1.2 節所述的直覺式的角點外觀偵測演算法，特徵描述運算
採用 2.2 章所述的方式，其包含方向矯正、SIFT 特徵描述與 PCA 降維，在此特
徵描述運算階段中，為了使目標物體在尺寸縮放的情形下能夠進行識別，這裡
使用多種解析度的特徵描述範圍來進行特徵描述運算，以圖 3.1 來說明，其中紫
色圓點表示一特徵點，黃色方框表示該特徵點(紫色圓點)的標準描述範圍，接著
依此標準範圍 (黃色方框，以 0 表示)以中心向內與向外調整一個比率，形成一個
比標準範圍大的描述範圍(綠色方框，以+1 表示)與比標準範圍小的描述範圍(紅
色方框，以 -1 表示)，綠色方框的描述範圍表示視野拉近而綠色方框的描述範圍
則表示視野拉遠，以此方式來建立不同視野時的特徵描述向量作為樣本。
圖 3.1 多種解析度的特徵描述範圍示意
目標物體的特徵點描述群之建立如圖 3.2 所示，其中藍色方框中的圖像表示

標準的描述範圍(上述的黃色方框範圍)，該圖像是在原始的物體影像中的某特徵
點上使用標準矩形大小所框選出來的畫面，在針對尺寸縮放的情形下將藉由調
整標準矩形的大小來框選特徵描述範圍，模擬出物體因遠近距離關係而造成的
視野畫面變動情況，圖 3.2(a)(b)中位於視野拉遠方向與視野拉進方向的圖像為
模擬出的結果，總共假設出 10 種情形，而這些不同描述範圍(不同尺寸)的圖像
27
最後都使用合成 (Synthesize) 的方式將影像資料縮放到相同的尺寸大小 ( 標準描
述範圍 )並儲存起來以便計算特徵描述向量時使用。
(a)
(b)
圖 3.2 物件之特徵點描述群建立示意圖
目標物體的資料庫是由各個目標物體的特徵描述集合所聯結起來的，每個
目標物體的特徵描述集合是由該目標物體的多個特徵點描述群所聚集而成，每
個特徵點描述群是由上述圖 3.2 所示方式建立的，圖 3.2(a)與圖 3.2(b)表示兩個
不同的目標物體特徵描述集合中的兩組特徵點描述群，每組特徵點描述群總共
包含 11 種縮放情形，每種情形都必須使用其對應的合成影像來計算與儲存特徵
描述向量。特徵描述向量採用 2.2 章所述之方式來計算，但由於方向矯正的步驟
而需要考慮多個基準方向，而每個基準方向在矯正後都會求出獨立的特徵描述
向量，所以在每種縮放情形都會包含一個或多個特徵描述向量，所以目標物體
的特徵描述集合的每組特徵點描述群之結構會如圖 3.3(a)所示之形式來建立；其
28
中正的尺度表示視野拉近的縮放情形，而負的尺度表示視野拉遠的縮放情形，
這裡假設每種縮放情形都包含兩種基準方向，所以一個特徵點會包含 22 種特徵
描述向量稱為特徵點描述群。
實際上每個特徵點在每種尺度上的基準方向數量都不一樣，所以每組特徵
點描述群的特徵描述向量之數量也不一樣，為了避免太多的基準方向使得該特
徵點擁有過多的特徵描述向量，影響資料對應搜尋的性能，所以在每種尺度上
設定最多只能容許 6 種基準方向，所以一個特徵點最多只能有 66 個特徵描述向
量。整體的目標物體資料庫之結構如圖 3.3(b)所示，其中資料庫包含 M 個目標
物體，在目標物體資料庫建立完成後，即可在此資料庫上尋找欲識別物體之特
徵資料，進行特徵對應的工作。
圖 3.3(a) 特徵點描述群之結構示意圖
29
圖 3.3(b) 目標物體資料庫之結構示意圖
3.3 特徵資料搜尋與對應
物體識別的程序是藉由輸入的特徵資料與資料庫的樣本特徵資料之間的對
應關係而完成的，其對應關係需要對資料庫的樣本特徵資料作搜尋而得到的，
以向將介紹本文使用的特徵資料對應方式與特徵資料搜尋方式。
3.3.1 資料對應方式
本文中的輸入資料與資料庫的樣本資料的對應關係採用最鄰近的 (Nearest
neighbor： NN)準則，每一筆輸入資料都從資料庫中的找出最接近 ( 或最相似 ) 的
樣本資料且該相似度小於某個自定的臨界值，則此樣本資料與該輸入資料的對
應關係成立，其資料間的相似度使用常見的歐幾里德距離(Euclidean distance)來
評估，以式(3.1)表示，其中 ΦI 表示輸入的一筆特徵描述向量， ΦT 表示資料庫
中的一筆樣本特徵描述向量，d 表示其之間的相似程度，ωk 表示特徵描述向量
的每個元素，特徵描述向量的維度都為 K，其參數設定與 2.2.3 節相同。
K
d(ΦI,ΦT)= ∑ (ω I k − ω T k ) 2 (3.1)
k =1
30
3.3.2 資料搜尋方式
為了要得之某一筆輸入資料與樣本資料的對應關係，需要對所有的樣本資
料作搜尋，在本文中即是目標物體資料庫中的所有特徵描述向量，資料搜尋的
方式將介紹簡單的完整搜尋方式與本文所採用的較為快速的階層式搜尋方式。
(1)完整搜尋方式：
為了找出每一筆輸入資料所對應的樣本資料，每次都對全部的樣本資料作
式 (3.1) 的相似性運算，在位於某個自定的臨界值內的樣本資料中只保留距離最
短 ( 相似性最高 ) 的樣本資料，由於對所有的樣本資料作完整的歐幾里德距離運
算，若樣本資料數量龐大時在會耗費相當大的運算時間，此種情形可使用局部
歐幾里德距離運算之判斷技巧來節省許多時間耗費 [38]，尤其對於數量龐大且具
高維度的資料的情形則效果相當有效，局部歐幾里德距離之判斷流程如圖 3.4
所示，其中 VI 表示一筆 K 個元素的輸入資料向量，樣本資料 VTm(K 個元素)總
共有 M 個 (即 m=1…M)，d 表示上述的歐幾里德距離，而局部歐幾里德距離的概
念是使用尚未完全計算完畢的 d 值平方(d2)來做檢查，在 d 值平方大於某個自定
的臨界值 τ 之平方時則放棄目前歐幾里德距離的計算，直接取下一筆樣本資料
作歐幾里德距離的計算，捨去不必要的維度運算部分，所以此方式可以有效率
地節省運算時間的消耗，提升部分特徵搜尋的性能。
31
圖 3.4 局部歐幾里德距離之判斷流程
(2)階層式搜尋方式：
雖然面對龐大資料的搜尋與計算相似度的演算過程可以經由上述 (1)的技巧
來節省運算時間，但只改善相似度計算的演算部分對整體搜尋的影響有限，要
再進一步節省運算時間就必須減少搜尋空間，將實際最接近的輸入資料的樣本
資料盡可能地壓縮在一個狹小搜尋範圍內，由於每次輸入資料所需要搜尋的樣
本資料數減少，所以整體搜尋的時間花費也隨之減少，在本文中則採用一種階
32
層式的搜尋方式，其包含兩個階段的搜尋準則來縮小搜尋空間並減少整體搜尋
的時間。
本文中所採用的階層式搜尋方式包含兩個階段的搜尋準則，第一個階段屬
於粗搜尋而第二個階段屬於細搜尋，其中第一個階段的粗搜尋會依據目前的輸
入資料來選擇所需的搜尋範圍，而第二個階段的細搜尋是在已選擇的搜尋範圍
中使用與 (1)相同的完整搜尋方式來找出最接近的資料，再結合局部歐機里德距
離的方式則可有效地節省相似度計算的時間。
對於粗搜尋的依據是使用每筆資料中各個維度的數值累加所得到的數值，
如式(3.2)所示， V(i)為一筆資料中第 i 個元素而每筆資料的維度大小為 K，這裡
將此數值(Vsum)稱為“向量總和＂以利於說明，當一筆輸入資料與一筆樣本資料
相當相似時，其彼此的“向量總和＂也會很相似，基於此種簡單的概念，將完
整範圍中的所有樣本資料依據其“向量總和＂來進行排序，依小到大將所有樣
本資料重新整理，整理完成後則將所有樣本資料 ( 排序後 ) 依序使用某個自訂的
“向量總和＂間隔範圍將所有樣本資料進行切割與分群，而每個群組都包含一
個樣本資料集合，每個群組也是一種供選擇的局部搜尋範圍，分群情況如圖 3.5
所示。
K
Vsum = ∑V (i ) (3.2)
i =1
圖 3.5 資料分群示意圖
33
在圖 3.5 的資料分群示意圖中，包含 8 筆已排序的樣本資料，其各自的“向
量總和＂以 Vsum 表示，DT 為用來劃分樣本資料群的間隔範圍，雙箭號表示對所
指向的 Vsum 值作相減 (取絕對值)，開始時使用第 1 筆樣本資料作為第 1 群組的
開頭，該筆資料(第 1 群組的開頭)的 Vsum 值與其後資料的 Vsum 值相減作比較，
屬於同一群組的資料其 Vsum 值的差都會在間隔範圍 DT 之內，直到第 1 個樣本
資料其 Vsum 值的差超過間隔範圍 DT 時 (樣本資料(5))，則該樣本資料會歸於新的
群組的開頭，再使用相同的準則來比較其後的資料，以此類推，將所有的樣本
資料都劃分完成。
在使用上述的分群準則將所有樣本資料都切割完後，對於每個群組，計算
該群組內所有樣本資料的平均“向量總和＂作為該群組的中心數值，完整的階
層式搜尋流程如圖 3.6 所示。此階層式搜尋包含第一階段的粗搜尋與第二階段的
細搜尋，此搜尋流程圖中，VsumI 為目前輸入資料的“向量總和＂，而 VsumC 表
示群組 C 的中心數值(即此群組內的平均“向量總和＂)，總共有 P 個群組，粗
搜尋主要就是要找出與 VsumI 最接近的群組 CN，由於所劃分的群組數量 (P)不大，
所以第一階段的粗搜尋只花費相當小的運算量與時間。
在第一階段的粗搜尋完成後可得到一組最接近輸入資料的群組 CN，可使用
該群組的範圍作第二階段的細搜尋，但只考慮該最鄰近群組 CN 的範圍作搜尋
時，有較大的機率發生真正最鄰近的樣本資料落於最鄰近群組 CN 的範圍外，如
此一來無法真正對應到最鄰近的樣本資料，所以在本文中考慮最鄰近群組 CN 與
其相鄰接的群組(即 CN-1 群與 CN+1 群 )，雖然此方式會加大資料搜尋範圍但只
有很小的機率會發生真正最鄰近的樣本資料落於所選搜尋範圍外的情況，第二
階段的細搜尋花費時間與其選擇的搜尋範圍有關，若所有群組平均資料量較小
則整體的階層式搜尋會花費較少的時間，反之亦然。
34
圖 3.6 階層式搜尋流程
3.3.3 幾何限制估測
在進行上述的 3.3.1 節之特徵點對應與 3.3.2 節之特徵點搜尋後，可以得到
輸入特徵點與樣本特徵點的對應配對關係，若有產生一群與目標物體之特徵點
相對應的輸入特徵點群，則此特徵點群有可能時我們想要的目標物體，但是這
些輸入特徵點與目標物體之特徵點的對應只考慮其外觀特徵相似度，並未考慮
其位置對應關係，所以此特徵點群很可能會存在位置關係對應錯誤的特徵點
(Outliers) ，所以需要在使用幾何限制估測的方式去除這些配對錯誤的特徵點資
料，以提升識別的穩定性。
對於幾何限制估測的方式，本文採用 RANSAC (Random sample

consensus )[39]此種隨機取樣方式來進行，其演算步驟簡述如下：
重複 N 次取樣：
1. 隨機挑選 4 對相對應的特徵點對，估測輸入影像與樣本影像的平面投影
35
轉換(Homography transformation)的參數 (h0，…， h9)。
2. 將所有的特徵點座標使用步驟 1 求得的平面投影轉換參數進行平面投影
轉換，並計算該特徵點的轉換輸出座標與該點對應的樣本影像座標之間
的歐幾里德距離 d(Euclidean distance)。
3. 使用步驟 2 求得的歐幾里德距離來對所有的特徵點進行統計，當該特徵
點的距離 d 小於某個自訂的臨界距離 Dτ，則是該點為 Inliers，並統計 Inliers
的數量。
在 N 次取樣中，若某次的 Inliers 數量最多，且大於某個自訂的臨界數量 Sτ
時，則採用此次的平面投影轉換參數，在使用此轉換參數進行步驟 2 的估測動
作，最後留下來的 Inliers 則是符合幾何限制條件下的特徵點對。
對於這裡使用到的平面投影轉換(Homography transformation)的參數，其投
影轉換關係與轉換方式將會於第四章中的 1.3 節做進一步介紹，在 RANSAC 的
步驟中，在本文中為了要減少時間花費與幾何估測的準確性，所以做了部份的
調整，首先，將步驟 1 的隨機取樣方式作調整，在挑選特徵點對時，若該特徵
點對彼此相似度較高則擁有較高的挑中機率，反之彼此相似度較低則擁有較低
的挑中機率，以此方式來設計隨機取樣的機制可以使相似度較高的特徵點對優
先選取，如此可以提升幾何估測的準確性；而當某此取樣中的 Inliers 數量已達
到某個特定的配對率時，則中止 RANSAC 的估測工作，因為隨機取樣的機制已
設定為相似度較高的特徵點對優先選取，所以會有較高的機率達到中止
RANSAC 的情形，即有較高的機率能夠減少時間花費。
3.3.4 整體識別流程
本文中所使用的物體識別整體簡略流程如圖 3.7 所示，其中特徵點擷取使用
第二章中 2.1.2 節所述之直覺式的角點外觀偵測演算法，特徵描述向量計算使用
第二章中 2.2 節所述之特徵描述，特徵點搜尋與對應使用第三章中 3.3 節所述之
方式，幾何限制使用第三章中 3.3.3 節所述之方式；而離線操作中，目標物體資
料庫建立使用第三章中 3.2 節所述之方式，在進行特徵點搜尋與對應時所需的資
料範圍是由目標物體選擇的功能而定，選擇不同的目標物體則會搜尋不同的特
徵描述集合來進行比對。
36
離線操作
影像輸入
目標物體資料庫
目標物體選擇
建立
特徵點擷取
設定所要的目標物
特徵描述向量計算
體之特徵描述集合
特徵點搜尋與對應
幾何限制
識別對應結果
圖 3.7 整體識別流程
37
第四章位置與姿態的估測
在進行目標物體所在的具體位置與距離的量測階段時，會需要運用到立體
的概念，在電腦視覺的應用中常會使用立體視覺的方式來求得目標的位置與距
離，此方式使用兩張以上的二維影像資訊來轉換出立體的資訊，也就是利用兩
個以上的二維平面座標推算出實體的三維空間座標，本研究中利用兩台 CCD
Cameras 來擷取兩組二維影像資訊，藉由雙眼立體視覺原理來推算出所要的三維
空間座標資訊，以下本章節會介紹立體視覺所需的相關基本原理與本文所使用
的立體視覺估算流程。
4.1 相機投影幾何
在立體視覺理論中，最基本的部份是影像投影模型，藉由透視投影的原理，
三維空間中場景能透過相機投影到二維影像平面上，這一節中將針對相機模
型，相機參數與空間座標轉換關係做一簡單的說明。
4.1.1 相機投影模型
本文的視覺系統的相機模型採用常見的針孔相機模型 (Pinhole camera
model) ，由於實際上相機的成像原理相當複雜，因此一般會將相機成像簡化成
透視投影的模型，也就是針孔相機模型，如圖 4.1 所示。
在圖 4.1 中，透視投影的模型有影像平面 (Image plane)、相機的投影中心

(Projection center)Oc 所構成，投影中心到影像平面的距離為焦距 f，通過影像平
面且垂直的直線稱為光軸(Optical axis)，光軸與影像平面相交的點 oc 為影像平面
中心點 (Principal point) ，此模型的座標系統稱為相機座標系統 (Camera
coordinates system)，是以相機投影中心 Oc 作為原點，其三個座標軸標記為 Xc、
Yc、Zc，其中下標 c 代表相機。在此圖右方位置可見到一點 P，該點表示三維空
間中的一點，而 P 與 Oc 的連線 (藍色直線)通過影像平面且交於一點 p，我們令
P=(Xc,Yc,Zc)和 p=(xc,yc,zc)，而影像平面上所有點在 Zc 方向的距離都等於相機焦
距長即 zc=f ，藉由相似三角形定理可導出相機座標系統 (Xc,Yc,Zc) 與影像平面
38
(xc,yc)之間的透視投影關係式，此關係式如式(4.1)所示。
圖 4.1 相機的透視投影模型示意圖
Xc Yc
xc = f yc = f (4.1)
Zc Zc
4.1.2 相機參數
影像上的座標點與三維空間中真實的位置是使用座標轉換來連結彼此的關
係，其座標轉換的過程需要影像座標 (Image coordinates) ，相機座標 (Camera
coordinates)、真實世界座標(World coordinates)這三種座標系統，其中相機內部
參數(Intrinsic parameters)是定義影像座標和相機座標之間的轉換關係，而相機外
部參數 (Extrinsic parameters)是定義相機座標和真實世界座標之間的轉換關係，
而相機參數包含上述的內部參數與外部參數，所以相機參數描述著真實世界座
標和影像座標的轉換關係，以下分別對相機的內部參數與外部參數來說明。
(1) 相機內部參數：
相機的內部參數包含著影像座標和相機座標之間的轉換，影像座標即為數
位影像陣列的座標，也就是在影像中的像素 (Pixel)位置，為了方便電腦記錄與表
示，其座標軸通常會使用如圖 4.2 中的 u 軸與 v 軸的配置方式，此種座標屬於影
39
像記憶體座標且與相機座標中的影像平面 (Image plane) (圖 4.1 中 )有著一對映關
係，而影像平面使用如圖 4.2 中的 xc 軸與 yc 軸的配置方式，而影像平面座標則
屬於物理座標，影像平面座標與影像座標的對映關係如下：
u = k u xc + k γ y c + u 0 v = k v y c + v0 (4.2)
(a)影像陣列無歪斜 (b)影像陣列有歪斜
圖 4.2 影像平面與影像座標的關係
其中 u 與 v 分別為影像座標中水平方向與垂直方向的位置，其單位為像素
(Pixel) ， oc(u0,v0) 為影像平面中心點或稱為鏡心位置，其單位也為像素 (Pixel) ，
xc 與 yc 為影像平面中水平方向與垂直方向的位置，其單位為物理長度，(ku,kv,kγ)
的單位都為 (像素 /物理長度 )， ku 為數位影像陣列與影像平面在水平方向的比例
係數，kv 為數位影像陣列與影像平面在垂直方向的比例係數，ku/kv 又稱為長寬
比(Aspect ratio)，kγ 為軸 u 與 v 軸之間的座標歪斜係數 (Skew factor)，一般來說，
良好的製程與品質佳的數位相機的 kγ 幾乎很微小，甚至在校正過程中實可以完
全忽略，為了方便進行座標轉換分析，所以將式 (4.2) 加入式 (4.1) 的透視投影轉
換而轉為相機座標系統，並改寫成齊次座標 (Homogeneous coordinates) 表示形
式：
⎡u ⎤ ⎡ fk u fkγ u 0 ⎤ ⎡ X c ⎤ ⎡α γ u0 ⎤ ⎡ X c ⎤ ⎡X c ⎤
s ⎢⎢ v ⎥⎥ = ⎢⎢ 0 fk v v0 ⎥⎥ ⎢⎢ Yc ⎥⎥ = ⎢⎢ 0 β v0 ⎥ ⎢ Yc ⎥ = A ⎢⎢ Yc ⎥⎥
⎥ ⎢ ⎥ (4.3)
⎢⎣1 ⎥⎦ ⎢⎣ 0 0 1 ⎥⎦ ⎢⎣ Z c ⎥⎦ ⎢⎣ 0 0 1 ⎥⎦ ⎢⎣ Z c ⎥⎦ ⎢⎣ Z c ⎥⎦
40
其中 α=fku, β=fkv, γ=fkγ， s 為一比例縮放因子，f 為相機焦距，A 為 3×3 的
上三角矩陣，又稱為相機內部參數矩陣(Intrinsic matrix)。
(2)相機外部參數：
相機的外部參數包含著世界座標和相機座標之間的轉換，轉換關係如圖 4.3
所示，其轉關係包含三維的移動(Translation)向量 T 與旋轉 (Rotation)矩陣 R， R
與 T 是用來描述這兩個座標軸的對應關係，該齊次的座標轉換矩陣表示為式
(4.3)。
圖 4.3 世界座標與相機座標示意圖
⎡Xc ⎤ ⎡ XW ⎤
⎢Y ⎥ R T3×1 ⎤ ⎢⎢ YW ⎥⎥
⎢ c ⎥ = ⎡ 3×3 (4.4)
⎢ Z c ⎥ ⎢⎣ 01×3 1 ⎥⎦ 4×4 ⎢ Z W ⎥
⎢ ⎥ ⎢ ⎥
⎣1⎦ ⎣ 1 ⎦
式 (4.4)中也稱為相機外部參數(Extrinsic camera parameters)，再結合相機內

部參數矩陣可求得世界座標與影像座標的齊次轉換矩陣，如式 (4.5)所示，其中
pi 表示在影像座標中某個像素位置，由式 (4.5)可以再定義出一個 3×4 的投影矩
陣 M，此矩陣如式(4.6)所示。
41
⎡XW ⎤ ⎡XW ⎤
⎡u ⎤ ⎡1 0 0 0⎤ ⎢Y ⎥
⎡R T3×1 ⎤ ⎢ YW ⎥
p i = s ⎢⎢ v ⎥⎥ ≡ A ⎢⎢0 1 0 0⎥⎥ ⎢ 3×3 ⎢ ⎥ = A[R 3×3 T3×1 ]⎢ W ⎥ (4.5)
0 1 ⎥⎦ 4×4 ⎢ ZW ⎥ ⎢ ZW ⎥
⎢⎣1 ⎥⎦ ⎢⎣0 0 1 0⎥⎦ ⎣ 1×3 ⎢ ⎥ ⎢ ⎥
⎣ 1 ⎦ ⎣ 1 ⎦
⎡ XW ⎤
⎢Y ⎥
p i = M 3×4 ⎢ W ⎥ , M 3×4 = A[R 3×3 T3×1 ] (4.6)
⎢ ZW ⎥
⎢ ⎥
⎣ 1 ⎦
4.1.3 平面投影轉換
平面投影轉換 (Homography transformation 或 projective transformation)是三
維空間平面與影像平面之間的一種線性轉換，如圖 4.4 所示，P 為三維空間上的
一點而 p 為其對應的影像平面位置，從式 (4.5)中的世界座標軸中選擇 ZW=0 的平
面來做投影轉換，則可以將 4×3 的投影矩陣 M 簡化成 3×3 的平面投影轉換矩
陣，形成式(4.7)。
圖 4.4 平面投影示意圖
⎡X ⎤
⎡u ⎤ ⎡ x ⎤ ⎡ m11 m12 m13 m14 ⎤ ⎢ W ⎥ ⎡ m11 m12 m14 ⎤ ⎡ X W ⎤
Y
p = s ⎢⎢ v ⎥⎥ = ⎢⎢ y ⎥⎥ = ⎢⎢m21 m22 m23 m24 ⎥⎥ ⎢ W ⎥ = ⎢⎢m21 m22 m24 ⎥⎥ ⎢⎢ YW ⎥⎥ (4.7)
⎢ 0 ⎥
⎢⎣1 ⎥⎦ ⎢⎣ z ⎥⎦ ⎢⎣m31 m32 m33 m34 ⎥⎦ ⎢ ⎥ ⎢⎣m31 m32 m34 ⎥⎦ ⎢⎣ 1 ⎥⎦
⎣ 1 ⎦
42
通常這一個 3×3 的矩陣可以表示一般平面投影轉換關係，又稱為平面投影轉
換矩陣，以 H 表示，為一個非奇異矩陣，圖 4.5 表示兩個影像平面的平面投影轉
換關係，而圖中的 H 為這兩個影像平面的平面投影轉換矩陣。
圖 4.5 兩個影像平面轉換的情形
將圖 4.5 的影像平面的平面投影轉換關係寫成 H 的形式，其中 p 為影像平面 1

上的點而 p'為 p 在影像平面 2 上對應的點， p 與 p'使用 3×1 的齊次座標(x,y,z)與(x
',y',z')來表示其投影轉換關係，其平面上的位置分別為(u,v)與(u',v')。
⎡ x′⎤ ⎡ h11 h12 h13 ⎤ ⎡ x ⎤

p′ = ⎢ y ′⎥ = H 3×3p = ⎢⎢h21
⎢ ⎥ h22 h23 ⎥⎥ ⎢⎢ y ⎥⎥ (4.8)
⎢⎣ z ′ ⎥⎦ ⎢⎣h31 h32 h33 ⎥⎦ ⎢⎣ z ⎥⎦
−1
p′ = H 3×3p , p = H 3×3 p′
x′ h11 x + h12 y + h13 y ′ h x + h22 y + h23

u′ = = , v′ = = 21 (4.9)
z ′ h31 x + h32 y + h33 z ′ h31 x + h32 y + h33
關於平面投影轉換矩陣 H 的求解，首先式 (4.9)將重新表示而變為式(4.10)

的形式，平面投影轉換矩陣 H 總共有 9 的未知數，由於齊次座標轉換有比例相
等的關係，可以假設矩陣中的某一個未知數固定(如 h33=1)，實際上待求的未知
數只有 8 個而已，由式(4.10)可知由於平面轉換的一組對應點可提供 2 個線性獨
43
立的方程式，若影像平面上存在 n 組對應點，則共產生 2n 個方程式，因此在求
解這 8 個未知數至少需要 4 組非共線的對應點，提供 8 個線性獨立的方程式，
所以 n≥4。
u ′(h31u + h32 v + h33 ) = h11u + h12 v + h13

(4.10)
v′(h31u + h32 v + h33 ) = h21u + h22 v + h23
在求解上述的 8 個線性獨立的方程式時，一般會假設 h33=1，對於 4 組對應

點，式 (4.10)可以改寫成：
⎡ u1 v1 1 0 0 − u1′u1
0 − u1′v1 ⎤ ⎡ h11 ⎤ ⎡ u ′1 ⎤
⎢0 0 0 u1 v1 1 − v1′u1 − v1′v1 ⎥⎥ ⎢⎢ h12 ⎥⎥ ⎢⎢ v′1 ⎥⎥
⎢
⎢u 2 v2 1 0 0 0 − u 2′ u 2 − u 2′ v2 ⎥ ⎢ h13 ⎥ ⎢u ′2⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢0 0 0 u 2 v2 1 − v2′ u 2 − v2′ v2 ⎥ ⎢ h21 ⎥ ⎢ v′2 ⎥
= (4.11)
⎢u 3 v3 1 0 0 0 − u3′ u3 − u3′ v3 ⎥ ⎢h22 ⎥ ⎢u ′3⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢0 0 0 u3 v3 1 − v3′ u3 − v3′ v3 ⎥ ⎢ h23 ⎥ ⎢ v′3 ⎥
⎢u v4 1 0 0 0 − u 4′ u 4 − u 4′ v4 ⎥ ⎢ h31 ⎥ ⎢u ′4⎥
⎢ 4 ⎥⎢ ⎥ ⎢ ⎥
⎣⎢ 0 0 0 u4 v4 1 − v4′ u 4 − v4′ v4 ⎦⎥ ⎣⎢ h32 ⎦⎥ ⎣⎢ v′4 ⎦⎥
式(4.11)為 8 個線性獨立的方程式，可以使用線性代數的數值方法，如高斯消去
法、LU 分解法等來求解，對於 N>4 的情形 (Over-determined condition)，則可以
採用最小平方誤差的方式來求解。
4.1.4 徑向透鏡扭曲
一般的相機鏡頭都會有成像扭曲的失真現象，尤其是徑向扭曲(Radial
distortion)的失真最為常見 [40](Tasi)。對於此種情況，令 (u , v) 為理想的像素點座
標，該理想座標是經由針孔相機模型(Pinhole model)直接投影而來的，但由於徑
向扭曲的現象而無法直接觀測(或獲得)該位置，而這裡令 (uˆ , vˆ) 為實際觀測(或獲
得 )且具扭曲像素點座標，同樣地， ( x, y ) 為理想的相機座標， ( xˆ, yˆ ) 為實際的扭
曲相機座標，其關係表示如下：
xˆ = x + x[k1 ( x 2 + y 2 ) + k 2 ( x 2 + y 2 ) 2 ]
(4.12)
yˆ = y + y[k1 ( x 2 + y 2 ) + k 2 ( x2 + y 2 ) 2 ]
其中 k1 與 k2 為徑向扭曲參數，若為負值則表示影像的邊框被扭曲效應拉至鏡
44
心，稱為桶狀扭曲 (Barrel distortion)；若為正值則反之，稱為針狀扭曲 (Pincushion
distortion) ，兩者的差異如圖 4.6 所示，鏡頭扭曲中心為影像平面上的鏡心
(Principal point)位置 (u0 , v0 ) ，可將式(4.12)改寫成式 (4.13)的形式。
圖 4.6 鏡頭徑向扭曲示意圖
uˆ = u + (u − u 0 )[k1 ( x 2 + y 2 ) + k 2 ( x 2 + y 2 ) 2 ]
(4.13)
vˆ = v + (v − v0 )[k1 ( x 2 + y 2 ) + k 2 ( x2 + y 2 ) 2 ]
一般情形，徑向扭曲參數通常很小，在影像中若是位於靠近鏡心的位置則
此扭曲現象不明顯，甚至可忽略。要求解扭曲參數(k1,k2)前必須先得知相機內外
參數，藉由相機內外參數可推得理想的像素座標 (u , v) ，由式(4.13)可得到兩個線
性方程式：
⎡(u − u0 )( x 2 + y 2 ) (u − u0 )( x 2 + y 2 ) 2 ⎤ ⎡ k1 ⎤ ⎡uˆ − u ⎤
⎢ 2 2 ⎥⎢ ⎥ = ⎢ vˆ − v ⎥
⎣ ( v − v 0 )( x 2
+ y 2
) ( v − v 0 )( x 2
+ y ) k
⎦ ⎦ ⎣
⎣ 2 ⎦
對於 n 張校正影像，每張影像有 m 個點，總共可得 2mn 個方程式，寫成矩

陣形式 Dk=d，其中 k=[k1,k2]T，則最小平方誤差解為：
k=(DTD)-1DTd (4.14)
在求得 k1 與 k2 後，需要在持續使用式(4.13)與式 (4.14)進行反覆的疊代以取得較

佳的扭曲參數值。
45
4.2 雙眼立體視覺原理
雙眼立體視覺 (Stereo vision)是利用兩張不同視角所擷取的場景影像來量測

該場景內的三維空間結構與距離位置，此方式主要分為搜尋對應點與推算三維
資訊這兩大部份，雙眼立體視覺的幾何配置關係以圖 4.7 為例，該配置方式是屬
於一種簡單的標準雙眼視覺幾何(Standard stereo geometry)，也是本文所採用的
配置方式。如圖 4.7 所示，此架構由兩台相機所組成並放置於相同的高度上，主
要分成左邊與右邊，兩台相機都採用針孔模型且光軸(Optical axis)互相平行，其
影像平面分成左影像(Il)與右影像 (Ir)，Ol 與 Or 分別為左右相機的投影中心，P(藍
色大圓點)設為三維場景中的一點， pl 與 pr(藍色小圓點)分別為投射到左右影像
平面 (Il 與 Ir) 上的二維座標位置，兩個相機的投影中心的距離稱為基線 (Base
line)，相機的焦距為都為 f，以下將先針對推算三維資訊部分的數學關係作進一
步說明。
圖 4.7 雙眼立體視覺之量測示意圖
在圖 4.7 中，場景中的一點 P 分別投影到左影像的 pl 以及右影像上的 pr，
其中 P= ( X , Y , Z )T ，pl= ( xl , yl )T 及 pr= ( xr , y r )T ，兩台相機的投影中心的距離(Base
46
line)設為 B，焦距都設為 f，這裡將場景中的三維座標原點定在左相機的投影中
心，所以由針孔模型的透視投影關係可知：
fX fY T
pl = ( xl , yl )T = ( , )
Z Z
由於兩台相機都設置於相同高度所以都使用相同的 y 座標，即 yl = y r = y ，
fX fY f ( X − B) fY
所以 xl = , y = yl = 而 xr = , y = yr =
Z Z Z Z
fX f ( X − B)
由Z = = 可推得：
xl xr
Bxl By Bf
X= , Y= , Z= (4.15)
xl − x r xl − x r xl − x r
這裡將左右相機的視差 (Disparity)定義為 ( xl − xr ) ，在 B 固定的條件下，此
視差會與三維場景座標的成反比關係，距離 (Z) 量測的準確度會隨著基線 (Base

line)長度 B 的增加而提昇，但左右影像的重疊區域會變的更狹小，能量測的範
圍也隨之減少，相機的設置除了平行擺設外，也能向內與向外夾一個夾角來擺
設，如圖 4.8 所示，向內擺設(圖 4.8(a))能夠增加左右影像的重疊區域，提高可
量測的範圍，但也會增加左右影像配對時的困難度。
Optical axis
Optical axis
Ol Or
(a) (b)
圖 4.8 雙眼視覺的相機設置(a)向內(b)向外
47
4.3 同軸幾何與基礎矩陣
對應點搜尋是一種複雜且重要的部份，在立體視覺的對應點搜尋中，可藉
由同軸幾何的理論可將搜尋空間大幅地降低，此方式稱為同軸限制，本節以下
會針對同軸限制與相關的基礎矩陣性質作說明。
4.3.1 同軸限制
同軸幾何(Epipolar geometry)為立體視覺中的幾何概念，藉由同軸幾何的理
論可將搜尋空間大幅地降低，此方式稱為同軸限制(Epipolar constraint)，這裡使
用圖 4.9 來說明，這裡為了方便表示所以使用圖 4.8(a)相機向內的設置方式來說
明，在圖 4.9 中，Ol 與 Or 為分別為左相機與右相機的投影中心，Ol 與 Or 之間
的連線稱為基線(Base line)，此基線分別與左右影像平面相交於 el 與 er 兩點，此
兩點稱為同軸點(Epipole)，P 為三維空間中的一點，在左右相機的影像中皆可觀
察到 P，由 P、 Ol、 Or 這三點可構成一個平面並稱為同軸平面(Epipolar plane)，
此同軸平面與左右兩影像相交於兩條直線，分別為 gl 與 gr，此兩條直線則稱為
同軸線 (Epipolar line)，無論三維空間中的位置 P 如何移動，所有的同軸線必定
會分別通過左影像的 el 點與右影像的 er 點。
圖 4.9 同軸幾何示意圖
pl 與 pr 分別為三維空間上的 P 投影到左影像平面與右影像平面上的位置，
48
射線 OlP 表示左影像中 pl 的所有可能符合 P 的三維位置，而在同軸平面上的所
有可能符合 P 的三維位置皆會相交在右影像平面中的同軸線 gr 上而產生對應的
pr，因此三維空間中直線 OlP 上的所有點都會投影在右影像平面的同軸線 gr 上，
反之亦然，同軸線為同軸幾何重要的幾何性質，此性質稱為同軸限制 (Epipolar
constraint) ，利用同軸限制可以將搜尋對應點時所需的二維搜尋範圍降低成一
維，而此二維降低成一維的映射關係可由基礎矩陣來獲得。
4.3.2 基礎矩陣
同軸幾何的關係可以運用一個 3×3 的矩陣來表示，此矩陣稱為基礎矩陣
(Fundamental matrix)，在圖 4.9 中向量 Pl=[Xl,Yl,Zl]、Pr=[Xr,Yr,Zr]分別表示三維
空間 P 點與左右相機投影中心(Ol 與 Or)之間的向量，在給定的三維空間上的 P，
它與 Pl 和 Pr 之間的關係可經由三維空間上的剛性轉換來表示，如下所示：
Pr = R (Pl + T) (4.16)
其中 R 為旋轉矩陣，T=(Or-Ol)為移動向量，之後可透過同軸平面(Epipolar plane)
l T 和 Pl-T 構成 ( Pl − T) T × Pr = 0 的關係式，再利用式 (4.16)

T
的共平面方程式以 P、
可推導出式(4.17)與式 (4.18)，而 E 稱為本質矩陣(Essential matrix)。
(R T Pr )T × Pl = 0 (4.17)
T
Pr EPl = 0 (4.18)
fl f
利用 p l = Pl 和 p r = r Pr 帶入式(4.18)中且同除以 Zl 和 Zr 可得到下式
Zl Zr
T
p r Ep l = 0 (4.19)
，由於 pl 與 pr 是使用相機座標系統(Camera coordinates)，因此將 pl 與 pr 改成以

影像座標系統 (Image coordinates)來表示，即使用像素(Pixel)位置，藉此進一步
推導出左右影像上的位置與同軸線之間的映射關係，此映射關係即為基礎矩
陣。這裡假設 Al 和 Ar 分別為左右相機的內部參數，可以得到式(4.20)
−1 −1
pl = Al ul , pr = Ar ur (4.20)
其中 ul 與 ur 分別為為 pl 和 pr 在影像座標上的位置(Pixel 位置)，將式 (4.20)帶入
49
式(4.19)中可得到式(4.21)
T
u r Fu l = 0 (4.21)
−T −1
其中 F = A r EA l ，F 就是基礎矩陣且大小為 3×3。對左右影像中任一組的對應
點 (ul,ur)和其對應的同軸線(gl,gr)的關係式如下
g l = Fu l g r = Fu r
T
對於同軸點， F 會滿足 e r F = 0 與 Fe l = 0 這兩個關係式。
對於基礎矩陣的特性，由式(4.21)可知，基礎矩陣 F 可以描述出左右影像中
對應點的數學關係，若給予左影像平面中一個像素(Pixel)座標即可得到右影像平
面上對應點所在的一條直線方程式，反之亦然，如圖 4.10 所示。對於三維座標
的確認，可利用式(4.21)的基礎矩陣性質來對已估測的三維座標位置做進一步確
認，三維座標位置的計算會由於影像上錯誤的對應點位置而導致相當大的誤
差，使用式 (4.21)的關係可以確認對應點的位置是否合理，對於不合理的資料點
則表示其對應點位置不合理而將其刪除，以提高整體三維資訊的準確度。
T
u r Fu l = 0
圖 4.10 以基礎矩陣進行對應點搜尋
求取基礎矩陣的演算法有許多種，其中以八點演算法(Eight point algorithm)

是最為直接且明確的方法，它是一種線性最佳化的演算法，其準則如下
2
max AF and F = 1 (4.22)
F
這裡令左影像上的一點 (Pixel 位置)為 ml=[u v 1]T 和它在右影像上的對應點為

mr=[u′ v′ 1]T，基礎矩陣 F 為
50
⎡ f11 f12 f13 ⎤
F = ⎢⎢ f 21 f 22 f 23 ⎥⎥
⎢⎣ f 31 f 32 f 33 ⎥⎦
T
，由 m r Fm l = 0 的關係能寫成包含九個未知數的線性齊次方程式，如式(4.23)
所示。
AF * = 0 (4.23)
其中
A = [uu ′ vu ′ u ′ uv′ vv′ v′ u v 1]
F * = [ f11 f 33 ]
T
f12 f13 f 21 f 22 f 23 f 31 f 32
由式(4.23)可知，至少需要給定 8 組對應點才能計算出基礎矩陣，若有 n 組對應

點則會形成 n×9 個線性方程式，如式(4.24)所示。
⎡ f11 ⎤
⎢f ⎥
⎢ 12 ⎥
⎢ f13 ⎥
⎢ ⎥
⎡ u1u1′ v1u1′ u1′ u1v1′ v1v1′ v1′ u1 v1 1⎤ ⎢ f 21 ⎥
AF * = ⎢⎢ M M M M M M M M M⎥⎥ ⎢ f 22 ⎥ = 0 (4.24)
⎢ ⎥
⎢⎣u n u n′ vn u n′ u n′ u n vn′ vn vn′ vn′ un vn 1⎥⎦ ⎢ f 23 ⎥
⎢f ⎥
⎢ 31 ⎥
⎢ f 32 ⎥
⎢f ⎥
⎣ 33 ⎦
此線性方程式的解就是 A T A 的最小特徵值所對應的特徵向量，使用奇異值分解
法(Singular value decomposition , SVD)來求解，將 A 矩陣分解成如下
A = UDV T
其中 U 和 V 為正交矩陣，D 為對角矩陣，對角矩陣裡對角的每個元素稱為
奇異值 (Singular value)，由於每個奇異值為矩陣 A 的各個特徵值的平方，所以對
角矩陣 D 裡最小奇異值相應的特徵向量(矩陣 V 中 )即為此線性方程式的解，也
就是基礎矩陣的解。
51
4.4 目標物體之三維空間資訊估算
本文中主要是針對已識別的目標物來進行三維座標估算，使用目標物體上
成功對應的特徵點來推算三維空間資訊，由於單邊影像的物體識別程序與耗費
了不少的運算時間，為了能夠較快速地估算出目標物體的三維座標資訊，所以
只使用位於左邊的影像進行物體識別，而只有在左邊影像中影識別出一定量以
上的特徵點群後才會與右邊的影像進行立體視覺配對。
立體視覺比對與物體識別比對一樣，使用特徵描述向量與最鄰近的方式來
進行配對，因為計算特徵描述向量需耗費相當的運算時間，所以本文的立體視
覺比對方式採用上述 4.2 節的方式，設置情形如圖 4.11 所示，利用多種限制法
則來刪減右邊影像上的特徵點資料，由於最進行立體視覺比對前，左邊影像已
產生目標物的特徵點群 (藍色方框內的 4 個點 )，此時可以找尋該特徵點群中最高
與最低的 Y 座標位置(水平方向 )，分別當作上邊界與下邊界(紅色線段)，由於本
文中 CCD Cameras 的放置是呈現平行的狀態，所以右邊影像中的兩個上邊界與
下邊界在做些微調整後即可作為右邊影像中的上邊界與下邊界，可作為同軸幾
何的限制。
由於左右影像的關係是處於平行的狀態，所以在合理的立體視覺對應範圍
下，其左影像的 X 座標位置(垂直方向)必定會大於對應點(右邊影像上)的 X 座標
位置，所以再找尋目標物的特徵點群(在左邊影像上)中最右邊的 X 座標位置，
當作右邊界(紫色線段 )，而在右邊影像上合理的對應範圍應該位於右邊界以左，
所以在總合上邊界、下邊界與右邊界後，右邊影像中合理的範圍只剩下綠色方
框部份，因此右邊影像中只須針對該範圍內的特徵點來計算特徵描述向量與立
體視覺對應搜尋，因此可以去除許多不必要的運算時間，提升整體處理速度，
對於左右影像中成功配對的特徵點集合，使用式 (4.15) 推算出三維空間座標資
訊，完成目標物體的三維位置估測，其相關的參數 (f 與 B)的設定將於 5.2.8 節的
三維位置估測實驗中說明。
52
Left image (pixels) Right image (pixels)
上邊界
下邊界
已識別的特徵點群
右邊界對應的右邊界
可能的特徵點群
圖 4.11 目標物體的視覺對應搜尋示意
53
第五章實驗測試與評估
5.1 實驗平台架構
本論文所實現的視覺追蹤系統是利用兩台 CCD Camera 裝置在可旋轉基座

的平台上，在 PC 上安裝一張雙通道的影像擷取卡並連結到上述的兩架 CCD
Camera，透過擷取卡進行取像後就進行視覺演算以追蹤目標物。整體的視覺演
算使用 Vusual C++編寫，其編輯環境為 Microsoft Visual C++ 2005，Camera 使用
廣角的鏡頭以拍攝較廣泛的範圍，在應用上也較為彈性，硬體架構如圖 5.1 所
示，實際情形如圖 5.2(a)(b)所示。
圖 5.1 硬體架構圖
本系統使用的硬體規格如下：
鏡頭(數量： 2)：焦距 6.0mm。
CCD Camera(數量：2)：Sony XC-HR57，解析度 648×494，

cell size：0.0099mm(H)x0.0099mm(V)，
影像擷取速度：60 frames/sec。
影像擷取卡(數量： 1)： Domino Alpha 2 ，雙通道。
54
工業用 PC(數量：1)：
CPU：Intel Core2 Duo 2.13G Hz

Memory： 1GB
(a)
(b)
圖 5.2 硬體設置實際情形
55
5.2 實驗測試評估與討論
5.2.1 特徵點重現性實驗
特徵點的重現性(Repeatability)對特徵點偵測演算的一個重要的性能指標，以
影像 1 轉換至影像 2 的重現性為例來作說明，其定義為 Num1/Num2，其中 Num1
表示影像 1 中所有特徵點轉換至影像 2 範圍內有“存在＂的總數量，Num2 表示
影像 1 中所有特徵點能夠轉換至影像 2 範圍內的總數，其中影像之間的轉換方
式是使用 4.1.3 節所述的平面投影轉換(Homography transformation)，使 Num1 累
計的條件是該位置必須“存在＂，即是該位置(影像 1 上 )經平面投影轉換至影像
2 的新位置之周圍某個臨界距離內有存在影像 2 的特徵點(任一點皆可)，則認定
該影像 1 上位置在影像 2 中“存在＂並將 Num1 累計一次，重現性越高表示特
徵點資料重獲的機率越高，反之亦然。
實驗時使用 Visual Geometry Group 的標準測試影像的 Graffiti 與 Boat 兩組測

試影像集合，Graffiti 的測試影像集合如圖 5.3 所示，影像解析度為 800×640，其中
包含大幅度的視角變化，Boat 的測試影像集合如圖 5.4 所示，影像解析度為 850×
680，其中包含大幅度的視野縮放變化與旋轉變化，其影像轉換測試情形共有 5 種，
分別為(a)轉換至(b)、(a)轉換至(c)、(a)轉換至(d)、(a)轉換至(e)和(a)轉換至(f)，由
於這 5 種轉換關係(平面投影轉換)已知，所以使用這 5 種情況來各自計算其重現性
以評估特徵點偵測法之性能，其中上述的臨界距離採用 1.8(Pixel)來估算 Num1。
實驗時使用這兩組測試影像分別使用 Harris 偵測方式與本文使用的直覺式外

觀角點方式所擷取的特徵點作重現性評估，本文使用的直覺式外觀角點方式之相
關參數與 2.1.2 節的測試實驗均相同，特徵點擷取的結果如圖 5.5 至圖 5.14 所示，
其中影像中紅色部分表示偵測到的特徵點的位置，圖 5.5 至圖 5.9 使用 Graffiti 測
試影像而圖 5.10 至圖 5.14 使用 Boat 測試影像，實驗評估結果如表一所示，其中
重現性的單位為百分率。
實驗用的測試影像均來自 http://www.robots.ox.ac.uk/~vgg/data/data-aff.html。
56
(a) (b) (c)
(d) (e) (f)

圖 5.3 Graffiti 測試影像
(a) (b) (c)
(d) (e) (f)

圖 5.4 Boat 測試影像
57
Harris：重現性=60.80691643(％)=211/347*100.0= Num1/ Num2
(a1) 211 個對應特徵點 (b1) 211 個對應特徵點

本文方式：重現性= 58.62619808(％)=367/626*100.0= Num1/ Num2

圖 5.5 Graffiti 測試影像集合中 a 轉換至 b 的特徵點偵測結果
Harris：重現性= 46.31043257(％)=182/393*100.0= Num1/ Num2
58
本文方式：重現性= 47.54335260(％)=329/692*100.0= Num1/ Num2

圖 5.6 Graffiti 測試影像集合中 a 轉換至 c 的特徵點偵測結果

本文方式：重現性= 36.96682464(％)=234/633*100.0= Num1/ Num2

圖 5.7 Graffiti 測試影像集合中 a 轉換至 d 的特徵點偵測結果
59

本文方式：重現性= 27.30375427(％)=160/586*100.0= Num1/ Num2

圖 5.8 Graffiti 測試影像集合中 a 轉換至 e 的特徵點偵測結果
60
本文方式：重現性= 20.98009188(％)=137/653*100.0= Num1/ Num2

圖 5.9 Graffiti 測試影像集合中 a 轉換至 f 的特徵點偵測結果

本文方式：重現性= 53.30058336(％) =1736/3257*100.0= Num1/ Num2

圖 5.10 Boat 測試影像集合中 a 轉換至 b 的特徵點偵測結果
61

本文方式：重現性= 46.78758069(％) =1522/3253*100.0= Num1/ Num2

圖 5.11 Boat 測試影像集合中 a 轉換至 c 的特徵點偵測結果
62
本文方式：重現性= 28.34814588(％) =925/3263*100.0= Num1/ Num2

圖 5.12 Boat 測試影像集合中 a 轉換至 d 的特徵點偵測結果

本文方式：重現性= 22.95433650(％) =749/3263*100.0= Num1/ Num2

圖 5.13 Boat 測試影像集合中 a 轉換至 e 的特徵點偵測結果
63

本文方式：重現性= 20.31872510 (％)=663/3263*100.0= Num1/ Num2

圖 5.14 Boat 測試影像集合中 a 轉換至 f 的特徵點偵測結果
表 1 特徵點偵測之重現性比較
(a)Graffiti 測試影像實驗之比較
狀態 Graffiti Graffiti Graffiti Graffiti Graffiti

演算法 (a) tr (b) (a) tr (c) (a) tr (d) (a) tr (e) (a) tr (f)
Harris 60.8069(％) 46.3104(％) 36.3896(％) 31.7220(％) 20.8556(％)
本文方式 58.6262(％) 47.5433(％) 36.9668(％) 27.3037(％) 20.9801(％)
(b)Boat 測試影像實驗之比較
狀態 Boat Boat Boat Boat Boat

演算法 (a) tr (b) (a) tr (c) (a) tr (d) (a) tr (e) (a) tr (f)
Harris 59.8553(％) 48.5095(％) 23.0352(％) 17.8862(％) 12.1048(％)
本文方式 53.3006(％) 46.7876(％) 28.3481(％) 22.9543(％) 20.3187(％)
64
5.2.2 特徵點重現性實驗之討論
在觀察表一的實驗結果後，可看出本文方式與傳統的 Harris 之間的重現性數
值整體上差異極小，在影像轉換差異不大的情形下，Harris 偵測方式的重現性較
高，而在影像轉換差異大的情形下，本文偵測方式的重現性較高，在實際使用 CCD
Camera 擷取影像作為輸入時，本文偵測方式大約只花費 Harris 偵測方式百分之三
十五的運算時間，因此本文使用的特徵點偵測方式在少量的運算消耗下仍有足夠
的性能進行識別與對應的工作。
5.2.3 物體識別性能測試實驗之設置
在這個實驗中主要針對識別部份來分析其性能，使用的演算方式涵蓋本篇論
文的第二章與第三章，其中 SIFT 的特徵描述向量採用 4×4 大小的子區域，所以標
準描述範圍為一個大小為 16×16 的矩形，而 PCA 降維部分會將 SIFT 的 128 維特
徵描述向量縮減至 25 維；識別演算中的樣本搜尋比對部份會採用 3.3 節所述的兩
種方式做比較，其分別為完整搜尋方式與階層式搜尋方式，由於階層式搜尋方式
的時間花費會比完整搜尋方式少得多，但由於階層式搜尋刪減部分的資料搜尋
範圍，所以有影響其識別性能的可能，所以藉由比較階層式搜尋與完整搜尋所收
集的性能數據的差異性來評斷優劣性。
對於實驗設置方面，這裡只使用一台 CCD Camera 進行影像取像的工作，使得

在分析識別部份的性能時較為合理與單純，實驗時採用一個群組的目標物體為單
位來進行識別測試實驗之比較，在識別程序中收集相關數據資料作為性能分析的
依據，而這兩個目標物體群組都使用不同的環境設置情況來比較其差異性；而環
境設置情況如下，使用兩種背景來進行測試，分為輕微雜亂和正常雜亂的背景環
境，而在任一種背景環境下，又設定近距離與遠距離 2 種測試情況，在每種物體
放置距離情形下又設定 3 種放置姿態來做比較，其放置距離與放置姿態之實例如
圖 5.15 所示。
65
(a) (b)
(c) (d) (e)

圖 5.15 物體擺設示意圖
物體放置之姿態分為正放、旋轉約 45 度和自旋(Spin)約 15 度，分別對應圖 5.15

的(a)、(b)、(c)，物體放置的距離設定分成近距離與遠距離，分別對應圖 5.15 的(d)
與(e)，近距離情形是放置在距離 CCD Camera 鏡頭大約 30cm 的位置，而遠距離情
形是放置在距離 CCD Camera 鏡頭大約 60cm 的位置。在背景測試環境方面，輕微
雜亂的情形(測試環境 1)如圖 5.16(a)所示，而正常雜亂的情形(測試環境 2)如圖
5.16(b)所示，在輕微雜亂的情形只在背後放置幾個紋理稀少的物體，以少量的干擾
因素下來進行識別工作，而正常雜亂則放置了一定量的雜物，其中包含紋理稀少
的與紋理豐富的物體。
(a) 測試環境 1 (b) 測試環境 2

圖 5.16 (a)輕微雜亂的環境 (b)正常雜亂的環境
66
對於辨識的目標物體群組，其樣本影像如圖 5.18 所示，該測試群組的物體主
要都具有平面型態的外型，其體積大小差異頗大，所以每個物體作為樣本的特徵
點數量也會差異頗大，其識別時間也會隨之不同，每個物體樣本的特徵點總數如
表 2 所示，而特徵向量總數實際上是辨識該物體所要花費的搜尋空間。在圖 5.17
中使用目標物體群組中的目標物(a)作一識別工作的實例，圖 5.17(a)(b)是在測試環
境 1 中進行目標物(a)的辨識工作，而圖 5.17(a)(b)中是在測試環境 2 中進行辨識工
作，其中藍色的連線分別連結著已識別的特徵點與對應的樣本特徵點，而紅色方
框表示目標物(a)可能的位置範圍，此方框範圍會與樣本影像產生某種幾何轉換關
係，而此幾何轉換關係可由已識別的特徵點對來估測出來。
(a) (b)
(c) (d)
圖 5.17 物體識別之實際情形
67
(a) (b)
(c) (d) (e)

圖 5.18 測試物體群組
物體識別性能測試將會連續地進行 50 次 (輸入影像擷取 50 張 )，在這測試期

間內(50 次 )進行各項評估參數的估測，最後使用各項評估參數的平均值做為該次
測試的評估結果，而評估參數總共設定 9 項，其各項評估參數說明如下：
A：特徵點偵測時花費的時間，單位為(ms)。
B1：特徵點之特徵描述向量轉換的時間(SIFT+PCA 降維) 單位為(ms)。
B2： PCA 降維整體花費的時間，單位為(ms)。
C1：特徵點對應搜尋時間，單位為(ms)。
C2：幾何限制所花費的時間(使用 RANSAC 估測) ，單位為(ms)。
D：整體識別演算過程的花費時間(A+B1+C1+C2) ，單位為(ms)。
E；輸入影像所偵測到的特徵點總數。
F：特徵點配對比率(即 Recall)，使用幾何限制後的剩餘的特徵點配對數量除以該
目標物體(樣本影像)的特徵點總數，每個目標物的特徵點總數如表 2 所示。
G：在測試期間未完成識別的的次數，即為辨識出目標物體的次數，最多為 50 次
而最少為 0 次。
68
表 2 測試群組的特徵資料統計
目標物
a b c d e
測試群組
特徵點總數 124 128 120 86 166
特徵向量總數 2309 2102 2115 1429 2890
5.2.4 物體識別性能測試實驗(測試環境 1)
該實驗使用 5.2.3 節所述的輕微雜亂的背景環境進行測試，將測試物體群組分
別在近距離與遠距離來進行測試，在每種情形都使用完整搜尋方式與階層式搜尋
方式來做測試與評估，近距離放置之實驗結果如表 3、表 4、表 5 所示，其分別
代表正放、旋轉約 45 度、自旋約 15 度的姿態放置情形，而遠距離放置之實驗結
果如表 6、表 7、表 8 所示，其分別代表正放、旋轉約 45 度、自旋約 15 度的姿
態放置情形，其中較重要的數值參數以別種顏色顯示，特徵點對應搜尋時間(C1)
之數據以綠色表示，整體識別演算過程的花費時間(D)之數據以紅色表示，特徵點
配對比率(F) 之數據以藍色表示。
表 3 識別性能測試(測試環境 1，近距離，正放)
目標物
比較 a b c d e
A 27.2 24.9 24.4 23.8 26.1
B1 84.0 66.4 52.9 65.7 88.6
完時 B2 5.3 4.3 3.3 4.2 5.5
整間 C1 45.6 40.4 27.1 27.2 64.4
搜 (ms) C2 6.9 21.3 3.8 5.9 14.4
尋 D 156.8 141.7 104.4 116.7 179.0
屬 E 251.1 202.7 157.2 197.8 261.4
性 F 13.7 17.9 12.0 20.0 15.5
G 0 0 0 0 0
A 27.0 24.9 24.6 23.8 26.0
B1 82.5 67.6 53.6 65.8 87.1
階時 B2 5.2 4.3 3.4 4.2 5.5
層間 C1 21.8 35.7 14.8 15.0 36.3
式 (ms) C2 7.6 21.2 4.2 4.8 16.8
搜 D 121.3 127.8 92.9 104.6 149.5
尋屬 E 246.6 204.8 258.4 198.7 257.5
性 F 12.9 17.2 12.0 20.0 14.7
G 0 0 0 0 0
69
表 4 識別性能測試(測試環境 1，近距離，旋轉約 45 度)
目標物
比較 a b c d e
A 26.3 26.7 24.8 24.2 26.0
B1 81.6 84.5 69.4 72.5 94.2
完時 B2 5.1 5.3 4.4 4.6 5.9
整間 C1 47.5 50.4 33.4 29.5 73.2
搜 (ms) C2 10.8 15.3 4.1 6.7 20.1
尋 D 155.4 161.6 127.6 126.3 193.4
屬 E 241.8 249.1 204.3 213.8 278.0
性 F 5.64 14.8 10.8 19.1 10.3
G 0 0 0 0 0
A 24.9 26.5 25.0 24.3 26.1
B1 78.3 83.5 69.3 72.5 95.5
階時 B2 5.0 5.2 4.3 4.5 6.0
層間 C1 20.8 29.4 16.6 15.9 41.6
式 (ms) C2 7.8 13.7 4.1 5.3 20.2
搜 D 124.2 139.5 110.9 112.7 163.2
尋屬 E 236.7 245.9 204.4 213.5 282.3
性 F 9.7 14.1 10.0 17.8 11.6
G 0 0 0 0 0
表 5 識別性能測試(測試環境 1，近距離，自旋約 15 度)
目標物
比較 a b c d e
A 30.0 25.2 24.6 23.9 26.6
B1 84.1 68.3 60.0 68.7 99.7
完時 B2 5.3 4.4 3.8 4.4 6.3
整間 C1 51.6 49.6 30.2 26.4 72.8
搜 (ms) C2 13.0 20.3 3.8 4.1 16.6
尋 D 162.6 143.2 114.7 119.1 199.1
屬 E 250.2 206.2 178.1 206.6 296.1
性 F 9.6 12.2 16.9 24.2 16.6
G 0 0 0 0 0
A 27.0 25.2 24.6 24.0 26.7
B1 84.1 67.7 59.4 68.4 99.9
階時 B2 5.3 4.3 3.7 4.4 6.3
層間 C1 26.6 34.4 16.2 15.1 40.3
式 (ms) C2 12.1 20.4 4.3 4.4 18.4
搜 D 137.7 127.3 100.2 107.6 166.8
尋屬 E 251.0 204.0 176.9 206.7 295.1
性 F 10.0 11.7 16.3 21.3 16.3
G 0 0 0 0 0
70
表 6 識別性能測試(測試環境 1，遠距離，正放)
目標物
比較 a b c d e
A 25.2 24.4 23.3 22.6 23.4
B1 72.0 61.0 67.3 64.8 80.1
完時 B2 4.7 4.0 4.3 4.2 5.2
整間 C1 38.8 34.9 33.1 25.3 49.9
搜 (ms) C2 4.2 7.3 3.6 3.7 4.0
尋 D 136.0 120.2 123.7 112.8 154.3
屬 E 219.4 189.7 202.7 198.0 241.2
性 F 15.3 6.7 14.6 29.0 17.7
G 0 0 0 0 0
A 25.2 24.5 23.4 22.8 24.33
B1 71.7 60.7 67.3 65.1 80.7
階時 B2 4.7 4.0 4.3 4.2 5.2
層間 C1 17.3 20.8 16.5 14.3 23.1
式 (ms) C2 4.4 8.0 3.5 3.6 4.1
搜 D 114.2 106.0 107.2 102.2 128.1
尋屬 E 218.3 189.0 202.8 199.1 242.4
性 F 15.3 6.7 14.4 29.2 17.6
G 0 0 0 0 0
表 7 識別性能測試(測試環境 1，遠距離，旋轉約 45 度)
目標物
比較 a b c d e
A 25.0 23.8 22.1 23.1 24.3
B1 78.4 69.7 78.2 74.6 88.3
完時 B2 5.0 4.5 5.0 4.8 5.6
整間 C1 43.5 39.2 43.0 26.7 53.8
搜 (ms) C2 7.3 9.07 8.4 3.6 4.6
尋 D 146.9 134.7 149.6 124.4 166.4
屬 E 237.1 210.4 235.0 225.2 263.7
性 F 8.9 6.9 5.7 13.8 11.6
G 0 1 3 0 0
A 24.5 21.4 23.0 23.1 24.3
B1 76.7 63.2 81.9 75.8 88.6
階時 B2 5.0 4.0 5.2 4.9 5.6
層間 C1 20.8 21.4 22.0 15.4 25.4
式 (ms) C2 7.8 8.3 7.9 4.3 5.8
搜 D 124.1 117.4 129.1 114.3 138.3
尋屬 E 231.7 190.9 246.2 229.1 264.7
性 F 8.1 7.2 6.1 12.7 11.2
G 0 6 1 0 0
71
表 8 識別性能測試(測試環境 1，遠距離，自旋約 15 度)
目標物
比較 a b c d e
A 24.7 23.8 23.4 22.8 23.9
B1 72.8 58.6 74.6 66.4 82.8
完時 B2 4.7 3.8 4.8 4.3 5.2
整間 C1 38.9 32.0 40.8 25.4 51.7
搜 (ms) C2 3.8 5.5 8.6 3.6 4.7
尋 D 136.4 114.3 138.8 114.6 158.4
屬 E 222.1 180.5 224.7 202.8 248.5
性 F 16.1 8.7 6.2 17.9 11.3
G 0 0 0 0 0
A 24.6 23.8 22.4 22.8 23.9
B1 73.1 58.6 71.7 65.9 83.1
階時 B2 4.7 3.8 4.6 4.2 5.3
層間 C1 17.0 20.0 21.9 14.1 23.8
式 (ms) C2 3.8 7.7 8.0 3.6 4.5
搜 D 114.8 102.3 120.0 102.8 130.8
尋屬 E 222.8 180.8 215.4 201.1 249.5
性 F 15.3 6.7 6.0 18.1 10.7
G 0 0 2 0 0
5.2.5 物體識別性能測試實驗(測試環境 1)之討論

在 5.2.4 節中的實驗結果大致上可看出，階層式搜尋的方式在特徵點對應搜尋
(C1)中花費的時間要比完整搜尋方式要少上許多，而其特徵點配對率(F)與完整搜
尋方式差距不大，所以使用階層式搜尋的方式可以在較不影響其識別性能下來縮
減搜尋空間與節省時間，提升整體識別工作的速度與效率。
72
5.2.6 物體識別性能測試實驗(測試環境 2)
該實驗使用 5.2.3 節所述的正常雜亂的背景環境進行測試，將測試物體群組分
別在近距離與遠距離來進行測試，在每種情形都使用完整搜尋方式與階層式搜尋
方式來做測試與評估，近距離放置之實驗結果如表 9、表 10、表 11 所示，其分
別代表正放、旋轉約 45 度、自旋約 15 度的姿態放置情形，而遠距離放置之實驗
結果如表 12、表 13、表 14 所示，其分別代表正放、旋轉約 45 度、自旋約 15 度
的姿態放置情形，其中較重要的數值參數以別種顏色顯示，其顏色設定同 5.2.4 節。
表 9 識別性能測試 (測試環境 2，近距離，正放)
目標物
比較 a b c d e
A 28.9 26.9 26.9 27.5 28.5
B1 151.5 124.1 109.1 163.5 122.4
完時 B2 9.8 8.1 7.0 10.6 7.8
整間 C1 75.7 75.9 55.6 52.3 87.4
搜 (ms) C2 6.6 24.0 9.2 4.3 18.0
尋 D 256.0 226.9 191.6 243.3 238.3
屬 E 459.3 381.6 332.4 499.0 368.9
性 F 14.9 26.3 11.4 22.8 16.0
G 0 0 0 0 0
A 28.9 27.0 27.0 27.5 28.6
B1 144.6 122.7 108.0 163.3 123.1
階時 B2 9.4 8.0 7.0 10.6 7.9
層間 C1 29.9 44.4 29.2 23.8 44.5
式 (ms) C2 4.3 23.7 10.9 4.6 17.4
搜 D 203.5 194.1 164.2 214.6 196.1
尋屬 E 441.4 374.8 329.8 498.8 371.8
性 F 13.8 25.2 11.1 24.2 15.4
G 0 0 0 0 0
73
表 10 識別性能測試 (測試環境 2，近距離，旋轉約 45 度)
目標物
比較 a b c d e
A 28.4 27.9 27.2 27.8 27.3
B1 143.2 124.3 103.8 151.4 110.7
完時 B2 9.2 7.9 6.6 9.7 7.0
整間 C1 73.8 73.4 50.7 48.9 83.1
搜 (ms) C2 9.7 21.8 7.7 4.6 20.0
尋 D 245.4 225.6 181.7 228.1 221.1
屬 E 435.6 375.0 312.2 456.6 330.6
性 F 7.6 12.6 9.5 24.5 12.3
G 0 0 0 0 0
A 28.4 28.2 27.2 27.6 27.3
B1 145.2 128.2 103.7 152.3 108.9
階時 B2 9.4 8.2 6.6 9.7 6.9
層間 C1 33.3 42.7 22.9 23.8 42.8
式 (ms) C2 9.2 21.9 6.3 4.9 18.8
搜 D 206.9 199.1 153.8 203.3 179.0
尋屬 E 441.1 386.4 313.1 457.8 324.9
性 F 7.6 12.4 9.7 22.0 12.2
G 0 0 0 0 0
表 11 識別性能測試 (測試環境 2，近距離，自旋約 15 度)
目標物
比較 a b c d e
A 29.0 27.2 27.3 27.6 28.6
B1 149.3 129.6 110.5 161.9 130.8
完時 B2 9.7 8.4 7.1 10.5 8.4
整間 C1 71.7 76.6 52.5 52.6 94.5
搜 (ms) C2 4.1 22.8 5.9 5.0 20.8
尋 D 250.0 233.4 190.2 242.2 253.8
屬 E 455.8 397.7 334.5 494.3 394.8
性 F 16.9 18.6 18.1 28.0 16.9
G 0 0 0 0 0
A 28.9 27.3 27.2 27.6 28.6
B1 151.3 129.3 110.3 162.3 134.8
階時 B2 9.8 8.4 7.1 10.5 8.6
層間 C1 29.8 44.6 24.9 24.1 50.6
式 (ms) C2 4.3 22.7 6.7 4.8 21.3
搜 D 210.0 201.2 162.4 214.0 214.0
尋屬 E 461.3 396.3 333.9 494.6 407.0
性 F 17.5 18.0 17.1 26.2 16.6
G 0 0 0 0 0
74
表 12 識別性能測試 (測試環境 2，遠距離，正放)
目標物
比較 a b c d e
A 26.0 26.2 26.1 25.8 26.4
B1 111.9 109.2 117.8 140.3 127.9
完時 B2 7.3 7.2 7.6 9.0 8.2
整間 C1 56.7 51.0 53.4 45.4 77.9
搜 (ms) C2 3.9 4.9 3.6 3.5 5.8
尋 D 194.6 186.3 197.3 211.5 232.2
屬 E 345.2 339.6 358.4 426.5 389.1
性 F 18.5 22.2 12.1 25.9 17.3
G 0 0 0 0 0
A 26.1 26.1 25.9 25.8 26.4
B1 116.4 106.7 119.5 142.5 127.6
階時 B2 7.6 7.0 7.7 9.1 8.2
層間 C1 24.7 22.3 22.7 20.8 32.3
式 (ms) C2 3.8 4.7 3.5 3.6 5.2
搜 D 167.2 155.2 168.1 189.1 186.3
尋屬 E 357.8 331.9 362.4 431.7 387.9
性 F 18.7 20.0 11.8 25.4 16.5
G 0 0 0 0 0
表 13 識別性能測試 (測試環境 2，遠距離，旋轉約 45 度)
目標物
比較 a b c d e
A 25.9 26.1 25.5 25.5 23.7
B1 116.2 116.0 121.6 131.2 112.3
完時 B2 7.6 7.5 7.9 8.4 7.2
整間 C1 60.2 57.5 60.5 43.7 90.6
搜 (ms) C2 6.2 10.0 9.5 4.8 20.5
尋 D 202.3 199.7 207.6 200.5 241.7
屬 E 354.2 354.1 369.2 395.9 339.5
性 F 14.2 12.5 6.3 13.7 7.4
G 0 0 0 0 5
A 26.1 26.1 25.6 25.8 26.3
B1 115.7 112.9 121.4 133.3 126.2
階時 B2 7.5 7.3 7.8 8.2 8.1
層間 C1 27.4 32.0 28.4 22.9 47.1
式 (ms) C2 6.6 14.0 9.7 6.9 20.6
搜 D 169.1 171.0 175.4 182.0 199.5
尋屬 E 351.7 344.6 367.6 402.0 382.0
性 F 14.1 11.5 5.5 11.1 7.8
G 0 0 0 0 0
75
表 14 識別性能測試 (測試環境 2，遠距離，自旋約 15 度)
目標物
比較 a b c d e
A 26.0 26.0 25.0 25.8 26.3
B1 113.5 114.5 122.9 143.9 133.5
完時 B2 7.4 7.5 7.9 9.3 8.6
整間 C1 57.8 52.2 60.5 46.2 79.7
搜 (ms) C2 4.0 4.7 7.1 3.9 4.6
尋 D 197.3 192.7 214.6 216.0 239.5
屬 E 350.1 352.0 372.7 438.7 405.0
性 F 17.2 18.0 6.6 13.3 17.6
G 0 0 2 0 0
A 26.0 26.0 25.5 26.0 26.3
B1 114.5 115.6 127.8 144.1 131.8
階時 B2 7.5 7.6 8.2 9.3 8.5
層間 C1 24.4 24.7 28.8 21.0 32.9
式 (ms) C2 4.1 5.8 8.7 3.5 4.7
搜 D 164.9 166.3 185.2 191.1 190.9
尋屬 E 353.1 356.6 386.9 436.3 399.5
性 F 16.6 18.3 6.1 15.2 18.4
G 0 0 1 0 0
5.2.7 物體識別性能測試實驗(測試環境 2)之討論

在 5.2.6 節中的實驗結果大致上可看出，平均偵測到的特徵點總數(E)要比 5.2.4
節之實驗數據要多，者是由於在正常雜亂的背景環境下會存在許多具特色的特徵
點點，因此需要會花費更多的時間來進行特徵描述轉換與特徵點對應搜尋。而階
層式搜尋的方式在特徵點對應搜尋(C1)中花費的時間要比完整搜尋方式要少上許
多，而其特徵點配對率(F)與完整搜尋方式差距不大，所以使用階層式搜尋的方式
仍然可以在較不影響其識別性能下來縮減搜尋空間與節省時間，提升整體識別工
作的速度與效率。
76
5.2.8 物體之三維位置估測實驗
這裡對目標物體作三維位置估測的測試實驗，目標物的三維座標位置關係設
置如圖 5.19 所示，其中所估測的三維座標位置採用相對的相機座標系統，其三維
座標位置之原點設定為左相機座標系統的原點，而立體視覺比對方式採用上述 4.2
節的方式，其 CCD Camera 設置情形如圖 4.11 相同都為平行放置，三維位置使
用式 (4.15) 與式 (4.3) 的相機內部參數矩陣來推算，其左右相機之鏡頭與影像陣列
都視為理想狀態，即焦距 f 為 6.0(mm) ，影像陣列的每個元素大小(cell size) 為
0.0099mm(H)×0.0099mm(V)，鏡頭的徑向扭曲失真係數(k1,k2)與影像座標歪斜係
數(kγ)皆不考慮，左右相機間距 B(Base line)為 20cm，實驗的目標物則放置在實驗
桌上來進行測試。
圖 5.19 三維座標位置之相對關係示意
將目標物體放置於與圖 5.16(a) 相同的測試環境(雜亂的環境)，該測試的目標

物體如圖 5.20 所示，將目標物體 a 放置在距離左相機鏡頭深度中和深度高的情形
(及中距離與遠距離)下作測試，如圖 5.21 和 5.23 所示，其中圖 5.22 為中距離工作
的情形而圖 5.24 為遠距離工作的情形，圖中紅色方框表示目標物體，藍色部分表
示有識別到的目標物體特徵點之位置，綠色線段表示目標物體特徵點(藍色部分)
在左影像與有影像的立體對應情形，若目標物體特徵點(藍色部分)上沒有綠色連線
表示該點沒有在右影像上找到合理的相似點。
在中距離工作的情形下立體對應成功有 45 對，整體時間花費(物體識別過程+
77
立體視覺對應+物體三維位置估測)為 428.72ms；遠距離工作的情形下立體對應成
功有 21 對，整體時間花費(同上)為 387.96ms，使用這兩組資料來進行三維座標轉
換，轉換結果如圖 5.22 與圖 5.24 所示，其中圖 5.22 為中距離工作的情形而圖 5.24
為遠距離工作的情形，(a)為 X-Y-Z 的座標形式，(b) X- Z 的座標形式，(c) Y-Z 的
座標形式，三維座標單位都為 mm。
目標物體 b 同樣放置在距離左相機鏡頭深度中和深度高的情形(及中距離與遠
距離)下作測試，如圖 5.25 和 5.27 所示，其中圖 5.26 為中距離工作的情形而圖 5.28
為遠距離工作的情形，圖中紅色方框表示目標物體，藍色部分表示有識別到的目
標物體特徵點之位置，綠色線段表示目標物體特徵點(藍色部分)在左影像與有影像
的立體對應情形，若目標物體特徵點(藍色部分)上沒有綠色連線表示該點沒有在右
影像上找到合理的相似點。
在中距離工作的情形下立體對應成功有 14 對，整體時間花費(物體識別過程+
立體視覺對應+物體三維位置估測)為 405.50ms；遠距離工作的情形下立體對應成
功有 10 對，整體時間花費(同上)為 300.13ms，使用這兩組資料來進行三維座標轉
換，轉換結果如圖 5.26 與圖 5.28 所示，其中圖 5.26 為中距離工作的情形而圖 5.28
為遠距離工作的情形，(a)為 X-Y-Z 的座標形式，(b) X- Z 的座標形式，(c) Y-Z 的
座標形式，三維座標單位都為 mm。
(a) (b)
圖 5.20 測試使用的目標物體
78
圖 5.21 識別與視覺對應情形(目標物 a，中距離) (45 筆資料)
(a) X-Y-Z 座標
(b) X-Z 座標 (c) Y-Z 座標

圖 5.22 目標物體之三維座標轉換結果(目標物 a，中距離)(45 筆資料)
79
圖 5.23 識別與視覺對應情形(目標物 a，遠距離) (21 筆資料)
(a) X-Y-Z 座標

圖 5.24 目標物體之三維座標轉換結果(目標物 a，遠距離) (21 筆資料)
80
圖 5.25 識別與視覺對應情形(目標物 b，中距離) (14 筆資料)
(a) X-Y-Z 座標

圖 5.26 目標物體之三維座標轉換結果(目標物 b，中距離)(14 筆資料)
81
圖 5.27 識別與視覺對應情形(目標物 b，遠距離) (10 筆資料)
(a) X-Y-Z 座標

圖 5.28 目標物體之三維座標轉換結果(目標物 b，遠距離) (10 筆資料)
82
5.2.9 物體之三維位置估測實驗之討論
對於目標物 a 的情形，由中距離目標物體之三維座標轉換結果(圖 5.22 中)與由
遠距離目標物體之三維座標轉換結果(圖 5.24 中)可知，位於目標物上且已識別的特
徵點位置能夠轉換出其對應的三維空間資訊，因此可得知該目標物在空間上的相
對關係，由於目標物 a 是具有大面積之平面剛體，所以此目標物上的特徵點之深
度(Z 方向)位置都大致相近。在觀察中距離與遠距離的實驗結果可知，目標物 a 在
中距離情形下所得到的特徵點資料較大，這是由於目標物 a 的特徵點在中距離時
重現性較高，所以在識別對應時能夠得到較多的資料量而得知更多的三維空間資
訊。
對於目標物 b 的情形，其中距離與遠距離的三維座標資料仍然具有上述之現
象，而目標物 b 所具有之平面面積較少，所以其特徵點的重現性都較目標物 a 低，
在識別對應時也夠得到較貧乏的資料量，其識別的效能不如目標物 a。
目標物體之三維位置估測整體所花費的時間包含物體識別過程、立體視覺對
應、物體三維位置估測，在物體識別過程時只使用左相機影像做處理，但進行立
體視覺對應時則需要使用右相機影像的資訊，其資訊包含特徵點的特徵向量，需
要再花費相當的時間來計算出這些特徵向量，所以進行目標物體之三維位置估測
時需要花費比物體識別過程更多的時間。
83
第六章結論與未來方向
本篇論文提出一個基於三維物體之辨識與定位的視覺系統，在目前的研究
階段中以達成以下幾個部份：
1. 使用直覺式的角點外觀偵測方式來擷取穩定且較具特色的特徵點，而此角
點偵測演算方式不但快速，且經由實驗測試證實該角點偵測方式具有足夠
的穩定性能。
2. 針對已提取的特徵點，使用 SIFT 之空間梯度描述方式來求得該特徵點的

特徵描述向量值，並運用 PCA 的方式減少其特徵描述向量之維度以提升
資料量搜尋對應的速度，經由實驗測試結果可知，由於 PCA 降維轉換部
分的運算時間只佔據整體識別對應時間的一小部份，所以採用 SIFT 並搭
配 PCA 轉換的方式能符合實際效益。
3. 在特徵點對應搜尋部份，使用一種的階層式搜尋方式，此方式對所有的樣
本特徵資料進行粗到細兩個階段的搜尋步驟，在經由這兩個步驟能縮減資
料搜尋的空間並減少運算時間，在經由實驗測試結果可知，階層式的搜尋
方式能在不影響識別性能的情形下縮減資料搜尋的空間，並且比使用完整
搜尋方式還，節省了不少的運算時間。
4. 本文所發展之視覺系統，能夠對特定的目標物進行識別且鎖定，並利用立
體視覺量測的方式獲得該物體的三維座標位置。
就目前的識別性能來看，對於具有大面積之平面剛體有較好的識別能力與
較多的三維資訊，而剛體具有之平面面積較少時，則有較差的識別能力與較少
的三維資訊，未來仍將針對此種情形進行改善，之後將配合機構進行影像伺服相
關應用，形成功能更完整且更具特色的智慧型伺服系統。
84
參考文獻
[1] S. Benhimane and E. Malis, "Homography-based 2D visiual servoing," Proc.

IEEE International Conference on Robotics and Automation, pp.2397-2402, May
2006.
[2] E. Marchand and F. Chaumette, "Feature tracking for visual servoing purposes,"
Robotics and Autonomous Systems, Vol. 52, No. 1, pp.53-70, June 2005.
[3] M. Pressigout and E. Marchand, "Real-time hybrid tracking using edge and
texture information, " International Journal of Robotics Research, Vol. 26, No. 7,
pp.689-713, July 2007.
[4] T. Drummond and R. Cipolla, "Real-Time visual tracking of complex structures,"
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7,
pp.932-946, July 2002.
[5] D. Kragic, M. Bjorkman, H.I. Christensen, J. Eklundh, "Vision for robotic object
manipulation in domestic settings," Autonomous Systems 52, pp.85-100, June
2005.
[6] T. Olsson, High-Speed vision and force feedback for motion-controlled industrial
manipulators, Lund University, Lund, May 2007.
[7] J. Wang, H. Zha and R. Cipolla, "Coarse-to-fine vision-based localization by
indexing scale-invariant features," IEEE Transactions on Systems, Part B:
Cybernetics, Vol. 36, No. 2, April 2006.
[8] S. Ahn, M. Choi, J. Choi and W.K. Chung, "Data association using visual object
recognition for EKF-SLAM in home environment," Proc. IEEE/RSJ International
Conference on Intelligent Robots and Syatems, pp.2588-2594, October 2006.
[9] N. Zhang, M. Li and B. Hong, "Active mobile robot simultaneous localization
and mapping," Proc. IEEE International Conference on Robotics and
Biomimetrics, pp.1676-1681, December 2006.
[10] S. Frintrop, P. Jensfelt and H.I. Christensen, "Attentional landmark selction for
visual SLAM," Proc. IEEE/RSJ International Conference on Intelligent Robots
and Syatems, pp.2582-2587, October 2006.
[11] M. Pollefeys, Visual 3d modeling from images, Tutorial Notes, USA.
[12] L. Van Gool, M. Vergauwen, F. Verbiesst, K. Cornelis and J. Tops, "Visual
modeling with a hand-held camera," International Journal of Computer Vision,
Vol. 59, No. 3, pp.207-232, 2004.
[13] I. Gordon and D.G Lowe, "Scene modeling, recognition and tracking with
invariant image features," International Symposium on Mixed and Augmented
85
Reality, pp.110-119, 2004.
[14] G. Klein, Visual tracking for augmented reality, Ph.D. Thesis, University of
Cambridge, January 2006.
[15] V. Ferrari, T. Tuytelaars and L. Van Gool, "Integrating multiple model views
for object recognition," Proc. IEEE Computer Society Conference on Computer
Vision and Pattren Recognition, Vol. 2, pp.105-112, 2004.
[16] K. Mikolajczyk, C. Schmid and A. Zisserman, "Human detection based on a
probabilistic assembly of robust part detectors," Eighth European Conference on
Computer Vision, pp.68-82, May 2004.
[17] F.F. Li, R. Fergus and P. Perona, "One-Shot learning of object categories," IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4,
pp.594-611, April 2006.
[18] H.P. Moravec, "Toward automatic visual obstacle avoidance," Proc. Fifth of
International Joint Conference on Artificial Intelligence, Vol. 14, pp.584, August
1977.
[19] C. Harris and M. Stephens, "A combined corner and edge detector," Alvey Vision
Conference, pp.147-151, 1988.
[20] S.M. Smith and M. Stephens, "SUSAN: A new approach to low level image
processing," International Journal of Computer Vision, pp.45-78, 1997.
[21] Z. Zhang, R. Deriche, O. Faugeras and Q.T. Luong, "A robust technique for
matching two unicalibrated images through the recovery of unknown epipolar
geometry," Artificial Intelligence, Vol. 78, pp.87-119, 1995.
[22] T. Lindeberg, "Feature detection with automatic scale selection," International
Journal of Computer Vision, Vol. 30, No. 2, pp.79-116, 1998.
[23] K. Mikolajczyk and C. Schmid, "Indexing based on scale invariant interest
points," Proc. Eighth International Conference on Computer Vision, pp.525-531,
2001.
[24] K. Mikolajczyk and C. Schmid, "An affine invariant interest point detector," Proc.
Seventh European Conference on Computer Vision, pp.128-142, 2002.
[25] T. Tuytelaars and L. Van Gool, "Matching widely separated views based on affine
invariant regions," International Journal of Computer Vision, Vol. 1, No. 59,
pp.61-58, 2004.
[26] D. Lowe, "Distinctive image features from scale-invariant keypoints,"
International Journal of Computer Vision, Vol. 60, No. 2, pp.91-110, 2004.
[27] D. Lowe, "Local feature view clustering for 3d object recognition," IEEE
Conference on Computer Vision and Pattern Recognition, pp.682-688, 2001.
[28] Y. Ke and R. Sukthankar, "PCA-SIFT: A more distinctive representation for local
image descriptors," IEEE Conference on Computer Vision and Pattern
86
Recognition, Vol. 2, pp.506-513. 2004.
[29] C. Schmid , R. Mohr and C. Bauckhage, "Evaluation of interest point detectors,"
International Journal of Computer Vision, Vol. 37, No. 2, pp.151-172, 2000.
[30] K. Mikolajczyk, T. Tuytelaars, C.Schmid, A. Zisserman, J. Matas, F.
Schaffalitzky, T. Kadir and L. Van Gool, "A Comparison of affine region
detectors," International Journal of Computer Vision, 2006.
[31] K. Mikolajczyk and C. Schmid, "A performance evaluation of local descriptors,"
Proc. Conference on Computer Vision and Patten recognition, pp.257-264, 2003.
[32] K. Mikolajczyk and C. Schmid, "A performance evaluation of local descriptors,"
IEEE Transactions on Patten analysis and Machine Intelligence, Vol. 27, No. 10,
pp.1615-1630, October 2005.
[33] E. Rosten, High performance rigid body tracking, Ph.D. Thesis, University of
Cambridge, February 2006.
[34] V. Lepetit and P. Fua, "Towards recognizing feature points using classification
trees," Technical Report IC, EPFL, 2004.
[35] V. Lepetit and P. Fua, "Keypoint recognition using randomized trees," IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9,
pp.1465-1479, Septemper 2006.
[36] T.T.H. Tran and E. Marchand, "Real-time keypoints matching: application to
visual servoing," IEEE Conference on Robotics and Automation, 2007.
[37] I.T. Joliffe, "Principal component analysis,"Springer-Verlag, 1986.
[38] J. Liu and R. Hubbold, "Automatic camera calibration and scene reconstruction
with scale-invariant features," ISCV, Springer-Verlag, pp.558-568, 2006.
[39] N. Fischler and R.C. Bolles, "Random sample consensus: A paradigm for model
fitting with application to image analysis and automated cartography," CACM, Vol.
24, No. 6, pp.381-395, June 1981.
[40] R.Y. Tsai, "A versatile camera calibration technique for high-accuracy 3d
machine vision metrology using off-the-shelf tv cameras and lenses," IEEE
Journal of Robotics and Automation, Vol. RA-3, No. 4, pp.323-344, August 1987.
87

3D Object Recognition and Pose Estimation

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

3D Object Recognition and Pose Estimation

Uploaded by

Copyright:

Available Formats

自動化科技研究所

論文名稱： 三維物件之辨識與姿態估測 頁數：87

Title： 3D Object Recognition and Pose Estimation Pages：87

Keywords：object recognition, visual tracking, feature matching

3D object recognition and pose estimation is a fundamental technique for many

圖 1.1 系統流程圖 .......................................................................................................... 6

有關視覺伺服(Visual servo)或機器人視覺(Robot vision)的應用中，目標偵測

圖 1-1 為本論文所提出的系統流程圖，主要分成 10 個步驟，以下針對系統

a1. 使用基座上的兩架 CCD Camera 擷取影像資訊作為整體視覺系統的輸

b2. 對所有收集的目標物影像進行特徵點提取，特徵點提取的方式與 a2.相

b5. 對於兩台相機的視角關係，進行基礎矩陣(Fundamental Matrix)的估測。

特徵點偵測(Feature point detection 或 Keypoint detection)主要的目的是在

2.1.1 Harris 特徵點偵測演算法

(a) (b) (c)

矩形區域在偵測時使用式(2.1)計算出原始灰階影像 I 的 x 方向與 y 方向的導

對於影像上的每一個位置，可建立一個 2×2 的對稱矩陣，如式(2.6)所示

R ( x, y ) = Det (M ) − k ⋅ [Trace(M )]2 (2.7)

在原 Moravec 的想法中，矩陣 M 的特徵值 α 與 β 數值愈大時，不管矩形區

1.若 α、β 值皆小，則表示此影像區域的灰階變化不明顯。

α、β 與灰階變化關係如圖 2.2 所示。

圖 2.2 特徵值 α、β 與影像灰階變化的關係圖

假如 I ( p) − I ( p + dRα ) ≤ + τ 且 I ( p) − I ( p − dRα ) ≤ + τ ，則認定該位置 p

不是一個角點 (特徵點 )，其中 α 的範圍為 0 到 π， I( )為該影像的灰階強度值，p

在圖 2.4(a)、(b)中， a 與 a′為一組彼此相對的檢查位置，p 為待測位置，I

個，其中 I ( p ) − I (a1) > + τ 而 I ( p ) − I (a 2) < + τ (判斷準則二 )，由於 a2 的關

LOG ( p) ≈ ∑ ( I ( p − dRα ) − I ( p) + I ( p + dRα ))

實際運用時，在擷取足夠判斷的角點數量後並計算其 LOG 的評估值，對於

在本文中採用半徑為 3(即 R=3)的圓形輪廓檢查區域範圍，經由量化後在此

將此檢查區 a 屬於暗群，反之當 I(a)-I(p) > + τ 時，則 a 屬於亮群，其中參數 p

判斷依據，即當 N b − N d > N T (判斷準則三)時則判定為一個角點，Nb 表示亮群的

數量而 Nd 表示暗群的數量，NT 為一自訂的差量臨界值。

本文所使用的角點外觀偵測演算法的整體流程如圖 2.9 所示，針對物體識別

(a) 原方式(兩個判斷準則) (267 點) (b) 新的方式(三個判斷準則)(199 點)

θ ( x, y ) = tan −1 ( ( I ( x, y + 1) − I ( x, y − 1)) /( I ( x + 1, y − I ( x − 1, y )) ) (2.10)

該方向直方統計在規劃上， 梯度方向以徑度為單位，範圍為 0 到 2π，在統計

SIFT 的特徵描述方式是如同 2.2.1 節的方向矯正的方式相似，在以特徵點位置

圖 2.14 SIFT 特徵描述說明圖(32 維)

如圖 2.15 所示，這裡將圖 2.14(b)中的 4 個方向直方統計圖(a，b，c，d)重新

實際使用時，特徵點的矩形區域劃分 4×4=16 個子區域來進行統計，每個子

圖 2.15 SIFT 特徵描述向量(32 維)

圖 2.16 SIFT 特徵描述向量(128 維)

2.2.3 PCA 降維方式

假設輸入的原始資料共有 M 筆，每筆資料的維度大小為 D(即含有 D 個元

Ωi 與 Xi 相同都為 1×D 的向量，在所有原始資料都進行正規化轉換後，使用式

目標物體的特徵點描述群之建立如圖 3.2 所示，其中藍色方框中的圖像表示

對 於 幾 何 限 制 估 測 的 方 式 ， 本 文 採 用 RANSAC (Random sample

在圖 4.1 中，透視投影的模型有影像平面 (Image plane)、相機的投影中心

式 (4.4)中也稱為相機外部參數(Extrinsic camera parameters)，再結合相機內

將圖 4.5 的影像平面的平面投影轉換關係寫成 H 的形式，其中 p 為影像平面 1

⎡ x′⎤ ⎡ h11 h12 h13 ⎤ ⎡ x ⎤

x′ h11 x + h12 y + h13 y ′ h x + h22 y + h23

關於平面投影轉換矩陣 H 的求解，首先式 (4.9)將重新表示而變為式(4.10)

u ′(h31u + h32 v + h33 ) = h11u + h12 v + h13

在求解上述的 8 個線性獨立的方程式時，一般會假設 h33=1，對於 4 組對應

得 )且具扭曲像素點座標，同樣地， ( x, y ) 為理想的相機座標， ( xˆ, yˆ ) 為實際的扭

對於 n 張校正影像，每張影像有 m 個點，總共可得 2mn 個方程式，寫成矩

在求得 k1 與 k2 後，需要在持續使用式(4.13)與式 (4.14)進行反覆的疊代以取得較

雙眼立體視覺 (Stereo vision)是利用兩張不同視角所擷取的場景影像來量測

在圖 4.7 中，場景中的一點 P 分別投影到左影像的 pl 以及右影像上的 pr，

其中 P= ( X , Y , Z )T ，pl= ( xl , yl )T 及 pr= ( xr , y r )T ，兩台相機的投影中心的距離(Base

這裡將左右相機的視差 (Disparity)定義為 ( xl − xr ) ，在 B 固定的條件下，此

視差會與三維場景座標的成反比關係，距離 (Z) 量測的準確度會隨著基線 (Base

l T 和 Pl-T 構成 ( Pl − T) T × Pr = 0 的關係式，再利用式 (4.16)

可推導出式(4.17)與式 (4.18)，而 E 稱為本質矩陣(Essential matrix)。

論文名稱：三維物件之辨識與姿態估測頁數：87

該方向直方統計在規劃上，梯度方向以徑度為單位，範圍為 0 到 2π，在統計

對於幾何限制估測的方式，本文採用 RANSAC (Random sample