You are on page 1of 53

Table of Contents

CHƯƠNG I. TỔNG QUAN........................................................................................................3

1.1. NHU CẦU THỰC TIỄN VÀ LÝ DO CHỌN ĐỀ TÀI....................................................................3


1.1.1. CHẤN THƯƠNG DO NGÃ CỦA NGƯỜI CAO TUỔI..............................................................3
1.1.2. CÁC YẾU TỐ RỦI RO.......................................................................................................4
1.2. HỆ THỐNG GIÁM SÁT........................................................................................................4
1.3. CÁC KHÁI NIỆM CƠ BẢN...................................................................................................5
1.3.1. SO SÁNH CAMERA TOÀN HƯỚNG VÀ CAMERA THÔNG THƯỜNG......................................5
1.3.2. HIỂN THỊ VÀ THU NHẬN HÌNH ẢNH................................................................................7
1.3.3. CẢM BIẾN TOÀN CẢNH...................................................................................................9
1.3.4. TÌNH TRẠNG HIỆN ĐẠI CỦA HỆ THỐNG ĐA HƯỚNG.......................................................10
1.3.5. CÁC LOẠI CAMERA CATADIOPTRIC TRUNG TÂM..........................................................12

CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG..............................................................14

CÁC NGHIÊN CỨU LIÊN QUAN...................................................................................................14


1. THIẾT KẾ GƯƠNG..............................................................................................................14
2. MÔ TẢ HỆ THỐNG CATADIOPTRIC.....................................................................................17
3. HIỆU CHUẨN HỆ THỐNG....................................................................................................18
4. HIỆU CHỈNH CAMERA PHỐI CẢNH.......................................................................................19
5. MỞ GÓI ĐƠN GIẢN.............................................................................................................21
6. HÌNH THÀNH HÌNH HỌC.....................................................................................................23
7. MÔ TẢ CHẤT LƯỢNG HÌNH ẢNH.........................................................................................31
8. TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP XỬ LÝ ẢNH LIÊN QUAN...............................................34
9. TÌM KIẾM CẠNH................................................................................................................35
10. BIẾN ĐỔI HOUGH ĐƯỢC SỬA ĐỔI ĐỂ PHÁT HIỆN VÒNG TRÒN..........................................39
11. RANSAC........................................................................................................................40

WORKS CITED.............................................................................................................................43
Chương I. Tổng quan
Nhu cầu thực tiễn và lý do chọn đề tài
Sự cải thiện của chăm sóc sức khỏe trong những thập kỷ qua đã dẫn đến tỷ lệ tử
vong thấp hơn và sống lâu hơn, nhiều người có tuổi thọ dài hơn 100 năm. Tuy nhiên,
dân số già đòi hỏi nhiều điều chỉnh cả về kinh tế và xã hội, đặc biệt là trong lĩnh vực lao
động, lương hưu và các viện chăm sóc sức khỏe.. Sự tăng trưởng dự kiến của người cao
tuổi sẽ dẫn đến tỷ lệ số người cao tuổi nhiều hơn người trẻ tuổi, cùng với đó, chi phí
chăm sóc sức khỏe tăng cao, nhưng với số lượng người trẻ tuổi giảm, nhân viên điều
dưỡng giảm, nhiều người cao tuổi sẽ không được chăm sóc sức khỏe đầy đủ. Việc này
dẫn đến xu hướng mới khi dịch vụ chăm sóc người cao tuổi được chuyển từ các viện
chăm sóc sức khỏe tập trung (viện dưỡng lão) sang chăm sóc sức khỏe tại nhà. Bên cạnh
những lợi ích về tài chính, người cao tuổi cũng duy trì sự độc lập của họ, cho phép họ
sống trong môi trường gia đình của chính họ. Để đáp ứng sự chuyển dịch này cần có các
hệ thống công nghệ mới có thể cung cấp thông tin cần thiết cho việc chăm sóc sức khỏe
đầy đủ. Các hệ thống giám sát như vậy sẽ cải thiện chất lượng cuộc sống cho người cao
tuổi và trì hoãn thời điểm chuyển sang các cơ sở đắt tiền.
Chấn thương do ngã của người cao tuổi
Một vấn đề phổ biến trên toàn thế giới, sẽ gia tăng do dân số già, là chấn thương
do ngã của người cao tuổi. Khoảng 30% những người từ 65 tuổi trở lên sống trong cộng
đồng và hơn 50% những người sống trong các cơ sở chăm sóc nội trú hoặc viện dưỡng
lão bị ngã hàng năm, và khoảng một nửa số người rơi vào tình trạng như vậy nhiều
lần[ CITATION NDa05 \l 4105 ]. Mặc dù không phải tất cả các cú ngã đều dẫn đến chấn
thương, nhưng khoảng 20% cần được chăm sóc y tế, 5% dẫn đến gãy xương và các chấn
thương nghiêm trọng khác, chẳng hạn như chấn thương nặng ở đầu, biến dạng khớp và
trật khớp, phát sinh các vết bầm tím, va chạm và rách mô mềm trong 5–10% số ca phát
sinh. Tỷ lệ phần trăm này có thể tăng hơn gấp đôi đối với phụ nữ từ 75 tuổi trở lên (xem
Hình 1) [ CITATION Har01 \l 4105 ] Chấn thương là nguyên nhân gây tử vong đứng hàng thứ
năm ở người cao tuổi, và hầu hết các chấn thương gây tử vong này đều liên quan đến
ngã. Ngã chiếm hơn 80% số ca nhập viện liên quan đến chấn thương của những người
trên 65 tuổi. Một cú ngã và chấn thương liên quan, hoặc thậm chí là nỗi sợ hãi về hậu
quả của chúng, chẳng hạn như không còn khả năng tiếp xúc xã hội, mất tính độc lập và
tự tin, cần đưa vào cơ sở chăm sóc dài hạn, có thể gây ra trầm cảm và lo lắng nghiêm
trọng.
Hình 1: Biểu đồ số ca cấp cứu
Các yếu tố rủi ro
Gần một nửa số vụ té ngã của người cao tuổi diễn ra trong nhà của họ. Có rất
nhiều yếu tố khác nhau làm tăng khả năng xảy ra sự cố. Do lực cơ và tốc độ di chuyển
giảm dần nên việc giữ thăng bằng cho cơ thể sẽ khó hơn. Bên cạnh đó, thời gian phản
ứng giảm khiến người cao tuổi không thể phán đoán kịp thời các tình huống nguy hiểm.
Hầu hết người cao tuổi ngã do vấp hoặc va chạm vào đồ vật. Các yếu tố rủi ro có thể
được chia thành các yếu tố bên trong và bên ngoài.
Các yếu tố rủi ro nội sinh:
+ Sinh lý
+ Thần kinh
+ Bệnh lý
Các yếu tố rủi ro ngoại sinh:
+ Môi trường sống của ngôi nhà
+ Phong cách sống
+ Phòng công cộng
+ Phản ứng bất lợi với thuốc
Hệ thống giám sát
Nhiều cơ sở chăm sóc gia đình và chăm sóc đã triển khai các loại hệ thống báo
động khác nhau. Các cảnh báo thường được sử dụng nhất là các nút áp suất có thể đeo
và dây kéo được gắn vào sẽ báo động cho người chăm sóc khi được kích hoạt. Tuy
nhiên, những thiết bị này yêu cầu người cao tuổi kích hoạt bằng tay, điều này trong một
số trường hợp là không thể. Các hệ thống tiên tiến hơn được thiết kế để tự động nhận ra
các tình huống báo động. Ưu điểm chính của các hệ thống như vậy là chúng không cần
người dùng kích hoạt báo động, khi tình huống báo động xảy ra. Những hệ thống này sẽ
bảo vệ người cao tuổi và có thể giúp đỡ khi cần thiết. Khi sử dụng hệ thống giám sát tích
cực, người ta cũng có thể áp dụng chăm sóc phòng ngừa cho người cao tuổi. Người cao
tuổi được theo dõi và cảnh báo khi có hành động nguy hiểm hoặc bất thường. Luận án
này chủ yếu tập trung vào việc xử lý hình ảnh tín hiệu sau khi thu nhận được từ camera
giám sát
Các khái niệm cơ bản
So sánh camera toàn hướng và camera thông thường
Cách đây vài năm, camera đa hướng là một điều mới lạ. Tuy nhiên, ngày nay,
công nghệ này đã có bước nhảy vọt trở thành xu hướng chủ đạo. Camera 360 độ đại diện
cho một trong những lĩnh vực phát triển mạnh nhất trong công nghệ giám sát, với lượng
xuất xưởng toàn cầu theo dự báo của IHS sẽ tăng hơn 60% so với cùng kỳ năm ngoái.
Camera đa hướng so với camera truyền thống
Cả hai camera giám sát 360 và 180 độ đều cung cấp tầm nhìn toàn cảnh, giúp
giảm số lượng camera trường quan sát hẹp truyền thống cần thiết trong một lần lắp đặt.
Camera đa hướng cũng có thể được sử dụng kết hợp với camera PTZ hoặc thay thế
chúng hoàn toàn tùy thuộc vào ứng dụng. Điều này không chỉ giúp nâng cao nhận thức
về tình huống mà còn giảm chi phí tổng thể của camera, lắp đặt và bảo trì.
So với camera PTZ, camera đa hướng có lợi thế là có thể xoay, nghiêng và phóng
to xung quanh trong cả video trực tiếp, cũng như video được lưu trữ, có nghĩa là người
vận hành có thể xác định chính xác các vấn đề trong thời gian thực, đảm bảo các sự cố
có thể được giải quyết nhanh chóng và hiệu quả, đồng thời quay lại video 360 độ đã lưu
trữ để tiến hành điều tra.
Tùy chọn phủ sóng 180 và 360 độ từ một camera đơn được phân phối qua ống
kính chuyên dụng trên một cảm biến hoặc camera tích hợp nhiều cảm biến với các ống
kính thông thường được căn chỉnh để cung cấp phạm vi bao phủ góc siêu rộng. Camera
một ống kính hoặc “mắt cá” sử dụng một ống kính chuyên dụng gọi là ống kính mắt cá,
khi so sánh với ống kính thông thường, sử dụng các kỹ thuật thiết kế quang học khác
nhau có thể dẫn đến sự biến dạng của hình ảnh đã chụp khi xem ngoài trường ngang 90
độ -của tầm nhìn. Với điều này, "sự biến dạng thùng" có thể xảy ra, khi một hình ảnh
tròn được tạo ra và một đường thẳng trong hình ảnh đã chụp có vẻ cong. Phần mềm
‘Dewarping’ phải được sử dụng để điều chỉnh ảo ảnh quang học này.
Do đặc điểm riêng của thiết kế ống kính trong camera mắt cá 180 và 360 độ, hình
bầu dục hoặc hình tròn được tạo ra. Vì cảm biến hình ảnh được sử dụng trong camera
giám sát là hình vuông hoặc hình chữ nhật, một số bộ phận của cảm biến không được sử
dụng.
Các giải pháp ngày càng hợp lý
Khi công nghệ của những loại camera này tiếp tục được cải thiện, chúng ngày
càng trở nên có giá cả phải chăng hơn đối với một phân khúc rộng lớn hơn của thị
trường giám sát video. Tương tự, độ phân giải cao hơn và dung lượng lưu trữ phù hợp
hơn cho dữ liệu video giúp giá cả phải chăng hơn để có được mức độ phủ sóng và chi
tiết tăng cùng một lúc.
Như đã đề cập trước đây, việc tiết kiệm chi phí cũng có thể được thực hiện khi
một camera 360 độ duy nhất thay thế ba đến bốn camera cố định, kết quả có thể được tái
tạo ở các khu vực hoặc phòng ban khác trong tổ chức để giúp tiết kiệm thêm chi phí.
Mắt cá so với đa cảm biến
Camera mắt cá và camera đa cảm biến đều tạo ra hình ảnh toàn cảnh, nhưng theo
cách khác nhau. Camera mắt cá ghi lại toàn bộ cảnh trong một chế độ xem duy nhất mà
không cần phải ghép ảnh, do đó chế độ xem đầy đủ của cảnh quay video đã chụp có độ
sáng, độ sắc nét và độ tương phản nhất quán trên toàn bộ cảnh. Camera mắt cá cũng
mang lại một số lợi ích khác: độ tin cậy cao hơn do bố trí một cảm biến, camera và ống
kính duy nhất; không có điểm mù; tiêu điểm cố định, giúp cài đặt nhanh hơn; chi phí
thấp hơn; và một hệ số hình thức nhỏ hơn, ít gây khó chịu hơn. Ngoài ra, việc làm cong
hình ảnh được thực hiện trong hệ thống quản lý video hoặc máy ghi video mạng, cho
phép tốc độ khung hình cao hơn ở bất kỳ băng thông nhất định nào. Tuy nhiên, camera
mắt cá có thể có ít điểm ảnh hơn trên mỗi foot, tùy thuộc vào tổng độ phân giải và các
loại camera này yêu cầu làm mờ phía máy khách để đạt được đầy đủ lợi ích của việc
điều chỉnh hình ảnh hồi cứu - nghĩa là làm mờ video được lưu trữ để kiểm tra.
Mặt khác, camera đa cảm biến có thể cung cấp tổng độ phân giải cao hơn tùy
thuộc vào độ phân giải riêng của từng cảm biến trong máy ảnh. Ở đây, không bắt buộc
phải làm cong vì mỗi cảm biến về bản chất là một camera trường nhìn hẹp. Tuy nhiên,
camera đa cảm biến có nhiều cảm biến, điều này có thể dẫn đến chi phí bảo trì tổng thể
cao hơn và với bốn camera trở lên cần thiết để bao phủ một khu vực cụ thể, sẽ tăng nguy
cơ một hoặc nhiều cảm biến có thể hoạt động sai - về bản chất, độ tin cậy thấp hơn. Việc
lắp đặt camera đa cảm biến cũng phức tạp hơn và tốn nhiều thời gian hơn. Ngoài ra, bản
thân các đơn vị có thể lớn và cồng kềnh, và phức tạp để vận hành và quản lý - mỗi chế
độ xem phải được ghép lại với nhau, có nghĩa là hình ảnh được chụp phải được hiệu
chỉnh cẩn thận với độ sáng, màu sắc, độ tương phản và độ sắc nét chính xác để hình ảnh
được rõ ràng và liền mạch khi nó cần cho mục đích xem và làm bằng chứng.
Hiển thị và thu nhận hình ảnh
Hình ảnh kỹ thuật số là một tín hiệu rời rạc hai chiều (2D). Về mặt toán học, các
tín hiệu như vậy có thể được biểu diễn dưới dạng hàm của hai biến độc lập - ví dụ, hàm
độ sáng của hai biến không gian. Hình ảnh kỹ thuật số đơn sắc f(x,y) là một dãy các giá
trị độ chói 2D. Mỗi phần tử của mảng được gọi là một pel (phần tử ảnh), hay phổ biến
hơn là một điểm ảnh. Hình ảnh kỹ thuật số màu thường được biểu thị bằng bộ ba giá trị,
một giá trị cho mỗi kênh màu, như trong bảng màu RGB thường được sử dụng. Các giá
trị màu riêng lẻ hầu như là giá trị 8 bit, dẫn đến tổng cộng 3 byte (hoặc 24 bit) trên mỗi
điểm ảnh. Điều này làm tăng gấp ba lần yêu cầu lưu trữ cho hình ảnh màu so với đơn
sắc. Đương nhiên, có một số phương pháp thay thế để lưu trữ dữ liệu hình ảnh. Được sử
dụng rộng rãi nhất là cái gọi là định dạng điểm ảnh xen kẽ (hoặc lưới) và xen kẽ màu
(hoặc phẳng). Phương pháp xen kẽ theo hàng hoặc theo cột ít được sử dụng hơn. Ở định
dạng xen kẽ điểm ảnh, mỗi điểm ảnh hình ảnh được biểu diễn bằng danh sách ba giá trị.
Các cảm biến hình ảnh đóng vai trò quan trọng trong việc thu nhận hình ảnh. Cấu
tạo và hoạt động của mắt rất giống với camera điện tử, thường được sử dụng để thu hình
ảnh trong thế giới thực. Cả hai đều dựa trên hai thành phần chính: cụm ống kính và cảm
biến hình ảnh. Cụm ống kính thu nhận một phần ánh sáng phát ra từ một vật thể và tập
trung nó vào cảm biến hình ảnh. Sau đó, cảm biến hình ảnh chuyển dạng ánh sáng thành
tín hiệu video, điện tử hoặc thần kinh. Thuật ngữ tiêu điểm có nghĩa là có một đối sánh
một của mọi điểm trên đối tượng với một điểm tương ứng trên màn hình. Ví dụ, hãy
xem xét một vùng 1mm trên đối tượng. Trong ánh sáng rực rỡ, có khoảng 100 nghìn tỷ
photon ánh sáng chiếu vào khu vực một milimét vuông mỗi giây. Tùy thuộc vào các đặc
điểm của bề mặt, từ 1 đến 99 phần trăm các photon ánh sáng tới sẽ bị phản xạ theo các
hướng ngẫu nhiên. Chỉ một phần nhỏ các photon phản xạ sẽ đi qua thấu kính. Ví dụ, chỉ
khoảng một phần triệu ánh sáng phản xạ sẽ đi qua một thấu kính có đường kính một cm
nằm cách vật thể 3 mét.
Sự khúc xạ trong thấu kính thay đổi hướng của các photon riêng lẻ, tùy thuộc vào
vị trí và góc mà chúng chạm vào mặt phân cách thủy tinh / không khí. Những thay đổi
hướng này làm cho ánh sáng mở rộng từ một điểm để trở lại một điểm trên màn hình
chiếu. Tất cả các photon phản xạ từ vật thể và đi qua thấu kính được đưa trở lại "vật thể"
trong ảnh được chiếu. Theo cách tương tự, một phần ánh sáng đến từ bất kỳ điểm nào
trên vật thể sẽ đi qua thấu kính và được hội tụ đến một điểm tương ứng trong hình ảnh
được chiếu.
Cảm biến hình ảnh phổ biến nhất được sử dụng trong camera điện tử là thiết bị
ghép nối điện tích (CCD). CCD là một mạch tích hợp thay thế hầu hết các camera ống
chân không trong những năm 1980, giống như các bóng bán dẫn đã thay thế các bộ
khuếch đại ống chân không hai mươi năm trước. Trái tim của CCD là một tấm mỏng
silicon, thường khoảng 1cm hình vuông. Tuy nhiên, cảm biến hình ảnh CMOS mới hứa
hẹn cuối cùng sẽ trở thành cảm biến hình ảnh được lựa chọn. Cả hai cảm biến hình ảnh
CCD và CMOS đều thu ánh sáng trên một lưới các điểm ảnh nhỏ trên bề mặt của chúng.

Hình 2. Cảm biến hình ảnh đơn


Đầu ra của hầu hết các cảm biến là tín hiệu điện liên tục có biên độ và hành vi
không gian liên quan đến hiện tượng vật lý được cảm nhận. Để tạo một hình ảnh kỹ
thuật số, chúng ta cần chuyển đổi dữ liệu cảm nhận liên tục sang dạng kỹ thuật số. Điều
này liên quan đến hai quá trình: lấy mẫu và lượng tử hóa. Một hình ảnh có thể liên tục
đối với các tọa độ x và y- và cả theo biên độ. Để chuyển nó sang dạng số, chúng ta phải
lấy mẫu hàm theo cả tọa độ và biên độ. Số hóa các giá trị tọa độ được gọi là lấy mẫu. Số
hóa các giá trị biên độ được gọi là lượng tử hóa. Kết quả của việc lấy mẫu và lượng tử
hóa là một ma trận các số thực. Mỗi phần tử của mảng ma trận này được gọi là phần tử
ảnh, phần tử ảnh hoặc điểm ảnh như đã nêu ở trên.
Cảm biến hình ảnh đen trắng và camera chỉ có thể làm điều này đối với cảm giác
độ sáng; nhận thức rất phong phú về màu sắc đòi hỏi thông tin bổ sung. Để có hiệu suất
tốt nhất, camera màu được chế tạo bằng cách cung cấp quang học tách chùm tia đặc biệt
và bằng cách bố trí ba cảm biến hình ảnh đen trắng để chúng nhìn thấy một phần giống
hệt nhau của một cảnh. Mỗi cảm biến hình ảnh được bao phủ bởi bộ lọc màu riêng, như
vừa mô tả và ba cảm biến hình ảnh cùng nhau thu thập thông tin đo màu đầy đủ về một
cảnh. Camera màu ba chip như vậy được sử dụng trong camera chuyên nghiệp và studio.
Chúng khá đắt. Vì những lý do này, rất mong muốn nhận ra một camera màu chỉ có một
cảm biến hình ảnh đen trắng duy nhất và một mẫu bộ lọc màu riêng lẻ từng điểm ảnh
phù hợp. Trong số các bộ lọc được sử dụng nhiều nhất thuộc về bộ lọc màu khảm 2-D
hoặc mẫu Bayer. Loại cảm biến hình ảnh này chủ yếu được sử dụng ngày nay.
Cảm biến toàn cảnh
Một loạt các hệ thống đa hướng đã được phát triển cho các mục đích điều hướng
robot di động, giám sát hình ảnh hoặc tham khảo từ xa. Các hệ thống được trình bày bao
gồm camera và gương cầu lồi trên các loại giá đỡ khác nhau. Cảm biến toàn cảnh được
hiểu là cảm biến có trường nhìn rất lớn. Những cảm biến mới này giới thiệu khả năng
thú vị mới trong việc tạo ra các hình ảnh đại diện môi trường lớn hơn nhiều so với
những gì có thể có với các camera tiêu chuẩn.
Phòng thí nghiệm Thị giác Máy tính của Khoa Khoa học Máy tính tại Đại học
Columbia do Giáo sư Shree K. Nayar đứng đầu đã phát triển OMNICAMERA [Hình.
3a]. Hệ thống quang học của cảm biến đã được thiết kế để đảm bảo rằng tất cả các điểm
đều được chiếu qua một tâm chiếu duy nhất. Điều này cho phép phần mềm của họ tạo ra
hình ảnh phối cảnh thuần túy ở tốc độ video cho bất kỳ hướng xem và độ phóng đại nào
do người dùng lựa chọn. Trung tâm Nhận thức máy ở Praha đã cố gắng tích hợp công
nghệ quang học, quang điện tử, phần cứng và phần mềm để tạo ra một cảm biến thị giác
thông minh [Hình. 3b]. Đặc biệt, ý định của họ là thiết kế và hiện thực hóa một camera
kỹ thuật số thu nhỏ, chi phí thấp thu được hình ảnh toàn cảnh (360 độ) [Hình. 3c] và
thực hiện xử lý mức thấp hữu ích đối với luồng hình ảnh đến trong thời gian thực. Các
ứng dụng mục tiêu bao gồm giám sát, kiểm soát chất lượng và điều hướng xe và robot di
động. Cảm biến tầm nhìn đa hướng (ODVS) được phát triển bởi Khoa Khoa học Máy
tính & Truyền thông, Đại học Wakayama, Nhật Bản gần đúng trực tiếp đại diện toàn
cảnh của môi trường.
Rất nhiều công ty sản xuất các hệ thống bổ sung để thu được trường xem lớn hơn.
Ống kính 0-360 có thể là một trong số đó. Thiết bị này [Hình. 3d] là phần đính kèm ống
kính toàn cảnh của camera được thiết kế đặc biệt, với bộ phản xạ quang học độc quyền
giúp chụp toàn bộ toàn cảnh 360 độ chỉ với một lần chụp.

Hình 3. a) Camera toàn hướng được phát triển bởi Giáo sư Shree K. Nyar b) Camera
thông thường với gương hyperbol c) Ống kính O-360 d) ODVS từ đại học Wakayama
Chương này chỉ trình bày một phần của tất cả các hệ thống hiện có. Nhiều trường
đại học, phòng thí nghiệm và công ty khác nhau tham gia vào việc phát triển và khai
thác camera toàn cảnh và sản xuất một số loại hệ thống như vậy.
Tình trạng hiện đại của hệ thống đa hướng
Máy quay video đa hướng ngày càng trở nên phổ biến trong thị giác máy tính.
Ngày nay, các hệ thống giám sát và giám sát video chủ yếu dựa vào các hệ thống hình
ảnh thông thường như là nguồn thông tin trực quan. Hệ thống hình ảnh thông thường bị
hạn chế nghiêm trọng trong trường nhìn của nó. Nó chỉ có khả năng thu được thông tin
trực quan thông qua một góc cố định tương đối nhỏ được đặt phía trước máy dò hình
ảnh. Để giảm bớt vấn đề này, các hệ thống camera xoay / nghiêng / thu phóng thường
được sử dụng. Mặc dù điều này cho phép người dùng từ xa điều khiển hướng xem của
cảm biến, tại bất kỳ thời điểm nào, trường nhìn vẫn rất hạn chế. Tóm lại, các hệ thống
thông thường có vùng mù lớn hơn nhiều vùng nhìn thấy của chúng. Mục tiêu của
chương trình nghiên cứu đa hướng tại Đại học Columbia và Đại học Lehigh là tạo ra các
cảm biến video đa hướng mới, phát triển các thuật toán để xử lý hình ảnh đa hướng và
sử dụng các cảm biến và thuật toán này để xây dựng các hệ thống giám sát thông minh
[CITATION Nay \l 4105 ]. Cách tiếp cận của họ[ CITATION Pal01 \l 4105 ] là kết hợp các bề mặt
phản xạ (gương) vào các hệ thống hình ảnh thông thường sử dụng thấu kính . Đây là hệ
thống hình ảnh catadioptric. Dễ dàng nhận thấy rằng trường nhìn trong hệ thống đo cảm
ứng có thể thay đổi bằng cách thay đổi hình dạng của gương được sử dụng. Tuy nhiên,
toàn bộ hệ thống hình ảnh phải có một điểm nhìn hiệu quả duy nhất để cho phép tạo ra
các hình ảnh phối cảnh thuần túy từ một hình ảnh cảm biến. Tại Đại học Columbia, một
camera mới với trường nhìn bán cầu đã được phát triển. Hai camera như vậy có thể được
đặt ngược nhau mà không vi phạm giới hạn điểm nhìn duy nhất, để tạo ra một cảm biến
đa hướng thực sự. Camera của Columbia sử dụng thiết kế quang học tối ưu bao gồm một
gương parabol và một ống kính viễn tâm. Nó chỉ ra rằng, để đạt được hiệu suất quang
học cao (độ phân giải chẳng hạn), gương và hệ thống ống kính chụp ảnh phải phù hợp
và thiết bị phải được thực hiện cẩn thận.
Gần đây, có thể ghi nhận sự quan tâm ngày càng tăng đến tầm nhìn đa hướng đối
với các ứng dụng trong chế tạo người máy. Viện Fraunhofer giải quyết vấn đề bản địa
hóa robot trong môi trường văn phòng trong nhà bằng cách sử dụng camera đa hướng.
Sau khi tìm hiểu môi trường văn phòng từ các hình ảnh đào tạo, được chụp tại các vị trí
nhất định đã biết, hình ảnh hiện tại được so sánh với hình ảnh đào tạo được đặt ra bằng
cách tiếp cận gọi là “Đối sánh dựa trên ngoại hình”. Các chiến lược phân loại phù hợp
mang lại ước tính về vị trí hiện tại của robot. Đối với tác phẩm này, các hình ảnh
catadioptric ban đầu đã được chỉnh sửa và cắt bớt. Việc chia nhỏ các hình ảnh đã được
chỉnh sửa thành các khu vực đơn lẻ, được kết hợp riêng biệt dẫn đến tăng cường độ chắc
chắn đối với hai hiện tượng: sự sai lệch một phần của cảnh và sự khác biệt xoay giữa tư
thế của robot ở vị trí hiện tại so với tư thế của robot ở vị trí tham chiếu tiếp theo của quá
trình đào tạo giai đoạn. Một trong những mục đích của công việc này là nghiên cứu các
phương pháp tính toán luồng quang học đáng tin cậy trên các hình ảnh catadioptric bị
bóp méo. Điều khiển robot trong môi trường năng động cao là một nhiệm vụ thu thập và
xử lý dữ liệu giác quan theo thời gian thực. Khung cảnh xung quanh của robot đang thay
đổi nhanh chóng và cần phải liên tục tìm kiếm thông tin liên quan nhất đến nhiệm vụ
điều hướng của robot. Sự tổng hợp thông tin cảm quan bằng cách sử dụng trọng tài bên
ngoài, ví dụ, luồng quang học được tính toán từ hệ thống nhìn toàn diện, trong trường
hợp này có thể định hướng các tín hiệu cảm giác nhanh hoạt động trên các trường nhìn
nhỏ hơn. Trong các thí nghiệm ban đầu, việc tích hợp các phần tử xử lý VLSI tương tự
và quang học cho thấy kết quả đầy hứa hẹn và mục tiêu nghiên cứu là điều tra loại triển
khai này cho các ứng dụng robot di động dựa trên thị giác phản ứng nhanh [ CITATION
Pal01 \l 4105 ] [ CITATION Ish01 \l 4105 ][ CITATION Mic04 \l 4105 ][ CITATION Gac01 \l 4105 ].

Trung tâm Cảm nhận Máy móc ở Praha quan tâm đến một số dấu hiệu liên quan
đến tầm nhìn đa hướng. Họ tập trung vào nền tảng của tầm nhìn toàn cảnh âm thanh nổi
bằng cách trình bày phân tích hình học biểu sinh cho camera toàn cảnh. Các camera toàn
cảnh với gương cầu lồi hoặc gương parabol, còn được gọi là camera toàn cảnh trung
tâm, cho phép hình học biểu sinh như camera phối cảnh. Ước tính chuyển động từ hình
ảnh toàn cảnh đòi hỏi người ta phải thiết kế một camera toàn cảnh thực tế với một mô
hình toán học đơn giản. Nó đề xuất phương pháp hiệu chuẩn, phát triển hình học biểu
sinh cho hình ảnh toàn cảnh và sử dụng các thuật toán để ước tính chuyển động. Trong
một nỗ lực để tăng tốc độ tìm kiếm và khám phá các phương pháp tìm kiếm hiệu quả
cho sự tương ứng của các hình ảnh toàn cảnh, người ta yêu cầu phân tích hình dạng của
các đường cong biểu thức để xác định vị trí các điểm tương ứng và nghiên cứu sự liên
kết giữa các hình ảnh toàn cảnh. Nhiệm vụ khác là ước tính mô hình camera đa hướng từ
hình học biểu sinh. Các tác giả cố gắng ước tính các thông số của mô hình camera đa
hướng phi tuyến từ các tương ứng hình ảnh được thiết lập tự động [ CITATION Svo98 \l
4105 ] [ CITATION Svo99 \l 4105 ] trong khi không có giả định nào về cảnh, ngoài độ cứng (ví
dụ: không có đối tượng hiệu chuẩn) được đề cập. Trong vài năm qua, nhiều nhà nghiên
cứu đã cố gắng tìm ra nhiều cách khác nhau để giảm bớt vấn đề trong các cuộc họp.
Xerox đã phát triển một phòng họp hỗ trợ truyền thông được trang bị camera và micrô
để ghi lại nội dung nghe nhìn. Phòng thí nghiệm Không gian Thông minh NIST đã thiết
lập một phòng họp thông minh khác. Trong nghiên cứu của Microsoft, một số nghiên
cứu đã được tiến hành về việc ghi lại các cuộc họp nhóm nhỏ bằng camera vòng. Đại
học California, San Diego cũng đã phát triển một hệ thống họp được trang bị một số
camera hiệu chỉnh cố định, một số camera hoạt động và một số camera đa hướng. Hệ
thống này có thể theo dõi mọi người trong phòng và nhận dạng khuôn mặt của họ.
Phòng thí nghiệm Hệ thống tương tác của Đại học Carnegie Mellon và Đại học
Karlsruhe đã phát triển công nghệ cho phòng họp thông minh từ năm 1997 bằng cách
khai thác các hệ thống đa hướng để theo dõi người tham gia cuộc họp. Công việc này sẽ
tiếp tục theo hướng này.
Các loại camera catadioptric trung tâm
Có hai loại camera toàn cảnh khác nhau thường được sử dụng. Loại đầu tiên là
một camera toàn cảnh trung tâm bao gồm một camera phối cảnh thông thường và một
gương hypebol. Loại thứ hai do một camera trực quan và parabol tạo ra. Phép chiếu trực
giao trong Hình 5 có thể được mô hình hóa bằng các tia đi song song với trục quang học.
Hình thứ hai trong Hình 5 mô tả phép chiếu phối cảnh qua một điểm được gọi là lỗ kim.
Chỉ hệ thống bao gồm camera phối cảnh và gương được tập trung xem xét đánh giá.

Hình 4. a) Hệ thống trực giao b) Hệ thống phối cảnh


Tính đối xứng quay của các hình ảnh đa hướng ngay lập tức gợi ý sự thích hợp
của việc sử dụng phân bố điểm ảnh phân cực. Một khả năng là sử dụng cảm biến log-
polar SVAVISCA được phát triển tại DIST, Đại học Genova, được đặc trưng bởi sự
phân bố điểm ảnh log-polar. Do đó, sử dụng cảm biến hình ảnh này có hai ưu điểm
chính:
Hình ảnh toàn cảnh có thể được đọc trực tiếp từ cảm biến mà không cần bất kỳ
phép biến đổi hình học nào. Hình ảnh toàn cảnh sẽ có độ phân giải ngang không đổi do
thực tế là cảm biến log-polar được tổ chức thành các vòng đồng tâm với số lượng điểm
ảnh không đổi. Mặt khác, loại cảm biến này rất đắt tiền và độ nhạy sáng phụ thuộc vào
kích thước điểm ảnh. Nó không đảm bảo sự trùng khớp giữa camera và gương, phát sinh
biến dạng hình ảnh và không thể loại bỏ.
Thiết kế gương
Mô hình hình ảnh của camera đa hướng catadioptric được xác định bởi hình dạng
của gương. Người ta có thể thiết kế hình dạng của gương theo cách mà các đặc tính hình
học nhất định của thế giới sang hình ảnh được bảo toàn - mà chúng ta sẽ gọi là đặc tính
chiếu tuyến tính. Hình dạng của gương xác định hướng mà tia bắt nguồn từ camera bị
phản xạ.
Họ các hình dạng gương có thể được sử dụng "về mặt lý thuyết" để xây dựng hệ
thống thị giác catadioptric trung tâm được bắt nguồn từ [CITATION Nay \l 4105 ]. Nếu z (r)
là biên dạng của hình gương, trong đó z là chiều cao và r =√ x 2 + y 2 bán kính, họ hoàn
chỉnh của gương được cho bởi các phương trình biên dạng:

trong đó c biểu thị khoảng cách giữa lỗ kim của camera và điểm ngắm hiệu quả,
và t là hằng số tích hợp. Với t > 2 và c > 0 thì thu được một hypeboloid. Một
hyperboloid được xác định bởi quỹ tích của các điểm mà tại đó khoảng cách giữa hai
điểm cố định, được gọi là F và F ’, là không đổi. Khi một hypeboloid được sử dụng để
xây dựng hệ thống thị giác catadioptric, tiêu điểm F nằm bên trong gương. Khi t → ∞, c
→ ∞ và c / t = h là hằng đẳng thức 1 mô tả một paraboloid. Các nghiệm khác của
phương trình 1 mô tả một mặt phẳng, một hình cầu, một hình nón và một hình elip. Nếu
t = 2 và c > 0, phương trình 1 được rút gọn thành phương trình mặt phẳng. Nếu c = 0 và
t > 0, phương trình 1 mô tả một gương cầu, và cho c = 0 và t ̧ 2, nó mô tả một gương
hình nón. Những hình dạng gương này không thể được sử dụng để xây dựng một hệ
thống cảm ứng với một điểm ngắm hiệu quả duy nhất trong thực tế vì khi c = 0 thì lỗ
kim hiệu dụng và điểm nhìn hiệu dụng trùng nhau.
Việc lựa chọn các thuộc tính cần được bảo tồn bởi hệ thống hình ảnh catadioptric
đương nhiên liên quan đến ứng dụng cụ thể. Bảng [Tab. 1] hiển thị một số cấu hình nhân
bản hiện có và thuộc tính của chúng. Gương cầu không yêu cầu tiêu cự dài để thu được
ảnh hội tụ. Đó là, gương cầu ưu việt hơn để tạo ra các hệ thống đa hướng chi phí thấp có
thể tạo ra hình ảnh rõ ràng. Tuy nhiên, ảnh thu được với gương cầu không có tâm chiếu
duy nhất và không thể chuyển thành ảnh phối cảnh bình thường. Mặc dù hệ thống có
gương như vậy có thể quan sát trên mặt phẳng nằm ngang nhưng hình ảnh bị méo ở
ngoại vi.
Ảnh Độ sâu Góc nhìn Tâm
Gương Chi phí Thấu kính
không rõ tiêu cự dọc chiếu đơn
Cầu Thấp Nhỏ Nông -90..10 Không Thường
Nón Thấp Lớn Sâu -45..45 Không Thường
Hyperbol
với độ Cao Nhỏ Nông -90..10 Có Thường
cong nhỏ
Hyperbol
với độ Cao Lớn Sâu -90..45 Có Thường
cong lớn
Parabol
với độ Cao Nhỏ Nông -90..10 Có Telecentric
cong nhỏ
Parabol
với độ Cao Lớn Nông -90..45 Có Telecentric
cong lớn
Bảng 1: So sánh giữa các loại gương
Cấu hình gương quan trọng tiếp theo là một hyperboloid, sẽ được thảo luận thêm
trong phần này. Hình ảnh được chụp bằng gương này có thể được chuyển đổi sang phối
cảnh bình thường, hình ảnh hình trụ, v.v. Hơn nữa, nếu độ cong nhỏ, độ loạn thị không
lớn như vậy. Khi đảm bảo căn chỉnh camera và gương một cách cẩn thận và lỗ kim của
camera trùng với tiêu điểm F ’, sẽ thu được cảm biến tầm nhìn đa hướng với một điểm
nhìn hiệu quả duy nhất tại F. Loại gương này tốt nhất cho các hệ thống quang học sử
dụng camera thông thường.
Một hệ thống quang học lý tưởng cũng có thể được thực hiện bằng gương parabol
và thấu kính viễn tâm. Tia đi qua tiêu điểm của paraboloid bị phản xạ theo phương song
song với trục đối xứng của gương. Paraboloid có thể được sử dụng để xây dựng hệ
catadioptric trung tâm nếu hình chiếu của gương vào hình ảnh có thể được mô hình hóa
bằng phương pháp chỉnh hình, thay vì hình chiếu phối cảnh. Điều này có thể đạt được
bằng cách sử dụng thấu kính viễn tâm, có thể coi là thấu kính có tiêu điểm nằm ở vô
cực. Hệ thống dựa trên paraboloid có một số ưu điểm so với hệ thống dựa trên
hyperboloid. Vì hình chiếu là trực giao, nên khoảng cách giữa gương và thấu kính có thể
được thiết lập linh hoạt trong thiết kế và thấu kính loại bỏ phản xạ bên trong của hình trụ
hoặc hình cầu thủy tinh hỗ trợ gương. Tuy nhiên, việc tạo ra một hệ thống nhỏ gọn và
chi phí thấp bằng cách sử dụng thấu kính viễn tâm là một điểm khó khăn. Loại ống kính
này thường đắt và chúng không hề nhỏ.
Trong một số trường hợp, chúng tôi mong đợi các thuộc tính chiếu tuyến tính, có
thể được phân loại thành ba loại chính [Hình. 7]:
Độ phân giải dọc không đổi - Hạn chế thiết kế này nhằm mục đích tạo ra hình
ảnh, trong đó các đối tượng ở khoảng cách được dán từ trục quang học của camera sẽ
luôn có cùng kích thước trong hình ảnh, không phụ thuộc vào tọa độ dọc của nó. Nói
cách khác, nếu chúng ta xem xét một hình trụ bán kính C xung quanh trục quang học
của máy ảnh, chúng ta muốn đảm bảo rằng tỷ lệ khoảng cách, được đo theo phương
thẳng đứng dọc theo bề mặt của hình trụ, không thay đổi khi đo trong ảnh. Sự bất biến
như vậy cần đạt được bằng cách thiết kế đầy đủ mặt cắt gương.
Độ phân giải ngang không đổi - Độ phân giải ngang không đổi đảm bảo rằng mặt
đất được chụp ảnh dưới phép biến đổi Euclide theo tỷ lệ. Như vậy, nó hỗ trợ rất nhiều
cho việc đo khoảng cách và góc trực tiếp từ hình ảnh cũng như dễ dàng theo dõi các đối
tượng nằm trên mặt đường hoặc mặt bàn (phụ thuộc vào vị trí gương).
Độ phân giải góc không đổi - Các điểm cách đều nhau trên kinh tuyến của hình
cầu được ánh xạ tuyến tính trong mặt phẳng ảnh.
Gương hình nón là loại gương thứ hai sau gương cầu có thể dễ dàng chế tạo. Đặc
điểm của gương hình nón là phản xạ bình thường theo phương thẳng đứng. Do đó, có
thể dễ dàng kết hợp nhiều gương. Tuy nhiên, độ loạn thị lớn và ảnh thu được không thể
chuyển thành ảnh phối cảnh bình thường như gương cầu. Hơn nữa, nó cần độ sâu tiêu cự
dài để có được hình ảnh tập trung. Một gương cầu có tiêu điểm như thấu kính thường;
mặt khác, gương hình nón không có nó và cần một thấu kính được đặt gần lỗ kim.
Hình 5: So sánh các loại hình chiếu khác nhau a) dọc; b) ngang; c) góc
Sự kết hợp của hai cách tiếp cận đầu tiên được gọi là “Gương hỗn hợp”, trong đó
một phần của cảm biến hình ảnh được sử dụng để thu được hình ảnh có độ phân giải dọc
không đổi, trong khi phần còn lại được sử dụng để mang lại hình ảnh có độ phân giải
ngang không đổi. Trong trường hợp này, cả hai ràng buộc khác biệt về hình dạng gương
do hai mục tiêu thiết kế được kết hợp với nhau trong một dữ liệu duy nhất. Một thuộc
tính rất quan trọng của hệ thống đa hướng là độ phân giải của nó. Có thể đạt được độ
phân giải đồng nhất trong một phần chế độ xem hình ảnh nếu đảm bảo rằng tỷ lệ khoảng
cách được đo theo hướng thẳng đứng dọc theo bề mặt của hình trụ sẽ không thay đổi khi
đo trong hình ảnh.
Một tính chất quan trọng khác của gương được thiết kế như vậy là độ nhạy
khoảng cách [CITATION 17G02 \l 4105 ]. Giá trị này xác định các thuộc tính chiếu tuyến tính
suy giảm như thế nào đối với các đối tượng đặt ở các khoảng cách khác nhau so với các
thuộc tính được xem xét cho thiết kế. Vì chúng ta biết dạng hình học của hệ catadioptric,
chúng ta có thể tính toán hướng ánh sáng truyền qua điểm nhìn cho mỗi điểm ảnh.
Trong trường hợp này, quan điểm hiệu quả duy nhất cho phép xây dựng các hình ảnh
toàn cảnh cũng như phối cảnh chính xác về mặt hình học [CITATION Nay \l 4105 ]. Tiêu chí
đầu tiên của độ phân giải dọc không đổi cũng như độ nhạy khoảng cách sẽ rất quan
trọng đối với công việc tiếp theo.
Mô tả hệ thống catadioptric
Nayar (1997) đã đưa ra phương pháp xử lý chính thức đầu tiên đối với các hệ
thống catadioptric với một góc nhìn duy nhất trong bối cảnh thị giác máy tính. Dụng cụ
đo cảm ứng là một hệ thống quang học kết hợp các yếu tố phản xạ (catoptric) và khúc xạ
(dioptric) (Hecht và Zajac, 1997). Thuật ngữ cảm biến catadioptric được sử dụng cho
các cảm biến bao gồm camera và gương.
Cảm biến catadioptric đôi khi còn được gọi là cảm biến đa hướng, mặc dù thuật
ngữ này gây hiểu lầm, vì chúng hiếm khi đa hướng theo nghĩa là chúng chụp ảnh theo
mọi hướng. Phần lớn nhưng không phải mọi toàn bộ, các gương quay đối xứng và cầu
lồi. Cảm biến catadioptric trung tâm loại này có một góc nhìn hiệu quả duy nhất
[ CITATION Svo99 \l 4105 ]. Một điểm nhìn duy nhất là điều kiện để tạo ra các hình ảnh phối
cảnh thuần túy từ các cảm biến hình ảnh. Điều kiện này đảm bảo rằng cảm biến hình ảnh
chỉ đo cường độ ánh sáng đi qua tâm chiếu. Rất mong muốn cảm biến đa hướng có một
tâm chiếu hiệu quả duy nhất, tức là một điểm duy nhất mà tất cả các tia sáng chính của
hệ thống hình ảnh đi qua. Tâm chiếu này đóng vai trò là lỗ kim (hoặc điểm nhìn) hiệu
quả của cảm biến đa hướng. Vì tất cả các điểm cảnh đều được "nhìn thấy" từ góc nhìn
duy nhất này, nên các hình ảnh phối cảnh thuần túy không bị biến dạng (giống như các
điểm được nhìn thấy từ hệ thống hình ảnh truyền thống) có thể được xây dựng thông qua
chuyển đổi hình ảnh phù hợp.
Trong công trình này, hệ thống bao gồm một máy quay video phối cảnh thông
thường được trang bị nhiều gương khác nhau sẽ được nghiên cứu. Hệ thống như vậy cho
phép chụp một phần lớn góc không gian, thường là trường nhìn 360x105 độ.
Hình 6: a) Mô tả chuẩn bị hệ thống với camera thông thường và giá giữ gương b) vị trí cài đặt
thấu kính và camera
Có hai thiết lập để chụp những hình ảnh như vậy: phản chiếu trên / dưới máy ảnh.
Gương phía trên camera thường được sử dụng cho robot di động để quan sát địa hình.
Thiết lập thứ hai phù hợp hơn để chụp những người ngồi quanh bàn. Trước khi xử lý
thêm, mỗi hình ảnh được chuyển đổi thành một góc nhìn tiêu chuẩn hoặc toàn cảnh.
Hình ảnh đa hướng có các tính năng khác nhau như hình ảnh được chụp bởi camera tiêu
chuẩn. Độ phân giải dọc của hình ảnh được biến đổi thường có phân bố không đồng đều.
Hình tròn bao gồm số điểm ảnh cao nhất được chiếu từ đường viền của gương, có nghĩa
là độ phân giải hình ảnh đã biến đổi đang giảm về phía tâm gương. Nếu hình ảnh được
trình chiếu cho con người, nó phải là hình ảnh phối cảnh / toàn cảnh để không bị méo.
Các vấn đề khác khi xử lý hình ảnh thêm trở nên quan trọng hơn, như độ phân giải
không gian, kích thước cảm biến và dễ dàng lập bản đồ giữa hình ảnh đa hướng và cảnh.
Các phương pháp phù hợp để chuyển đổi hình ảnh thành hình ảnh toàn cảnh hoặc hình
ảnh phối cảnh sẽ được đưa ra trong các chương tiếp theo.
Hiệu chuẩn hệ thống
Hiệu chuẩn camera là quá trình xác định các đặc điểm hình học và quang học bên
trong camera (thông số nội tại) và vị trí và hướng 3 chiều của khung camera so với một
hệ quy chiếu nhất định (thông số bên ngoài). Việc hiệu chỉnh cảm biến tầm nhìn đa
hướng có thể được thực hiện theo hai bước. Đầu tiên, camera phối cảnh có thể được hiệu
chỉnh bằng phương pháp hiệu chuẩn camera thông thường. Thông tin chi tiết có trong
chương sau.
Bước tiếp theo liên quan đến việc định vị camera đối với gương sao cho thu được
thuộc tính điểm nhìn hiệu quả duy nhất. Svoboda [ CITATION Svo98 \l 4105 ] đề xuất
phương pháp, trong đó các thông số gương được biết chính xác từ quá trình sản xuất và
các thông số nội tại của camera đã được ước tính một cách đáng tin cậy. Theo thiết kế,
chiều cao mong muốn và bán kính của vành gương đã được biết. Sau đó, mô hình
camera phối cảnh có thể được sử dụng để dự đoán hình ảnh của mép gương vì nó sẽ
được quan sát khi camera được đặt đúng vị trí so với gương. Bằng cách phủ dự đoán
trong cửa sổ video trực tiếp, vị trí camera có thể được điều chỉnh theo cách thủ công để
có được vị trí chính xác về vành gương đã quan sát và dự đoán.
Trong một số trường hợp, giá đỡ đặc chủng có thể được sử dụng để gắn gương
chính xác vào máy ảnh. Những giá đỡ này được thiết kế để chứa nhiều loại máy ảnh,
ống kính và gương. Do đó, giá đỡ gương cho phép di chuyển hình ảnh phản chiếu trên
mặt phẳng camera theo cả ba hướng. Có nghĩa là có thể điều chỉnh khoảng cách camera
từ gương, vị trí gương dọc liên quan đến mặt phẳng camera và xoay camera theo trục
ngang. Camera cũng thường có tính năng thu phóng thủ công (cài đặt độ dài tiêu cự).
Tất cả các thông số này có thể thay đổi một chút tùy theo phiên. Thực hiện hiệu chỉnh
toàn bộ camera mỗi phiên là quá trình tốn thời gian và rườm rà. Hơn nữa, điểm chính
(hình chiếu trục Z của khung camera vào hình ảnh) được biết là khó ước lượng chính
xác. Thay vào đó, phương pháp hiệu chỉnh hệ thống tự động được đề xuất, phương pháp
này sẽ ước tính lại độ dài tiêu cự và điểm chính của camera cũng như vị trí hình ảnh
phản chiếu chính xác trên mặt phẳng máy ảnh. Quá trình này được mô tả trong phần 4.1.
Phương pháp được Bunschoten sử dụng [ CITATION Bun03 \l 4105 ] là lựa chọn thủ công
vành gương từ hình ảnh. Cách tiếp cận được đề xuất là hoàn toàn tự động và phục vụ
cho việc ổn định hình ảnh theo thời gian thực.
Hiệu chỉnh camera phối cảnh
Để hiệu chỉnh máy ảnh, cần có tọa độ 3 chiều của các điểm điều khiển tham chiếu
trên mục tiêu hiệu chuẩn và tọa độ 2-D tương ứng của quan sát hình ảnh.
Bàn cờ có hoa văn thường được sử dụng cho mục đích này, nơi các góc hoặc các
dấu khác đóng vai trò là điểm kiểm soát. Những dấu này được chọn để phát hiện được
đơn giản và chính xác mà không cần sự tương tác của người dùng. Hiệu chuẩn camera
liên quan đến việc giảm thiểu sai số giữa các vị trí đo được của các điểm điều khiển và
vị trí của các điểm điều khiển theo dự đoán của kiểu camera dưới dạng một chức năng
của các thông số kiểu máy ảnh. Các phương pháp hiệu chuẩn khác nhau đã được trình
bày trong tài liệu. Phương pháp hiệu chuẩn camera được sử dụng phổ biến nhất có lẽ là
phương pháp DLT (biến đổi tuyến tính trực tiếp) được báo cáo ban đầu bởi Abdel-Aziz
và Karara (1971). Kết quả của việc hiệu chuẩn camera là một phép biến đổi rõ ràng ánh
xạ điểm thế giới 3D M =(X , Y , Z , l)T thành điểm ảnh 2D m=(u , v ,l)T . Ánh xạ này có thể
được biểu diễn bằng ma trận hình chiếu 3x4, P, bao gồm 11 tham số vật lý: góc quay R x,
Ry, Rz, biến đổi tx, ty, tz, các tọa độ của điểm (u0,v0), hai hệ sộ au, av và độ lệch giữa các
trục ảnh c.
Cần ít nhất 6 điểm cho một phương pháp, nhưng thường nhiều điểm hơn được sử
dụng trong tối ưu hóa bình phương nhỏ nhất để giảm thiểu ảnh hưởng của độ không đảm
bảo đo.
Ghi ảnh bằng camera tương đương với việc ánh xạ điểm O trong không gian vật
thể thành điểm ảnh trong mặt phẳng chiếu. Mặt phẳng chiếu gọi là mặt phẳng hình.
Điểm N là tâm hình chiếu.

Mặt phẳng
hình ảnh

Trung tâm hình Không gian


chiếu – vật thể

Hình 7: Hệ quy chiếu không gian của vật thể và hệ quy chiếu mặt phẳng hình ảnh
Hệ thống quang học của camera ánh xạ điểm O trong không gian vật thể thành
ảnh I trong mặt phẳng ảnh. [x, y, z] là tọa độ không gian đối tượng của điểm O trong khi
[u, v] là tọa độ mặt phẳng ảnh của điểm ảnh I. Các điểm I, N & O do đó thẳng hàng. Đây
là điều kiện thẳng hàng, cơ sở của phương pháp DLT[ CITATION Kwo \l 4105 ].

Hình 8: Điểm chính


Một điểm mới P, điểm chính, được giới thiệu trong Hình 10. Đường thẳng vẽ từ
tâm hình chiếu N lên mặt phẳng ảnh, song song với trục W và vuông góc với mặt phẳng
hình ảnh, được gọi là trục chính và điểm chính là giao điểm của trục chính với mặt
phẳng ảnh. Khoảng cách chính d là khoảng cách giữa hai điểm P và N. Giả sử tọa độ
mặt phẳng ảnh của điểm chính là [u0, v0, 0] trí của điểm N trong hệ quy chiếu mặt
phẳng ảnh trở thành [u0, v0 , d]. Vectơ B vẽ từ điểm N đến I trở thành [u – u 0, v – v0,
−d]. Bây giờ, giả sử rằng vị trí của tâm chiếu (N) trong hệ quy chiếu vật thể-không gian
là [x0, y0, z0] (Hình 10). Véc tơ A được vẽ từ N đến O là [x – x 0, y – y0, z - z0]. Vì các
điểm O, I và N thẳng hàng nên các vectơ A và B tạo thành một đường thẳng duy nhất.
Điều kiện thẳng hàng đơn giản tương đương với biểu thức vectơ:
B=cA (1)

Trong đó c = một đại lượng vô hướng. Lưu ý ở đây rằng vectơ A và B ban đầu
được mô tả trong hệ quy chiếu vật thể-không gian và hệ quy chiếu mặt phẳng hình ảnh,
tương ứng. Để liên hệ trực tiếp các tọa độ, cần phải mô tả chúng trong một hệ quy chiếu
chung. Một cách hay để làm điều này là biến đổi vectơ A thành hệ quy chiếu mặt phẳng
hình ảnh:

Từ phương trình (2) ta có:

Lưu ý rằng, u, v, u0, v0 trong phương trình (3) & (4) là tọa độ mặt phẳng hình ảnh
theo đơn vị độ dài trong đời thực, chẳng hạn như cm. Tuy nhiên, trong thực tế, hệ thống
số hóa có thể sử dụng các đơn vị độ dài khác nhau, chẳng hạn như điểm ảnh, và chúng
tôi phải đáp ứng điều này:

Trong đó [ʎu, ʎv] là hệ số chuyển đổi đơn vị đối với trục U và trục V
2.1.1.
Chương 2: Phân tích thiết kế hệ thống
Các nghiên cứu liên quan

Mở gói đơn giản


Phép biến đổi đơn giản nhất sử dụng việc mở gói hình ảnh nguồn. Các thông số
hiệu chỉnh hệ thống như độ dài tiêu cự, phương trình biên dạng gương và mặt phẳng
chiếu là không cần thiết. Việc chuyển đổi như vậy đặc biệt hữu ích, khi chúng ta không
thể trích xuất các tham số này. Một khả năng khác là sử dụng gương có độ phân giải dọc
không đổi để chụp ảnh toàn cảnh, điều này không gây ra biến dạng trong hình ảnh thu
được. Trong các trường hợp khác, sự biến dạng có thể xảy ra và phụ thuộc vào cấu hình
gương. Các thông số cần thiết để mở gói đơn giản là tâm và bán kính của hình tròn chiếu
từ viền gương. Sự chuyển đổi tọa độ đầu ra thành tọa độ của hình ảnh đã chụp có thể
được viết như sau:

Trong đó tham số Offset xác định nguồn gốc của hình ảnh toàn cảnh được biến
đổi. Các tham số ROUTER và RINNER là bán kính của đường viền gương chiếu bên ngoài và
bên trong, xác định giới hạn chuyển đổi. Các tham số cuối cùng CenterX và CenterY chỉ
định tâm vòng tròn, được gương chiếu lên ảnh camera. Kích thước ngang của chế độ
xem toàn cảnh được tính là chu vi) 2π (R OUTER - RINNER) và kích thước dọc được cho bởi
sự khác biệt theo chiều ngang ROUTER - RINNER

Hình 9: Biến đổi tháo cuộn tròn đơn giản


Các điểm ảnh được tính toán trong hình ảnh camera không tương ứng chính xác
“1-1” với điểm ảnh của hình ảnh được chiếu, vì vậy nên sử dụng các phương pháp khử
răng cưa điểm ảnh phụ. Trong các ứng dụng được nêu trong các chương sắp tới, phương
pháp nội suy hai tuyến tính sẽ được sử dụng có thể dẫn đến răng cưa trong trường hợp
hình ảnh catadioptric được lấy mẫu thiếu. Cần có hình thức lọc biến thể không gian để
giải quyết vấn đề này. Vấn đề này đã ít được chú ý trong các tài liệu về tầm nhìn toàn
cảnh và có thể là một hướng đi thú vị cho các nghiên cứu trong tương lai. Vấn đề này có
thể được giải quyết bằng cách chuyển đổi quá nhiều hình ảnh. Giải pháp khác có thể là
sử dụng cạc đồ họa 3D với tính năng lọc dị hướng làm phần cứng để chuyển đổi hình
ảnh.
Hình thành hình học
Kiến thức hình học về hệ catadioptric với một điểm hiệu dụng duy nhất cho phép
biến đổi chính xác hình ảnh phản chiếu thành dạng phù hợp - toàn cảnh, phối cảnh, v.v.
Trước hết, tập trung vào việc biến đổi hình ảnh toàn cảnh chính xác, Một trong những
cách tiếp cận là sử dụng tính chất hình học của gương để chiếu ảnh trên mặt phẳng hình
trụ quanh trục gương chính. Do tính đối xứng quay của hệ thống, chúng ta chỉ cần biết
thông tin về biên dạng gương. Sự hình thành ảnh có thể được biểu diễn như một thành
phần của các phép biến đổi tọa độ và phép chiếu. Chúng tôi muốn tìm mối quan hệ giữa
điểm thế giới thực và điểm trên mặt phẳng hình ảnh camera. Hệ tọa độ gương có tâm tại
tiêu điểm F và gương hypebol được xác định bởi phương trình:

trong đó a, b là các tham số gương và e= √ a 2+b 2 biểu thị độ lệch tâm. Tâm camera
phải trùng với tiêu điểm thứ hai của gương để bảo toàn điểm nhìn hiệu quả duy nhất.
Tâm chiếu hiệu dụng nằm sau gương và khoảng cách đến tâm camera bằng hai lần độ
lệch tâm. Dạng hình học của sự hình thành ảnh trong camera cảm ứng đa hướng được
thể hiện trong Hình 11. Các phép chiếu cảm giác là một tập hợp con của một loại phép
chiếu chung. Trong phép chiếu catadioptric trung tâm, đầu tiên một điểm được chiếu tới
gương qua tiêu điểm của nó và sau đó điểm này được chiếu lên một mặt phẳng ảnh từ
tiêu điểm thứ hai. Tuy nhiên, vẫn có sự biến dạng do vị trí khác nhau của các đối tượng
quan sát.
Hệ thống catadioptric trung tâm
Coi hình trụ chiếu có bán kính d, trong đó trục của hình trụ thẳng hàng với trục
quang học của camera và gương. Phép chiếu này được tính từ mặt phẳng hình trụ đến
mặt phẳng hình ảnh camera. Về cơ bản có ba hệ tọa độ. Hệ thức có tâm tại điểm X trên
hình trụ chiếu, hệ gương có tâm tại F sao cho trục y trùng với trục gương và hệ tọa độ
camera có tâm tại tiêu điểm thứ hai F 'với trục z tương ứng với trục quang học của máy
ảnh. Chúng tôi sẽ chỉ sử dụng mô hình 2 chiều, bởi vì hệ thống được đề xuất là đối xứng
quay. Các phép chiếu tia sẽ được tính trong mặt phẳng được phân giới bởi tia và trục hệ
catadioptric. Toàn bộ hình chiếu sau đó được tính bằng phép quay mặt phẳng quanh trục
này.

Hình 10: Mô hình ảnh của camera toàn cảnh trung tâm với gương hypebol
Tâm của hệ toạ độ được chọn là tiêu điểm F. Đường thẳng v 1 đi qua tiêu điểm X
trên mặt phẳng trụ và qua tiêu điểm F của gương. Phương trình đường thẳng là y = qx.
Sau đó, ta tính giao điểm XM trên gương với đường thẳng v1. Phương trình bậc hai sau
khi quy nạp thành phương trình mặt gương như sau:

Căn x, biểu thị tọa độ x của điểm gương, được tính từ phương trình (3). Tồn tại
hai nghiệm có thể biểu thị hai giao điểm giữa tia với gương và từ đó giải pháp thích hợp
được sử dụng để tính phản xạ tia.
Tọa độ x đã tính được biến đổi qua tâm camera F ’. Các thông số chiếu camera
phải được biết cho mục đích này. Khoảng cách y1 giữa tiêu điểm camera F ’và mặt
phẳng camera được tính để hiệu chỉnh hình chiếu của máy ảnh. R i là bán kính của đường
viền gương chiếu trong mặt phẳng camera (ảnh đã chụp) và R M là bán kính gương thật.
Phương trình tính toán khoảng cách mong muốn [Hình 12b] giữa tâm camera F ’như
sau:

tại

Chiều dài y2 được tính bằng tổng độ lệch tâm kép và tọa độ y của đường viền
gương. vì sử dụng mô hình 2 chiều, điểm trên mặt phẳng camera được biểu diễn bằng
vector. Kích thước của vectơ này, có góc α được cho bởi mặt phẳng đặt tia chiếu, được
tính là:

xM là tọa độ x của giao điểm gương được tính từ phương trình 3. Các điểm cuối
cùng trên mặt phẳng camera [xc,yc] , được tính từ hai phương trình sau:

trong đó [CenterX, CenterY] là tọa độ tâm của gương chiếu và góc α được cho
bởi mặt phẳng với tia liên quan đến gốc tọa độ, được mô tả ở trên. Trường dọc của
khung nhìn được cho bởi khoảng cách d và bởi các tia chiếu "cực tiểu và cực đại" [Hình.
13]. Các điểm biên trên gương xác định các tia này. Điểm đầu tiên là điểm trên viền
gương và điểm thứ hai được chọn từ sự phụ thuộc vào bán kính bên trong. Bán kính này
chỉ định vùng gương bên trong với độ phân giải không gian rất nhỏ, không bị biến đổi.
Khu vực có độ
phân giải không
gian nhỏ
Hình 11: Trường dọc của vùng nhìn
Các tia “cực đại và cực tiểu” phản xạ từ gương có thể được tính là phép chiếu từ
tiêu điểm F của gương qua đường viền bên trong và bên ngoài gương. Tọa độ y của các
điểm giao nhau trên gương được tính như sau:

trong đó x là bán kính gương RM để tính cực đại y

hoặc bán kính trong Ri để tính y tối thiểu

Tia đi qua các điểm này và tiêu điểm F của gương xác định trường nhìn thẳng
đứng.
Phép chiếu phối cảnh
Hình ảnh phối cảnh phù hợp với nhiều ứng dụng thị giác máy tính để ví dụ: cho
một người quan sát con người. Đó là lý do; tại sao chúng tôi muốn chuyển đổi hình ảnh
được chụp bởi hệ thống đa hướng thành chế độ xem phối cảnh. Hình học của hệ
catadioptric và một mặt phẳng chiếu được mô tả trong [Hình. 14]. Nó bao gồm mặt
phẳng ảnh, mặt phẳng mà ảnh được tạo thành bởi một phép toán gọi là phép chiếu phối
cảnh và tiêu điểm gương F, nằm cách mặt phẳng ảnh một khoảng d. Trục quang của
hình chiếu phối cảnh là đường thẳng đi qua tiêu điểm F của gương và vuông góc với mặt
phẳng ảnh. Giả thiết rằng dạng hình học biến đổi của tia từ mặt phẳng camera thành
điểm trên gương đã biết từ chương trước. Cách xác định hình chiếu phối cảnh của các tia
này vào mặt phẳng ảnh được mô tả tại [Hình. 14]. Trước hết, kích thước của mặt phẳng
chiếu phải được xác định và phù hợp với hệ tọa độ gương mà tia phản xạ được xác định.
Mặt phẳng hình ảnh phối cảnh với tỷ lệ [Chiều rộng, Chiều cao], khoảng cách d p và góc
nhìn ngang α xác định mối quan hệ tương hỗ:

Hình 12: Góc chiếu của tia đi qua tâm gương


Hướng của mặt phẳng ảnh phối cảnh liên quan đến hệ gương được cho bởi góc
nhìn α đối với phương ngang và y cực tiểu và cực đại y suy ra từ các phương trình (9),
(10) đối với phương thẳng đứng. Phép chiếu này được xây dựng bằng cách sử dụng các
mặt phẳng mà tia phản xạ và trục gương chính nằm trên đó. Giá trị d biểu thị khoảng
cách trực giao giữa mặt phẳng ảnh và tiêu điểm gương.
Khoảng cách d này phụ thuộc vào điểm chiếu, vào mặt phẳng hình chiếu và do đó
khoảng cách thay đổi theo vị trí x trên mặt phẳng phối cảnh.

Sau đó, hướng thẳng đứng của tia tới được tính từ đường thẳng đi qua điểm trên
mặt phẳng chiếu và tiêu điểm gương. Hướng này bị ảnh hưởng bởi khoảng cách trực
giao d của điểm chiếu và tiêu điểm gương F. Tọa độ của điểm nằm trên mặt phẳng chiếu
là [xp,yp]. Độ dốc của tia tới theo phương thẳng đứng đối với trục gương chính sau đó
được tính là:
Quy trình tính giao điểm của tia ló với gương và tia chiếu phản xạ trên mặt phẳng
camera giống như chương trước. Góc giữa mặt phẳng với tia và gốc tọa độ gương được
tính cho phép chiếu phối cảnh là:

Các góc αB và αE xác định góc cực tiểu và cực đại theo phương ngang của hình
chiếu phối cảnh. Góc tính toán α được quy về phương trình (7). Kích thước của vectơ c
được tính bằng cách sử dụng các phương trình (4), (5) và (6) bằng quy nạp q từ phương
trình (13).
Hệ thống catadioptric không trung tâm
Tuy nhiên, trong thực tế, camera catadioptric không đặt được ở vị trí trung tâm.
Các lý do phổ biến nhất là i) camera phối cảnh không được đặt ở một trong các tiêu
điểm của gương hypebol hoặc hình elip, hoặc ii) hình dạng gương, ví dụ: gương cầu
hoặc gương có độ phân giải đồng nhất, được thiết kế để chúng không sở hữu một thuộc
tính điểm nhìn duy nhất. Tất cả những điều trên có thể khiến camera catadioptric trở nên
không trung tâm và không có góc nhìn duy nhất mà từ đó tất cả các tia sẽ phát ra. Việc
sử dụng kiểu camera trung tâm cho camera không trung tâm dẫn đến việc xác định
không chính xác các tia 3D tương ứng với các điểm ảnh. Giải pháp là tìm ra mô hình
camera không trung tâm chính xác để ghi lại sự phân bố thực của các tia phản xạ. Khi
không cần độ chính xác tương ứng cao giữa các điểm trong thế giới thực 3D và các điểm
hình ảnh, chẳng hạn như cho mục đích trình bày hoặc theo dõi của con người, thì các
phương pháp xấp xỉ có thể đạt được kết quả phù hợp.
Hình 13: Mô hình ảnh của hệ thống catadioptric không tâm
Hình 15 mô tả mô hình hình ảnh chung cho hệ thống camera catadioptric không
trung tâm. Kỹ thuật trích xuất theo một số bước tương tự như lấy mô hình camera
catadioptric trung tâm đã được trình bày trong các chương trước. Một hệ tọa độ
Descartes của một gương, đặt tại điểm F, quay và tịnh tiến bởi R m ∈ R3x3 và tm ∈ R3x1. Hệ
tọa độ Descartes của một camera phối cảnh, đặt tại quang tâm C, liên hệ với hệ tọa độ
gương bằng Rc và tc. Camera phối cảnh thông thường chiếu một điểm x 3D trên mặt
gương vào mặt phẳng hình ảnh theo phương trình chiếu chuẩn:

trong đó u là một điểm trên mặt phẳng ảnh (gốc tọa độ ở tâm C) và λ xác định hệ
số góc của tia. Xét trường hợp chiều 2D trong mặt phẳng trùng với trục quang hệ và tia
phát xạ. Việc đơn giản hóa này có thể thực hiện được đối với sự đối xứng quay của
gương. Tham số hóa bề mặt gương là một bước thiết yếu để tính toán giao điểm với tia
và chủ yếu là tính toán pháp tuyến bề mặt. Biên dạng gương được nội suy bởi đường
cong phù hợp f(x). Do đó, việc tính toán giao điểm sẽ không được trình bày ở đây, vì nó
phụ thuộc vào loại đường cong được sử dụng f(x). Xét giao điểm trên gương XM. Tia v2
được gương phản xạ tại điểm XM sao cho góc γ của tia tới và tia trùng với mặt pháp
tuyến bằng nhau.
Gradient của đường pháp tuyến đối với mặt gương tại điểm X M trên gương được
cho bởi
n
xác định dạng chuẩn hóa của đường cong bình thường n^ = ¿|n|∨¿¿ (để biết thêm
thông tin, xem [ CITATION Mic04 \l 4105 ]). Vectơ hướng của tia phản xạ v1 có thể được tính
như sau

Khi một hệ thống hình ảnh không duy trì một điểm nhìn duy nhất, quỹ tích của
các điểm quan sát trong ba chiều được hình thành, được gọi là tụ quang. Đối với các hệ
thống chất lưỡng tính, nó được gọi là chất diacaustic và đối với hệ thống chất
catadioptric là chất catacaustic. Tụ quang đại diện cho lớp vỏ của tất cả các tia cảnh tới,
cuối cùng được tạo ảnh. Mỗi điểm ảnh trong ảnh ánh xạ tới một điểm trên bề mặt tụ
quang. Ngoài ra, mọi điểm trên tụ quang ánh xạ tới một tia sáng duy nhất từ hiện trường
mà cuối cùng sẽ được chụp ảnh. Do đó, tụ quang mô tả hoàn toàn hình học của một hệ
thống hình ảnh. Đối với các thiết bị hình ảnh, tụ quang đại diện cho các điểm quan sát
của chúng. Điểm nhìn đơn là trường hợp suy biến của tụ quang điểm. Mỗi điểm trên bề
mặt tụ quang đại diện cho vị trí ba chiều của một điểm nhìn và hướng nhìn của nó. Do
đó, tụ quang mô tả hoàn toàn hình dạng hình học của camera [ CITATION Mic04 \l 4105 ].
Lỗ kim

Mặt phản xạ
Tia phản xạ

Tiếp tuyến tại


điểm tụ quang
Tia tới

Phần tụ quang
Hình 14: Mô tả hình học về nguồn gốc tụ quang
Mô tả hình học về nguồn gốc tụ quang như thế nào, được mô tả trên Hình 16. Như
đã biết hình học của gương (gương phản xạ), bình thường bề mặt của nó có thể được rút
ra từ phân tích. Tia tới V i(t) là phương tiếp tuyến với bề mặt tụ quang. Tại điểm tụ
quang, nếu chúng ta di chuyển trong cùng một hướng V i(t), chúng ta cũng sẽ chuyển từ
tia này sang tia tiếp theo. Điều này là do chùm tia tới kéo dài tia ở bề mặt tụ quang.
Vấn đề tạo ra một bức tranh toàn cảnh hình cầu hoặc hình trụ từ hình ảnh thu
được từ một cảm biến điểm nhìn không phải đơn lẻ được đặt ra. Trong những trường
hợp như vậy, một tâm của phép chiếu được giả định. Vì cảm biến không có một tâm
chiếu duy nhất nên các hiệu ứng thị sai được đưa vào ảnh toàn cảnh.

Hình chiếu phối cảnh cho hệ thống không trung tâm


Cơ bản của phép chiếu này cũng giống như trong trường hợp của các hệ thống
trung tâm. Bản chất khác biệt của hệ thống như vậy là không có quang điểm trung tâm.
Một mô hình không trung tâm thường rất phức tạp với số lượng lớn các tham số. Mô
hình đơn giản cho phép sử dụng phép chiếu trung tâm, đại diện cho một số loại gần
đúng. Do đó, việc xây dựng hình chiếu phối cảnh chính xác về mặt hình học không đạt
được bằng cách này; tuy nhiên, độ chính xác như vậy là đủ để trình bày cho con người
hoặc cho các mục đích theo dõi. Độ chính xác cao hơn là cần thiết trong các nhiệm vụ
tái tạo hiện trường, đây không phải là chủ đề của công việc này.
Mặt phẳng
ảnh ảo

Điểm
nhìn ảo

Hình 15: a) Ống kính của hệ thống camera catadioptric không trung tâm b) Tất cả các tia đều
giao nhau ở điểm chung
Hãy xem xét hệ thống tổng quát của hình. 17a, trong đó mặt gương cầu lồi chuyển
hướng ánh sáng đến camera phối cảnh. Các tia quang học tới không nhất thiết phải giao
nhau trong một điểm nhìn duy nhất. Vì gương cầu lồi nên có một tia sáng duy nhất tại
mỗi góc βi phát ra từ gương, với góc tương ứng αi đối với tia tới trên máy ảnh. Với hệ
thống này có thể xây dựng một hệ thống ảo trong đó tất cả các tia tới giao nhau tại một
điểm duy nhất. Hình. 17b cho thấy ý tưởng với tất cả các tia tới đều hội tụ tại cùng một
điểm đã chọn. Với hình chiếu đã dựng, một ảnh có thể được tạo thành bằng cách chiếu
lại lên một mặt phẳng ảnh ảo.

Hình 16: Ánh xạ điểm ảnh từ hình trụ sang mặt phẳng phối cảnh
Chúng ta nảy sinh từ giả định về phép biến đổi đã biết hoặc đơn giản từ mặt
phẳng camera sang hình trụ xung quanh gương. Ánh xạ phối cảnh được biểu diễn bằng
phép biến hình giữa hình trụ và mặt phẳng hình chiếu ảo. Ví dụ, phép biến đổi đơn giản
(xem chương 2.10) có thể được sử dụng để tạo ảnh toàn cảnh từ gương với độ phân giải
dọc đồng nhất. Tọa độ trên mặt trụ được xác định là [x c, yc] và tọa độ trên mặt phẳng
chiếu ảo là [xp, yp]. Hình chiếu phối cảnh sẽ được biểu diễn bằng mặt phẳng có tỷ lệ
[Chiều rộng, Chiều cao], khoảng cách từ mặt phẳng hình chiếu dp, và góc nhìn α. Các
quan hệ tương hỗ được xác định tại phương trình (11). Khoảng cách d biểu thị khoảng
cách vuông góc từ trục của hình trụ đến đường thẳng đứng trên mặt phẳng ảnh phối
cảnh, tại đó điểm xử lý xảy ra. Quan hệ này được mô tả bằng phương trình (12). Quan
hệ thứ hai giữa điểm trên hình trụ và điểm trên mặt phẳng hình chiếu có thể được viết
dưới dạng:

trong đó vy là vị trí của điểm nhìn trên trục của hình trụ và d c là bán kính hình trụ.
Yếu tố cần thiết là lựa chọn điểm nhìn. Vị trí tốt nhất của quan điểm phải được chọn liên
quan đến việc giảm thiểu sai số. Micusik & Pajdla [ CITATION Mic04 \l 4105 ] đã đề xuất kỹ
thuật hiệu chuẩn cho các camera catadioptric không trung tâm. Derrien và Konolige
[ CITATION Der00 \l 4105 ] đã trình bày cách camera catadioptric hình cầu không trung tâm
có thể được một camera có một điểm nhìn duy nhất (đỉnh gương) xấp xỉ để tạo ảnh phối
cảnh.
Mô tả chất lượng hình ảnh
DPI đại diện cho “độ sắc nét” hay chính xác hơn là mật độ điểm trên đơn vị độ
dài. Thông tin như vậy không phù hợp để mô tả chất lượng hình ảnh toàn cảnh, đặc biệt
khi hình ảnh đó được chụp bởi hệ thống đa hướng. Độ phân giải không gian cho chúng
ta khả năng mô tả độ phân giải của hình ảnh đó. Trong hệ thống catadioptric, độ phân
giải được điều chỉnh bởi sự tương tác giữa độ cong cục bộ của gương và góc nhìn của
camera. Đối với hệ thống paraboloid và hyperboloid, độ phân giải đơn điệu lớn hơn
trong khi di chuyển dọc theo gương ra khỏi trục quay [CITATION Nay \l 4105 ]. Đối với
paraboloid, góc phân giải ở góc nâng 90 độ gấp 4 lần ở góc 0 độ; đối với hyperboloid,
nó thậm chí còn nhiều hơn thế.
Trong

Diện tích gương,


Điểm gương

Góc khối

Diện tích điểm ảnh dA


Hình 17: Sơ đồ minh họa độ phân giải không gian của hệ thống camera
catadioptric trung tâm
[CITATION Nay \l 4105 ], Baker và Nayar đã chỉ ra rằng camera catadioptric góc nhìn đơn
dựa trên gương hình nón có độ phân giải tăng dần. Giả sử camera thông thường có
khoảng cách lỗ kim u và trục quang học của nó thẳng hàng với trục gương. Tình huống
được mô tả trên Hình. 19. Độ phân giải được định nghĩa như sau. Xét một vùng dA vô
cùng nhỏ trên mặt phẳng hình ảnh. Nếu điểm ảnh thập phân này hình ảnh một dv góc
đặc vô cùng của thế giới, thì độ phân giải của cảm biến catadioptric như một hàm của
dA
điểm trên mặt phẳng hình ảnh tại tâm của vùng vô định dA là dV . Độ phân giải của
dA
camera thông thường có thể được viết là dw . Dẫn xuất chi tiết hơn của các mối quan hệ
này được viết trong tác phẩm của Baker và Nyar [CITATION Nay \l 4105 ]. Độ phân giải của
camera catadioptric là độ phân giải của camera thông thường được sử dụng để tạo ra nó
nhân với hệ số:

trong đó (r, z) là điểm trên gương được chụp ảnh. Hệ số trong phương trình (1) là
bình phương của khoảng cách từ điểm (r, z) đến điểm ngắm hiệu dụng v = (0,0), chia
cho bình phương của khoảng cách tới lỗ kim F '= (0, c ). Gọi d v là khoảng cách từ điểm
ngắm tới (r, z) và dp là khoảng cách của (r, z) từ lỗ kim. Khi đó, hệ số trong phương
d 2v
trình (1) là 2 . Đối với hyperboloid, dp – dv = K với một hằng số 0 < K h < dp Hệ số
dp
hyperboloid hệ số là:

tăng khi dp tăng và dv tăng. Có nghĩa là hệ số trong phương trình (1) tăng theo r
đối với gương hypebol mà nó được suy ra. Do đó, cảm biến catadioptric được xây dựng
bằng gương hypebol và camera thông thường có độ phân giải đồng đều sẽ có độ phân
giải cao nhất xung quanh vùng ngoại vi.
Điểm ảnh của Mặt phẳng ảnh
vùng A

Lỗ kim của ống kính

Điểm cảnh
Pháp tuyến
Điểm ban đầu

Điểm tiếp tuyến


(điểm nhìn ảo)

Diện tích gương

Hình 18: Sơ đồ minh họa độ phân giải không gian của hệ thống catadioptric không
trung tâm
Đặc điểm độ phân giải trên một lát cắt xuyên tâm của mặt phẳng hình ảnh đối với
một số cấu hình của camera cảm ứng hình nón đã được công bố bởi Swaminathan
[ CITATION Swa01 \l 4105 ]. Chúng bao gồm một gương hình nón (có mặt cắt là một mặt cắt
hình nón) và một hệ thống thấu kính phối cảnh, mà lỗ kim của camera nằm ở một
khoảng cách hữu hạn so với gương. Hình. 20 minh họa độ phân giải trên một lát cắt
xuyên tâm của mặt phẳng hình ảnh. Các đường cong đã được chuẩn hóa theo mức độ
phóng đại để diện tích hình ảnh của vật phản xạ trong cả ba trường hợp là như nhau.
Điều này tạo điều kiện cho việc so sánh công bằng về độ phân giải giữa ba hệ thống
catadioptric. Có thể thấy độ phân giải giảm mạnh ngoài một số khoảng cách từ trung
tâm hình ảnh. Đặc tính này dần dần thay đổi khi lỗ kim đi vào gần tiêu điểm của gương
phản xạ (hệ thống trở thành điểm nhìn duy nhất). Trong cấu hình này, độ phân giải tăng
đáng kể. Các kết quả phân giải được trình bày chỉ dành cho các hệ thống đối xứng quay.

Hình 19: Độ phân giải của cảm biến catadioptric có camera phối cảnh và một gương
elip, một gương parabol và một gương hypebol. Vị trí lỗ kim nằm tại a) d = 0 và b) d =
6 của hệ tọa độ
Độ phân giải được tham số hóa bởi hình dạng của gương, vị trí của lỗ kim và tiêu
cự của thấu kính được sử dụng. Với một đường cong độ phân giải riêng, các thông số có
thể được điều chỉnh phù hợp trong mô hình gần đúng nhất với đường cong yêu cầu.
Trong chuẩn bị chung nhất, các đặc điểm độ phân giải có thể quyết định hoàn toàn hình
dạng của mặt phản xạ (không giới hạn ở mặt phản xạ hình nón). Tuy nhiên, cần lưu ý
rằng bằng cách sửa độ phân giải, cảm biến có thể không duy trì một điểm nhìn, tùy
thuộc ứng dụng mà điều này có thể quan trọng hoặc không.
Tổng quan về các phương pháp xử lý ảnh liên quan
Các chương sau sẽ bao gồm mô tả về các phương pháp đã chọn có liên quan đến
tiền xử lý hình ảnh đa hướng. Phần mô tả vấn đề cụ thể, dựa trên các phương pháp sau
đây, được giới thiệu trong chương 3. Mục đích của chương này không bao gồm toàn bộ
các phương pháp được sử dụng phổ biến trong lĩnh vực nghiên cứu này, mà chỉ trình bày
các phương pháp liên quan đến các phương pháp được đề xuất cho tiền xử lý hình ảnh
đa hướng. Các kỹ thuật sau đây chuyên biệt để tìm cạnh cho một số phương pháp phát
hiện vòng tròn. Một số trong số chúng được mô tả để so sánh chúng với cách tiếp cận
được đề xuất. Có nhiều phương pháp khác nhau để phát hiện vòng tròn. Circle Hough
Transform (CHT) đã trở thành một phương pháp phổ biến để phát hiện vòng tròn trong
nhiều ứng dụng xử lý ảnh. Phương pháp này được phát triển vào năm 1962 và lần đầu
tiên được áp dụng để phát hiện vòng tròn bởi Duda và Hart (1972). Các sửa đổi khác
nhau đối với hoạt động CHT cơ bản đã được đề xuất. Những nhược điểm lớn của Hough
Transform là lượng lớn dung lượng lưu trữ và khả năng tính toán khi sử dụng nó trong
các ứng dụng thời gian thực. Một vài nhược điểm có thể được cải thiện bằng cách sử
dụng không gian tham số có kích thước giảm. Davies (1987 và 1988) đã xem xét ảnh
hưởng của nhiễu đối với các phép tính định hướng cạnh, đặc biệt cho thấy ảnh hưởng
của chúng trong việc làm giảm độ chính xác của vị trí trung tâm. Gần đây nhất, Atherton
và Kerbyson (1999) đã chỉ ra cách tìm các vòng tròn có bán kính tùy ý trong một không
gian tham số duy nhất bằng cách sử dụng quy trình mới về mã hóa bán kính như một
tham số pha và sau đó thực hiện tích lũy với nhân hình khuyên được mã hóa theo pha
[ CITATION Ath99 \l 4105 ] . Goulermas và Liatsis (1998) đã chỉ ra cách thức biến đổi Hough
có thể được tinh chỉnh để phát hiện các đối tượng hình tròn mờ như bong bóng chồng
lên nhau bằng cách sử dụng các thuật toán di truyền.
Zelniker, Vaughan, Clarkson [ CITATION Zel03 \l 4105 ] đã trình bày cách diễn giải
Công cụ ước tính khả năng tối đa (MLE) và Công cụ ước tính Delogne-Kasa (DKE) để
ước lượng tham số vòng tròn thông qua tích chập. Đối với MLE, đầu ra cung cấp ước
tính thô nhưng để có được độ chính xác của điểm ảnh phụ, có thể tinh chỉnh ước tính thô
thông qua phương pháp Newton-Raphson để đạt được độ chính xác của điểm ảnh phụ.
So sánh phương pháp MLE Newton-Raphson với phương pháp bình phương nhỏ nhất
DKE cho thấy rằng MLE hoạt động tốt hơn khi độ dài cung càng nhỏ và khi mức độ
nhiễu càng lớn
Tìm kiếm cạnh
Các phương pháp dựa trên việc sử dụng các bộ dò cạnh mặt nạ sẽ được trình bày
thêm trong luận án ngoại trừ phương pháp điểm ảnh phụ. Thách thức chính đối với các
kỹ thuật tìm kiếm cạnh là tìm ra các quy trình tạo ra các đường bao khép kín xung quanh
các đối tượng quan tâm - trong trường hợp của chúng ta - là đường viền gương chiếu.
Hình 20: Các mẫu đường viền a) Viền bước đột ngột b) Viền nghiêng c) viền trơn d)
viền cạnh phẳng e) viền hình mái nhà f) viền hình chỉ
Các cấu hình hiệu quả của các mô hình cạnh chỉ khác nhau trong vùng lân cận đã
nêu. Viền bước nghiêng và bước trơn là các dạng gần đúng với biên dạng cạnh thực tế:
Viền bước đột ngột và cạnh phẳng là dạng cực trị. Các mô hình mái nhà và các đường
viền chỉ được đưa ra cho đầy đủ và không được xem xét thêm.
Đối với các đối tượng có SNR đặc biệt cao (tỷ lệ tín hiệu trên nhiễu), việc phát
hiện cạnh có thể đạt được bằng cách tính toán gradient và sau đó sử dụng ngưỡng thích
hợp. Loại phương pháp này được gọi là dựa trên gradient. Gradient là một vectơ, có các
thành phần đo lường mức độ thay đổi nhanh chóng của giá trị điểm ảnh theo khoảng
cách theo hướng x và y. Do đó, các thành phần của gradient có thể được tìm thấy bằng
cách sử dụng giá trị gần đúng sau:

trong đó ∂x và ∂y lần lượt đo khoảng cách dọc theo hướng x và y. Để phát hiện sự
hiện diện của một gradient gián đoạn, chúng ta phải tính toán sự thay đổi trong gradient.
Chúng ta có thể làm điều này bằng cách tìm thước đo độ lớn gradient sau đây,

và hướng gradient, φ, cho bởi

Nhiều máy dò cạnh đã được thiết kế bằng kỹ thuật mặt nạ chập, thường sử dụng
kích thước mặt nạ 3x3 hoặc thậm chí lớn hơn (Sobel, Prewitt). Một lợi thế của việc sử
dụng kích thước mặt nạ lớn hơn là các lỗi do ảnh hưởng của nhiễu được giảm bớt bằng
cách lấy trung bình cục bộ trong vùng lân cận của mặt nạ. Một lợi thế của việc sử dụng
mặt nạ có kích thước kỳ lạ là các toán tử được căn giữa và do đó có thể cung cấp một
ước tính thiên về điểm ảnh trung tâm.

Vị trí cạnh Cạnh mờ


lý tưởng
Gradient
ạnh mờ

Laplacian

Hình 21: trắc diện 1-D của đường viền với đạo hàm bậc 1 và bậc 2
Một quan điểm hiện đại hơn để xử lý vấn đề về các cạnh là sử dụng các giao cắt
bằng không được tạo ra trong Laplacian của một hình ảnh được gọi là quy trình giao cắt
không. Laplacian của một hàm f (x, y), được xác định bởi:

Một lần nữa, các phép xấp xỉ chênh lệch rời rạc có thể được sử dụng để ước tính
các đạo hàm và biểu diễn toán tử Laplacian với mặt nạ tích chập 3x3. Tuy nhiên, có
những nhược điểm đối với việc sử dụng các dẫn xuất bậc hai. Các toán tử đạo hàm thứ
hai phóng đại ảnh hưởng của nhiễu và không có thông tin định hướng nào về cạnh được
đưa ra. Các vấn đề do nhiễu gây ra khi sử dụng bộ dò viền dẫn đến cần giảm nhiễu trong
ảnh trước hoặc kết hợp với quá trình phát hiện cạnh. Phương pháp chủ yếu được sử dụng
cho nhiệm vụ này là làm mịn Gaussian. Hàm phân phối Gaussian trong hai biến, g (x,
y), được xác định bởi

trong đó σ là độ lệch chuẩn đại diện cho độ rộng của phân bố Gaussian.
Sau khi làm mịn hình ảnh bằng toán tử Gaussian, có thể lấy Laplacian của hình
ảnh được làm mịn. Thao tác này có thể được rút gọn thành việc xoay ảnh gốc f (x, y)
bằng toán tử "Laplacian của Gaussian" (LOG)) ∇2 g(x,y). Do đó, các điểm ảnh cạnh
trong hình ảnh được xác định bằng một phép toán tích chập. Phương pháp phát hiện
cạnh này lần đầu tiên được đề xuất bởi Marr và Hildreth tại MIT, người đã đưa ra
nguyên tắc của phương pháp giao nhau bằng 0. Một phương pháp phát hiện cạnh có liên
quan là áp dụng toán tử Chênh lệch Gaussian (DOG) cho một hình ảnh, được tính bằng
cách áp dụng hai toán tử Gaussian với các giá trị khác nhau cho một hình ảnh và tạo
thành sự khác biệt của hai hình ảnh được làm mịn. Có thể chỉ ra rằng toán tử DOG xấp
xỉ với toán tử LOG.
Độ chính xác của điểm ảnh phụ
Khi độ phân giải của hình ảnh đủ cao, hầu hết các hệ thống thị giác chỉ thu được
các phép đo thích hợp bằng cách sử dụng độ chính xác điểm ảnh. Đôi khi rất khó để có
được độ phân giải hình ảnh tối thiểu cần thiết cho một ứng dụng thị giác; tuy nhiên, do
giới hạn về kích thước của các cảm biến có sẵn. Trong những trường hợp này, bạn có
thể tìm các vị trí cạnh với độ chính xác của điểm ảnh phụ.

Cường độ
mức xám

Hướng tìm
kiếm

Hình 22: Viền của điểm ảnh và giá trị nội suy dọc theo một vùng tìm kiếm
Phân tích điểm ảnh phụ là một phương pháp ước tính giá trị điểm ảnh mà hệ
thống hình ảnh có độ phân giải cao hơn sẽ cung cấp. Để tính toán vị trí của một cạnh với
độ chính xác của điểm ảnh phụ, trước tiên, phương pháp phát hiện cạnh sẽ phù hợp với
một hàm nội suy bậc cao hơn (ví dụ: hàm bậc hai hoặc khối) với dữ liệu cường độ điểm
ảnh.
Chức năng nội suy cung cấp thuật toán phát hiện cạnh với các giá trị cường độ
điểm ảnh giữa các giá trị điểm ảnh ban đầu. Sau đó, thông tin cường độ được sử dụng để
tìm vị trí của cạnh với độ chính xác của điểm ảnh phụ. Hình 24 cho biết cách một hàm
nội suy phù hợp với một tập giá trị điểm ảnh. Vùng tìm kiếm có thể có dạng đường
thẳng, chu vi của hình tròn hoặc hình elip, ranh giới của hình chữ nhật hoặc đa giác hoặc
vùng tự do. Phương pháp cụ thể phân tích các giá trị điểm ảnh dọc theo hồ sơ để phát
hiện những thay đổi cường độ đáng kể. Giá trị tại các vị trí giữa các điểm ảnh được ước
tính sử dụng sự phù hợp trên. Các thuật toán phát hiện cạnh sử dụng các giá trị này để
ước tính vị trí của cạnh với độ chính xác của điểm ảnh phụ. Tuy nhiên, kết quả ước tính
phụ thuộc nhiều vào thiết lập hình ảnh, chẳng hạn như điều kiện ánh sáng và ống kính
camera.

Biến đổi Hough được sửa đổi để phát hiện vòng tròn
Trong phương pháp HT ban đầu để tìm đường tròn, gradient cường độ trước tiên
được ước tính tại tất cả các vị trí trong ảnh và được lập ngưỡng để cung cấp cho các vị
trí của các cạnh có ý nghĩa. Vị trí của tất cả các vị trí trung tâm có thể sau đó được tích
lũy trong không gian tham số. Cuối cùng, không gian tham số được tìm kiếm các đỉnh
tương ứng với tâm của các vật thể tròn. Vì các cạnh có độ rộng khác không và nhiễu sẽ
luôn cản trở quá trình xác định vị trí đỉnh, vị trí trung tâm chính xác đòi hỏi phải sử dụng
các quy trình lấy trung bình phù hợp. Cách tiếp cận này yêu cầu một số lượng lớn điểm
được tích lũy trong không gian tham số. Khả năng khác là sử dụng thông tin định hướng
cạnh sẵn có tại địa phương tại mỗi điểm ảnh cạnh để cho phép ước tính vị trí chính xác
của các tâm vòng tròn. Điều này đạt được bằng cách di chuyển khoảng cách R dọc theo
cạnh bình thường tại mỗi vị trí cạnh. Điều này thể hiện sự tiết kiệm đáng kể trong tải
tính toán.

Hình 23: Không gian Hough cho tọa độ các đường tròn đồng tâm với bán kính khác
nhau (ảnh nguồn được sử dụng từ hệ thống camera toàn hướng)
Tuy nhiên, cải tiến này mang lại những sai số khác trong phép đo hướng cạnh cục
bộ. Các toán tử cạnh như Sobel đưa ra độ không chính xác cố hữu khoảng 1 °. Nhiễu
hình ảnh thường gây thêm sai số 1 ° nữa và đối với các đối tượng có bán kính 250 điểm
ảnh, kết quả là độ không đảm bảo tổng thể khoảng 8 điểm ảnh trong ước tính vị trí trung
tâm. Nói chung, không thể mong đợi độ chính xác điểm ảnh phụ của vị trí trung tâm khi
một mặt phẳng tham số đơn được sử dụng để phát hiện các vòng tròn trên một loạt các
kích thước. Điều này là do số lượng "lộn xộn" không liên quan xuất hiện trong không
gian tham số, có tác dụng làm giảm tỷ lệ tín hiệu trên nhiễu. Để có độ chính xác cao,
một phạm vi giá trị bán kính tương đối nhỏ nên được sử dụng trong bất kỳ một mặt
phẳng thông số nào, trong khi đối với tốc độ cao một mặt phẳng thông số thường sẽ bao
gồm việc phát hiện tất cả các kích thước vòng tròn. Khi tâm cần được ước tính trong
phạm vi 0,1 điểm ảnh, chúng ta nên tích lũy trong không gian tham số không phải là một
điểm trung tâm ứng viên duy nhất tương ứng với điểm ảnh cạnh đã cho, mà là một hàm
trải đều điểm (PSF) có thể được xấp xỉ bởi một hàm lỗi Gauss. Tuy nhiên, một kỹ thuật
có sẵn có thể cắt giảm việc tính toán mà không có độ chính xác đáng kể.

Hình 24: Cách sắp xếp để gia tăng xấp xỉ trung tâm
Sự cải tiến hơn nữa có thể đạt được bằng cách loại bỏ các sai số ngang, bởi vì hầu
hết sự thiếu chính xác trong việc tính toán vị trí của tâm phát sinh từ sai số ngang chứ
không phải là sai số xuyên tâm [ CITATION Dav05 \l 4105 ]. Điều này dẫn đến chiến lược
sau: tìm một điểm D trong vùng của trung tâm và sử dụng nó để có được giá trị gần
đúng hơn A đến tâm bằng cách di chuyển từ điểm ảnh cạnh hiện tại P một khoảng bằng
bán kính dự kiến r theo hướng của D (xem Hình 26). Sau đó lặp lại quy trình từng điểm
ảnh một cho đến khi tất cả các điểm ảnh cạnh đã được tính đến. Lý thuyết cho thấy rằng
đối với d nhỏ, kết quả trung bình sẽ là một sự cải thiện bởi một hệ số gần với 1,6 (giá trị
giới hạn là 0 d → là 2 / π (E.R. Davies, 1988)).
Mặc dù kỹ thuật Hough đã được chứng minh là có hiệu quả và mạnh mẽ trong
việc chống lại các vết cắn, tiếng ồn và các hiện vật khác, nhưng nó phải lưu trữ và tính
toán đáng kể –đặc biệt nếu cần xác định vị trí các vòng tròn có bán kính không xác định
hoặc nếu yêu cầu độ chính xác cao.
RANSAC
RANSAC là từ viết tắt của RANdom SAmple Consensus và liên quan đến việc cố
gắng nhiều lần để đạt được sự đồng thuận (tập hợp các nội dung) từ dữ liệu cho đến khi
mức độ phù hợp vượt quá một tiêu chí nhất định. Fischler và Bolles đã giới thiệu nó vào
năm 1981. Nó có khả năng giải thích và làm mịn dữ liệu có chứa một tỷ lệ phần trăm lỗi
tổng đáng kể. Ước tính chỉ đúng với một xác suất nhất định, vì RANSAC là công cụ ước
tính ngẫu nhiên. Thuật toán đã được áp dụng cho một loạt các vấn đề ước lượng tham số
mô hình trong thị giác máy tính, chẳng hạn như đối sánh đặc trưng, đăng ký hoặc phát
hiện các nguyên thủy hình học.
Cấu trúc của thuật toán RANSAC rất đơn giản nhưng mạnh mẽ. Đầu tiên, các
mẫu được lấy đồng nhất và ngẫu nhiên từ tập dữ liệu đầu vào. Mỗi điểm có xác suất
chọn như nhau (lấy mẫu điểm đồng nhất). Đối với mỗi mẫu, một giả thuyết mô hình
được xây dựng bằng cách tính toán các tham số của mô hình bằng cách sử dụng dữ liệu
mẫu. Kích thước của mẫu phụ thuộc vào mẫu người ta muốn tìm. Thông thường, nó là
kích thước nhỏ nhất đủ để xác định các thông số của mô hình. Trong trường hợp của
chúng tôi, việc phát hiện vòng tròn "biến dạng" là đủ ba điểm để xác định các tham số.
Đạo hàm tham số có thể được tìm thấy bằng cách giải phương trình định thức sau:

Trong đó đường tròn duy nhất đi qua ba điểm (x 1,y1) (x2,y2) (x3,y3), Ba điểm này
xác định một đường tròn duy nhất nếu và chỉ khi, chúng không nằm trên cùng một
đường thẳng. Đánh giá các đồng yếu tố cho hàng đầu tiên của định thức có thể giải
quyết định thức. Định thức có thể được viết dưới dạng một phương trình của các hệ số
này:

Sử dụng phương trình tổng quát của đường tròn, sắp xếp lại các số hạng và thay
thế bằng phương trình (2), cho ra:

Lưu ý rằng không có nghiệm khi M11 bằng không. Trong trường hợp này, các
điểm không nằm trên một đường tròn; tất cả chúng có thể nằm trên một đường thẳng.
Việc vẽ nhiều hơn số lượng điểm mẫu tối thiểu là không hiệu quả, vì xác suất
chọn mẫu chỉ bao gồm các điểm dữ liệu cơ bản (tức là tất cả các điểm dữ liệu thuộc
cùng một mô hình), đưa ra một ước tính tốt và ngẫu nhiên, giảm xuống so với kích
thước mẫu ngày càng tăng. Do đó, tập mẫu tối thiểu tối đa hóa xác suất chọn một tập
hợp các giá trị ngoại lệ mà từ đó ước tính tốt sẽ được tính toán sau này. Trong bước tiếp
theo, chất lượng của các mô hình giả định được đánh giá trên tập dữ liệu đầy đủ. Hàm
chi phí tính toán chất lượng của mô hình. Một chức năng phổ biến là đếm số lượng các
giá trị ngoại lai (tức là các điểm dữ liệu đồng ý với mô hình trong phạm vi dung sai).
Giả thuyết đưa ra ước tính tốt nhất được hỗ trợ nhiều nhất từ tập dữ liệu, đưa ra ước tính
tốt nhất. Thông thường, các thông số mô hình do RANSAC ước tính không chính xác
lắm. Do đó, các tham số mô hình ước tính được tính toán lại bằng ví dụ, một bình
phương nhỏ nhất phù hợp với tập hợp con dữ liệu, hỗ trợ ước tính tốt nhất.
Kỹ thuật RANSAC sử dụng ba biến để kiểm soát quá trình ước lượng mô hình.
Đầu tiên xác định xem một điểm dữ liệu có đồng ý với một mô hình hay không. Thông
thường, đây là một số khả năng chịu lỗi xác định một khối lượng mà trong đó tất cả các
điểm tương thích phải nằm trong đó. Số lượng giả thuyết mô hình được tạo là biến thứ
hai. Nó phụ thuộc vào xác suất để vẽ một mẫu chỉ bao gồm các điểm dữ liệu bên trong.
Khi tỷ lệ các giá trị ngoại lệ và kích thước bộ mẫu tối thiểu tăng lên thì số lượng giả
thuyết của mô hình phải được tăng lên để có được một ước lượng tốt về các tham số của
mô hình. Tỷ lệ các giá trị ngoại lệ phụ thuộc vào mức độ nhiễu và số lượng mô hình
được hỗ trợ bởi tập dữ liệu. Hơn nữa, cần có một biến dung sai để xác định xem đã tìm
thấy mô hình đúng hay chưa. Mô hình trích xuất được coi là hợp lệ nếu có đủ sự hỗ trợ
từ các điểm dữ liệu cho mô hình này. Hiệu suất của thuật toán suy giảm khi kích thước
mẫu ngày càng tăng. Hiệu quả tính toán của thuật toán có thể được cải thiện đáng kể
theo một số cách. Tốc độ phụ thuộc vào hai yếu tố: thứ nhất, số lượng mẫu phải được rút
ra để đảm bảo độ tin cậy nhất định để có được một ước tính tốt; và thứ hai, thời gian
dành để đánh giá chất lượng của từng mô hình giả định. Cái sau tỷ lệ với kích thước của
tập dữ liệu. Việc đánh giá các mô hình có thể được tối ưu hóa về mặt tính toán bằng
cách đánh giá ngẫu nhiên. Mọi mô hình giả định chỉ được thử nghiệm đầu tiên với một
số lượng nhỏ các điểm dữ liệu ngẫu nhiên từ tập dữ liệu. Nếu một mô hình không nhận
được đủ hỗ trợ từ tập hợp điểm ngẫu nhiên này, thì người ta có thể giả định với độ tin
cậy cao rằng mô hình không phải là một ước tính tốt. Các mô hình vượt qua đánh giá
ngẫu nhiên sau đó sẽ được đánh giá trên tập dữ liệu đầy đủ.
Phương pháp đề xuất
Sơ đồ khối
Trong luận án này, phương pháp được đề xuất như sau

Hình ảnh được ghi lại trực tiếp từ một hệ thống camera toàn hướng, sau đó được
truyền dữ liệu sang một máy tính để thực hiện các bước xử lý hình ảnh, phân loại, nhận
dạng sự kiện và đánh giá kết quả.
Trong hình ảnh thu được từ camera toàn hướng nguyên bản, các đối tượng càng ở
xa trung tâm của hình ảnh càng bị bóp méo, do đó chúng trở nên không phù hợp để xử
lý hình ảnh. Ngược lại, trong chế độ xem toàn cảnh không bị cong vênh, một vật thể
càng gần trung tâm của ảnh toàn hướng càng bị biến dạng. Từ những phân tích này, thay
vì chỉ phát hiện sự ngã trên video toàn hướng, chế độ xem toàn cảnh được sử dụng đồng
thời trong quá trình xử lý ảnh.
Đầu tiên, chế độ xem toàn cảnh (hoặc chế độ xem hình chữ nhật) được tạo ra bằng
cách khử cong vênh khung đa hướng bằng cách sử dụng phép biến đổi từ cực sang cacte.
Tiếp theo, vị trí của các đối tượng đã xóa nền được kiểm tra để xác định xem các đối
tượng nên được tiếp tục xử lý ở chế độ xem toàn cảnh hay chế độ toàn hướng. Các đối
tượng gần tâm của hình ảnh toàn hướng gốc sẽ được xử lý ở chế độ xem đa hướng, trong
khi các đối tượng gần các cạnh của ảnh gốc sẽ được xử lý trong chế độ xem toàn cảnh.
Sau đó, các đặc trưng của các đối tượng được trích xuất. Cần lưu ý rằng chúng được
trích xuất theo chế độ xem và xử lý tương ứng của từng đối tượng. Cuối cùng, các
phương pháp phân loại được áp dụng để nhận biết vật thể ở trạng thái ngã hay không.

Một số kiến thức nền tảng liên quan


1. Xóa nền hình ảnh
Xóa nền là quá trình trích xuất các đối tượng trước nền từ hình nền ban đầu. Đối
tượng trước nền là bất kỳ thực thể nào được phát hiện bằng cách tạo ra sự khác biệt của
mọi khung hình với khung hình nền. Phép xóa nền được chia thành phép xóa nền có
tham số và không có tham số. Mô hình nền có thể là tĩnh hoặc động, trong đó mô hình
nền động là một trong đó nền của cảnh có thể chứa các đối tượng chuyển động trong
môi trường ngoài trời, dựa trên Pixel và dựa trên khối là hai loại tiếp cận chính dành cho
Phép xóa nền.
Phát hiện đối tượng chuyển động trong các ứng dụng video thường được thực
hiện dựa trên các kỹ thuật như xóa nền, luồng quang học hoặc sai lệch thời gian. Phương
pháp phổ biến nhất để phát hiện đối tượng chuyển động từ chuỗi video là xóa nền.
Phương pháp này sử dụng mô hình toán học của nền tĩnh và so sánh nó với mọi khung
hình mới của chuỗi video.
Mô hình nền dựa trên Mô hình hỗn hợp Gaussian (GMM). Mô hình hỗn hợp
Gaussian thiết lập hình ảnh nền của mỗi pixel và cập nhật mô hình nền để thích ứng với
những thay đổi về ánh sáng (trong video) [4]. GMM là sự kết hợp của các mô hình
Gaussian khác nhau. Mô hình hỗn hợp Gauss là một mô hình xác suất giả định tất cả các
điểm dữ liệu được tạo ra từ hỗn hợp của một số hữu hạn các phân bố Gauss với các tham
số chưa biết [5]. Mỗi mô hình đại diện cho các pixel trong một chiều. Có 4 thuật toán
xóa nền phổ biến:
 Thuật toán GMG sử dụng Bayesian Inference & Kalman Filter để thiết lập nền
ban đầu và sử dụng GMM để cập nhật nền này [2].
 Thuật toán MOG sử dụng GMM trực tiếp để thiết lập và cập nhật nền [2].
 Thuật toán MOG2 dựa trên nguyên lý MOG’s, tuy nhiên ultilise mật độ xác suất
Gaussian Mixture và phương trình đệ quy để cập nhật liên tục các tham số [2].
 Thuật toán KNN tách cơ sở dữ liệu thành 2 phần: tập kiểm tra và tập huấn
luyện. Phương pháp này sử dụng GMM để cập nhật 2 bộ và Suy luận Bayes để đánh giá
ngưỡng của nền [2].
Như đã được chứng minh trong [ CITATION Vie19 \l 1066 ] , hai phương pháp khả thi
nhất được sử dụng là thuật toán MOG2 và KNN.
Sơ đồ khối chức năng của phương pháp đề xuất được mô tả trong Hình 2. Đầu
tiên, khung đầu tiên được lấy làm nền ban đầu. Nền này sau đó được chuyển đổi thành
thang độ xám. Chúng tôi áp dụng chức năng Gaussian Blur [8] để làm mịn và giảm
nhiễu của hình ảnh.

Hình 25: Kết quả sau khi chuyển đổi không gian màu và sử dụng làm mờ Gaussian (Gaussian Blur). a) Hình ảnh ban đầu b) Chuyển đổi
sang hệ màu xám c) Sau khi sử dụng Guassian Blur
Các thuật toán trừ nền (GMG, MOG, MOG2, KNN) [2] được áp dụng cho mỗi
khung hình, các đối tượng chuyển động sau đó được tách ra khỏi nền. Cụ thể hơn, các
pixel có giá trị trọng số thay đổi được coi là nền, trong khi các pixel có giá trị trọng số
không đổi được phân loại là nền trước và được chuyển đổi thành pixel đen. Bóng của
đối tượng được hiển thị bằng màu xám (Hình 4).

Hình 26: Hình ảnh sau khi xóa nền

Sau đó, bóng của đối tượng được loại bỏ bằng cách sử dụng hàm ngưỡng [8] -
một phương pháp phân đoạn, trong đó nếu giá trị pixel lớn hơn giá trị ngưỡng, nó sẽ
được gán giá trị RGB là (255,255,255) (màu trắng), nếu không thì nó sẽ được gán đến
giá trị của (0,0,0) (đen)

Hình 27: Hình ảnh sau khi loại bỏ bóng. a) Ảnh ban đầu. b) Ảnh trước khi loại bỏ bóng. c) Sau khi loại bỏ bóng

Do sự thay đổi ánh sáng, nhiễu có thể xảy ra khi so sánh hai khung hình liền kề.
Để loại bỏ nhiễu, chúng tôi sử dụng thuật toán hình thái mở [10]. Thuật toán này có
nguồn gốc từ hoạt động cơ bản của xói mòn và giãn nở. Tất cả các pixel bị xói mòn sau
đó giãn ra, dẫn đến loại bỏ nhiễu trong hình ảnh
Hình 28: Sơ đồ khối các bước xử lý xóa nền

Chương 3: Kết quả thực hiện


Cơ sở dữ liệu
Các công cụ sử dụng
Kết quả và nhận xét
Works Cited
[1] T. Zhang, J. Wang, L. Xuetal, "Using wearable sensor and NMF algorithm to realize ambulatory
fall detection, Lecture Notes in Computer Science, Advances in Natural Computation," 2006.
[2] N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," in Computer
Vision and Pattern Recognition, San Diego, 2005.
[3] T. K. Hareven, Historical Perspectives on Aging and Family Relations, 5th Edition ed., Elsevier
Science, 2001.
[4] Nayar, S., Baker, S., "A Theory of Catadioptric Image Formation".
[5] Pajdla, T., Roth, H., "Panoramic imaging with SVAVISCA camera – simulations and reality," 2000.
[6] Paletta, L., Frintrop, S., Hertzberg, J, "Robust localization using context in omnidirectional
imaging," in 2001 IEEE Intl. Conf. on Robotics and Automation (ICRA 2001), Seoul, Korea, 2001.
[7] H. Ishiguro, "Development of Low-Cost Compact Omnidirectional Vision Sensors and their
Applications," in Panoramic Vision. Monographs in Computer Science, Springer, New York, NY,
2001.
[8] Micusik, B., Pajdla, T., "Autocalibration & 3D Reconstruction with Non-central Catadioptric
Cameras," in IEEE Computer Society Conference on Computer Vision and Pattern Recognition
(CVPR'04), 2004.
[9] S. Gachter, Motion Detection as Application for the Omnidirectional Camera, Center for
Machine Perception, Department of CyberneticsFaculty of Electrical Engineering, Czech
Technical University, 2001.
[10] Svoboda, T., Pajdla, T., Hlavac, V., "Epipolar Geometry of Panoramic Cameras," in fifth European
Conference on Computer Vision, Freiburg, Germany, 1998.
[11] T. Svoboda, "Central Panoramic Cameras Design, Geometry, Egomotion," Center for Machine
Perception, Faculty of Electrical Engineering, Czech Technical University, 1999.
[12] Gaspar, J., Decco, C., Okamoto, J., Santos-Victor, J., "Constant Resolution Omnidirectional
Cameras," in Proceedings of the Third Workshop on Omnidirectional Vision (OMNIVIS’02), 2002.
[13] R. Bunschoten, "Mapping and Localization from a Panoramic Vision Sensor," Febodruk B.V.,
Enschede, The Netherlands, 2003.
[14] Y. Kwon, "Camera Calibration, The basic theory behind camera calibration," [Online]. Available:
http://www.kwon3d.com/theory/calib.html.
[15] Derrien, S., Konolige, K., "Approximating a single viewpoint in panoramic imaging devices," in
Proc. of the IEEE Workshop on Omnidirectional Vision, 2000.
[16] Swaminathan, R., Grossberg, M., Nayar, S., "Non-Single Viewpoint Catadioptric Cameras:
Geometry and Analysis," New York, 2001.
[17] Atherton, T., Kerbyson, D., "Size invariant circle detection," in Image and Vision Computing, vol.
17, 1999, pp. 795-803.
[18] Zelniker, E., Vaughan, I., Clarkson, L., "Maximum-Likelihood Circle- Parameter Estimation via
Convolution," in Proceedings of the VIIth Biennial Australian Pattern Recognition Society
Conference - Digital Image Computing: Techniques and Applications, Sydney, Australia, 2003.
[19] E. Davis, "Machine Vision: Theory, Algorithms, Practicalities," Elsevier, 2005.

You might also like