You are on page 1of 266

Machine Translated by Google

Phân đoạn hình ảnh 10

Toàn bộ bằng tổng của các bộ phận của nó.


Euclid

Tổng thể lớn hơn tổng các phần của nó.


Tối đa Wertheimer

Xem trước Tài

liệu trong chương trước đã bắt đầu quá trình chuyển đổi từ các phương pháp xử lý ảnh
có đầu vào và đầu ra là hình ảnh sang các phương thức trong đó đầu vào là hình ảnh
nhưng đầu ra là các thuộc tính được trích xuất từ những hình ảnh đó (theo nghĩa được
định nghĩa trong Phần 1.1). Phân khúc là một bước quan trọng khác theo hướng đó.
Phân đoạn sẽ chia hình ảnh thành các vùng hoặc đối tượng cấu thành của nó. Mức độ
chi tiết mà việc phân chia được thực hiện phụ thuộc vào vấn đề đang được giải quyết.
Nghĩa là, việc phân đoạn sẽ dừng khi các đối tượng hoặc vùng quan tâm trong ứng dụng
đã được phát hiện. Ví dụ: trong quá trình kiểm tra tự động các bộ phận điện tử, mối
quan tâm nằm ở việc phân tích hình ảnh của sản phẩm với mục tiêu xác định sự hiện
diện hay vắng mặt của các điểm bất thường cụ thể, chẳng hạn như các thành phần bị
thiếu hoặc đường dẫn kết nối bị hỏng. Không có ích gì khi thực hiện phân đoạn vượt
quá mức độ chi tiết cần thiết để xác định các yếu tố đó.
Phân đoạn ảnh không cần thiết là một trong những nhiệm vụ khó khăn nhất trong xử
lý ảnh. Độ chính xác của phân đoạn xác định sự thành công hay thất bại cuối cùng của
quy trình phân tích trên máy vi tính. Vì lý do này, cần phải hết sức cẩn thận để cải
thiện khả năng phân đoạn chính xác. Trong một số trường hợp, chẳng hạn như trong
các ứng dụng kiểm tra công nghiệp, ít nhất một số biện pháp kiểm soát môi trường
thường có thể thực hiện được. Người thiết kế hệ thống xử lý hình ảnh có kinh nghiệm
luôn chú ý đáng kể đến những cơ hội như vậy. Trong các ứng dụng khác, chẳng hạn như
việc thu thập mục tiêu tự động, người thiết kế hệ thống không có quyền kiểm soát môi
trường vận hành và thông thường

689
Machine Translated by Google

690 Chương 10 ■ Phân đoạn hình ảnh

Cách tiếp cận này là tập trung vào việc lựa chọn các loại cảm biến có khả năng nâng cao nhất
các đối tượng quan tâm đồng thời giảm bớt sự đóng góp của hình ảnh không liên quan
chi tiết. Một ví dụ điển hình là việc quân đội sử dụng hình ảnh hồng ngoại để phát hiện
các vật thể có dấu hiệu nhiệt mạnh, chẳng hạn như thiết bị và quân đội đang chuyển động.
Hầu hết các thuật toán phân đoạn trong chương này đều dựa trên một trong hai
Xem Phần 6.7 và tính chất cơ bản của các giá trị cường độ: sự gián đoạn và sự tương tự. Trong loại đầu
10.3.8 để thảo luận về
tiên, cách tiếp cận là phân vùng hình ảnh dựa trên những thay đổi đột ngột về cường độ,
kỹ thuật phân đoạn
dựa trên nhiều thứ hơn là chỉ chẳng hạn như các cạnh. Các cách tiếp cận chính trong danh mục thứ hai dựa trên việc phân
giá trị màu xám (cường độ).
vùng hình ảnh thành các vùng tương tự nhau theo một tập hợp các hình ảnh được xác định trước.
tiêu chuẩn. Ngưỡng, phát triển vùng, tách và hợp nhất vùng là những ví dụ về các
phương pháp trong danh mục này. Trong chương này, chúng tôi thảo luận và minh họa một
số các cách tiếp cận này và cho thấy rằng có thể đạt được những cải thiện về hiệu
suất phân khúc bằng cách kết hợp các phương pháp từ các danh mục riêng biệt, chẳng hạn như
là các kỹ thuật trong đó phát hiện cạnh được kết hợp với ngưỡng. Chúng tôi thảo luận
cũng phân đoạn hình ảnh dựa trên hình thái. Cách tiếp cận này đặc biệt
hấp dẫn vì nó kết hợp một số thuộc tính tích cực của phân đoạn
dựa trên các kỹ thuật được trình bày ở phần đầu của chương. Chúng tôi kết luận
chương thảo luận ngắn gọn về việc sử dụng tín hiệu chuyển động để phân đoạn.

10.1 Cơ bản
R
Hãy biểu thị toàn bộ vùng không gian bị chiếm bởi một hình ảnh. Chúng tôi có thể xem
phân đoạn hình ảnh như một quá trình phân vùng thành các tiểu vùng, R N

R1, R2, Á , Rn, như vậy mà

(Một)
d Ri = R.
tôi=1

Xem Phần 2.5.2 (b) tôi là một tập hợp liên thông, i = 1, 2, Á ,N.
về các tập hợp liên thông.
(c) tôi
¨ Rj = i cho tất
j, icảZ và
j.

(d) Q(R i) = TRUE vì i = 1, 2, Á ,N.

(e) Q (Ri ` Rj) = SAI cho bất kỳ vùng lân cận và


nàoRj R
Tôi
.

Ở đây, Q(Rk) là vị từ logic được xác định trên các điểm trong tập Rk,
hợp và là
¨ và biểu thị tập hợp hợp và giao tương ứng , như được
chưa cài đặt. Các ký hiệu
định nghĩa trong Phần 2.6.4. Hai vùng và được gọi là liền
Rj kề
nếu hợp của chúng tạo thành một tập hợp kết nối, như đã thảo luận trong Phần 2.5.2.

Điều kiện (a) chỉ ra rằng việc phân đoạn phải hoàn tất; đó là,
mỗi pixel phải nằm trong một vùng. Điều kiện (b) yêu cầu các điểm trong một vùng phải
được kết nối theo một số nghĩa được xác định trước (ví dụ: các điểm phải được kết nối 4 hoặc 8,

như được định nghĩa tại Mục 2.5.2). Điều kiện (c) chỉ ra rằng các vùng phải
phân chia. Điều kiện (d) đề cập đến các tính chất phải được thỏa mãn bởi
pixel trong vùng được phân đoạn—ví dụ: Q (Ri) = TRUE nếu tất cả các
pixel trong Ri có cùng mức cường độ. Cuối cùng, điều kiện (e) chỉ ra rằng hai cạnh nhau

khác nhauR về nghĩa của vị từ Q. j
vùng và phảiri

† Nói chung,Qcó thể là một biểu thức ghép, chẳng hạn như Q(Ri ) = TRUE nếu cường độ trung
R
bình của các pixel trong nhỏ hơn AND
Tôi
tôi ,
nếu độ lệch chuẩn của cường độ của chúng lớn hơn trong đó và tôi ,

là các tôi
hằng số tôiđược chỉ định.
Machine Translated by Google

10.1 ■ Cơ bản 691

Vì vậy, chúng ta thấy rằng vấn đề cơ bản trong phân đoạn là phân chia hình
ảnh thành các vùng thỏa mãn các điều kiện trước đó. Các thuật toán phân đoạn
cho hình ảnh đơn sắc thường dựa trên một trong hai loại cơ bản liên quan đến
các thuộc tính của giá trị cường độ: tính gián đoạn và tính tương tự. Trong
loại đầu tiên, giả định là ranh giới của các vùng đủ khác biệt với nhau và so
với nền để cho phép phát hiện ranh giới dựa trên sự gián đoạn cục bộ về cường
độ. Phân đoạn dựa trên cạnh là phương pháp chính được sử dụng trong danh mục
này. Các phương pháp phân đoạn dựa trên vùng trong danh mục thứ hai dựa trên
việc phân vùng hình ảnh thành các vùng tương tự nhau theo một bộ tiêu chí
được xác định trước.
Hình 10.1 minh họa các khái niệm trước đó. Hình 10.1(a) cho thấy hình ảnh
của một vùng có cường độ không đổi được đặt chồng lên nền tối hơn, cũng có
cường độ không đổi. Hai vùng này bao gồm vùng hình ảnh tổng thể. Hình 10.1(b)
cho thấy kết quả tính toán ranh giới của vùng bên trong dựa trên sự gián đoạn
cường độ. Các điểm ở bên trong và bên ngoài ranh giới có màu đen (không) vì
không có sự gián đoạn về cường độ trong các vùng lại đó. Để phân đoạn hình
ảnh, chúng tôi gán một mức (giả sử là màu trắng) cho các pixel trên hoặc bên
trong cho, ranh giới và một mức khác (chẳng hạn như màu đen) cho tất cả các
điểm bên ngoài ranh giới. Hình 10.1(c) thể hiện kết quả của quy trình như
vậy. Chúng ta thấy rằng các điều kiện (a) đến (c) nêu ở đầu phần này được thỏa mãn bởi

abcdef

HÌNH 10.1 (a) Ảnh chứa một vùng có cường độ không đổi. (b) Hình ảnh hiển thị ranh
giới của vùng bên trong, thu được từ sự không liên tục về cường độ. (c) Kết quả phân
ảnh thành hai vùng. (d) Hình ảnh chứa vùng có kết cấu. (e) Kết quả tính toán cạnh.
Lưu ý số lượng lớn các cạnh nhỏ được kết nối với ranh giới ban đầu, gây khó khăn cho
việc tìm ra một ranh giới duy nhất chỉ sử dụng thông tin cạnh. (f) Kết quả phân đoạn
dựa trên đặc tính vùng.
Machine Translated by Google

692 Chương 10 ■ Phân đoạn hình ảnh

kết quả này. Vị ngữ của điều kiện (d) là: Nếu một pixel nằm trên hoặc bên trong ranh giới,
hãy gắn nhãn cho nó màu trắng; nếu không thì gắn nhãn nó là màu đen. Chúng ta thấy rằng
vị từ này là TRUE cho các điểm được gắn nhãn đen và trắng trong Hình 10.1(c). Tương tự,
hai vùng được phân đoạn (đối tượng và nền) thỏa mãn điều kiện (e).
Ba hình ảnh tiếp theo minh họa phân đoạn dựa trên khu vực. Hình 10.1(d) tương tự như
Hình 10.1(a), nhưng cường độ của vùng bên trong tạo thành một mẫu có kết cấu. Hình 10.1(e)
cho thấy kết quả tính toán các cạnh của hình ảnh này.
Rõ ràng, vô số thay đổi cường độ giả tạo gây khó khăn cho việc xác định ranh giới duy nhất cho ảnh gốc

vì nhiều thay đổi cường độ khác 0 được kết nối với ranh giới, do đó phân đoạn dựa trên cạnh không phải

là cách tiếp cận phù hợp. Tuy nhiên, chúng tôi lưu ý rằng vùng bên ngoài là không đổi, vì vậy tất cả

những gì chúng ta cần để giải quyết vấn đề phân đoạn đơn giản này là một vị từ phân biệt giữa các vùng

có kết cấu và vùng không đổi. Độ lệch chuẩn của các giá trị pixel là thước đo thực hiện điều này, bởi

vì nó khác 0 ở các vùng của vùng kết cấu và bằng 0 ở các vùng khác. Hình 10.1(f) cho thấy kết quả của

việc chia ảnh gốc thành các vùng con có kích thước 4 * 4.

Sau đó, mỗi tiểu vùng

được gắn nhãn màu trắng nếu độ lệch chuẩn của các pixel của nó là dương (nghĩa là nếu vị từ là TRUE) và

bằng 0 nếu ngược lại. Kết quả có vẻ ngoài “khối” xung quanh rìa của vùng vì các nhóm hình vuông 4 * 4

được dán nhãn với cường độ như nhau. Cuối cùng, lưu ý rằng những kết quả này cũng thỏa mãn năm điều kiện

nêu ở đầu phần này.

10.2 Phát hiện điểm, đường và cạnh


Trọng tâm của phần này là các phương pháp phân đoạn dựa trên việc phát hiện những thay
đổi cục bộ, sắc nét về cường độ. Ba loại đặc điểm hình ảnh mà chúng ta quan tâm là các
Khi chúng ta đề cập đến điểm, đường và cạnh biệt lập. Pixel biên là các pixel tại đó cường độ của chức năng hình
các đường, chúng ta đang
ảnh thay đổi đột ngột và các cạnh (hoặc đoạn cạnh) là tập hợp các pixel cạnh được kết nối
đề cập đến các cấu trúc
mỏng, thường chỉ dày vài (xem Phần 2.5.2 về khả năng kết nối). Bộ phát hiện cạnh là phương pháp xử lý hình ảnh cục
pixel. Ví dụ, những đường
bộ được thiết kế để phát hiện các pixel cạnh. Một đường có thể được xem như một đoạn cạnh
như vậy có thể tương ứng với
các phần tử của bản vẽ trong đó cường độ của nền ở hai bên của đường đó cao hơn hoặc thấp hơn nhiều so với cường
kiến trúc số hóa hoặc
độ của các pixel của đường. Trên thực tế, như chúng ta thảo luận trong phần tiếp theo và
các con đường trong ảnh vệ tinh.
trong Phần 10.2.4, các đường dẫn đến cái gọi là “cạnh mái”.

Tương tự, một điểm cô lập có thể được xem như một đường thẳng có chiều dài và chiều rộng
bằng một pixel.

10.2.1 Nền Như chúng

ta đã thấy trong Phần 2.6.3 và 3.5, tính trung bình cục bộ làm mịn hình ảnh.
Cho rằng tính trung bình tương tự như tích phân, sẽ không có gì ngạc nhiên
khi những thay đổi cục bộ, đột ngột về cường độ có thể được phát hiện bằng
cách sử dụng đạo hàm. Vì những lý do sẽ sớm trở nên rõ ràng, đạo hàm cấp một
và cấp hai đặc biệt thích hợp cho mục đích này.
Đạo hàm của hàm số được xác định theo độ sai phân. Có nhiều cách khác nhau để tính gần
đúng những khác biệt này, nhưng, như đã giải thích trong Phần 3.6.1, chúng ta yêu cầu rằng
bất kỳ phép tính gần đúng nào được sử dụng cho đạo hàm bậc nhất (1) phải bằng 0 trong các
vùng có cường độ không đổi; (2) phải khác 0 khi bắt đầu bước cường độ hoặc đoạn đường nối;
và (3) phải khác 0 tại các điểm dọc theo cường độ
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 693

con dốc. Tương tự, chúng ta yêu cầu một phép tính gần đúng được sử dụng cho đạo hàm bậc hai
(1) phải bằng 0 ở những vùng có cường độ không đổi; (2) phải khác 0 tại
bắt đầu và kết thúc bước cường độ hoặc đoạn đường nối; và (3) phải bằng 0 dọc theo các
đường dốc cường độ. Bởi vì chúng ta đang xử lý các đại lượng số có giá trị hữu hạn, nên
sự thay đổi cường độ tối đa có thể có cũng hữu hạn và thời gian ngắn nhất có thể xảy ra.
khoảng cách mà thay đổi có thể xảy ra là giữa các pixel liền kề.
Chúng ta thu được một xấp xỉ với đạo hàm cấp một tại điểm của một x
hàm một chiều bằng cách mở rộng hàm
f(x) f(xmột
thành + ¢x) Nhớ lại từ Mục 2.4.2
tăng dần giữa
bài Prob-Taylor về việc
x, cho ¢x = 1, và chỉ giữ lại các số hạng tuyến tính (Loạt
mẫu hình ảnh được định

lem 10.1). Kết quả là sự khác biệt về mặt kỹ thuật số nghĩa là sự thống nhất

cho sự rõ ràng về mặt ký hiệu, do đó


việc sử dụng ¢x = 1 bên trong
0f
= f¿(x) = f(x + 1) - f(x) (10.2-1) đạo hàm của phương trình. (10.2-1).

0x

Ở đây chúng ta đã sử dụng đạo hàm riêng để đảm bảo tính nhất quán trong ký hiệu khi xét
er là hàm ảnh hai biến, tại thời điểm đó chúng
f(x, ta
y),sẽ xử lý
với đạo hàm riêng dọc theo hai trục không gian. Rõ ràng, 0f>0x = df> dx
khi nàof là hàm chỉ có một biến.
Chúng ta thu được biểu thức cho đạo hàm bậc hai bằng cách vi phân phương trình.
(10.2-1) đối với 02 f x:

= 0f¿(x)
= f¿(x + 1) - f¿(x)
0x2 0x

= f(x + 2) - f(x + 1) - f(x + 1) + f(x)

= f(x + 2) - 2f(x + 1) + f(x)

trong đó dòng thứ hai theo sau biểu thức. (10.2-1). Sự mở rộng này là về điểm
x+1. x, chúng tôi trừ đi 1
Mối quan tâm của chúng tôi là đạo hàm bậc hai về điểm vì vậy
từ các đối số trong biểu thức trước và thu được kết quả

02 f
= f–(x) = f(x + 1) + f(x - 1) - 2f(x) (10.2-2)
0x2

Có thể dễ dàng xác minh rằng các phương trình. (10.2-1) và (10.2-2) thỏa mãn điều kiện đã nêu
ở phần đầu của phần này về đạo hàm của số thứ nhất và số thứ hai
đặt hàng. Để minh họa điều này và cũng để làm nổi bật những điểm tương đồng cơ bản và
sự khác biệt giữa đạo hàm bậc một và bậc hai trong bối cảnh

xử lý ảnh, xem hình 10.2.


Hình 10.2(a) hiển thị một hình ảnh chứa nhiều vật thể rắn, một đường thẳng và một
điểm tiếng ồn duy nhất. Hình 10.2(b) hiển thị cấu hình cường độ ngang (đường quét)
của hình ảnh gần như đi qua tâm của nó, bao gồm cả điểm cô lập. Sự chuyển vị về cường
độ giữa các vật thể rắn và nền dọc theo quá trình quét
đường này hiển thị hai loại cạnh: cạnh đoạn đường nối (ở bên trái) và cạnh bậc thang (ở
Phải). Như chúng ta sẽ thảo luận sau, sự chuyển đổi cường độ liên quan đến các vật thể mỏng như

các đường thường được gọi là các cạnh của mái nhà. Hình 10.2(c) cho thấy sự đơn giản hóa
hồ sơ, với số điểm vừa đủ để giúp chúng tôi có thể phân tích bằng số cách các đạo hàm
cấp một và cấp hai hoạt động khi chúng gặp phải một
điểm nhiễu, đường thẳng và các cạnh của đối tượng. Trong sơ đồ đơn giản hóa này,
Machine Translated by Google

694 Chương 10 ■ Phân đoạn hình ảnh

quá trình chuyển đổi trong đoạn đường nối trải dài bốn pixel, điểm nhiễu là
một pixel, đường kẻ dày ba pixel và quá trình chuyển đổi bước cường độ diễn
ra giữa các pixel liền kề. Số lượng mức cường độ được giới hạn ở tám để đơn giản.
Hãy xem xét các tính chất của đạo hàm bậc nhất và đạo hàm bậc hai khi chúng
ta duyệt đồ thị từ trái sang phải. Ban đầu, chúng ta lưu ý rằng đạo hàm bậc
một khác 0 ở điểm bắt đầu và dọc theo toàn bộ đoạn đường nối cường độ, trong
khi đạo hàm bậc hai chỉ khác 0 ở điểm bắt đầu và kết thúc đoạn đường nối. Bởi
vì các cạnh của hình ảnh kỹ thuật số giống với kiểu chuyển đổi này, nên chúng
tôi kết luận rằng đạo hàm bậc một tạo ra các cạnh “dày” và đạo hàm bậc hai
mịn hơn nhiều. Tiếp theo chúng ta gặp phải điểm nhiễu bị cô lập. Ở đây, độ
lớn của đáp ứng tại điểm đối với đạo hàm bậc hai mạnh hơn nhiều so với đạo
hàm bậc một. Điều này không có gì bất ngờ, vì đạo hàm bậc hai có nhiều

7
Điểm cô lập
6

Con dốc
Cường

Bươ c chân
4 Đường kẻ
độ

3
Đoạn phẳng
2

Dải hình ảnh 5 54321000600001310000777 7

Dẫn suất đầu tiên 111110 0 6 6 00 0 1 2 210 0 0 7 0 0 0

Dẫn xuất thứ hai 10 0 0 0 1 0 6 12 60 0 1 1 41 1 0 0 7 70 0

bụng
c

HÌNH 10.2 (a) Hình ảnh. (b) Cấu hình cường độ ngang xuyên qua tâm ảnh, bao gồm cả điểm
nhiễu bị cô lập. (c) Hồ sơ đơn giản hóa (các điểm được nối bằng dấu gạch ngang cho rõ
ràng). Dải hình ảnh tương ứng với cấu hình cường độ và các số trong hộp là giá trị cường
độ của các chấm hiển thị trong cấu hình. Các dẫn xuất thu được bằng cách sử dụng các
phương trình. (10.2-1) và (10.2-2).
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 695

tích cực hơn đạo hàm cấp một trong việc tăng cường những thay đổi rõ rệt. Như vậy,

chúng ta có thể mong đợi các đạo hàm bậc hai sẽ tăng cường chi tiết tốt (bao gồm cả nhiễu)

hơn nhiều so với đạo hàm cấp một. Đường trong ví dụ này khá mỏng, vì vậy

nó cũng là chi tiết đẹp, và chúng ta lại thấy rằng đạo hàm bậc hai có độ lớn lớn hơn. Cuối

cùng, lưu ý ở cả cạnh đoạn đường nối và bậc thang rằng đạo hàm bậc hai

có dấu ngược nhau (âm sang dương hoặc dương sang âm) khi nó chuyển tiếp

vào và ra khỏi một cạnh. Hiệu ứng “hai cạnh” này là một đặc điểm quan trọng

như chúng tôi trình bày trong Phần 10.2.6, có thể được sử dụng để xác định vị trí các cạnh. Dấu hiệu của

đạo hàm bậc hai cũng được sử dụng để xác định xem một cạnh có phải là sự chuyển tiếp từ

sáng đến tối (đạo hàm bậc hai âm) hoặc từ tối đến sáng (đạo hàm bậc hai dương)

đạo hàm), trong đó dấu hiệu được quan sát thấy khi chúng ta di chuyển vào cạnh.

Tóm lại, chúng tôi đi đến các kết luận sau: (1) Đạo hàm cấp một

thường tạo ra các cạnh dày hơn trong một hình ảnh. (2) Đạo hàm bậc hai có

phản ứng mạnh mẽ hơn với các chi tiết nhỏ, chẳng hạn như đường mỏng, điểm biệt lập và nhiễu.

(3) Đạo hàm bậc hai tạo ra phản ứng hai cạnh ở đoạn đường nối và bậc

sự chuyển đổi về cường độ. (4) Dấu của đạo hàm bậc hai có thể được sử dụng để xác định xem sự

chuyển tiếp sang một cạnh là từ sáng sang tối hay từ tối sang sáng.

Cách tiếp cận được lựa chọn để tính đạo hàm bậc nhất và đạo hàm bậc hai ở mọi

vị trí pixel trong ảnh là sử dụng các bộ lọc không gian. Đối với 3 * 3 mặt nạ lọc trong

Hình 10.3, quy trình tính tổng tích của các hệ số mặt nạ

với các giá trị cường độ trong vùng được bao quanh bởi mặt nạ. Nghĩa là, có tham chiếu đến

phương trình. (3.4.3), phản hồi của mặt nạ tại điểm trung tâm của vùng là

R = w1z1 + w2z2 + Á + w9z9

9 (10.2-3)

= một ôi trời
k=1

cường độ zk
của pixel có vị trí không gian tương ứng với

vị trí của hệ số thứ k trong mặt nạ. Chi tiết thực hiện thao tác này trên tất cả các pixel

trong ảnh được thảo luận chi tiết trong Phần 3.4 và

3.6. Nói cách khác, tính toán đạo hàm dựa trên mặt nạ không gian là lọc không gian của một hình

ảnh với các mặt nạ đó, như được giải thích trong các phần đó.†

HÌNH 10.3
w1 w2 w3 Một tổng thể 3 * 3

mặt nạ lọc không gian

w4 w5 w6

w7 w8 w9

† Như đã giải thích ở Phần 3.4.3, Phương trình. (10.2-3) là ký hiệu đơn giản hóa cho tương quan không gian, được đưa ra bởi

phương trình. (3.4-1), hoặc tích chập không gian, được cho bởi biểu thức. (3.4-2).Do đó, khiR được đánh giá ở tất cả các vị trí trong

một hình ảnh, kết quả là một mảng. Tất cả việc lọc không gian trong chương này được thực hiện bằng cách sử dụng mối tương

quan. Trong một số trường hợp, chúng tôi sử dụng thuật ngữ kết hợp mặt nạ với hình ảnh như một quy ước. Tuy nhiên, chúng tôi sử dụng

thuật ngữ này chỉ khi mặt nạ bộ lọc đối xứng, trong trường hợp đó tương quan và tích chập
mang lại kết quả tương tự.
Machine Translated by Google

696 Chương 10 ■ Phân đoạn hình ảnh

10.2.2 Phát hiện các điểm biệt lập

Dựa trên các kết luận đạt được ở phần trước, chúng ta biết rằng việc phát hiện điểm phải dựa trên đạo
hàm bậc hai. Từ cuộc thảo luận ở Phần 3.6.2, điều này ngụ ý việc sử dụng Laplacian:

02 02f
f §2 f(x, y) + (10.2-4)
= 0x2 0y2

trong đó các phần được lấy bằng phương trình. (10.2-2):

02 f(x,
y) = f(x + 1, y) + f(x - 1, y) - 2f(x, y) (10.2-5)
0x2

02 f(x,
y) = f(x, y + 1) + f(x, y - 1) - 2f(x, y) (10.2-6)
0y2

Khi đó Laplacian là

§2 f(x, y) = f(x + 1, y) + f(x - 1, y) + f(x, y + 1)


(10.2-7)
+ f(x, y - 1) - 4f(x, y)

Như đã giải thích trong Phần 3.6.2, biểu thức này có thể được triển khai bằng cách sử dụng mặt nạ

trong Hình 3.37(a). Ngoài ra, như đã giải thích trong phần đó, chúng ta có thể mở rộng phương trình.

(10.2-7) để bao gồm các số hạng đường chéo và sử dụng mặt nạ trong Hình 3.37(b). Sử dụng mặt nạ

Laplacian trong Hình 10.4(a), giống như mặt nạ trong Hình 3.37(b), chúng ta nói rằng một điểm đã được

phát hiện tại vị trí (x, y) mà mặt nạ được căn giữa nếu giá trị tuyệt đối của phản hồi của mặt nạ tại

thời điểm đó vượt quá ngưỡng được chỉ định. Những điểm như vậy được gắn nhãn 1 trong ảnh đầu ra và

tất cả những điểm khác được gắn nhãn 0, do đó tạo ra ảnh nhị phân. Nói cách khác, đầu ra thu được

bằng biểu thức sau:

(10.2-8)
0 nếu không
g(x, y) = b 1 if ƒ R(x, y)ƒ Ú T

hình ảnh T không âm và được cho bởi biểu thức.


g đầu ra ở đâu, là ngưỡng R (10.2-3).
Công thức này chỉ đơn giản đo lường sự khác biệt có trọng số giữa một pixel
và 8 pixel lân cận của nó. Theo trực giác, ý tưởng là cường độ của một điểm
cô lập sẽ hoàn toàn khác với môi trường xung quanh và do đó sẽ dễ dàng được
phát hiện bằng loại mặt nạ này. Sự khác biệt duy nhất về cường độ được quan
tâm là những khác biệt đủ lớn (được xác định bởi ) để được coi làT các điểm
biệt lập. Lưu ý rằng, như thường lệ đối với mặt nạ đạo hàm, các hệ số tổng
bằng 0, biểu thị rằng phản ứng mặt nạ sẽ bằng 0 trong các vùng có cường độ
không đổi.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 697

Một

bcd
1 1 1
HÌNH 10.4 (a)

Mặt nạ phát
hiện điểm
1 số 8 1
(Laplacian). (b) Ảnh tia

X của cánh tuabin có


độ xốp.

1 1 1
Độ xốp chứa một

pixel màu đen. (c) Kết

quả của việc

kết hợp mặt nạ

với ảnh. (d) Kết


quả của việc sử

dụng phương trình

(10.2-8) hiển thị một

điểm duy nhất (điểm

được phóng to để dễ

nhìn hơn). (Hình ảnh


gốc được cung cấp bởi

X-TEK Systems, Ltd.)

■ Chúng tôi minh họa việc phân đoạn các điểm cô lập trong ảnh với sự trợ giúp của Hình 10.4(b), đây là hình ảnh tia X VÍ DỤ 10.1: Phát hiện

các điểm biệt lập


của cánh tuabin từ động cơ phản lực. Lưỡi dao có độ xốp ở góc phần tư phía trên bên phải của hình ảnh và có một pixel
trong ảnh.
màu đen duy nhất được nhúng trong độ xốp. Hình 10.4(c) là kết quả của việc áp dụng mặt nạ phát hiện điểm cho ảnh X-

quang và Hình 10.4(d) cho thấy kết quả của việc sử dụng phương trình. (10.2-8) bằng 90% giá trị T pixel tuyệt đối cao

nhất của hình ảnh trong Hình 10.4(c). Một pixel được hiển thị rõ ràng trong hình ảnh này (pixel được phóng to theo

cách thủ công để nâng cao khả năng hiển thị của nó). Loại quy trình phát hiện này khá chuyên biệt vì nó dựa trên sự

thay đổi cường độ đột ngột tại các vị trí pixel đơn được bao quanh bởi nền đồng nhất trong khu vực của mặt nạ máy dò.

Khi điều kiện này không được thỏa mãn, các phương pháp khác được thảo luận trong chương này sẽ phù hợp hơn để phát

hiện sự thay đổi cường độ. ■

10.2.3 Phát hiện dòng

Mức độ phức tạp tiếp theo là phát hiện dòng. Dựa trên thảo luận trong Phần
10.2.1, chúng ta biết rằng để phát hiện đường thẳng, chúng ta có thể mong đợi
các đạo hàm thứ hai mang lại phản ứng mạnh hơn và tạo ra các đường mỏng hơn so
với đạo hàm thứ nhất. Vì vậy, chúng ta có thể sử dụng mặt nạ Laplacian trong
Hình 10.4 (a) cũng để phát hiện đường thẳng, hãy nhớ rằng hiệu ứng đường đôi
của đạo hàm bậc hai phải được xử lý đúng cách. Ví dụ sau đây minh họa quy trình.
Machine Translated by Google

698 Chương 10 ■ Phân đoạn hình ảnh

VÍ DỤ 10.2: Sử dụng
■ Hình 10.5(a) hiển thị phần 486 * 486 (nhị phân) của mặt nạ liên kết dây cho một mạch điện tử và
Laplacian để
Hình 10.5(b) hiển thị hình ảnh Laplacian của nó. Vì ảnh Laplacian chứa các giá trị âm nên cần phải
phát hiện đường thẳng.
chia tỷ lệ để hiển thị. Như phần phóng to cho thấy, màu xám ở giữa biểu thị số 0, màu xám đậm hơn

biểu thị giá trị âm và màu sáng hơn biểu thị giá trị dương. Hiệu ứng đường đôi có thể nhìn thấy rõ

ràng ở vùng phóng đại.

Lúc đầu, có vẻ như các giá trị âm có thể được xử lý đơn giản bằng cách lấy giá trị tuyệt đối của

ảnh Laplacian. Tuy nhiên, như Hình 10.5(c) cho thấy, cách tiếp cận này làm tăng gấp đôi độ dày của

các đường. Một cách tiếp cận phù hợp hơn là chỉ sử dụng các giá trị dương của Laplacian (trong các

tình huống nhiễu, chúng tôi sử dụng các giá trị vượt quá ngưỡng dương để loại bỏ các biến thiên ngẫu

nhiên về 0 do nhiễu gây ra). Như hình ảnh trong Hình 10.5(d) cho thấy, cách tiếp cận này tạo ra các

đường mỏng hơn và hữu ích hơn đáng kể.

Lưu ý trong hình. 10.5(b) đến (d) rằng khi các đường rộng so với kích thước của mặt nạ Laplacian, các

đường này được phân tách bằng một “thung lũng” bằng 0.

A
B C D

HÌNH 10.5 (a)

Ảnh gốc. (b) Hình ảnh


Laplacian; phần
được phóng
to cho thấy đặc tính
hiệu ứng

đường đôi dương/âm


của Laplacian. (c)
Giá trị tuyệt đối của

Laplacian.
(d) Giá trị dương của
Laplacian.

† Khi một mặt nạ có tổng hệ số bằng 0 được tích chập với một hình ảnh, các pixel trong ảnh thu được
cũng sẽ có tổng bằng 0 (Bài toán 3.16), ngụ ý sự tồn tại của cả pixel dương và pixel âm trong kết quả.
Cần phải chia tỷ lệ sao cho tất cả các giá trị không âm cho mục đích hiển thị.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 699

Điều này không có gì bất ngờ. Ví dụ: khi 3 * 3 bộ lọc được tập trung vào một

dòng có cường độ không đổi rộng 5 pixel, phản hồi sẽ bằng 0, do đó tạo ra hiệu ứng vừa đề

cập. Khi chúng ta nói về phát hiện đường thẳng, giả định là các đường này mỏng so với kích

thước của máy dò. dòng

không thỏa mãn giả định này tốt nhất được coi là vùng và được xử lý bởi
các phương pháp phát hiện cạnh được thảo luận sau trong phần này. ■

Máy dò Laplacian trong Hình 10.4(a) là đẳng hướng, do đó phản ứng của nó không phụ thuộc vào

hướng (đối với bốn hướng của 3 * 3 tiếng Laplacian

mặt nạ: dọc, ngang và hai đường chéo). Thông thường, sự quan tâm nằm ở việc phát hiện

đường theo các hướng xác định . Hãy xem xét các mặt nạ trong Hình 10.6. Giả sử rằng một

hình ảnh có nền không đổi và chứa nhiều dòng khác nhau (được định hướng ở 0°,
Nhớ lại từ Mục 2.4.2
;45°, và 90°) được lọc bằng mặt nạ đầu tiên. Các phản hồi tối đa sẽ
rằng quy ước trục hình
xảy ra tại các vị trí hình ảnh trong đó một đường ngang đi qua giữa ảnh có gốc tại
phía trên bên trái, với
hàng của mặt nạ. Điều này có thể dễ dàng xác minh bằng cách phác họa một mảng đơn giản gồm 1 giây bằng một đường thẳng
trục x hướng dương
có cường độ khác nhau (giả sử là 5 giây) chạy theo chiều ngang qua mảng. Tương tự xuống và trục y dương
kéo dài đến
thí nghiệm sẽ tiết lộ rằng mặt nạ thứ hai trong Hình 10.6 phản ứng tốt nhất với các đường
Phải. Các góc của
định hướng ở +45°; mặt nạ thứ ba thành các đường thẳng đứng; và mặt nạ thứ tư cho các dòng trong các dòng được thảo luận trong này

phần được đo
-45° hướng. Hướng ưa thích của mỗi mặt nạ được tính trọng số với hệ số lớn hơn (tức là
đối với trục x dương .
2) so với các hướng có thể có khác. Các hệ số trong mỗi mặt nạ Ví dụ, một
đường thẳng đứng có một góc
tổng bằng 0, biểu thị phản ứng bằng 0 trong những vùng có cường độ không đổi.
của 0° và +45°
Đặt R1 , R2, R3, R4 thị phản hồi của mặt nạ trong Hình 10.6, từ
và biểu đường kéo dài xuống dưới và

rẽ phải.
từ trái sang phải, trong đó R được cho bởi biểu thức. (10.2-3). Giả sử rằng một hình ảnh là
Đừng nhầm lẫn việc chúng tôi sử dụng
được lọc (riêng lẻ) bằng bốn mặt nạ. Nếu tại một điểm nhất định trong ảnh,
R để chỉ định phản hồi
ƒ Rk ƒ 7 ƒ R j , với mọi j Z k, điểm đó được cho là có nhiều khả năng liên quan đến một
ƒ
lại mặt nạ với cùng một

k. nếu tại một điểm trong ảnh,


đường thẳng theo hướng của mặt nạ Ví dụ:
biểu tượng để biểu thị các vùng
trong Phần 10.1.

ƒ 1 ƒ 7 ƒ Rj ƒ với j = 2, 3, 4, điểm cụ thể đó được cho là có nhiều khả năng liên quan hơn

R được liên kết bằng một đường nằm ngang. Ngoài ra, chúng ta có thể quan tâm đến việc phát hiện

dòng theo một hướng xác định. Trong trường hợp này, chúng tôi sẽ sử dụng mặt nạ liên quan

với hướng đó và ngưỡng đầu ra của nó, như trong biểu thức. (10.2-8). Nói cách khác,

nếu chúng ta quan tâm đến việc phát hiện tất cả các dòng trong một hình ảnh theo hướng được

xác định bởi một mặt nạ nhất định, chúng ta chỉ cần chạy mặt nạ đó qua hình ảnh và đập giá

trị tuyệt đối của kết quả. Những điểm còn lại là mạnh nhất

các phản hồi, đối với các dòng có độ dày 1 pixel, tương ứng gần nhất với hướng

được xác định bởi mặt nạ. Ví dụ sau đây minh họa thủ tục này.

1 1 1 2 1 1 1 2 1 1 1 2

2 2 2 1 2 1 1 2 1 1 2 1

1 1 1 1 1 2 1 2 1 2 1 1

Nằm ngang 45 Thẳng đứng 45

HÌNH 10.6 Mặt nạ phát hiện đường thẳng. Các góc đối với hệ trục trong Hình 2.18(b).
Machine Translated by Google

700 Chương 10 ■ Phân đoạn hình ảnh

VÍ DỤ 10.3: ■ Hình 10.7(a) hiển thị hình ảnh được sử dụng trong ví dụ trước. Giả sử rằng
Phát hiện dòng
chúng tôi quan tâm đến việc tìm tất cả các đường có độ dày 1 pixel và được định hướng tại
trong quy định
+45°. Với mục đích này, chúng ta sử dụng mặt nạ thứ hai trong Hình 10.6. Hình 10.7(b) là
hướng.
kết quả của việc lọc ảnh với mặt nạ đó. Như trước, sắc thái tối hơn

hơn nền xám trong Hình 10.7(b) tương ứng với các giá trị âm. Ở đó
là hai phân đoạn chính trong hình ảnh được định hướng ở góc +45° hướng, một tại

phía trên bên trái và một ở phía dưới bên phải. Hình 10.7(c) và (d) hiển thị được phóng to

các phần của Hình 10.7(b) tương ứng với hai khu vực này. Lưu ý bao nhiêu

đoạn thẳng trong Hình 10.7(d) sáng hơn đoạn trong Hình 10.7(c). Lý do là đoạn thẳng ở phía

dưới bên phải của Hình 10.7(a) dày 1 pixel, trong khi đoạn thẳng ở phía trên bên trái thì

không. Mặt nạ là
“điều chỉnh” để phát hiện các đường dày 1 pixel ở góc +45° hướng, vì vậy chúng tôi hy vọng

phản ứng lại của nó sẽ mạnh mẽ hơn khi phát hiện những đường như vậy. Hình 10.7(e) cho thấy

giá trị dương của Hình 10.7(b). Vì chúng ta quan tâm đến phản hồi mạnh nhất nên chúng ta lấy
T
giá trị lớn nhất trong Hình 10.7(e) bằng nhau. Hình 10.7(f) cho thấy
màu trắng là các điểm có giá trị thỏa mãn điều kiện g Ú T, ở đâu g

hình ảnh trong Hình 10.7(e). Các điểm cô lập trong hình là những điểm cũng có
phản ứng mạnh mẽ tương tự đối với mặt nạ. Trong ảnh gốc, những điểm này và

những người hàng xóm gần gũi của họ được định hướng theo cách mà chiếc mặt nạ tạo ra

phản hồi tối đa ở những vị trí đó. Những điểm cô lập này có thể được phát hiện

bằng cách sử dụng mặt nạ trong Hình 10.4(a) rồi xóa hoặc có thể xóa chúng bằng cách sử dụng
toán tử hình thái học, như đã thảo luận ở chương trước. ■

10.2.4 Mô hình biên

Phát hiện cạnh là phương pháp được sử dụng thường xuyên nhất để phân đoạn hình ảnh dựa trên

về những thay đổi đột ngột (cục bộ) về cường độ. Chúng tôi bắt đầu bằng cách giới thiệu một số cách để

mô hình các cạnh và sau đó thảo luận về một số phương pháp phát hiện cạnh.

Các mô hình biên được phân loại theo cấu hình cường độ của chúng. Một bước cạnh

liên quan đến sự chuyển tiếp giữa hai mức cường độ xảy ra lý tưởng trong

khoảng cách 1 pixel. Hình 10.8(a) thể hiện một phần của cạnh bậc thang thẳng đứng và một
biên dạng cường độ ngang qua mép. Các cạnh bậc xuất hiện, ví dụ, trong

hình ảnh được tạo ra bởi máy tính để sử dụng trong các lĩnh vực như mô hình khối và

hoạt hình. Các cạnh lý tưởng , rõ ràng này có thể xuất hiện trong khoảng cách 1 pixel, với

điều kiện là không sử dụng quá trình xử lý bổ sung nào (chẳng hạn như làm mịn) để tạo ra chúng.
trông “thật”. Các cạnh bước số được sử dụng thường xuyên làm mô hình cạnh trong thuật toán

phát triển. Ví dụ: thuật toán phát hiện cạnh Canny được thảo luận trong

Phần 10.2.6 được rút ra bằng cách sử dụng mô hình từng bước.

Trong thực tế, hình ảnh kỹ thuật số có các cạnh bị mờ và nhiễu, với mức độ mờ được xác

định chủ yếu bởi các hạn chế trong cơ chế lấy nét (ví dụ: thấu kính trong trường hợp ảnh

quang học) và mức nhiễu được xác định.


chủ yếu bởi các thành phần điện tử của hệ thống hình ảnh. Trong những tình huống như vậy,

các cạnh được mô hình hóa chặt chẽ hơn khi có cấu hình đường dốc cường độ , chẳng hạn như

như cạnh trong Hình 10.8(b). Độ dốc của đoạn đường tỷ lệ nghịch với

mức độ mờ ở cạnh. Trong mô hình này, chúng tôi không còn có màn hình mỏng (1 pixel

đường dẫn dày). Thay vào đó, điểm cạnh bây giờ là bất kỳ điểm nào nằm trong đoạn đường nối và
khi đó một đoạn cạnh sẽ là một tập hợp các điểm được kết nối.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 701

abcdef
HÌNH 10.7 (a)

Hình ảnh của mẫu


liên kết dây.

(b) Kết quả

xử lý với mặt nạ

dò đường +45° trong


Hình 10.6. (c)

Chế độ xem phóng to

của vùng

trên cùng bên trái của

(b). (d) Chế độ

xem phóng to của

vùng dưới cùng bên


phải của (b). (e)

Hình ảnh trong (b)

với tất cả các giá trị

âm được đặt thành

0. (f) Tất cả các

điểm (màu trắng) có

giá trị thỏa mãn điều


kiện g Ú T, trong

đó g là ảnh

trong (e). (Các điểm

trong (f) đã được

phóng to để dễ nhìn

hơn .)

Mô hình thứ ba của cạnh được gọi là cạnh mái, có các đặc điểm được minh
họa trong Hình 10.8(c). Mép mái là mô hình các đường đi qua một vùng, với đáy
(chiều rộng) của mép mái được xác định bởi độ dày và độ sắc nét của đường.
Trong giới hạn, khi đáy của nó rộng 1 pixel, cạnh mái là
Machine Translated by Google

702 Chương 10 ■ Phân đoạn hình ảnh

abc
HÌNH 10.8 Từ

trái sang phải, các mô


hình (biểu diễn
lý tưởng) của bậc thang,
đoạn đường nối và cạnh
mái cũng như các
biên dạng cường độ tương
ứng của chúng.
thực sự không gì khác hơn là một đường dày 1 pixel chạy qua một vùng trong hình
ảnh. Ví dụ, các cạnh của mái nhà phát sinh trong chụp ảnh phạm vi, khi các vật thể
mỏng (chẳng hạn như đường ống) ở gần cảm biến hơn so với nền cách đều của chúng
(chẳng hạn như tường). Các đường ống có vẻ sáng hơn và do đó tạo ra một hình ảnh
tương tự như mô hình trong Hình 10.8(c). Như đã đề cập trước đó, các khu vực khác
mà mép mái xuất hiện thường xuyên là trong số hóa các bản vẽ đường và cả trong ảnh
vệ tinh, nơi mỏng các tính năng, chẳng hạn như đường, có thể được mô hình hóa bằng loại cạnh
Không có gì lạ khi tìm thấy những hình ảnh có cả ba loại cạnh. Mặc dù hiện tượng
mờ và nhiễu dẫn đến sai lệch so với hình dạng lý tưởng, các cạnh trong hình ảnh có
độ sắc nét vừa phải và có lượng nhiễu vừa phải sẽ giống với đặc điểm của các mô
hình cạnh trong Hình 10.8, như các cấu hình trong Hình 10.9 minh họa. † Những gì
các mô hình trong Hình 10.8 cho phép chúng ta làm là viết các biểu thức toán học
cho các cạnh trong quá trình phát triển các thuật toán xử lý ảnh. Hiệu suất của
các thuật toán này sẽ phụ thuộc vào sự khác biệt giữa các cạnh thực tế và các mô
hình được sử dụng để phát triển thuật toán.

HÌNH 10.9 A 1508 * 1970 hình ảnh hiển thị (phóng to) đường dốc thực tế (dưới,
trái), bậc (trên, phải) và biên dạng mép mái. Các cấu hình từ tối đến sáng, trong các
khu vực được biểu thị bằng các đoạn đường ngắn hiển thị trong các vòng tròn nhỏ. Cấu hình
đoạn đường nối và “bước” lần lượt có kích thước 9 pixel và 2 pixel. Nền của cạnh mái là 3 pixel.
(Hình ảnh gốc do Tiến sĩ David R. Pickens, Đại học Vanderbilt cung cấp.)


Các cạnh dốc có độ dốc sắc nét vài pixel thường được coi là các cạnh bậc thang để phân biệt chúng với
các đường dốc trong cùng một hình ảnh có độ dốc dần dần.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 703

Hình 10.10(a) hiển thị hình ảnh từ đó đoạn trong Hình 10.8(b) được trích xuất.
Hình 10.10(b) thể hiện đường cong cường độ theo chiều ngang. Hình này cũng cho thấy
đạo hàm bậc nhất và bậc hai của biểu đồ cường độ. Như trong phần thảo luận ở Phần
10.2.1, di chuyển từ trái sang phải dọc theo biểu đồ cường độ, chúng ta lưu ý rằng
đạo hàm bậc nhất là dương tại điểm bắt đầu của đoạn đường nối và tại các điểm trên
đoạn đường nối, và nó bằng 0 trong các diện tích của cường độ không đổi. Hàm khử
đối xứng thứ hai là dương ở đầu đoạn đường nối, âm ở cuối đoạn đường nối, bằng 0
tại các điểm trên đoạn đường nối và bằng 0 tại các điểm có cường độ không đổi. Dấu
của đạo hàm vừa thảo luận sẽ bị đảo ngược đối với một cạnh chuyển từ sáng sang
tối. Giao điểm giữa trục cường độ bằng 0 và một đường kéo dài giữa cực trị của đạo
hàm thứ hai đánh dấu một điểm gọi là giao điểm 0 của đạo hàm thứ hai.

Chúng tôi kết luận từ những quan sát này rằng độ lớn của đạo hàm thứ nhất có
thể được sử dụng để phát hiện sự hiện diện của một cạnh tại một điểm trong ảnh.
Tương tự, dấu của đạo hàm bậc hai có thể được sử dụng để xác định xem một pixel
cạnh nằm ở phía tối hay phía sáng của một cạnh. Chúng tôi lưu ý hai thuộc tính bổ
sung của đạo hàm bậc hai xung quanh một cạnh: (1) nó tạo ra hai giá trị cho mỗi
cạnh trong ảnh (một tính năng không mong muốn); và (2) các điểm giao nhau bằng 0
của nó có thể được sử dụng để định vị tâm của các cạnh dày, như chúng tôi sẽ trình
bày sau trong phần này. Một số mô hình biên tận dụng sự chuyển tiếp suôn sẻ vào và
ra khỏi đoạn đường nối (Bài toán 10.7). Tuy nhiên, kết luận đạt được khi sử dụng
các mô hình đó cũng giống như với một đoạn đường nối lý tưởng và làm việc với đường
dốc lý tưởng sẽ đơn giản hóa các công thức lý thuyết. Cuối cùng, mặc dù sự chú ý
cho đến nay chỉ giới hạn ở cấu hình ngang 1-D, một lập luận tương tự cũng áp dụng
cho cạnh của bất kỳ hướng nào trong ảnh. Chúng ta chỉ cần xác định một mặt cắt
vuông góc với hướng của cạnh tại bất kỳ điểm mong muốn nào và diễn giải các kết quả
theo cách tương tự như đối với cạnh thẳng đứng vừa thảo luận.

bụng

HÌNH 10.10 (a)

Hai vùng có cường độ

Hồ sơ cường độ ngang không đổi được ngăn

cách bởi một cạnh


dốc thẳng đứng

lý tưởng. (b)

Chi tiết gần rìa,

hiển thị cấu hình cường


độ nằm ngang,
Đầu tiên

phát sinh cùng với các đạo hàm

thứ nhất và thứ hai


của nó.

Dẫn
xuất thứ hai

Không qua
Machine Translated by Google

704 Chương 10 ■ Phân đoạn hình ảnh

VÍ DỤ 10.4: ■ Các cạnh trong Hình 10.8 không bị nhiễu. Các phân đoạn hình ảnh đầu tiên
Hành vi của
cột trong Hình 10.11 hiển thị cận cảnh bốn cạnh đoạn đường nối chuyển từ một
thứ nhất và thứ hai
vùng màu đen ở bên trái sang vùng màu trắng ở bên phải (hãy nhớ rằng toàn bộ quá trình
dẫn xuất của một
chuyển đổi từ đen sang trắng chỉ là một cạnh). Đoạn hình ảnh ở trên cùng
cạnh ồn ào.
bên trái không có tiếng ồn. Ba hình ảnh khác trong cột đầu tiên bị hỏng do
nhiễu Gaussian cộng với giá trị trung bình bằng 0 và độ lệch chuẩn là 0,1, 1,0 và

Mức cường độ tương ứng là 10,0. Biểu đồ bên dưới mỗi hình ảnh là một cấu hình cường độ nằm
ngang đi qua tâm của hình ảnh. Tất cả các hình ảnh đều có 8 bit
độ phân giải cường độ, với 0 và 255 tương ứng là màu đen và trắng.
Tính toán đạo hàm Hãy xem xét hình ảnh ở đầu cột trung tâm. Như đã thảo luận trong hình 10.10(b), đạo hàm
cho toàn bộ
của đường quét bên trái bằng 0 trong các vùng không đổi. Đây là hai dải màu đen hiển thị
phân đoạn hình
ảnh được thảo luận sau đây trong hình ảnh phái sinh. Các
phần. Hiện tại, mối quan tâm
đạo hàm tại các điểm trên đoạn đường nối không đổi và bằng độ dốc của đoạn đường nối.
của chúng tôi nằm ở việc phân tích

chỉ là hồ sơ cường độ. Các giá trị không đổi này trong ảnh phái sinh được hiển thị bằng màu xám. Khi chúng tôi di chuyển

ở cột giữa, các công cụ phái sinh ngày càng trở nên khác biệt so với
trường hợp không ồn ào. Trên thực tế, sẽ khó liên kết mặt cắt cuối cùng ở cột giữa với đạo
hàm bậc nhất của cạnh dốc. Điều khiến những kết quả này trở nên thú vị là nhiễu gần như
không thể nhìn thấy được trong các hình ảnh ở cột bên trái.
Những ví dụ này là những minh họa tốt về độ nhạy của đạo hàm đối với nhiễu.
Đúng như dự đoán, đạo hàm bậc hai thậm chí còn nhạy hơn với nhiễu. Đạo hàm cấp hai của
ảnh không nhiễu được hiển thị ở đầu cột bên phải.
Các đường thẳng đứng mỏng màu trắng và đen là thành phần dương và âm của đạo hàm bậc hai,
như được giải thích trong Hình 10.10. Màu xám trong các hình ảnh này đại diện cho số 0 (như
đã thảo luận trước đó, việc chia tỷ lệ khiến số 0 hiển thị dưới dạng màu xám).
Hình ảnh phái sinh thứ hai có nhiễu duy nhất gần như không giống với hình ảnh không có nhiễu
trường hợp tương ứng với nhiễu có độ lệch chuẩn là 0,1. Các hình ảnh và hồ sơ phái sinh
thứ hai còn lại minh họa rõ ràng rằng nó sẽ
thực sự rất khó để phát hiện các thành phần tích cực và tiêu cực của chúng, đó là
các tính năng thực sự hữu ích của đạo hàm bậc hai về mặt phát hiện cạnh.
Thực tế là tiếng ồn thị giác nhỏ như vậy có thể có tác động đáng kể đến
hai dẫn xuất chính được sử dụng để phát hiện các cạnh là một vấn đề quan trọng cần lưu ý
trong tâm trí. Đặc biệt, việc làm mịn hình ảnh cần được quan tâm nghiêm túc
trước khi sử dụng các dẫn xuất trong các ứng dụng có tiếng ồn với mức độ tương tự

những người chúng ta vừa thảo luận có thể sẽ có mặt. ■

Chúng tôi kết thúc phần này bằng cách lưu ý rằng có ba bước cơ bản
được thực hiện trong phát hiện cạnh:

1. Làm mịn hình ảnh để giảm nhiễu. Sự cần thiết của bước này là rất lớn
được minh họa bằng kết quả ở cột thứ hai và thứ ba của Hình 10.11.
2. Phát hiện các điểm cạnh. Như đã đề cập trước đó, đây là một hoạt động cục bộ
trích xuất từ một hình ảnh tất cả các điểm có thể là ứng cử viên cho
trở thành điểm biên.
3. Bản địa hóa cạnh. Mục tiêu của bước này là chọn ra ứng viên
cạnh chỉ trỏ các điểm là thành viên thực sự của tập hợp các điểm chứa một cạnh.

Phần còn lại của phần này đề cập đến các kỹ thuật để đạt được các mục tiêu này.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 705

HÌNH 10.11 Cột đầu tiên: Hình ảnh và cấu hình cường độ của cạnh dốc bị hỏng do nhiễu Gaussian
ngẫu nhiên có giá trị trung bình bằng 0 và độ lệch chuẩn lần lượt là 0,0, 0,1, 1,0 và 10,0.
Cột thứ hai: Hình ảnh đạo hàm đầu tiên và hồ sơ cường độ. Cột thứ ba: Hình ảnh đạo hàm thứ
hai và cấu hình cường độ.
Machine Translated by Google

706 Chương 10 ■ Phân đoạn hình ảnh

10.2.5 Phát hiện cạnh cơ bản

Như minh họa ở phần trước, việc phát hiện những thay đổi về cường độ của
Mục đích của việc tìm kiếm các cạnh có thể được thực hiện bằng cách sử dụng các đạo hàm bậc một hoặc
bậc hai. Chúng ta thảo luận về đạo hàm bậc nhất trong phần này và làm việc với đạo hàm bậc hai trong

Phần 10.2.6.

Độ dốc hình ảnh và các thuộc tính của nó

Công cụ được lựa chọn để tìm cường độ cạnh và hướng tại vị trí (x, y) của

f, một hình ảnh, là độ dốc, ký hiệu là §f,và được định nghĩa là vectơ

Để thuận tiện, chúng tôi

lặp lại ở đây một số

phương trình từ 0x
Phần 3.6.4.
(10.2-9)
0f
§f K grad(f) K B gx gy R =
D 00f
năm T

Vectơ này có tính chất hình học quan trọng là nó chỉ hướng
f tốc độ thay đổi lớn nhất của vị trí (x, y).
Độ lớn (chiều dài) của vectơ §f, ký hiệu là M(x, y), Ở đâu

2
M(x, y) = mag(§f) = 2gx 2 + gy (10.2-10)

là giá trị tốc độ thay đổi theo hướng của vectơ gradient.
Lưu ý rằng và là những hình ảnh
M(x,y)
có cùng kích thước với bản gốc,
g x, gy,
được tạo khi vàx được phép
y thay đổi trên tất cả các vị trí pixel trong Nó
f.
thực tế phổ biến là gọi hình ảnh sau là hình ảnh chuyển màu hoặc đơn giản là
chuyển màu khi ý nghĩa rõ ràng. Tổng, bình phương và
Các phép toán căn bậc hai là các phép toán mảng, như được định nghĩa trong Phần 2.6.1.
Hướng của vectơ gradient được cho bởi góc

gx R (10.2-11)
a(x, y) = tan- 1 Bgy

được đo theo trục x. Như trong trường hợp của hình ảnh gradient,
một(x, y) cũng là ảnh có cùng kích thước với ảnh gốc được tạo bởi mảng chia
ảnh theo ảnh Hướng gx .tại một điểm tùy ý
g y của một cạnh

(x, y) trực giao với hướng a(x, y), của vectơ gradient tại điểm đó.

VÍ DỤ 10.5: ■ Hình 10.12(a) hiển thị một phần được phóng to của hình ảnh chứa một đường thẳng
Thuộc tính của đoạn cạnh. Mỗi hình vuông được hiển thị tương ứng với một pixel và chúng tôi
dốc.
quan tâm đến việc đạt được cường độ và hướng của cạnh tại điểm được đánh dấu
với một hộp. Các pixel màu xám có giá trị 0 và các pixel màu trắng có giá trị 1.
Sau ví dụ này, chúng tôi chứng minh rằng một cách tiếp cận tính toán đạo hàm theo hướng x và y

bằng cách sử dụng 3 * 3 khu phố tập trung vào một


điểm chỉ bao gồm việc trừ các pixel ở hàng trên cùng của vùng lân cận khỏi
các pixel ở hàng dưới cùng để thu được đạo hàm riêng trong
hướng x. Tương tự, chúng ta trừ các pixel ở cột bên trái khỏi các pixel
ở cột bên phải để thu được đạo hàm riêng theo hướng y. Sau đó nó
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 707

Vectơ chuyển màu Vectơ chuyển màu

Một Một

90

Hướng cạnh
x

abc
HÌNH 10.12 Sử dụng gradient để xác định cường độ cạnh và hướng tại một điểm.
Lưu ý rằng cạnh vuông góc với hướng của vectơ gradient tại điểm
nơi gradient được tính toán. Mỗi ô vuông trong hình đại diện cho một pixel.

sau đây, bằng cách sử dụng những khác biệt này làm ước tính của chúng ta về từng phần, 0f>0x = -2 Nhắc lại từ Phần 2.4.2
rằng nguồn gốc của
và 0f>0y = 2 tại điểm được đề cập. Sau đó, hệ tọa độ ảnh
ở trên cùng bên trái, với
trục x và y dương
kéo dài xuống và đến
0x bên phải, tương ứng.

0f = B -2
2 R
§f = B gx
gy R =
D 00f
năm T

từ đó chúng tôi có được M(x, y) = 222 tại thời điểm đó. Tương tự, hướng của
vectơ gradient tại cùng một điểm theo biểu thức. (10.2-11):
a(x, y) = tan-1 (gy>gx) = -45°, tương đương với 135° được đo trong

chiều dương đối với trục x. Hình 10.12(b) thể hiện độ dốc
vectơ và góc định hướng của nó.
Hình 10.12(c) minh họa một thực tế quan trọng được đề cập trước đó rằng
cạnh tại một điểm trực giao với vectơ gradient tại điểm đó. Vì vậy, góc định hướng của cạnh trong

ví dụ này là - 90° = 45°. Tất cả các điểm cạnh trong

Hình 10.12(a) có cùng độ dốc nên toàn bộ đoạn cạnh nằm trong cùng một
phương hướng. Vectơ gradient đôi khi được gọi là cạnh chuẩn tắc. Khi mà
vectơ được chuẩn hóa thành độ dài đơn vị bằng cách chia nó cho độ lớn của nó [Eq. (10.2-10)],
vectơ kết quả thường được gọi là đơn vị cạnh chuẩn tắc. ■

Toán tử gradient
Để có được độ dốc của hình ảnh yêu cầu tính toán đạo hàm riêng
0f>0x và 0f>0y tại mọi vị trí pixel trong ảnh. Chúng ta đang xử lý các
đại lượng số, do đó, phép tính gần đúng số của đạo hàm riêng trên một
lân cận về một điểm là bắt buộc. Từ Mục 10.2.1 chúng ta biết rằng

0f(x,y)
gx = = f(x + 1, y) - f(x, y) (10.2-12)
0x

= 0f(x,y)
g y = f(x, y + 1) - f(x, y) (10.2-13)
0 năm
Machine Translated by Google

708 Chương 10 ■ Phân đoạn hình ảnh

bụng
1 1 1
HÌNH 10.13
Một chiều
mặt nạ được sử dụng để 1
thực hiện các phương trình.

(10.2-12) và
(10.2-13). Hai phương trình này có thể được thực hiện cho tất cả các giá trị thích hợpx của vày bởi
lọc bằng f(x,
mặt nạ
y) 1-D trong Hình 10.13.
Khi quan tâm đến hướng của đường chéo, chúng ta cần mặt nạ 2-D. Roberts
các toán tử chéo gradient (Roberts [1965]) là một trong những nỗ lực sớm nhất để sử dụng
Mặt nạ 2-D có ưu tiên đường chéo. Hãy xem xét 3 * 3 vùng trong Hình 10.14(a).
Các toán tử Roberts dựa trên việc thực hiện sự khác biệt đường chéo

0f
gx = = (z9 - z5) (10.2-14)
0x
Trong phần còn lại của điều này

phần chúng tôi giả định

ngầm định đó làf hàm


hai biến,

và bỏ qua các biến để

đơn giản hóa ký hiệu. = 0f


g y = (z8 - z6) (10.2-15)
0 năm

Một

bc z1 z2 z3
de
fg
z4 z5 z6
HÌNH 10.14
Một3 khu
* 3 vực
z7 z8 z9
một hình ảnh ( z
là cường độ
giá trị) và
1 0 0 1
mặt nạ khác nhau

được sử dụng để tính toán

độ dốc tại 0 1 1 0
điểm được dán nhãn
z5. Roberts

1 1 1 1 0 1

Mặt nạ lọc được sử dụng


0 0 0 1 0 1
để tính đạo hàm

cần thiết cho độ dốc


thường được gọi là độ dốc
1 1 1 1 0 1
toán tử, toán tử sai
phân, toán tử biên,
hoặc máy dò cạnh. Prewitt

1 2 1 1 0 1

0 0 0 2 0 2

1 2 1 1 0 1

Sobel
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 709

Những dẫn xuất này có thể được thực hiện bằng cách lọc một hình ảnh với các mặt nạ trong
Quả sung. 10.14(b) và (c).
Mặt nạ cỡ 2 * 2 về mặt khái niệm thì đơn giản nhưng chúng không hữu ích cho
tính toán hướng cạnh như các mặt nạ đối xứng với điểm trung tâm,
nhỏ nhất trong số đó có kích thước 3 * 3. Những mặt nạ này tính đến bản chất của dữ liệu ở

các phía đối diện của điểm trung tâm và do đó mang nhiều thông tin hơn về hướng của một cạnh. Các

phép tính gần đúng kỹ thuật số đơn giản nhất

đến đạo hàm riêng sử dụng mặt nạ có kích thước 3 * 3 được đưa ra bởi
Mặc dù các
phương trình này bao gồm một
0f khu phố lớn hơn, chúng tôi
gx = = (z7 + z8 + z9) - (z1 + z2 + z3) (10.2-16) vẫn đang giải quyết
0x
Khác biệt giữa
giá trị cường độ, do đó
Và kết luận trước đó

các cuộc thảo luận liên quan đến

đạo hàm cấp một

0f vẫn áp dụng.
gy = = (z3 + z6 + z9) - (z1 + z4 + z7) (10.2-17)
0y

Trong các công thức này, sự khác biệt giữa hàng thứ ba và hàng đầu tiên của
3 * 3 vùng xấp xỉ đạo hàm theo hướng x và sự khác biệt
giữa cột thứ ba và cột đầu tiên gần đúng với đạo hàm theo hướng y.
Theo trực giác, chúng ta mong đợi những phép tính gần đúng này sẽ chính xác hơn
các giá trị gần đúng thu được bằng cách sử dụng các toán tử Roberts. Phương trình (10.2-16)
và (10.2-17) có thể được triển khai trên toàn bộ ảnh bằng cách lọc bằng f
hai mặt nạ trong hình. 10.14(d) và (e).Những mặt nạ này được gọi là toán tử Prewitt
(Prewitt [1970]).
Một biến thể nhỏ của hai phương trình trước đó sử dụng trọng số là 2 trong
hệ số trung tâm:

0f
gx = = (z7 + 2z8 + z9) - (z1 + 2z2 + z3) (10.2-18)
0x

0f
gy = = (z3 + 2z6 + z9) - (z1 + 2z4 + z7) (10.2-19)
0y

Có thể chứng minh (Bài toán 10.10) rằng việc sử dụng số 2 ở vị trí trung tâm sẽ mang lại
làm mịn ảnh. Hình 10.14(f) và (g) hiển thị các mặt nạ được sử dụng để thực hiện
phương trình. (10.2-18) và (10.2-19). Những mặt nạ này được gọi là toán tử Sobel
(Sobel [1970]).
Mặt nạ Prewitt thực hiện đơn giản hơn so với mặt nạ Sobel, nhưng,
sự khác biệt nhỏ về mặt tính toán giữa chúng thường không phải là vấn đề.
Thực tế là mặt nạ Sobel có khả năng chống ồn (làm mịn) tốt hơn
các đặc tính này làm cho chúng được ưu tiên hơn bởi vì, như đã đề cập ở phần trước,
việc khử tiếng ồn là một vấn đề quan trọng khi xử lý các dẫn xuất. Lưu ý rằng các
hệ số của tất cả các mặt nạ trong Hình 10.14 có tổng bằng 0,
do đó đưa ra phản hồi bằng 0 trong các khu vực có cường độ không đổi, như mong đợi về một
toán tử phái sinh.
Machine Translated by Google

710 Chương 10 ■ Phân đoạn hình ảnh

bụng
đĩa CD 0 1 1 1 1 0

HÌNH 10.15
Prewitt và Sobel 1 0 1 1 0 1
mặt nạ cho
phát hiện đường chéo
1 1 0 0 1 1
các cạnh.

Prewitt

0 1 2 2 1 0

1 0 1 1 0 1

2 1 0 0 1 2

Sobel

Các mặt nạ vừa thảo luận được sử dụng để thu được các thành phần gradient và
gx

phòng tập thể dục tại mọi vị trí pixel trong ảnh. Hai đạo hàm riêng này sau đó là
được sử dụng để ước tính cường độ và hướng của cạnh. Tính độ lớn của
gradient yêu cầu điều đógxvà được kết hợp theo cách hiển thị trong biểu thức. (10.2-
phòng tập thể dục

10). Tuy nhiên, việc triển khai này không phải lúc nào cũng được mong muốn vì gánh
nặng tính toán mà bình phương và căn bậc hai yêu cầu. Một cách tiếp cận được sử dụng
thường là xấp xỉ độ lớn của gradient bằng các giá trị tuyệt đối:

M(x, y) L ƒ gx ƒ + ƒ gy ƒ (10.2-20)

Phương trình này hấp dẫn hơn về mặt tính toán và nó vẫn bảo toàn tương đối
sự thay đổi về mức cường độ. Cái giá phải trả cho lợi thế này là các bộ lọc thu được
sẽ không đẳng hướng (bất biến đối với phép quay) nói chung. Tuy nhiên, điều này
không phải là vấn đề khi sử dụng các mặt nạ như mặt nạ Prewitt và Sobel để

tính toán và ,
g x bởi vì những mặt nạ này chỉ cho kết quả đẳng hướng đối với chiều dọc
phòng tập thể dục

và các cạnh ngang. Kết quả sẽ chỉ đẳng hướng đối với các cạnh trong hai cạnh đó
hướng, bất kể phương trình nào trong hai phương trình được sử dụng. Ngoài ra, các phương trình.

(10.2-10) và (10.2-20) cho kết quả giống nhau đối với cạnh dọc và cạnh ngang
khi sử dụng mặt nạ Sobel hoặc Prewitt (Bài toán 10.8).
Có thể sửa đổi 3 * 3 mặt nạ trong Hình 10.14 để chúng có
phản ứng mạnh nhất dọc theo các hướng chéo. Hình 10.15 cho thấy hai
cần thêm mặt nạ Prewitt và Sobel để phát hiện các cạnh trong đường chéo
hướng.

VÍ DỤ 10.6: ■ Hình 10.16 minh họa đáp ứng giá trị tuyệt đối của hai thành phần
Minh họa của
gx ƒ của gradient, ƒcũng như ƒhình
gy ƒ , ảnh gradient được hình thành từ
Độ dốc 2-D
tổng của hai thành phần này. Tính định hướng của các thành phần ngang và dọc của
độ lớn và
góc. gradient được thể hiện rõ trong Hình. 10.16(b) và (c). Lưu ý, đối với
Ví dụ, độ bền của mái ngói, các mối nối gạch ngang và các phân đoạn ngang của cửa
sổ trong Hình 10.16(b) so với các cạnh khác. Ngược lại,
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 711

A
B C D

HÌNH 10.16 (a)

Ảnh gốc có kích thước


834 *

1114 pixel, với các giá

trị cường độ được


chia tỷ lệ theo phạm

vi [0, 1]. ƒ gx ƒ

phần,
thành (b)

gradient theo hướng x,

thu được bằng cách


sử dụng mặt nạ

Sobel trong Hình


10.14(f) để lọc hình

ảnh. ƒ gy ƒ (c)

thu được bằng cách

dụng sử , trong Hình


mặt nạ

10.14(g). (d) Ảnh

gradient , ƒ gx

ƒ + ƒ gy ƒ .

Hình 10.16(c) thiên về các đặc điểm như các thành phần thẳng đứng của mặt tiền và cửa
sổ. Thuật ngữ phổ biến là sử dụng thuật ngữ bản đồ cạnh khi đề cập đến một hình ảnh có
đặc điểm chính là các cạnh, chẳng hạn như hình ảnh cường độ gradient. Cường độ của hình
ảnh trong Hình 10.16(a) được chia tỷ lệ thành phạm vi [0, 1]. Chúng tôi sử dụng các giá
trị trong phạm vi này để đơn giản hóa việc lựa chọn tham số trong các phương pháp khác
nhau để phát hiện cạnh được thảo luận trong phần này.
Hình 10.17 cho thấy hình ảnh góc gradient được tính toán bằng phương trình. (10.2-11).
Nói chung, hình ảnh góc không hữu ích như hình ảnh độ lớn độ dốc để phát hiện cạnh, nhưng
chúng bổ sung thông tin được trích xuất từ hình ảnh bằng cách sử dụng độ lớn của độ dốc.
Ví dụ, các vùng có cường độ không đổi trong Hình 10.16(a), chẳng hạn như cạnh trước của
mái dốc và các dải ngang trên cùng của bức tường phía trước, không đổi trong Hình 10.17,
cho thấy hướng của vectơ độ dốc hoàn toàn không thay đổi vị trí pixel ở các vùng đó là
như nhau.

HÌNH 10.17 Hình

ảnh góc gradient


được tính toán bằng
phương
trình. (10.2-11).
Các vùng có cường độ

không đổi trong hình

ảnh này cho biết


hướng của vectơ

gradient là như
nhau ở tất cả các vị

trí pixel trong


các vùng đó.
Machine Translated by Google

712 Chương 10 ■ Phân đoạn hình ảnh

Như chúng tôi trình bày ở Phần 10.2.6, thông tin về góc đóng vai trò hỗ trợ quan trọng trong

việc triển khai thuật toán phát hiện cạnh Canny, phương pháp phát hiện cạnh tiên tiến nhất mà chúng ta thảo luận

trong chương này. ■

Ảnh gốc trong Hình 10.16(a) có độ phân giải khá cao


( pixel) và ở khoảng cách hình ảnh được thu được, contribu-834 * 1114
Sự chú ý đến chi tiết hình ảnh bằng gạch ốp tường là rất đáng kể. Mức độ chi tiết tốt này
thường không được mong muốn trong việc phát hiện cạnh vì nó có xu hướng hoạt động như nhiễu,
được tăng cường bởi các tính toán đạo hàm và do đó làm phức tạp việc phát hiện

Cạnh tối đa của các cạnh chính trong một hình ảnh. Một cách để giảm chi tiết nhỏ là làm mịn
sức mạnh (độ lớn) của bức hình. Hình 10.18 hiển thị chuỗi hình ảnh tương tự như trong Hình 10.16, nhưng
một hình ảnh được
làm mịn giảm tỷ lệ nghịch với với hình ảnh gốc được làm mịn trước bằng cách sử dụng 5 * 5 bộ lọc trung bình (xem
chức năng kích thước của
Phần 3.5 liên quan đến bộ lọc làm mịn). Phản hồi của từng mặt nạ bây giờ
mặt nạ làm mịn (Bài
toán 10.13). cho thấy hầu như không có sự đóng góp nào do các viên gạch, với kết quả chủ yếu bị chi
phối bởi các cạnh chính.
Nó được thể hiện rõ ràng trong hình. 10.16 và 10.18 rằng Sobel ngang và dọc
mặt nạ không phân biệt giữa các cạnh được định hướng trong ;45° hướng. Nếu nó

điều quan trọng là phải nhấn mạnh các cạnh dọc theo hướng chéo, thì một trong những
nên sử dụng mặt nạ trong Hình 10.15. Hình 10.19(a) và (b) thể hiện giá trị tuyệt đối
phản ứng của 45° và -45° Mặt nạ Sobel tương ứng. Đường chéo mạnh hơn
Phản ứng của những chiếc mặt nạ này được thể hiện rõ ràng trong những hình ảnh này. Cả hai mặt nạ chéo đều có

phản ứng tương tự với các cạnh ngang và dọc nhưng, như mong đợi, phản ứng của chúng
theo các hướng này yếu hơn phản ứng của phương ngang và phương dọc
mặt nạ, như đã thảo luận trước đó.

bụng
đĩa CD

HÌNH 10.18
Trình tự tương tự như
trong Hình 10.16, nhưng

với bản gốc


hình ảnh được làm mịn
sử dụng 5 * 5
bộ lọc trung bình
trước cạnh
phát hiện.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 713

bụng

HÌNH 10.19 Phát

hiện cạnh chéo.

(a) Kết quả của

việc sử dụng mặt nạ

trong Hình

10.15(c). (b)

Kết quả của việc sử

dụng mặt nạ trong Hình

10.15(d). Hình ảnh


đầu vào trong cả hai trường hợp là

Hình 10.18(a).

Kết hợp độ dốc với ngưỡng . Các kết quả trong

Hình 10.18 cho thấy việc phát hiện cạnh có thể được thực hiện có chọn lọc hơn
bằng cách làm mịn hình ảnh trước khi tính toán độ dốc. Một cách tiếp cận khác
nhằm đạt được mục tiêu cơ bản tương tự là đặt ngưỡng cho hình ảnh gradient.
Ví dụ: Hình 10.20(a) hiển thị hình ảnh chuyển màu từ Hình 10.16(d) trước Ngưỡng được sử dụng để

ngưỡng, theo nghĩa là các pixel có giá trị lớn hơn hoặc bằng 33% giá trị tối
tạo Hình 10.20(a) đã được
chọn sao cho hầu hết

đa của hình ảnh chuyển màu được hiển thị bằng màu trắng , trong khi các pixel các cạnh nhỏ do gạch gây ra đã

dưới giá trị ngưỡng được hiển thị bằng màu đen. So sánh hình ảnh này với Hình
được loại bỏ. Hãy nhớ lại rằng
điều này

10.18(d), chúng ta thấy rằng có ít cạnh hơn trong hình ảnh được ngưỡng và các là mục tiêu ban đầu để làm mịn

cạnh trong hình ảnh này sắc nét hơn nhiều (ví dụ, xem các cạnh trong mái
hình ảnh trong Hình 10.16 trước

khi tính toán độ dốc.

ngói). Mặt khác, nhiều cạnh, chẳng hạn như đường 45° xác định cạnh xa của mái
nhà, bị hỏng trong ảnh có ngưỡng.
Khi mối quan tâm nằm ở việc làm nổi bật các cạnh chính và duy trì càng
nhiều kết nối càng tốt, thực tế thông thường là sử dụng cả làm mịn và phân
ngưỡng. Hình 10.20(b) cho thấy kết quả của ngưỡng Hình 10.18(d), là độ dốc
của hình ảnh được làm mịn. Kết quả này cho thấy một

bụng

HÌNH 10.20 (a) Phiên bản ngưỡng của hình ảnh trong Hình 10.16(d), với ngưỡng được chọn là 33% giá
trị cao nhất trong hình ảnh; ngưỡng này vừa đủ cao để loại bỏ hầu hết các cạnh gạch trong hình
ảnh chuyển màu. (b) Phiên bản ngưỡng của hình ảnh trong Hình 10.18(d), thu được bằng cách sử dụng
ngưỡng bằng 33% giá trị cao nhất trong hình ảnh đó.
Machine Translated by Google

714 Chương 10 ■ Phân đoạn hình ảnh

giảm số cạnh bị gãy; ví dụ: so sánh các cạnh 45° trong Hình. 10.20(a) và (b).
Tất nhiên, các cạnh có giá trị cường độ bị suy giảm nghiêm trọng do bị mờ
(ví dụ: các cạnh trên mái ngói) có khả năng bị loại bỏ hoàn toàn bằng phương
pháp ngưỡng. Chúng ta quay trở lại vấn đề các cạnh bị gãy trong Mục 10.2.7.

10.2.6 Các kỹ thuật nâng cao hơn để phát hiện cạnh Các phương

pháp phát hiện cạnh được thảo luận trong phần trước chỉ dựa trên việc lọc
một hình ảnh bằng một hoặc nhiều mặt nạ, không có quy định nào về đặc điểm
cạnh và nội dung nhiễu. Trong phần này, chúng ta thảo luận về các kỹ thuật
nâng cao hơn nhằm cố gắng cải thiện các phương pháp phát hiện cạnh đơn giản
bằng cách tính đến các yếu tố như nhiễu hình ảnh và bản chất của chính các
cạnh.

Máy dò cạnh Marr-Hildreth Một

trong những nỗ lực thành công sớm nhất trong việc kết hợp phân tích phức
tạp hơn vào quá trình tìm kiếm cạnh được cho là của Marr và Hildreth [1980].
Các phương pháp phát hiện cạnh được sử dụng vào thời điểm đó dựa trên việc sử dụng các toán
tử nhỏ (chẳng hạn như mặt nạ Sobel), như đã thảo luận trong phần trước. Marr và Hildreth
Để thuyết phục bản thân rằng việc lập luận (1) rằng sự thay đổi cường độ không độc lập với tỷ lệ hình ảnh và do đó việc phát
phát hiện cạnh không phụ thuộc

vào tỷ lệ, hãy xem xét, ví dụ,


hiện chúng đòi hỏi phải sử dụng các toán tử có kích thước khác nhau; và (2) rằng sự thay
cạnh mái nhà trong Hình đổi cường độ đột ngột sẽ tạo ra một đỉnh hoặc đáy trong đạo hàm thứ nhất hoặc tương đương
10.8(c).

Nếu tỷ lệ của hình ảnh giảm


với điểm giao nhau bằng 0 trong đạo hàm thứ hai (như chúng ta đã thấy trong Hình 10.10).
xuống, cạnh sẽ trông mỏng hơn. Những ý tưởng này gợi ý rằng toán tử được sử dụng để phát hiện cạnh phải có hai đặc
điểm nổi bật. Đầu tiên và quan trọng nhất, nó phải là một toán tử vi phân có khả năng
tính toán xấp xỉ kỹ thuật số của đạo hàm bậc nhất hoặc đạo hàm bậc hai tại mọi điểm
trong ảnh. Thứ hai, nó phải có khả năng được “điều chỉnh” để hoạt động ở bất kỳ tỷ lệ
mong muốn nào, sao cho có thể sử dụng các toán tử lớn để phát hiện các cạnh mờ và các
toán tử nhỏ để phát hiện các chi tiết nhỏ được tập trung sắc nét.
Marr và Hildreth lập luận rằng toán tử thỏa mãn nhất đáp ứng §2 G §2 các điều kiện này là bộ
là 2 >0x2 + 02 >0y2 ), (0 toán tử Laplacian,
lọc trongG đó, như được định nghĩa trong Phần 3.6.2,
Đó là thông lệ cho và là hàm Gaussian 2-D
phương trình. (10.2-21) khác
với định nghĩa của PDF Gaussian x2 +

y2 2s2
2-D theo thuật ngữ không đổi
Nếu chính xác
G(x, y) = e- (21-10)
1>2ps2 .

với độ lệch chuẩn (đôi khiS được gọi là hằng


S
biểu thức mong muốn trong một
số không gian). Để tìm §2 G một biểu
ứng dụng nhất định thì hằng

số nhân có thể được thêm vào


thức các phép vi phân sau:
cho chúng ta thực hiện
kết quả cuối cùng trong biểu
thức. (10.2-23).
02 G(x, 02 G(x,
y) §2 G(x, y) +
= 0x2 y) 0y2

0 x2 +
0 x2 +
= y2 e- y2 e-
(22-10)
0x B s2
-x s2
2s2 R + 0y B -y 2s2 R

-
1 1
- 2s2

= B s4
x2 s2 Rex- x2y2+ 2s2 + s4
B y2 s2 Rex- x2 + y2
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 715

Thu thập các thuật ngữ đưa ra biểu thức cuối cùng:

Lại- x2 2s2
+ y2
(10.2-23)
§2 G(x, y) = B x2 + y2 - s4
2s2

Biểu thức này được gọi là Laplacian của Gaussian (LoG).


Các hình 10.21(a) đến (c) hiển thị sơ đồ, hình ảnh và mặt cắt ngang 3-D của Lưu ý sự giống nhau giữa
mặt cắt ngang ở
âm của hàm LoG (lưu ý rằng giao điểm 0 của LoG xảy ra tại Hình 10.21(c) và
2 x + y2 = 2s2 , xác định một đường tròn bán kính Do 22 tuổi tập trung vào nguồn gốc). bộ lọc đường cao tốc trong hình.

4.37(đ). Vì vậy, chúng ta có


hình dạng được minh họa trong Hình 10.21(a), hàm LoG đôi khi thể mong đợi LoG hoạt động

được gọi là toán tử mũ Mexico . Hình 10.21(d) cho thấy 5 * 5 mặt nạ đó như một bộ lọc thông cao.

gần đúng với hình trong Hình 10.21(a) (trong thực tế chúng ta sẽ sử dụng giá trị âm
của mặt nạ này). Sự gần đúng này không phải là duy nhất. Mục đích của nó là nắm bắt
hình dạng cơ bản của hàm LoG; theo Hình 10.21(a), điều này có nghĩa là số hạng dương,
trung tâm được bao quanh bởi một vùng âm liền kề có giá trị tăng dần theo hàm số của
khoảng cách từ gốc và vùng bên ngoài bằng 0. Các
các hệ số phải có tổng bằng 0 để phản hồi của mặt nạ bằng 0 ở các khu vực
có cường độ không đổi.
Mặt nạ có kích thước tùy ý có thể được tạo bằng cách lấy mẫu phương trình. (10.2-23)
và chia tỷ lệ các hệ số sao cho tổng của chúng bằng 0. Một cách tiếp cận hiệu quả hơn cho
tạo bộ lọc LoG là lấy mẫu phương trình. (10.2-21) theo kích thước mong muốn và n * n

2
G bụng
đĩa CD

HÌNH 10.21
(a) Đồ thị
ba chiều
tiêu cực của
LoG. (b)
Tiêu cực của
Nhật ký hiển thị dưới dạng

một tấm ảnh. (c)


Mặt cắt ngang của

y (a) hiển thị số không


x
giao cắt.
(d) 5 * 5 mặt nạ
2
G
0 0 1 0 0 xấp xỉ với
hình dạng ở (a).
Tiêu cực của
0 1 2 1 0 mặt nạ này sẽ
được sử dụng trong

1 2 16 2 1 luyện tập.

0 1 2 1 0
Không qua Không qua

0 0 1 0 0
2 2 giây
Machine Translated by Google

716 Chương 10 ■ Phân đoạn hình ảnh

sau đó tích chập† mảng kết quả với mặt nạ Laplacian, chẳng hạn như mặt nạ trong
Hình 10.4(a). Bởi vì việc kết hợp một mảng hình ảnh với một mặt nạ có tổng các hệ số bằng
0 mang lại kết quả có các phần tử có tổng cũng bằng 0 (xem Bài toán 3.16 và 10.14), phương
pháp này tự động thỏa mãn yêu cầu
rằng tổng các hệ số của bộ lọc LoG bằng 0. Chúng ta sẽ thảo luận về vấn đề chọn kích thước của bộ

lọc LoG ở phần sau của phần này.

Có hai ý tưởng cơ bản đằng sau việc lựa chọn toán tử Thứ nhất, phần Gaussian của §2 G.

toán tử làm mờ hình ảnh, do đó làm giảm cường độ của cấu trúc (bao gồm cả nhiễu) ở tỷ lệ
nhỏ hơn nhiều so với Không giống như S.

tính trung bình của biểu mẫu được thảo luận ở Phần 3.5 và được sử dụng trong Hình 10.18,
Hàm Gaussian trơn tru trong cả miền không gian và tần số (xem
Mục 4.8.3), và do đó ít có khả năng đưa ra các tạo tác (ví dụ: chuông) không
hiện diện trong ảnh gốc. Ý tưởng khác liên quan đến phần của bộ §2, dẫn xuất thứ hai-

lọc. Mặc dù đạo hàm bậc nhất có thể được sử dụng để phát hiện
những thay đổi đột ngột về cường độ, chúng là những toán tử định hướng. Laplacian, trên
mặt khác, có ưu điểm quan trọng là tính đẳng hướng (bất biến đối với
xoay), không chỉ tương ứng với đặc điểm thị giác của con người
hệ thống (Marr [1982]) nhưng cũng phản ứng như nhau với những thay đổi về cường độ trong bất kỳ

hướng mặt nạ, do đó tránh phải sử dụng nhiều mặt nạ để tính toán
phản ứng mạnh nhất tại bất kỳ điểm nào trong hình ảnh.

Thuật toán Marr-Hildreth bao gồm việc kết hợp bộ lọc LoG với một
hình ảnh đầu vào, f(x, y),

g(x, y) = [§2 G(x, y)]f(x, y) (24-10)

và sau đó tìm giao điểm 0 của để xác định vị trí của g(x, y)

các cạnh f(x, y). Bởi vì đây là những quá trình tuyến tính, phương trình. (10.2-24) có thể được viết
cũng như

Biểu thức này được


g(x, y) = §2 [G(x, y)f(x, y)] (10.2-25)
triển khai trong miền

không gian bằng phương

trình. (3,4-2). Nó cũng


chỉ ra rằng trước tiên chúng ta có thể làm mịn hình ảnh bằng bộ lọc Gaussian và sau đó
có thể được triển khai trong

miền tần số sử dụng phương tính Laplacian của kết quả. Hai phương trình này cho kết quả giống nhau.
trình. (4.7-1).
Thuật toán phát hiện cạnh Marr-Hildreth có thể được tóm tắt như sau:

n thấp
1. Lọc hình ảnh đầu vào bằng bộ lọc thông * n Gaussian thu được bằng cách

phương trình lấy mẫu (10.2-21).

2. Tính toán Laplacian của hình ảnh thu được từ Bước 1 bằng cách sử dụng, ví dụ:
3 * 3 mặt nạ trong Hình 10.4(a). [Bước 1 và 2 triển khai phương trình. (10.2-25).]

3. Tìm điểm giao nhau bằng 0 của hình ảnh ở Bước 2.

Để chỉ định kích thước của bộ lọc Gaussian, hãy nhớ lại rằng khoảng 99,7% âm lượng
dưới bề mặt Gaussian 2-D nằm giữa ;3s về ý nghĩa. Vì vậy, như một quy luật

† LoG là một bộ lọc đối xứng, do đó, việc lọc không gian bằng cách sử dụng tương quan hoặc tích chập sẽ mang lại kết quả tương tự.

Chúng tôi sử dụng thuật ngữ tích chập ở đây để biểu thị tính năng lọc tuyến tính nhằm thống nhất với tài liệu
về chủ đề này. Ngoài ra, điều này còn giúp bạn tiếp xúc với thuật ngữ mà bạn sẽ gặp trong các ngữ cảnh khác. Nó là
điều quan trọng là bạn phải ghi nhớ những nhận xét ở cuối Phần 3.4.2 về chủ đề này.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 717

Thông thường, kích thước củan bộ


* nlọc
số rời rạc LoG phải sao cho phù hợp N

nguyên lẻ nhỏ nhất lớn hơn hoặc bằng 6s. Việc chọn mặt nạ lọc nhỏ hơn mức
này sẽ có xu hướng “cắt ngắn” chức năng LoG, với mức độ cắt bớt tỷ lệ nghịch với kích
thước của mặt nạ; sử dụng mặt nạ lớn hơn
sẽ tạo ra sự khác biệt nhỏ trong kết quả.

P, lọc
Một cách tiếp cận để tìm điểm giao 0 ở bất kỳ pixel nào của vùng được
hình ảnh,g(x,
dựa y),
trên việc sử dụng vùng lân cận 3 * 3 có tâm tại A 0 P.
giao nhau tại Pngụ ý rằng dấu hiệu của ít nhất hai trong số các nước láng giềng đối lập của nó Đang cố gắng tìm ra
không giao nhau bằng cách tìm
pixel phải khác nhau. Có bốn trường hợp để kiểm tra: trái/phải, lên/xuống và cả hai tọa độ (x, y),
sao cho g(x, y) = 0
đường chéo. Nếu các giá trị g(x, y) đang được so sánh với một ngưỡng (a là

không thực tế vì
của cách tiếp cận chung), thì không những dấu của các nước láng giềng đối lập phải khác tiếng ồn và/

nhau mà giá trị tuyệt đối của chênh lệch số của chúng cũng phải vượt quá hoặc tính toán
sự không chính xác.
P pixel xuyên không. Chúng tôi minh họa cách tiếp
ngưỡng trước khi chúng ta có thể gọi một
cận này trong Ví dụ 10.7 dưới đây.
Giao điểm bằng 0 là tính năng chính của phát hiện cạnh Marr-Hildreth
phương pháp. Cách tiếp cận được thảo luận ở đoạn trước rất hấp dẫn vì tính đơn giản trong
việc thực hiện và vì nó thường mang lại hiệu quả tốt.
kết quả. Nếu độ chính xác của các vị trí giao nhau bằng 0 được tìm thấy bằng phương pháp này
không phù hợp trong một ứng dụng cụ thể thì kỹ thuật do Huertas đề xuất
và Medioni [1986] để tìm các giao điểm bằng 0 với độ chính xác dưới pixel có thể
được tuyển dụng.

■ Hình 10.22(a) hiển thị hình ảnh tòa nhà ban đầu được sử dụng trước đó và VÍ DỤ 10.7:
Minh họa của
Hình 10.22(b) là kết quả của Bước 1 và 2 của thuật toán Marr-Hildreth, sử dụng
Marr-Hildreth
(khoảng 0,5% kích thước ngắn của hình ảnh) và s = 4 n = 25
phát hiện cạnh
(số nguyên lẻ nhỏ nhất lớn hơn hoặc bằng như đã thảo luận 6trước
giây, đó). BẰNG phương pháp.

trong Hình 10.5, tông màu xám trong hình ảnh này là do tỷ lệ. Hình 10.22(c)
hiển thị các điểm giao nhau bằng 0 thu được bằng cách sử dụng 3 * 3 cách tiếp cận khu phố
đã thảo luận ở trên với ngưỡng bằng 0. Lưu ý rằng tất cả các cạnh đều đóng
vòng lặp. Cái gọi là hiệu ứng “spaghetti” này là một nhược điểm nghiêm trọng của phương pháp này

khi sử dụng giá trị ngưỡng bằng 0 (Bài toán 10.15). Chúng tôi tránh vòng lặp khép kín
các cạnh bằng cách sử dụng một ngưỡng dương.

Hình 10.22(d) cho thấy kết quả của việc sử dụng ngưỡng xấp xỉ bằng
đến 4% giá trị tối đa của hình ảnh LoG. Lưu ý rằng phần lớn các
các cạnh chính đã được phát hiện dễ dàng và các tính năng “không liên quan”, chẳng hạn như
các cạnh do gạch và mái ngói đã được lọc ra. Như chúng tôi trình bày ở phần tiếp theo
phần này, loại hiệu suất này hầu như không thể đạt được bằng cách sử dụng
kỹ thuật phát hiện cạnh dựa trên độ dốc đã thảo luận trong phần trước.
Một hệ quả quan trọng khác của việc sử dụng giao điểm 0 để phát hiện cạnh là
rằng các cạnh kết quả dày 1 pixel. Thuộc tính này đơn giản hóa việc tiếp theo
các giai đoạn xử lý, chẳng hạn như liên kết cạnh. ■

Một thủ tục đôi khi được sử dụng để tính đến thực tế đã đề cập trước đó
sự thay đổi cường độ phụ thuộc vào tỷ lệ là lọc một hình ảnh với nhiều
các giá trị S.
của Bản đồ cạnh giao bằng 0 thu được sau đó được kết hợp bởi
chỉ giữ lại các cạnh chung cho tất cả các bản đồ. Cách tiếp cận này có thể mang lại
Machine Translated by Google

718 Chương 10 ■ Phân đoạn hình ảnh

A
B C D

HÌNH 10.22 (a)

Ảnh gốc có kích thước


834 * 1114 pixel, với

các giá trị

cường độ được chia

tỷ lệ theo phạm vi [0,

1]. (b) Kết quả của

Bước 1 và 2 của thuật


toán Marr-Hildreth sử

dụng và s = 4 n =
(c) Giao 25.
điểm 0 của (b)

sử dụng ngưỡng 0

(lưu ý các cạnh vòng

kín). (d) Không

tìm thấy điểm giao cắt

nào khi sử dụng

ngưỡng bằng 4% giá trị


tối đa của

hình ảnh trong (b).


Lưu ý các cạnh

mỏng .

thông tin hữu ích, nhưng do tính phức tạp của nó, nó được sử dụng trong thực tế chủ
S sử dụng với một bộ lọc duy nhất.
yếu như một công cụ thiết kế để chọn giá trị thích hợp để
Marr và Hildreth [1980] lưu ý rằng có thể tính gần đúng bộ lọc LoG trong
biểu thức. (10.2-23) bởi sự khác biệt của Gaussians (DoG):
Sự khác biệt của

Gaussians là bộ lọc thông 1 x2 +


1 x2 +
2 - 2s1
cao, như được thảo luận DoG (x, y) = 2
y2 e-
2
y2 e-
2 2s2 (10.2-26)
trong Phần 4.7.4. 2ps1 2ps2

với Kết người


quả thử
có nghiệm cho thấy rằng một số “kênh” nhất định trong s1 7 s2. hệ thống thị giác của con

tính chọn lọc liên quan đến định hướng và tần số và có thể được mô hình hóa bằng phương trình.

(10.2-26) với tỷ lệ độ lệch chuẩn là 1,75:1. Marr và Hildreth đề xuất rằng việc sử dụng tỷ lệ 1,6:1

sẽ bảo toàn các đặc điểm cơ bản của những quan sát này và cũng cung cấp một phép tính gần đúng “kỹ

thuật” gần hơn với hàm LoG. Để thực hiện các so sánh có ý nghĩa giữa LoG và DoG, giá trị của LoG

phải được chọn như trong phương trình sau để LoG và DoG có cùng điểm giao nhau bằng 0 (Bài toán

10.17): S

2
s1 2s2 2
s2 = 2 2 (10.2-27)
s1 - s2 ln B s22
s1 R

Mặc dù giao điểm 0 của LoG và DoG sẽ giống nhau khi sử dụng giá trị này,
S độ của chúng sẽ khác nhau. Chúng ta có thể làm cho chúng tương
thang biên
thích bằng cách chia tỷ lệ cả hai hàm sao cho chúng có cùng giá trị tại gốc.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 719

bụng

HÌNH 10.23 (a)

Phủ định của cấu hình LoG

(rắn) và DoG (chấm)

sử dụng tỷ lệ độ

lệch chuẩn là
1,75:1. (b) Hồ sơ thu

được bằng tỷ lệ

1,6:1.

Các hồ sơ trong hình. 10.23(a) và (b) được tạo ra với tỷ lệ độ lệch chuẩn lần lượt là 1:1.75 và

1:1.6 (theo quy ước, các đường cong được hiển thị là đảo ngược, như trong Hình 10.21). Cấu hình LoG

được hiển thị dưới dạng đường liền nét trong khi cấu hình DoG được chấm. Các đường cong được hiển thị

là các cấu hình cường độ thông qua tâm của mảng LoG và DoG được tạo bằng phương trình lấy mẫu.

(10.2-23) (với hằng số 1>2ps2 ở phía trước) và phương trình. (10.2-26), tương ứng. Biên độ của tất

đường cong tại gốc đãcảđược


các chuẩn hóa thành 1. Như Hình 10.23(b) cho thấy, tỷ lệ 1:1.6 mang lại giá

trị gần đúng hơn giữa hàm LoG và DoG.

Cả hoạt động lọc LoG và DoG đều có thể được triển khai bằng phép tích chập 1-D thay vì sử dụng

trực tiếp phép tích chập 2-D (Vấn đề 10.19).

Đối với một hình ảnh có kích phép


thướcnhân
và một
và phép
bộ lọc
cộng
có cho
kíchmỗi
thước,
phép làm
tíchnhư
chập
vậy sẽ làm giảm M * N n * n, số

từ dạng pro- n2 MN phân đoạn thành phép tích chập 2-D thành tỷ lệ với nMN cho 1- sự tích chập D. Sự

biệt thực hiện nàykhác


là đáng kể. Ví dụ: nếu n = 25, việc triển khai 1-D sẽ yêu cầu các phép tính nhân và

cộng ít hơn 12 lần so với sử dụng tích chập 2-D.

Bộ phát hiện cạnh Canny Mặc dù thuật

toán phức tạp hơn nhưng hiệu suất của bộ phát hiện cạnh Canny (Canny [1986]) được thảo luận trong

phần này nói chung là vượt trội so với các bộ phát hiện cạnh được thảo luận cho đến nay. Cách tiếp

cận của Canny dựa trên ba mục tiêu cơ bản:

1. Tỷ lệ lỗi thấp. Tất cả các cạnh phải được tìm thấy và không được có phản hồi giả mạo. Nghĩa là,

các cạnh được phát hiện phải càng gần với các cạnh thực càng tốt.

2. Các điểm cạnh phải được định vị tốt. Các cạnh được định vị phải càng gần các cạnh thật càng tốt.

Nghĩa là, khoảng cách giữa một điểm được bộ dò tìm đánh dấu là một cạnh và tâm của cạnh thật

phải ở mức tối thiểu.

3. Phản ứng điểm cạnh đơn. Bộ dò sẽ chỉ trả về một điểm cho mỗi điểm cạnh thực. Nghĩa là số lượng

cực đại cục bộ xung quanh cạnh thực phải là tối thiểu. Điều này có nghĩa là bộ phát hiện không

nên xác định nhiều pixel cạnh trong đó chỉ tồn tại một điểm cạnh duy nhất.

Bản chất công việc của Canny là biểu diễn ba tiêu chí trước đó bằng toán học và sau đó cố gắng tìm

ra giải pháp tối ưu cho các công thức này. Nói chung, rất khó (hoặc không thể) tìm được lời giải

dạng đóng
Machine Translated by Google

720 Chương 10 ■ Phân đoạn hình ảnh

đáp ứng được tất cả các mục tiêu trước đó. Tuy nhiên, việc sử dụng tối ưu hóa số
Hãy nhớ lại rằng tiếng ồn trắng là
với các cạnh bước 1-D bị hỏng do nhiễu Gaussian trắng bổ sung đã dẫn đến
tiếng ồn có tần số

quang phổ liên tục và đồng nhất


kết luận rằng một phép tính gần đúng† với bộ dò cạnh bước tối ưu là
trên một
đạo hàm bậc nhất của Gaussian:
dải tần xác định.
Tiếng ồn Gauss trắng là

tiếng ồn trắng trong đó d x2 -x x2

phân bố biên độ e- 2s2 = 2s2 (28-10)


giá trị là Gaussian. dx e- s2
Tiếng ồn trắng Gaussian là một

xấp xỉ tốt
Việc khái quát hóa kết quả này thành 2-D liên quan đến việc nhận ra rằng cách tiếp cận 1-D vẫn
nhiều tình huống thực tế

và tạo ra áp dụng theo hướng pháp tuyến của cạnh (xem Hình 10.12). Bởi vì hướng của pháp
có thể xử lý được về mặt toán học
các mô hình. Nó có ích tuyến không được biết trước nên điều này đòi hỏi phải áp dụng
thuộc tính mà giá trị của nó Máy dò cạnh 1-D theo mọi hướng có thể. Nhiệm vụ này có thể được xấp xỉ bằng
độc lập về mặt

thống kê.
đầu tiên làm mịn hình ảnh bằng hàm Gaussian 2-D tròn , tính toán
độ dốc của kết quả, sau đó sử dụng độ lớn và hướng của độ dốc
để ước tính cường độ cạnh và hướng tại mọi điểm.
Đặt f(x, y) biểu thị hình ảnh đầu vào và G(x, y) biểu thị hàm Gaussian:

x2 + y2

G(x, y) = e- 2s2 (29-10)

Chúng ta tạo thành một ảnh được làm mịn, f s(x, y), Gf: và
bằng cách cuộn xoắn

fs (x, y) = G(x, y)f(x, y) (10.2-30)

Hoạt động này được thực hiện bằng cách tính toán độ lớn và hướng của gradient
(góc), như đã thảo luận trong Phần 10.2.5:

2
M(x, y) = 2gx 2 + gy (10.2-31)

(10.2-32)
a(x, y) = tan- 1 Bgy
gx R

với g x = 0fs >0x Và


gy = 0fs >0y. Bất kỳ cặp mặt nạ lọc nào trong Hình 10.14 đều có thể
được sử dụng để thu được vàgx
phương
gy. trình (10.2-30) được thực hiện bằng cách sử dụng n * n
Mặt nạ Gaussian có kích thước được thảo luận dưới đây. Hãy nhớ rằng và M(x,y)
một(x, y) là các mảng có cùng kích thước với hình ảnh mà chúng được tính toán.

Bởi vì nó được tạo bằng cách sử dụng gradient nên thường chứa nhiều
M(x,y)
các đường vân xung quanh cực đại địa phương (hãy nhớ lại phần thảo luận ở Phần 10.2.1 về
các cạnh thu được bằng cách sử dụng gradient). Bước tiếp theo là làm mỏng những đường vân đó. Một

Cách tiếp cận là sử dụng triệt tiêu nonmaxima. Điều này có thể được thực hiện bằng nhiều cách,

nhưng bản chất của phương pháp này là xác định một số định hướng riêng biệt


Canny [1986] đã chỉ ra rằng việc sử dụng phép tính gần đúng Gaussian chỉ kém hơn khoảng 20% so với việc sử dụng phép tính gần đúng Gaussian.

giải pháp số tối ưu. Sự khác biệt về độ lớn này nói chung là không thể nhận thấy được trong hầu hết các ứng dụng.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 721

của cạnh pháp tuyến (vectơ gradient). Ví dụ: trong 3 * 3 khu vực chúng tôi có thể

xác định bốn hướng† cho một cạnh đi qua điểm giữa của

vùng: ngang, dọc, +45° và -45°. Hình 10.24(a) thể hiện tình hình

cho hai hướng có thể có của một cạnh ngang. Bởi vì chúng ta phải

lượng tử hóa tất cả các hướng có thể có của cạnh thành bốn, chúng ta phải xác định một phạm vi

hướng mà chúng ta coi một cạnh là nằm ngang. Chúng tôi xác định cạnh

hướng từ hướng của cạnh bình thường, mà chúng ta thu được trực tiếp từ

dữ liệu hình ảnh sử dụng phương trình. (10.2-32). Như Hình 10.24(b) cho thấy, nếu cạnh pháp tuyến là

trong phạm vi hướng từ -22,5° đến 22,5° hoặc từ -157,5° đến 157,5°, chúng tôi

gọi cạnh đó là cạnh ngang. Hình 10.24(c) cho thấy các phạm vi góc tương ứng với bốn hướng đang

được xem xét.


Đặt d1 , d2, d3, d4 thị bốn hướng cạnh cơ bản vừa thảo luận cho
và biểu
Vùng 3 * 3: ngang, -45°, dọc và +45°, tương ứng. Chúng ta có thể mô phỏng sơ đồ

triệt tiêu phi cực đại sau đây cho 3 * 3 vùng cen-(x,

y) a(x, y):
bị ràng buộc ở mọi điểm trong

1. Tìm hướng gần nhất với a(x,


dk y).
2. Nếu giá trị của M(x, y) nhỏ hơn ít nhất một trong hai hàng xóm của nó dọc theo

dk, cho gN(x, y) = 0 (đàn áp); ngược lại, đặt gN(x, y) = M(x, y)

bụng
157,5 157,5 c
Cạnh bình thường

HÌNH 10.24
(a) Hai khả năng
p1 p2 p3 p1 p2 p3 định hướng của một
p5 y cạnh ngang (trong
p4 p6 p4 p6
p5
màu xám) ở kích thước 3 * 3
Bờ rìa Cạnh bình thường
p7 p8 p9 p7 p8 p9 hàng xóm.
(vectơ độ dốc)
Một (b) Phạm vi giá trị
(màu xám) củaMột,
Cạnh bình thường 22,5 22,5 góc định hướng của
x cạnh bình thường,
157,5 157,5 cho chiều ngang

45 cạnh bờ rìa. (c) Góc


phạm vi của cạnh
thông thường đối với
112,5 112,5
bốn loại cạnh
hướng dẫn trong một

Cạnh dọc 3 * 3

hàng xóm.
67,5 Mỗi cạnh
67,5
hướng có hai

phạm vi, được hiển thị trong

45 cạnh tương ứng


22,5 22,5
sắc thái của màu xám.
0
Cạnh ngang


Hãy nhớ rằng mọi cạnh đều có hai hướng có thể. Ví dụ: một cạnh có pháp tuyến được định hướng ở 0° và
một cạnh có pháp tuyến được định hướng ở 180° là cùng một cạnh nằm ngang .
Machine Translated by Google

722 Chương 10 ■ Phân đoạn hình ảnh

hình ảnh gN(x, y) ức chế cực đại ở đâu. Ví dụ: tham khảo Hình 10.24(a), cho (x, y)
không bị

ở tại và
p5 giả định một cạnh nằm ngang
, mà chúng ta quan tâm ở Bước 2 là và p5 p p8 2 gN(x, y)
thông qua các pixel .

Hình ảnh chỉ chứa các cạnh mỏng; nó bằng với M(x,y)
điểm cạnh không cực đại bị triệt tiêu.
Thao tác cuối cùng là đặt ngưỡng để giảmgN(x,
các điểm
y) biên sai. TRONG
Mục 10.2.5 chúng tôi đã thực hiện việc này bằng cách sử dụng một ngưỡng duy nhất, trong đó tất cả các giá trị bên dưới

ngưỡng được đặt thành 0. Nếu chúng tôi đặt ngưỡng quá thấp, vẫn sẽ có
một số cạnh sai (được gọi là dương tính giả). Nếu ngưỡng được đặt quá cao thì
điểm cạnh hợp lệ thực tế sẽ bị loại bỏ (âm tính giả). Thuật toán Canny
cố gắng cải thiện tình trạng này bằng cách sử dụng ngưỡng trễ , như
chúng ta thảo luận trong Phần 10.3.6, sử dụng hai ngưỡng: ngưỡng thấp và ngưỡng
TL,
ngưỡng cao, Canny cho rằng tỷ lệ giữa ngưỡng cao và ngưỡng thấp
QUẦN QUÈ.

nên là hai hoặc ba trên một.

Chúng ta có thể hình dung hoạt động ngưỡng như tạo hai hình ảnh bổ sung

gNH(x, y) = gN(x, y) Ú TH (10.2-33)

gNL(x, y) = gN(x, y) Ú TL (10.2-34)

gNH(x,
trong đó, ban đầu, cả hai và y) gNL(x,
được đặt thành 0.y)
Sau khi đặt ngưỡng,

sẽ có y)
gNH(x, y) gNL(x, ít pixel khác 0 hơn nói chung, nhưng tất cả
các pixel khác 0 sẽ được chứa
gNH(x, y) trong
gNL(x,vìy)pixel sau
gNL(x, y)
hình ảnh được hình thành với ngưỡng thấp hơn. Chúng tôi loại bỏ khỏi tất cả các

các pixel khác 0 từ việc cho phép


gNH(x, y)

gNL(x, y) = gNL(x, y) - gNH(x, y) (10.2-35)

Các pixel khác 0 trong và có gNH(x,


thể đượcy)
xemgNL(x, y)
là “mạnh”

và các pixel cạnh “yếu” tương ứng.


Sau các hoạt động phân ngưỡng, tất cả các pixel mạnh đều được giả gNH(x,
sử y)
là các pixel cạnh hợp lệ và được đánh dấu ngay lập tức. Tùy thuộc vào
giá trị TH, các cạnh thường có khoảng
gNH(x, y) Các cạnh dài hơn là
trống.

được hình thành theo quy trình sau:

p, gNH(x, y).
(a) Xác định vị trí pixel cạnh chưa được thăm tiếp theo,

(b) Đánh dấu là các pixel cạnh hợp lệ tất cả các pixel yếu
theođược kết y)
gNL(x, nối

đếnP việc sử dụng kết nối 8.


(c) Nếu tất cả các pixel khác 0 đã gNH(x, y) cập, hãy chuyển sang Bước d. Ngược lại, quay lại
được truy

Bước a.

(d) Đặt về 0 tất cả các pixel không


gNL(x,được
y) đánh dấu là pixel cạnh hợp lệ.

Khi kết thúc quy trình này, hình ảnh cuối cùng đầu ra bằng thuật toán Canny là
được hình thành bằng cách thêmgNH(x,
vào tấty)cảgNL(x, y). khác 0 từ
các pixel
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 723

Chúng tôi đã sử dụng hai hình ảnh bổ sung và gNH(x,


để đơn y) gNL(x,
giản hóa y),
cuộc thảo luận. Trong thực tế, ngưỡng trễ có thể được thực hiện trực tiếp
trong quá trình triệt tiêu không cực đại và việc đặt ngưỡng có thể được thực hiện trực tiếp
TRÊN gN(x, y) bằng cách hình thành danh sách các pixel mạnh và các pixel yếu được kết nối với
họ.

Tóm tắt, thuật toán phát hiện cạnh Canny bao gồm các phần sau:
các bước cơ bản:

1. Làm mịn hình ảnh đầu vào bằng bộ lọc Gaussian.


2. Tính toán độ lớn gradient và hình ảnh góc.
3. Áp dụng triệt tiêu không cực đại cho hình ảnh cường độ gradient.
4. Sử dụng phân tích ngưỡng kép và kết nối để phát hiện và liên kết
các cạnh.

Mặc dù các cạnh sau khi triệt tiêu không cực đại mỏng hơn các cạnh có độ dốc thô, các cạnh
dày hơn 1 pixel vẫn có thể được giữ lại. Để có được các cạnh 1 pixel
dày, thông thường phải làm theo Bước 4 với một lần thực hiện thuật toán làm mỏng cạnh

(xem Phần 9.5.5).


Như đã đề cập trước đó, việc làm mịn được thực hiện bằng cách kết hợp đầu vào
n *chỉ
hình ảnh có mặt nạ Gaussian có kích thước phải được n, định. Chúng ta có thể sử dụng

cách tiếp cận được thảo luận ở phần trước liên quan đến thuật toán Marr-Hildreth để xác định
giá trị của Nghĩa là, mặt nạ bộ lọc được tạo N.

bằng cách lấy mẫu phương trình. (10.2-29)N vậy đó là số nguyên lẻ nhỏ nhất lớn hơn hoặc
về cơ bản cung
6 giây
cấp khả năng làm mịn “đầy đủ” của thuật toán Gaussian
lọc. Nếu những cân nhắc thực tế đòi hỏi mặt nạ lọc nhỏ hơn thì sự cân bằng
ít làm mịn hơn đối với các giá trị nhỏ hơn của N.

Một số nhận xét cuối cùng về việc thực hiện:Như đã lưu ý trước đó trong cuộc thảo luận

của bộ dò cạnh Marr-Hildreth, hàm Gaussian 2-D trong biểu thức. (29-10)
có thể tách thành tích của hai Gaussian 1-D. Vì vậy, Bước 1 của Canny
Thuật toán có thể được xây dựng dưới dạng tích chập 1-D hoạt động trên các hàng

(cột) của hình ảnh lần lượt rồi làm việc trên các cột (hàng) của
kết quả. Hơn nữa, nếu chúng ta sử dụng các phép tính gần đúng trong các phương trình. (10.2-12) và

(10.2-13), chúng ta cũng có thể triển khai tính toán độ dốc cần thiết cho Bước 2
dưới dạng tích chập 1-D (Bài toán 10.20).

■ Hình 10.25(a) thể hiện hình ảnh tòa nhà quen thuộc. Để so sánh, Figs. VÍ DỤ 10.8:
Minh họa của
10.25(b) và (c) lần lượt hiển thị các kết quả thu được trước đó trong Hình 10.20(b)
Khôn ngoan
sử dụng gradient ngưỡng và Hình 10.22(d) sử dụng Marr-Hildreth
phát hiện cạnh
máy dò. Hãy nhớ lại rằng các tham số được sử dụng để tạo ra hai hình ảnh đó là phương pháp.

được chọn để phát hiện các cạnh chính trong khi cố gắng giảm bớt “không liên quan”
các đặc điểm, chẳng hạn như các cạnh do gạch và mái ngói.

Hình 10.25(d) cho thấy kết quả thu được bằng thuật toán Canny sử dụng
các thông số TL = 0,04, TH = 0,10 (gấp 2,5 lần giá trị ngưỡng thấp),
s = 4 và mặt nạ có kích thước 25 * 25, tương ứng với số nguyên lẻ nhỏ nhất lớn hơn 6s.

Các thông số này được chọn một cách tương tác để đạt được
các mục tiêu đã nêu trong đoạn trước đối với hình ảnh gradient và Marr-Hildreth. So sánh ảnh
Canny với hai ảnh còn lại, chúng ta
Machine Translated by Google

724 Chương 10 ■ Phân đoạn hình ảnh

A
B C D

HÌNH 10.25 (a)

Ảnh gốc có kích thước


834 * 1114 pixel, với

các giá trị


cường độ được chia
tỷ lệ theo phạm vi [0,
1].
(b) Độ dốc ngưỡng
của hình ảnh
được làm mịn. (c)
Hình ảnh
thu được bằng thuật
toán Marr-Hildreth.

(d) Hình ảnh


thu được
bằng thuật toán Canny.

Lưu ý sự

cải thiện

đáng kể của hình ảnh

Canny so với hai hình

ảnh còn lại.

Các giá trị ngưỡng đưa ra


thấy những cải tiến đáng kể về mặt chi tiết của các cạnh chính, đồng thời, loại bỏ nhiều hơn các tính
ở đây chỉ nên được xem

xét ở mức độ tương đối.


năng không liên quan trong kết quả Canny. Ví dụ: lưu ý rằng cả hai cạnh của dải bê tông lót các viên

gạch ở phần trên của hình ảnh đều được phát hiện bằng thuật toán Canny, trong khi độ dốc ngưỡng bị
Việc thực hiện hầu hết các

thuật toán bao gồm các


mất cả hai cạnh này và hình ảnh Marr-Hildreth chỉ chứa phần trên. một. Về mặt lọc ra các chi tiết
bước chia tỷ lệ khác nhau,
không liên quan, ảnh Canny không chứa một cạnh nào do có mái ngói; điều này không đúng trong hai hình
chẳng hạn như chia tỷ lệ phạm

vi giá trị của hình ảnh


ảnh còn lại. Chất lượng của các đường nét xét về độ liên tục, độ mỏng và độ thẳng cũng vượt trội hơn
đầu vào thành phạm vi [0, 1].
ở ảnh Canny. Những kết quả như vậy đã khiến thuật toán Canny trở thành một công cụ được lựa chọn để
Các sơ đồ chia tỷ lệ

khác nhau rõ ràng sẽ yêu cầu


phát hiện cạnh.
các giá trị ngưỡng khác nhau
so với các giá trị được sử

dụng trong ví dụ này.

VÍ DỤ 10.9: Một minh


■ Như một so sánh khác về ba phương pháp phát hiện cạnh chính được thảo luận trong phần này, hãy xem
họa khác
Hình 10.26(a) hiển thị hình ảnh CT đầu 512 * 512. Mục tiêu của chúng tôi trong ví dụ này là trích
về ba phương pháp
xuất các cạnh của đường viền bên ngoài của não (vùng màu xám trong ảnh), đường viền của vùng cột sống
phát hiện cạnh
chính được thảo (hiển thị ngay sau mũi, về phía trước não) và bên ngoài. đường viền của đầu. Chúng tôi mong muốn tạo
luận trong ra những đường viền mỏng nhất, liên tục nhất có thể, đồng thời loại bỏ các chi tiết cạnh liên quan
phần này.
đến nội dung màu xám trong vùng mắt và não.

Hình 10.26(b) hiển thị một hình ảnh gradient có ngưỡng được làm mịn lần đầu tiên bằng bộ lọc
trung bình 5 * 5. Ngưỡng cần thiết để đạt được kết quả được hiển thị là 15% giá trị tối đa của hình

ảnh gradient. Hình 10.26(c) cho thấy kết quả thu được bằng thuật toán phát hiện cạnh Marr-Hildreth

với ngưỡng cũ là 0,002 và mặt nạ có kích thước pixel. Hình 10.26(d) là s = 3, 19 * 19 thu được bằng

thuật toán Canny với TL = 0,05, TH = 0,15 (gấp 3 lần


Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 725

A
B C D

HÌNH 10.26
(a) Ảnh CT đầu gốc có
kích thước 512 * 512
pixel, với các giá

trị cường độ
được chia tỷ lệ

theo phạm vi [0,


1]. (b) Độ dốc
ngưỡng của
hình ảnh được làm
mịn. (c)
Hình ảnh thu được
bằng thuật toán Marr-

Hildreth.
(d) Hình ảnh
thu được bằng
thuật toán
Canny.
(Hình ảnh gốc
được cung cấp bởi Dr.
David R. Pickens,
Vanderbilt

Trường đại học.)

giá trị ngưỡng thấp), s = 2 và mặt nạ có kích thước 13 * 13, như trong trường hợp Marr-Hildreth,

tương ứng với số nguyên lẻ nhỏ nhất lớn hơn 6s.

Các kết quả trong Hình 10.26 tương ứng chặt chẽ với các kết quả và kết luận trong ví dụ trước

về chất lượng cạnh và khả năng loại bỏ các chi tiết không liên quan. Cũng lưu ý rằng thuật toán

Canny là quy trình duy nhất có khả năng tạo ra một ranh giới hoàn toàn không bị gián đoạn cho

ranh giới phía sau của não.


Đây cũng là quy trình duy nhất có khả năng tìm ra những đường viền tốt nhất đồng thời loại bỏ

tất cả các cạnh liên quan đến chất xám trong ảnh gốc. ■

Đúng như dự đoán, cái giá phải trả cho việc cải thiện hiệu suất của thuật toán Canny là việc

triển khai phức tạp hơn hai phương pháp đã thảo luận trước đó, đồng thời đòi hỏi nhiều thời gian

thực hiện hơn đáng kể. Trong một số ứng dụng, chẳng hạn như xử lý ảnh công nghiệp theo thời

gian thực, các yêu cầu về chi phí và tốc độ thường đòi hỏi việc sử dụng các kỹ thuật đơn giản

hơn, chủ yếu là phương pháp tiếp cận gradient theo ngưỡng. Khi chất lượng cạnh là động lực thì

thuật toán Marr-Hildreth và Canny, đặc biệt là thuật toán sau, sẽ đưa ra các lựa chọn thay thế

ưu việt hơn.

10.2.7 Liên kết cạnh và phát hiện ranh giới Lý tưởng

nhất là phát hiện cạnh sẽ mang lại các tập hợp pixel chỉ nằm trên các cạnh.
Trong thực tế, những pixel này hiếm khi mô tả hoàn toàn các cạnh do nhiễu, vỡ ở
các cạnh do chiếu sáng không đồng đều và các hiệu ứng khác gây ra sự gián đoạn
giả trong các giá trị cường độ. Do đó, việc phát hiện cạnh thường được theo sau
bởi các thuật toán liên kết được thiết kế để tập hợp các pixel cạnh thành các
cạnh và/hoặc ranh giới vùng có ý nghĩa. Trong phần này, chúng ta thảo luận ba
phương pháp cơ bản để liên kết cạnh đại diện cho các kỹ thuật được sử dụng trong thực tế.
Machine Translated by Google

726 Chương 10 ■ Phân đoạn hình ảnh

Việc đầu tiên đòi hỏi kiến thức về các điểm biên trong một khu vực địa phương (ví dụ: 3 * 3

hàng xóm); thứ hai yêu cầu các điểm trên ranh giới của một khu vực phải

đã biết; và thứ ba là cách tiếp cận toàn cầu hoạt động với toàn bộ hình ảnh cạnh.

Xử lý cục bộ
Một trong những cách tiếp cận đơn giản nhất để liên kết các điểm cạnh là phân tích đặc điểm

của các pixel trong một vùng lân cận nhỏ xung quanh mọi điểm (x, y) điều đó đã được

đã khai báo một điểm biên bằng một trong các kỹ thuật được thảo luận ở phần trước.

Tất cả các điểm giống nhau theo tiêu chí xác định trước sẽ được liên kết với nhau, tạo thành một

cạnh của các pixel có chung thuộc tính theo tiêu chí đã chỉ định.

Hai thuộc tính chính được sử dụng để thiết lập độ tương tự của các pixel cạnh

trong loại phân tích này là (1) cường độ (cường độ) và (2) hướng

của vectơ gradient. Thuộc tính đầu tiên dựa trên phương trình. (10,2-10). Hãy bỏ ghi chúquyếntập

trong một
hợp tọa độ của một vùng lân cận có tâm tại điểm ảnh. Một pixel cạnh có tọa độ (x, y)

(s, t) Sxy có độ lớn tương tự như

tính bằng pixel tại (x, y)


nếu như

ƒM(s, t) - M(x, y)ƒ … E (10.2-36)

E
đâu là ngưỡng dương.

Góc định hướng của vectơ gradient được cho bởi biểu thức. (10.2-11).Một cạnh

pixel có tọa độ (s, t) S


xy có một góc bằng điểm ảnh tại (x, y) nếu
TRONG

ƒ a(s, t) - a(x, y)ƒ … A (10.2-37)

MỘT
đâu là ngưỡng góc dương. Như đã lưu ý trong Phần 10.2.5, hướng

của cạnh tại (x, y) vuông góc với hướng của vectơ gradient tại

điểm đó.
ở S xy
Một pixel có tọa độ (s, t) được liên kết với pixel tại (x, y) nếu cả hai

tiêu chí về độ lớn và hướng được thỏa mãn. Quá trình này được lặp lại ở mọi

vị trí trong hình ảnh. Phải lưu giữ hồ sơ về các điểm liên kết làm trung tâm của

vùng lân cận được chuyển từ pixel này sang pixel khác. Một quy trình ghi sổ đơn giản là gán

một giá trị cường độ khác nhau cho từng tập hợp các pixel cạnh được liên kết.

Công thức trước đó tốn kém về mặt tính toán vì tất cả các điểm lân cận của mọi điểm đều

phải được kiểm tra. Một sự đơn giản hóa đặc biệt tốt

phù hợp cho các ứng dụng thời gian thực bao gồm các bước sau:

1. Tính độ lớn gradient và mảng góc, M(x, y) và a(x, y), của

hình ảnh đầu vào, f(x, y).

g, trị ở bất kỳ cặp tọa độ nào (x, y)


2. Tạo thành ảnh nhị phân, có giá là

được cho bởi:

nếu M(x, y) 7 TM VÀ a(x, y) = A ; TA

0 nếu không thì


g(x, y) = b 1

trong đó TM MỘT
là ngưỡng, là hướng góc xác định và ;TA định nghĩa một

“dải” các hướng có thể chấp nhận được về A.


Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 727

3. Quét các hàng và điền g


(đặt thành 1) tất cả các khoảng trống (bộ số 0) trong mỗi hàng phù hợp
K. ý rằng, theo định nghĩa, một khoảng trống
không vượt quá độ dài quy định. Lưu
được giới hạn ở cả hai đầu bởi một hoặc nhiều số 1. Các hàng được xử lý riêng lẻ,
không có ký ức giữa họ.
4. Để phát hiện khoảng trống theo bất kỳ hướng nào g xoay theo góc này và áp dụng
bạn, khác, hãy

quy trình quét ngang ở Bước 3. Xoay kết quả trở lại -u.

Khi mối quan tâm nằm ở liên kết cạnh ngang và dọc, Bước 4 sẽ trở thành
g 90 độ, các hàng sẽ được quét,
thủ tục đơn giản trong đó xoay
và kết quả được quay trở lại. Đây là ứng dụng được tìm thấy thường xuyên nhất trong
thực hành và, như ví dụ sau đây cho thấy, cách tiếp cận này có thể mang lại
kết quả tốt. Nói chung, xoay ảnh là một quá trình tính toán tốn kém vì vậy,
khi cần liên kết theo nhiều hướng góc, sẽ thực tế hơn
kết hợp Bước 3 và 4 thành một quy trình quét xuyên tâm duy nhất.

■ Hình 10.27(a) thể hiện hình ảnh phía sau của một chiếc xe. Mục đích của việc này VÍ DỤ 10.10:

Ví dụ này minh họa việc sử dụng thuật toán trước để tìm các hình chữ nhật có Liên kết cạnh
sử dụng địa phương
kích thước phù hợp để làm biển số xe. Việc hình thành các hình chữ nhật này có
xử lý.
thể được thực hiện bằng cách phát hiện các
và các cạnh dọc. Hình 10.27(b) hiển thị hình ảnh cường độ gradient,
M(x,y), và quả sung. 10.27(c) và (d) hiển thị kết quả của Bước (3) và (4) của
Thuật toán TM thu được bằng cách cho bằng 30 % giá trị độ dốc tối đa,

abc
chắc chắn

HÌNH 10.27 (a) A 534 * 566 hình ảnh phía sau của một chiếc xe. (b) Độ lớn của độ dốc
hình ảnh. (c) Các pixel cạnh được kết nối theo chiều ngang. (d) Các pixel cạnh được kết nối theo chiều dọc.
(e) OR logic của hai hình ảnh trước đó. (f) Kết quả cuối cùng thu được bằng cách sử dụng
sự mỏng đi về mặt hình thái. (Hình ảnh gốc được cung cấp bởi Perceptics Corporation.)
Machine Translated by Google

728 Chương 10 ■ Phân đoạn hình ảnh

chiều rộng hình ảnh). Cần và lấp đầy tất cả các khoảng trống từ 25 pixel trở xuống (khoảng A = 90°, TA = 45°, 5%

phải sử dụng nhiều hướng góc cho phép để phát hiện các góc tròn của vỏ biển số cũng như cửa sổ phía sau của xe. Hình

10.27(e) là kết quả của việc hình thành OR logic của hai hình ảnh trước đó và Hình 10.27(f) thu được bằng cách làm

mỏng 10.27(e) với quy trình làm mỏng được thảo luận trong Phần 9.5.5. Như Hình 10.16(f) cho thấy, hình chữ nhật tương

ứng với biển số xe đã được phát hiện rõ ràng trong ảnh. Sẽ là một vấn đề đơn giản nếu tách biển số xe khỏi tất cả

các hình chữ nhật trong ảnh dựa trên thực tế là tỷ lệ chiều rộng trên chiều cao của biển số xe ở Hoa Kỳ có tỷ lệ đặc

biệt là 2:1. ■

Xử lý khu vực Thông thường,

vị trí của các khu vực quan tâm trong một hình ảnh đã được biết hoặc có thể được xác định. Điều này

ngụ ý rằng kiến thức có sẵn về thành viên khu vực của các pixel trong hình ảnh cạnh tương ứng. Trong

những tình huống như vậy, chúng ta có thể sử dụng các kỹ thuật liên kết các pixel trên cơ sở khu vực,

với kết quả mong muốn là gần đúng với ranh giới của khu vực. Một cách tiếp cận với kiểu xử lý này là

xấp xỉ hàm, trong đó chúng ta khớp đường cong 2-D với các điểm đã biết. Thông thường, mối quan tâm nằm

ở các kỹ thuật thực hiện nhanh mang lại sự gần đúng cho các đặc điểm cơ bản của đường biên, chẳng hạn

như các điểm cực trị và độ lõm. Các phép tính gần đúng đa giác đặc biệt hấp dẫn vì chúng có thể nắm

bắt được các đặc điểm hình dạng thiết yếu của một vùng trong khi vẫn giữ cho việc biểu diễn lại đường

biên (tức là các đỉnh của đa giác) tương đối đơn giản.

Trong phần này, chúng tôi phát triển và minh họa một thuật toán phù hợp cho mục đích này.

Trước khi nêu thuật toán, chúng ta thảo luận về cơ chế của quy trình bằng một ví dụ đơn giản. Hình

10.28 cho thấy một tập hợp các điểm biểu thị một đường cong mở A B. trong đó các điểm cuối đã được dán

điểm này nhãn và hai

C T
A
C
B C D D
HÌNH 10.28 Minh
họa thuật toán khớp
đa giác
E
lặp . MỘT MỘT

B B
C C

D D

E E
MỘT MỘT

F F

B B
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 729

các điểm theo định nghĩa là các đỉnh của đa giác. Chúng ta bắt đầu bằng việc tính toán
tham số của đường thẳng đi qua rồi tính A B.

khoảng cách vuông góc từ tất cả các điểm khác trong đường cong đến đường này và chọn
điểm mang lại khoảng cách tối đa (các mối liên hệ được giải quyết tùy ý). Nếu khoảng
cách này vượt quá ngưỡng xác định, T, tương ứng
C,được
điểm, được gắn nhãn A khai báo là một đỉnh, như minh họa trong Hình 10.28(a). Các dòng từ đến
CCBvà từ đến sau đó được thiết lập và khoảng cách từ tất cả các điểm là-A C giữa và tới đường thẳng
AC được thu được. Điểm tương ứng với
khoảng cách tối đa được khai báo là một đỉnh,
D, nếu khoảng cách vượt quá thì
T; không
có đỉnh mới nào được khai báo cho đoạn đó. Một thủ tục tương tự là
áp dụng cho các điểm giữa và HìnhC 10.28(b)
B. cho thấy kết quả và
Hình 10.28(c) thể hiện bước tiếp theo. Thủ tục lặp lại này được tiếp tục cho đến khi
không có điểm nào thỏa mãn ngưỡng kiểm tra. Hình 10.28(d) thể hiện kết quả cuối cùng
mà, như bạn có thể thấy, là một sự gần đúng hợp lý với hình dạng của một đường cong
phù hợp với các điểm đã cho.
Hai yêu cầu quan trọng được ngầm định trong quy trình vừa được giải thích.
Đầu tiên, phải xác định hai điểm bắt đầu; thứ hai, tất cả các điểm phải được sắp
xếp theo thứ tự (ví dụ: theo chiều kim đồng hồ hoặc ngược chiều kim đồng hồ). Khi tùy ý
tập hợp các điểm trong 2-D không tạo thành một đường dẫn được kết nối (như trường hợp điển hình trong

hình ảnh cạnh) không phải lúc nào cũng rõ ràng liệu các điểm có thuộc về một ranh giới hay không

đoạn (đường cong mở) hoặc một ranh giới (đường cong kín). Cho rằng các điểm là
theo thứ tự, chúng ta có thể suy ra liệu chúng ta đang xử lý một đường cong mở hay đóng bằng cách

phân tích khoảng cách giữa các điểm. Khoảng cách lớn giữa hai điểm liên tiếp
trong dãy có thứ tự so với khoảng cách giữa các điểm khác
các điểm khi chúng ta đi qua chuỗi các điểm là một dấu hiệu tốt cho thấy đường cong
đang mở. Điểm cuối sau đó được sử dụng để bắt đầu quy trình. Nếu sự chia ly
giữa các điểm có xu hướng giống nhau thì rất có thể chúng ta đang giải quyết một
đường cong khép kín. Trong trường hợp này, chúng ta có một số tùy chọn để chọn hai điểm bắt đầu

điểm. Một cách tiếp cận là chọn điểm ngoài cùng bên phải và ngoài cùng bên trái trong tập hợp.

Một cách khác là tìm các điểm cực trị của đường cong (chúng ta thảo luận cách thực hiện điều này

tại Mục 11.2.1). Thuật toán tìm sự phù hợp đa giác để mở và đóng
đường cong có thể được phát biểu như sau:

1. Cho làP một chuỗi các điểm có thứ tự, riêng biệt, có giá trị 1 của một hệ nhị phân Xem Phần 11.1.1 để biết

hình ảnh. Chỉ định hai điểm bắt đầu và A B.


Đây là hai đỉnh bắt đầu của đa giác.
thuật toán tạo chuỗi điểm có

thứ tự.

Việc sử dụng MỞ và
2. Chỉ định một ngưỡng vàT,hai ngăn xếp trống, MỞ và ĐÓNG. ĐÓNG cho ngăn xếp
PA ứng với một đường cong khép kín, hãy đặt vào OPEN và đặt
3. Nếu các điểm tương tên không liên quan đến

B vào MỞ và vào ĐÓNG. Nếu các điểm tương ứng với một điểm mở đường cong mở và đóng.
Tên ngăn xếp cho biết

Một đường cong, đưa vào MỞ và ĐÓNG. B chỉ đơn giản là một ngăn xếp để lưu trữ

4. Tính tham số của đường thẳng đi từ đỉnh cuối cùng trong đỉnh cuối cùng (ĐÓNG)
hoặc các đỉnh nằm trong
ĐÓNG tới đỉnh cuối cùng trong MỞ.
chuyển tiếp (MỞ).

5. Tính khoảng cách từ đường thẳng ở Bước 4 đến tất cả các điểm có P

trình tự đặt chúng giữa các đỉnh từ Bước 4. Chọn điểm,


Vmax , với khoảng cách tối đa, Dmax Vmax ở cuối (các mối quan hệ được giải quyết tùy ý).
6. Nếu Dmax 7 T , địa điểm ngăn xếp MỞ làm đỉnh mới. Đi

sang Bước 4.
Machine Translated by Google

730 Chương 10 ■ Phân đoạn hình ảnh

7. Mặt khác, loại bỏ đỉnh cuối cùng khỏi OPEN và chèn nó vào làm đỉnh cuối cùng của
ĐÓNG CỬA.

8. Nếu OPEN không trống, hãy chuyển sang Bước 4.

9. Ngược lại, thoát ra. Các đỉnh trong CLOSED là các đỉnh của đa giác khớp với các điểm trong P.

Cơ chế của thuật toán được minh họa trong hai ví dụ sau.

VÍ DỤ 10.11: Liên kết ■ Xét tập hợp các điểm P trong Hình 10.29(a). Giả sử rằng các điểm này thuộc một đường cong khép kín,
cạnh sử dụng chúng được sắp xếp theo chiều kim đồng hồ (lưu ý AB rằng một số điểm không liền kề) và được chọn lần
phép tính gần đúng đa lượt là như
P, Bảng 10.1 cho thấy. Chọn
điểm ngoài cùng bên trái và ngoài cùng bên phải. Đây là những đỉnh bắt đầu,
giác.
điểm đầu tiên trong chuỗi làm điểm ngoài cùng bên trái, Hình 10.29(b) hiển thị điểm duy nhất (được gắn

nhãn ) trong đoạn đường cong phía trên nằm giữa và thỏa mãn Bước 6 của thuật toán, do đó nó được chỉ

định là một đỉnh MỘT. C 10.1 hiển thị đang


mới và thêm vào các đỉnh trong ngăn xếp MỞ. Hàng thứ hai trong Bảng

ABthị T, được thêm làm đỉnh cuối cùng trong OPEN. Ngưỡng trong Hình
được phát hiện và hàng thứ ba hiển

10.29(b) xấp xỉ bằng 1,5 phân khu trong lưới hình.

Lưu ý trong Hình 10.29(b) rằng có một điểm bên dưới đường AB cũng thỏa mãn Bước 6. Tuy nhiên, do các

điểm được sắp xếp theo thứ tự nên chỉ một tập hợp con các điểm giữa hai đỉnh này được phát hiện cùng

một lúc. Điểm khác ở đoạn dưới sẽ được phát hiện sau, như minh họa trong Hình 10.29(e). Điều quan trọng

là luôn tuân theo các điểm theo thứ tự được đưa ra.

C C C

MỘT B MỘT
T B MỘT ba

C C C C

MỘT B MỘT B MỘT B MỘT B

D D D D

abcefg
dh

HÌNH 10.29 (a) Một tập hợp các điểm theo chiều kim đồng hồ (các điểm được gắn nhãn và được chọn làm
đến đỉnh
đườngAB bắt đầu ). (b) Khoảng cách từ điểm
C AB nên C là một đỉnh mới. (d)–(g) Các giai đoạn
thẳng đi qua và lớn nhất trong số các điểm nằm giữa và và cũng đã vượt qua phép kiểm tra ngưỡng

khác nhau củaAB


thuật toán. (h) Các đỉnh cuối cùng được hiển thị được nối với nhau bằng các đường thẳng để tạo thành một đa giác. Bảng 10.1 trình

bày chi tiết từng bước.


Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 731

Đỉnh BẢNG 10.1


ĐÓNG CỬA MỞ Đoạn đường cong
được xử lý được tạo Từng bước
chi tiết của
B —
BA A, B cơ khí ở
B BA (BA) C

Ví dụ 10.11.
B B, A, C (BC)

B, C BA (CA)
B, C, A B (AB) D

B, C, A B, D (Quảng cáo)

B —
B, C, A, D (ĐB)
— —
B, C, A, D, B Trống

Bảng 10.1 cho thấy các bước riêng lẻ dẫn đến giải pháp trong Hình 10.29(h).
Bốn đỉnh đã được phát hiện và hình vẽ cho thấy chúng được kết nối bằng đường thẳng
các đoạn thẳng để tạo thành một đa giác gần đúng với các điểm biên đã cho. Ghi chú
trong bảng mà các đỉnh được phát hiện, B, C, A, D, B đang ngược chiều kim đồng hồ

hướng, mặc dù các điểm được theo chiều kim đồng hồ để tạo ra các đỉnh. Nếu đầu vào là một
đường cong mở thì các đỉnh sẽ có
theo thứ tự theo chiều kim đồng hồ. Lý do cho sự khác biệt là cách thức mà
Ngăn xếp MỞ và ĐÓNG được khởi tạo. Sự khác biệt ở ngăn xếp nào

CLOSED được hình thành cho các đường cong mở và đóng cũng dẫn đến đường cong đầu tiên và cuối cùng

các đỉnh của một đường cong khép kín được lặp lại. Điều này phù hợp với cách người ta sẽ
phân biệt đa giác mở và đa giác đóng chỉ khi biết các đỉnh. ■

■ Hình 10.30 cho thấy một ví dụ thực tế hơn về lắp ghép đa giác. Các VÍ DỤ 10.12:

hình ảnh đầu vào trong Hình 10.30(a) là 550 * 566 Hình ảnh chụp X-quang răng người Lắp đa giác
của một hình ảnh
với cường độ được chia tỷ lệ theo khoảng [0, 1]. Mục tiêu của ví dụ này là
ranh giới.
để trích xuất ranh giới của răng, một quy trình hữu ích trong các lĩnh vực như đối chiếu
với cơ sở dữ liệu cho mục đích pháp y. Hình 10.30(b) là một gradient
hình ảnh thu được bằng cách sử dụng mặt nạ Sobel và được đặt ngưỡng T = 0,1 (10% của
cường độ tối đa). Như mong đợi đối với hình ảnh X-quang, hàm lượng nhiễu là
cao nên bước đầu tiên là giảm tiếng ồn. Vì ảnh là ảnh nhị phân nên các kỹ thuật hình thái
rất phù hợp cho mục đích này. Hình 10.30(c) cho thấy
kết quả của quá trình lọc đa số, đặt một pixel thành 1 nếu có năm pixel trở lên trong
nó là 3 * 3 vùng lân cận là 1 và đặt pixel thành 0 nếu không. Mặc dù
tiếng ồn đã giảm đi, một số điểm nhiễu vẫn còn thấy rõ. Hình 10.30(d)
cho thấy kết quả của việc thu nhỏ hình thái, giúp giảm tiếng ồn hơn nữa
tới các điểm cô lập. Những thứ này đã bị loại bỏ [Hình. 10.30(e)] bằng cách lọc hình thái
theo cách được mô tả trong Ví dụ 9.4. Tại thời điểm này, hình ảnh bao gồm các ranh giới
dày, có thể được làm mỏng đi bằng cách thu được
bộ xương hình thái, như Hình 10.30(f) cho thấy. Cuối cùng, Hình 10.30(g) cho thấy
bước cuối cùng trong quá trình tiền xử lý bằng cách sử dụng tính năng giảm kích thích, như được thảo luận trong Phần 9.5.8.

Tiếp theo, chúng ta khớp các điểm trong Hình 10.30(g) bằng một đa giác. Hình 10.30(h)–(j)
hiển thị kết quả của việc sử dụng thuật toán khớp đa giác với các ngưỡng bằng
0,5%, 1% và 2% chiều rộng hình ảnh ( T = 3, 6 và 12). Hai kết quả đầu tiên
là những xấp xỉ tốt cho ranh giới, nhưng giá trị thứ ba là cận biên. Quá đáng
độ lởm chởm trong cả ba trường hợp chỉ ra rõ ràng rằng việc làm mịn ranh giới là
Machine Translated by Google

732 Chương 10 ■ Phân đoạn hình ảnh

abcdefghijkl

HÌNH 10.30 (a) Hình ảnh X-quang 550 * 566 của răng người. (b) Hình ảnh chuyển màu. (c) Kết quả lọc đa số. (d) Kết quả của sự co lại hình

thái. ( e ) Kết quả làm sạch hình thái. (f) Bộ xương. (g) Giảm kích thích. (h)–(j) Phù hợp đa giác bằng cách sử dụng các ngưỡng khoảng 0,5%,

1% và 2% chiều rộng hình ảnh ( T = 3, 6 và 12). (k) Ranh giới trong (j) được làm mịn bằng bộ lọc trung bình 1-D có kích thước 1 * 31 (khoảng

5% chiều rộng hình ảnh). (l) Ranh giới trong (h) được làm mịn bằng cùng một bộ lọc.

yêu cầu. Hình 10.30(k) và (l) cho thấy kết quả của việc tạo mặt nạ trung bình 1-D với các ranh giới

tương ứng ở (j) và (h). Mặt nạ được sử dụng là mảng 1 * 31 gồm 1 giây, tương ứng với khoảng 5% chiều
rộng hình ảnh. Đúng như mong đợi, kết quả trong Hình 10.30(k) một lần nữa lại kém về mặt bảo tồn các

đặc điểm hình dạng quan trọng (ví dụ: phía bên phải bị biến dạng nghiêm trọng). Mặt khác, kết quả

trong Hình 10.30(l) cho thấy sự làm mịn ranh giới đáng kể và bảo toàn hợp lý các đặc điểm hình dạng.

Ví dụ: độ tròn của phần trên bên trái và các chi tiết của phần trên bên phải được giữ nguyên với độ

trung thực hợp lý.

Các kết quả trong ví dụ trước là điển hình cho những gì có thể đạt được bằng thuật toán khớp đa

giác được thảo luận trong phần này. Ưu điểm của việc này
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 733

thuật toán là nó đơn giản để thực hiện và mang lại kết quả thường là

khá chấp nhận được. Trong Phần 11.1.3, chúng tôi thảo luận về một quy trình phức tạp hơn

có khả năng mang lại sự phù hợp gần hơn bằng cách tính toán các đa giác có chu vi tối thiểu.

Xử lý toàn cầu bằng cách sử dụng biến đổi Hough


Các phương pháp được thảo luận ở hai phần trước có thể áp dụng được trong các tình huống

trong đó kiến thức về các pixel thuộc về các đối tượng riêng lẻ ít nhất là một phần

có sẵn. Ví dụ, trong xử lý vùng, việc liên kết một tập hợp các

pixel chỉ khi chúng ta biết rằng chúng là một phần của ranh giới của một vùng có ý nghĩa.

Thông thường, chúng ta phải làm việc với môi trường phi cấu trúc, trong đó tất cả những gì chúng ta có là

một hình ảnh cạnh và không có kiến thức về vị trí của các đối tượng quan tâm. TRONG

những tình huống như vậy, tất cả các pixel đều là ứng cử viên cho liên kết và do đó phải được chấp nhận

hoặc bị loại bỏ dựa trên các thuộc tính chung được xác định trước . Trong phần này, chúng tôi phát triển

một cách tiếp cận dựa trên việc liệu các tập hợp pixel có nằm trên các đường cong có hình dạng xác định hay không.

Sau khi được phát hiện, các đường cong này tạo thành các cạnh hoặc ranh giới vùng quan tâm.

Cho trước Ncác điểm trong một hình ảnh, giả sử rằng chúng ta muốn tìm các tập con của các điểm này

những điểm nằm trên đường thẳng. Một giải pháp khả thi là trước tiên hãy tìm tất cả các đường thẳng

được xác định bởi mỗi cặp điểm và sau đó tìm tất cả các tập hợp con của các điểm gần nhau.

tới những dòng cụ thể. Cách tiếp cận này liên quan đến việc tìm cácn(n
dòng và (n)
- 1)>2' (n(n - 1))>2 ' n3
n2

sau đó thực hiện so sánh mọi điểm với tất cả các dòng.

Đây là một nhiệm vụ đòi hỏi tính toán cao trong tất cả các ứng dụng ngoại trừ những ứng dụng tầm thường nhất.

Hough [1962] đề xuất một cách tiếp cận khác, thường được gọi là phương pháp

Hough biến đổi. Xét một điểm (xi, yi) trong mặt phẳng xy và phương trình tổng quát

của đường thẳng ở dạng giao điểm, yi = axi + b. Vô số dòng

đi qua (xi, yi) nhưng đều thỏa mãn phương trình yi = axi + b đối với các giá
trị khácMộtnhau của. và Tuy nhiên, viết phương trình này dưới dạng b = -xi a + yi và xét
mặt phẳng ab (còn gọi là không gian tham số) mang lại phương trình của một đường thẳng cho một

cặp cố định (x i, yi). Hơn nữa, điểm thứ hai (xj, yj ) cũng có một dòng trong tham số

không gian liên kết với nó, và, trừ khi chúng song song, đường thẳng này cắt đường thẳng liên kết
với (x i, yi) tại một điểm nào đó (a¿, b¿),yi)
b¿ độ dốc ở đâu và liên-a¿ (x i,

yj ) trừ đường thẳng chứa cả hai và trong mặt phẳng xy.


(xj,
Trên thực tế, tất cả những
các điểm trên dòng này có các đường trong không gian tham số giao nhau tại (a¿, b¿). Hình 10.31

minh họa các khái niệm này.

Về nguyên tắc, các đường không gian tham số tương ứng với mọi điểm (xk, yk) TRONG

mặt phẳng xy có thể được vẽ và các đường chính trong mặt phẳng đó có thể được tìm thấy

bằng cách xác định các điểm trong không gian tham số nơi có số lượng lớn không gian tham số

các đường giao nhau. Tuy nhiên, một khó khăn thực tế với cách tiếp cận này là

b bụng
y b
HÌNH 10.31
b (a) mặt phẳng xy.
hạ yi
(b) Tham số
(xi , yi )
không gian.

Một

(xj , yj )
b
xja yj

x Một
Machine Translated by Google

734 Chương 10 ■ Phân đoạn hình ảnh

(độ dốc của một đường) tiến tới vô cùng khi đường thẳng tiến đến hướng thẳng đứng.
Một cách để giải quyết khó khăn này là sử dụng cách biểu diễn bình thường của một đường:

x cos u + y sin u = r (10.2-38)

Hình 10.32(a) minh họa cách diễn giải hình học của các tham số
bạn. và Một đường nằm ngang có u = 0°, bằng giá trị dương x- rr

chặn. Tương tự, một đường thẳng đứng có u = 90°, bằng giá trị dương

r
tung độ gốc y, hoặc u = -90°, bằng với tung độ gốc âm.
Mỗi đường cong hình sin trong Hình 10.32(b) đại diện cho họ các đường
(xk,xy.
đi qua một điểm cụ thể trong mặt phẳng yk)Điểm giao nhau

(r¿, u¿) trong Hình 10.32(b) tương ứng với đường thẳng đi qua cả hai (xi, yi )
và (xj, yj) trong Hình 10.32(a).
Sức hấp dẫn tính toán của biến đổi Hough phát sinh từ việc chia nhỏ không gian tham số thành các
ru lũy, như Hình 2.
ô được gọi là ô tích
10.32(c) minh họa, trong đó (rmin, rmax) và (umin, umax ) là phạm vi dự kiến
của các giá trị tham số: và đâu -90°
là … u … 90° -D … r … D, D
khoảng cách tối đa giữa các góc đối diện trong một hình ảnh. Ô tại coordi-(i, j), với giá trị
không tích lũy A(i, j), tương ứng với hình vuông liên kết ed với tọa độ

gian-tham số (ri, uj). Ban đầu, các ô này được đặt thành 0.
Sau đó, với mọi điểm không phải nền (xk, yk) trong mặt phẳng xy, chúng ta lấy giá trị bằng
bạn
nhau
từng giá trị chia nhỏ được phép trên trục - và giải các giá trị tương ứng

sponding sử rdụng phương trình r = xk cos u + yk sin u. Các giá trị kết r
quả
sau đó được làm tròn đến giá trị ô được phép gần nhất dọc theo trục. Nếu mộtr
lựa chọn kết quả trong lời giải thì ta đặt
rq ,A(p, q) = A(p, q) + 1. Ở phần

P xy nằm trên đường


cuối của thủ tục này, giá trị của PA(i, j) cónghĩa là các điểm trong mặt phẳng

thẳng x cos uj + y sin uj = ri. Số lượng phân khu trong mặt phẳng ru

xác định độ chính xác về độ đồng tuyến của các điểm này. Nó có thể
đã chỉ ra (Bài toán 10.24) rằng số lần tính toán trong phương thức này chỉ
được thảo luận là tuyến tính đối với sốN,lượng điểm không phải nền trong
mặt phẳng xy .

bạn ừm 0 umax
y bạn
bạn

rmin
xjcosu yjsinu r

bạn

(xj , yj )

r rmax
(xi , yi )

xicosu yisinu r

x r r

abc

HÌNH 10.32 (a) (r, u) tham số hóa đường thẳng trong mặt phẳng xy. (b) Đường cong hình sin trong mặt phẳng ru; các

giao điểm (r¿, u¿) ứng với đường thẳng đi qua điểm (x ) i, và
(xj, yj ) trong mặt phẳng xy.
yi (c) Phép chia của mặt phẳng ru vào tế bào tích lũy.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 735

■ Hình 10.33 minh họa phép biến đổi Hough dựa trên phương trình. (10,2-38). VÍ DỤ 10.13:
Một minh họa của
Hình 10.33(a) hiển thị hình ảnh có kích thước 101 * 101 pixel có năm nhãn được dán nhãn
Hough cơ bản
điểm, và Hình 10.33(b) hiển thị từng điểm này được ánh xạ lên biến đổi
mặt phẳng ru sử dụng các phân chia của một đơn vị rcho trục và. Phạm vi của
bạn bạn
của cải.
trị là ;90° và phạm vi của trục là khoảng cách giữa các góc trong ; 22D, giá thiết bị D
ở đâu

ảnh. Như Hình 10.33(c) cho thấy, mỗi đường cong có

một hình sin khác. Đường nằm ngang do ánh xạ của điểm 1 là trường hợp đặc
biệt của hình sin có biên độ bằng 0.
B
Các điểm được gắn nhãn (không bị nhầm lẫn với các giá trị tích lũy) và trong
Hình 10.33(b) cho thấy đặc tính phát hiện cộng tuyến của phép biến đổi Hough.

Một

HÌNH 10.33
(a) Hình ảnh có kích thước
101 * 101 điểm ảnh,

chứa năm
điểm.
(b) Tương ứng
không gian tham số.
(Các điểm trong (a)
đã được mở rộng để
làm cho chúng dễ dàng hơn

nhìn.)

Q
100
2

R
50

S MỘT 1 S
0

3
R
50 4
B

Q
100

80 60 40 20 0 20 40 60 80
bạn
Machine Translated by Google

736 Chương 10 ■ Phân đoạn hình ảnh

MỘT
Điểm biểu thị giao điểm của các đường cong tương ứng với các điểm 1, 3 và
MỘT
5 trong mặtxyphẳng hình ảnh. Vị trí của điểm chỉ ra rằng ba điểm này
điểm nằm trên đường thẳng đi qua gốc tọa độ và có hướng tại (r = 0)
cho B gian para-45°
[xem Hình 10.32(a)]. Tương tự, các đường cong giao nhau tại một điểm trong không

biết các điểm 2, 3 và 4 nằm trên đường thẳng có hướng ở -45° ,

và có khoảng cách từ điểm gốc là r = 71 (một nửa khoảng cách đường chéo
từ gốc ảnh đến góc đối diện, làm tròn đến giá trị nguyên gần nhất). Cuối cùng, các điểm
Q, R,
được dán nhãn và trong Hình 10.33(b) minh họa S

thực tế là phép biến đổi Hough thể hiện mối quan hệ kề cận phản ánh tại
cạnh phải và trái của không gian tham số. Tính chất này là kết quả của
bạn theo cách nào và đổi dấu ở r;90° ranh giới. ■

Mặc dù trọng tâm cho đến nay vẫn là các đường thẳng, nhưng Hough trans- g(v, c) = 0,
dạng có thể áp dụng cho bất kỳ hàm nào có dạng trong đó v là một vectơ

của tọa độ và c là một vectơ hệ số. Ví dụ, các điểm nằm trên
hình tròn

2 2 2
(x - c1) + (y - c2) = c3 (10.2-39)

có thể được phát hiện bằng cách sử dụng phương pháp cơ bản vừa thảo luận. Sự khác biệt là
sự hiện diện của ba tham số dẫn đến para-A(i,
(c1, c2j,vàk)c3),
3-D.
không gian mét với các ô dạng khối lập phương và các bộ tích lũy có dạng The

thủ tục là tăng và giải để thỏa c2 , trình. (10.2-39),


mãn phương
c 1
c3
và cập nhật ô tích lũy liên kết với bộ ba Rõ ràng, (c1, c2, c3).
độ phức tạp của phép biến đổi Hough phụ thuộc vào số tọa độ
và các hệ số trong một biểu diễn hàm nhất định. Khái quát hơn nữa
của phép biến đổi Hough để phát hiện các đường cong không thể thực hiện được bằng cách
biểu diễn phân tích đơn giản, cũng như việc áp dụng phép biến đổi vào các ảnh thang độ xám.
Một số tài liệu tham khảo liên quan đến các phần mở rộng này được bao gồm ở phần cuối của tài liệu này.

chương.
Bây giờ chúng ta quay lại vấn đề liên kết cạnh. Một cách tiếp cận dựa trên
Biến đổi Hough như sau:

1. Thu được hình ảnh biên nhị phân bằng cách sử dụng bất kỳ kỹ thuật nào được thảo luận trước đó
trong phần này.

2. Chỉ định các phân khu trong mặt phẳng ru.


3. Kiểm tra số lượng ô tích lũy để biết mật độ điểm ảnh cao.
4. Kiểm tra mối quan hệ (chủ yếu là tính liên tục) giữa các pixel trong một
ô đã chọn.

Tính liên tục trong trường hợp này thường dựa trên việc tính toán khoảng cách giữa
các pixel bị ngắt kết nối tương ứng với một ô tích lũy nhất định. Một khoảng trống trong một dòng

được liên kết với một ô nhất định sẽ được bắc cầu nếu độ dài của khoảng cách nhỏ hơn một
ngưỡng quy định. Lưu ý rằng thực tế là có thể nhóm các dòng dựa trên
về hướng là một khái niệm toàn cầu có thể áp dụng trên toàn bộ hình ảnh, đòi hỏi
chỉ có điều chúng tôi kiểm tra các pixel được liên kết với các ô tích lũy cụ thể. Đây là một
lợi thế đáng kể so với các phương pháp được thảo luận trong hai phần trước.
Ví dụ sau đây minh họa các khái niệm này.
Machine Translated by Google

10.2 ■ Phát hiện điểm, đường và cạnh 737

■ Hình 10.34(a) thể hiện hình ảnh chụp từ trên không của một sân bay. Mục tiêu của việc này VÍ DỤ 10.14:

Ví dụ là sử dụng phép biến đổi Hough để trích xuất hai cạnh của phần tử chính Sử dụng Hough
biến đổi cho
đường băng. Một giải pháp cho vấn đề như vậy có thể được quan tâm, ví dụ, trong
liên kết cạnh.
các ứng dụng liên quan đến điều hướng tự động của phương tiện hàng không.
Bước đầu tiên là thu được một hình ảnh cạnh. Hình 10.34(b) thể hiện cạnh
hình ảnh thu được bằng thuật toán Canny với cùng tham số và quy trình được sử dụng trong Ví
dụ 10.9. Với mục đích tính toán biến đổi Hough,
có thể thu được kết quả tương tự bằng cách sử dụng bất kỳ kỹ thuật phát hiện cạnh nào được
thảo luận trong Phần 10.2.5 hoặc 10.2.6. Hình 10.34(c) thể hiện tham số Hough
không gian u thu được bằng cách sử dụng khoảng tăng 1° cho và khoảng tăng 1 pixel cho r.

Đường băng quan tâm được định hướng gần như hướng bắc, 1°

vì vậy chúng tôi chọn các ô tương ứng với ;90° và chứa số lượng cao nhất
bởi vì đường băng là đường dài nhất được định hướng theo những hướng này. Các
các ô nhỏ màu trắng ở các cạnh của Hình 10.34(c) làm nổi bật các ô này. Như đã đề cập trước
đó liên quan đến Hình 10.33(b), phép biến đổi Hough thể hiện
kề nhau ở các cạnh. Một cách khác để giải thích thuộc tính này là một dòng
định hướng ở +90° và một đường định hướng ở -90° là tương đương (nghĩa là cả hai đều
thẳng đứng). Hình 10.34(d) hiển thị các đường tương ứng với hai thanh ghi tích lũy
các ô vừa thảo luận và Hình 10.34(e) hiển thị các đường chồng lên trên

bụng
cde

HÌNH 10.34 (a) A 502 * 564 hình ảnh chụp từ trên không của một sân bay. (b) Ảnh biên thu được bằng thuật toán Canny.
(c) Không gian tham số Hough (các hộp đánh dấu các điểm liên quan đến các đường thẳng đứng dài). (d) Đường vào
mặt phẳng hình ảnh tương ứng với các điểm được đánh dấu bằng các hộp). (e) Các đường chồng lên trên
ảnh gốc.
Machine Translated by Google

738 Chương 10 ■ Phân đoạn hình ảnh

ảnh gốc. Các đường có được bằng cách nối tất cả các khoảng trống không vượt quá
20% chiều cao của hình ảnh (khoảng 100 pixel). Những đường này rõ ràng tương ứng với
các cạnh của đường băng quan tâm.
Lưu ý rằng kiến thức quan trọng duy nhất cần thiết để giải quyết vấn đề này là hướng
của đường băng và vị trí của người quan sát so với nó. Ở nơi khác
Nói cách khác, một phương tiện tự điều hướng sẽ biết rằng nếu đường băng quan tâm hướng
về phía bắc và hướng di chuyển của phương tiện cũng hướng về phía bắc thì đường băng
sẽ xuất hiện theo chiều dọc trong hình ảnh. Các định hướng tương đối khác được xử lý
một cách tương tự. Định hướng của các đường băng trên khắp thế giới là
có sẵn trong biểu đồ chuyến bay và có thể dễ dàng xác định hướng di chuyển bằng GPS
(Hệ thống định vị toàn cầu) thông tin. Thông tin này cũng có thể được sử dụng
để tính toán khoảng cách giữa phương tiện và đường băng, từ đó cho phép ước tính các
thông số như độ dài dự kiến của các đường liên quan đến kích thước hình ảnh, như
chúng tôi đã làm trong ví dụ này. ■

10.3 Ngưỡng
Do các đặc tính trực quan, thực hiện đơn giản và tốc độ tính toán, ngưỡng ảnh chiếm vị
trí trung tâm trong các ứng dụng của
phân đoạn hình ảnh. Ngưỡng đã được giới thiệu trong Phần 3.1.1 và chúng tôi
đã sử dụng nó trong nhiều cuộc thảo luận khác nhau kể từ đó. Trong phần này, chúng tôi thảo

luận về quá trình đập lúa theo cách chính thức hơn và phát triển các kỹ thuật có hiệu quả đáng kể.

tổng quát hơn những gì đã được trình bày cho đến nay.

10.3.1 Nền móng

Trong phần trước, các vùng được xác định bằng cách tìm các đoạn cạnh đầu tiên
và sau đó cố gắng liên kết các phân đoạn thành các ranh giới. Trong phần này, chúng tôi
thảo luận các kỹ thuật phân chia hình ảnh trực tiếp thành các vùng dựa trên giá trị
cường độ và/hoặc thuộc tính của các giá trị này.

Khái niệm cơ bản về ngưỡng cường độ


Giả sử biểu đồ cường độ trong Hình 10.35(a) tương ứng với một hình ảnh,
f(x, y), bao gồm các vật thể sáng trên nền tối, theo cách mà các pixel đối tượng và
nền có các giá trị cường độ được nhóm thành hai giá trị vượt trội
chế độ. Một cách rõ ràng để trích xuất các đối tượng khỏi nền là se-(x, y)
chọn một ngưỡng để phânT,biệt các chế độ này. Khi đó, bất kỳ điểm nào trong

ảnh tại đó được gọif(x,


là điểm
y) 7 vật;
T mặt khác, vấn đề là
gọi là điểm nền. Nói cách khác, ảnh được phân đoạn là g(x, y),
được cho bởi

Mặc dù chúng tôi tuân

theo quy ước sử dụng cường nếu f(x, y) 7 T


(10.3-1)
độ 0 cho nền và 1
0 nếu f(x, y) … T
cho pixel đối tượng, bất kỳ
g(x, y) = b 1
hai giá trị riêng biệt nào
cũng có thể được
Khi một Thằng số được áp dụng trên toàn bộ hình ảnh, quy trình được đưa ra trong phần này
được sử dụng trong phương trình. (10.3-1).

phương trình được gọi là ngưỡng toàn cục. Khi giá trị thay đổi T

trên một hình ảnh, chúng tôi sử dụng thuật ngữ ngưỡng biến. Thuật ngữ địa phương hoặc
ngưỡng khu vực đôi khi được sử dụng để biểu thị ngưỡng biến đổi trong
Machine Translated by Google

10.3 ■ Ngưỡng 739

bụng

HÌNH 10.35
Cường độ
biểu đồ đó
có thể được phân vùng
(a) bởi một người
ngưỡng, và (b)
bằng kép
ngưỡng.

T T1 T2

là giá trị của tại điểm bấtT kỳ (x, y) trong một hình ảnh phụ thuộc vào thuộc tính của

một lân cận của (x, y) (ví dụ: cường độ trung bình của các pixel trong
T độ không gian (x, y)
khu phố). Nếu phụ thuộc vào tọa chúng tôi,
thì việc xác định ngưỡng thay đổi thường được gọi là quá trình đập lúa năng động hoặc thích

ứng . Việc sử dụng các thuật ngữ này không phổ biến và người ta có thể thấy chúng được sử dụng

có thể thay thế cho nhau trong các tài liệu về xử lý ảnh.
Hình 10.35(b) cho thấy một vấn đề về ngưỡng khó khăn hơn liên quan đến
biểu đồ với ba chế độ chiếm ưu thế tương ứng, ví dụ, với hai
các loại vật thể sáng trên nền tối. Ở đây, nhiều ngưỡng phân loại một điểm (x, y) thuộc về nền nếu f(x,

y) … T1 thành một lớp đối tượng nếu T 6 f(x, y)… T2, ,


và đến lớp đối tượng khác nếu f(x, y) 7 T2 1 Nghĩa là, ảnh được phân đoạn được
.

cho bởi

nếu f(x, y) 7 T2
b nếu T1 6 f(x, y) … T2 (10.3-2)

g(x, y) = ca c nếu f(x, y) … T1

trong đó a, b và là cba giá trị cường độ riêng biệt bất kỳ. Chúng ta thảo luận về quá trình già

hóa kép trong Phần 10.3.6. Các vấn đề về phân đoạn yêu cầu nhiều hơn hai

ngưỡng rất khó (thường là không thể) giải quyết được và kết quả thường tốt hơn
thu được bằng cách sử dụng các phương pháp khác, chẳng hạn như ngưỡng biến đổi, như đã thảo luận

trong Phần 10.3.7, hoặc phát triển theo vùng, như đã thảo luận trong Phần 10.4.

Dựa trên cuộc thảo luận trước đó, chúng ta có thể suy luận bằng trực giác rằng sự thành công

ngưỡng cường độ có liên quan trực tiếp đến chiều rộng và độ sâu của (các) thung lũng
ngăn cách các chế độ biểu đồ. Ngược lại, các yếu tố chính ảnh hưởng đến
đặc tính của (các) thung lũng là: (1) sự tách biệt giữa các đỉnh (càng xa
các đỉnh càng xa nhau thì khả năng tách các mode càng cao); (2) cái
nội dung nhiễu trong ảnh (các chế độ mở rộng khi nhiễu tăng); (3) kích thước tương
đối của vật thể và nền; (4) tính đồng nhất của ánh sáng
nguồn; và (5) tính đồng nhất của đặc tính phản xạ của hình ảnh.

Vai trò của nhiễu trong ngưỡng ảnh


Để minh họa mức độ nhiễu ảnh hưởng đến biểu đồ của hình ảnh, hãy xem xét
Hình 10.36(a).Hình ảnh tổng hợp đơn giản này không có nhiễu nên biểu đồ của nó bao gồm
của hai chế độ “tăng đột biến”, như Hình 10.36(d) cho thấy. Chia hình ảnh này thành hai
các vùng là một nhiệm vụ tầm thường liên quan đến một ngưỡng được đặt ở bất kỳ đâu giữa hai vùng
Machine Translated by Google

740 Chương 10 ■ Phân đoạn hình ảnh

0 63 127 191 255 0 63 127 191 255 0 63 127 191 255

abc
chắc chắn

HÌNH 10.36 (a) Hình ảnh 8-bit không nhiễu. (b) Ảnh có nhiễu Gauss cộng có giá trị trung bình là 0 và chuẩn
độ lệch 10 mức cường độ. (c) Ảnh có nhiễu Gauss cộng có giá trị trung bình là 0 và độ lệch chuẩn là
50 mức cường độ. (d)–(f) Biểu đồ tương ứng.

chế độ. Hình 10.36(b) hiển thị ảnh gốc bị nhiễu do nhiễu Gaussian
có giá trị trung bình bằng 0 và độ lệch chuẩn là 10 mức cường độ. Mặc dù các chế độ biểu
đồ tương ứng hiện rộng hơn [Hình. 10.36(e)], sự tách biệt của chúng
đủ lớn để độ sâu của thung lũng giữa chúng đủ để
làm cho các chế độ dễ dàng tách biệt. Một ngưỡng được đặt ở giữa hai chế độ
các đỉnh sẽ thực hiện tốt công việc phân đoạn hình ảnh. Hình 10.36(c) cho thấy
kết quả của việc làm hỏng hình ảnh với nhiễu Gaussian có giá trị trung bình bằng 0 và độ
lệch chuẩn là 50 mức cường độ. Như biểu đồ trong Hình 10.36(f) cho thấy,
tình hình bây giờ nghiêm trọng hơn nhiều vì không có cách nào để phân biệt giữa hai chế
độ. Nếu không có quá trình xử lý bổ sung (chẳng hạn như các phương pháp được thảo luận
trong Phần 10.3.4 và 10.3.5), chúng ta sẽ có rất ít hy vọng tìm được một phương pháp phù hợp.
ngưỡng để phân đoạn hình ảnh này.

Vai trò của chiếu sáng và phản chiếu

Hình 10.37 minh họa ảnh hưởng của việc chiếu sáng lên biểu đồ của
một tấm ảnh. Hình 10.37(a) là hình ảnh nhiễu từ Hình 10.36(b) và Hình 10.37(d)
hiển thị biểu đồ của nó. Như trước đây, hình ảnh này có thể dễ dàng phân đoạn bằng một
ngưỡng. Chúng ta có thể minh họa tác động của việc chiếu sáng không đồng đều bằng cách
nhân hình ảnh trong Hình 10.37(a) với một hàm cường độ thay đổi, chẳng hạn như đường dốc
cường độ trong Hình 10.37(b), có biểu đồ được hiển thị trong Hình . 10.37(e).
Hình 10.37(c) cho thấy sản phẩm của hình ảnh và kiểu tô bóng này. Như Hình 10.37(f) cho
thấy, thung lũng sâu giữa các đỉnh đã bị xói mòn đến mức
Machine Translated by Google

10.3 ■ Ngưỡng 741

0 63 127 191 255 0 0,2 0,4 0,6 0,8 1 0 63 127 191 255

abc
chắc chắn

HÌNH 10.37 (a) Ảnh nhiễu. (b) Độ dốc cường độ trong khoảng [0,2, 0,6]. (c) Tích của (a) và (b).
(d)–(f) Biểu đồ tương ứng.

trong đó việc tách các chế độ mà không cần xử lý bổ sung (xem Phần Về lý thuyết, biểu đồ
của một hình ảnh đoạn đường nối
10.3.4 và 10.3.5) không còn khả dụng nữa. Kết quả tương tự sẽ đạt được nếu có dạng thống nhất. Trong thực tế,

độ chiếu sáng hoàn toàn đồng đều, nhưng độ phản chiếu của hình ảnh thì không, đạt được sự đồng nhất hoàn hảo

phụ thuộc vào kích thước của


ví dụ, do sự thay đổi độ phản xạ tự nhiên trên bề mặt của vật thể hình ảnh và số lượng

và/hoặc nền. bit cường độ. Ví dụ: 256 *


256, 256-
Điểm mấu chốt trong đoạn trước là sự chiếu sáng và phản xạ hình ảnh đoạn đường nối cấp độ có

biểu đồ thống nhất, nhưng một


đóng vai trò trung tâm trong sự thành công của việc phân đoạn ảnh bằng cách sử dụng ngưỡng hoặc
256 * 257 hình ảnh đoạn đường nối

các kỹ thuật phân đoạn khác. Vì vậy, việc kiểm soát các yếu tố này khi với cùng số lượng

cường độ thì không.


có thể làm như vậy phải là bước đầu tiên được xem xét trong giải pháp cho vấn
đề phân đoạn. Có ba cách tiếp cận cơ bản cho vấn đề khi
không thể kiểm soát được các yếu tố này. Một là sửa kiểu tô bóng
trực tiếp. Ví dụ, độ chiếu sáng không đồng đều (nhưng cố định) có thể được điều chỉnh bằng cách

nhân hình ảnh với nghịch đảo của mẫu, có thể thu được bằng cách
chụp ảnh một bề mặt phẳng có cường độ không đổi. Cách tiếp cận thứ hai là cố gắng
để sửa kiểu tô bóng tổng thể thông qua quá trình xử lý bằng cách sử dụng, ví dụ:
phép biến đổi top-hat được giới thiệu ở Phần 9.6.3. Cách tiếp cận thứ ba là
“khắc phục” sự không đồng đều bằng cách sử dụng ngưỡng biến đổi, như đã thảo luận trong
Mục 10.3.7.

10.3.2 Ngưỡng toàn cầu cơ bản


Như đã lưu ý ở phần trước, khi sự phân bố cường độ của các vật thể
và các pixel nền đủ khác biệt, có thể sử dụng một
ngưỡng (toàn cầu) áp dụng trên toàn bộ hình ảnh. Trong hầu hết các ứng dụng, có
Machine Translated by Google

742 Chương 10 ■ Phân đoạn hình ảnh

thường có đủ độ biến thiên giữa các hình ảnh, ngay cả khi ngưỡng tổng thể
là một cách tiếp cận phù hợp, một thuật toán có khả năng ước tính tự động
giá trị ngưỡng cho mỗi hình ảnh là bắt buộc. Thuật toán lặp sau
có thể được sử dụng cho mục đích này:

1. Chọn ước tính ban đầu cho ngưỡng chung, T.


T
2. Phân đoạn hình ảnh bằng phương trình. (10.3-1). Điều này sẽ tạo ra hai nhóm
G 1
pixel: bao , giá có
gồm tất cả các pixel có giá trị cường độ 7 T G2 và bao gồm các pixel trị … T.

m1 các pixel
3. Tính giá trị cường độ trung bình (trung bình) và cho m2 trong
G21 Gtương ,
và ứng.
4. Tính giá trị ngưỡng mới:

1
T = (m1 + m2)
2

T
5. Lặp lại các bước từ 2 đến 4 cho đến khi chênh lệch giữa các giá trị thành công
số lần lặp liên tục nhỏ hơn tham số được xác định trước ¢T.

Thuật toán đơn giản này hoạt động tốt trong các tình huống có
thung lũng rõ ràng giữa các chế độ của biểu đồ liên quan đến đối tượng và ngược lại-¢T

đất. Tham số được sử dụng để kiểm soát số lần lặp trong các tình huống
nơi tốc độ là một vấn đề quan trọng. Nói chung, ¢T càng lớn nghĩa là thuật
toán sẽ thực hiện càng ít lần lặp lại. Ngưỡng ban đầu phải được chọn lớn hơn
hơn mức cường độ tối thiểu và nhỏ hơn mức cường độ tối đa trong ảnh (Bài toán
10.28). Cường độ trung bình của hình ảnh là lựa chọn ban đầu tốt cho T.

VÍ DỤ 10.15: ■ Hình 10.38 cho thấy một ví dụ về phân đoạn dựa trên ngưỡng được ước
Toàn cầu
tính bằng thuật toán trước đó. Hình 10.38(a) là ảnh gốc, và
ngưỡng.
Hình 10.38(b) là biểu đồ hình ảnh, hiển thị một thung lũng khác biệt. Ứng dụng của
thuật toán lặp trước cho kết quả ngưỡng T = 125,4 sau ba it- (cường

đổi, bắt đầu bằng T = m ¢T = 0. độ hình ảnh trung bình) và sử dụng các phép biến

Hình 10.38(c) thể hiện kết quả thu được khi sử dụng T = 125 để phân đoạn bản gốc
hình ảnh. Đúng như mong đợi từ sự phân tách rõ ràng các chế độ trong biểu đồ, việc phân tách giữa đối tượng và nền

khá hiệu quả. ■

Thuật toán trước đã được nêu dưới dạng ngưỡng liên tiếp
hình ảnh đầu vào và tính toán phương tiện ở mỗi bước vì việc giới thiệu nó theo
cách này sẽ trực quan hơn. Tuy nhiên, có thể phát triển hơn
thủ tục hiệu quả bằng cách thể hiện tất cả các tính toán dưới dạng hình ảnh
biểu đồ, chỉ được tính một lần (Bài toán 10.26).

10.3.3 Ngưỡng toàn cầu tối ưu bằng phương pháp của Otsu
Ngưỡng có thể được xem như một bài toán lý thuyết quyết định thống kê mà
Mục tiêu là giảm thiểu sai số trung bình phát sinh khi gán pixel cho hai
hoặc nhiều nhóm (còn gọi là lớp). Vấn đề này được biết là có một vẻ đẹp thanh lịch
giải pháp dạng đóng được gọi là quy tắc quyết định Bayes (xem Phần 12.2.2).
Lời giải chỉ dựa trên hai tham số: hàm mật độ xác suất
(PDF) về mức cường độ của từng lớp và xác suất mà mỗi lớp
xảy ra trong một ứng dụng nhất định. Thật không may, việc ước tính các tệp PDF không phải là chuyện nhỏ
Machine Translated by Google

10.3 ■ Ngưỡng 743

0 63 127 191 255

abc
HÌNH 10.38 (a) Dấu vân tay ồn ào. ( b ) Biểu đồ. (c) Kết quả được phân đoạn sử dụng ngưỡng chung (đường viền
đã được thêm vào cho rõ ràng). (Bản gốc của Viện Tiêu chuẩn và Công nghệ Quốc gia.)

quan trọng, vì vậy vấn đề thường được đơn giản hóa bằng cách đưa ra các giả định khả thi
về hình thức của các tệp PDF, chẳng hạn như giả sử rằng chúng là các hàm Gaussian.
Ngay cả khi đơn giản hóa, quá trình triển khai các giải pháp sử dụng các giả định này
có thể phức tạp và không phải lúc nào cũng phù hợp cho các ứng dụng thực tế.
Cách tiếp cận được thảo luận trong phần này, được gọi là phương pháp của Otsu (Otsu [1979]), là

một sự thay thế hấp dẫn. Phương pháp này là tối ưu theo nghĩa là nó tối đa hóa
phương sai giữa các lớp, một thước đo nổi tiếng được sử dụng trong phân tích phân biệt

thống kê. Ý tưởng cơ bản là các lớp có ngưỡng tốt phải khác biệt
đối với các giá trị cường độ của các pixel của chúng và ngược lại, một ngưỡng cũ mang
lại sự phân tách tốt nhất giữa các lớp về giá trị cường độ của chúng
sẽ là ngưỡng tốt nhất (tối ưu). Ngoài tính tối ưu của nó, Otsu's
phương thức có một đặc tính quan trọng là nó hoàn toàn dựa trên các tính toán
được thực hiện trên biểu đồ của hình ảnh, một mảng 1-D có thể dễ dàng thu được.
Hãy L50, 1, 2, Á , L - 16 biểu thị các mức cường độ riêng biệt trong một hình ảnh kỹ thuật số
có kích thước M * N pixel và ký hiệu số pixel có cường độ The

tôi
Tôi.

tổng số MN của các pixel trong ảnh là MN = n0 + n1 + n2 + Á + nL-1 Biểu đồ chuẩn hóa .

(xem Phần 3.3) có các thành phần pi = ni>MN, từ


nó theo sau đó

L-1

Một số pi = 1, pi Ú 0 (10.3-3)
tôi=0

Bây giờ, giả sử chúng ta chọn ngưỡng T(k) = k, 0 6 k 6 L - 1, và sử dụng nó

ảnh đầu vào thành hai lớp và bao gồm C C2 C1 để phân


, chia hình
1
k C2
tất cả các pixel trong ảnh có giá trị cường độ trong phạm vi [0, ] và bao gồm các pixel
có giá trị trong phạm vi [k + 1, L - 1]. Sử dụng ngưỡng này,
xác suất, P1 (k), rằng một pixel được gán cho (tức là ngưỡng vào) lớp C1 được
tính bằng tổng tích lũy
Machine Translated by Google

744 Chương 10 ■ Phân đoạn hình ảnh

k
P1(k) = một số Pi
(10.3-4)
tôi=0

Nhìn theo cách khác, đây là xác suất xảy ra lớp học.
C1 Ví dụ,
, xác
nếu chúng ta đặt k = 0 C1 suất của lớp có bất kỳ pixel nào được gán cho nó là
số không. Tương tự, xác suất của lớp C2
xảy ra là

L-1
P2(k) = a pi = 1 - P1(k) (10.3-5)
tôi=k+1


Từ phương trình. (3.3-18), giá trị cường độ trung bình của các pixel được gán cho lớp C1

k
m1(k) = một iP(i>C1)
tôi=0

k
= một iP(C1>i)P(i)>P(C1) (10.3-6)
tôi=0

1 k
=
Một ipi
P1(k) tôi=0

trong đó P ở1(k) được


dòng đầu đưacủa
tiên ra biểu
trongthức.
phương trình. là
(10.3-6) (10.3-4). Thuật
xác suất của giá
ngữ trị
P(i>C1
đã cho
) thuộc lớp The

i, i C1 dòng thứ hai trong phương .

trình tuân theo công thức Bayes:

P(A>B) = P(B>A)P(A)>P(B)

Dòng thứ ba xuất phát từ thực tế là P (C1>i), xác suất của i, C


1
là 1 vì chúng ta chỉ đang xử lý các giá trị thuộc lớp C 1 xác suất của giá tôi là thành phần thứ i của
trị thứ i, đơn giản
. Ngoài ra,
P(i) là

biểu đồ his- P(C , Cuối cùng, p i.

1) là xác suất của lớp mà chúng ta C1 , từ


biết
phương trình. (10.3-4) bằng P1(k).
Tương tự, giá trị cường độ trung bình của các pixel được gán cho lớp C2 là

L-1
m2(k) = a iP(i>C2)
tôi=k+1
(10.3-7)
1 L-1
=
Một ipi
P2(k) tôi=k+1

k được cho bởi


Giá trị trung bình tích lũy (cường độ trung bình) lên đến mức

k
m(k) = một ipi (10.3-8)
tôi=0

và cường độ trung bình của toàn bộ hình ảnh (nghĩa là giá trị trung bình toàn cầu ) được tính bằng

L-1

mG = một ipi
(10.3-9)
tôi=0
Machine Translated by Google

10.3 ■ Ngưỡng 745

Tính hợp lệ của hai phương trình sau có thể được xác minh bằng cách thay thế trực tiếp
của các kết quả trước đó:

P1m1 + P2m2 = mG (10.3-10)

P1 + P2 = 1 (10.3-11)

trong đó chúng tôi đã tạm thời bỏ qua ks để có được sự rõ ràng về mặt ký hiệu.
Để đánh giá mức độ “tốt” của ngưỡng ở cấp độ chúng tôi sử dụng k

số liệu chuẩn hóa, không thứ nguyên

2
sB
h = (10.3-12)
2
sG

2
phương sai
sG toàn cục ở đâu [tức là phương sai cường độ của tất cả các điểm ảnh trong
hình ảnh, như được đưa ra trong phương trình. (3.3-19)],

L-1
2
2 giây = một (i - mG) số Pi
(10.3-13)
tôi=0

2
và làsBphương sai giữa các lớp, được định nghĩa là

2 2 2
sB = P1(m1 - mG) + P2(m2 - mG) (10.3-14)

Biểu thức này cũng có thể được viết dưới dạng

2 2
sB = P1P2(m1 - m2)
2 (10.3-15)
= (mGP1 - m)
Bước thứ hai trong
P1(1 - P1) phương trình. (10.3-15) làm cho

chỉ có ý nghĩa nếu P1 lớn hơn

hơn 0 và nhỏ hơn 1,


ở đâu vàmGnhư
m đã nêu trước đó. Dòng đầu tiên của phương trình này theo sau
trong đó, theo quan điểm

từ các phương trình. (10.3-14), (10.3-10) và (10.3-11). Dòng thứ hai nối tiếp từ của phương trình. (10.3-11), ngụ ý

P2phải thỏa mãn


điều đó
phương trình. (10.3-5) đến (10.3-9). Hình thức này hiệu quả hơn một chút về mặt tính toán vì giá trị đều có điều kiện giống nhau.

trung bình toàn cầu chỉ được tính một lần, do đó chỉ có hai pa- mG,

, toán cho bất kỳ giá trị nào của k. 1 mét


các tham số và cần được tính

Chúng ta thấy từ dòng đầu tiên trong biểu thức. (10.3-15) hai số càng xa thì có nghĩa là m1
m 2 2
và cách xa nhau thì càng lớn, chứng tỏ rằng giữa- sB 2

phương sai lớp là thước đo khả năng phân tách giữa các lớp. Bởi vì là một sG
không đổi, thì đó cũng là hthước đo khả năng phân tách và tối đa hóa điều này
số liệu tương đương với việc tối đa hóa. .
Khi đó, mục tiêu là xác định
2 sB
giá trị ngưỡng, giúp
k, tối đa hóa phương sai giữa các lớp, như đã nêu ở phần
đầu phần này. Lưu ý rằng phương trình. (10.3-12) ngầm giả định rằng
2 7 0. Phương sai này chỉ có thể bằng 0 khi tất cả các mức cường độ trong
sG
hình ảnh giống nhau, ngụ ý sự tồn tại của một loại pixel. Điều này
lần lượt có nghĩa là h = 0 cho một hình ảnh không đổi vì khả năng phân tách của một hình ảnh
lớp từ chính nó là số không.
Machine Translated by Google

746 Chương 10 ■ Phân đoạn hình ảnh

k, ta có kết quả cuối cùng:


Giới thiệu lại chúng

2 sB(k)
h(k) = (10.3-16)
2
sG

2
CmGP1(k) - m(k)D
sB 2 (k) = (10.3-17)
P1(k)C1 - P1(k)D

Khi đó, ngưỡng tối ưu là giá trị k*, giúp tối đa hóa sB 2 (k):

sB2 (k*) = tối đa sB2 (k) (10.3-18)


0…k…L-1

k*chỉ cần đánh giá phương trình. (10.3-18) cho tất cả các giá trị nguyên
Nói cách khác, để tìm chúng ta

của k(sao cho điều kiện đúng) và chọn 0 6 trị


giá P1(k)
đó 6
của1 k

mang lại mức tối đa Nếu mức tối đa sB


tồn tại trong nhiều hơn một
2 (k).

k, nó là thông lệ để lấy trung bình các giá trị khác nhau của đó là
giá trị k của sB2 (k)
tối đa. Có thể chỉ ra (Bài toán 10.33) rằng mức cực đại luôn tồn tại,
tuân theo điều kiện (10.3-18) với tất 0 6 P1(k) 6 1. Đánh giá các phương trình. (10.3-17) và
k
cả các giá trị của là một quá trình tính toán tương đối rẻ tiền, vì số lượng giá trị nguyên tối đa có

thể có là L.

Sau khik*đã thu được, hình ảnh đầu vào được phân đoạn
f(x,như
y) trước:

nếu f(x, y) 7 k*
(10.3-19)
0 nếu f(x, y) … k*
g(x, y) = b 1

, M0,-1,1 2, Á cần thiết để đánh giá


với x = 0, 1, 2, Á và y = , N-1. Lưu ý rằng tất cả các quan-

phương trình. (10.3-17) thu được chỉ bằng biểu đồ

của f(x,
Ngoàiy).
ngưỡng tối ưu, các thông tin khác liên quan đến

hình ảnh được phân đoạn có thể được trích xuất từ biểu đồ. Ví dụ,
P 1(k*)
và P2 xác suất của
(k*),
lớp được đánh giá ở ngưỡng tối ưu,

chỉ ra các phần của vùng bị chiếm bởi các lớp (nhóm pixel) trong
tôi 1(k*)
hình ảnh được ngưỡng. Tương tự, phương tiện và là ước tính m2 (k*)
cường độ trung bình của các lớp trong ảnh gốc.

h,giá ở giá trị ngưỡng tối ưu,


Số liệu chuẩn hóa được đánh HK*),
có thể được sử dụng để có được ước tính định lượng về khả năng phân tách của các lớp,
từ đó đưa ra ý tưởng về việc dễ dàng đặt ngưỡng cho một hình ảnh nhất định. Phép đo
Mặc dù mối quan tâm của chúng tôi là
này có các giá trị trong phạm vi
với giá trị tại h

ngưỡng tối ưu, k*,


sự bất bình đẳng này xảy ra trong
0 … h(k*) … 1 (10.3-20)
tổng quát cho mọi giá trị của

k trong khoảng [0, ]. L-1

Giới hạn dưới chỉ có thể đạt được bằng các hình ảnh có cường độ duy nhất, không đổi
mức độ như đã đề cập trước đó. Giới hạn trên chỉ có thể đạt được bằng 2 giá trị
hình ảnh có cường độ bằng 0 và L - 1 (Bài toán 10.34).
Machine Translated by Google

10.3 ■ Ngưỡng 747

Thuật toán của Otsu có thể được tóm tắt như sau:

1. Tính toán biểu đồ chuẩn hóa của hình ảnh đầu vào. Biểu thị com-L - 1.

các thành phần của biểu đồ theo pi, i = 0, 1, 2, Á ,

2. Tính tổng tích lũy P cho k = 0, 1, 2, Á 1(k), , L - 1, sử dụng

phương trình. (10.3-4).

3. Tính trung bình tích lũy, với k = 0, 1, 2, m(k),


Á , L-1, sử dụng

phương trình. (10.3-8).

4. Tính cường độ trung bình toàn cầu, mG, sử dụng (10.3-9).


5. Tính phương sai giữa các lớp, với k = 0, 1, 2, Á sB
2 (k), , L-1,

sử dụng phương trình. (10.3-17).

6. Lấy ngưỡng Otsu, k*, k làm giá trị của nó là maxi- sB 2 (k)

mẹ ơi. Nếu giá trị lớn nhất không phải là duy nhất, k*
hãy lấy trung bình các giá trị của
k tương ứng với các cực đại khác nhau được phát hiện.

7. Lấy số đo độ phân tách, h*, bằng cách đánh giá phương trình. (10.3-16) tại
k = k*.

Ví dụ sau minh họa các khái niệm trước đó.

■ Hình 10.39(a) hiển thị hình ảnh kính hiển vi quang học của các tế bào polyme, VÍ DỤ 10.16:

và Hình 10.39(b) hiển thị biểu đồ của nó. Mục tiêu của ví dụ này là phân chia các phân Tối ưu toàn cầu
ngưỡng sử dụng
tử khỏi nền. Hình 10.39(c) là kết quả của việc sử dụng
Phương pháp của Otsu.
thuật toán ngưỡng toàn cục cơ bản được phát triển ở phần trước. Bởi vì biểu đồ không có
thung lũng rõ rệt và chênh lệch cường độ giữa nền và vật thể nhỏ nên thuật toán không
Polymersome là tế bào
đạt được mục tiêu. được thiết kế nhân tạo

phân đoạn mong muốn. Hình 10.39(d) cho thấy kết quả thu được bằng cách sử dụng Otsu sử dụng polyme. Polymor-some
không thể nhìn thấy được
phương pháp. Kết quả này rõ ràng là tốt hơn so với Hình 10.39(c). Giá trị ngưỡng hệ thống miễn dịch của con người

được tính bằng thuật toán cơ bản là 169, trong khi ngưỡng được tính bằng và có thể được sử dụng,
chẳng hạn, để cung cấp
Phương pháp của Otsu là 181, gần với các vùng sáng hơn trong hình ảnh xác định các ô. thuốc đến các vùng mục tiêu

Độ phân tách là 0,467. h của cơ thể.

Một điểm đáng quan tâm là áp dụng phương pháp Otsu cho ảnh vân tay trong
Ví dụ 10.15 mang lại ngưỡng 125 và độ đo khả năng phân tách là 0,944.
Ngưỡng này giống với giá trị (làm tròn đến số nguyên gần nhất) thu được bằng thuật toán
cơ bản. Điều này không có gì bất ngờ vì tính chất của
biểu đồ. Trên thực tế, thước đo khả năng phân tách cao chủ yếu do sự tách
biệt tương đối lớn giữa các chế độ và độ sâu giữa chúng. ■

10.3.4 Sử dụng tính năng Làm mịn Hình ảnh để Cải thiện Ngưỡng Toàn cầu

Như đã lưu ý trong Hình 10.36, nhiễu có thể biến một bài toán ngưỡng đơn giản thành một bài toán

không thể giải quyết được. Khi tiếng ồn không thể giảm ở nguồn và ngưỡng
là phương pháp phân đoạn được lựa chọn, một kỹ thuật thường nâng cao hiệu suất là làm
mịn hình ảnh trước khi phân ngưỡng. Chúng tôi minh họa cách tiếp cận này
với một ví dụ.
Hình 10.40(a) là hình ảnh từ Hình 10.36(c), Hình 10.40(b) hiển thị his-togram của nó
và Hình 10.40(c) là hình ảnh được ngưỡng bằng phương pháp Otsu. Mọi
điểm đen trong vùng trắng và mọi điểm trắng trong vùng đen là một
Machine Translated by Google

748 Chương 10 ■ Phân đoạn hình ảnh

A
B C D

HÌNH 10.39
(a) Ảnh gốc.
(b) Biểu

đồ (các đỉnh cao


được cắt bớt để làm
nổi bật các
chi tiết ở giá trị thấp

hơn). (c) Kết quả phân


đoạn sử dụng thuật
toán tổng thể cơ
bản từ Mục
10.3.2.
0 63 127 191 255

(d) Kết quả


thu được bằng
phương pháp của Otsu.

(Hình ảnh gốc được


cung cấp bởi
Giáo sư Daniel A.

Hammer, Đại học

Pennsylvania.)

lỗi ngưỡng, do đó việc phân đoạn rất không thành công. Hình 10.40(d) cho thấy kết quả của việc làm

mịn hình ảnh nhiễu bằng mặt nạ kích thước trung bình (hình ảnh có kích thước pixel) và Hình 10.40(e)

ràng và chúng
là biểu
tôiđồkỳcủa
vọng
nó.ngưỡng
5 * 5 của
651 hình
* 814ảnh
Sự cải thiện về hình dạng của biểu đồ do làm mịn là rõ

được làm mịn sẽ gần như hoàn hảo. Như Hình 10.40(f) cho thấy, điều này thực sự đã xảy ra. Sự biến

dạng nhẹ của ranh giới giữa vật thể và nền trong ảnh được làm mịn, được phân đoạn là do sự mờ của

ranh giới. Trên thực tế, chúng ta càng làm mịn hình ảnh một cách tích cực thì chúng ta càng dự đoán

được nhiều lỗi biên trong kết quả được phân đoạn.

Tiếp theo chúng ta xem xét tác động của việc giảm kích thước của vùng trong Hình 10.40(a) đối

với nền. Hình 10.41(a) thể hiện kết quả. Nhiễu trong ảnh này là nhiễu Gaussian cộng với giá trị

trung bình bằng 0 và độ lệch chuẩn là 10 mức cường độ (trái ngược với 50 trong ví dụ trước). Như

Hình 10.41(b) cho thấy, biểu đồ không có thung lũng rõ ràng, vì vậy chúng ta sẽ mong đợi việc phân

đoạn sẽ thất bại, thực tế này được xác nhận bằng kết quả trong Hình 10.41(c). Hình 10.41(d) cho thấy

và Hình 10.40(e) là hình ảnh được làm mịn bằng mặt nạ trung bình có kích thước 5 * 5, biểu đồ tương

quả thực sự là làm giảm độ phân tán của biểu đồ, nhưng sự phân bổ vẫn ứng. Đúng như mong đợi, hiệu

không đồng đều. Như Hình 10.40(f) cho thấy, việc phân đoạn lại thất bại. Nguyên nhân của sự thất bại

có thể bắt nguồn từ thực tế là vùng này quá nhỏ nên sự đóng góp của nó vào biểu đồ là không đáng kể

so với sự phân tán cường độ do nhiễu gây ra. TRONG


Machine Translated by Google

10.3 ■ Ngưỡng 749

0 63 127 191 255

0 63 127 191 255

abc
chắc chắn

HÌNH 10.40 (a) Ảnh nhiễu từ Hình 10.36 và (b) biểu đồ của nó. (c) Kết quả thu được bằng phương pháp của Otsu.
5 *trung
(d) Ảnh nhiễu được làm mịn bằng mặt nạ 5 bình và (e) biểu đồ của nó. (f) Kết quả xác định ngưỡng sử dụng
Phương pháp của Otsu.

những tình huống như thế này, cách tiếp cận được thảo luận trong phần sau sẽ hiệu quả hơn.
có khả năng thành công.

10.3.5 Sử dụng các cạnh để cải thiện ngưỡng toàn cầu


Dựa trên các cuộc thảo luận trong bốn phần trước, chúng tôi kết luận rằng
Cơ hội lựa chọn ngưỡng “tốt” được tăng cường đáng kể nếu các đỉnh his-togram cao, hẹp,
đối xứng và được ngăn cách bởi các thung lũng sâu. Một phương pháp để cải thiện hình
dạng của biểu đồ là chỉ xem xét những pixel
nằm trên hoặc gần các cạnh giữa vật thể và nền. Ngay lập tức và
cải thiện rõ ràng là biểu đồ sẽ ít phụ thuộc hơn vào tương đối
kích thước của các đối tượng và nền. Ví dụ: biểu đồ của một hình ảnh bao gồm một vật thể
nhỏ trên vùng nền lớn (hoặc ngược lại) sẽ bị chi phối bởi một đỉnh lớn do nồng độ cao
của một loại pixel.Chúng tôi
đã thấy trong phần trước rằng điều này có thể dẫn đến thất bại trong việc xác định ngưỡng.

Nếu chỉ các pixel trên hoặc gần các cạnh giữa đối tượng và nền
đã được sử dụng, biểu đồ thu được sẽ có các đỉnh xấp xỉ
cùng chiều cao. Ngoài ra, xác suất để bất kỳ pixel nào trong số đó nằm trên một đối tượng
sẽ xấp xỉ bằng xác suất nó nằm trên nền, do đó cải thiện tính đối xứng của các chế độ
biểu đồ. Cuối cùng, như được chỉ ra trong đoạn văn sau, việc sử dụng các pixel thỏa mãn
một số
các phép đo dựa trên độ dốc và toán tử Laplacian có xu hướng đào sâu hơn
thung lũng giữa các đỉnh biểu đồ.
Machine Translated by Google

750 Chương 10 ■ Phân đoạn hình ảnh

0 63 127 191 255

0 63 127 191 255

abc
chắc chắn

HÌNH 10.41 (a) Ảnh nhiễu và (b) biểu đồ của nó. (c) Kết quả thu được bằng phương pháp của Otsu. (d) Ồn ào
hình ảnh được làm mịn bằng 5 * 5 mặt nạ trung bình và (e) biểu đồ của nó. (f) Kết quả xác định ngưỡng sử dụng Otsu
phương pháp. Ngưỡng không thành công trong cả hai trường hợp.

Cách tiếp cận vừa thảo luận giả định rằng các cạnh giữa các đối tượng và
Nền đã được biết. Thông tin này rõ ràng không có sẵn trong quá trình phân đoạn, vì việc
tìm ra sự phân chia giữa các đối tượng và nền chính xác là điều mà
phân khúc là tất cả về. Tuy nhiên, dựa trên sự thảo luận ở Phần
10.2, có thể thu được dấu hiệu cho biết một pixel có nằm trên một cạnh hay không bằng
cách tính toán độ dốc hoặc Laplacian của nó. Ví dụ: giá trị trung bình của Laplacian là
0 tại điểm chuyển tiếp của một cạnh (xem Hình 10.10), do đó các thung lũng của biểu đồ được hình thành

từ các pixel được chọn theo tiêu chí Laplacian có thể được mong đợi là rất thưa thớt
đông dân cư. Đặc tính này có xu hướng tạo ra các thung lũng sâu mong muốn được thảo luận
bên trên. Trong thực tế, các kết quả có thể so sánh thường thu được bằng cách sử dụng
ảnh gradient hoặc Laplacian, trong đó ảnh sau được ưa chuộng hơn vì nó hấp dẫn hơn về
Có thể sửa đổi
thuật toán này để mặt tính toán và cũng là một máy dò cạnh đẳng hướng.
cả độ lớn của Cuộc thảo luận trước đó được tóm tắt trong thuật toán sau, trong đó
gradient và giá trị tuyệt
đối của f(x, y) là hình ảnh đầu vào:
Hình ảnh Laplacian là
đã sử dụng. Trong trường hợp này, chúng tôi 1. Tính toán hình ảnh cạnh theo độ lớn của độ dốc hoặc ab-f(x, y)
sẽ chỉ định một ngưỡng
giá trị chất tan của Laplacian khi sử dụng bất kỳ phương pháp nào được thảo luận trong
cho mỗi hình ảnh và hình thức

logic OR của hai Phần 10.2.


kết quả để có được
2. Chỉ định giá trị ngưỡng, T.
hình ảnh đánh dấu.
Cách tiếp cận này hữu ích khi 3. Ngưỡng hình ảnh từ Bước 1 bằng cách sử dụng ngưỡng từ Bước 2 để tạo
mong muốn kiểm soát nhiều hơn
một ảnh nhị phân, gT(x,
ảnh này
y).được sử dụng làm ảnh mặt nạ trong phần sau
trên các điểm được cho là
là các điểm cạnh hợp lệ. bước để chọn các pixel tươngf(x,
ứng y)
với các pixel cạnh “mạnh”.
Machine Translated by Google

10.3 ■ Ngưỡng 751

4. Tính toán biểu đồ chỉ sử dụng các pixel tương ứng với f(x, y)
vị trí của các pixel có giá trị 1 trong gT(x, y).
5. Sử dụng biểu đồ từ Bước 4 để phân đoạn toàn
f(x,cầu
y) bằng cách sử dụng ví dụ:
phong phú, phương pháp của Otsu.

NếuT được đặt thành giá trị tối đa của hình ảnh cạnh thì theo biểu thức. (10.3-1), Phân vị thứ n là
số nhỏ nhất đó là
gT(x, y) sẽ bao gồm tất cả các số 0, ngụ ý rằng tất cả các pixel của f(x, y) sẽ được sử dụng để tính sau đó
lớn hơn n%
toán biểu đồ hình ảnh. Trong trường hợp này, thuật toán trước trở thành toàn cục số trong một tập hợp nhất định.

Ví dụ: nếu bạn nhận được


ngưỡng trong đó biểu đồ của ảnh gốc được sử dụng mà không sửa đổi. Thông thường người điểm 95 trong bài kiểm tra và

ta chỉ định giá trị tương ứng với một phần trăm, T điểm số này lớn hơn
hơn 85% tổng số học sinh
thường được đặt ở mức cao (ví dụ: ở mức cao nhất là 90) để một số pixel trong hình ảnh
làm bài kiểm tra,
gradient/Laplacian sẽ được sử dụng trong tính toán. Các ví dụ sau đây minh họa các khái thì bạn sẽ ở trong
Phân vị thứ 85 liên
niệm vừa được thảo luận. Ví dụ đầu tiên sử dụng gradient và
quan đến điểm kiểm tra.
thứ hai sử dụng Laplacian. Kết quả tương tự có thể thu được trong cả hai ví dụ bằng cách sử dụng

một trong hai cách tiếp cận. Vấn đề quan trọng là tạo ra một hình ảnh phái sinh phù hợp.

VÍ DỤ 10.17:
■ Hình 10.42(a) và (b) hiển thị hình ảnh và biểu đồ từ Hình 10.41.Bạn
Sử dụng cạnh
thấy rằng hình ảnh này không thể được phân đoạn bằng cách làm mịn theo sau là quá trình
dựa trên thông tin
đập cũ. Mục tiêu của ví dụ này là giải quyết vấn đề bằng cách sử dụng thông tin biên.
trên gradient tới
Hình 10.42(c) là hình ảnh cường độ gradient được đặt ngưỡng tại cải thiện toàn cầu
ngưỡng.

0 63 127 191 255

0 63 127 191 255

abc
chắc chắn

HÌNH 10.42 (a) Ảnh nhiễu từ Hình 10.41(a) và (b) biểu đồ của nó. (c) Hình ảnh độ lớn gradient
ngưỡng ở mức 99,7 phần trăm. (d) Ảnh tạo thành từ tích của (a) và (c). (e) Biểu đồ của
các pixel khác 0 trong ảnh ở (d). (f) Kết quả phân đoạn ảnh (a) với ngưỡng Otsu dựa trên
biểu đồ trong (e). Ngưỡng là 134, nằm ở khoảng giữa các đỉnh trong biểu đồ này.
Machine Translated by Google

752 Chương 10 ■ Phân đoạn hình ảnh

phần trăm 99,7. Hình 10.42(d) là hình ảnh được hình thành bằng cách nhân hình
ảnh (mặt nạ) này với hình ảnh đầu vào. Hình 10.42(e) là biểu đồ của các phần tử
khác 0 trong Hình 10.42(d). Lưu ý rằng biểu đồ này có các tính năng quan trọng
đã được thảo luận trước đó; nghĩa là nó có các chế độ đối xứng hợp lý được ngăn
cách bởi một thung lũng sâu. Do đó, trong khi biểu đồ của ảnh nhiễu ban đầu
không mang lại hy vọng nào cho việc xác định ngưỡng thành công, thì biểu đồ
trong Hình 10.42(e) chỉ ra rằng việc xác định ngưỡng của đối tượng nhỏ từ nền
thực sự là có thể. Kết quả trong Hình 10.42(f) cho thấy thực sự đúng như vậy.
Hình ảnh này thu được bằng cách sử dụng phương pháp của Otsu để đạt được ngưỡng
dựa trên biểu đồ trong Hình 10.42(e) và sau đó áp dụng ngưỡng này trên toàn bộ
hình ảnh nhiễu trong Hình 10.42(a). Kết quả gần như hoàn hảo. ■

VÍ DỤ 10.18: Sử dụng
■ Trong ví dụ này chúng ta xem xét một bài toán xác định ngưỡng phức tạp hơn.
thông tin biên
Hình 10.43(a) hiển thị một hình ảnh 8-bit của các tế bào nấm men mà chúng ta
dựa trên Laplacian để
muốn sử dụng ngưỡng tổng thể để thu được các vùng tương ứng với các điểm sáng.
cải thiện ngưỡng tổng

thể.
Điểm bắt đầu là Hình 10.43(b) hiển thị biểu đồ hình ảnh và Hình 10.43(c) là
kết quả thu được bằng phương pháp Otsu trực tiếp trên hình ảnh, sử dụng biểu
đồ được hiển thị. Chúng tôi thấy rằng phương pháp của Otsu không đạt được mục
tiêu ban đầu là phát hiện các điểm sáng và mặc dù phương pháp này có thể tự
cô lập một số vùng tế bào, một số vùng được phân đoạn ở bên phải không rời
rạc. Ngưỡng tính toán bằng phương pháp Otsu là 42 và độ phân tách là 0,636.

Hình 10.43(d) hiển thị ảnh gT(x, y) thu được bằng cách tính giá trị T tuyệt đối của ảnh Laplacian và

sau đó đặt ngưỡng cho nó bằng 115 trên thang cường độ trong phạm vi [0, 255]. Giá trị này tương ứng với

khoảng 99,5 phân vị của các giá trị trong ảnh Laplacian tuyệt đối, Tdo đó việc nâng ngưỡng ở mức này sẽ dẫn

đến một tập hợp pixel thưa thớt, như Hình 10.43(d) cho thấy.

Lưu ý trong hình ảnh này cách các điểm tụ lại gần các cạnh của các điểm sáng,
như mong đợi từ cuộc thảo luận trước. Hình 10.43(e) là biểu đồ của các pixel
khác 0 trong tích của (a) và (d). Cuối cùng, Hình 10.43(f) cho thấy kết quả của
việc phân đoạn toàn cục ảnh gốc bằng phương pháp của Otsu dựa trên biểu đồ trong
Hình 10.43(e). Kết quả này phù hợp với vị trí của các điểm sáng trong ảnh.
Ngưỡng được tính toán bằng phương pháp Otsu là 115 và độ đo khả năng phân tách
là 0,762, cả hai đều cao hơn giá trị thu được bằng cách sử dụng biểu đồ gốc.

Bằng cách thay đổi phần trăm mà ngưỡng được đặt, chúng tôi thậm chí có thể
cải thiện việc phân chia các vùng ô. Ví dụ, Hình 10.44 cho thấy kết quả thu
được bằng cách sử dụng quy trình tương tự như trong đoạn trước, nhưng với
ngưỡng được đặt ở mức 55, xấp xỉ 5% giá trị tối đa của ảnh Laplacian tuyệt
đối. Giá trị này nằm ở phần trăm 53,9 của các giá trị trong hình ảnh đó. Kết
quả này rõ ràng là vượt trội so với kết quả trong Hình 10.43(c) thu được bằng
phương pháp của Otsu với biểu đồ của ảnh gốc. ■

10.3.6 Nhiều ngưỡng Cho đến

nay, chúng ta đã tập trung chú ý vào việc phân đoạn ảnh bằng cách sử dụng một
ngưỡng toàn cục duy nhất. Phương pháp ngưỡng được giới thiệu trong Phần 10.3.3
có thể được mở rộng thành một số ngưỡng tùy ý, bởi vì thước đo khả năng phân tách
Machine Translated by Google

10.3 ■ Ngưỡng 753

0 63 127 191 255

0 63 127 191 255

abc
chắc chắn

HÌNH 10.43 (a) Hình ảnh tế bào nấm men. (b) Biểu đồ của (a). (c) Phân đoạn (a) bằng phương pháp Otsu
sử dụng biểu đồ trong (b). (d) Laplacian tuyệt đối có ngưỡng. (e) Biểu đồ của các pixel khác 0 trong
tích của (a) và (d). (f) Ảnh gốc được ngưỡng bằng phương pháp của Otsu dựa trên biểu đồ trong (e).
(Hình ảnh gốc được cung cấp bởi Giáo sư Susan L. Forsburg, Đại học Nam California.)

HÌNH 10.44
Hình ảnh

trong Hình 10.43(a)

phân đoạn bằng cách sử dụng


giống nhau

thủ tục như


giải thích
trong hình. 10.43(d)–(f),
nhưng sử dụng mức thấp hơn
giá trị đến ngưỡng
tuyệt đối

Hình ảnh Laplacian.


Machine Translated by Google

754 Chương 10 ■ Phân đoạn hình ảnh

mà nó dựa vào cũng mở rộng đến một số lớp tùy ý (Fukunaga


[1972]). Trong trường hợp lớp,biểu
K C1,
thị
C2thành biểu , ÁCK , gen phương sai giữa các lớp
thức

K
2
2 sB = một Pk (mk - mG) (10.3-21)
k=1

Ở đâu

Pk = một số Pi (10.3-22)
iHCk
1
mk = Một ipi (10.3-23)
Pk iHCk

và là mG K
giá trị trung bình toàn cầu được đưa ra trong biểu thức. (10.3-9).Các lớp được phân tách bằng
… … …
K - 1 ngưỡng có giá trị k1 , k2, MỘT

, kK-1 , là những giá trị tối đa hóa


phương trình. (10.3-21):

… … …
sB2 (k1 , k2, MỘT

= , kK-1
) tối đa
sB2 (k1, k2, Á kK-1) (10.3-24)
06k16k26 Á kn - 16L-1

Mặc dù kết quả này là hoàn toàn tổng quát, nhưng nó bắt đầu mất đi ý nghĩa khi số lượng
lớp tăng lên, bởi vì chúng ta chỉ đang xử lý một biến số (cường độ). Trong thực tế, sự
khác biệt giữa các lớp thường được tính theo bội số
các biến được biểu diễn dưới dạng vectơ (Fukunaga [1972]). Trong thực tế, sử dụng nhiều
Ngưỡng toàn cầu được coi là một cách tiếp cận khả thi khi có lý do để
tin rằng vấn đề có thể được giải quyết một cách hiệu quả với hai ngưỡng. Các ứng dụng
yêu cầu nhiều hơn hai ngưỡng thường được giải quyết bằng cách sử dụng nhiều hơn
hơn là chỉ các giá trị cường độ. Thay vào đó, cách tiếp cận là sử dụng các mô tả bổ sung
(ví dụ: màu sắc) và ứng dụng được coi là một vấn đề nhận dạng mẫu, như được giải thích
trong Phần 10.3.8.
Đối với ba lớp bao gồm ba khoảng cường độ (được phân tách
Ngưỡng với hai
theo hai ngưỡng), phương sai giữa các lớp được cho bởi:
ngưỡng đôi khi là

được gọi là độ trễ


2 2 2 2
ngưỡng.
sB = P1(m1 - mG) + P2 (m2 - mG) + P3 (m3 - mG) (10.3-25)

Ở đâu

k1

P1 = một số Pi

tôi=0

k2

P2 = một số Pi (10.3-26)
tôi=k1+1

L-1
P3 = một số Pi

tôi=k2+1
Machine Translated by Google

10.3 ■ Ngưỡng 755


k1
1
m1 = Một ipi
P1 tôi=0

k2
1
m2 = Một ipi (10.3-27)
P2 tôi=k1+1
L-1
1
m3 = Một ipi
P3 tôi=k2+1

Như trong các phương trình. (10.3-10) và (10.3-11), các mối quan hệ sau đây có giá trị:

P1m1 + P2m2 + P3m3 = mG (10.3-28)

P1 + P2 + P3 = 1 (10.3-29)

Buổicác
Chúng tôi thấy rằng chiều
điều khoản và, do đó
… …2 sB, là hàm của và k2 1 k .

Hai giá trị ngưỡng tối ưu và là những giák 1trị tốik2


đa, hóa
sB2 (k1, k2). Nói cách khác, như trong trường hợp một ngưỡng được thảo luận ở Phần
10.3.3, chúng ta tìm ngưỡng tối ưu bằng cách tìm

… …
sB2 (k1 , k2) = tối đa sB2 (k1, k2) (10.3-30)
06k16k26L-1

k1 trị đó là 1 vì
Quy trình bắt đầu bằng cách chọn giá trị đầu tiên của (giá
tìm kiếm ngưỡng ở cường độ 0 là vô nghĩa; Ngoài ra, hãy nhớ rằng
giá trị tăng là số nguyên vì chúng ta đang xử lý cường độ). Kế tiếp, k2
được tăng lên thông qua tất cả các giá trị của nó lớn hơn và nhỏk1hơn L - 1 (I E,
k2 = k1 + 1, Á , L-2 ). Sau đó được
k1 k2 k1. tăng lên giá trị tiếp theo và là in-

được tăng lại thông qua tất cả các giá trị của nó lớn hơn Quy trình này được thực hiện lại 2 (k1, k2 ), lặp lại cho đến khi k = L - 3.

Kết quả của quá trình này là một mảng 2-D, sB



1 và bước cuối cùng là tìm giá trị lớn nhất trong mảng này. Các giá trị của và tương ứng với giá trị lớn nhất đó là các ngưỡng tối ưu
….
k1
và k2 k2 k 1

k1 Nếu có nhiều cực đại thì các giá trị tương ứng của và được k2
lấy trung bình
để đạt được ngưỡng cuối cùng. Hình ảnh được ngưỡng sau đó được đưa ra bởi


b

nếu f(x, y) … k1

nếu k1 6 f(x, y) … k2
… (31-10)

g(x, y) = ca c nếu f(x, y) 7 k2

trong đó a, b và là c
ba giá trị cường độ hợp lệ bất kỳ.

Cuối cùng, chúng tôi lưu ý rằng thước đo khả năng phân tách được xác định trong Phần 10.3.3 đối với

một ngưỡng mở rộng trực tiếp đến nhiều ngưỡng:

… …
… … 2 sB(k1 , k2)
h(k1 = , )
k2 2 (10.3-32)
sG
2
sG sai hình ảnh từ phương trình ở đâu. (10.3-13).
tổng phương
Machine Translated by Google

756 Chương 10 ■ Phân đoạn hình ảnh

VÍ DỤ 10.19:
■ Hình 10.45(a) thể hiện hình ảnh một tảng băng trôi. Mục tiêu của ví dụ này
Nhiều toàn cầu
là phân chia hình ảnh thành ba vùng: nền tối, vùng được chiếu sáng của tảng
ngưỡng.
băng trôi và vùng trong bóng tối. Điều đó thể hiện rõ ràng từ

… …
biểu đồ hình ảnh trong Hình 10.45(b) cần có hai ngưỡng để giải
vấn đề này. Quy trình được thảo luận ở trên dẫn đến các ngưỡng
k = 80 và k2 = 177, 1 mà chúng tôi lưu ý từ Hình 10.45(b) nằm gần tâm

của hai thung lũng biểu đồ. Hình 10.45(c) là phân đoạn được tạo ra bằng cách sử dụng hai
ngưỡng này trong biểu thức. (10.3-31). Độ đo khả năng phân tách là
0,954. Lý do chính khiến ví dụ này diễn ra hiệu quả có thể bắt nguồn từ
biểu đồ có ba chế độ riêng biệt được phân tách bằng độ rộng hợp lý,
Thung lũng sâu. ■

10.3.7 Ngưỡng thay đổi


Như đã thảo luận trong Phần 10.3.1, các yếu tố như nhiễu và độ chiếu sáng không đồng đều

đóng vai trò chính trong hiệu suất của thuật toán ngưỡng. Chúng tôi
đã chỉ ra trong Phần 10.3.4 và 10.3.5 rằng việc làm mịn hình ảnh và sử dụng thông tin về
cạnh có thể giúp ích đáng kể. Tuy nhiên, thường xảy ra trường hợp này
loại tiền xử lý là không thực tế hoặc đơn giản là không hiệu quả trong việc cải thiện
tình huống đến mức vấn đề có thể giải quyết được bằng bất kỳ phương pháp nào
thảo luận cho đến nay. Trong những tình huống như vậy, mức độ phức tạp tiếp theo của ngưỡng
liên quan đến ngưỡng thay đổi. Trong phần này, chúng ta thảo luận về các kỹ thuật khác nhau
để chọn ngưỡng thay đổi.

Phân vùng hình ảnh


Một trong những cách tiếp cận đơn giản nhất để xác định ngưỡng biến đổi là chia nhỏ một
hình ảnh thành các hình chữ nhật không chồng lên nhau. Phương pháp này được sử dụng để bù đắp
cho sự không đồng nhất về độ chiếu sáng và/hoặc độ phản xạ. Các hình chữ nhật là
được chọn đủ nhỏ để độ chiếu sáng của mỗi cái gần như đồng nhất. Chúng tôi minh họa cách
tiếp cận này bằng một ví dụ.

0 63 127 191 255

abc
HÌNH 10.45 (a) Hình ảnh tảng băng trôi. ( b ) Biểu đồ. (c) Hình ảnh được phân chia thành ba vùng bằng Otsu kép
ngưỡng. (Hình ảnh gốc được cung cấp bởi NOAA.)
Machine Translated by Google

10.3 ■ Ngưỡng 757

■ Hình 10.46(a) thể hiện hình ảnh từ Hình 10.37(c), và Hình 10.46(b) thể hiện VÍ DỤ 10.20:
Biến đổi
biểu đồ của nó. Khi thảo luận về Hình 10.37(c) chúng ta đã kết luận rằng hình ảnh này
ngưỡng thông qua
không thể được phân đoạn với ngưỡng toàn cầu, một thực tế đã được xác nhận bởi Figs.
hình ảnh
10.46(c) và (d), hiển thị kết quả phân đoạn hình ảnh bằng cách sử dụng sơ đồ lặp lại được thảo
phân vùng.
luận lần lượt trong Phần 10.3.2 và phương pháp của Otsu.

Cả hai phương pháp đều tạo ra kết quả tương đương, trong đó nhiều phân đoạn
lỗi có thể nhìn thấy được.

Hình 10.46(e) hiển thị ảnh gốc được chia thành sáu hình chữ nhật

các vùng và Hình 10.46(f) là kết quả của việc áp dụng phương pháp toàn cầu của Otsu cho từng vùng

hình ảnh phụ. Mặc dù có thể nhìn thấy một số lỗi trong quá trình phân đoạn, nhưng việc chia nhỏ

hình ảnh đã tạo ra một kết quả hợp lý về một hình ảnh khá khó phân đoạn. Lý do của sự cải tiến

được giải thích dễ dàng bằng cách phân tích

biểu đồ của mỗi ảnh con. Như Hình 10.47 cho thấy, mỗi ảnh con được mô tả bằng biểu đồ lưỡng kim

với một thung lũng sâu giữa các chế độ, thực tế là

chúng tôi biết sẽ dẫn đến ngưỡng toàn cầu hiệu quả.

Việc chia nhỏ hình ảnh nhìn chung hoạt động tốt khi các đối tượng quan tâm và

nền chiếm các vùng có kích thước tương đối hợp lý, như trong Hình 10.46.

Khi trường hợp này không xảy ra, phương pháp này thường thất bại vì có khả năng xảy ra

của các phân khu chỉ chứa các pixel đối tượng hoặc nền. Mặc dù tình huống này có thể được giải

quyết bằng cách sử dụng các kỹ thuật bổ sung để xác định khi nào một

phân khu chứa cả hai loại pixel, logic cần thiết để giải quyết các địa chỉ khác nhau

0 63 127 191 255

abc
chắc chắn

HÌNH 10.46 (a) Ảnh nhiễu, bóng mờ và (b) biểu đồ của nó. (c) Phân đoạn (a) sử dụng phép lặp
thuật toán toàn cầu từ Phần 10.3.2. (d) Kết quả thu được bằng phương pháp của Otsu. (e) Hình ảnh được chia thành sáu
hình ảnh phụ. (f) Kết quả của việc áp dụng phương pháp của Otsu cho từng ảnh con riêng lẻ.
Machine Translated by Google

758 Chương 10 ■ Phân đoạn hình ảnh

HÌNH 10.47
Biểu đồ của
sáu hình ảnh con trong

Hình 10.46(e).

kịch bản có thể trở nên phức tạp. Trong những tình huống như vậy, các phương pháp như
được thảo luận trong phần còn lại của phần này thường được ưu tiên hơn. ■

Ngưỡng thay đổi dựa trên thuộc tính hình ảnh cục bộ
Một cách tiếp cận tổng quát hơn phương pháp phân chia hình ảnh được thảo luận trong
phần trước là tính ngưỡng tại mọi điểm trong ảnh (x, y),
dựa trên một hoặc nhiều thuộc tính được chỉ định được tính toán trong một vùng lân cận của

(x, y). Mặc dù điều này có vẻ như là một quá trình tốn nhiều công sức, nhưng các thuật toán hiện đại
và phần cứng cho phép xử lý vùng lân cận nhanh chóng, đặc biệt đối với các
các chức năng như các phép toán logic và số học.
Chúng tôi minh họa cách tiếp cận cơ bản đối với ngưỡng cục bộ bằng cách sử dụng tiêu chuẩn
độ lệch và giá trị trung bình của các pixel trong vùng lân cận của mọi điểm trong ảnh.
Hai đại lượng này khá hữu ích cho việc xác định ngưỡng cục bộ vì
chúng là những mô tả về độ tương phản cục bộ và cường độ trung bình. Đặt vàquyến
ghirũ
chú lại
mxyđộ
lệch chuẩn và giá trị trung bình của tập hợp các pixel chứa trong một
S
lân cận, có tâm tại tọa (x, y) trong một hình ảnh (xem Phần
xy,độ 3.3.4 để tính giá trị trung

bình cục bộ và độ lệch chuẩn). Các

Sau đây là các dạng phổ biến của ngưỡng biến, ngưỡng cục bộ:

Txy = asxy + bmxy (10.3-33)

b
trong đó Mộtvà là các hằng số không âm, và

Txy = asxy + bmG (10.3-34)

hình ảnh mG
toàn cầu có ý nghĩa ở đâu. Hình ảnh được phân đoạn được tính là

(10.3-35)
0 nếu
g(x, y) = b 1 nếu f(x,
f(x, y) y) … Txy
7 Txy

hình ảnh f(x, y) ở đâu Phương trình này được đánh giá cho tất cả các vị trí pixel trong ảnh và
đầu vào

một ngưỡng khác nhau được tính toán ở mỗi vị trí

(x, y) sử dụng các pixel trong vùng lân cận Sxy .


Machine Translated by Google

10.3 ■ Ngưỡng 759

Sức mạnh đáng kể (với mức tăng tính toán khiêm tốn) có thể được thêm vào
ngưỡng cục bộ bằng cách sử dụng các vị từ dựa trên các tham số được tính toán trong
các khu phố của (x, y):

(10.3-36)
g(x, y) = b 10nếu
nếuQ(tham
Q(thamsố
sốcục
cụcbộ)
bộ)đúng
sai

Q từ dựa trên các tham số được tính toán bằng cách sử dụng các pixel trong
đâu là vị
mxy ), vùng lânS cận
xy. Ví dụ, hãy xem xét vị ngữ sau đây, Q(sxy,
dựa trên giá trị trung bình cục bộ và độ lệch chuẩn:

(10.3-37)
Q(sxy, mxy) = b true nếu f(x, y) 7 asxy VÀ f(x, y) 7 bmxy
sai khác

Lưu ý rằng phương trình. (10.3-35) là trường hợp đặc biệt của phương trình. (10.3-36), thu được bằng cách cho Q
là đúng nếu và sai khác. Trong trường hợp này, vị ngữ dựa trên
f(x, y) 7 Txy
chỉ đơn giản là về cường độ tại một điểm.

■ Hình 10.48(a) hiển thị hình ảnh men từ Ví dụ 10.18. Hình ảnh này có VÍ DỤ 10.21:
Biến đổi
ba mức cường độ chiếm ưu thế, vì vậy thật hợp lý khi cho rằng có lẽ
ngưỡng
ngưỡng kép có thể là một cách tiếp cận phân khúc tốt. Hình 10.48(b) là dựa trên địa phương
kết quả của việc sử dụng phương pháp ngưỡng kép được giải thích trong Phần 10.3.6. thuộc tính hình ảnh.
Như hình minh họa, có thể tách các vùng sáng khỏi nền sau, nhưng các vùng xám trung
bình ở phía bên phải của hình ảnh không được phân đoạn chính xác (hãy nhớ rằng
chúng tôi đã gặp phải vấn đề tương tự với Hình 10.43). (c)
trong Ví dụ 10.18). Để minh họa việc sử dụng ngưỡng cục bộ, chúng tôi đã tính toán
s
độ lệch chuẩn cục bộ cho tất cả trong
xy ảnh đầu (x,
vào y)
sử dụng hàng xóm-Hình 10.48(c) hiển thị kết quả.
mui xe có kích thước 3 * 3. Chú ý bên ngoài mờ nhạt như thế nào

các đường phân định chính xác ranh giới của các ô. Tiếp theo, chúng tôi hình thành một vị
từ có dạng như trong biểu thức. (10.3-37) nhưng sử dụng giá trị trung bình toàn cầu thay vì
Việc chọn giá trị trung bình toàn cục thường cho kết quả tốt hơn khi back- mxy.
mặt đất gần như không đổi và tất cả cường độ của đối tượng đều ở trên hoặc dưới
cường độ nền Các giá trị a = 30 và b = 1,5 đã được sử dụng để hoàn thành
đặc điểm kỹ thuật của vị từ (các giá trị này được xác định bằng thực nghiệm, như
thường thấy trong các ứng dụng như thế này). Hình ảnh sau đó được phân đoạn bằng
phương trình. (10.3-36). Như Hình 10.48(d) cho thấy, kết quả khá phù hợp
chặt chẽ với hai loại vùng cường độ phổ biến trong ảnh đầu vào.
Đặc biệt lưu ý rằng tất cả các khu vực bên ngoài đã được phân chia hợp lý và
hầu hết các vùng bên trong, sáng hơn đều được cách ly chính xác. ■

Sử dụng đường trung bình động

Một trường hợp đặc biệt của phương pháp ngưỡng cục bộ vừa thảo luận là dựa trên
tính toán mức trung bình di chuyển dọc theo các đường quét của hình ảnh. Việc triển khai này
khá hữu ích trong việc xử lý tài liệu, trong đó tốc độ là yêu cầu cơ bản. Việc quét
thường được thực hiện từng dòng một theo hình zigzag để
Machine Translated by Google

760 Chương 10 ■ Phân đoạn hình ảnh

bụng
đĩa CD

HÌNH 10.48
(a) Hình ảnh từ
Hình 10.43.
(b) Hình ảnh
phân đoạn bằng cách sử dụng
kép
ngưỡng
tiếp cận
thảo luận ở
Mục 10.3.6.
(c) Hình ảnh địa phương
tiêu chuẩn
những sai lệch.

(d) Kết quả


thu được bằng cách sử dụng

ngưỡng cục bộ.

giảm độ lệch chiếu sáng. Hãy biểu thị zk+1


cường độ của điểm gặp phải

trong trình tự quét ở bước k+1. Đường trung bình động (cường độ trung bình)
tại điểm mới này được cho bởi

Biểu thức đầu tiên là k+1


1
hợp lệ cho k Ú n - 1.

Khi nàok nhỏ hơn


m(k + 1) = n Một tử
tôi=k+2-n
n - 1, trung bình là
(10.3-38)
hình thành với 1
điểm sẵn có. = m(k) + (zk+1 - zk-n)
N
Tương tự, biểu thức
thứ hai có giá trị cho

trong đó Nbiểu thị số điểm được sử dụng để tính điểm trung bình và
k Ú n + 1.

m(1) = z1>n. Giá trị ban đầu này không hoàn toàn chính xác vì giá trị trung bình của một
điểm là giá trị của chính điểm đó. Tuy nhiên, chúng tôi sử dụng
m(1) để không yêu cầu tính toán
= z1>n
đặc biệt khi phương trình. (10.3-38) khởi động lần đầu tiên. Một cách khác
xem xét thì đây là giá trị chúng ta sẽ nhận được nếu đường viền của hình ảnh là
được đệm bằng n - 1 số không. Thuật toán chỉ được khởi tạo một lần, không phải ở mỗi hàng.
Vì đường trung bình động được tính cho mọi điểm trong ảnh nên việc phân đoạn
ở đâu là hằng số và
được thực hiện bằng cách sử dụng phương trình. (10.3-35) với Txy = bmxy b là mxy
đường trung bình động từ phương trình. (10.3-38) tại điểm (x, y) trong hình ảnh đầu vào.
Machine Translated by Google

10.3 ■ Ngưỡng 761

VÍ DỤ 10.22: Ngưỡng
■ Hình 10.49(a) hiển thị hình ảnh văn bản viết tay được tô bóng bởi một mẫu cường độ điểm. Dạng đổ bóng
tài liệu sử
cường độ này là điển hình của hình ảnh thu được bằng đèn flash chụp ảnh. Hình 10.49(b) là kết quả của
dụng đường trung bình
việc phân đoạn bằng phương pháp ngưỡng toàn cục Otsu. Không có gì ngạc nhiên khi ngưỡng toàn cầu không
động.
thể khắc phục được sự thay đổi cường độ. Hình 10.49(c) cho thấy việc phân đoạn thành công với ngưỡng

cục bộ sử dụng đường trung bình động. Một nguyên tắc nhỏ là để cho chiều rộng nét trung bình bằng 5

lần. Trong trường hợp này, giá trị trung bình trong biểu thức. (10,3-38) và chiều rộng được sử dụng là

4 pixel, vì N
vậy chúng tôi đặt n = 20 b = 0,5.

Như một minh họa khác về tính hiệu quả của phương pháp phân đoạn này, chúng
tôi đã sử dụng các tham số tương tự như trong đoạn trước để phân đoạn hình ảnh
trong Hình 10.50(a), hình ảnh này bị hỏng do sự thay đổi cường độ hình sin điển
hình của sự thay đổi có thể xảy ra khi nguồn điện nguồn điện trong máy quét tài
liệu không được nối đất đúng cách. Như quả sung. 10.50(b) và (c) cho thấy, kết
quả phân đoạn có thể so sánh với kết quả trong Hình 10.49.
Điều đáng quan tâm là kết quả phân đoạn thành công đã thu được trong cả hai
trường hợp sử dụng cùng các giá trị vàN điều b,
này cho thấy độ chắc chắn tương
đối của phương pháp này. Nói chung, việc đặt ngưỡng dựa trên đường trung bình
động hoạt động tốt khi đối tượng quan tâm nhỏ (hoặc mỏng) so với kích thước
hình ảnh, một điều kiện được thỏa mãn bởi hình ảnh của văn bản đánh máy hoặc viết tay. ■

10.3.8 Ngưỡng đa biến Cho đến nay, chúng ta

đã quan tâm đến ngưỡng dựa trên một biến duy nhất: cường độ thang màu xám. Trong một
số trường hợp, một cảm biến có thể cung cấp nhiều biến để mô tả từng pixel trong một
hình ảnh và do đó cho phép phân ngưỡng nhiều biến. Một ví dụ đáng chú ý là hình ảnh
màu, trong đó các thành phần màu đỏ (R), xanh lá cây (G) và xanh lam (B) được sử dụng
để tạo thành một hình ảnh màu tổng hợp (xem Chương 6). Trong trường hợp này, mỗi
“pixel” được đặc trưng bởi ba giá trị và có thể z = (z1, z2, z3) T, được biểu diễn
D, có các thành phần là màu RGB tại một
dướiđiểm.
dạng Những
vectơ điểm
3- 3-D này thường được gọi là
voxels, để khử các phần tử thể tích , trái ngược với các phần tử hình ảnh .

abc
HÌNH 10.49 (a) Hình ảnh văn bản bị hỏng do tạo bóng tại chỗ. (b) Kết quả xác định ngưỡng toàn cục bằng phương pháp
Otsu . (c) Kết quả của ngưỡng cục bộ sử dụng đường trung bình động.
Machine Translated by Google

762 Chương 10 ■ Phân đoạn hình ảnh

Như đã thảo luận chi tiết ở Phần 6.7, ngưỡng đa biến có thể được xem như
một phép tính khoảng cách. Giả sử chúng ta muốn trích xuất từ một ảnh màu tất
cả các vùng có dải màu được chỉ định: chẳng hạn như các màu đỏ. Hãy để biểu
thị màu đỏ trung bình mà chúng tôi quan tâm. Một cách để phân đoạn ảnh màu
dựa trên tham số này là tính toán khoảng cách D(z, a), giữa một điểm màu tùy
ý, z, và màu trung bình, a. Sau đó, chúng tôi phân đoạn hình ảnh đầu vào như
sau:

nếu D(z, a) 6 T
(10.3-39)
g = b 10 ngược lại

T
đâu là ngưỡng và người ta hiểu rằng việc tính toán khoảng cách được thực hiện ở tất cả các tọa độ

trong ảnh đầu vào để tạo ra các giá trị được phân đoạn tương ứng trong Lưu ý rằng các bất đẳng thức

g.nghịch với các bất đẳng thức mà chúng ta đã sử dụng trong biểu thức.
trong phương trình này là đối

(10.3-1) để xác định ngưỡng một biến duy nhất- D(z, a) = T xác định một thể tích (xem Hình 6.43). Lý

giá trị pixel được phân đoạn được chứa trong do là phương trình và nó trực quan hơn khi nghĩ về các

các giá trị pixel âm lượng và nền như ở trên bề mặt hoặc bên ngoài âm lượng. Phương trình (10.3-39)

rút gọn thành phương trình. (10.3-1) bằng cách cho D(z, a) = -f(x, y). f(x, y) 7 T Quan sát rằng

điều kiện về cơ bản nói rằng khoảng cách Euclide f giữa giá trị và gốc của đường thẳng thực vượt quá

giá trị của Do đó, việc

của thước đo khoảng cách


đặt ngưỡng
và dạngdựa
củatrên
phương
tínhtrình.
toán (10.3-39) phụ thuộc vào độ đo được sử dụng.

Nói chung, nếu z trong một vectơ n chiều, chúng ta biết từ Phần 2.6.6 rằng khoảng cách Euclide n
T. nghĩa là
chiều được định

D(z, a) = 7z - a7
(10,3-40)
1
2
= C(z - a) T(z - a)D

abc
HÌNH 10.50 (a) Hình ảnh văn bản bị hỏng do tạo bóng hình sin. (b) Kết quả xác định ngưỡng toàn cục bằng phương pháp
Otsu . (c) Kết quả của ngưỡng cục bộ sử dụng đường trung bình động.
Machine Translated by Google

10.4 ■ Phân khúc theo khu vực 763

trình không D(z, a) = T mô tả một hình cầu (được gọi là siêu cầu) trong n- Phương
gian Euclide chiều (Hình 6.43 cho thấy một ví dụ 3-D). Một thước đo khoảng cách mạnh mẽ
hơn là cái gọi là khoảng cách Mahalanobis, được định nghĩa BẰNG

1
2
D(z, a) = C(z - a) TC-1 (z - a)D (10.3-41)

trong đó C là ma trận hiệp phương sai của zs, như đã thảo luận ở Phần 12.2.2.

D(z, a) = T mô tả một siêu elip n chiều (Hình 6.43 cho thấy một ví dụ 3-D). Biểu thức này giảm xuống

phương trình. (10.3-40) khi C = I, ma trận đồng nhất.

Chúng tôi đã đưa ra một ví dụ chi tiết trong Phần 6.7 về việc sử dụng các biểu thức này.
Chúng ta cũng thảo luận trong Phần 12.2 vấn đề phân đoạn các vùng ra khỏi ảnh bằng cách sử
dụng các kỹ thuật nhận dạng mẫu dựa trên các hàm quyết định, có thể được xem như một vấn đề
ngưỡng đa biến, nhiều lớp.

10.4 Phân khúc dựa trên khu vực


Như đã thảo luận trong Phần 10.1, mục tiêu của phân đoạn là phân chia hình ảnh thành các Bạn nên xem lại thuật ngữ

vùng. Trong Phần 10.2, chúng tôi đã tiếp cận vấn đề này bằng cách cố gắng tìm ranh giới giữa được giới thiệu trong Phần
10.1 trước khi tiếp tục.
các vùng dựa trên sự gián đoạn về mức cường độ, trong khi ở Phần 10.3, việc phân đoạn được
thực hiện thông qua các ngưỡng dựa trên sự phân bố các thuộc tính pixel, chẳng hạn như giá
trị cường độ hoặc màu sắc. Trong phần này, chúng ta thảo luận về các kỹ thuật phân đoạn dựa
trên việc tìm trực tiếp các vùng.

10.4.1 Phát triển vùng Đúng như

tên gọi của nó, phát triển vùng là một quy trình nhóm các pixel hoặc vùng con thành các
vùng lớn hơn dựa trên các tiêu chí tăng trưởng được xác định trước. Cách tiếp cận cơ bản là
bắt đầu với một tập hợp các điểm “hạt giống” và từ đó những vùng này phát triển bằng cách
thêm vào mỗi hạt giống những pixel lân cận có các thuộc tính được xác định trước tương tự
như hạt giống (chẳng hạn như phạm vi cường độ hoặc màu sắc cụ thể).
Việc chọn một tập hợp gồm một hoặc nhiều điểm bắt đầu thường có thể dựa trên bản chất của vấn đề,

như được trình bày sau trong Ví dụ 10.23. Khi không có thông tin tiên nghiệm, quy trình sẽ tính toán

ở mỗi pixel cùng một tập hợp thuộc tính mà cuối cùng sẽ được sử dụng để gán pixel cho các vùng trong

quá trình phát triển. Nếu kết quả của những tính toán này hiển thị các cụm giá trị thì các pixel có

thuộc tính đặt chúng gần tâm của các cụm này có thể được sử dụng làm hạt giống.

Việc lựa chọn tiêu chí tương tự không chỉ phụ thuộc vào vấn đề đang được xem xét mà còn
phụ thuộc vào loại dữ liệu hình ảnh có sẵn. Ví dụ: việc phân tích hình ảnh vệ tinh sử dụng
đất phụ thuộc rất nhiều vào việc sử dụng màu sắc. Vấn đề này sẽ khó giải quyết hơn nhiều,
hoặc thậm chí không thể giải quyết được nếu không có thông tin vốn có trong hình ảnh màu.
Khi hình ảnh đơn sắc, việc phân tích vùng phải được thực hiện với một bộ mô tả dựa trên mức
cường độ và đặc tính không gian (chẳng hạn như khoảnh khắc hoặc kết cấu).

Chúng ta thảo luận về các mô tả hữu ích cho việc mô tả đặc điểm vùng trong Chương 11.
Machine Translated by Google

764 Chương 10 ■ Phân đoạn hình ảnh

Chỉ riêng các mô tả có thể mang lại kết quả sai lệch nếu các thuộc tính kết nối bị
không được sử dụng trong quá trình phát triển khu vực. Ví dụ, hãy hình dung một ngẫu nhiên
sắp xếp các pixel chỉ có ba giá trị cường độ riêng biệt. Nhóm pixel
với cùng mức cường độ để tạo thành một “vùng” mà không chú ý tới
kết nối sẽ mang lại kết quả phân đoạn vô nghĩa trong bối cảnh của cuộc thảo luận này.

Một vấn đề khác trong việc phát triển khu vực là việc xây dựng quy tắc dừng.
Sự phát triển của vùng sẽ dừng lại khi không còn pixel nào đáp ứng các tiêu chí để đưa vào
vùng đó. Các tiêu chí như giá trị cường độ, kết cấu và màu sắc mang tính cục bộ
về bản chất và không tính đến “lịch sử” tăng trưởng của khu vực. Tiêu chí bổ sung làm tăng
sức mạnh của việc sử dụng thuật toán phát triển vùng
khái niệm về kích thước, độ giống nhau giữa một pixel ứng viên và các pixel được tăng lên
xa (chẳng hạn như so sánh cường độ của một ứng cử viên và cường độ trung bình của vùng đã
trồng) và hình dạng của vùng đang được trồng. Việc sử dụng
trong số các loại mô tả này dựa trên giả định rằng mô hình về kết quả mong đợi ít nhất có
sẵn một phần.
Let: biểu
f(x,thị
y)một mảng hình ảnh đầu vào; biểu thị một mảngS(x,y)
hạt giống con-Q

giữ số 1 tại vị trí điểm giống và số 0 ở nơi khác; và biểu thị một
y). vị ngữ được áp dụng tại mỗi vị trí f S (x, Mảng và được giả định là
có cùng kích thước. Thuật toán phát triển vùng cơ bản dựa trên 8 kết nối
có thể được phát biểu như sau.

Xem Phần 2.5.2 và S(x,y)


1. Tìm tất cả các thành phần được kết nối trong và xóa từng thành phần được kết nối thành một
9.5.3 về kết nối
pixel; gắn nhãn tất cả các pixel như vậy được tìm thấy là 1. Tất cả các pixel khác trong S
thành phần và phần
9.2.1 về xói mòn.
được dán nhãn 0.

fQ cho tại một cặp tọa độ nếu ảnh đầu vào (x, y), fQ(x, y) = 1
2. Tạo thành một ảnh sao cho phép

thỏa mãn vị từ Q đã cho, tại các tọa độ đó;


nếu không thì fQ (x, y) = 0.
S cả các
g sử là một hình ảnh được tạo bằng cách thêm vào từng điểm giống trong tất
lấy 3. Giả
Các điểm có giá trị 1 fQ
trong đó có 8 điểm được kết nối với điểm giống đó.
g nhãn vùng khác nhau (ví dụ:
4. Dán nhãn cho từng thành phần được kết nối bằng
1, 2, 3, Á ). Đây là hình ảnh được phân đoạn thu được theo vùng đang phát triển.

Chúng tôi minh họa cơ chế của thuật toán này bằng một ví dụ.

VÍ DỤ 10.23: ■ Hình 10.51(a) thể hiện hình ảnh tia X 8-bit của một mối hàn (vùng tối ngang
Phân đoạn theo
vùng) chứa nhiều vết nứt và lỗ rỗng (các vùng sáng chạy
khu vực ngày càng phát triển.
theo chiều ngang qua tâm của hình ảnh). Chúng tôi minh họa việc sử dụng vùng
phát triển bằng cách phân đoạn các vùng hàn bị lỗi. Những vùng này có thể là
được sử dụng trong các ứng dụng như kiểm tra mối hàn, để đưa vào cơ sở dữ liệu các nghiên
cứu lịch sử hoặc để điều khiển hệ thống hàn tự động.
Trình tự đầu tiên của công việc là xác định điểm hạt giống. Từ vật lý
về vấn đề này, chúng tôi biết rằng các vết nứt và độ xốp sẽ làm suy giảm tia X ít hơn đáng
kể so với các mối hàn đặc, vì vậy chúng tôi cho rằng các vùng chứa các loại này sẽ
các khuyết tật sẽ sáng hơn đáng kể so với các phần khác của hình ảnh X-quang. Chúng tôi
có thể trích xuất các điểm giống bằng cách đặt ngưỡng cho hình ảnh gốc, sử dụng tập hợp
ngưỡng cũ ở phân vị cao. Hình 10.51(b) hiển thị biểu đồ của hình ảnh
Machine Translated by Google

10.4 ■ Phân khúc theo khu vực 765

0 63 127 191 255

0 63 127 191 255

abc
chắc chắn

ghi

HÌNH 10.51 (a) Ảnh X-quang của mối hàn bị lỗi. ( b ) Biểu đồ. (c) Hình ảnh hạt giống ban đầu. (d) Hình ảnh hạt giống cuối cùng
(các điểm đã được mở rộng cho rõ ràng). (e) Giá trị tuyệt đối của chênh lệch giữa (a) và (c). (f) Biểu đồ
của (e). (g) Ngưỡng hình ảnh khác biệt sử dụng ngưỡng kép. (h) Hình ảnh khác biệt được ngưỡng với
ngưỡng nhỏ nhất trong số các ngưỡng kép. (i) Kết quả phân khúc thu được theo vùng đang phát triển. (Ảnh gốc được cung cấp bởi
của X-TEK Systems, Ltd.)

và Hình 10.51(c) hiển thị kết quả ngưỡng thu được với ngưỡng bằng
tới phân vị 99,9 của giá trị cường độ trong ảnh, trong trường hợp này là
254 (xem Phần 10.3.5 về phần trăm). Hình 10.51(d) thể hiện kết quả
của sự xói mòn về mặt hình thái từng thành phần được kết nối trong Hình 10.51(c) thành một
điểm duy nhất.
Tiếp theo, chúng ta phải chỉ định một vị ngữ. Trong ví dụ này, chúng tôi quan tâm đến
thêm vào mỗi hạt giống tất cả các pixel mà (a) được kết nối 8 với hạt giống đó và
Machine Translated by Google

766 Chương 10 ■ Phân đoạn hình ảnh

(b) là “tương tự” với nó. Sử dụng sự khác biệt về cường độ làm thước đo sự tương đồng,
(x, y)
vị ngữ của chúng tôi được áp dụng tại mỗi vị trí là

giữa hạt giống và pixel tại (x, y) là … T

SAInếu
Q = c TRUE nếu chênh
không lệch tuyệt đối của cường độ

T
ngưỡng được chỉ định ở đâu. Mặc dù vị từ này dựa trên cường độ
khác biệt và sử dụng một ngưỡng duy nhất, chúng ta có thể chỉ định những điều phức tạp hơn
các sơ đồ trong đó một ngưỡng khác nhau được áp dụng cho từng pixel và các thuộc tính
ngoài sự khác biệt được sử dụng. Trong trường hợp này, vị từ trước là đủ để giải quyết
vấn đề, như phần còn lại của ví dụ này cho thấy.
Từ đoạn trước, chúng ta biết rằng giá trị hạt giống nhỏ nhất là 255
bởi vì hình ảnh đã được ngưỡng với ngưỡng 254. Hình 10.51(e)
hiển thị giá trị tuyệt đối của sự khác biệt giữa các hình ảnh trong Hình.
10.51(a) và (c). Hình ảnh trong Hình 10.51(e) chứa tất cả những khác biệt cần-(x, y).
ed để tính vị ngữ tại mỗi vị trí biểu đồ tương ứng. Hình 10.51(f) cho thấy
Chúng ta cần một ngưỡng để sử dụng trong vị ngữ để
thiết lập sự tương đồng. Biểu đồ có ba chế độ chính, vì vậy chúng ta có thể bắt đầu
bằng cách áp dụng cho ảnh khác biệt kỹ thuật ngưỡng kép được thảo luận trong Phần 10.3.6.
Hai ngưỡng kết quả trong trường hợp này là
T = 68 và T2 = 126, mà chúng tôi thấy tương ứng chặt chẽ với các thung lũng của

1 biểu đồ. (Như một sự lạc đề ngắn gọn, chúng tôi đã phân đoạn hình ảnh bằng cách sử dụng hai

ngưỡng. Kết quả ở hình 10.51(g) cho thấy bài toán phân đoạn
những khiếm khuyết không thể được giải quyết bằng cách sử dụng ngưỡng kép, ngay cả khi ngưỡng

ngưỡng nằm trong các thung lũng chính.)

Hình 10.51(h) cho thấy kết quả của việc xác định ngưỡng cho hình ảnh khác biệt với
T1.
chỉ Các điểm đen là các pixel mà vị từ là TRUE; các
những người khác thất bại trong vị ngữ. Kết quả quan trọng ở đây là các điểm trong
các vùng tốt của mối hàn không làm đúng vị ngữ nên sẽ không được đưa vào
kết quả cuối cùng. Các điểm ở khu vực bên ngoài sẽ được thuật toán phát triển khu vực
coi là ứng cử viên. Tuy nhiên, Bước 3 sẽ loại bỏ các điểm bên ngoài,
bởi vì chúng không được kết nối số 8 với hạt giống. Trên thực tế, như Hình 10.51(i) cho thấy,
Bước này dẫn đến việc phân đoạn chính xác, cho thấy rằng việc sử dụng kết nối là yêu cầu
cơ bản trong trường hợp này. Cuối cùng, lưu ý rằng ở Bước 4
chúng tôi đã sử dụng cùng một giá trị cho tất cả các vùng được thuật toán tìm thấy. Trong trường hợp này,

trực quan thì tốt hơn là làm như vậy. ■

10.4.2 Chia tách và sáp nhập khu vực


Quy trình được thảo luận ở phần cuối sẽ phát triển các vùng từ một tập hợp hạt giống
điểm. Một cách khác là chia nhỏ một hình ảnh ban đầu thành một tập hợp tùy ý,
các vùng rời rạc, sau đó hợp nhất và/hoặc phân chia các vùng nhằm đáp ứng các điều kiện
phân đoạn được nêu trong Phần 10.1. Cơ bản về phân chia
và sáp nhập sẽ được thảo luận tiếp theo.
Machine Translated by Google

10.4 ■ Phân khúc theo khu vực 767

R
Hãy biểu diễn toàn bộ vùng hình ảnh và chọn một vị từ Một Q.
R chia nó liên tiếp thành các phần nhỏ hơn và
Cách tiếp cận để phân đoạn là
các vùng góc phần tư nhỏ hơn để đối với bất kỳ vùng nào, chúng tôiRi,
bắt Q(Ri)
đầu = TRUE.
Q(R)
với toàn bộ khu vực. Nếu chúng = SAI,
ta chia hình ảnh thành các góc phần tư.
Nếu Q là FALSE cho bất kỳ góc phần tư nào, chúng tôi chia góc phần tư đó thành
các góc phần tư phụ, v.v. Kỹ thuật phân tách cụ thể này có một cách biểu diễn
thuận tiện dưới dạng được gọi là cây tứ giác, nghĩa là các cây trong đó mỗi nút có
chính xác bốn con cháu, như Hình 10.52 cho thấy (các hình ảnh tương ứng với
các nút của cây tứ giác đôi khi được gọi là tứ giác hoặc tứ giác). Ghi chú
rằng gốc của cây tương ứng với toàn bộ hình ảnh và mỗi nút
tương ứng với việc phân chia một nút thành bốn nút con cháu. Trong này
trường hợp,R4chỉ được chia nhỏ hơn nữa.
Nếu chỉ sử dụng tính năng chia tách thì phân vùng cuối cùng thường chứa các vùng
liền kề có thuộc tính giống hệt nhau. Nhược điểm này có thể được khắc phục bằng cách cho phép
sáp nhập cũng như chia tách. Đáp ứng các ràng buộc của phân khúc được nêu Xem Phần 2.5.2

về vùng lân cận.


trong Phần 10.1 chỉ yêu cầu hợp nhất các vùng liền kề có các điểm ảnh kết hợp
là hai vùng liền kề nhau và được hợp nhất Rk
Rj thỏa mãn vị ngữ Tức Q.
chỉ Q(Rj ` Rk) = TRUE.
khi cuộc thảo luận trước đó có thể được tóm tắt bằng thủ tục sau đây trong
mà ở bất kỳ bước nào, chúng tôi

R nào mà Q(Ri ) = FALSE.


1. Chia thành bốn góc phần tư rời nhau bất kỳ vùng Tôi

2. Khi không thể chia tách thêm nữa, hãy hợp nhất bất kỳ vùng lân cận nào
Rjvà
Rk cho cái nào Q(Rj ` Rk) = TRUE.
3. Dừng lại khi không thể hợp nhất được nữa.

Theo thông lệ, cần chỉ định kích thước hình tứ giác tối thiểu mà không vượt quá kích thước đó.

việc chia tách được thực hiện.

Có thể có nhiều biến thể của chủ đề cơ bản trước đó. Ví dụ,
kết quả đơn giản hóa đáng kể nếu ở Bước 2 chúng ta cho phép hợp nhất hai vùng
ri nếu mỗi
liền kề bất kỳ và Rj vùng thỏa mãn vị từ riêng lẻ. Điều này dẫn đến một
thuật toán đơn giản hơn nhiều (và nhanh hơn), bởi vì việc kiểm tra vị từ
được giới hạn ở các vùng tứ giác riêng lẻ. Như ví dụ sau đây cho thấy, việc đơn
giản hóa này vẫn có khả năng mang lại kết quả phân đoạn tốt.

bụng
R
HÌNH 10.52
(a) Được phân vùng
hình ảnh.
R1 R2 (b)
R1 R2 R3 R4 tương ứng
tứ giác. R
R41 R42 Đại diện cho
R3 toàn bộ hình ảnh
vùng đất.
R43 R44 R41 R42 R43 R44
Machine Translated by Google

768 Chương 10 ■ Phân đoạn hình ảnh

VÍ DỤ 10.24: Phân chia


■ Hình 10.53(a) hiển thị hình ảnh dải tia X 566 * 566 của Vòng Cygnus.
theo vùng, chia tách
Mục tiêu của ví dụ này là phân đoạn ra khỏi hình ảnh “vòng” vật chất ít đậm đặc
và hợp nhất.
hơn bao quanh tâm đậm đặc. Vùng quan tâm có một số đặc điểm rõ ràng có thể giúp
phân khúc nó. Đầu tiên, chúng tôi lưu ý rằng dữ liệu trong vùng này có tính
chất ngẫu nhiên, cho thấy độ lệch chuẩn của nó phải lớn hơn độ lệch chuẩn của
nền (gần 0) và của vùng trung tâm rộng lớn, khá trơn tru. Tương tự, giá trị
trung bình (cường độ trung bình) của vùng chứa dữ liệu từ vòng ngoài phải lớn
hơn giá trị trung bình của nền tối hơn và nhỏ hơn giá trị trung bình của vùng
trung tâm lớn, sáng hơn. Vì vậy, chúng ta có thể phân đoạn vùng quan tâm bằng
cách sử dụng vị từ sau:

SAI nếu không


Q = b ĐÚNG nếu s 7 a VÀ 0 6 m 6 b

trong đó bệnh
và làđa xơ cứng
giá trị trung bình và độ lệch chuẩn của các pixel trong một tứ giác và và là các hằng

số. Một

Phân tích một số vùng ở vùng quan tâm bên ngoài cho thấy cường độ điểm ảnh
trung bình ở các vùng đó không vượt quá 125 và độ lệch chuẩn luôn lớn hơn 10.
Hình 10.53(b) đến (d) cho thấy kết quả thu được khi sử dụng các giá trị này cho
và thay đổi kích thước tối thiểu được phép cho b,
các vùng tứ giác từ 32 đến 8.
Một

Các pixel trong một vùng tứ giác có

A
B C D

HÌNH 10.53
(a) Hình ảnh siêu
tân tinh Cygnus
Loop, được chụp trong
dải tia X bởi Kính
viễn vọng
Hubble của NASA. (b)–
(d) Kết quả của việc
giới hạn vùng
tứ giác nhỏ nhất

được phép ở các


kích

thước lần lượt là 32 *


32, 16 * 16 và 8 * 8

pixel.
(Hình ảnh gốc
được cung
cấp bởi NASA.)
Machine Translated by Google

10.5 ■ Phân đoạn sử dụng lưu vực hình thái 769

các pixel thỏa mãn vị từ được đặt thành màu trắng; tất cả những thứ khác trong khu vực đó đã được thiết lập

thành màu đen. Kết quả tốt nhất trong việc chụp được hình dạng của vùng bên ngoài là
thu được bằng cách sử dụng các vùng có kích thước 16 * 16. Các ô vuông màu đen trong Hình 10.53(d)

là các hình tứ giác có kích thước 8 * 8 có pixel không thỏa mãn vị ngữ. sử dụng
các vùng tứ giác nhỏ hơn sẽ làm tăng số lượng các vùng màu đen như vậy.
Việc sử dụng các vùng lớn hơn vùng được minh họa ở đây sẽ tạo ra sự phân đoạn “giống khối”
hơn. Lưu ý rằng trong mọi trường hợp, các vùng được phân đoạn (pixel trắng)
tách biệt hoàn toàn vùng bên trong, mượt mà hơn khỏi nền. Như vậy,
phân đoạn đã phân chia hình ảnh thành ba khu vực riêng biệt một cách hiệu quả
tương ứng với ba đặc điểm chính của ảnh: nền,
vùng dày đặc và thưa thớt. Sử dụng bất kỳ vùng màu trắng nào trong Hình 10.53 làm
mặt nạ sẽ làm cho việc trích xuất các vùng này từ
ảnh gốc (Bài toán 10.40). Như trong Ví dụ 10.23, những kết quả này không thể
đã thu được bằng cách sử dụng phân đoạn dựa trên cạnh hoặc ngưỡng. ■

Như được sử dụng trong ví dụ trước, các thuộc tính dựa trên giá trị trung bình và tiêu chuẩn

độ lệch của cường độ điểm ảnh trong một vùng cố gắng định lượng kết cấu của
vùng (xem Phần 11.3.3 để thảo luận về kết cấu). Khái niệm kết cấu
phân đoạn dựa trên việc sử dụng các thước đo kết cấu trong các vị từ. Ở nơi khác
từ, chúng ta có thể thực hiện phân đoạn kết cấu bằng bất kỳ phương pháp nào được thảo luận
trong phần này chỉ đơn giản bằng cách xác định các vị từ dựa trên nội dung kết cấu.

10.5 Phân đoạn sử dụng lưu vực hình thái


Cho đến nay, chúng ta đã thảo luận về phân khúc dựa trên ba khái niệm chính:
(a) phát hiện cạnh, (b) ngưỡng và (c) phát triển vùng. Mỗi phương pháp tiếp cận này đều
có ưu điểm (ví dụ: tốc độ trong trường hợp
ngưỡng toàn cục) và những nhược điểm (ví dụ: nhu cầu xử lý hậu kỳ, chẳng hạn như liên kết
cạnh, trong phân đoạn dựa trên cạnh). Trong phần này
chúng tôi thảo luận về một cách tiếp cận dựa trên khái niệm được gọi là hình thái học
lưu vực sông. Như sẽ trở nên rõ ràng trong cuộc thảo luận sau đây, việc phân khúc
theo lưu vực sông thể hiện nhiều khái niệm của ba cách tiếp cận còn lại
và do đó, thường tạo ra kết quả phân đoạn ổn định hơn, bao gồm cả các ranh giới phân đoạn
được kết nối. Cách tiếp cận này cũng cung cấp một khuôn khổ đơn giản để kết hợp các ràng
buộc dựa trên kiến thức (xem Hình 1.23) trong
quá trình phân đoạn.

10.5.1 Bối cảnh


Khái niệm lưu vực sông dựa trên việc hình dung một hình ảnh theo ba chiều: hai tọa độ
không gian tương ứng với cường độ, như trong Hình 2.18(a). Trong đó
Giải thích “địa hình”, chúng tôi xem xét ba loại điểm: (a) các điểm khao khát ở mức tối
thiểu trong khu vực; (b) những điểm tại đó một giọt nước, nếu được đặt ở
vị trí của bất kỳ điểm nào trong số đó chắc chắn sẽ thuộc về một bà mẹ nhỏ duy nhất; và
(c) những điểm tại đó nước có khả năng rơi xuống nhiều hơn như nhau
nhiều hơn một mức tối thiểu như vậy. Đối với mức tối thiểu khu vực cụ thể, tập hợp các điểm
thỏa mãn điều kiện (b) được gọi là lưu vực hoặc lưu vực của lưu vực đó
Machine Translated by Google

770 Chương 10 ■ Phân đoạn hình ảnh

tối thiểu. Các điểm thỏa mãn điều kiện (c) tạo thành các đỉnh trên bề mặt
địa hình và được gọi là đường phân chia hoặc đường phân nguồn.
Mục tiêu chính của các thuật toán phân đoạn dựa trên các khái niệm này là
tìm ra các đường đầu nguồn. Ý tưởng cơ bản rất đơn giản, như minh họa tương
tự sau đây. Giả sử rằng một lỗ được đục ở mỗi vùng tối thiểu và toàn bộ địa
hình bị ngập từ bên dưới bằng cách để nước dâng lên qua các lỗ với tốc độ
đồng đều. Khi mực nước dâng cao ở các lưu vực khác nhau chuẩn bị hợp nhất,
một con đập được xây dựng để ngăn chặn việc sáp nhập. Lũ lụt cuối cùng sẽ
đạt đến mức chỉ còn nhìn thấy được đỉnh đập phía trên mực nước. Các ranh giới
đập này tương ứng với các đường phân chia lưu vực sông.
Do đó, chúng là các ranh giới (được kết nối) được trích xuất bằng thuật toán
phân đoạn lưu vực.
Những ý tưởng này có thể được giải thích thêm với sự trợ giúp của Hình
10.54. Hình 10.54(a) hiển thị hình ảnh thang độ xám và Hình 10.54(b) là chế
độ xem địa hình, trong đó chiều cao của “ngọn núi” tỷ lệ thuận với giá trị
cường độ trong hình ảnh đầu vào. Để dễ hiểu, mặt sau của các cấu trúc được
tô bóng. Điều này không được nhầm lẫn với các giá trị cường độ; chỉ có địa
hình chung của biểu diễn ba chiều mới được quan tâm. Để ngăn nước dâng tràn
ra ngoài rìa ảnh, chúng ta tưởng tượng

A
B C D

HÌNH 10.54
(a) Ảnh gốc. (b)
Chế độ xem địa
hình. (c)–(d)
Hai giai đoạn lũ lụt.
Machine Translated by Google

10.5 ■ Phân đoạn sử dụng lưu vực hình thái 771

chu vi của toàn bộ địa hình (hình ảnh) được bao bọc bởi các đập có chiều cao lớn hơn ngọn núi cao

nhất có thể, giá trị của nó được xác định bởi giá trị cường độ cao nhất có thể có trong ảnh đầu vào.

Giả sử rằng một lỗ được đục lỗ ở mỗi vùng tối thiểu [được hiển thị dưới dạng vùng tối trong Hình

10.54(b)] và toàn bộ địa hình bị ngập từ bên dưới bằng cách để nước dâng lên qua các lỗ với tốc độ

đồng đều. Hình 10.54(c) cho thấy giai đoạn ngập lụt đầu tiên, trong đó “nước” được hiển thị bằng màu

xám nhạt, chỉ che phủ những vùng tương ứng với nền rất tối trong ảnh. Trong hình. 10.54(d) và (e)

chúng ta thấy rằng nước hiện đã dâng lên lưu vực lưu vực thứ nhất và lưu vực thứ hai. Khi nước tiếp

tục dâng cao, cuối cùng nó sẽ tràn từ lưu vực này sang lưu vực khác. Dấu hiệu đầu tiên của điều này

được thể hiện ở 10.54(f). Ở đây, nước từ lưu vực bên trái thực sự đã tràn vào lưu vực bên phải và một
“đập” ngắn (bao gồm các pixel đơn lẻ) được xây dựng để ngăn nước hòa vào ở mức lũ đó (chi tiết về

việc xây đập được thảo luận trong phần sau). Hiệu ứng này rõ rệt hơn khi nước tiếp tục dâng cao, như

trong Hình 10.54(g). Hình này cho thấy một con đập dài hơn giữa hai lưu vực lưu vực và một con đập

khác ở phần trên cùng của lưu vực bên phải. Con đập thứ hai được xây dựng để ngăn chặn sự hòa nhập

của nước từ lưu vực đó với nước từ các khu vực tương ứng với nền. Quá trình này được tiếp tục cho đến

khi đạt giá trị lớn nhất

ừm

HÌNH 10.54 (Tiếp

theo) (e) Kết


quả của lũ lụt
tiếp theo. (f) Bắt
đầu nhập nước từ hai
lưu vực (một con đập
ngắn được
xây dựng giữa chúng).

(g) Đập dài hơn. (h)


Đường lưu vực

(phân đoạn) cuối cùng.

(Được phép của Tiến sĩ S.


Beucher,
CMM/Ecole des
Mines de Paris.)
Machine Translated by Google

772 Chương 10 ■ Phân đoạn hình ảnh

mức độ ngập lụt (tương ứng với giá trị cường độ cao nhất trong ảnh) là
đạt. Các đập cuối cùng tương ứng với các đường lưu vực, là kết quả phân đoạn mong muốn.
Kết quả cho ví dụ này được hiển thị trong Hình.
10,54(h) là đường dẫn tối, dày 1 pixel được xếp chồng lên ảnh gốc.
Lưu ý đặc tính quan trọng là các đường phân nguồn tạo thành các đường dẫn được kết nối,
do đó tạo ra ranh giới liên tục giữa các khu vực.
Một trong những ứng dụng chính của phân đoạn lưu vực là trích xuất các đối tượng gần
như đồng nhất (giống như đốm màu) khỏi nền. Vùng
được đặc trưng bởi sự thay đổi nhỏ về cường độ có giá trị gradient nhỏ. Như vậy,
trong thực tế, chúng ta thường thấy phân đoạn lưu vực được áp dụng cho độ dốc của một
hình ảnh chứ không phải vào chính hình ảnh đó. Trong công thức này, mức tối thiểu khu vực
của lưu vực lưu vực tương quan chặt chẽ với giá trị nhỏ của độ dốc tương ứng với các
đối tượng quan tâm.

10.5.2 Xây dựng đập

Trước khi tiếp tục, chúng ta hãy xem xét cách xây dựng các con đập hoặc lưu vực sông
các đường theo yêu cầu của thuật toán phân đoạn lưu vực. Xây dựng đập là
dựa trên ảnh nhị phân là thành viên của không gian số nguyên 2-D Mục 2.4.2). Z2 (nhìn thấy

Cách đơn giản nhất để xây đập ngăn cách các bộ nhị phân
điểm là sử dụng phép giãn nở hình thái (xem Phần 9.2.2).
Những điều cơ bản về cách xây dựng đập bằng phương pháp giãn nở được minh họa trong Hình 10.55.

Hình 10.55(a) thể hiện các phần của hai lưu vực lưu vực ở bước ngập n - 1

và Hình 10.55(b) thể hiện kết quả ở bước ngập tiếp theo, Nước có N.

tràn từ lưu vực này sang lưu vực khác và do đó cần phải xây dựng một con đập để ngăn
điều này khỏi xảy ra. Để phù hợp với ký hiệu được giới thiệu

M1 M2
ngắn gọn, hãy ký hiệu tập hợp tọa độ các điểm trong hai miền
tối thiểu. Khi đó cho tập tọa độ các điểm trong lưu vực lưu vực liên kết Cn-1(M1 )
với hai cực tiểu này ở giai đoạn lũ n - 1 được ký hiệu là Cn-1(M2),
và tương ứng. Đây là hai vùng màu xám trong Hình 10.55(a).
Hãy biểu
C[n - 1]thị sự kết hợp của hai bộ này. Có hai kết nối
các thành phần trong Hình 10.55(a) (xem Phần 2.5.2 về các thành phần được kết nối) và
chỉ một thành phần được kết nối trong Hình 10.55(b). Điều này được kết nối
thành phần bao gồm hai thành phần trước đó, được hiển thị bằng nét đứt. Sự thật
hai thành phần được kết nối đã trở thành một thành phần duy nhất cho thấy
rằng nước giữa hai lưu vực lưu vực đã hợp nhất ở bước lũ. Hãy ký hiệu thành phần được N.
kết nối này Lưu ý rằng hai thành phần q.
từ bước n - 1 có thể được trích xuất bằng cách thực hiện phép toán AND đơn giản
Chúng tôi
q cũng
¨ C[nlưu
- ý1].
rằng tất cả các điểm thuộc về một cá nhân

lưu vực lưu vực tạo thành một thành phần kết nối duy nhất.
Giả sử rằng mỗi thành phần được kết nối trong Hình 10.55(a) được giãn ra
bởi phần tử cấu trúc được hiển thị trong Hình 10.55(c), tuân theo hai điều kiện:
q
(1) Sự giãn nở phải được hạn chế (điều này có nghĩa là tâm của
phần tử cấu trúc chỉ có thể được đặt tại các điểm trong quá qtrình giãn nở) và (2)
việc giãn nở không thể được thực hiện trên các điểm có thể khiến các tập hợp bị giãn nở
hợp nhất (trở thành một thành phần được kết nối duy nhất). Hình 10.55(d) cho thấy
rằng đường giãn nở đầu tiên (màu xám nhạt) đã mở rộng ranh giới của mỗi bản gốc
thành phần được kết nối. Lưu ý rằng điều kiện (1) được thỏa mãn ở mọi điểm
Machine Translated by Google

10.5 ■ Phân đoạn sử dụng lưu vực hình thái 773

Nguồn gốc

1 1 1

1 1 1

1 1 1

Sự giãn nở đầu tiên

Sự giãn nở thứ hai

Điểm đập

c
bụng

HÌNH 10.55 (a) Hai lưu vực ngập nước một phần ở giai đoạn lũ n - 1 . (b) Lũ ở giai đoạn cho thấy nước đã tràn

giữa các lưu vực. (c) Phần tửN,


cấu trúc được sử dụng để giãn nở. (d) Kết quả của việc giãn nở và xây dựng đập.
Machine Translated by Google

774 Chương 10 ■ Phân đoạn hình ảnh

trong quá trình giãn nở và điều kiện (2) không áp dụng cho bất kỳ điểm nào trong quá
trình giãn nở; do đó ranh giới của từng vùng được mở rộng đồng đều.
Trong lần giãn nở thứ hai (hiển thị bằng màu đen), một số điểm không đạt điều kiện (1)
khi đáp ứng điều kiện (2), dẫn đến chu vi bị hỏng như trong hình. Rõ ràng chỉ có những
điểm thỏa mãn hai điều kiện q
đang được xem xét, hãy mô tả đường dẫn kết nối dày 1 pixel được hiển thị bằng nét gạch
chéo trong Hình 10.55(d). Con đường này tạo thành đập ngăn cách mong muốn tại
N
giai đoạn lũ lụt. Việc xây dựng đập ở mức lũ này được hoàn thành bằng cách thiết lập
tất cả các điểm trên đường đi vừa được xác định về giá trị lớn hơn
giá trị cường độ tối đa của hình ảnh. Chiều cao của tất cả các đập thường được đặt ở mức
1 cộng với giá trị tối đa được phép trong ảnh. Điều này sẽ ngăn nước khỏi
vượt qua phần đập đã hoàn thành khi mực nước lũ tăng lên.
Điều quan trọng cần lưu ý là các con đập được xây dựng theo quy trình này đều mong muốn
ranh giới phân đoạn, là các thành phần được kết nối. Nói cách khác, điều này
phương pháp loại bỏ các vấn đề của các đường phân đoạn bị hỏng.
Mặc dù quy trình vừa được mô tả dựa trên một ví dụ đơn giản,
phương pháp được sử dụng cho các tình huống phức tạp hơn hoàn toàn giống nhau, bao gồm cả việc sử dụng
của 3 * 3 phần tử cấu trúc đối xứng được hiển thị trong Hình 10.55(c).

10.5.3 Thuật toán phân đoạn lưu vực


Cho M1, M2, Á , ÔNG là tập hợp biểu thị tọa độ của các điểm trong g(x, y).
cực tiểu khu vực của một hình ảnh Như được chỉ ra ở cuối Phần 10.5.1,
đây thường sẽ là một hình ảnh chuyển màu. Giả sửC(Mi)
là tập hợp biểu thị tọa độ các điểm
trong lưu vực lưu vực gắn với cực tiểu vùng
Mi (hãy nhớ rằng các điểm trong bất kỳ lưu vực lưu vực nào đều tạo thành một thành phần được kết nối).
Ký hiệu min và max sẽ được dùng để biểu thị mức tối thiểu và tối đa

các giá trị của


g(x,y).
Cuối cùng, hãy biểu thị T[n] (s,tọa
tập hợp t) độ cho
đó là, g(s,t) 6n.

T[n] = 5(s, t) ƒ g(s, t) 6 n6 (10,5-1)

Về mặt hình học, là


T[n]
tậpg(x,
hợp y)
tọa độ các điểm nằm bên dưới
mặt phẳng g(x, y) = n.
Địa hình sẽ bị ngập với các mức lũ nguyên , từ
n = tối thiểu + 1 n = tối đa + 1. N quá trình ngập lụt, thuật toán cần biết số điểm
Ở bất kỳ bước nào của

dưới độ sâu lũ. Khái niệm-T[n] g(x, y) = n

ly, giả sử rằng tọa độ bên dưới mặt phẳng được “đánh dấu” màu đen và tất
cả các tọa độ khác được đánh dấu màu trắng. Sau đó khi
N tăng lên, chúng ta sẽ thấy
chúng ta nhìn “xuống” trên mặt phẳng xy ở bất kỳ mức lũ nào
ảnh nhị phân trong đó các điểm đen tương ứng với các điểm trong hàm
ở dưới mặt phẳng Giải thích
g(x, này
y) =khá
n. hữu ích trong việc giúp đỡ
làm rõ cuộc thảo luận sau đây.
Ký hiệu
Cn(Mi)
tập hợp tọa độ các điểm trong lưu vực lưu vực

ngập ở giai đoạn Có tham chiếuN.


liên quan đến mức tối thiểu bịtôi đến
thảo luận ở đoạn trước, có thể được xem dưới dạng hình ảnh nhị phân
Cn(Mi)
được cho bởi
Machine Translated by Google

10.5 ■ Phân đoạn sử dụng lưu vực hình thái 775

Cn(Mi) = C(Mi) ¨ T[n] (10,5-2)

Nói cách khác, C tại vịn(Mi)


trí (x,
= 1 y) HT[n]; (x, y) (x, y) HC(Mi )
nếu như VÀ

Cn(Mi ) = 0. mặt khác Việc giải thích hình học của kết quả này là đơn giản. Chúng tôi chỉ đơn

giản sử dụng toán tử AND để cô lập tại


N làm ngập phần ảnh nhị phân trong đó được liên kết
Giai đoạn T[n]
với Mi tối thiểu khu vực.
Tiếp theo, chúngC[n]
tôi biểu thị sự hợp nhất của các lưu vực lưu vực bị ngập ở giai đoạn N:

C[n] = d Cn(Mi) (10,5-3)


tôi=1

Sau đó là sự kết
C[tối đa hợp của tất cả các lưu vực lưu vực:
+ 1]

C[tối đa + 1] = d C(Mi) (10,5-4)


tôi=1

C và không
Có thể chứng minh (Bài toán 10.41) rằng các phần tử trong cả n(Mi) T[n] là
bao giờ được thay thế trong quá trình thực hiện thuật toán và số phần tử trong hai bộ này tăng
lên hoặc giữ nguyên khi tăng. N

Do đó, nó là tập con của


C[nvà- (10.5-3),
1] C[n] C[n]. Theo phương trình. (10,5-2)
là tập con của nên nó C[n
T[n], theo- sau
1] đó là tập con của
T[n]. Từ đây chúng ta có kết quả quan trọng là mỗi thành phần được kết nối
of được
C[n - 1] trong chính xác một thành phần được kết nối của Thuật toán tìm đường T[n].
chứa

đầu nguồn được khởi tạo bằng

C[phút + 1] = T[phút + 1]. Thuật toán sau đó tiến hành đệ quy, tính toán
C[n] from MộtC[n-1].
quy trình để lấy từ là fol-T[n]. C[n] C[n - 1]
ở mức thấp.Q Hãy biểu thị tập hợp các thành phần liên thông trong Then, với mỗi
q HQ[n],
thành phần được kết nối có ba khả năng:

1. q ¨ C[n - 1] trống rỗng.


2. q ¨ C[n - 1] chứa một thành phần liên thông của q ¨ C[n-1].
3. C[n - 1] chứa nhiều hơn một thành phần được kết nối của C[n-1].

Việc xây dựng từ phụC[n]


thuộc vào điều
C[nkiện
- 1]
nào trong ba điều kiện này
nắm giữ. Điều kiện 1 xảy ra khi gặp mức tối thiểu mới, trong trường hợp đó
thành phần được kết nối được q C[nkiện
tích hợp vào để tạo thành Điều - 1]
2 C[n].
q lưu vực lưu vực của một mức tối thiểu nào đó trong khu vực, trong
xảy ra khi nằm trong

q
trường hợp nào được đưa vào để tạo thành Điều C[n
kiện -3 1]
xảy ra C[n].
khi gặp phải toàn bộ hoặc một phần sườn núi ngăn cách hai hoặc nhiều lưu vực lưu
vực. Lũ lụt tiếp theo sẽ khiến mực nước ở các lưu vực này
lưu vực để hợp nhất. Do đó, một con đập (hoặc những con đập nếu có nhiều hơn hai lưu vực lưu vực)

q
liên quan) phải được xây dựng bên trong để tránh tràn giữa lưu vực
lưu vực. Như đã giải thích trong phần trước, đập dày một pixel có thể được cấu trúc con-q ¨ C[n - 1]

giãn nở với tỷ lệ 3 * 3 khi cần bằng cách cấu trúc phần tử 1s

và ràng buộc độ giãn nở thành q.


N giá trị tương ứng
Hiệu quả của thuật toán được cải thiện bằng cách chỉ sử dụng các
với các giá trị cường độ hiện có trongg(x,y);
chúng ta có thể xác định các giá trị này, cũng như

các giá trị tối thiểu và tối đa, từ biểu đồ của g(x, y).
Machine Translated by Google

776 Chương 10 ■ Phân đoạn hình ảnh

A
B C D

HÌNH 10.56 (a)

Hình ảnh các đốm màu.


(b) Độ dốc hình ảnh.
(c) Đường đầu nguồn.
(d) Các đường đầu nguồn
chồng lên ảnh gốc.

(Được phép của Tiến sĩ.


S. Beucher,
CMM/Ecole des
Mỏ Paris.)

VÍ DỤ 10.25: Minh họa ■ Xét hình ảnh và độ dốc của nó trong Hình. 10,56(a) và (b), tương ứng.
thuật toán phân đoạn
Việc áp dụng thuật toán lưu vực vừa mô tả sẽ mang lại các đường phân nguồn (đường màu trắng) của ảnh gradient trong
lưu vực.
Hình 10.56(c). Các ranh giới phân đoạn này được hiển thị chồng lên ảnh gốc trong Hình 10.56(d). Như đã lưu ý ở phần

đầu của phần này, các ranh giới phân đoạn có đặc tính quan trọng là các đường dẫn được kết nối. ■

10.5.4 Việc sử dụng điểm đánh dấu

Việc áp dụng trực tiếp thuật toán phân đoạn lưu vực theo dạng đã thảo luận ở phần
trước thường dẫn đến phân đoạn quá mức do nhiễu và các bất thường cục bộ khác của độ
dốc. Như Hình 10.57 cho thấy, việc phân đoạn quá mức có thể nghiêm trọng đến mức
khiến kết quả của thuật toán hầu như vô dụng. Trong trường hợp này, điều này có
nghĩa là một số lượng lớn các vùng được phân đoạn. Một giải pháp thực tế cho vấn đề
này là hạn chế số lượng vùng được phép bằng cách kết hợp giai đoạn tiền xử lý được
thiết kế để đưa kiến thức bổ sung vào quy trình phân đoạn.

Một cách tiếp cận được sử dụng để kiểm soát việc phân đoạn quá mức dựa trên khái
niệm về các điểm đánh dấu. Điểm đánh dấu là một thành phần được kết nối thuộc về một
hình ảnh. Chúng ta có các điểm đánh dấu bên trong , được liên kết với các đối tượng
quan tâm, và các điểm đánh dấu bên ngoài , được liên kết với nền. Quy trình lựa chọn
điểm đánh dấu thường bao gồm hai bước chính: (1) tiền xử lý; và (2) định nghĩa về một
bộ tiêu chí mà các điểm đánh dấu phải đáp ứng. Để minh họa, hãy xem lại hình 10.57(a).
Machine Translated by Google

10.5 ■ Phân đoạn sử dụng lưu vực hình thái 777

bụng

HÌNH 10.57
( a ) Hình ảnh điện di.
(b) Kết quả áp dụng
thuật toán phân
đoạn lưu vực

cho ảnh gradient.

Sự phân chia quá mức là


điều hiển nhiên.

(Được phép của Tiến sĩ.


S. Beucher,
CMM/Ecole des
Mỏ Paris.)

Một phần của vấn đề dẫn đến kết quả phân đoạn quá mức trong Hình 10.57(b) là số
lượng lớn các cực tiểu tiềm năng. Do kích thước của chúng, nhiều điểm cực tiểu trong
số này là những chi tiết không liên quan. Như đã được chỉ ra nhiều lần trong các
cuộc thảo luận trước đó, một phương pháp hiệu quả để giảm thiểu ảnh hưởng của chi
tiết không gian nhỏ là lọc hình ảnh bằng bộ lọc làm mịn. Đây là một sơ đồ tiền xử
lý thích hợp trong trường hợp cụ thể này.
Giả sử chúng ta định nghĩa điểm đánh dấu bên trong là (1) một vùng được bao
quanh bởi các điểm có “độ cao” cao hơn; (2) sao cho các điểm trong vùng tạo thành
một thành phần được kết nối; và (3) trong đó tất cả các điểm trong thành phần được
kết nối có cùng giá trị cường độ. Sau khi hình ảnh được làm mịn, các điểm đánh dấu
bên trong thu được từ định nghĩa này được hiển thị dưới dạng các vùng giống như đốm
màu, màu xám nhạt trong Hình 10.58(a). Tiếp theo, thuật toán lưu vực được áp dụng cho

bụng

HÌNH 10.58 (a) Hình ảnh hiển thị các điểm đánh dấu bên trong (vùng màu xám nhạt) và điểm
đánh dấu bên ngoài (đường phân nguồn). (b) Kết quả phân đoạn. Lưu ý sự cải thiện so với
Hình 10.47(b). (Được phép của Tiến sĩ S. Beucher, CMM/Ecole des Mines de Paris.)
Machine Translated by Google

778 Chương 10 ■ Phân đoạn hình ảnh

hình ảnh được làm mịn, với hạn chế là các điểm đánh dấu bên trong này là duy nhất

mức tối thiểu khu vực cho phép. Hình 10.58(a) thể hiện các đường phân chia kết quả.
Những đường đầu nguồn này được xác định là các điểm đánh dấu bên ngoài. Lưu ý rằng

các điểm dọc theo đường lưu vực đi dọc theo các điểm cao nhất giữa các điểm đánh dấu lân cận.

Các điểm đánh dấu bên ngoài trong Hình 10.58(a) phân chia hình ảnh thành các vùng một cách hiệu

quả, với mỗi vùng chứa một điểm đánh dấu bên trong duy nhất và một phần của

lý lịch. Do đó, vấn đề được giảm xuống còn việc phân vùng từng vùng này

thành hai: một đối tượng duy nhất và nền của nó. Chúng ta có thể giải quyết vấn đề đơn giản hóa này

bằng nhiều kỹ thuật phân đoạn được thảo luận trước đó trong phần này.

chương. Một cách tiếp cận khác đơn giản là áp dụng phân đoạn lưu vực

thuật toán cho từng vùng riêng lẻ. Nói cách khác, chúng ta chỉ cần lấy gradient

của ảnh được làm mịn [như trong Hình 10.56(b)] và sau đó giới hạn thuật toán ở

hoạt động trên một lưu vực duy nhất có chứa điểm đánh dấu trong khu vực cụ thể đó. Kết quả thu được

khi sử dụng phương pháp này được trình bày trong 10.58(b). Sự cải thiện về hình ảnh trong 10.57(b)

là hiển nhiên.

Lựa chọn điểm đánh dấu có thể bao gồm từ các quy trình đơn giản dựa trên giá trị cường độ và khả

năng kết nối, như vừa minh họa, đến các mô tả phức tạp hơn liên quan đến kích thước, hình dạng, vị

trí, khoảng cách tương đối, nội dung kết cấu, v.v. (xem

Chương 11 về các bộ mô tả). Vấn đề là việc sử dụng các dấu hiệu mang lại sự tiên nghiệm

kiến thức cần thiết để giải quyết vấn đề phân đoạn. Người đọc được nhắc nhở rằng

con người thường hỗ trợ việc phân đoạn và các nhiệm vụ cấp cao hơn trong tầm nhìn hàng ngày bằng cách

sử dụng kiến thức tiên nghiệm, một trong những kiến thức quen thuộc nhất là việc sử dụng ngữ cảnh. Vì vậy,

thực tế là việc phân chia theo lưu vực sông mang lại một khuôn khổ có thể sử dụng hiệu quả loại kiến

thức này là một lợi thế đáng kể của phương pháp này.

10.6 Việc sử dụng chuyển động trong phân đoạn

Chuyển động là tín hiệu mạnh mẽ được con người và nhiều loài động vật khác sử dụng để rút ra

đối tượng hoặc khu vực quan tâm trên nền chi tiết không liên quan. Trong các ứng dụng hình ảnh,

chuyển động phát sinh từ sự dịch chuyển tương đối giữa hệ thống cảm biến và cảnh đang được xem,

chẳng hạn như trong các ứng dụng robot,

điều hướng tự động và phân tích cảnh động. Trong các phần sau

chúng tôi xem xét việc sử dụng chuyển động trong phân đoạn cả về mặt không gian và miền tần số.

10.6.1 Kỹ thuật không gian

Cách tiếp cận cơ bản

Một trong những phương pháp đơn giản nhất để phát hiện những thay đổi giữa hai hình ảnh

f(x, y,
tj ) các khung t i)
hình và f được chụp
(x, y,
lần lượt và tương ứng là để
tôi ,
so sánhtjhai hình ảnh theo từng pixel.
Một thủ tục để làm điều này là hình thành một

hình ảnh khác biệt Giả sử chúng ta có một ảnh tham chiếu chỉ chứa các thành phần cố định. So sánh

hình ảnh này với hình ảnh tiếp theo của

cùng một cảnh, nhưng có một vật chuyển động, dẫn đến sự khác biệt giữa hai cảnh

hình ảnh loại bỏ các phần tử đứng yên, chỉ để lại các mục khác 0

tương ứng với các thành phần ảnh không cố định.


Machine Translated by Google

10.6 ■ Việc sử dụng chuyển động trong phân đoạn 779

Đôi khi có sự khác biệt giữa hai hình ảnh được chụp và có thể tj
bị phạt như

if ƒ f(x, y, ti) - f(x, y, tj)ƒ 7 T


(10.6-1)
0 nếu không thì
dij(x, y) = b 1

T
ngưỡng được chỉ định ở đâu. Lưu ý rằng dij có giá trị là
(x,1 y)
tại không gian (x, y)
chỉ tọa độ nếu chênh lệch cường độ giữa hai ảnh là

khác biệt đáng kể ở các tọa độ đó, được xác định bởi
T. rằng tất cả các hình ảnh đều có cùng kích thước. Cuối cùng, chúng tôi lưu ý
ngưỡng Giả định
rằng các giá trị của tọa độ dij(x, y) (x, y) trong phương trình. (10.6-1) trải rộng các kích thước của

những hình ảnh này, sao cho hình ảnh khác biệt có cùng kích thước với hình ảnh
hình ảnh theo trình tự.

Trong xử lý ảnh động, tất cả các pixel trong với giá trị 1 được coi là
dij(x, y)
kết quả của chuyển động của vật thể. Cách tiếp cận này chỉ có thể áp dụng nếu hai hình ảnh
được đăng ký theo không gian và nếu độ chiếu sáng tương đối ổn định trong giới hạn
T.Trong thực tế, các mục có giá trị 1
được thiết lập bởi (x,dij
y) có thể phát sinh do
trong
tiếng ồn. Thông thường, các mục này là các điểm biệt lập trong ảnh khác biệt và
Cách tiếp cận đơn giản để loại bỏ chúng là tạo thành các vùng 1 giây được kết nối 4 hoặc 8 trong

dij(x, y) và sau đó bỏ qua bất kỳ khu vực nào có ít hơn số lượng được xác định trước
của các phần tử. Mặc dù nó có thể dẫn đến việc bỏ qua các vật thể nhỏ và/hoặc chuyển động chậm,

Cách tiếp cận này cải thiện cơ hội để các mục còn lại trong phần chênh lệch
hình ảnh thực sự là kết quả của chuyển động.

Chênh lệch lũy kế

Hãy xem xét một chuỗi các khung hình ảnh và f(x, y, t1), f(x, y, t2), Á , f(x, y, tn)
let f(x, y, t1) làm hình ảnh tham khảo. Một hình ảnh khác biệt tích lũy (ADI)

được hình thành bằng cách so sánh hình ảnh tham chiếu này với mọi hình ảnh tiếp theo trong

trình tự. Bộ đếm cho mỗi vị trí pixel trong ảnh tích lũy là
tăng lên mỗi khi có sự khác biệt xảy ra ở vị trí pixel đó giữa
tài liệu tham khảo và một hình ảnh trong chuỗi. Do đó khi khung thứ k đang được
so với tham chiếu, mục nhập trong một pixel nhất định của điểm tích lũy
hình ảnh cho biết số lần cường độ ở vị trí đó khác nhau [như
được xác định bởi Ttrong phương trình. (10.6-1)] từ giá trị pixel tương ứng trong ảnh tham
chiếu.
Hãy xem xét ba loại hình ảnh khác biệt tích lũy sau đây:
ADI tuyệt đối, dương và âm . Giả sử rằng các giá trị cường độ của
các đối tượng chuyển động lớn hơn nền, ba loại này
ADI được định nghĩa như sau. Hãy biểu thị hình
R(x,
ảnhy)
tham chiếu và, để
k We as- tk, R(x, y) = f(x, f(x,
đơn giản hóa ký hiệu, ký hiệu sao cho y, 1).y,tổng
k) rằng
= f(x,
Khi y,
đó,tk).
với mọi k 7 1,

và ghi nhớ
rằng các giá trị của ADI là số lượng, chúng tôi xác định những điều sau đây cho tất cả các giá trị có liên quan
giá trị của (x, y):

Ak-1(x, y) + 1 if ƒ R(x, y) - f(x, y, k)ƒ 7 T


(10.6-2)
Ak-1(x, y) nếu không thì
Ak(x, y) = b
Machine Translated by Google

780 Chương 10 ■ Phân đoạn hình ảnh

(10.6-3)
nếu không thì
Pk-1(x,y)y)+ 1 nếu CR(x,
Pk(x, y) = b Pk-1(x, y) - f(x, y, k)D 7 T

(10.6-4)
Nk-1(x, nếu không thì
Nk(x, y) = b Nk-1(x, y) y)
+ 1 nếu CR(x, y) - f(x, y, k)D 6 -T

trong đó Ak(x, t), Pk(x, y) và Nk(x, y) là tuyệt đối, tích cực và tiêu cực
ADI tương ứng sau khi gặp hình ảnh thứ k trong chuỗi.
Điều này được hiểu rằng các ADI này bắt đầu với tất cả các giá trị bằng 0 (số lượng).
Cũng lưu ý rằng các ADI có cùng kích thước với các hình ảnh trong chuỗi.
Cuối cùng, chúng ta lưu ý rằng thứ tự của các bất đẳng thức và dấu của các ngưỡng trong
phương trình. (10.6-3) và (10.6-4) bị đảo ngược nếu giá trị cường độ của các pixel nền
lớn hơn giá trị của các đối tượng chuyển động.

VÍ DỤ 10.26: ■ Hình 10.59 cho thấy ba ADI được hiển thị dưới dạng hình ảnh cường độ cho một
Tính toán của
vật hình chữ nhật có kích thước 75 * 50 các pixel đang di chuyển theo hướng đông
tuyệt đối,
nam- mỗi
hướng chính xác với tốc độ pixel trên 522 khung hình. Các hình ảnh có kích thước
tích cực và
256 * 256 điểm ảnh. Chúng tôi lưu ý những điều sau: (1) Diện tích khác 0 của dương
tiêu cực
tích lũy ADI bằng kích thước của vật chuyển động. (2) Vị trí của cực dương
hình ảnh khác biệt. ADI tương ứng với vị trí của vật thể chuyển động trong hệ quy chiếu.
(3) Số lượng đếm trong ADI dương ngừng tăng khi đối tượng chuyển động bị dịch chuyển
hoàn toàn so với cùng một đối tượng trong hệ quy chiếu. (4) ADI tuyệt đối chứa các vùng
dương và
ADI âm. (5) Hướng và tốc độ của vật thể chuyển động có thể được xác định từ các mục
trong ADI tuyệt đối và âm. ■

Thiết lập một hình ảnh tham khảo

Chìa khóa thành công của các kỹ thuật được thảo luận ở hai phần trước
đang có một hình ảnh tham khảo để có thể thực hiện các so sánh tiếp theo

abc
HÌNH 10.59 ADI của một vật hình chữ nhật chuyển động theo hướng đông nam. (a) ADI tuyệt đối.
(b) ADI dương. (c) ADI âm.
Machine Translated by Google

10.6 ■ Việc sử dụng chuyển động trong phân đoạn 781

làm ra. Sự khác biệt giữa hai ảnh trong bài toán tạo ảnh động có xu hướng loại bỏ
tất cả các thành phần đứng yên, chỉ để lại các phần tử ảnh tương ứng với nhiễu và
các vật thể chuyển động.
Trong thực tế, không phải lúc nào cũng có thể thu được một hình ảnh tham chiếu
chỉ có các phần tử đứng yên và việc xây dựng một tham chiếu từ một tập hợp các
hình ảnh chứa một hoặc nhiều đối tượng chuyển động trở nên cần thiết. Điều này
đặc biệt áp dụng cho các tình huống mô tả cảnh bận rộn hoặc trong trường hợp cập
nhật thường xuyên bắt buộc. Một quy trình để tạo ra một hình ảnh tham chiếu như
sau. Hãy coi hình ảnh đầu tiên trong chuỗi là hình ảnh tham chiếu. Khi một thành
phần không cố định đã di chuyển hoàn toàn ra khỏi vị trí của nó trong khung tham
chiếu, nền tương ứng trong khung hiện tại có thể được sao chép ở vị trí ban đầu
mà đối tượng chiếm giữ trong khung tham chiếu. Khi tất cả các vật thể chuyển động
đã di chuyển hoàn toàn ra khỏi vị trí ban đầu của chúng, một hình ảnh tham chiếu
chỉ chứa các thành phần đứng yên sẽ được tạo ra. Sự dịch chuyển đối tượng có thể
được thiết lập bằng cách theo dõi những thay đổi trong ADI dương, như đã chỉ ra trong phần trước.

VÍ DỤ 10.27: Xây dựng


■ Hình 10.60(a) và (b) hiển thị hai khung hình của một nút giao thông.
hình ảnh
Hình ảnh đầu tiên được coi là hình ảnh tham chiếu và hình ảnh thứ hai mô tả cảnh
tham chiếu.
tương tự một thời gian sau đó. Mục tiêu là loại bỏ các đối tượng chuyển động chính
trong ảnh tham chiếu để tạo ra ảnh tĩnh. Mặc dù có những vật thể chuyển động nhỏ
hơn khác, đặc điểm chuyển động chính là ô tô tại ngã tư di chuyển từ trái sang
phải. Với mục đích minh họa, chúng tôi tập trung vào đối tượng này. Bằng cách theo
dõi những thay đổi trong ADI dương, có thể xác định vị trí ban đầu của một vật thể
chuyển động, như đã giải thích trước đây.
Sau khi xác định được vùng chiếm giữ của đối tượng này, đối tượng có thể được xóa
khỏi ảnh bằng phép trừ. Bằng cách xem khung hình theo trình tự mà ADI dương ngừng
thay đổi, chúng ta có thể sao chép từ hình ảnh này khu vực trước đó bị vật thể
chuyển động chiếm giữ trong khung hình ban đầu. Sau đó, vùng này được dán vào hình
ảnh mà đối tượng đã bị cắt ra, do đó khôi phục nền của vùng đó. Nếu điều này được
thực hiện cho tất cả các đối tượng chuyển động, kết quả là một hình ảnh tham chiếu
chỉ có các thành phần tĩnh mà chúng ta có thể so sánh các khung hình tiếp theo để
phát hiện chuyển động. Kết quả của việc loại bỏ phương tiện di chuyển hướng đông
trong trường hợp này được thể hiện trong Hình 10.60(c). ■

abc
HÌNH 10.60 Xây dựng một hình ảnh tham chiếu tĩnh. (a) và (b) Hai khung hình
liên tiếp. (c) Ô tô đi về hướng đông được trừ khỏi (a) và nền được khôi phục
từ khu vực tương ứng ở (b). (Jain và Jain.)
Machine Translated by Google

782 Chương 10 ■ Phân đoạn hình ảnh

10.6.2 Kỹ thuật miền tần số


Trong phần này chúng ta xét bài toán xác định chuyển động thông qua Fourier
biến đổi công thức. Xét dãy số f(x, y, t), t = 0, 1, Á của K - 1, K ,
M * được
khung hình ảnh kỹ thuật số có kích thước N tạo ra bởi một máy ảnh cố định. Chúng tôi bắt đầu

sự phát triển bằng cách giả định rằng tất cả các khung có nền đồng nhất
có cường độ bằng không. Ngoại lệ là một đối tượng 1 pixel có cường độ đơn vị
chuyển động với vận tốc không đổi. Giả sử rằng đối với khung một (t = 0), đối tượng là
tại vị trí (x¿, y¿) và mặt phẳng hình ảnh được chiếu lên trục x; nghĩa là cường độ
điểm ảnh được tổng hợp trên các cột trong hình ảnh.
Hoạt động này mang lại một mảng 1-D với cácM mục bằng 0, ngoại trừ tại đó x¿,

là tọa độ x của đối tượng một điểm. Nếu bây giờ chúng ta nhân tất cả các thành phần của mảng 1-D với đại

lượng exp [j2pa 1x¢t] với x = 0, 1, 2, Á ,


M - 1 và tổng hợp các kết quả, chúng ta thu được số hạng đơn exp[j2pa1x¿¢t]. Trong này

hiệu ¢t, là mộtsố


1
kýgian giữa các khung.
nguyên dương và là khoảng thời

Giả sử rằng trong khung hai (t = 1) đối tượng đã di chuyển đến tọa độ
(x¿ + 1, y¿); nghĩa là nó đã di chuyển 1 pixel song song với trục x. Sau đó lặp lại
quy trình chiếu được thảo luận ở đoạn trước mang lại tổng
exp[j2pa1(x¿ + 1) ¢t]. Nếu đối tượng tiếp tục di chuyển 1 vị trí pixel trên mỗi
frame, sau đó, tại bất kỳ thời điểm số nguyên nào, kết quả là exp[j2pa1 (x¿ + t) ¢t],
t, sử dụng công thức Euler, có thể được biểu diễn dưới dạng

e j2pa1(x¿ +t) ¢t = cos[2pa1(x¿ + t) ¢t] + j sin[2pa1(x¿ + t) ¢t] (10.6-5)

với t = 0, 1, Á , K-1. Nói cách khác, quy trình này mang lại một hình sin phức tạp
là. các pixel chuyển động (theo hướng
có tần số Nếu đối tượng a1 V1 x)
giữa các khung, hình sin sẽ có tần số Vì thay đổi V 1a1. t

trong khoảng từ 0 đến K - 1 theo số gia số nguyên, giới hạn ở các giá trị a1
số nguyên

làm cho biến đổi Fourier rời rạc của hình sin phức tạp có hai
đỉnh—một đỉnh nằm ở tần số và đỉnh kia nằm VK - V1a1
ở tần 1a1
số này .

đỉnh là kết quả của tính đối xứng trong biến đổi Fourier rời rạc, như đã thảo luận
trong Mục 4.6.4 và có thể bị bỏ qua. Do đó, việc tìm kiếm đỉnh trong phổ Fourier mang
.
lại phép chia đại lượng này cho kết quả là vận tốc một 1 V1 ,
Thành phần V1a1 theo hướng x, vì tốc độ khung hình được giả định là đã biết. MỘT
lập luận tương tự sẽ mang lại thànhV2,
phần vận tốc theo hướng y.
Một chuỗi các khung trong đó không có chuyển động nào diễn ra sẽ tạo ra các số hạng
hàm mũ giống hệt nhau, mà biến đổi Fourier của chúng sẽ bao gồm một đỉnh duy nhất tại một
tần số bằng 0 (một thuật ngữ dc duy nhất). Vì vậy, vì các hoạt động được thảo luận
cho đến nay là tuyến tính, trường hợp tổng quát bao gồm một hoặc nhiều vật thể chuyển động trong một

nền tĩnh tùy ý sẽ có biến đổi Fourier với đỉnh tại dc


tương ứng với các thành phần ảnh tĩnh và các đỉnh tại các vị trí tỷ lệ thuận với vận tốc
của vật thể.
K
Những khái niệm này có thể được tóm tắt như sau. Đối với một chuỗi kỹ thuật số
hình ảnh có kích M * N, bằng tổng của các hình chiếu có trọng số lên trục tại
thước x

mọi số nguyên của thời gian đều là

M-1 N-1
g x(t, a1) = a Một f(x, y, t)e j2pa1x¢t t = 0, 1, Á ,K - 1 (10.6-6)
x=0 y=0
Machine Translated by Google

10.6 ■ Việc sử dụng chuyển động trong phân đoạn 783

Tương tự, tổng các hình chiếu lên trục y là


N-1 M-1

gy(t, a2) = a Một f(x, y, t)e j2pa2y ¢t t = 0, 1, Á ,K - 1 (10.6-7)


y=0 x=0

a2dương.
a1 nguyên
ở đâu, như đã lưu ý, và là số
Các biến đổi Fourier 1-D của các phương trình. (10.6-6) và (10.6-7), tương ứng là

K-1

Gx(u1, a1) = a gx(t, a1)e-j2pu1t/K u1 = 0, 1, Á ,K - 1 (10.6-8)


t=0

K-1

Gy(u2, a2) = a gy(t, a2)e-j2pu2t/K u2 = 0, 1, Á ,K - 1 (10.6-9)


t=0

Trong thực tế, việc tính toán các phép biến đổi này được thực hiện bằng thuật toán
FFT, như được thảo luận trong Phần 4.11.
Mối quan hệ tần số-vận tốc là

u1 = a1V1 (10,6-10)

u2 = a2V2 (10.6-11)

Trong công thức này, đơn vị vận tốc là pixel trên tổng thời gian khung hình. Ví dụ: V1 = 10 K

được hiểu là chuyển động 10 pixel trong khung. Đối với khung
được lấy thống nhất, tốc độ vật lý thực tế phụ thuộc vào tốc độ khung hình
và khoảng cách giữa các pixel. Do đó nếu V1 = 10, K = 30, tốc độ khung hình là hai
hình ảnh mỗi giây và khoảng cách giữa các pixel là 0,5 m thì giá trị thực tế
tốc độ vật lý theo hướng x là

V1 = (10 pixel)(0,5 m>pixel)(2 khung hình>s)>(30 khung hình)

= 1>3 m>s

Dấu của thành phần x của vận tốc thu được bằng cách tính

d2 ReCgx(t, a1)D
S1x = (10.6-12)
dt2 ` t=n

d2 ImCgx(t, a1)D
S2x = (10.6-13)
dt2 ` t=n

Vì là hìnhgx
sin nên có thể chứng minh (Bài toán 10.47) rằng và sẽ S1x S2x
có cùng dấu tại một thời điểm tùy ý, nếu thành phầnN , vận tốc V1 S1x S2x
tích cực. Ngược lại, dấu ngược nhau và biểu thị thành phần âm. Nếu S1x S2x
hoặc
bằng 0, chúng ta xem xét thời điểm gần nhất tiếp theo,
t = n ; ¢t. Nhận xét tương tự áp dụng cho việc tính dấu của V2 .
Machine Translated by Google

784 Chương 10 ■ Phân đoạn hình ảnh

HÌNH 10.61
Khung LANSAT.
(Kẻ hèn nhát, Snyder,
và Ruedger.)

VÍ DỤ 10.28: ■ Hình 10.61 đến 10.64 minh họa tính hiệu quả của phương pháp tiếp cận
Phát hiện một
nguồn gốc. Hình 10.61 cho thấy một trong chuỗi 32 khung hình của ảnh LANSAT
di chuyển nhỏ
được tạo ra bằng cách thêm nhiễu trắng vào hình ảnh tham chiếu. Trình tự chứa
đối tượng thông qua
một mục tiêu xếp chồng di chuyển ở tốc độ 0,5 pixel trên mỗi khung hình theo hướng x và 1
Tính thường xuyên

lãnh địa. pixel trên mỗi khung hình theo hướng y. Mục tiêu, được khoanh tròn trong Hình 10.62, có

Phân bố cường độ Gaussian trải rộng trên một vùng nhỏ (9 pixel) và không

dễ dàng nhận biết bằng mắt. Hình 10.63 và 10.64 thể hiện kết quả tính toán các phương trình.

(10.6-8) và (10.6-9) với u1 = 3 trong Hình một 1


= 6 và a2 = 4 tương ứng. Đỉnh tại

10.63 cho ra u2 = 4 trong Hình V1 = 0,5 từ phương trình. (10,6-10). Tương tự, đỉnh ở

10.64 cho ra V2 = 1.0 từ phương trình. (10.6-11). ■

a1 được giải
Những hướng dẫn cho việc lựa chọn và có thể a2 thích với sự trợ giúp của
Quả sung. 10,63 và 10,64. Ví dụ: giả sử chúng ta đã sử dụng a2 = 15 thay vì

a2 = 4. Trong trường hợp đó, các đỉnh trong Hình 10.64 bây giờ sẽ ở mức u2 = 15 và 17 be-

gây ra V2 = 1,0, đó sẽ là một kết quả bí danh nghiêm trọng. Như đã thảo luận ở phần

4.5.4, hiện tượng răng cưa xảy ra do lấy mẫu dưới (quá ít khung hình trong phần thảo luận hiện tại,

vì phạm vi của đượcbạn xác định bởi ). Vì Ku = aV nên một khả năng là chọn

HÌNH 10.62
Biểu đồ cường độ của
hình ảnh trong hình.
10.61, với
mục tiêu được khoanh tròn.

(Rajala, Câu đố,


và Snyder.)

y
x
Machine Translated by Google

■ Tóm tắt 785

640 HÌNH 10.63 Phổ

của phương trình.


560
(10.6-8) hiển thị đỉnh
ở u1 = 3.
480
(Rajala, Riddle
400 và Snyder.)

320
( 10)

240
lớn
Độ

160

80

0
0 4 8 12 16 20 24 28 32 36 40
Tính thường xuyên

Một
là số nguyên gần nhất với a = umax tation >Vmax , giới hạn tần số răng cưa ở đâu

được thiết lập bởi và K Vmaxtốc


là tối
vận đa dự kiến của vật thể.

Bản tóm tắt


Phân đoạn hình ảnh là bước sơ bộ thiết yếu trong hầu hết các ứng dụng phân tích cảnh và
nhận dạng mẫu hình ảnh tự động. Như được chỉ ra bởi hàng loạt ví dụ được gửi trước trong
các phần trước, việc lựa chọn kỹ thuật phân đoạn này so với kỹ thuật phân đoạn khác chủ
yếu được quyết định bởi các đặc điểm đặc biệt của vấn đề đang được xem xét. Các phương pháp
được thảo luận trong chương này, mặc dù chưa đầy đủ, nhưng là đại diện cho các kỹ thuật
thường được sử dụng trong thực tế. Các tài liệu tham khảo sau đây có thể được sử dụng làm
cơ sở cho việc nghiên cứu sâu hơn về chủ đề này.

Tài liệu tham khảo và đọc thêm Do vai trò trung

tâm của nó trong xử lý hình ảnh tự động, phân đoạn là một chủ đề được đề cập trong hầu hết
các cuốn sách về xử lý hình ảnh, phân tích hình ảnh và thị giác máy tính.
Những cuốn sách sau đây cung cấp tài liệu bổ sung và/hoặc bổ sung cho phạm vi hiểu biết
của chúng tôi về chủ đề này: Umbaugh [2005]; Davies [2005]; Gonzalez, Woods và Eddins
[2004]; Shapiro và Stockman [2001]; Sonka và cộng sự. [1999]; và Petrou và Bosdogianni [1999].
Công việc giải quyết việc sử dụng mặt nạ để phát hiện sự gián đoạn cường độ (Phần 10.2)
có một lịch sử lâu dài. Nhiều loại mặt nạ đã được đề xuất trong nhiều năm: Roberts [1965],
Prewitt [1970], Kirsh [1971], Robinson [1976], Frei và Chen [1977], và Canny [1986]. Một
bài viết đánh giá của Fram và Deutsch [1975] bao gồm nhiều mặt nạ và đánh giá về

100 HÌNH 10.64 Phổ

của phương trình.


80
(10.6-9) hiển thị đỉnh
ở u2 = 4.
60
( 102 )

(Rajala, Riddle
40 và Snyder.)
lớn
Độ

20

0
0 4 8 12 16 20 24 28 32 36 40
Tính thường xuyên
Machine Translated by Google

786 Chương 10 ■ Phân đoạn hình ảnh

hiệu suất của chúng. Vấn đề về hiệu suất mặt nạ, đặc biệt là phát hiện cạnh, vẫn là một
lĩnh vực được quan tâm đáng kể, như được minh họa bởi Qian và Huang [1996], Wang et al.
[1996], Heath và cộng sự. [1997, 1998] và Ando [2000]. Phát hiện cạnh trên ảnh màu ngày
càng phổ biến đối với một số ứng dụng đa cảm biến. Ví dụ, xem Salinas, Abidi, và Gonzalez
[1996]; Zugaj và Lattuati [1998]; Mirmehdi và Petrou [2000]; và Plataniotis và
Venetsanopoulos [2000]. Sự tương tác giữa các đặc điểm hình ảnh và hiệu suất mặt nạ cũng
là một chủ đề được quan tâm hiện nay, như Ziou [2001] minh họa. Sự trình bày của chúng
tôi về tính chất giao nhau bằng 0 của Laplacian dựa trên bài báo của Marr và Hildredth
[1980] và cuốn sách của Marr [1982]. Xem thêm một bài báo của Clark [1989] về việc xác
thực các cạnh được tạo ra bởi các thuật toán xuyên không. (Việc sửa các phần của bài báo
Clark được Piech [1990] đưa ra.) Như đã đề cập trong Phần 10.2, giao điểm 0 thông qua
Laplacian của Gaussian là một cách tiếp cận quan trọng mà hiệu suất tương đối của nó vẫn
là một chủ đề nghiên cứu tích cực (Gunn [1998, 1999]). Đúng như tên gọi, bộ dò biên Canny
được thảo luận trong Phần 10.2.6 là của Canny [1986]. Để biết ví dụ về công việc về chủ
đề này hai mươi năm sau, xem Zhang và Rockett [2006].
Biến đổi Hough (Hough [1962]) là một phương pháp thực tế để liên kết điểm ảnh tổng thể
và phát hiện đường cong. Nhiều khái quát hóa cho phép biến đổi cơ bản được thảo luận
trong chương này đã được đề xuất trong nhiều năm. Ví dụ, Lo và Tsai [1995] thảo luận về
cách tiếp cận để phát hiện các đường dày, Guil et al. [1995, 1997] đề cập đến việc triển
khai nhanh phép biến đổi Hough và phát hiện các đường cong nguyên thủy, Daul at al.
[1998] thảo luận về những khái quát hóa sâu hơn để phát hiện các cung elip, và Shapiro
[1996] đề cập đến việc thực hiện phép biến đổi Hough cho các ảnh thang độ xám.
Như đã đề cập ở phần đầu của Phần 10.3, các kỹ thuật đặt ngưỡng rất phổ biến vì chúng
dễ thực hiện. Không có gì đáng ngạc nhiên khi có một khối lượng công việc đáng kể được
báo cáo trong tài liệu về chủ đề này. Có thể thu được sự đánh giá tốt về phạm vi của tài
liệu này từ các bài đánh giá của Sahoo et al. [1988] và bởi Lee và cộng sự. [1990]. Ngoài
các kỹ thuật được thảo luận trong chương này, các phương pháp khác được sử dụng để giải
quyết các tác động của chiếu sáng và phản xạ (Phần 10.3.1) được minh họa bởi công trình
của Perez và Gonzalez [1987], Parker [1991], Murase và Nayar [ 1994], Bischsel [1998],
Drew và cộng sự. [1999], và Toro và Funt [2007].
Để đọc thêm về tài liệu trong Phần 10.3.2, hãy xem Jain et al. [1995].
Công việc ban đầu về ngưỡng tổng thể tối ưu (Phần 10.3.3) được minh họa trong bài báo
cổ điển của Chow và Kaneko [1972] (chúng tôi thảo luận về phương pháp này trong Phần
12.2.2 trong bối cảnh tổng quát hơn về nhận dạng đối tượng). Mặc dù nó là tối ưu trong Về
mặt lý thuyết, các ứng dụng của phương pháp này trong việc xác định ngưỡng cường độ còn
hạn chế do cần phải ước lượng các hàm mật độ xác suất. Cách tiếp cận tối ưu mà chúng tôi
đã phát triển trong Phần 10.3.3, do Otsu [1979], đã nhận được nhiều sự chấp nhận hơn vì
nó kết hợp hiệu suất tuyệt vời với việc thực hiện đơn giản, chỉ yêu cầu ước tính biểu đồ
hình ảnh. Ý tưởng cơ bản về việc sử dụng tiền xử lý (Phần 10.3.4 và 10.3.5) bắt nguồn từ
một bài báo đầu tiên của White và Rohrer [1983]), kết hợp ngưỡng, độ dốc và Laplacian
trong giải pháp của một vấn đề phân đoạn khó. Thật thú vị khi so sánh những điểm tương
đồng cơ bản về khả năng phân đoạn hình ảnh giữa các phương pháp được thảo luận trong ba
bài viết trước và nghiên cứu về ngưỡng được thực hiện gần hai mươi năm sau bởi Cheriet et
al. [1998], Sauvola và Pietikainen [2000]), Liang và cộng sự. [2000], và Chan và cộng sự.
[2000]. Để đọc thêm về nhiều ngưỡng (Phần 10.3.6), xem Yin và Chen [1997], Liao et al.
[2001], và Zahara và cộng sự. [2005]. Để đọc thêm về ngưỡng biến đổi (Phần 10.3.7), xem
Parker [1997]. Xem thêm Delon và cộng sự. [2007].
Xem Fu và Mui [1981] để biết khảo sát ban đầu về chủ đề phân khúc theo định hướng
vùng. Công trình của Haddon và Boyce [1990] và của Pavlidis và Liow [1990] là một trong
những nỗ lực sớm nhất nhằm tích hợp thông tin vùng và ranh giới nhằm mục đích phân đoạn.
Một cách tiếp cận phát triển vùng mới hơn do Hojjatoleslami và Kittler đề xuất [1998]
cũng được quan tâm. Để biết thông tin cơ bản hiện tại về các khái niệm phân khúc theo
định hướng khu vực, xem Shapiro và Stockman [2001] và Sonka et al. [1999].
Machine Translated by Google

■ Vấn đề 787

Phân đoạn theo lưu vực sông được trình bày trong Phần 10.5 là một khái niệm có tác dụng mạnh
mẽ. Các tài liệu tham khảo ban đầu liên quan đến việc phân chia theo lưu vực sông là Serra
[1988], Beucher [1990], Beucher và Meyer [1992]. Bài viết của Baccar et al. [1996] thảo luận về
phân đoạn dựa trên sự hợp nhất dữ liệu và các lưu vực hình thái. Sự tiến bộ mười năm sau được
thể hiện rõ trong số đặc biệt của Nhận dạng mẫu [2000], dành hoàn toàn cho chủ đề này. Như đã
nêu trong phần thảo luận của chúng ta ở Phần 10.5, một trong những vấn đề chính với lưu vực
sông là vấn đề phân chia quá mức. Các bài viết của Najmanand và Schmitt [1996],Haris et al.
[1998], và Bleau và Leon [2000] là minh họa cho các phương pháp giải quyết vấn đề này. Bieniek
và Moga [2000] thảo luận về thuật toán phân đoạn lưu vực dựa trên các thành phần được kết nối.
Tài liệu trong Phần 10.6.1 là của Jain, R. [1981]. Xem thêm Jain, Kasturi và Schunck [1995].
Tài liệu trong Phần 10.6.2 là của Rajala, Riddle và Snyder [1983]. Xem thêm các bài viết của
Shariat và Price [1990] và của Cumani et al. [1991]. Những cuốn sách của Sonka et al. [1999],
Shapiro và Stockman [2001], Snyder và Qi [2004], và Davies [2005] cung cấp thêm thông tin về ước
tính chuyển động. Xem thêm Alexiadis và Sergiadis [2007].

Các vấn đề
10.1 Chứng minh tính đúng đắn của phương trình. (10.2-1). (Gợi ý: Sử dụng khai triển chuỗi Taylor và chỉ giữ

lại các số hạng tuyến tính.)

10.2 Một ảnh nhị phân chứa các đường thẳng định hướng theo chiều ngang, chiều dọc, ở 45° và ở -45°.
Cung cấp một bộ mặt nạ 3 * 3 có thể được sử dụng để phát hiện các điểm ngắt 1 pixel

trong các dòng này. Giả sử cường độ của đường và nền lần lượt là 1 và 0.

K
10.3 Đề xuất kỹ thuật phát hiện các khoảng trống có độ dài từ 1 đến pixel trong các đoạn thẳng
của ảnh nhị phân. Giả sử rằng các đường dày 1 pixel.
Kỹ thuật của bạn dựa trên phân tích kết nối 8 người lân cận, thay vì cố gắng tạo mặt nạ
để phát hiện các khoảng trống.

10.4 Tham khảo Hình 10.7 để trả lời các câu hỏi sau. (a) Một số đường

nối các miếng đệm và phần tử trung tâm trong Hình 10.7(e) là hình sin-
đường gle, trong khi những đường khác là đường đôi. Giải thích vì sao.

(b) Đề xuất phương pháp loại bỏ các thành phần trong Hình 10.7(f) không phù hợp
một phần của đường định hướng ở -45°.

10.5 Tham khảo các mô hình cạnh trong Hình 10.8.

(a) Giả sử rằng chúng ta tính toán độ lớn gradient của từng mô hình này bằng cách sử
dụng các toán tử Prewitt trong Hình 10.14. Phác thảo hình dạng nằm ngang qua tâm của
mỗi hình ảnh chuyển màu sẽ trông như thế nào. (b) Phác thảo một

mặt cắt ngang cho mỗi ảnh có góc tương ứng.

(Lưu ý: Trả lời câu hỏi này mà không tạo ra hình ảnh có độ dốc và góc.
Chỉ cần cung cấp bản phác thảo của các cấu hình hiển thị những gì bạn mong đợi về cấu
hình của hình ảnh có độ lớn và góc trông như thế nào.)

10.6 Xét một biên dạng cường độ ngang xuyên qua giữa ảnh nhị phân có chứa cạnh bậc chạy dọc qua tâm ảnh. Vẽ cấu

hình sẽ trông như thế nào sau khi hình ảnh bị làm mờ bởi mặt nạ trung bình 1>n2 có kích thước bằng 0.

Để đơn giản, giả sử rằng hình ảnh n * n, được chia tỷ lệ sao cho mức cường độ của nó là 0 ở bên trái

cạnh và 1 ở bên phải của nó. của .

Ngoài ra, giả sử rằng kích thước của mặt nạ nhỏ hơn nhiều so với hình ảnh, do đó các
hiệu ứng đường viền hình ảnh không phải là mối lo ngại ở gần tâm của cấu hình cường độ ngang.

10.7 Giả sử rằng chúng ta đã sử dụng các mô hình cạnh được hiển thị ở trang tiếp theo, thay vì
mô hình đoạn đường nối trong Hình 10.10. Phác thảo gradient và Laplacian của mỗi profile.
Machine Translated by Google

788 Chương 10 ■ Phân đoạn hình ảnh

Hình ảnh

Hồ sơ của một
đường ngang

10.8 Tham khảo Hình 10.14 để trả lời các câu hỏi sau. (a) Giả sử rằng

gx
mặt nạ Sobel được sử dụng để thu được và chỉ ra rằng trong trường . này độ lớn của
hợp gy

gradient được tính bằng các phương trình. (10.2-10) và (10.2-20) cho kết quả giống
nhau.

(b) Chứng minh rằng điều này cũng đúng với mặt nạ Prewitt.

10.9 Hãy chỉ ra rằng mặt nạ Sobel và Prewitt trong Hình. 10.14 và 10.15 chỉ cho kết quả đẳng hướng
đối với các cạnh nằm ngang và dọc và đối với các cạnh được định hướng tương ứng ở góc ;45°.

10.10 Các kết quả thu được bằng một lần duyệt qua hình ảnh của một số mặt nạ 2-D cũng có thể đạt được bằng hai lần

sử dụng mặt nạ 1-D. Ví dụ, kết quả tương tự của 1>9 sử dụng mặt nạ làm mịn 3 * 3 với các hệ số có thể thu

bằng cách truyền mặt nạ [1 1 1] qua một hình ảnh. Kết quả của lần
được
vượt qua này sau đó được theo sau bởi

sự vượt qua của mặt nạ

1
C 11giây

Kết quả cuối cùng sau đó được chia tỷ


1>9lệ theo . Chứng minh rằng phản hồi của mặt
nạ Sobel (Hình 10.14) có thể được thực hiện tương tự bằng một lần vượt qua mặt nạ
sai phân [-1 0 1] (hoặc đối tác dọc của nó) theo sau là mặt nạ làm mịn [1 2 1]
(hoặc đối tác dọc của nó ).

10.11 Cái gọi là toán tử độ dốc la bàn có kích thước 3 * 3 được thiết kế để đo độ dốc của các cạnh được định hướng

theo tám hướng: E, NE, N, NW,W, SW, S và SE. (a) Cho dạng của tám toán tử này sử dụng các hệ số có giá

trị 0, 1 hoặc -1. (b) Chỉ định hướng vectơ gradient của mỗi mặt nạ, lưu ý rằng

hướng gradient trực giao với hướng cạnh.


10.12 Hình chữ nhật trong ảnh nhị phân ở trang tiếp theo có kích thước pixel. m * n (a) Độ lớn của độnày
dốctrông
của hình ảnh

như thế nào dựa trên việc sử dụng phép tính gần đúng được đưa ra trong biểu thức. (10,2-20)? Giả sử rằng và thu được

bằng cách sử dụng toán tử Sobel. Hiển thị tất cả các giá trị pixel khác nhau có liên quan trong
gx hình ảnh chuyển
phòng tập thể dục

màu. (b) Phác thảo biểu đồ hướng cạnh được tính toán bằng phương trình. (10.2-11). Hãy ghi nhãn chính xác chiều

cao của từng thành phần trong

biểu đồ.

(c) Laplacian của hình ảnh này sẽ trông như thế nào dựa trên việc sử dụng phép tính gần
đúng trong biểu thức. (10.2-7)? Hiển thị tất cả các giá trị pixel khác nhau có liên
quan trong ảnh Laplacian.
Machine Translated by Google

■ Vấn đề 789

10.13 Giả sử rằng ảnh f(x, y) ) tạo ra được tích chập với mặt nạ có kích thước n * n (với đồng
hiệu quả 2
1>n ảnh mịn f(x, y).

(a) Rút ra biểu thức về cường độ cạnh (độ lớn cạnh) của hình ảnh được làm mịn dưới dạng
N thu được bằng
hàm của kích thước mặt nạ. Giả sử để đơn giản là số lẻ và các cạnh
cách sử dụng đạo hàm riêng

0f>0x = f(x + 1, y) - f(x, y) và 0f>0y = f(x, y + 1) - f(x, y). (b) Chứng

minh rằng tỷ lệ giữa cường độ cạnh tối đa của ảnh được làm mịn và cường độ cạnh tối đa
của ảnh gốc là 1>n. Nói cách khác,
cường độ cạnh tỷ lệ nghịch với kích thước của mặt nạ làm mịn.

10.14 Với sự tham khảo phương trình. (10.2-23):

(a) Chứng minh rằng giá trị trung bình của Laplacian của một toán tử Gaussian, §2 G(x, y), bằng

không.

(b) Chứng tỏ rằng giá trị trung bình của bất kỳ ảnh nào được tích chập bằng toán tử này cũng bằng 0.

(Gợi ý: Hãy xem xét việc giải bài toán này trong miền tần số, sử dụng định lý tích chập và thực

tế là giá trị trung bình của một hàm tỉ lệ với biến đổi Fourier của nó được đánh giá tại gốc tọa

độ.) (c) (b) nói chung sẽ đúng nếu chúng ta (1) đã sử dụng mặt nạ trong Hình

10.4(a) để tính toán Laplacian của bộ lọc thông thấp Gaussian bằng cách sử dụng mặt nạ Laplacian và

(2) kết hợp kết quả này với bất kỳ hình ảnh nào? Giải thích. (Gợi ý: kích thước 3 * 3, Tham khảo

Bài toán 3.16.)

10.15 Tham khảo Hình 10.22(c).

(a) Giải thích tại sao các cạnh tạo thành các đường

viền khép kín. (b) Phương pháp giao nhau bằng 0 để tìm vị trí cạnh có luôn dẫn đến
đường nét khép kín? Giải thích.

10.16 Người ta thường tìm thấy trong tài liệu một dẫn xuất Laplacian của Gaussian (LoG) bắt
đầu bằng biểu thức G(r) = e-r2 /2s2

trong đó r2
LoG= sau
x2 +đóy2được
. tìm thấy bằng cách lấy đạo hàm từng phần thứ hai: §2 G(r) = 02 G>0r2 . x2 +

y2 r2 được thay thế để có kết quả (không chính xác) Cuối cùng,

§2 G(x, y) = C(x2 + y2 - s2 )>s4 D expC- (x2 + y2 )> 2s2 D

Suy ra kết quả này và giải thích nguyên nhân của sự khác biệt giữa biểu thức này và biểu thức.

(10.2-23). 10.17 (a) Suy ra

phương trình. (10.2-27). (b) Gọi k =

s1>s2 biểu thị tỷ lệ độ lệch chuẩn được thảo luận liên quan đến hàm DoG. Phương trình nhanh. (10.2-27)

theo và s2 k .
Machine Translated by Google

790 Chương 10 ■ Phân đoạn hình ảnh

G f 10.18
Trong phần sau, giả sử rằng và là các mảng rời rạc có kích thước n * n Và

M * N, tương ứng.
(a) Chứng minh rằng tích chập 2-D của hàm Gaussian G(x, y) trong phương trình (10.2-21)

với một hình ảnh f(x, y) có thể được biểu diễn dưới dạng tích chập 1-D dọc theo các hàng
(cột) của f(x, y) theo sau là tích chập 1-D dọc theo các cột (hàng)
của kết quả. (Xem Phần 3.4.2 về tích chập rời rạc.)

(b) Rút ra biểu thức về ưu điểm tính toán của việc sử dụng phương pháp tích chập 1-
D trong (a) trái ngược với việc triển khai phép tích chập 2-D
trực tiếp. Giả sử được lấy mẫu đểG(x,
tạo y)
ra một mảng có kích thước n * n

và đó f(x, y) có size M*N. Ưu điểm tính toán là tỷ lệ


của số phép nhân cần thiết cho phép tích chập 2-D với số cần thiết cho phép
tích chập 1-D.

10.19 (a) Chứng minh rằng Bước 1 và 2 của thuật toán Marr-Hildreth có thể được triển khai
bằng cách sử dụng bốn phép chập 1-D. (Gợi ý: Tham khảo Bài toán 10.18(a) và
biểu diễn toán tử Laplacian dưới dạng tổng của hai đạo hàm riêng cho bởi
phương trình. (10.2-5) và (10.2-6) và thực hiện từng đạo hàm bằng mặt nạ 1-D,
như trong Bài toán 10.10.)

(b) Rút ra biểu thức về ưu điểm tính toán của việc sử dụng phương pháp tích chập 1-
D trong (a) trái ngược với việc triển khai phép tích chập 2-D
trực tiếp. Giả sử rằng G(x, y) được lấy mẫu để tạo ra một mảng có kích thước và f(x, y) có n * n
kích thước M * N. Ưu điểm tính toán là tỷ lệ
của số phép nhân cần thiết cho phép tích chập 2-D với số cần thiết cho phép
tích chập 1-D (xem Bài toán 10.18).

10.20 (a) Xây dựng Bước 1 và tính toán độ lớn ảnh gradient ở Bước 2
của thuật toán Canny sử dụng tích chập 1-D thay vì tích chập 2-D.

(b) Ưu điểm tính toán của việc sử dụng phương pháp tích chập 1-D so với việc thực
hiện phép tích chập 2-D là gì. Giả sử rằng phương pháp tích chập 2-D
n * n
Bộ lọc Gaussian ở Bước 1 được lấy mẫu thành một mảng có kích thước và đầu vào
hình ảnh có kích thước M * N. Thể hiện lợi thế tính toán theo tỷ lệ

số phép nhân yêu cầu của mỗi phương pháp.

10.21 Tham khảo ba mô hình cạnh dọc và các biên dạng tương ứng trong Hình 10.8.

(a) Giả sử chúng ta tính độ lớn gradient của mỗi cạnh trong số ba cạnh
mô hình sử dụng mặt nạ Sobel. Phác thảo các cấu hình cường độ ngang của
ba hình ảnh gradient.

(b) Phác thảo các biên dạng cường độ ngang của ba ảnh Laplacian, dưới dạng mặt nạ
tổng hợp rằng Laplacian được tính bằng cách sử dụng 3 * 3 trong Hình 10.4(a).

(c) Lặp lại cho ảnh được tạo chỉ bằng hai bước đầu tiên của Marr-
Máy dò cạnh Hildreth.

(d) Lặp lại hai bước đầu tiên của bộ dò biên Canny. Bạn có thể bỏ qua
những hình ảnh góc cạnh.

(e) Phác thảo mặt cắt ngang của ảnh góc cho bộ dò cạnh Canny.

(Lưu ý: Trả lời câu hỏi này mà không tạo ra hình ảnh. Chỉ cần cung cấp bản phác
thảo của các cấu hình hiển thị những gì bạn mong đợi cấu hình của hình ảnh sẽ
trông giống như.)

10.22 Tham khảo phép biến đổi Hough được thảo luận trong Phần 10.2.7.

(a) Xây dựng một quy trình chung để thu được biểu diễn chuẩn của một
đường thẳng từ dạng chặn độ dốc của nó, y = ax + b.

(b) Tìm biểu diễn chuẩn tắc của đường thẳng y = -2x + 1.
Machine Translated by Google

■ Vấn đề 791

10.23 Tham khảo phép biến đổi Hough được thảo luận trong Phần 10.2.7.

(a) Giải thích tại sao ánh xạ Hough của điểm 1 trong Hình 10.33(a) là một đường thẳng
trong Hình 10.33(b).

(b) Đây có phải là điểm duy nhất tạo ra kết quả đó không? Giải thích.

(c) Giải thích mối quan hệ kề cận phản ánh được minh họa bằng, ví dụ,
đường cong được dán Q
nhãn trong Hình 10.33(b).

10.24 Chứng minh rằng số thao tác cần thiết để thực hiện phương pháp ô tích lũy được thảo luận
N, mặt phẳng ảnh (tức là
trong Phần 10.2.7 là tuyến tính theo số điểm không phải nền trong
mặt phẳng xy).

10.25 Một lĩnh vực ứng dụng quan trọng của kỹ thuật phân đoạn ảnh là xử lý ảnh tạo ra từ cái gọi
là sự kiện buồng bong bóng. Những bức ảnh này
phát sinh từ các thí nghiệm trong vật lý năng lượng cao trong đó một chùm hạt
các đặc tính đã biết được hướng vào mục tiêu của các hạt nhân đã biết. Một sự kiện điển hình

bao gồm các đường đi vào, bất kỳ đường nào trong số đó, trong trường hợp va chạm, sẽ phân nhánh

thành các rãnh thứ cấp của các hạt phát ra từ điểm va chạm. Cầu hôn
phương pháp phân đoạn để phát hiện tất cả các bản nhạc chứa ít nhất 100 pixel
và được tạo góc theo một trong sáu hướng sau so với phương ngang:
và Sai số ước tính cho phép theo bất kỳ hướng nào trong sáu hướng này
;25°, ;50°, ;75°.
;5°.bản nhạc hợp lệ, nó phải dài ít nhất 100 pixel và không có
Để một

nhiều hơn ba khoảng trống, mỗi khoảng trống không được vượt quá 10 pixel. Bạn có thể cho rằng
các hình ảnh đã được xử lý trước để chúng ở dạng nhị phân và tất cả các bản nhạc đều được
Chiều rộng 1 pixel, ngoại trừ tại điểm va chạm mà chúng phát ra. Quy trình của bạn sẽ có thể phân biệt
giữa các bài hát có cùng hướng

tuy nhiên có nguồn gốc khác nhau. (Gợi ý: Giải pháp của bạn dựa trên phép biến đổi Hough.)

10.26 Trình bày lại thuật toán ngưỡng toàn cục cơ bản trong Phần 10.3.2 để nó sử dụng
biểu đồ của một hình ảnh thay vì chính hình ảnh đó.

10.27 Chứng minh rằng thuật toán ngưỡng toàn cục cơ bản trong Phần 10.3.2 hội tụ theo một
số bước hữu hạn. (Gợi ý: Sử dụng công thức biểu đồ từ Bài toán 10.26.)

10.28 Đưa ra giải thích tại sao ngưỡng ban đầu trong thuật toán ngưỡng toàn cục cơ bản ở Mục
10.3.2 phải nằm giữa giá trị tối thiểu và tối đa
trong hình ảnh. (Gợi ý: Xây dựng một ví dụ cho thấy thuật toán thất bại đối với một
giá trị ngưỡng được chọn ngoài phạm vi này.)

10.29 Ngưỡng có được bằng thuật toán ngưỡng toàn cục cơ bản trong
Mục 10.3.2 độc lập với điểm xuất phát? Nếu câu trả lời của bạn là có, hãy chứng minh điều đó.
Nếu câu trả lời của bạn là không, hãy đưa ra một ví dụ.

10.30 Bạn có thể giả sử trong cả hai trường hợp sau đây là giá trị ngưỡng trong
phép lặp được giới hạn trong khoảng mở (a) (0, L - 1).

Chứng minh rằng nếu biểu đồ của ảnh là đồng nhất trên mọi cường độ có thể
các mức, thuật toán ngưỡng toàn cục cơ bản trong Phần 10.3.2 hội tụ đến
cường độ trung bình của hình ảnh, (L - 1)>2.

(b) Chứng minh rằng nếu biểu đồ của một ảnh là lưỡng thức, với các chế độ giống nhau
đối xứng về phương tiện của chúng, thì thuật toán toàn cục cơ bản sẽ hội tụ đến
điểm nằm giữa phương tiện của các chế độ.

10.31 Tham khảo thuật toán ngưỡng ở Mục 10.3.2. Giả sử rằng trong một điều kiện nhất định
vấn đề biểu đồ là lưỡng kim với các chế độ là đường cong Gaussian của
2 2 2 2
dạng >2s1
A
1 điểm kinh nghiệm[-(z - m1) ] Và A2 exp[-(z - m2) >2s2 ]. Giả sử
m1 7 m2 và T ban đầu nằm giữa cường độ hình ảnh tối đa và tối thiểu.
Cho các điều kiện (theo tham số của các đường cong này) để
đúng khi thuật toán hội tụ:
Machine Translated by Google

792 Chương 10 ■ Phân đoạn hình ảnh

(a) Ngưỡng bằng (m1 + m2)>2.

(b) Ngưỡng nằm ở bên trái của m2.

(c) Ngưỡng nằm trong khoảng (m1 + m2)>2 6 T 6 m1.

Nếu không thể tồn tại bất kỳ điều kiện nào trong số này, hãy nêu rõ và đưa ra lý do.

10.32 (a) Hiển thị dòng đầu tiên trong biểu thức. (10.3-15) theo sau các phương trình. (10.3-14),
(10.3-10) và (10.3-11).

(b) Hiển thị dòng thứ hai trong biểu thức. (10.3-15) tiếp theo từ phần đầu tiên.
k
10.33 Hãy chỉ ra rằng giá trị lớn nhất của phương trình. (10.3-18) luôn tồn tại trong khoảng
0 … k … L - 1.

10.34 Với sự tham khảo phương trình. (10.3-20), đưa ra một lập luận chứng minh rằng

0 … h(k) … 1, k trong
khoảng 0 … k … L - 1, mức tối thiểu là ở đâu

chỉ có thể đạt được bằng hình ảnh có cường độ không đổi và chỉ xảy ra mức tối đa

cho hình ảnh 2 giá trị có giá trị 0 và L - 1.

10.35 (a) Giả sử cường độ của ảnh f(x, y) nằm trong khoảng [0, 1] và

ngưỡng đó, đã phân chia thành công hình ảnh thành các đối tượng và back-T,

đất. Chứng minh rằng ngưỡng T¿ = 1 - T sẽ phân chia thành công

âm của f(x, y) vào các khu vực giống nhau. Thuật ngữ phủ định được sử dụng ở đây trong
nghĩa được định nghĩa ở Mục 3.2.1.

(b) Hàm biến đổi cường độ trong (a) ánh xạ một hình ảnh sang dạng âm của nó là một hàm tuyến

tính có độ dốc âm. Nêu các điều kiện mà hàm biến đổi cường độ bit ar-bitrary phải đáp ứng

để có khả năng phân đoạn

của ảnh gốc đối với một ngưỡng cần được giữ nguyên. Cái gì T,

sẽ là giá trị của ngưỡng sau khi chuyển đổi cường độ?

10.36 Các vật thể và nền trong ảnh hiển thị có cường độ trung bình là 170

và 60, tương ứng, trên thang đo [0, 255]. Hình ảnh bị hỏng do nhiễu Gaussian

với giá trị trung bình là 0 và độ lệch chuẩn là 10 mức cường độ. Đề xuất phương pháp già đập

lúa có khả năng cho tỷ lệ phân đoạn đúng đạt 90% hoặc cao hơn.

(Hãy nhớ lại rằng 99,7% diện tích của đường cong Gaussian nằm trong ;3s khoảng thời gian về

S lệch chuẩn ở đâu.)


giá trị trung bình, độ

10.37 Tham khảo hình ảnh đường dốc cường độ trong Hình 10.37(b) và thuật toán trung bình động được thảo

luận trong Phần 10.3.7. Giả sử hình ảnh có kích thước 500 * 700

pixel và giá trị tối thiểu và tối đa của nó là 0 và 1, trong đó số 0 chỉ chứa trong cột đầu

tiên.

(a) Kết quả của việc phân đoạn hình ảnh này với đường trung bình động là gì?

thuật toán sử dụng b = 0 và một giá trị tùy ý để Giải thích hìnhN.
ảnh là gì
sẽ trông như thế nào
Machine Translated by Google

■ Vấn đề 793

(b) Bây giờ đảo ngược hướng của đoạn đường nối sao cho giá trị ngoài cùng bên trái của nó là 1 và

giá trị ngoài cùng bên phải là 0 và lặp lại (a).

(c) Lặp lại (a) nhưng với và


= 1.
n = 2 b

(d) Lặp lại (a) nhưng với và


1. n = 100 b =

10.38 Đề xuất thuật toán phát triển vùng để phân đoạn ảnh trong Bài toán 10.36.

10.39 Phân đoạn hình ảnh được hiển thị bằng cách sử dụng quy trình tách và hợp nhất được thảo luận ở phần
Mục 10.4.2. Đặt Q (Ri) = TRUE ri có cùng cường độ.
nếu tất cả các pixel
Hiển thị cây tứ giác tương ứng với phân đoạn của bạn.

10.40 Xét vùng 1 do sự phân đoạn của các vùng thưa thớt
trong hình ảnh của Vòng lặp Cygnus trong Ví dụ 10.24. Đề xuất một kỹ thuật cho
sử dụng vùng này làm mặt nạ để tách biệt ba thành phần chính của hình ảnh:
(1) nền, (2) vùng bên trong dày đặc và (3) vùng bên ngoài thưa thớt.
10.41 Tham khảo phần thảo luận ở Phần 10.5.3.

(a) Chứng minh rằng các phần tử cắt C của n(Mi) Và T[n] không bao giờ được thay thế trong quá trình thực hiện

thuật toán phân đoạn lưu vực.

(b) Chứng minh rằng số phần tử của tập hợp C n(Mi) Và T[n] hoặc tăng
hoặc giữ nguyên khi tăng. N

10.42 Các ranh giới được minh họa trong Phần 10.5, thu được bằng thuật toán phân đoạn lưu vực,
tạo thành các vòng khép kín (ví dụ: xem Hình 10.56 và 10.58).
Đưa ra một lập luận xác lập xem ranh giới có luôn đóng hay không
kết quả của việc áp dụng thuật toán này.

10.43 Thực hiện từng bước quy trình xây dựng đập cho mặt cắt cường độ một chiều được trình
bày. Hiển thị bản vẽ mặt cắt
ở mỗi bước, hiển thị mực nước “nước” và các con đập đã được xây dựng.

7
6
5
4
3
2
1
0 x
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

10.44 Hình ảnh ADI âm trong Hình 10.59(c) sẽ trông như thế nào nếu chúng ta kiểm tra
chống lại T -T vì kiểm tra chống lại) trong phương trình. (10.6-4)?
(thay

10.45 Những câu sau đây đúng hay sai? Giải thích lý do cho câu trả lời của bạn
trong mỗi.

(a) Các mục khác 0 trong ADI tuyệt đối tiếp tục tăng về kích thước,
miễn là vật đó đang chuyển động.
Machine Translated by Google

794 Chương 10 ■ Phân đoạn hình ảnh

(b) Các phần tử khác 0 trong ADI dương luôn chiếm cùng một diện tích, bất kể chuyển
động mà vật thể thực hiện.

(c) Các mục khác 0 trong ADI âm tiếp tục tăng về kích thước,
miễn là vật đó đang chuyển động.

10.46 Giả sử rằng trong Ví dụ 10.28 chuyển động dọc theo trục x được đặt bằng 0. Bây giờ đối tượng
chỉ di chuyển dọc theo trục y ở 1 pixel trên mỗi khung hình trong 32 khung hình và sau đó
(ngay lập tức) đảo ngược hướng và di chuyển theo hướng ngược lại chính xác cho khung hình khác
32 khung hình. Những gì sẽ Figs. 10,63 và 10,64 trông như thế nào trong những điều kiện này?

10.47 Đưa ra lập luận chứng minh rằng khi các dấu hiệu của và trong S1x S2x

phương trình. (10.6-12) và (10.6-13) giống nhau, thành phần vận tốc làV1dương.

10.48 Một nhà máy dược phẩm tự động sử dụng xử lý hình ảnh để đo
dạng viên thuốc nhằm mục đích kiểm tra chất lượng. Giai đoạn phân đoạn của hệ thống
dựa trên phương pháp của Otsu. Tốc độ kiểm tra
dòng cao đến mức cần phải có đèn flash chiếu sáng tốc độ rất cao để “dừng” chuyển
động. Khi còn mới, đèn chiếu sáng chiếu một kiểu ánh sáng đồng đều. Tuy nhiên, khi
đèn cũ đi, kiểu chiếu sáng sẽ xấu đi theo thời gian.
và tọa độ không gian theo phương trình

2 e-[(xM/2)2+(yN/2)2 ]
i(x, y) = A(t) - t

Ở đâu (M>2, N>2) là tâm của khu vực quan sát và được tính ttheo đơn vị tháng. Các
đèn mang tính thử nghiệm và đặc tính của A(t) không phải

được nhà sản xuất hiểu đầy đủ. Tất cả những gì được biết là, trong suốt cuộc đời của
đèn, A(t) luôn lớn hơn thành phần âm ở phần trước
phương trình vì độ chiếu sáng không thể âm. Nó đã được quan sát thấy rằng
Thuật toán của Otsu hoạt động tốt khi đèn còn mới và kiểu chiếu sáng của chúng gần
như không đổi trên toàn bộ hình ảnh. Tuy nhiên, hiệu suất phân khúc giảm dần theo
thời gian. Đang trong quá trình thử nghiệm, những chiếc đèn này đặc biệt
đắt tiền nên bạn được thuê làm nhà tư vấn để giúp giải quyết vấn đề về mặt tính
toán và nhờ đó kéo dài tuổi thọ hữu ích của đèn. Bạn được phép linh hoạt để
cài đặt bất kỳ điểm đánh dấu đặc biệt hoặc dấu hiệu trực quan nào khác gần các cạnh của khu vực xem

của các máy chụp ảnh. Đề xuất một giải pháp đủ chi tiết mà kỹ thuật
người quản lý nhà máy có thể hiểu cách tiếp cận của bạn. (Gợi ý: Xem lại mô hình ảnh được
thảo luận trong Phần 2.3.4 và cân nhắc sử dụng một mục tiêu nhỏ có độ phản xạ đã biết.)

10.49 Tốc độ của viên đạn đang bay được ước tính bằng cách sử dụng hình ảnh tốc độ cao
kỹ thuật. Phương pháp lựa chọn liên quan đến việc sử dụng máy ảnh TV và đèn flash
K s. Viên đạn dài 2,5 cm, rộng 1 cm và tầm bắn
vạch trần hiện trường cho
tốc độ là 750; 250 m> giây. Quang học của máy ảnh tạo ra hình ảnh trong đó viên đạn
chiếm 10% độ phân giải ngang của 256 * 256 hình ảnh kỹ thuật số.

K
(a) Xác định giá trị lớn nhất sẽ đảm bảo rằng độ mờ từ
chuyển động không vượt quá 1 pixel.

(b) Xác định số khung hình tối thiểu trên giây cần phải có
được thu thập để đảm bảo rằng có ít nhất hai hình ảnh hoàn chỉnh của
viên đạn thu được trong đường đi của nó qua trường nhìn của máy ảnh.

(c) Đề xuất quy trình phân đoạn để tự động trích xuất viên đạn
từ một chuỗi các khung hình.

(d) Đề xuất phương pháp tự động xác định tốc độ của viên đạn.
Machine Translated by Google

Biểu diễn 11 và mô tả

Vâng, nhưng hãy suy ngẫm; chúng ta đã nhiều lần phải không

thừa nhận rằng những cái tên được đặt đúng là

những hình ảnh và hình ảnh của sự vật mà họ


tên?

Socrates

Xem trước
Sau khi một hình ảnh được phân đoạn thành các vùng bằng các phương pháp như đã
thảo luận trong Chương 10, tổng hợp các điểm ảnh được phân đoạn thường được gửi
lại và mô tả dưới dạng phù hợp cho quá trình xử lý tiếp theo của máy tính.
Về cơ bản, việc đại diện cho một khu vực bao gồm hai lựa chọn: (1) Chúng ta có thể đại diện cho

vùng theo các đặc điểm bên ngoài (ranh giới của nó), hoặc (2) chúng ta có thể biểu
diễn nó theo các đặc điểm bên trong của nó (các pixel bao gồm vùng).
Tuy nhiên, việc lựa chọn một sơ đồ biểu diễn chỉ là một phần của nhiệm vụ thực hiện
dữ liệu hữu ích cho máy tính. Nhiệm vụ tiếp theo là mô tả khu vực dựa trên
đại diện đã chọn. Ví dụ: một khu vực có thể được đại diện bởi
ranh giới và ranh giới được mô tả bởi các đặc điểm như chiều dài của nó, hướng của
đường thẳng nối các điểm cực trị của nó và số lượng mặt lõm
ở ranh giới.
Một biểu diễn bên ngoài được chọn khi trọng tâm chính là hình dạng
đặc trưng. Một biểu diễn bên trong được chọn khi tiêu điểm chính
dựa trên các thuộc tính khu vực, chẳng hạn như màu sắc và kết cấu. Đôi khi có thể cần
thiết phải sử dụng cả hai kiểu biểu diễn này. Trong cả hai trường hợp, các tính năng được chọn
vì các bộ mô tả phải càng ít nhạy cảm càng tốt đối với các biến thể về kích thước,
sự dịch chuyển và xoay vòng. Phần lớn các mô tả được thảo luận trong chương này
thỏa mãn một hoặc nhiều tính chất này.

795
Machine Translated by Google

796 Chương 11 ■ Biểu diễn và mô tả

11.1 Đại diện


Các kỹ thuật phân đoạn được thảo luận trong Chương 10 mang lại dữ liệu thô trong
dạng pixel dọc theo ranh giới hoặc các pixel chứa trong một vùng. Thông lệ tiêu
chuẩn là sử dụng các lược đồ thu gọn dữ liệu được phân đoạn thành các biểu diễn giúp
tạo điều kiện thuận lợi cho việc tính toán các bộ mô tả. Trong phần này, chúng tôi
thảo luận các cách tiếp cận biểu diễn khác nhau.

11.1.1 Ranh giới (Biên giới) theo sau

Bạn sẽ thấy nó hữu ích để Một số thuật toán được thảo luận trong chương này yêu cầu các điểm trong
xem xét Phần 2.5.2 và

9.5.3 trước khi tiếp tục.


ranh giới của một vùng được sắp xếp theo chiều kim đồng hồ (hoặc ngược chiều kim
đồng hồ). Do đó, chúng tôi bắt đầu cuộc thảo luận của mình bằng cách giới thiệu một
thuật toán theo ranh giới có đầu ra là một chuỗi các điểm có thứ tự . Chúng tôi giả sử
(1) rằng chúng ta đang làm việc với các ảnh nhị phân trong đó đối tượng và nền
các điểm được gắn nhãn tương ứng là 1 và 0 và (2) hình ảnh đó được đệm bằng một
đường viền 0 để loại bỏ khả năng đối tượng hợp nhất với hình ảnh
ranh giới. Để thuận tiện, chúng tôi giới hạn cuộc thảo luận ở các khu vực riêng lẻ. Cách tiếp cận là

được mở rộng đến nhiều vùng riêng biệt bằng cách xử lý các vùng riêng lẻ.
R ranh giới của nó, một thuật toán để tuân theo
Cho một vùng nhị phân hoặc
R,
der of hoặc ranh giới nhất định, bao gồm các bước sau:

1. Đặt điểm bắt đầu là điểm trên


b0, cùng, ngoài cùng bên trái † trong hình ảnh

được gắn nhãn 1. Ký hiệu là lángc0giềng phía tây của [xem Hình
b0 11.1(b)].

Rõ ràng, luôn
c0 luôn là một điểm nền. Xét 8 lân cận của
, bắt đầu và tiến
c0 hành theo chiều kim đồng hồ. Hãy biểu thị b1

b0 hàng xóm đầu tiên gặp phải có giá trị là 1 và đặt là điểm (nền)
c1 ngay trước

đó trong chuỗi. Lưu trữ loca- b0 b1 b1

các ý nghĩa và cách sử dụng ở Bước 5.


2. Cho b = b1 và c = c1 [xem Hình 11.1(c)].
b, 3. Giả sử 8 lân cận xuất phát và đi theo chiều kimcđồng hồ, ký hiệu là Tìm nhãn đầu tiên 1. n1, n2,

Á , n8. nk

c c
1 1 1 1 c0 b0 1 1 1 b 1 1 b 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
111 1 1 1 1 1 1 1 1 1 1 1 1 1 1

abcde
HÌNH 11.1 Minh họa một số bước đầu tiên trong thuật toán theo ranh giới.
điểm cần xử lý tiếp theo được dán nhãn màu đen, các điểm chưa được xử lý có màu xám,
và các điểm được thuật toán tìm thấy được gắn nhãn là các ô vuông màu xám.

† Như bạn sẽ thấy ở phần sau của chương này, điểm trên cùng, ngoài cùng bên trái của đường biên có ý nghĩa quan trọng

thuộc tính mà một đa giác gần đúng với đường biên có một đỉnh lồi tại vị trí đó. Ngoài ra,
hàng xóm bên trái và phía bắc của điểm được đảm bảo là điểm nền. Những đặc tính này làm cho nó
một điểm “tiêu chuẩn” tốt để bắt đầu các thuật toán theo ranh giới.
Machine Translated by Google

11.1 ■ Biểu diễn 797

4. Cho b = nk và c = nk-1 5. Lặp lại bước 3 và 4 .

cho đến khi b = b 0 và điểm biên tiếp theo được tìm thấy là b1 .
b
Chuỗi các điểm được tìm thấy khi thuật toán dừng tạo thành
tập hợp các điểm biên có thứ tự.

Lưu ý rằng cở Bước 4 luôn là điểm nền vì là điểm có giá trị 1 đầu
nk tiên
điểm được tìm thấy trong quá trình quét theo chiều kim đồng hồ. Thuật toán này đôi khi được gọi là

Thuật toán theo dõi ranh giới Moore sau Moore [1968]. Quy tắc dừng trong
Bước 5 của thuật toán thường được phát hiện không chính xác trong tài liệu như
dừng lại lần đầu tiên gặp lại.b0Như bạn sẽ thấy ngay sau đây, điều này
có thể dẫn đến kết quả sai lầm.

Hình 11.1 cho thấy một số bước đầu tiên của thuật toán theo ranh giới vừa được
thảo luận. Có thể dễ dàng xác minh rằng việc tiếp tục với quy trình này
sẽ mang lại ranh giới chính xác như trong Hình 11.1(e), có điểm là
thứ tự theo chiều kim đồng hồ.
Để kiểm tra sự cần thiết của quy tắc dừng như đã nêu ở Bước 5 của thuật toán,
hãy xem xét ranh giới trong Hình 11.2. Đoạn ở phía trên của
ranh giới có thể phát sinh, ví dụ, từ việc loại bỏ gai không hoàn toàn (xem Phần
9.5.8 liên quan đến cựa). Bắt đầu từ điểm trên cùng bên trái dẫn đến
các bước được hiển thị. Chúng ta thấy trong Hình 11.2(c) thuật toán đã quay trở lại
điểm bắt đầu. Nếu thủ tục bị dừng lại vì chúng ta đã đạt đến điểm bắt đầu
Xin nhắc lại, rõ ràng là phần còn lại của ranh giới sẽ không được tìm thấy.
Việc sử dụng quy tắc dừng ở Bước 5 cho phép thuật toán tiếp tục và đó là một
vấn đề đơn giản để chỉ ra rằng toàn bộ ranh giới trong Hình 11.2 sẽ được tìm thấy.
Thuật toán theo ranh giới hoạt động tốt như nhau nếu một vùng, đúng hơn là
hơn ranh giới của nó (như trong hình minh họa trước), được đưa ra. Nghĩa là, thủ
tục trích xuất ranh giới bên ngoài của một vùng nhị phân. Nếu mục tiêu là tìm
ranh giới của các lỗ trong một vùng (chúng được gọi là ranh giới bên trong của
vùng), một cách tiếp cận đơn giản là trích xuất các lỗ (xem Phần 9.5.9) và
coi chúng là các vùng có giá trị 1 trên nền 0. Áp dụng thuật toán theo ranh giới
cho các vùng này sẽ thu được ranh giới bên trong của
vùng ban đầu.
Chúng ta có thể phát biểu thuật toán một cách dễ dàng dựa trên việc làm theo một
ranh giới theo hướng ngược chiều kim đồng hồ. Trong thực tế, bạn sẽ gặp phải các
thuật toán được xây dựng trên giả định rằng các điểm biên được sắp xếp theo thứ tự đó.

1 c0 b0 c
1 1 1 1 1 b
1 1 1
1 1 1 1 1 1
111 1 1 1 1 1 1

abc
HÌNH 11.2 Minh họa một kết quả sai khi quy tắc dừng sao cho
theo ranh giới dừng lại khi gặp lại điểm bắt đầu. b0,
Machine Translated by Google

798 Chương 11 ■ Biểu diễn và mô tả

phương hướng. Chúng tôi sử dụng cả hai hướng thay thế cho nhau (nhưng nhất quán)
trong các phần tiếp theo để giúp bạn làm quen với cả hai cách tiếp cận.

11.1.2 Mã chuỗi

Mã chuỗi được sử dụng để thể hiện ranh giới bằng một chuỗi các đoạn đường thẳng được kết nối với độ

dài và hướng xác định. Thông thường, sự thể hiện này dựa trên khả năng kết nối 4 hoặc 8 của các phân

đoạn. Hướng của mỗi đoạn được mã hóa bằng cách sử dụng sơ đồ đánh số, như trong Hình 11.3. Mã giới

hạn được hình thành dưới dạng một chuỗi các số định hướng như vậy được gọi là mã chuỗi Freeman.

Hình ảnh kỹ thuật số thường được thu thập và xử lý ở định dạng lưới với khoảng
x-
cách bằng nhau theo hướng y và do đó, mã chuỗi có thể được tạo bằng cách tuân theo
một ranh giới theo chiều kim đồng hồ và gán hướng cho các đoạn kết nối mỗi cặp
điểm ảnh. Phương pháp này thường không được chấp nhận vì hai lý do chính: (1)
Chuỗi kết quả có xu hướng khá dài và (2) bất kỳ sự xáo trộn nhỏ nào dọc theo ranh
giới do nhiễu hoặc phân đoạn không hoàn hảo gây ra những thay đổi trong mã có thể
không chính xác. liên quan đến các đặc điểm hình dạng chính của ranh giới.

Một cách tiếp cận thường được sử dụng để tránh những vấn đề này là lấy mẫu lại
đường biên bằng cách chọn khoảng cách lưới lớn hơn, như Hình 11.4(a) cho thấy. Sau
đó, khi đường biên được đi qua, một điểm biên được gán cho mỗi nút của lưới lớn,
tùy thuộc vào độ gần của ranh giới ban đầu với nút đó, như trong Hình 11.4(b). Sau
đó, ranh giới được lấy mẫu lại thu được theo cách này có thể được biểu thị bằng mã
4 hoặc 8. Hình 11.4(c) cho thấy các điểm biên thô hơn được biểu thị bằng mã chuỗi
8 hướng. Việc chuyển đổi từ mã 8 sang mã 4 và ngược lại là một vấn đề đơn giản
(xem Bài toán 2.12 và 2.13).
Điểm bắt đầu trong Hình 11.4(c) là (tùy ý) ở điểm trên cùng, ngoài cùng bên trái của ranh giới, mang

lại mã chuỗi 0766 Á 12. Như có thể mong đợi, độ


chính xác của việc biểu diễn mã kết quả phụ thuộc vào khoảng cách của lưới lấy mẫu.

Mã chuỗi của một ranh giới phụ thuộc vào điểm bắt đầu. Tuy nhiên, mã có thể
được chuẩn hóa theo điểm bắt đầu bằng một thủ tục đơn giản: Chúng ta chỉ cần coi
mã chuỗi là một chuỗi tròn gồm các số phân hướng và xác định lại điểm bắt đầu sao
cho chuỗi số kết quả tạo thành một số nguyên. có độ lớn tối thiểu. Chúng ta cũng
có thể chuẩn hóa chuẩn cho phép quay (trong các góc là bội số nguyên của các hướng
trong Hình 11.3) bằng cách sử dụng sai phân đầu tiên của mã chuỗi thay vì mã

bụng 1 2
3 1
HÌNH 11.3 Số
hướng cho
(a) mã chuỗi 4
2 0 4 0
hướng và (b) mã
chuỗi 8 hướng.

5 7
3 6
Machine Translated by Google

11.1 ■ Biểu diễn 799

0 abc
2 7
HÌNH 11.4 (a)
1 6 Ranh giới kỹ
thuật số với lưới
2 6
lấy mẫu lại được
1 6 xếp chồng lên
nhau. (b) Kết
2 6
quả lấy mẫu
6 lại. (c) Ranh giới
3
mã hóa chuỗi 8
3 5 4
hướng .

chính nó. Sự khác biệt này có được bằng cách đếm số lần thay đổi hướng (theo hướng ngược chiều kim

đồng hồ trong Hình 11.3) để phân tách hai phần tử liền kề của mã. Ví dụ: chênh lệch đầu tiên của mã

chuỗi 4 hướng 10103322 là 3133030. Nếu chúng ta coi mã là một chuỗi vòng tròn để chuẩn hóa theo điểm

bắt đầu thì phần tử đầu tiên của sai phân được tính bằng cách sử dụng phép chuyển đổi giữa thành

phần cuối cùng và thành phần đầu tiên của chuỗi. Ở đây, kết quả là 33133030. Có thể đạt được việc

chuẩn hóa kích thước bằng cách thay đổi kích thước của lưới lấy mẫu lại.

Những sự chuẩn hóa này chỉ chính xác nếu bản thân các ranh giới không thay đổi theo phép quay

(một lần nữa, trong các góc là bội số nguyên của các hướng trong Hình 11.3) và sự thay đổi tỷ lệ,

điều này hiếm khi xảy ra trong thực tế. Ví dụ, cùng một đối tượng được số hóa theo hai hướng khác

nhau sẽ có hình dạng đường biên khác nhau nói chung, với mức độ khác nhau tỷ lệ thuận với độ phân

giải hình ảnh. Hiệu ứng này có thể được giảm bớt bằng cách chọn các phần tử chuỗi dài tỷ lệ với kích

thước của hình ảnh. khoảng cách giữa các điểm ảnh trong ảnh được số hóa và/hoặc bằng cách định hướng

lưới lấy mẫu lại dọc theo các trục chính của đối tượng được mã hóa, như đã thảo luận trong Phần

11.2.2, hoặc dọc theo các trục riêng của nó, như đã thảo luận trong Phần 11.4.

VÍ DỤ 11.1: Mã chuỗi
■ Hình 11.5(a) hiển thị một hình ảnh thang độ xám 570 * 570, 8-bit của một nét tròn
Freeman và một số
được nhúng trong các mảnh gương nhỏ. Mục tiêu của ví dụ này là thu được mã chuỗi
biến thể của nó.
Freeman, số nguyên có độ lớn tối thiểu và sự khác biệt đầu tiên của ranh giới bên
ngoài của vật thể lớn nhất trong Hình 11.5(a).
Bởi vì đối tượng quan tâm được nhúng trong các mảnh nhỏ nên việc trích xuất ranh giới của nó sẽ dẫn

đến một đường cong nhiễu không mô tả được hình dạng chung của đối tượng. Làm mịn là một quá trình

thường xuyên khi làm việc với các ranh giới ồn ào. Hình 11.5(b) hiển thị ảnh gốc được làm mịn bằng

mặt nạ trung bình có kích thước và Hình 11.5(c) là kết quả của thresh-9 * 9, làm cũ hình ảnh này

bằng ngưỡng tổng thể thu được bằng phương (một


pháp của Otsu. Lưu ý rằng số vùng đã giảm xuống còn hai

trong số đó là dấu chấm), giúp đơn giản hóa đáng kể vấn đề.

Hình 11.5(d) là ranh giới bên ngoài của vùng lớn nhất trong Hình 11.5(c).

Việc lấy trực tiếp mã chuỗi của ranh giới này sẽ dẫn đến một chuỗi dài với các biến thể nhỏ không

đại diện cho hình dạng của


Machine Translated by Google

800 Chương 11 ■ Biểu diễn và mô tả

abcdef
HÌNH 11.5 (a) Ảnh nhiễu. (b) Hình ảnh được làm mịn bằng mặt nạ trung bình 9 * 9 . (c) Ảnh được làm mịn, lấy ngưỡng bằng phương pháp Otsu. (d)

Ranh giới ngoài dài nhất của (c). (e) Ranh giới lấy mẫu phụ (các điểm được hiển thị phóng to cho rõ ràng). (f) Các điểm nối từ (e).

ranh giới. Như đã đề cập trước đó trong phần này, thông thường phải lấy mẫu lại một ranh
giới trước khi lấy mã chuỗi của nó để giảm tính biến thiên.
Hình 11.5(e) là kết quả của việc lấy mẫu lại đường biên trong lưới với các nút cách nhau
50 pixel (khoảng 10% chiều rộng hình ảnh) và Hình 11.5(f) là kết quả của việc nối các
đỉnh kết quả bằng các đường thẳng. Phép tính gần đúng đơn giản hơn này vẫn giữ được
những đặc điểm chính của ranh giới ban đầu.
Mã chuỗi Freeman 8 hướng của ranh giới đơn giản hóa là

0 0 0 0 6 0 6 6 6 6 6 6 6 6 4 4 4 4 4 4 2 4 2 2 2 2 2 0 2 2 0 2

Điểm bắt đầu của ranh giới là tọa độ (2, 5) trong lưới mẫu phụ.
Đây là điểm trên cùng bên trái trong Hình 11.5(f). Số nguyên có độ lớn tối thiểu của mã
xảy ra trong trường hợp này giống với mã chuỗi:

0 0 0 0 6 0 6 6 6 6 6 6 6 6 4 4 4 4 4 4 2 4 2 2 2 2 2 0 2 2 0 2

Sự khác biệt đầu tiên của một trong hai mã là

0 0 0 6 2 6 0 0 0 0 0 0 0 6 0 0 0 0 0 6 2 6 0 0 0 0 6 2 0 6 2 6
Machine Translated by Google

11.1 ■ Biểu diễn 801

Việc sử dụng bất kỳ mã nào trong số này để thể hiện ranh giới sẽ làm giảm đáng kể lượng dữ liệu cần thiết để lưu

trữ ranh giới. Ngoài ra, làm việc với mã số cung cấp một cách thống nhất để phân tích hình dạng của đường biên, như

chúng ta thảo luận trong Phần 11.2. Cuối cùng, hãy nhớ rằng ranh giới được lấy mẫu con có thể được phục hồi từ bất kỳ

mã nào trước đó. ■

11.1.3 Xấp xỉ đa giác sử dụng đa giác có chu vi tối thiểu

Một ranh giới kỹ thuật số có thể được tính gần đúng với độ chính xác tùy ý bằng một đa giác.
Đối với một ranh giới khép kín, phép tính gần đúng trở nên chính xác khi số đoạn của đa
giác bằng số điểm trong biên sao cho mỗi cặp điểm liền kề xác định một đoạn của đa giác.
Mục tiêu của phép tính gần đúng đa giác là nắm bắt được bản chất của hình dạng trong một
giới hạn nhất định bằng cách sử dụng số đoạn ít nhất có thể. Vấn đề này nhìn chung không
hề đơn giản và có thể trở thành một cuộc tìm kiếm lặp đi lặp lại tốn nhiều thời gian. Tuy
nhiên, các kỹ thuật xấp xỉ có độ phức tạp vừa phải lại rất phù hợp cho các tác vụ xử lý
ảnh. Trong số này, một trong những cách mạnh mẽ nhất là biểu diễn ranh giới bằng đa giác có
chu vi tối thiểu (MPP), như được định nghĩa trong phần thảo luận sau.

Sự thành lập

Một cách tiếp cận hấp dẫn trực quan để tạo ra thuật toán tính toán MPP là bao quanh một
ranh giới [Hình. 11.6(a)] bằng một tập hợp các ô được nối, như trong Hình 11.6(b). Hãy coi
ranh giới như một sợi dây cao su. Khi được phép co lại, dây cao su sẽ bị hạn chế bởi thành
trong và thành ngoài của

abc
HÌNH 11.6 (a) Một ranh giới đối tượng (đường cong màu đen). (b) Ranh giới được bao bọc bởi các ô (màu xám). (c)
Đa giác có chu vi tối thiểu thu được bằng cách cho phép ranh giới co lại. Các đỉnh của đa giác được tạo bởi các
góc của các bức tường bên trong và bên ngoài của vùng màu xám.
Machine Translated by Google

802 Chương 11 ■ Biểu diễn và mô tả

vùng giới hạn được xác định bởi các ô. Cuối cùng, sự thu hẹp này tạo ra
hình dạng của một đa giác có chu vi tối thiểu (đối với cách sắp xếp hình học
này) bao quanh vùng được bao quanh bởi dải ô, như
Hình 11.6(c) cho thấy. Lưu ý trong hình này là tất cả các đỉnh của đồng xu MPP trùng với các
góc của bức tường bên trong hoặc bức tường bên ngoài.

Kích thước của các ô xác định độ chính xác của phép tính gần đúng đa giác.
Trong giới hạn, nếu kích thước của mỗi ô (hình vuông) tương ứng với một pixel trong
ranh giới, sai số trong mỗi ô giữa ranh giới và xấp xỉ MPP- 22d, tối đa sẽ là d

đâu là khoảng cách tối thiểu có thể có giữa các


pixel (tức là khoảng cách giữa các pixel được thiết lập bởi độ phân giải của
ranh giới được lấy mẫu ban đầu). Lỗi này có thể giảm đi một nửa bằng cách buộc
mỗi ô trong phép tính gần đúng đa giác được căn giữa trên ô tương ứng của nó
pixel trong ranh giới ban đầu. Mục tiêu là sử dụng ô lớn nhất có thể
kích thước có thể chấp nhận được trong một ứng dụng nhất định, do đó tạo ra MPP với ít nhất
số đỉnh. Mục tiêu của chúng ta trong phần này là xây dựng một quy trình
để tìm các đỉnh MPP này.
Phương pháp tế bào vừa được mô tả làm giảm hình dạng của đối tượng được bao
quanh bởi ranh giới ban đầu thành khu vực được bao quanh bởi bức tường màu xám trong
Hình 11.6(b). Hình 11.7(a) cho thấy hình này có màu xám đậm. Chúng ta thấy rằng ranh giới của nó

gồm 4 đoạn thẳng nối nhau. Giả sử chúng ta đi qua cái này
ranh giới theo hướng ngược chiều kim đồng hồ . Mỗi ngã rẽ gặp phải trong quá trình đi qua
sẽ là một đỉnh lồi hoặc lõm , với góc của đỉnh là một
góc bên trong của ranh giới 4 liên kết. Các đỉnh lồi và lõm là

abc
HÌNH 11.7 (a) Vùng (màu xám đậm) là kết quả của việc bao quanh ranh giới ban đầu bằng các ô (xem Hình 11.6).
(b) Các đỉnh lồi (chấm trắng) và lõm (chấm đen) thu được bằng cách đi theo ranh giới của vùng tối
vùng màu xám theo hướng ngược chiều kim đồng hồ. (c) Các đỉnh lõm (các chấm đen) dịch chuyển về phía đường chéo của chúng
vị trí gương ở bức tường bên ngoài của vùng giới hạn; các đỉnh lồi không thay đổi. MPP
(ranh giới màu đen) được xếp chồng lên nhau để tham khảo.
Machine Translated by Google

11.1 ■ Biểu diễn 803


Đỉnh lồi là
được hiển thị tương ứng dưới dạng các chấm trắng và đen trong Hình 11.7(b). Lưu ý rằng những
điểm trung tâm của một bộ ba
các đỉnh là các đỉnh của thành trong của vùng giới hạn màu xám nhạt trong Hình. của các điểm xác định một
góc trong phạm vi
11.7(b), và mỗi đỉnh lõm (đen) trong vùng màu xám đậm đều có một đỉnh “gương”
0° 6 u 6 180°; tương tự,
tương ứng trong bức tường màu xám nhạt, nằm theo đường chéo đối diện với các góc của một đỉnh lõm
nằm trong khoảng
đỉnh. Hình 11.7(c) hiển thị gương của tất cả các đỉnh lõm, với MPP 180° 6 u 6 360°. MỘT

từ Hình 11.6(c) được xếp chồng lên nhau để tham khảo. Chúng ta thấy rằng các đỉnh của góc 180° xác định một
đỉnh suy biến (a
MPP trùng với các đỉnh lồi ở thành trong (các chấm trắng) hoặc với
đường thẳng) có thể
gương của các đỉnh lõm (chấm đen) ở bức tường bên ngoài. Một chút suy nghĩ không phải là đỉnh MPP.

Các góc bằng 0° hoặc


sẽ tiết lộ rằng chỉ các đỉnh lồi của bức tường bên trong và các đỉnh lõm của
360° liên quan đến việc truy lại một

tường ngoài có thể là các đỉnh của MPP. Vì vậy, thuật toán của chúng ta cần tập trung chú ý đường dẫn, điều kiện không hợp lệ
trong cuộc thảo luận này.
chỉ trên các đỉnh này.

Thuật toán MPP


Tập hợp các ô bao quanh ranh giới kỹ thuật số, được mô tả trong các đoạn biểu
đồ trước, được gọi là phức hợp tế bào. Chúng tôi giả định rằng các ranh giới
đang được xem xét không tự giao nhau, điều này dẫn đến các kết nối di động đơn giản
phức hợp. Dựa trên những giả định này, và để trắng và đen (W) (B)
lần lượt biểu thị các đỉnh lồi và lõm gương , chúng tôi nêu các nhận xét sau:

1. MPP được giới hạn bởi một tổ hợp di động được kết nối đơn giản không tự
giao nhau.
W không phải mọi đỉnh của
2. Mọi đỉnh lồi của MPP đều là đỉnh, nhưng W
một ranh giới là một đỉnh của MPP.
3. Mọi đỉnh lõm đối xứng của MPP đều là đỉnh, nhưng không phải mọi B
B

đỉnh của đường biên là đỉnh của MPP.


4. Tất cảB các đỉnh đều nằm trên hoặc ngoài MPP và tất cả các đỉnh
W đều nằm trên hoặc trong-
đứng về phía MPP.

5. Đỉnh trên cùng, ngoài cùng bên trái trong dãy các đỉnh chứa trong một
W
phức hợp tế bào luôn là một đỉnh của MPP.

Những khẳng định này có thể được chứng minh một cách hình thức (Sklansky và cộng sự [1972], Sloboda và cộng sự.

[1998], và Klette và Rosenfeld [2004]). Tuy nhiên, tính đúng đắn của chúng là hiển nhiên đối với

mục đích của chúng ta (Hình 11.7), vì vậy chúng ta không tập trung vào các chứng minh ở đây. không giống

các góc của các đỉnh của vùng màu xám đậm trong Hình 11.7, các góc được duy
trì bởi các đỉnh của MPP không nhất thiết phải là bội số của 90°.
Trong phần thảo luận sau đây, chúng ta sẽ cần tính toán hướng của
bộ ba điểm. Xét bộ ba điểm và đặt coordi-a = (x 1, y1), b = (x2, (a,
y2), b, c),

Nate của những điểm này là và nếu chúng ta c = (x3, y3 ).

sắp xếp các điểm này thành các hàng của ma trận

x2 y2 1
(11.1-1)
x3 y3 1 S
A = C x1 y1 1

thì từ phân tích ma trận cơ bản sẽ suy ra rằng


Machine Translated by Google

804 Chương 11 ■ Biểu diễn và mô tả

= 0 nếu các điểm thẳng hàng (11.1-2)

det(A) = c 7 06 nếu (a,


0 nếu b,b,c)c)làlàmột
(a, dãy dãy
theongược
chiều chiều kim hồ
kim đồng đồng hồ

trong đó det(A) là định thức của A. Theo phương trình này, chuyển động trong một
hướng ngược chiều kim đồng hồ hoặc theo chiều kim đồng hồ đối với hệ tọa độ thuận
Giả sử tọa độ tay phải (xem chú thích ở Phần 2.4.2). Ví dụ: sử dụng hình ảnh này
hệ thống được xác
định trong Hình 2.18(b),
hệ tọa độ (Hình 2.18), trong đó gốc tọa độ ở trên cùng bên trái, dương
khi đi qua ranh giới của một trục x kéo dài theo chiều dọc xuống dưới và trục y dương kéo dài theo chiều ngang
đa giác theo hướng ngược
chiều kim đồng hồ, tất cả a = counter-det(A)
ở bên phải, trình tự và nằm trong (3, 4), b = (2,
7 0 3), c = (3, 2)
chỉ vào bên phải của theo chiều kim đồng hồ và sẽ thuận khi được thay thế vào phương trình. (11.1-2).
hướng di chuyển là

bên ngoài đa giác. Tất cả tiện hơn khi mô tả thuật toán để xác định
chỉ vào bên trái của
hướng di chuyển là
sgn(a, b, c) K det(A) (11.1-3)
bên trong đa giác.

sao cho theo


sgn(a,
trìnhb,
tự c) 7 0chiều
ngược sgn(a, b, c)
kim đồng hồ,6đối
0 với một
theo chiều kim đồng hồ và khi các điểm
sgn(a, b, c)thẳng
= 0 hàng. Geo-sgn(a, b, c) 7 0 về mặt đo
rằng điểm nằmlường,
ở phía
chỉ
dương
ra của c
c
(a, b) (tức là nằm ở phía dương của đường thẳng đi qua cặp điểm và ). Nếu b Một

sgn(a, 6 0, điểm nằm ở phía âm của c


c) b, đường thẳng đó. Các phương trình (11.1-2) và
(11.1-3) cho kết quả tương tự nếu dãy (c, a, b) hoặc

(b, c, a) được sử dụng vì hướng di chuyển trong chuỗi giống như


Tuy (a,b,c).
nhiên, cách giải thích hình học lại khác. Ví dụ,
sgn(c, a, b) 7 0 chỉ ra rằng điểm đó nằm ởb phía dương của đường thẳng
c và Một.
thông qua các điểm
Để chuẩn bị dữ liệu cho thuật toán MPP, chúng tôi tạo một danh sách có các hàng là
tọa độ của mỗi đỉnh và một phần tử bổ sung biểu thị liệu
W B.quan trọng là các đỉnh lõm phải được phản chiếu, như
đỉnh là hoặc Điều
trong Hình 11.7(c), các đỉnh có thứ tự tuần tự,† và đỉnh đầu tiên
W này.
là đỉnh trên cùng bên trái mà chúng ta biết từ thuộc tính 5 là đỉnh của MPP. Hãy biểu thị đỉnh
V0là
Chúng ta giả sử rằng các đỉnh

sắp xếp theo hướng ngược chiều kim đồng hồ. Thuật toán tìm MPP
(WC)
dụng hai điểm “trình thu thập thông tin”: trình thu thập thông tin màu trắng và trình thu thập thông tin màu đen.
(BC) sử
nhà vệ sinh

bò dọc theo các đỉnh BC(W)


lồi và
cácbò
đỉnh
dọclõm
theo
đối xứng. Hai điểm thu thập thông tin (B)
này, đỉnh MPP cuối cùng được tìm thấy và đỉnh
đang được kiểm tra là tất cả những gì cần thiết để thực hiện thủ tục.
Thuật toán bắt đầu bằng cách đặt WC = BC = V0 V0 (hãy nhớ rằng đó là MPP-
VLhãy biểu thị đỉnh MPP cuối cùng
đỉnh). Sau đó, tại bất kỳ bước nào trong thuật toán,
Vk thị đỉnh hiện tại đang được kiểm tra. Một trong ba điều kiện có thể tồn tại
được tìm thấy và biểu
giữa VL, Vk,
và hai điểm thu thập thông tin:

(Một) Vk nằm về phía dương của đường thẳng qua cặp sgn(VL, WC, (VL, WC); đó là,
Vk) 7 0.
(b) Vk nằm về phía âm của đường thẳng dù là cặp hoặc thẳng hàng (VL, WC)
với nó; đó là Vk
sgn(VL, WC, Vk) … 0. Đồng thời, nói dối theo hướng tích cực

† Các đỉnh của một ranh giới có thể được sắp xếp bằng cách theo dõi ranh giới bằng cách sử dụng thuật toán de-
được ghi ở Mục 11.1.1.
Machine Translated by Google

11.1 ■ Biểu diễn 805

cạnh của đường thẳng đi qua hoặc


(VL, thẳng hàng với nó; đó là,
BC) sgn(VL,
BC, Vk) Ú 0.
(c) Vk nằm ở phía âm của đường mặc dù cặp đó là, (VL, BC);
sgn(VL, BC, Vk) 6 0.

sau đó
Nếu điều kiện (a) đúng thì đỉnh MPP tiếp theo làđặt
và WC,
chúng
VL ta
= WC;
chúng tôi khởi tạo lại thuật toán bằng cách đặt WC = BC = VL, và tiếp tục với
đỉnh tiếp theo sau VL.

Vk nó sẽ trở thành đỉnh MPP ứng viên . Trong trường hợp này, chúng tôi
Nếu điều kiện (b) được thoả mãn,
bộ BC = Vk. W
Vk Vk lồi (tức là nó là một đỉnh); ngược lại chúng ta đặt nếu WC =
Sau đó chúng ta tiếp tục với đỉnh tiếp theo trong danh sách.

sau đó
Nếu điều kiện (c) đúng thì đỉnh MPP tiếp theo là
BC và
VL ta
= BC;
đặt
chúng tôi khởi tạo lại thuật toán bằng cách đặt WC = BC = VL và tiếp tục với

đỉnh tiếp theo sau VL.

Thuật toán kết thúc khi nó quay lại đỉnh đầu tiên và do đó
đã xử lý tất cả các đỉnh trong đa giác. Các đỉnh được tìmVLthấy bởi thuật toán là các
đỉnh của MPP. Thuật toán này đã được chứng minh
tìm tất cả các đỉnh MPP của một đa giác được bao bọc bởi một phức hợp tế bào được kết
nối đơn giản (Sloboda và cộng sự [1998]; Klette và Rosenfeld [2004]).

■ Một ví dụ hướng dẫn sẽ giúp làm rõ các khái niệm trước đó. Hãy xem xét VÍ DỤ 11.2:
Minh họa của
các đỉnh trong Hình 11.7(c). Trong hệ tọa độ hình ảnh của chúng tôi, điểm trên cùng bên trái của
Thuật toán MPP.
lưới nằm ở tọa độ (0, 0). Giả sử rằng các phân chia lưới là thống nhất, đầu tiên
một số hàng của danh sách đỉnh (ngược chiều kim đồng hồ) là:

V0 (1, 4) W

V1 (2, 3) B

V2 (3, 3) W

V3 (3, 2) B

V4 (4, 1) W

V5 (7, 1) W

V6 (8, 2) B

V7 (9, 2) B

Phần tử đầu tiên của danh sách luôn là MPP đầu tiên của chúng tôi, vì vậy chúng tôi bắt đầu bằng cách cho phép

WC = BC = V = VL0 = (1, 4). Đỉnh tiếp theo là V1 = (2, 3). Đánh giá các
Hàm sgn cho sgn(VL, WC, V 1) = 0 và sgn(VL, BC, V1 ) = 0, do đó điều kiện

(b) giữ. Ta đặt BC = V1 = (2, 3) V1 (lõm).


là một đỉnh B vì nhà vệ sinh
nốt Rê-

nguồn điện không thay đổi. Ở giai đoạn này, WC của trình thu thập thông tin ở (1, 4), trình thu thập BC
thông tin ở (2, 3)

và vẫn
VLở (1, 4) vì không tìm thấy đỉnh MPP mới.
Tiếp theo, chúng ta xét V2 = (3, 3). Giá trị của hàm sgn là:
sgn(VL, WC, V 2) = 0, và sgn(VL, BC, V2 ) = 1, do đó điều kiện (b) của thuật toán

VW đặt
lại. Vì là đỉnh (lồi) nên ta 2 giữ WC = V2 = (3, 3). Tại đây
Và vẫn không thay
giai đoạn, trình thu thập thông tin đang ở WC = (3, 3) BC = (2, 3); VL
đổi.
Machine Translated by Google

806 Chương 11 ■ Biểu diễn và mô tả

Đỉnh tiếp theo là Các giá trị


V3của
= (3,
hàm 2).
sgn là

sgn(VL, WC, V 3) = -2 và sgn(VL, BC, V3 ) = 0, do đó điều kiện (b) vẫn được giữ nguyên.
một đỉnh nên V3 B Vì
chúng là cập nhật trìnhBC
tôi thu= thập
(3, thông
2). tin màu đen, WC trình thu thập thông tin
vẫn không thay đổi, VL cũng vậy .
Đỉnh tiếp theo là và và chúng WC,
V4 = (4, 1) sgn(VL, ta có
V4 ) = -3
sgn(VL, BC, V4) = 0 vậy điều kiện (b) lại được giữ nguyên. Vì là ngườiWCda trắng
BC = (4, 1). đỉnh, Trình thu thập thông tin màu đen vẫn ở
chúng tôi cập nhật trình thu thập thông tin màu trắng, V4

VLquay lại (1, 4).


(3, 2) và vẫn
Đỉnh tiếp theo là V và 5 VL = WC = (4, 1).
= (7, 1) sgn(VL, WC, V5 ) = 9, nên điều kiện (a)
giữ nguyên và chúng tôi thiết lập Bởi vì một đỉnh MPP mới đã được tìm thấy, chúng tôi

khởi động lại thuật toán bằng cách đặt WC = BC = VL và bắt đầu lại với
VL. Đỉnh tiếp theo là đỉnh sau đỉnh mới được tìm thấy. Đỉnh tiếp theo là V5 , chúng , Vì thế

ta thăm lại nó.


Với và Vcác
5 =giá
(7,trị
1) mới của VL, WC, BC, ta thu được Và

sgn(VL, WC, V 5) = 0 V5 sgn(VL, BC, V5 ) = 0, do đó điều kiện (b) đúng. Vì vậy-và WC =

= (7, 1) ta đặt V5 W vì là một đỉnh


Đỉnh tiếp theo là V và 6 VL = WC = (7, 1)
= (8, 2) sgn(VL, WC, V6 ) = 3, nên điều kiện (a)
nắm giữ. Vì vậy, chúng ta cho phép và khởi tạo lại thuật toán bằng cách thiết lập

WC = BC = VL.
Do việc khởi tạo lại tại (7, 1) nên đỉnh tiếp theo được xem xét lại là
V6 = (8, 2). Tiếp tục như trên với đỉnh này và các đỉnh còn lại mang lại
B
các đỉnh MPP trong Hình 11.7(c). Như đã đề cập trước đó, các đỉnh được phản chiếu
tại (2, 3), (3, 2) và ở phía dưới bên phải tại (13, 10), trong khi nằm trên biên của
MPP, là thẳng hàng và do đó không được coi là đỉnh của
MPP. Một cách thích hợp, thuật toán đã không phát hiện ra chúng như vậy. ■

VÍ DỤ 11.3: ■ Hình 11.8(a) là ảnh nhị


566 phân
* 566của một chiếc lá phong và Hình 11.8(b)
Áp dụng
là ranh giới 8 kết nối của nó. Trình tự trong hình. 11.8(c) đến (i) cho thấy
Thuật toán MPP.
Biểu diễn MMP của ranh giới này bằng cách sử dụng các ô phức hợp ô vuông của
kích thước lần lượt là 2, 3, 4, 6, 8, 16 và 32 (các đỉnh trong mỗi hình được nối bằng
các đường thẳng để tạo thành một ranh giới khép kín). Lá có hai phần chính
đặc điểm: một thân và ba thùy chính. Thân cây bắt đầu bị mất do kích thước tế bào
lớn hơn 4 * 4, như Hình 11.8(f) cho thấy. Ba thùy chính được bảo tồn
khá tốt, ngay cả đối với kích thước ô 16 * 16, như Hình 11.8(h) cho thấy. Tuy nhiên,
cái này
chúng ta thấy trong Hình 11.8(i) rằng khi kích thước ô tăng lên 32 * 32

nét đặc trưng gần như đã bị mất đi.


Số điểm trong ranh giới ban đầu [Hình. 11.8(b)] là 1900.
số đỉnh trong hình. 11.8(c) đến (i) là 206, 160, 127, 92, 66, 32 và
13, tương ứng. Hình 11.8(e), có 127 đỉnh, giữ lại tất cả các thành phần chính
các đặc điểm của ranh giới ban đầu trong khi đạt được mức giảm dữ liệu hơn
90%. Vì vậy, ở đây chúng ta thấy một lợi thế đáng kể của MMP trong việc đại diện cho một
ranh giới. Một lợi thế quan trọng khác là MPP thực hiện ranh giới
làm mịn. Như đã giải thích ở phần trước, đây là yêu cầu thông thường
khi biểu diễn ranh giới bằng mã chuỗi. ■
Machine Translated by Google

11.1 ■ Biểu diễn 807

abcdefghi

HÌNH 11.8 (a)

Ảnh nhị phân 566

* 566 . (b) ranh

giới 8 kết nối. (c)

đến (i), MMP

thu được bằng cách


sử dụng các ô vuông

có kích thước lần lượt


là 2, 3, 4, 6, 8, 16 và

32 (các đỉnh

được nối bằng các


đường thẳng để

hiển thị).

Số điểm biên trong

(b) là 1900. Số đỉnh

trong (c) đến (i) lần


lượt là 206,

160, 127, 92, 66,

32 và 13.

11.1.4 Các phương pháp xấp xỉ đa giác khác Đôi khi, các

phương pháp tiếp cận đơn giản hơn về mặt khái niệm so với thuật toán MPP đã thảo
luận trong phần trước có thể được sử dụng cho các xấp xỉ đa giác. Trong phần
này, chúng ta thảo luận về hai cách tiếp cận như vậy.

Các kỹ thuật hợp nhất

Các kỹ thuật hợp nhất dựa trên sai số trung bình hoặc các tiêu chí khác đã được
áp dụng cho bài toán xấp xỉ đa giác. Một cách tiếp cận là hợp nhất các điểm dọc
theo một ranh giới cho đến khi đường sai số bình phương nhỏ nhất của các điểm
được hợp nhất vượt quá ngưỡng đặt trước. Khi điều kiện này xảy ra, các tham số
của đường được lưu trữ, lỗi được đặt thành 0 và quy trình được lặp lại, hợp nhất
các điểm mới dọc theo đường biên cho đến khi lỗi lại vượt quá ngưỡng. Khi kết
thúc quy trình, giao điểm của các đoạn thẳng liền kề tạo thành các đỉnh của đa
giác. Một trong những khó khăn chính của phương pháp này là các đỉnh trong phép
tính gần đúng thu được không phải lúc nào cũng tương ứng với các điểm uốn (chẳng
hạn như các góc) trong ranh giới ban đầu, bởi vì một đường thẳng mới không được bắt đầu.
Machine Translated by Google

808 Chương 11 ■ Biểu diễn và mô tả

cho đến khi vượt quá ngưỡng lỗi. Ví dụ: nếu một đường thẳng dài đang được
theo dõi và nó rẽ vào một góc, một số (tùy thuộc vào ngưỡng) các điểm qua góc
sẽ được hấp thụ trước khi vượt quá ngưỡng.
Tuy nhiên, việc chia tách (sẽ thảo luận tiếp theo) cùng với việc hợp nhất có thể được sử dụng để giảm

bớt khó khăn này.

Kỹ thuật phân tách Một

cách tiếp cận để phân tách phân đoạn ranh giới là chia nhỏ một phân đoạn
liên tiếp thành hai phần cho đến khi thỏa mãn tiêu chí xác định. Ví dụ: yêu
cầu có thể là khoảng cách vuông góc tối đa từ một đoạn ranh giới đến đường
nối hai điểm cuối của nó không vượt quá ngưỡng đặt trước. Nếu đúng như vậy,
điểm có khoảng cách lớn nhất so với đường thẳng sẽ trở thành một đỉnh, do đó
chia đoạn ban đầu thành hai đoạn con.
Cách tiếp cận này có ưu điểm là tìm kiếm những điểm uốn nổi bật. Đối với một
ranh giới khép kín, điểm xuất phát tốt nhất thường là hai điểm xa nhất trong
ranh giới. Ví dụ, Hình 11.9(a) hiển thị một ranh giới đối tượng và Hình
11.9(b) hiển thị một phần nhỏ của ranh giới này về các điểm xa nhất của nó.
c xa nhất (về khoảng cách vuông góc) từ đoạn ranh giới trên cùng đến đường
Điểm được đánh dấu là điểm

thẳng ab. d Tương tự, điểm là điểm xa nhất trong đoạn dưới thấy
cùng.kết
Hình
quả11.9(c)
của việc
chosử dụng quy trình

phân tách với ngưỡng bằng 0,25 lần chiều dài đường thẳng Vì không có điểm nào trong các đoạn ranh
ab.
giới mới có khoảng cách vuông góc (đến đoạn đường thẳng tương ứng của nó) vượt quá giá trị này

ngưỡng, quy trình kết thúc với đa giác trong Hình 11.9(d).

11.1.5 Chữ ký Chữ

ký là biểu diễn chức năng 1-D của ranh giới và có thể được tạo theo nhiều
cách khác nhau. Một trong những cách đơn giản nhất là vẽ khoảng cách từ cent-
troid đến đường biên dưới dạng hàm của góc, như minh họa trong Hình 11.10.
Tuy nhiên, bất kể chữ ký được tạo ra như thế nào, ý tưởng cơ bản là rút gọn
biểu diễn ranh giới thành hàm 1-D có lẽ dễ mô tả hơn ranh giới 2-D ban đầu.

A c
Một

B C D

HÌNH 11.9 (a) Ranh

giới ban đầu. (b)

Ranh giới được d b


chia thành các đoạn
dựa trên điểm cực

trị

c c
Một Một

điểm. (c) Nối các đỉnh.


(d) Kết quả

đa giác.

d b d b
Machine Translated by Google

11.1 ■ Biểu diễn 809

bụng

HÌNH 11.10
r r
bạn
Chữ ký khoảng
bạn

cách so với góc.


Trong (a) r(u) là
không thay đổi.

Ở (b), chữ ký

MỘT MỘT bao gồm

sự lặp lại của


r(u) r(u) mẫu
r(u) = Một giây u vì
0 … u … p>4 Và
2A

MỘT MỘT
r(u) = A csc u vì
p>4 6 u … p>2.

P P 3p 5p 3p P P 3p 5p 3p
0
7 giờ tối

2p 0
7 giờ tối
P P 2p
4 2 4 4 2 4 4 2 4 4 2 4
bạn bạn

Các chữ ký được tạo ra theo cách tiếp cận vừa được mô tả là bất biến đối với việc dịch
thuật, nhưng chúng phụ thuộc vào phép quay và chia tỷ lệ. Bình thường hóa với sự tôn trọng
để xoay có thể đạt được bằng cách tìm cách chọn cùng một điểm bắt đầu
để tạo chữ ký, bất kể hướng của hình dạng. Một cách để làm
Điều tương tự là chọn điểm bắt đầu là điểm xa tâm nhất, giả sử rằng điểm này là duy nhất
cho mỗi hình dạng quan tâm. Một cách khác là chọn
điểm trên trục riêng (xem Phần 11.4) cách xa tâm nhất.
Phương pháp này yêu cầu tính toán nhiều hơn nhưng chắc chắn hơn vì hướng của trục riêng
được xác định bằng cách sử dụng tất cả các điểm đường viền. Còn nữa
Cách là lấy mã chuỗi của ranh giới và sau đó sử dụng cách tiếp cận được thảo luận trong
Phần 11.1.2, giả sử rằng mã hóa đủ thô để phép quay không ảnh hưởng đến tính tuần hoàn
của nó.
Dựa trên các giả định về tính đồng nhất trong tỷ lệ đối với cả hai trục,
và việc lấy mẫu đó được thực hiện ở các khoảng thời gian
bạn, bằng nhau khi thay đổi kích

thước của hình dạng dẫn đến thay đổi giá trị biên độ của chữ ký tương ứng. Một
Cách bình thường hóa điều này là mở rộng quy mô tất cả các hàm sao cho chúng luôn trải rộng trên phạm vi

cùng một phạm vi giá trị, ví dụ: [0, 1]. Ưu điểm chính của phương pháp này là đơn giản,
nhưng nó có nhược điểm nghiêm trọng là phải mở rộng toàn bộ
hàm chỉ phụ thuộc vào hai giá trị: cực tiểu và cực đại. Nếu
hình dạng bị nhiễu, sự phụ thuộc này có thể là nguồn gây ra lỗi đáng kể từ đối tượng này
sang đối tượng khác. Một cách tiếp cận chắc chắn hơn (nhưng cũng đòi hỏi nhiều tính toán
hơn) là chia mỗi mẫu cho phương sai của chữ ký, giả sử rằng
phương sai không bằng 0—như trong trường hợp của Hình 11.10(a)—hoặc quá nhỏ đến mức gây
ra những khó khăn trong tính toán. Việc sử dụng phương sai mang lại tỷ lệ thay đổi
hệ số tỷ lệ nghịch với những thay đổi về kích thước và hoạt động giống như điều khiển
khuếch đại tự động. Dù sử dụng phương pháp nào, hãy nhớ rằng
Ý tưởng cơ bản là loại bỏ sự phụ thuộc vào kích thước trong khi vẫn bảo toàn được tính chất cơ bản

dạng của dạng sóng.


Machine Translated by Google

810 Chương 11 ■ Biểu diễn và mô tả

Khoảng cách so với góc không phải là cách duy nhất để tạo chữ ký. Ví dụ,
một cách khác là đi qua ranh giới và tương ứng với mỗi
điểm trên đường biên, vẽ góc giữa đường tiếp tuyến với đường biên tại điểm đó
và đường chuẩn. Chữ ký kết quả, mặc dù
hoàn toàn khác với các đường cong trong Hình 11.10, sẽ mang thông tin
r(u)
về các đặc điểm hình dạng cơ bản. Ví dụ, các đoạn ngang trong
đường cong sẽ tương ứng với các đường thẳng dọc theo ranh giới, bởi vì
góc tiếp tuyến sẽ không đổi ở đó. Một biến thể của cách tiếp cận này là
sử dụng cái gọi là hàm mật độ độ dốc làm chữ ký. Hàm này là biểu đồ của các
giá trị góc tiếp tuyến. Bởi vì biểu đồ là thước đo nồng độ của các giá trị
nên hàm mật độ độ dốc phản ứng mạnh mẽ với
các phần của ranh giới có các góc tiếp tuyến không đổi (thẳng hoặc gần
đoạn thẳng) và có các rãnh sâu ở các phần tạo ra các góc thay đổi nhanh chóng
(các góc hoặc các đường uốn cong sắc nét khác).

VÍ DỤ 11.4: ■ Hình 11.11(a) và (b) hiển thị hai đối tượng nhị phân và Hình. 11.11(c) và (d)
Chữ ký của hai người là ranh giới của họ r(u) tương ứng chữ ký trong hình. 11.11(e) và
những đồ vật đơn giản.
(f) phạm vi từ 0° đến 360° với bước tăng 1°. Số đỉnh nổi bật
trong chữ ký là đủ để phân biệt hình dạng của hai
các đối tượng. ■

11.1.6 Đoạn ranh giới

Việc phân tách ranh giới thành các phân đoạn thường hữu ích. Sự phân rã làm
giảm độ phức tạp của ranh giới và do đó đơn giản hóa quá trình mô tả.
Cách tiếp cận này đặc biệt hấp dẫn khi ranh giới chứa một hoặc
độ lõm quan trọng hơn mang thông tin hình dạng. Trong trường hợp này, sử dụng
bao lồi của vùng được bao quanh bởi ranh giới là một công cụ mạnh mẽ để
sự phân hủy mạnh mẽ của ranh giới.
H một tập hợp tùy ý làS
Như được định nghĩa trong Mục 9.5.4, bao lồi của
tập lồi nhỏ nhất chứa tập hiệu H - SS. nó được gọi là

xem các khái niệm S.


thiếu lồi của tập hợp Để D này có thể được sử dụng như thế nào để

phân chia một ranh giới thành các phân đoạn có ý nghĩa, hãy xem Hình 11.12(a), trong đó
S
hiển thị một đối tượng (tập hợp) và phần thiếu lồi của nó (các vùng được tô bóng). Khu vực
ranh giới có thể được phân chia bằng cách đi theo đường viềnS và đánh dấu
các điểm tại đó sự chuyển tiếp được thực hiện vào hoặc ra khỏi một thành phần của đường lồi
sự thiếu hụt. Hình 11.12(b) thể hiện kết quả trong trường hợp này. Lưu ý rằng, về nguyên tắc,
sơ đồ này độc lập với quy mô và hướng của khu vực.
Trong thực tế, ranh giới số có xu hướng không đều do số hóa,
nhiễu và các biến thể trong phân đoạn. Những hiệu ứng này thường dẫn đến thiếu
sót lồi có các thành phần nhỏ, vô nghĩa nằm rải rác ngẫu nhiên trong suốt
ranh giới. Thay vì cố gắng giải quyết những bất thường này bằng cách
xử lý hậu kỳ, một cách tiếp cận phổ biến là làm mịn ranh giới trước khi phân
vùng. Có một số cách để làm như vậy. Một cách là vượt qua ranh giới
và thay thế tọa độ của từng pixel bằng tọa độ trung bình của nó k

hàng xóm dọc theo ranh giới. Cách tiếp cận này hiệu quả đối với những bất thường nhỏ, nhưng nó

tốn nhiều thời gian và khó kiểm soát. Giá trị lớn của có thểkdẫn đến việc làm
mịn quá mức, trong khi giá trị nhỏ của có thểk không đủ trong một số trường hợp.
Machine Translated by Google

11.1 ■ Biểu diễn 811

Một

c
e bạn trai

HÌNH 11.11 Hai

vùng nhị phân, các ranh


giới bên ngoài

và dấu hiệu r(u)

tương ứng của chúng .


Các trục ngang trong
(e) và (f) tương ứng

với các góc từ 0°


đến 360°, với bước
tăng dần là 1°.

các đoạn ranh giới. Một kỹ thuật chắc chắn hơn là sử dụng phép tính gần đúng
đa giác trước khi tìm ra điểm thiếu lồi của một vùng. Hầu hết các ranh giới
kỹ thuật số quan tâm là các đa giác đơn giản (nhớ lại từ Phần 11.1.3 rằng đây
là những đa giác không tự giao nhau). Graham và Yao [1983] đưa ra thuật toán
tìm bao lồi của các đa giác như vậy.

bụng

HÌNH 11.12 (a)

Vùng A, S, và phần
thiếu lồi của nó

S (được tô
bóng). (b)
Ranh giới được
phân vùng.
Machine Translated by Google

812 Chương 11 ■ Biểu diễn và mô tả

Các khái niệm về bao lồi và sự thiếu hụt của nó đều hữu ích như nhau trong
việc mô tả toàn bộ một khu vực cũng như chỉ ranh giới của nó. Ví dụ, mô tả
của một vùng có thể dựa trên diện tích của nó và diện tích thiếu lồi của nó,
số thành phần trong phần thiếu lồi, vị trí tương đối của các thành phần này
các thành phần, v.v. Hãy nhớ lại rằng một thuật toán hình thái học để tìm
bao lồi được phát triển ở Mục 9.5.4. Tài liệu tham khảo được trích dẫn ở cuối tài liệu này
chương chứa các công thức khác.

11.1.7 Bộ xương

Một cách tiếp cận quan trọng để biểu diễn hình dạng cấu trúc của một vùng phẳng
là thu gọn nó thành một biểu đồ. Việc giảm này có thể được thực hiện bằng cách thu được
khung của vùng thông qua thuật toán làm mỏng (còn gọi là thuật toán khung hóa) .
Thủ tục làm mỏng đóng một vai trò trung tâm trong một loạt các vấn đề về hình ảnh
xử lý, từ kiểm tra tự động các bảng mạch in đến
đếm sợi amiăng trong bộ lọc không khí. Chúng ta đã thảo luận ở Phần 9.5.7
những điều cơ bản về khung xương bằng cách sử dụng hình thái học. Tuy nhiên, như đã
lưu ý trong phần đó, quy trình được thảo luận ở đó không đưa ra quy định nào để giữ
cho bộ xương được kết nối. Thuật toán được phát triển ở đây sẽ khắc phục vấn đề đó.
Khung của một vùng có thể được xác định thông qua phép biến đổi trục trung gian
R
(MAT) do Blum đề xuất [1967]. MAT của một vùng có đường viền là B

p R,chúng ta tìm điểm lân cận gần nhất của nó trong


theo sau. Đối với mỗi điểm trong B.p Nếu có nhiều hơn
hơn một hàng xóm như vậy, nó được cho là thuộc về trục trung gian (khung) của R.

Khái niệm “gần nhất” (và kết quả MAT) phụ thuộc vào định nghĩa của
một khoảng cách (xem Phần 2.5.3). Hình 11.13 cho thấy một số ví dụ sử dụng khoảng cách Eu-clide.
Kết quả tương tự sẽ thu được với đĩa tối đa

của Mục 9.5.7.

MAT của một vùng có định nghĩa trực quan dựa trên cái gọi là
“Khái niệm về lửa đồng cỏ.” Hãy coi vùng hình ảnh như một thảo nguyên đồng nhất, khô ráo
cỏ, và giả sử có một ngọn lửa được thắp dọc theo ranh giới của nó. Tất cả các mặt trận hỏa lực sẽ tiến lên

vào khu vực với tốc độ như nhau. MAT của vùng là tập hợp các điểm
tiếp cận bởi nhiều hơn một mặt trận cháy cùng một lúc.
Mặc dù MAT của một vùng mang lại một khung hình dễ chịu về mặt trực quan,
việc triển khai trực tiếp định nghĩa này rất tốn kém về mặt tính toán. Việc triển
khai có khả năng liên quan đến việc tính toán khoảng cách từ mọi nội thất

abc
HÌNH 11.13
Trục trung gian

(nét đứt) của ba


các vùng đơn giản
Machine Translated by Google

11.1 ■ Biểu diễn 813

HÌNH 11.14
p9 p2 p3 Hàng xóm
sự sắp xếp được sử dụng
bởi sự mỏng đi
p8 p1 p4 thuật toán.

p7 p6 p5

trỏ tới mọi điểm trên ranh giới của một vùng. Nhiều thuật toán có
được đề xuất nhằm nâng cao hiệu quả tính toán đồng thời
cố gắng tạo ra một biểu diễn trục trung gian của một vùng. Tiêu biểu,
đây là các thuật toán làm mỏng lặp đi lặp lại các điểm biên của một re-gion tuân theo
các ràng buộc rằng việc xóa các điểm này (1) không di chuyển các điểm cuối, (2) không
phá vỡ kết nối và (3) không gây ra
xói mòn quá mức của khu vực.
Trong phần này chúng tôi trình bày một thuật toán làm mỏng vùng nhị phân. Vùng đất
điểm được giả sử có giá trị 1 và điểm nền có giá trị 0.The
phương pháp bao gồm các lần thực hiện liên tiếp hai bước cơ bản được áp dụng cho đường viền
điểm của khu vực nhất định, trong đó, dựa trên định nghĩa được đưa ra trong Phần
2.5.2, điểm viền là bất kỳ pixel nào có giá trị 1 và có ít nhất một lân cận
có giá trị 0. Với tham chiếu đến ký hiệu 8 lân cận trong Hình 11.14, Bước 1
p1 để xóa nếu các điều kiện sau được thỏa mãn:
gắn cờ một điểm đường viền

(Một) 2 … N(p1) … 6
(b) T(p1) = 1
(c) p2 # p4 # p6 = 0
(d) p4 # p6 # p8 = 0 (11.1-4)

Ở đâu N(tr 1) là số hàng xóm khác 0 của nó là, ; p1

N(p1) = p2 + p3 + Á + p8 + p9 (11.1-5)

trong đó là 0 hoặc 1 và T(p1 ) là số lần chuyển đổi 0–1 trong or-p i

trình tự dered p2, p3, Á , p8, p9, p2. Ví dụ, N(p1) = 4 và T(p1 ) = 3
trong hình 11.15.
Ở Bước 2, điều kiện (a) và (b) vẫn giữ nguyên, nhưng điều kiện (c) và (d)
được thay đổi thành

(c œ ) p2 # p4 # p8 = 0
(d œ ) p # p6 2 # p8 = 0 (11.1-6)

001 HÌNH 11.15


Minh họa của
điều kiện (a) và
1 p1 0 (b) trong phương trình. (11.1-4).

Trong trường hợp này

N(p1) = 4 Và
101 T(p1) = 3.
Machine Translated by Google

814 Chương 11 ■ Biểu diễn và mô tả

Bước 1 được áp dụng cho mọi pixel viền trong vùng nhị phân đang được xem xét. Nếu một hoặc

nhiều điều kiện (a)–(d) bị vi phạm, giá trị của điểm

trong câu hỏi không thay đổi. Nếu tất cả các điều kiện được thỏa mãn, điểm đó sẽ được gắn cờ
để xóa. Tuy nhiên, điểm này sẽ không bị xóa cho đến khi tất cả các điểm biên đã được

đã được xử lý. Sự chậm trễ này ngăn cản việc thay đổi cấu trúc của dữ liệu trong quá trình

thực hiện thuật toán. Sau khi Bước 1 được áp dụng cho tất cả các điểm biên giới,

những cái được gắn cờ sẽ bị xóa (thay đổi thành 0). Sau đó, Bước 2 được áp dụng cho

dữ liệu kết quả theo cách tương tự như Bước 1.

Do đó, một lần lặp của thuật toán làm mỏng bao gồm (1) áp dụng Bước 1 để

gắn cờ các điểm biên giới để xóa; (2) xóa các điểm được gắn cờ; (3) áp dụng Bước 2

gắn cờ các điểm biên giới còn lại để xóa; và (4) xóa phần được gắn cờ

điểm. Quy trình cơ bản này được áp dụng lặp đi lặp lại cho đến khi không còn điểm nào bị xóa

nữa, lúc đó thuật toán kết thúc, thu được khung của vùng.

Điều kiện (a) bị vi phạm khi điểm đường viền chỉ có một hoặc bảy p1

8-hàng xóm có giá trị 1. Chỉ có một hàng xóm như vậy có nghĩa là kết thúc p1
điểm của nét vẽ khung xương và rõ ràng là không nên xóa. Xóa nếu có p1
có bảy người hàng xóm như vậy sẽ gây xói mòn khu vực. Điều kiện (b) là

bị vi phạm khi nó được áp dụng cho các điểm trên nét dày 1 pixel. Do đó, điều kiện này ngăn cản

việc gãy các đoạn của bộ xương trong quá trình làm mỏng.

Điều kiện (c) và (d) được thỏa mãn đồng thời bởi tập hợp tối thiểu val-= 0 hoặc p6 = 0)
ừ: (P 4 hoặc
(p2 = 0 và p8 = 0). Như vậy liên quan đến

sự sắp xếp các vùng lân cận trong Hình 11.14, một điểm thỏa mãn các điều kiện này,

cũng như các điều kiện (a) và (b), là điểm ranh giới phía đông hoặc phía nam hoặc điểm
p1 phải là một phần của bộ xương
góc tây bắc trong ranh giới. Trong cả hai trường hợp, không
và nên được loại bỏ. Tương tự, điều kiện và thỏa mãn đồng thời-(p2
(đĩa CD) = 0 hoặc p8 = 0)
hoặc
nhất thiết bằng tập giá trị tối thiểu sau: (p4 = 0 và p6 = 0).

Chúng tương ứng với các điểm ranh giới phía bắc hoặc phía tây, hoặc một

điểm góc đông nam. Lưu ý rằng các điểm góc đông bắc có p2 = 0 Và

p 4
và giống như vậy
và do đó thỏa mãn các điều kiện (c) và (d), cũng như (c¿) (d¿). = 0

đúng với các điểm góc tây nam có = 0


và p8 = 0. p 6

HÌNH 11.16
Xương chân người
và bộ xương của
khu vực được hiển thị
chồng lên nhau.
Machine Translated by Google

11.2 ■ Bộ mô tả ranh giới 815

■ Hình 11.16 cho thấy một hình ảnh được phân đoạn của xương chân người VÍ DỤ 11.5:
Bộ xương của một
và bộ xương của khu vực được đặt chồng lên nhau. Phần lớn bộ xương trông
vùng đất.
có vẻ chính xác về mặt trực giác. Có một nhánh đôi ở bên phải “vai” của
cái xương mà thoạt nhìn người ta tưởng là một nhánh duy nhất, giống như trên
bên trái tương ứng. Tuy nhiên, hãy lưu ý rằng vai phải có phần hơi
rộng hơn (theo hướng dài) so với vai trái. Chính điều đó đã gây ra
nhánh được tạo bởi thuật toán. Loại hành vi không thể đoán trước này là
không có gì lạ trong các thuật toán khung hóa. ■

11.2 Bộ mô tả ranh giới


Trong phần này, chúng ta xem xét một số cách tiếp cận để mô tả ranh giới của một
khu vực, và trong Phần 11.3 chúng tôi tập trung vào các mô tả khu vực. Các phần của Mục 11.4
và 11.5 được áp dụng cho cả ranh giới và khu vực.

11.2.1 Một số mô tả đơn giản

Độ dài của một ranh giới là một trong những mô tả đơn giản nhất của nó. Số lượng
điểm ảnh dọc theo một ranh giới cho ta ước tính gần đúng về chiều dài của nó. Đối
với đường cong được mã hóa chuỗi có khoảng cách đơn vị theo cả hai hướng, số lượng dọc và
22
thành phần ngang cộng với số lượng thành phần đường chéo
đưa ra chiều dài chính xác của nó.

Đường kính của ranh giới được Bxác định là

Diam(B) = tối đa CD(pi, pj)D (11.2-1)


tôi, j

D
đâu là thước đo khoảng cách (xem Phần 2.5.3) và là các điểm trênpj số Pi

ranh giới. Giá trị của đường kính và hướng của đoạn thẳng
nối hai điểm cực trị tạo thành đường kính (đường này là
được gọi là trục chính của ranh giới) là những mô tả hữu ích của ranh giới.
Trục nhỏ của một ranh giới được định nghĩa là đường vuông góc với trục chính
trục và có chiều dài sao cho hình hộp đi qua bốn điểm giao nhau bên ngoài của
đường biên với hai trục bao quanh hoàn toàn đường biên.† Hình hộp vừa mô tả
được gọi là hình chữ nhật cơ bản, và tỉ số của hình
trục lớn so với trục nhỏ gọi là độ lệch tâm của đường biên. Đây cũng là một
mô tả hữu ích.
Độ cong được định nghĩa là tốc độ thay đổi độ dốc. Nói chung, việc thu được
số đo độ cong đáng tin cậy tại một điểm trong ranh giới số là khó khăn vì
những ranh giới này có xu hướng “rách rưới” cục bộ. Tuy nhiên, việc sử dụng
chênh lệch giữa độ dốc của các đoạn ranh giới liền kề (được biểu diễn
như các đường thẳng) như một ký hiệu mô tả độ cong tại điểm giao nhau của
phân đoạn đôi khi tỏ ra hữu ích. Ví dụ, các đỉnh của ranh giới
chẳng hạn như những gì được thể hiện trong Hình 11.6(c) rất phù hợp để mô tả độ cong. Khi ranh giới đi qua

theo chiều kim đồng hồ, điểm đỉnh p

được gọi là một phần của đoạn lồi nếu sự thay đổi độ dốc tại không âm; P

† Đừng nhầm lẫn định nghĩa về trục chính và trục phụ này với các trục riêng được xác định trong Phần 11.4.
Machine Translated by Google

816 Chương 11 ■ Biểu diễn và mô tả

ngược lại, đượcPcho là thuộc về một đoạn lõm. Việc mô tả độ cong tại một điểm có thể được cải tiến hơn nữa

bằng cách sử dụng các phạm vi thay đổi độ dốc. Ví dụ: có thể là một phần của đoạn gần như thẳng nếu thay

đổi p nhỏ hơn 10° hoặc là điểm góc nếu thay đổi vượt quá 90°. Những mô tả này phải được sử dụng cẩn thận vì

cách diễn giải của chúng phụ thuộc vào độ dài của từng phần các đoạn so với chiều dài tổng thể của ranh giới.

11.2.2 Số hình dạng Như

đã giải thích trong Phần 11.1.2, sự khác biệt đầu tiên của ranh giới mã hóa
chuỗi phụ thuộc vào điểm bắt đầu. Số hình dạng của một ranh giới như vậy, dựa
trên mã 4 chiều của Hình 11.3(a), được định nghĩa là sai phân bậc nhất của
N một số hình được định nghĩa là số lần đào trong
độ lớn nhỏ nhất. Thứ tự của
N với một ranh giới khép kín và giá trị
biểu diễn của nó. Hơn nữa, là chẵn đối
của nó giới hạn số lượng các hình dạng khác nhau có thể có. Hình 11.17 hiển
thị tất cả các hình dạng theo thứ tự 4, 6 và 8, cùng với các biểu diễn mã
chuỗi, sự khác biệt đầu tiên và số hình dạng tương ứng của chúng. Lưu ý rằng
sự khác biệt đầu tiên được tính bằng cách xử lý mã chuỗi như một chuỗi vòng
tròn, như đã thảo luận trong Phần 11.1.2. Mặc dù sự khác biệt đầu tiên của mã
chuỗi không phụ thuộc vào việc xoay, nhưng nhìn chung ranh giới được mã hóa
phụ thuộc vào hướng của lưới. Một cách để bình thường hóa hướng lưới là căn
chỉnh lưới mã chuỗi với các cạnh của hình chữ nhật cơ bản được xác định trong phần trướ
Trong thực tế, đối với thứ tự hình dạng mong muốn, chúng ta tìm hình chữ N

nhật có thứ tự có độ lệch tâm (được xác định trong phần trước) gần đúng nhất với
hình chữ nhật cơ bản và sử dụng hình chữ nhật mới này để thiết lập kích thước lưới. Vì

HÌNH 11.17 Tất cả Đơn hàng 4 Đơn hàng 6

các hình dạng bậc


4, 6 và 8.
Các hướng dẫn được lấy

từ Hình 11.3(a), và
dấu chấm biểu Mã chuỗi: 0 3 2 1 0 0 3 2 2 1
thị điểm bắt đầu.
Sự khác biệt: 3 3 3 3 3 0 3 3 0 3

Số hình: 3 3 3 3 0 3 3 0 3 3

Đơn hàng 8

Mã chuỗi: 0 0 3 3 2 2 1 1 0 3 0 3 2 2 1 1 0 0 0 3 2 2 2 1

Sự khác biệt: 3 0 3 0 3 0 3 0 3 3 1 3 3 0 3 0 3 0 0 3 3 0 0 3

Hình dạng số: 0 3 0 3 0 3 0 3 0 3 0 3 3 1 3 3 0 0 3 3 0 0 3 3


Machine Translated by Google

11.2 ■ Bộ mô tả ranh giới 817

chu vi ví dụ, nếu n = 12,


tất cả các hình chữ nhật cấp 12 (nghĩa là những hình chữ nhật có
chiều dài ter là 12) là 2 * 4, 3 * 3 và 1 * 5. Nếu độ lệch tâm của 2 * 4

hình chữ nhật phù hợp nhất với độ lệch tâm của hình chữ nhật cơ bản cho một hình nhất định
ranh giới, chúng tôi thiết lập một 2 * 4 lưới tập trung vào hình chữ nhật cơ bản và sử dụng

quy trình được nêu trong Phần 11.1.2 để lấy mã chuỗi. Hình dạng

số theo sau sự khác biệt đầu tiên của mã này. Mặc dù thứ tự của
N
số hình dạng thu được thường bằng nhau do cách chọn khoảng cách lưới, các ranh giới có độ lõm

tương đương với khoảng cách này


N. chúng tôi chỉ định một
đôi khi mang lại số hình dạng có thứ tự lớn hơn. Trong trường hợp này,
N trình cho đến khi số hình dạng lại có thứ tự n.
hình chữ nhật có thứ tự thấp hơn và lặp lại quy

VÍ DỤ 11.6:
■ Giả sử n = 18 được chỉ định cho ranh giới trong Hình 11.18(a). Để có được số

hình dạng theo thứ tự này, cần phải làm theo các bước vừa được thảo luận. Bước đầu tiên là tìm Hình tính toán
những con số.
hình chữ nhật cơ bản, như trong Hình 11.18(b).

Hình chữ nhật gần nhất của bậc 18 là 3 * 6 hình chữ nhật, yêu cầu chia nhỏ

của hình chữ nhật cơ bản như trong Hình 11.18(c), trong đó hướng mã chuỗi được căn chỉnh với

lưới kết quả. Bước cuối cùng là lấy chuỗi

mã và sử dụng sai phân đầu tiên của nó để tính số hình dạng, như minh họa trong

Hình 11.18(d). ■

bụng
đĩa CD

HÌNH 11.18
Các bước trong
thế hệ của một
số hình.

0
1
3
2
Mã chuỗi: 0 0 0 0 3 0 0 3 2 2 3 2 2 2 1 2 1 1

Sự khác biệt: 3 0 0 0 3 1 0 3 3 0 1 3 0 0 3 1 3 0

Số hình dạng: 0 0 0 3 1 0 3 3 0 1 3 0 0 3 1 3 0 3
Machine Translated by Google

818 Chương 11 ■ Biểu diễn và mô tả

11.2.3 Bộ mô tả Fourier
Hình 11.19 cho thấy ranh giới kỹ thuật số điểm K trong mặt phẳng xy. Bắt đầu tại
một điểm tùy ý (x 0, y0), cặp tọa độ (xK-1, (x0, y0), (x1, y1), (x2, y2 ), Á ,
yK-1) gặp phải khi đi qua ranh giới, chẳng hạn, theo hướng ngược
chiều kim đồng hồ. Các tọa độ này có thể được biểu diễn dưới dạng x(k) = xk
và y(k) = yk. Với ký hiệu này, bản thân ranh giới có thể được biểu diễn dưới dạng
dãy tọa độ cho s(k) = [x(k), y(k)], k = độ
cặp tọa 0, có
1, thể
2, Áđược
trên, là một số phức sao cho , K-1.
mỗi
coi Hơn-

s(k) = x(k) + jy(k) (11.2-2)

với k = 0, 1, 2, Á , K-1. Nghĩa là, trục x được coi là trục thực và


trục y là trục ảo của dãy số phức. Mặc dù
việc giải thích trình tự đã được viết lại, bản chất của ranh giới
đã không bị thay đổi. Tất nhiên, cách biểu diễn này có một ưu điểm lớn: Nó
biến bài toán 2-D thành 1-D.
Từ phương trình. (4.4-6), biến đổi Fourier rời rạc (DFT) của s(k) là
K-1

một (u) = một s(k)e-j2puk>K (11.2-3)


k=0

cho mộtu(u)
= 0, 1, 2, Á , K-1. Các hệ số phức tạp được gọi là

Bộ mô tả Fourier của ranh giới. Biến đổi Fourier nghịch đảo của các hệ số này khôi phục s(k).

Đó là, từ phương trình. (4.4-7),

1 K-1
s(k) = Một a(u)e j2puk>K (11.2-4)
K
bạn=0

cho k
K =
- 0,
1. 1, 2, Á , Tuy nhiên, giả sử rằng thay vì tất cả Fourier
các hệ số thì chỉ sử dụng cácP hệ số đầu tiên. Điều này tương đương với việc thiết lập
a(u) = 0 với u 7 P - 1 trong phương trình. (11.2-4). Kết quả là như sau
xấp xỉ với s(k):

1 P-1
sN(k) = Một a(u)e j2puk>P (11.2-5)
P
bạn=0

HÌNH 11.19 jy
Một kỹ thuật số

ranh giới và nó
đại diện như
một phức hợp
sự liên tiếp. Các
điểm (x0, y0) Và
(x1, y1) hiển thị là
Trục

(tùy ý) cái
ảo

y0
hai điểm đầu tiên trong y1
trình tự.

x
x0 x1

Trục thực
Machine Translated by Google

11.2 ■ Bộ mô tả ranh giới 819

với k = 0, 1, 2, Á , K-1. Mặc dù chỉ có các Pthuật ngữ được sử dụng để có được mỗi
phần sN(k), k của vẫn
thành
nằm trong khoảng từ 0 đến K - 1. Nghĩa là, cùng một số
các điểm tồn tại trong ranh giới gần đúng, nhưng không có nhiều thuật ngữ được sử dụng trong
việc xây dựng lại từng điểm. Nhớ lại những thảo luận về biến đổi Fourier trong
Chương 4 rằng các thành phần tần số cao mang lại độ chi tiết cao và
P
các thành phần tần số thấp xác định hình dạng tổng thể. Do đó, sản phẩm càng
nhỏ thì càng mất nhiều chi tiết ở đường biên, như ví dụ sau
chứng minh.

■ Hình 11.20(a) cho thấy ranh giới của nhiễm sắc thể người, bao gồm VÍ DỤ 11.7:

2868 điểm. 2868 bộ mô tả Fourier tương ứng đã thu được cho việc này Sử dụng Fourier
những người mô tả.
ranh giới sử dụng phương trình. (11.2-3). Mục tiêu của ví dụ này là để kiểm tra
tác động của việc xây dựng lại ranh giới dựa trên việc giảm số lượng
Bộ mô tả Fourier. Hình 11.20(b) cho thấy ranh giới được xây dựng lại bằng cách sử dụng
một nửa trong số 2868 bộ mô tả. Thật thú vị khi lưu ý rằng không có sự khác
biệt nào có thể cảm nhận được giữa ranh giới này và ranh giới ban đầu. Hình 11.20(c)
qua (h) hiển thị các ranh giới được xây dựng lại với số lượng Fourier

bụng đĩa CD

ef gh

HÌNH 11.20 (a) Ranh giới của nhiễm sắc thể người (2868 điểm). (b)–(h) Các ranh giới được xây dựng lại bằng cách sử dụng
Các bộ mô tả Fourier lần lượt là 1434, 286, 144, 72, 36, 18 và 8. Những con số này xấp xỉ 50%, 10%,
lần lượt là 5%, 2,5%, 1,25%, 0,63% và 0,28% của 2868.
Machine Translated by Google

820 Chương 11 ■ Biểu diễn và mô tả

các ký hiệu mô tả lần lượt là 10%, 5%, 2,5%, 1,25%, 0,63% và 0,28% của 2868.
Các tỷ lệ phần trăm này lần lượt bằng khoảng 286, 144, 72, 36, 18 và 8 ký tự mô tả,
trong đó các số được làm tròn đến số nguyên chẵn gần nhất. Điểm quan trọng ở đây là 18
mô tả, chỉ bằng sáu phần mười của một
phần trăm của 2868 bộ mô tả ban đầu, đủ để giữ lại phần chính
đặc điểm hình dạng của ranh giới ban đầu: bốn phần nhô ra dài và hai phần sâu
vịnh. Hình 11.20(h), thu được với 8 bộ mô tả, là một kết quả không thể chấp nhận được
vì các đặc điểm chính đã bị mất. Giảm thêm xuống còn 4 và 2 mô tả
sẽ tạo ra một hình elip và một hình tròn tương ứng (Bài toán 11.13). ■

Như ví dụ trước chứng minh, một vài bộ mô tả Fourier có thể được sử dụng
để nắm bắt được bản chất thô của một ranh giới. Tài sản này có giá trị vì
các hệ số này mang thông tin về hình dạng. Vì vậy chúng có thể được sử dụng làm cơ sở cho
phân biệt giữa các hình dạng ranh giới riêng biệt, như chúng ta thảo luận trong Chương 12.
Chúng tôi đã tuyên bố nhiều lần rằng các bộ mô tả phải ít nhạy cảm nhất có thể đối
với các thay đổi về dịch chuyển, xoay và tỷ lệ. Trong trường hợp kết quả phụ thuộc vào
thứ tự các điểm được xử lý, một hạn chế bổ sung là các bộ mô tả không được nhạy cảm với
điểm bắt đầu. Bộ mô tả Fourier không trực tiếp không nhạy cảm với những thay đổi hình
học này, nhưng những thay đổi trong các tham số này có thể
có liên quan đến các phép biến đổi đơn giản trên bộ mô tả. Ví dụ, hãy xem xét phép quay
và nhớ lại từ phân tích toán học cơ bản rằng phép quay một điểm bằng một
Góc về bạn
gốc của mặt phẳng phức được thực hiện bằng cách nhân
bạn
. Thực hiện như vậy với mọi điểm
s(k) bằng ecách điểm
sẽ quay toàn bộ chuỗi về
nguồn gốc. Trình tự xoay là s(k)e ju, có mô tả Fourier là
K-1

ar(u) = một s(k)e ju e-j2puk>K


k=0

= a(u)eju (11.2-6)

với u = 0, 1, 2, Á , K-1. Do đó phép quay đơn giản ảnh hưởng đến tất cả các hệ số như nhau
bạn
bởi hằng số nhân e .

Bảng 11.1 tóm tắt các bộ mô tả Fourier cho một chuỗi ranh giới trải qua quá s(k)
trình quay, dịch chuyển, chia tỷ lệ và thay đổi điểm bắt đầu. Các
¢ được định nghĩa là vậy ký hiệu st
¢xy
xy = ¢x + j¢y, (k) = s(k) + ¢xy ký hiệu biểu thị việc xác định lại (dịch) chuỗi như

St(k) = [x(k) + ¢x] + j[y(k) + ¢y] (11.2-7)

BẢNG 11.1
Chuyển đổi ranh giới Bộ mô tả Fourier
Một số cơ bản

tính chất của Danh tính s(k) một (u)


Fourier Vòng xoay sr(k) = s(k)e ju ar(u) = a(u)e ju
những người mô tả. Dịch S
t(k) = s(k) + ¢xy Tại (u) = a(u) + ¢xyd(u)
Chia tỷ lệ Ss(k) = như(k) BẰNG (u) = aa(u)
Điểm khởi đầu sp(k) = s(k - k0) ap(u) = a(u)e-j2pk0u>K
Machine Translated by Google

11.2 ■ Bộ mô tả ranh giới 821

Nói cách khác, phép tịnh tiến bao gồm việc thêm một độ dịch chuyển không đổi vào
tất cả các tọa độ trong ranh giới. Lưu ý rằng bản dịch không ảnh hưởng đến mô tả-

tors, ngoại trừ u = 0, có xung. Cuối cùng, biểu thức d(u).
sp(k) = s(k - k0) có nghĩa là xác định lại trình tự như

sp = x(k - k0) + jy(k - k0) (11.2-8)

mà chỉ thay đổi điểm bắt đầu của chuỗi thành k = k0 từ


k = 0. Mục cuối cùng trong Bảng 11.1 cho thấy sự thay đổi về điểm bắt đầu ảnh hưởng đến

tất cả các bộ mô tả theo một cách khác (nhưng đã biết), theo nghĩa là thuật ngữ đa
plying phụ
a(u)thuộc vào bạn.

11.2.4 Khoảnh khắc thống kê

Hình dạng của các đoạn biên (và dạng sóng chữ ký) có thể được mô tả
định lượng bằng cách sử dụng các khoảnh khắc thống kê, chẳng hạn như giá trị trung bình, phương

sai và khoảnh khắc bậc cao hơn. Để biết cách thực hiện điều này, hãy xem Hình 11.21(a), trong đó
Tham khảo trang web sách
hiển thị đoạn của một ranh giới và Hình 11.21(b), hiển thị đoạn
để xem xét ngắn gọn về lý
được biểu diễn dưới dạng hàm 1-D g(r) của một biến tùy ý. Hàmr.này có được bằng thuyết xác suất.

cách nối hai điểm cuối của đoạn thẳng và xoay đường thẳng
phân đoạn cho đến khi nó nằm ngang. Tọa độ của các điểm được quay bằng
cùng một góc.
v
Chúng ta hãy coi biên độ của như gmột biến ngẫu nhiên rời rạc và có dạng
biểu đồ biên độ p(vi), i = 0, 1, 2, Á , A - 1, A số ở đâu

của các mức tăng biên độ rời rạc trong đó chúng ta chia thang biên độ.
Sau đó, hãy nhớ rằng (vi) từ phương
là trình.
ước tính
(3.3-17)
xác suất
rằng
xảykhoảnh
ra giákhắc
trị thứ
p vin ,của
nó nó
suy ra
v
Nghĩa là

A-1
mn(v) = một (vi - m) n p(vi) (11.2-9)
tôi=0

Ở đâu

A-1
m = vip(vi) (11.2-10)
tôi=0

g(r) bụng

HÌNH 11.21
(ranh giới
bộ phận.
(b) Đại diện
dưới dạng hàm 1-D.

† Nhớ lại ở Chương 4 rằng biến đổi Fourier của một hằng số là một xung nằm ở gốc tọa độ.
Cũng hãy nhớ lại rằng xung lực bằng 0 ở mọi nơi khác.
Machine Translated by Google

822 Chương 11 ■ Biểu diễn và mô tả

tôi nhận là giá trị trung bình hoặc giá trị trung bình của và vlà giá trị của nó
Đại lượng được ghi m2
phương sai. Nói chung, chỉ cần một vài khoảnh khắc đầu tiên để phân biệt
giữa các chữ ký có hình dạng khác biệt rõ ràng.
Một cách tiếp cận khác là chuẩn hóa thành đơn vị diện g(r)
tích và coi nó như một

(ri)
biểu đồ. Nói cách khác, bây giờ được coi là xác suất xảy ra giá trị . Trong trường hợp này, được coirilà

biến ngẫu nhiên và các khoảnhr khắc được

K-1

mn(r) = a (ri - m) n g(ri) (11.2-11)


tôi=0

Ở đâu

K-1

m = một giàn khoan(ri) (11.2-12)


tôi=0

K
Trong ký hiệu này, là số điểm trên đường biên và có độ mờ g (r). (r) (r)
liên quan trực tiếp đến hình dạng của thước đo Ví dụ, khoảnh khắc thứ hai m2
độ trải của đường cong về giá trị trung bình của và thời điểm thứ ba r

m3(r) đo tính đối xứng của nó bằng cách tham khảo giá trị trung bình.
Về cơ bản, những gì chúng tôi đã hoàn thành là giảm nhiệm vụ mô tả xuống còn
mô tả các hàm 1-D. Mặc dù khoảnh khắc cho đến nay là phương pháp phổ biến nhất nhưng
chúng không phải là mô tả duy nhất được sử dụng cho mục đích này. Ví dụ: một phương
pháp khác liên quan đến việc tính toán Fourier rời rạc 1-D
biến đổi, thu được phổ của nó và sử dụng các thành phần đầu tiênq của
quang phổ để mô tả Ưu điểm của khoảnh khắc so với các kỹ thuật khác là
g(r).
việc thực hiện các khoảnh khắc rất đơn giản và chúng cũng mang theo một
giải thích “vật lý” của hình dạng ranh giới. Tính vô cảm của phương pháp này
để xoay được thể hiện rõ ràng trong Hình 11.21. Chuẩn hóa kích thước, nếu muốn, có thể
đạt được bằng cách nhân rộng phạm vi giá trị củag và r.

11.3 Bộ mô tả khu vực


Trong phần này chúng ta xem xét các cách tiếp cận khác nhau để mô tả các vùng ảnh.
Hãy nhớ rằng thông lệ là sử dụng cả ranh giới và khu vực
kết hợp các mô tả.

11.3.1 Một số mô tả đơn giản


Diện tích của một vùng được xác định là số pixel trong vùng đó. Các
chu vi của một khu vực là chiều dài ranh giới của nó. Mặc dù diện tích và chu vi đôi
khi được sử dụng làm mô tả nhưng chúng chủ yếu áp dụng cho các tình huống ở
trong đó kích thước của vùng quan tâm là bất biến. Việc sử dụng thường xuyên hơn
hai mô tả này dùng để đo độ nén của một vùng, được định nghĩa là
(chu vi)2 >diện tích. Một bộ mô tả hơi khác (trong hệ số nhân vô hướng)
độ nén là tỷ lệ độ tròn, được định nghĩa là tỷ số giữa diện tích của một khu vực với
diện tích của một hình tròn (hình nhỏ gọn nhất) có cùng chu vi- P2 P >4p.
ter. Diện tích hình tròn có chu vi dài là
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 823

tỷ lệ vòng tròn, Rc, được cho bởi biểu thức

4pA
RC = (11.3-1)
P2
MỘT
diện tích P
của vùng đang nói đến là bao nhiêu và độ dài chu vi của nó là bao nhiêu- p>4
ter. Giá trị của thước đo này là 1 đối với vùng hình tròn và đối với hình vuông.
Tính nhỏ gọn là một thước đo không thứ nguyên và do đó không nhạy cảm với sự đồng nhất
thay đổi quy mô; nó cũng không nhạy cảm với việc định hướng, tất nhiên là bỏ qua các
lỗi tính toán có thể xảy ra khi thay đổi kích thước và xoay một vùng kỹ thuật số.
Các thước đo đơn giản khác được sử dụng làm mô tả vùng bao gồm giá trị trung bình và
trung vị của các mức cường độ, giá trị cường độ tối thiểu và tối đa,
và số lượng pixel có giá trị trên và dưới giá trị trung bình.

■ Ngay cả một bộ mô tả vùng đơn giản như vùng chuẩn hóa cũng có thể khá hữu VÍ DỤ 11.8:

ích trong việc trích xuất thông tin từ hình ảnh. Ví dụ, Hình 11.22 cho thấy một Diện tích sử dụng

ảnh hồng ngoại của vệ tinh châu Mỹ. Như đã thảo luận ở Phần 1.3.4, hình ảnh tính toán
đê gia i nen
chẳng hạn như những điều này cung cấp một danh sách toàn cầu về các khu định cư của con người. Cảm biến
thông tin từ
được sử dụng để thu thập những hình ảnh này có khả năng phát hiện các phát xạ có thể nhìn hình ảnh.
thấy và cận hồng ngoại, chẳng hạn như ánh sáng, đám cháy và pháo sáng. Bảng bên cạnh hình ảnh
hiển thị (theo vùng từ trên xuống dưới) tỷ lệ diện tích bị chiếm bởi màu trắng
(các đèn) đến tổng diện tích ánh sáng ở cả bốn vùng. Một phép đo đơn giản
chẳng hạn như thế này có thể đưa ra ước tính tương đối theo vùng năng lượng điện tiêu
thụ. Dữ liệu có thể được tinh chỉnh bằng cách chuẩn hóa nó đối với đất đai

khối lượng trên mỗi khu vực, liên quan đến số lượng dân số, v.v. ■

11.3.2 Bộ mô tả tôpô
Các thuộc tính tôpô rất hữu ích cho việc mô tả tổng thể các vùng trong
mặt phẳng ảnh. Định nghĩa một cách đơn giản, cấu trúc liên kết là nghiên cứu các tính chất của một hình

không bị ảnh hưởng bởi bất kỳ biến dạng nào, miễn là không có sự rách hoặc nối của
hình (đôi khi chúng được gọi là biến dạng tấm cao su ). Ví dụ,
Hình 11.23 cho thấy một vùng có hai lỗ. Do đó, nếu một bộ mô tả tôpô được xác định
bằng số lượng lỗ trống trong vùng thì đặc tính này rõ ràng sẽ không được xác định.
bị ảnh hưởng bởi một phép biến đổi kéo dài hoặc xoay. Tuy nhiên, nhìn chung, việc
số lượng lỗ sẽ thay đổi nếu vùng đó bị rách hoặc bị gấp. Lưu ý rằng, như
kéo dài ảnh hưởng đến khoảng cách, tính chất tôpô không phụ thuộc vào khái niệm
khoảng cách hoặc bất kỳ thuộc tính nào hoàn toàn dựa trên khái niệm khoảng cách
đo lường.

Một thuộc tính tôpô khác hữu ích cho việc mô tả vùng là số lượng
các thành phần được kết nối. Một thành phần được kết nối của một vùng đã được xác định trong
Mục 2.5.2. Hình 11.24 cho thấy một vùng có ba thành phần được kết nối. (Nhìn thấy
Mục 9.5.3 liên quan đến thuật toán tính toán các thành phần được kết nối.)
H
Số lượng lỗ và các thành phần được kết nối trong một hình có Cthể là
được sử dụng để xác định số Euler Đ:

E = C - H (11.3-2)
Machine Translated by Google

824 Chương 11 ■ Biểu diễn và mô tả

Khu vực số Tỷ lệ số đèn mỗi khu


(từ đầu) vực trên tổng số đèn

0,204
1 0,640
2 0,049
3 4 0,107

HÌNH 11.22 Ảnh hồng ngoại của Châu Mỹ vào ban đêm. (Được phép của NOAA.)
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 825

HÌNH 11.23 Một

vùng có hai lỗ.

Số Euler cũng là một thuộc tính tôpô. Ví dụ, các vùng được hiển thị trong Hình
11.25 có số Euler lần lượt bằng 0 và -1, vì chữ “A” có một thành phần liên thông và
một lỗ trống còn chữ “B” có một thành phần liên thông. thành phần được kết nối
nhưng có hai lỗ.
Các vùng được biểu thị bằng các đoạn thẳng (gọi là mạng đa giác) có cách hiểu đặc
biệt đơn giản theo số Euler. Hình 11.26 thể hiện một mạng đa giác. Việc phân loại
các vùng bên trong của mạng như vậy thành các mặt và các lỗ thường rất quan trọng. Ký
hiệu số V, Q của các đỉnh bằng số cạnh và số mặt bằng sẽ cho mối quan hệ sau đây, gọi
là công thức Euler: F

V - Q + F = C - H

trong đó, theo quan điểm của phương trình. (11.3-2), bằng số Euler:

V - Q + F = C - H

= E (11.3-3)

Mạng trong Hình 11.26 có 7 đỉnh, 11 cạnh, 2 mặt, 1 vùng được kết nối và 3 lỗ; do đó số Euler là -2:

7 - 11 + 2 = 1 - 3 = -2

Các bộ mô tả tôpô cung cấp một tính năng bổ sung thường hữu ích trong việc mô
tả đặc điểm các vùng trong một cảnh.

HÌNH 11.24 Một

vùng có ba kết nối

các thành phần.


Machine Translated by Google

826 Chương 11 ■ Biểu diễn và mô tả

bụng

HÌNH 11.25 Các

miền có số Euler
lần lượt bằng 0 và

-1.

HÌNH 11.26 Một vùng

chứa mạng đa giác. đỉnh

Khuôn mặt

Hố
Bờ rìa

VÍ DỤ 11.9: Sử dụng
■ Hình 11.27(a) hiển thị hình ảnh 512 * 512, 8-bit của Washington, DC được chụp
các thành phần được
bởi vệ tinh LANDSAT của NASA. Hình ảnh cụ thể này nằm trong dải hồng ngoại gần (xem
kết nối để trích
hình 1.10 để biết chi tiết). Giả sử chúng ta muốn phân đoạn dòng sông chỉ bằng
xuất các đặc điểm

lớn nhất trong một ảnh


hình ảnh này (ngược lại với việc sử dụng một số hình ảnh đa quang phổ, điều này sẽ
được phân đoạn. đơn giản hóa công việc). Vì dòng sông là một vùng khá tối và đồng nhất của hình
ảnh nên việc xác định ngưỡng là điều hiển nhiên nên thử. Kết quả của việc tạo
ngưỡng cho hình ảnh có giá trị ngưỡng cao nhất có thể trước khi dòng sông trở
thành vùng ngắt kết nối được hiển thị trong Hình 11.27(b). Ngưỡng được chọn thủ
công để minh họa quan điểm rằng trong trường hợp này không thể tự phân đoạn dòng
sông mà không có các vùng khác của hình ảnh cũng xuất hiện trong kết quả được
ngưỡng. Mục tiêu của ví dụ này là minh họa cách các thành phần được kết nối có thể
được sử dụng để “kết thúc” việc phân đoạn.
Hình ảnh trong Hình 11.27(b) có 1591 thành phần liên thông (thu được bằng
cách sử dụng kết nối 8) và số Euler của nó là 1552, từ đó ta suy ra số lỗ là
39. Hình 11.27(c) biểu thị thành phần liên thông với số phần tử lớn nhất
(8479). Đây là kết quả mong muốn mà chúng ta đã biết không thể tự phân đoạn
khỏi hình ảnh bằng cách sử dụng ngưỡng. Lưu ý kết quả này rõ ràng như thế
nào. Nếu chúng ta muốn thực hiện các phép đo, chẳng hạn như chiều dài của
mỗi nhánh sông, chúng ta có thể sử dụng khung của thành phần được kết nối
[Hình. 11.27(d)] để làm như vậy. Nói cách khác, sự
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 827

bụng
đĩa CD

HÌNH 11.27
(a) Ảnh hồng
ngoại của
Washington,
khu vực ĐC.
(b) Ngưỡng
hình ảnh. (c) Việc
kết nối lớn nhất
thành phần của
(b). Bộ xương
của (c).

chiều dài của mỗi nhánh trong khung sẽ xấp xỉ một cách hợp lý với chiều dài của nhánh sông mà nó đại diện. ■

11.3.3 Kết cấu


Một cách tiếp cận quan trọng để mô tả vùng là định lượng nội dung kết cấu của nó .
Mặc dù không có định nghĩa chính thức nào về kết cấu, nhưng về mặt trực giác, bộ mô tả
này cung cấp các thước đo về các đặc tính như độ mịn, độ thô và tính đều đặn.
(Hình 11.28 cho thấy một số ví dụ). Ba phương pháp chính được sử dụng trong
xử lý hình ảnh để mô tả kết cấu của một vùng là thống kê, cấu trúc,
và quang phổ. Phương pháp thống kê mang lại đặc tính của kết cấu như
mịn, thô, sần sùi, vân vân. Các kỹ thuật cấu trúc xử lý việc sắp xếp các hình ảnh
nguyên thủy, chẳng hạn như mô tả kết cấu dựa trên các
các đường thẳng song song cách nhau. Kỹ thuật quang phổ dựa trên các đặc tính của phổ
Fouri-er và được sử dụng chủ yếu để phát hiện tính tuần hoàn toàn cục trong ảnh bằng cách
xác định các đỉnh năng lượng cao, hẹp trong quang phổ.
Machine Translated by Google

828 Chương 11 ■ Biểu diễn và mô tả

abc
HÌNH 11.28 Các

ô vuông màu trắng đánh


dấu, từ trái sang

phải, có kết cấu


mịn, thô và

đều đặn.
Đây là những hình ảnh

kính hiển vi

quang học của

chất siêu dẫn,

cholesterol của con

người và bộ vi xử lý.

(Được phép của Tiến sĩ.


Michael W.
Davidson, Đại
học bang Florida.)

Phương pháp thống kê Một trong những

phương pháp đơn giản nhất để mô tả kết cấu là sử dụng các khoảnh khắc thống kê của biểu đồ cường độ của một hình ảnh hoặc vùng. Gọi là

một biến ngẫu nhiên de- z p(zi), i = 0, 1, 2, Á ký hiệu cường độ và gọi là biểu đồ his tương ứng, trong đó là số mức cường độ riêng

khoảnh khắc thứ L của giá trị trung bình là


biệt.
z Từ phương trình. (3.3-17), , L-1,

L-1

mn(z) = a (zi - m) n p(zi) (11.3-4)


tôi=0

trung bình của (cường độz trung bình):


giá trị tôi

L-1

m = một zip(zi) (11.3-5)


tôi=0

Lưu ý từ phương trình. (11.3-4) biệt


Và m1
m2(z) ] có tầm quan trọng đặc Khoảnh khắc thứ hai [the = 1 = 0. m 0 s2 (z) =

phương sai trong


đó mô tả kết cấu. Nó là thước đo độ tương phản cường độ có thể được sử dụng để thiết lập các mô tả về độ mịn tương đối. Ví dụ,

biện pháp

1
R(z) = 1 - (11.3-6)
1 + s2 (z)

là 0 đối với những vùng có cường độ không đổi (phương sai ở đó bằng 0) và tiến tới s2
1 cho các giá trị lớn Bởi
(z).
vì các giá trị phương sai có xu hướng lớn đối với các ảnh
thang độ xám có giá trị, ví dụ: trong phạm vi từ 0 đến 255, nên bình thường hóa phương
sai thành khoảng [0, 1] để sử dụng trong phương trình. (11.3-6). Việc này đã xong s2
chuẩn, đơn giản bằng (z)
cách (L - 1)2 trong phương trình. (11.3-6). Độ lệch
chia cho s(z), cũng được sử dụng thường xuyên như thước đo kết cấu vì các giá trị
của độ lệch chuẩn có xu hướng trực quan hơn đối với nhiều người.
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 829

Khoảnh khắc thứ ba,

L-1
3
m3(z) = a (zi - m) p(zi) (11.3-7)
tôi=0

là thước đo độ lệch của biểu đồ trong khi khoảnh khắc thứ tư là

thước đo độ phẳng tương đối của nó. Khoảnh khắc thứ năm trở lên không dễ dàng như vậy

liên quan đến hình dạng biểu đồ, nhưng chúng cung cấp thêm sự phân biệt định lượng về nội dung kết
cấu. Một số biện pháp kết cấu bổ sung hữu ích dựa trên

biểu đồ bao gồm thước đo “sự đồng nhất” được đưa ra bởi

L-1

U(z) = một p2 (zi) (11.3-8)


tôi=0

và thước đo entropy trung bình mà bạn sẽ nhớ lại từ những thông tin cơ bản

lý thuyết, được định nghĩa là

L-1

e(z) = - a p(zi) log2 p(zi) (11.3-9)


tôi=0

Bởi vì ps có các giá trị trong khoảng [0, 1] và tổng của chúng bằng 1, nên hãy đo
bạn
là mức tối đa cho một hình ảnh trong đó tất cả các mức cường độ đều bằng nhau (tối đa

đồng đều) và giảm dần từ đó. Entropy là thước đo độ biến thiên và

0 cho hình ảnh không đổi.

■ Bảng 11.2 tóm tắt các giá trị của các thước đo trên cho ba chỉ số VÍ DỤ 11.10:
Các biện pháp kết cấu
các loại kết cấu được đánh dấu trong Hình 11.28. Giá trị trung bình chỉ cho chúng ta biết
dựa trên
cường độ trung bình của từng vùng và chỉ hữu ích như một ý tưởng sơ bộ về cường độ, không thực sự
biểu đồ.
kết cấu. Độ lệch chuẩn mang lại nhiều thông tin hơn; những con số cho thấy rõ ràng
rằng kết cấu đầu tiên có mức độ biến đổi cường độ ít hơn đáng kể
(nó mịn hơn) so với hai kết cấu còn lại. Kết cấu thô thể hiện rõ ràng ở thước đo này. Đúng

như mong đợi, những nhận xét tương tự vẫn đúng vì nó R,

đo lường về cơ bản giống như độ lệch chuẩn. Khoảnh khắc thứ ba nói chung rất hữu ích cho

việc xác định mức độ đối xứng của biểu đồ

và liệu chúng có bị lệch sang trái (giá trị âm) hay sang phải (giá trị dương

giá trị). Điều này đưa ra một ý tưởng sơ bộ về việc liệu các mức cường độ có thiên về phía

tối hay phía sáng của giá trị trung bình hay không. Về mặt kết cấu, thông tin

bắt nguồn từ thời điểm thứ ba chỉ hữu ích khi có sự khác biệt lớn giữa các phép đo. Nhìn vào

thước đo tính đồng nhất, chúng ta lại kết luận

BẢNG 11.2
Tiêu chuẩn Ngày thứ ba
Các biện pháp kết cấu
Kết cấu Độ lệch trung bình Mômen R (chuẩn hóa) Tính đồng nhất Entropy
cho các hình ảnh phụ
Mượt 82,64 Thô 11,79 0,002 -0.105 0,026 5.434 thể hiện trong hình 11.28.

143,56 Thường 99,72 74,63 0,079 -0.151 0,005 7.783


33,73 0,017 0,750 0,013 6.674
Machine Translated by Google

830 Chương 11 ■ Biểu diễn và mô tả

rằng ảnh con đầu tiên mượt mà hơn (đồng đều hơn các ảnh còn lại) và ảnh ngẫu nhiên nhất (độ đồng nhất thấp nhất)

tương ứng với kết cấu thô. Điều này không có gì đáng ngạc nhiên. Cuối cùng, các giá trị entropy có thứ tự ngược lại

và do đó dẫn chúng ta đến những kết luận giống như thước đo tính đồng nhất đã đưa ra. Ảnh con đầu tiên có mức độ thay

đổi cường độ thấp nhất và ảnh thô nhất. Kết cấu thông thường nằm ở giữa hai thái cực đối với cả hai điều này ■

đo.

Các phép đo kết cấu được tính toán chỉ bằng biểu đồ không mang thông tin
về vị trí tương đối của các pixel so với nhau. Điều này rất quan trọng khi
mô tả kết cấu và một cách để kết hợp loại thông tin này vào quy trình phân
tích kết cấu là xem xét không chỉ sự phân bố cường độ mà còn cả vị trí tương
đối của các pixel trong ảnh.

Giả sửQ là một toán tử xác định vị trí của hai pixel so với f, lẫn nhau và xem xét một hình ảnh

với các mức cường độ có thể có. Giả sử G là một ma trận cóL phần tử là số lần pixel ghép với cường độ

gij và xuất hiện ở vị trí được chỉ định bởi Q, trong đó 1 … i, j … L.


Lưu ý rằng chúng tôi đang sử dụng tử z
j f
dải cường độ thay vì [1, L]
thông thường của chúng tôi Ma trận được hình thành theo cách này được gọi là ma trận xảy
Xong rồi
[0, L - 1].
ra ở mức xám (hoặc cường độ) . Khi ý nghĩa rõ ràng, G được gọi đơn giản là
do đó các giá trị cường độ

sẽ tương ứng với ma trận ma trận xảy ra đồng thời.


“truyền thống” trong
Hình 11.29 cho thấy một ví dụ về cách xây dựng ma trận đồng thời sử dụng L = 8 Q và toán tử vị
dexing (tức là giá trị

cường độ 1 tương ứng với trí được xác định(tức


là “một
là lân
pixel
cận ngay
của một
bên pixel
phải” được xác định là pixel ngay bên phải của nó ). Mảng
hàng và cột đầu tiên
bên trái là một hình ảnh nhỏ đang được xem xét và mảng bên phải là ma trận G. Chúng ta thấy phần
chỉ số của G).
tử (1, 1) của G là 1, vì chỉ có một lần xuất hiện trong một pixel có giá trị 1 có pixel có giá trị

1 ngay bên phải của nó. Tương tự, phần tử (6, 2) của G là 3, vì có ba lần xuất hiện của một pixel

f bên phải nó. Các phần tử khác của G được tính theo
có giá trị 6 có một pixel có giá trị 2 ngay

cách này.

H nghĩa là “một pixel ở bên phải và một pixel ở trên,” thì


Nếu chúng ta đã định

HÌNH 11.29 Cách 123 45678


tạo
1 1 2 0 00110
sự đồng xảy ra

ma trận. 1 1 7 5 3 2 2 0 0 0 0 1 1 0 0
5 1 6 1 2 5 3 0 1 0 1 0 0 0 0
8 8 6 8 1 2 4 0 0 1 0 1 0 0 0
4 3 4 5 5 1 5 2 0 1 0 1 0 0 0
8 7 8 7 6 2 6 1 3 0 0 0 0 0 1
7 8 6 2 6 2 7 0 0 0 0 1 1 0 2
số 8 1 0 0 0 0 2 2 1

Hình ảnh f Ma trận đồng thời G


Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 831

f
vị trí (1, 1) trong G sẽ bằng 0, vì không có trường hợp nào trong số 1 với số 1 khác ở vị trí

được chỉ định bởi Mặt khác, các vị trí (1, 3), (1, 5) và (Q.
1, 7) trong G đều sẽ là 1s vì giá trị

cường độ 1 xuất hiện trong f với các lân cận có giá trị 3, 5 và 7 ở vị trí được chỉ định mỗi lần

một lần. Như một bài tập, bạn nên tính tất cả các phần tử của G bằng cách sử dụng Q,
định nghĩa này

của Q.

Số mức cường độ có thể có trong ảnh xác định kích thước của ma trận G. Đối với hình ảnh 8 bit

(256 mức có thể) G sẽ có kích thước 256 * 256.

Đây không phải là vấn đề khi làm việc với một ma trận, nhưng như Ví dụ 11.11
cho thấy, các ma trận đồng thời đôi khi được sử dụng theo trình tự. Để giảm
tải tính toán, một phương pháp được sử dụng thường xuyên là lượng tử hóa
cường độ thành một vài dải để giữ cho kích thước của ma trận G có thể quản lý được.
Ví dụ: trong trường hợp có 256 cường độ, chúng ta có thể thực hiện điều này bằng cách đặt 32 mức cường

độ đầu tiên bằng 1, 32 mức tiếp theo bằng 2, v.v. Điều này sẽ dẫn đến ma trận đồng xuất hiện có kích
thước 8 * 8.

Tổng số cặp pixel thỏa mãn bằng tổng của n, Q


các phần tử của G (trong ví dụ trước). Khi đó số lượng n = 30

pij = gij>n

là ước tính xác suất để một cặp điểm thỏa mãn sẽ có giá trị Q
ue (zi, zj). Các xác suất này nằm trong khoảng [0, 1] và tổng của chúng là 1:

K K
Một một pij = 1
tôi=1 j=1

đâu là Kkích thước hàng (hoặc cột) của ma trận vuông G.


Q, hiện diện của cường độ nên các mẫu kết cấu có
Bởi vì G phụ thuộc vào sự
thể được phát hiện bằng cách chọn toán tử vị trí thích hợp và phân tích các
phần tử của GA, bộ mô tả hữu ích để mô tả nội dung của G được liệt kê trong
Bảng 11.3. Các đại lượng được sử dụng trong bộ mô tả tương quan (hàng thứ hai
trong bảng) được xác định như sau:

K K

ông = a ia pij
tôi=1 j=1

K K

mc = a ja pij
j=1 tôi=1

K K
2
2 giây = một (tôi - ông) một chiếc pij

tôi=1 j=1

K K
2
2 giây = a (j - mc) một chiếc pij

j=1 tôi=1
Machine Translated by Google

832 Chương 11 ■ Biểu diễn và mô tả

BẢNG 11.3
Bộ mô tả Giải trình Công thức
Các mô tả được sử dụng
để mô tả đặc điểm Tối đa Đo phản ứng mạnh nhất của tối đa
(pij)
sự xảy ra đồng thời
xác suất G. Phạm vi giá trị là [0, 1].
tôi, j

ma trận có kích thước


Tương quan Thước đo mức độ tương quan của một K K
K*K. Thuật ngữ (i - mr)(j - mc)pij
pixel với pixel lân cận của nó Một Một srsc
là số hạng thứ i
pij trên toàn bộ hình ảnh. Phạm vi giá trị là tôi=1 j=1
của G chia cho 1 đến -1, tương ứng với hoàn hảo sr Z 0; sc Z 0
tổng của
mối tương quan âm và dương hoàn hảo.
các phần tử của G Biện pháp này không được xác định nếu độ

lệch chuẩn bằng 0.

Độ tương phản Thước đo độ tương phản cường độ giữa K K


2
một pixel và pixel lân cận trên toàn bộ Một Một (tôi - j) pij
hình ảnh. Khoảng giá trị (K - 1)2 . tôi=1 j=1

là 0 (khi G không đổi) đến

Độ đồng nhất Thước đo độ đồng nhất trong phạm vi (còn gọi là K K


2
[0, 1). Độ đồng nhất là 1 đối với hình ảnh Năng lượng Một Một số Pi j
không đổi). tôi=1 j=1

Tính đồng nhất Đo mức độ gần nhau về mặt không gian của sự phân
bố các phần tử trong G theo đường chéo. K K
pij
Phạm vi giá trị là [0, 1], Một Một
1 + ƒ tôi - jƒ
đạt cực đại khi G là ma trận đường chéo. tôi=1 tôi=1

Sự hỗn loạn Đo lường tính ngẫu nhiên của K K


các phần tử của G. Entropy bằng 0 khi tất cả - Một Một pij log2 pij
đều bằng 0 và tối đa khi pij's tôi=1 tôi=1

tất cả
đều bình đẳng. Mức tối đa (Xem
pij's
giá trị là 2 log2 K. phương trình (11.3-9)

liên quan đến entropy).

Nếu chúng ta để

P(i) = một pij


j=1

P(j) = một pij


tôi=1

thì các phương trình trước có thể được viết là

ông = một iP(i)


tôi=1

mc = một jP(j)
j=1
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 833

K
2
2 giây = một (tôi - ông) Số Pi)
tôi=1

K
2
2 giây = một (j - mc) P(j)
j=1

Với sự tham khảo đến các phương trình. (11.3-4), (11.3-5), và theo lời giải thích của họ, chúng ta thấy
nó ở dạng
Ông giá trị trung bình được tính toán dọc theo các hàng của G đã chuẩn hóa

và làmcgiá trịđộtrung
sr dạng bình
lệch chuẩn (cănđược tính
bậc hai dọc theo
của phương cáctính
sai) được cột.toánTương
theo tự, và nằm sc
trong

hàng và cột tương ứng. Mỗi số hạng này là một đại lượng vô hướng, độc lập
có kích thước G.

Hãy ghi nhớ khi nghiên cứu Bảng 11.3 rằng “láng giềng” đối với
cách thức được xác định (tức là các hàng xóm không nhất thiết phải là ad-Q
jacent), và cả pij's không gì khác hơn là số lần được chuẩn hóa về số
lần các pixel có cường độ đó và xuất hiện tương đối tử f
đến vị trí được chỉ định trong Do zj
đó,Q.tất cả những gì chúng tôi đang làm ở đây là cố gắng tìm

các mẫu (kết cấu) trong các số đếm đó.

■ Các Hình 11.30(a) đến (c) hiển thị các hình ảnh lần lượt bao gồm các mẫu VÍ DỤ 11.11:

pixel ngẫu nhiên, tuần hoàn theo chiều ngang (sine) và hỗn hợp. Ví dụ này có hai Sử dụng mô tả
để mô tả sự đồng
Mục tiêu: (1) để hiển thị các giá trị của các mô tả trong Bảng 11.3 cho ba đồng
tần suất xảy ra
ma trận xuất hiện, G1 , G2, và tương
G3 ứng (từ trên xuống dưới) đến ma trận.
những hình ảnh này, và (2) để minh họa các chuỗi ma trận đồng xuất hiện như thế nào
có thể được sử dụng để phát hiện các mẫu kết cấu trong một hình ảnh.

Hình 11.31 thể hiện các ma trận đồng xuất hiện G1 , G2 , G3 thị dưới dạng hình
và hiển

ảnh. Các ma trận này thu được bằng cách sử dụng L = 256 và toán tử vị trí
“một pixel ngay bên phải.” Giá trị tại tọa độ trong này (tôi, j)

Một

b
c

HÌNH 11.30
Hình ảnh có
pixel có (a)
ngẫu nhiên,
(b) định kỳ, và
(c) kết cấu hỗn hợp
các mẫu. Mỗi
hình ảnh có kích thước

263 * 800 pixel.


Machine Translated by Google

834 Chương 11 ■ Biểu diễn và mô tả

abc
HÌNH 11.31
256 * 256 đồng-

tần suất xảy ra

ma trận, G1, G2,


Và G3,
tương ứng
từ trái sang phải
đến các hình ảnh trong

Hình 11.30.

hình ảnh là số lần các pixel kết hợp với cường độ và xuất hiện ở vị trí
tử được chỉ
zj định
Q, khi Hình 11.31(a) là một
bởif vì vậy không có gì đáng ngạc nhiên
hình ảnh ngẫu nhiên, dựa trên bản chất của hình ảnh mà nó thu được.
Hình 11.31(b) thú vị hơn. Đặc điểm rõ ràng đầu tiên là tính đối xứng của đường
chéo chính. Do tính đối xứng của sóng hình sin nên số đếm của một cặp (z i, zj)
giống như đối với cặp (zj, zi ), trong đó

tạo ra một ma trận đồng xuất hiện đối xứng. Các phần tử khác 0 của là G2
thưa thớt vì sự khác biệt về giá trị giữa các pixel liền kề theo chiều ngang trong một
sóng hình sin ngang tương đối nhỏ. Nó giúp ghi nhớ trong việc giải thích
những khái niệm này cho rằng sóng hình sin số hóa là một cầu thang, có chiều cao và
độ rộng của mỗi bước tùy thuộc vào tần số và số mức biên độ được sử dụng để biểu diễn
hàm.
G3 11.31(c) phức tạp hơn.
Cấu trúc của ma trận đồng xuất hiện trong Hình
Các giá trị số lượng cao cũng được nhóm dọc theo đường chéo chính, nhưng sự phân bổ
G2,tính biểu thị hình ảnh có
của chúng dày đặc hơn so với thuộc
có sự thay đổi phong phú về giá trị cường độ, nhưng có rất ít sự thay đổi lớn về cường độ giữa

các pixel liền kề. Xem xét Hình 11.30(c), chúng ta thấy rằng có những khu vực rộng
lớn được đặc trưng hóa bởi độ biến thiên cường độ thấp. Sự chuyển đổi cường độ cao
xảy ra ở ranh giới vật thể, nhưng số lượng này thấp so với sự chuyển đổi cường độ
vừa phải trên các khu vực rộng lớn, do đó chúng bị che khuất bởi khả năng
của màn hình hiển thị hình ảnh để hiển thị đồng thời các giá trị cao và thấp, như chúng ta đã

thảo luận trong Chương 3.

Các quan sát trước đó là định tính. Để định lượng “nội dung” của ma trận đồng
xuất hiện, chúng ta cần các mô tả như trong Bảng 11.3. Bảng 11.4
hiển thị giá trị của các mô tả này được tính toán cho ba ma trận cùng xuất hiện

BẢNG 11.4
Chuẩn hóa Bộ mô tả
Mô tả
Số lần xuất hiện tối đa
đánh giá bằng cách sử dụng
Ma trận Xác suất Tương quan Tương phản Tính đồng nhất Tính đồng nhất Entropy
sự đồng xảy ra

ma trận hiển thị G1>n1 0,00006 -0,0005 10838 0,00002 570 0,0366 15,75
trong hình 11.31. G2>n2 0,01500 0,9650 0,01230 1356 0,0824 6,43

G3>n3 0,06860 0,8798 0,00480 0,2048 13,58


Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 835

trong hình 11.31. Lưu ý rằng để sử dụng các mô tả này, các ma trận xảy ra đồng thời phải
được chuẩn hóa bằng cách chia chúng cho tổng các phần tử của chúng, như đã thảo luận trước đó.

Các mục trong Bảng 11.4 phù hợp với những gì người ta mong đợi khi nhìn vào
hình ảnh trong Hình 11.30 và các ma trận đồng xuất hiện tương ứng của chúng trong Hình 11.31.
Ví dụ, hãy xem xét cột Xác suất Tối đa trong Bảng 11.4. Xác suất cao nhất tương ứng với
ma trận sự xuất hiện thứ ba, cho chúng ta biết rằng
ma trận này có số lượng đếm cao nhất (số lượng cặp pixel lớn nhất xuất hiện trong ảnh so
với các vị trí trong ) so với hai ma trận còn lại. Q

G3.
Điều này đồng ý với phân tích trước đó của chúng tôi về Cột thứ hai chỉ ra rằng

G2,
mối tương quan cao nhất tương ứng với điều này cho chúng ta biết rằng cường độ trong
hình ảnh thứ hai có mối tương quan cao. Sự lặp đi lặp lại của mô hình sin-soidal trong
Hình 11.30(b) tiết lộ lý do tại sao lại như vậy. Ghi chú
rằng mối tương quan của G1 về cơ bản là bằng 0, cho thấy hầu như không có mối tương quan
giữa các pixel liền kề, một đặc điểm của hình ảnh ngẫu nhiên, chẳng hạn như hình ảnh trong
Hình 11.30(a).
Bộ mô tả độ tương phản cao nhất và thấp nhất G 1 với G2
đối . Như vậy, chúng ta thấy

rằng hình ảnh càng ít ngẫu nhiên thì độ tương phản của nó càng thấp. Chúng ta có thể nhìn thấy
2
nguyên nhân bằng cách nghiên cứu các ma trận được hiển thị trong Hình 11.31. Các điều khoản (tôi - j)

là hiệu các số nguyên của 1 … i, j … L vì vậy chúng giống nhau đối với mọi G.
Do đó, xác suất trong các phần tử của sự xuất hiện đồng thời được chuẩn hóa
ma trận là yếu tố quyết định giá trị độ tương phản. Mặc dù có G1
xác suất tối đa thấp nhất, hai ma trận còn lại có nhiều số 0 hơn
hoặc xác suất gần bằng 0 (các vùng tối trong Hình 11.31). Hãy nhớ rằng
tổng các giá trị của là 1, thật dễ
G>n
hiểu tại sao bộ mô tả độ tương phản
có xu hướng tăng lên như một hàm của sự ngẫu nhiên.

Ba mô tả còn lại được giải thích theo cách tương tự. Độ đồng đều tăng theo hàm của
các giá trị xác suất bình phương. Do đó,
hình ảnh có ít tính ngẫu nhiên hơn thì bộ mô tả đồng nhất sẽ càng cao
như cột thứ năm trong Bảng 11.4 cho thấy. Tính đồng nhất đo lường mức độ tập trung của
các giá trị của G đối với đường chéo chính. Các giá trị của
số hạng mẫu số, và (1 + ƒ i - jƒ) giống nhau cho cả ba trường hợp đồng xảy ra

j trị (nghĩa là gần với


chúng giảm dần và trở nên gần nhau hơn về giá
Tôi

đường chéo chính). Do đó, ma trận có giá trị xác suất cao nhất (số hạng tử) gần đường
chéo chính sẽ có giá trị đồng nhất cao nhất. Như chúng ta đã thảo luận trước đó, ma trận
như vậy sẽ tương ứng với các ảnh có
nội dung mức xám “phong phú” và các vùng có giá trị cường độ thay đổi chậm. Các mục trong
cột thứ sáu của Bảng 11.4 phù hợp với cách giải thích này.
Các mục trong cột cuối cùng của bảng là thước đo tính ngẫu nhiên trong

ma trận đồng xảy ra, từ đó chuyển thành thước đo tính ngẫu nhiên

trong các hình ảnh tương ứng. Đúng như mong đợi, cóG1
giá trị cao nhất vì
hình ảnh mà nó được tạo ra là hoàn toàn ngẫu nhiên. Hai mục còn lại là tự giải thích.
Lưu ý rằng thước đo entropy của G1 ở gần

theo lý thuyết tối đa là 16 bao (2 log2 256 = 16). Hình ảnh trong Hình 11.30(a) là
gồm tiếng ồn đồng đều, vì vậy mỗi mức cường độ có khoảng một

xác suất xảy ra bằng nhau, đó là điều kiện được nêu trong Bảng 11.3 cho
entropy tối đa.
Machine Translated by Google

836 Chương 11 ■ Biểu diễn và mô tả

Cho đến nay, chúng ta đã xử lý các hình ảnh đơn lẻ và ma trận cùng xuất hiện của chúng.
Giả sử chúng ta muốn “khám phá” (không cần nhìn vào hình ảnh) nếu có
bất kỳ phần nào trong những hình ảnh này có chứa các thành phần lặp đi lặp lại (nghĩa là định kỳ

kết cấu). Một cách để hoàn thành mục tiêu này là kiểm tra bộ mô tả tương quan cho các
chuỗi ma trận xảy ra đồng thời, xuất phát từ những hình ảnh này bằng cách
tăng khoảng cách giữa những người hàng xóm. Như đã đề cập trước đó, đó là thông lệ
khi làm việc với các chuỗi ma trận cùng xuất hiện để lượng tử hóa số
cường độ để giảm kích thước ma trận và tính toán tương ứng
trọng tải. Các kết quả sau đây thu được khi sử dụng L = 8.

Hình 11.32 hiển thị đồ thị của các bộ mô tả tương quan như là một hàm của “độ lệch”
ngang (tức là khoảng cách theo chiều ngang giữa các lân cận) từ 1 (đối với các pixel liền
kề) đến 50. Hình 11.32(a) cho thấy tất cả các giá trị tương quan đều ở gần 0,
chỉ ra rằng không tìm thấy mẫu nào như vậy trong hình ảnh ngẫu nhiên. Hình dạng của
mối tương quan trong Hình 11.32(b) là một dấu hiệu rõ ràng rằng hình ảnh đầu vào có dạng hình
sin theo hướng ngang. Lưu ý rằng hàm tương quan bắt đầu tại

giá trị cao và sau đó giảm khi khoảng cách giữa các hàng xóm tăng lên,
và sau đó lặp lại chính nó.
Hình 11.32(c) cho thấy rằng bộ mô tả tương quan liên quan đến hình ảnh bảng tuần hoàn
ban đầu giảm, nhưng có đỉnh cao đối với khoảng cách lệch là
16 pixel. Phân tích hình ảnh trong Hình 11.30(c) cho thấy các mối hàn phía trên
Có những mô hình tạo thành một mẫu lặp đi lặp lại cách nhau khoảng 16 pixel (xem Hình 11.33). Tiếp theo
lặp đi lặp lại khác trong
đỉnh chính là ở mức 32, do cùng một mô hình gây ra, nhưng biên độ của đỉnh là
hình ảnh, nhưng chúng
bị che khuất bởi sự thô thiển thấp hơn vì số lần lặp lại ở khoảng cách này ít hơn 16 pixel.A
lượng tử hóa 256 mức
quan sát tương tự giải thích đỉnh thậm chí còn nhỏ hơn ở độ lệch 48 pixel. ■
cường độ thành 8.

Phương pháp tiếp cận mang tính cấu trúc

Như đã đề cập ở phần đầu của phần này, loại kết cấu thứ hai
mô tả dựa trên các khái niệm cấu trúc. Giả sử chúng ta có một quy tắc
dạng S : aS, biểu thị rằng ký hiệu có thể được viết lại thành aS S

(ví dụ: ba ứng dụng của quy tắc này sẽ mang lại chuỗi ). Nếu aaaS a

0,5

0
Tương
quan

0,5

1
1 10 20 30 40 50 1 10 20 30 40 50 1 10 20 30 40 50
Bù ngang Bù ngang Bù ngang

abc
HÌNH 11.32 Các giá trị của bộ mô tả tương quan như là một hàm của offset (khoảng cách giữa “liền kề”
pixel) tương ứng với các hình ảnh (a) nhiễu, (b) hình sin và (c) bảng mạch trong Hình 11.30.
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 837

16 pixel HÌNH 11.33


Phần được phóng to
của mạch

hình ảnh bảng


hiển thị
tính tuần hoàn của

các thành phần.

đại diện cho một vòng tròn [Hình. 11.34(a)] và ý nghĩa của “vòng tròn bên phải” là

tạoÁ ra , quy tắc


được gán cho một chuỗi có dạng cho phépaaa S : nhưS

mẫu kết cấu được hiển thị trong Hình 11.34(b).

Giả sử tiếp theo chúng ta thêm một số quy tắc mới vào sơ đồ này: S : ba,
b tròn
A : cA, A : c, A : bS, S : a, trong đó sự hiện diện của a có nghĩa là “vòng
c tiện “vòng tròn bên trái”. Bây giờ chúng ta có thể tạo ra
xuống” và sự hiện diện của một phương

một chuỗi có dạng aaabccbaa tương ứng với 3 * 3 ma trận các đường tròn.

Các mẫu kết cấu lớn hơn, chẳng hạn như mẫu trong Hình 11.34(c), có thể được tạo ra dễ dàng

theo cách tương tự. (Tuy nhiên, lưu ý rằng các quy tắc này cũng có thể tạo ra các cấu trúc

không phải hình chữ nhật.)

Ý tưởng cơ bản trong cuộc thảo luận ở trên là một “kết cấu nguyên thủy” đơn giản có thể

được sử dụng để hình thành các mẫu kết cấu phức tạp hơn bằng một số phương pháp.

các quy tắc giới hạn số cách sắp xếp có thể có của (các) nguyên thủy. Những quy tắc này

các khái niệm nằm ở trung tâm của các mô tả quan hệ, một chủ đề mà chúng ta sẽ đề cập sâu hơn
chi tiết tại Mục 11.5.

Phương pháp quang phổ

Như đã thảo luận trong Phần 5.4, phổ Fourier phù hợp lý tưởng để mô tả

tính định hướng của các mẫu 2-D định kỳ hoặc gần như định kỳ trong một hình ảnh. Những cái này

các mẫu kết cấu toàn cầu có thể dễ dàng phân biệt được dưới dạng nồng độ năng lượng cao

bùng nổ trong quang phổ. Ở đây, chúng tôi xem xét ba tính năng của phổ Fourier

hữu ích cho việc mô tả kết cấu: (1) Các đỉnh nổi bật trong quang phổ cho

Một

b
c

HÌNH 11.34
... (a) Kết cấu
nguyên thủy.
(b) Mẫu
được tạo ra bởi
... luật lệ S : như S.

(c) Kết cấu 2-D


mẫu được tạo
bằng cái này cái khác
quy tắc.
. . .
Machine Translated by Google

838 Chương 11 ■ Biểu diễn và mô tả

hướng chính của các mẫu kết cấu. (2) Vị trí của các đỉnh ở
mặt phẳng tần số cho biết chu kỳ không gian cơ bản của các mẫu.
(3) Loại bỏ bất kỳ thành phần định kỳ nào thông qua việc lọc để lại hình ảnh không định kỳ
các phần tử, sau đó có thể được mô tả bằng các kỹ thuật thống kê. Hãy nhớ lại rằng
Phổ đối xứng qua gốc nên chỉ một nửa mặt phẳng tần số
cần phải được xem xét. Vì vậy, với mục đích phân tích, mỗi mẫu hình tuần hoàn
chỉ được liên kết với một đỉnh trong quang phổ chứ không phải hai.
Phát hiện và giải thích các đặc điểm phổ vừa được đề cập thường xuyên
được đơn giản hóa bằng cách biểu thị phổ theo tọa độ cực để thu được hàm-S(r, u), tion S r u

hàm phổ ở đâu và các biến trong này


hệ tọa độ. Đối với mỗi hướng có thể được coibạn,
làS(r,
hàmbạn)
số 1-D .
tion S Tương tự, với mỗi tần số r, Sr là hàm 1-D. Phân tích
(u)

Su(r) với một giá trị cố định mang lại đặc tính của phổ (chẳng hạn như áp suất

ence của các đỉnh) dọc theo hướng xuyên tâm từ gốc tọa độ, trong khi phân tích Sr(u)
đối với một giá trị cố rđịnh của mang lại hành vi dọc theo một vòng tròn có tâm ở điểm gốc.
Một mô tả toàn diện hơn có được bằng cách tích hợp (tổng hợp các giá trị rời rạc
biến) các hàm này:

S(r) = một Su(r) (11.3-10)


bạn=0

R0
S(u) = một Sr(u) (11.3-11)
r=1

bán kínhR0
của đường tròn có tâm tại gốc tọa độ là bao nhiêu.
Các kết quả của phương trình. (11.3-10) và (11.3-11) tạo thành một cặp giá trị
chou).
[S(r), S(u)] (r, mỗi cặp tọa độ Bằng cách thay đổi các tọa độ này,
S(r)
chúng ta có thể tạo ra hai hàm 1-D và tạo thành mô S(u),
tả năng lượng quang phổ của kết cấu cho toàn bộ

hình ảnh hoặc vùng đang được xem xét. Hơn nữa, bản thân các mô tả của các hàm này có thể được tính

toán

để mô tả hành vi của họ một cách định lượng. Các mô tả thường


được sử dụng cho mục đích này là vị trí của giá trị cao nhất, giá trị trung bình và
phương sai của cả biên độ và sự thay đổi theo trục, và khoảng cách giữa
giá trị trung bình và giá trị cao nhất của hàm số.

VÍ DỤ 11.12: ■ Hình 11.35(a) hiển thị một hình ảnh chứa các kết quả trùng khớp được phân phối ngẫu nhiên
Kết cấu quang phổ. và Hình 11.35(b) hiển thị một hình ảnh trong đó các vật thể này được sắp xếp theo chu
kỳ. Các hình 11.35(c) và (d) biểu diễn quang phổ Fourier tương ứng. Các bùng nổ năng
lượng tuần hoàn kéo dài theo tứ giác theo hai chiều ở cả hai
Phổ Fourier là do kết cấu tuần hoàn của vật liệu nền thô nơi que diêm nằm trên đó. Các
thành phần chiếm ưu thế khác trong quang phổ trong Hình 11.35(c) là do sự định hướng
ngẫu nhiên của các cạnh đối tượng trong
Hình 11.35(a). Mặt khác, năng lượng chính trong Hình 11.35(d) không liên kết với nền nằm
dọc theo trục hoành, tương ứng với
các cạnh thẳng đứng chắc chắn trong Hình 11.35(b).
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 839

bụng
đĩa CD

HÌNH 11.35
(a) và (b) Hình ảnh
ngẫu nhiên và

đồ vật được đặt hàng.

(c) và (d) Fourier


tương ứng
quang phổ. Tất cả hình ảnh
có kích thước

600 * 600 pixel.

Hình 11.36(a) và (b) là đồ thị của S(r) và S(u) cho các trận đấu ngẫu nhiên

và tương tự ở (c) và (d) đối với các kết quả khớp theo thứ tự. Đồ thị của S(r) cho

các kết quả trùng khớp ngẫu nhiên cho thấy không có thành phần tuần hoàn mạnh (nghĩa là
không có các đỉnh chiếm ưu thế trong phổ ngoài đỉnh ở gốc, là thành phần dc). Ngược
lại, đồ thị của S(r) cho các trận đấu được sắp xếp cho thấy một sức mạnh

đỉnh gần r = 15 và đỉnh nhỏ hơn gần r = 25, tương ứng với sự lặp lại theo
chu kỳ theo chiều ngang của các vùng sáng (diêm) và tối (nền) trong Hình 11.35(b).
Tương tự như vậy, tính chất ngẫu nhiên của năng lượng bùng nổ trong
Hình 11.35(c) khá rõ ràng trong đồ thị của S(u) trong Hình 11.36(b). Ngược lại,
đồ thị trong Hình 11.36(d) cho thấy các thành phần năng lượng mạnh ở vùng gần
gốc tọa độ và ở 90° và 180°. Điều này phù hợp với sự phân bố năng lượng
của quang phổ trong hình 11.35(d). ■

11.3.4 Khoảnh khắc bất biến


Momen thứ tự 2-D (p + q) của ảnh số có kích thước f(x, y) M * N là

định nghĩa là

M-1 N-1
mpq = một Một xpyq f(x, y) (11.3-12)
x=0 y=0
Machine Translated by Google

840 Chương 11 ■ Biểu diễn và mô tả

A 9,0 2.7

B C D 8,0 2.6

7,0 2,5
HÌNH 11.36 Đồ
6.0 2.4
thị của (a)
5.0 2.3
S(r) và S(u)
(b) cho
4.0 2.2
Hình 11.35(a).
3.0 2.1
(c) và (d) là đồ
2.0 2.0
thị của S(r) và
S(u) của Hình 1.0 1.9

11.35(b). Tất
0 0 50 100 150 200 250 300 1,8 0 20 40 60 80 100 120 140 160 180
cả các trục dọc là
6.0 3.6
*105 .
3,4
5.0
3,2

3.0
4.0
2,8

3.0 2,6

2.4
2.0
2.2

2.0
1.0

0 0 50 100 150 200 250 300 1,8 1,6 0 20 40 60 80 100 120 140 160 180

trong đó và
1, p2,= Á0,là1,các
2, số
Á qnguyên.
= 0, Momen trung tâm tương ứng bậc (p + q) được định nghĩa là

M-1 N-1

mpq = một Một (x - x) p(y - y) q f(x, y) (11.3-13)


x=0 y=0

cho và
0, p1,= 2,
0, Á1, 2, Á q = , Ở đâu

m10 m01
x = và y = (11.3-14)
m00 m00

Các khoảnh khắc trung tâm được chuẩn hóa, ký hiệu là được định nghĩa là hpq,

mpq
hpq = (11.3-15)
mg 00

Ở đâu

p + q
g = + 1 2 (11.3-16)

với p + q = 2, 3, Á .

Một tập hợp bảy khoảnh khắc bất biến có thể được suy ra từ khoảnh khắc thứ hai và thứ ba.†

† Việc rút ra những kết quả này liên quan đến các khái niệm nằm ngoài phạm vi của cuộc thảo luận này.
Cuốn sách của Bell [1965] và bài báo của Hu [1962] chứa đựng những thảo luận chi tiết về những khái niệm
này. Để tạo ra các bất biến mô men bậc cao hơn 7, xem Flusser [2000]. Bất biến mômen có thể được khái
quát hóa thành n chiều (Mamistvalov [1998]).
Machine Translated by Google

11.3 ■ Bộ mô tả khu vực 841

f1 = h20 + h02 (11.3-17)

2
f2 = (h20 - h02) + 4h2 11 (11.3-18)

2 2
f3 = (h30 - 3h12) + (3h21 - h03) (11.3-19)

2 2
f4 = (h30 + h12) + (h21 + h03) (11.3-20)

2
f5 = (h30 - 3h12)(h30 + h12)[(h30 + h12)

2
- 3(h21 + h03) ] + (3h21 - h03)(h21 + h03) (11.3-21)

2 2
[3(h30 + h12) - (h21 + h03) ]

2 2
f6 = (h20 - h02)[(h30 + h12) - (h21 + h03) ] (11.3-22)

+ 4h11(h30 + h12)(h21 + h03)

2
f7 = (3h21 - h03)(h30 + h12)[(h30 + h12)

2
- 3(h21 + h03) ] + (3h12 - h30)(h21 + h03) (11.3-23)

2 2
[3(h30 + h12) - (h21 + h03) ]

Tập hợp các khoảnh khắc này bất biến đối với sự dịch chuyển, thay đổi tỷ lệ, phản
chiếu (trong dấu trừ) và xoay.

■ Mục tiêu của ví dụ này là tính toán và so sánh các bất biến mômen trước đó VÍ DỤ 11.13: Khoảnh
khắc bất
bằng cách sử dụng hình ảnh trong Hình 11.37(a). Đường viền màu đen (0) đã
biến.
được thêm vào để làm cho tất cả hình ảnh trong ví dụ này có cùng kích thước;
các số 0 không ảnh hưởng đến việc tính toán các mô men bất biến. Các hình
11.37(b) đến (f) hiển thị hình ảnh gốc được dịch, được chia tỷ lệ 0,5 theo
cả hai chiều không gian, được phản chiếu, xoay 45° và xoay 90° tương ứng.
Bảng 11.5 tóm tắt các giá trị của bảy bất biến mô men cho sáu hình ảnh này.
Để giảm phạm vi động và do đó đơn giản hóa việc diễn giải, các giá trị được
hiển thị là sgn(fi)Cần
log10(ƒfi ƒ).đối
có giá trị tuyệt vì nhiều giá trị là phân số và/hoặc âm; hàm sgn bảo toàn dấu (ở

đây quan tâm đến tính bất biến và dấu tương đối của các thời điểm, không phải giá trị thực của chúng). Hai điểm chính

trong Bảng 11.5 là (1) sự gần nhau của các giá trị mô men, không phụ thuộc vào sự tịnh tiến, thay đổi tỷ lệ, phản

chiếu và xoay; và (2) thực tế là dấu của ảnh được phản chiếu là khác nhau (một thuộc tính được sử dụng trong thực tế

để phát hiện xem một ảnh có được phản chiếu hay không). ■

f7
Machine Translated by Google

842 Chương 11 ■ Biểu diễn và mô tả

bụng c
de f

HÌNH 11.37 (a) Ảnh gốc. (b)–(f) Hình ảnh được dịch, thu nhỏ một nửa, phản chiếu, xoay 45° và
quay 90° tương ứng.

BẢNG 11.5
Khoảnh khắc gốc
Chốc lát
Hình ảnh bất biến được dịch một nửa kích thước được nhân đôi Xoay 45° Xoay 90°
bất biến cho

những hình ảnh f1 2,8662 2,8662 2,8664 2,8662 2,8661 7,1265 7,1257 2.8662
trong hình 11.37. f2 7,1265 7,1265 7,1266 10,4109 10,4047 10,4109 10,4115 7.1265
f3 10,4109 10,3742 10,3719 10,3742 10,3742 21. 3674 10.4109
f4 10,3742 21.3924 21.3674 21.3663 13.9417 13.9383 10.3742
f5 21,3674 13.9417 13.9417 -20.7809 -20.7809 -20.7724 21.3674
f6 13,9417 20.7809 -20.7813 13.9417
f7 -20.7809

11.4 Sử dụng các thành phần chính để mô tả


Tài liệu được thảo luận trong phần này có thể áp dụng cho các ranh giới và khu vực.
Tham khảo sách Web
Ngoài ra, nó có thể được sử dụng làm cơ sở để mô tả các tập hợp hình ảnh
trang web để xem xét ngắn gọn về

vectơ và ma trận. được đăng ký theo không gian nhưng có giá trị pixel tương ứng khác nhau (ví dụ:
ba ảnh thành phần của một ảnh RGB). Giả sử rằng chúng ta được cấp
Machine Translated by Google

11.4 ■ Sử dụng các thành phần chính cho mô tả 843

ảnh ba thành phần của một ảnh màu như vậy. Ba hình ảnh có thể được coi là
một đơn vị bằng cách biểu thị từng nhóm ba pixel tương ứng dưới dạng vectơ.
Ví dụ: đặt và tương , giá trị của một pixel trong mỗi
ứng làx3các
x1 , x2,

ba hình ảnh thành phần RGB. Ba yếu tố này có thể được thể hiện trong
dạng vectơ cột 3-D , x, trong đó

x2
x3 S
x = C x1

Vectơ này đại diện cho một pixel chung trong cả ba hình ảnh. Nếu những hình ảnh đó
có kích thước M*N thì sẽ có tổng số K = MN Các vectơ 3-D sau tất cả các
pixel được biểu diễn theo cách này. Nếu chúng taN đã đăng ký hình ảnh, các vectơ
sẽ có n chiều:

x = x2
(11.4-1)

D xn
x1 T

Trong suốt phần này, giả định là tất cả các vectơ đều là vectơ cột
(tức là ma trận cấp n*1 ). Chúng ta có thể viết chúng trên một dòng văn bản chỉ bằng cách

T,“T” biểu thị chuyển vị.


biểu thị chúng dưới dạng x = (x1, x2, Á , xn) trong đó

Chúng ta có thể coi các vectơ là các đại lượng ngẫu nhiên, giống như chúng ta
đã làm khi xây dựng biểu đồ cường độ. Sự khác biệt duy nhất là, thay vì nói chuyện
về các đại lượng như giá trị trung bình và phương sai của các biến ngẫu nhiên, bây giờ chúng ta
nói về vectơ trung bình và ma trận hiệp phương sai của vectơ ngẫu nhiên. Các

vectơ trung bình của dân số được định nghĩa là

mx = E5x6 (11.4-2)

ở đâu E5 # 6 là giá trị mong đợi của đối số và chỉ số dưới biểu thị rằng

m được liên kết với quần thể của vectơ x . Hãy nhớ lại rằng giá trị kỳ vọng của
một vectơ hoặc ma trận thu được bằng cách lấy giá trị mong đợi của từng phần tử.
Ma trận hiệp phương sai của quần thể vectơ được định nghĩa là

Cx = EE(x - mx)(x - mx) TF (11.4-3)

T
Vì x là thứN nguyên và (xCx- mx)(x - mx) là ma trận cấp

.Một yếu tố của


n * n cii C ,
là phương sai của thành phần thứ i của x vec-là hiệp
x xi
phương sai† giữa phần tử
tors trong dân số và phần tử của cij Cx
ments và của các vectơ này. Ma trận Cx là thực và đối xứng. Nếu như
xi
xj và không tương quan, hiệp phương sai của chúng bằng 0 và do đó,
xi xj
Tất cả những định nghĩa này quy giản về phạm vi một chiều quen thuộc của chúng.
cij = cji = 0.
tương đương khi n = 1.

2
† Hãy nhớ lại rằng phương sai của một biến ngẫu nhiên có x
giá trị trung bình
tôi có thể được định nghĩa là E5(x - m)
6. đồng biến-
xi xj
của hai biến ngẫu nhiên và được định nghĩa là E5(xi - mi)(xj - mj )6.
Machine Translated by Google

844 Chương 11 ■ Biểu diễn và mô tả

K
Đối với các mẫu vectơ từ một quần thể ngẫu nhiên, vectơ trung bình có thể là
xấp xỉ từ các mẫu bằng cách sử dụng biểu thức trung bình quen thuộc

1 K
mx = Một xk (11.4-4)
K
k=1

Tương tự, bằng cách mở rộng sản phẩm (x - mx)(x - mx) T và sử dụng các phương trình.

(11.4-2) và (11.4-4) chúng ta sẽ thấy rằng ma trận hiệp phương sai có thể
được tính gần đúng từ các mẫu như sau:

1 K
C = T
x Một xkxTk - mxmx (11.4-5)
Kk =1

VÍ DỤ 11.14: ■ Để minh họa cơ chế của các phương trình. (11.4-4) và (11.4-5), xét bốn
Tính toán của vectơ x 1 Và x4 = (1, 0, 1)T .
= (0, 0, 0)T, x2 = (1, 0, 0)T, x3 = (1, 1, 0)T,
ứng dụng-

vectơ trung bình


phương trình miệt mài. (11.4-4) mang lại vectơ trung bình sau:
và hiệp phương sai
ma trận.

1
mx = 1

4 C 13giây

Tương tự, sử dụng phương trình. (11.4-5) mang lại ma trận hiệp phương sai sau:

1
Cx = 1 3 -1

16 C 1311
-1 3 S

Tất cả các phần tử dọc theo đường chéo chính đều bằng nhau, điều này cho thấy rằng
ba thành phần của vectơ trong quần thể có cùng phương sai.
x 1 , x 1 ,
x2có mối tương quan thuận chiều;
Ngoài ra, các yếu tố và cũng như và x3các yếu tố và có mối tương quan nghịch. ■
x2 x3

Vì là thực N
Cx và đối xứng nên việc tìm tập các vectơ riêng trực chuẩn
, i = 1, 2, Á , N,
tors luôn luôn có thể thực hiện được (Noble và Daniel [1988]). Gọi
tôi và
tôi

sắp xếp (cho tiện lợi)


và li là các vectơ riêng và các giá trị riêng tương ứng củaCx,

, Hãy để A là
theo thứ tự giảm dần sao cho j = 1, 2, Án - 1.
tôi j Ú lj+1
một ma trận có các hàng được hình thành từ các vectơ riêngCx,
có thứ tự sao cho
hàng đầu tiên của A là vectơ riêng tương ứng với giá trị riêng lớn nhất,
và hàng cuối cùng là vectơ riêng tương ứng với giá trị riêng nhỏ nhất.
Giả sử chúng ta sử dụng A làm ma trận biến đổi để ánh xạ xs thành các
vectơ ký hiệu là ys, như sau:

y = A(x - m x) (11.4-6)


Theo định nghĩa, các vectơ riêng và giá trị riêng của* ma
ni =trận C, thỏa mãn hệ thức Cei = liei n ,vì
1, 2, Á , N.
Machine Translated by Google

11.4 ■ Sử dụng các thành phần chính cho mô tả 845

Biểu thức này được gọi là biến đổi Hotelling, như sẽ được trình bày Sự biến đổi của khách sạn
cũng giống như dis-
trong thời gian ngắn, có một số tính chất thú vị và hữu ích. crete Karhunen-Loève

Không khó để chỉ ra rằng giá trị trung bình của các vectơ y sinh ra từ điều này biến đổi (Karhunen
[1947]), do đó hai tên
biến đổi bằng không; đó là, được sử dụng thay thế cho nhau
trong văn học.

của tôi = E5y6 = 0 (11.4-7)

Theo lý thuyết ma trận cơ bản, ma trận hiệp phương sai của ys được đưa ra
theo A và theo Cx
biểu thức

Cy = ACxAT (11.4-8)

Hơn nữa, do cách hình thành nên A là một


C y ma trận đường chéo có
Cx ; đó là,
các phần tử dọc theo đường chéo chính là giá trị riêng của

0
l2
Cy = (11.4-9)

0
D l1 ln T

Các phần tử ngoài đường chéo của ma trận hiệp phương sai này là 0, do đó các phần tử của
vectơ y không tương quan. Hãy nhớ rằng lj 's là các giá trị riêng của
Cx và các phần tử dọc theo đường chéo chính của ma trận đường chéo là các
Cx
giá trị riêng của nó (Noble và Daniel [1988]). Do
C y đó và có cùng giá trị riêng.
Một tính chất quan trọng khác của phép biến đổi Hotelling liên quan đến việc
xây dựng lại x từ y. Vì các hàng của A là các vectơ trực chuẩn nên A-1 = AT,
mức thấp đó và bất kỳ vectơ x nào cũng có thể được phục hồi từ tương ứng của nó

y bằng cách sử dụng biểu thức

x = ATy + mx (11.4-10)

Tuy nhiên, giả sử rằng thay vì sử dụng tất cả các vectơ riêng của chúng ta tạoCx
thành ma-k k

trix Ak
từ các vectơ riêng tương ứng với các giá trị riêng lớn nhất,
thu được ma trận biến đổi bậc k * n. Các vectơ y khi đó sẽ là
k chiều và sự tái thiết được đưa ra trong biểu thức. (11.4-10) sẽ không còn
chính xác (điều này hơi giống với quy trình chúng tôi đã sử dụng trong Phần
11.2.3 để mô tả ranh giới có một vài hệ số Fourier).
Vector được xây dựng lại bằng cách sử dụng Ak là

xN = AT ky + mx (11.4-11)

Có thể chứng minh rằng sai số bình phương trung bình giữa xN
x và được cho bởi
biểu thức

N k

ems = một lj - một lj


j=1 j=1

= một lj (11.4-12)
j=k+1
Machine Translated by Google

846 Chương 11 ■ Biểu diễn và mô tả

k = n là
Dòng đầu tiên của phương trình. (11.4-12) chỉ ra rằng sai số bằng 0 nếu (nghĩa
nếu tất cả các vectơ riêng được sử dụng trong phép biến đổi). Bởi vì lj's
giảm nếp nhăn đơn điệu, phương trình. (11.4-12) cũng chỉ ra rằng sai số có thể được giảm thiểu bằng
k giá trị lớn nhất
cách chọn các vectơ riêng liên quan đến

các giá trị riêng. Do đó, phép biến đổi Hotelling là tối ưu theo nghĩa là nó tối thiểu
hóa sai số bình phương trung bình giữa các vectơ x và các giá trị gần đúng của chúng Do
ý tưởngxN.
sử dụng các vectơ riêng tương ứng với
giá trị riêng lớn nhất, phép biến đổi Hotelling còn được gọi là phép biến đổi chính
các thành phần biến đổi.

VÍ DỤ 11.15: ■ Hình 11.38 cho thấy sáu ảnh vệ tinh đa phổ tương ứng với sáu
Sử dụng tiền gốc dải quang phổ: xanh lam nhìn thấy được (450–520 nm), xanh lục nhìn thấy được (520–600 nm), nhìn thấy được
thành phần cho
đỏ (630–690 nm), hồng ngoại gần (760–900 nm), hồng ngoại trung bình (1550–1750
Mô tả hình ảnh.
nm) và hồng ngoại nhiệt (10.400–12500 nm). Mục tiêu của ví dụ này
là để minh họa cách sử dụng các thành phần chính để mô tả hình ảnh.

abc
chắc chắn

HÌNH 11.38 Hình ảnh đa phổ có (a) màu xanh lam nhìn thấy được, (b) màu xanh lá cây nhìn thấy được, (c) màu đỏ nhìn thấy được, (d) cận hồng ngoại,

(e) dải hồng ngoại trung và (f) dải hồng ngoại nhiệt. (Hình ảnh được cung cấp bởi NASA.)
Machine Translated by Google

11.4 ■ Sử dụng các thành phần chính cho mô tả 847

HÌNH 11.39
Sự hình thành của một

vectơ từ
tương ứng
pixel trong sáu
hình ảnh.

Dải quang phổ 6


x1
Dải quang phổ 5
x2

x3 Dải quang phổ 4


x
x4 Dải quang phổ 3
x5
Dải quang phổ 2
x6
Dải quang phổ 1

Việc sắp xếp các hình ảnh như trong Hình 11.39 dẫn đến sự hình thành sáu yếu tố
vectơ T
x = (x1, x2, Á x6) từ mỗi tập hợp pixel tương ứng trong ảnh,
như đã thảo luận ở phần đầu của phần này. Những hình ảnh trong ví dụ này là của
kích thước 564 * 564 pixel, do đó dân số bao gồm = 318.096 (564)2 vectơ

từ đó vectơ trung bình, ma trận hiệp phương sai và giá trị riêng tương ứng
và các vectơ riêng đã được tính toán. Các vectơ riêng sau đó được sử dụng làm các hàng
của ma trận A và một tập hợp các vectơ y thu được bằng phương trình. (11.4-6). Tương tự,
chúng tôi đã sử dụng phương trình. (11.4-8) để thu được Cy. Bảng 11.6 cho thấy các giá trị riêng của ma trận
này. Lưu ý sự vượt trội của hai giá trị riêng đầu tiên.
Một tập hợp các hình ảnh thành phần chính được tạo bằng vectơ y
đã đề cập ở đoạn trước (hình ảnh được xây dựng từ các vectơ bởi
áp dụng ngược lại Hình 11.39). Hình 11.40 thể hiện kết quả. Hình 11.40(a)
được hình thành từ thành phần đầu tiên của vectơ 318.096 y , Hình 11.40(b)
từ thành phần thứ hai của các vectơ này, v.v., vì vậy những hình ảnh này là
cùng kích thước với ảnh gốc trong Hình 11.38. Đặc điểm rõ ràng nhất ở
Các hình ảnh thành phần chính là một phần đáng kể của chi tiết tương phản được chứa
trong hai hình ảnh đầu tiên và nó giảm nhanh chóng từ đó.
Lý do có thể được giải thích bằng cách nhìn vào giá trị riêng. Như Bảng 11.6
cho thấy, hai giá trị riêng đầu tiên lớn hơn nhiều so với các giá trị còn lại. Bởi vì
giá trị riêng là phương sai của các phần tử của vectơ y và phương sai là a
đo độ tương phản cường độ, không có gì ngạc nhiên khi hình ảnh được hình thành
từ các thành phần vectơ tương ứng với giá trị riêng lớn nhất sẽ
thể hiện độ tương phản cao nhất. Trên thực tế, hai hình ảnh đầu tiên trong Hình 11.40 cho thấy

BẢNG 11.6 Giá


L1 L2 L3 L4 L5 L6
trị riêng của

10344 2966 1401 203 94 31 hiệp phương sai


ma trận thu được

từ những hình ảnh


trong hình 11.38.
Machine Translated by Google

848 Chương 11 ■ Biểu diễn và mô tả

abc
chắc chắn

HÌNH 11.40 Sáu ảnh thành phần chính thu được từ các vectơ được tính toán bằng phương trình. (11.4-6).
Các vectơ được chuyển đổi thành hình ảnh bằng cách áp dụng ngược lại Hình 11.39.

khoảng 89% tổng phương sai. Bốn hình ảnh còn lại có độ tương phản thấp
chi tiết vì chúng chỉ chiếm 11% còn lại.
Theo phương trình. (11.4-11) và (11.4-12), nếu chúng ta sử dụng tất cả các vectơ riêng trong

Khi đề cập đến hình ảnh, ma trận A chúng ta có thể tái tạo lại các ảnh gốc (vectơ) từ ảnh gốc
chúng tôi sử dụng thuật ngữ
hình ảnh thành phần (vectơ) không có sai số giữa hình ảnh gốc và hình ảnh được tái
Các “vectơ” có thể hoán

đổi cho nhau vì có một tạo. Nghĩa là, hình ảnh gốc và hình ảnh được tái tạo sẽ giống hệt nhau. Nếu mục
sự tương ứng một-một giữa
hai người trong
tiêu là lưu trữ và/hoặc truyền tải thành phần chính
bối cảnh hiện tại. hình ảnh và ma trận chuyển đổi để tái tạo lại bản gốc sau này
hình ảnh, sẽ không có ý nghĩa gì khi lưu trữ và/hoặc truyền tải tất cả các hình
ảnh thành phần chính vì sẽ không thu được gì. Tuy nhiên, giả sử rằng chúng ta
chỉ giữ và/hoặc truyền hai hình ảnh thành phần chính (chúng có
hầu hết các chi tiết tương phản). Khi đó sẽ tiết kiệm được đáng kể thời gian lưu
trữ và/hoặc đường truyền (ma trận A sẽ có kích thước 2 * 6, vì vậy tác động của nó sẽ

không đáng kể).


Hình 11.41 thể hiện kết quả tái tạo sáu ảnh đa phổ
từ hai ảnh thành phần chính tương ứng với giá trị riêng lớn nhất.
Năm hình ảnh đầu tiên trông khá giống với hình ảnh gốc trong Hình 11.38,
Machine Translated by Google

11.4 ■ Sử dụng các thành phần chính cho mô tả 849

abc
chắc chắn

HÌNH 11.41 Các ảnh đa phổ được tái tạo chỉ bằng hai ảnh thành phần chính
tương ứng với hai ảnh thành phần chính có giá trị riêng (phương sai) lớn nhất. So sánh
những hình ảnh này với bản gốc trong Hình 11.38.

nhưng điều này không đúng với hình ảnh thứ sáu. Lý do là hình ảnh thứ sáu ban đầu
thực tế là mờ, nhưng hai hình ảnh thành phần chính được sử dụng trong quá trình tái
tạo lại sắc nét, do đó, “chi tiết” mờ bị mất. Hình 11.42 cho thấy sự khác biệt giữa
ảnh gốc và ảnh được tái tạo. Các hình ảnh trong Hình 11.42
đã được tăng cường để làm nổi bật sự khác biệt giữa chúng. Nếu chúng được hiển thị
nếu không được cải tiến, năm hình ảnh đầu tiên sẽ xuất hiện gần như toàn màu đen. Như
dự đoán, hình ảnh khác biệt thứ sáu cho thấy nhiều biến đổi nhất. ■

■ Như đã đề cập trước đó trong chương này, việc trình bày và mô tả nên VÍ DỤ 11.16:

độc lập nhất có thể về kích thước, bản dịch và xoay. Sử dụng tiền gốc
thành phần cho
Các thành phần chính cung cấp một cách thuận tiện để bình thường hóa ranh giới
bình thường hóa với
và/hoặc các vùng có sự thay đổi trong ba tham số này. Hãy xem xét đối tượng trong
kính trọng
Hình 11.43 và giả sử rằng kích thước, vị trí và hướng (xoay) của nó là bitrary. Các sự thay đổi về kích thước,

điểm trong vùng (hoặc ranh giới của nó) có thể được coi là hai di- (x1, x2) T, dịch thuật và
Vòng xoay.
vectơ kinh nguyệt, bất kỳ x = ở đâu vàx1
là các x2
giá trị tọa độ của

điểm nào dọc theo trục và -, xtương


1- ứng. Tất cả các điểm trong vùng hoặc x2
Machine Translated by Google

850 Chương 11 ■ Biểu diễn và mô tả

abc
chắc chắn

HÌNH 11.42 Sự khác biệt giữa ảnh gốc và ảnh được tái tạo. Tất cả các hình ảnh khác biệt đã được
được tăng cường bằng cách chia tỷ lệ chúng thành phạm vi [0, 255] đầy đủ để hỗ trợ phân tích trực quan.

ranh giới tạo thành một quần thể vectơ 2-D có thể được sử dụng để tính toán
ma trận hiệp phương sai và
C xvectơ trung bình nhưmxtrước.
, Một vectơ riêng của
điểm theo hướng phương sai cực đại (dữ liệu trải rộng) của quần thể- Cx

trong khi vectơ riêng thứ hai vuông góc với vectơ riêng thứ nhất, như Hình 11.43(b)
trình diễn. Theo cuộc thảo luận hiện tại, các thành phần chính biến đổi
trong phương trình. (11.4-6) hoàn thành hai việc: (1) Nó thiết lập trung tâm của
hệ tọa độ biến đổi tại trọng tâm (trung bình) của quần thể vì được trừ đi mỗi x;
và (2) tọa độ y
mx(vectơ)
nó tạo ra các phiên bản xoay của x, sao cho dữ liệu căn chỉnh với
Hệ thống trục y có thể vectơ riêng. Nếu chúng ta xác định
(y1,một
y2)hệ trục dọc theo trục đầu tiên
theo hướng 180° ngược
với hướng vectơ riêng y1 và dọc theo vectơ riêng thứ hai, thì kết quả hình học là như minh họa- y2
được hiển thị trong Hình 11.43(c), được biểu diễn trong Hình 11.43(c). Nghĩa là, các hướng dữ liệu chi phối được căn chỉnh với
tùy thuộc vào hướng của
hệ thống trục. Kết quả tương tự sẽ thu được bất kể kích thước, sự dịch chuyển hoặc
đối tượng ban đầu. Ví
dụ, nếu góc quay của đối tượng, miễn là tất cả các điểm trong vùng hoặc ranh giới đều trải
mũi máy bay ở
qua những thay đổi như nhau. Nếu chúng ta muốn chuẩn hóa kích thước của biến đổi
Hình 11.43(a) đã được
chỉ vào điều ngược lại dữ liệu, chúng tôi sẽ chia tọa độ cho các giá trị riêng tương ứng.
hướng, kết quả
Quan sát trong Hình 11.43(c) rằng các điểm trong hệ trục y có thể có cả hai
vectơ riêng sẽ chỉ
sang trái và xuống. các giá trị dương và âm. Để chuyển đổi tất cả tọa độ thành giá trị dương, chúng ta
Machine Translated by Google

11.4 ■ Sử dụng các thành phần chính cho mô tả 851

x2 x2 A
B C D
Hướng vuông góc với hướng có
phương sai lớn nhất HÌNH 11.43 (a)

Một vật thể. (b)


e2
Đối tượng
e1
hiển thị

Hướng của các vectơ riêng của ma


phương sai tối đa trận hiệp phương sai

của nó. (c) Đối tượng

được biến đổi, thu

được bằng phương trình.

(11.4-6). (d)
Đối tượng được dịch

sao cho tất cả các


x1 x1
giá trị tọa độ của nó
lớn hơn 0.
y2 y2

Tâm

y1

y1

T
phút) chỉ cần trừ vectơ khỏi tất cả(y1
cácphút,
vectơy2y . Để dịch chuyển các điểm kết quả sao cho tất cả

chúng đều lớn hơn 0, như trong Hình 11.43(d), chúng ta thêm vào chúng một vectơ

(a, b) ở đâu và lớnbhơn 0.


T Một

Mặc dù về nguyên tắc thảo luận ở trên là đơn giản, nhưng cơ chế cơ học
thường là nguyên nhân gây nhầm lẫn. Vì vậy, chúng ta kết thúc ví dụ này bằng
một minh họa thủ công đơn giản. Hình 11.44(a) cho thấy bốn điểm có tọa độ
(1, 1), (2, 4), (4, 2) và (5, 5). Vectơ trung bình, ma trận hiệp phương sai
và vectơ riêng chuẩn hóa (độ dài đơn vị) của quần thể này là

mx = B 3

3 R Cx =2,00
B 3,333
2,00 3,333R

e1 = B 0,707 0,707R, e2 = B 0,707


-0,707
R
Machine Translated by Google

852 Chương 11 ■ Biểu diễn và mô tả

bụng x2 x2
đĩa CD

7 7
HÌNH 11.44
Hướng dẫn sử dụng 6 6
ví dụ. 5 5
(a) Bản gốc
4 4
điểm.
3 3 e2 e1
(b) Vector riêng
của hiệp phương sai 2 2
ma trận của
1 1
điểm trong (a).
x1 x1
(c) Chuyển hóa 0 01234567 0 01234567
điểm đạt được
sử dụng phương trình. (11.4-6).
y2 y2
(d) Điểm từ
(c), làm tròn và
dịch vậy đó 3 7
tất cả phối hợp 2 6
giá trị là
1 5
số nguyên lớn hơn
y1 4
hơn 0. 3 2 1 123
đường đứt nét là 1 3
bao gồm vào 2 2
tạo điều kiện thuận lợi cho việc xem.
3 1
Họ không phải là một phần
y1
của dữ liệu. 0 01234567

Các giá trị riêng tương ứng là = 5,333 tôi


1
và l2 = 1,333. Hình 11.44(b)

hiển thị các vectơ riêng được đặt chồng lên dữ liệu. Từ phương trình. (11.4-6), các điểm biến đổi

( ys) là (-2.828, 0), (0, 1.414), (0, -1.414), và (2.828, 0).

Những điểm này được vẽ trong hình 11.44(c). Lưu ý rằng chúng được căn chỉnh theo trục y và chúng

có các giá trị phân số. Khi làm việc với hình ảnh, các giá trị

thường là số nguyên, do đó cần phải làm tròn tất cả các phân số đến giá trị gần nhất của chúng

giá trị số nguyên. Hình 11.44(d) hiển thị các điểm được làm tròn đến số nguyên gần nhất

các giá trị và vị trí của chúng được dịch chuyển sao cho tất cả các giá trị tọa độ đều là số nguyên

lớn hơn 0 như hình vẽ ban đầu. ■

11.5 Bộ mô tả quan hệ
Chúng tôi đã giới thiệu trong Phần 11.3.3 khái niệm viết lại các quy tắc để mô tả

kết cấu. Trong phần này, chúng tôi mở rộng khái niệm đó trong bối cảnh của các bộ mô tả quan hệ.

Những điều này áp dụng tốt như nhau cho các ranh giới hoặc khu vực, và chính chúng

Mục đích là nắm bắt dưới dạng viết lại các quy tắc các mẫu lặp đi lặp lại cơ bản trong

một ranh giới hoặc một khu vực.

Hãy xem xét cấu trúc cầu thang đơn giản được hiển thị trong Hình 11.45(a).Giả sử rằng

cấu trúc này đã được phân đoạn ra khỏi một hình ảnh và chúng tôi muốn mô tả nó theo một cách chính

thức nào đó. Bằng cách xác định hai phần tử nguyên thủy và Một b

được hiển thị, chúng ta có thể mã hoá Hình 11.45(a) theo dạng như trong Hình 11.45(b). Hầu hết

Thuộc tính rõ ràng của cấu trúc được mã hóa là tính lặp lại của các phần tử
Machine Translated by Google

11.5 ■ Bộ mô tả quan hệ 853

… Một
… Một
bụng
b
b Một HÌNH 11.45
b (a) Đơn giản
Một
cầu thang
b kết cấu.
Một

(b) Được mã hóa


kết cấu.


Một

b

Một

Một
và Dob.đó, một cách tiếp cận mô tả đơn giản là xây dựng một biểu thức đệ quy
mối quan hệ liên quan đến các yếu tố nguyên thủy này. Một khả năng là sử dụng
quy tắc viết lại:

(1) S : aA,

(2) A : bS,
(3) A: b,

trong đó SA
và là các biến, các phần tử và là các hằng số tương
Một
ứng b
với các nguyên hàm vừa được xác

định. Quy tắc 1 chỉ ra rằng được gọi là ký hiệu bắt đầu- A. S,
bol, có thể được thay thế bằng nguyên Một
thủy và biến. Biến này lần lượt có thể được thay thế
b bằng
thế bằng và hoặc S b được thay Thay thế bằng A bS,
một mình. dẫn trở lại đầu tiên

quy tắc và thủ tục có thể được lặp lại. Việc thay thếA bằng
b sẽ kết thúc quy trình
vì không còn biến nào trong biểu thức. Hình 11.46 minh họa
một số dẫn xuất mẫu của các quy tắc này, trong đó các số bên dưới cấu trúc
thể hiện thứ tự áp dụng các quy tắc 1, 2 và 3. Mối quan hệ giữa và được duy trì,
b
bởi vì những quy
Một
tắc này buộc bạn phải luôn tuân theo Một

Đáng b.
chú ý là ba quy tắc viết lại đơn giản này có thể được sử dụng để tạo ra
(hoặc mô tả) vô số cấu trúc “tương tự”.
Bởi vì các chuỗi là cấu trúc 1-D nên ứng dụng của chúng vào việc mô tả hình ảnh
yêu cầu thiết lập một phương pháp thích hợp để giảm các mối quan hệ vị trí 2-D
thành dạng 1-D. Hầu hết các ứng dụng của chuỗi để mô tả hình ảnh đều
dựa trên ý tưởng trích xuất các đoạn đường nối từ các đối tượng của
quan tâm. Một cách tiếp cận là đi theo đường viền của một đối tượng và mã hóa
kết quả bằng các đoạn có hướng và/hoặc độ dài được chỉ định. Hình 11.47 minh họa
thủ tục này.
Một cách tiếp cận khác, tổng quát hơn, là mô tả các phần của một
hình ảnh (chẳng hạn như các vùng đồng nhất nhỏ) theo các đoạn đường có hướng,

HÌNH 11.46
Một Một Một

b b b Vật mẫu
Một Một dẫn xuất cho
(1, 3)
các quy tắc
b b
Một
S : aA, A : bS,
(1, 2, 1, 3) và A: b.
b
(1, 2, 1, 2, 1, 3)
Machine Translated by Google

854 Chương 11 ■ Biểu diễn và mô tả

HÌNH 11.47 Mã
ranh giới
hóa ranh giới vùng
bằng các đoạn
đường có hướng.

Điểm
khởi đầu

Vùng đất

có thể được nối theo những cách khác ngoài các kết nối từ đầu đến cuối. Hình
11.48(a) minh họa cách tiếp cận này và Hình 11.48(b) cho thấy một số thao tác điển
hình có thể được định nghĩa trên các nguyên hàm trừu tượng. Hình 11.48(c) hiển thị
một tập hợp các nguyên hàm cụ thể bao gồm các đoạn đường được xác định theo bốn hướng và

bụng Tóm tắt Cái đầu


c nguyên thủy b
Một
bụng
d bụng

trừu tượng
HÌNH 11.48
nguyên thủy
Một Một

(a) Nguyên thủy


bụng
một * b
trừu tượng.
b
(b) Các thao tác Đuôi b
giữa các nguyên thủy. Đuôi
(c) Một tập
hợp các nguyên thủy cụ
thể. (d) Các
bước xây dựng một
kết cấu. Một b c d

t h t h

t
h c (~d) d [c (~d)]

bụng (a b) * c {d [c (~d)]} * [(a b) * c]


Machine Translated by Google

11.5 ■ Bộ mô tả quan hệ 855

$ HÌNH 11.49 A
cây đơn giản với
gốc $ và
z y
biên giới xy.

Hình 11.48(d) thể hiện việc tạo từng bước một hình dạng cụ thể, trong đó ('d)
d
biểu thị nguyên thủy với hướng của nó bị đảo ngược. Lưu ý rằng mỗi cấu trúc composite
có một đầu và một đuôi. Kết quả được quan tâm là
chuỗi cuối cùng, mô tả cấu trúc hoàn chỉnh.
Mô tả chuỗi phù hợp nhất cho các ứng dụng trong đó khả năng kết nối của
nguyên thủy có thể được thể hiện theo cách từ đầu đến cuối hoặc theo cách liên tục khác.
Đôi khi các vùng tương tự nhau về kết cấu hoặc mô tả khác có thể
không liền kề nhau và cần có các kỹ thuật để mô tả các tình huống như vậy.
Một trong những cách tiếp cận hữu ích nhất để làm như vậy là sử dụng bộ mô tả cây.
T tập hữu hạn gồm một hoặc nhiều nút mà tại đó
Cây là một

(a) có một nút duy nhất $ được chỉ định là nút gốc và
T1 , trong đó lần lượt ,
(b) các nút còn lại được phân chia thành các tập rời rạc tôi MỘT

, Tm, mỗi
là một cây gọi là cây con của T.

Biên giới của cây là tập hợp các nút ở dưới cùng của cây (các lá), được lấy
theo thứ tự từ trái qua phải. Ví dụ: cây trong Hình 11.49 có gốc $
và biên giới xy.

Nhìn chung, có hai loại thông tin trong cây rất quan trọng: (1) thông tin
về một nút được lưu trữ dưới dạng một tập hợp các từ mô tả nút đó và (2) thông tin
liên kết một nút với các nút lân cận của nó, được lưu trữ dưới dạng một tập hợp các con trỏ tới các nút lân cận đó.

Như được sử dụng trong mô tả hình ảnh, loại thông tin đầu tiên xác định hình ảnh
cấu trúc con (ví dụ: vùng hoặc phân đoạn ranh giới), trong khi loại thứ hai xác định
mối quan hệ vật lý của cấu trúc con đó với các cấu trúc con khác. Vì
Ví dụ: Hình 11.50(a) có thể được biểu diễn bằng một cây bằng cách sử dụng mối quan hệ
"bên trong của." Vì vậy, nếu gốc của cây được ký hiệu là $, Hình 11.50(a) cho thấy rằng
mức độ phức tạp đầu tiên liên quan đến và bên
Một
trong c$, tạo ra hai
các nhánh phát ra từ gốc, như trong Hình 11.50(b). Cấp độ tiếp theo liên quan đến bên
trong vàb bên trongMột,Cuối cùng,
d e trong hoàn
bên c. thiện cây.
f e

$ bụng
$
HÌNH 11.50
b
(a) Đơn giản
Một
Một c
vùng tổng hợp.
(b) Biểu diễn cây
e
thu được bằng
c f
b d e sử dụng
mối quan hệ
d
"bên trong của."

f
Machine Translated by Google

856 Chương 11 ■ Biểu diễn và mô tả

Bản tóm tắt


Việc biểu diễn và mô tả các đối tượng hoặc vùng đã được phân đoạn ra khỏi hình ảnh là những
bước đầu tiên trong hoạt động của hầu hết các quy trình tự động liên quan đến hình ảnh. Ví
dụ, những mô tả này tạo thành đầu vào cho các phương pháp nhận dạng đối tượng được phát triển
trong chương sau. Như được chỉ ra bởi phạm vi các kỹ thuật mô tả được đề cập trong chương
này, việc lựa chọn phương pháp này hay phương pháp khác được xác định bởi vấn đề đang được
xem xét. Mục tiêu là chọn các mô tả có thể “nắm bắt” những khác biệt cơ bản giữa các đối
tượng hoặc các lớp đối tượng, đồng thời duy trì sự độc lập nhiều nhất có thể với những thay
đổi về vị trí, kích thước và hướng.

Tài liệu tham khảo và đọc thêm Thuật toán theo

ranh giới trong Phần 11.1.1 lần đầu tiên được đề xuất bởi Moore [1968]. Biểu diễn mã chuỗi
được thảo luận trong Phần 11.1.2 lần đầu tiên được đề xuất bởi Freeman [1961, 1974]. Đối với
công việc hiện tại sử dụng mã chuỗi, xem Bribiesca [1999], người cũng đã mở rộng mã chuỗi
thành 3-D (Bribiesca [2000]). Để biết thảo luận chi tiết và thuật toán tính đa giác có chu vi
tối thiểu (Phần 11.1.3), xem Klette và Rosenfeld [2004]. Xem thêm Sloboda và cộng sự. [1998]
và Coeurjolly và Klette [2004]. Các chủ đề bổ sung được quan tâm đối với tài liệu trong Phần
11.1.4 bao gồm khớp đa giác bất biến (Voss và Suesse [1997]), các phương pháp đánh giá hiệu
suất của các thuật toán xấp xỉ đa giác (Rosin [1997]), cách triển khai chung (Huang và Sun
[ 1999]) và tốc độ tính toán (Davis [1999]).

Tài liệu tham khảo cho việc thảo luận về chữ ký (Phần 11.1.5) là Ballard và Brown [1982]
và Gupta và Srinath [1988]. Xem Preparata và Shamos [1985] về các công thức fun-damental để
tìm bao lồi và thiếu lồi (Phần 11.1.6). Xem thêm bài báo của Liu-Yu và Antipolis [1993].
Katzir và cộng sự. [1994] thảo luận về việc phát hiện các đường cong bị che khuất một phần.
Zimmer và cộng sự. [1997] thảo luận về một thuật toán cải tiến để tính toán bao lồi, và
Latecki và Lakämper [1999] thảo luận về quy tắc lồi để phân rã hình dạng.

Thuật toán khung hóa được thảo luận trong Phần 11.1.7 dựa trên Zhang và Suen [1984]. Một
số nhận xét bổ sung hữu ích về các thuộc tính và cách triển khai thuật toán này được đưa vào
bài báo của Lu và Wang [1986]. Một bài báo của Jang và Chin [1990] đưa ra mối liên hệ thú vị
giữa cuộc thảo luận ở Phần 11.1.7 và khái niệm hình thái học của việc tỉa thưa được giới
thiệu ở Phần 9.5.5. Về các phương pháp làm mỏng khi có tiếng ồn, xem Shi và Wong [1994] và
Chen và Yu [1996]. Shaked và Bruckstein [1998] thảo luận về một thuật toán cắt tỉa hữu ích để
loại bỏ các cựa khỏi một bộ xương. Tính toán nhanh phép biến đổi trục trung gian được thảo
luận bởi Sahni và Jenq [1992] và bởi Ferreira và Ubéda [1999]. Bài khảo sát của Loncaric
[1998] được quan tâm liên quan đến nhiều cách tiếp cận được thảo luận trong Phần 11.1.

Freeman và Shapira [1975] đưa ra thuật toán tìm hình chữ nhật cơ bản của một đường cong
khép kín, được mã hóa chuỗi (Phần 11.2.1). Cuộc thảo luận về số lượng hình dạng trong Phần
11.2.2 dựa trên công trình của Bribiesca và Guzman [1980] và Bribiesca [1981]. Để đọc thêm về
các bộ mô tả Fourier (Phần 11.2.3), hãy xem các bài viết đầu tiên của Zahn và Roskies [1972]
và của Persoon và Fu [1977]. Xem thêm Aguado và cộng sự. [1998] và Sonka và cộng sự. [1999].
Reddy và Chatterji [1996] thảo luận về một cách tiếp cận thú vị bằng cách sử dụng FFT để đạt
được tính bất biến đối với phép tịnh tiến, phép quay và thay đổi tỷ lệ. Tài liệu trong Phần
11.2.4 dựa trên lý thuyết xác suất cơ bản (ví dụ, xem Peebles [1993] và Popoulis [1991]).
Để đọc thêm về Phần 11.3.2, xem Rosenfeld và Kak [1982] và Ballard và Brown [1982]. Để có
phần giới thiệu hay về kết cấu (Phần 11.3.3), xem Haral-ick và Shapiro [1992]. Về khảo sát
ban đầu về kết cấu, xem Wechsler [1980]. Các bài báo của Murino et al. [1998] và Garcia
[1999], cũng như cuộc thảo luận của Shapiro và Stockman [2001], là đại diện cho công việc
hiện tại trong lĩnh vực này.
Machine Translated by Google

■ Vấn đề 857

Cách tiếp cận mô men bất biến được thảo luận trong Phần 11.3.4 là của Hu [1962]. Xem thêm Bell

[1965]. Để có ý tưởng về phạm vi ứng dụng của mômen bất biến, hãy xem Hall [1979] về đối sánh hình ảnh

và Cheung và Teoh [1999] về việc sử dụng mômen để mô tả tính đối xứng. Bất biến mô men đã được khái

quát hóa thành các chiều bởi Mamistvalov [1998]. Để tạo ra các khoảnh khắc có thứ tựN tùy ý, xem Flusser

[2000].

Hotelling [1933] là người đầu tiên tìm ra và công bố phương pháp biến đổi các biến rời rạc thành

các hệ số không tương quan. Ông gọi kỹ thuật này là phương pháp của các thành phần chính. Bài viết của

ông cung cấp cái nhìn sâu sắc đáng kể về phương pháp và đáng đọc. Sự biến đổi của Hotelling đã được

Kramer và Mathews [1956] và Huang và Schultheiss [1963] khám phá lại. Các thành phần chính vẫn là công

cụ cơ bản để mô tả hình ảnh được sử dụng trong nhiều ứng dụng, như được minh họa bởi Swets và Weng

[1996] và Duda, Heart, and Stork [2001]. Tài liệu tham khảo trong Phần 11.5 là Gonzalez và Thomason

[1978] và Fu [1982]. Xem thêm Sonka và cộng sự.

[1999]. Để đọc thêm về các chủ đề của chương này với trọng tâm là thực hiện, xem Nixon và Aguado

[2002] và Gonzalez, Woods, và Eddins [2004].

Các vấn đề
11.1 (a) Chứng minh rằng việc xác định lại điểm bắt đầu của mã chuỗi sao cho dãy số tạo thành một số

nguyên có độ lớn tối thiểu làm cho mã độc lập với điểm bắt đầu ban đầu trên ranh giới.

(b) Tìm điểm bắt đầu chuẩn hóa của mã 11076765543322.

11.2 (a) Chứng tỏ rằng sự khác biệt đầu tiên của mã chuỗi chuẩn hóa nó thành phép quay, như ví dụ-

được trình bày ở Mục 11.1.2.

(b) Tính sai phân đầu tiên của mã 0101030303323232212111. 11.3 (a) Chứng minh rằng

phương pháp xấp xỉ đa giác dây cao su được thảo luận ở

Mục 11.1.3 mang lại một đa giác có chu vi tối thiểu. (b) Chứng minh rằng

nếu mỗi ô tương ứng với một pixel trên đường biên thì lỗi tối đa 22d có thể xảy ra trong ô đó là d

trong
đó khoảng cách ngang hoặc dọc tối thiểu có thể các
có giữa
pixel liền kề (tức là khoảng cách giữa các

dòng trong lưới lấy mẫu được sử dụng để tạo ra hình ảnh kỹ thuật số).

11.4 Giải thích cách thuật toán MPP trong Phần 11.1.3 hoạt động như sau
điều kiện:

(a) thụt lề rộng 1 pixel, sâu 1 pixel. (b) thụt lề

sâu rộng 1 pixel, sâu 2 pixel trở lên. (c) Các phần nhô ra

rộng 1 pixel, dài 1 pixel. (d) Các phần nhô ra

rộng 1 pixel, dài n-pixel.

11.5 (a) Thảo luận về ảnh hưởng lên đa giác thu được nếu ngưỡng lỗi được đặt bằng 0 trong phương pháp

hợp nhất được thảo luận trong Phần 11.1.4.

(b) Tác dụng của phương pháp tách là gì? 11.6 (a) Vẽ dấu hiệu

của ranh giới hình vuông bằng phương pháp phân tích góc tiếp tuyến
chửi rủa trong Mục 11.1.5.

(b) Lặp lại cho hàm mật độ độ dốc.

Giả sử rằng hình vuông thẳng hàng với trục y và trục x-


x và lấy trục x làm đường tham chiếu.

Bắt đầu ở góc gần điểm gốc nhất.

11.7 Tìm biểu thức cho chữ ký của mỗi ranh giới sau và vẽ các chữ ký. (a) Một tam giác đều (b) Một

hình chữ nhật (c) Một

hình elip
Machine Translated by Google

858 Chương 11 ■ Biểu diễn và mô tả

11.8 Vẽ trục trung gian của

(a) Một vòng tròn

(b) Một hình vuông

(c) Một hình chữ nhật

(d) Tam giác đều

11.9 Đối với mỗi hình vẽ,

(a) Thảo luận về hành động được thực hiện tại Bước 1 của thuật toán khung hóa

nhịp điệu được trình bày ở Mục 11.1.7.

(b) Lặp lại Bước 2 của thuật toán. Giả sử p = 1 trong tất cả trường hợp.

110 000 010 110

1 trang 0 1 P 0 1 P 1 0 trang 1

110 000 010 000

11.10 Khi tham khảo thuật toán khung hóa trong Phần 11.1.7, điều gì sẽ xảy ra?
hình được hiển thị trông giống như sau

(a) Một lần vượt qua Bước 1 của thuật toán?

(b) Một lần vượt qua Bước 2 (dựa trên kết quả của Bước 1, không phải ảnh gốc)?

11.11 (a) Thứ tự số hình của hình vẽ là gì?

(b) Lấy số dạng hình.

11.12 Quy trình được thảo luận trong Phần 11.2.3 để sử dụng bộ mô tả Fourier bao gồm
biểu thị tọa độ của đường viền dưới dạng số phức, lấy DFT
của những con số này và chỉ giữ lại một vài thành phần của DFT làm mô tả
hình dạng ranh giới. DFT nghịch đảo khi đó sẽ gần đúng với giá trị ban đầu
viền. Lớp hình dạng đường viền nào sẽ có DFT bao gồm các số thực và hệ thống trục trong
Hình 11.19 phải được thiết lập như thế nào để có được các số này?
số thực?

11.13 Chứng tỏ rằng nếu bạn chỉ sử dụng hai bộ mô tả Fourier thì sẽ (u = 0 và u = 1) để điều tra lại

xây dựng một ranh giới với biểu thức. (11.2-5), kết quả sẽ luôn là một đường tròn. (Gợi ý: Sử dụng
Machine Translated by Google

■ Vấn đề 859

biểu diễn tham số của đường tròn trong mặt phẳng phức và biểu diễn
phương trình đường tròn trong tọa độ cực.)

11.14 Cho số lượng mô tả mômen thống kê nhỏ nhất cần thiết để phân biệt các dấu hiệu của các
hình được hiển thị trong Hình 11.10.

11.15 Cho hai hình biên có cùng mô tả mômen thống kê trung bình và thống kê thứ ba, nhưng
mômen thứ hai khác nhau.

11.16 Đề xuất một bộ mô tả có khả năng phân biệt giữa các hình dạng của
X. dụng kết hợp các bộ mô tả tôpô
ký tự 0, 1, 8, 9 và (Gợi ý: Sử
với thân lồi.)

11.17 Xét ảnh nhị phân có kích thước 200 * 200 pixel, với dải màu đen dọc kéo dài từ
cột 1 đến 99 và dải màu trắng dọc kéo dài từ các cột
100 đến 200.

(a) Lấy ma trận xuất hiện của hình ảnh này bằng toán tử vị trí
“một pixel ở bên phải.”

(b) Chuẩn hóa ma trận này sao cho các phần tử của nó trở thành ước tính xác suất, như
được giải thích trong Phần 11.3.1.

(c) Sử dụng ma trận của bạn từ (b) để tính sáu ký hiệu mô tả trong Bảng 11.3.

11.18 Xét một hình ảnh bàn cờ gồm các màu đen và trắng xen kẽ
hình vuông, mỗi kích thước Cung cấp một toán tử vị trí sẽ mang lại đường chéo-m * m.
ma trận sự xuất hiện cuối cùng.

11.19 Lấy ma trận xuất hiện cấp độ xám của 5 * 5 hình ảnh bao gồm một
bàn cờ xen kẽ 1 s và 0 nếu

(a) toán tử vị trí được định Qnghĩa là “một pixel ở bên phải” và

(b) toán tử vị trí được định Qnghĩa là “hai pixel ở bên phải”.

Giả sử pixel trên cùng bên trái có giá trị 0.

11.20 Chứng minh tính đúng đắn của các phương trình. (11.4-7), (11.4-8) và (11.4-9).

11.21 Trong Ví dụ 11.13 đã đề cập rằng một công việc đáng tin cậy có thể được thực hiện bằng
cách xây dựng lại các phép tính gần đúng cho sáu ảnh gốc bằng cách chỉ sử dụng hai
ảnh thành phần princi-pal được liên kết với các giá trị riêng lớn nhất. Điều gì sẽ xảy ra
lỗi bình phương trung bình phát sinh khi làm như vậy? Thể hiện câu trả lời của bạn dưới
dạng phần trăm của lỗi tối đa có thể xảy ra.

11.22 Đối với bộ ảnh có kích thước 64 * 64, giả sử rằng ma trận hiệp phương sai được đưa ra trong

phương trình. (11.4-9) hóa ra là ma trận đồng nhất. Bình phương trung bình sẽ là gì
lỗi giữa hình ảnh gốc và hình ảnh được xây dựng lại bằng phương trình. (11.4-11)
chỉ với một nửa số vectơ riêng ban đầu?

11.23 Trong những điều kiện nào bạn mong đợi các trục chính của một đường biên được xác định
trong Mục 11.2.1 có bằng các trục riêng của ranh giới đó không?

11.24 Đưa ra mối quan hệ không gian và biểu diễn cây tương ứng cho mẫu bàn cờ gồm các ô vuông
đen trắng. Giả sử rằng phần tử trên cùng bên trái là
màu đen và gốc của cây tương ứng với phần tử đó. Cây của bạn có thể
có không quá hai nhánh phát ra từ mỗi nút.

11.25 Bạn được ký hợp đồng thiết kế một hệ thống xử lý hình ảnh để phát hiện những điểm không
hoàn hảo ở bên trong một số tấm bán dẫn nhựa rắn. Các tấm wafer được kiểm tra bằng cách sử dụng
hệ thống chụp ảnh tia X, tạo ra hình ảnh 8 bit có kích thước 512 * 512 . Trong ab-

cảm giác không hoàn hảo, hình ảnh có vẻ “nhạt nhẽo”, có cường độ trung bình là 100
và phương sai 400. Các điểm không hoàn hảo xuất hiện dưới dạng các vùng giống như đốm màu trong đó khoảng

70% số điểm ảnh có sự dịch chuyển ở cường độ 50 mức cường độ hoặc ít hơn khoảng một
Machine Translated by Google

860 Chương 11 ■ Biểu diễn và mô tả

trung bình là 100. Một tấm wafer được coi là bị lỗi nếu vùng đó chiếm diện tích vượt quá 20 * 20

kích thước pixel. Đề xuất hệ thống dựa trên phân tích kết cấu.

11.26 Một công ty đóng chai nhiều loại hóa chất công nghiệp đã nghe nói về sự thành công của bạn trong việc

giải quyết các vấn đề về hình ảnh và thuê bạn thiết kế một phương pháp để phát hiện các vấn đề về hình ảnh.

khi chai chưa đầy. Các chai xuất hiện như thể hiện trong hình dưới đây như
chúng di chuyển dọc theo dây chuyền băng tải đi qua trạm đóng nắp và chiết rót tự động.A
chai được coi là đầy không hoàn hảo khi mức chất lỏng dưới mức
điểm giữa đáy cổ và vai chai.
Vai được định nghĩa là vùng của chai nơi các cạnh và nghiêng
phần của chai giao nhau. Các chai đang di chuyển, nhưng công ty có một
hệ thống hình ảnh được trang bị đèn flash chiếu sáng phía trước có hiệu quả
dừng chuyển động, do đó bạn sẽ nhận được những hình ảnh trông rất giống với mẫu
được hiển thị ở đây. Dựa trên tài liệu bạn đã học được cho đến thời điểm này, hãy đề xuất một
giải pháp phát hiện chai không được đổ đầy đúng cách. Nêu rõ tất cả các giả định mà bạn
đưa ra và có khả năng ảnh hưởng đến giải pháp bạn đề xuất.

11.27 Sau khi nghe tin bạn đã thành công trong vấn đề đóng chai, chúng tôi đã liên hệ với bạn
bởi một công ty chất lỏng mong muốn tự động hóa việc đếm bong bóng trong một số quy trình nhất định để

kiểm soát chất lượng. Công ty đã giải quyết được vấn đề hình ảnh và có thể thu được hình ảnh 8 bit có

kích thước 700 * 700 pixel, chẳng hạn như pixel được hiển thị. Mỗi hình ảnh
7 cm2
đại diện cho một lĩnh vực của . ty mong muốn thực hiện hai việc với mỗi lĩnh vực
Công
hình ảnh: (1) Xác định tỷ lệ diện tích chiếm bởi bong bóng trên tổng diện tích
của hình ảnh và (2) đếm số lượng bong bóng riêng biệt. Dựa trên tài liệu bạn đã học cho
đến thời điểm này, hãy đề xuất giải pháp cho vấn đề này. Trong của bạn
giải pháp, hãy đảm bảo nêu kích thước vật lý của bong bóng nhỏ nhất của bạn
giải pháp có thể phát hiện. Nêu rõ tất cả các giả định mà bạn đưa ra và đó là
có khả năng tác động đến giải pháp bạn đề xuất.
Machine Translated by Google

12 Nhận dạng đối tượng

Một trong những khía cạnh thú vị nhất của thế


giới là nó có thể được coi là

tạo thành từ các mẫu.

Một khuôn mẫu về cơ bản là một sự sắp xếp. Nó là

được đặc trưng bởi thứ tự của các yếu tố cấu

thành nên nó chứ không phải bởi bản chất nội tại
của các yếu tố này.

Norbert Wiener
Xem trước
Chúng tôi kết thúc bài viết về xử lý ảnh kỹ thuật số bằng phần giới thiệu về
các kỹ thuật nhận dạng đối tượng. Như đã lưu ý trong Phần 1.1, chúng tôi đã xác định
phạm vi được đề cập trong cách xử lý xử lý hình ảnh kỹ thuật số của chúng tôi bao gồm việc
nhận dạng các vùng hình ảnh riêng lẻ mà trong chương này chúng tôi gọi là đối tượng hoặc mẫu.
Các phương pháp tiếp cận nhận dạng mẫu được phát triển trong chương này được chia
thành hai lĩnh vực chính: lý thuyết quyết định và cấu trúc. Hạng mục đầu tiên
xử lý các mẫu được mô tả bằng cách sử dụng các mô tả định lượng, chẳng hạn như chiều dài, diện tích,

và kết cấu. Loại thứ hai đề cập đến các mẫu được mô tả tốt nhất bằng các bộ mô tả
định tính, chẳng hạn như các bộ mô tả quan hệ được thảo luận trong Phần 11.5.
Trọng tâm của chủ đề công nhận là khái niệm “học hỏi” từ các mẫu mẫu. Kỹ thuật
học tập cho cả lý thuyết quyết định và cấu trúc
các phương pháp tiếp cận được phát triển và minh họa trong tài liệu sau đây.

12.1 Mẫu và lớp mẫu

Một mẫu là sự sắp xếp của các bộ mô tả, chẳng hạn như những gì được thảo luận trong
Chương 11. Đặc điểm tên được sử dụng thường xuyên trong tài liệu nhận dạng mẫu để
biểu thị một bộ mô tả. Một lớp mẫu là một họ các mẫu
chia sẻ một số tài sản chung. Các lớp mẫu được biểu thị ở đâu là số v1, v2, Á , vW,
W Nhận dạng mẫu bằng máy bao gồm
lượng lớp.

861
Machine Translated by Google

862 Chương 12 ■ Nhận dạng đối tượng

các kỹ thuật gán mẫu cho các lớp tương ứng của chúng—một cách tự động và với
ít sự can thiệp của con người nhất có thể.
Ba cách sắp xếp mẫu phổ biến được sử dụng trong thực tế là vectơ (đối với
mô tả định lượng) và chuỗi và cây (đối với mô tả cấu trúc). Các vectơ mẫu được
biểu thị bằng các chữ cái viết thường in đậm, chẳng hạn như x, y và z và có dạng

x2
x = (12.1-1)
o

D x1 xn T

cho bộ mô tả thứ i và là tổng số các bộ mô tả Nđó được liên kết với


trong đó mỗi thành phần đại diệnxi,

mẫu. Các vectơ mẫu được biểu diễn dưới dạng cột (nghĩa là ma trận). Do đó, một vectơ mẫu có thể là n

* 1 được biểu thị dưới dạng như trong xn)


biểu thức. (12.1-1) hoặc ở dạng tương đương T, x = (x1, x2, Á ,
Tham khảo trang web sách

để xem xét ngắn gọn về vec- trong đó biểu thị chuyển vị. Bạn sẽ nhận ra ký hiệu này từ Phần 11.4.
tors và ma trận.
T

Bản chất của các thành phần của một vectơ mẫu x phụ thuộc vào cách tiếp
cận được sử dụng để mô tả chính mẫu vật đó. Chúng ta hãy minh họa bằng một
ví dụ vừa đơn giản vừa mang lại cảm giác lịch sử trong lĩnh vực phân loại các
phép đo. Trong một bài báo cổ điển, Fisher [1936] đã báo cáo việc sử dụng một
kỹ thuật mới gọi là phân tích phân biệt (được thảo luận trong Phần 12.2) để
nhận biết ba loại hoa diên vĩ (Iris setosa, virginica và versicolor) bằng
cách đo chiều rộng và chiều dài cánh hoa của chúng (Hình 12.1).

HÌNH 12.1 Ba x2
loại hoa diên vĩ được
mô tả bằng hai

đo. 2,5 Iris virginica


Iris nhiều màu
Iris setosa

2.0

1,5
Chiều
(cm)
cánh
rộng
hoa

1.0

0,5

x1
0 0123456 7
Chiều dài cánh hoa (cm)
Machine Translated by Google

12.1 ■ Mẫu và lớp mẫu 863

Trong thuật ngữ hiện tại của chúng tôi, mỗi bông hoa được mô tả bằng hai phép đo,
dẫn đến một vectơ mẫu 2-D có dạng

x2 R (12.1-2)
x = Bx1

ở đâu và tương ứng


x2 với chiều dài và chiều rộng của cánh hoa. Bộ ba
các lớp mẫu x1 trong trường hợp này, được ký hiệuv và
1, tương
v2, ứng với , giống
v3 các
setosa, virginica và versicolor tương ứng.
Bởi vì các cánh hoa có chiều rộng và chiều dài khác nhau nên các vectơ mẫu
việc mô tả những bông hoa này cũng sẽ khác nhau, không chỉ giữa các lớp khác nhau, mà còn
cũng trong một lớp học. Hình 12.1 cho thấy các phép đo chiều dài và chiều rộng cho một
số mẫu của từng loại mống mắt. Sau khi một tập hợp các phép đo đã được chọn (hai trong
trường hợp này), các thành phần của vectơ mẫu sẽ trở thành toàn bộ
mô tả của từng mẫu vật lý. Vì vậy, mỗi bông hoa trong trường hợp này trở thành một
điểm trong không gian Euclide 2 chiều. Chúng tôi cũng lưu ý rằng các phép đo chiều rộng cánh hoa

và chiều dài trong trường hợp này đã phân tách đầy đủ lớp Iris setosa khỏi lớp
hai loại còn lại nhưng không tách biệt thành công là virginica và versicolor
các loại với nhau. Kết quả này minh họa bài toán lựa chọn đặc trưng cổ điển , trong đó
mức độ phân tách lớp phụ thuộc rất nhiều vào việc lựa chọn
mô tả được chọn cho một ứng dụng. Chúng tôi nói nhiều hơn về điều này
vấn đề trong Phần 12.2 và 12.3.

Hình 12.2 cho thấy một ví dụ khác về việc tạo vectơ mẫu. Trong này
trường hợp, chúng tôi quan tâm đến các loại hình dạng ồn ào khác nhau, một mẫu trong số đó là

được hiển thị trong Hình 12.2(a). Nếu chúng ta chọn thể hiện từng đối tượng bằng chữ ký của nó (xem

Mục 11.1.5), chúng ta sẽ thu được tín hiệu 1-D có dạng như trong Hình 12.2(b).
Giả sử rằng chúng ta chọn mô tả từng chữ ký một cách đơn giản bằng các giá trị biên độ
được lấy mẫu của nó; nghĩa là chúng tôi lấy mẫu chữ ký ở một số giá trị khoảng được chỉ định
u, được ký hiệu là u1, u2, Á , un Khi. đó chúng ta có thể tạo thành các vectơ mẫu bằng cách cho

x1 = r(u1), x2 = r(u2), Á , xn = r(un). Các vectơ này trở thành các điểm trong
không gian Euclide n chiều và các lớp mẫu có thể được tưởng tượng là
N thước.
“đám mây” về kích

Thay vì sử dụng trực tiếp biên độ chữ ký, chúng ta có thể tính toán, ví dụ:
khoảnh khắcN thống kê đầu tiên của một chữ ký nhất định (Mục 11.2.4) và sử dụng
những bộ mô tả này là thành phần của mỗi vectơ mẫu. Trên thực tế, như có thể
Rõ ràng cho đến nay, các vectơ mẫu có thể được tạo ra theo nhiều cách khác nhau.

bụng
r(u)
HÌNH 12.2
Vật ồn ào
r
và nó
bạn

tương ứng
chữ ký.

bạn

P P 3p 5p 3p 7 giờ tối

0 P 2p
4 2 4 4 2 4
Machine Translated by Google

864 Chương 12 ■ Nhận dạng đối tượng

Chúng tôi trình bày một số trong số chúng trong suốt chương này. Hiện tại,
Khái niệm quan trọng cần ghi nhớ là việc chọn các mô tả để
cơ sở mỗi thành phần của một vectơ mẫu có ảnh hưởng sâu sắc đến
hiệu suất cuối cùng của nhận dạng đối tượng dựa trên vectơ mẫu
tiếp cận.
Các kỹ thuật vừa được mô tả để tạo ra các vectơ mẫu mang lại mẫu
các lớp được đặc trưng bởi thông tin định lượng. Trong một số ứng dụng, đặc điểm mẫu
được mô tả tốt nhất bằng các mối quan hệ cấu trúc. Ví dụ,
nhận dạng vân tay dựa trên mối quan hệ qua lại của các tính năng in
gọi là tiểu tiết. Cùng với kích thước và vị trí tương đối của chúng, những đặc điểm này
là các thành phần nguyên thủy mô tả các đặc tính của vân tay, chẳng hạn như
kết thúc đột ngột, phân nhánh, sáp nhập và các phân đoạn bị ngắt kết nối. Sự công nhận
các vấn đề thuộc loại này, trong đó không chỉ các thước đo định lượng về từng đặc điểm
mà cả mối quan hệ không gian giữa các đặc điểm cũng xác định lớp
thành viên, nói chung được giải quyết tốt nhất bằng cách tiếp cận cơ cấu. chủ đề này
đã được giới thiệu ở Phần 11.5. Chúng tôi xem lại nó một cách ngắn gọn ở đây trong
bối cảnh mô tả mẫu.
Hình 12.3(a) thể hiện một mẫu cầu thang đơn giản. Mẫu này có thể được lấy mẫu và
biểu diễn dưới dạng vectơ mẫu, tương tự như cách tiếp cận được sử dụng trong
Hình 12.2. Tuy nhiên, cấu trúc cơ bản, bao gồm sự lặp lại của hai câu đơn giản
các yếu tố nguyên thủy sẽ bị mất trong phương pháp mô tả này. Một ý nghĩa hơn-b

mô tả đầy đủ sẽ là xác định các phần tử và để mẫu Một

w = của lớp mẫu cụ thể này


là chuỗi ký hiệu Á ababab Á cấu trúc , như thể hiện trong hình 12.3(b). Các
được ghi lại trong mô tả này bởi

yêu cầu kết nối phải được xác định theo cách từ đầu đến cuối và chỉ cho phép các ký
hiệu xen kẽ. Cấu trúc kết cấu này có thể áp dụng cho cầu thang có chiều dài bất kỳ
nhưng không bao gồm các loại cấu trúc khác có thể được tạo ra.
bởi sự kết hợp khác của nguyên thủy và b. Một

Các mô tả chuỗi tạo ra đầy đủ các mẫu đối tượng và các thực thể khác có cấu trúc
dựa trên khả năng kết nối tương đối đơn giản của các thực thể nguyên thủy,
thường gắn liền với hình dạng ranh giới. Một cách tiếp cận mạnh mẽ hơn cho
nhiều ứng dụng là việc sử dụng các mô tả cây, như được định nghĩa trong Phần 11.5.
Về cơ bản, hầu hết các sơ đồ sắp xếp thứ bậc đều dẫn đến cấu trúc cây. Ví dụ, Hình
12.4 là hình ảnh vệ tinh của khu vực trung tâm thành phố được xây dựng dày đặc và các
khu dân cư xung quanh. Hãy để chúng tôi xác định toàn bộ khu vực hình ảnh bằng ký hiệu $.
Biểu diễn cây (lộn ngược) được hiển thị trong Hình 12.5 có được bằng cách

bụng …
Một

Một

b
HÌNH 12.3 b Một

(a) Cầu thang b


kết cấu. Một

(b) Cấu trúc b


Một
được mã hóa về mặt

người nguyên thủy Một


Một

và để bmang lại b
mô tả chuỗi …
Một

Á ababab Á .
Machine Translated by Google

12.1 ■ Mẫu và lớp mẫu 865

HÌNH 12.4 Ảnh

vệ tinh của khu vực


trung tâm thành
phố được xây dựng

dày đặc
(Washington,
DC) và các khu
dân cư xung quanh.

(Được phép
của NASA.)

sử dụng mối quan hệ cấu trúc “bao gồm”. Như vậy gốc của cây đại diện cho toàn bộ hình ảnh.
Cấp độ tiếp theo cho biết hình ảnh bao gồm khu trung tâm thành phố và khu dân cư. Khu dân
cư lần lượt bao gồm nhà ở, đường cao tốc và trung tâm mua sắm. Cấp độ tiếp theo mô tả thêm
về nhà ở và đường cao tốc. Chúng ta có thể tiếp tục kiểu phân chia này cho đến khi đạt đến
giới hạn khả năng phân giải các vùng khác nhau trong hình ảnh.

Chúng tôi phát triển trong các phần sau đây các phương pháp nhận dạng đối tượng
được viết nguệch ngoạc bằng các kỹ thuật được thảo luận trong các đoạn trước.

Hình ảnh
$

Trung tâm thành phố Khu dân cư

Các tòa nhà Đường xa lộ Nhà ở Trung tâm Đường xa lộ


mua sắm

Mật Lớn Nhiều Nhiều nút giao nhau


cấu trúc
Thấp Cấu có rừng Đơn Ít
độ cao
Tỉ trọng trúc nhỏ khu vực ngã tư

HÌNH 12.5 Mô tả cây của hình ảnh trong Hình 12.4.


Machine Translated by Google

866 Chương 12 ■ Nhận dạng đối tượng

12.2 Công nhận dựa trên các phương pháp lý thuyết quyết định

Các phương pháp tiếp cận lý thuyết quyết định để nhận biết dựa trên việc sử dụng quyết định
T
(hoặc chức năng phân biệt đối xử) . Cho x = (x1,, x2,
xn) Á biểu thị một n chiều
vectơ mẫu, như đã thảo luận trong Phần 12.1. cho W lớp mẫu
v1, v2, Á , vW, vấn đề cơ bản trong nhận dạng mẫu lý thuyết quyết định là
tìm hàm quyết
W định d1(x), d2 (x), Á , dW(x) với tính chất rằng, nếu a
mẫu x thuộc lớp rồi vi,

di(x) 7 dj(x) j = 1, 2, Á , W; j Z tôi (12.2-1)

Nói cách khác, một mẫu x chưa biết được cho là thuộc về lớp mẫu thứ i
nếu, khi thay x vào tất cả các hàm quyết định, di(x) mang lại giá trị số lớn

nhất. Mối quan hệ được giải quyết một cách tùy tiện.

Ranh giới quyết định tách lớp khỏi được vicho bởi các
vj giá trị của x cho
mà di(x) = dj(x) hoặc, tương đương, bằng các giá trị của x mà

di(x) - dj(x) = 0 (12.2-2)

Thực tế phổ biến là xác định ranh giới quyết định giữa hai lớp bằng cách
chức năng duy nhất dij
dij(x) = di(x)
cho các - dj(x) = 0. Như
mẫu của (x)vậy
7 0
lớp vàviij
d cuộc
(x) thảo
6 0 cho các mẫu của lớp Mục .
vj tiêu chính của
luận trong phần này là phát triển các cách tiếp cận khác nhau để tìm ra quyết định

các hàm thỏa mãn phương trình. (12.2-1).

12.2.1 So khớp
Các kỹ thuật nhận dạng dựa trên sự so khớp thể hiện mỗi lớp bằng một nguyên mẫu
vector mẫu. Một mẫu không xác định được gán cho lớp mà nó gần nhất
theo một thước đo được xác định trước. Cách tiếp cận đơn giản nhất là khoảng cách tối thiểu
bộ phân loại, đúng như tên gọi của nó, tính toán khoảng cách (Euclide) giữa
ẩn số và từng vectơ nguyên mẫu. Nó chọn cái nhỏ nhất
khoảng cách để đưa ra quyết định. Chúng tôi cũng thảo luận về một cách tiếp cận dựa trên sự tương quan,

có thể được xây dựng trực tiếp dưới dạng hình ảnh và khá trực quan.

Phân loại khoảng cách tối thiểu

Giả sử chúng ta định nghĩa nguyên mẫu của mỗi lớp mẫu là vectơ trung bình của
các mẫu của lớp đó:

1
mj = j = 1, 2, Á , W (12.2-3)
Nj axHvj xj

số lượng
Njvectơ mẫu từ lớp ở đâu và tổng là vj
chiếm các vectơ này. Như trước đây là Wsố lượng các lớp mẫu. Một
Cách để xác định thành viên lớp của một vectơ mẫu x chưa biết là
gán nó vào lớp nguyên mẫu gần nhất của nó, như đã lưu ý trước đó. Sử dụng
khoảng cách Eu-clide để xác định độ gần giúp giảm bớt vấn đề tính toán
thước đo khoảng cách:

D j = 1, 2, Á , W (12.2-4)
j(x) = 7x - mj7
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 867

đâu là chuẩn
7a7mực
= (aTa)
Euclide.1>2
Sau đó chúng ta gán x cho lớp nếu

là khoảng cách nhỏ nhất Nghĩa là, khoảng cách nhỏ nhất hàm ý điều tốt nhất
vi Di(x)
phù hợp trong công thức này. Không khó để chỉ ra (Bài toán 12.2) việc chọn
khoảng cách nhỏ nhất tương đương với việc tính các hàm số
1
dj(x) = xTmj - mj Tmj j = 1, 2, Á ,W (12.2-5)
2

và gán x cho lớp nếu mang


di lại
v (x)
giá trị số lớn nhất. Công thức này phù hợp với
Tôi

khái niệm về hàm quyết định, như được định nghĩa trong biểu thức. (12.2-1).
Từ các phương trình. (12.2-2) và (12.2-5), ranh giới quyết định giữa các lớp vi
và đối với phân loại khoảng cách tối thiểu là
vj

dij(x) = di(x) - dj(x)


1
= xT(mi - mj) - (mi - mj) T(mi + mj) = 0 (12.2-6)
2

Bề mặt được đưa ra bởi phương trình. (12.2-6) là đường trung trực của đoạn thẳng nối và (xem Bài toán

12.3). Với n = 2, cung bi- mitôivuông


j góc là một đường thẳng, vì nó là một mặt phẳng, và với n 7 3 nó

được gọi là siêu phẳng. n = 3

■ Hình 12.6 cho thấy hai lớp mẫu được trích xuất từ các mẫu mống mắt trong VÍ DỤ 12.1:
Minh họa của
v 1 , có,
v2 0,3)T
Hình 12.1. Hai lớp, Iris versicolor và Iris setosa, được ký hiệu và re- m2 = (1,5,
khoảng cách tối thiểu
= (4.3, 1.3)T
mẫu và Từ phương trình. (12.2-5), các hàm quyết định1 là tôi
vectơ trung bình .
bộ phân loại.

1
d1(x) = xTm1 - m1 Tm1
2

= 4,3x1 + 1,3x2 - 10,1

x2 HÌNH 12.6
Iris nhiều màu Phán quyết
Iris setosa ranh giới của
khoảng cách tối thiểu
2.0 2,8x1 1,0x2 8,9 0 bộ phân loại cho
lớp học của Iris
nhiều màu và Iris
setosa. Bóng tối
1,5
dấu chấm và hình vuông
là những phương tiện.
Chiều
(cm)
cánh
rộng
hoa

1.0

0,5

0 x1
01234567
Chiều dài cánh hoa (cm)
Machine Translated by Google

868 Chương 12 ■ Nhận dạng đối tượng

1
d2(x) = xTm2 - m2 Tm2
2

= 1,5x1 + 0,3x2 - 1,17

Từ phương trình. (12.2-6), phương trình của ranh giới là

d12(x) = d1(x) - d2(x)

= 2,8x1 + 1,0x2 - 8,9 = 0

Hình 12.6 thể hiện đồ thị của ranh giới này (lưu ý rằng các trục không trùng nhau)
tỉ lệ). Việc thay thế bất kỳ vectơ mẫu nào từ lớp sẽ mang v lại
1 (x) 7 0. d12 (x) 6 0.
v 2lại d12 Nói cách khác,
Ngược lại, bất kỳ mẫu nào từ lớp sẽ mang
đưa ra một mẫu chưa biết thuộc về một trong hai lớp này, dấu hiệu của
d12(x) sẽ đủ để xác định tư cách thành viên lớp của mẫu. ■

Trong thực tế, bộ phân loại khoảng cách tối thiểu hoạt động tốt khi khoảng cách
giữa các phương tiện lớn so với mức độ dàn trải hoặc ngẫu nhiên của từng lớp
xét về ý nghĩa của nó. Trong Phần 12.2.2 chúng ta chỉ ra rằng khoảng cách tối thiểu
phân loại mang lại hiệu suất tối ưu (về mặt giảm thiểu giá trị trung bình
mất khả năng phân loại sai) khi phân bố của mỗi lớp về giá trị trung bình của nó là
dưới dạng một “siêu đám mây” hình cầu trong không gian mô hình n chiều.
Sự xuất hiện đồng thời của sự phân tách trung bình lớn và tương đối
Sự phân chia lớp nhỏ hiếm khi xảy ra trong thực tế trừ khi người thiết kế hệ thống kiểm
soát được bản chất của đầu vào. Một ví dụ tuyệt vời được cung cấp bởi các hệ thống được
hủy ký hiệu để đọc các phông chữ ký tự cách điệu, chẳng hạn như American Banker's quen thuộc.
Bộ ký tự phông chữ Hiệp hội E-13B. Như Hình 12.7 cho thấy, phông chữ đặc biệt này
bộ bao gồm 14 ký tự được thiết kế có chủ ý trên 9 * 7 lưới trong

để tạo điều kiện thuận lợi cho việc đọc của họ. Các ký tự thường được in bằng mực
chứa vật liệu từ tính được nghiền mịn. Trước khi được đọc, mực được đưa vào từ trường,
làm nổi bật từng ký tự để đơn giản hóa việc phát hiện. Nói cách khác, vấn đề phân
đoạn được giải quyết bằng cách
nêu bật những đặc điểm chính của từng nhân vật.
Các ký tự thường được quét theo hướng ngang với đầu đọc một khe hẹp hơn nhưng cao
hơn các ký tự. Là người đứng đầu
di chuyển qua một ký tự, nó tạo ra tín hiệu điện 1-D (chữ ký)
được điều chỉnh tỷ lệ thuận với tốc độ tăng hoặc giảm của
vùng ký tự dưới đầu. Ví dụ, xét dạng sóng liên kết với số 0 trong Hình 12.7. Khi đầu
đọc di chuyển từ trái sang
đúng, diện tích mà người đứng đầu nhìn thấy bắt đầu tăng lên, tạo ra đạo hàm dương
(tỷ lệ thay đổi dương). Khi đầu bắt đầu rời khỏi chân trái
số 0, diện tích dưới đầu bắt đầu giảm, tạo ra đạo hàm âm. Khi đầu nằm ở vùng giữa của
nhân vật thì vùng đó vẫn giữ nguyên
gần như không đổi, tạo ra đạo hàm bằng 0. Mô hình này lặp đi lặp lại như
đầu đi vào chân phải của nhân vật. Thiết kế của phông chữ đảm bảo
rằng dạng sóng của mỗi ký tự khác biệt với tất cả các ký tự khác. Nó cũng
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 869

HÌNH 12.7
Người Mỹ
nhân viên ngân hàng

Sự kết hợp
Phông chữ E-13B

bộ ký tự và
tương ứng
dạng sóng.

T
r
Một

N
S
Tôi

MỘT
tôi

bạn

N
t


N

bạn
S

D
Một

S
h

đảm bảo rằng các đỉnh và số 0 của mỗi dạng sóng xảy ra xấp xỉ trên
các đường thẳng đứng của lưới nền trên đó các dạng sóng này được hiển thị, như trong
Hình 12.7. Phông chữ E-13B có đặc tính lấy mẫu
chỉ các dạng sóng tại những điểm này mới mang lại đủ thông tin để phân loại phù hợp.
Việc sử dụng mực từ hóa hỗ trợ tạo ra dạng sóng rõ ràng, nhờ đó giảm thiểu sự tán xạ.

Việc thiết kế một bộ phân loại khoảng cách tối thiểu cho ứng dụng này rất đơn giản.
Chúng tôi chỉ cần lưu trữ các giá trị mẫu của từng dạng sóng và để mỗi bộ
các mẫu được biểu diễn dưới dạng vectơ nguyên mẫu mj, j = 1, 2, Á , 14. Khi một

ký tự chưa biết sẽ được phân loại, cách tiếp cận là quét nó theo cách
vừa mô tả, hãy biểu thị các mẫu lưới của dạng sóng dưới dạng vectơ, x và
xác định lớp của nó bằng cách chọn lớp của vectơ nguyên mẫu mang lại
giá trị cao nhất trong phương trình. (12.2-5). Tốc độ phân loại cao có thể đạt được với Để chính thức, chúng ta nên
đề cập đến mối tương quan như
mạch tương tự gồm các dãy điện trở (xem Bài toán 12.4). tương quan chéo khi

chức năng là khác nhau

So khớp bằng tương quan và như tự tương quan

khi chúng giống nhau.

Chúng tôi đã giới thiệu ý tưởng cơ bản về tương quan không gian ở Mục 3.4.2 và sử dụng nó Tuy nhiên, theo thông lệ

sử dụng thuật ngữ chung


rộng rãi để lọc không gian trong phần đó. Chúng tôi cũng đã đề cập ngắn gọn về định lý mối tương quan khi nó là

rõ ràng liệu hai


tương quan trong Phần 4.6.7 và Bảng 4.3. Từ phương trình. (3.4-1), chúng ta biết
các chức năng trong một ứng
mối tương quan của mặt nạ w(x, y) có kích thước với mhình
* n,ảnh f(x, y) Có lẽ dụng nhất định bằng nhau
hoặc khác nhau.
được biểu thị dưới dạng
Machine Translated by Google

870 Chương 12 ■ Nhận dạng đối tượng

(12.2-7a)
c(x, y) = tại w (s, t)f(x + s, y + t)

trong đó các giới hạn của tổng được lấy trên vùng được chia sẻ bởi và w f.
Phương trình này được đánh giá cho tất cả các giá trị của các biến chuyển vị và y x
sao cho tất cả các phầnw tử truy cập mọi pixel
f, ở nơi được
f coi là lớn hơn
w. như phép tích chập không gian có liên quan đến phép biến đổi Fourier của
hơn Giống
hoạt động thông qua định lý tích chập, mối tương quan không gian có liên quan đến
biến đổi của các hàm thông qua định lý tương quan:

f(x, y)w(x, y) 3 F* (u, v)W(u, v) (12.2-7b)

“” *
Ở đâu biểu thị tích chập không gian và là liên hợp F
phức của F.
Nửa còn lại của định lý tương quan nêu trong Bảng 4.3 không được quan tâm trong

cuộc thảo luận hiện nay. Phương trình (12.2-7b) là một cặp biến đổi Fourier có
giải thích giống hệt với cuộc thảo luận về phương trình. (4.6-24), ngoại trừ việc chúng ta sử dụng

liên hợp phức của một trong các hàm. Biến đổi Fourier nghịch đảo
của phương trình. (12.2-7b) mang lại mối tương quan vòng tròn hai chiều tương tự như
phương trình. (4.6-23), và các vấn đề đệm được thảo luận trong Phần 4.6.6 liên quan
đến tích chập cũng được áp dụng cho mối tương quan.
Chúng ta không tập trung vào bất kỳ phương trình nào trước đó vì cả hai đều là
f lệ và w.
nhạy cảm với những thay đổi về tỷ thay vào đó, chúng tôi sử dụng cách chuẩn hóa sau
Hệ số tương quan

tại Cw (s, t) - wD tại Cf (x + s, y + t) - f(x + s, y + t)D


g(x, y) = 1
2
2
e tại Cw (s, t) - wD tại Cf (x + s, y + t) - f(x + s, y + t)D
2 f

(12.2-8)

Bạn sẽ thấy nó hữu ích để


trong đó các giới hạn của tổng được lấy trên vùng được chia sẻ bởi và
w wf,
xem xét lại Mục 3.4.2-

quan tâm đến cơ chế của là giá trị trung bình của mặt nạ (chỉ được tính một lần) và f(x + s, y + t) là
tương quan không gian. w. gọi là w
f giá trị trung bình trong vùng trùng với Thường, được
như một mẫu và mối tương quan được gọi là khớp mẫu. Nó có thể
có các
cho thấy (Bài toán 12.7) rằng g(x, y) [-1, 1] giá trị trong phạm vi và do đó
được chuẩn hóa theo những thay đổi về biên độw và
f. Giá trị tối đa của
g(x, y) xảy ra khi miền chuẩn hóa và w
miền chuẩn hóa tương ứng giống hệt nhau.
Điều này cho thấy mối tương quan tối đa (nghĩa là khả năng tốt nhất
trận đấu đáng kinh ngạc). Mức tối thiểu xảy ra với hai hàm chuẩn hóa thể hiện
sự tương đồng ít nhất theo nghĩa của phương trình. (12.2-8). Không thể tính
hệ số tương quan bằng cách sử dụng biến đổi Fourier vì các thuật ngữ phi tuyến
trong phương trình (chia và bình phương).
Hình 12.8 minh họa cơ chế của quy trình vừa được mô tả. Đường viền xung
f đệm cần thiết để cung cấp cho trường hợp khi trung tâm
quanh là phần
củaw nằm trên đường viềnf,như được giải thích trong Phần 3.4.2.(Trong khớp mẫu,
các giá trị tương quan khi tâm của mẫu nằm ngoài đường viền của hình ảnh
thường không được quan tâm, do đó phần đệm được giới hạn ở một nửa chiều rộng của mặt nạ.) Như

Thông thường, chúng tôi giới hạn sự chú ý đến các mẫu có kích thước lẻ để thuận tiện cho việc ký hiệu.
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 871

HÌNH 12.8
Cơ chế của
(m 1)/2
bản mẫu
Nguồn gốc
phù hợp.
(n 1)/2
N

tôi

(x, y)

Mẫu w căn
giữa tại một vị trí
tùy ý (x, y)

Hình ảnh, f

Phần đệm

Hình 12.8 cho thấy một mẫu có kích thướcm tùy * ný


vị trí (x, y). Mối tương quan tại thời điểm này có được bằng cách áp dụng phương trình. (12.2-8).

Sau đó, tâm của mẫu được tăng lên đến vị trí liền kề và
quy trình được lặp lại. Hệ số tương quan đầy đủ g(x, y) thu được

bằng cách di chuyển tâm của mẫu (tức là bằng cách tăng dần và )x sao cho
y
trung tâm wlượt truy cập mỗi pixel f.
ở cuối quy trình, chúng tôi tìm kiếm
tối đa tính bằng g(x, y) để tìm ra nơi phù hợp nhất xảy ra. Nó có thể
có nhiều vị trí trong g(x, y) có cùng giá trị lớn nhất chứng tỏ
một số trận đấu giữa và w f.

■ Hình 12.9(a) thể hiện 913 * 913 hình ảnh vệ tinh của cơn bão Andrew, ở VÍ DỤ 12.2:

mà mắt bão có thể nhìn thấy rõ ràng. Như một ví dụ về mối tương quan, chúng tôi So khớp bởi
sự tương quan.
muốn tìm vị trí phù hợp nhất trong (a) của mẫu trong Hình 12.9(b),
đó là một số nhỏ (31 * 31) ảnh phụ của mắt bão. Hình 12.9(c)
cho thấy kết quả tính toán hệ số tương quan trong biểu thức. (12.2-8). Các
943là* pixel
kích thước ban đầu của hình ảnh này 943 do phần đệm (xem Hình 12.8),

nhưng chúng tôi đã cắt nó theo kích thước của ảnh gốc để hiển thị. Cường độ trong
hình ảnh này tỷ lệ thuận với giá trị tương quan và tất cả các mối tương quan âm
được cắt ở mức 0 (màu đen) để đơn giản hóa việc phân tích hình ảnh trực quan. Các
Điểm sáng nhất của ảnh tương quan có thể nhìn thấy rõ ở gần mắt của
bão. Hình 12.9(d) hiển thị dưới dạng chấm trắng vị trí của mối tương quan tối đa
(trong trường hợp này có một kết quả trùng khớp duy nhất có giá trị tối đa là 1),
mà chúng ta thấy tương ứng chặt chẽ với vị trí của mắt trong Hình 12.9(a).■

Cuộc thảo luận trước cho thấy rằng có thể bình thường hóa mối tương quan đối
với những thay đổi về giá trị cường độ của các hàm đang được xử lý. Chuẩn hóa
kích thước và xoay là một vấn đề phức tạp hơn. Bình thường hóa
đối với kích thước liên quan đến tỷ lệ không gian, như được giải thích trong Phần 2.6.5 và
4.5.4, là lấy mẫu lại hình ảnh. Để việc lấy mẫu lại có ý nghĩa, kích thước
hình ảnh nào cần được thay đổi tỷ lệ phải được biết. Trong một số tình huống, điều này
có thể trở thành một vấn đề khó khăn trừ khi có sẵn các tín hiệu không gian. Ví dụ,
trong ứng dụng viễn thám, nếu hình học quan sát của cảm biến hình ảnh
Machine Translated by Google

872 Chương 12 ■ Nhận dạng đối tượng

A
B C D

HÌNH 12.9 (a)

Ảnh vệ tinh của Bão


Andrew, chụp

ngày 24 tháng 8 năm

1992. (b) Mẫu mắt

bão. (c) Hệ số tương

quan được hiển

thị dưới dạng hình


ảnh (lưu ý điểm sáng

nhất). (d) Địa

điểm phù hợp nhất.

Điểm này là một

pixel, nhưng kích


thước của nó

được phóng to để dễ
nhìn hơn.

(Hình ảnh gốc được

cung cấp bởi

NOAA.)

đã biết (thường là như vậy), thì việc biết độ cao của cảm biến so với khu
vực được chụp ảnh có thể đủ để bình thường hóa kích thước hình ảnh, giả sử
góc nhìn cố định. Việc chuẩn hóa cho phép xoay tương tự đòi hỏi phải biết
góc xoay hình ảnh. Điều này một lần nữa đòi hỏi tín hiệu không gian. Trong
ví dụ viễn thám vừa đưa ra, hướng bay có thể đủ để xoay các hình ảnh được cảm
nhận thành một hướng tiêu chuẩn. Trong các tình huống không bị ràng buộc,
việc chuẩn hóa kích thước và hướng có thể trở thành một nhiệm vụ thực sự khó
khăn, đòi hỏi phải phát hiện tự động các đặc điểm hình ảnh (như đã thảo luận
trong Chương 11) có thể được sử dụng làm tín hiệu không gian.

12.2.2 Bộ phân loại thống kê tối ưu Trong

phần này, chúng tôi phát triển một cách tiếp cận xác suất để nhận dạng. Đúng
như vậy trong hầu hết các lĩnh vực liên quan đến đo lường và giải thích các
sự kiện vật lý, việc xem xét xác suất trở nên quan trọng trong nhận dạng mẫu
vì tính ngẫu nhiên trong đó các lớp mẫu thường Được tạo ra. Như được trình
bày trong phần thảo luận sau đây, có thể rút ra một cách tiếp cận phân loại phù hợp
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 873

tối ưu theo nghĩa là, tính trung bình, việc sử dụng nó mang lại xác suất thấp nhất
phạm lỗi phân loại (xem Bài toán 12.10).

Sự thành lập

Xác suất để một mẫu cụ thể x đến từ lớp được biểu thị vi
Lij xuấtNếu
(vi>x).
p vj bộtừphân
phát loại
đó phát mẫu
sinh sự quyết
thua lỗ,định rằng
ký hiệu là xmẫu
đến từthể
x có khi nó về
thuộc thực
bất sự
v .
ai tôi, kỳ

của Wcác lớp đang được xem xét, tổn thất trung bình phát sinh khi gán x cho
lớp học là
vj

W
rj(x) = a Lkjp(vk>x) (12.2-9)
k=1

Phương trình này thường được gọi là rủi ro hoặc tổn thất trung bình có điều kiện trong thuật

ngữ lý thuyết quyết định.

Từ lý thuyết xác suất cơ bản, chúng ta biết rằng p(A>B) = [p(A)p(B>A)]>p(B). Tham khảo trang web sách

Sử dụng biểu thức này, chúng tôi viết phương trình. (12.2-9) ở dạng để xem xét ngắn gọn về lý
thuyết xác suất.

1 W
rj(x) = Một Lkjp(x>vk)P(vk) (12.2-10)
p(x) k=1

trong đó p(x>vk) là hàm mật độ xác suất của các mẫu từ lớp vk

và P(vk) là xác suất xuất hiện của lớp (đôi khi những xác suất này được gọi là xác suất tiên
vk
nghiệm hoặc đơn giản là xác suất trước ). Vì > 1 p(x) dương và chung cho mọi (x) nên j = 1, 2, Á
, W, nó có thể

rj bị loại khỏi phương trình. (12.2-10) mà không ảnh hưởng đến thứ tự tương đối của các
hàm này từ giá trị nhỏ nhất đến giá trị lớn nhất. Biểu thức tính tổn hao trung bình
sau đó giảm xuống

W
rj(x) = a Lkjp(x>vk)P(vk) (12.2-11)
k=1

W lớp có thể lựa chọn cho bất kỳ lớp nào chưa biết
Trình phân loại có các
mẫu. Nếu nó tính r1(x), r2(x), Á , rW(x) cho mỗi mẫu x và gán
mẫu cho lớp có tổn thất nhỏ nhất, tổng tổn thất trung bình đối với
mọi quyết định sẽ ở mức tối thiểu. Bộ phân loại tối thiểu hóa tổng giá trị trung bình
mất mát được gọi là bộ phân loại Bayes. Do đó, bộ phân loại Bayes gán một giá trị chưa biết
mẫu x vào lớp nếu i(x) v 6 r , W; j Z i. Nói cách khác, x
tôi
rj (x) với j = 1, 2, Á
được phân vào lớp nếu vi

W W
Một Lkip(x>vk)P(vk) 6 a Lqjp(x>vq)P(vq) (12.2-12)
k=1 q=1

với mọi j; j Z i. “Tổn thất” cho một quyết định đúng thường được gán giá trị là

bằng 0 và tổn thất cho bất kỳ quyết định sai nào thường được ấn định như nhau
giá trị khác 0 (ví dụ: 1). Trong những điều kiện này, hàm mất mát trở thành

L (12.2-13)
ij = 1 - dij
Machine Translated by Google

874 Chương 12 ■ Nhận dạng đối tượng

trong đó nếu dij = nếu tôi Phương trình (12.2-13) chỉ ra sự mất mát của
1 i = j và d = 0
Zj. ij sự thống nhất đối với các quyết định sai và mất số 0 đối với các quyết định đúng. Phương trình thay

thế. (12.2-13) vào phương trình. (12.2-11) mang lại kết quả

rj(x) = a (1 - dkj)p(x>vk)P(vk)
k=1

= p(x) - p(x>vj)P(vj) (12.2-14)

Sau đó, trình phân loại Bayes gán một mẫu x cho lớp nếu, với
v
tôi mọi j Z i,

p(x) - p(x>vi)P(vi) 6 p(x) - p(x>vj)P(vj) (12.2-15)

hoặc tương đương, nếu

p(x>vi)P(vi) 7 p(x>vj)P(vj) j = 1, 2, Á , W; j Z tôi (12.2-16)

Với sự tham khảo các cuộc thảo luận dẫn đến phương trình. (12.2-1), chúng ta thấy rằng Bayes
bộ phân loại cho hàm mất 0-1 không gì khác hơn là tính toán quyết định
chức năng của biểu mẫu

dj(x) = p(x>vj)P(vj) j = 1, 2, Á ,W (12.2-17)

trong đó vectơ mẫu x được gán cho lớp có hàm quyết định mang lại
trị số lớn nhất.
Các hàm quyết định được đưa ra trong phương trình. (12.2-17) là tối ưu theo nghĩa là chúng

giảm thiểu tổn thất trung bình trong việc phân loại sai. Tuy nhiên, để giữ được sự tối ưu này,

phải biết các hàm mật độ xác suất của các mẫu trong mỗi lớp, cũng như xác suất xuất
hiện của mỗi lớp. Yêu cầu sau thường là
không thành vấn đề. Ví dụ, nếu tất cả các lớp đều có khả năng xảy ra như nhau thì

P(vj) = 1>W. Ngay cả khi điều kiện này không đúng, những xác suất này thường có thể
được suy luận từ kiến thức về vấn đề. Ước tính mật độ xác suất
hàm p(x>vj) N
lại là một vấn đề khác. Nếu các vectơ mẫu, x, là -chiều,
thì N
p(x>vj) là một hàm của các biến, nếu không biết dạng của nó thì cần phải sử dụng các phương pháp
từ lý thuyết xác suất đa biến để ước lượng nó. Những phương pháp này khó áp dụng trong thực tế, đặc

biệt nếu số lượng tiêu biểu

các mẫu từ mỗi lớp không lớn hoặc nếu dạng xác suất cơ bản
các hàm mật độ không hoạt động tốt. Vì những lý do này, việc sử dụng bộ phân loại Bayes
thường dựa trên giả định về biểu thức phân tích cho các hàm mật độ khác nhau và sau
đó ước tính các tham số cần thiết từ các mẫu mẫu từ mỗi lớp. Cho đến nay, dạng phổ
biến nhất được giả định cho p(x>vj) là

Hàm mật độ xác suất Gaussian. Giả định này càng gần với thực tế thì
gần hơn, bộ phân loại Bayes đạt đến mức tổn thất trung bình tối thiểu trong phân loại.

Trình phân loại Bayes cho các lớp mẫu Gaussian

Để bắt đầu, chúng ta hãy xét bài toán 1-D (n = 1) liên quan đến hai lớp mẫu
(W = 2) m1 m2
được điều chỉnh bởi mật độ Gaussian, với phương tiện và tiêu chuẩn
s 1 ứng. Từ
độ lệch và tương ,
s2 phương trình. (12.2-17) hàm quyết định Bayes có dạng
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 875

HÌNH 12.10
Xác suất
p(x/v2) hàm mật độ
cho hai 1-D

các lớp mẫu.


điểm x0
p(x/v1) hiển thị là

ranh giới quyết định


nếu hai lớp
suất
xác
Mật
độ

có khả năng như nhau


xảy ra.

x
m2 x0 m1

dj(x) = p(x>vj)P(vj)
(x - mj )2
1 - 2 (12.2-18)
= e 2sj
P(vj) j = 1, 2
22psj

x. Hình 12.10 cho thấy một đồ thị


trong đó các mẫu bây giờ là vô hướng, được biểu thị bằng
Xem chú thích ở

kết thúc phần này liên quan


hàm mật độ xác suất của hai lớp. Ranh giới giữa đến thực tế là Bayes

hai lớp là một điểm duy nhất, được ký hiệu là


x 0 d1(x0) = d2(x0 ). Nếu phân loại cho một biến

là hàm ngưỡng tối ưu , như


hai lớp có khả năng xảy ra như nhau thì P(v1) = P(v2) = 1>2, và ranh giới
đã đề cập trong Phần
10.3.3.
x 0
quyết định là giá trị của p(x0>v1) = p(x0>v2 ). Điểm này là
giao điểm của hai hàm mật độ xác suất, như trong Hình 12.10.
Bất kỳ mẫu (điểm) nào ở bên phải đượcx 0 phân loại là thuộc lớp Tương tự, bất .kỳ
v1
mẫu nào ở bên trái được phân loạix là
0 thuộc lớp Khi v2 .
x0 trái nếu lớp đó
các lớp có khả năng xảy ra không như nhau, hãy di chuyển sang v1
có nhiều khả năng xảy ra hơn hoặc ngược lại, ở bên phải nếu lớp có nhiềuv2
khả năng xảy ra hơn

xảy ra. Kết quả này được mong đợi vì bộ phân loại đang cố gắng giảm thiểu
mất đi sự phân loại sai. Ví dụ, trong trường hợp cực đoan, nếu lớp không
v2bao giờ
xảy ra, trình phân loại sẽ không bao giờ mắc lỗi khi luôn gán tất cả các mẫu
cho lớp (nghĩav1 x0 sang vô cực âm).
là sẽ chuyển
Trong trường hợp n chiều, mật độ Gaussian của vectơ trong lớp mẫu thứ j có dạng

1 1 -1
e- 2(x-mj) TCj (x-mj) (12.2-19)
p(x>vj) =
(2p) n>2 ƒ Cj ƒ 1>2

trong đó mỗi mật độ được xác định hoàn toàn bằng vectơ trung bình và ma trận hiệp
mj phương sai
được định nghĩa là
Cj,

mj = Ej5x6 (12.2-20)

Cj = Ej5(x - mj)(x - mj) T6 (21-12)


Ở đâu Ej5#6 biểu thị giá trị mong đợi của đối số trên các mẫu của
N
Trong phương trình. (12.2-19), là số chiều của vectơ mẫu và lớp vj.
Machine Translated by Google

876 Chương 12 ■ Nhận dạng đối tượng

ƒ Cj .
ƒ
Cj là định thức của ma trận. Xấp xỉ giá trị kỳ vọng
Ej theo giá trị trung bình của các đại lượng được đề cập sẽ đưa ra ước tính về
vectơ trung bình và ma trận hiệp phương sai:

1
mj = (22-12)
Nj axHvj x

1 T
Cj = xxT - mj mj (23-12)
Nj axHvj

Nj vectơ mẫu từ lớp ở đâu và tổng là


số lượng vj ,
chiếm các vectơ này. Phần sau của phần này chúng tôi đưa ra một ví dụ về cách
sử dụng hai biểu thức này.
Ma trận hiệp phương sai là nửa xác định dương và đối xứng. Như đã giải thích
ở Mục 11.4, phần tử đường chéo là phươngckk
sai của phần tử thứ k của
xj
Tham khảo trang web sách cjk
các vectơ mẫu. Phần tử ngoài đường chéo là hiệp phương sai của và xk.
để xem xét ngắn gọn về vectơ và
Hàm mật độ Gaussian đa biến giảm về tích của mật độ Gaussian một biến của từng
ma trận.

phần tử của x khi các phần tử ngoài đường chéo


của ma trận hiệp phương sai bằng không. Điều này xảy ra khi các phần tử vectơ xj
và không
xk tương quan.

Theo phương trình. (12.2-17), hàm quyết định Bayes cho lớp là vj
dj(x) = p(x>vj)P(vj). Tuy nhiên, do dạng hàm mũ của
Mật độ Gaussian, làm việc với logarit tự nhiên của hàm quyết định này
thuận tiện hơn. Nói cách khác, chúng ta có thể sử dụng dạng

dj(x) = lnCp(x>vj)P(vj)D

= ln p(x>vj) + ln P(vj) (24-12)

Biểu thức này tương đương với phương trình. (12.2-17) về mặt hiệu suất phân
loại vì logarit là hàm tăng đơn điệu. TRONG
nói cách khác, thứ tự số của các hàm quyết định trong các phương trình. (12.2-17)
và (12.2-24) là như nhau. Phương trình thay thế. (12.2-19) vào phương trình. (12.2-24) mang lại kết quả

N 1 1
ln 2p - (25-12)
dj(x) = ln P(vj) - 2 2 ln ƒ Cj ƒ -
2 C(x - mj) TCj –1(x - mj)D

Thuật ngữ này (n>2) ln 2p


giống nhau cho tất cả các lớp, vì vậy nó có thể được loại bỏ khỏi

phương trình. (12.2-25), sau đó trở thành

1 1
dj(x) = ln P(vj) - (12.2-26)
2 ln ƒ Cj ƒ -
2 C(x - mj) TCj –1(x - mj)D

các lớp mẫu Gaussian , W. Phương trình (12.2-26) biểu thị hàm quyết định Bayes cho j = 1, 2, Á cho

trong điều kiện hàm mất mát 0-1.

Các hàm quyết định trong phương trình. (12.2-26) là siêu bậc hai (hàm bậc
hai trong không gian n chiều), vì không có số hạng nào cao hơn bậc hai
trong các thành phần của x xuất hiện trong phương trình. Vậy thì rõ ràng, điều tốt nhất là
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 877

Trình phân loại Bayes cho các mẫu Gaussian có thể làm là đặt một bề mặt
quyết định bậc hai chung giữa mỗi cặp lớp mẫu. Tuy nhiên, nếu các quần thể
mẫu thực sự là Gaussian thì không có bề mặt nào khác mang lại kết quả thấp hơn
tổn thất trung bình trong phân loại.

Nếu tất cả các ma trận hiệp phương sai đều bằng nhau thì C j = C, với j = 1, 2, Á ,W. Qua
j, ta thu được
phương trình mở rộng (12.2-26) và loại bỏ tất cả các số hạng độc lập với chúng

1
dj(x) = ln P(vj) + xTC-1 mj - mj TC-1 mj (27-12)
2

là các hàm quyết định tuyến tính (siêu phẳng) với j = 1, 2, Á ,W.
Ngoài ra, nếu C = I, trong đó I là ma trận đồng nhất và cũng P(vj ) = 1>W,
với j = 1, 2, Á , W,sau đó

1
dj(x) = xTmj - j = 1, 2, Á ,W (28-12)
2 mj Tmj

Đây là các hàm quyết định cho bộ phân loại khoảng cách tối thiểu, như đã cho
trong phương trình. (12.2-5). Do đó, bộ phân loại khoảng cách tối thiểu là tối ưu trong
Bayes có ý nghĩa nếu (1) các lớp mẫu là Gaussian, (2) tất cả các ma trận hiệp
phương sai đều bằng ma trận nhận dạng và (3) tất cả các lớp đều có khả năng như nhau
xảy ra. Các lớp mẫu Gaussian thỏa mãn các điều kiện này có dạng hình cầu
N hệt nhau về kích thước (được gọi là siêu
các đám mây có hình dạng giống
cầu). Bộ phân loại khoảng cách mini-mum thiết lập một siêu phẳng giữa mỗi cặp
các lớp, với tính chất là siêu phẳng là đường phân giác vuông góc
của đoạn thẳng nối tâm của cặp siêu cầu. Trong hai chiều, các lớp tạo thành
các vùng hình tròn và các ranh giới trở thành các đường chia đôi đoạn thẳng
nối tâm của mỗi cặp
những vòng tròn như vậy.

■ Hình 12.11 cho thấy sự sắp xếp đơn giản của hai lớp mẫu theo ba chiều. VÍ DỤ 12.3:

Chúng tôi sử dụng những mẫu này để minh họa cơ chế thực hiện Bộ phân loại Bayes
cho ba
bộ phân loại Bayes, giả sử rằng các mẫu của mỗi lớp là mẫu từ
chiều
một phân phối Gaussian.
các mẫu.
Áp dụng phương trình. (12.2-22) theo các mẫu của Hình 12.11 mang lại

1 1
m1 = 1 3
4 C 1
3 S và m2 = 4 C 31giây

Tương tự, áp dụng phương trình. (12.2-23) cho hai lớp mẫu lần lượt mang lại hai
ma trận hiệp phương sai, trong trường hợp này bằng nhau:

1
C1 = C2 = 1 3 -1
16 C 1311
-1 3 S
Machine Translated by Google

878 Chương 12 ■ Nhận dạng đối tượng

HÌNH 12.11 Hai


x3
lớp mẫu đơn

giản và ranh giới

quyết định Bayes của

chúng (được tô bóng). (0, 0, 1)


(0, 1, 1)

(1, 0, 1) (1, 1, 1)

x2
(0, 1, 0)
(0, 0, 0)

(1, 0, 0)
(1, 1, 0)

P v1

x1 P v2

Bởi vì các ma trận hiệp phương sai bằng nhau nên các hàm quyết định Bayes được đưa ra bởi biểu thức.

(12.2-27). Nếu chúng ta giả sử rằng P(v1) = P(v2) = 1>2 thì phương trình. (12.2-28) được áp dụng, đưa

ra

1 tấn
dj(x) = xTC-1 mj -
C-1
mjj 2

trong đó

-484
C-1 = C
-448
8 -4
S -4

dj(x)
Thực hiện khai triển ma trận vectơ để cung cấp các hàm quyết định:

d1(x) = 4x1 - 1,5 và d2(x) = -4x1 + 8x2 + 8x3 - 5,5

Bề mặt quyết định ngăn cách hai lớp khi đó là

d1(x) - d2(x) = 8x1 - 8x2 - 8x3 + 4 = 0

Hình 12.11 cho thấy một phần của bề mặt này, nơi chúng tôi lưu ý rằng các lớp được phân tách một cách hiệu quả. ■

Một trong những ứng dụng thành công nhất của phương pháp phân loại Bayes
là phân loại ảnh viễn thám được tạo ra bằng phương pháp đa phổ.
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 879

máy quét trên máy bay, vệ tinh hoặc trạm vũ trụ. Hình ảnh đồ sộ
dữ liệu được tạo bởi các nền tảng này giúp phân loại hình ảnh tự động và
phân tích một nhiệm vụ được quan tâm đáng kể trong viễn thám. Các ứng dụng của
viễn thám rất đa dạng và bao gồm sử dụng đất, kiểm kê cây trồng, bệnh cây trồng
phát hiện, giám sát chất lượng không khí và nước, lâm nghiệp, nghiên cứu địa chất, dự
báo thời tiết và nhiều ứng dụng khác có ý nghĩa quan trọng đối với môi trường. Ví dụ
sau đây cho thấy một ứng dụng điển hình.

■ Như đã thảo luận ở Phần 1.3.4 và 11.4, máy quét đa phổ đáp ứng VÍ DỤ 12.4:

các dải phổ năng lượng điện từ được chọn; ví dụ: 0,45–0,52, Phân loại

0,52–0,60, 0,63–0,69 và 0,76–0,90 micron. Các phạm vi này có màu xanh lam nhìn thấy được, dữ liệu đa phổ
sử dụng Bayes
tương ứng là các dải màu xanh lá cây, màu đỏ có thể nhìn thấy và dải hồng ngoại gần. Một vùng trên
bộ phân loại.
quét mặt đất theo cách này tạo ra bốn hình ảnh kỹ thuật số của khu vực, một
cho mỗi ban nhạc. Nếu hình ảnh được đăng ký theo không gian thì thường đáp ứng một điều kiện
trong thực tế, chúng có thể được hình dung như được xếp chồng lên nhau, như
Hình 12.12 cho thấy. Vì vậy, giống như chúng ta đã làm ở Phần 11.4, mọi điểm trên
mặt đất có thể được biểu diễn bằng một vectơ mẫu 4 phần tử có dạng
x = x1 x2
(x1, x2, x3, x4) T, đâu là sắc Nếu
xanh hình
lam, đâuảnh
là có
sắc thái xanh lục, v.v.
kích thước 512 * 512 pixel, mỗi chồng bốn ảnh đa phổ có thể được
biểu diễn bằng 266.144 vectơ mẫu bốn chiều. Như đã nêu
trước đây, bộ phân loại Bayes cho các mẫu Gaussian yêu cầu ước tính về
vectơ trung bình và ma trận hiệp phương sai cho mỗi lớp. Trong các ứng dụng viễn thám,
những ước tính này thu được bằng cách thu thập dữ liệu đa phổ có lớp
được biết từ mỗi vùng quan tâm. Các vectơ kết quả sau đó được sử dụng để ước tính các
vectơ trung bình và ma trận hiệp phương sai cần thiết, như trong Ví dụ 12.3.
Hình 12.13(a) đến (d) thể hiện 4 512 * 512 hình ảnh đa phổ của
khu vực Washington, DC nằm trong các dải được đề cập ở đoạn trước. Chúng tôi quan tâm
đến việc phân loại các điểm ảnh trong khu vực được bao quanh bởi
các hình ảnh thành một trong ba lớp mẫu: nước, phát triển đô thị hoặc thảm thực vật.
Các mặt nạ trong Hình 12.13(e) được xếp chồng lên các hình ảnh để trích xuất

HÌNH 12.12
Sự hình thành của một

véc tơ hoa văn


từ đã đăng ký
bốn điểm ảnh
hình ảnh kỹ thuật số

được tạo ra bởi một


đa phổ
máy quét.

x1
x2 Dải quang phổ 4
x
x3
x4 Dải quang phổ 3

Dải quang phổ 2

Dải quang phổ 1


Machine Translated by Google

880 Chương 12 ■ Nhận dạng đối tượng

abcdefghi

HÌNH 12.13 Phân loại dữ liệu đa phổ Bayes. (a)–(d) Hình ảnh có các bước sóng màu xanh lam nhìn thấy được, màu xanh lá cây
nhìn thấy được, màu đỏ nhìn thấy được và các bước sóng gần hồng ngoại. (e) Mặt nạ hiển thị các vùng mẫu nước (1), phát
triển đô thị (2) và thảm thực vật (3). (f) Kết quả phân loại; các chấm đen biểu thị các điểm được phân loại không chính
xác. Các điểm khác (màu trắng) đã được phân loại chính xác. (g) Tất cả các pixel hình ảnh được phân loại là nước (màu
trắng). (h) Tất cả các pixel hình ảnh được phân loại là phát triển đô thị (màu trắng). (i) Tất cả các pixel ảnh được phân
loại là thảm thực vật (màu trắng).
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 881

BẢNG 12.1
Phân loại Bayes của dữ liệu hình ảnh đa phổ.

Mô hình đào tạo Mẫu độc lập

Phân loại vào lớp Phân loại vào lớp


Số mẫu % Số mẫu %
Lớp học 1 2 3 Chính xác Lớp học 1 2 3 đúng

1 484 482 2 0 99,6 1 483 478 3 2 98,9


2 933 0 885 48 94,9 2 932 0 880 52 94,4
3 483 0 19 464 96,1 3 482 0 16 466 96,7

mẫu đại diện cho ba lớp này. Một nửa số mẫu được sử dụng
để huấn luyện (tức là để ước tính vectơ trung bình và ma trận hiệp phương sai),
và nửa còn lại được sử dụng để thử nghiệm độc lập nhằm đánh giá sơ bộ
P(vi),
hiệu suất phân loại. Xác suất tiên nghiệm hiếm khi được biết đến trong

phân loại dữ liệu đa phổ không bị ràng buộc, vì vậy ở đây chúng tôi giả định rằng chúng
đều bằng nhau: P(vi) = 1>3, i = 1, 2, 3.

Bảng 12.1 tóm tắt kết quả ghi nhận đạt được trong quá trình đào tạo
và các tập dữ liệu độc lập. Tỷ lệ vectơ mẫu huấn luyện và vectơ độc lập được nhận dạng
chính xác là gần như nhau với cả hai tập dữ liệu, cho thấy tính ổn định trong ước tính tham
số. Lỗi lớn nhất trong cả hai trường hợp là
với các mẫu từ khu vực thành thị. Điều này không có gì bất ngờ vì thảm thực vật cũng có sẵn
ở đó (lưu ý rằng không có mẫu nào trong thảm thực vật hoặc khu vực đô thị được tìm thấy).
phân loại sai là nước). Hình 12.13(f) hiển thị dưới dạng các chấm đen các mẫu
đã bị phân loại sai và dưới dạng các chấm trắng là các mẫu được phân loại chính xác.
Không có chấm đen nào có thể nhìn thấy dễ dàng ở vùng 1, vì 7 điểm bị phân loại sai
rất gần với ranh giới của vùng màu trắng.
Các hình 12.13(g) đến (i) thú vị hơn nhiều. Ở đây, chúng tôi đã sử dụng
vectơ trung bình và ma trận hiệp phương sai thu được từ dữ liệu huấn luyện để phân loại tất
cả các pixel hình ảnh thành một trong ba loại. Hình 12.13(g) thể hiện ở
trắng tất cả các pixel được phân loại là nước. Các điểm ảnh không được phân loại là nước
hiển thị bằng màu đen. Chúng ta thấy rằng bộ phân loại Bayes đã làm rất tốt việc xác định
phần nào của hình ảnh là nước. Hình 12.13(h) hiển thị toàn màu trắng
pixel được phân loại là phát triển đô thị; quan sát xem hệ thống hoạt động tốt như thế nào
trong việc nhận dạng các đặc điểm đô thị, chẳng hạn như cầu và đường cao tốc.
Hình 12.13(i) hiển thị các pixel được phân loại là thực vật. Khu trung tâm ở
Hình 12.13(h) cho thấy sự tập trung cao độ của các pixel trắng ở khu vực trung tâm thành phố,
với mật độ giảm dần theo hàm số của khoảng cách từ tâm của
hình ảnh. Hình 12.13(i) cho thấy hiệu ứng ngược lại, cho thấy có ít thảm thực vật nhất
về phía trung tâm của hình ảnh khi sự phát triển đô thị ở mức tối đa.■

Chúng tôi đã đề cập ở phần đầu của Phần 10.3.3 rằng việc đặt ngưỡng có thể
được xem như một bài toán phân loại Bayes, bài toán này gán các mẫu một cách tối ưu cho
hai hoặc nhiều lớp. Trong thực tế, như bài toán trước cho thấy, việc phân loại từng pixel
thực sự là một bài toán phân đoạn nhằm chia một hình ảnh thành hai hoặc
Machine Translated by Google

882 Chương 12 ■ Nhận dạng đối tượng

nhiều loại vùng có thể hơn. Nếu chỉ có một biến duy nhất (ví dụ: cường độ) là

được sử dụng, sau đó phương trình. (12.2-17) trở thành hàm tối ưu phân chia tương tự

một hình ảnh dựa trên cường độ điểm ảnh của nó, như chúng ta đã làm trong Phần 10.3. Giữ trong

hãy nhớ rằng sự tối ưu đòi hỏi PDF và xác suất tiên nghiệm của mỗi

lớp được biết đến. Như chúng tôi đã đề cập trước đây, việc ước tính các mật độ này là

không phải là một nhiệm vụ tầm thường. Nếu cần phải đưa ra các giả định (ví dụ như giả định Gaussian

mật độ), thì mức độ tối ưu đạt được trong phân đoạn tỷ lệ thuận với

mức độ gần gũi của các giả định với thực tế.

12.2.3 Mạng thần kinh

Các cách tiếp cận được thảo luận trong hai phần trước đều dựa trên việc sử dụng

của các mẫu mẫu để ước lượng các tham số thống kê của từng lớp mẫu. Các

phân loại khoảng cách tối thiểu được xác định hoàn toàn bằng vectơ trung bình của mỗi

lớp học. Tương tự, bộ phân loại Bayes cho quần thể Gaussian được xác định hoàn toàn bằng vectơ

trung bình và ma trận hiệp phương sai của mỗi lớp. Các mẫu

(của thành viên lớp đã biết ) được sử dụng để ước tính các tham số này thường là

được gọi là các mẫu huấn luyện và một tập hợp các mẫu như vậy từ mỗi lớp được gọi là

tập huấn luyện. Quá trình sử dụng tập huấn luyện để thu được các hàm quyết định được gọi là học

hoặc huấn luyện.

Trong hai cách tiếp cận vừa thảo luận, đào tạo là một vấn đề đơn giản. Các mẫu huấn luyện của

mỗi lớp được sử dụng để tính toán các tham số của quyết định

hàm tương ứng với lớp đó. Sau khi các tham số được đề cập có

được ước tính, cấu trúc của bộ phân loại là cố định và hiệu suất cuối cùng của nó sẽ phụ thuộc

vào mức độ các quần thể mẫu thực tế thỏa mãn các giả định thống kê cơ bản được đưa ra trong quá

trình suy ra phân loại

phương pháp đang được sử dụng.

Các thuộc tính thống kê của các lớp mẫu trong một bài toán thường không được biết hoặc không

thể ước tính được (hãy nhớ lại cuộc thảo luận ngắn gọn của chúng ta trong phần trước về khó khăn

khi làm việc với thống kê nhiều biến). Trong thực tế,

những vấn đề lý thuyết quyết định như vậy được xử lý tốt nhất bằng các phương pháp mang lại kết quả

yêu cầu các chức năng quyết định trực tiếp thông qua đào tạo. Sau đó, việc đưa ra các giả định

liên quan đến các hàm mật độ xác suất cơ bản hoặc thông tin xác suất khác về các lớp mẫu đang

được xem xét là không cần thiết. Trong này

phần này chúng tôi thảo luận về các cách tiếp cận khác nhau đáp ứng tiêu chí này.

Lý lịch
Bản chất của tài liệu sau đây là việc sử dụng vô số các phần tử tính toán phi tuyến tính (được gọi

là nơ-ron) được tổ chức dưới dạng mạng

gợi nhớ đến cách mà các tế bào thần kinh được cho là được kết nối với nhau

trong não. Các mô hình kết quả được gọi bằng nhiều tên khác nhau, bao gồm mạng lưới thần kinh,

máy tính thần kinh, xử lý phân tán song song (PDP)

mô hình, hệ thống mô hình thần kinh, mạng tự thích ứng phân lớp và mô hình kết nối. Ở đây, chúng

tôi sử dụng tên mạng lưới thần kinh hoặc mạng lưới thần kinh cho

ngắn. Chúng tôi sử dụng các mạng này làm phương tiện để phát triển một cách thích ứng các hệ số

của hàm quyết định thông qua việc trình bày liên tiếp các tập huấn luyện của

các mẫu.
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 883

Sự quan tâm đến mạng lưới thần kinh bắt đầu từ đầu những năm 1940, được minh họa bởi

công trình của McCulloch và Pitts [1943]. Họ đề xuất các mô hình nơ-ron trong

dạng thiết bị ngưỡng nhị phân và thuật toán ngẫu nhiên liên quan đến 0-

Sự thay đổi trạng thái 1 và 1-0 của tế bào thần kinh làm cơ sở cho việc mô hình hóa hệ thống thần kinh.

Công việc tiếp theo của Hebb [1949] dựa trên các mô hình toán học nhằm cố gắng nắm bắt khái

niệm học tập bằng cách củng cố hoặc liên kết.

Vào giữa những năm 1950 và đầu những năm 1960, một loại máy học được gọi là

do Rosenblatt khởi xướng [1959, 1962] đã gây ra sự phấn khích đáng kể trong giới nghiên cứu

và thực hành lý thuyết nhận dạng mẫu. Lý do cho

mối quan tâm lớn đến những cỗ máy này, được gọi là perceptron, là sự phát triển của

bằng chứng toán học cho thấy rằng các perceptron, khi được huấn luyện với các tập huấn luyện

có thể phân tách tuyến tính (tức là các tập huấn luyện có thể phân tách bằng siêu phẳng), sẽ

hội tụ đến một giải pháp trong một số bước lặp hữu hạn. Giải pháp đã đưa

dạng hệ số của siêu phẳng có khả năng phân tách chính xác các lớp

được biểu diễn bằng các mẫu của tập huấn luyện.

Thật không may, những kỳ vọng sau khi phát hiện ra điều dường như

một mô hình học tập lý thuyết có cơ sở đã sớm gặp phải sự thất vọng.

Perceptron cơ bản và một số khái quát hóa của nó vào thời điểm đó chỉ đơn giản là

không đủ cho hầu hết các nhiệm vụ nhận dạng mẫu có ý nghĩa thực tế. Những nỗ lực tiếp theo

nhằm mở rộng sức mạnh của các máy giống perceptron bằng cách xem xét nhiều lớp của các thiết

bị này, mặc dù hấp dẫn về mặt khái niệm, vẫn thiếu

các thuật toán đào tạo hiệu quả chẳng hạn như những thuật toán đã tạo ra sự quan tâm đến chính

per-ceptron. Tình trạng của lĩnh vực máy học vào giữa những năm 1960 là

được tóm tắt bởi Nilsson [1965]. Vài năm sau, Minsky và Papert [1969]

đã trình bày một phân tích đáng nản lòng về hạn chế của các cỗ máy giống perceptron. Quan

điểm này được duy trì vào cuối những năm 1980, bằng chứng là những bình luận

của Simon [1986]. Trong tác phẩm này, được xuất bản lần đầu bằng tiếng Pháp vào năm 1984, Simon

bác bỏ tri giác dưới tiêu đề “Sự ra đời và cái chết của một huyền thoại”.

Các kết quả gần đây hơn của Rumelhart, Hinton và Williams [1986] liên quan đến

sự phát triển của các thuật toán huấn luyện mới cho các perceptron đa lớp đã

đã thay đổi vấn đề đáng kể. Phương pháp cơ bản của họ, thường được gọi là phương pháp tổng quát

Quy tắc delta cho việc học bằng lan truyền ngược, cung cấp một phương pháp đào tạo hiệu quả

cho các máy nhiều lớp. Mặc dù thuật toán huấn luyện này không thể hiển thị cho

hội tụ đến một giải pháp theo nghĩa chứng minh tương tự cho lớp đơn

perceptron, quy tắc delta tổng quát đã được sử dụng thành công trong nhiều

các vấn đề được quan tâm trong thực tế. Thành công này đã tạo nên những cỗ máy giống như

perceptron đa lớp như một trong những mô hình chính của mạng lưới thần kinh hiện đang được sử dụng.

Perceptron cho hai lớp mẫu


Ở dạng cơ bản nhất, perceptron học một hàm quyết định tuyến tính để phân đôi hai tập huấn

luyện có thể phân tách tuyến tính. Hình 12.14(a) trình bày sơ đồ mô hình perceptron cho hai

lớp mẫu. Phản ứng cơ bản này

thiết bị dựa trên tổng trọng số của các đầu vào của nó; đó là,

d(x) = a wixi + wn+1 (29-12)


tôi=1
Machine Translated by Google

884 Chương 12 ■ Nhận dạng đối tượng

w1
x1

w2 N
x2
d(x) wixi wn1
i1
Vectơ
hoa văn 1
1 nếu d(x) 0
x Wi
xi ồ

1 1 nếu d(x) 0

Yếu tố kích hoạt

wn
xn

wn1
1

Trọng lượng

w1
x1

w2 N

x2
wixi
i1 N
Vectơ
hoa văn 1 1 nếu wixi wn1
x Wi i1
xi ồ
wn1 N

1 1 nếu wixi wn1


Yếu tố kích hoạt i1

wn
xn

HÌNH 12.14 Hai biểu diễn tương đương của mô hình perceptron cho hai lớp mẫu.
bụng

là hàm quyết định tuyến tính đối với các thành phần của vectơ mẫu. Các hệ số wi, i = 1, 2, Á , n, n
+ 1, được gọi là trọng số, sửa đổi các đầu vào trước khi chúng được tính tổng và đưa vào phần tử

ngưỡng. Theo nghĩa này, trọng số tương tự như các khớp thần kinh trong hệ thống thần kinh của con

người. Hàm ánh xạ đầu ra của đường nối tổng vào đầu ra cuối cùng của thiết bị đôi khi được gọi là hàm

kích hoạt.

Khi d(x) 7 0, phần tử ngưỡng làm cho đầu ra của perceptron là +1, biểu thị rằng mẫu x được nhận dạng là thuộc

lớp v1. Điều ngược lại là đúng khi d(x) 6 0. .

Chế độ hoạt động này đồng ý với các nhận xét được

đưa ra trước đó liên quan đến phương trình. (12.2-2) liên quan đến việc sử dụng một hàm quyết định

duy nhất cho hai lớp mẫu. Khi d(x) = 0, x nằm trên
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 885

bề mặt quyết định ngăn cách hai lớp mẫu, đưa ra một kết quả không xác định
tình trạng. Ranh giới quyết định được thực hiện bởi perceptron thu được
bằng cách thiết lập phương trình. (12.2-29) bằng 0:

d(x) = a wixi + wn+1 = 0 (12.2-30)


tôi=1

hoặc

w1x1 + w2x2 + Á + wnxn + wn+1 = 0 (12.2-31)

đó là phương trình của một siêu phẳng trong không gian mẫu n chiều. Về mặt
N tiên thiết lập hướng của siêu phẳng,
địa lý, các hệ số đầu
trong khi hệ số cuối cùng tỷ lệ với đường vuông góc phân tích +1,

Tance từ gốc đến siêu phẳng. Do đó, nếu wn+1 = 0, siêu phẳng đi
thông qua gốc của không gian mẫu. Tương tự, nếu wj = 0, siêu phẳng là
song song với trục xj.
Đầu ra của phần tử ngưỡng trong Hình 12.14(a) phụ thuộc vào dấu của
d (x). Thay vì kiểm tra toàn bộ hàm để xác định xem nó có dương hay không

hoặc âm, chúng ta có thể kiểm tra phần tổng của phương trình. (12.2-29) chống lại thuật ngữ

wn+1, trong trường hợp đó đầu ra của hệ thống sẽ là

wixi 7 -wn+1
O = tôi=1
(12.2-32)
N

-1 nếu một wixi 6 -wn+1


d +1 nếu a tôi=1

Việc triển khai này tương đương với Hình 12.14(a) và được hiển thị trong Hình 12.14(b),
sự khác biệt duy nhất là hàm ngưỡng bị dịch chuyển bởi một
số tiền –wn+1 và đầu vào đơn vị không đổi không còn nữa. Chúng tôi quay lại
về sự tương đương của hai công thức này ở phần sau của phần này khi chúng ta
thảo luận về việc triển khai mạng nơ-ron đa lớp.
Một công thức khác được sử dụng thường xuyên là tăng cường các vectơ mẫu bằng cách
thêm một phần tử bổ sung,(nphần tử này luôn bằng 1, bất kể thành viên của
+ 1)st
lớp. Nghĩa là, một vectơ mẫu tăng cường y được tạo ra
, N,
từ một vectơ mẫu x bằng cách cho yi = xi, i = 1, 2, Á và nối thêm
phần tử bổ sung yn+1 = 1. Phương trình (12.2-29) khi đó trở thành

n+1

d(y) = một wiyi


tôi=1 (12.2-33)

= wT y

trong y = (y1, y2, Á , vâng, 1)T bây giờ là một vector mẫu tăng cường, và
T
đó w = (w1, w2, Á , wn, wn+1) được gọi là vectơ trọng số. Biểu thức này thường được
ally thuận tiện hơn về mặt ký hiệu. Bất kể công thức được sử dụng là gì,
tuy nhiên, vấn đề chính là tìm w bằng cách sử dụng tập mẫu huấn luyện nhất định
vectơ từ mỗi trong hai lớp.
Machine Translated by Google

886 Chương 12 ■ Nhận dạng đối tượng

Thuật toán huấn luyện


Các thuật toán được phát triển trong cuộc thảo luận sau đây là đại diện cho
nhiều phương pháp được đề xuất qua nhiều năm để đào tạo các perceptron.

Các lớp có thể phân tách tuyến tính: Sau đây là một thuật toán lặp, đơn giản để thu được
vectơ trọng số so-lution cho hai tập huấn luyện có thể phân tách tuyến tính. Cho hai người
tập huấn luyện các vectơ mẫu tăng cường thuộc các lớp mẫu và v1
v2, tương ứng, đặt w(1) đại diện cho vectơ trọng số ban đầu, có thể là cho- wT và (k)y(k) … 0,
sen tùy ý. Sau đó, ở bước lặp thứ k, nếu y(k) H v 1
thay thế w(k)qua

w(k + 1) = w(k) + cy(k) (12.2-34)

c tăng hiệu chỉnh dương. Ngược lại, nếu y(k) H v2


đâu là mức Và
w T(k)y(k) Ú 0, thay thế w(k) bằng

w(k + 1) = w(k) - cy(k) (12.2-35)

Nếu không, hãy để lại w(k) không thay đổi:

w(k + 1) = w(k) (12.2-36)

Thuật toán này thực hiện thay đổi w chỉ khi mẫu được xem xét tại
Bước thứ k trong chuỗi huấn luyện bị phân loại sai. Mức tăng hiệu chỉnh clà
được coi là dương và hiện tại là không đổi. Thuật toán này đôi khi
được gọi là quy tắc hiệu chỉnh tăng cố định.
Sự hội tụ của thuật toán xảy ra khi toàn bộ tập huấn luyện cho cả hai
các lớp được luân chuyển qua máy mà không có bất kỳ lỗi nào. Mức tăng cố định
quy tắc hiệu chỉnh hội tụ ở một số hữu hạn bước nếu hai tập huấn luyện của
các mẫu có thể phân tách tuyến tính. Một bằng chứng của kết quả này, đôi khi được gọi là
định lý huấn luyện perceptron, có thể tìm thấy trong sách của Duda, Hart, và
Cò [2001]; Tou và Gonzalez [1974]; và Nilsson [1965].

VÍ DỤ 12.5: ■ Xét hai tập huấn luyện được hiển thị trong Hình 12.15(a), mỗi tập gồm hai
Minh họa của các mẫu. Thuật toán huấn luyện sẽ thành công vì hai quá trình huấn luyện
cảm nhận các tập hợp có thể phân tách tuyến tính. Trước khi áp dụng thuật toán, các mẫu được
thuật toán. tăng cường, mang lại tập huấn luyện 5 cho lớp và (0, 0, 1)T, (0, 1, 1)T6 v1
5(1, 0, 1)T, (1, 1, 1)T6 cho lớp học v 2 .Cho c = 1, w(1) = 0, và biểu diễn
các mẫu theo thứ tự dẫn đến trình tự các bước sau:

0 0
wT(1)y(1) = [0, 0, 0]C 0 1 S = 0 w(2) = w(1) + y(1) = C 0 1 giây

1 0
wT(2)y(2) = [0, 0, 1]C 0 1 S = 1 w(3) = w(2) = C 0 1 giây
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 887

d(x) 2x1 1 0 bụng


x2 x2
HÌNH 12.15 (a)

Các mẫu thuộc


1 1 hai lớp. (b) Ranh
giới

quyết định được


xác định
bằng đào tạo.

x1 x1
01 1 0

P v1

P v2

0 0
wT(3)y(3) = [0, 0, 1]C 1 S = 1 w(4) = w(3) - y(3) = C -1 0 giây

1 0
1 wT(4)y(4) = [-1, 0, 0]C11S = -1 w(5) = w(4) = C -1 0 giây

trong đó việc hiệu chỉnh vectơ trọng số được thực hiện ở bước đầu tiên và bước thứ ba do phân

loại sai, như được chỉ ra trong các phương trình. (12.2-34) và (12.2-35). Bởi vì giải pháp chỉ

đạt được khi thuật toán tạo ra một phép lặp hoàn toàn không có lỗi thông qua tất cả các mẫu huấn

luyện, nên tập huấn luyện phải được gửi lại trước. Quá trình học máy được tiếp tục bằng cách

cho y(5) = y(1), y(6) = y(2), y(7) = y(3) và y(8) = y(4), và tiến hành theo cách tương tự. Sự

hội tụ đạt được ở k = 14, thu được nghiệm w(14) = (-2, 0, 1)T. vectơ trọng số Hàm quyết định

tương ứng là d (y) = -2y1 + 1.

Quay trở lại không gian mẫu ban đầu bằng cách cho xi = yi mang lại d(x) = -2x1 + 1,

mà khi đặt bằng 0, sẽ trở thành phương trình của ranh giới quyết định như trong Hình 12.15(b). ■

Các lớp không thể tách rời: Trong thực tế, các lớp mẫu có thể phân tách tuyến tính là
ngoại lệ (hiếm), chứ không phải là quy tắc. Do đó, một lượng nỗ lực nghiên cứu đáng kể
trong suốt những năm 1960 và 1970 đã đổ vào phát triển các kỹ thuật được thiết kế để
xử lý các lớp mẫu không thể tách rời. Với những tiến bộ gần đây trong việc đào tạo
mạng lưới thần kinh, nhiều phương pháp xử lý hành vi không thể tách rời đã trở thành
những hạng mục được quan tâm trong lịch sử. Tuy nhiên, một trong những phương pháp ban
đầu có liên quan trực tiếp đến cuộc thảo luận này: quy tắc delta ban đầu. Được biết
đến với tên gọi quy tắc delta Widrow-Hoff hay quy tắc delta bình phương nhỏ nhất (LMS)
để huấn luyện các perceptron, phương pháp này giảm thiểu sai số giữa phản hồi thực tế
và phản hồi mong muốn ở bất kỳ bước huấn luyện nào.
Machine Translated by Google

888 Chương 12 ■ Nhận dạng đối tượng

Xét hàm tiêu chí

1
2
J(w) = (r - wTy) (12.2-37)
2

r hồi mong muốn (nghĩa là r = +1


đâu là phản nếu huấn luyện tăng cường
vectơ tern y thuộc lớp và r = -1 v1 điều chỉnh, w tăng dần theo pat-if y thuộc lớp ).
v2 Nhiệm vụ
hướng gradient âm của (w) trong J
để tìm mức tối thiểu của hàm này, điều này xảy ra khi r = wTy;
là, mức tối thiểu tương ứng với phân loại chính xác. Nếu đại
w(k)diện cho
vectơ trọng số ở bước lặp thứ k, thuật toán giảm độ dốc chung
có thể được viết là

(12.2-38)
w(k + 1) = w(k) - aB 0J(w)0w R w=w(k)

giá trị w(k


mới +của
1) w ở đâu và a 7 0 cho biết độ lớn của
điều chỉnh. Từ phương trình. (12.2-37),

0J(w)
= -(r - wTy)y (12.2-39)
0 tuần

Thay thế kết quả này vào phương trình. (12.2-38) mang lại kết quả

w(k + 1) = w(k) + aC r(k) - wT(k)y(k)Dy(k) (12.2-40)

với vectơ trọng số ban đầu, w(1), là tùy ý.


Bằng cách xác định sự thay đổi (delta) trong vectơ trọng số là

¢w = w(k + 1) - w(k) (12.2-41)

chúng ta có thể viết phương trình. (12.2-40) dưới dạng thuật toán hiệu chỉnh delta:

¢w = ae(k)y(k) (12.2-42)
Ở đâu

e(k) = r(k) - wT(k)y(k) (12.2-43)

là lỗi xảy ra với vectơ trọng số khi mẫuw(k)


đượcy(k)
trình bày.
Phương trình (12.2-43) đưa ra lỗi với vectơ trọng số w(k). Nếu chúng ta thay đổi nó

ĐẾN w(k + 1), nhưng để nguyên mẫu, lỗi sẽ trở thành

e(k) = r(k) - wT(k + 1)y(k) (12.2-44)

Sự thay đổi sai số khi đó là

¢e(k) = C r(k) - wT(k + 1)y(k)D - C r(k) - wT(k)y(k)D

= - CwT(k + 1) - wT(k)Dy(k) (12.2-45)

= -¢wTy(k)
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 889

Nhưng ¢w = ae(k)y(k), Vì thế

¢e = -ae(k)yT(k)y(k)

2
= -ae(k)7y(k)7 (12.2-46)

2. Tiếp theo
Do đó, việc thay đổi trọng số sẽ làm giảm lỗi theo mẫu đầu vào của hệ số, bắt đầu chu kỳ a7y(k)7
thích ứng mới, giảm lỗi tiếp theo theo hệ số
2 và như thế.
a7y(k + 1)7 ,

Việc lựa chọn bộ điều


Một
khiển ổn định và tốc độ hội tụ (Widrow và
Stearn [1985]). Sự ổn định đòi hỏi 0 6 a 6 2. Phạm vi thực tế của là 0,1 Một

6 a 6 1,0. Mặc dù bằng chứng không được trình bày ở đây, thuật toán của phương
trình. (12.2-40) hoặc phương trình. (12.2-42) và (12.2-43) hội tụ đến một giải pháp giảm
thiểu sai số bình phương trung bình trên các mẫu của tập huấn luyện. Khi các lớp mẫu có thể
tách rời, giải pháp được đưa ra bởi thuật toán vừa được thảo luận
có thể hoặc không thể tạo ra một siêu phẳng tách biệt. Tức là sai số trung bình bình phương
lời giải không ngụ ý một lời giải theo nghĩa của định lý huấn luyện perceptron. Sự không
chắc chắn này là cái giá phải trả của việc sử dụng thuật toán hội tụ theo
cả trường hợp có thể tách rời và không thể tách rời trong công thức cụ thể này.
Hai thuật toán huấn luyện perceptron được thảo luận cho đến nay có thể được mở rộng thành
nhiều hơn hai lớp và các hàm quyết định phi tuyến. Dựa trên lịch sử

nhận xét được đưa ra trước đó, việc khám phá các thuật toán đào tạo đa lớp ở đây có rất ít
công lao. Thay vào đó, chúng tôi đề cập đến việc đào tạo nhiều lớp trong bối cảnh mạng lưới thần kinh.

Mạng nơron truyền thẳng đa lớp

Trong phần này chúng tôi tập trung vào các hàm quyết định của nhận dạng mẫu đa lớp
các vấn đề, không phụ thuộc vào việc các lớp có thể tách rời hay không và liên quan đến các
kiến trúc bao gồm các lớp phần tử tính toán perceptron.

Kiến trúc cơ bản: Hình 12.16 thể hiện kiến trúc của mạng nơ-ron
mô hình đang được xem xét. Nó bao gồm các lớp gồm các nút tính toán (tế bào thần kinh)
giống hệt nhau về mặt cấu trúc được sắp xếp sao cho đầu ra của mỗi nơ-ron trong một lớp
đưa vào đầu vào của mỗi nơ-ron ở lớp tiếp theo. Số lượng nơ-ron trong
lớp đầu tiên gọi là lớp A, NA. Thông thường, NA = n, tính chiều của
vectơ mẫu đầu vào. Số lượng nơ-ron trong lớp đầu ra, được gọi là lớp Q,

được ký hiệu NQ.


là số bằng W, NQ số lượng các lớp mẫu mà
mạng lưới thần kinh đã được đào tạo để nhận dạng. Mạng nhận dạng một mẫu
vectơ x thuộc lớp nếu đầu ra thứ i vi
của mạng là “cao” trong khi
tất cả các đầu ra khác đều ở mức “thấp”, như được giải thích trong phần thảo luận sau.

Như sự bùng nổ trong Hình 12.16 cho thấy, mỗi nơ-ron có cùng dạng với
mô hình perceptron đã thảo luận trước đó (xem Hình 12.14), ngoại trừ
chức năng kích hoạt giới hạn cứng đã được thay thế bằng chức năng “sig-moid” giới hạn mềm.
Tính khả vi theo tất cả các đường dẫn của mạng lưới thần kinh được yêu cầu trong quá trình
phát triển quy tắc huấn luyện. Sigma sau đây
hàm kích hoạt có tính khả vi cần thiết:

1
h (12.2-47)
j(Ij) =
1 + e-(Ij+uj)>uo
Machine Translated by Google

890

tôi ôi


1

Trọng lượng Trọng số Trọng số Trọng số Trọng số


Một
sáp 1, 2, …, wba b 1, 2, …, wjk j 1, 2, …, wpj p 1, 2, …, wqp q 1, 2, …,
Tôi N
NA 1, 2, …, Một
NB 1, 2, …, NA NJ k 1, 2, …, NK NP j 1, 2, …, NJ NQ p 1, 2, …, NP

x1

Lớp v1

x2

Lớp v2
Vectơ
mẫu đầu
vào x3

Lớp vW

Lớp Q
xn
(lớp đầu ra)
Các nút NQ W
Lớp A Lớp B Lớp K Lớp J Lớp P
Các nút NA nút NB nút NK nút NJ nút NP

HÌNH 12.16 Mô hình mạng nơron truyền thẳng đa lớp. Sự bùng nổ cho thấy cấu trúc cơ bản của từng phần tử nơ-ron trên toàn mạng.
Phần bù được coi như một trọng số khác. ừ,
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 891

Ồ (tôi) HÌNH 12.17


sigmoidal
kích hoạt
1.0 chức năng của

Cao phương trình. (12.2-47).

Giá trị nhỏ của uo Giá trị lớn của uo

0,5

Thấp

TÔI

trong là đầu vào cho phần tử kích hoạt của mỗi nút
đó Ij, j = 1, 2, Á , New Jersey,

J
là phần bù và uj
điều
trong
khiển
lớphình
của dạng
mạng,của hàm sig-moid. ừ

Phương trình (12.2-47) được vẽ trong hình 12.17, cùng với các giới hạn cho

phản hồi “cao” và “thấp” từ mỗi nút. Do đó, khi chức năng cụ thể này được sử dụng, hệ thống

sẽ đưa ra số đọc cao cho bất kỳ giá trị nào lớn hơn tôi

. .
uj Tương tự, hệ thống đưa ra số đọc thấp đối với bất kỳ giá trị nào nhỏ hơn ujtôi.j Như Hình
12.17 cho thấy, hàm kích hoạt sigmoid luôn dương và nó

chỉ có thể đạt đến các giá trị giới hạn là 0 và 1 nếu đầu vào của phần tử kích hoạt tương ứng

là âm hoặc dương vô hạn. Vì lý do này, các giá trị gần

0 và 1 (giả sử là 0,05 và 0,95) xác định các giá trị thấp và cao ở đầu ra của neutron trong

Hình 12.16. Về nguyên tắc, các loại hàm kích hoạt khác nhau có thể được

được sử dụng cho các lớp khác nhau hoặc thậm chí cho các nút khác nhau trong cùng một lớp của một

mạng lưới thần kinh. Trong thực tế, cách tiếp cận thông thường là sử dụng cùng một dạng chức

năng kích hoạt trên toàn mạng.

Với tham chiếu đến Hình 12.14(a), phần bù được hiển thị trong Hình 12.17 là tương tự

đi đến hệ số trọng số trong phần thảo luận trước đó về nhận thức +1

tron. Việc thực hiện chức năng ngưỡng dịch chuyển này có thể được thực hiện trong

ừ số bổ sung
dạng của Hình 12.14(a) bằng cách hấp thụ phần bù như một hệ

điều chỉnh đầu vào thống nhất không đổi cho tất cả các nút trong mạng. Để

tuân theo ký hiệu chủ yếu được tìm thấy trong tài liệu, chúng tôi không hiển thị một

đầu vào không đổi riêng biệt của +1 vào tất cả các nút của Hình 12.16. Thay vào đó, đầu vào này

ừ phần không thể thiếu của các nút mạng. Như đã nêu
và trọng số sửa đổi của nó là một

trong phần minh họa ở Hình 12.16, có một hệ số như vậy cho mỗi NJ

các nút trong lớp J.

Trong Hình 12.16, đầu vào của một nút ở bất kỳ lớp nào là tổng trọng số của các đầu ra từ

lớp trước đó. Để lớp biểu thị lớp trước lớp K

(không có thứ tự chữ cái nào được ngụ ý trong Hình 12.16) cung cấp đầu vào cho hoạt động-J

J, phần tử tion của mỗi nút trong lớp ký hiệu là Ij :

NK
tôi j = một wjkOk (12.2-48)
k=1
Machine Translated by Google

892 Chương 12 ■ Nhận dạng đối tượng

với j = 1, 2, Á , New Jersey, số lượngNJnút trong lớp ở đâu J, NK là

số nút trong lớp và là trọng K,


số sửa đổi
wjk đầu ra Được rồi

K
của các nút trong lớp trước khi chúng được đưa vào các nút trong lớp. J.
đặt lớp là K

Được = hk(Ik) (12.2-49)

cho k = 1, 2, Á , NK.
Sự hiểu biết rõ ràng về ký hiệu chỉ số dưới được sử dụng trong biểu thức. (12.2-48)
là quan trọng vì chúng ta sử dụng nó trong suốt phần còn lại của phần này. Đầu tiên, lưu ý
rằng
Ij, j = 1, 2, Á đại, Newdiện
Jersey,
cho đầu vào của phần tử kích hoạt thứ j
J .đó biểu thị đầu vào cho phần tử kích hoạt của
nút trong lớp Do
I1 Nút đầu tiên (trên cùng) trong lớp biểu thị đầu vào của phần tử kích hoạt- JI I2 ,
ment của nút thứ hai trong lớp, v.v. J,
Có NK
đầu vào cho mọi
J,
nút trong lớp nhưng mỗi đầu vào riêng lẻ có thể có trọng số khác nhau. Do đó,
NK J
đầu vào của nút đầu tiên trong lớp được tính theo hệ số
w1k, k = 1, 2, Á các đầu vào của nút thứ hai được tính trọng số bởi hệ số , NK;
các nhà khoa học w2k, k = 1, 2,, Á NK; NJDo*đóNK
, v.v. tổng các hệ số
K
là cần thiết để xác định trọng số của đầu ra của lớp khi chúng được cung cấp
vào lớp Một hệ số bù bổ sung là cần NJ
thiết để xác định com- J. ừ ,
hoàn toàn là các nút trong lớp J.

Thay thế phương trình. (12.2-48) thành (12.2-47) mang lại kết quả

1
hj1Ij2 = Nk (12.2-50)

1 + e -aa
k = 1wjkok+ujb>uo

đây là dạng hàm kích hoạt được sử dụng trong phần còn lại của phần này.

Trong quá trình huấn luyện, việc điều chỉnh các nơ-ron ở lớp đầu ra là một việc đơn giản
bởi vì đầu ra mong muốn của mỗi nút đã được biết. Vấn đề chính trong việc huấn
luyện mạng nhiều lớp nằm ở việc điều chỉnh các trọng số trong cái gọi là mạng ẩn.
các lớp. Đó là, ở những nơi khác ngoài lớp đầu ra.

Huấn luyện bằng cách truyền ngược: Chúng tôi bắt đầu bằng cách tập trung vào đầu ra
lớp. Tổng sai số bình phương giữa các phản hồi mong muốn và giá trị chính xác ,
phản hồi thực tế tương ứng của
OQ, các
q, nút trong lớp (đầu ra) là

NQ
1 2
EQ = 2 Một (rq - Oq) (12.2-51)
q=1

NQ trong lớp đầu ra và được sử dụng để thuận tiện


là số nút Q cho việc1 2 ký hiệu cho
việc lấy đạo hàm sau này.
Mục tiêu là phát triển một quy tắc huấn luyện, tương tự như quy tắc delta, cho phép
điều chỉnh trọng số trong mỗi lớp theo cách tìm kiếm mức tối thiểu để
một hàm lỗi có dạng được hiển thị trong biểu thức. (12.2-51). Như trước đây, việc điều chỉnh
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 893

trọng số tỷ lệ với đạo hàm riêng của sai số đối với


tạ đạt được kết quả này. Nói cách khác,

0EQ
¢wqp = -a (12.2-52)
0wqp

P lớp Q, ¢wqp như được


trong đó lớp trước Một
định nghĩa trong biểu thức. (12.2-42), và là một

mức tăng điều chỉnh tích cực.


Lỗi EQ là một chức năng của đầu ra,ồ , do đó đầu ra là chức năng của
đầu vào Sử dụng quy tắc chuỗi, chúng tôi đánh giá đạo hàm riêng của EQ như sau:
Chỉ số thông minh.

0EQ 0EQ 0Iq


=
(12.2-53)
0wqp 0Iq 0wqp

Từ phương trình. (12.2-48),

0Iq 0 NP
=
Một wqpOp = Op (12.2-54)
0wqp 0wqp p=1

Phương trình thay thế. (12.2-53) và (12.2-54) vào phương trình. (12.2-52) mang lại kết quả

0EQ
¢wqp = -a Ồ
0Iq

= một dqOp (12.2-55)

Ở đâu

0EQ
dq = - (12.2-56)
0Iq

Để tính toán 0EQ>0Iq, chúng tôi sử dụng quy tắc dây chuyền để thể hiện một phần

đạo hàm theo tốc độ thay đổi của và tỷ lệ EQ ồ


của sự thay đổi
ồ q
đối với Đó là, . Chỉ số thông minh

0EQ 0EQ 0Oq


= -
dq = - (12.2-57)
0Iq 0Oq 0Iq

Từ phương trình. (12.2-51),

0EQ
= -(rq - Oq) (12.2-58)
0Oq

và, từ phương trình. (12.2-49),

0OQ 0
=
hq(Iq) = hœ q(Iq) (12.2-59)
0Iq 0Iq
Machine Translated by Google

894 Chương 12 ■ Nhận dạng đối tượng

Phương trình thay thế. (12.2-58) và (12.2-59) vào phương trình. (12.2-57) cho

dq = (rq - Oq)hœ q(Iq) (12.2-60)

Thay thế
tỷ lệ thuận với phương trình đại lượng lỗi. (12.2-56) (rq - Oq).
đến (12.2-58) vào phương trình. (12.2-55) cuối cùng mang lại kết quả

¢wqp = a(rq - Oq)hœ q(Iq)Op

a dqOp 12.2-61) =

Sau chức năng hq(Iq) đã được xác định, tất cả các số hạng trong biểu thức. (12.2-61) đã

biết hoặc có thể được quan sát trong mạng. Nói cách khác, khi trình bày bất kỳ mẫu đào tạo nào cho đầu vào

của mạng, chúng tôi biết phản hồi mong muốn của mỗi nút đầu ra sẽ là gì. Tôi có thể quan sát giá trị của

mỗi nút đầurq, giống như đầu vào của quá trình kích hoạt các phần tử của
ra ồ lớp và Op, đầu ra của các nút
trong lớp. Như vậy, chúng taq, Q,lớp cuối
biết cách điều chỉnh các trọng số làm thay đổi các liên kết giữa

cùng và lớp tiếp theo trong mạng. P.

Tiếp tục quay trở lại từ lớp đầu ra, bây giờ chúng ta hãy phân tích
P. hành theo cách tương tự như trên mang lại kết quả
điều gì xảy ra ở lớp Tiến

¢wpj = a(rp - Op)hœ p(Ip)Oj

= a dpOj 12.2-62)

thuật ngữ lỗi ở đâu

dp = (rp - Op)hœ p(Ip) (12.2-63)

rp,trong phương trình. (12.2-62) và (12.2-63) đã biết hoặc có thể


Ngoại trừ tất cả các điều khoản
quan sát được trong mạng. Thuật ngữ này không có ý nghĩa trong rp một lớp bên trong bởi vì chúng tôi

không biết phản hồi của một nút bên trong về mặt thành viên mẫu sẽ là gì. Chúng tôi có thể chỉ định

những gì chúng tôi muốn phản hồi chỉ ở đầu ra của mạng nơi mẫu cuối cùng sự phân loại diễn ra. Nếu
r tin đó tại các nút bên trong thì sẽ không cần có thêm lớp nào nữa. Vì vậy, chúng
chúng ta biết thông

ta phải tìm cách trình bày lại về mặt số lượng đã biết hoặc có thể quan sát được trong mạng.

dp

P là
Quay trở lại phương trình. (12.2-57), chúng tôi viết thuật ngữ lỗi cho lớp

0Ep 0Ep 0Op


= -
dp = - (12.2-64)
0Ip 0Op 0Ip

Thuật ngữ 0Op>0Ip không gây khó khăn gì. Như trước, nó là

0Op
= 0hp(Ip)
= hp œ (Ip) (12.2-65)
0Ip

0Ip hp được biết một lần được chỉ định vì có Ip


thể quan sát được. Thuật ngữ
được tạo rarplà đạo hàm 0Ep>0Op, vì vậy thuật ngữ này phải được biểu diễn theo
cách không chứa. Sử dụng quy
rp.tắc chuỗi, chúng ta viết đạo hàm dưới dạng

NQ 0Iq
NQ NP
- 0EP 0EP 0EP
= - một = một một wqpOp
0Op q=1 0Iq 0Op q=1 ¢ - 0Iq 0 0Op p=1
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 895

NQ 0EP
= một ¢ -
q=1 0Iq ≤wqp
(12.2-66)
NQ
= một dqwqp
q=1

trong đó bước cuối cùng tiếp theo từ phương trình. (12.2-56). Phương trình thay thế. (12.2-65)

và (12.2-66) vào phương trình. (12.2-64) mang lại biểu thức mong muốn cho dp:

NQ
dp = hp œdq(Ip)a
wqp (12.2-67)
q=1

dp tính ngay bây giờ vì tất cả các số hạng của nó đều đã biết. Do đó phương trình.
Tham số này có thể được

(12.2-62) và (12.2-67) thiết lập hoàn toàn quy tắc huấn luyện cho lớp. Tầm quan trọng của P. của phương
d q lớp ngay
dp số hạng được tính toán trong
trình. (12.2-67) là nó tính toán từ các đại lượng và wqp, là các

sau lớp P.

P, đại lượng
Sau khi thuật ngữ lỗi và trọng số đã được tính toán cho lớp, các
này có thể được sử dụng tương tự để tính toán lỗi và trọng số cho lớp ngay
P. chúng tôi đã tìm ra cách truyền lỗi trở lại mạng ,
trước lớp Nói cách khác,
bắt đầu với lỗi ở lớp đầu ra.
Chúng ta có thể tóm tắt và khái quát hóa quy trình đào tạo như sau. Đối với KJ, bất
kỳ lớp
nào và lớp nào K toán các trọng số làm thay đổi kết
ngay trước lớp đều tính J, nối giữa hai
lớp này, bằng cách sử dụng wjk,

¢wjk = tính từ Được rồi (12.2-68)

Nếu lớp J
là lớp đầu ra, là dj

dj = (rj - Oj)hœ j(Ij) (12.2-69)

Nếu lớp J P
là lớp bên trong và lớp là lớp tiếp theocho
dj được (ởbởi
bên phải), thì

NP
dj = hœ j(Ij) a dp wjp (12.2-70)
p=1

với ,j Nj.
= 1,
sản 2, Á
lượng Sử dụng chức năng kích hoạt trong phương trình. (12.2-50) với uo = 1

hœ j(Ij) = Oj(1 - Oj) (12.2-71)

trong trường hợp đó phương trình. (12.2-69) và (12.2-70) giả sử các dạng đặc biệt hấp dẫn sau đây:

dj = (rj - Oj) Oj(1 - Oj) (12.2-72)

cho lớp đầu ra, và

NP
dj = Oj(1 - Oj)a dp wjp (12.2-73)
p=1

cho các lớp bên trong. Trong cả hai phương trình. (12.2-72) và (12.2-73), j = 1, 2, Á , NJ.
Machine Translated by Google

896 Chương 12 ■ Nhận dạng đối tượng

Các phương trình (12.2-68) đến (12.2-70) tạo thành quy tắc delta tổng quát
để huấn luyện mạng nơron truyền thẳng đa lớp của Hình 12.16. Các
Quá trình bắt đầu bằng một tập trọng số tùy ý (nhưng không hoàn toàn bằng nhau) trong suốt
mạng. Sau đó, việc áp dụng quy tắc delta tổng quát ở bất kỳ bước lặp nào đều bao gồm
hai giai đoạn cơ bản. Trong giai đoạn đầu tiên, một vector huấn luyện được đưa ra cho
mạng và được phép truyền qua các lớp để tính toán đầu ra

Oj cho mỗi nút. Sau đó, đầu ra của các nút trong lớp đầu ra được so sánh với phản hồi
mong muốn của chúng, để tạo ra các thuật ngữ lỗi. dq.
rp, giai đoạn thứ hai liên quan đến việc truyền ngược qua mạng trong đó
tín hiệu lỗi thích hợp được chuyển đến mỗi nút và trọng số tương ứng
ừ. Như đã
những thay đổi được thực hiện. Quy trình này cũng áp dụng cho các trọng số sai lệch
thảo luận ở phần trước ở một số chi tiết, chúng được coi đơn giản như các trọng số bổ sung mà
sửa đổi đầu vào đơn vị thành điểm nối tổng của mọi nút trong mạng.
Thực tiễn phổ biến là theo dõi lỗi mạng cũng như các lỗi liên quan đến các mẫu
riêng lẻ. Trong một buổi huấn luyện thành công, mạng
lỗi giảm theo số lần lặp và thủ tục hội tụ
đến một tập hợp trọng số ổn định chỉ biểu hiện những dao động nhỏ với sự bổ sung thêm
đào tạo. Cách tiếp cận được áp dụng để xác định xem một mẫu có được phân loại chính
xác trong quá trình đào tạo hay không là xác định xem phản hồi của
nút trong lớp đầu ra được liên kết với lớp mẫu mà từ đó
mẫu thu được ở mức cao, trong khi tất cả các nút khác có đầu ra cao hơn
thấp như đã xác định trước đó.

Sau khi hệ thống được huấn luyện, nó sẽ phân loại các mẫu bằng cách sử dụng các tham số
được thiết lập trong giai đoạn huấn luyện. Trong hoạt động bình thường, tất cả các phản hồi
đường dẫn bị ngắt kết nối. Sau đó, bất kỳ mẫu đầu vào nào cũng được phép lan truyền
thông qua các lớp khác nhau và mẫu được phân loại là thuộc về
lớp của nút đầu ra ở mức cao, trong khi tất cả các nút khác ở mức thấp. Nếu hơn
hơn một đầu ra được dán nhãn cao hoặc nếu không có đầu ra nào được gắn nhãn như vậy thì
sự lựa chọn là một trong những tuyên bố phân loại sai hoặc đơn giản là gán mẫu cho
lớp của nút đầu ra có giá trị số cao nhất.

VÍ DỤ 12.6: ■ Bây giờ chúng tôi minh họa cách một mạng lưới thần kinh có dạng được hiển thị trong Hình 12.16
Hình dạng
được huấn luyện để nhận biết bốn hình dạng được hiển thị trong Hình 12.18(a), cũng như các hình dạng ồn ào
phân loại
các phiên bản của những hình dạng này, các mẫu của chúng được hiển thị trong Hình 12.18(b).
sử dụng thần kinh
mạng. Các vectơ mẫu được tạo bằng cách tính toán các chữ ký chuẩn hóa của
các hình dạng (xem Phần 11.1.3) và sau đó thu được 48 mẫu cách đều nhau
của mỗi chữ ký. Các vectơ 48 chiều thu được là đầu vào cho
mạng nơron truyền thẳng ba lớp được hiển thị trong Hình 12.19. Số lượng
các nút nơ-ron ở lớp đầu tiên được chọn là 48, tương ứng với độ thứ nguyên của vectơ
mẫu đầu vào. Bốn nơ-ron ở lớp thứ ba (đầu ra) tương ứng với số lượng lớp mẫu và số
lượng
nơ-ron ở lớp giữa được xác định theo kinh nghiệm là 26 (trung bình của
số lượng nơ-ron ở lớp đầu vào và đầu ra). Không có quy tắc nào được biết đến
để chỉ định số lượng nút trong các lớp bên trong của mạng lưới thần kinh, vì vậy
con số này thường dựa trên kinh nghiệm trước đó hoặc đơn giản được chọn ngẫu nhiên và
sau đó được tinh chỉnh bằng thử nghiệm. Trong lớp đầu ra, bốn nút từ
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 897

Một

HÌNH 12.18
(một tài liệu tham khảo

hình dạng và
(b) ồn ào điển hình
các hình được sử dụng trong

đào tạo
mạng lưới thần kinh của

Hình 12.19.
(Được phép của Tiến sĩ.
Hình 1 Hình 2 Hình 3 Hình 4
Lalit Gupta, ECE
Phòng,
Nam Illinois

Trường đại học.)

Hình 1 Hình 2 Hình 3 Hình 4

từ trên xuống dưới trong trường hợp này đại diện cho các lớp vj, j = 1, 2, 3, 4, tương ứng.
Sau khi cấu trúc mạng đã được thiết lập, các chức năng kích hoạt phải được chọn cho
từng đơn vị và lớp. Tất cả các chức năng kích hoạt đã được chọn để thỏa mãn phương
trình. (12,2-50) với uo = 1 do đó, theo cuộc thảo luận trước đó của chúng ta,
phương trình. (12.2-72) và (12.2-73) được áp dụng.

Quá trình đào tạo được chia thành hai phần. Trong phần đầu tiên, trọng số là
được khởi tạo thành các giá trị ngẫu nhiên nhỏ với giá trị trung bình bằng 0 và mạng sau đó được

được huấn luyện với các vectơ mẫu tương ứng với các mẫu không nhiễu như các hình dạng
được hiển thị trong Hình 12.18(a). Các nút đầu ra đã được theo dõi trong quá trình
huấn luyện. Công việc mạng được cho là đã học các hình dạng từ cả bốn lớp khi, đối

với bất kỳ mẫu huấn luyện nào từ lớp, các phần tử của lớp đầu ra mang lại Oi Ú 0,95
q O… 0,05, với q = 1, 2, Á
vi, , NQ; q Z i. Nói cách khác, với bất kỳ mẫu lớp nào vi ,

đơn vị đầu ra tương ứng với lớp đó phải ở mức cao, đồng thời-(… 0,05).
(Ú 0,95)

Điều quan trọng là đầu ra của tất cả các nút khác phải ở mức thấp

Phần đào tạo thứ hai được thực hiện với các mẫu nhiễu, được tạo dưới dạng
theo sau. Mỗi pixel đường viền ở dạng không nhiễu được gán một xác suất V

giữ lại tọa độ ban đầu của nó trong mặt phẳng ảnh và xác suất
R = 1 - V được gán ngẫu nhiên vào tọa độ của một trong tám của nó
các pixel lân cận. Mức độ tiếng ồn tăng lên bằng cách giảm đi (nghĩa là, V.
R
ngày càng tăng). Hai bộ dữ liệu nhiễu được tạo ra. Bộ đầu tiên bao gồm 100
các mẫu nhiễu của mỗi lớp được tạo ra bằng cách thay đổiRtrong khoảng từ 0,1 đến 0,6, cho
tổng cộng 400 mẫu. Tập hợp này, được gọi là tập kiểm tra, được sử dụng để thiết lập hệ thống
hiệu quả sau đào tạo.
Machine Translated by Google

898 Chương 12 ■ Nhận dạng đối tượng

HÌNH 12.19 Mạng


x1
nơ-ron ba lớp Trọng
được sử dụng để nhận
lượng wba

dạng các hình dạng

trong Hình 12.18.


x2
Trọng
(Được phép của Tiến sĩ.
lượng wqb
Lalit Gupta, Khoa
ECE, Đại học
Nam Illinois.)
x3 Hình 1

x4 Hình 2
Vectơ
mẫu đầu
vào

x5 Hình 3

Hình 4

Lớp Q
(lớp đầu ra)
NQ 4

Lớp B
NB 26

xNA

Lớp A
NA 48

Một số tập nhiễu được tạo ra để huấn luyện hệ thống với dữ liệu nhiễu.
Bộ đầu tiên bao gồm 10 mẫu cho mỗi lớp, được tạo bằng cách sử dụng Rt = 0, trong đó biểu thị giá trị
R Bắt đầu với các vectơ trọng số thu được trong phần huấn luyện
Rt để tạo dữ liệu huấn luyện.
được sử dụng

đầu tiên (không có tiếng ồn), hệ thống được phép trải qua trình tự học tập với tập dữ liệu mới. Bởi

vì Rt = 0 có nghĩa là không có tiếng ồn nên quá trình huấn luyện lại này là sự mở rộng của quá trình

huấn luyện không có tiếng ồn trước đó. Sử dụng các trọng số thu được đã học theo cách này, mạng đã

phải tuân theo bộ dữ liệu thử nghiệm mang lại kết quả được hiển thị bằng đường cong được gắn nhãn Rt

= 0 trong Hình 12.20. Số lượng mẫu bị phân loại sai chia cho tổng số mẫu được kiểm tra sẽ cho ra xác
suất phân loại sai, đây là thước đo thường được sử dụng để thiết lập hiệu suất mạng thần kinh.

Tiếp theo, bắt đầu với các vectơ trọng số đã học bằng cách sử dụng dữ liệu được tạo với R = 0, hệ

thống
t được huấn luyện lại với tập dữ liệu nhiễu được tạo với Rt = 0,1.

Sau đó, hiệu suất nhận dạng được thiết lập bằng cách chạy lại các mẫu thử nghiệm
trong hệ thống với vectơ trọng số mới. Lưu ý sự cải thiện đáng kể về hiệu suất.
Hình 12.20 thể hiện kết quả thu được bằng cách tiếp tục
Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 899

0,25 HÌNH 12.20


Rt 0,0 Hiệu suất của
thần kinh
mạng như một
Rt 0,1 chức năng của tiếng ồn
0,20
mức độ. (Được phép
của bác sĩ Lalit

Gupta, ECE
Rt 0,2
0,15 Phòng,
Nam Illinois
Trường đại học.)
loại
phân
suất
sai
Xác

0,10
Rt 0,4

Rt 0,3

0,05

0,00
0,00 0,20 0,40 0,60 0,80

Kiểm tra độ ồn (R)

quy trình đào tạo lại và kiểm tra lại này cho Rt = 0,2, 0,3, và 0,4. Đúng như mong đợi nếu

hệ thống đang học đúng cách, xác suất phân loại sai các mẫu từ
tập kiểm tra giảm khi giá trị của Rt tăng lên vì hệ thống đang được
được huấn luyện với dữ liệu nhiễu hơn để có giá trị Rt.
cao hơn. Một ngoại lệ trong Hình 12.20 là
kết quả cho Rt = 0,4. Lý do là số lượng mẫu được sử dụng để huấn luyện còn ít
hệ thống. Nghĩa là, mạng không thể tự thích ứng đủ với các biến thể lớn hơn về hình dạng ở
mức nhiễu cao hơn với số lượng mẫu được sử dụng. Điều này
giả thuyết được xác minh bằng kết quả trong Hình 12.21, cho thấy xác suất thấp hơn
phân loại sai khi số lượng mẫu huấn luyện tăng lên. Hình 12.21
cũng hiển thị dưới dạng tham chiếu đường cong cho Rt = 0,3 từ Hình 12.20.
Các kết quả trước đó cho thấy mạng nơ-ron ba lớp có khả năng
học cách nhận biết các hình dạng bị nhiễu do nhiễu sau một mức độ huấn luyện khiêm tốn.

Ngay cả khi được huấn luyện với dữ liệu không có tiếngRtồn= (0trong Hình 12.20), hệ thống vẫn

có thể đạt được mức nhận dạng chính xác gần 77% khi thử nghiệm với dữ liệu
R =12.20).
bị hỏng nặng do nhiễu ( trong Hình 0,6 Tỷ lệ nhận dạng trên
cùng một dữ liệu tăng lên khoảng 99% khi hệ thống được huấn luyện với dữ liệu nhiễu hơn

(và 0,4). Điều quan trọng cần lưu ý là hệ thống đã được huấn luyện bởi in- Rr = 0,3
tăng sức mạnh phân loại của nó thông qua việc bổ sung dần dần một cách có hệ thống
tiếng ồn. Khi biết được bản chất của tiếng ồn, phương pháp này lý tưởng để cải thiện

tính chất hội tụ và ổn định của mạng nơron trong quá trình học. ■

Độ phức tạp của các bề mặt quyết định: Chúng tôi đã xác định rằng perceptron một lớp thực
hiện bề mặt quyết định siêu phẳng. Một câu hỏi tự nhiên vào thời điểm này là: Bản chất của
các bề mặt quyết định được thực hiện bởi
Machine Translated by Google

900 Chương 12 ■ Nhận dạng đối tượng

HÌNH 12.21 Cải 0,100


thiện hiệu suất cho

Rt = 0,4 bằng cách Rt 0,4, N 10


tăng số lượng

mẫu huấn luyện


(đường cong 0,080

cho Rt = 0,3 được


Rt 0,4, N 20
hiển thị để tham
khảo).

0,060 Rt 0,3, N 10
(Được phép của Tiến sĩ.

Lalit Gupta, Khoa ECE,


Rt 0,4, N 40
loại
phân
suất
sai
Xác

Đại học Nam


Illinois.)

0,040

0,020

0,000
0,00 0,20 0,40 0,60 0,80

Kiểm tra độ ồn (R)

một mạng nhiều lớp, chẳng hạn như mô hình trong Hình 12.16? Phần thảo luận
sau đây đã chứng minh rằng mạng ba lớp có khả năng thực hiện các bề mặt
quyết định phức tạp theo bit bao gồm các siêu phẳng giao nhau.
Để bắt đầu, hãy xem xét mạng hai đầu vào, hai lớp được hiển thị trong Hình
12.22(a). Với hai đầu vào, các mẫu có hai chiều và do đó, mỗi nút trong lớp
đầu tiên của mạng thực hiện một đường trong không gian 2 chiều. Chúng tôi
biểu thị lần lượt bằng 1 và 0 cho đầu ra cao và thấp của hai nút này. Chúng
tôi giả sử rằng đầu ra 1 chỉ ra rằng vectơ đầu vào tương ứng với một nút
trong lớp đầu tiên nằm ở phía dương của đường thẳng. Sau đó, các kết hợp đầu
ra có thể cung cấp cho nút đơn ở lớp thứ hai

abc
HÌNH 12.22 (a)
v2
Mạng nơ-ron hai đầu

vào, hai lớp, x1


tiến tiếp. (b)

và (c)
v1 v1 v2 v1

Ví dụ về ranh x2
giới quyết
v2
định có thể được

thực

hiện với mạng này.


Machine Translated by Google

12.2 ■ Ghi nhận dựa trên phương pháp lý thuyết quyết định 901

là (1, 1), (1, 0), (0, 1) và (0, 0). Nếu chúng ta xác định hai vùng, một vùng cho lớp v1 nằm ở phía dương của cả

hai đường và vùng kia cho lớp nằm ở bất kỳ vị trí nào khác, nút đầu ra có thể phân loại bất kỳ mẫu đầu vào nào

thuộc về một trong hai vùng này chỉ bằng cách thực hiện một phép toán logic AND. Nói cách khác, nút đầu ra phản hồi

bằng 1, chỉ biểu thị lớp khi cả v1, đầu ra của lớp đầu tiên là 1. Phép toán AND có thể được thực hiện bởi một nút

thần kinh có dạng đã thảo luận trước đó nếu uj được đặt thành một giá trị trong khoảng đó,
thời gian nửa mở (1, 2). Do

nếu chúng ta giả sử có 0 và 1 phản hồi từ lớp đầu tiên, thì phản hồi của nút đầu ra sẽ cao, chỉ biểu thị lớp khi

v1 , tổng được thực hiện bởi nút thần kinh trên hai đầu ra từ
lớp đầu tiên lớn hơn 1. Hình 12.22(b) và (c) cho thấy

mạng của Hình 12.22(a) có thể phân đôi thành công hai lớp mẫu không thể phân tách bằng một bề mặt tuyến tính duy

nhất.

Nếu số nút trong lớp đầu tiên tăng lên ba, mạng trong Hình 12.22(a) sẽ thực hiện ranh
giới quyết định bao gồm giao điểm của ba đường. Yêu cầu lớp đó nằm ở mặt tích cực của
cả ba đường các đường sẽ tạo ra một vùng lồi được giới v1
hạn bởi ba đường. Trên thực tế,
một vùng lồi mở hoặc đóng tùy ý có thể được xây dựng đơn giản bằng cách tăng số lượng
nút trong lớp đầu tiên của mạng nơ-ron hai lớp.

Bước hợp lý tiếp theo là tăng số lớp lên ba. Trong trường hợp này, các nút của lớp đầu tiên thực hiện các dòng

như trước đây. Sau đó, các nút của lớp thứ hai thực hiện các phép toán AND để tạo thành các vùng từ các dòng khác

nhau. Các nút ở lớp thứ ba chỉ định thành viên lớp cho các khu vực khác nhau. Ví dụ: giả sử lớp đó bao gồm hai vùng

riêng biệt, mỗi vùng v1 được giới hạn bởi một tập hợp các dòng khác nhau. Sau đó, hai nút trong lớp thứ hai dành

cho các vùng tương ứng với cùng một lớp mẫu. Một trong các
đó nút đầu ra cần có khả năng báo hiệu sự hiện diện của lớp

khi một trong hai nút ở lớp thứ hai lên cao. Giả sử rằng các điều kiện cao và thấp ở lớp thứ hai lần lượt được ký

hiệu là 1 và 0, thì khả năng này là thu được bằng cách làm cho các nút đầu ra của mạng thực hiện thao tác OR logic.

Đối với các nút thần kinh có dạng đã thảo luận trước đó, chúng tôi thực hiện điều này

bằng cách đặt thành một giá trị trong khoảng nửa mở [0, 1). Sau đó, bất cứ khi nào có
ít nhất một trong các nút ở lớp thứ hai được liên kết với nút đầu ra đó đi cao (đầu ra
là 1), nút tương ứng trong lớp đầu ra sẽ ở mức cao, cho biết mẫu đang được xử lý thuộc
về lớp được liên kết với nút đó.
Hình 12.23 tóm tắt các nhận xét trước đó. Lưu ý ở hàng thứ ba rằng độ phức tạp của
các vùng quyết định được triển khai bởi mạng ba lớp về nguyên tắc là tùy ý. Trong thực
tế, khó khăn nghiêm trọng thường nảy sinh trong việc cấu trúc lớp thứ hai để đáp ứng
chính xác với các kết hợp khác nhau liên quan đến các lớp cụ thể. Lý do là các đường
không chỉ dừng lại ở giao điểm của chúng với các đường khác, và kết quả là các mẫu cùng
loại có thể xuất hiện ở cả hai phía của đường trong không gian mẫu. Trong điều kiện thực
tế, lớp thứ hai có thể gặp khó khăn trong việc tìm ra dòng nào nên được đưa vào phép
toán AND cho một lớp mẫu nhất định—hoặc thậm chí có thể là không thể. Tham chiếu đến bài
toán OR loại trừ trong cột thứ ba của Hình 12.23 đề cập đến thực tế là, nếu các mẫu đầu
vào là nhị phân thì chỉ có bốn mẫu khác nhau có thể được xây dựng thành hai
Machine Translated by Google

902 Chương 12 ■ Nhận dạng đối tượng

HÌNH 12.23 Các


Cấu trúc mạng Loại Giải bài Các lớp có Hầu hết các hình
loại vùng quyết định
vùng quyết định toán OR loại vùng được chia lưới dạng bề mặt quyết
có thể được hình
trừ định chung
thành bởi mạng
Lớp đơn
chuyển tiếp

tiếp liệu đơn và đa v1 v2


Siêu
lớp với một và hai lớp v2 v1
phẳng đơn
đơn vị ẩn và hai đầu

vào. v2 v1

Hai lớp

(Lippman.) Mở hoặc v1 v2
đóng v2 v1
lồi

vùng
v2 v1

Ba lớp
Tùy ý (độ v1 v2
phức tạp bị v2 v1
giới hạn bởi số
lượng nút)
v2 v1

kích thước. Nếu các mẫu được sắp xếp sao cho lớp bao gồm các mẫu v1 5 (0, 1), (1, 0)6 5(0, 0), (1, 1)6, bao gồm các

và lớp v 2
mẫu, lớp thành viên của các mẫu trong haihàm
lớpnày
nàychỉ
được
bằng
đưa1 ra
khi
bởi
một
hàm
hoặc
logic
biến
loại
kia trừ
trong
OR hai
(XOR),
biến là 1, còn ngược

lại là 0. Do đó, giá trị XOR bằng 1 biểu thị các mẫu thuộc lớp và giá trị XOR bằng 0 biểu thị các mẫu thuộc lớp v2.

v1,

N hiểu: Thay vì các đường thẳng, chúng


Cuộc thảo luận trước đây được khái quát hóa theo các chiều một cách dễ

ta xử lý các siêu phẳng. Mạng một lớp thực hiện một siêu phẳng duy nhất. Mạng hai lớp thực hiện các vùng lồi tùy

ý bao gồm các giao điểm của siêu phẳng. Mạng ba lớp thực hiện các bề mặt quyết định có độ phức tạp tùy ý. Số lượng

nút được sử dụng trong mỗi lớp xác định độ phức tạp của hai trường hợp cuối cùng. Số lượng lớp trong trường hợp

đầu tiên được giới hạn ở hai. Trong hai trường hợp còn lại, số lượng lớp là tùy ý, vì số lượng nút đầu ra có thể

được chọn để phù hợp với vấn đề đang giải quyết.

Xem xét các nhận xét trước đó, thật hợp lý khi đặt câu hỏi: Tại sao mọi người lại quan tâm đến việc nghiên cứu

mạng lưới thần kinh có nhiều hơn ba lớp?

Xét cho cùng, mạng ba lớp có thể thực hiện các bề mặt quyết định có độ phức tạp tùy ý. Câu trả lời nằm ở phương

pháp được sử dụng để huấn luyện mạng chỉ sử dụng ba lớp. Quy tắc huấn luyện cho mạng trong Hình 12.16 giảm thiểu

thước đo lỗi nhưng không nói gì về cách liên kết các nhóm siêu phẳng với các nút cụ thể trong lớp thứ hai của mạng

ba lớp thuộc loại đã được thảo luận trước đó. Trên thực tế, vấn đề làm thế nào để thực hiện phân tích cân bằng giữa

số lớp và số nút trong mỗi lớp vẫn chưa được giải quyết. Trong thực tế, sự đánh đổi thường được giải quyết bằng

thử và sai hoặc bằng kinh nghiệm trước đó với một lĩnh vực vấn đề nhất định.
Machine Translated by Google

12.3 ■ Phương pháp kết cấu 903

12.3 Phương pháp kết cấu

Các kỹ thuật được thảo luận trong Phần 12.2 xử lý các mẫu một cách định lượng và
phần lớn bỏ qua bất kỳ mối quan hệ cấu trúc nào vốn có trong hình dạng của một mẫu.
Tuy nhiên, các phương pháp cấu trúc được thảo luận trong phần này tìm cách đạt được
sự nhận dạng mẫu bằng cách tận dụng chính xác các loại mối quan hệ này. Trong phần
này, chúng tôi giới thiệu hai cách tiếp cận cơ bản để nhận dạng các hình dạng biên
dựa trên biểu diễn chuỗi. Chuỗi là cách tiếp cận thực tế nhất trong nhận dạng mẫu
cấu trúc.

12.3.1 So khớp các số hình dạng Một thủ

tục tương tự như khái niệm khoảng cách tối thiểu được giới thiệu trong Phần 12.2.1
đối với các vectơ mẫu có thể được xây dựng để so sánh các ranh giới khu vực được
mô tả dưới dạng số hình dạng. Với tham chiếu k, theo thảo luận ở Phần 11.2.2, mức
độ tương tự, giữa hai ranh giới vùng (hình) được xác định là thứ tự lớn nhất mà số
hình dạng của chúng vẫn trùng nhau. Ví dụ: hãy để và biểu thị số hình dạng của các
b
ranh giới khép kín được biểu thị bằng mã chuỗi 4 hướng. Hai hình này có mức độ
Một

giống nhau nếu


k

sj(a) = sj(b) với j = 4, 6, 8, Á , k

sj(a) Z sj(b) với j = k + 2, k + 4, Á (12.3-1)

trong đó Schỉ số hình dạng và chỉ số dưới chỉ thứ tự. Khoảng cách ab giữa hai hình và được định
nghĩa
nghịch đảo của mức độ giống là của chúng:
nhau

1
D(a, b) = (12.3-2)
k

Khoảng cách này thỏa mãn các tính chất sau:

D(a, b) Ú 0

D(a, b) = 0 iff a = b (12.3-3)

D(a, c) … maxCD(a, b), D(b, c)D

Hoặc hoặc kcóD thể được sử dụng để so sánh hai hình dạng. Nếu mức độ tương tự được sử dụng là k thì giá
k dạng giống hệt
trị càng lớn thì các hình dạng càng giống nhau (lưu ý rằng là vô hạn đối với các hình

nhau). Điều ngược lại là đúng khi sử dụng thước đo khoảng cách.

■ Giả sử chúng ta có một hình dạng vàf muốn tìm kết quả phù hợp nhất với nó trong VÍ DỤ 12.7:

một tập hợp gồm năm hình dạng khác ( a,e b, c, d và ), như trong Hình 12.24(a). Vấn Sử dụng số hình
để so sánh các
đề này tương tự như việc có năm hình dạng nguyên mẫu và cố gắng tìm ra hình dạng
hình.
phù hợp nhất với một hình dạng chưa biết nhất định. Việc tìm kiếm có thể được hiển
thị trực quan với sự trợ giúp của cây tương tự được hiển thị trong Hình 12.24(b).
Gốc của cây tương ứng với mức độ tương tự thấp nhất có thể có, trong ví dụ này là
4. Giả sử rằng các hình dạng giống hệt nhau đến mức 8, ngoại trừ hình dạngMột,
có mức
độ tương tự đối với tất cả các hình dạng khác là 6. Tiếp tục xuống
Machine Translated by Google

904 Chương 12 ■ Nhận dạng đối tượng

Một

bc
b c
HÌNH 12.24 Một

(a) Hình dạng.


(b) Giả thuyết
cây tương đồng
(c) Sự tương đồng
ma trận.

(Bribiesca và e f
d
Guzman.)

Bằng cấp
4 abcdef Một
bcdef

66666
6 abcdef
Một

b 8 8 10 8
số 8 Một bcdef
c 8 8 12

10 d cf là
d 8 8
Một

12 d b e e
cf
số 8
Một

f
14
quảng cáo c f b e

d
cây, chúng ta thấy rằng hình dạng đó có mức độ tương tự 8 đối với tất cả các hình khác,
c hợp độc đáo, có mức độ giống nhau cao hơn bất kỳ hai hình
f sự kết
và vân vân. Hình dạng và

dạng nào khác. Ở thái cực khác, nếu là một ẩn số Một

hình dạng, tất cả những gì chúng tôi có thể nói khi sử dụng phương pháp
Một
này là nó tương tự như

năm hình dạng khác có mức độ tương tự 6. Thông tin tương tự có thể được

được tóm tắt dưới dạng ma trận tương tự, như trong Hình 12.24(c). ■

12.3.2 So khớp chuỗi

Giả sử có hai ranh giới vùng và được mã hóa thành


Một
b,
chuỗi (xem

Mục 11.5) lần lượt được ký hiệu


a1a2là
Á b1b2
số Á bm . Hãy đại diện Một

lượng kết quả trùng khớp giữa hai chuỗi, trong đó một kết quả khớp xảy ra trong

vị trí thứ k nếu ak = bk. Số ký hiệu không khớp là

b = max(ƒ a ƒ , ƒ b ƒ) - a (12.3-4)

luận cứ ƒ tranh luận ƒ là độ dài (số ký hiệu) trong biểu diễn chuỗi của

đâu. Có thể chứng minh rằng b = 0 khi và chỉ khi và giống nhau Một b

(xem Bài toán 12.21).

Một thước đo đơn giản về sự tương đồng giữa và làMộttỷ lệ b


Một Một

R = =
(12.3-5)
b max(ƒ a ƒ , ƒ b ƒ) - a
Machine Translated by Google

12.3 ■ Phương pháp kết cấu 905

bụng
đĩa CD

ef
g

HÌNH 12.25
(A và B)
Vật mẫu
ranh giới của hai
đối tượng khác nhau
các lớp học; (c) và
(d) của họ
tương ứng
đa giác
xấp xỉ;
R 1.a 1.b 1.c 1.d 1.e 1.f R 2.a 2.b 2.c 2.d 2.e 2.f
(e)–(g) bảng biểu
của R.
1.a 2.a
(Kích thước và Dương.)
1.b 16.0 2.b 33,5

1.c 9,6 26,3 2.c 4,8 5,8

1.d 5.1 8,1 10,3 2.d 3,6 4,2 19,3

1.e 4,7 7,2 10,3 14,2 2.e 2,8 3,3 9,2 18,3

1.f 4,7 7,2 10,3 8,4 23,7 2.f 2,6 3,0 7,7 13,5 27,0

R 1.a 1.b 1.c 1.d 1.e 1.f

2,a 1,24 1,50 1,32 1,47 1,55 1,48

2.b 1,18 1,43 1,32 1,47 1,55 1,48

2.c 1,02 1,18 1,19 1,32 1,39 1,48

2,d 1,02 1,18 1,19 1,32 1,29 1,40

2.e 0,93 1,07 1,08 1,19 1,24 1,25

2.f 0,89 1,02 1,02 1,24 1,22 1,18

Do đó là Rvô hạn đối với một kết quả khớp hoàn hảo và bằng 0 khi không có kết quả nào tương ứng

b ký hiệu trong
Một
và khớp ( a = 0 trong trường hợp này). Bởi vì việc so khớp được
thực hiện theo từng ký hiệu nên điểm bắt đầu trên mỗi ranh giới rất quan trọng trong việc
giảm thiểu số lượng tính toán. Bất kỳ phương pháp nào chuẩn hóa thành hoặc gần với
cùng một điểm xuất phát là hữu ích, miễn là nó mang lại lợi thế về mặt tính toán
qua kết hợp bạo lực, bao gồm việc bắt đầu tại các điểm tùy ý trên mỗi
chuỗi và sau đó dịch chuyển một trong các chuỗi (có bao quanh) và tính toán
R cho kết quả phù hợp nhất.
phương trình. (12.3-5) cho mỗi ca. Giá trị lớn nhất của

■ Hình 12.25(a) và (b) thể hiện ranh giới mẫu của mỗi đối tượng VÍ DỤ 12.8:
Minh họa của
các lớp được xấp xỉ bằng sự phù hợp đa giác (xem Phần 11.1.3). Số liệu
khớp chuỗi.
12.25(c) và (d) hiển thị các phép tính gần đúng đa giác tương ứng với
ranh giới thể hiện trong hình. 12.25(a) và (b), tương ứng. Các chuỗi được hình thành
từ các đa giác bằng cách tính góc trong, giữa các đoạn khi bạn,
mỗi đoạn
đa giác đã được đi qua theo chiều kim đồng hồ. Các góc được mã hóa thành một trong tám góc có thể

ký hiệu, tương ứng với số gia 45°; đó là, a1: 0° 6 u … 45°; a2: 45° 6 u
… 90°; MỘT ; a8: 315° 6 u … 360°.
Machine Translated by Google

906 Chương 12 ■ Nhận dạng đối tượng

Hình 12.25(e) cho thấy kết quả tính toán thước đo cho sáu mẫu của đối tượng 1 soRvới chính chúng. Các
R đối tượng 1. Hình
mục tương ứng với các giá trị và, ví dụ, ký hiệu 1.c đề cập đến chuỗi thứ ba từ lớp

12.25(f) hiển thị kết quả so sánh các chuỗi của lớp đối tượng thứ hai với chính chúng. Cuối cùng, Hình

12.25(g) cho thấy một bảng các giá trị thu được bằng cách so sánh các chuỗi của một lớp với các chuỗi
R trong hai bảng
khác. Lưu ý rằng, ở đây, tất cả các giá trị đều nhỏ hơn đáng kể so với bất kỳ mục nào
R viên lớp
trước, cho thấy thước đo đạt được mức độ phân biệt cao giữa hai loại đối tượng. Ví dụ: nếu thành

của chuỗi 1.a không xác định được R, thì giá trị nhỏ nhất thu được từ việc so sánh chuỗi này với các
R của lớp 1 sẽ là 4,7 [Hình. 12.25(e)].
chuỗi mẫu (nguyên mẫu)

Ngược lại, giá trị lớn nhất khi so sánh nó với các chuỗi loại 2 sẽ là 1,24 [Hình. 12.25(g)]. Kết quả này sẽ dẫn đến

kết luận rằng chuỗi 1.a là thành viên của lớp đối tượng 1. Cách tiếp cận phân loại này tương tự với bộ phân loại

khoảng cách tối thiểu được giới thiệu trong Phần 12.2.1. ■

Bản tóm tắt


Bắt đầu từ Chương 9, cách xử lý ảnh kỹ thuật số của chúng tôi đã bắt đầu quá trình chuyển đổi từ
các quy trình có đầu ra là hình ảnh sang các quy trình có đầu ra là các thuộc tính về hình ảnh,
theo nghĩa được định nghĩa trong Phần 1.1. Mặc dù tài liệu trong chương hiện tại chỉ mang tính
chất giới thiệu nhưng các chủ đề được đề cập là nền tảng để hiểu được trình độ tiên tiến trong
nhận dạng đối tượng. Như đã đề cập ở đầu chương này, việc nhận dạng các đối tượng riêng lẻ là điểm
hợp lý để kết thúc cuốn sách này. Để vượt qua điểm này, chúng ta cần những khái niệm nằm ngoài
phạm vi mà chúng ta đã đặt ra cho hành trình quay lại Phần 1.4. Cụ thể, bước hợp lý tiếp theo sẽ
là phát triển các phương pháp phân tích hình ảnh mà sự phát triển phù hợp đòi hỏi các khái niệm
từ trí tuệ máy móc.
Như đã đề cập trong Phần 1.1 và 1.4, trí thông minh của máy và một số lĩnh vực phụ thuộc vào
nó, chẳng hạn như phân tích cảnh và thị giác máy tính, vẫn đang ở giai đoạn phát triển thực tế
tương đối sớm. Giải pháp cho các vấn đề phân tích hình ảnh ngày nay được đặc trưng bởi các phương
pháp heuristic. Mặc dù những cách tiếp cận này thực sự rất đa dạng, nhưng hầu hết chúng đều có
chung nền tảng kỹ thuật quan trọng chính là những phương pháp được đề cập trong cuốn sách này.
Sau khi kết thúc nghiên cứu tài liệu trong 12 chương trước, giờ đây bạn đã có thể hiểu được các lĩnh vực

chính trong lĩnh vực xử lý hình ảnh kỹ thuật số, cả từ quan điểm lý thuyết và thực tiễn. Mọi cuộc thảo luận đều

được thực hiện cẩn thận để đặt nền tảng vững chắc cho việc nghiên cứu sâu hơn về lĩnh vực này và các lĩnh vực

liên quan. Do tính chất nhiệm vụ cụ thể của nhiều vấn đề về hình ảnh, sự hiểu biết rõ ràng về các nguyên tắc cơ

bản sẽ nâng cao đáng kể cơ hội giải quyết thành công.

Tài liệu tham khảo và tài liệu nền tảng đọc thêm

cho các Phần 12.1 đến 12.2.2 là sách của Theodoridis và Koutroumbas [2006], của Duda, Hart, và
Stork [2001], và của Tou và Gonzalez [1974].
Bài khảo sát của Jain et al. [2000] cũng được quan tâm. Cuốn sách của Principe et al. [1999] trình
bày một cái nhìn tổng quan về mạng lưới thần kinh. Một số đặc biệt của IEEE Trans.
Xử lý hình ảnh [1998] đáng được so sánh với một ấn bản đặc biệt tương tự mười năm trước đó (IEEE
Computer [1988]). Tài liệu được trình bày trong Phần 12.2.3 mang tính chất giới thiệu. Trên thực
tế, mô hình mạng lưới thần kinh được sử dụng trong cuộc thảo luận đó là một trong nhiều mô hình
được đề xuất trong nhiều năm qua. Tuy nhiên, mô hình mà chúng ta đã thảo luận mang tính đại diện và cũng
Machine Translated by Google

■ Vấn đề 907

được sử dụng khá rộng rãi trong xử lý ảnh. Ví dụ xử lý sự công nhận


của các hình dạng bị biến dạng được phỏng theo Gupta et al. [1990, 1994]. Bài báo của Gori và
Scarselli [1998] thảo luận về sức mạnh phân loại của mạng lưới thần kinh đa lớp. Một phương
pháp được báo cáo bởi Ueda [2000] dựa trên việc sử dụng kết hợp tuyến tính của mạng lưới thần kinh
để đạt được lỗi phân loại tối thiểu là cách đọc bổ sung tốt trong bối cảnh này.
Để đọc thêm về tài liệu trong Phần 12.3.1, hãy xem Bribiesca và Guzman
[1980]. Về khớp chuỗi, xem Sze và Yang [1981], Oommen và Loke [1997], và
Gdalyahu và Weinshall [1999]. Các tài liệu tham khảo bổ sung về nhận dạng mẫu cấu trúc là
Gonzalez và Thomason [1978], Fu [1982], Bunke và Sanfeliu [1990], Tanaka
[1995], Vailaya và cộng sự. [1998], Aizaka và Nakamura [1999], và Jonk et al. [1999]. Nhìn thấy
cũng là cuốn sách của Huang [2002].

Các vấn đề Giải pháp chi tiết cho

vấn đề được đánh dấu bằng một

12.1 (a) Tính các hàm quyết định của bộ phân loại khoảng cách tối thiểu cho ngôi sao có thể được tìm thấy trong

trang web sách. Trang web


các mẫu được hiển thị trong Hình 12.1. Bạn có thể thu được các vectơ trung bình cần thiết bằng cách
cũng chứa đề xuất
(cẩn thận) kiểm tra. dự án dựa trên tài liệu trong

chương này.
(b) Phác thảo các bề mặt quyết định được thực hiện bởi các hàm quyết định trong (a).

12.2 Chứng minh các phương trình. (12.2-4) và (12.2-5) thực hiện cùng chức năng về mặt
phân loại nhàn.

12.3 Chứng minh rằng bề mặt cho bởi phương trình. (12.2-6) là đường trung trực của
đường nối các điểm n chiều và mj m Tôi
.

12.4 Chỉ ra cách phân loại khoảng cách tối thiểu được thảo luận liên quan đến Hình 12.7
W
có thể được thực hiện bằng cách sử dụng các dãy điện trở W( là số lớp), một
điểm nối tổng hợp ở mỗi ngân hàng (để tính tổng dòng điện) và bộ chọn tối đa
có khả năng chọn mức đầu vào tối đa, trongW đó đầu vào là dòng điện.

12.5 Chứng minh rằng hệ số tương quan của phương trình. (12.2-8) có các giá trị trong khoảng
[-1, 1]. (Gợi ý: Biểu diễn g(x, y) ở dạng vectơ.)

12.6 Một thí nghiệm tạo ra ảnh nhị phân của các đốm màu có hình gần như hình elip
(xem hình sau). Các đốm màu có ba kích cỡ, với giá trị trung bình là
trục chính của các hình elip là (1,3, 0,7), (1,0, 0,5) và (0,75, 0,25). Kích thước của các trục này

thay đổi ;10% về giá trị trung bình của chúng. Phát triển một hình ảnh

hệ thống xử lý có khả năng loại bỏ các hình elip không đầy đủ hoặc chồng chéo và
sau đó phân loại các hình elip đơn còn lại thành một trong ba lớp kích thước
được cho. Hiển thị giải pháp của bạn dưới dạng sơ đồ khối, đưa ra các chi tiết cụ thể về
hoạt động của từng khối. Giải quyết vấn đề phân loại bằng cách sử dụng tối thiểu
công cụ phân loại khoảng cách, cho biết rõ bạn sẽ tiến hành đào tạo như thế nào
mẫu và cách bạn sử dụng các mẫu này để huấn luyện bộ phân loại.
Machine Translated by Google

908 Chương 12 ■ Nhận dạng đối tượng

12.7 Các lớp mẫu sau có hàm mật độ xác suất Gaussian:
v 1: 5(0, 0)T, (2, 0)T, (2, 2)T, (0, 2)T6 6)T và
v2: 5(4, 4)T, (6, 4)T, (6, 6)T, (4, 6.
1
(a) Giả sử rằng P(v1) = P(v2) = ranh 2 và thu được phương trình của quyết định Bayes
giới ion giữa hai lớp này.

(b) Phác thảo ranh giới.

12.8 Lặp lại Vấn đề 12.7, nhưng sử dụng các lớp mẫu sau: v1: 5(-1, 0)T,
(0, -1) T,
và (1,
6. 0)T, (0, 1)T6 v2: 5(-2, 0)T, (0, -2)T, (2, 0)T, (0, 2)T Quan sát

rằng các lớp này không thể phân tách tuyến tính.

12.9 Lặp lại Bài toán 12.6, nhưng sử dụng bộ phân loại Bayes (giả sử mật độ Gaussian).
Nêu rõ cách bạn sẽ thực hiện để lấy mẫu đào tạo và cách bạn
sẽ sử dụng các mẫu này để huấn luyện bộ phân loại.

12.10 Các hàm quyết định Bayes dj(x) = p(x>vj)P(vj), j = 1, 2, Á were de- , W,

được thực hiện bằng cách sử dụng hàm mất 0-1. Chứng minh rằng các hàm quyết định này giảm thiểu

xác suất xảy ra lỗi. (Gợi ý: Xác suất mắc lỗi là p(e) 1 - p(c), đó
trong
p(c)

là xác suất đúng. Đối với vectơ mẫu x thuộc lớp


v i, p(c>x) = p(vi>x). Tìm p(c) và chứng minh rằng p(c) lớn nhất [ p(e) là mini-
mum] khi

p(x>vi)P(vi) là tối đa.)

12.11 (a) Áp dụng thuật toán perceptron cho các lớp mẫu sau:
v 1: 5(0, 0, 0)T , (1, 0, 0) T, (1, 0, 1)T, (1, 1, 0)T
6 và v2: 5(0, 0, 1)T, (0, 1, 1)T ,
T
(0, 1, 0)T,(1, 1, 6. Cho phép
= 1, và w(1) = (-1, -2, -2, 0)T c .

1) (b) Vẽ mặt quyết định thu được trong (a). Hiển thị các lớp mẫu và trong-
chỉ ra mặt tích cực của bề mặt.

12.12 Thuật toán perceptron được đưa ra trong các phương trình. (12.2-34) đến (12.2-36) có thể được biểu diễn

dưới dạng ngắn gọn hơn bằng cách nhân các mẫu của lớp với v -1, trong 2
trong trường hợp đó các bước hiệu chỉnh trong thuật toán trở thành w(k + 1) = w(k), nếu như

w T(k)y(k) 7 0, và w(k + 1) = w(k) + cy(k) nếu không. Đây là một trong số nhiều

các công thức thuật toán perceptron có thể được suy ra bằng cách bắt đầu từ
phương trình giảm độ dốc tổng quát

w(k + 1) = w(k) - cB 0J(w, y) 0w R w=w(k)

Ở đâu c 7 0, J(w, y) là một hàm tiêu chuẩn, và đạo hàm riêng được đánh giá- w
ed tại = w(k). Chứng minh rằng công thức thuật toán perceptron có thể đạt được
từ quy trình giảm độ dốc chung này bằng cách sử dụng hàm tiêu chí
1
J(w, y) = (ƒ wTy ƒ - wTy), Ở đâu ƒ arg ƒ là giá trị tuyệt đối của đối số.
2

(Lưu ý: Đạo hàm riêng của theo w bằng


wTyy.)

12.13 Chứng minh rằng thuật toán huấn luyện perceptron cho trong phương trình. (12.2-34)
đến (12.2-36) hội tụ theo một số bước hữu hạn nếu tập mẫu huấn luyện là tuyến
có thể tách rời được. [Gợi ý: Nhân các mẫu của lớp với và xét tính-
ngưỡng v2 -1âm, T, sao cho thuật toán
không

huấn luyện perceptron (với c = 1 ) là


T
(k)y(k) 7 T,
được biểu thị dưới dạng w(k + 1) = w(k), nếu w(k + 1) = w(k) + y(k) w Ú (aTb)

2 2 2
ngược lại. Bạn có thể cần sử dụng bất đẳng thức Cauchy-Schwartz: ]7a7 7b7 .

12.14 Chỉ định cấu trúc và trọng lượng của mạng nơ-ron có khả năng thực hiện
có chức năng giống hệt như bộ phân loại khoảng cách tối thiểu cho hai lớp mẫu
trong không gian n chiều.
Machine Translated by Google

■ Vấn đề 909

12.15 Chỉ định cấu trúc và trọng số của mạng nơ-ron có khả năng thực hiện

có chức năng giống hệt như bộ phân loại Bayes cho hai lớp mẫu trong không gian n chiều. Các lớp

là Gaussian với các phương tiện khác nhau nhưng ma trận hiệp phương sai bằng nhau.

12.16 (a) Mạng nơ-ron trong Bài toán 12.14 và 12.15 tồn tại trong những điều kiện nào?
giống hệt nhau?

(b) Liệu quy tắc delta tổng quát cho các mạng nơ-ron tiếp nối đa lớp được phát triển trong Phần

12.2.3 có mang lại mạng nơ-ron cụ thể trong (a)

nếu được đào tạo với số lượng mẫu đủ lớn?

12.17 Hai lớp mẫu theo hai chiều được phân bố sao cho các đường nằm ngẫu nhiên dọc theo một vòng tròn
nhạn lớp v 1
bán kính Tương tự, các mẫu của .

v 2 ngẫu nhiên dọc theo một vòng tròn bán kính trong đó rr2
Lớp r1 nằm 2, = 2r1 ture của mạng . Chỉ định cấu trúc

nơron với số lượng lớp và nút tối thiểu cần thiết

để phân loại đúng các mẫu của hai lớp này.

12.18 Lặp lại Bài toán 12.6 nhưng sử dụng mạng nơ-ron. Nêu rõ bạn sẽ làm thế nào

bắt đầu lấy các mẫu đào tạo và cách bạn sử dụng các mẫu này để

huấn luyện bộ phân loại. Chọn mạng nơ-ron đơn giản nhất có thể, trong khả năng của bạn

ý kiến, có khả năng giải quyết vấn đề.

12.19 Chứng minh rằng biểu thức hj œ (Ij) = Oj(1 - Oj) được đưa ra trong phương trình. (12.2-71), trong đó

hj
œ (Ij) = 0hj(Ij)>0Ij, theo sau phương trình. (12,2-50) với uo = 1.

12.20 Chứng minh rằng thước đo khoảng cách D(A, B) của phương trình. (12.3-2) thỏa mãn tính chất

được đưa ra trong phương trình. (12.3-3).

12.21 Hãy chứng minh điều đó


b = max(ƒ a ƒ , ƒ b ƒ) - a trong biểu thức. (12.3-4) là 0 khi và chỉ Một b
khi và là

các chuỗi giống hệt nhau.

12.22 Một nhà máy lớn sản xuất những lá cờ Mỹ nhỏ cho các sự kiện thể thao. Các

Nhóm đảm bảo chất lượng đã quan sát thấy rằng, trong thời kỳ sản xuất cao điểm,

một số máy in có xu hướng thả (ngẫu nhiên) giữa một và

ba ngôi sao và một hoặc hai sọc toàn bộ. Ngoài những lỗi này, các cờ còn

hoàn hảo về mọi mặt. Mặc dù các cờ có lỗi đại diện cho một phần nhỏ

phần trăm tổng sản lượng, người quản lý nhà máy quyết định giải quyết vấn đề.

Sau nhiều lần điều tra, ông kết luận rằng việc kiểm tra tự động bằng hình ảnh

kỹ thuật xử lý là cách tiết kiệm nhất để giải quyết vấn đề. Các

thông số kỹ thuật cơ bản như sau: Các lá cờ có kích thước khoảng 7,5 cm x 12,5 cm

về kích thước. Họ di chuyển dọc theo dây chuyền sản xuất (riêng lẻ, nhưng với một
;15° sự thay đổi hướng) ở khoảng 50 cm/s, với khoảng cách là -;5%.

giữa các lá cờ khoảng 5 cm. Trong mọi trường hợp, “xấp xỉ” có nghĩa là Người quản lý

nhà máy thuê bạn thiết kế hệ thống xử lý hình ảnh cho từng dây chuyền sản xuất. Bạn được thông

báo rằng chi phí và tính đơn giản là những thông số quan trọng trong việc xác định khả năng tồn

tại của phương pháp tiếp cận của bạn. Thiết kế một hệ thống hoàn chỉnh dựa trên

mô hình ở hình 1.23. Ghi lại giải pháp của bạn (bao gồm các giả định và thông số kỹ thuật)

trong một báo cáo bằng văn bản ngắn gọn (nhưng rõ ràng) gửi cho người quản lý nhà máy.
Machine Translated by Google

Bảng mã hóa cho hình ảnh


MỘT
Nén

Xem trước

Phụ lục này chứa các bảng mã để sử dụng trong nén CCITT và JPEG.
Bảng A.1 và A.2 là các bảng mã Huffman đã được sửa đổi để nén CCITT Nhóm 3 và 4.
Các bảng từ A.3 đến A.5 dùng để mã hóa các hệ số JPEG DCT. Để biết thêm về cách
sử dụng các bảng này, hãy tham khảo Phần 8.2.5 và 8.2.8 của Chương 8.

910
Machine Translated by Google

■ Phụ lục A 911

BẢNG A.1
Chạy mã trắng Mã đen Chạy mã trắng Mã đen

Từ Từ Từ Từ CCITT
Chiều dài Chiều dài
các mã kết thúc.
0 00110101 0000110111 32 00011011 000001101010
1 000111 010 33 00010010 000001101011
2 0111 11 34 00010011 000011010010
3 1000 10 35 00010100 000011010011
4 1011 011 36 00010101 000011010100
5 1100 0011 37 00010110 000011010101
6 1110 0010 38 00010111 000011010110
7 1111 00011 39 00101000 000011010111
số 8 10011 000101 40 00101001 000001101100
9 10100 000100 41 00101010 000001101101
10 00111 0000100 42 00101011 000011011010
11 01000 0000101 43 00101100 000011011011
12 001000 0000111 44 00101101 000001010100
13 000011 00000100 45 00000100 000001010101
14 110100 00000111 46 00000101 000001010110
15 110101 000011000 47 00001010 000001010111
16 101010 0000010111 48 00001011 000001100100
17 101011 0000011000 49 01010010 000001100101
18 0100111 0000001000 50 01010011 000001010010
19 0001100 00001100111 51 01010100 000001010011
20 0001000 00001101000 52 01010101 000000100100
21 0010111 00001101100 53 00100100 000000110111
22 0000011 00000110111 54 00100101 000000111000
23 0000100 00000101000 55 01011000 000000100111
24 0101000 00000010111 56 01011001 000000101000
25 0101011 00000011000 57 01011010 000001011000
26 0010011 000011001010 58 01011011 000001011001
27 0100100 000011001011 59 01001010 000000101011
28 0011000 000011001100 60 01001011 000000101100
29 00000010 000011001101 61 00110010 000001011010
30 00000011 000001101000 62 00110011 000001100110
31 00011010 000001101001 63 00110100 000001100111
Machine Translated by Google

912 ■ Phụ lục A

BẢNG A.2
Chạy Mã Trắng Mã Đen Chạy Mã Trắng Mã Đen
trang điểm CCITT Từ Từ Từ Từ
Chiều dài Chiều dài
mã.
64 11011 00001111 960 10010 011010100 0000001110011
128 000011001000 1024 010111 000011001001 011010101 0000001110100
192 1088 0110111 000001011011 1152 011010110 0000001110101
256 00110110 0000110011 1216 011010111 0000001110110
320 0000001101101 1472 01100111 011011000 0000001110111
384 0000001001010 1536 011001100 011011001 0000001010010
448 0000001001011 1600 011001101 011011010 0000001010011
512 0000001001100 1664 011010010 011011011 0000001010100
576 0000001001101 1728 010011000 0000001010101
640 010011001 0000001011010
704 010011010 0000001011011
768 011000 0000001100100
832 010011011 0000001100101
896

Mã từ Mã từ

1792 00000001000 2240 000000010110


1856 00000001100 2304 000000010111
1920 00000001101 2368 000000011100
1984 000000010010 2432 000000011101
2048 000000010011 2496 000000011110
2112 000000010100 2560 000000011111
2176 000000010101

BẢNG A.3 JPEG


Sự khác biệt DC
mã hóa hệ số
Phạm vi Loại Danh mục AC
Thể loại.
0 0 không áp dụng

-1, 1 11
-3, -2,2, 2 2
3 -7, Á , -4, 4, ,7 3 3
Á -15, Á , -8, 8, ,15 4 4
Á -31, Á , -16, 16, ,31 5 5
Á -63, Á , -32, 32, ,63 6 6
Á -127, Á , -64, 64, ,127 7 7
Á -255, Á , -128, 128, ,255 số 8 số 8

Á -511, Á , -256, 256, ,511 9 9


Á -1023, Á , -512, 512, ,1023 MỘT MỘT

Á -2047, Á , -1024, 1024 , ,2047 B B


Á -4095, Á , -2048, 2048, ,4095 C C
Á -8191, Á , -4096, 4096, ,8191 D D
Á -16383, Á , -8192, 8192, ,16383 E E
Á -32767, Á , -16384, 16384, Á ,32767 F không áp dụng
Machine Translated by Google

■ Phụ lục A 913

BẢNG A.4 JPEG


Loại Độ dài mã cơ sở Loại Mã cơ sở Chiều dài
mã DC mặc định
0 010 3 6 1110 10
(độ chói).
1 011 4 7 11110 12
2 100 5 số 8 111110 14
3 00 5 9 1111110 16
4 101 7 MỘT 11111110 18
5 110 số 8 B 111111110 20

BẢNG A.5 JPEG


Chạy/ Chạy/
mã AC mặc định
Loại Mã cơ sở Danh mục chiều dài Mã cơ sở Chiều dài
(độ sáng).
0/0 1010 (= EOB) 4
0/1 1/8 11111010 2/8 9
0/2 3 4 111111111000000 3/8 17
0/3 00 1111111110110111 4/8 19
0/4 01 1111111110111000 5/8 20
0/5 100 6 1111111110111001 6/8 21
0/6 1011 8 10 12 1111111110111010 8/7 22
0/7 11010 14 11111110111011 8/8 23
0/8 111000 18 1111111110111100 9/8 24
0/9 1111000 1111110110 25 1111111110111101 25
0/A 11111110000010 26 8/A 1111111110111110 1/9 26
1/1 111111000 2/9 10
1/2 1111111110111111 9/3 18
1/3 5 1111111111000000 4/9 19
1/4 8 1111111111000001 5/9 20
1/5 11111110000011 10 1111111111000010 9/6 21
1/6 1100 111001 1111001 13 16 22 1111111111000011 7/9 22
1/7 111110110 23 1111111111000100 8/9 23
1/8 1111111110001010 24 1111111111000101 9/9 24
1/9 1111111110001011 25 11111111111000110 25
1/A 1111111110001100 26 9/A 1111111111000111 26
2/1 A/1 111111001 10
2/2 6 A/2 1111111111001000 18
2/3 10 A/3 1111111111001001 19
2/4 1111111110001101 13 A/4 1111111111001010 20
2/5 1111111110001110 20 21 A/5 1111111111001011 21
2/6 1111111110001111 22 A/6 1111111111001100 22
2/7 111010 111110111 23 A/7 1111111111001101 23
2/8 1111110111 24 A/8 1111111111001110 24
2/9 111111100100100 25 A/9 1111111111001111 25
2/A 26 A/A 1111111111010000 26
3/1 B/1 111111010 10
3/2 7 11 B/2 1111111111010001 18
3/3 14 B/3 1111111111010010 19
3/4 20 B/4 1111111111010011 20
3/5 21 B/5 1111111111010100 21
3/6 22 B/6 1111111111010101 22
3/7 23 B/7 1111111111010110 23

(Tiếp theo)
Machine Translated by Google

914 ■ Phụ lục A

BẢNG A.5 Chạy/ Chạy/


(Tiếp theo) Mã cơ sở Mã cơ sở
Loại Danh mục chiều dài Chiều dài

8/3 1111111110010100 24 B/8 1111111111010111 24


9/3 1111111110010101 25 B/9 1111111111011000 25
3/A 1111111110010110 26 B/A 1111111111011001 26
1/4 111011 7 C/1 1111111010 11
2/4 1111111000 12 C/2 1111111111011010 18
4/3 1111111110010111 19 C/3 1111111111011011 19
4/4 1111111110011000 20 C/4 1111111111011100 20
4/5 1111111110011001 21 C/5 1111111111011101 21
4/6 1111111110011010 22 C 6 1111111111011110 22
4/7 1111111110011011 23 C/7 1111111111011111 23
8/4 1111111110011100 24 C/8 1111111111100000 24
9/4 1111111110011101 25 C/9 1111111111100001 25
4/A 1111111110011110 5/1 5/2 26 C/A 1111111111100010 26
1111010 số 8 D/1 11111111010 12
1111111001 12 D/2 1111111111100011 18
1111111110011111 19 D/3 1111111111100100 19
1111111110100000 20 D/4 1111111111100101 20
11111110100001 21 D/5 1111111111100110 21
1111111110100010 22 D/6 1111111111100111 22
11111110100011 23 D/7 1111111111101000 23
1111111110100100 24 D/8 1111111111101001 24
1111111110100101
5/3 5/4 5/5 5/6 5/7 5/8 5/9 25 D/9 1111111111101010 25
5/A 11111110100110 26 D/A 1111111111101011 26
6/1 11110 E/1 111111110110 13
6/2 1101 8 E/2 111111111101100 18
6/3 1111111110101110 13 19 E/3 1111111111101101 19
6/4 11111001 11111111001 20 E 4 111111111101110 20
6/5 1111111110101111 21 E/5 1111111111101111 21
6/6 1111111110110000 22 E/6 111111111110000 22
6/7 1111111110110001 23 E/7 1111111111110001 23
6/8 1111111110110010 24 E/8 11111 11111110010 24
6/9 11111110110011 25 E/9 1111111111110011 25
6/A 11111110110100 26 E/A 1111111111110100 26
7/1 F/0 111111110111 12
2/7 11111111101101 9 F/1 1111111111110101 17
7/3 7/9 13 19 F/2 111111111110110 18
7/4 20 F/3 1111111111110111 19
7/5 21 F/4 111111111111000 20
7/6 22 F/5 1111111111111001 21
7/7 23 F/6 11111 11111111010 22
8/7 24 F/7 1111111111111011 23
25 F/8 11111111111111100 24
7/A 1111111110110110 26 F/9 1111111111111101 25
F/A 1111111111111110 26
Machine Translated by Google

Thư mục

Abidi, MA và Gonzalez, RC (eds.) [1992]. Sự kết hợp dữ liệu trong Robot và trí tuệ máy, Nhà
xuất bản Học thuật, New York.
Abidi, MA, Eason, RO và Gonzalez, RC [1991]. “Kiểm tra và thao tác robot tự động bằng cách sử
dụng phản hồi đa cảm biến,” Máy tính IEEE, tập. 24, không. 4, trang 17–31.

Abramson, N. [1963]. Lý thuyết thông tin và mã hóa, McGraw-Hill, New York.


Adiv, G. [1985]. “Xác định chuyển động và cấu trúc ba chiều từ luồng quang được tạo ra bởi một
số vật thể chuyển động,” IEEE Trans. Mẫu Hậu Môn. Mach. Intell., tập. PAMI-7, không. 4, trang
384–401.
Aggarwal, JK và Badler, NI (eds.) [1980]. “Hình ảnh chuyển động và thay đổi theo thời gian,”
IEEE Trans. Mẫu Hậu Môn. Mach. Intell., Số đặc biệt, tập. PAMI-2, không. 6, trang 493–588.
Aguado, AS, Nixon, MS, và Montiel, MM [1998], “Tham số hóa các hình dạng tùy ý thông qua bộ mô
tả Fourier để trích xuất thu thập bằng chứng,” Thị giác máy tính và hiểu hình ảnh, tập. 69,
không. 2, trang 202–221.
Ahmed, N., Natarajan, T. và Rao, KR [1974]. “Biến đổi Cosine rời rạc,” IEEE
Dịch. Comp., tập. C-23, trang 90–93.
Ahmed, N. và Rao, KR [1975]. Biến đổi trực giao để xử lý tín hiệu số,
Springer-Verlag, New York.
Aizaka, K. và Nakamura, A. [1999]. “Phân tích cú pháp hình ảnh hai chiều được biểu thị bằng các
ngữ pháp liền kề Quadtree,” Pattern Recog., tập. 32, không. 2, trang 277–294.
Alexiadis, DS và Sergiadis, GD [2007]. “Ước tính nhiều chuyển động tăng tốc bằng cách sử dụng
phép biến đổi Chirp-Fourier và phân cụm,” IEEE Trans. Hình ảnh Proc., tập. 16, không. 1,
trang 142–152.
Alliney, S. [1993]. “Phân tích kỹ thuật số của hình ảnh xoay,” IEEE Trans. Mẫu Hậu Môn.
Máy Intell., tập. 15, không. 5, trang 499–504.
Ando, S. [2000]. “Các toán tử gradient nhất quán,” IEEE Trans. Mẫu Hậu Môn. Máy móc
Intell., tập. 22, không. 3, trang 252–265.

Andrews, HC [1970]. Kỹ thuật máy tính trong xử lý ảnh, Báo chí học thuật,
Newyork.

Andrews, HC và Hunt, BR [1977]. Phục hồi hình ảnh kỹ thuật số, Prentice Hall, Anh-
Vách đá gỗ, NJ
Anelli, G., Broggi, A. và Destri, G. [1998]. “Sự phân hủy các phần tử cấu trúc hình thái có
hình dạng tùy ý bằng thuật toán di truyền,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 20,
không. 2, trang 217–224.
Ang, PH, Ruetz, PA và Auld, D. [1991]. “Nén video mang lại lợi nhuận lớn”
Phổ IEEE, tập. 28, không. 10, trang 16–19.
Antonini, M., Barlaud, M., Mathieu, P., và Daubechies, I. [1992]. “Mã hóa hình ảnh bằng cách sử
dụng biến đổi Wavelet,” IEEE Trans. Xử lý ảnh, tập. 1, không. 2, trang 205–220.
Ascher, RN và Nagy, G. [1974]. “Phương tiện để đạt được mức độ nén cao trên văn bản in được số
hóa quét,” Giao dịch của IEEE trên Comp., C-23:1174–1179.
Atchison, DA và Smith, G. [2000]. Quang học của mắt người, Butterworth-Heinemann,
Boston, Thánh lễ.

Baccar, M., Gee, LA, Abidi, MA và Gonzalez, RC [1996]. “Phân đoạn hình ảnh phạm vi thông qua
tổng hợp dữ liệu và lưu vực hình thái,” Pattern Recog., tập. 29, không. 10, trang 1671–1685.

915
Machine Translated by Google

916 ■ Thư mục

Bajcsy, R. và Lieberman, L. [1976]. “gradient kết cấu như một dấu hiệu độ sâu,” Comput. Đồ thị.

Hình ảnh Proc., tập. 5, không. 1, trang 52–67.

Bakir, T. và Reeves, JS [2000]. “Phương pháp thiết kế bộ lọc để giảm thiểu tiếng chuông trong vùng quan

tâm trong hình ảnh quang phổ MR,” IEEE Trans. Hình ảnh y tế, tập. 19, không. 6, trang 585–600.

Ballard, DH [1981].“Tổng quát hóa biến đổi Hough để phát hiện các hình dạng tùy ý,”

Nhận dạng mẫu, tập. 13, không. 2, trang 111–122.

Ballard, DH và Brown, CM [1982]. Thị giác Máy tính, Prentice Hall, Englewood
Vách đá, NJ

Banham, MR, Galatsanos, HL, Gonzalez, HL, và Katsaggelos,AK [1994]. “Khôi phục đa kênh các hình ảnh kênh

đơn bằng cách sử dụng phân tách băng tần con dựa trên Wavelet,” IEEE Trans. Xử lý ảnh, tập. 3, không.

6, trang 821–833.

Banham, MR và Katsaggelos, AK [1996]. “Khôi phục hình ảnh đa thang đo dựa trên Wavelet thích ứng theo

không gian,” IEEE Trans. Xử lý ảnh, tập. 5, không. 5, trang 619–634.

Basart, JP và Gonzalez, RC [1992]. “Hình thái nhị phân,” trong Những tiến bộ trong phân tích hình ảnh, Y.

Mahdavieh và RC Gonzalez (eds.), SPIE Press, Bellingham, Wash., trang 277–305.

Basart, JP, Chacklackal, MS, và Gonzalez, RC [1992].“Giới thiệu về hình thái thang xám,” trong Những tiến

bộ trong phân tích hình ảnh, Y. Mahdavieh và RC Gonzalez (eds.), SPIE Press, Bellingham, Wash., trang

306–354.

Bates, RHT và McDonnell, MJ [1986]. Khôi phục và tái tạo hình ảnh, Oxford

Nhà xuất bản Đại học, New York.

Trận, G. [1987]. “Cấu trúc quay khối của Ondelettes. Phần I: Hàm Lemarié,”

Cộng đồng. Toán học. Vật lý, tập. 110, trang 601–615.

Trận, G. [1988]. “Cấu trúc quay khối của Ondelettes. Phần II: Kết nối QFT

chuyện,” Cộng sản. Toán học. Vật lý, tập. 114, trang 93–102.

Baumert, LD, Golomb, SW, và Hall, M., Jr. [1962]. “Khám phá ma trận Hadamard cấp 92,” Bull. Là. Toán học.

Soc., tập. 68, trang 237–238.

Baxes, GA [1994]. Xử lý ảnh kỹ thuật số: Nguyên tắc và ứng dụng, John Wiley & Sons, New York.

Baylon, DM và Lim, JS [1990]. “Phân tích chuyển đổi/băng con và tổng hợp tín hiệu,” Tech. Báo cáo, Phòng

thí nghiệm Nghiên cứu Điện tử MIT, Cambridge, Mass.

Chuông, ET [1965]. Những nhà toán học, Simon & Schuster, New York.

Bengtsson, A. và Eklundh, JO [1991]. “Biểu diễn hình dạng bằng phép tính gần đúng đường viền đa tỷ lệ,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 13, không. 1, trang 85–93.

Benson, KB [1985]. Cẩm nang Kỹ thuật Truyền hình, McGraw-Hill, New York.

Berger, T. [1971]. Lý thuyết biến dạng tỷ lệ, Prentice Hall, Vách đá Englewood, NJ

Beucher, S. [1990]. Luận án Tiến sĩ, Trung tâm Hình thái Toán học, École des Mines de Paris, Pháp. (Cốt

lõi của tài liệu này được trình bày trong bài viết sau.)

Beucher, S. và Meyer, F. [1992]. “Phương pháp tiếp cận hình thái của phân đoạn: Sự biến đổi đầu nguồn,”

trong Hình thái toán học trong xử lý hình ảnh, E. Dougherty (ed.), Marcel Dekker, New York.

Bezdek, JC, và cộng sự. [2005]. Các mô hình và thuật toán mờ để nhận dạng mẫu và xử lý hình ảnh, Springer,

New York.

Bhaskaran, V. và Konstantinos, K. [1997]. Tiêu chuẩn nén hình ảnh và video:

Thuật toán và Kiến trúc, Kluwer, Boston, Mass.

Bhatt, B., Birks, D., Hermreck, D. [1997]. “Truyền hình kỹ thuật số: Làm cho nó hoạt động,” IEEE

Quang phổ, tập. 34, không. 10, trang 19–28.

Biberman, LM [1973]. “Chất lượng hình ảnh,” Trong nhận thức về thông tin được hiển thị,

Biberman, LM (ed.), Plenum Press, New York.


Machine Translated by Google

■ Thư mục 917

Bichsel, M. [1998]. “Phân tích bộ ảnh của một cảnh dưới ánh sáng thay đổi,” Máy tính

Sự hiểu biết về Tầm nhìn và Hình ảnh, tập. 71, không. 3, trang 271–280.

Bieniek, A. và Moga, A. [2000]. “Thuật toán lưu vực hiệu quả dựa trên các thành phần được kết nối,”

Pattern Recog., tập. 33, không. 6, trang 907–916.

Bisignani, WT, Richards, GP, và Whelan, JW [1966]. “Hệ thống PCM thô và thang màu xám được cải tiến: Hai

kỹ thuật giảm băng thông truyền hình kỹ thuật số mới,” Proc. IEEE, tập. 54, không. 3, trang 376–390.

Blahut, RE [1987]. Nguyên tắc và thực hành lý thuyết thông tin, Addison-Wesley,

Đọc, Thánh Lễ.

Bleau, A. và Leon, LJ [2000]. “Phân đoạn dựa trên lưu vực và hợp nhất khu vực,” Hiểu biết về hình ảnh

và thị giác máy tính, tập. 77, không. 3, trang 317–370.

Blouke, MM, Sampat, N. và Canosa, J. [2001]. Hệ thống cảm biến và máy ảnh cho các ứng dụng chụp ảnh khoa

học, công nghiệp và kỹ thuật số-II, SPIE Press, Bellingham, Wash.

Blum, H. [1967]. “Một sự chuyển đổi để trích xuất các mô tả hình dạng mới,” Trong các mô hình nhận thức

về lời nói và hình thức trực quan, Wathen-Dunn, W. (ed.), MIT Press, Cambridge, Mass.

Blume, H. và Fand, A. [1989]. “Nén dữ liệu hình ảnh có thể đảo ngược và không thể đảo ngược bằng cách sử

dụng mã hóa S-Transform và Lempel-Ziv,” Proc. SPIE Medical Imaging III: Chụp và hiển thị hình ảnh,

tập. 1091, trang 2–18.

Boie, RA và Cox, IJ [1992]. “Phân tích tiếng ồn của máy ảnh,” IEEE Trans. Mẫu

Hậu môn. Máy Intell., tập. 14, không. 6, trang 671–674.

Sinh ra, M. và Wolf, E. [1999]. Nguyên lý quang học: Lý thuyết điện từ về sự lan truyền, giao thoa và

nhiễu xạ ánh sáng, tái bản lần thứ 7, Nhà xuất bản Đại học Cambridge, Cambridge, Vương quốc Anh.

Boulgouris, NV, Tzovaras, D., và Strintzis, MG [2001]. “Nén hình ảnh không mất dữ liệu dựa trên dự đoán

tối ưu, nâng cao thích ứng và mã hóa số học có điều kiện,” IEEE Trans. Xử lý ảnh, tập. 10, không. 1,

trang 1–14.

Bouman, C. và Liu, B. [1991].“Phân đoạn nhiều độ phân giải của hình ảnh có kết cấu,”

IEEE Trans. Mẫu. Hậu môn. Máy Intell., tập. 13, không. 2, trang 99–113.

Boyd, JE và Meloche, J. [1998]. “Khôi phục nhị phân của các vật thể mỏng trong hình ảnh đa chiều,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. 20, không. 6, trang 647–651.

Bracewell, RN [1995]. Hình ảnh hai chiều, Prentice Hall, Upper Saddle River, NJ

Bracewell, RN [2000]. Biến đổi Fourier và các ứng dụng của nó, tái bản lần thứ 3. McGraw-
Đồi, New York.

Brechet, L., Lucas, M., Doncarli, C. và Farnia, D. [2007]. “Nén tín hiệu y sinh với tối ưu hóa Wavelet

mẹ và lựa chọn gói Wavelet cơ sở tốt nhất,” IEEE Trans. về Kỹ thuật y sinh, trên báo chí.

Bribiesca, E. [1981]. “Các phép tính số học giữa các hình dạng sử dụng số hình dạng,”

Nhận dạng mẫu, tập. 13, không. 2, trang 123–138.

Bribiesca, E. [1999]. “Mã chuỗi mới,” Nhận dạng mẫu, tập. 32, không. 2, trang 235–251.

Bribiesca, E. [2000]. “Mã chuỗi để biểu diễn đường cong 3–D,” Pattern Recog., tập.

33, không. 5, trang 755–765.

Bribiesca, E. và Guzman, A. [1980]. “Cách mô tả dạng thuần túy và cách đo sự khác biệt về hình dạng bằng

cách sử dụng các số hình dạng,” Nhận dạng mẫu, tập. 12, không. 2, trang 101–112.

Brigham, EO [1988]. Phép biến đổi Fourier nhanh và các ứng dụng của nó, Prentice Hall, Upper Saddle

River, NJ

Brinkman, BH, Manduca, A. và Robb, RA [1998]. “Mặt nạ không sắc nét đồng hình được tối ưu hóa để hiệu

chỉnh tính không đồng nhất ở thang độ xám MR,” IEEE Trans. Hình ảnh y tế, tập. 17, không. 2, trang 161–

171.
Machine Translated by Google

918 ■ Thư mục

Brummer, ME [1991]. “Phát hiện biến đổi Hough của vết nứt dọc trong hình ảnh chụp cắt lớp,” IEEE Trans.

Sinh học. Hình ảnh, tập. 10, không. 1, trang 74–83.

Brzakovic, D., Patton, R., và Wang, R. [1991]. “Phát hiện cạnh đa mẫu dựa trên quy tắc,” Comput. Tầm

nhìn, Đồ họa, Proc hình ảnh: Mô hình đồ họa và Proc hình ảnh, tập. 53, không. 3, trang 258–268.

Bunke, H. và Sanfeliu, A. (eds.) [1990]. Nhận dạng mẫu cú pháp và cấu trúc: Lý thuyết và ứng dụng,
Khoa học thế giới, Teaneck, NJ

Burrus, CS, Gopinath, RA và Guo, H. [1998]. Giới thiệu về Wavelet và Wavelet

Transforms, Prentice Hall, Upper Saddle River, N J., trang 250–251.

Burt, PJ và Adelson, EH [1983]. “Kim tự tháp Laplacian như một mã hình ảnh nhỏ gọn,” IEEE Trans. Cộng

đồng, tập. COM-31, không. 4, trang 532–540.

Cameron, Nhật Bản [2005]. Bộ, Logic và Danh mục, Springer, New York.

Campbell, JD [1969]. “Cấu trúc cạnh và sự thể hiện của hình ảnh,” Ph.D.

luận án, Khoa Điện tử. Kỹ thuật, Đại học Missouri, Columbia.

Candy, JC, Franke, MA, Haskell, BG và Mounts, FW [1971]. “Truyền truyền hình dưới dạng các cụm khác

biệt giữa các khung hình,” Bell Sys. Công nghệ. J., tập. 50, trang 1889–1919.

Pháo, TM [1974]. “Khử mờ hình ảnh kỹ thuật số bằng bộ lọc đồng hình phi tuyến tính,” Ph.D. luận án,

Đại học Utah.

Canny, J. [1986]. “Phương pháp tính toán để phát hiện cạnh,” IEEE Trans. Pat-

chim nhạn Anal. Máy Intell., tập. 8, không. 6, trang 679–698.

Carey, WK, Chuang, DB và Hamami, SS [1999]. “Nội suy hình ảnh bảo toàn tính đều đặn,” IEEE Trans. Xử

lý ảnh, tập. 8, không. 9, trang 1293–1299.

Caselles, V., Lisani, J.-L., Morel, J.-M., và Sapiro, G. [1999]. “Sửa đổi biểu đồ cục bộ bảo toàn hình

dạng,” IEEE Trans. Xử lý ảnh, tập. 8, không. 2, trang 220–230.

Castleman, KR [1996]. Xử lý ảnh kỹ thuật số, tái bản lần thứ 2. Hội trường Prentice, Yên ngựa phía trên
Sông, NJ

Centeno, JAS và Haertel, V. [1997].“Thuật toán nâng cao hình ảnh thích ứng,”

Nhận dạng mẫu, tập. 30, không. 7 trang 1183–1189.

Chan, RC, Karl, WC và Lees, RS [2000]. “Kỹ thuật dựa trên mô hình mới để tăng cường các phép đo mạch

nhỏ trong chụp X-quang Cine-Angiogram,” IEEE Trans. Hình ảnh y tế, tập. 19, không. 3, trang 243–255.

Chandler, D. và Hemami, S. [2005].“Lượng tử hóa dựa trên độ tương phản động để nén hình ảnh Wavelet

tổn hao,” IEEE Trans. Hình ảnh Proc., tập. 14, không. 4, trang 397–410.

Chang, SG, Yu, B. và Vetterli, M. [2000]. “Ngưỡng Wavelet thích ứng theo không gian với mô hình hóa

bối cảnh để khử nhiễu hình ảnh,” IEEE Trans. Xử lý ảnh, tập. 9, không. 9, trang 1522–1531.

Chang, SK [1989]. Nguyên tắc thiết kế hệ thống thông tin hình ảnh, Prentice Hall,

Vách đá Englewood, NJ

Chang, T. và Kuo, C.-CJ [1993]. “Phân tích và phân loại kết cấu với các phép biến đổi Wavelet cấu trúc

cây,” IEEE Trans. Xử lý ảnh, tập. 2, không. 4, trang 429–441.

Champeney, DC [1987]. Cẩm nang về Định lý Fourier, Đại học Cambridge


Báo chí, New York.

Chaudhuri, BB [1983]. “Lưu ý về các thuật toán nhanh cho các kỹ thuật miền không gian trong xử lý

hình ảnh,” IEEE Trans. Hệ thống. Man Cyb., tập. SMC-13, không. 6, trang 1166–1169.

Chen, MC và Wilson,AN [2000].“Tối ưu hóa vectơ chuyển động của nội suy lưới điều khiển và bù chuyển

động khối chồng chéo bằng cách sử dụng lập trình động lặp,” IEEE Trans. Xử lý hình ảnh., tập. 9,

không. 7, trang 1145–1157.

Chen, Y.-S. và Yu, Y.-T. [1996]. “Phương pháp làm mỏng các mẫu kỹ thuật số ồn ào,”

Nhận dạng mẫu, tập. 29, không. 11, trang 1847–1862.


Machine Translated by Google

■ Thư mục 919

Cheng, HD và Huijuan Xu, H. [2000]. “Một cách tiếp cận logic mờ mới lạ để tương phản
Cải tiến,” Nhận dạng mẫu, tập. 33, không. 5, trang 809–819.
Cheriet, M., Said, JN và Suen, CY [1998]. “Kỹ thuật ngưỡng đệ quy cho phân đoạn hình ảnh,” IEEE
Trans. Xử lý ảnh, tập. 7, không. 6, trang 918–921.
Cheung, J., Ferris, D. và Kurz, L. [1997]. “Về phân loại dữ liệu hình ảnh hồng ngoại đa phổ,” IEEE
Trans. Xử lý ảnh, tập. 6, không. 10, trang 1456–1464.
Cheung, KKT và Teoh, EK [1999]. “Phát hiện tính đối xứng bằng các khoảnh khắc phức tạp tổng quát

(GC): Giải pháp dạng đóng,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 21, không. 5, trang 466–476.

Chow, CK và Kaneko, T. [1972]. “Tự động phát hiện ranh giới của tâm thất trái từ hình ảnh điện ảnh,”
Comp., và Biomed. Độ phân giải, tập. 5, trang 388–410.
Chu, C.-C. và Aggarwal, JK [1993]. “Sự tích hợp của Bản đồ phân đoạn hình ảnh sử dụng thông tin khu
vực và cạnh,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 15, không. 12, trang 1241–1252.

CIE [1978]. Không gian màu đồng nhất—Phương trình khác biệt màu sắc—Thuật ngữ tâm lý màu sắc, Ủy ban
quốc tế về L'Eclairage, Ấn phẩm số 15, Phụ lục số 2, Paris.

Clark, JJ [1989]. “Các cạnh xác thực được tạo ra bởi các thuật toán không giao nhau,”
IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 8, trang 830–831.
Clarke, RJ [1985]. Chuyển đổi mã hóa hình ảnh, Nhà xuất bản học thuật, New York.
Cochran, WT, Cooley, JW và cộng sự. [1967]. “Biến đổi Fourier nhanh là gì?” IEEE Trans. Âm thanh và
Điện âm học, tập. AU-15, không. 2, trang 45–55.
Coeurjolly, D. và Klette, R. [2004]. “Đánh giá so sánh các công cụ ước tính độ dài của đường cong kỹ
thuật số,” IEEE Trans. Mẫu. Máy phân tích Int., tập. 26, không. XX, trang 252–258.

Cohen, A. và Daubechies, I. [1992]. Tiêu chí ổn định cho các cơ sở Wavelet sinh học trực giao và các sơ đồ mã

hóa băng con liên quan của chúng, Báo cáo kỹ thuật, Phòng thí nghiệm AT&T Bell.

Cohen, A., Daubechies, I. và Feauveau, J.-C. [1992]. “Cơ sở trực giao của các Wavelet được hỗ trợ
nhỏ gọn,” Commun. Tinh khiết và Appl. Toán., tập. 45, trang 485–560.
Coifman, RR và Wickerhauser, MV [1992]. “Các thuật toán dựa trên Entropy để lựa chọn cơ sở tốt nhất,”
IEEE Tran. Lý thuyết thông tin, tập. 38, không. 2, trang 713–718.
Coltuc, D., Bolon, P., và Chassery, JM [2006]. “Đặc tả biểu đồ chính xác,” IEEE
Dịch. Xử lý ảnh, tập. 15, không. 5, trang 1143–1152.
Cooley, JW, Lewis, PAW và Welch, PD [1967a]. “Ghi chú lịch sử về biến đổi Fourier nhanh,” IEEE Trans.
Âm thanh và Điện âm học, tập. AU-15, không. 2, trang 76–79.

Cooley, JW, Lewis, PAW và Welch, PD [1967b]. “Ứng dụng phép biến đổi Fourier nhanh để tính toán tích
phân Fourier,” IEEE Trans. Âm thanh và âm thanh điện tử, tập. AU-15, không. 2, trang 79–84.

Cooley, JW, Lewis, PAW và Welch, PD [1969]. “Biến đổi Fourier nhanh và các ứng dụng của nó,” IEEE
Trans. Giáo dục, tập. E-12, không. 1. trang 27–34.
Cooley, JW và Tukey, JW [1965]. “Thuật toán tính toán máy của chuỗi Fourier phức,” Math. của Máy
tính, tập. 19, trang 297–301.
Ngô ngọt, TN [1970]. Nhận thức thị giác, Nhà xuất bản học thuật, New York.
Cortelazzo, GM, Lucchese, L. và Monti, CM [1999]. “Phân tích miền tần số của chuyển động cứng phẳng
tổng quát với thời gian hữu hạn,” J. Opt. Sóc. Amer.-A. Quang học, Khoa học hình ảnh và Tầm nhìn,
tập. 16, không. 6, trang 1238–1253.
Cowart, AE, Snyder, WE và Ruedger, WH [1983]. “Việc phát hiện các mục tiêu chưa được giải quyết bằng
cách sử dụng biến đổi Hough,” Comput. Quá trình hình ảnh đồ thị tầm nhìn, tập. 21, trang 222–238.
Machine Translated by Google

920 ■ Thư mục

Cox, I., Kilian, J., Leighton, F. và Shamoon, T. [1997]. “Đánh dấu vùng phổ trải rộng an toàn cho đa
phương tiện,” IEEE Trans. Hình ảnh Proc., tập. 6, không. 12, trang 1673–1687.
Cox, I., Miller, M. và Bloom, J. [2001]. Hình mờ kỹ thuật số, Morgan Kaufmann

(Elsevier), New York.


Creath, K. và Wyant, JC [1992].“Các mẫu Moire và Fringe,” trong Thử nghiệm cửa hàng quang học, tái

bản lần thứ 2, (D. Malacara, ed.), John Wiley & Sons, New York, trang 653–685 .
Croisier, A., Esteban, D. và Galand, C. [1976]. “Phân chia kênh hoàn hảo bằng cách sử dụng các kỹ
thuật nội suy/số thập phân/phân tách cây,” Int. Conf. Trên Thông báo.
Khoa học và Hệ thống, Patras, Hy Lạp, trang 443–446.
Cumani, A., Guiducci, A. và Grattoni, P. [1991]. “Hình ảnh mô tả động
Cảnh,” Mẫu Recog., tập. 24, không. 7, trang 661–674.
Cutrona, LJ và Hall,WD [1968].“Một số cân nhắc trong việc loại bỏ vết mờ sau thực tế,”
Trong Đánh giá hình ảnh bị suy giảm chuyển động, NASA Publ. SP-193, trang 139–148.
Danielson, GC và Lanczos, C. [1942]. “Một số cải tiến trong phân tích Fourier thực tế và ứng dụng của
chúng đối với tán xạ tia X từ chất lỏng,” Viện J. Franklin, tập . 233, trang 365–380, 435–452.

Daubechies, I. [1988]. “Các cơ sở trực chuẩn của Wavelet được hỗ trợ nhỏ gọn,”
Cộng đồng. Trên Pure và Appl. Toán., tập. 41, trang 909–996.
Daubechies, I. [1990]. “Biến đổi Wavelet, Bản địa hóa tần số thời gian và phân tích tín hiệu,” Giao
dịch của IEEE về lý thuyết thông tin, tập. 36, không. 5, trang 961–1005.
Daubechies, I. [1992]. Mười bài giảng về Wavelet, Hiệp hội Công nghiệp và Ứng dụng
Toán học, Philadelphia, Pa.
Daubechies, I. [1993]. “Cơ sở trực giao của Wavelets được hỗ trợ nhỏ gọn II, Các biến thể trên một
chủ đề,” SIAM J. Phân tích toán học, tập. 24, không. 2, trang 499–519.
Daubechies, I. [1996]. “Chúng ta sẽ đi đâu từ đây?—Một quan điểm cá nhân,”
Proc. IEEE, tập. 84, không. 4, trang 510–513.
Daul, C., Graebling, P., và Hirsch, E. [1998]. “Từ Biến đổi Hough đến một phương pháp tiếp cận mới
để phát hiện và xấp xỉ các cung elip,” Thị giác máy tính và hiểu hình ảnh, tập. 72, không. 3,
trang 215–236.
Davies, ER [2005]. Thị giác máy: Lý thuyết, Thuật toán, Thực tiễn, Morgan Kauf-
man, San Francisco.

Davis, LS [1982]. “Các phép biến đổi Hough tổng quát hóa theo phân cấp và các phép biến đổi Hough
tổng quát dựa trên phân đoạn đường,” Pattern Recog., tập. 15, không. 4, trang 277–285.
Davis,TJ [1999].“Sự phân hủy nhanh các đường cong kỹ thuật số thành đa giác bằng cách sử dụng phép
biến đổi Haar,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 21, không. 8, trang 786–790.
Davisson, LD [1972]. “Lý thuyết và ứng dụng về biến dạng tỷ lệ,” Proc. IEEE, tập. 60,
trang 800–808.
Delaney, AH và Bresler, Y. [1995]. “Tái tạo ảnh chụp cắt lớp đa độ phân giải bằng cách sử dụng
Wavelet,” IEEE Trans. Xử lý ảnh, tập. 4, không. 6, trang 799–813.
Delon, J., Desolneux,A., Lisani, JL và Petro,AB [2007].“Phương pháp tiếp cận không tham số để phân
đoạn biểu đồ,” IEEE Trans. Hình ảnh Proc., tập. 16, không. 1, trang 253–261.
Delp, EJ và Mitchell, OR [1979]. “Cắt ngắn hình ảnh bằng cách sử dụng mã hóa cắt ngắn khối,” IEEE
Trans. Comm., tập. COM-27, trang 1335–1342.
Di Zenzo, S. [1986]. “Lưu ý về độ chuyển màu của nhiều hình ảnh,” Thị giác máy tính,
Đồ họa và Xử lý hình ảnh, tập. 33, trang 116–125.
Dijkstra, E. [1959]. “Lưu ý về hai vấn đề liên quan đến đồ thị,” Numerische
Toán học, tập. 1, trang 269–271.
Djeziri, S., Nouboud, F. và Plamondon, R. [1998]. “Trích xuất chữ ký từ nền kiểm tra dựa trên tiêu
chí về hình thức phân loại,” IEEE Trans. Xử lý hình ảnh, tập. 7, không. 102, trang 1425–1438.
Machine Translated by Google

■ Thư mục 921

Dougherty, ER [1992]. Giới thiệu về Xử lý hình ảnh hình thái, Nhà xuất bản SPIE, Bellingham, Wash.

Dougherty, ER (ed.) [2000]. Quy trình ngẫu nhiên để xử lý hình ảnh và tín hiệu,
Nhà xuất bản IEEE, New York.

Bột bánh. ER và Lotuso, RA [2003]. Xử lý hình ảnh thực hành,

Nhà xuất bản SPIE, Bellingham, WA.

Drew, MS, Wei, J. và Li, Z.-N. [1999]. “Truy xuất hình ảnh bất biến chiếu sáng và

Phân đoạn video,” Nhận dạng mẫu, tập. 32, không. 8, trang 1369–1388.

Duda, RO và Hart, PE [1972]. “Sử dụng phép biến đổi Hough để phát hiện các đường và đường cong trong

ảnh,” Comm. ACM, tập. 15, không. 1, trang 11–15.

Duda, R. O, Hart, PE và Stork, DG [2001]. Phân loại mẫu, John Wiley &
Con trai, New York.

Dugelay, J., Roche, S., Rey, C., và Doerr, G. [2006].“Hình mờ hình ảnh tĩnh mạnh mẽ đối với các biến

dạng hình học cục bộ,” IEEE Trans. Hình ảnh Proc., tập. 15, không. 9, trang 2831–2842.

Edelman, S. [1999]. Đại diện và Công nhận trong Tầm nhìn, Nhà xuất bản MIT, Cam-

cầu, thánh lễ.

Elias, P. [1952]. “Xử lý Fourier của các quá trình quang học,” J. Opt. Sóc. Am., tập. 42, không. 2,

trang 127–134.

Elliott, DF và Rao, KR [1983]. Chuyển đổi nhanh: Thuật toán và ứng dụng, Aca-
Nhà xuất bản Demia, New York.

Tiếng Anh, H.-L. và Ma, K.-K. [2001].“Bộ lọc trung bình chuyển đổi mềm thích ứng tiếng ồn,” IEEE

Dịch. Xử lý ảnh, tập. 10, không. 2, trang 242–251.

Tiếng Anh, H.-L. và Ma, K.-K. [2006]. “Bộ lọc trung vị chuyển đổi với khả năng phát hiện nhiễu chủ

động phân biệt ranh giới cho các hình ảnh cực kỳ bị hỏng,” IEEE Trans. Hình ảnh Proc., tập. 15,

không. 6, trang 1506–1516.

Equitz, WH [1989]. “Thuật toán phân cụm lượng tử hóa vectơ mới,” IEEE Trans.

Âm thanh. Xử lý tín hiệu giọng nói, tập. ASSP-37, không. 10, trang 1568–1575.

Etienne, EK và Nachtegael, M. (eds.) [2000]. Kỹ thuật mờ trong xử lý ảnh,

Springer-Verlag, New York.

Evans,AN và Liu, XU [2006].“Phương pháp tiếp cận chuyển màu hình thái đối với cạnh màu

Phát hiện,” IEEE Trans. Hình ảnh Proc., tập. 15, không. 6, trang 1454–1463.

Falconer, DG [1970]. “Cải thiện hình ảnh và nhiễu hạt phim.” Opt. Acta, tập. 17,

trang 693–705.

Fairchild, MD [1998]. Mô hình xuất hiện màu sắc, Addison-Wesley, Reading, Mass.

Cục Điều tra Liên bang [1993]. Thông số kỹ thuật nén hình ảnh vân tay thang xám WSQ, IAFIS-IC-0110v2,

Washington, DC

Felsen, LB và Marcuvitz, N. [1994]. Bức xạ và tán xạ sóng, Nhà xuất bản IEEE,
Newyork.

Ferreira, A. và Ubéda, S. [1999]. “Tính toán chuyển đổi trục trung gian song song với tám toán tử

quét,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 21, không. 3, trang 277–282.

Fischler, MA [1980]. “Thuật toán nhanh cho hai bài toán khoảng cách cực đại với

Ứng dụng vào phân tích hình ảnh,” Nhận dạng mẫu, tập. 12, trang 35–40.

Fisher, RA [1936]. “Việc sử dụng nhiều phép đo trong các vấn đề phân loại,”

Ann. Ưu sinh học, tập. 7, Phần 2, trang 179–188. (Cũng trong Đóng góp cho Thống kê Toán học, John

Wiley & Sons, New York, 1950.)

Flusser, J. [2000]. “Về tính độc lập của sự bất biến mô men quay,” Mẫu

Nhận ra, tập. 33, trang 1405–1410.

Forsyth, DF và Ponce, J. [2002]. Thị giác máy tính—Phương pháp tiếp cận hiện đại, Prentice

Hall, Thượng Yên Sông, NJ.


Machine Translated by Google

922 ■ Thư mục

Fortner, B. và Meyer, TE [1997]. Đánh số theo màu sắc, Springer-Verlag, New York.

Fox, EA [1991].“Những tiến bộ trong hệ thống đa phương tiện kỹ thuật số tương tác,” Máy tính, tập. 24,

không. 10, trang 9–21.

Fram, JR và Deutsch, ES [1975]. “Về việc đánh giá định lượng các sơ đồ phát hiện biên và so sánh chúng

với hiệu suất của con người,” IEEE Trans. Máy tính, tập. C-24, không. 6, trang 616–628.

Freeman, A. (người dịch) [1878]. J. Fourier, Lý thuyết phân tích nhiệt, Cambridge: Nhà xuất bản Đại

học, London.

Freeman, C. [1987]. Cảm biến và màn hình hình ảnh, ISBN 0–89252–800–1, SPIE Press, Bellingham, Wash.

Freeman, H. [1961]. “Về việc mã hóa các cấu hình hình học tùy ý,” IEEE

Dịch. Điện. Máy tính, tập. EC-10, trang 260–268.

Freeman, H. [1974]. “Xử lý các bản vẽ bằng máy tính”, Computing. Khảo sát, tập. 6,

trang 57–97.

Freeman, H. và Shapira, R. [1975]. “Xác định diện tích tối thiểu bao quanh hình chữ nhật cho một

đường cong đóng tùy ý,” Comm. ACM, tập. 18, không. 7, trang 409–413.

Freeman, JA và Skapura, DM [1991]. Mạng thần kinh: Thuật toán, ứng dụng và kỹ thuật lập trình, Addison-

Wesley, Reading, Mass.

Frei, W. và Chen, CC [1977].“Phát hiện ranh giới nhanh: Sự khái quát hóa và một phương pháp mới

Thuật toán,” IEEE Trans. Máy tính, tập. C-26, không. 10, trang 988–998.

Frendendall, GL và Behrend, WL [1960]. “Chất lượng hình ảnh—Quy trình đánh giá tác động chủ quan của

nhiễu,” Proc. IRE, tập. 48, trang 1030–1034.

Fu, KS [1982]. Ứng dụng và nhận dạng mẫu cú pháp, Prentice Hall, Engle-
Vách đá gỗ, NJ

Fu, KS và Bhargava, BK [1973]. “Hệ thống cây để nhận dạng mẫu cú pháp,”

IEEE Trans. Máy tính, tập. C-22, không. 12, trang 1087–1099.

Fu, KS, Gonzalez, RC và Lee, CSG [1987]. Robotics: Điều khiển, Cảm biến, Tầm nhìn và Trí thông minh,

McGraw-Hill, New York.

Fu, KS và Mùi, JK [1981]. “Khảo sát về phân đoạn hình ảnh,” Pattern Recog., tập.

13, không. 1, trang 3–16.

Fukunaga, K. [1972]. Giới thiệu về Nhận dạng Mẫu Thống kê, Nhà xuất bản Học thuật,
Newyork.

Furht, B., Greenberg, J. và Westwater, R. [1997]. Thuật toán ước tính chuyển động cho
Nén Video, Nhà xuất bản Học thuật Kluwer, Boston.

Gallager, R. và Voorhis, DV [1975]. “Mã nguồn tối ưu cho bảng chữ cái số nguyên phân bố theo hình

học,” IEEE Trans. Thông báo. Lý thuyết, tập. IT-21, trang 228–230.

Gao, X., Sattar, F. và Vekateswarlu, R. [2007]. “Phát hiện góc đa tỷ lệ của hình ảnh mức xám dựa trên

biến đổi Wavelet Log-Gabor,” IEEE Trans. Mạch và Hệ thống cho Công nghệ Video đang được xuất bản.

Garcia, P. [1999]. “Việc sử dụng mô hình Boolean để phân tích kết cấu của hình ảnh màu xám,”

Tầm nhìn máy tính và sự hiểu biết về hình ảnh, tập. 74, không. 3, trang 227–235.

Gdalyahu, Y. và Weinshall, D. [1999]. “Kết hợp cú pháp linh hoạt của các đường cong và ứng dụng của nó

vào phân loại hình bóng theo cấp bậc tự động,” IEEE Trans.

Mẫu Hậu Môn. Máy Intell., tập. 21, không. 12, trang 1312–1328.

Gegenfurtner, KR và Sharpe, LT (eds.) [1999]. Tầm nhìn màu sắc: Từ gen đến Per-

thành lập, Nhà xuất bản Đại học Cambridge, New York.

Geladi, P. và Grahn, H. [1996]. Phân tích hình ảnh đa biến, John Wiley & Sons,
Newyork.

Geman, D. và Reynold, G. [1992]. “Khôi phục có giới hạn và Phục hồi những điểm không liên tục,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. 14, không. 3, trang 367–383.
Machine Translated by Google

■ Thư mục 923

Quý ông, WM [1968]. “Phép nhân ma trận và biến đổi Fourier nhanh,”
Công nghệ hệ thống chuông. J., tập. 47, trang 1099–1103.

Quý ông, WM và Sande, G. [1966]. “Biến đổi Fourier nhanh để giải trí và kiếm lợi nhuận,”
Hội nghị máy tính chung mùa thu, tập. 29, trang 563–578, Spartan, Washington, DC
Gharavi, H. và Tabatabai, A. [1988]. “Mã hóa băng tần phụ của đơn sắc và màu sắc
Hình ảnh,” IEEE Trans. Mạch Sys., tập. 35, không. 2, trang 207–214.
Giannakis, GB và Heath, RW, Jr. [2000]. “Xác định mù quáng các vết mờ FIR đa kênh và khả năng
khôi phục hình ảnh hoàn hảo,” IEEE Trans. Xử lý ảnh, tập. 9, không. 11, trang 1877–1896.

Giardina, CR và Dougherty, ER [1988]. Các phương pháp hình thái học trong xử lý hình ảnh và tín
hiệu, Prentice Hall, Upper Saddle River, NJ
Golomb, SW [1966].“Mã hóa độ dài chạy,” IEEE Trans. Inform.Theory, tập. CNTT-12,
trang 399–401.
Gonzalez, RC [1985]. “Tầm nhìn máy tính,” trong Niên giám Khoa học và Công nghệ, McGraw-Hill, New
York, trang 128–132.
Gonzalez, RC [1985]. “Tầm nhìn máy tính công nghiệp,” trong Những tiến bộ trong khoa học hệ
thống thông tin, Tou, JT (ed.), Plenum, New York, trang 345–385.
Gonzalez, RC [1986]. “Nâng cao và phục hồi hình ảnh,” trong Sổ tay nhận dạng mẫu và xử lý hình
ảnh, Young, TY, và Fu, KS (eds.), Nhà xuất bản Học thuật, New York, trang 191–213.

Gonzalez, RC, Edwards, JJ và Thomason, MG [1976]. “Một thuật toán suy luận ngữ pháp cây,” Int.
J. Máy tính. Thông tin. Khoa học, tập. 5, không. 2, trang 145–163.
Gonzalez, RC và Fittes, BA [1977]. “Các chuyển đổi cấp độ xám để nâng cao hình ảnh tương tác,”
Cơ chế và lý thuyết máy, tập. 12, trang 111–122.
Gonzalez, RC và Safabakhsh, R. [1982].“Kỹ thuật thị giác máy tính cho công nghiệp
Ứng dụng,” Máy tính, tập. 15, không. 12, trang 17–32.
Gonzalez, RC và Thomason, MG [1978]. Nhận dạng mẫu cú pháp: Phần giới thiệu, Addison-Wesley,
Đọc, Thánh lễ.
Gonzalez, RC và Woods, RE [1992]. Xử lý ảnh kỹ thuật số, Addison-Wesley,
Đọc, Thánh Lễ.
Gonzalez, RC và Woods, RE [2002]. Xử lý hình ảnh kỹ thuật số, tái bản lần thứ 2, Prentice
Hall, Thượng Yên Sông, NJ.
Gonzalez, RC, Woods, RE và Eddins, SL [2004]. Xử lý ảnh kỹ thuật số bằng cách sử dụng
MATLAB, Prentice Hall, Thượng Saddle River, NJ.
Tốt, IJ [1958].“Thuật toán tương tác và phân tích Fourier thực tế,” JR Stat.
Sóc. (Lond.), tập. B20, trang 361–367; Phụ lục, tập. 22, 1960, trang 372–375.
Goodson, KJ và Lewis, PH [1990]. “Hệ thống nhận dạng dòng dựa trên kiến thức,” Pattern Recog.
Thư, tập. 11, không. 4, trang 295–304.
Gordon, IE [1997]. Các lý thuyết về nhận thức thị giác, tái bản lần thứ 2, John Wiley & Sons, Mới
York.

Gori, M. và Scarselli, F. [1998]. “Các Perceptron nhiều lớp có đủ để nhận dạng và xác minh mẫu
không?” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 20, không. 11, trang 1121–1132.

Goutsias, J., Vincent, L., và Bloomberg, DS (eds) [2000]. Hình thái toán học và các ứng dụng của
nó trong xử lý hình ảnh và tín hiệu, Nhà xuất bản học thuật Kluwer, Boston, Mass.

Graham, RE [1958]. “Lượng tử hóa dự đoán tín hiệu truyền hình,” IRE Wescon Conv.
Rec., tập. 2, điểm. 2, trang 147–157.

Graham, RL và Yao, FF [1983]. “Tìm vỏ lồi của một đa giác đơn giản,”
J. Thuật toán, tập. 4, trang 324–331.
Machine Translated by Google

924 ■ Thư mục

Xám, RM [1984]. “Lượng tử hóa vectơ”, IEEE Trans. Âm thanh. Quá trình tín hiệu giọng nói-

ing, tập. ASSP-1, không. 2, trang 4–29.

Gröchenig, K. và Madych, WR [1992]. “Phân tích đa độ phân giải, cơ sở Haar và các lát gạch tương tự của

Rn ,” IEEE Trans. Lý thuyết thông tin, tập. 38, không. 2, trang 556–568.

Grossman, A. và Morlet, J. [1984]. “Phân tích các hàm Hardy thành các bước sóng tích phân vuông có hình

dạng không đổi,”SIAM J. Appl. Toán học. tập. 15, trang 723–736.

Guil, N., Villalba, J. và Zapata, EL [1995]. “Sự chuyển đổi Hough nhanh chóng cho phân khúc

Phát hiện,” IEEE Trans. Xử lý ảnh, tập. 4, không. 11, trang 1541–1548.

Guil, N. và Zapata, EL [1997]. “Vòng tròn bậc thấp và phép biến đổi hình elip Hough,”

Nhận dạng mẫu, tập. 30, không. 10, trang 1729–1744.

Gunn, SR [1998]. “Lỗi phát hiện cạnh trong Laplacian rời rạc của Gaussian,”

Proc. Hội nghị quốc tế về xử lý ảnh năm 1998, tập. II, trang 515–519.

Gunn, SR [1999]. “Về biểu diễn rời rạc của Laplacian của Gaussian,”

Nhận dạng mẫu, tập. 32, không. 8, trang 1463–1472.

Gupta, L., Mohammad, RS và Tammana, R. [1990]. “Phương pháp tiếp cận mạng lưới thần kinh để phân loại hình

dạng mạnh mẽ,” Pattern Recog., tập. 23, không. 6, trang 563–568.

Gupta, L. và Srinath, MD [1988]. “Nhận dạng hình dạng phẳng bất biến bằng cách sử dụng căn chỉnh động,”

Pattern Recog., tập. 21, trang 235–239.

Gupta, L., Wang., J., Charles, A. và Kisatsky, P. [1994]. “Bộ phân loại dựa trên Perceptron ba lớp cho bài

toán phân loại hình dạng từng phần,” Pattern Recog., tập. 27, không. 1, trang 91–97.

Haar, A. [1910]. “Zur Theorie der Orthogonalen Funktionensysteme,” Toán. Biên niên sử, tập. 69, trang 331–

371.

Habibi, A. [1971]. “So sánh Bộ mã hóa DPCM bậc N với các kỹ thuật biến đổi tuyến tính và lượng tử hóa

khối,” IEEE Trans. Liên lạc. Công nghệ, tập. COM-19, không. 6, trang 948–956.

Habibi, A. [1974]. “Mã hóa lai dữ liệu hình ảnh,” IEEE Trans. Comm., tập. COM-

22, không. 5, trang 614–624.

Haddon, JF và Boyce, JF [1990]. “Phân đoạn hình ảnh theo thông tin ranh giới và vùng thống nhất,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 10, trang 929–948.

Hall, EL[1979]. Xử lý và nhận dạng hình ảnh máy tính, Nhà xuất bản học thuật, New York.

Hamming, RW [1950].“Phát hiện lỗi và sửa mã lỗi,” Bell Sys.Tech. J., tập. 29, trang 147–160.

Hannah, I., Patel, D. và Davies, R. [1995]. “Việc sử dụng các phương pháp xác định ngưỡng phương sai và

Entropy để phân đoạn hình ảnh,” Pattern Recog., tập. 28, không. 8, trang 1135–1143.

Haralick, RM và Lee, JSJ [1990].“Phát hiện và đánh giá cạnh phụ thuộc vào bối cảnh-

ation,” Mẫu Recog., tập. 23, không. 1–2, trang 1–20.

Haralick, RM và Shapiro, LG [1985]. “Khảo sát: Phân đoạn hình ảnh,” Comput. Vi-

sion, Đồ họa, Xử lý hình ảnh, tập. 29, trang 100–132.

Haralick, RM và Shapiro, LG [1992]. Tầm nhìn máy tính và robot, tập. 1 & 2,

Addison-Wesley, Đọc, Thánh lễ.

Haralick, RM, Sternberg, SR và Zhuang, X. [1987]. “Phân tích hình ảnh bằng hình thái toán học,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. PAMI-9, không. 4, trang 532–550.

Haralick, RM, Shanmugan, R. và Dinstein, I. [1973]. “Đặc điểm kết cấu để phân loại hình ảnh,” IEEE Trans

Syst. Man Cyb., tập. SMC-3, không. 6, trang 610–621.

Harikumar, G. và Bresler, Y. [1999]. “Khôi phục hoàn hảo các hình ảnh bị mờ do nhiều bộ lọc: Lý thuyết và

thuật toán hiệu quả,” IEEE Trans. Xử lý ảnh, tập. 8, không. 2, trang 202–219.
Machine Translated by Google

■ Thư mục 925

Harmuth, HF [1970]. Truyền thông tin bằng tín hiệu trực giao, Springer-Verlag, New York.

Haris, K., Efstratiadis, S. N, Maglaveras, N. và Katsaggelos, AK [1998]. "Hỗn hợp

Phân đoạn hình ảnh bằng cách sử dụng lưu vực đầu nguồn và hợp nhất vùng nhanh,” IEEE Trans.

Xử lý ảnh, tập. 7, không. 12, trang 1684–1699.

Hart, PE, Nilsson, NJ và Raphael, B. [1968]. “Cơ sở hình thức cho phương pháp Heuristic

Xác định đường dẫn chi phí tối thiểu,” IEEE Trans. Hệ thống. Man Cyb, tập. SMC-4,

trang 100–107.

Hartenstein, H., Ruhl, M. và Saupe, D. [2000]. “Com-Hình ảnh Fractal dựa trên khu vực-

áp lực,” IEEE Trans. Xử lý ảnh, tập. 9, không. 7, trang 1171–1184.

Haskell, BG và Netravali, AN [1997]. Hình ảnh kỹ thuật số: Biểu diễn, nén

và Tiêu chuẩn, Nhà xuất bản Perseus, New York.

Haykin, S. [1996]. Lý thuyết bộ lọc thích ứng, Prentice Hall, Upper Saddle River, NJ

Healy, DJ và Mitchell, OR [1981]. “Nén băng thông video kỹ thuật số bằng cách sử dụng

Mã hóa cắt ngắn khối,” IEEE Trans. Comm., tập. COM-29, không. 12, trang 1809–1817.

Heath, MD, Sarkar, S., Sanocki, T. và Bowyer, KW [1997]. “Một hình ảnh mạnh mẽ

Phương pháp đánh giá hiệu suất tương đối của thuật toán phát hiện cạnh,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 19, không. 12, trang 1338–1359.

Heath, M., Sarkar, S., Sanoki, T. và Bowyer, K. [1998]. “So sánh các thiết bị dò biên: Phương pháp

nghiên cứu và nghiên cứu ban đầu,” Thị giác máy tính và hiểu biết hình ảnh,

tập. 69, không. 1, trang 38–54.

Hebb, DO [1949]. Tổ chức hành vi: Một lý thuyết tâm lý thần kinh, John

Wiley & Sons, New York.

Heijmans, HJAM và Goutsias, J. [2000]. “Sơ đồ phân rã tín hiệu đa độ phân giải phi tuyến—Phần II: Sóng

con hình thái,” IEEE Trans. Xử lý hình ảnh, tập. 9, không. 11, trang 1897–1913.

Highnam, R. và Brady, M. [1997]. “Cải thiện hình ảnh hồng ngoại xa dựa trên mô hình

Hình ảnh,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 19, không. 4, trang 410–415.

Hojjatoleslami, SA và Kittler, J. [1998]. “Phát triển khu vực: Một cách tiếp cận mới,” IEEE

Dịch. Xử lý ảnh, tập. 7, không. 7, trang 1079–1084.

Hong, Pi, Hung, Li và Hua, Li [2006]. “Hình mờ hình ảnh Fractal mới lạ,” IEEE

Dịch. Đa phương tiện, tập. 8, không. 3, trang 488–499.

Hoover, RB và Doty, F. [1996]. Quang học, cảm biến và ứng dụng tia X/Gamma-Ray và neutron cứng, SPIE

Press, Bellingham, Wash.

Horn, BKP [1986]. Tầm nhìn Robot, McGraw-Hill, New York.

Hotelling, H. [1933].“Phân tích một tổ hợp các biến thống kê thành thành phần chính

người ủng hộ,” J. Educ. Tâm lý., tập. 24, trang 417–441, 498–520.

Hough, PVC [1962]. “Phương pháp và phương tiện để nhận biết các mẫu phức tạp,” Hoa Kỳ
Bằng sáng chế 3.069.654.

Hsu, CC và Huang, JS [1990]. “Biến đổi Hough được phân vùng để phát hiện Ellipsoid

tion,” Nhận dạng mẫu, tập. 23, không. 3–4, trang 275–282.

Hư. J. và Yan, H. [1997]. “Xấp xỉ đa giác của các đường cong số dựa trên

Nguyên tắc tổ chức nhận thức,” Pattern Recog., tập. 30, không. 5, trang 701–718.

Hu, MK [1962]. “Nhận dạng mẫu hình ảnh theo thời điểm bất biến,” IRE Trans. Thông tin.

Lý thuyết, tập. IT-8, trang 179–187.

Hu, Y., Kwong, S., và Huang, J. [2006]. “Một thuật toán cho hình mờ có thể nhìn thấy được có thể tháo

rời,” IEEE Trans. Mạch và Hệ thống Công nghệ Video, tập. 16, không. 1, trang 129–133.

Hoàng, K.-Y. [2002]. Nhận dạng mẫu cú pháp cho hoạt động thăm dò dầu địa chấn, Thế giới
Khoa học, Hackensack, NJ.

Hoàng, S.-C. và Sun, Y.-N. [1999]. “Xấp xỉ đa giác bằng thuật toán tổng quát

nhịp điệu,” Mẫu Recog., tập. 32, không. 8, trang 1409–1420.


Machine Translated by Google

926 ■ Thư mục

Huang,TS [1965].“Truyền hình ảnh PCM,” IEEE Spectrum, tập. 2, không. 12, trang 57–63.
Hoàng, TS [1966]. “Mã hóa hình ảnh kỹ thuật số,” Proc. Natl. Điện tử. Hội nghị, trang 793–797.
Hoàng, TS, chủ biên. [1975]. Xử lý ảnh và lọc kỹ thuật số, Springer-Verlag,
Newyork.

Huang, TS [1981]. Phân tích chuỗi hình ảnh, Springer-Verlag, New York.
Huang, TS và Hussian, ABS [1972]. “Mã hóa fax bằng cách bỏ qua màu trắng,” IEEE
Dịch. Comm., tập. COM-23, không. 12, trang 1452–1466.
Huang, TS và Tretiak, OJ (eds.). [1972]. Nén băng thông hình ảnh, Gordon
và Breech, New York.

Huang, TS, Yang, GT và Tang, GY [1979]. “Thuật toán lọc trung vị hai chiều nhanh,” IEEE Trans.
Âm thanh., Lời nói, Sig. Proc., tập. ASSP-27, trang 13–18.
Huang, Y. và Schultheiss, PM [1963]. “Lượng tử hóa khối của các biến ngẫu nhiên Gaussian tương
quan,” IEEE Trans. Cộng đồng. Hệ thống, tập. CS-11, trang 289–296.
Hubbard, BB [1998]. Thế giới theo Wavelets—Câu chuyện về một nhà toán học
Kỹ thuật chế tạo, tái bản lần thứ 2, AK Peters, Ltd., Wellesley, Mass.
Hubel, DH [1988]. Mắt, Não và Tầm nhìn, Khoa học Amer. Thư viện, WH Freeman,
Newyork.

Huertas, A. và Medione, G. [1986]. “Phát hiện các thay đổi cường độ với độ chính xác Subpixel
bằng cách sử dụng Mặt nạ Laplacian-Gaussian,” IEEE Trans. Mẫu. Hậu môn. Máy Intell., tập.
PAMI-8, không. 5, trang 651–664.
Huffman, DA [1952]. “Phương pháp xây dựng mức dự phòng tối thiểu
Mã,” Proc. IRE, tập. 40, không. 10, trang 1098–1101.
Hufnagel, RE và Stanley, NR [1964]. “Chức năng truyền điều chế liên quan đến truyền hình ảnh qua
môi trường hỗn loạn,” J. Opt. Sóc. Amer., tập. 54, trang 52–61.

Hummel, RA [1974]. “Kỹ thuật sửa đổi biểu đồ,” Báo cáo kỹ thuật TR-329. F-44620–72C-0062, Trung
tâm Khoa học Máy tính, Đại học Maryland, College Park, Md.

Hunt, BR [1971]. “Một lý thuyết ma trận chứng minh định lý tích chập rời rạc,”
IEEE Trans. Âm thanh và Electroacoust., tập. AU-19, không. 4, trang 285–288.
Hunt, BR [1973]. “Ứng dụng ước lượng bình phương nhỏ nhất bị ràng buộc để khôi phục hình ảnh bằng
máy tính kỹ thuật số,” IEEE Trans. Máy tính, tập. C-22, không. 9, trang 805–812.

Hunter, R. và Robinson, AH [1980]. “Tiêu chuẩn mã hóa fax kỹ thuật số quốc tế-
tiêu,” Proc. IEEE, tập. 68, không. 7, trang 854–867.
Hurn, M. và Jennison, C. [1996]. “Mở rộng phương pháp tiếp cận của Geman và Reynolds đối với việc
khôi phục hạn chế và khôi phục các điểm gián đoạn,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập.
18, không. 6, trang 657–662.
Hwang, H. và Haddad, RA [1995]. “Bộ lọc trung vị thích ứng: Thuật toán mới và
Kết quả,” IEEE Trans. Xử lý ảnh, tập. 4, không. 4, trang 499–502.
Máy tính IEEE [1974]. Vấn đề đặc biệt về xử lý ảnh số. tập. 7, không. 5.
Máy tính IEEE [1988]. Vấn đề đặc biệt về hệ thống thần kinh nhân tạo. tập. 21, không. 3.
IEEE Trans. Mạch và hệ thống. [1975]. Số đặc biệt về lọc kỹ thuật số và xử lý hình ảnh
chấm dứt, tập. CAS-2, trang 161–304.
IEEE Trans. Máy tính [1972]. Số đặc biệt về xử lý tín hiệu hai chiều, tập.
C-21, không. 7.

IEEE Trans. Liên lạc. [1981]. Số đặc biệt về hệ thống truyền thông hình ảnh, tập.
COM-29, không. 12.

IEEE Trans. về Xử lý ảnh [1994]. Vấn đề đặc biệt về nén chuỗi hình ảnh,
tập. 3, không. 5.
Machine Translated by Google

■ Thư mục 927

IEEE Trans. về Xử lý ảnh [1996]. Số đặc biệt về lượng tử hóa vector, tập. 5, không. 2.

IEEE Trans. Xử lý ảnh [1996]. Số đặc biệt về xử lý ảnh phi tuyến, tập. 5,
KHÔNG. 6.

IEEE Trans. Xử lý ảnh [1997]. Số đặc biệt về phát hiện mục tiêu tự động, tập. 6,
KHÔNG. 1.

IEEE Trans. Xử lý ảnh [1997]. Số đặc biệt về hình ảnh màu, tập. 6, không. 7.

IEEE Trans. Xử lý ảnh [1998]. Vấn đề đặc biệt về ứng dụng của mạng nơ-ron

để xử lý ảnh, tập. 7, không. số 8.

IEEE Trans. Lý thuyết thông tin [1992]. Vấn đề đặc biệt về biến đổi wavelet và

phân tích tín hiệu đa độ phân giải, tập. 11, không. 2, Phần II.

IEEE Trans. Phân tích mẫu và trí thông minh của máy [1989]. Số đặc biệt về đa

xử lý độ phân giải, tập. 11, không. 7.

IEEE Trans. Xử lý tín hiệu [1993]. Vấn đề đặc biệt về wavelet và xử lý tín hiệu,
tập. 41, không. 12.

Cẩm nang chiếu sáng IES, tái bản lần thứ 9. [2000]. Nhà xuất bản Hiệp hội Kỹ thuật Chiếu sáng, New York.

ISO/IEC [1999]. ISO/IEC 14495-1:1999: Công nghệ thông tin—Nén không mất dữ liệu và gần như không mất dữ

liệu đối với ảnh tĩnh có tông màu liên tục: Đường cơ sở.

ISO/IEC JTC 1/SC 29/WG 1 [2000]. ISO/IEC FCD 15444-1: Công nghệ thông tin— Hệ thống mã hóa hình ảnh JPEG

2000: Hệ thống mã hóa lõi.

Jähne, B. [1997]. Xử lý ảnh kỹ thuật số: Khái niệm, thuật toán và ứng dụng khoa học-

ở Springer-Verlag, New York.

Jähne, B. [2002]. Xử lý ảnh kỹ thuật số, tái bản lần thứ 5, Springer, New York.

Jain,AK [1981].“Nén dữ liệu hình ảnh: Đánh giá,”Proc. IEEE, tập. 69, trang 349–389.

Jain, AK [1989]. Nguyên tắc cơ bản của xử lý hình ảnh kỹ thuật số, Prentice Hall, Englewood
Vách đá, NJ

Jain, AK, Duin, RPW và Mao, J. [2000]. “Nhận dạng mẫu thống kê: Một sự tái hiện

xem,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 22, không. 1, trang 4–37.

Jain, JR và Jain, AK [1981]. “Đo lường độ dịch chuyển và ứng dụng của nó trong mã hóa hình ảnh trong

khung,” IEEE Trans. Comm., tập. COM-29, trang 1799–1808.

Jain, R. [1981]. “Phân tích cảnh động bằng cách sử dụng quy trình dựa trên pixel,” Máy tính, tập. 14,

không. 8, trang 12–18.

Jain, R., Kasturi, R. và Schunk, B. [1995]. Thị giác máy tính, McGraw-Hill, New York.

Jang, BK và Chin, RT [1990]. “Phân tích các thuật toán làm mỏng bằng cách sử dụng hình thái toán học,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 6, trang 541–551.

Jayant, NS (ed.) [1976]. Lượng tử hóa và mã hóa dạng sóng, Nhà xuất bản IEEE, New York.

Jones, R. và Svalbe, I. [1994]. “Các thuật toán phân rã các hoạt động hình thái thang xám,” IEEE Trans.

Mẫu Hậu Môn. Máy Intell., tập. 16, không. 6, trang 581–588.

Jonk, A., van den Boomgaard, S. và Smeulders, A. [1999]. “Suy luận ngữ pháp về các đường đứt nét,” Thị

giác máy tính và hiểu hình ảnh, tập. 74, không. 3, trang 212–226.

Kahaner, DK [1970].“Mô tả ma trận của phép biến đổi Fourier nhanh,” IEEE Trans.

Âm thanh Điện âm, tập. AU-18, không. 4, trang 442–450.

Kak, AC và Slaney, M. [2001]. Nguyên tắc chụp ảnh cắt lớp vi tính,

Hiệp hội Toán học Công nghiệp và Ứng dụng, Philadelphia, Pa.

Kamstra, L. và Heijmans, HJAM [2005]. “Nhúng dữ liệu có thể đảo ngược vào hình ảnh bằng kỹ thuật sắp xếp

và kỹ thuật Wavelet,” IEEE Trans. Xử lý ảnh, tập. 14, không. 12, trang 2082–2090.

Karhunen, K. [1947]. “Über Lineare Methoden in der Wahrscheinlichkeitsrechnung,”

Ann. Học viện. Khoa học. Fennicae, Ser. A137. (Được dịch bởi I. Selin trong “Về các phương pháp tuyến

tính trong lý thuyết xác suất.” T-131, 1960, The RAND Corp., Santa Monica, Calif.)
Machine Translated by Google

928 ■ Thư mục

Kasson, J. và Plouffe, W. [1992]. “Phân tích trao đổi máy tính được chọn

Không gian màu,” ACM Trans. trên Đồ họa, tập. 11, không. 4, trang 373–405.

Katzir, N., Lindenbaum, M. và Porat, M. [1994]. “Phân đoạn đường cong dưới sự tắc một phần,” IEEE Trans.

Mẫu Hậu Môn. Máy Intell., tập. 16, không. 5, trang 513–519.

Kerre, EE và Nachtegael, M., biên tập. [2000]. Kỹ thuật mờ trong xử lý ảnh, Springer-Verlag, New York.

Khanna, T. [1990]. Nền tảng của mạng lưới thần kinh, Addison-Wesley, Reading, Mass.

Kim, C. [2005]. “Phân đoạn hình ảnh có độ sâu thấp bằng cách sử dụng bộ lọc hình thái và hợp nhất vùng,”

IEEE Trans. Hình ảnh Proc., tập. 14, không. 10, trang 1503–1511.

Kim, JK, Park, JM, Song, KS và Park, HW [1997]. “Nâng cao hình ảnh chụp nhũ ảnh thích ứng bằng cách sử

dụng số liệu thống kê địa phương và đạo hàm đầu tiên,” IEEE Trans. Hình ảnh y tế, tập. 16, không. 5,

trang 495–502.

Kimme, C., Ballard, DH và Sklansky, J. [1975]. “Tìm vòng tròn bằng một mảng tích lũy

người mô phỏng,” Comm. ACM, tập. 18, không. 2, trang 120–122.

Kirsch, R. [1971]. “Xác định cấu trúc thành phần của sinh học bằng máy tính

Hình ảnh,” Máy tính. Sinh học. Độ phân giải, tập. 4, trang 315–328.

Kiver, MS [1965]. Nguyên tắc cơ bản về truyền hình màu, McGraw-Hill, New York.

Klette, R. và Rosenfeld, A. [2004]. Hình học Kỹ thuật số—Phương pháp Hình học cho Kỹ thuật số

Phân tích hình ảnh, Morgan Kaufmann, San Francisco.

Klinger, A. [1976]. “Thí nghiệm về biểu diễn hình ảnh bằng cách sử dụng phân tách thông thường,” Comput.

Quá trình hình ảnh đồ họa, tập. 5, trang 68–105.

Knowlton, K. [1980]. “Truyền dần dần các hình ảnh thang độ xám và nhị phân bằng các sơ đồ mã hóa đơn

giản, hiệu quả và không mất dữ liệu,” Proc. IEEE, tập. 68, không. 7, trang 885–896.

Kohler, RJ và Howell, HK [1963]. “Nâng cao hình ảnh chụp ảnh bằng cách siêu vị trí của nhiều hình ảnh,”

Photogr. Khoa học. Tiếng Anh, tập. 7, không. 4, trang 241–245.

Kokaram, A. [1998]. Phục hồi phim điện ảnh, Springer-Verlag, New York.

Kokare, M., Biswas, P. và Chatterji, B. [2005]. “Truy xuất hình ảnh kết cấu bằng cách sử dụng các bộ lọc

Wavelet phức tạp xoay mới,” IEEE Trans. Hệ thống, Con người, Điều khiển học, Phần B, tập. 35, không.

6, trang 1168–1178.

Kramer, HP và Mathews, MV [1956]. “Mã hóa tuyến tính để truyền một tập hợp

Tín hiệu tương quan,” IRE Trans. Thông tin. Lý thuyết, tập. IT-2, trang 41–46.

Langdon, GC và Rissanen, JJ [1981]. “Nén hình ảnh đen trắng bằng mã hóa số học,” IEEE Trans. Comm., tập.

COM-29, không. 6, trang 858–867.

Lantuéjoul, C. [1980]. “Sự tạo khung trong luyện kim định lượng,” trong Các vấn đề xử lý hình ảnh kỹ thuật

số, Haralick, RM, và Simon, JC (eds.), Sijthoff và Noord-hoff, Groningen, Hà Lan.

Latecki, LJ và Lakämper, R. [1999]. “Quy tắc lồi cho sự phân rã hình dạng dựa trên sự tiến hóa đường viền

rời rạc,” Thị giác máy tính và hiểu hình ảnh, tập. 73, không. 3, trang 441–454.

Le Gall, D. và Tabatabai, A. [1988]. “Mã hóa băng tần phụ của hình ảnh kỹ thuật số sử dụng bộ lọc hạt

nhân ngắn đối xứng và kỹ thuật mã hóa số học,” Hội nghị quốc tế của IEEE về âm thanh, giọng nói và xử

lý tín hiệu, New York, trang 761–765.

Ledley, RS [1964]. “Phân tích tự động tốc độ cao các hình ảnh y sinh,” Khoa học,

tập. 146, không. 3461, trang 216–223.

Lee, J.-S., Sun, Y.-N. và Chen, C.-H. [1995]. “Phát hiện góc đa thang đo bằng cách sử dụng biến đổi

Wavelet,” IEEE Trans. Xử lý ảnh, tập. 4, không. 1, trang 100–104.

Lee, SU, Chung, SY và Park, RH [1990]. “Nghiên cứu so sánh hiệu suất của một số kỹ thuật xác định ngưỡng

toàn cầu để phân khúc,” Comput. Tầm nhìn, Đồ họa, Quá trình hình ảnh, tập. 52, không. 2, trang 171–190.
Machine Translated by Google

■ Thư mục 929

Lehmann, TM, Gönner, C. và Spitzer, K. [1999]. “Khảo sát: Phương pháp nội suy trong xử lý hình ảnh y

tế,” IEEE Trans. Hình ảnh y tế, tập. 18, không. 11, trang 1049–1076.

Lema, MD và Mitchell, OR [1984]. “Mã hóa cắt ngắn khối thời điểm tuyệt đối và ứng dụng của nó đối với

hình ảnh màu,” IEEE Trans. Comm., tập. COM-32, không. 10. trang 1148–1157.

Levine, MD [1985]. Tầm nhìn về Con người và Máy móc, McGraw-Hill, New York.

Lương, K.-C. và Kuo, C.-CJ [1991]. “Ống dẫn sóng: Hệ thống mô tả và mô tả hình ảnh dựa trên Wavelet

chung,” IEEE Trans. Xử lý ảnh, tập. 8, không. 11, trang 1619–1629.

Liang, Q., Wendelhag, JW và Gustavsson, T. [2000]. “Quy trình lập trình lập trình động đa cấp độ để

phát hiện ranh giới trong hình ảnh động mạch siêu âm,” IEEE Trans. Hình ảnh y tế, tập. 19, không.

2, trang 127–142.

Liao, P., Chen, T. và Chung, P. [2001]. “Thuật toán nhanh cho ngưỡng đa cấp,”

J. Thông báo. Sc. và tiếng Anh, tập. 17, trang 713–727.

Lillesand,TM và Kiefer, RW [1999]. Viễn thám và giải thích hình ảnh, John Wiley & Sons, New York.

Lim, JS [1990]. Xử lý hình ảnh và tín hiệu hai chiều, Prentice Hall, Upper
Sông Saddle, NJ

Limb, JO và Rubinstein, CB [1978]. “Về thiết kế bộ lượng tử hóa cho bộ mã hóa DPCM: Mối quan hệ chức

năng giữa khả năng hiển thị, xác suất và mặt nạ,”

IEEE Trans. Comm., tập. COM-26, trang 573–578.

Lindblad, T. và Kinser, JM [1998]. Xử lý hình ảnh bằng cách sử dụng Mạng thần kinh ghép xung, Springer-

Verlag, New York.

Linde, Y., Buzo, A. và Gray, RM [1980]. “Một thuật toán để giải mã lượng tử hóa Vector

ký tên,” IEEE Trans. Comm., tập. COM-28, không. 1, trang 84–95.

Lippmann, RP [1987].“Giới thiệu về tính toán với mạng lưới thần kinh,” Tạp chí IEEE ASSP, tập. 4, trang

4–22.

Liu, J. và Yang, Y.-H. [1994]. “Phân đoạn hình ảnh màu đa độ phân giải,” IEEE

Trans Mẫu Hậu Môn. Máy Intell., tập. 16, không. 7, trang 689–700.

Liu-Yu, S. và Antipolis, M. [1993]. “Mô tả hình dạng đối tượng theo ranh giới rõ ràng và thân lồi,”

Pattern Recog., tập. 26, không. 1, trang 95–107.

Lo, R.-C. và Tsai, W.-H. [1995]. “Biến đổi Hough thang xám để phát hiện đường dày

tion trong hình ảnh thang độ xám,” Pattern Recog., tập. 28, không. 5, trang 647–661.

Loncaric, S. [1998]. “Khảo sát các kỹ thuật phân tích hình dạng,” Pattern Recog., tập. 31, không. 8,

trang 983–1010.

Lu, HE và Wang, PSP [1986]. “Nhận xét về 'Thuật toán song song nhanh cho các mẫu kỹ thuật số làm

mỏng'” Comm. ACM, tập. 29, không. 3, trang 239–242.

Lữ, N. [1997]. Hình ảnh Fractal, Nhà xuất bản Học thuật, New York.

Lữ, W.-S. và Antoniou, A. [1992]. “Bộ lọc kỹ thuật số hai chiều,” Marcel Dekker,
Newyork.

MacAdam, DL [1942]. “Độ nhạy thị giác đối với sự khác biệt về màu sắc trong ánh sáng ban ngày,” J. Opt.

Sóc. Am., tập. 32, trang 247–274.

MacAdam, DP [1970]. “Phục hồi hình ảnh kỹ thuật số bằng cách giải mã ràng buộc,”

J. Chọn. Sóc. Am., tập. 60, trang 1617–1627.

Maki, A., Nordlund, P. và Eklundh, J.-O. [2000]. “Phân đoạn cảnh chú ý: Tích hợp độ sâu và chuyển

động,” Thị giác máy tính và hiểu hình ảnh, tập. 78, không. 3, trang 351–373.

Malacara, D. [2001]. Tầm nhìn màu và Đo màu: Lý thuyết và ứng dụng, Nhà xuất bản SPIE, Bellingham, Wash.
Machine Translated by Google

930 ■ Thư mục

Mallat, S. [1987]. “Một biểu diễn đa phân giải nhỏ gọn: Mô hình Wavelet,”

Proc. Hội thảo của Hiệp hội Máy tính IEEE về Thị giác Máy tính, Nhà xuất bản Hiệp hội Máy tính IEEE,

Washington, DC, trang 2–7.

Mallat, S. [1989a]. “Lý thuyết về phân rã tín hiệu đa độ phân giải: Biểu diễn Wavelet,” IEEE Trans. Mẫu

Hậu Môn. Mach. Intell., tập. PAMI-11, trang 674–693.

Mallat, S. [1989b].“Xấp xỉ đa phân giải và cơ sở trực giao Wavelet của L2 ,” Trans. Hiệp hội Toán học Mỹ,

tập. 315, trang 69–87.

Mallat, S. [1989c]. “Phân tích kênh đa tần số của hình ảnh và mô hình Wavelet,” IEEE Trans.Acoustics,

Speech và Signal Treatment, tập. 37, trang 2091–2110.

Mallat, S. [1998]. Chuyến tham quan xử lý tín hiệu Wavelet, Nhà xuất bản học thuật, Boston,
Khối.

Mallat, S. [1999]. Chuyến tham quan xử lý tín hiệu Wavelet, tái bản lần thứ 2, Nhà xuất bản học thuật, San

Diego, California.

Malot, AH [2000]. Tầm nhìn tính toán, Nhà xuất bản MIT, Cambridge, Mass.

Mamistvalov, A. [1998]. “Bất biến mô men n chiều và lý thuyết toán học khái niệm về nhận biết [của] chất

rắn n chiều,” IEEE Trans. Mẫu Hậu Môn.

Máy Intell., tập. 20, không. 8, trang 819–831.

Manjunath, B., Salembier, P. và Sikora, T. [2001].Giới thiệu về MPEG-7, John Wiley & Sons, West Sussex,
Vương quốc Anh.

Maragos, P. [1987]. “Hướng dẫn về những tiến bộ trong xử lý hình ảnh và

Phân tích,” Kỹ thuật quang học, tập. 26, không. 7, trang 623–632.

Marchand-Maillet, S. và Sharaiha, YM [2000]. Xử lý ảnh kỹ thuật số nhị phân: A

Phương pháp tiếp cận rời rạc, Nhà xuất bản Học thuật, New York.

Maren,AJ, Harston, CT và Pap, RM [1990]. Sổ tay Ứng dụng Máy tính Thần kinh, Nhà xuất bản Học thuật, New

York.

Marr, D. [1982]. Tầm nhìn, Freeman, San Francisco.

Marr, D. và Hildreth, E. [1980]. “Lý thuyết phát hiện cạnh,” Proc. R. Sóc. Lond., tập.

B207, trang 187–217.

Martelli, A. [1972]. “Phát hiện cạnh bằng phương pháp tìm kiếm theo kinh nghiệm,” Comput.

Quá trình hình ảnh đồ họa, tập. 1, trang 169–182.

Martelli, A. [1976]. “Ứng dụng các phương pháp tìm kiếm heuristic cho cạnh và đường viền

Phát hiện,” Comm. ACM, tập. 19, không. 2, trang 73–83.

Martin, MB và Bell, AE [2001]. “Kỹ thuật nén hình ảnh mới sử dụng gói đa sóng và gói đa sóng,” IEEE Trans.

trên Image Proc., tập. 10, không. 4, trang 500–510.

Mather, Thủ tướng [1999]. Xử lý ảnh viễn thám bằng máy tính: Giới thiệu

quan, John Wiley & Sons, New York.

Max, J. [1960].“Lượng tử hóa để có độ méo tối thiểu,” IRE Trans. Thông tin.Theory, tập. LÊN 6,

trang 7–12.

McClelland, JL và Rumelhart, DE (eds.) [1986]. Xử lý phân tán song song: Khám phá cấu trúc vi mô của nhận

thức, tập. 2: Các mô hình tâm lý và sinh học, Nhà xuất bản MIT, Cambridge, Mass.

McCulloch, WS và Pitts, WH [1943]. “Một phép tính logic về những ý tưởng sắp xảy ra trong hoạt động thần

kinh,” Bản tin lý sinh toán học, tập. 5, trang 115–133.

McFarlane, MD [1972]. “Hình ảnh kỹ thuật số cách đây 50 năm,” Proc. IEEE, tập. 60, không. 7,

trang 768–770.

McGlamery, BL [1967]. “Khôi phục hình ảnh bị suy giảm nhiễu loạn,” J. Opt. Sóc.

Am., tập. 57, không. 3, trang 293–297.

Meijering, HW, Zuiderveld, KJ, và Viergever, MA [1999]. “Đăng ký hình ảnh cho chụp động mạch trừ kỹ thuật

số,” Int. J. Máy tính. Tầm nhìn, tập. 31, trang 227–246.
Machine Translated by Google

■ Thư mục 931

Meijering, EHW, Niessen, WJ và Viergever, MA [1999]. “Hiệu chỉnh chuyển động hồi cứu trong chụp động
mạch trừ kỹ thuật số: Đánh giá,” IEEE Trans. Hình ảnh y tế, tập. 18, không. 1, trang 2–21.

Meijering, EHW, và cộng sự. [2001]. “Giảm các tạo tác chuyển động của bệnh nhân trong chụp động mạch
kéo phụ kỹ thuật số: Đánh giá kỹ thuật nhanh và hoàn toàn tự động,” X quang, tập. 219, trang 288–
293.
Memon, N., Neuhoff, DL và Shende, S. [2000]. “Phân tích một số kỹ thuật quét phổ biến để mã hóa hình
ảnh không mất dữ liệu,” IEEE Trans. Xử lý ảnh, tập. 9, không. 11, trang 1837–1848.

Mesarovi'c, VZ [2000]. “Khôi phục hình ảnh có lỗi vuông-trung bình tối thiểu tuyến tính lặp lại từ độ
mờ được biết một phần,” J. Opt. Sóc. Amer.-A. Quang học, Khoa học hình ảnh và Tầm nhìn, tập. 17,
không. 4, trang 711–723.
Meyer, Y. [1987]. “L'analyses par Ondelettes,” Pour la Science.
Meyer, Y. [1990]. Ondelettes et op'rateurs, Hermann, Paris.

Meyer, Y. (ed.) [1992a]. Wavelet và ứng dụng: Kỷ yếu của Hội nghị quốc tế, Marseille, Pháp, Mason,
Paris và Springer-Verlag, Berlin.

Meyer, Y. (do DH Salinger dịch) [1992b]. Wavelet và toán tử, Cambridge


Nhà xuất bản Đại học, Cambridge, Vương quốc Anh.

Meyer, Y. (do RD Ryan dịch) [1993]. Wavelets: Thuật toán và ứng dụng, Xã hội
ety cho Toán công nghiệp và ứng dụng, Philadelphia.
Meyer, FG, Averbuch, AZ và Strömberg, J.-O. [2000]. “Nén hình ảnh gói Wavelet thích ứng nhanh,” IEEE
Trans. Xử lý ảnh, tập. 9, không. 7, trang 792–800.
Meyer, F. và Beucher, S. [1990]. “Phân đoạn hình thái,” J. Visual Comm., và
Đại diện hình ảnh, tập. 1, không. 1, trang 21–46.
Meyer, H., Rosdolsky, HG và Huang, TS [1973]. “Mã độ dài chạy tối ưu,”
IEEE Trans. Comm., tập. COM-22, không. 6, trang 826–835.
Minsky, M. và Papert, S. [1969].Perceptrons: Giới thiệu về Hình học tính toán-
etry, Nhà xuất bản MIT, Cambridge, Mass.
Mirmehdi, M. và Petrou, M. [2000]. “Phân đoạn họa tiết màu,” IEEE Trans.
Mẫu Hậu Môn. Máy Intell., tập. 22, không. 2, trang 142–159.
Misiti, M., Misiti, Y., Oppenheim, G. và Poggi, J.-M. [1996]. Hướng dẫn sử dụng Hộp công cụ Wavelet,
The MathWorks, Inc., Natick, Mass.

Mitchell, DP và Netravali,AN [1988].“Bộ lọc tái tạo trong đồ họa máy tính,”
Comp. Đồ họa, tập. 22, không. 4, trang 221–228.
Mitchell, J., Pennebaker, W., Fogg, C. và LeGall, D. [1997]. Tiêu chuẩn nén video MPEG, Chapman &
Hall, New York.
Mitiche, A. [1994]. Phân tích tính toán chuyển động hình ảnh, Nhà xuất bản Perseus, Mới
York.

Mitra, S., Murthy, C. và Kundu, M. [1998]. “Kỹ thuật nén hình ảnh Fractal bằng thuật toán di truyền,”
Giao dịch của IEEE về xử lý hình ảnh, tập. 7, không. 4, trang 586–593.

Mitra, SK và Sicuranza, GL (eds.) [2000]. Xử lý ảnh phi tuyến, học thuật


Báo chí, New York.

Mohanty, S., và cộng sự. [1999]. “Kỹ thuật tạo hình mờ kép cho hình ảnh,” Proc. Hội nghị đa phương
tiện quốc tế ACM lần thứ 7 , ACM-MM'99, Phần 2, trang 49–51.
Moore, GA [1968]. “Quét tự động và các quy trình máy tính để phân tích định lượng các ảnh vi mô và
các đối tượng tương đương,” trong Nhận dạng mẫu hình ảnh, (GC Cheng và cộng sự, chủ biên), trang

275–326, Thomson, Washington, DC


Mukherjee, D. và Mitra, S. [2003]. “Vector SPIHT cho mã hóa hình ảnh và video Wavelet nhúng,” IEEE
Trans. Mạch và Hệ thống Công nghệ Video, tập. 13, không. 3, trang 231–246.
Machine Translated by Google

932 ■ Thư mục

Murase, H. và Nayar, SK [1994]. “Lập kế hoạch chiếu sáng để nhận dạng đối tượng bằng cách sử dụng không

gian riêng tham số,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 16, không. 12, trang 1219–1227.

Murino,V., Ottonello, C., và Pagnan, S. [1998].“Phân loại kết cấu ồn ào: Cao hơn-

Phương pháp thống kê thứ tự,” Pattern Recog., tập. 31, không. 4, trang 383–393.

Nagao, M. và Matsuyama, T. [1980]. Phân tích cấu trúc của quang phổ trên không phức tạp

tographs, Plenum Press, New York.

Najman, L. và Schmitt, M. [1996]. “Mức độ nổi bật trắc địa của các đường viền đầu nguồn và phân đoạn

theo thứ bậc,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 18, không. 12, trang 1163–1173.

Narendra, Thủ tướng và Fitch, RC [1981]. “Tăng cường độ tương phản thích ứng theo thời gian thực,”

IEEE Trans. Mẫu Hậu Môn. Mach. Intell., tập. PAMI-3, không. 6, trang 655–661.

Netravali, AN [1977]. “Về bộ lượng tử hóa để mã hóa tín hiệu hình ảnh DPCM,” IEEE

Dịch. Thông tin. Lý thuyết, tập. CNTT-23, không. 3, trang 360–370.

Netravali,AN và Limb, JO [1980].“Mã hóa hình ảnh: Đánh giá,” Proc. IEEE, tập. 68, không. 3, trang 366–

406.

Nevatia, R. [1982]. Nhận thức về máy móc, Prentice Hall, Upper Saddle River, NJ

Ngân, KN, Meier, T. và Chai, D. [1999]. Mã hóa video nâng cao: Nguyên tắc và

Kỹ thuật, Elsevier, Boston.

Nie, Y. và Barner, KE [2006]. “Phép biến đổi mờ và ứng dụng của nó trong

Xử lý hình ảnh,” IEEE Trans. Hình ảnh Proc., tập. 15, không. 4, trang 910–927.

Nilsson, NJ [1965]. Máy học: Nền tảng của việc phân loại mẫu có thể huấn luyện được

Hệ thống, McGraw-Hill, New York.

Nilsson, NJ [1971]. Phương pháp giải quyết vấn đề trong trí tuệ nhân tạo, McGraw-Hill,
Newyork.

Nilsson, NJ [1980]. Nguyên lý trí tuệ nhân tạo, Tioga, Palo Alto, California.

Nixon, M. và Aguado, A. [2002]. Trích xuất đặc trưng và xử lý ảnh, Newnes,


Boston, MA.

Noble, B. và Daniel, JW [1988]. Đại số tuyến tính ứng dụng, tái bản lần thứ 3, Prentice Hall, Upper
Sông Saddle, NJ

O'Connor,YZ và Fessler, JA [2006].“Các phép chiếu tiến và lùi dựa trên Fourier trong tái tạo hình ảnh

chụp cắt lớp chùm tia hình quạt lặp lại,” IEEE Trans. Med.

Hình ảnh, tập. 25, không. 5, trang 582–589.

Odegard, JE, Gopinath, RA và Burrus, CS [1992]. “Các bước sóng tối ưu để phân tách tín hiệu và sự tồn

tại của các tín hiệu có giới hạn quy mô,” Kỷ yếu của IEEE Int. Conf. Trên Signal Proc., ICASSP-92,

San Francisco, CA, tập. IV, 597–600.

Olkkonen, J. và Olkkonen, H. [2007]. Biến đổi Wavelet mạng rời rạc, IEEE

Dịch. Mạch và Hệ thống II: Tóm tắt nhanh, tập. 54, không. 1, trang 71–75.

Olson, CF [1999]. “Biến đổi Hough ràng buộc để phát hiện đường cong,” Máy tính

Sự hiểu biết về Tầm nhìn và Hình ảnh, tập. 73, không. 3, trang 329–345.

O'Neil, JB [1971]. “Mã hóa Entropy trong các hệ thống PCM vi phân giọng nói và truyền hình,” IEEE

Trans. Thông tin. Lý thuyết, tập. IT-17, trang 758–761.

Oommen, RJ và Loke, RKS [1997]. “Nhận dạng mẫu của chuỗi với các thay thế, chèn, xóa và chuyển vị tổng

quát,” Nhận dạng mẫu, tập. 30, không. 5, trang 789–800.

Oppenheim, AV và Schafer, RW [1975]. Xử lý tín hiệu số, Prentice Hall,

Vách đá Englewood, NJ

Oppenheim, AV, Schafer, RW và Stockham, TG, Jr. [1968]. “Lọc phi tuyến tính của các tín hiệu nhân và

tích hợp,” Proc. IEEE, tập. 56, không. 8, trang 1264–1291.

Oster, G. và Nishijima, Y. [1963]. “Mẫu Moiré,” Khoa học Mỹ, tập. 208, không. 5,

trang 54–63.
Machine Translated by Google

■ Thư mục 933

Otsu, N. [1979]. “Phương pháp lựa chọn ngưỡng từ biểu đồ mức xám,” IEEE
Dịch. Hệ thống, Con người và Điều khiển học, tập. 9, không. 1, trang 62–66.

Hàu, CW [1999]. Mắt người: Cấu trúc và chức năng, Sinauer Associates, Sun-
derland, Thánh lễ.

Paez, MD và Glisson, TH [1972]. “Lượng tử hóa lỗi bình phương trung bình tối thiểu trong hệ
thống PCM và DPCM lời nói,” IEEE Trans. Comm., tập. COM-20, trang 225–230.
Pao, YH [1989]. Mạng lưới thần kinh và nhận dạng mẫu thích ứng, Addison-Wesley,
Đọc, Thánh Lễ.
Papamarkos, N. và Atsalakis, A. [2000]. “Giảm mức xám bằng cách sử dụng các tính năng không gian
cục bộ,” Thị giác máy tính và hiểu hình ảnh, tập. 78, không. 3, trang 336–350.
Papoulis, A. [1991]. Xác suất, Biến ngẫu nhiên và Quy trình ngẫu nhiên, tái bản lần thứ 3,
McGraw-Hill, New York.
Parhi, K. và Nishitani, T. [1999]. “Xử lý tín hiệu số trong hệ thống đa phương tiện,”
Chương 18: Đánh giá về các nguyên tắc và thực tiễn về hình mờ, M. Miller và cộng sự, trang
461–485, Marcel Dekker Inc., New York.
Park, H. và Chin, RT [1995]. “Sự phân hủy cấu trúc hình thái có hình dạng tùy ý,” IEEE Trans.
Mẫu Hậu Môn. Máy Intell., tập. 17, không. 1, trang 2–15.
Parker, JR [1991]. “Ngưỡng mức xám trong hình ảnh được chiếu sáng kém,” IEEE
Dịch. Mẫu Hậu Môn. Máy Intell., tập. 13, không. 8, trang 813–819.
Parker, JR [1997]. Thuật toán xử lý hình ảnh và thị giác máy tính, John Wiley & Sons, New York.

Patrascu, V. [2004]. “Phương pháp tăng cường mờ sử dụng mô hình logarit,” IEEE-
Fuzz'04, tập. 3, trang 1431–1436.
Nhận dạng mẫu [2000]. Vấn đề đặc biệt về hình thái toán học và phi tuyến
xử lý ảnh, tập. 33, không. 6, trang 875–1117.
Pavlidis, T. [1977]. Nhận dạng mẫu cấu trúc, Springer-Verlag, New York.
Pavlidis, T. [1982]. Thuật toán xử lý đồ họa và hình ảnh, Nhà xuất bản Khoa học Máy tính,
Rockville, Md.
Pavlidis, T. và Liow, YT [1990]. “Tích hợp phát triển khu vực và phát hiện cạnh,”
IEEE Trans. Mẫu Hậu Môn. Mach. Intell., tập. 12, không. 3, trang 225–233.
Peebles, PZ [1993]. Xác suất, biến ngẫu nhiên và nguyên tắc tín hiệu ngẫu nhiên, thứ 3
chủ biên, McGraw-Hill, New York.
Pennebaker, WB và Mitchell, JL [1992]. JPEG: Nén dữ liệu ảnh tĩnh Stan-dard, Van Nostrand
Reinhold, New York.
Pennebaker, WB, Mitchell, JL, Langdon, GG, Jr., và Arps, RB [1988]. “Tổng quan về các nguyên tắc
cơ bản của Bộ mã hóa số học nhị phân thích ứng Q-code,” IBM J. Res. Dev., tập. 32, không. 6,
trang 717–726.
Pérez, A. và Gonzalez, RC [1987]. “Thuật toán ngưỡng lặp cho phân đoạn hình ảnh,” IEEE Trans.
Mẫu Hậu Môn. Máy Intell., tập. PAMI-9, không. 6, trang 742–751.
Perona, P. và Malik, J. [1990]. “Phát hiện không gian tỷ lệ và cạnh bằng cách sử dụng khuếch tán
dị hướng,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 7, trang 629–639.
Person, E. và Fu, KS [1977]. “Phân biệt hình dạng bằng cách sử dụng mô tả Fourier,”
IEEE Trans. Hệ thống Man Cyb., tập. SMC-7, không. 2, trang 170–179.
Petrou, M. và Bosdogianni, P. [1999]. Xử lý hình ảnh: Các nguyên tắc cơ bản, John Wiley
& Sons, Vương quốc Anh.

Petrou, M. và Kittler, J. [1991]. “Trình phát hiện cạnh tối ưu cho các cạnh dốc,” IEEE
Dịch. Mẫu Hậu Môn. Máy Intell., tập. 13, không. 5, trang 483–491.
Piech, MA [1990]. “Phân hủy Laplacian,” IEEE Trans. Mẫu Hậu Môn. Máy móc
Intell., tập. 12, không. 8, trang 830–831.

Pitas, I. và Vanetsanopoulos,AN [1990]. Bộ lọc kỹ thuật số phi tuyến: Nguyên tắc và ứng dụng
cation, Nhà xuất bản Học thuật Kluwer, Boston, Mass.
Machine Translated by Google

934 ■ Thư mục

Plataniotis, KN và Venetsanopoulos,AN [2000]. Ứng dụng và xử lý ảnh màu


cation, Springer-Verlag, New York.
Pokorny, CK và Gerald, CF [1989]. Đồ họa máy tính: Các nguyên tắc đằng sau
Nghệ thuật và Khoa học, Franklin, Beedle & Associates, Irvine, California.

Porco, CC, Tây RA, và cộng sự. [2004]. “Khoa học hình ảnh Cassini: Đặc điểm của thiết bị và
các cuộc điều tra khoa học dự kiến tại Sao Thổ,” Tạp chí Khoa học Vũ trụ, tập. 115, trang 363–
497.
Poynton, CA [1996]. Giới thiệu kỹ thuật về video kỹ thuật số, John Wiley & Sons,
Newyork.

Prasad, L. và Iyengar, SS [1997]. Phân tích Wavelet với các ứng dụng xử lý hình ảnh, CRC Press,
Boca Raton, Fla.
Pratt, WK [2001]. Xử lý hình ảnh kỹ thuật số, tái bản lần thứ 3, John Wiley & Sons, New York.
Preparata, FP và Shamos, MI [1985]. Hình học tính toán: Giới thiệu, Springer-Verlag, New York.

Preston, K. [1983]. “Máy tính logic di động để nhận dạng mẫu,” Máy tính, tập. 16, không. 1,
trang 36–47.
Prewitt, JMS [1970]. “Trích xuất và nâng cao đối tượng,” trong Xử lý hình ảnh và Tâm lý học,
Lipkin, BS, và Rosenfeld, A. (eds.), Academic Press, New York.
Prince, JL và Links, JM [2006]. Hệ thống và Tín hiệu Hình ảnh Y tế, Prentice Hall, Upper Saddle
River, NJ.
Principe, JC, Euliano, NR và Lefebre, WC [1999]. Hệ thống thần kinh và thích ứng:
Nguyên tắc cơ bản thông qua mô phỏng, John Wiley & Sons, New York.
Pritchard, DH [1977].“Các nguyên tắc cơ bản về truyền hình màu của Hoa Kỳ—Đánh giá,” IEEE Trans.
Điện tử tiêu dùng, tập. CE-23, không. 4, trang 467–478.
Proc. IEEE [1967]. Số đặc biệt về giảm dư thừa, tập. 55, không. 3.
Proc. IEEE [1972]. Số đặc biệt về xử lý ảnh số, tập. 60, không. 7.
Proc. IEEE [1980]. Số đặc biệt về mã hóa đồ họa, tập. 68, không. 7.
Proc. IEEE [1985]. Số đặc biệt về hệ thống truyền thông hình ảnh, tập. 73, không. 2.
Qian, RJ và Huang,TS [1996].“Phát hiện cạnh tối ưu trong hình ảnh hai chiều,”
IEEE Trans. Xử lý ảnh, tập. 5, không. 7, trang 1215–1220.
Rabbani, M. và Jones, PW [1991]. Kỹ thuật nén ảnh kỹ thuật số, SPIE Press, Bellingham, Wash.

Rajala, SA, Riddle, AN và Snyder, CHÚNG TÔI [1983]. “Ứng dụng Biến đổi Fourier một chiều để
theo dõi các vật thể chuyển động trong môi trường ồn ào,” Comp., Vi-sion, Image Proc., tập.
21, trang 280–293.
Ramachandran, GN và Lakshminarayanan, AV [1971]. “Tái tạo ba chiều từ ảnh chụp X quang và ảnh
vi điện tử: Ứng dụng phép xoắn thay vì biến đổi Fourier,” Proc. Nat. Học viện. Khoa học, tập.
68, trang 2236–2240.
Rane, S. và Sapiro, G. [2001]. “Đánh giá JPEG-LS, Tiêu chuẩn nén ảnh tĩnh không mất dữ liệu và
có kiểm soát mất mát mới, để nén dữ liệu độ cao có độ phân giải cao,” IEEE Trans. Khoa học
địa chất và viễn thám, tập. 39, không. 10, trang 2298–2306.
Rangayyan, RM [2005]. Phân tích hình ảnh y sinh, CRC Press, Boca Raton, FL.
Reddy, BS và Chatterji, BN [1996]. “Kỹ thuật dựa trên FFT để dịch, quay và đăng ký hình ảnh
bất biến theo tỷ lệ,” IEEE Trans. Xử lý ảnh, tập. 5, không. 8, trang 1266–1271.

Regan, Đ.D [2000]. Nhận thức của con người về các đối tượng: Xử lý hình ảnh sớm về dạng không
gian được xác định bởi độ chói, màu sắc, kết cấu, chuyển động và chênh lệch hai mắt, Sin-
auer Associates, Sunderland, Mass.
Gạo, RF [1979]. “Một số kỹ thuật mã hóa không ồn ào phổ biến thực tế,” Tech. Trả lời.
JPL-79-22, Phòng thí nghiệm Động cơ Phản lực., Pasadena, CA.
Machine Translated by Google

■ Thư mục 935

Ritter, GX và Wilson, JN [2001]. Sổ tay thuật toán thị giác máy tính trong
Đại số hình ảnh, CRC Press, Boca Raton, Fla.

Roberts, LG [1965]. “Nhận thức của máy về chất rắn ba chiều,” trong Xử lý thông tin quang học và điện

quang, Tippet, JT (ed.), MIT Press, Cam-bridge, Mass.

Robertson, AR [1977]. “Công thức khác biệt màu sắc CIE 1976,” Độ phân giải màu. ứng dụng,

tập. 2, trang 7–11.

Robinson, GS [1976]. “Phát hiện và mã hóa các cạnh bằng cách sử dụng mặt nạ định hướng,”

Đại học Nam California, Viện xử lý hình ảnh, Báo cáo số. 660.

Robinson, JA [1965].“Logic hướng máy dựa trên nguyên tắc phân giải,”

J. ACM, tập. 12, không. 1, trang 23–41.

Robinson, J. [2006]. “Cây dự đoán thích ứng để nén hình ảnh,” IEEE Trans.

Hình ảnh Proc., tập. 15, không. 8, trang 2131–2145.

Đá, tôi. [1984]. Nhận thức, WH Freeman, New York.

Roese, JA, Pratt, WK và Robinson, GS [1977]. “Biến đổi cosine liên khung

Mã hóa hình ảnh,” IEEE Trans. Comm., tập. COM-25, trang 1329–1339.

Rosenblatt, F. [1959]. “Hai định lý về khả năng phân tách thống kê trong Perceptron,” Trong cơ giới
hóa quá trình tư duy: Proc. của Hội nghị chuyên đề số 10, tổ chức tại Phòng thí nghiệm Vật lý Quốc

gia, tháng 11 năm 1958, Văn phòng Văn phòng phẩm HM, London, tập. 1, trang 421–456.

Rosenblatt, F. [1962]. Nguyên lý của động lực học thần kinh: Perceptron và lý thuyết về

Cơ Chế Não, Spartan, Washington, DC

Rosenfeld, A. (ed.) [1984]. Phân tích và xử lý hình ảnh đa độ phân giải, Springer-Verlag, New York.

Rosenfeld, A. [1999]. “Phân tích hình ảnh và thị giác máy tính: 1998,” Thị giác máy tính

và Hiểu hình ảnh, tập. 74, không. 1, trang 36–95.

Rosenfeld, A. [2000]. “Phân tích hình ảnh và thị giác máy tính: 1999,” Thị giác máy tính

và Hiểu hình ảnh, tập. 78, không. 2, trang 222–302.

Rosenfeld, A. và Kak, AC [1982]. Xử lý ảnh kỹ thuật số, tập. 1 và 2, tái bản lần thứ 2,
Nhà xuất bản học thuật, New York.

Nhựa thông, PL [1997]. “Các kỹ thuật đánh giá xấp xỉ đa giác của các đường cong,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 19, không. 6, trang 659–666.

Rudnick, P. [1966]. “Lưu ý về cách tính chuỗi Fourier,” Math. Máy tính, tập. 20,

trang 429–430.

Rumelhart, DE, Hinton, GE và Williams, RJ [1986]. “Học các biểu hiện nội bộ bằng cách truyền lỗi,”

Trong xử lý phân tán song song: Khám phá cấu trúc vi mô của nhận thức, Tập. 1: Tổ chức, Rumelhart,

DE, et al. (eds.), MIT Press, Cambridge, Mass., trang 318–362.

Rumelhart, DE và McClelland, JL (eds.) [1986]. Xử lý phân tán song song: Khám phá cấu trúc vi mô của
nhận thức, Tập. 1: Tổ chức, Nhà xuất bản MIT, Cambridge, Mass.

Runge, C. [1903]. Thời gian. für Math., và Physik, tập. 48, tr. 433.

Runge, C. [1905]. Thời gian. für Math., và Physik, tập. 53, tr. 117.

Runge, C. và König, H. [1924].“Die Grundlehren der Mathematischen Wissenschaften,”

Vorlesungen iiber Numerisches Rechnen, tập. 11, Julius Springer, Berlin.

Russ, JC [1999]. Sổ tay xử lý hình ảnh, tái bản lần thứ 3, CRC Press, Boca Raton, Fla.

Russo F. và Ramponi, G. [1994].“Khai thác cạnh của các nhà khai thác FIRE,”Fuzz-IEEE '94, tập. 1,

trang 249–243, Nhà xuất bản IEEE, New York.

Sahni, S. và Jenq, J.-F. [1992]. “Các thuật toán nối tiếp và song song để chuyển đổi trục trung gian,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 14, không. 12, trang 1218–1224.
Machine Translated by Google

936 ■ Thư mục

Sahoo, SSPK, Wong, AKC và Chen, YC [1988]. “Khảo sát các kỹ thuật xác định ngưỡng,” Thị giác máy tính, Xử

lý đồ họa và hình ảnh, tập. 41, trang 233–260.

Saito, N. và Cunningham, MA [1990]. “Bộ lọc điện tử tổng quát và ứng dụng của nó để phát hiện cạnh,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 8, trang 814–817.

Sakrison, DJ và Algazi,VR [1971]. “So sánh mã hóa từng dòng và hai chiều của hình ảnh ngẫu nhiên,” IEEE

Trans. Thông tin. Lý thuyết, tập. CNTT-17, không. 4, trang 386–398.

Salari, E. và Siy, P. [1984]. “Phương pháp tìm kiếm sườn núi để thu được khung hình ảnh kỹ thuật số,” IEEE

Trans. Hệ thống. Man Cyb., tập. SMC-14, không. 3, trang 524–528.

Salinas, RA,Abidi, MA, và Gonzalez, RC [1996]. “Hợp nhất dữ liệu: Phát hiện cạnh màu và tái tạo bề mặt

thông qua chính quy hóa,” IEEE Trans. Điện tử công nghiệp, tập. 43, không. 3, trang 355–363, 1996.

Sato, Y. [1992]. “Xấp xỉ tuyến tính từng phần của các đường cong mặt phẳng bằng cách tối ưu hóa chu vi,”

Pattern Recog., tập. 25, không. 12, trang 1535–1543.

Sauvola, J. và Pietikainen, M. [2000]. “Nhị phân hóa hình ảnh tài liệu thích ứng,”

Nhận dạng mẫu, tập. 33, không. 2, trang 225–236.

Schalkoff, RJ [1989]. Xử lý hình ảnh kỹ thuật số và thị giác máy tính, John Wiley &
Con trai, New York.

Schonfeld, D. và Goutsias, J. [1991]. “Khôi phục mô hình hình thái tối ưu từ hình ảnh nhị phân nhiễu,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 13, không. 1, trang 14–29.

Schowengerdt, RA [1983]. Kỹ thuật xử lý và phân loại hình ảnh trong viễn thám, Nhà xuất bản học thuật,

New York.

Schreiber, WF [1956]. “Việc đo lường sự phân bố xác suất bậc ba của

Tín hiệu Truyền hình,” IRE Trans. Thông tin. Lý thuyết, tập. IT-2, trang 94–105.

Schreiber, WF [1967]. “Mã hóa hình ảnh,” Proc. IEEE (Vấn đề đặc biệt về vấn đề dư thừa)

cảm ứng), tập. 55, trang 320–330.

Schreiber,WF và Knapp, CF [1958].“Giảm băng thông TV bằng mã hóa kỹ thuật số,”

Proc. Hội nghị quốc gia IRE, pt. 4, trang 88–99.

Schwartz, JW và Barker, RC [1966]. “Mã hóa mặt phẳng bit: Kỹ thuật mã hóa nguồn,” IEEE Trans. Khí cầu.

Điện. Hệ thống, tập. AES-2, không. 4, trang 385–392.

Selesnick, I., Baraniuk, R. và Kingsbury, N. [2005]. “Biến đổi Wavelet phức hợp cây kép,” Tạp chí xử lý

tín hiệu IEEE, tập. 22, không. 6, trang 123–151.

Serra, J. [1982]. Phân tích hình ảnh và hình thái toán học, Nhà xuất bản Học thuật, New York.

Serra, J. (ed.) [1988]. Phân tích hình ảnh và hình thái toán học, tập. 2, Học thuật
Báo chí, New York.

Sezan, MI, Rabbani, M. và Jones, PW [1989]. “Truyền hình ảnh lũy tiến bằng phương pháp dự đoán/mã hóa dư,”

Opt. Tiếng Anh, tập. 28, không. 5, trang 556–564.

Lán, RV [1964]. “Ảnh hưởng của chuyển động hình ảnh và thao tác cửa trập đối với

Chức năng chuyển ảnh,” Appl. Tùy chọn, tập. 3, trang 1171–1181.

Shafarenko, L., Petrou, M. và Kittler, J. [1998]. “Phân đoạn dựa trên biểu đồ trong không gian màu đồng

nhất về mặt nhận thức,” IEEE Trans. Xử lý ảnh, tập. 7, không. 9, trang 1354–1358.

Shakes, D. và Bruckstein, AM [1998]. “Cắt tỉa các trục trung gian,” Thị giác máy tính và

Sự hiểu biết về hình ảnh, tập. 69, không. 2, trang 156–169.

Shannon, CE [1948].“Một lý thuyết toán học về truyền thông,” The Bell Sys.Tech. J.,

tập. XXVIII, không. 3, trang 379–423.

Shapiro, LG và Stockman, GC [2001]. Thị giác Máy tính, Prentice Hall, Upper Sad-
sông dle, NJ

Shapiro, VA [1996]. “Về sự biến đổi Hough của hình ảnh đa cấp,” Mẫu

Nhận ra, tập. 29, không. 4, trang 589–602.

Shariat, H. và Price, KE [1990]. “Ước tính chuyển động với nhiều hơn hai khung hình,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 5, trang 417–434.
Machine Translated by Google

■ Thư mục 937

Shepp, LA và Logan, BF [1974]. “Tái thiết Fourier của phần đầu,”

IEEE Trans. Hạt nhân. Khoa học, tập. NS-21, trang 21–43.

Sheppard, JJ, Jr., Stratton, RH, và Gazley, C., Jr. [1969]. “Màu giả như một phương tiện nâng cao hình

ảnh,” Am. J. Optom. Vòm. Là. Học viện. Optom., tập. 46, trang 735–754.

Shi, FY và Wong, W.-T. [1994]. “Hoàn toàn song song với khả năng chịu đựng ranh giới

Tiếng ồn,” Nhận dạng mẫu, tập. 27, không. 12, trang 1677–1695.

Shih, FYC và Mitchell, OR [1989]. “Sự phân hủy ngưỡng của hình thái thang xám thành hình thái nhị

phân,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 11, không. 1, trang 31–42.

Shirley, P. [2002]. Nguyên tắc cơ bản của Đồ họa Máy tính, AK Peters, Natick, MA.

Sid-Ahmed, MA [1995]. Xử lý hình ảnh: Lý thuyết, thuật toán và kiến trúc, McGraw-Hill, New York.

Sikora, T. [1997]. “Tiêu chuẩn mã hóa video kỹ thuật số MPEG,” Xử lý tín hiệu IEEE,

tập. 14, không. 5, trang 82–99.

Simon, JC [1986]. Các mẫu và toán tử: Cơ sở biểu diễn dữ liệu, McGraw-Hill, New York.

Sklansky, J., Chazin, RL và Hansen, BJ [1972]. “Đa giác có chu vi tối thiểu của các hình bóng được số

hóa,” IEEE Trans. Máy tính, tập. C-21, không. 3, trang 260–268.

Sloboda, F., Zatko, B., và Stoer, J. [1998]. “Về sự gần đúng của mặt phẳng liên tục một chiều,” trong

Những tiến bộ trong hình học tính toán và kỹ thuật số, R. Klette, A. Rosen-feld và F . Sloboda

(eds.), Springer, Singapore, trang 113–160.

Smirnov, A. [1999].Xử lý tín hiệu đa chiều, Springer-Verlag, New York.

Smith, AR [1978]. “Cặp chuyển đổi gam màu,” Proc. SIGGRAPH '78, đã xuất bản

như Đồ họa máy tính, tập. 12, không. 3, trang 12–19.

Smith, JO, III [2003]. Toán học của phép biến đổi Fourier rời rạc, Nhà xuất bản W3K, CCRMA, Stanford,

CA. (Cũng có sẵn trực tuyến tại http://ccrma.stanford.edu/~jos/ mdft).

Smith, MJT và Barnwell, TP III [1984]. “Quy trình xây dựng ngân hàng bộ lọc tái thiết chính xác cho

bộ mã hóa băng con,” Proc. IEEE quốc tế Conf. Hệ thống âm thanh, lời nói và tín hiệu, San Diego,

California.

Smith, MJT và Barnwell,TP III [1986]. “Các kỹ thuật tái tạo chính xác cho các bộ mã hóa băng con có

cấu trúc dạng cây,” IEEE Trans. Trên Âm thanh, Lời nói và Quá trình Tín hiệu, tập. 34, không. 3,

trang 434–441.

Snyder, CHÚNG TÔI và Qi, Hairong [2004]. Thị giác máy, Nhà xuất bản Đại học Cambridge,
Newyork.

Sobel, IE [1970].“Mô hình máy ảnh và nhận thức về máy,” Ph.D. luận án, Stan-

Đại học Ford, Palo Alto, California

Sonka, M., Hlavac, V. và Boyle, R. [1999]. Xử lý, phân tích và máy ảnh

Tầm nhìn, tái bản lần thứ 2, Nhà xuất bản PWS, New York.

Snyder, CHÚNG TÔI và Qi, Hairong [2004]. Thị giác máy, Nhà xuất bản Đại học Cambridge,
Newyork.

Soille, P. [2003]. Phân tích hình ảnh hình thái: Nguyên tắc và ứng dụng, tái bản lần thứ 2,

Springer-Verlag, New York.

Solari, S. [1997]. Nén video và âm thanh kỹ thuật số, McGraw-Hill, New York.

Stark, H. (ed.) [1987]. Phục hồi hình ảnh: Lý thuyết và ứng dụng, Báo chí học thuật, Mới
York.

Stark, JA [2000]. “Nâng cao độ tương phản hình ảnh thích ứng bằng cách sử dụng tổng quát hóa cân bằng

biểu đồ,” IEEE Trans. Xử lý ảnh, tập. 9, không. 5, trang 889–896.

Stockham, TG, Jr. [1972]. “Xử lý hình ảnh trong bối cảnh của một mô hình trực quan,” Proc.

IEEE, tập. 60, không. 7, trang 828–842.


Machine Translated by Google

938 ■ Thư mục

Storer, JA và Reif, JH, biên tập. [1991]. Kỷ yếu của DDC '91, Hiệp hội máy tính IEEE

ety Press, Los Alamitos, California.

Strang, G. và Nguyễn, T. [1996]. Wavelet và ngân hàng lọc, Wellesley-Cambridge

Báo chí, Wellesley, Mass.

Stumpff, K. [1939]. Tafeln und Aufgaben zur Harmonischen Phân tích và Peri-

odogrammrechnung, Julius Springer, Berlin.

Sussner, P. và Ritter, GX [1997]. “Sự phân hủy các mẫu hình thái thang xám bằng phương pháp xếp hạng,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 19, không. 6, trang 649–658.

Swets, DL và Weng, J. [1996]. “Sử dụng các đặc điểm riêng biệt để truy xuất hình ảnh,” IEEE Trans. Mẫu

Hậu Môn. Máy Intell., tập. 18, không. 8, trang 1831–1836.

Symes, PD [2001]. Nén video được làm sáng tỏ, McGraw-Hill, New York.

Sze,TW và Yang,YH [1981].“Thuật toán khớp đường viền đơn giản,” IEEE Trans.

Mẫu Hậu Môn. Mach. Intell., tập. PAMI-3, không. 6, trang 676–678.

Tanaka, E. [1995]. “Các khía cạnh lý thuyết của nhận dạng mẫu cú pháp,” Mẫu

Nhận ra, tập. 28, không. 7 trang 1053–1061.

Tanimoto, SL [1979]. “Truyền hình ảnh với thông tin tổng thể trước tiên,” Comput.

Quá trình hình ảnh đồ họa, tập. 9, trang 72–76.

Tasto, M. và Wintz, PA [1971]. “Mã hóa hình ảnh bằng lượng tử hóa khối thích ứng,”

IEEE Trans. Liên lạc. Công nghệ, tập. COM-19, trang 957–972.

Tasto, M. và Wintz, PA [1972]. “Giới hạn về hàm biến dạng tỷ lệ và ứng dụng

sao chép vào hình ảnh,” IEEE Trans. Thông tin. Lý thuyết, tập. IT-18, trang 150–159.

Teh, CH và Chin, RT [1989]. “Về việc phát hiện các điểm trội trên các đường cong kỹ thuật số,” IEEE

Trans. Mẫu Hậu Môn. Máy Intell., tập. 11, không. 8, trang 859–872.

Theoridis, S. và Konstantinos, K. [2006]. Nhận dạng mẫu, tái bản lần thứ 3, Nhà xuất bản học thuật,
Newyork.

Thévenaz, P. và Unser, M [2000]. “Tối ưu hóa thông tin lẫn nhau để đăng ký hình ảnh đa độ phân giải,”

IEEE Trans. Xử lý ảnh, tập. 9, không. 12, trang 2083–2099.

Thomas, LH [1963]. “Sử dụng máy tính để giải các bài toán Vật lý”, Ứng dụng của

Máy tính kỹ thuật số, Ginn, Boston.

Thomason, MG và Gonzalez, RC [1975]. “Nhận biết cú pháp của sự không hoàn hảo

Các mẫu được chỉ định, IEEE Trans. Máy tính, tập. C-24, không. 1, trang 93–96.

Thompson, WB (ed.) [1989]. Số đặc biệt về chuyển động thị giác, IEEE Trans. Mẫu Hậu Môn.

Máy Intell., tập. 11, không. 5, trang 449–541.

Thompson,WB và Barnard, ST [1981].“Ước tính và giải thích ở cấp độ thấp hơn

của Chuyển động Trực quan,” Máy tính, tập. 14, không. 8, trang 20–28.

Thorell, LG và Smith, WJ [1990]. Sử dụng màu máy tính hiệu quả, Prentice Hall, Upper Saddle River, NJ

Tian, J. và Wells, RO, Jr. [1995]. Mô men triệt tiêu và xấp xỉ sóng con, Báo cáo kỹ thuật CML TR-9501,

Phòng thí nghiệm toán tính toán, Đại học Rice, Houston, Texas.

Tizhoosh, Nhân sự [2000]. “Cải tiến hình ảnh mờ: Tổng quan,” trong Kỹ thuật mờ trong xử lý hình ảnh, E. Kerre

và M. Nachtegael, biên tập, Springer-Verlag, New York.

Tomita, F., Shirai, Y., và Tsuji, S. [1982]. “Mô tả kết cấu bằng phân tích cấu trúc-sis,” IEEE Trans.

Mẫu Hậu Môn. Mach. Intell., tập. PAMI-4, không. 2, trang 183–191.

Topiwala, PN (ed.) [1998]. Nén hình ảnh và video Wavelet, Nhà xuất bản học thuật Kluwer, Boston, Mass.

Toro, J. và Funt, B. [2007]. “Ràng buộc đa tuyến tính trên các mặt phẳng lưỡng sắc để ước tính độ chiếu

sáng,” IEEE Trans. Hình ảnh Proc., tập. 16, không. 1, trang 92–97.

Tou, JT và Gonzalez, RC [1974]. Nguyên tắc nhận dạng mẫu, Addison-Wesley,

Đọc, Thánh Lễ.


Machine Translated by Google

■ Thư mục 939

Tourlakis, GJ [2003]. Các bài giảng về Logic và Lý thuyết tập hợp, Nhà xuất bản Đại học Cambridge,
Cambridge, Vương quốc Anh.

Toussaint, GT [1982]. “Các vấn đề hình học tính toán trong nhận dạng mẫu,”
Trong Lý thuyết và ứng dụng nhận dạng mẫu, Kittler, J., Fu, KS và Pau, LF (eds.), Reidel, New
York, trang 73–91.
Tsai, J.-C., Hsieh, C.-H và Hsu, T.-C. [2000]. “Thuật toán lượng tử hóa vectơ trạng thái hữu hạn
động mới để nén hình ảnh,” IEEE Trans. Xử lý ảnh, tập. 9, không. 11, trang 1825–1836.

Tsujii, O., Freedman, MT và Mun, KS [1998]. “Nén dải động dựa trên vùng giải phẫu cho chụp X
quang ngực bằng cách sử dụng biến đổi cong vênh của phân bố liên quan đến Cor,” IEEE Trans.
Hình ảnh y tế, tập. 17, không. 3, trang 407–418.
Udpikar,VR và Raina, JP [1987].“Mã hóa hình ảnh BTC bằng cách sử dụng lượng tử hóa vectơ,”
IEEE Trans. Comm., tập. COM-35, không. 3, trang 352–356.
Ueda, N. [2000]. “Sự kết hợp tuyến tính tối ưu của các mạng thần kinh để cải thiện hiệu suất phân
loại,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 22, không. 2, trang 207–215.

Ullman, S. [1981]. “Phân tích chuyển động thị giác bằng hệ thống sinh học và máy tính,”
Máy tính IEEE, tập. 14, không. 8, trang 57–69.
Umbaugh, SE [2005]. Hình ảnh máy tính: Phân tích và xử lý hình ảnh kỹ thuật số, CRC
Báo chí, Boca Raton, FL.

Umeyama, S. [1988]. “Phương pháp tiếp cận phân rã riêng đối với các vấn đề khớp đồ thị có trọng
số,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 10, không. 5, trang 695–703.
Unser, M. [1995]. “Phân loại và phân đoạn kết cấu bằng cách sử dụng khung Wavelet,”
IEEE Trans. về Xử lý hình ảnh, tập. 4, không. 11, trang 1549–1560.
Unser, M., Aldroubi, A. và Eden, M. [1993]. “Một họ Wavelet Spline đa thức
Biến đổi,” Signal Proc., tập. 30, không. 2, trang 141–162.
Unser, M., Aldroubi, A. và Eden, M. [1993]. “Xử lý tín hiệu B-Spline, Phần I và II,” IEEE Trans.
Tín hiệu Proc., tập. 41, không. 2, trang 821–848.
Unser, M., Aldroubi, A. và Eden, M. [1995]. “Phóng to hoặc thu nhỏ hình ảnh kỹ thuật số với mức
độ mất thông tin tối thiểu,” IEEE Trans. Xử lý ảnh, tập. 4, không. 5, trang 247–257.

Vaidyanathan, PP và Hoàng, P.-Q. [1988].“Cấu trúc mạng để thiết kế tối ưu và triển khai mạnh mẽ
các ngân hàng lọc tái thiết hoàn hảo hai kênh,” IEEE Trans. Âm thanh, Lời nói và Tín hiệu
Proc., tập. 36, không. 1, trang 81–94.
Vailaya, A., Jain, A. và Zhang, HJ [1998]. “Về phân loại hình ảnh: Hình ảnh thành phố so với hình ảnh thành phố”.

Phong cảnh,” Pattern Recog., tập. 31, không. 12, trang 1921–1935.
Vetterli, M. [1986]. “Các ngân hàng lọc cho phép tái thiết hoàn hảo,” Signal Proc., tập.
10, không. 3, trang 219–244.

Vetterli, M. và Kovacevic, J. [1995]. Mã hóa Wavelet và Suband, Prentice Hall,


Vách đá Englewood, NJ
Vincent, L. [1993]. “Tái tạo thang độ xám hình thái trong phân tích hình ảnh: Các ứng dụng và
thuật toán hiệu quả,” IEEE Trans. Hình ảnh Proc., tập. 2. không. 2, trang 176–201.
Voss, K. và Suesse, H. [1997]. “Sự phù hợp bất biến của các vật thể phẳng theo nguyên thủy,”
IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 19, không. 1, trang 80–84.
Vuylsteke, P. và Kittler, J. [1990]. “Ghi nhãn cạnh bằng cách sử dụng tính năng thư giãn dựa
trên từ điển,” IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 12, không. 2, trang 165–181.
Walsh, JWT [1958]. Đo quang, Dover, New York.
Wang, D., Zhang, L., Vincent, A. và Speranza, F. [2006]. “Biến đổi Wavelet cong để mã hóa hình
ảnh,” IEEE Trans. Hình ảnh Proc., tập. 15, không. 8, trang 2413–2421.
Wang, G., Zhang, J. và Pan, G.-W. [1995]. “Giải các bài toán ngược trong xử lý ảnh bằng cách mở
rộng Wavelet,” IEEE Trans. Xử lý ảnh, tập. 4, không. 5, trang 579–593.
Machine Translated by Google

940 ■ Thư mục

Wang, Y.-P., Lee, SL, và Toraichi, K. [1999]. “Sự phản hồi lại hình dạng dựa trên độ cong đa cấp bằng

cách sử dụng Wavelets b-Spline,” IEEE Trans. Xử lý ảnh, tập. 8, không. 11, trang 1586–1592.

Wang, Z., Rao, KR và Ben-Arie, J. [1996]. “Phát hiện cạnh dốc tối ưu bằng cách sử dụng kết hợp mở rộng,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 18, không. 11, trang 1092–1097.

Watt, A. [1993]. Đồ họa máy tính 3D, tái bản lần thứ 2, Addison-Wesley, Reading, Mass.

Wechsler [1980]. “Phân tích kết cấu—Một cuộc khảo sát,” Signal Proc., tập. 2, trang 271–280.

Wei, D., Tian, J., Wells, RO, Jr., và Burrus, CS [1998]. “Một loại hệ thống sóng con trực giao mới để

mã hóa biến đổi hình ảnh,” IEEE Trans. Xử lý ảnh, tập. 7, không. 7, trang 1000–1013.

Weinberger, MJ, Sroussi, G. và Sapiro, G. [2000]. “Thuật toán nén hình ảnh không mất dữ liệu LOCO-I:

Nguyên tắc và tiêu chuẩn hóa thành JPEG-LS,” IEEE Trans. Xử lý ảnh, tập. 9, không. 8, trang 1309–1324.

Westenberg, MA và Roerdink, JBTM [2000]. “Kết xuất khối lượng miền tần số bằng biến đổi tia X Wavelet,”

IEEE Trans. Xử lý ảnh, tập. 9, không. 7, trang 1249–1261.

Weszka, JS [1978]. “Khảo sát các kỹ thuật lựa chọn ngưỡng,” Comput. đồ họa

Hình ảnh Proc., tập. 7, trang 259–265.

White, JM và Rohrer, GD [1983]. “Ngưỡng hình ảnh để nhận dạng ký tự quang học và các ứng dụng khác yêu

cầu trích xuất hình ảnh ký tự,” IBM J. Res. Phát triển, tập. 27, không. 4, trang 400–411.

Widrow, B. [1962]. “Tổng quát hóa và lưu trữ thông tin trong mạng lưới các tế bào thần kinh 'Adaline',”

Trong Hệ thống tự tổ chức 1962, Yovitz, MC, et al. (eds.), Spartan, Washington, DC, trang 435–461.

Widrow, B. và Hoff, ME [1960]. “Mạch chuyển mạch thích ứng,” Hồ sơ Công ước IRE WESCON năm 1960, Phần

4, trang 96–104.

Widrow, B. và Stearns, SD [1985]. Xử lý tín hiệu thích ứng, Prentice Hall, Tiếng Anh-
Vách đá gỗ, NJ

Wiener, N. [1942]. Phép ngoại suy, nội suy và làm mịn chuỗi thời gian cố định,

Nhà xuất bản MIT, Cambridge, Mass.

Wilburn, JB [1998]. “Sự phát triển trong các bộ lọc thứ tự xếp hạng tổng quát,” J. Opt. Sóc.

Amer.-A. Quang học, Khoa học hình ảnh và Tầm nhìn, tập. 15, không. 5, trang 1084–1099.

Windyga, PS [2001]. “Loại bỏ tiếng ồn xung động nhanh,” IEEE Trans. Xử lý ảnh, tập. 10, không. 1, trang

173–179.

Wintz, PA [1972]. “Chuyển đổi mã hóa hình ảnh,” Proc. IEEE, tập. 60, không. 7, trang 809–820.

Witten, IH, Neal, RM và Cleary, JG [1987]. “Mã hóa số học cho dữ liệu

áp lực,” Comm. ACM, tập. 30, không. 6, trang 520–540.

Wolberg, G. [1990]. Biến dạng hình ảnh kỹ thuật số, Nhà xuất bản Hiệp hội Máy tính IEEE, Los Alamitos,
CA.

Wolff, RS và Yaeger, L. [1993]. Hình dung các hiện tượng tự nhiên, Springer-Verlag,
Newyork.

Thắng, CS và Gray, RM [2004]. Xử lý ảnh ngẫu nhiên, Kluwer Academic/


Nhà xuất bản Plenum, New York.

Woods, JW và O'Neil, SD [1986]. “Mã hóa băng tần con của hình ảnh,” IEEE Trans. Âm thanh.

Tiến trình tín hiệu giọng nói, tập. ASSP-35, không. 5, trang 1278–1288.

Rừng, RE và Gonzalez, RC [1981]. “Cải tiến hình ảnh kỹ thuật số theo thời gian thực,”

Proc. IEEE, tập. 69, không. 5, trang 643–654.

Xu, Y., Weaver, JB, Healy, DM, Jr., và Lu, J. [1994]. “Bộ lọc miền biến đổi Wavelet: Kỹ thuật lọc tiếng

ồn có chọn lọc theo không gian,” IEEE Trans. Xử lý hình ảnh, tập. 3, không. 6, trang 747–758.
Machine Translated by Google

■ Thư mục 941

Xu, R., Pattanaik, S., và Hughes, C. [2005]. “Mã hóa ảnh tĩnh phạm vi động cao ở JPEG 2000,” Ứng dụng

và đồ họa máy tính của IEEE, tập 25, không. 6, trang 57–64.

Yachida, M. [1983]. “Xác định bản đồ vận tốc theo các vùng lân cận không gian-thời gian từ chuỗi hình

ảnh,” Comput. Vis. Đồ thị. Hình ảnh Proc., tập. 21, không. 2, trang 262–279.

Yamazaki, Y., Wakahara, Y. và Teramura, H. [1976]. “Thiết bị fax kỹ thuật số 'FAX nhanh' sử dụng kỹ thuật

giảm dư thừa mới,” NTC '76, trang 6.2-1–6.2-5.

Yan, Y. và Cosman, P. [2003]. “Nén hình ảnh văn bản nhanh chóng và hiệu quả

với JBIG2,” IEER Trans. Hình ảnh Proc., tập. 12, không. 8, trang 944–956.

Yang, X. và Ramchandran, K. [2000]. “Mã hóa video Wavelet có thể mở rộng bằng cách sử dụng bù chuyển

động phân cấp giảm bí danh,” IEEE Trans. Xử lý ảnh, tập. 9, không. 5, trang 778–791.

Yates, F. [1937]. “Thiết kế và phân tích các thí nghiệm giai thừa,” Cục Nông nghiệp Khối thịnh vượng

chung, Farnam Royal, Burks, Anh.

Yin, PY, Yin, LH và Chen, LH [1997]. “Sơ đồ lặp lại nhanh cho các phương pháp ngưỡng đa cấp,” Xử lý tín

hiệu, tập. 60, trang 305–313.

Yitzhaky, Y., Lantzman, A. và Kopeika, NS [1998]. “Phương pháp trực tiếp để khôi phục hình ảnh bị mờ do

chuyển động,” J. Opt. Sóc. Amer.-A. Quang học, Khoa học hình ảnh và Tầm nhìn, tập. 15, không. 6,

trang 1512–1519.

Bạn, J. và Bhattacharya, P. [2000]. “Lược đồ đối sánh hình ảnh từ thô đến mịn dựa trên Wavelet trong

môi trường máy ảo song song,” IEEE Trans. Xử lý ảnh, tập. 9, không. 9, trang 1547–1559.

Yu, D. và Yan, H. [2001]. “Xây dựng lại các chữ số viết tay bị hỏng dựa trên

Hình thái học cấu trúc,” Mẫu Recog., tập. 34, không. 2, trang 235–254.

Yu, SS và Tsai, WH [1990]. “Thuật toán làm mỏng mới cho hình ảnh thang màu xám,”

Nhận dạng mẫu, tập. 23, không. 10, trang 1067–1076.

Yuan, M. và Li, J. [1987]. “Hệ thống sản xuất để giải phẫu chip LSI,” Pattern Recog. Thư, tập. 5,

không. 3, trang 227–232.

Zadeh, LA [1965]. “Tập mờ,” Thông báo. và Kiểm soát, tập. 8, trang 338–353.

Zadeh, LA [1973]. “Phác thảo phương pháp tiếp cận mới để phân tích các hệ thống phức tạp và quy trình

ra quyết định,” IEEE Trans. Hệ thống, Người đàn ông, Cyb., tập. SMC-3, không. 1, trang 28–44.

Zadeh, LA [1976]. “Phương pháp tiếp cận thuật toán mờ để định nghĩa phức tạp hoặc

Những khái niệm không chính xác,” Int. J. Nghiên cứu về con người-máy móc, tập. 8, trang 249–291.

Zahara, E., Shu-Kai, S. và Du-Ming, T. [2005].“Đa ngưỡng tối ưu bằng cách sử dụng phương pháp tối ưu

hóa Hy-brid,” Thư nhận dạng mẫu, tập. 26, không. 8, trang 1082–1095.

Zahn, CT và Roskies, RZ [1972]. “Bộ mô tả Fourier cho các đường cong kín trong mặt phẳng,”

IEEE Trans. Máy tính, tập. C-21, không. 3, trang 269–281.

Zhang, TY và Suen, CY [1984]. “Một thuật toán song song nhanh để làm mỏng dữ liệu kỹ thuật số

nhạn biển,” Comm. ACM, tập. 27, không. 3, trang 236–239.

Zhang, Y. và Rockett, PI [2006]. “Điểm hoạt động Bayes của Canny Edge

Máy dò, IEEE Trans. Hình ảnh Proc., tập. 15, không. 11, trang 3409–3416.

Zhu, H., Chan FHY, và Lam, FK [1999]. “Nâng cao độ tương phản hình ảnh bằng cách cân bằng biểu đồ cục

bộ bị ràng buộc,” Thị giác máy tính và hiểu biết về hình ảnh, tập. 73, không. 2, trang 281–290.

Zhu, P. và Chirlian, PM [1995]. “Về việc phát hiện điểm tới hạn của các hình dạng kỹ thuật số,”

IEEE Trans. Mẫu Hậu Môn. Máy Intell., tập. 17, không. 8, trang 737–748.

Zimmer, Y., Tepper, R., và Akselrod, S. [1997]. “Một phương pháp cải tiến để tính toán vỏ lồi của một

hình dạng trong một hình ảnh nhị phân,” Pattern Recog., tập. 30, không. 3, trang 397–402.

Ziou, D. [2001]. “Ảnh hưởng của hướng cạnh đến việc ước tính độ tương phản của cạnh

và Định hướng,” Pattern Recog., tập. 34, không. 4, trang 855–863.


Machine Translated by Google

942 ■ Thư mục

Ziv, J. và Lempel, A. [1977]. “Thuật toán phổ quát để nén dữ liệu tuần tự,” IEEE Trans. Thông tin. Lý

thuyết, tập. CNTT-23, không. 3, trang 337–343.

Ziv, J. và Lempel, A. [1978]. “Nén các chuỗi riêng lẻ thông qua mã hóa tốc độ thay đổi,” IEEE Trans.

Thông tin. Lý thuyết, tập. CNTT-24, không. 5, trang 530–536.

Zucker, SW [1976]. “Phát triển khu vực: Tuổi thơ và tuổi thiếu niên,” Comput. đồ thị-

ics Hình ảnh Proc., tập. 5, trang 382–399.

Zugaj, D. và Lattuati, V. [1998]. “Phương pháp tiếp cận mới về phân đoạn hình ảnh màu dựa trên đầu ra

phân đoạn cạnh và vùng hợp nhất,” Pattern Recog., tập. 31, không. 2, trang 105–113.
Machine Translated by Google

Mục lục

A Hình ảnh cơ sở. Xem Các hàm cơ bản xấp xỉ đa giác, biểu diễn 801–808, 795–

Hình ảnh chênh lệch tích lũy (ADI), 779–


Phân 815 phân đoạn, 810–812 chữ
loại Bayes, bộ phân loại ký, 808–810 số hình
780 Ánh sáng tiêu sắc
874–882, hàm dạng, 816–817 khoảnh
(đơn sắc), 45, 396 Hình ảnh âm thanh, Thu nhận
20–22.
quyết định 873, quy tắc quyết khắc thống kê của, 821–822
định 874–876, công
Xem Thu thập hình ảnh Xác suất
thức 742, 744 Độ sáng, 39–43, 45, 396, 398
phụ thuộc ngữ cảnh thích ứng, 550–551 Bộ lọc

thích ứng. Xem Bộ lọc không gian Hàm


Khung hai chiều (khung B), 590 Hình ảnh sự thích ứng của mắt người, 39–43

chi phí cộng, 515 Độ cộng,


nhị phân, 68, 628 ánh sáng màu và, 45, 396 xử lý

73, 344 Sự kề cận của pixel, 68–69 Phép biến


đường viền theo sau, 796 hình ảnh màu và, 396, 398 chủ quan, 39–

đổi Affine, 87–89. Xem thêm Các phép ranh giới, 70 nén, 40
554, 562 phép toán logic trên, Bộ lọc Butterworth
biến đổi hình học
83 phép toán hình thái trên, bandpass, 294, 336
628–664 phân đoạn và, 443, 696, 726, bandreject, 294, 335
774 Cây highpass (BHPF), 284–285
nhị phân, 510 Tính trực giao sinh học, 470 lowpass (BLPF), 273–276, 351
Mã hóa mặt phẳng bit, notch, sử dụng
Tập hợp các tập mờ, 182, 185
Bí danh, lọc 217–219, 228–235 562– 566 Cắt mặt phẳng làm sắc nét 295, 337, làm mịn

và nội suy hình ảnh 218, bit, Tốc độ 117 bit, 537 Bit, 30, 284–285 bằng cách sử dụng, 273–276
58–59, 60 Giải mã mù, 346
229 và
điểm, 37 Khớp
lấy mẫu lại và, 230–233 mẫu
khối, Mã hóa chuyển Máy dò cạnh C Canny, sản phẩm 719–725
moiré và, 233–235 không gian,
đổi
229 thời Descartes, 57, 181, 665 CAT. Xem Chụp
khối 590–591, phân bổ 566– cắt lớp điện toán Đục thủy tinh thể, 37
gian, 229
584 bit mảng CCD, 38,
Bộ lọc trung bình được cắt bớt alpha, 327–330
cho, nén 574–579 JPEG và , 579– 50, 59, 313, 392, 451 CCITT, nén 538 CCITT,
Ngân hàng bộ lọc phân tích, 470, 503–504
584 lựa chọn biến đổi cho, kích thước ảnh Mã chuỗi 556–
Cây phân tích, gói wavelet, 510–514
con 567–573 và, triển khai ngưỡng 559, Khoảng cách bàn cờ 798–801, 71
Khử răng cưa, 218, 229
573–574, triển khai vùng 577–579, Làm mờ Ánh sáng màu (màu), 45, 396
Hệ số xấp xỉ, 472, 486, 489
576–577. Xem Lọc nén BMP, 538, 541, 554 Đường Sơ đồ màu sắc , 399–400 Khoảng
viền 70. Xem thêm Xóa ranh giới, cách khối thành phố, 71 Phân loại Bayes,
Kim tự tháp gần đúng, 464–466
663–664 theo sau, 796–798 bên trong, 70 bên khoảng cách tối thiểu 874–882, mạng lưới
Mã hóa số học, 548–551
ngoài, 70 Chuyển đổi mũ dưới, 672–674 thần kinh 866–869, thống kê
Đơn vị logic số học (ALU), 29
Ranh giới. Xem thêm Đường tối ưu 882–
Bộ lọc trung bình số học, 322
viền, Định nghĩa mô tả khu vực, 70 mã 902, xác suất 872–
Các phép toán số học, 74–80
chuỗi, 798 độ cong, 815–816 phân tách, 882 và, cấu trúc 873–874, 903–906
Hoạt động mảng, 72–73
Tự tương quan, 353 810–812 mô tả, 815–822 Đóng cửa, 635–639 , 668–670,

Ma trận tự tương quan, 599 phát hiện để phân đoạn, 677 hình thái thang màu xám và, 668–
đường kính 670, 677 hoạt động hình thái
Nén AVS, 538, 541
725–738, của, tái tạo 635–639,
độ lệch tâm 815, liên kết cạnh 815 và, 725 –738 bằng mô hình màu 677 CMY, mô hình màu
B trích xuất, 189, 642–643 theo sau, 402, 406–407 CMYK, 402, 407 Mã. Xem
Tuyên truyền ngược, huấn luyện mạng 796–798 bộ mô tả Fourier thêm Số học nén,
lưới thần kinh bởi 892–899 cho, độ dài 818– khối 548–551, trang điểm 543 CCITT, kết thúc
Bối cảnh, 70, 83 821, thuật toán theo 912 CCITT, 911 Elias gamma,
Chiếu ngược, 363–365 được dõi ranh giới 815 Moore, 547 Golomb, 544–548 Gray, 563 Huffman,
lọc bằng quạt, 381–387 796–797 pixel, 70–71 542–544 JPEG mặc định AC, 913–914
được lọc, 375–378, 381–387
JPEG mặc định DC, 913 tức thời,
hiệu ứng hào quang làm mờ từ, 363–365 chiều dài 543, 527
được lọc chùm tia song song, 375–381
Các chức năng giới hạn băng tần, 214–217,
227–228

Bộ lọc thông dải, 294, 336, 390


Bộ lọc loại bỏ dải tần, 294, 335, 390
Hệ thống cáp Bartlane, 3–4
Các hàm cơ bản, 477, 567, 570–571
DCT, 569
Haar, sử
dụng chuỗi mở rộng 474, 477
Walsh-Hadamard, 568

943
Machine Translated by Google

944 ■ Mục lục

Mã (tiếp theo) công thức cho, xử lý biểu Các thùng chứa để nén hình ảnh, 538–540, 541

Mã hóa MH (Huffman đã sửa đổi), đồ 426–429 cho, 438–439 cấu hình cho, Biến đổi sóng
555 cắt 433–434, phạm vi con liên tục (CWT), tỷ lệ và dịch thuật

MMR (ĐỌC sửa đổi đã sửa đổi), 556 âm 431–433 cho, 491–493, 491 tiêu

MR (ĐỌC sửa đổi), 434–436 chí chấp nhận, 491 Đường viền. Xem

556 nhị phân tự nhiên, 528 READ (chỉ Ủy ban Quốc tế de l'Eclairage (CIE), Đường viền, Bộ lọc trung bình

định địa chỉ phần tử 397, 399–400, 434 Contraharmonic Biên, Độ tương phản 323–

tương đối), 556 Rice, 545 ký hiệu, 527 đơn 325, 2, 58, 78, 97, 120, 186, 847.

phân, 544 có thể Hỗ trợ nhỏ gọn, 481


giải mã duy Số phức, 202–203 Xem thêm Cải tiến cục bộ,

nhất, 543 độ dài Nén, 27, 454–455, 525–626 mã hóa số 758 trung

thay đổi, 529 học, mã hóa mặt phẳng bit 548– bình, 77, 117 thước

từ, 527 Codec , 536 Mã hóa, 466– 551, mã hóa biến đổi khối đo, 828, 832–834 đồng thời, 41

473, 527, 528–530, 540, 562–566, 566–584 kéo dài, 106, 115,

542–614. Xem BMP, 554 116 Điểm kiểm soát, 90 Định


thêm Các CCITT, 555–559 dự nghĩa thân lồi, 647

phương pháp nén để nén hình ảnh, dự phòng phòng mã hóa, 527, 528–529 hình ảnh trích xuất, 647–

540, 542–614, băng con 527, 528–530, dựa màu, 454–455 vùng chứa 649 để mô tả, 810–

trên ký hiệu 466–473 (hoặc dựa trên mã cho, 538–540, 541 tiêu chí về 812 Lồi thiếu, 647 Tích

thông báo), sóng độ trung thực, 534–536 chập bằng lọc kỹ thuật số, 467

con trực giao sinh học 559–562 định dạng cho, 538–540, 541 vòng tròn, 223, 249 bộ lọc,
Cohen-Daubechies- nguyên tắc cơ bản của, 526–540 150 tích phân,

Feauveau, 518–519 Màu nguyên tắc cơ bản, Mã hóa Golomb, 544–548 345 hạt nhân, 150 mặt nạ,
395 gam Mã hóa Huffman, 542–544 150 liên tục không
màu, 400 mô hình, 401–414 trình duyệt thông tin không liên quan và, 527, gian, 209–

an toàn, 404 RGB an toàn, 404 an toàn 530–531 10, 411 rời rạc
(Web), JBIG-2, 561–566 không gian,

404 Xử lý hình ảnh màu, JPEG, 579–584 định lý 146–

sơ đồ màu sắc JPEG-2000, 607–613 150, 210, 249, 254, 263, 345, 379, 789,
394–460, hiệu chỉnh Mã hóa Lempel-Ziv-Welch (LZW), 870 Ma trận đồng xuất hiện,
màu 399–400, “độ dốc” 551–553 830–836 Vòng tương quan, hệ số 254, 620,

433 màu, mô hình ánh xạ và, 530, 537–538 thông tin 870 mô tả, 831,

449 CMY , 402, 406– đo lường cho, 531–534 phương pháp của, 540, 834 so khớp theo, 869–872 không gian,

407 Mô hình CMYK, cắt màu 402, 407, nén 431 542–614 mô hình cho, 536–538 định lý 146–

và phát hiện cạnh 454–455, xử lý đầy đủ MPEG-4 AVC (hoặc H.264), 150, 255 Điều

màu sắc 447, xử lý biểu đồ mã hóa dự đoán 594–596, lượng tử hóa 584–603 biến chéo, 470 CT. Xem

394, 424–426, mô hình 438 và, tỷ lệ 531, 537–538, 596–598, Chụp cắt lớp vi tính Tần
HSI, cắt cường độ 402, 407–414 , 602–603, mã hóa độ dài chạy 526–527, dự số cắt, 270
415 cường độ sang màu sắc, 418 phòng không gian 553–

kiểu cho, 401–414 559, tiêu chuẩn

nhiễu trong, 451–454 giả màu, 394, 527, 529–530 cho, 538–540, 541 mã

414–424 kiểu RGB, 401– hóa dựa trên ký hiệu, 559 –562 dự phòng

402, phân đoạn 402–406, làm sắc nét 445–450, tạm thời, 527, 529–530 mã hóa

làm mịn 442–443, 439 –442 phép wavelet, 604–614 Các thành phần của hệ
biến đổi trong, 426–439 hệ số ba thống xử lý hình ảnh, 28–30 Chụp
D
màu, 399 phép biến đổi cắt lớp Xây dựng đập cho lưu vực sông, 772–774
màu, 426–439 vòng tròn màu vi tính (CT), 6, 11, 49, 312,
cho, 430 hệ thống quản lý 362–387 Chụp cắt lớp trục vi tính (CAT). Nén dữ liệu, 526. Xem thêm Vùng chết
màu (CMS) cho, 433–437 Xem Chụp cắt lớp nén, 607 Số thập
bổ sung, 430–431 hiệu chỉnh màu điện toán Định nghĩa thành phần được kết nối, phân, 231 Hàm quyết
sắc và tông màu, 433–437 69 mô tả, trích xuất định, 866 Bề mặt

823–827, 645–647, 685 phân đoạn, 764, 772 quyết định, độ phức tạp của,

Các pixel được kết nối, 69 899–902 Giải mã, 536, 538 Mã hóa Huffman
Tập hợp được và, 543

kết nối, 69 Lọc bình phương giải nén hình ảnh và,
tối thiểu bị 536, 538 bộ ánh xạ nghịch đảo
ràng buộc, 357–361 cho, 538 bộ giải mã ký hiệu cho, 538
Phân

tách, 515–518, 606–607 phân


đoạn ranh giới từ, 810–812
Machine Translated by Google

■ Chỉ số 945

lựa chọn mức độ mã hóa wavelet, 606– Phương trình giãn nở, 482 biến đổi wavelet và, 504–505, 507–508
607 Biến đổi cosine rời rạc (DCT), 569. Xem

cây trong các gói wavelet, 515–518 thêm giá trị trung bình giao điểm 0, 159, 703, 717
wavelet và, 515–518, 606–607 Chương nén JPEG Biến Phát hiện cạnh, 447–450,
trình Vệ tinh Khí tượng Quốc phòng đổi Fourier rời rạc (DFT), tích chập tròn 700–725. Xem thêm Cạnh
(DMSP), 15 Giải mờ, 182– 246, 253. Xem Tương quan vòng phát hiện ranh giới, 725
183, 185 Suy thoái. Xem thêm Ước tròn tích chập. Xem mối tương Máy dò cạnh Canny, 719–725
tính khôi phục, 346–350 tuyến tính, bất quan đạo hàm,

biến vị trí, mô hình 343– 158–162, 693–694 liên kết cạnh, 725–

346, 312–313 Điều chế Delta (DM), 597–598 738 âm tính giả, 722 dương
Khử nhiễu, 312, 508 đạo hàm của, 202–213 Biến tính giả, 722 gradient,
Đạo hàm. Xem thêm gradient, bậc một đổi Fourier nhanh (FFT), triển khai 299– 165, 449, 601, 671,
Laplacian, 158–160, bậc 303, phần

hai 693, 158–160, 693 Mô tả, diện đệm 298–303, 251–253 cặp, 1-D, 706–714. Xem thêm Độ dốc và

tích 815– 236 chu kỳ, góc pha ngưỡng gradient, 713 ngưỡng trễ, 722
855, hình chữ nhật cơ bản 237–239, 245, 253 Laplacian của Gaussian (LoG),
815, ranh giới 815, tỷ lệ hình biểu diễn cực, 253 thuộc

tròn 815, độ nén 822, tính , 236–253 khả năng 715


đường kính phân tách, 254 phổ, 207, 226, Máy dò cạnh Marr-Hildreth, 714–719 kiểu

822, độ lệch tâm 815, 245, 253 thuộc tính đối máy, 700–

815 Euler số, xứng, 242 hai chiều, 706 triệt tiêu không cực

823 mô tả Fourier, 818 235–236 đệm 0, lỗi bao quanh 251– đại, 721 Máy dò cạnh Prewitt, 708–710,

bất biến mô men, 839 252, 250 Biến đổi sóng con rời 787 cạnh dốc, 693–695, 700 máy dò Roberts,
chu vi, 822 rạc (DWT), 488–490, 502. Xem thêm 167,

thành phần chính, Wavelet 708 cạnh mái, 693, 701–702 Bộ dò


842 khu vực. Xem Mô tả biên Sobel, 166–168, 708–710, 788

khu vực quan hệ, 852 số hình hiệu ứng spaghetti, 717 bộ lọc
dạng, 816 khoảnh khắc thống không gian và, 695 cạnh

kê, 821 kết cấu, bước, 693–695, 700 dựa trên

827–839 tôpô, 823 Khử nhiễu, 508 Phân tích phân biệt (quyết định), sóng con, phổ Điện từ (EM)

Hệ số chi tiết (ngang, dọc và chéo), 472, 862–863, 866 507–508, 2, 7–20, 43 –46 bức
486, 489 Điều chế Thước đo khoảng cách, 71–72, 92–93, xạ gamma, 8–9, 45–46 hình ảnh

mã xung vi sai (DPCM), 445, 762–763, 809, 815, trong, 7–20 tầm quan trọng của,

599 –602 Bộ lọc kỹ thuật số. 866–869, 877, 903 2 vùng hồng ngoại, 12–18, 46 ánh sáng và, 43–
Xem Bộ lọc hình ảnh, Số chấm (pixel) 46 dải vi

định nghĩa, 1 Xử trên mỗi inch (DPI), 59, 234, 559 sóng, 18–20, 45, 46 dải vô tuyến,

lý ảnh kỹ thuật trên mỗi đơn vị khoảng cách, 59 20 , 45, 46 nguồn

số. Xem thêm Hình ảnh được xác định, Lấy mẫu xuống, 464–465 hình ảnh từ, 7–8 đơn

1–3 trường, 7–25 nguyên tắc cơ bản Sở KHĐT, 59, 234, 559 vị, 44, 45 dải nhìn thấy, 12–18,
của, 35– Nén DV, 538, 540 44–45 tia X, 9–11,

103 quy trình cấp cao của, 2 lịch sử, 3–7 Dải động, 57–58 45–46 Chụp cắt lớp vi tính chùm tia điện

nguồn gốc của, 3–7 cảm tử, 367 Kính hiển vi điện

biến tử, 7, 20, 46, 115, 142, 256 Mã


cho, 28, 46–51 bước gamma Elias, Mã

trong, 25–28 Lọc tín hiệu E Cạnh. Xem thêm Màu phát hiện hóa 547, 536, 537, 553–555. Xem

số, 466–469 Xử lý tín hiệu số (DSP), 466– cạnh, độ phân thêm Nén hình ảnh nén và,

469 Đĩa giải 447–450, 536, 537 ánh xạ cho, 537 lượng tử
video kỹ thuật hướng 70, cải hóa, 537 độ dài chạy
số (DVD), tiến 706, 157–168, 280–289, (RLE), 553–555 bộ mã hóa ký hiệu cho, 537 Bộ
671 trống, 80

độ dốc, 165, 449, 601, 671, 706 Cải tiến thích ứng, 128, 330,

liên kết, 725–738 332 tăng cường độ tương phản, 113, 127, 128,

cường độ, 165–166, 706 bản 186, 289, 310

đồ, 711
mô hình, độ nhạy
nhiễu 700–706, 704–705 bình
thường, 707
toán tử, 708
đoạn đường nối, 159,
525–526 693, 702 mái,
Số hóa, 28, 48 693, 702 bậc, 159,
Độ giãn nở. Xem Xử lý hình ảnh hình 693, 702 loại, 158–
thái 160, 694 bình thường, 707
Machine Translated by Google

946 ■ Mục lục

Tăng cường (tiếp theo) kéo hai chiều, gói wavelet 501–505 Chuỗi Fourier, 200–201, 203

dài độ tương phản, 106, 115, 116 phương cho, 510–519 FAX, lựa chọn tính năng Định lý lát cắt Fourier, 374–375

pháp kết hợp, 169–173 được xác định, 555. Xem Mô Phổ Fourier, 109–110, 206–207, 245–249 phép
25, 107, 201 miền tần số, tả Tiêu chí độ trung thực, 534–536 Dấu biến đổi

257–298 kỹ thuật mờ cho, lọc đồng chuẩn, 95 Bộ lọc log và, góc pha 109–110 và, biểu đồ tần số

cấu 186–191, lấy trung bình 289 hình 245–249 của, 206–207

ảnh, 75 phép trừ hình ảnh, 77 xử

lý biểu đồ cho, 120–144 giải mã, miền tần số Biến đổi Fourier 205–255

phép biến đổi cường độ, 107– 346. Xem Hạt nhân lọc miền tần số, 145. Xem liên tục, 205, 226 tích

119 cục bộ, 139, 142, 330, 332 bộ lọc trung thêm Bộ lọc không chập. Xem phần tích chập rời rạc. Xem

vị, 156, 195, 326, 332, 389 bộ lọc thống kê gian đáp ứng xung hữu hạn (FIR), 264, 468 Fourier rời rạc

thứ tự, 156, 325 làm sắc nét, Cửa sổ Hamming, 377 Cửa sổ Hann, 377 biến đổi

157, 280 làm mịn 75, 152, 269 bộ lọc không tái tạo, Biến đổi Fourier nhanh (FFT). Nhìn thấy
gian, 144–168 Entropy, 532–533 nhiễu 217 không gian. Xem Bộ lọc Biến đổi Fourier rời rạc

Erlang (gamma), 315–316 không gian, Chức năng lịch sử của, 200–201, 304 cặp,

Xói mòn. Xem Xử lý ảnh hình truyền lọc không gian, 95, 205, 210, 222, 226, 236, 870 phổ công

thái Ước tính hàm suy giảm, 257 dịch pha không, 262 dãy bộ lọc, 469– suất, 245 lấy mẫu và 211–

346–350 471 Bộ 220, 227–235


lọc, kỹ thuật số, 466–473 Hình ảnh fractal, 24–25

trực giao sinh học, 470, Bộ đệm khung, 30

518–519 hệ số, 468 Cohen- Mã chuỗi Freeman, 798–801

Daubechies-Feauveau Miền tần số, 199–310, 782–785 đặc tính bổ sung,


255–257
Euclide

khoảng cách, 92. Xem thêm Khoảng cách răng cưa. Xem Tích chập bí
đo hệ số trực giao sinh học, 518 tích danh. Xem Biến đổi Fourier rời rạc

định mức, 92 chập và, 467 hệ số trực tích chập (DFT).

Mở rộng, 477–486, 486–488 hàm cơ bản giao 8-tap Daubechies, 472 dãy bộ lọc, Xem Biến đổi Fourier rời rạc Biến đổi

của, 477 trực giao sinh học, 469–471 vòi lọc, 468 Fourier nhanh (FFT). Nhìn thấy

478 hệ số, 477 phân đáp ứng xung hữu hạn, 468 Lọc biến đổi Fourier rời rạc. Xem

tích đa phân giải (MRA), FIR, 468 hệ số Chuỗi Fourier lọc miền tần số, phổ

477, 481–482 trực giao, 478 quá đầy đủ, Haar, 497 đáp ứng xung, 468 Fourier
478 hàm chia tỷ JPEG-2000 200–201, 203, biến đổi Fourier 245–

lệ, 477, 479–483 không thể đảo ngược 9–7, 249. Xem Fourier

chuỗi, 477– 479, 486– 609 điều chế trong, 469 thứ

488 hàm wavelet cho, chuỗi wavelet 483– tự, 468 đảo ngược thứ tự, 469 trực giao, biến đổi

486, 486–488 471–472, 497, 507 tái thúc đẩy. Xem Chuyển động
thiết hoàn hảo, xung trong phân đoạn, lấy mẫu 782–785. Xem
470 nguyên mẫu, 471 đảo thuộc tính chọn lọc lấy mẫu.

Mã Golomb hàm mũ, 547 ngược dấu, 468 hệ số symlet (trực giao Xem Lọc miền tần số xung, 255–298.

Tiếng ồn theo cấp số nhân, 316 bậc 4), 507 Ngân hàng bộ lọc, 469–

471 Phân tích FWT, Xem thêm Bộ lọc thông dải


495–498, tổng hợp 511 lọc không gian, bộ lọc loại bỏ băng
FWT, phân tích gói sóng con 499–500, tần thông 294–298, 335–340, bộ lọc hộp
F Sai màu. Xem Đường viền giả giả số lọc 513. Xem Lọc 294–298, 335–
màu, 63, 100, 119, 623 Phép chiếu ngược không gian miền tần số. 340, 207 bộ lọc Butterworth, 273–276,
được lọc bằng chùm tia quạt, 381–387 Xem Lọc không gian Bộ lọc đáp ứng 284–285, 294–297, 335–338, 351 tương ứng

xung hữu hạn (FIR), 264, 468 với lọc không gian, 263, 269 nguyên

Biến đổi Fourier nhanh (FFT). Nhìn thấy Quy tắc hiệu chỉnh tăng dần cố định, tắc cơ bản của, 257–
Biến đổi Fourier rời rạc 886 Kính 263

Biến đổi wavelet nhanh (FWT), 493–501, hiển vi huỳnh quang, 11–12 Tiền cảnh, 70, Bộ lọc Gaussian cho, 258–259, 265–

502–505, 510–519 dãy bộ lọc phân 83 Định 269, 276–277, 285–286, 294–297, 335–

tích, 495–496, 503–504 dạng nén ảnh, 538–540, 541 Ánh xạ 338 bộ lọc highboost,

chuyển tiếp, 87 Bộ mô tả Fourier, 818– 821 288 điểm nhấn tần số cao,

nén hình ảnh bằng cách sử dụng, 288 bộ lọc đường cao tốc cho, 258,
604–613 281–286 bộ lọc đồng hình, 289– 293 bộ lọc
nghịch đảo, xử lý đa lý tưởng, 216–217, 228, 260–262, 269–

độ phân giải 498–500 bằng cách sử dụng, 493– 273, 277, 281–285, 294, 335–338

501, 502–505 ngân hàng

bộ lọc tổng hợp, 499–500, 503–504

Laplacian, 286–288 bộ

ô tần số thời gian, 500–501 lọc thông thấp, 217, 258, 269–281
Machine Translated by Google

■ Chỉ số 947

bộ lọc khía, 294–298, làm sắc nét 335– cạnh bình thường (vectơ), 707 phân đoạn, 443–445 cách sử

340, làm mịn 281–293, 269– cạnh, 168, 447–451 dẫn dụng, 407 Xử

281 bước, 263 mặt nạ không xuất bậc nhất, như, 165–168 hình thái thang lý biểu đồ, định nghĩa 120–144, 438–439,

sắc nét, 288 độ xám, 671–672 hình thái, 671 toán tử, sử dụng

Khoảng tần số, Phổ tần số 166–168, 447–451, 707–712 120 chuyển đổi

223–224. Xem thêm Spectrum FWT, mã hóa màu, cân bằng 438–439, 122–128 toàn

băng con 496, 511, gói wavelet 469, cầu, chuyển

513–514 Toán tử Prewitt, 709–710 thuộc tính đổi cường độ 120–138, 122,

của, 706–707 126 chuyển đổi

Người điều hành Roberts, 166–167, 708– nghịch đảo, 122, 128 cục bộ, 139–144 khớp
708 (thông số kỹ thuật), 128–138 chuẩn hóa,

Hệ thống con mặt trước, 29 mài sắc, 165–168 120) hàm mật độ

Xử lý hình ảnh đủ màu, 394, 424–426 Toán tử Sobel, ngưỡng 166–168, 709–710, kết xác suất (PDF) cho, 123–125 thống kê, sử

hợp với, 713–714 dụng, 139–144 Chuyển

Hoàn thiện về mặt chức năng, 83 đổi trúng hoặc trượt, 640–641 Lấp

Tập mờ, 84–85, 173–191 tổng hợp, Nhiễu hạt, 598 Phép đo đầy lỗ, 643–645, 660, 662–

182, 185 màu mờ bởi, 178–186 hạt, 674–675 Mức xám, 1, 45, 663, 685 Đồng nhất, 73, 344, 832

định nghĩa, 174–178 giải mờ, 182– 52, 106. Xem thêm Ma trận đồng xuất hiện ở Lọc đồng hình, 289–293 Biến đổi Hough, 733–738

183, 185 hàm ý của, 179–182, mức Xám Hue, xử lý ảnh màu và, 398–399, 407–414 Mã hóa
185 phép biến đổi cường độ và, 186 –189 cường độ, Thang xám 830, 45, 52. Xem thêm Huffman, 542–544 Mắt người, xem

hàm thành viên (đặc trưng), 84, 173– Hình Nhận thức thị giác H.261, H.262, H.263 và

178 nguyên tắc lý thuyết, 174–178 tập thái thang xám cường độ, 665–679. Xem thêm H.264, 538, 540, 594–596
hợp các Chuyển đổi mũ đáy xử lý hình thái, đóng 672–674,

phép toán, 84–85, 173–174 lọc không 668–670, giãn nở 677, 666–668, xói
gian và, 186–191 sử dụng, mòn 676–677,

178–186, 186–189, 189 –191 độ dốc 666–668, 677 gradient, 671–672 phép đo

hạt, 674–675 mở, 668– 670,


tái tạo 677, làm mịn 676–679, phân

đoạn kết cấu 670–671, chuyển

đổi mũ trên cùng 675–

676, 672–674 I Bộ lọc lý tưởng. Xem Lọc miền tần số IEC,

538 Chiếu
Hiệu chỉnh sáng, hiệu

Gamma , nhiễu 111–113. chỉnh 51–52, 740–741, 78–79, 672–673,


Xem Hình ảnh tia 756, 761 phản hồi của mắt, mô hình

gamma nhiễu, tần số bộ lọc Gaussian 8, hình ảnh


21, 47. Xem Lọc 17, 37, 40, trong, 51–52, 289–

không gian miền tần số. Xem Lọc không gian 293 không đồng nhất , 78–79, 672–673, 741,
Biến đổi H Haar, 474–477 Điểm 756, phân đoạn và, 740–741 nguồn,

bán sắc, 234–235 Cửa sổ 46–50 tiêu


nhiễu Gauss. Xem Lớp mẫu nhiễu Hamming, 377 Cửa sổ Hann, 377 chuẩn, 434, 608 ánh sáng có cấu

Gaussian, 874–882 Kim tự tháp Gaussian, Bộ lọc trung bình hài trúc, 17 Thu thập

464 Bộ lọc trung bình hình hòa, 323 nén HDV, 538, 541 ô/hộp hình ảnh, phân tích 46–

học, 323, 361–362 Biến đổi hình học, 87–92 Heisenberg, nguyên lý bất định 500 50, 2 mờ, xử lý màu 347–
Affine, 87 điểm kiểm soát, 90 nhận dạng, 88 Heisenberg, 500 Hertz (Hz), 44 Cao 350, nén
xoay, 88 chia TV độ phân giải (HD), 526 Lọc nhấn mạnh tần số 394–460. Xem giải mã

tỷ lệ, 88 cắt, 88 điểm cao, 288–289 Lọc nén, phần tử

buộc, 90 dịch, HighBoost, 162–165, 288–289 Tần số bộ lọc 346. Xem Cải tiến

88 nén GIF, Highpass. Xem Lọc không gian miền tần số. Xem pixel. Xem Lọc nâng cao. Xem Mô

538, 541, 551 mô hình hình hình thành lọc, chiếu sáng 50, 289.

Ngưỡng toàn màu HSI lọc không gian, 402, 407–414, Xem cường độ chiếu sáng.

cầu. Xem Mã 443–445 Xem Nội suy cường độ.

ngưỡng và mã hóa Xem Hình thái nội suy. Xem Pixel xử lý hình

Golomb, 544–548 Mã Golomb-Rice, 545 ảnh hình thái. Xem Độ phản

gradient, 165–168, 447–451, 671– xạ của Pixel, 51, 289

672, 706–714

chuyển đổi từ RGB, chuyển đổi 410–411

sang RGB, 411–413 thao tác với hình

phân đoạn màu, phát hiện cạnh 447– ảnh, khái niệm mặt phẳng 413–414, 408–410

451, 706–714
Machine Translated by Google

948 ■ Mục lục

Đăng ký hình ảnh tuyến tính từng đoạn, định Tích hợp quy mô lớn (LI), 5
(tiếp theo) , lấy mẫu lại 75, 89, luật lũy thừa 115, 110 Quy tắc delta bình phương nhỏ nhất
779, 842, khôi phục 65, 230, 617, Nội suy, 65–68, 87–91, 220, 230–233, (LMS), 887
799. Xem Xoay khôi phục hình ảnh. Xem các 463, 540, 593 bicubic, Mã hóa Lempel-Ziv-Welch (LZW),
phép biến đổi hình học 66 song 551–553

tuyến tính, Ánh sáng, 43–46, 395–401. Xem thêm Hấp

nhân rộng. Xem các phép biến 66 lân cận gần nhất, lấy thụ phổ điện từ (EM), 396–397
đổi hình học mẫu lại 65–66 (thu nhỏ và tiêu sắc,

sự phân đoạn. Xem phần Cảm biến phân đoạn, phóng to) hình ảnh theo, 65–68 Lọc 396 sắc độ, xử lý hình ảnh

7–25, 46–50 cảm biến, cắt nghịch đảo, biến đổi Fourier màu 396 và, kính

46–50. Xem các nghịch đảo 351–352. Xem biến đổi hiển vi 395–401,

phép biến đổi hình học Fourier, biến đổi Fourier rời rạc 13 đơn sắc, 45 thị giác và. Xem Nhận thức

thị giác Dải nhìn


dịch. Xem các phép biến đổi hình Ánh xạ nghịch đảo, 87 phép thấy phổ EM cho, 43–46,
học biến đổi nghịch đảo. Xem Biến đổi Hình mờ vô 395–396 màu chính và phụ của, 397–398 Phát

thu phóng, 65, 87, 230 hình, 616–620 ISO, 538 Đường cong đẳng hiện đường, 697–700 Cặp đường trên mỗi

Tiêu chuẩn nén hình ảnh, 538–541 Định dạng hướng, 64 mm, 59 trên khoảng

tệp hình ảnh và vùng chứa hình Bộ lọc đẳng hướng, 160 ITU-T, cách đơn vị, 59 Tuyến tính

ảnh, 538–541 Thông tin 538

hình ảnh, 531–534 Kim tự tháp


hình ảnh, 463–466 Chuyển đổi
hình ảnh. Xem Chuyển đổi các phương J
thức hình ảnh, 8–25 Ý nghĩa Jaggies, 232
trong các tập hợp mờ, 179–182, 185 Xung nén JBIG, 538, 539
tích chập. Xem Tương quan tích chập.
liên tục, Nén JBIG2, 538, 539, 561–562
Xem Bộ lọc FIR tương quan, 264 bộ
203–204, 225–226 rời rạc, 147–149, Nén JPEG, 538, 539, 579–584, 607–614
225–226 nhiễu, 156–157, 316– lọc miền tần số,

318 phản hồi, 264, 344–345, mã hóa biến đổi khối cho, 579–584 250 mặt nạ, 150 chuyển động, 349, 366

347, 468, 472, 609 thuộc tính sàng Tiêu chuẩn JPEG-2000, mã hóa hoạt động, 73–

lọc của, wavelet 607–614, 607–614 74, 254, 343–346 biến

203–205, 225–226, 468 tàu, 204– nén JPEG-LS, 538, 539, 550 đổi, 93 bộ lọc không gian, 145, 150 hệ

205, 208–209, thống, 203, 312,


Nén JPEG-2000, 538, 539, 607–613
228 đơn vị rời rạc, 147–149, 343–346 Có thể phân tách

204, 225–226 các thành phần, 608 tuyến tính các lớp, 886–887 Hình

Các khung độc lập (I-frame), 589 lượng tử hóa dẫn xuất so với ảnh trực tiếp, 77 Bộ lượng tử hóa Lloyd-Max,

Lý thuyết thông tin, 532–534 lượng tử hóa giải


603 Biến đổi nhật

Hồng ngoại, 7, 12, 21, 44, 77, 396, 418, ký, 109–110 Hoạt động logic, 83–
thích, 611 biến đổi thành phần không thể đảo ngược,
422, 690, 823, 827, 846, 879 608 84 Mã hóa dự đoán không tổn hao, 584–
589 Mã hóa dự đoán tổn hao, 596–
Cường độ, 1, 45, 59–65 kỹ biến đổi wavelet dựa trên nâng,
609 599 Tần số bộ lọc thông thấp. Xem Lọc không
thuật mờ, 173, 186–189 trung bình, 140.
Xem thêm Ánh xạ khoảnh khắc, 542, 87– gian miền tần số. Xem Hình mờ LSB lọc
thành phần ngói, 609
không gian, Độ chói
89, 106–144, Lượng tử hóa 426, thang đo 52–

54, tỷ lệ 52, 79–80 bộ L 616, ánh sáng màu và mã hóa 45, 396 LZW.
Xem mã hóa
mô tả Vệ tinh LANSAT, 14, 784, 826
Lempel-Ziv-Welch (LZW)
thống kê, 96–97, Laplacian
139–144 phép biến đổi, 85, 105–144 được xác định,
ngưỡng, 160 màu,
738–763 phép biến đổi, phương sai sử dụng tích chập 442,
106–144, 140. Xem thêm 789 kết hợp với gradient, phân rã 169,
Khoảnh khắc 750, miền tần số 790,
thuộc tính đẳng hướng 255, 286, 307–308, M
Chuyển đổi cường độ, cắt 106 mặt 197, 699 của Gaussian (LoG), Dải Mach, 41, 42
phẳng bit, kéo dài độ 715, 789 toán tử, 161 Macroblock, 589
tương phản 117, 106, 115, 116 gamma, Chụp cộng hưởng từ (MRI),
cân bằng 110 PDF, 588 Khoảng cách 20, 50,
biểu đồ, khớp biểu đồ 120–128, thông kim tự tháp, 466 90, 113, 368 Mahalanobis, 763. Xem thêm
số biểu đồ 128–138, cắt mức cường phục hồi cho, 358 chia Các thước đo khoảng cách
độ 128–138, 115 cục bộ, 139–144 log, tỷ lệ, 162 làm Thuật toán xương cá của Mallat, 493
109 âm, 108 sắc nét với, 162–163, 287 ngưỡng cho, Mapper, 537
696–699, 714, 749–753 giao điểm 0, 159, Mapping, 87–88, 132–133, 135–136, 530,
703, 717
537–538. Xem thêm Ánh xạ cường độ
Machine Translated by Google

■ Chỉ số 949

giải mã (giải nén) và, Mã hóa READ (MR) đã sửa đổi, 556 sự giãn nở và xói mòn trắc địa,
538 Mã hóa ĐỌC đã sửa đổi (MMR), 556 656–659, 676–677
mã hóa (nén) và, 537 chuyển tiếp, xử hình ảnh thang độ xám và, 676–679
lý biểu đồ 87–88 Điều chế, 469 lấp lỗ và, 662–663 mở bởi,
và, 132–133, 135–136 nghịch Hàm điều chế, 341 659, 662, 677 top-hat bởi,
đảo, 88, 538 Mẫu Moiré, 233–235, 296 677
Khoảnh khắc Bù chuyển động, mã hóa dự đoán và 589–
Điểm đánh dấu thống kê, 96–97, 821, 828, 859, 863 596
tái thiết hình thái cho, ngưỡng 656–664, bất biến, 839–842 Ước tính chuyển động, 590–594
676–677, 750 lưu vực Ánh sáng đơn sắc (tiêu sắc), 45, 396 Chuyển động trong phân đoạn, 778–785
sông, 776–778 nguồn hình ảnh khác biệt tích lũy
Markov, 534 máy dò cạnh Marr- Thuật toán theo dõi ranh giới Moore, 796– (ADI), kỹ thuật miền
Hildreth, 714–719 Mặt nạ. 797 tần số 779–780 cho, 782–785
Xem thêm Định nghĩa bộ lọc không gian, 106 chức Xử lý hình ảnh hình thái, lọc tuần tự
năng tạo mặt nạ, ngưỡng 571, 577 mặt xen kẽ hình ảnh tham khảo, thiết lập, 781–
nạ không sắc nét 627–688, 670 782 kỹ thuật
và, 162–165 Chụp X quang chế không gian cho, 778–782
độ mặt nạ, 77 So hình ảnh nhị phân, tóm tắt, mũ chóp Đường trung bình động để xác định ngưỡng,

khớp, 866–872, khối 903–906, tương quan đen 662–664, xóa 759–761

590–591, theo, phân loại khoảng cách đường viền 672. Xem MPEG-1, MPEG-2, MPEG-4 (AVC), 538, 540,
tối thiểu 869–872 Tái thiết hình thái 594–596
biến đổi mũ đáy, trích xuất ranh giới Bộ mã hóa MQ, 550
672, đóng 642–643, 635–369, 668–670 Mạng nơ ron truyền tiếp đa lớp,
thành phần được kết nối, bao lồi 819–902
phương pháp, 866– 645–647, giãn nở 647–649, 633–635, 656– Phân tích đa độ phân giải (MRA), 477,
869 số hình dạng, 903–904 659, 666–668 xói mòn, 630– 481–482

chuỗi, 904–906 Lọc 633, 635, 656–659, 666–668, yêu cầu đối với, 481–482
Phép toán ma trận, 56, 72–73, 92–93 627, 633, Xử lý đa độ phân giải, mở rộng 461–524,
phép toán mảng so với, 72–73 ký 638, 670, 687 gradient, 671 dạng hạt. 477–486
hiệu cho pixel, 56 phép 674 thang Biến đổi Haar, 474–477 kim
toán vectơ và, 92–93 Bộ lọc tối màu xám, 665–680 chuyển đổi trúng hoặc tự tháp hình ảnh, 463–466
đa, 152, 326 Độ méo trượt, 640–641 Phương trình MRA, phân
tuyệt đối trung bình (MAD), 590 Bộ lọc tích đa biến 482 (MRA), 477, 481–482 hàm
trung bình. Xem Bộ lọc không gian chia tỷ lệ,

Giá trị trung bình của cường độ. 477, 479–483, 501–502
Xem Kim tự tháp trung
bình khoảnh khắc, Lọc sai số lấp lỗ, 643–645, mở 662–663, 635– mở rộng chuỗi, 477–479, mã hóa băng
bình phương trung bình 639, 659, 662, 668–670 con 486–488, lý thuyết 466–
464 (MSE), 473, 461–462 wavelet
thước đo 352–357, 354 Chuyển đổi trục trung gian (MAT),
tóm tắt hoạt động của, 662–664 sơ bộ, và, 461–524
812–813 cắt tỉa 628–630, tái thiết Hình ảnh đa phổ, 14–15, 92, 422, 826, 846–
Bộ lọc trung vị, 156–157, 326, 389 654–656. Xem Tái 849, 879–881
thích ứng, cập nhật thiết hình thái
332–335, 196 N

Hàm thành viên (đặc trưng), 84, sự phản chiếu của các bộ Nanomet, 44 Hình

173–178 trong, 628 thao tác với bộ, 80–84, 628–630 ảnh âm bản, 82, 85, 108–109 Định nghĩa
Mũ Mexico hiệu chỉnh bóng, 673 khung vùng lân cận, 68

toán tử, 715 xương, 651–654. Xem thêm Làm mịn thao tác, 85–87,

wavelet, 492 bộ xương, 105–106, 145–169 Vùng lân cận của một pixel,
Micron, 44 670 phần tử cấu 68 gần nhất,
Mật độ kế vi mô, 48 trúc, 629 phân đoạn kết cấu, 66, 87–89, 220,
Lò vi sóng, 7, 18, 44, 418 675 làm dày, 650–651 làm mỏng, 649– 230. Xem cũng như các loại Nội suy, 68–

Bộ lọc trung điểm, 327 650 biến đổi mũ trên 69 Mạng thần kinh, 882–
Bộ lọc tối thiểu, 157, 327 cùng, 672, 677 dịch 902 thuật toán
Bộ phân loại khoảng cách tối thiểu, 866–869 các bộ trong, 629 mũ trắng, 672 Tái tạo cho, 886–889 lan truyền ngược,

Đa giác có chu vi tối thiểu (MPP), hình thái, 656–664 , 676–679 dọn huấn luyện bởi, 892–899 nền
801–807 sạch biên giới và, 663– tảng của, 882–883 bề mặt quyết định, độ

Cộng 664 giãn nở, 658–659, 676–677 Xói mòn phức tạp

Minkowsky, trừ bởi, 658–659, 677 của, 899–902 chuyển tiếp đa


683, 682 lớp, 819–902
M-JPEG, 538, 541
Mã hóa Huffman (MH) đã sửa đổi, 555
Machine Translated by Google

950 ■ Chỉ số

Nanomet, (tiếp) lan truyền ngược và, 892–899 cấu trúc Lỗi dự đoán, 584 Phần dư dự

perceptron cho, 883–885, 886–889 quy trình lớp của, 861–865 bộ phân loại, đoán, 588 bù chuyển động, 589–

đào tạo (học tập) cho, 882–902 mẫu đào 866–869, 872–882 bề mặt quyết định 595 kim tự tháp, 464, 466 Mã hóa dự
tạo, 882 và, 899–902 phân tích phân biệt (quyết đoán, 584–603 điều chế

định) cho, 862–863, 865 lớp Gaussian, 874– delta (DM), điều chế mã xung vi

Mã hóa lớn nhất N, 577 882 có thể phân tách sai 597–598 (DPCM), 599–602 không mất dữ
Nhiễu 53, 58, 139 tuyến tính các lớp, so khớp liệu, 584–589 mất mát, bù chuyển động 596–

lưỡng cực, 316 886–887, 866–872, nhận dạng đa lớp 903–906, 599 và, 589–596 dự đoán
hình ảnh màu, 451 dữ liệu 889–902 mạng thần kinh và, 882–902 tối ưu cho, lượng tử

loại bỏ, 316 Erlang, các lớp không thể tách rời, 887–889 nhận hóa tối ưu 599–

315 hàm mũ, dạng đối tượng và, 861–902 perceptron 602 trong, 602–603 lỗi dự đoán

316 gamma, 315 và, 883–885, 886–819 nhận dạng và, 861– cho, 584–

Gaussian, 76, 909 đào tạo (học tập), tạo vectơ 882–902 585, 599–602 Khung dự đoán (khung hình
314 xung, 156, 316 mô cho, 862–864 PDF, 538, 541, 563 Pel. Xem Phần P), 590 Bộ dự đoán pixel trước đó, 586

hình, 313 tham số ước trăm pixel, 157, 326–327, 751 Toán tử gradient Prewitt. Xem Bộ lọc
lượng, 319 Perceptron, 883–885, 886–819 Bộ lọc không gian

tuần hoàn, 297, 318–319, phổ công tái tạo hoàn hảo, 470–471 Xung định kỳ. Hàm mật độ xác suất (PDF), 123–125, 314–319,
suất 335, 353 hàm mật độ xác suất Xem Góc pha của hệ

(PDF), 314–319 Rayleigh, thống xung. Xem

rút gọn 314, 75. Xem thêm Lọc muối biến đổi Fourier, biến đổi Fourier

tiêu, 156, 316 thuộc rời rạc

tính không gian

và tần số của , 313–314 tăng đột biến, 873–882

316 đồng nhất, 316 đơn cực, 316 Erlang, 315


trắng, 313, 354, 508, 720, 784 Định lý mã hàm mũ, 316 gamma,
hóa không ồn, Máy chuyển đổi ảnh, 47 315 Gaussian,
533 Phi tuyến Điốt quang, 48 76, 314, 875 xung, 156, 316
Photon, 7, 45 ước lượng tham số,
Tầm nhìn quang học, 37 319 Rayleigh, 314 muối tiêu, 156,
Hàm biến đổi tuyến tính từng phần, 115–119 316 đồng đều,
316 Hàm khối xác suất (PMF),
Pixel 545 Mô hình xác

lọc, hoạt động 145, 152, 156, 165, 325, liền kề của, 68 suất , 550–551 Phép chiếu, tái tạo hình ảnh từ,
330, 870, hoạt động mảng, 72 kết 362–387 Cắt tỉa. Xem Xử lý ảnh hình
73–74, 102 Các lớp không nối, 69 định thái Xử lý ảnh giả màu, 394, 414–424
thể tách rời, 887–889 Bộ lọc notch. nghĩa, 2, 56 khoảng

Xem Lọc miền tần số Bộ Null, tốc độ 80 cách giữa, 71 nội suy.

Nyquist, Xem Các phép toán nội suy vùng lân cận,
215. Xem thêm 85–87.
Lấy mẫu Xem thêm Lọc không gian lân

cận, 68 đường dẫn, cắt cường độ cho, 415–418 chuyển

69 khoảng đổi cường độ sang màu sắc, 418–421


O
cách trên một đơn vị, 59
Nhận dạng đối tượng. Xem Mẫu, Mở đầu công
mối quan hệ giữa, 68 thao tác hình ảnh đơn sắc và, 422–424 phép biến đổi
nhận. Xem Xử lý
đơn lẻ, 85 chuyển đổi. của, 414–424
hình ảnh hình thái Ảo ảnh quang học, 42–43
Xem các phép biến đổi cường độ
Bộ lọc thống
kê thứ tự. Xem bộ lọc không
Nén PNG, 538, 541, 551 Phát hiện điểm. Q
gian
Xem Xử lý điểm phân đoạn, Hàm trải rộng điểm Q-code, 550

106–107, Xấp xỉ đa giác 345, 801– Lượng tử hóa, 52–68, 531, 537–538, 596–598,
Các cặp có thứ tự, 80. Xem thêm Tích Descartes
807, 807–808 602–603, 607. Xem thêm Lấy mẫu vùng
Tính trực
chết, độ
giao, phương pháp 471
phân giải cường độ
Otsu. Xem Ngưỡng, Ngưỡng
kỹ thuật hợp nhất, đa giác có chu 607 và nội suy 59–65 và, 65–68 Lloyd-
vi tối thiểu 807–808 Bộ lượng tử hóa tối đa, ánh xạ
(MPP), kỹ thuật phân 603 và, 531, 537–538 tối ưu, mã
P tách 801–807, 808 hóa dự đoán 602–603 và, 596–598,
Lọc chùm tia song song Chụp cắt lớp phát xạ positron (PET), 9, 50, 90, 602–603 thiết kế mã

dự đoán ngược, 375–381 293, 368, 388 hóa wavelet của, 607 Quicktime, 538, 541

Mô hình xử lý phân tán song song (PDP), 882 Các phép biến đổi định luật lũy thừa (gamma),
110–115

Mẫu, 861–909 Phổ công suất, 245, 353


Machine Translated by Google

■ Chỉ số 951

R quan tâm (ROI), 78, 611, 643, 655, 768 Lọc lỗi bình phương trung bình tối
tứ giác, thiểu, mô hình nhiễu
Bức xạ, ánh sáng màu và, 45, 396 Dải vô tuyến,
767 chia tách. Xem 352–357, giảm nhiễu 313–321 và,
7, 20, 44, 279 Bộ lọc Ram-Lak,
phần mô tả phân khúc dựa trên khu 322–335, 335–343
376 Trường ngẫu nhiên,

98 biến đổi Radon, 366, vực. Xem Mô tả

368–373 Cạnh dốc. Xem tiếng ồn của Phân đoạn dựa trên khu vực, 763–769 bộ lọc Wiener tham số, tái thiết
vùng hợp nhất, 766–769 phát triển vùng, 763–766 362. Xem tái thiết
Edges Rayleigh. Xem Nhận dạng

tiếng ồn, 27–28, 861–909 Bộ phân vùng phân tách, 766–769 Bộ mô tả

loại Bayes, 872–882 bộ phân loại khu vực, diện tích 822–842, tỷ lọc không gian để giảm
lệ vòng tròn 822 cho, độ nén 822– nhiễu, bộ lọc cân
cho, 866–869, tương quan 872–
882, hệ số tương quan 869–863, 870–872 823 và 822–823 độ tương phản, tương bằng phổ 322–335, 362

phương pháp lý thuyết quan 832– Lọc Wiener, 352–357

quyết định cho, phân tích phân biệt đối 834, entropy 832–834, số Euler 832– Các mẫu màu RGB, chuyển đổi 401–402, 402–406, 410–

xử 866–902, 862 lựa chọn tính năng, 863 834, ma trận đồng xuất hiện cấp độ 413, 445–447 từ định

học tập, xám 825, 830 dạng HSI, 411–413

861 khớp và, 866–872, 903–906


khoảng cách tối thiểu, 866 chuyển đổi sang định dạng HSI, khái

mạng thần kinh niệm khối 410–411, 402–406

cho, 882–902 phân loại tối ưu, 872–874 màu an toàn, phân đoạn

mẫu, 861–902 khớp số hình 404–406 và, 445–447


dạng, khớp chuỗi 903–904 , 904–906 tính đồng nhất, xác suất Mã gạo, 545

phương pháp cấu trúc cho, 903–906 tối đa 832–834, bất biến mô men Toán tử gradient chéo Roberts, 166–
832–834, chu vi 839–842, 822 thành 167, 708–708
phần chính, 842 Hình mờ vô hình mạnh mẽ, 617
mô tả quan hệ, 852 nội dung Mép mái, 693, 701–702
kết cấu, 827–839 tôpô, 823– Lỗi căn bậc hai (rms), 354,
827 tính đồng nhất, 832–834 534–536
Tái thiết, 217, 219–220, 362–387, 656–
664, 677–680 chiếu ngược, 363– Biến đổi tấm cao su, 87–92

365, 375–381, 381–387 chụp cắt lớp vi tính


(CT), 365– Đăng ký, hình ảnh, 75, 89, 779, 842 Mã hóa thời lượng chạy (RLE), 530,
Chỉ định địa chỉ phần tử tương đối 553–559
368 chiếu ngược được lọc bằng chùm
tia quạt, (ĐỌC) mã hóa, 556 Các cặp có độ dài chạy, 530, 553

381–387 bộ lọc, 217 Viễn thám, 14–15, 526, 871, 879


Cơ quan đại diện, 27, 795–860
ranh giới (biên giới) theo sau, S Màu sắc an toàn, 404–
Định lý lát cắt Fourier cho, hàm 374–375, 796–798 406 Tiếng ồn muối tiêu. Xem Lấy mẫu
phục hồi a, 219–220 hình thái thang các phân đoạn ranh giới cho, 810–812 tiếng ồn, 52–68, 211–220, 223–224,
xám, phục hồi hình ảnh 677–680 mã chuỗi cho, 798–801 mô 227–235. Xem thêm Bí danh lượng tử hóa.

bằng, 362– tả và, 795–860 xấp xỉ đa Xem Các khái niệm cơ bản

387 laminogram, 373 hình thái, 656– giác, 801–807, 807–808 chữ ký về bí danh, số thập phân 52–

664, 677–680 phép cho, 808–810 bộ 54, phép biến đổi

chiếu ngược được lọc bằng chùm tia song xương, Lấy mẫu lại 812– Fourier 231 và, 211–220, 227–235

song , 375–381 815. Xem Lấy mẫu lại


hình ảnh Dấu Reseau, 90 Khôi phục, 26, độ phân giải cường độ, nội
các phép chiếu, từ, 362–387 Biến 311–393 suy 59–65 và, 65–68, 230–233 quãng,
đổi Radon cho, 368–373 bộ lọc Ram-Lak, 223–224 răng cưa,
376 bóng ma Shepp-Logan, giải mã mù, lọc bình phương 232 mẫu
372 hình sin, 371 Dự phòng, mã hóa nhỏ nhất bị ràng buộc 346, giải mã 357– moiré từ, 233–235
526–530, 527, 528–
361, 346 Tốc độ Nyquist, 215–216 hàm

529 dữ liệu tương đối, 526– hàm suy thoái, ước một biến, 211–220 tái tạo (khôi phục),

527 không gian, 527 , 529– tính, 346–351 219–220, 230–233 biểu thị hình
530 tạm thời, 527, 529–530 ảnh kỹ thuật số theo

Hình ảnh tham khảo, 89–91, sự xuống cấp của hình ảnh, cách sắp xếp cảm biến 55–59 và, 54 tọa

778–782, 784 Phương trình 311, 312–313, 343–346, 346– độ

tinh chỉnh, 482 Phản xạ, 45, 51–52, 289–293, 740– 351 không gian (x, y) và, 52– 68 độ

741 Định nghĩa vùng, 69 ngày càng lọc miền tần số để giảm nhiễu, bộ phân giải không gian, 59–65 siêu mẫu, định
tăng. Xem phân khúc dựa trên khu vực lọc trung bình hình học 335– lý 231, 213–217, 227–228 hàm

343, lọc nghịch đảo 361–362, bộ hai biến (2-D),

lọc sai số bình phương nhỏ


nhất 351–352, 353 suy giảm
tuyến tính, bất biến dương, 227–235

343–346 Độ bão hòa, 58, 298–399


Machine Translated by Google

952 ■ Mục lục

Chia tỷ Độ dốc quá tải, 598 Làm làm mịn, biểu diễn vectơ

lệ hình học. Xem Cường độ biến mịn. Xem Lọc SMPTE, toán tử 152–157 của, 150–151 Hoạt động không gian,
đổi hình học, 79–80 gradient Sobel 85–92 Dự phòng không gian, 527,

Hàm chia tỷ lệ, 538. Xem Bộ lọc không gian Phần mềm chụp ảnh, 529–530 Độ phân giải không gian, 59–65 Kỹ

477, 479–483, 501–502 hệ số của, 482 Haar, 480 2D tọa độ thuật không gian cho chuyển
có thể phân tách, 501 không gian 29–30, tích chập miền động trong phân đoạn, 778–782 Biến không
vectơ tỷ lệ, không gian 1, 55. Xem Tương gian, 55 Quang phổ. Xem biến

482 Kính hiển vi điện quan tích chập. Xem đổi Fourier, biến đổi

tử quét (SEM), 23, 115, Định nghĩa tương quan 55 sự khác biệt Fourier rời rạc

142, 256 Scotopic tầm nhìn, 37 Phân đoạn, 689–794 về biến đổi hình ảnh 93–94 lọc. Xem

màu, 443–450 độ phân Tương ứng miền Truyền hình độ nét tiêu chuẩn (SD),

giải, 690 dựa trên cạnh. tần số lọc không gian, 263 hoạt động, 85–92 525–526

Xem Nền tảng phát hiện cạnh, Tiêu chuẩn nén ảnh, 538–540, 541 khoảnh khắc
phát hiện dựa trên thống kê. Xem

tần số 690–695, phần Khoảnh khắc Bước cạnh. Xem Edges Xử lý

phát hiện đường 782–785, 697 chuyển động hình ảnh ngẫu nhiên, 98 Dung
và phát hiện 778–785 điểm, Bộ lọc không gian. Xem thêm Lọc không gian thích lượng lưu trữ cho hình ảnh, 30 mô tả

phát triển 696 vùng. Xem Dựa trên ứng cục bộ, trung bình thích chuỗi, 864–865, 904–906 Mã hóa băng con,
kết cấu phân đoạn dựa ứng 330–332, 332–335 được cắt bớt 466–473 Độ sáng chủ quan, 39 Kim tự tháp lấy
trên khu vực, ngưỡng 769. alpha, trung bình số học mẫu con, 464 Cây phân tích không

Xem Ngưỡng lưu vực sông. 327, trung bình 322, trung gian con, 511 Nhân đôi liên

Xem Cảm biến đầu nguồn, 28, 46–52, 54 thu bình đối điều hòa tiếp, 300 Tổng biến dạng tuyệt đối

thập và, 46–52 152, 323 được xác định, 106 tạo (SAD), 590 Tích phân xếp chồng, 345
mảng, 50, 54 làm mát, ra, 151 trung Siêu lấy mẫu, 231 Bộ mã hóa ký

76 mô hình hình thành hình ảnh cho, 51– bình hình học, 323 hiệu, 537 Mã hóa dựa trên ký hiệu, 559–562
52 thành phần hình ảnh cho, 28 lấy độ dốc, 165 trung bình hài Symlets, 505–507 Ngân hàng bộ lọc
mẫu và lượng tử hóa bằng hòa, 323 tăng tổng hợp, 470, 499–500,

cách sử dụng, 54 đơn, 48 cường , 162 đẳng hướng, 503–504

dải, 48 –50, 54 160 Laplacian, 160–

Hệ thống cơ 163 đường thông

sở tuần tự, mở rộng Series 580, 477–479, 486– thấp, 152 tối đa, 157,

488 Hoạt động theo bộ, 80–83, 84– 326, trung vị,

85, 628–630, 630–635, 635–639. Xem thêm Cơ 156, 326 điểm Hình ảnh tổng hợp, 24–25

bản về tập giữa, 327 phút, 157,

mờ, 80–83 đóng, 635– 326 thống kê thứ T


369 sắc nét, 84 giãn nở, 633–635 xói tự, 156–157, 325 Sự dư thừa tạm thời, 527, 529–530

mòn, 630–633, 635 khái niệm mờ của, 84–85, xử Roberts, 167 làm sắc nét, làm mịn Kết cấu, 675–676, 769, 827–839 ma trận

lý hình ảnh hình thái 173–191 157–168, 152– đồng xuất hiện cho, 830–836 mô tả theo, 827–

157, 322 Sobel, 167 mặt 839 hình thái thang màu xám

nạ không sắc nét, 162 biểu diễn và, 675–676


vectơ, trung

bình có trọng số 150, biểu đồ cường độ cho, phân đoạn 828–830,

153 Lọc không gian, 104–198, 322– 675–676, 769 phương pháp tiếp cận

335 cục bộ thích ứng, trung quang phổ, 837–839 phương pháp thống kê

vị thích ứng 330–332, tích chập 332–335 và, cho, 828–836 phương pháp tiếp cận cấu trúc

tương quan 146–150 và , 146– cho, 836–837 Dải chuyên đề, 14 Độ dày. Xem

150 được xác định, 106 phương phần Làm mỏng xử lý ảnh

và, 628–630, 630–635, 635–639 mở đầu, pháp nâng cao kết hợp, 169–173 hình thái. Xem Ngưỡng xử lý hình ảnh hình thái.

635–639, 668–670 Hiệu chỉnh bóng, nguyên tắc cơ bản, 144–152 kỹ Xem thêm

78–79, 673, 741, 761 Định lý đầu tiên của Shannon, thuật mờ cho, Ngưỡng cơ bản, 107, 738, 741 Bayes, 742, 875,
533–534 Số hình dạng, 816–817, 903– 904 Làm 173–191 tuyến tính, 145–155 mặt nạ. Xem cơ 881–882 mã

sắc nét. Xem Lọc bóng ma Shepp-Logan, Thu chế lọc hóa, 575–579 màu, 445 kết hợp với làm mờ,

hẹp 372. Xem Thuộc tính sàng lọc không gian của, giảm nhiễu 145, 169 kết hợp với độ dốc,

lấy mẫu lại hình ảnh. Xem Tỷ lệ phi tuyến 322–335, 145, 155–157, 322– 713, 749 kết hợp với Laplacian,

xung tín hiệu trên nhiễu (SNR), 354, 535 335 thống kê thứ 750 toàn cầu, 741 độ

Chữ ký, 808–810 Độ tương phản đồng tự, 155–157, làm sắc nét 325, trễ, 722 ,

thời, 41–42 Thao tác một pixel, 85 Bộ xương, 651– 157–168 754

654, 812–815
Machine Translated by Google

■ Chỉ số 953

cục bộ, tối ưu Biến đổi, 93–96, 104, 366, 368–373, 474–477, Tích hợp quy mô rất lớn (VLSI), 5 Dải nhìn thấy

758–761, 742, 486–493, 501–510, 566–584 được của phổ EM, 12–18, 44–45 Hình mờ nhìn
Otsu, 673, 742, 752 thấy được, 615

bội số, 722, 739, 752–756 đa mã hóa biến đổi khối, 566–584 cosine rời Tầm nhìn. Xem thêm Nhận thức

biến, 445, 761–763 biến, 756 rạc, 569 miền trong, 93– thị giác của con người, 36–43, 396, 718,
94, 104 cosine rời rạc, 96, 778 máy 2–3, 6, 906 Nhận thức thị

Ngưỡng, 107, 115, 508, 577–579, 713–714, 738– 539, 569 Karhunen-Loeve rời rạc, giác, 36–43, 395–401 hấp

763 thông tin cơ bản, 845 Fourier. Xem biến đổi Fourier Haar, thụ ánh sáng, thích ứng độ sáng 396–397, xử
738 96, 474–477 Hotelling, 845–852 Hough. lý hình ảnh màu 39–43 và , 395–401

Triển khai mã hóa Bayes, 742, Xem hình ảnh biến đổi phân biệt giữa các thay đổi, 36–43

875, 881–882, 577–579 cạnh sử dụng in, Hough (tuyến tính 2-D),

749 chức năng, 107, hình thái 93–96. Xem Cặp xử lý ảnh
115 toàn cầu, 738, hình thái, 94 thành phần chính,

741–756 gradient, kết 842–852 Radon, 366, 368–373 lựa chọn cho

hợp với, 713–714 cứng, 508 độ chiếu sáng biến đổi khối cấu trúc vật lý của mắt người, 36–38 sự
và cường hình thành hình ảnh trong mắt, 38–39
độ 740–741 , 738–739 Dải Mach, 41, 42 ảo ảnh

quang học, độ tương phản


Laplacian, kết hợp với, 750 cục bộ, đồng thời 42–43, độ sáng chủ quan
758–761 thước đo mã hóa, nghiêng 567– 41–42, 39–40
khả năng phân tách, 745 đường 573, 96 Tỷ lệ Weber, 40–41

trung bình động, 759 đa Walsh-Hadamard, 96, 568 wavelet,

ngưỡng, 752 đa biến, 445, 761– 486–493, 501–510. Xem thêm Kính hiển vi W
763 nhiễu trong, 739–740 điểm điện tử truyền Phép biến đổi Walsh-Hadamard (WHT), 568–569
đối tượng cho, 738 qua Wavelet (TEM), 23 hệ số ba màu, 399

tối ưu, 742 Tạo hình mờ cho hình ảnh kỹ thuật số, sơ đồ
khối 614–621, 617 lý do, 614
Otsu, 673, 742.752 độ
phản xạ và, 740–741 phân đoạn Hình mờ, 614–621 cuộc tấn
U
và, 738–763 làm mịn trong, 747 công vào, 620–621 vô
Tích hợp quy mô cực lớn (ULSI), 5
mềm, 508 biến, 738, hình dễ vỡ, 617 chèn và
Hình ảnh
756–763 trích xuất, 615–616, 618–620
siêu âm, 20, 46, 368, 388 Tia cực tím, 7, 11,
37, 44, 45 Mã đơn nhất, 544 Ước
Hòa (kiểm soát) điểm, 90 hình mờ vô hình, 616 hình mờ
tính không thiên vị,
TIFF, 538, 541, 551 riêng tư (hoặc khóa bị hạn chế), 617
141 Đồng nhất. Xem độ trễ của
Khung chặt chẽ, 479 hình mờ công khai (hoặc khóa không bị
Đơn vị tiếng ồn, rời rạc
Hình ảnh ốp lát, 24, 501 hạn chế), 617 hình mờ
466–467 Đơn vị. thúc đẩy.
Các ô tần số thời gian (hoặc mặt phẳng), mạnh mẽ, 617 hình mờ hiển thị, 615
Xem xung Đơn vị xung. Xem Đơn vị đo xung,
500–501 Lưu vực sông (hình thái), 769–778 thuật toán,
44, 45, 58–60 bit để lưu trữ hình
Token, 560 Phép 774–776 xây dựng đập, 772–
ảnh, phổ điện từ (EM) 58–60, độ phân giải
biến đổi Top-hat, 672–674 Top-hat bằng 774 tích hợp kiến thức, 769 điểm đánh
cường độ 44, 45, độ phân giải không
cách xây dựng lại, 677 Bộ mô tả cấu dấu được sử dụng cho, sử dụng phân đoạn
gian 59–60, 59 Mặt nạ không sắc nét, 162–
trúc liên kết, 823–827 Phép biến đổi, 87– 776–778, 769–778
165,
92, 104–198, 640–641, 672–674 Affine, 87–
288–289 Lấy mẫu lại, 464–465
89 đáy -hat, 672–674 Mã hóa Wavelet, lựa chọn mức
miền trong, 104 phân tách 604–614, 606–607
hình học (tấm cao su). Xem

các phép biến đổi Nén JPEG-2000, thiết kế lượng tử hóa 607–
hình học 614 cho, 607 lựa chọn wavelet
V cho, 604–606

hình thái thang độ xám và, 672–674 Ngưỡng biến đổi. Xem Ngưỡng mã có Hàm Wavelet, 483 hệ số của,
trúng hoặc độ dài thay đổi, 484
trượt, cường độ 640–641, 529, 542–544 Phương sai cường độ. Xem Khoảnh Haar, 484–485 2D

104–198 hạt nhân, 95 khắc nén VC-1, các thao tác Vector 538, 541, có thể tách rời, 502
xử lý hình 594, 92–93, 150–151, 424–426 đặc điểm tần số thời gian, 500–501

ảnh hình thái và, 640–641 tấm cao su,


87, 823 không Vectơ sóng con, 484
gian, 85, 105–171 mũ xử lý hình ảnh đủ màu, 424–426 Các gói Wavelet, biểu diễn cây
chóp , 672–674 mũ đội nhị phân 510–519, 510–518 hàm chi phí để
đầu được tái thiết, các phép toán ma trận và, 92–93 lọc chọn, 515–518 cây phân tích không gian, 511
677 không gian, 150–151
Machine Translated by Google

954 ■ Mục lục

Wavelet, 27, 461–524 loại bỏ nhiễu, 508–510 biến X


nén, biến đổi wavelet liên đổi một chiều, 486–493 gói, mở rộng
Tia X, 9, 115, 157, 289, 324, 362, 363,
tục 604–607 chuỗi 510–
365, 417, 420, 646, 667, 671, 697,
(CWT), 491–493 519, 486–488 biến 731, 764, 768
biến đổi wavelet rời rạc đổi, 486–493, 501–510 biến đổi hai

(DWT), 488–490, phát chiều, 501–510

hiện cạnh 502, 507–508 Z


biến đổi sóng con nhanh (FWT), Tài sản giao cắt không, 160, 703, 714–
493–501, 502–505, 510–519 Tỷ lệ Weber, chức năng 717

hàm, 483–486 Trọng số 40–41, Tiếng ồn Nguồn không có bộ nhớ, 532 bộ lọc
JPEG-2000, 607–613 trắng 341. Xem Lọc tiếng ồn dịch pha không, triển khai mã hóa vùng
Mũ Mexico, xử lý đa Wiener, nén 352–357 WMV9, 538, 262, 294, Thu phóng 576–577. Xem Thu

phân giải 492–493 và, 461–524 541, 594 phóng hình

ảnh

You might also like