You are on page 1of 7

NHỮNG CƠ SỞ CỦA XỬ LÝ ẢNH

1. Giới thiệu…………………………………………………1
2. Định nghĩa hình ảnh kỹ thuật số……………..............2
3. Công cụ…………………………………………………..6
4. Tri giác…………………………………………….……22
5. Lấy mẫu hình ảnh……………………………….…….28
6. Nhiễu…………………………………………….……..32
7. Máy ảnh…………………………………………….….35
8. Màn hình………………………………………………44
9. Thuật toán…………………………………………….44
10. Phương pháp……………………………………….86
11. Lời cảm ơn………………………………………..109
12. Tài liệu tham khảo………………………………109
Jan T. Young
Yan J. Gerbrands
Lucas J. van Vliet
Đại học kỹ thuật Delft

1. Giới thiệu
Công nghệ kỹ thuật số hiện đại đã cho phép điều khiển tín hiệu đa chiều với hệ
thống đi từ các mạch số đơn giản đến các máy tính song song nâng cao. Mục đích
của việc điều khiển này có thể chia ra thành 3 mục:
 Xử lý ảnh ảnh vào  ảnh đầu ra
 Phân tích ảnh ảnh vào  thông số đo đầu ra
 Nhận thức ảnh ảnh vào  sự mô tả mức độ cao
Chúng ta sẽ tập trung vào những khái niệm về cơ sở của xử lý ảnh. Thời lượng
không cho phép chúng ta làm nhiều hơn một chút về việc giới thiệu vào phân tích
ảnh. Nhận thức ảnh yêu cầu một sự tiếp cận khác về cơ bản với chủ đề của cuốn
sách này. Thêm vào đó, chúng tôi sẽ thu hẹp chúng với xử lý ảnh 2D mặc dù hầu
hết khái niệm và phương pháp được mô tả có thể được mở rộng với 3 hoặc nhiều
chiều một cách dễ dàng. Độc giả quan tâm cả những chi tiết lớn hơn được trình bày
ở đây hoặc những khía cạnh khác của xử lý ảnh được đề cập tới [1-10]
Chúng ta bắt đầu với những định nghĩa cơ bản nhất định. Một hình ảnh định nghĩa
trong thế giới thực được xem là 1 hàm của 2 giá trị thực, ví dụ, a(x,y) với một như
là biên độ (ví dụ: độ sáng) của hình ảnh ở vị trí tọa độ thực (x, y). Một hình ảnh có
thể được coi là chứa đựng các hình ảnh phụ thường được gọi là vùng ưa thích,
ROIs, hay đơn giản là vùng. Khái niệm này phản ánh sự thật mà ảnh thường xuyên
chứa đựng tập hợp các đối tượng mà mỗi đối tượng có thể là cơ sở cho một vùng.
Trong một hệ thống xử lý ảnh phức tạp nó nên có thể áp dụng hệ thống xử lý ảnh
cụ thể cho các vùng đã chọn. Do đó, một phần của ảnh (vùng) có thể được xử lý để
khử chuyển động nhòe trong khi phần khác có thể được xử lý để cải thiện sự hiển
thị màu sắc.
Biên độ của 1 ảnh nhất định hầu như sẽ luôn là số thực hoặc số nguyên. Cuối cùng
thường là một kết quả của một quá trình lượng tử hóa, cái mà chuyển đổi 1 phạm
vi liên tục (giả sử 0-100%) thành 1 con số riêng biệt theo các mức độ. Trong quá
trình hình thành ảnh nhất định, tuy nhiên, tín hiệu có thể liên quan đên lượng
photon cái mà có ý rằng biên độ vốn đã được lượng tử hóa. Trong quá trình hình
thành ảnh khác, như hình ảnh cộng hưởng từ tính, phép đo vật lý trực tiếp tạo ra 1
số phức ở dạng 1 số thực và 1 pha thực. Phần còn lại của cuốn sách này, chúng tôi
sẽ coi biên độ như số nguyên hoặc số thực trừ khi có chỉ định khác

2. Định nghĩa xử lý ảnh


Hình ảnh kỹ thuật số a [m, n] được mô tả trong không gian rời rạc 2D được lấy từ
hình ảnh tương tự a (x, y) trong không gian liên tục 2D thông qua quy trình lấy
mẫu thường được gọi là số hóa. Thuật toán của quá trình lấy mẫu đó sẽ được mô tả
trong phần 5. Bây giờ chúng ta sẽ xem xét một số định nghĩa cơ bản liên quan đến
hình ảnh kỹ thuật số. Hiệu quả của việc số hóa được thể hiện trong Hình 1.
Hình ảnh liên tục 2D a (x, y) được chia thành N hàng và M cột. Giao điểm của một
hàng và một cột được gọi là pixel. Giá trị được gán cho tọa độ số nguyên [m, n]
với {m = 0,1,2,…, M – 1} và {n = 0,1,2,…, N – 1} là [m, n ]. Trên thực tế, trong
hầu hết các trường hợp, a (x, y) - mà chúng ta có thể coi là tín hiệu vật lý xuất hiện
trên mặt cảm biến 2D - thực sự là một hàm của nhiều biến bao gồm độ sâu (z), màu
sắc (λ), và thời gian (t). Trừ khi có quy định khác, chúng tôi sẽ xem xét trường hợp
ảnh 2D, đơn sắc, tĩnh trong chương này
Ảnh 1: Số hóa một hình ảnh liên tục. Pixel ở tọa độ [m = 10, n = 3] có giá trị độ sáng nguyên là
110

Hình ảnh trong Hình 1 đã được chia thành N = 16 hàng và M = 16 cột. Giá trị được
gán cho mỗi pixel là độ sáng trung bình trong pixel được làm tròn đến giá trị số
nguyên gần nhất. Quá trình biểu diễn biên độ của tín hiệu 2D tại một tọa độ cho
trước dưới dạng giá trị nguyên với L mức xám khác nhau thường được gọi là lượng
tử hóa biên độ hoặc đơn giản là lượng tử hóa.
2.1 Những giá trị phổ biến
Có các giá trị tiêu chuẩn cho các tham số khác nhau gặp phải trong xử lý ảnh kỹ
thuật số. Các giá trị này có thể do tiêu chuẩn video, do yêu cầu thuật toán hoặc
mong muốn giữ cho mạch kỹ thuật số đơn giản. Bảng 1 đưa ra một số giá trị
thường gặp.
Tham số Ký hiệu Giá trị điển hình
Hàng N 256, 512, 525, 625, 1024, 1080
Cột M 256, 512, 768, 1024, 1920
Mức độ xám L 2, 64, 256, 1024, 4096, 16384
Bảng 1: Các giá trị phổ biến của tham số ảnh kỹ thuật số
Khá thường xuyên, chúng ta thấy các trường hợp M = N = 2K trong đó {K =
8,9,10,11,12}. Điều này có thể được thúc đẩy bởi mạch kỹ thuật số hoặc bằng cách
sử dụng các thuật toán nhất định như biến đổi Fourier (nhanh) (xem Phần 3.3)
Số mức xám riêng biệt thường là lũy thừa của 2, tức là, L = 2B trong đó B là số bit
trong biểu diễn nhị phân của các mức độ sáng. Khi B> 1, chúng ta nói về một hình
ảnh mức xám; khi B = 1 chúng ta nói về một hình ảnh nhị phân. Trong một hình
ảnh nhị phân, chỉ có hai mức xám có thể được gọi, ví dụ, là “đen” và “trắng” hoặc
“0” và “1”.
2.2 Đặc điểm của xử lý ảnh
Có nhiều cách khác nhau để phân loại và mô tả các hoạt động hình ảnh. Lý do để
làm như vậy là để hiểu loại kết quả mà chúng ta có thể mong đợi đạt được với một
loại hoạt động nhất định hoặc những gì có thể là gánh nặng tính toán liên quan đến
một hoạt động nhất định.
2.2.1 Phân loại hoạt động
Các loại phép toán có thể áp dụng cho ảnh kỹ thuật số để biến đổi ảnh đầu vào a
[m, n] thành ảnh đầu ra b [m, n] (hoặc một biểu diễn khác) có thể được phân thành
ba loại như trong Bảng 2.
Hoạt động Tính chất Độ phức tạp chung/pixel
Điểm - giá trị đầu ra tại một tọa Không thay đổi
độ cụ thể chỉ phụ thuộc
trên giá trị đầu vào tại
cùng tọa độ đó.
Cục bộ giá trị đầu ra tại một tọa P2
độ cụ thể phụ thuộc vào
giá trị đầu vào trong
vùng lân cận của cùng
một tọa độ đó.
Toàn cục giá trị đầu ra tại một tọa N2
độ cụ thể phụ thuộc vào
tất cả
các giá trị trong hình ảnh
đầu vào
Bảng 2: Các dạng hoạt động của hình ảnh. Kích thước ảnh = N × N; quy mô vùng lân cận = P ×
P. Lưu ý rằng độ phức tạp được chỉ định trong các phép toán trên mỗi pixel.

Điều này được thể hiện bằng đồ thị trong Hình 2.


Ảnh 2: Minh họa các loại hoạt động ảnh khác nhau

2.2.2 Các loại vùng lân cận


Các hoạt động lân cận đóng một vai trò quan trọng trong xử lý hình ảnh kỹ thuật số
hiện đại. Do đó, điều quan trọng là phải hiểu cách ảnh có thể được lấy mẫu và cách
thức liên quan đến các vùng lân cận khác nhau có thể được sử dụng để xử lý ảnh.
• Lấy mẫu hình chữ nhật - Trong hầu hết các trường hợp, hình ảnh được lấy mẫu
bằng cách đặt lưới hình chữ nhật trên một hình ảnh như minh họa trong Hình 1.
Điều này dẫn đến kiểu lấy mẫu được hiển thị trong Hình 3ab.
• Lấy mẫu lục giác - Một sơ đồ lấy mẫu thay thế được thể hiện trong Hình 3c và
được gọi là lấy mẫu lục giác.
Cả hai phương án lấy mẫu đều đã được nghiên cứu rộng rãi [1] và cả hai đều đại
diện cho một kiểu xếp chồng tuần hoàn có thể có của không gian ảnh liên tục. Tuy
nhiên, chúng tôi sẽ hạn chế sự tấn công, chỉ lấy mẫu hình chữ nhật khi nó vẫn còn,
do cân nhắc phần cứng và phần mềm, phương pháp lựa chọn.
Các phép toán cục bộ tạo ra giá trị pixel đầu ra b [m = mo, n = no] dựa trên các giá
trị pixel trong vùng lân cận của a [m = mo, n = no]. Một số vùng lân cận phổ biến
nhất là vùng lân cận 4 kết nối và vùng lân cận 8 kết nối trong trường hợp lấy mẫu
hình chữ nhật và vùng lân cận 6 kết nối trong trường hợp lấy mẫu hình lục giác
được minh họa trong Hình 3.

Ảnh 3a: Mẫu chữ nhất 4 kết nối Ảnh 3b: Mẫu chữ nhật 8 kết nối Ảnh 3c: Mẫu lục giác 6 kết nối

2.3 Thông số video


Chúng tôi không đề xuất mô tả việc xử lý các hình ảnh thay đổi động trong phần
giới thiệu này. Điều đó là phù hợp — cho rằng nhiều hình ảnh tĩnh được lấy từ
máy quay video và máy lấy khung hình — đề cập đến các tiêu chuẩn được liên kết
với ba sơ đồ video tiêu chuẩn hiện đang được sử dụng trên toàn thế giới - NTSC,
PAL và SECAM. Thông tin này được tóm tắt trong Bảng 3
Tiêu chuẩn NTSC PAL SECAM
Tính chất

ảnh/s 29.97 25 25
Ms/ảnh 33.37 40.0 40.0
Dòng/ảnh 525 625 625
(horiz./vert.)= tỷ lệ co 4:3 4:3 4:3
Xen kẽ 2:1 2:1 2:1
Ms/dòng 63.56 64.00 64.00
Trong một hình ảnh xen kẽ, các dòng được đánh số lẻ (1,3,5,…) được quét trong
một nửa thời gian quy định (ví dụ: 20 ms trong PAL) và các dòng được đánh số
chẵn (2,4,6,…) được quét trong một nửa còn lại. Việc hiển thị hình ảnh phải được
phối hợp với định dạng quét này. (Xem Phần 8.2.) Lý do xen kẽ các dòng quét của
hình ảnh video là để giảm cảm giác nhấp nháy trong hình ảnh được hiển thị. Nếu
một người định sử dụng hình ảnh đã được quét từ nguồn video xen kẽ, nó
điều quan trọng là phải biết liệu hai nửa hình ảnh đã được phần cứng số hóa "xáo
trộn" một cách thích hợp hay điều đó nên được thực hiện trong phần mềm. Hơn
nữa, việc phân tích các đối tượng chuyển động đòi hỏi sự cẩn thận đặc biệt với
video xen kẽ để tránh các cạnh "ngoằn ngoèo".
Số lượng hàng (N) từ nguồn video thường tương ứng 1-1 với các dòng trong hình
ảnh video. Tuy nhiên, số lượng cột phụ thuộc vào bản chất của thiết bị điện tử
được sử dụng để số hóa hình ảnh. Các bộ lấy khung hình khác nhau cho cùng một
máy quay video có thể tạo ra M = 384, 512 hoặc 768 cột (pixel) trên mỗi dòng
3. Công cụ
Một số công cụ là trung tâm để xử lý hình ảnh kỹ thuật số. Chúng bao gồm các
công cụ toán học như tích chập, phân tích Fourier và mô tả thống kê, và các công
cụ điều khiển như mã chuỗi và mã chạy. Chúng tôi sẽ trình bày những công cụ này
mà không có bất kỳ sự trình bày cụ thể nào. Sự trình bày sẽ tiếp theo trong các
phần sau.

You might also like