HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

SÁCH HƯỚNG DẪN HỌC TẬP

XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
(DÙNG CHO SINH VIÊN HỆ ĐÀO TẠO ĐẠI HỌC TỪ XA)

Biên soạn: TS Nguyễn Thanh Bình ThS Võ Nguyễn Quốc Bảo

LƯU HÀNH NỘI BỘ

TP HỒ CHÍ MINH - 2007

LỜI NÓI ĐẦU
Tài liệu hướng dẫn học tập môn "Xử lý âm thanh và hình ảnh" dành cho khối đào tạo từ xa chuyên ngành điện tử viễn thông. Tài liệu này giới thiệu những kiến thức cơ bản về xử lý âm thanh và hình ảnh. Đặc biệt, tác giả chú trọng tới vấn đề xử lý tín hiệu ứng dụng trong mạng viễn thông: đó là các phương pháp nén tín hiệu, lưu trữ, các tiêu chuẩn nén tín hiệu âm thanh và hình ảnh. Những kiến thức được trình bày trong tài liệu sẽ giúp học viên tiếp cận nhanh với các vấn đề thực tiễn thường gặp trong mạng viễn thông. Vì khối lượng kiến thức trong lĩnh vực xử lý âm thanh cũng như hình ảnh rất lớn, trong tài liệu hướng dẫn chỉ có thể nêu lên một số vấn đề chính. Để tìm hiểu sâu và rộng hơn học viên phải nghiên cứu thêm trong các sách tham khảo được tác giả đề cập tới trong phần cuối của tài liệu này. Đây là lần biên soạn đầu tiên, chắc chắn tài liệu còn nhiều sơ sót, rất mong các bạn đọc trong quá trình học tập và các thày cô giảng dạy môn học này đóng góp các ý kiến xây dựng.

Tp. Hồ Chí Minh 10/11/2007 Nhóm biên soạn

Biên soạn phần xử lý âm thanh: ThS Võ Nguyễn Quốc Bảo Biên soạn phần xử lý hình ảnh: TS Nguyễn Thanh Bình

Chương 1 Giới thiệu chung về xử lý tín hiệu 

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU
1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN
Xử lý tín hiệu là lĩnh vực khoa học được nghiên cứu và phát triển trong một thời gian dài. Hệ thống xử lý tín hiệu tương tự cũng như xử lý tín hiệu số được ứng dụng rất rộng rãi trong ngành viễn thông cũng như trong nhiều ngành khoa học khác. Trong những năm gần đây, các phương pháp xử lý tín hiệu số đang dần chiếm ưu thế, cho dù, về mặt bản chất, tín hiệu nguyên thủy được truyền đi và tín hiệu mà người nhận tin có thể tiếp thu được vẫn là tín hiệu tương tự. Xu hướng phát triển trên hình thành do hệ thống số có nhiều tính năng nổi trội của so với các hệ thống analog cổ điển: 1. Các hệ thống xử lý số có độ linh hoạt cao: có thể nhanh chóng thay đổi cơ chế hoạt động của phần cứng thông qua phần mềm điều khiển. 2. Độ ổn định cao, ít chịu ảnh hưởng của môi trường xung quanh, tính chất của hệ thống số hầu như không thay đổi theo thời gian. 3. Khả năng xử lý tín hiệu với độ chính xác cao. Tín hiệu số cho phép lưu trữ và sao chép nhiều lần với mức độ tin cậy cao. Khả năng chống nhiễu của tín hiệu số cao hơn so với tín hiệu tương tự. 4. Thời gian thiết kế và thi công các hệ thống số nhanh, kích thước nhỏ gọn, mức tiêu hao năng lượng thấp v.v. Trước đây, do tốc độ xử lý của máy tính còn chậm, việc xử lý các tín hiệu "phức tạp" như tín hiệu âm thanh chất lượng cao hay tín hiệu ảnh số không thể thực hiện được trong thời gian thực. Tuy nhiên, trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ vi điện tử, nhược điểm nêu trên đã được khắc phục. Ví dụ điển hình là DSP xử lý ảnh và âm thanh cao cấp của hãng Texac Instrument TMS320DM6446 Digital Media System-on-Chip làm việc với tần số xung nhịp 594 Mhz, cho phép thực hiện nén video theo chuẩn MPEG-2 và MPEG-4 thời gian thực (http://focus.ti.com/docs/prod/folders/print/tms320dm6446.html). Tốc độ xử lý của DSP này là 4752 MIPS (Million Instructions Per Second - MIPS). DSP TMS320DM6446 được tích hợp 4 kênh biến đổi DAC (54MHz) để tạo các tín hiệu video tiêu chuẩn theo hệ NTSC/PAL, S-Video cũng như video thành phần (Component video). Giá thành của DSP xử lý video chuyên dụng nói trên khoảng <45$. Hiện nay, kỹ thuật xử lý tín hiệu số đang được sử dụng rất hiệu quả trong các lĩnh vực xử lý âm thanh (nhận dạng tiếng nói, tổng hợp âm thanh và tiếng nói v.v.), xử lý ảnh (nâng cao chất lượng ảnh, phân vùng, nhận dạng .v.v), đo lường và điều khiển, thiên văn học v.v. Tài liệu hướng dẫn học tập môn xử lý âm thanh và hình ảnh này thực chất có thể được gọi là tài liệu hướng dẫn "nhập môn" xử lý âm thanh và hình ảnh. Thông thường các tài liệu nghiên cứu về xử lý ảnh và âm thanh được tách riêng vì: 1- Đây là hai lĩnh vực xử lý tín hiệu rất rộng, liên quan tới rất nhiều ngành khoa học khác nhau; 2- Quá trình xử lý tín hiệu âm thanh và hình ảnh phải được thực hiện dựa trên những hiểu biết sâu sắc về hệ thống thính giác và thị giác của con người. Ở các phần sau, ta sẽ thấy rằng đa số các kỹ thuật xử lý tín hiệu âm thanh và hình ảnh sẽ dựa trên đặc điểm tiếp thu thông tin của các giác quan nói trên; 3- Tín hiệu âm thanh và hình ảnh khác nhau về bản chất: tín hiệu âm thanh là tín hiệu một chiều còn tín hiệu hình ảnh (tĩnh hay động) là tín hiệu hai hoặc ba chiều. Chính vì thế, công cụ toán học để mô tả và phân tích quá trình xử lý hai loại tín hiệu trên cũng khác nhau. Tuy âm thanh và hình ảnh là hai tín hiệu tương đối khác nhau, nhưng quá trình xử lý chúng    3 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

vẫn được mô tả dựa trên nền tảng lý thuyết xử lý tín hiệu tổng quát. Sau đây chúng ta nhắc lại một số những khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu.

1.1.1 Tín hiệu và phân loại tín hiệu
Tín hiệu do một thiết bị đầu cuối tạo ra, tín hiệu là biểu diễn vật lý (dòng điện, điện áp...) của tin tức, được truyền đi từ đầu phát đến đầu thu. Tín hiệu có thể được biểu diễn bằng một hàm

của nhiều biến số: m(t ) = f (t , v, f , ϕ ) , f - tần số, t - thời gian, v - biên độ, ϕ - trạng thái pha.

Khi phân loại tín hiệu ta có thể dựa trên các cơ sở khác nhau như phân loại theo năng lượng, hình thái, theo tính chất của phổ của tín hiệu v.v. Trong lý thuyết tín hiệu có hai lớp tín hiệu quan trọng đó là tín hiệu xác định và ngẫu nhiên. Tín hiệu xác định là tín hiệu có quá trình biến đổi biểu diễn bằng một hàm thời gian, và có thể xác định chính xác ở mọi thời điểm. Các tín hiệu xác định có vai trò rất quan trọng trong lý thuyết tín hiệu cổ điển. Tín hiệu xác định còn chia ra thành tín hiệu tuần hoàn (theo chu kỳ T) và không tuần hoàn (phi chu kỳ).Tín hiệu tuần hoàn là những tín hiệu có thể biểu diễn bằng công thức như sau: x (t ) = x (t + kT ) k − nguyeân - tín hiệu này tuân theo quy luật lặp lại đều với chu kỳ T. Tín hiệu ngẫu nhiên là các tín hiệu mà không thể dự kiến trước hành vi của chúng theo thời gian và để biểu diễn chúng phải dựa trên lý thuyết thống kê. Trên thực tế, các tín hiệu thông tin đều mang tính chất ngẫu nhiên. Tín hiệu có thể có biên độ và biến thời gian (không gian) là rời rạc hay liên tục, do đó chúng ta còn phân biệt bốn loại tín hiệu sau: Tín hiệu tương tự (analog) Biên độ Biến thời gian liên tục liên tục Tín hiệu lượng tử rời rạc liên tục Tín hiệu rời rạc liên tục rời rạc Tín hiệu số (digital) rời rạc rời rạc

hiệu rời rạc là xs ( nTs ) , nTs là biến độc lập, rời rạc, n là số nguyên, Ts là chu kỳ lấy mẫu.

Như vậy, tín hiệu tương tự là tín hiệu có biên độ và biến thời gian là liên tục. Nếu tín hiệu được biểu diễn bằng hàm của biến rời rạc thì tín hiệu đó là tín hiệu rời rạc. Ký hiệu chung của tín Tín hiệu có biên độ và thời gian đều rời rạc được gọi là tín hiệu số, ký hiệu là xd ( n ) . Ngoài ra, dựa trên tính chất của tin tức truyền đi, người ta còn phân loại các tín hiệu sau:

- Tín hiệu thoại (tiếng nói con người). - Tín hiệu hình ảnh tĩnh hay ảnh động (tín hiệu video) - Tín hiệu dữ liệu (data) dùng trong hệ thống máy tính, bộ vi xử lý.
Một số tín hiệu khác, phân biệt theo bề rộng phổ và tần số (tín hiệu dải rộng, dải hẹp, cao tần v.v.) cũng sẽ được định nghĩa và sử dụng trong những phần tiếp theo.

1.1.2 Tín hiệu rời rạc
Tín hiệu x(t) có biến thời gian t rời rạc được gọi là tín hiệu rời rạc, chúng ta có thể ký hiệu là {xn} với n là số nguyên (n = 0, ±1, ±2, … ).

 

 4 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.1.2.1 Biểu diễn tín hiệu rời rạc
a- Biểu diễn toán học Xét hàm x(n) với n là phần tử nguyên. Ký hiệu tín hiệu rời rạc :

x(n)

n

x = { x( n )}
⎧bieåu thöùc toaùn x ( n) = ⎨ ⎩0
b- Biểu diễn bằng đồ thị

− ∞ < n < +∞

-1 0 1 2 3 4 5 6 Hình 1.1.1 Tín hiệu rời rạc

N1 ≤ n ≤ N 2 n coøn laïi

Để minh hoạ theo kiểu nhìn trực quan, ta có thể vẽ đồ thị (hình 1.1.1) của dãy x(n). Biểu diễn bằng dãy số rời rạc như sau :

c-

Chúng ta không để ở dạng chung (một tổng hay tích) mà khai triển các giá trị của tín hiệu

x (n ) = {..., n (n − 1), x (n ), x (n + 1),...}
3 1 1 x (n ) = {..., 0, 1, , , , 0, ,...} 4 2 4 ↑

↑ : chỉ mẫu tại n = 0.

1.1.2.2 Các phép biến đổi tín hiệu rời rạc
a- Phép nhân hai tín hiệu rời rạc :

x. y = {x(n). y(n)}
b- Phép nhân tín hiệu rời rạc với hằng số :

(1.1.1)

α. y = {α. y(n)}
c- Phép cộng hai tín hiệu rời rạc :

(1.1.2)

x + y = {x(n) + y(n)}
d- Phép dịch (trễ) : Dãy x được dịch sang phải n0 mẫu, thành dãy y :

(1.1.3)

y (n) = x(n − n 0 )

với n0 > 0

(1.1.4)

Dãy x được dịch sang trái n0 mẫu, thành dãy y :

y(n ) = x (n + n 0 )

với n0 > 0

(1.1.5)

Như vậy một tín hiệu x(n) bất kỳ có thể biểu diễn :

x ( n) =

k = −∞

∑ x(k )δ (n − k )

(1.1.6)

 

 5 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

e- Tín hiệu rời rạc tuần hoàn với chu kỳ là N nếu thoả mãn :

x(n) = x(n + N )

, ∀ n.

(1.1.7)

Tín hiệu tuần hoàn có thể được ký hiệu với chỉ số p (period) : xp(n). Tín hiệu chỉ được xác định trong một khoảng hữu hạn N mẫu được gọi là tín hiệu có độ dài hữu hạn N. f- Tín hiệu năng lượng và tín hiệu công suất: * Năng lượng của tín hiệu được định nghĩa bằng tổng bình phương các modul :

E xN =

n=−∞

x( n )

2

(1.1.8)

* Công suất trung bình của tín hiệu rời rạc được định nghĩa như sau:

PxN = lim

N 1 2 ∑ x( n ) N →∞ 2 N + 1 n=− N

(1.1.9)

g- Tín hiệu tuần hoàn và tín hiệu không tuần hoàn * Tín hiệu là tuần hoàn với chu kỳ N (N > 0) , nếu và chỉ nếu x(n + N) = x(n) Giá trị nhỏ nhất của N được gọi là chu kỳ. x(n + kN) = x(n) ; k nguyên dương * Nếu không có giá trị N thỏa (1.1.10), thì tín hiệu gọi là không tuần hoàn. h- Tín hiệu chẵn và tín hiệu lẻ Tín hiệu x(n) được gọi là chẵn khi x(-n) = x(n) Ngược lại, tính hiệu x(n) được gọi lẻ khi x(-n) = -x(n) i- Phép gập tín hiệu: Thay biến n bằng (-n), kết quả ta có x ( n ) thay vì x ( − n ) . Phép biến đổi này thực hiện bằng cách lấy đối xứng tín hiệu x ( n ) qua gốc thời gian. (1.1.12) (1.1.11) (1.1.10)

1.1.3 Phân loại hệ thống 1.1.3.1 Hệ thống tương tự Quá trình biến đổi tín hiệu được thực hiện trong hệ thống xử lý tín hiệu. Các hệ thống xử lý tín hiệu được phân loại dựa vào đặc trưng của tín hiệu mà nó xử lý. Từ cách phân loại tín hiệu trên đây, ta có các hệ thống xử lý tín hiệu tương ứng như sau:
Hệ thống tương tự: các mạch lọc tương tự, mạch khuyếch đại, nhân tần số, điều chế tín hiệu v.v. Hệ thống rời rạc: mạch tạo xung, điều chế xung v.v Hệ thống số: mạch lọc số..    6 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Ngoài ra cũng còn các hệ thống hỗn hợp khác như hệ thống biến đổi tương tự- số hay ngược lại. Tín hiệu vào và tín hiệu ra của một hệ thống quan hệ với nhau thông qua toán tử biến đổi T:

T ⎡ x ( t )⎤ = y ( t ) ⎣ ⎦

hay

T x ( t ) ⎯⎯ y ( t ) →

(1.1.13)

1.1.3.1.1 Các tính chất của hệ thống tương tự
a) Tính tuyến tính: Hệ thống là tuyến tính khi nó có tính xếp chồng:

x 1 ( t ) → y1 ( t )
nếu

x 2 (t ) → y 2 (t ) a 1 x 1 ( t ) + a 2 x 2 ( t ) → a 1 y1 ( t ) + a 2 y 2 ( t )

(1.1.14)

b) Tính bất biến theo thời gian: Hệ thống được gọi là bất biến nếu

y ( t ) = T ⎡ x ( t ) ⎤ thì y ( t − t0 ) = T ⎡ x ( t − t0 ) ⎤ ⎣ ⎦ ⎣ ⎦
c) Tính nhân quả

(1.1.15)

Hệ thống được gọi là nhân quả nếu đáp ứng của nó tại thời điểm bất kỳ chỉ phụ thuộc vào các giá trị của tín hiệu vào ở thời điểm hiện tại và quá khứ. d) Tính ổn định: Một hệ thống được gọi là ổn định nếu tín hiệu ra giới hạn với tất cả các tín hiệu vào giới hạn. Dựa trên các tính chất đã nêu của hệ thống, chúng ta có thể phân loại các hệ thống như sau: hệ thống tuyến tính, hệ thống bất biến, hệ thống nhân quả, hệ thống tuyến tính bất biến.

1.1.3.1.2 Các hệ thống tuyến tính bất biến (LTI)
Các hệ thống tuyến tính bất biến thường được biểu diễn trong miền thời gian dưới các dạng sau: Phương trình vi phân Phương trình trạng thái Đáp ứng xung.

Đáp ứng xung của hệ thống h ( t ) là đáp ứng ra của hệ thống khi tín hiệu đưa vào là xung đơn vị. Nếu hệ thống là tuyến tính và bất biến thì tín hiệu ra của hệ thống có thể tìm được thông qua tích chập giữa tín hiệu vào và hàm đáp ứng xung:

y (t ) = x (t ) ∗ h (t ) =

−∞

∫ x (τ ) h ( t − τ ) dτ

(1.1.16)

Các tính chất của hệ thống LTI Tính nhân quả Hệ thống LTI là nhân quả nếu h ( t ) = 0 với nếu h ( t ) = 0 với  

∀t

và ngược lại

∀t thì hệ thống là nhân quả.
 7 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Tính ổn định của hệ thống LTI Cho tín hiệu vào hệ thống được giới hạn biên độ:

x ( t ) ≤ M x < ∞ , M x là hằng số.

Trong trường hợp này, hệ thống sẽ là ổn định nếu đáp ứng xung của nó thỏa mãn điều kiện:

−∞

∫ h ( t ) dt < ∞ . Điều kiện này là cần và đủ để hệ thống LTI là ổn định.
t ≠0.
1.1.3.1.3 Phương trình sai phân tuyến tính hệ số hằng

Hệ thống LTI không nhớ: hệ thống tuyến tính bất biến là không nhớ nếu h ( t ) = 0 với

Cho x ( t ) và y ( t ) là tín hiệu vào ra của hệ thống tuyến tính bất biến. Phương trình sai phân tuyến tính hệ số hằng tổng quát của hệ thống có thể biểu diễn dưới dạng:
N M

∑ ak y( k ) ( t ) = ∑ br x( r ) ( t )
k =0 r =0

(1.1.17)

N, M là số nguyên dương, N là bậc của phương trình. Nghiệm đầy đủ của phương trình bằng tổng nghiệm riêng yr ( t ) và nghiệm thuần nhất

y0 ( t ) : y ( t ) = yr ( t ) + y0 ( t ) .
Trong đó nghiệm thuần nhất y0 ( t ) là nghiệm của phương trình thuần nhất:

∑ ak y( k ) ( t ) = 0 .
k =0

N

(1.1.18)

Hệ thống rời rạc được đặc trưng bởi toán tử T làm nhiệm vụ biến đổi dãy vào x ( n ) (là tín hiệu rời rạc) thành dãy ra y ( n ) . Toán tử T cho chúng ta thấy quan hệ vào ra của hệ thống. Chúng ta có hai cách để biểu diễn toán tử T:

1.1.3.2 Hệ thống rời rạc

T ⎡ x ( t )⎤ = y ( t ) ⎣ ⎦

hay

T x ( t ) ⎯⎯ y ( t ) →

(1.1.19)

Dãy vào còn được gọi là kích thích, còn dãy ra là đáp ứng của hệ thống đối với kích thích đang khảo sát.

1.1.3.2.1 Hệ thống rời rạc tuyến tính bất biến (LTI)
a. Hệ thống tuyến tính Hệ thống tuyến tính là hệ thống mà quan hệ vào ra của hệ thống thoả mãn nguyên lý xếp chồng. Với x1 ( n ) và x2 ( n ) là các chuỗi vào bất kỳ, y1 ( n ) và y2 ( n ) là các chuỗi ra tương ứng. Hệ
T T x1 ( n ) ⎯⎯ y1 ( n ); x2 ( n ) ⎯⎯ y2 ( n ) → → T a1 x1 ( n ) + a2 x2 ( n) ⎯⎯ a1 y1 ( n ) + a2 y2 ( n ) →

thống được gọi là tuyến tính khi: (1.1.20)

trong đó a1, a2 là các hằng số.
   8 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

b. Hệ thống tuyến tính bất biến Nếu y ( n ) là đáp ứng của kích thích x ( n ) thì hệ thống tuyến tính gọi là bất biến khi

y ( n − k ) là đáp ứng của hệ thống đối với kích thích x ( n − k ) . Nếu biến số là thời gian thì ta
có hệ thống bất biến theo thời gian. Đối với hệ thống bất biến, khi kích thích giống nhau thì đáp ứng sẽ giống nhau tại mọi thời điểm. c. Hệ thống nhân quả và không nhân quả Một hệ thống gọi là nhân quả khi tín hiệu ngõ ra tại một thời điểm nào đó chỉ phụ thuộc vào các giá trị của tín hiệu vào từ thời điểm đó trở lại. Ta có thể biểu diễn quan hệ vào - ra của hệ thống nhân quả bằng một phương trình toán học như sau:

y ( n ) = F ⎡ x ( n ) , x ( n − 1) , x ( n − 2 ) ....⎤ , với F là một hàm số nào đó. ⎣ ⎦
Nếu hệ thống không thỏa mãn được điều kiện trên thì ta gọi hệ thống đó là không nhân quả. d. Hệ thống ổn định và không ổn định là với một tín hiệu vào x ( n ) hữu hạn thì tín hiệu ra y ( n ) cũng hữu hạn: nếu Một hệ thống gọi là ổn định nếu nó bị chặn (Bounded Input Bounded Output - BIBO), tức

x ( t ) ≤ M x < ∞ , M x là hằng số thì

y ( t ) ≤ M y < ∞ , M y là hằng số.
1.1.3.2.2 Đáp ứng xung của hệ thống tuyến tính bất biến
Nếu hệ thống là tuyến tính và bất biến ta có: Khi hệ thống là tuyến tính và bất biến, thì ta có quan hệ sau :

y( n) =

k =−∞

∑ x(k )h(n − k )

(1.1.21)

h ( n ) là đáp ứng xung của hệ thống tuyến tính bất biến, không phụ thuộc vào biến k.
Đáp ứng của hệ thống có thể tìm được thông qua tích chập của kích thích và đáp ứng xung:

y( n) =

k =−∞

∑ x(k )h(n − k ) = x(n) ∗ h(n)

(1.1.22)

Như chúng ta đã biết, các hệ thống có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào trong quá khứ và hiện tại được gọi là hệ thống nhân quả.
Định lý : Hệ thống tuyến tính bất biến là nhân quả nếu và chỉ nếu đáp ứng xung h(n) = 0 với mọi n < 0.

1.1.3.2.3 Hệ thống tuyến tính bất biến và ổn định
Tính ổn định là một điều kiện ràng buộc quan trọng cần xét đến trong thực tế đối với các hệ thống xử lý tín hiệu. Theo định nghĩa, một hệ thống được gọi là ổn định hay là hệ BIBO (Bounded Input Bounded Output) nếu đáp ứng của hệ thống đó luôn bị chặn khi kích thích vào bị chặn. Thuật ngữ bị chặn có thể hiểu là “có giá trị hữu hạn”.
   9 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Định lý: Một hệ thống tuyến tính bất biến được xem là ổn định nếu và chỉ nếu đáp ứng xung thoả mãn điều kiện sau :

S=

n = −∞

∑ h(n) < ∞

(1.1.23)

1.1.3.2.4 Phương trình sai phân tuyến tính hệ số hằng
a. Phương trình sai phân tuyến tính Về mặt toán học, kích thích vào x(n) và đáp ứng ra y(n) của hầu hết các hệ thống tuyến tính thoả mãn một phương trình sai phân tuyến tính sau đây :

∑ a k ( n) y ( n − k ) = ∑ b r ( n) x ( n − r )
k =0 r =0

N

M

(1.1.24)

ở đây N và M là các số nguyên dương, N gọi là bậc của phương trình sai phân. Trong phương trình này, tập hợp các hệ số ak(n) và br(n) sẽ quyết định toàn bộ hành vi của hệ thống. Phương trình này chính là ảnh rời rạc của phương trình vi phân tuyến tính đối với các hệ số liên tục, phương trình vi phân tuyến tính có dạng sau :

∑ a (t )
k k =0

N

d k y (t ) M d r x (t ) = ∑ br ( r ) dt k dt r r =0

(1.1.25)

Chúng ta có thể nhận được phương trình sai phân tuyến tính từ một phương trình vi phân tuyến tính bằng cách thay gần đúng của các đạo hàm vào vị trí của các đạo hàm. Ví dụ với đạo hàm bậc một, ta có gần đúng như sau :

dy(t ) y(t ) − y(t − Δt ) ≈ dt Δt
b. Phương trình sai phân tuyến tính hệ số hằng Hệ tuyến tính bất biến đóng vai trò rất quan trọng trong nhiều ứng dụng thực tiễn. Một lớp hệ con của hệ tuyến tính bất biến là các hệ có tín hiệu vào và tín hiệu ra thoả mãn phương trình sai phân tuyến tính hệ số hằng (PT-SP-TT-HSH) dưới dạng:

∑ ak y( n − k ) = ∑ br x( n − r )
k =0 r =0

N

M

(1.1.26)

trong đó tập các hệ số ak và br đặc trưng cho hệ tuyến tính bất biến. Hệ tuyến tính bất biến mô tả bằng PT-SP-TT-HSH đóng vai trò đặc biệt trong xử lý tín hiệu số. Trong tài liệu này, chúng ta chỉ sử dụng các hệ thống xử lý tín hiệu được mô tả bằng phương trình tuyến tính bất biến hệ số hằng nói trên.

1.1.3.2.5 Các hệ thống đệ quy và không đệ quy
a. Hệ thống không đệ quy Một hệ thống tuyến tính bất biến được đặc trưng bởi PT-SP-HSH bậc N như sau :

∑ ak . y( n − k ) = ∑ br . x(n − r )
k =0 r =0

N

M

(1.1.27)

 

 10 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

nếu trường hợp N = 0, ta có :

y( n) = ∑
M

br . x( n − r ) r =0 a0

M

a0 ≠ 0
a0 = 1 (1.1.28)

y( n) = ∑ br . x( n − r )
r =0

Định nghĩa :

Hệ thống được đặc trưng bởi phương trình sai phân tuyến tính bậc không (N = 0) được gọi là hệ thống không đệ qui. b. Hệ thống đệ quy Trong trường hợp nếu N > 0, ta có phương trình SP-TT-HSH bậc N như sau :

y( n) = ∑

N b br . x( n − r ) − ∑ k . y ( n − k ) r =0 a0 k =1 a0

M

(1.1.29)

Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân bậc N > 0 được gọi là hệ thống đệ qui.

1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH

VÀO MẠNG BĂNG THÔNG ĐA DỊCH VỤ
1.2.1 Đặc điểm của multimedia
Multimedia là nguồn dữ liệu được tổng hợp từ các dạng thông tin khác nhau. Multimedia có thể có dạng rất đơn giản, đơn cử như một vài hình ảnh kèm với dữ liệu text hay có thể có dạng phức tạp như các file trình diễn multimedia sử dụng video clips, âm thanh, ảnh động và dữ liệu text. File multimedia chiếm một dung lượng rất lớn khi chứa dữ liệu là các file video. Ví dụ như tín hiệu video theo chuẩn PAL sau khi được số hóa cho luồng dữ liệu có tốc độ lên tới 170Mbps. Dữ liệu âm thanh chiếm ít dung lượng hơn, ví dụ tốc độ dòng bits của tín hiệu Dolby Digital Plus lên tới 6.144 Mbps. Đối với dữ liệu dạng ảnh thì dung lượng của nó tỷ lệ thuận với kích thước của ảnh. Một vấn đề quan trọng khác của multimedia là vấn đề đồng bộ. - Dữ liệu âm thanh rất nhạy cảm với độ trễ hay tỷ lệ mất gói trong quá trình lưu trữ hay trong qua trình truyền dẫn. - Dữ liệu video thì ít nhạy cảm hơn với độ trễ (phụ thuộc vào ứng dụng) nhưng vẫn nhạy cảm với jitter. Jitter có thể được loại bỏ trong các ứng dụng bằng các giải thuật tại máy thu. Trong bảng dưới đây mô tả một số yêu cầu đối với tín hiệu âm thanh và hình ảnh trên mạng ATM (RFC 1193 - Các yêu cầu cho các dịch vụ thời gian thực 11/1990).

 

 11 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Nhìn chung, dữ liệu multimedia có dung lượng rất lớn và có đặc tính nhạy cảm với trễ cũng như mất mát dữ liệu. Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng truyền hình, các đặc tính kỹ thuật của từng loại dữ liệu phải được biến đổi cho phù hợp với đường truyền. Việc điều chỉnh này bao gồm việc nén dữ liệu, định thời trong truyền dẫn và lưu trữ multimedia.

1.2.2 Nén tín hiệu trong mạng đa dịch vụ
Các kỹ thuật và giải thuật nén quyết định đến sự sống còn của các mạng đa dịch vụ. Ví dụ như một kênh truyền hình số không nén có thể yêu cầu băng thông lên đến 216 Mbps. Nếu chúng ta không dùng kỹ thuật nén, hệ thống chỉ có thể phục vụ đồng thời cho một số ít người. Nén là giải pháp cứu cánh cho phép việc truyền bá rộng rãi video số và multimedia. Kỹ thuật nén phụ thuộc vào giải thuật được cài đặt trên phần cứng hoặc phần mềm của máy phát và máy thu. Khi ứng dụng yêu cầu tốc độ nén và giải nén cao, giải thuật phải được cài đặt trên phần cứng (card âm thanh hay card đồ họa trên máy tính). Nén dữ liệu là giải pháp để giảm bớt áp lực về băng thông trên mạng và giảm bớt không gian lưu trữ, tuy nhiên nó cũng tạo ra một số nhược điểm đáng kể. Một số kỹ thuật nén hoạt động dựa trên ý tưởng lược bớt các thông tin kém quan trọng trong tín hiệu vì thế sẽ tạo ra sự mất mát độ phân giải trong tín hiệu nén. Nhưng bên cạnh đó, việc nén dữ liệu sẽ làm tăng tính bảo mật của thông tin khi được truyền qua mạng công cộng. Khi tiến hành nén dữ liệu chúng ta phải quan tâm đến các yếu tố sau: độ phức tạp của phần cứng và phần mềm, thời gian trễ gây nên bởi quá trình xử lý nén và giải nén và cũng như các yếu tố quan trọng khác. Trong các ứng dụng khác nhau người ta sử dụng các phương pháp mã hóa khác nhau để tận dụng tối đa tài nguyên sẵn có, đồng thời đạt chất lượng dịch vụ cao nhất. Ví dụ như hội nghị video phải được thực hiện và xử lý trong thời gian thực, vì thế các phương pháp má hóa và giải mã được phải thỏa mãn các tiêu chuẩn xử lý trong thời gian thực. Đây là lý do quan trọng mà tiêu chuẩn H.261 được thiết kế. Một ví dụ khác là việc truyền file video qua mạng có dây, không dây tới hệ thống lưu trữ video không đòi hỏi thời gian thực, quá trình thực hiện ít nhạy cảm với thời gian trễ nên thời gian xử lý mã hóa và giải mã không là một vấn đề quan trọng, ngược lại hiệu quả nén mới là tiêu chí đặt lên hàng đầu, vì vậy tiêu chuẩn nén MPEG được thiết kế (ban đầu) dựa trên quan điểm này.

1.2.3 Lưu trữ
Như đã nói ở trên, thông tin âm thanh chất lượng cao và video trong multimedia làm cho luồng số tổng hợp có kích thước rất lớn, vì thế lưu trữ dữ liệu là một trong những vấn đề quan
   12 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

trọng trong hệ thống multimedia. Hiện nay, hệ thống multimedia sử dụng hầu hết các công nghệ truyền thống để ghi dữ liệu đó là các công nghệ lưu trữ từ, quang và công nghệ flash. Giá thành các hệ thống lữu trữ dung lượng lớn ngày càng hạ, trong khi các thông số kỹ thuật liên tục được cải thiện. Ví dụ, các ổ đĩa cứng (HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới 300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Hệ thống RAID (Redundant Array of Independent Disks) có thể được thiết lập từ 8, 16 hoặc nhiều hơn nữa các ổ cứng có dung lượng lên tới 750 GB mỗi ổ. Với dung lượng 12 TB, hệ thống RAID cho phép ghi tới ~2700 giờ video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Giá thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng 1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps. Trong các hệ thống truyền dẫn có băng thông hẹp, việc truyền tải dữ liệu multimedia không thể thực hiện trong thời gian thực, khi đó các user đầu cuối phải sử dụng thiết bị lưu trữ cục bộ. Toàn bộ dữ liệu sau khi tải về sẽ được giải mã để trình chiếu offline. Ví dụ như mạng Internet chỉ có khả năng phân phối video và audio trực tuyến với chất lượng thấp, tuy nhiên lưu trữ cục bộ vẫn cho phép người dùng nghe nhạc hoặc xem video chất lượng cao. Hệ thống lưu trữ ngày càng được cải tiến để đáp ứng nhu cầu này. Các thiết bị lưu trữ như CDROM và DVD cũng được cải tiến để cung cấp luồng dữ liệu tốc độ cao. Công nghệ CDROM hiện tại có thể truyền tải dữ liệu khoảng 64 Mbps hay cao hơn, lưu trữ khoảng 700MB dữ liệu và có thời gian truy cập khoảng 300 ms. Đĩa DVD một mặt có dung lượng ~4.7 GB. Với các thông số như vậy, công nghệ CD ROM là tạm chấp nhận được cho một số ứng dụng. Hiện tại công nghệ đĩa cứng vẫn được cải tiến liên tục để phục vụ cho nhu cầu lưu trữ đa dạng của dữ liệu multimedia ngày càng đòi hỏi những tiêu chuẩn khắt khe về không gian lưu trữ, thời gian trễ…

1.2.4 Băng thông
Các ứng dụng multimedia, đặc biệt các ứng dụng liên quan đến video và hình ảnh yêu cầu băng thông rất lớn. Tuy nhiên băng thông là nguồn tài nguyên giới hạn. Tăng băng thông đồng nghĩa với việc tăng chi phí để nâng cấp, cài đặt các thiết bị truyền dẫn quang, các thiết bị đầu cuối phức tạp, các bộ chuyển mạch tốc độ cao…. Mặc dù hiện này công nghệ chuyển mạch đã phát triển mạnh mẽ cũng với mạng cáp quang cho phép cung cấp nhiều băng thông hơn, nhưng kinh nghiệm cho thấy việc phát triển của mạng luôn luôn thấp hơn nhu cầu thực tế. Do đó, cần có cơ chế phân phối và quản lý băng thông cho các ứng dụng tại thiết bị đầu cuối để băng thông được sử dụng một cách hợp lý và hiệu quả.

1.2.5 Chất lượng dịch vụ (Quality of Service)
Hiện này nhu cầu trao đổi dữ liệu multimedia qua mạng là rất lớn. Để đảm bảo chất lượng dịch vụ ở đầu cuối, các thông số quan trọng sau phải được đánh giá và điều khiển: tỷ lệ lỗi bit (Bit Error Ratio), tỷ lệ mất gói, thời gian trễ và sự biến thiên của thời gian trễ…Ở một số dịch vụ tài nguyên của mạng sẽ được dành sẵn để đảm bảo các thông số trên. Ví dụ như trong mạng ATM, người dùng đầu cuối sẽ được phân định các mức băng thông và chất lượng dịch vụ khác nhau phụ thuộc vào ứng dụng cụ thể. Với các ứng dụng liên quan đến thoại, tài nguyên của mạng được phân phối sao cho mức trễ nằm trong phạm vi cho phép để đảm bảo chất lượng thoại.

 

 13 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.2.6 Tương tác
Ngày này, cùng với sự phát triển của công nghệ, tồn tại rất nhiều các loại phần cứng khác nhau, các loại mạng khác nhau, các ứng dụng khác nhau và các loại định dạng multimedia khác nhau. Việc tương tác để chúng cùng hoạt động được là vấn đề cốt lõi của người dùng đầu cuối multimedia. Để giải quyết vấn đề đó, tổ chức IMA (Interactive Multimedia Association) và MMCF (Multimedia Communications Forum) được thành lập để phát triển các giải pháp giải quyết vấn đề tương tác multimedia giữa các chuẩn khác nhau. Mục đích của MMCF là phát triển: - Giải pháp tương tác multimedia từ người dùng đầu cuối đến người dùng đầu cuối mà không phụ thuộc vào ứng dụng cũng như công nghệ truyền dẫn. - Phát triển Application Programming Interfaces (API) mở rộng hỗ trợ tương tác giữa người dùng đầu cuối với người dùng đầu cuối mà không phụ thuộc vào nhà sản xuất. Loại phần mềm như vậy được gọi dưới tên là ‘middleware” bởi vì nó liên quan đến ứng dụng của người dùng đầu cuối cũng như định dạng file, kỹ thuật lưu trữ và mạng truyền dẫn. IMA đảm nhận trách nhiệm kết hợp các tiêu chuẩn định dạng multimedia. Đây là một công việc khó khăn vì hiện này tồn tại rất nhiều định dạng cho âm thanh, hình ảnh và video. Hiện nay có khoản 20 mô hình (scheme) mã hóa âm thanh. Hầu hết đều dựa trên u-law, Alaw và ADPCM sử dụng 4, 8 hay 16 bit/mẫu. Các định dạng tiêu biểu như: • Sound Blaster .VOC • Windows .WAV • Sounder/Soundtools .SND • Apple/SGI AIFF files Với dữ liệu ảnh màu cũng tồn tại rất nhiều định dạng khác nhau. Các định dạng ảnh màu cho phép hiển thị từ 16 đến hàng triệu màu. Các định dạng ảnh tĩnh tiêu biểu đang được sử dụng rộng rãi là: • Windows Bitmap .BMP • Graphic Interchange Format .GIF • Joint Picture Experts Group .JPEG or JPG • TIFF • PCX • PhotoCD .PCD Hiện nay trên toàn thế giới có tổng cộng khoảng 15 loại định dạng video cho truyền hình tương tự và truyền hình chất lượng cao (High Definition TV) đã được thực hiện và đưa ra thị trường. Một số định dạng tiêu biểu của video: • Motion JPEG • Video conferencing H.261 • Microsoft AVI Video for Windows • Apple Quicktime • Intel Indeo DVI
   14 

Chương 1 Giới thiệu chung về xử lý tín hiệu 

• ISO MPEG-1, MPEG-2, MPEG-4
TÓM TẮT CHƯƠNG 1

Trong chương một chúng ta đã nhắc lại một số khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu nói chung. Những kiến thức này sẽ được sử dụng và mở rộng để phục vụ cho quá trình nghiên cứu xử lý tín hiệu âm thanh và hình ảnh ở những chương sau. Phạm vi ứng dụng kỹ thuật xử lý âm thanh và hình ảnh nói chung rất rộng. Nhưng, nói riêng trong ngành viễn thông, mục đích chính của việc xử lý các tín hiệu nói trên nhằm vào việc nâng cao chất lượng tín hiệu và nén dung lượng tín hiệu để truyền qua kênh truyền. Trong chương một chúng ta cũng nhắc tới khái niệm về hệ thống truyền thông đa dịch vụ. Một số đặc điểm và các thông số quan trọng của hệ thống truyền thông đa dịch vụ được đã được nêu ra. Có thể thấy rằng, tín hiệu audio và video là một phần thông tin multimedia phải được xử lý để đáp ứng nhưng yêu cầu khắt khe đặt ra trong hệ thống truyền thông đa dịch vụ. Đó là các tiêu chuẩn về độ nén, thời gian trễ, các đòi hỏi về cấu hình bộ mã hoá và giải mã v.v. Trong mạng truyền thông đa dịch vụ, vai trò của xử lý ảnh và âm thanh trở nên vô cùng quan trọng. Trong các chương tiếp theo của tài liệu này, chúng ta sẽ giới thiệu cụ thể hơn về các công cụ toán học được sử dụng để phân tích từng loại tín hiệu cũng như các ứng dụng riêng của xử lý âm thanh và hình ảnh.
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 1

1. Cho biết ưu điểm và nhược điểm của hệ thống xử lý tín hiệu số 2. Kỹ thuật xử lý âm thanh được sử dụng trong các lĩnh vực khoa học nào? 3. Liệt kê các ứng dụng chính của hệ thống xử lý ảnh 4. Phân tích các phương pháp phân loại tín hiệu. Trong các hệ thống xử lý tín hiệu, cách phân loại tín hiệu nào được sử dụng rộng rãi nhất. 8. Các hệ thống xử lý tín hiệu được phân loại theo cách nào? Trong thực tế chúng ta thường gặp những hệ thống xử lý tín hiệu loại nào? 9. Thế nào là hệ thống xử lý tín hiệu tuyến tính và bất biến? 10. Nêu định nghĩa hàm đáp ứng xung của hệ thống xử lý tín hiệu 12. Thế nào là hệ thống nhân quả và ổn định? 13. Phát biểu định nghĩa hệ thống đệ quy. Cho biết hàm đáp ứng xung của hệ thống xử lý tín hiệu nào có chiều dài hữu hạn? 14. Thế nào là Multimedia? Phân tích tầm quan trọng của kỹ thuật nén tín hiệu trong lĩnh vực truyền dẫn dữ liệu Multimedia. 15. Nêu ra các phương tiện thường được dùng để lưu trữ dữ liệu số? Những thông số nào đặc trưng cho hệ thống lưu trữ dữ liệu? 16. Cho biết các định dạng ảnh tĩnh và ảnh động thông dụng được sử dụng trong hệ thống truyền phát multimedia hiện nay?

 

 15 

Chương 2 Kỹ thuật xử lý âm thanh

CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH
2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH
2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh 2.1.1.1 Đặc tính của âm thanh tương tự Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.

Hình 2.1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau. Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau phải dùng một tỉ lệ thời gian. Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn. Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Trong giáo trình này, tập trung đề cập đến hệ thống số xử lý âm thanh. Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme). Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị. Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có 16

Chương 2 Kỹ thuật xử lý âm thanh thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại khoảng 60bit/giây. Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần quan tâm chung là: 1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại 2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại. Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động. 2.1.1.2 Khái niệm tín hiệu Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như: Âm thanh, tiếng nói: dao động sóng theo thời gian (t) Hình ảnh: cường độ sáng theo không gian (x, y, z) Địa chấn: chấn động địa lý theo thời gian Biểu diễn toán học của tín hiệu: hàm theo biến độc lập Ví dụ:

u (t ) = 2t 2 − 5 f ( x, y ) = x 2 − 2 xy − 6 y 2
Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên. Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện phép toán còn được gọi là xử lý tín hiệu. 2.1.1.3 Phân loại tín hiệu Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần, cùng chung mô tả một đối tượng nào đó, thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECGElectroCardioGram), tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu RGB. Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen. Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a, b], ký hiệu x(t ) .

17

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Hìn 2.1.1 Tín hiệu liên tụ theo thời gian nh n ục g Tín hiệu rờ rạc thời gian: là tín h ời g hiệu chỉ được định nghĩa tại những thời điểm rờ rạc c a t ời khác nhau, ký hiệu x(n) . n u

Hìn 2.1.2 Tín hiệu rời rạc theo thời gian nh n c g Tín hiệu liên tục giá tr là tín hiệu có thể nhận trị bất kỳ t rị: u n trong đoạn [Ymin , Ymax ] , v dụ ví tín hiệ tương tự ( ệu (analog).

Hìn 2.1.3 Tín hiệu liên tụ giá trị nh n ục Tín hiệu rờ rạc giá tr tín hiệu c nhận trị trong một tậ trị rời rạc định trước (tín ời rị: chỉ ập c ố). hiệu số

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.4 Tín hiệu rời rạc giá trị Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Hình 2.1.5 Tín hiệu analog Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Hình 2.1.6 Tín hiệu số Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ, thông thường có công thức xác định rõ ràng 2.1.1.4 Phân loại hệ thống xử lý Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ chính xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực hiện với các tín hiệu có tần số cao 19

Chương 2 Kỹ thuật xử lý âm thanh 2.1.1.5 Hệ thống số xử lý âm thanh Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng như chấp nhận tầm biên độ âm thanh rất lớn. Các đặc tính của một tín hiệu tai người nghe được có thể được đo đạc bằng các công cụ phù hợp. Thông thường, tai người nhạy nhất ở tầm tần số 2kHz và 5kHz, mặc dù cũng có người có thể nhận dạng được tín hiệu trên 20kHz. Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith. Tín hiệu âm thanh được truyền qua hệ thống số là chuỗi các bit. Bởi vì bit có tính chất rời rạc, dễ dàng xác định số lượng bằng cách đếm số lượng trong một giây, dễ dàng quyết định tốc độ truyền bit cần thiết để truyền tín hiệu mà không làm mất thông tin.

Hình 2.1.7 Để nhận được tám mức tín hiệu khác nhau một cách phân biệt, tín hiệu đỉnh-đỉnh của tín hiệu nhiểu phải nhỏ hơn hoặc độ sai biệt giữa các mức độ. Tỉ số tín hiệu trên nhiễu phải tối thiểu là 8:1 hoặc là 18dB, truyền bởi 3 bit. Ở 16 mức thì tỉ số tín hiệu trên nhiễu phải là 24dB, truyền bởi 4 bit. 2.1.1.6 Mô hình hóa tín hiệu âm thanh Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong việc khôi phục âm thanh. Chất lượng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong muốn, mô hình phải tổng quát và không sai lệnh so với giả định. Một điều cần lưu ý là hầu hết các tín hiệu âm thoại là các tín hiệu động trong thực tế, mặc dù mô hình thực tiễn thì thường giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang xét. Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình 20

Chương 2 Kỹ thuật xử lý âm thanh chuẩn cho việc phân tích dự đoán tuyến tính. Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu nhiễu trắng, P là bậc của mô hình AR:

s[u ] = ∑ s[n − i ]ai + e[n]
i =1

P

(2.1.1)

Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự nhiễu và tín hiệu tương tự điều hòa. Một mô hình khác phù hợp hơn đối với nhiều tình huống phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng như điểm 0. Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều ứng dụng, việc lựa chọn bậc của mô hình phù hợp để đảm bảo việc biểu diễn tín hiệu để không làm mất đi thông tin ban đầu là tương đối phức tạp. Có rất nhiều phương pháp dùng để ước lượng bậc của mô hình AR như phương pháp trong các phương pháp dùng để giảm nhiễu. Tín hiệu được cho bởi công thức (2.1.2):

⎛ nT ⎞ s[n] = ∑ ai [n]sin⎜ ∫ ωi (t )dt + φi ⎟ ⎜ ⎟ i =1 ⎝0 ⎠
Pn

(2.1.2)

Đây là mô hình tổng quát đối với các tín hiệu điều chế biên độ và điều chế tần số, tuy nhiên lại không phù hợp để mô tả các thành phần nhiễu tương tự, mặc dù nhiễu có thể được biểu diễn bởi số lượng hàm sin rất lớn. 2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh Để sử dụng máy tính trong xử lý âm thanh, người ta thường dùng phương pháp điều chế xung (Pulse Code Modulation - PCM). Dạng sóng âm thanh được chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ: Tín hiệu gốc là tín hiệu âm thanh lan truyền trong không khí như hình 2.1.8
Tín hiệu âm thanh dịch Air Displacement lan truyền trong không khí

Time

Hình 2.1.8 Dạng sóng âm thanh nguyên thủy Kế đến, sử dụng một microphone để thu tín hiệu âm thanh và chuyển đổi thành tín hiệu điện, biên độ điện áp ngõ ra của microphone (sau khi được khuếch đại) nằm trong khoảng ±1 volt như hình 2.1.9.

21

Chương 2 Kỹ thuật xử lý âm thanh

+1.0 Voltage +0.5 0 -0.5 -1.0 Time

Hình 2.1.9 Dạng sóng của tín hiệu điện Vì số lượng điểm dữ liệu là vô hạn nên không thể truyền đi tất cả các điểm trên trục thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn. Số lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate). Hình 2.1.10 mô tả 43 mẫu được lấy:
+32,767 Converter Output +16,383 0 -16,384 -32,768 1 43

Hình 2.1.10 Thực hiện việc lấy mẫu Tín hiệu điện áp dạng tương tự sau đó được lượng tử hóa và số hóa bằng thiết bị chuyển đổi tương tự-số (analog-to-digital converter). Khi sử dụng bộ lượng tử chuyển đổi 16bit/mẫu, tầm số nguyên ngõ ra có giá trị từ –32,768 đến +32,767, được mô tả như hình 2.1.11.
+32,767 Converter Output +16,383 0 -16,384 -32,768 Time

Hình 2.1.11 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số Kết quả của việc lấy mẫu và lượng tử được biến đổi thành một chuỗi gồm 43 chữ số biểu diễn các mẫu của dạng sóng ứng thời gian (hình 2.1.12).
+32,767 Recorded Value +16,383 0 -16,384 -32,768 1 43

Hình 2.1.12 Kết quả của việc lấy mẫu các giá trị 22

Chương 2 Kỹ thuật xử lý âm thanh Tín hiệu số có thể được chuyển đổi ngược thành tín hiệu tương tự bằng việc kết nối các điểm dữ liệu rời rạc lại với nhau. Dạng sóng kết quả được mô tả ở hình 2.1.13.
+32,767 Recorded V alue +16,383 0 -16,384 -32,768 1 43

Hình 2.1.13 Dạng sóng được tái tạo lại Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái tạo giữa hình 2.1.9 và hình 2.1.13, lý do: A. Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số nguyên và được làm tròn giá trị. B. Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận. Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một dạng sóng tín hiệu tương tự với độ chính xác hữu hạn. 2.1.1.8 Tần số lấy mẫu Khi chuyển đổi một âm thanh sang dạng số, điều cần lưu ý là tần số lấy mẫu của hệ thống xử lý phải đảm bảo để có thể phục hồi lại dạng sóng tín hiệu ban đầu một cách chính xác. Theo định lý lấy mẫu Nyquist và Shannon, tần số lấy mẫu xác định bởi tần số cao nhất của tín hiệu phục hồi. Để tái tạo lại dạng sóng có tần số là F , cần phải lấy 2 F mẫu trong một giây. Tần số này còn được gọi là tần số Nyquist. 2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh 2.1.2.1 Phép biến đổi z Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức

X (z ) =

n = −∞

∑ x ( n) z

−n

(2.1.3a) (2.1.3b)

x ( n) =

1 n−1 ∫ X ( z) z dz 2πj C

Biến đổi Z của x (n) được định nghĩa bởi biểu thức (2.1.3a). X (z ) còn được gọi là dãy công suất vô hạn theo biến z −1 với các giá trị của x (n) chính là các hệ số của dãy công suất. Miền hội tụ ROC là { z X (z ) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ, hay nói cách khác

n=−∞

∑ x(n) z

−n

<

(2.1.4)

23

Chương 2 Kỹ thuật xử lý âm thanh Thông thường, miền hội tụ của z có dạng:

R1 < z < R2
Ví dụ: Cho x ( n ) = δ ( n − n0 ) . Theo công thức (2.1.3a), ta có X ( z ) = z − n0 Ví dụ: Cho x ( n ) = u ( n ) − u ( n − N ) . Theo công thức (2.1.3a), ta có

(2.1.5)

X ( z ) = ∑ (1).z
n =0

N −1

−n

1− z−N = 1 − z −1

n −n Ví dụ: Cho x ( n ) = a n .u ( n ) . Suy ra X ( z ) = ∑ a z = n =0 −1

1 ,a < z 1 − az −1
−n

Ví dụ: Cho x ( n) = −b n u ( − n − 1) . Then X ( z ) =

n=−∞

∑b z
n

=

1 , z <b 1 − bz −1
Biến đổi z

Bảng 2.1.1 Chuỗi tín hiệu và biến đổi z tương ứng Chuỗi tín hiệu 1. Tuyến tính 2. Dịch 3. Hàm mũ 4. Hàm tuyến tính 5. Đảo thời gian 6. Tương quan 7. Nhân chuỗi

ax1 ( n) + bx2 ( n ) x ( n + n0 )

aX 1 ( z ) + bX 2 ( z )

z n X ( z)
0

a n x(n )
nx(n) x(-n) x(n)*h(n) x(n)w(n)

X ( a −1 z )

−z

dX ( z ) dz

X ( z −1 )
X(z)H(z)

1 −1 ∫ X (ν )W ( z /ν )ν dν 2πj C

2.1.2.2 Phép biến đổi Fourier Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức

X (e jw ) =
x ( n) = 1 2π
π

n=−∞

∑ x(n)e
jw

− jwn

(2.1.6a) (2.1.6b)

∫ π X (e

)e jwn dw

Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế

z = e . Như mô tả trong hình 2.1.14, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ để tồn tại biến đổi Fourier là z = 1 , như vậy
iw

∑ x(n) < ∞

(2.1.7)

24

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.2 Vòng tròn đơn vị thuộc mặt phẳng z Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X (e iw ) là hàm điều hòa w, với chu kỳ là 2π . Bằng cách thay z = e iw ở bảng 2.1.1, có có được bảng biến đổi Fourier tương ứng. 2.1.2.3 Phép biến đổi Fourier rời rạc Trong trường hợp tín hiệu tương tự, tuần hoàn với chu kỳ N

~ ( n) = ~ ( n + N ) x x

−∞ < n<∞

(2.1.8)

Với ~ ( n) có thể có dạng là tổng rời rạc các tín hiệu sin thay vì tích phân như ở công x thức (2.1.9b). Phép biến đổi Fourier cho chuỗi tuần hoàn như sau
2π N −1 −j kn ~ X ( k ) = ∑ ~ ( n )e N x n=0

(2.1.9a) (2.1.9b)

~ (k ) = 1 x N

j kn ~ ∑ X ( k )e N k =0

N −1

Chuỗi x(n) hữu hạn, có giá trị bằng 0 với 0 ≤ n ≤ N − 1, có phép biến đổi z là.

X ( z ) = ∑ x ( n) z − n
n =0

N −1

(2.1.10)

Nếu chia X (z ) thành N điểm trên vòng tròn đơn vị, z k = e j 2πk N , k = 0,1,..., N − 1 , ta có:
j 2π k N

X (e

) = ∑ x ( n )e
n=0

N −1

−j

2π kn N

, k = 0,1,..., N − 1

(2.1.11)

Chuỗi tuần hoàn vô hạn ~ (n) có công thức từ x(n) như sau x

~ ( n) = x
j 2π k

r =−∞

∑ x(n + rN )

(2.1.12)

Ta nhận thấy rằng các mẫu X (e N ) từ phương trình (2.1.9a) và (2.1.11) chính là các hệ số Fourier của chuỗi tuần hoàn ~ (n) trong phương trình (2.1.12). Như vậy, một chuỗi có x chiều dài N có thể được biểu diễn bởi phép biến đổi Fourier rời rạc (DFT) như sau:
N −1 n =0 −j 2π kn N

X ( k ) = ∑ x ( n)e

, k = 0,1,..., N − 1

(2.1.13a)

25

Chương 2 Kỹ thuật xử lý âm thanh

1 x (n) = N

∑ X ( k )e
k =0

N −1

j

2π kn N

, n = 0,1,..., N − 1

(2.1.13b)

Điều khác biệt duy nhất giữa biểu thức (2.1.9a,b) và (2.1.13a,b) là ký hiệu ~ (loại bỏ ký hiệu ~ khi nói đến tín hiệu không tuần hoàn) và giới hạn hữu hạn 0 ≤ k ≤ N − 1 và 0 ≤ n ≤ N − 1. Lưu ý một điều là chỉ dùng phép biến đổi DFT cho tín hiệu tuần hoàn có tính chất là module của N .

x( n ) =

r =−∞

x( n + rN ) =

(2.1.14)

= ( x( n )) N
Bảng 2.1.2 Chuỗi và biến đổi DFT Chuỗi tín hiệu 1. Tuyến tính 2. Dịch 3. Đảo thời gian
N −1

Biến đổi N điểm DFT

ax1 ( n ) + bx 2 ( n) x (( n + n0 )) N x (( − n )) N

aX 1 ( k ) + bX 2 ( k ) e
j

2π kn0 N

X (k )

X * (k )
N

4. Kết hợp

∑ x(m)h((n − m))
m =0

X(k)H(k)

5. Nhân chuỗi

x(n)w(n)

1 N −1 ∑ X (r )W ((k − r )) N N r =0

2.2 MÔ HÌNH XỬ LÝ ÂM THANH
2.2.1 Các mô hình lấy mẫu và mã hoá thoại 2.2.1.1 Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý tín hiệu số, ta phải đổi tín hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục một cách tuần hoàn có chu kỳ là T giây. Gọi x (n) là tín hiệu rời rạc hình thành do quá trình lấy mẫu, tín hiệu liên tục xa (t ) , ta có:

x ( n ) = x a ( nT ) , − ∞ < n < ∞

(2.2.1)

Các mẫu x (n) phải được lượng hóa thành một tập các mức biên độ rời rạc rồi mới được đưa vào bộ xử lý số. Hình 2.2.1 minh họa một cấu hình tiêu biểu cho hệ thống xử lý tín hiệu tương tự bằng phương pháp số. Trong các phần sau, ta bỏ qua sai số lượng hóa phát sinh trong quá trình biến đổi A/D

26

Chương 2 Kỹ thuật xử lý âm thanh
Mạch lọc

xa (t )
A/D

x(n)
Mạch xử lý tín hiệu số

y (n)
D/A

ya (t )

x'a (t )
Mạch lọc

Tín hiệu liên tục

Hình 2.2.1 Cấu hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời rạc tạo ra từ quá trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến độc lập t và n của tín hiệu xa (t ) và x (n)

t = nT =

n Fs

(2.2.2)

Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B Hertz có thể khôi phục từ các mẫu của nó với điều kiện tần số lấy mẫu Fs ≥ 2 B mẫu / giây 2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục. Trong phần này, ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hoàn và sự tái tạo tín hiệu từ các mẫu của phổ của chúng Xét một tín hiệu liên tục xa (t ) với một phổ liên tục X a (F ) . Giả sử ta lấy mẫu

X a (F ) tại các thời điểm cách nhau ∂F Hertz. Ta muốn tái tạo X a (F ) hoặc xa (t ) từ các
mẫu X a (F ) Nếu tín hiệu tương tự xa (t ) có giới hạn thời gian là ℑ giây và Ts được chọn để

Ts > 2 ℑ thì aliasing không xảy ra và phổ X a (F ) có thể được khôi phục hoàn toàn từ các
mẫu. 2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc Xét một tín hiệu rời rạc không tuần hoàn x (n) có phép biến đổi Fourier:

X (ω ) =

n= −∞

∑ x(n)e

− jωn

(2.2.3)

Giả sử ta lấy mẫu X (ω ) tuần hoàn tại các điểm cách nhau ∂ω rad. Vì X (ω ) tuần hoàn với chu kỳ 2π , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết. Để thuận tiện, ta lấy N mẫu cách đều nhau trong khoảng 0 ≤ ω ≤ 2π theo khoảng cách ∂ω = 2π / N Xét ω = 2πk / N , ta được X ⎜ Xét tín hiệu x p (n) =
∞ ⎛ 2π ⎞ k ⎟ = ∑ x ( n)e − j 2πkn / N k = 0,1,..., N − 1 (2.2.4) ⎝ N ⎠ n = −∞

l =−∞

∑ x(n − lN )

nhận được bằng cách lặp lại tuần hoàn x (n) tại

mỗi N mẫu, tín hiệu này tuần hoàn với chu kỳ N , do đó có thể được triển khai theo khai triển Fourier

x p ( n) =

1 N −1 2π ∑ X ( N k )e j 2πkn / N , n = 0,1,..., N − 1 N k =0

(2.2.5)

Từ công thức x p (n) trên, ta nhận thấy có thể khôi phục tín hiệu x p (n) từ các mẫu của 27

Chương 2 Kỹ thuật xử lý âm thanh phổ X (ω ) . Như vậy, ta phải tìm ra mối tương quan giữa x p (n) và x (n) để có thể thực hiện khôi phục x (n) từ X (ω ) Vì x p (n) là sự mở rộng tuần hoàn của x (n) , nên x (n) có thể được khôi phục từ

x p (n) nếu không có aliasing ở cõi thời gian, nghĩa là nếu x (n) có thời gian giới hạn nhỏ hơn
hoặc bằng chu kỳ N của x p (n) . 2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại Chuẩn mã hóa âm thoại thông thường được nghiên cứu và phát triển bởi một nhóm các chuyên gia đã giành hết thời gian và tâm huyết thực hiện các công việc kiểm nghiệm, mô phỏng sao cho đảm bảo một tập các yêu cầu đưa ra đáp ứng được. Chỉ có các tổ chức với nguồn tài nguyên khổng lồ mới có thể thực hiện được các công việc khó khăn này, thông thường, thời gian tối thiểu cần thiết để hoàn thành một chuẩn trong trường hợp gặp nhiều thuận lợi trong quá trình là khoảng bốn năm rưỡi. Điều này không có nghĩa là một chuẩn được đưa ra thì “không có lỗi” hoặc không cần phải cải tiến. Do đó, các chuẩn mới luôn luôn xuất hiện sao cho tốt hơn chuẩn cũ cũng như phù hợp với các ứng dụng trong tương lai. Hội đồng chuẩn là các tổ chức có trách nhiệm trong việc giám sát việc phát triển các chuẩn cho một ứng dụng cụ thể nào đó. Sau đây là một số hội đồng chuẩn nổi tiếng được nhiều nhà cung cấp sản phẩm tuân theo Liên minh viễn thông quốc tế - International Telecommunications Union (ITU): Các chuẩn viễn thông của ITU ( chuẩn ITU-T) có uy tín trong việc định ra các chuẩn mã hóa âm thoại cho hệ thống mạng điện thoại, bao gồm các mạng vô tuyến lẫn hữu tuyến. Hiệp hội công nghiệp viễn thông - Telecommunications Industry Association (TIA): có trách nhiệm ban hành các chuẩn mã hóa thoại cho các ứng dụng cụ thể, là một thành viên của Viện tiêu chuẩn quốc gia Hoa Kỳ - National Standards Institute (ANSI). TIA đã thành công trong việc phát triển các chuẩn sử dụng trong các hệ thống tổng đài tế bào số Bắc Mỹ, bao gồm các hệ thống sử dụng chuẩn đa kết phân thời gian - Time division multiple access (TDMA) và Đa truy nhập phân chia theo mã - Code division multiple access (CDMA). Viện tiêu chuẩn viễn thông châu Âu - European Telecommunications Standards Institute (ETSI): ETSI có các hội viên từ các nước cũng như các công ty Châu Âu, là tổ chức đưa ra các chuẩn sản xuất thiết bị tại Châu Âu. ETSI được thành lập bởi nhóm có ảnh hưởng nhất trong lãnh vực mã hóa âm thoại là nhóm di động đặc biệt - Groupe Speciale Mobile (GSM), đã đưa ra rất nhiều chuẩn hữu dụng và được triển khai rất nhiều trên thế giới Bộ quốc phòng Hoa Kỳ - United States Department of Defense (DoD). DoD có liên quan đến việc sáng lập các chuẩn mã hóa thoại, được biết đến với các chuẩn liên bang Hoa Kỳ (U.S. Federal) dùng nhiều cho các ứng dụng quân sự Trung tâm phát triển và nghiên cứu các hệ thống vô tuyến của Nhật Bản - Research and Development Center for Radio Systems of Japan (RCR). Các chuẩn tế bào số được phát hành bởi RCR. 28

Chương 2 Kỹ thuật xử lý âm thanh Bảng 2.2.1 Các chuẩn mã hóa âm thoại chính Năm hoàn thành 1972a 1984 1987
b b

Tên chuẩn

Tốc độ bit truyền (kbps) 64 2.4 13 16, 24, 32, 40 7.95 5.6 6.7 4.8 16 8.5, 4, 2, 0.8 5.3, 6.3 8 12.2 7.4 2.4 12.2, 10.2, 7.95, 7.40, 6.70, 5.90, 5.15, 4.75

Các ứng dụng

ITU-T G.711 PCM FS 1015 LPC ETSI GSM 6.10 RPE-LTP ITU-T G.726 ADPCM TIA IS54 VSELP ETSI GSM 6.20 VSELP RCR STD-27B VSELP FS1016 CELP ITU-T G.728 LD-CELP TIA IS96 VBR-CELP ITU-T G.723.1 MPMLQ/ACELP ITU-T G.729 CS-ACELP ETSI GSM EFR ACELP TIA IS641 ACELP FS MELP ETSI AMR-ACELP

Sử dụng công cộng Liên lạc bảo mật Vô tuyến di động số Sử dụng công cộng Hệ thống thoại tế bào số TDMA Bắc Mỹ Hệ thống tế bào GSM Hệ thống tế bào Nhật Liên lạc bảo mật Sử dụng công cộng Hệ thống thoại tế bào số CDMA Bắc Mỹ Liên lạc đa phương tiện, điện thoại truyền hình Sử dụng công cộng Sử dụng công cộng Hệ thống thoại tế bào số TDMA Bắc Mỹ Liên lạc bảo mật Sử dụng công cộng viễn thông

1990c 1990b 1990c 1990 1991 1992
c b b

1993b 1995a 1995b 1996a 1996
a

1997b 1999
a

a

là được mô tả một phần là được giải thích đầy đủ c là được mô tả ngắn gọn mà không có mô tả kỹ thuật chi tiết
b

2.2.1.5 Kiến trúc của hệ thống mã hóa âm thoại Hình 2.2.2 mô tả sơ đồ khối của hệ thống mã hóa âm thoại. Tín hiệu âm thoại tương tự liên tục có từ nguồn cho trước sẽ được số hóa bởi bộ một bộ lọc chuẩn, bộ lấy mẫu (bộ chuyển đổi thời gian rời rạc), và bộ chuyển tín hiệu tương tự sang tín hiệu số. Tín hiệu ngõ ra là tín hiệu âm thoại thời gian rời rạc với các giá trị lấy mẫu cũng rời rạc hóa. Tín hiệu này được xem là tín hiệu âm thoại số.

29

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.2 Sơ đồ khối của hệ thống xử lý tín hiệu thoại Thông thường, hầu hết các hệ thống mã hóa âm thoại được thiết kế để hỗ trợ các ứng dụng viễn thông, với tần số giới hạn giữa 300 và 3400Hz. Theo lý thuyết Nyquist, tần số lấy mẫu tối thiểu phải lớn hơn hai lần băng thông của tín hiệu liên tục thời gian. Giá trị 8kHz thường được lựa chọn là tần số lấy mẫu chuẩn cho tín hiệu thoại. Bộ mã hóa kênh thực hiện việc mã hóa hiệu chỉnh lỗi của chuỗi bit truyền trước khi tín hiệu được truyền trên kênh truyền, nơi mà tín hiệu sẽ bị thay đổi do nhiễu cũng như giao thoa tín hiệu…. Bộ giải mã thực hiện việc hiệu chỉnh lỗi để có được tín hiệu đã mã hóa, sau đó tín hiệu được đưa vào bộ giải mã để có được tín hiệu âm thoại số có cùng tốc độ với tín hiệu ban đầu. Lúc này, tín hiệu số sẽ được chuyển sang dạng tương tự thời gian liên tục. Bộ phận thực hiện việc xử lý tín hiệu thoại chủ yếu của mô hình hệ thống xử lý thoại là bộ mã hóa và giải mã. Thông thường, khi xử lý các bài toán về truyền thoại, mô hình được đơn giản hóa như hình 2.2.3 Ví dụ tín hiệu thoại ngõ vào là tín hiệu rời rạc thời gian có tốc độ bit là 128kbps được đưa vào bộ mã hóa để thực hiện mã hóa chuỗi bit hoặc thực hiện nén dữ liệu thoại. Tốc độ của chuỗi bit thông thường sẽ có tốc độ thấp hơn tốc độ của tín hiệu ngõ vào bộ mã hóa. Bộ giải mã nhận chuỗi bit mã hóa này và tạo ra tín hiệu thoại có dạng là rời rạc thời gian và có tốc độ bằng với tốc độ của tín hiệu ban đầu truyền vào hệ thống.

Hình 2.2.3 Sơ đồ khối đơn giản hóa của bộ mã hóa âm thoại

30

Chương 2 Kỹ thuật xử lý âm thanh

2.2.1.6 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại

Tín hiệu âm thoại ngõ vào PCM Trích và mã hóa thông số 1 Chỉ số 1

Phân tích và xử lý

Trích và mã hóa thông số 2 Chỉ số 2 Đóng gói

...

Trích và mã hóa thông số N Chỉ số N Chuỗi bit

Chuỗi bit Chỉ số 1 Giải mã thông số 1

Mở gói Chỉ số 2 Giải mã thông số 2 Chỉ số N

...

Giải mã thông số N Âm thoại tổng hợp

Kết hợp và xử lý

Hình 2.2.4 Mô tả sơ đồ khối tổng quát của bộ mã hóa và giải mã âm thoại. Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm thu được các thông số đại diện cho một khung truyền. Các thông số ngày được mã hóa và lượng tử với mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được đóng gói và biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số đã quyết định trước và được truyền đến bộ giải mã.

31

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.5 Mô hình chung của bộ mã hóa âm thoại. Hình trên: bộ mã hóa, hình dưới: bộ giải mã. Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân được phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ giải mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết hợp với nhau và được xử lý để tạo lại tín hiệu âm thoại tổng hợp. 2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại Mục tiêu chính của của mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc độ bit nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù. Tốc độ bit tương ứng với âm thoại nào sẽ được truyền hoặc lưu trữ phụ thuộc vào chi phí của việc truyền hay lưu trữ, chi phí của mã hóa tín hiệu thoại số, và các yêu cầu về chất lượng của âm thoại đó. Trong hầu hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu nguyên thủy. Tốc độ bit truyền bị giảm bởi việc biểu diễn tín hiệu âm thoại (hoặc các thông số trong mô hình tạo âm thoại) với độ chính xác bị giảm, và bởi quá trình loại bỏ các thông tin dư thừa của tín hiệu. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm: Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho truyền dữ liệu. Điều này dẫn đến nếu tốc độ bit thấp sẽ làm tăng hiệu suất của hệ thống. Yêu cầu này lại xung đột với các các đặc tính khác của hệ thống, như là chất 32

Chương 2 Kỹ thuật xử lý âm thanh lượng của âm thoại. Trong thực tế, việc đánh đổi giữa các lựa chọn phụ thuộc vào áp dụng vào ứng dụng gì. Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp nhận được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính dễ hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói. Nhận dạng tiếng nói / ngôn ngữ khác nhau: kỹ thuật nhận dạng tiếng nói có thể phân biệt được giọng nói của người lớn nam giới, người lớn nữ giới và trẻ con cũng như nhận dạng được ngôn ngữ nói của người nói. Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tính hiệu thoại. Hiệu suất cao đối với các tín hiệu phi thoại (ví dụ như tín hiệu tone điện thoại): trong hệ thống truyền dẫn kinh điển, các tín hiệu khác có thể tồn tại song song với tín hiệu âm thoại. Các tín hiệu tone như là đa tần tone đôi – Dual tone multifrequency (DTMF) của tín hiệu âm bàn phím và nhạc thông thường bị chèn vào trong đường truyền tín hiệu. Ngay cả những bộ mã hóa thoại tốc độ thấp cũng có thể không thể tạo lại tín hiệu một cách hoàn chỉnh. Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích sử dụng được bộ mã hóa âm thoại trong thực tế, chi phí thực hiện liên quan đến việc triển khai hệ thống phải thấp, bao gồm cả việc bộ nhớ càn thiết để hỗ trợ khi hệ thống hoạt động cũng như các yêu cầu tính toán. Các nhà nghiên cứu mã hóa âm thoại đã nổ lực trong việc tìm kiếm hiện thực bài toán triển khai trong thực tiễn sao cho có hiệu quả nhất. Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu luôn luôn tồn tại, chính là thời gian trượt giữa âm thoại ngõ vào của bộ mã hóa với tín hiệu ngõ ra của bộ giải mã. Việc trễ quá mức sẽ sinh ra nhiều vấn đề trong việc thực hiện trao đổi tiếng nói hai chiều trong thời gian thực. 2.2.2 Các mô hình dùng trong xử lý âm thanh 2.2.2.1 Mô hình quang phổ 2.2.2.1.1 Mô hình sin Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có có dạng

y(t ) = ∑ Ai (t )e jφ ( t )
i

I

(2.2.6)

i =1

Với φ i (t ) = ∫ ω i (τ ) dτ , Ai (t ) và ω i (t ) là thành phần biên độ và tần số tương ứng của
−∞

t

thành phần sin thứ i . Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời gian thực, như vậy ta có thể viết lại

y (n) = ∑ Ai (n) cos(φi (n ))
i =1

I

(2.2.7)

33

Chương 2 Kỹ thuật xử lý âm thanh Với φ i ( n ) = ∫ ω i (τ ) dτ + φ 0 , i .
0 nT

(2.2.8)

Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào cũng có thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán trong mô hình này. Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta tách việc xử lý riêng tín hiệu này thành phần xử lý Stochastic ( Λ ) được ký hiệu là e (n ) .

y ( n) = ∑ Ai ( n) cos(φi (n )) + e(n)
i =0
Λ

I

(2.2.9)

Γ

Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu đồ ở hình 2.2.6. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt của tổng hợp mô hình phổ - spectral modeling synthesis.

Hình 2.2.6 Phân tích các thành phần hình sin của phần stochastic Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được. Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ dẫn” trong các khung STFT. Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số và pha phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai tín hiệu đó được đơn giản, biên độ của các thành phần nên được nội suy giữa các khung tín hiệu, và phép nội suy tuyến tính thường được sử dụng. Các tần số cũng như pha của tín hiệu cũng có thể được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần số có ảnh hưởng chặt chẽ đến phép nội suy pha. Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có 34

Chương 2 Kỹ thuật xử lý âm thanh thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Kỹ thuật FFT được sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành phần hình sin. Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu nhiễu thặng dư có thể được thực hiện ở miền tần hoặc trực tiếp từ miền thời gian. Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic được mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính. Phổ cường độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của hàm piecewise-linear. Việc tổng hợp trong miền thời gian có thể được thực hiện bằng phép đảo FFT, sau khi đã ấn định được một tập cường độ mong muốn và một tập pha ngẫu nhiên. Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 2.2.7 mô tả một các bước thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc

Hình 2.2.7 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc 2.2.2.1.2 Tín hiệu sin + nhiễu + nốt đệm Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó, một thành phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng. Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất lượng xử lý. Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm (SNT) được phát họa dùng trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ khối mô tả quá trình phân tích SNT được biểu diễn trên hình 2.2.8.

35

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.8 Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm Khối DCT trong hình 2.2.8 mô tả hoạt động của phép rời rạc cosin. Phép biến đổi, được định nghĩa như sau:
N −1 ⎛ (2n + 1)kπ ⎞ C (k ) = α ∑ x(n) cos⎜ ⎟ 2N n =0 ⎝ ⎠

(2.2.10)

Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và ngược lại. 2.2.2.1.3 Mô hình LPC Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp LPC được mô tả trong lưu đồ trong hình 2.2.9. Về bản chất, mô hình chính là giải thuật trừ tổng hợp thực hiện một tín hiệu có phổ “đặc” được lọc bởi một bộ lọc cực. Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể sử dụng các thông tin của tín hiệu thoại/phi thoại.
a1 ,…, a p

Hình 2.2.9 Tổng hợp LPC 2.2.2.2 Mô hình miền thời gian Việc mô tả âm thanh trong miền tần rất có hiệu quả, tuy nhiên trong một vài ứng dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu thế hơn. 2.2.2.2.1 Máy tạo dao động số Ta nhận thấy một âm thanh phức tạp đuợc tổng hợp từ nhiều thành phần hình sin bằng phép tổng hợp FTT-1. Nếu như các thành phần hình sin không quá nhiều, việc tổng hợp từng thành phần được thực hiện bằng cách lấy giá trị trung bình của máy tạo dao động số.

36

Chương 2 Kỹ thuật xử lý âm thanh

e jω
như sau:

0 ( n +1)

= e j ω e jω n
0 0

(2.2.11)

Với e jω0n = xR ( n) + jxI (n) ở dạng số phức, mỗi bước nhảy thời gian được định nghĩa

x R ( n + 1) = cos ω0 x R ( n) − sin ω0 x I ( n )
xI ( n + 1) = sin ω0 xR ( n ) + cos ω0 xI ( n )

(2.2.12) (2.2.13)

Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu e jω0 0 và thực hiện việc lệch pha vào số mũ. Tín hiệu xR ( n + 1) có thể được tính theo công thức sau:

xR ( n + 1) = 2 cos ω0 x R ( n ) − x R ( n − 1)
Đáp ứng xung của bộ lọc như sau:

(2.2.14)

H R ( z) =

1 1 − 2 cos ω0 z + z
−1 −2

=

(1 − e

1
− jω0 z −1

)(1 − e )
jω0 z −1

(2.2.15)

Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị. Gọi xR1 , xR 2 là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra x R , pha ban đầu φ0 có thể được tính theo hệ phương trình sau:

x R1 = sin (φ0 − ω 0 ) x R 2 = sin (φ0 − 2ω0 )

(2.2.16) (2.2.17)

Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai. Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi: Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu trong miền thời gian Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này. 2.2.2.2.2 Máy tạo dao động bảng sóng Phương pháp thông dụng nhất dùng để tổng hợp các dạng sóng có chu kỳ (bao gồm tín hiệu dạng sin) thực hiện quá trình đọc lặp đi lặp lại một bảng chứa nội dung của một dạng sóng đã được lưu trữ trước. Ví dụ: nếu dạng sóng cần được tổng hợp ở dạng sin, đối xứng thì chỉ cần lưu trữ lưu trữ ¼ chu kỳ, sau đó sử dụng phép tính toán để nội suy cho toàn bộ chu kỳ. Đặt buf

[ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng

sóng. Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng là bội số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó. Gọi B là chiều dài của bộ đệm, f 0 là tần số mà ta muốn tạo tần số lấy mẫu Fs , khi đó giá trị của gia số I là:

I=

Bf 0 Fs

(2.2.18)

37

Chươ 2 Kỹ thu xử lý âm thanh ơng uật Sự S thay đổi tần số lấy m i mẫu Bài toán th kế máy tạo dao độn bảng sóng có thể chu hiết ng uyển thành b toán thay đổi bài y tần số lấy mẫu, ví dụ như biến đổi tín hiệu được lấy m tại tần số lấy mẫu Fs ,1 thành tín hiệu n u mẫu ố n lấy được l mẫu tại tần số Fs , 2 . Nếu

Fs , 2 Fs ,1

=

L , với L và M là các số nguy tối giản, việc yên M

thực h thay đổi tần số lấy mẫu có thể đư như hiện bằng các b hiện i m ược n bước: 1. 1 Tăng tần số lấy mẫu b bằng hệ số L 2. 2 Sử dụng b lọc thông thấp bộ g 3. 3 Giảm tần số lấy mẫu bằng hệ số M n

Hình 2.2.1 Sơ đồ khố phân rã củ quá trình thay đổi tần số lấy mẫu 10 ối ủa n

nh V y l Hìn 2.2.11 Ví dụ về thay đổi tần số lấy mẫu với L / M = 3 / 2 2.2.2.2.3 Tổn hợp lấy m bảng sóng 2 ng mẫu Tổng hợp l mẫu bản sóng là ph mở rộng của máy da động bảng sóng đối vớ lấy ng hần ao g ới • • Dạng sóng phân tích không phải dạng sin g k Bảng dạng sóng được lưu trữ với n g nhiều chu kỳ ỳ Các tín hiệ điều khiển rất quan trọ trong việc nhận đượ âm thanh tự nhiên ệu n ọng ợc 2.2.2.2.4 Tổ hợp hạt (với Giovanni De Poli) 2 ổng Các bảng sóng ngắn c thể được đọc với nhiều tốc độ k có khác nhau, v kết quả là âm và

Chương 2 Kỹ thuật xử lý âm thanh điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền thời gian, việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt đầu từ ý tưởng việc phân tích âm thanh trong miền thời gian được thay thế bằng biểu diễn chúng thành một chuỗi các thành phần ngắn được gọi là “hạt”. Các thông số của kỹ thuật này là các dạng sóng của hạt thứ g k (⋅) , vị trí trong miền thời gian lk và biên độ a k

s g ( n ) = ∑ ak g k ( n − lk )
k

(2.2.19)

Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các hạt và các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn các thông số tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa chọn các mô hình biểu diễn liên quan đến các quá trình hoạt động mà các quá trình này có thể ảnh hưởng đến âm thanh nào đó theo nhiều cách khác nhau. Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là phân phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có dạng

g k (i ) = ω d (i ) cos (2πf k Ts i )
tần phổ f k . 2.2.2.3 Các mô hình phi tuyến 2.2.2.3.1 Điều pha và điều tần

(2.2.20)

Với ω d (i ) là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và băng

Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning. Về bản chất, Chowning đã thực hiện các nghiên cứu trên các phạm vi khác nhau của việc tạo tiếng rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo ra các thay đổi đầy kịch tính. Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo ra tín hiệu âm thanh có phổ phức tạp. Mô hình FM của Chowning như sau:

x ( n) = A sin (ω c n + I sin (ω m n )) = A sin (ω c n + φ (n ))

(2.2.21)

Với ω c là tần số sóng mang và ω m là tần số điều chế, I là chỉ số điều chế. Phương trình (2.2.21) thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình (2.2.21)

ω ( n) = ω c − Iω m cos (ω m n )
Hoặc:

(2.2.22) (2.2.23)

f ( n ) = f c − If m cos( 2πf m n )

Hình 2.2.12 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều chế được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang dùng để điều khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần số điều chế và chỉ số điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở phổ tần số của âm thanh kết quả.

39

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.12 Phần triển khai phân phối pd của điều pha. Việc phân tích dựa trên đặc tính lượng giác
x(n) = A sin (ωc n + I sin (ωm n )) ⎧ ⎫ ∞ ⎪ ⎪ k = A⎨ J 0 ( I ) sin(ωc n) + ∑ J k ( I ) sin ((ωc + kωm )n ) + (− 1) sin ((ωc − kωm )n ) ⎬ k =1 ⎪ ⎪ carrier side− frequencies ⎩ ⎭

[

]

(2.2.24)

Với J k (I ) là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 2.2.13 ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số điều chế.

Hình 2.2.13 Các giá trị của hàm Bessel. Băng thông có giá trị xấp xỉ bằng

BW = 2(I + 0.24 I 0.27 )ω m ≈ 2 Iω m
2.2.2.3.2 Méo phi tuyến

(2.2.25)

Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất đơn giản: ngõ ra của mạch tạo dao động được dùng như là thông số của một hàm phi tuyến. Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngõ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng. Điều thú vị của NLD là lý thuyết 40

Chương 2 Kỹ thuật xử lý âm thanh này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn. Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau

x ( n) = A cos(ω 0 n)
y ( n ) = F ( x (n ))

(2.2.26) (2.2.27)

Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n được định nghĩa đệ quy như sau:

T0 ( x ) = 1

(2.2.28) (2.2.29) (2.2.30) (2.2.31)

T1 ( x ) = x
Tn ( x ) = 2 xTn−1 ( x ) − Tn−2 ( x ) ,
và có tính chất:

Tn (cos θ ) = cos nθ

Như vậy, với tính chất (2.2.31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động sin x ( n) = cos ω0 n , như vậy

y ( n ) = cos (mω 0 n ) là hài bậc m của x .
Phổ của y(n) với:

y ( n ) = ∑ hk cos( kω 0 n )
k

(2.2.32)

là:

F ( x ) = ∑ hk Tk ( x )
k

(2.2.33)

Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng một chiều.

2.2.2.4 Mô hình thời gian rời rạc Trong hầu hết các trường hợp liên quan đến xử lý thông tin, việc biểu diễn tín hiệu sao cho đảm bảo tính tiện lợi trong phân tích mà vẫn không làm mất đi tính chất của tín hiệu là điều mà các nhà khoa học quan tâm. Sóng âm thanh xuất phát từ lời nói của người có tính chất tự nhiên và ngẫu nhiên nhất. Phân tích toán học thuận tiện nhất là xem sóng âm thanh là một hàm số theo biến thời gian t . Ta ký hiệu xa (t ) là dạng sóng tương tự theo thời gian t .

41

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.14 Biểu diễn tín hiệu âm thoại Trong giáo trình này, ta dùng ký hiệu x (n) mô tả cho chuỗi số. Trong trường hợp lấy mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu của tín hiệu tương tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi đó tín hiệu sau khi lấy mẫu được ký hiệu bởi xa (nT ) . Hình 2.2.14 mô tả một ví dụ của việc tín hiệu âm thoại được biểu diễn ở cả hai dạng là tín hiệu tương tự và dạng chuỗi các mẫu được lấy mẫu ở tần số là 8kHz. Xung đơn vị được định nghĩa như sau:

δ (n) = 1 n = 0

= 0 ngược lại
Chuỗi bước đơn vị được ký hiệu

(2.2.34)

u (n) = 1 n ≥ 0

=0 n<0
Hàm mũ

(2.2.35) (2.2.36)

x(n) = a n
Nếu a ở dạng số phức, a = re jw0 , thì

x ( n) = r n e jw n = r n (cos ω0 n + j sin ω0 n)
0

(2.2.37)

42

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.15 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin suy giảm

Hình 2.2.16 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn ngõ vào/đa ngõ ra Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng một vector được mô tả như ở hình 2.2.16. Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, h(n) , khi đó tín hiệu ngõ ra được tính bởi công thức

y ( n) =

k = −∞

∑ x ( k ) h( n − k ) = x ( n) * h( n)

(2.2.38a)

43

Chương 2 Kỹ thuật xử lý âm thanh

y ( n) =
với * là phép chập hai tín hiệu.

k = −∞

∑ h(k ) x(n − k ) = h(n) * x(n)

(2.2.38b)

2.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN
2.3.1 Phân tích dự đoán tuyến tính Dự đoán tuyến tính (Linear prediction, viết tắt là LP) là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay. Ý tưởng cơ bản là một mẫu thoại có thể được xấp xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ. Trong một khung tín hiệu, các trọng số dùng để tính toán kết hợp tuyến tính được tìm bằng cách tối thiểu hóa bình phương trung bình lỗi dự đoán; các trọng số tổng hợp, hoặc các hệ số dự đoán tuyến tính (LPC) được dùng đại diện cho một khung cụ thể. Trong thực tế, phân tích dự đoán là một tiến trình ước lượng để tìm các thông số của AR, mà các thông số này được cho bởi các mẫu của tín hiệu. Như vậy, LP là một kỹ thuật nhận dạng với các thông số của một hệ thống được tìm từ việc quan sát. Với giả định là tín hiệu thoại được mô hình như là tín hiệu AR, điều này đã được chứng minh tính đúng đắn của nó trong thực tiễn. Một cách biểu diễn LP khác là phương pháp ước lượng phổ. Như đã trình bày ở trên, phân tích LP cho phép việc tính toán các thông số của AR, đã được định nghĩa trong mật độ phổ công suất (PSD) của chính bản thân tín hiệu. Bằng cách tính toán LPC của một khung tín hiệu, ta có thể tạo ra một tín hiệu khác theo cách thức có nội dung phổ gần như tương đồng với tín hiệu gốc. LP cũng có thể được xem như là một quá trình loại bỏ các dư thừa khi thông tin bị lặp lại trong một sự trường hợp cần khử. Sau cùng, việc truyền dữ liệu có thể không cần thiết nếu như dữ liệu cần truyền có thể được dự đoán trước. Bằng cách thức chuyển chỗ các dư thừa trong một tín hiệu, số lượng bit cần thiết để mang thông tin sẽ ít hơn và như thế sẽ đạt được mục tiêu nén dữ liệu. Trong phần này sẽ đề cập đến bài toán cơ bản của phân tích LP đã được định rõ, kết hợp với việc hiệu chỉnh lại cho phù hợp theo hướng các tín hiệu động, cũng như ví dụ và các giải thuật cần thiết cho quá trình dự đoán tuyến tính. 2.3.1.1 Bài toán dự đoán tuyến tính Dự đoán tuyến tính được mô tả như là một bài toán nhận dạng hệ thống, với các thông số của một mô hình AR được ước lượng từ bản thân tín hiệu. Mô hình được trình bày ở hình 2.3.1. Tín hiệu nhiễu trắng x[n] được lọc bởi quá trình tổng hợp AR để có được tín hiệu AR
ˆ s[n] , với các thông số AR được ký hiệu là a i . Dự đoán tuyến tính thực hiện ước đoán s[n] dựa vào M mẫu trong quá khứ:

ˆ s[n] = −∑ ai s[n − i]
i =1

M

(2.3.1)

Với ai là các ước lượng của các thông số AR được xem là các hệ số dự đoán tuyến

44

Chương 2 Kỹ thuật xử lý âm thanh tính (LPC). Hằng số M trong công thức là bậc dự đoán. Như vậy, việc dự đoán dự trên tổ hợp tuyến tính của M mẫu trong quá khứ của tín hiệu, chính vì thế việc dự đoán mang tính tuyến tính. Lỗi dự đoán được tính bằng công thức:
ˆ e[ n ] = s[ n ] − s[ n ]

(2.3.2)

Hình 2.3.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính

Hình 2.3.2 Bộ lọc lỗi dự đoán Lỗi dự đoán chính là độ sai biệt giữa mẫu thật sự và mẫu ước lượng. Hình 2.3.2 mô tả lưu đồ tín hiệu thực hiện bộ lọc lỗi dự đoán. Bộ lọc có ngõ vào là tín hiệu AR và ngõ ra chính là tín hiệu lỗi dự đoán. Tối thiểu hoá lỗi
ˆ Bài toán nhận dạng hệ thống bao gồm việc ước lượng các thông số AR a i từ s[n] . Để

thực hiện việc ước lượng, tiêu chuẩn phải được thiết lập. Trong đó, bình phương trung bình lỗi dự đoán được tính bởi công thức:
2 M ⎧⎛ ⎞ ⎫ J = E {e 2 [n]} = E ⎨⎜ s[n] + ∑ ai s[n − i ] ⎟ ⎬ i =1 ⎠ ⎭ ⎩⎝

(2.3.3)

Được tối thiểu hóa bằng cách lựa chọn LPC thích hợp. Thông số LPC tối ưu có thể được tìm bằng cách thiết lập các đạo hàm riêng phần của J khi ai tiến tới zero:

45

Chương 2 Kỹ thuật xử lý âm thanh
M ∂J ⎧⎛ ⎫ ⎞ = 2 E ⎨⎜ s[ n] + ∑ ai s[ n − i ] ⎟ s[ n − k ]⎬ = 0 ∂ak i =1 ⎠ ⎩⎝ ⎭

(2.3.4)

ˆ Với k = 1, 2,..., M , khi (2.3.4) xảy ra thì a i = a i , lúc này LPC chính bằng các thông số

AR. Độ lợi dự đoán Độ lợi dự đoán của bộ dự đoán được cho bởi công thức

⎛σ 2 ⎞ ⎛ E{s 2 [n]}⎞ PG = 10 log10 ⎜ s2 ⎟ = 10 log10 ⎜ ⎜ E{e 2 [n]}⎟ ⎟ ⎜σ ⎟ ⎝ ⎠ ⎝ e⎠

(2.3.5)

Là tỉ số giữa biến tín hiệu ngõ vào và biến của lỗi dự đoán theo đơn vị decibels (dB). Độ lợi dự đoán là thông số đo lường chất lượng của bộ dự đoán. Một bộ dự đoán tốt hơn có khả năng tạo ra lỗi dự đoán nhỏ hơn với độ lợi cao hơn. Tối thiểu hóa bình phương trung bình lỗi dự đoán

ˆ Từ hình 2.3.2, ta có thể nhận xét khi a i = a i , thì e[n] = x[n] ; như vậy lỗi dự đoán tương tự như dùng tín hiệu nhiễu trắng để tạo ra tín hiệu AR s[n] . Đây là trường hợp tối ưu khi lỗi bình phương trung bình được tối thiểu hóa, với

J min = E {e 2 [ n]} = E {x 2 [ n]} = σ x2
Khi đó, độ lợi dự đoán đạt giá trị lớn nhất.

(2.3.6)

Điều kiện tối ưu có thể đạt được khi bậc của bộ dự đoán lớn hơn hoặc bằng bậc của quá trình tổng hợp AR. Trong thực tế, M thường là số chưa biết trước. Một phương pháp đơn giản để có thể ước lượng được giá trị M từ tín hiệu nguồn là vẽ biểu đồ độ lợi dự đoán như là một hàm của bậc dự đoán. Với phương pháp này, ta có thể quyết định được bậc của dự đoán ứng với độ lợi bão hòa, khi đó khi tăng bậc dự đoán thì độ lợi không tăng. Giá trị của bậc dự đoán tại điểm thỏa điều kiện bão hòa này được xem là giá trị ước lượng tốt nhất cho bậc của tín hiệu AR. ˆ Sau khi đã xác định được giá trị M, hàm chi phí J đạt giá trị tối thiểu khi ai = a i , dẫn đến e[n] = x[n] . Và khi đó, lỗi dự đoán sẽ bằng với giá trị tín hiệu đầu vào của bộ tổng hợp quá trình AR.
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động Tín hiệu thoại trong thực tế là tín hiệu động, nên LPC phải được tính ứng với từng khung tín hiệu. Trong một khung tín hiệu, một tập LPC được tính toán và dùng để đại diện cho các thuộc tính của tín hiệu trong một chu kỳ cụ thể, với giả định rằng số liệu thống kê của tín hiệu vẫn không thay đổi trong một khung. Quá trình tính toán LPC từ dữ liệu tín hiệu được gọi là phân tích dự đoán tuyến tính.

Bài toán dự đoán tuyến tính cho tín hiệu động được phát biểu lại như sau: đây là bài toán thực hiện việc tính các giá trị LPC ứng với N điểm dữ liệu với thời gian kết thúc là m : s[m − N + 1] , s[m − N + 2] , …, s[m] . Vector LPC được viết như sau:

a[m ] = [a1 [m]

a2 [m]

...

a M [m ]]

T

(2.3.7)

46

Chươ 2 Kỹ thu xử lý âm thanh ơng uật Với V M là bậc dự đoán Độ Đ lợi dự đo oán Độ lợi dự đ đoán của bộ dự đoán được cho bởi c công thức

⎛ m 2 ⎞ ⎜ ∑ s [n ] ⎟ − PG[m] = 10 log10 ⎜ n = mm N +1 ⎟ 2 ⎜ ⎟ ⎜ ∑ e [n ] ⎟ ⎝ n = m − N +1 ⎠
Với V

(2 2.3.8)

e[n] = s[n] − s[n] = s[n] + ∑ ai [m]s[n − i ] ; n = m − N + 1 , … m …,
i =1

^

M

(2 2.3.9)

Các LPC ai [m ] được tính toán từ các mẫu tro chu kỳ. Độ lợi dự đo định ngh ở ong oán hĩa công t thức (2.3.9) l một hàm t là theo biến thờ gian m . ời Ví dụ: Nhi trắng đư tạo ra bở bộ tạo số ngẫu nhiên phân phối đ iễu ược ởi đều, sau đó được lọc bở bộ tổng hợ AR với ởi ợp

a1 = 1.534
a6 = −0.061 1

a2 = 1
a7 = −0.172

a3 = 0.58 87
a8 = −0.156

a 4 = 0.347
a9 = −0.157

a56 = 0.08
a10 = −0.14

Khung tổn hợp của t hiệu AR được dùng cho phân tíc LP, với t ng tín ch tổng cộng là 240 à Ước tự ng ông sử a ng. mẫu. Ư lượng t động tươn quan khô hồi qui s dụng cửa sổ Hammin Phân tích LP được thực hiện vớ bậc từ 2 đến 20. Hình 2.3.3 tóm t kết quả, v độ lợi dự đoán được tính t ới tắt với ự c toán tạ M = 2 và đạt giá trị c nhất tại M = 10 . Cá bậc lớn hơ 10 không cho được đ lợi ại à cao ác ơn g độ cao hơ nữa, cho n ta có thể chỉ cần xét đến M = 10 . ơn nên ể t

Hình 2.3.3 Độ lợi dự đoán (PG) l một hàm t 3 là theo biến bậc dự đoán M c

Chương 2 Kỹ thuật xử lý âm thanh

2.3.1.3 Giải thuật Levison-Durbin Thông thường, việc tính toán ma trận nghịch đảo không đơn giản, tuy nhiên đối với bài toán này, các hệ số giải thuật có thể được tính thông qua tính toán ma trận tương quan. Hai giải thuật Levison-Durbin và Leroux-Gueguen là hai giải thuật rất phù hợp cho việc tính toán LP của các hệ thống triển khai trong thực tế.

Giải thuật Levison-Durbin thực hiện việc tìm bộ dự đoán bậc thứ M từ bộ dự đoán bậc thứ ( M − 1) . Đây là quá trình lặp đệ quy cho đến khi tìm được lần đầu tiên bộ dự đoán bậc zero, sau đó sẽ dùng bộ bậc zero sẽ được dùng để tính bộ dự đoán bậc 1 và quá trình tiếp tục cho đến khi tính toán được bộ dự đoán có bậc cần tìm. Giải thuật: biến đầu vào là các hệ số tự tương quan R[l ] , giá trị tính được là các LPC và RC Định trị ban đầu: l = 0 , tập J 0 = R[0] Thực hiện đệ quy, for

l = 1,2,..., M
l −1 1 (R[l ]) + ∑ ai (l −1) R[l − i ] , J l −1 i =1

o Bước 1: Tính toán RC thứ l , kl =

o Bước 2: Tính toán các LPC ứng với bộ dự đoán bậc l

ai( l ) = − kl ;
l ai( l ) = ai( l −1) − kl al(−−1) ; i

i − 1, 2,..., l − 1

Dừng nếu l = M
o Bước 3: Tính giá trị bình phương trung bình lỗi dự đoán tương ứng

với lời giải tại bậc l

J l = J j −1 (1 − kl2 )
Gán l = l + 1 , quay lại bước 1
2.3.1.4 Giải thuật Leroux-Gueguen Bài toán sử dụng giải thuật Levinson-Durbin dựa trên các giá trị của các LPC, bởi vì chúng có thuộc một tầm vực rộng và giá trị biên của biên độ của các LPC không thể tính được ứng với cơ sở lý thuyết. Vấn đề xảy ra khi giải thuật được áp dụng cho tính toán trên dấu chấm tĩnh. Giải thuật Leroux-Gueguen khắc phục điểm yếu này của giải thuật LevisonDurbin.

Leroux và Gueguen [1979] đã đề xuất một phương pháp tính toán các RC từ các giá trị tự tương quan mà không cần phải tính thông qua các LPC. Do đó, bài toán liên quan đến tầm động với điều kiện dấu chấm tĩnh đã được giải quyết. Xét thông số sau

ε (l ) [k ] = E{e(l ) [n]s[n − k ]} = ∑ ai(l ) R[i − k ] ,
l i =0

(2.3.10)

Với

e ( l ) [n ]

= lỗi dự đoán sử dụng bộ lọc dự đoán lỗi bậc thứ 48

Chương 2 Kỹ thuật xử lý âm thanh

l
ai(l )
R[ k ]
Định lý: = LPC của bộ dự đoán bậc thứ l = giá trị tự tương quan của tín hiệu s[n]

ε ( l ) [k ] ≤ R[0]
Sinh viên có thể tự chứng minh

(2.3.11)

Bảng 2.3.1 mô tả các thông số ε cần thiết ứng với mỗi bậc l trong giải thuật LerouxGueguen Bảng 2.3.1

l
M

Các thông số cần thiết

M −1

ε ( M −1) [0], ε ( M −1) [M ] ε ( M − 2 ) [− 1], ε ( M − 2 ) [0], ε ( M − 2 ) [M − 1], ε ( M − 2 ) [M ] ε ( M −3) [− 2],… , ε ( M −3) [0], ε ( M −3) [M − 2],… , ε ( M −3) [M ] ε ( M −4 ) [− 3],… , ε ( M −4 ) [0], ε ( M −4 ) [M − 3],… , ε ( M −4 ) [M ] ε (1) [− M + 2],… , ε (1) [0], ε (1) [2],… , ε (1) [M ] ε ( 0 ) [− M + 1],… , ε ( 0 ) [0], ε ( 0 ) [1],… , ε ( 0 ) [M ]
Định trị ban đầu: l = 0 , tập ε ( 0 ) [k ] = R[k ], k = − M + 1,..., M Thực hiện đệ quy, for

M −2

M −3
M −4

1

0
Giải thuật:

l = 1,2,..., M

o Bước 1: Tính toán RC thứ l , kl = o Bước 2: Tính toán các thông số

e ( l −1) [0]

ε ( l −1) [l ]

, dừng khi l = M

ε ( l ) [k ] = ε ( l −1) [k ] − kl ε ( l −1) [l − k ];

k = − M + l + 1,...,0, l + 1,...M .

o Gán l = l + 1 , quay lại bước 1 2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen Giải thuật Leroux-Gueguen phù hợp hơn cho các bài toán dấu chấm tĩnh đối với các biến trung gian có biên đã được biết trước. Nhược điểm của giải thuật này là chỉ có các giá trị RC là kết quả trả về, là kết quả không cần thiết đối với bộ lọc lưới. Đối vớic các bộ lọc có dạng trực tiếp, các giá trị LPC có thể có được nếu dùng một trong hai giải thuật.

Việc sử dụng bộ lọc mắt cao thường trong việc tính toán LP thường không đơn giản

49

Chương 2 Kỹ thuật xử lý âm thanh do số lượng tính toán. Ngoài ra, đối với trường hợp thời gian biến đổi, các hệ số được cập nhật từ khung thời gian này đến khung thời gian khác sẽ làm cho việc tính toán càng phức tạp hơn đối với cấu trúc lưới. Ngoài ra, phương pháp Leroux-Gueguen sử dụng biến đổi RC-sangLPC không cung cấp việc lưu trữ lại các bước tính toán quan trọng so với giải thuật LevinsonDurbin. Tất cả các điều trên làm cho giải thuật Levinson-Durbin thông dụng hơn trong thực tiễn, đặc biệt là đối với các bài toán số. Trong các bài toán ứng dụng thực tế, giải thuật Levison-Durbin dùng trong điều kiện dấu chấm tĩnh phải được cân nhắc kỹ sao cho đảm bảo các biến phải nằm trong tầm vực cho phép.
2.3.2 Dự đoán tuyến tính trong xử lý thoại

Đối với việc đơn giản hóa mô hình xử lý thoại, giải thuật dự đoán tuyến tính (LPC) là một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở tần số thấp. Ở tốc độ 2.4kbps, bộ mã hóa FS1015 LPC [Hãng Tremain, 1982] là một bước tiến vượt bật trong ngành xử lý âm thanh; mặc dù chất lượng của âm thanh được giải mã không cao, nhưng hệ thống giải mã đơn giản và dễ hiểu. Thuật ngữ “mã hóa dự đoán tuyến tính” xuất hiện từ khi việc tạo ra âm thanh thoại sử dụng bất kỳ giải thuật ứng dụng mô hình LPC, trong đó chuẩn FS1015 là chuẩn điển hình. Ban đầu, trong việc phát triển cho việc truyền thông bảo mật thuộc các ứng dụng quân sự, bộ mã hóa FS1015 được đặc trưng bởi tín hiệu thoại mã tổng hợp ngõ ra thường cần đến các nhân viên vận hành tổng đài đã được huấn luyện sử dụng. Mặc dù hầu hết các bộ mã hóa thoại dựa vào công nghệ LP đạt được hiệu suất cao hơn ngày nay, nhưng về cơ bản, hoạt động của chúng là có nguồn gốc từ LPC, việc cải tiến nhằm mục đích đạt được chất lượng tốt hơn và hiệu suất mã hóa tối ưu hơn.
2.3.2.1 Mô hình xử lý tín hiệu thoại Mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả trong hình 2.3.4. Mô hình được dựng dựa vào việc quan sát các đặc tính cơ bản của tín hiệu thoại và bắt chước kỹ thuật tạo âm thanh thoại của người. Bộ lọc tổng hợp được mô phỏng theo sự phát âm, khẩu âm của miệng người. Tín hiệu lái ngõ vào của bộ lọc hoặc tín hiệu kích thích mạch được mô phỏng theo dạng xung truyền động (âm thanh thoại) hoặc là nhiễu ngẫu nhiên (âm thanh phi thoại). Như vậy, phụ thuộc vào trạng thái âm thanh thoại hay phi thoại của tín hiệu, mạch chuyển được thiết lập ở vị trí thích hợp sao cho ngõ vào tương ứng sẽ được chọn đưa vào mạch. Mức năng lượng của tín hiệu ngõ ra được điều khiển bởi thông số độ lợi.

Làm cách nào mô hình phù hợp với ngữ cảnh của mã hóa âm thoại? Xét các mẫu thoại một cách riêng lẻ ứng với từng khung tín hiệu không chồng lên nhau. Ứng với từng đoạn khung đủ ngắn, thuộc tính của tín hiệu về cơ bản là hằng số. Trong mỗi khung, các thông số của mô hình được ước lượng từ các mẫu thoại, các thông số bao gồm: Dạng: tín hiệu thuộc khung là thoại hay phi thoại Độ lợi: liên quan chủ yếu đến mức năng lượng của khung Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp Chu kỳ âm thanh: trong trường hợp đối với khung thoại, là chiều dài thời gian giữa các xung kích thích liên tiếp nhau.

50

Chươ 2 Kỹ thu xử lý âm thanh ơng uật Quá trình ước lượng th ư hông số được thực hiện ứng với từng khung, các kết quả chính là c ứ g c các thô tin của k ông khung. Như vậy, thay vì truyền các xung PCM, các thông số của mô hìn sẽ ì ố nh được g đi. Để giảm thiểu n gửi g nhiễu và sự m tín hiệu các bít tru méo u, uyền được c phát theo chỉ cấp o định ứ với từng thông số, nh vậy, tỉ số nén tối ưu c thể đạt đư ứng hư ố có ược.
Khóa tr ruyền âm/ cách âm Bộ lọc tổng hợp t Âm thoại i

Chu kỳ cường độ

Bộ tạo ng chuỗi xun

Bộ tạo nhiễu trắn ng

T Truyền âm

Độ lợi

Các C hệ số bộ lọc

Hình 2.3.4 Mô hìn LPC tổng hợp tiếng n nh g nói lượng các th hông số là nh hiệm vụ của bộ mã hóa Bộ giải mã sẽ sử dụng các a a. ã g Việc ước l ng ng tạo m thông số ước lượn này và dùn mô hình t thoại để tổng hợp âm thoại.

Hìn 2.3.5 Hì vẽ các cá khung phi thoại nh ình ác i Hình 2.3.5 mô tả mộ khung tín hiệu phi th 5 ột n hoại có 180 mẫu (sử d 0 dụng bộ mã hóa ã 15). u ủy rình tổng hợ LPC dùng cho ợp g FS101 Các mẫu nguyên thủ được xử phân tích LP qua quá tr việc tổ hợp âm thoại dựa tr mô hình hình 2.3.4. Tín hiệu của tín hiệu ng ổng rên a guyên thủy v tín và hiệu sau khi tổng hợp tương đ giống nh do mật độ phổ công suất có dạn tương đư đối hau đ g ng ương, được m tả trong h mô hình 2.3.6.

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Hình 2.3.6 Sơ đồ của một khung âm thanh ph thoại, Hìn bên trái: tín hiệu ng H hi nh guyên thuỷ; Hình bên ph tín hiệu tổng hợp. Đ H hải: Đường nét đứt là giá trị mật độ phổ công suất dùng đ ổ phươn pháp dự đoán LPC. ng đ

Hình 2.3.7 Sơ đồ khung tín hiệu âm thanh thoạ Hình trên tín hiệu ng H g m ại. n: guyên thủy; Hình dưới: tín hiệu tổng hợp. t g

Hình 2.3.8 Sơ đồ của một khung â thanh tho Hình bê trái: tín hi nguyên t H m âm oại, ên iệu thuỷ; Hình b phải: tín hiệu tổng h bên n hợp. Đường nét đứt là gi trị mật độ phổ công su dùng phư iá uất ương pháp d đoán LPC dự C.

Chương 2 Kỹ thuật xử lý âm thanh
2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC 2.3.2.2.1 Bộ mã hóa (Encoder)

Hình 2.3.9 mô tả sơ đồ khối của bộ mã hóa. Tín hiệu thoại ngõ vào đầu tiên sẽ được phân cắt thành các khung tín hiệu không chồng lên nhau. Bộ lọc đầu dùng để hiệu chỉnh phổ của tín hiệu ngõ vào, bộ nhận dạng tiếng nói phân loại khung hiện tại đang xử lý là tín hiệu thoại hay phi thoại và các ngõ ra một bit biểu thị trạng thái của âm thoại. Tín hiệu ra của bộ lọc đầu được dùng để phân tích LP, mạch bao gồm mười LPC . Các hệ số này sẽ được lượng tử hóa với các chỉ số được truyền như là thông tin của khung. Các LPC được lượng tử hoá dùng để xây dựng bộ lọc dự đoán lỗi, dùng để lọc các tín hiệu âm thanh từ bộ lọc đầu để có được tín hiệu dự đoán lỗi ở ngõ ra.

Hình 2.3.9 Sơ đồ khối của bộ mã hóa LPC 2.3.2.2.2 Tính toán công suất Công suất của chuỗi lỗi dự đoán ứng với hai trường hợp khung thoại và khung phi thoại là khác nhau. Ký hiệu chuỗi lỗi dự đoán là e[n] , n ∈ [0, N − 1] với N là chiều dài của khung. Trường hợp tín hiệu là phi thoại:

p=

1 N

∑ e [n]
2
n =0

N −1

(2.3.12)

Trường hợp tín hiệu là âm thoại, T là chu kỳ lớn nhất của tín hiệu thành phần

p=

1 [N T ]T

[ N T ]T −1
n =0

∑ e [n ]
2

(2.3.13)

dùng [⋅] luôn đảm bảo rằng việc tính toán luôn nằm trong vùng biên của khung.

Với [⋅] là hàm tính giá trị nhỏ hơn hoặc bằng với toán hạng. Giả sử rằng N > T thì việc

53

Chương 2 Kỹ thuật xử lý âm thanh

2.3.2.2.3 Bộ giải mã
Khối unpack Chỉ số chu kỳ cường độ Bộ giãi mã chu kỳ cường độ Chỉ số công suất Bộ giải mã công suất Chỉ số LPC Bộ giãi mã LPC

Chuỗi bit

Khối tạo xung huấn luyện

Tính toán độ lợi

Khối tạo nhiễu

Khóa voiced/ unvoiced Tiếng nói tổng hợp

Bộ lọc tổng hợp

Khối De-emphasis

Hình 2.3.10 Sơ đồ khối của bộ giải mã LPC Hình 2.3.10 mô tả sơ đồ khối của bộ giải mã theo mô hình tạo âm LPC với các thông số được điều khiển bởi luồng bit. Giả sử rằng của bộ tạo chuỗi xung tạo ra các xung có biên độ đơn vị, trong khi bộ tạo nhiễu trắng có tín hiệu ngõ ra có biên độ khác đại lượng đơn vị. Việc tính toán độ lợi được thực hiện như sau: Đối với tín hiệu là phi thoại, công suất của tín hiệu của bộ lọc tổng hợp phải bằng với lỗi dự đoán của bộ mã hóa. Ký hiệu độ lợi là g , ta có

g=

p

(2.3.14)

2.3.2.2.4 Giới hạn của mô hình LPC Giới hạn 1: Trong một số trường hợp, một khung âm thanh có được phân loại là tín hiệu dạng thoại hay phi thoại. Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu kỳ tạo kích thích không phù hợp với thực tế là sử dụng tín hiệu âm thoại thực. Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét. Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm nền tảng của mô hình AR.

2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI
2.4.1 Các phương pháp mã hoá

Dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất trong các dịch vụ cung cấp cho khách hàng của các nhà khai thác di động ở Việt Nam cũng như trên thế giới. Để đảm bảo hỗ trợ tốt khách hàng nhằm đạt được lợi thế cạnh tranh, các nhà khai thác di động cần hỗ trợ tốt 54

Chương 2 Kỹ thuật xử lý âm thanh dịch vụ cơ bản này. Do đó, việc đánh giá các chỉ tiêu chất lượng chất lượng thoại có vai trò rất quan trọng. Các phương thức đánh giá chất lượng thoại đã được nhiều tổ chức viễn thông (như ITU,ETSI...) nghiên cứu, xây dựng. Trong phần này trình bày một số phương pháp đánh giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động). Việc đánh giá chất lượng thoại có vai trò rất quan trọng đối với các nhà khai thác mạng thông tin di động và cố định. Vì thoại là dịch vụ thông tin cơ bản cho nên việc đảm bảo cung cấp dịch vụ này với chất lượng ổn định là một yếu tố cạnh tranh của các nhà khai thác mạng. Phương pháp đánh giá chất lượng thoại đã được nhiều tổ chức tiêu chuẩn như ITU-T, ETSI, 3GPP thực hiện chuẩn hóa. Giáo trình phân tích bản chất của một số phương pháp đánh giá chất lượng thoại cơ bản: phương pháp đánh giá theo thang điểm MOS (Mean Opinion Score) dựa trên khuyến nghị ITU-T P.800, các phương pháp đánh giá dựa trên mô hình giác quan PSQM (Perceptual Speech Quality Measurement) theo khuyến nghị ITU-T P.861, PESQ (Perceptual Evaluation of Speech Quality) theo khuyến nghị ITU-T P.862 và phương pháp dựa trên mô hình đánh giá truyền dẫn E-model theo tiêu chuẩn ETR 250 của ETSI. Các phương pháp này được so sánh về ưu nhược điểm và phạm vi ứng dụng.
2.4.2 Các tham số liên quan đến chất lượng thoại

Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là: Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness Rating): OLR của hệ thống phải không được vượt quá giới hạn được định nghĩa trong khuyến nghị G.111 của ITU-T. Các giá trị đánh giá tổn hao phía phát và thu (SLR và RLR) đối với hệ thống GSM được đánh giá cho đến giao diện POI. Tuy nhiên, tham số ảnh hưởng chính là đặc tính của MS gồm cả bộ chuyển đổi tương tự - số (ADC) và số tương tự (DAC). Do vậy, thông thường, người ta đánh giá OLR của giao diện vô tuyến. Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc hội thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín hiệu thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree. Tiếng vọng (echo). Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu thoại. Các tính chất liên quan đến độ nhạy tần số. Xuyên âm (sidetone loss). Nhiễu nền...
2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản

Việc đánh giá chất lượng thoại trong mạng GSM cũng như các hệ thống thông tin khác (cố định và vô tuyến) có thể được thực hiện bằng cách đánh giá các tham số truyền dẫn có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số này đối với chất lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém. Hiện nay, việc đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS (Mean Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do chúng 55

Chương 2 Kỹ thuật xử lý âm thanh phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia các phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản: Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng về mức chất lượng được thực hiện trong thời gian thực. Phương pháp này được quy định trong khuyến nghị ITU-T P.800. Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước lượng mức chất lượng theo thang điểm MOS. Phương pháp đánh giá khách quan có thể được phân thành: a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn với một tín hiệu chuẩn đã biết. b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín hiệu chuẩn đã biết); vd: INMD (sử dụng trong khuyến nghị P.561 của ITU-T). c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model. Trên thực tế, các thiết bị đo có thể sử dụng kết hợp nhiều phương pháp đánh giá chất lượng thoại. Tuy vậy, trong các phương pháp này thì phương pháp so sánh (hay còn gọi là intrusive methods) có kết quả đánh giá chính xác nhất. Các phương pháp đánh giá các cũng có thể được sử dụng cho một số ứng dụng đặc thù.

Hình 2.4.1 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp so sánh, b) Các phương pháp ước lượng tuyệt đối, c) Các mô hình đánh giá truyền dẫn 56

Chương 2 Kỹ thuật xử lý âm thanh
2.4.3.1 Phương pháp đánh giá chủ quan (MOS) Kỹ thuật này đánh giá chất lượng thoại sử dụng đối tượng là một số lượng lớn người nghe, sử dụng phương pháp thống kê để tính điểm chất lượng. Điểm đánh giá bình quân của nhiều người được tính là điểm Mean Opinion Scoring (MOS). Kỹ thuật thực hiện tính điểm MOS được mô tả trong khuyến nghị P.800 của ITU. Khuyến nghị P.830 thể hiện các phương pháp cụ thể để đánh giá chất lượng thoại cho các bộ mã hóa. Cả hai khuyến nghị ITU này mô tả: phương thức đánh giá, cách tính điểm theo phương thức đánh giá chủ quan, giá trị của điểm, tính chất của các mẫu thoại được sử dụng để đánh giá và các điều kiện khác mà việc kiểm tra chất lượng được thực hiện.

Phương thức đánh giá theo MOS có thể được thực hiện theo các bài kiểm tra hội thoại hai chiều hoặc bài nghe một chiều. Các bài kiểm tra nghe một chiều sử dụng các mẫu thoại chuẩn. Người nghe nghe mẫu truyền qua một hệ thống và đánh giá chất lượng tổng thể của mẫu dựa trên thang điểm cho trước. P.800 định nghĩa một số hình thức đánh giá chất lượng thoại theo phương pháp chủ quan: Bài kiểm tra hội thoại (Conversation Opinion Test). Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test). Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)). Phương thức phân loại so sánh (Comparison Category Rating (CCR)). Mỗi phương thức trên có một thang điểm đánh giá. Ví dụ: phương thức đánh giá hội thoại và ACR đều có thang điểm tương tự gọi là điểm hội thoại và điểm chất lượng nghe. Trong phương thức hội thoại, người nghe được hỏi về quan điểm của họ đối với kết nối đang sử dụng. ACR hỏi chủ thể về chất lượng thoại. Thang điểm cho cả hai phương thức trên như sau: Điểm đánh giá 5 4 3 2 1 Chất lượng thoại Rất tốt Tốt Chấp nhận được Tồi Rất tồi

Đây là thang điểm từ 1-5 thông thường được sử dụng để tính MOS. Ví dụ thứ hai là điểm nỗ lực nghe trong phương thức ACR (ACR Listening Effort Score). Trong phương thức này, chủ thể được yêu cầu đánh giá nỗ lực của họ thực hiện để hiểu ngữ nghĩa của các câu chuẩn sử dụng làm mẫu. Thang điểm được cho như sau: Điểm đánh giá 5 4 3 2 1 Mức độ cố gắng cần thực hiện để hiểu câu Không cần cố gắng Cần chú ý nhưng không cần cố gắng nhiều Cần tương đối tập trung Cần tập trung Không hiểu câu mẫu 57

Chương 2 Kỹ thuật xử lý âm thanh

Hiển nhiên, các phương thức cho điểm theo MOS có một số nhược điểm như sau: Phương thức này mang tính chất chủ quan vì kết quả phụ thuộc vào nhiều yếu tố không thể kiểm soát của chủ thể như: trạng thái tâm lý, thái độ đối với bài kiểm tra và trình độ văn hóa. Trên thực tế, phương thức đánh giá chất lượng thoại theo thang điểm MOS không phải là phương thức nhất quán. Phương thức này rất tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp. Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương pháp đánh giá chất lượng này là không thực tế. Những hạn chế của phương pháp đánh giá chất lượng thoại dựa trên MOS cho thấy cần có một phương thức đánh giá khách quan, phương pháp này có thể thực hiện một cách tự động để đánh giá chất lượng thoại.

2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan 2.4.3.2.1 Phương pháp PSQM

PSQM là kỹ thuật đánh giá chất lượng thoại được phát triển bởi John G. Beerends và J. A. Stemerdink thuộc Trung tâm nghiên cứu KPN ở Hà Lan. Trong khoảng từ 1993-1996, nhiều kỹ thuật đánh giá chất lượng thoại đã được ITU so sánh để xác định kỹ thuật có độ chính cao nhất (ước lượng gần nhất với phương pháp đánh giá chủ quan). Theo ITU, PSQM là kỹ thuật đánh giá chất lượng thoại có tương quan lớn nhất với các kết quả theo phương pháp đánh giá chủ quan. PSQM sau đó đã được ITU-T Study Group 12 thông qua và đã được công bố trong khuyến nghị P.861 năm 1996. Kỹ thuật này đã được sử dụng rộng rãi và thể hiện độ chính xác tương đối cao. PSQM là một phương pháp tính toán nhằm ước lượng chất lượng thoại theo kết quả của phương pháp đánh giá chủ quan theo khuyến nghị P.830 (MOS). Tuy nhiên, PSQM tính theo thang điểm khác so với MOS. Điểm PSQM thể hiện độ lệch giữa tín hiệu chuẩn và tín hiệu truyền dẫn. PSQM được thiết kế để sử dụng cho tín hiệu thoại (300-3400 Hz) qua các bộ mã hóa thoại. Phương thức này được sử dụng để đo tổn hao của các bộ mã hóa thoại này dựa trên các thông số nhận thức của con người. Phương thức này sử dụng hiệu quả đối với các bộ mã hóa thoại tốc độ thấp. Việc xử lý trong phương thức PSQM được thể hiện trên hình 2.4.2 Để thực hiện phép đo PSQM, một mẫu tiếng nói được đưa vào hệ thống và được xử lý bởi một bộ mã hóa thoại bất kỳ. Những tính chất của tín hiệu vào giống như của các tín hiệu sử dụng cho phép đánh giá MOS được định nghĩa trong chuẩn ITU P.830. Các tín hiệu vào có thể là mẫu tiếng nói thật hoặc tiếng nói nhân tạo theo khuyến nghị ITU P.50. ITU-T khuyến nghị tín hiệu vào được lọc theo modified IRS (Intermediate Reference System trong khuyến nghị ITU P.48) có những tính chất được định nghĩa trong phụ lục của D/P.830. Nó mô phỏng đặc tính tần số của máy điện thoại đầu cuối. Khi nhận được, tín hiệu ra được ghi lại. Sau đó, nó được đồng bộ về mặt thời gian với tín hiệu vào. Hai tín hiệu này được thực hiện so sánh bởi các thuật toán PSQM. So sánh được 58

Chương 2 Kỹ thuật xử lý âm thanh thực hiện theo từng phân đoạn thời gian (khung thời gian) trong miền tần số (được biết đến là các phần tử thời gian - tần số) hoạt động dựa trên các tham số lấy từ mật độ phổ công suất của tín hiệu vào và ra của các phần tử thời gian - tần số. Việc so sánh dựa trên các tham số nhận thức của con người như: tần số và độ nhạy âm lượng (không chỉ phụ thuộc vào Mật độ phổ công suất - Spectral Power Densities (SPD)). Điểm PSQM nằm trong dải từ 0 đến vô cùng. Điểm số này thể hiện độ lệch về mặt cảm nhận giữa tín hiệu ra và tín hiệu vào. VD: điểm 0 thể hiện tín hiệu ra và tín hiệu vào hoàn toàn trùng khớp, đánh giá là mức chất lượng hoàn hảo. Điểm PSQM càng cao thì thể hiện mức tổn hao càng lớn và đánh giá là mức chất lượng thấp. Trên thực tế, giới hạn trên đối với thang điểm PSQM trong khoảng từ 15-20.

Hình 2.4.2 Phương thức đánh giá chất lượng thoại PSQM 2.4.3.2.2 Phương pháp PESQ PESQ là phương pháp đánh giá chất lượng thoại so sánh; phương pháp này được mô tả trong khuyến nghị ITU-T P.862 được sử dụng thay thế cho khuyến nghị ITU-T P.861. PESQ so sánh tín hiệu gốc X(t) với tín hiệu suy giảm Y(t) là kết quả của việc truyền tín hiệu X(t) qua hệ thống thông tin. Đầu ra của PESQ là một ước lượng về chất lượng thoại nhận được của tín hiệu Y(t). Trong bước đầu tiên của PESQ, một loạt các trễ tín hiệu giữa tín hiệu vào ban đầu và tín hiệu ra được xác định; mỗi giá trị trễ được tính cho một khoảng thời gian mà có sự khác biệt về độ trễ so với phân đoạn thời gian trước đó. Ứng với mỗi phân đoạn thời gian, điểm bắt đầu và kết thúc được xác định. Một thuật toán sắp xếp dựa trên nguyên tắc so sánh giữa khả năng có hai trễ trong một đoạn thời gian với khả năng có một trễ trong đoạn thời gian đó. Thuật toán này có thể xử lý thay đổi về trễ trong cả khoảng lặng và trong thời gian tích cực thoại. Dựa trên tập các trễ đã xác định được, PESQ so sánh tín hiệu vào ban đầu với tín hiệu ra đã được sắp xếp bằng cách sử dụng một mô hình giác quan. Điểm mấu chốt của quá trình này là chuyển đổi cả tín hiệu gốc và tín hiệu đã bị suy giảm thành dạng biểu diễn của tín hiệu âm thanh trong hệ thống thính giác của con người có tính đến tần số thính giác và cường độ âm. Quá trình này được thực hiện theo nhiều giai đoạn: sắp xếp về mặt thời gian, sắp xếp mức tín hiệu về mức tín hiệu nghe đã được căn chỉnh, ánh xạ thời gian - tần số, frequency warping và căn chỉnh cường độ âm. Trong PESQ, hai tham số lỗi được tính toán trong mô hình kinh nghiệm; chúng được kết hợp lại để ước lượng điểm MOS. Một mô hình máy tính của chủ thể bao gồm mô hình giác quan và mô hình kinh nghiệm được sử dụng để so sánh tín hiệu đầu ra với tín hiệu gốc sử dụng các thông tin sắp xếp 59

Chương 2 Kỹ thuật xử lý âm thanh lấy được từ các tín hiệu định thời trong môđun sắp xếp định thời.

Hình 2.4.3 Mô tả phương pháp đánh giá chất lượng thoại PESQ Phương pháp PESQ là có thể sử dụng không chỉ để đánh giá các bộ mã hóa thoại mà còn để đánh giá chất lượng thoại đầu cuối đến đầu cuối. Các hệ thống thông tin trên thực tế có thể bị ảnh hưởng của nhiều khâu lọc, trễ khả biến và các tổn hao do lỗi kênh truyền dẫn và việc sử dụng các bộ codec tốc độ thấp. Phương pháp PSQM được mô tả trong khuyến nghị ITU-T P.861 chỉ được khuyến nghị sử dụng để đánh giá các bộ codec thoại mà không tính đến các yếu tố như lọc, trễ khả biến ... PESQ tính đến các yếu tố này nhờ sử dụng cân bằng hàm truyền dẫn, sắp xếp định thời, và một thuật toán mới để thực hiện xác định tổn hao trung bình. PESQ đã được kiểm tra trong điều kiện kết hợp nhiều yếu tố như: lọc, trễ khả biến, tổn hao mã hóa và lỗi kênh truyền dẫn. Phương pháp này được khuyến nghị sử dụng thay thế cho PSQM để đánh giá chất lượng thoại từ đầu cuối đến đầu cuối. 2.4.3.2.3 Mô hình đánh giá truyền dẫn E-Model E-model (tham khảo ETR 250, EG 201 050 và khuyến nghị ITU-T G.107) được sử dụng làm một công cụ để quy hoạch truyền dẫn trong các mạng điện thoại. Nó hỗ trợ việc ước lượng chất lượng tín hiệu thoại từ một kết hợp của nhiều yếu tố can nhiễu. E-model khác so với các phương pháp đánh giá chất lượng đã phân tích ở trên: Đây không phải là một công cụ đo mà là một công cụ quy hoạch mặc dù nó có thể sử dụng kết hợp với các phép đo. model này ước lượng chất lượng thoại hai chiều và tính đến các yếu tố như: tiếng vọng, trễ ... Đầu vào của E-model bao gồm các tham số được sử dụng tại thời điểm quy hoạch. Lưu ý rằng việc quy hoạch có thể được thực hiện trước và sau khi triển khai mạng. E-model có tính đến các tham số như: nhiễu, trễ, tiếng vọng và tính chất của thiết bị đầu cuối mà đã được chuẩn hóa hoặc đã được xác định, có thể đo được. Ngoài ra, E-model xác định trọng số 60

Chương 2 Kỹ thuật xử lý âm thanh đối với ảnh hưởng của thiết bị số hiện đại (các bộ codec tốc độ thấp, các bộ ghép kênh ...) đến chất lượng truyền dẫn. Trong nhiều trường hợp, số lượng và chủng loại các thiết bị này được xác định tại thời điểm quy hoạch. E-model dựa trên giả thiết là các tổn hao truyền dẫn có thể được chuyển đổi thành "psychological factors" và các hệ số này có tính cộng dồn trên một "psychological scale". Nói cách khác, nhận thức chủ quan về chất lượng thoại được coi như là tổng hợp của các tổn hao truyền dẫn. E-model đầu tiên thực hiện tính toán một "giá trị gốc" về chất lượng (giá trị này được xác định từ nhiễu trên mạng). Mỗi tổn hao thêm vào được biểu diễn dưới dạng một giá trị tổn hao. Kết quả của phép trừ giá trị gốc với các giá trị tổn hao thể hiện ước lượng chất lượng thoại cho một mạng cụ thể. Cuối cùng, kết quả chất lượng thoại thu được được sử dụng để ước tính tỷ lệ thuê bao đánh giá chất lượng là tốt hay tồi. Cụ thể, E-model tính một hệ số đánh giá truyền dẫn R như sau: R = Ro - Is - Id - Ie + A Hệ số này bao gồm: giá trị gốc Ro, các tổn hao Is, Id và Ie và một hệ số thuận lợi (Advantage factor) như sau: Ro mô tả tỷ số tín hiệu trên nhiễu (SNR) của kết nối. Nó bao gồm tạp âm trong mạng, trong môi trường phía người nói và người nghe và ảnh hưởng của tạp âm tại phía người nghe, SNR được coi là một tham số biểu diễn chất lượng cơ bản. Is thể hiện các tổn hao nhất thời bao gồm: mức cường độ âm, mức xuyên âm vượt quá phạm vi cho phép và tổn hao lượng tử (mã hóa PCM). Id chứa các tổn hao do trễ và tiếng vọng. Ie bao gồm các tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp). A cho phép điều chỉnh chất lượng trong những trường hợp đặc biệt nhờ thêm vào các yếu tố phi kỹ thuật để đánh giá chất lượng. Cuối cùng, E-model sử dụng một ánh xạ phi tuyến tính để chuyển giá trị R thành giá trị MOS tương đương. Như vậy, E-model cho phép xác định chất lượng thoại nhờ phân tích tác động của nhiều tham số truyền dẫn. Nhờ đó có thể đánh giá ảnh hưởng của các tham số này đối với mức chất lượng tổng thể. 2.4.3.2.4 Kết luận Phần 2.4.3.2 đã phân tích các phương pháp đánh giá chất lượng có thể sử dụng để đánh giá chất lượng thoại trong mạng GSM. Như đã phân tích ở trên, điểm MOS là chỉ tiêu chất lượng tổng thể được sử dụng để đánh giá chất lượng thoại. Phương pháp đánh giá chủ quan sử dụng số liệu vào là nhận xét của khách hàng về mức chất lượng từ đó tính toán ra điểm đánh giá bình quân MOS. Các phương pháp đánh giá khách quan sử dụng các mô hình tính toán để ước lượng ra mức chất lượng quy đổi về MOS. Dựa trên những ưu nhược điểm và phạm vi ứng dụng của các phương pháp này, để sử dụng đánh giá chất lượng thoại cho mạng GSM của VNPT có thể sử dụng các phương pháp đánh giá như sau: Sử dụng PESQ để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối. 61 (2.4.1)

Chương 2 Kỹ thuật xử lý âm thanh Mô hình đánh giá E-Model có thể được sử dụng để phân tích hệ thống nhằm xác định các yếu tố ảnh hưởng đến chất lượng thoại. Ngoài ra, nếu có điều kiện có thể sử dụng kết hợp phương pháp đánh giá chủ quan để kiểm chứng lại việc đánh giá theo PESQ.

2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI
2.5.1 Mô hình thời gian động 2.5.1.1 Tổng quan Nhận dạng tiếng nói tự động (Automatic speech recognition-ASR) là một lãnh vực nghiên cứu quan trọng và có nhiều ứng dụng trên thực tế, dựa trên việc lưu trữ một hay nhiều mẫu âm thanh (template) ứng với từng từ trong bảng từ vựng nhận dạng. Quá trình nhận dạng thực hiện việc so trùng tiếng nói nhận được với các mẫu lưu trữ. Các mẫu có khoảng cách đo lường thấp nhất so với mẫu tiếng nói nhận được chính là từ được nhận dạng. Giải thuật dùng để tìm được sự tương thích tốt nhất là dựa trên lập trình động (Dynamic Programming - DP), và một trong các giải thuật là giải thuật mô hình thời gian động (Dynamic Time WarpingDTW).

Để có thể nắm bắt được kiến thức về DTW một cách nhanh chóng, có hai khái niệm cần làm rõ
→ Điểm đặc trưng: là thông tin của từng tín hiệu được biểu diễn dưới dạng nào đó. → Sai biệt: dạng đo lường nào đó được dùng để tính toán được sự tương thích, có hai dạng:

1. Cục bộ: độ tính toán sai biệt giữa điểm đặc trưng của một tín hiệu một tín hiệu khác. 2. Toàn cục: độ tính toán sai biệt tổng giữa một tín hiệu tổng với một tín hiệu khác có thể có sai biệt. Việc phân tích điểm đặc trưng bao gồm việc tính toán vector đặc trưng với khoảng thời gian thông thường. Đối với việc phân tích dự đoán tuyến tính, vector đặc trung bao gồm việc tính toán các hệ số dự đoán (hoặc các phép biến đổi giữa chúng). Một loại vector đặc trưng thôngdụng dùng trong nhận dạng tiếng nói là Mel Frequency Cepstral Coefficients (MFCCs). Vì các vector đặc trưng có thể có nhiều phần tử phức tạp, nên giá trị trung bình của việc tính toán cần được thiết lập. Phép đo sai biệt giữa hai vector đặc trưng được tính toán bằng đơn vị theo hệ Euclidean. Như vậy độ sai biệt cục bộ giữa vector đặc trưng x của tín hiệu một và vector đặc trưng y của tín hiệu hai được cho bởi

d ( x, y ) =

∑ (x − y )
i i i

2

(2.5.1)

Mặc dù sử dụng hệ đơn vị Euclidean cho việc tính toán sẽ tăng độ phức tạp hơn so với các hệ đo lường khác, nhưng nó lại cho tác dụng nhiều hơn với độ sai biệt lớn đối với một đặc trưng đơn. Nếu như việc quay lui trong quá trình tìm kiếm sự tương thích nhất cần thiết thì một dãy có nhiệm vụ lưu trữ các entry trước đó trong quá trình xử lý tìm kiếm, được gọi là backtrace array. 62

Chương 2 Kỹ thuật xử lý âm thanh

2.5.1.2 Giải thuật DTW đối xứng Tiếng nói là một quá trình phụ thuộc vào thời gian. Tiếng nói có nhiều âm tiết tương tự nhau nhưng với khoảng thời gian phát âm khác nhau, hoặc có âm tiết đồng âm nhưng khác ở chỗ nhấn âm, v.v… Để phân tích được sự sai biệt toàn cụ giữa hai mẫu tiếng nói (đại diện bởi một chuỗi các vector), vấn đề về thời gian phải được xem xét.

Bài toán được mô tả ở hình 2.5.1, mô tả một ma trận hai chiều theo thời gian sử dụng cho việc canh chỉnh theo thời gian. Cột là mô tả cho tiếng nói mẫu (template) và dòng là tiếng nói thu được cần nhận dạng. Trong hình minh họa, tín hiệu vào “SsPEEhH” được xem là một dạng “nhiễu” của tiếng nói mẫu. Tín hiệu vào này sẽ được so sánh trùng với tất cả các mẫu tiếng nói được lưu trữ trong hệ thống. Mẫu có độ tương thích tốt nhất sẽ có độ sai biệt nhỏ nhất so với tín hiệu vào cần so sánh. Giá trị độ sai biệt toàn cục là tổng các sai biệt cục bộ của việc so sánh.

Hình 2.5.1 Mô tả canh chỉnh thời gian giữa mẫu tiếng nói “SPEECH” và tín hiệu tiếng nói đầu vào “SsPEEhH” Làm cách nào để có thể tính được độ tương thích tốt nhất (có giá trị độ sai biệt toàn cục nhỏ nhất) giữa tín hiệu cần so sánh và tiếng nói mẫu? Việc này được thực hiện bằng cách ước lượng tất cả khoảng cách có thể có, nhưng cách này không hiệu quả khi số lượng khoảng cách có dạng hàm mũ theo chiều dài của tín hiệu ngõ vào. Thay vào đó, ta xem xét những ràng buộc tồn tại trong quá trình so trùng (hoặc có thể áp đặt các ràng buộc này) và dùng những ràng buộc này để có được giải thuật hiệu quả hơn. Các ràng buộc được thiết lập phải không phức tạp và cũng không hạn chế nhiều, như:
→ Các khoảng cách so trùng không thể thực hiện việc đi lui; → Mọi khung của tín hiệu cần so trùng phải được dùng trong quá trình so trùng; → Các giá trị sai biệt cục bộ được kết hợp bằng phương pháp cộng dồn vào giá trị sai biệt toàn cục.

Mọi khung trong tín hiệu cần so trùng với mẫu tiếng nói được xem xét ứng với từng tính toán độ sai biệt. Nếu thời điểm đang xét là (i, j ) , với i là chỉ số của khung tín hiệu ngõ vào, j là của khung tiếng nói mẫu, thì các vị trí trước đó là (i − 1, j − 1), (i − 1, j ) , (i, j − 1) . Ý tưởng chính của lập trình động là tại vị trí (i, j ) , việc tính toán dự trên độ sai biệt nhỏ nhất của các vị trí (i − 1, j − 1), (i − 1, j ) , (i, j − 1) . 63

Chương 2 Kỹ thuật xử lý âm thanh Giải thuật lập trình động thực hiện cần phải đồng bộ thời gian: mỗi cột của ma trận thời gian-thời gian được xem như là một sự kế vị các tính toán trước đó, do đó, ứng với một mẫu tiếng nói có chiều dài N , số lượng bước so trùng tối đa là N . Gọi D (i, j ) , d (i , j ) tương ứng là độ sai biệt toàn cục và độ sai biệt cục bộ tại vị trí

(i, j ) .
D (i , j ) = min [D (i − 1, j − 1), D (i − 1, j ), D (i , j − 1) ] + d (i , j )
(2.5.2) Với D (1,1) = d (1,1) là giá trị khởi tạo ban đầu, giải thuật ứng dụng đệ qui vào việc tính toán các độ sai biệt tại D (i, j ) . Giá trị cuối D ( n , N ) chính là giá trị chênh lệch giữa template và tín hiệu cần so sánh, lưu ý rằng N sẽ khác nhau ứng với mỗi template. Đối với việc nhận dạng tiếng nói, giải thuật DP không cần phải chạy trên các máy tính có bộ nhớ lớn, việc lưu trữ được thực hiện bởi một array, lưu giữa từng cột đơn trong ma trận thời gian-thời gian. Ma trận có vị trí đầu tiên có giá trị là 0, như vậy chỉ những hướng di chuyển trong ma trận được mô tả ở hình 2.5.2 mới có thể xuất phát từ vị trí (i, j ) .

Hình 2.5.2 Ba hướng có độ tương thích tốt nhất có thể đi đến từ ô (i, j ) trong giải thuật DTW đối xứng. Phương trình (2.5.2) được thực hiện bằng phương pháp đệ quy. Tuy nhiên, trừ khi ngôn ngữ đã được tối ưu cho việc đệ quy, phương pháp này có thể tốn nhiều thời gian ngay cả đối với những tín hiệu cần so sánh có kích thước nhỏ. Một phương pháp khác có thể cải tiến được tốc độ xử lý cũng như cần bộ nhớ thực thi nhỏ hơn là dùng hai vòng lặp, sử dụng hai array để lưu trữ các cột kề với ma trận thời gian-thời gian.

Hình 2.5.3 Vị trí ô (i, j ) và (i,0) có các ô định hướng khác nhau. Từ (i,0) chỉ có thể đi từ ô (i − 1,0) . Tuy nhiên tại ô (i, j ) thì có thể đi đến 3 ô như mặc định.

64

Chươ 2 Kỹ thu xử lý âm thanh ơng uật Giải G thuật tìm chi phí toàn cục nhỏ n m nhất: 1. Tính tại cộ 0, bắt đầu từ đáy của ô. Giá trị ch phí toàn cụ của ô bằn giá trị ch phí ột u hi ng hi cục bộ. Sau đó, tính toán giá trị chi phí toàn cụ của các ô có khả năng cho được g trị u ục g giá thấp bằng cách lấy giá trị chi phí cục bộ của ô cộng thêm cho giá tr toàn cục c ô á m rị của ược redCol (pred decessor colu umn). ngay dưới đó, ô này đư gọi là pr rị àn a Giá ộ 2. Tính giá tr chi phí toà cục của ô đầu tiên của cột kế tiếp là curCol. G trị cục bộ của ô cộng thêm cho giá trị toàn cục củ ô phía dư cùng của cột trước nó m ủa ưới ó. rị ủa n Col. 3. Tính giá tr toàn cục củ các ô còn lại của curC ợc redCol và lặp lại bước 2 cho đến khi tất cả các cộ được tính toán p i ột h 4. curCol đượ định là pr xong. c ột ục 5. Giá trị chi phí toàn cục tại vị trí cộ cuối cùng, dòng trên cụ là giá trị cần tìm. Mã M giải của quá trình nh sau: hư

2.5.1.3 Giải thuật DTW bất đối xứn 2 W ng Mặc dù giải thuật cơ b DP có ư điểm là đối xứng ( tấ cả các kh bản ưu đ ất hung của tín hiệu cần so trùng và m tiếng nói cần tham kh được xe xét), tuy nhiên giải th vẫn còn yếu o mẫu hảo em huật n điểm l tại các vị trí cột và hàn lệ thuộc v các vị trí đường chéo có thể sinh lỗi. là t ng vào í o h Một cách đ tránh việc này là thự hiện việc dùng d (i , j ) hai lần tro mỗi bướ tại để ực ong ớc vị trí đ đường chéo, điều này dẫ đến loại b lỗi tại các vị trí cột v hàng, gọi giá trị lỗi cô lập , ẫn bỏ c và g n ơng ) h d h , d v tương ứng cho các bước di chuyển theo hàng và cột. Phươ trình (1) sẽ trở thành
D (i, j ) = min [D (i − 1, j − 1) + 2d (i, j ), D (i − 1, j ) + d (i + j ) + d h , D (i, j −1) + d (i, j ) + d v ] m 1

(2.5.3) ) Với V giá trị d h , d v có đư qua thực nghiệm ược c Các C ràng buộc trong việc nhảy đến c ô kế tiếp các p: v g ộng → (i − 1, j − 2) đến vị trí (i, j ) - gọi là đường chéo mở rộ (độ đốc là 2) → (i − 1, j − 1) đến vị trí (i, j ) - g là đừong chéo chuẩn (độ dốc là 1) ị gọi g n → (i − 1, j ) đến vị trí (i, j ) - gọi là đường ng gang (độ dốc là 0) Giả sử rằn mỗi khun của tín hiệ ngõ vào chỉ được xé đến một lầ duy nhất, như ng ng ệu ét ần , vậy ta có thể khôn xét đến v a ng việc chuẩn h độ dài của mẫu tiến nói. Do việc tính toá tại hóa c ng v án từng ô khác nhau nên giải thuậ được gọi l giải thuật lập trình độn bất đối xứ n ật là ng ứng.

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Hình 2.5.4 Ba hướng có giá trị so trùng tốt n H o nhất có thể đi đến từ ô (i, j ) trong giải g thuật D DTW bất đối xứng.

Hình 2.5.5 Các vị trí ô tại (i, j ) , (i,0) và (i,1) có các ô đ H định hướng khác nhau. T ô k Tại chỉ i i (i,0) c có thể đi đến ô (i − 1,0) ; tại ô (i,1) có thể đi đến (i − 1,1) hoặc (i − 1,0) ; tại ô (i, j ) có thể đi đến các v trí chuẩn. vị

Hình 2.5.6 Vùng tô mà mô tả vù mà các h H àu ùng hướng di ch huyển không bao giờ đi đến. g Các hì chữ nhật mô tả là cá trường hợ đặc biệt. Trong giải t ình t ác ợp T thuật DTW đ xứng, dò 0 đối òng là trườ hợp đặc biệt, còn tr ờng c rong giải thu DTW bấ đối xứng, dòng 1 đượ xử lý khác với uật ất ợc c các trư ường hợp còn lại. Các trường hợp đặc bi thường x ra tại vị trí j = 2i − 1 , và j = 2i , giá trị ch phí g iệt xảy hi toàn cụ cho từng trường hợp được tính nh sau: ục hư → 2i − 1 : chi phí cục bộ + giá trị nhỏ nhất t vị trí pr i ộ tại redCol [ j − 1] và predCol [ j − 2] → 2i : chi phí cục bộ + giá trị nhỏ nhấ tại vị trí p á ất predCol [ j − 2] Mã giải củ quá trình n sau: ủa như

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Giá G trị chi ph nhỏ nhất là cột cuối c hí l cùng lưu tron highestJ ng 2.5.2 Mô hình chuỗi mark ẩn kov 2.5.2.1 Tổng quan 2 g hống Mô hình Markov ẩn (H M Hidden Mark Model - HMM) đư sử dụng trong việc th kov ược kê mô hình tạo âm thoại. Tín hiệu quả c mô hình được thể h ô m nh của h hiện trong vi có thể m tả iệc mô đặc điểm của tín hiệu âm thoạ theo dạng t h ại toán học dễ dàng cho việ xử lý tín h ệc hiệu. Các trạng thái của HM có được trước khi t MM c thực hiện việ xử lý các trạng thái ( ệc c (trích ông ư ào M huỗi các thôn số vector rời rạc theo thời ng r o các thô số). Như thế, ngõ và của HMM chính là ch gian. 2.5.2.2 Định nghĩa mô h 2 h hình Marko ẩn ov Mô hình Markov ẩn là một tập các trạng thái hữu hạn, mà mỗi trạng thái có liên quan M à c à đến hà phân phố xác suất. V chuyển tiếp giữa cá trạng thái được định n àm ối Việc ác nghĩa bởi mộ tập ột xác su được gọi là xác suất chuyển tiếp (transition p uất c probability). Trong một trạng thái cụ thể, ụ kết qu có thể đư tạo ra dự trên hàm phân phối x suất tươ ứng. Kế quả này k uả ược ựa xác ơng ết không phải là một trạng thái có thể n à nhìn thấy đư thông qua việc quan sát các trạ thái, cho nên ược q n ạng o được g là mô hìn Markov ẩ gọi nh ẩn. Trong mô hì Markov ẩn, các ký h sau đây được sử dụn T ình hiệu ng Số lượng tr rạng thái của mô hình, N . a Số lượng ký hiệu quan sát theo th tự, M . N việc quan sát là liên tục thì có g trị k n hứ Nếu n giá M là vô hạn h Tập các trạ thái xác suất chuyển tiếp Λ = aij ạng n

{ }

ái aij = p{qt +1 = j qt = i}, 1 ≤ i, j ≤ N với qt là trạng thá hiện tại.

Chương 2 Kỹ thuật xử lý âm thanh Xác suất trạng thái chuyển tiếp phải thỏa mãn ràng buộc trực giao sau

aij ≥ 0,
-

1 ≤ i, j ≤ N và

∑a
j =1

N

ij

=1 ,

1≤ i ≤ N

Hàm phân phối xác suất của mỗi trạng thái B = b j (k )

{

}

b j ( k ) = p{at = vk qt = j},

1 ≤ j ≤ N,
M

1 ≤ k ≤ M với v k định nghĩa cho ký

hiệu quan sát thứ k theo thứ tự alphabet, và at là vector thông số hiện tại. Điều kiện

b j ( k ) ≥ 0, 1 ≤ j ≤ N ,
-

1 ≤ k ≤ M và

∑ b (k ) = 1,
k =1 j

1≤ j ≤ N

Nếu việc quan sát là liên tục thì phải dùng hàm mật độ xác suất liên tục thay cho xác suất rời rạc. Trong trường hợp này, các thông số của hàm mật độ xác suất liên tục phải được định rã. Thông thường mật độ xác suất xấp xỉ với trọng số tổng M của phân bố Gaussian Ν

-

b j (at ) = ∑ c jm Ν(μ jm , Σ jm , at ) với
m =1

M

c jm

= hệ số trọng số = vector trung bình = ma trận đồng biến
1 ≤ j ≤ N, 1≤ m ≤ M

μ jm
Σ jm
M

c jm thỏa các điều kiện c jm ≥ 0,

∑c
m =1

jm

= 1,

1≤ j ≤ N
1≤ i ≤ N

-

Trạng thái ban đầu của hàm phân phối π = {π i } với π i = p{qi = i},

Ký hiệu λ = (Λ , B , π ) dùng cho HMM với hàm phân phối xác suất rời rạc, và

λ = (Λ , c jm , μ jm , Σ jm , π ) dùng cho HMM với hàm mật độ xác suất liên tục
Ứng dụng HMM trong việc nhận dạng âm thoại cô lập Ứng dụng HMM trong việc nhận dạng âm thoại liên tục

Một số ứng dụng mô hình Markov ẩn trong thực tiễn là: -

Ứng dụng HMM trong việc xử lý cấu trúc đa cấp độ cho văn phạm tiếng Anh Ứng dụng HMM trong học bản thảo viết tay

2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục Trong chế độ cô lập, ta sử dụng một HMM cho từng đơn vị âm thoại, còn trong trường hợp nhận dạng liên tục, hệ thống cần nhận dạng một chuỗi các âm đơn vị kết nối lại với nhau, đôi khi cần nhận diện cả một câu, hoặc nhiều câu. Khi đó số lượng câu có thể rất lớn. Phương pháp thực hiện cũng tương tự như trong nhận dạng âm thoại cô lập, bao gồm hai bước huấn luyện và nhận dạng. Bước huấn luyện có thể dùng hoặc là tiêu chuẩn MMI hoặc là ML, và bước nhận dạng có thế sử dụng các phương pháp như nhận dạng trên cơ sở Veterbi, xây dựng cấp độ, tìm kiếm N-tốt nhất và tính toán hiệu suất bộ nhận dạng.

68

Chương 2 Kỹ thuật xử lý âm thanh
2.5.3 Mạng nơron 2.5.3.1 Tổng quan Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hình xử lý thông tin dựa trên cơ chế hoạt động của hệ thống thần kinh sinh học, như não bộ. Thành phần chính yếu của mô hình này là cấu trúc đặc biệt của hệ thống này. Nó tập hợp một số lượng lớn các phần tử xử lý kết hợp nội tại (được gọi là các neuron) hoạt động hợp nhất để giải quyết các bài toán cụ thể. Một ANN sẽ được cấu hình cho một ứng dụng cụ thể nào đó, ví dụ như nhận dạng mô hình hoặc phân loại dữ liệu thông qua quá trình học. Việc học trong hệ thống nhằm mục đích điều chỉnh các kết nối thuộc kỳ tiếp hợp được phân chia trong tế bào mà đã có sẵn giữa các neuron.

Neuron nhân tạo đầu tiên được tạo ra vào năm 1943 bởi nhà nghiên cứu neuron học Warren McCulloch và nhà logic học Walter Pits. Nhưng kỹ thuật thời đó không cho phép neuron phát triển được các thế mạnh của nó. Mạng neuron này nay có nhiều cải tiến cũng như đáp ứng được các yêu cầu đặt ra của các bài toán, một số ưu điểm của mạng neuron ngày nay so với thời trước là: 1. Học thích ứng: có khả năng học cách thức thực hiện công việc dựa trên các dữ liệu cho sẵn trong quá trình huấn luyện hoặc định các thông số ban đầu 2. Khả năng tự tổ chức: một ANN có thể tự thân tổ chức hoặc miêu tả các thông tin mà nó nhận được trong suốt thời gian học 3. Hiệu chỉnh lỗi thông qua mã hóa thông tin dư thừa: có thể hủy một phần mạng làm cho hiệu suất hệ thống giảm. Tuy nhiên, một số mạng có khả năng nhớ được phần mạng đã hủy.
2.5.3.2 Phương pháp học của não người Trong não người, một neuron sẽ thực hiện nhiệm vụ thu thập các tín hiệu từ các neuron khác thông qua các cấu trúc thần kinh phức tạp được gọi là dạng cây. Neuron gửi các hoạt động điện thông qua sợ mỏng, dài, gọi là sợi trục thần kinh axon, được phân chia thành hàng ngàn nhánh nhỏ. Tại cuối mỗi nhánh, một cấu trúc được gọi là khớp thần kinh synapse sẽ chuyển đổi các hoạt động từ axon thành các hiệu ứng điện thực hiện việc ức chế hoặc kích thích hoặc động này đối với các neuron kết nối tới nhánh. Khi một neuron nhận được tín hiệu kích thích đầu vào có mức độ so sánh tương đối lớn so với tín hiệu cấm ngõ vào, neuron sẽ gửi một gai điện đến axon của nó. Việc học xảy ra theo cách thức thay đổi hiệu lực của khớp thần kinh dẫn đến việc truyền thông tin từ một neuron đến một neuron khác về sự thay đổi.

Hình 2.5.7 Các thành phần của một neuron

69

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Hình 2.5.8 Khớp th kinh hần 2.5.3.3 Từ neuron ngườ đến neuro nhân tạo 2 n ời on Thực hiện quản lý các mạng neuro bằng cách đầu tiên tìm cách suy l on h m luận bản chấ của ất các ne euron và các kết nối nội tại bên tron Sau đó th hiện việc lập trình đ giả lập các đặc ng. hực c để c tính nà Tuy nhiê do nhận thức về các neuron khô đầy đủ cũng như năng lực của việc ày. ên, c ông tính to là có giớ hạn, cho nên mô hình mạng neur nhân tạo so với mạn neuron n oán ới h ron o ng người thuộc dạng “lý tưở ởng” và đơn giản hơn.
Thân tế bào ế Hình cây h Ngưỡng

Phép tổng

Trục t thần kinh (a axon)

Hình 2.5.9 Mô hìn neuron nh
HƯỚNG DẪ / SỬ DỤNG ẪN

CÁC N NGÕ VÀO O

NGÕ RA

NGÕ VÀ HƯỚNG DẪN ÀO N

Hình 2.5.10 Mô hìn hóa mô hình neuron nh h của ron h, o g Mô phỏng hoạt động c các neur thần kinh mạng neuron nhân tạo là hệ thống bao n ử n) g c g gồm nhiều phần tử xử lý đơn giản (neuron hoạt động song song. Tính năng của hệ thống này tùy th huộc vào cấu trúc của hệ, các trọng số liên kế neuron và quá trình t u h g ết à tính toán tại các neuron đơn lẻ. Mạ neuron c thể từ dữ liệu mẫu và tổng quát h dựa trên các dữ liệu mẫu n ạng có à hoá n học.

Chươ 2 Kỹ thu xử lý âm thanh ơng uật

Hình 2.5.11 Mô hìn mạng Ne nh euron theo cá lớp ác m ức cách sao cho tất cả chún đều nhận cùng o ng Một nhóm các neuron được tổ chứ theo một c ector vào X để xử lý tạ cùng một t ại thời điểm. Việc sản sinh ra tín hiệu ra của mạng xuất V h r một ve hiện cùng một lúc Vì mỗi neu c. uron có một tập trọng số khác nhau nên có bao nhiêu neuro sẽ t u o on sản sin ra bấy nh nh hiêu tín hiệu ra khác nh u hau. Một nhó các neur như vậy được gọi là một óm ron à lớp mạ ạng. Chúng ta có thể kết hợp nhiều l mạng tạo ra một mạn có nhiều lớp, lớp nhậ tín t lớp o ng ận hiệu đ vào (vec tín hiệu vào x ) được gọi là lớ vào (inpu layer). Trê thực tế chúng đầu ctor u ớp ut ên thực hiện như một bộ đệm chứ tín hiệu đ vào. Các tín hiệu đầu ra của mạn được sản sinh h t ứa đầu c u ng n ra từ lớ ra của mạ (output layer). Bất k lớp nào nằm giữa 2 lớ mạng trên được gọi là lớp ớp ạng kỳ n ớp n ẩn (hidden layer) và nó là th hành phần nộ tại của mạng và khô có tiếp xúc nào với môi ội m ông x i g ớp i nh hân hỏi trường bên ngoài. Số lượng lớ ẩn có thể từ 0 đến vài lớp. Mô hìn neuron nh tạo đòi h 3 thành phần cơ bản sau: n - Tập trọng s liên kết đặc trưng cho các khớp th kinh. số o hần - Bộ cộng (S Sum) để thự hiện phép tính tổng cá tích tín h ực p ác hiệu vào với trọng số liên kết n tương ứng - Hàm kích h (squash hoạt hing function hay hàm c n) chuyển (tran nsfer functio thực hiện giới on) n hạn đầ vào của neuron. ầu n Trong mô hì neuron n T ình nhân tạo mỗi neuron đượ nối với cá neuron kh và nhận đ i ợc ác hác được tín hiệ xi từ chún với các tr ệu ng rọng số wi . Tổng thông tin vào có tr rọng số là: Net = ∑ w j x j . N 2.5.3.4 Ứng dụng mạng neuron tro nhận dạ tiếng nói 2 g ong ạng i Mạng neur (Neuron Network) là một công cụ có khả nă giải quyế được nhiều bài ron à c ăng ết toán k khó, thực tế n những nghiê cứu về mạ neuron đ ra một c ên ạng đưa cách tiếp cận khác với nh n hững cách ti cận truyền thống tro lý thuyết nhận dạng. Trong thực tế, mạng neuron được triển iếp ong t c n khai c hiệu quả trong nhận dạng tiếng nói thường dùng mạn neuron la truyền ngược có n g g ng an hướng (Back-prop g pagation Neu Network hoặc kết hợp với phư ural k) h ương pháp mã dự đoán t m tuyến tính LP (Linear Predictive C PC P Coding). 2.5.3.4.1 Sơ lược về lý th 2 huyết nhận d dạng Lý thuyết nhận dạng l phương ph để xây d là háp dựng một hệ thống tin học có khả n ệ h năng: cảm nhận-nhận th n hức-nhận biế các đối tượ vật lý gần giống kh năng của con người. N ết ợng g hả Nhận dạng có gắn chặt với 3 khả nă trên là m lĩnh vực hết sức rộng có liên qua đến việc x lý c v ăng một g an xử tín hiệ trong không gian nhiề chiều, mô hình, đồ th ngôn ngữ, cơ sở dữ liệu, phương pháp ệu ều ô hị, , ra quy định... Hệ thống nhận dạng phải có khả năng thể hiện đ yết ệ n g được quá trìn nhận thức của nh c con ng gười qua các mức: c

Chươ 2 Kỹ thu xử lý âm thanh ơng uật - Mức 1- mức cảm nhậ cảm nhậ được sự tồn tại các đ tượng q m ận: ận t đối quan sát, hay đối y tượng mà hệ thống cần nhận d g dạng. Mức n cũng đưa ra quá trình thu nhận số liệu qua cá bộ này a h ố ác cảm biến trong hệ thống nhận dạng, ví dụ trong hệ thố nhận dạn tiếng nói: đối tượng ở đây ống ng : là tiến nói (speec và thu nh đầu vào q Micro h ng ch) hận qua hoặc các file âm thanh .w wav. - Mức 2- mứ nhận thức ở đây biểu diễn quá trình học, mô hình hoá đối tượng để tiến ức c: u t đ ể tới hìn thành sự p nh phân lớp (cla assification) các đối tượn cần nhận dạng. ng - Mức 3- mứ nhận biết từ đối tượn quan sát có thể trả lờ nhận biết đối tượng là gì ? ức t: ng ời à Hay đây là quá trìn ra quyết định. nh đ
Đối tượng vật lý Thu nhận quan sát Số liệu S (t hiệu) tín Tiền xử lý n số liệu Đối tượ ợng biểu diễn d Trích chọ ọn đặc tính h Biểu diễn đặc tính Học hình thàn nh sự phân lớp p

Đánh giá chất Đ lượ nhận dạng ợng

Trả lời nhận dạng

Ra quyết định R phân lớp

Học và ra quyết định

Hìn 2.5.12 Sơ đồ tổng qu của hệ th nh ơ uan hống nhận dạ ạng 2.5.3.4.2 Nh dạng tiến nói dùng mạng Neuro 2 hận ng on Hình 2.5.13 mô tả chức năng cơ bản của hệ thốn nhận dạng tiếng nói H n ng g

Hìn 2.5.13 Sơ đồ khối m tả hệ thốn nhận dạng tiếng nói nh S mô ng g Phương án lựa chọn số nút của từn lớp trong mạng: theo kinh nghiệm của các ch n ố ng m huyên on ử g ngược hướn sử ng, gia về mạng neuro trong các bài toán phân lớp có sử dụng mạng lan truyền n án ạng n on lớp. dụng 1 lớp tính toá là lớp mạ Kohonen làm lớp ẩn. Việc xác định số neuro cho từng l + Số neuron lớp vào = số chiều của vector vào. n + Số neuron lớp Kohone = số giá tr các tập trả lời. n en rị ả + Số neuron lớp ra = số lượng kết q đầu ra, sử dụng phươ pháp mã hoá bằng s bit n quả ử ơng ã số biểu diễn số lượng kết quả d g Phương phá học cạnh t P áp tranh của lớp ẩn và quá trình học có chỉ đạo tại lớp ra của m p ó mạng theo các bước sau: + Khởi tạo trọng số: cá thành phầ ma trận t ác ần trọng số đượ khởi tạo bởi giá trị ngẫu ợc nhiên + Đọc tín hi vào cho mạng: dữ liệ trong file mẫu chứa t iệu m ệu e thông tin mẫ học và cho kết ẫu quả gồ 2 thành p ồm phần: mảng 1 chiều chứ vector tín hiệu vào và mảng 2 chi chứa ma trận ứa à iều a trọng s liên kết ban đầu của lớp Kohonen số l n + Hiệu chỉnh ma trận trọng số lớp K h Kohonen: hi chỉnh trọ số liên kết neuron lớ ẩn iệu ọng k ớp Kohon sao cho mạng có thể học mẫu tố nhất. nen ể ốt Phương pháp nhận dạng P p g - Đầu vào: file c u chứa dữ liệu tín hiệu tiến nói cần n ng nhận dạng và file chứa t à thông

Chương 2 Kỹ thuật xử lý âm thanh tin trọng số liên kết neuron lớp ẩn và lớp ra. Ngoài ra đầu vào nguồn âm cũng có thể là từ micro thông qua sound card, lúc này dữ liệu tiếng nói được đọc trong buffer dữ liệu của Windows. - Đầu ra: kết quả cần nhận dạng Quá trình nhận dạng tiếng nói được thực hiện qua các bước: + Đọc tín hiệu vào: đọc dữ liệu từ file wav hoặc từ buffer dữ liệu âm thanh + Xử lý tín hiệu giống như chức năng phân tích LPC ở trên + Đọc ma trận trọng số liên kết lớp ẩn và lớp ra của mạng + Xác định neuron trung tâm + Tra cứu kết quả: tra cứu trên bản đồ topo mạng neuron để đưa ra giá trị cần nhận dạng.
TÓM TẮT CHƯƠNG 2

Chương 2 cung cấp các kiến thức tổng quát về xử lý âm thanh. Trước hết cái khái niệm về tín hiệu, cách phân loại tín hiệu cũng như tổng quát về hệ thống xử lý âm thanh được đề cập trong phần 2.1. Ngoài ra ở mục phép biến đổi z, biến đổi Fourier liên tục và rời rạc cũng được nhắc lại. Trong xử lý âm thanh, mô hình âm thanh là không thể thiếu, mục 2.2 đã giới thiệu cho các mô hình lấy mẫu âm thanh và mã hóa thoại cũng như các mô hình dùng trong xử lý âm thanh. Ngoài ra tổng quan về các chuẩn mã hóa âm thoại thông thường cũng được giới thiệu trong mục 2.1.4. Dự đoán tuyến tính là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay của trong xử lý âm thanh. Để giúp các bạn hiểu về vấn đề này toàn bộ mục 2.3 được dành để thảo luận về bài toán dự toán tuyến tính cũng như các giải thuật chính như giải thuật Levison-Durbin, Leroux-Gueguen. Ngoài ra mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả và thảo luận chi tiết. Ở mục tiếp theo, mục 2.4, trình bày một số phương pháp đánh giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động) vì dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất trong các dịch vụ cung cấp cho khách hàng của các nhà khai thác di động ở Việt Nam cũng như trên thế giới hiện nay. Vì thế trong mục này, các phương pháp đánh giá được thảo luận bao gồm: phương pháp đánh giá chủ quan và phương pháp dựa trên mô hình khách quan. Và mục cuối cùng đề cập đến một số mô hình ứng dụng xử lý động như mô hình thời gian động, mô hình chuỗi markov ẩn và mạng nơtron. Để cụ thể hóa, bài toán cụ thể ứng dụng mạng neuron lan truyền ngược hướng (Back-propagation Neural Network) trong nhận dạng tiếng nói hoặc kết hợp với phương pháp mã dự đoán tuyến tính LPC (Linear Predictive Coding) được giới thiệu.

73

Chương 2 Kỹ thuật xử lý âm thanh

CÂU HỎI VÀ BÀI TẬP CHƯƠNG 2

1. Điều kiện đủ để tồn tại biến đổi Fourier là A/

∑ x(n) < ∞

B/ z = 1 C/ A, B đều đúng D/ A, B đều sai 2. Như thế nào được gọi là yêu cầu “Nhận dạng tiếng nói / ngôn ngữ khác nhau” của một bộ mã hóa thoại? A/ Kỹ thuật nhận dạng tiếng nói có thể phân biệt được giọng nói của người lớn nam giới, người lớn nữ giới và trẻ con B/ Kỹ thuật nhận dạng tiếng nói có thể nhận dạng được ngôn ngữ nói của người nói. C/ A, B đều đúng D/ A, B đều sai 3. Để sử dụng đánh giá chất lượng thoại cho mạng GSM (Global System Mobile) của VNPT (Vietnam Posts and Telecommunications Corporation), có thể sử dụng các phương pháp đánh giá nào sau đây A/ Sử dụng PESQ (Perceptual Evaluation of Speech Quality) để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối B/ Sử dụng PSQM (Perceptual Speech Quality Measurement) để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối C/ Sử dụng E-model để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối D/ A, B đều đúng 4. Ứng dụng mạng neuron trong thực tế, người ta thường dùng để A/ thống kê mô hình tạo âm thoại B/ nhận dạng tiếng nói C/ A, B đều đúng D/ A, B đều sai 5. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để nhận dạng tiếng nói A/ mạng neuron B/ mô hình thời gian động C/ Mô hình chuỗi markov ẩn D/ A, B đúng 6. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để xử lý thoại A/ mạng neuron

74

Chương 2 Kỹ thuật xử lý âm thanh B/ mô hình thời gian động C/ Mô hình chuỗi markov ẩn D/ A, B, C đúng 7. Trong thực tế, việc tính toán dự đoán tuyến tính LP (Linear Prediction) thường được thực hiện bằng giải thuật nào A/ Giải thuật Levison-Durbin B/ Giải thuật DTW (Dynamic Time Warping) bất đối xứng C/ Giải thuật DTW (Dynamic Time Warping) đối xứng D/ B, C đều đúng 8. Mô hình Markov ẩn (Hidden Markov Model - HMM) được sử dụng trong thực tế như thế nào A/ sử dụng trong việc thống kê mô hình tạo âm thoại B/ nhận dạng âm thoại cô lập C/ nhận dạng âm thoại liên tục D/ A, B, C đều đúng 9. Nhược điểm của các phương thức cho điểm theo MOS (Mean Opinion Score) là: A/ mang tính chất khách quan B/ tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp C/ Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương pháp đánh giá chất lượng này là không thực tế D/ B, C đều đúng 10. Mô hình nào được dùng trong việc tổng hợp tiếng nói A/ Mô hình AR (Autoregressive) B/ Mô hình tất định C/ Mô hình analog ngẫu nhiên D/ Mô hình LP (Linear Prediction) 11. Trong mô hình xử lý âm thanh, việc lấy mẫu tín hiệu ở miền thời gian có thể được thực hiện với loại tín hiệu nào A/ Tín hiệu liên tục B/ Tín hiệu rời rạc C/ Tín hiệu ngẫu nhiên D/ A, B đúng

75

Chương 2 Kỹ thuật xử lý âm thanh 12. Bảng sau là thang điểm đánh giá điểm hội thoại và điểm chất lượng nghe của phương thức nào của phương pháp chủ quan trong đánh giá chất lượng thoại? Điểm đánh giá 5 4 3 2 1 Mức độ cố gắng cần thực hiện để hiểu câu Không cần cố gắng Cần chú ý nhưng không cần cố gắng nhiều Cần tương đối tập trung Cần tập trung Không hiểu câu mẫu

A/ Comparison Category Rating (CCR) B/ Conversation Opinion Test (COT) C/ Degradation Category Rating (DCR) D/ A, B, C đều sai 13. Phương pháp nào so sánh dựa trên mô hình giác quan trong đánh giá chất lượng thoại A/ Phương pháp PSQM (Perceptual Speech Quality Measurement) B/ Phương pháp PESQ (Perceptual Evaluation of Speech Quality) C/ Phương pháp mô hình đánh giá truyền dẫn E-Model D/ A, B, C đều đúng 14. Thông thường, tai người nhạy nhất ở tầm tần số nào A/ 2MHz và 5MHz B/ 2kHz và 5kHz C/ 2Hz và 5HZ D/ 2GHz và 2GHz 15. Chọn phát biểu đúng A/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng tuyến tính B/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith C/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng hình sin D/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng xung 16. Giải thuật giải thuật mô hình thời gian động đối xứng - Dynamic Time Warping DTW có khuyết điểm so với giải thuật mô hình thời gian động bất đối xứng là A/ giải thuật sinh lỗi tại những vị trí không ước đoán trước B/ tại các vị trí cột và hàng lệ thuộc vào các vị trí đường chéo có thể sinh lỗi C/ giải thuật luôn luôn sinh lỗi trong thực tế 76

Chương 2 Kỹ thuật xử lý âm thanh D/ A, B, C đều sai 17. Trong thực tế, việc tổng hợp âm thanh có thể được thực hiện bằng A/ mô hình miền thời gian B/ mô hình phi tuyến C/ A, B đều sai D/ A, B đều đúng 18. Cho tín hiệu có tần số cao nhất là 256Hz, vậy tần số lấy mẫu có giá trị là A/ tối đa là 512 Hz B/ tối thiểu là 512Hz C/ tối thiểu là 256Hz D/ A, B đều đúng 19. Hình thức đánh giá chất lượng thoại theo phương pháp chủ quan là hình thức nào A/ Bài kiểm tra hội thoại (Conversation Opinion Test). B/ Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test). C/ Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)). D/ Phương thức phân loại so sánh (Comparison Category Rating (CCR)). E/ A, B, C, D đều đúng 20. Mô hình điều pha và điều tần thuộc mô hình A/ Mô hình phi tuyến B/ Mô hình miền thời gian C/ Mô hình quang phổ D/ Mô hình sin 21. Các mô hình dùng trong xử lý âm thanh A/ Mô hình phi tuyến B/ Mô hình miền thời gian C/ Mô hình quang phổ D/ A, B, C đều đúng 22. Mô hình giác quan PSQM (Perceptual Speech Quality Measurement) được thiết kế để sử dụng cho A/ tín hiệu thoại B/ tín hiệu hình ảnh C/ tín hiệu điều khiển D/ B, C đúng

77

Chương 2 Kỹ thuật xử lý âm thanh 23. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality Measurement) có giá trị A/ từ 5 đến 10 B/ từ 0 đến ∞ C/ từ -∞ đến ∞ D/ từ -1 đến 1 24. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality Measurement) có giá trị 0 để chỉ tương quan giữa tín hiệu ra và tín hiệu vào mô hình là A/ hoàn toàn trùng khớp B/ hoàn toàn khác biệt C/ không thể đánh giá được D/ A, B, C đều sai 25. Hệ số đánh giá truyền dẫn trong E-model được tính dựa vào thông số: A/ tỷ số tín hiệu trên nhiễu (SNR) B/ các tổn hao do trễ và tiếng vọng. C/ Tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp). D/ A, B, C đều đúng 26. Quá trình nhận dạng tiếng nói bằng phương pháp mạng neuron được thực hiện qua __________ bước A/ 10 B/ 5 C/ 20 D/ 15 27. Cho chuỗi x(n) có phép biến đổi z là X(z). Phép biến đổi z của chuỗi hàm tuyến tính nx(n) là A/ z
dX (1 / z ) dz
dX (1 / z ) dz

B/ − z C/ − z D/ z

dX (−1 / z ) dz

dX (−1 / z ) dz

E/ A, B, C, D đều sai

78

Chương 2 Kỹ thuật xử lý âm thanh 28. Cho mô hình sau

Trong mô hình, khối bộ chuyển đổi A/D thực hiện việc A/ chuyển đổi tín hiệu dạng tương tự sang tín hiệu số B/ chuyển đổi tín hiệu dạng số sang tín hiệu tương tự C/ chuyển đổi tín hiệu liên tục sang tín hiệu rời rạc D/ A, B, C đều sai 29. Mô hình quang phổ gồm những mô hình gì A/ Mô hình AR (Autoregressive), mô hình sin B/ Mô hình tất định, mô hình sin C/ Mô hình analog ngẫu nhiên, mô hình sin D/ Mô hình LP (Linear Prediction), mô hình sin 30. Phương pháp nào thuộc phương pháp đánh giá khách quan A/ phương pháp so sánh B/ phương pháp ước lượng tuyệt đối C/ mô hình đánh giá truyền dẫn D/ A, B, C đều đúng

79

Chương 3 Kỹ thuật xử lý hình ảnh 
CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH

3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ
Xử lý ảnh số là lĩnh vực khoa học tương đối mới mẻ và được quan tâm nhiều hiện nay. Hai ứng dụng cơ bản của xử lý ảnh là nâng cao chất lượng hình ảnh và xử lý ảnh cũng như video số với mục đích lưu trữ hoặc truyền qua các hệ thống truyền dẫn hình ảnh. Trong phần này, chúng ta sẽ đề cập tới nhưng vấn đề sau: 1- Giới thiệu khái niệm cơ bản về ảnh số và xử lý video số, xác định ranh giới của lĩnh vực xử lý ảnh. 2- Giới thiệu các ứng dụng quan trọng của xử lý ảnh trong một số lĩnh vực khoa học 3- Xác định các giai đoạn cơ bản trong quá trình xử lý ảnh; 4- Giới thiệu các thành phần của hệ thống xử lý ảnh tổng quát.

3.1.1 Khái niệm cơ bản về xử lý ảnh
Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là tọa độ không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại điểm này. Nếu x,y và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Xử lý ảnh số là quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và có một giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel. Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác. Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm vi tương đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác. Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như sau: 1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học. 2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp, phân đoạn ảnh, xác định và dự đoán biên ảnh, nén ảnh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh. 3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thị giác của con người.

3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt

 

 80 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
người quan sát. Th gian gần đ phạm vi ứng dụng xử lý ảnh mở rộng không ngừng, có th nói hời đây, i ử hể hông có lĩnh vực khoa họ nào không sử dụng các thành tựu củ công nghệ xử lý ảnh số . ọc g c ủa ệ ố hiện kh Trong y học, các thuật to xử lý ảnh cho phép bi đổi hình ảnh được tạo ra từ nguồn bức T , oán h iến o n xạ X -r hay nguồ bức xạ siê âm thành h ray ồn êu hình ảnh qua học trên b mặt film x ang bề x-quang hoặc trực c tiếp trê bề mặt mà hình hiển thị. Hình ản các cơ qua chức năng của con ng ên àn nh an g gười sau đó c thể có được x lý tiếp để nâng cao độ tương phản, lọc, tách cá thành phần cần thiết (c xử ộ , ác n chụp cắt lớp) hoặc tạo ra hình ảnh tron không gia ba chiều (s âm 3 chi h ng an siêu iều). Trong lĩnh vực địa chất, hình ảnh nh được từ vệ tinh có th được phân tích để xác định T v hận v hể n cấu trú bề mặt trái đất. Kỹ thu làm nổi đư úc i uật ường biên (im mage enhanc cement) và kh phục hình ảnh hôi h (image restoration) cho phép n e ) nâng cao chất lượng ảnh vệ tinh và tạ ra các bản đồ địa hình 3-D t ạo n h với độ chính xác ca ao.

ược h g ọc Hình 3.1.1 Ảnh nhận đư từ vệ tinh dùng trong khí tượng họ Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tin theo dõi th tiết cũng được T h h n nh hời xử lý, nâng cao chấ lượng và g ất ghép hình để tạo ra ảnh bề mặt trái đấ trên một vù rộng lớn qua ể b ất ùng n, n o h Dựa n đó có thể thực hiện việc dự báo thời tiết một cách chính xác hơn. D trên các kết quả phân tích ệ ng n đ h g c ảnh vệ tinh tại các khu vục đôn dân cư còn có thể dự đoán quá trình tăng trưởng dân số, tốc độ ô nhiễm môi trường cũng như cá yếu tố ảnh hưởng tới môi trường s ác h m sinh thái. Ản chụp từ vệ tinh nh ệ có thể thu được thông qua các thiết b ghi hình cảm nhận được tia sá ể bị áng quang h học ( ồng n n λ = 45 − 520 nm ), hoặc tia hồ ngoại ( λ = 760 − 900 nm ). Trên hình 3.1.2a và 3.1.2b lần lượt 50 là ảnh bề mặt trái đất nhận đượ từ hai ống ghi hình nói trên, dễ dàn nhận thấy sự khác biệt giữa đ ợc i ng t hai ảnh Đặc biệt tr ảnh 3.1.2 hình con s h. rên 2b, sông được tá biệt rất rõ ràng so với vùng ảnh ha bên ách õ ai bờ. Th bị thu hìn nhạy cảm với vật thể b xạ các ti trong miền hồng ngoại sẽ cho ra n hiết nh m bức ia n i những bức ản trong đó v thể có nhi độ thấp sẽ được phân biệt rõ ràng so với vật th có nhiệt độ cao nh vật iệt ẽ hể ộ hơn. N vậy việc lựa chọn cá thiết bị gh hình khác nhau sẽ tạo r ảnh có đặ tính khác n Như c ác hi ra ặc nhau, tùy thu vào mục đích sử dụng trong các lĩ vực khoa học cụ thể . uộc g ĩnh a

a

b

Hìn 3.1.2 - Ản bề mặt trái đất thu được từ hai came khác nhau nh nh i era u

Chương 3 Kỹ thuật xử lý hình ảnh 
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để phát hiện bọt khí bên trong vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát. Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc kiểm soát truy nhập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v.

3.1.3 Các giai đoạn chính trong xử lý ảnh
1Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong toàn bộ quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đoạn sau, trường hợp ảnh gốc có chất lượng kém, hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiết bị thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon v.v.) hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device). 2Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu v.v. 3Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá sâu các chi tiết thì bài toán nhận dạng thành phần được tách ra trở nên phức tạp, còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ không chính xác. 4Biểu diễn và mô tả: là quá trình xử lý sau khâu phân đoạn hình ảnh. Các vật thể sau khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiết ảnh như độ cong, các góc cạnh v.v. Một vùng ảnh có thể được mô tả dựa trên đặc tính bên trong của nó: miền đồng nhất, đặc điểm đường vân (texture). 5Nén ảnh: là các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số. 6Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh). Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản như vị trí vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tìm kiếm. Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư hỏng có thể gặp trong quá trình kiểm soát chất lượng thành phẩm hoặc các ảnh vệ tinh có độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài việc điều khiển hoạt động của từng

 

 82 

Chương 3 Kỹ thuật xử lý hình ảnh 
modul xử lý ảnh (hình 3.1.3), cơ sở kiến thức còn sử dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hình 3.1.3, quá trình điều khiển tương tác được biểu diễn bằng mũi tên hai chiều.

Hình 3.1.3 Các giai đoạn xử lý ảnh số

3.1.4 Các phần tử của hệ thống xử lý ảnh số
Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh đề cập ở trên được mô tả trên hình 3.1.4.

Hình 3.1.4 Các thành phần chính của hệ thống xử lý ảnh Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device – linh kiện ghép điện tích). Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn (đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý hiệu ứng quang điện trong và nguyên lý tích lũy điện tích. Chip CCD là linh kiện bán dẫn có khả năng biến đổi năng lượng quang phổ thành tín hiệu điện. Thành phần chính của chip CCD là các tụ điện MOS (Metal-Oxide-Semiconductor). Tụ điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp

 

 83 

Chương 3 Kỹ thuật xử lý hình ảnh 
SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 3.1.5).
Ñieän cöïc kim loaïi

+U

Neàn baùn daãn "p"

Hình 3.1.5 Cấu trúc tụ điện MOS Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên hình 3.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD có thể chia ra làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều).

Hình 3.1.6 Cấu trúc chip CCD a) dạng chuỗi b) dạng ma trận Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 3.16b). Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này, trong chip CCD được thiết kế một miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng miền tích lũy – là ma trận các phần tử cảm quang. Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói điện tích ứng với các điểm trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây. Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi quang điện CCD được sử dụng rất rộng rãi trong công nghệ truyền hình và ảnh số. Hầu hết các camera quay video dân dụng và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở chip CCD. Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu

 

 84 

Chương 3 Kỹ thuật xử lý hình ảnh 
không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (tốc độ tối đa có thể lên tới 17GB/sec); 2- bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash v.v.. 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi một lần hoặc nhiều lần như đĩa DVD-R, DVD-RW có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v. Bộ xử lý ảnh chuyên dụng: Là các chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường biên, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao. Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp. Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.

3.1.5 Biểu diễn ảnh số
Trong phần này, chúng ta sẽ đề cập tới một số những kiến thức cơ bản và ký hiệu được sử dụng trong lĩnh vực xử lý ảnh. Đó là các vấn đề về ánh sáng, màu sắc, khả năng tiếp thu hình ảnh quang học của hệ thống thị giác. Tiếp theo là quá trình biến đổi ảnh analog thành tín hiệu ảnh số, cách biểu diễn hình ảnh số, ảnh hưởng của quá trình lấy mẫu và lượng tử hóa tới chất lượng ảnh số.

3.1.5.1 Ánh sáng, màu sắc và hình ảnh Phổ của các sóng điện từ trong thiên nhiên trải dài từ tia gamma (10-12 m) đến sóng radio (10-4-104 m). Mắt người chỉ cảm nhận được những sóng điện từ có bước sóng từ 380 nm (tia màu tím) đến 780 nm (tia màu đỏ).
Các bức xạ điện từ đặc biệt nói trên được gọi là ánh sáng. Trong lĩnh vực xử lý ảnh, người ta chỉ quan tâm đến phần năng lượng bức xạ mà mắt người cảm nhận được. Các đại lượng trắc quang được sử dụng để đánh giá tính chất của nguồn sáng: quang thông, độ sáng, độ rọi và độ chói. Để đánh giá được tác động của ánh sáng lên mắt người, chúng ta phải lưu ý đến hai yếu tố quan trọng: 1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng khác nhau. Trên đồ thị độ nhạy của mắt người (hình 3.1.7) ta thấy vùng lục – vàng (λ ~ 555 nm) là nơi nhậy cảm nhất của mắt. 2 – Mật độ phân bố phổ công suất của các nguồn sáng trong thiên nhiên không đồng đều.

 

 85 

Chương 3 Kỹ thuật xử lý hình ảnh 
tím 380 döông 460 luïc 500 vaøng 590 cam 630 ñoû 700

Hình 3.1.7 Đáp ứng phổ (độ nhạy) của mắt người suất trên trục tần số ρ (λ ) : Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân bố công

ρ (λ ) =

Ñoä nhaïy

dP(λ ) dλ

(Watt/μm)

(3.1.1)

λ - bước sóng (μm);
P(λ )

– công suất nguồn bức xạ có bước sóng λ (Watt);

Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời, áng sáng đèn đốt nóng v.v.) sẽ bằng:

P∑ =

780 370

∫ ρ (λ ) ⋅ dλ

(3.1.2)

Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta đưa ra khái niệm quang thông

F:
780 370

F = K ∫ V (λ )ρ (λ ) ⋅ dλ

(lumen1)

(3.1.3)

V (λ ) - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị).

K là hệ số tỷ lệ giữa quang thông và công suất bức xạ.
Nhìn chung, quang thông của một nguồn sáng có thể phân bố không đồng đều theo các phương hướng khác nhau. Ta định nghĩa đại lượng độ sáng I đặc trưng cho khả năng phát sáng của nguồn sáng theo một hướng nào đó (hình 3.1.10):

I=

dF , (candela2) dΩ dS r2
(sr –steradian)

(3.1.4)

Ω - góc khối; dΩ =

1 2

Lumen (lat.) – nguồn sáng

Đơn vị độ sáng là candela (cd) – là 1 trong sáu đơn vị cơ bản hệ SI. 1 candela là độ sáng đo theo phương vuông góc của bề mặt platin, ở nhiệt độ đông đặc, (2046,5 K), có diện tích 1/60π=0.0053 cm2.

 

 86 

Chương 3 Kỹ thuật xử lý hình ảnh 
dF – quang thông truyền qua góc khối dΩ.

A dΩ

r

n
dS o dS dF

r

Hình 3.1.10 Minh họa độ sáng của nguồn điểm Góc khối lớn nhất là

Ω=

4π r 2 r
2

= 4π , do đó độ sáng trung bình của nguồn điểm3 sẽ

bằng toàn bộ quang thông chia cho góc 4π:

I tb =

FA FA = Ω 4π

Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng. Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng. Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng:

E =

dF (lux4) dS

(3.1.5)

1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng 1 lumen. Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (hình 3.1.10). Diện tích bề mặt hình cầu giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và pháp tuyến dS0.

dΩ≅ ES ES

; r2 r2 dF Id Ω I dS ⋅ cos α = = = dS dS dS r2 I ⋅ cos α = r2 =

dS 0

dS ⋅ cos α

(3.1.6)

Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với bình phương khoảng cách giữa nguồn sáng và bề mặt đó. Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc trưng cho bề mặt được chiếu sáng).

Nguồn điểm là nguồn sáng có kích thước (d) nhỏ hơn nhiều lần so với khoảng cách (l) đến bề mặt được chiếu sáng (l ≥ 10d).
4

3

lux (lat.) – chiếu sáng

 

 87 

Chương 3 Kỹ thuật xử lý hình ảnh 
Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ chói sẽ bằng:

L0 =

I0 S

(candel / m2 )

(3.1.7)

Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2 và cường độ sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng)

3.1.5.2 Màu sắc và các thông số đặc trưng Cảm nhận về màu sắc là kết quả của sự nhận biết chủ quan của mắt người dưới tác động của ánh sáng. Để giải thích cơ chế cảm nhận màu của mắt người, các nhà khoa học đã đưa ra nhiều giả thuyết khác nhau, trong đó, thuyết ba thành phần cảm thụ màu, do nhà bác học Nga Lômônôxốp đưa ra năm1756 được công nhận rộng rãi hơn cả (T. Young năm 1801 – cũng đưa ra giả thiết về “ba nhóm tế bào cảm nhận” trong mắt và mô hình mắt người). Theo thuyết này, các tế bào hình nón trên võng mạc có thể chia ra ba loại. Mỗi loại tế bào đặc biệt nhạy cảm với những vùng phổ nhất định trong dải quang phổ – vùng sóng ngắn (màu xanh lam - B), vùng sóng trung (màu lục - G) và vùng sóng dài (màu đỏ - R). Sóng điện từ có bước sóng khác nhau tác động lên các tế bào không đồng đều, sự khác biệt về tỷ lệ kích thích sẽ tạo nên cảm nhận về các sắc màu khác nhau. Thuyết ba thành phần cảm thụ màu được chứng minh qua nhiều thực nghiệm và phù hợp với luật pha trộn màu mà chúng ta sẽ đề cập tới dưới đây.
Trên phương diện sinh học (cảm giác chủ quan), ánh sáng được cảm nhận thông qua ba đại lượng chính là: độ sáng, sắc màu và độ bão hòa màu. Độ sáng – phụ thuộc vào công suất của nguồn sáng, ví dụ: nguồn sáng trắng 500 W sẽ có độ sáng lớn hơn nguồn sáng trắng 15 W. Sắc màu (sắc điệu) là tính chất đặc trưng của màu mà qua đó ta nhận biết được màu đỏ, xanh, vàng v.v. Độ bão hòa màu là cường độ về sắc màu qua đó ta có thể phân biệt được màu đỏ thẫm hay màu đỏ nhạt v.v. Khi đánh giá về số lượng của các đại lượng trên (bằng cách đo lường khách quan) chúng ta sẽ sử dụng ba khái niệm tương đương là: độ chói, bước sóng trội và độ sạch của màu. Sắc điệu

λ có năng lượng lớn nhất trong phổ của nguồn sáng đó, đại lượng này được gọi là bước sóng trội λ . Độ bão hòa của một màu có bước sóng trội λ
của nguồn sáng tương đương với bước sóng được tính bằng:

p = Fλ / ( Fλ + FE )

(3.1.8)

p – là độ sạch màu, đại lượng xác định số lượng ánh sáng trắng trong nguồn sáng hay độ pha loãng của nguồn sáng đó. Như vậy, màu quang phổ sẽ có độ sạch là p = 100% , đối với màu trắng p = 0 . Dựa trên những tính chất của hệ thị giác như độ phân giải, tính lưu ảnh và thuyết ba thành phần cảm nhận màu, để tạo ra cảm giác về một màu nào đó, người ta có thể thực hiện pha trộn các màu cơ bản theo những phương pháp sau:

 

 88 

Chương 3 Kỹ thuật xử lý hình ảnh 
1. Phương pháp cộng màu quang học

Phương pháp này dựa trên khả năng tổng hợp màu khi các nguồn bức xạ được chiếu lên một mặt phẳng. Các nguồn bức xạ có thể được rọi cùng một lúc hay nối tiếp nhau với một tốc độ tương đối lớn (còn gọi là phép trộn màu theo thời gian), khi đó, ánh sáng thứ cấp phản xạ từ bề mặt của mặt phẳng trên sẽ mang lại cho người quan sát cảm nhận về một màu sắc tổng hợp. Sắc độ màu mới phụ thuộc vào tỷ lệ công suất của các bức xạ thành phần (hình 3.1.11).

Hình 3.1.11 Trộn các màu cơ bản 2. Phương pháp trộn màu không gian

Khi trộn màu không gian, các phần tử ảnh mang sắc màu cơ bản nằm độc lập với nhau trong không gian, nếu những phần tử này nằm gần nhau và có kính thước nhỏ thì mắt cảm nhận chúng như một điểm ảnh, màu sắc của điểm ảnh này phụ thuộc vào tỷ lệ công suất của các màu cơ bản. Hình dạng của các phần tử có thể là các điểm tròn hay vạch màu nhỏ. Tỷ lệ công suất của các màu cơ bản có thể thay đổi bằng cách thay đổi độ chói của các phần tử ảnh tham gia trộn màu hay thay đổi kích thước của chúng. Việc tái tạo hình ảnh màu trên màn hình vô tuyến thường được thực hiện bằng phương pháp trộn màu trong không gian. 3. Phương pháp trừ

Để tạo ra một màu mới, ngoài phương pháp cộng các màu đơn sắc, người ta còn có thể sử dụng phương pháp loại bỏ bớt một số màu từ ánh sáng trắng. Thí dụ, nếu cho ánh sáng trắng qua môi trường hấp thụ (kính lọc) các tia màu đỏ, ta sẽ nhận được màu lơ. Phương pháp này thường dùng trong kỹ thuật ảnh màu, in ấn và trong hội họa. Đặc điểm của phương pháp trừ là độ chói của màu được tạo ra bao giờ cũng nhỏ hơn độ chói của màu trắng ban đầu.

3.1.5.3 Các định luật trộn màu cơ bản Trên cơ sở các kết quả nhận được qua nhiều công trình thực nghiệm về cảm nhận màu sắc của hệ thống thị giác, nhà bác học người Đức H.Grassmann đã đưa ra bốn định luật về trộn màu:
Định luật thứ nhất: Bất kỳ một màu sắc nào cũng có thể tạo được bằng cách trộn 3 màu cơ bản độc lập tuyến tính với nhau. Ba màu được gọi là độc lập tuyến tính khi một trong những màu đó không thể tạo ra bằng cách pha trộn hai màu còn lại được. Như vậy, ta có thể viết ra được phương trình so màu như sau:

f ′ = r′R + g′ G + b′ B F

(3.1.9)

f ′ - nguồn ánh sáng bất kỳ, có đơn vị là F và số lượng ánh sáng là f ′ ; R,G,B – đơn vị F màu cơ bản; r ′, g′ , b′ - số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó.
Năm 1931, theo quy định của tổ chức quốc tế CIE (Commission Internationale d’Eclairage International Commission on Ilumination – ủy ban quốc tế về ánh sáng) ba nguồn bức xạ đơn sắc

 

 89 

Chương 3 Kỹ thuật xử lý hình ảnh 
màu đỏ, lục và lam tương ứng có bước sóng:

λ R = 700 nm λG = 546,1 nm λ B = 435,8 nm
Ba màu trên được gọi là ba màu cơ bản. Mỗi màu cơ bản sẽ có một màu bổ xung tương ứng, khi pha trộn màu cơ bản và màu bổ xung của nó chúng ta sẽ nhận được màu trắng. Các cặp màu cơ bản và màu bổ xung là: Đỏ – Lơ (Cyan), Lục – Mận chín (Magenta), Lam – Vàng (Yellow). Định luật thứ hai: Sự biến đổi liên tục của các hệ số công suất của các màu cơ bản sẽ dẫn dến sự biến đổi liên tục của màu sắc tổng hợp, nó chuyển từ màu này sang màu khác. Khi thay đổi công suất của các nguồn sáng cơ bản nhưng giữ nguyên tỷ lệ công suất thì màu tổng hợp sẽ không thay đổi sắc độ, chỉ có sự thay đổi về độ chói mà thôi. Vì vậy, tỷ lệ tương đối giữa ba màu cơ bản R:B:G sẽ quyết định màu sắc của màu tổng hợp. Định luật thứ ba: Màu sắc tổng hợp của nhiều nguồn sáng chỉ xác định bởi các thành phần màu sắc của từng nguồn sáng chứ không phụ thuộc vào thành phần phổ của chúng. Định luật thứ tư: độ chói của màu tổng hợp bằng tổng số độ chói của các thành phần màu.

L∑ = L R + LG + L B
3.1.5.4 Không gian màu RGB Để xác định một màu F, theo định luật trộn màu thứ nhất, ta chỉ cần biết số lượng của ba màu cơ bản trong phương trình (3.1.9). Vì thế màu F có thể được biểu diễn bằng một điểm trong không gian màu ba chiều rgb hay như một vector nối từ gốc tọa độ tới điểm đó, các vector màu
đơn vị sẽ là

R, G, B

(hình 3.1.12). Độ chói của màu F sẽ bằng chiều dài (modul) của vector F ,

sắc – tương ứng với phương hướng của F trong không gian rgb. Tổng ba vector đơn vị sẽ cho ta màu trắng chuẩn.

g

G

f'F F E

0 B R

r

b
Hình 3.1.12 Không gian màu rgb Xét một màu bất kỳ trong không gian màu rgb, xác định bởi phương trình:

 

 90 

Chương 3 Kỹ thuật xử lý hình ảnh 

f ′ = r′R + g′ G + b′ B F
Ta thấy ba hệ số tuyệt đối

(3.1.11)

r ′, g′ , b′ cho ta biết cả về số lượng lẫn chất lượng của nguồn sáng. Nếu

chỉ cần xét đến chất lượng hay thành phần “sắc” của màu, chúng ta không cần biết đến giá trị

r ′, g′ , b′ , mà chỉ cần biết đến số lượng tương đối giữa các thành phần màu cơ bản R, G,
r′ r′ ⎫ = ;⎪ r ′ + g′ + b′ m ⎪ g′ g′ ⎪ g= = ;⎬ r ′ + g′ + b′ m ⎪ b′ b′ ⎪ b= = ⎪ r ′ + g′ + b′ m ⎭

B, tìm được qua các phương trình sau:

r=

(3.1.12)

m = r ′ + g′ + b′ = f ′ - độ chói của màu.
Chia (3.1.11) cho m ta nhận được màu F:
F = rR + gG + bB

(3.1.13)

r, g, b - được gọi là tọa độ màu. Các tọa độ màu không cho ta biết về chiều dài của vector
màu, nhưng hoàn toàn xác định phương hướng của nó trong không gian màu ba chiều. Đẳng thức (3.1.13) cho phép chúng ta biểu diễn sắc của một nguồn sáng bất kỳ như một điểm trên hình tam giác đều RGB có chiều cao bằng 1 (hình 3.1.13). Mặt phẳng RGB còn gọi là mặt phẳng đơn vị. Nếu vị trí của điểm màu F trong tam giác màu được biết trước, ta có thể tìm tọa độ màu bằng cách kẻ các đoạn thẳng vuông góc từ F đến các cạnh của tam giác màu và đo chiều dài của chúng. Nếu cho trước tọa độ màu, người ta tìm vị trí của điểm màu theo luật tìm trọng tâm của tam giác màu. Sắc màu của những điểm nằm ngoài tam giác RGB (như điểm N trên hình 3.1.13) không thể nhận được khi ta cộng ba màu cơ sở, để nhận được sắc màu điểm N, một trong các tọa độ màu (tọa độ màu đỏ - r) sẽ phải là âm. Kẻ đường thẳng nối điểm N là màu quang phổ có bước sóng E, điểm màu thấp hơn ( pN 1

λN

và điểm trắng đẳng năng

N1 là điểm cắt của đường EN và BG sẽ có sắc điệu tương đương điểm N, nhưng độ sạch

< pN ). Nói cách khác, bước sóng trội của tất cả các điểm màu nằm trên

đường thẳng NE sẽ bằng

λN

- tức bước sóng của màu quang phổ N. Như vậy khi cộng ba màu R,

G, B ta có thể tạo ra tất cả các sắc điệu, nhưng không thể tạo ra mọi độ bão hòa.

 

 91 

Chương 3 Kỹ thuật xử lý hình ảnh 

A 500

G 550 N2 N N1 r

F
C

E

450

g

b 600 R

B

Hình 3.1.13 Biểu đồ màu RGB Màu quang phổ là các màu có độ sạch màu tuyệt đối : hòa

pλ = 100% , màu trắng có độ bão

pE = 0 , độ sạch màu tại điểm N1 có giá trị:
pN1 = N1E ⋅ 100% NE
(3.1.14)

Các màu quang phổ nằm trên đường cong hình móng ngựa RGAB. Hai đầu cuối của đường cong là điểm R và B. Sắc màu nằm trên đường thẳng RB (đỏ - mận chín) không phải là màu quang phổ, những màu này thường gặp trong thiên nhiên. Các điểm nằm ngoài đường màu quang phổ là những màu không có thực, vì độ sạch màu của chúng lớn hơn 100%. Năm 1931, CIE đã đề xuất một không gian màu mới, ký hiệu là không gian XYZ. Khi thiết kế biểu đồ màu mới người ta đặt ra những yêu cầu như sau: 1. Tất cả các màu thực phải được xác định bởi các modul màu có giá trị dương. Như vậy tọa độ màu của tất cả các màu thực (nằm phía trong đường màu quang phổ) phải nằm trong tam giác màu XYZ. 2. 3. Độ chói phải được biểu diễn bằng một trục (Y) Điểm trắng đẳng năng phải nằm ở trọng tâm tam giác màu XYZ.

Không gian XYZ do CIE công bố với ba màu cơ bản X,Y,Z đáp ứng được các yêu cầu trên. Hệ tọa độ không gian XYZ được chọn làm sao cho các vector màu thực (nằm bên trong đường màu quang phổ) đều đi qua tam giác màu đơn vị XYZ (hình 3.1.15). Như vậy, trong phương trình màu thực. Các màu đơn vị X,Y,Z đều không có thực vì độ sạch màu của chúng lớn hơn 100%. Để đánh giá màu sắc của một nguồn sáng (không tính đến độ chói của nguồn sáng đó), người ta sử dụng tam giác màu đơn vị với các tọa độ màu x , y, z : x + y + z = 1 (hình 3.1.16).

f ′ = x′X + y′Y + z′Z các thành phần x′, y′, z′ sẽ có giá trị dương cho tất cả các màu F

 

 92 

Chương 3 Kỹ thuật xử lý hình ảnh 

Y

g

E 0

r
X

Z

b

Hình 3.1.15 Không gian màu RGB và XYZ Quan sát tam giác màu đơn vị XZY ta thấy rằng: 1- Tất cả các màu thực đều nằm bên trong tam giác XYZ 2- Tọa độ của màu trắng đẳng năng là:

xE = yE = zE = 1 / 3

3- Các màu đơn vị X.Y.Z nằm ngoài đường cong các màu quang phổ nên có độ bão hòa lớn hơn 100%. Để thuận tiện cho việc sử dụng, tam giác màu đơn vị XYZ được biến đổi thành biểu đồ màu trong hệ tọa độ vuông góc xy (hình 3.1.17).

y 1.0
y

0.8

520 F1

550 500 E 0.6 0.4 0.2 z 0 600 700 x

0.6 y 1 0.4
yE

580

E
C

700

0.2 0
x1

0.2 xE 0.4

0.6

0.8

1.0

x

Hình 3.1.16 Biểu đồ màu trên mặt phẳng đơn vị XYZ

Hình 3.1.17 Biểu đồ màu XYZ theo CIE

3.1.5.5 Hệ thống thị giác Tuy lý thuyết xử lý ảnh chủ yếu dựa trên nền tảng lý thuyết toán và xác suất thống kê, nhưng việc lựa chọn các phương pháp xử lý khác nhau cũng như việc đánh giá chất lượng hình ảnh ở đầu ra của hệ thống chủ yếu dựa trên cảm nhận chủ quan của cơ quan thị giác. Vì vậy sau đây chúng ta sẽ làm quen với một số vấn đề cơ bản về cấu tạo và khả năng phân tích hình ảnh của hệ thống thị giác.    93 

Chương 3 Kỹ thuật xử lý hình ảnh 
moáng maét giaùc maïc thaáu kính truïc nhìn thuûy tinh dòch moâ maïc ñieåm muø

voõng maïc hoaøng ñieåm thaàn kinh thò giaùc

Hình 3.1.18 Cấu tạo của mắt người Trong mắt người (hình 3.1.18) phần lớn ánh sáng được hội tụ ở vùng hoàng điểm (fovea) trên võng mạc, nơi mật độ các tế bào thần kinh thị giác lớn nhất. Có hai loại tế bào cảm nhận ánh sáng (receptors) là tế bào hình nón (cones) và tế bào hình que (rods). Trong thành phần võng mạc có khoảng 7 triệu tế bào hình nón và 130 triệu tế bào hình que. Mật độ phân bố các tế bào thần kinh thị giác trên võng mạc không đồng đều. Các tế bào hình nón tập trung tại vùng hoàng điểm, còn gọi là vùng “nhìn rõ nhất”. Vùng này có hình bầu dục rộng 0.8 mm, dài 2 mm). Tế bào hình que phân bố xung quanh hoàng điểm. Các tế bào hình que nhạy cảm với ánh sáng hơn tế bào hình nón, nhưng chúng không có cảm thụ về màu sắc. Tế bào hình nón ngược lại kém nhậy cảm với sự kích thích của ánh sáng, nhưng có khả năng phân biệt màu sắc. Theo thuyết ba thành phần cảm thụ màu của mắt người, trong võng mạc tồn tại ba loại tế bào hình nón, các tế bào này có phản ứng khác nhau đối với các màu khác nhau. Cụ thể, qua thí nghiệm ta thấy rằng ba loại tế bào hình nón nhạy cảm với ba màu khác nhau là Đỏ, Lục và Lam. Sự cảm thụ màu của mắt sẽ phụ thuộc vào tỷ lệ mức độ kích thích của mỗi loại tế bào nói trên. Các tế bào cảm quang biến đổi năng lượng ánh sáng thành các xung điện để truyền đến bộ phận xử lý hình ảnh trong não qua hệ thống dây thần kinh thị giác (khoảng 800000 dây). Một vùng nhỏ trên võng mạc không nhạy cảm với ánh sáng là nơi tập hợp các dây thần kinh thị giác. Vùng này gọi là điểm mù của mắt. Sở dĩ số dây thần kinh ít hơn số tế bào cảm quang vì mỗi dây được nối với hàng trăm tế bào hình que và hàng chục tế bào hình nón. Riêng các tế bào hình nón trong vùng hoàng điểm được nối trực tiếp với tế bào hạch, do đó, độ phân giải của mắt tại vùng này là cao nhất. Phạm vi các mức sáng mà mắt có thể cảm nhận được rất rộng. Các tế bào que bắt đầu cảm nhận được hình ảnh có độ chói từ 10-4-10-5 cd/m2, các tế bào nón từ 1 cd/m2. Khi độ chói xấp xỉ 10 cd/m2 các tế bào que bị “loá” dần vì lúc này, tốc độ phân hủy rodopxin lớn hơn tốc độ tái tạo, do đó lượng rodopxin trong các tế bào hình que giảm đi nhanh chóng. Ở độ chói từ 10-104 cd/m2, chỉ còn các tế bào nón làm việc. Phản ứng quang - hoá học nói trên và cơ chế tự điều chỉnh lượng ánh sáng đi vào võng mạc là nguyên nhân để mắt có phạm vi cảm nhận ánh sáng rộng như vậy (~109). Tuy nhiên mắt không thể cảm nhận được cùng một lúc tất cả mức sáng trong phạm vi rộng như đã nói trên. Trên thực tế, mắt người chỉ có thể cảm nhận một khoảng nhỏ giới hạn từ

Lmin ÷ Lmax xung quanh mức chói trung bình của ảnh, khoảng này ta gọi là phạm vi động của
mắt. Đối với hình ảnh có mức chói trung bình nào đó, tất cả mức chói lớn hơn như mức trắng, tất cả mức chói nhỏ hơn

Lmax sẽ cảm nhận

Lmin sẽ được cảm nhận như mức đen. Khi mức chói
 94 

 

Chương 3 Kỹ thuật xử lý hình ảnh 
trung bình

Ln thay đổi, mắt người sẽ tự động điều tiết để di chuyển phạm vi động theo Ln . Đây

chính là tính chất thích nghi với độ sáng của mắt người. Thí nghiệm cho thấy, khi mức sáng tăng lên, thời gian mắt điều tiết để thích nghi với mức mới rất nhanh (khoảng vài giây). Ngược lại, khi mức chiếu sáng giảm thì mắt điều tiết để thích nghi tương đối chậm (khoảng vài phút). Khả năng mắt người cảm nhận sự thay đổi độ chói là không liên tục.

Hình 3.1.22 Khảo sát khả năng cảm nhận độ chói của mắt người Nếu tăng dần độ chói của chi tiết trong một ảnh từ mức chói nền

Ln (hình 3.1.22), lúc đầu

mặc dù đã có sự khác biệt về độ chói giữa chi tiết và nền, nhưng người quan sát không phát hiện ra chi tiết này. Khi mức chênh lệch đạt tới ngưỡng nhất định, người quan sát bắt đầu nhận dạng được chi tiết ảnh. Người ta định nghĩa ngưỡng cảm nhận ánh sáng tuyệt đối của mắt là đại lượng ngược với giá trị độ chói nhỏ nhất của điểm sáng trên nền đen mà mắt phát hiện được trong bóng tối:

ε

ε = 1 / Lmin . Trên thực tế ta thường
chói của nền là

gặp hình ảnh có khoảng chói động là

Lmin ÷ Lmax và có độ

Ln . Độ tương phản của ảnh là tỷ lệ k = Lmax / Lmin .
là mức khác biệt nhỏ nhất mà mắt còn nhận biết được, thì tỷ lệ

ΔL = ( L − Ln ) , nếu ΔLmin

Các chi tiết ảnh có độ chói khác với độ chói nền, mức chênh lệch độ chói là

ΔLmin / Ln = ( ΔL / Ln )mi n = σ gọi là ngưỡng tương phản. Giá trị σ phụ thuộc vào kích
thước của chi tiết hình ảnh và độ chói của nền. Kết luận quan trọng rút ra được ở đây là giá trị ngưỡng tương phản của mắt người σ > 0 , hay nói cách khác, khả năng cảm nhận độ tương phản của mắt mang tính rời rạc (tương tự như độ phân giải của mắt). Chính vì vậy, số lượng các mức xám cần có là hữu hạn trong dải động các mức chói

Lmin ÷ Lmax của ảnh số.

Số lượng mức xám mà mắt người cảm nhận được cùng một lúc phụ thuộc vào giá trị ngưỡng tương phản và độ tương phản của ảnh:

m=

ln k +1 ln (1 + σ )

(3.1.15)

hiển thị:

k = 100 , giá trị ngưỡng tương phản σ = 0.03...0.04 , ta nhận được số sọc xám cực đại để mắt cảm nhận được sẽ là m = 100 ÷ 150 .
Nguồn ánh sáng bên ngoài

Thay vào công thức (3.1.15) giá trị độ tương phản trung bình của hình ảnh trên màn hình

Lng

chiếu vào màn hình sẽ làm giảm độ tương phản của ảnh

 

 95 

Chương 3 Kỹ thuật xử lý hình ảnh 
gốc, độ tương phản trong trường hợp này là:

k′ =

Lmax + Lng

L < k = max , Lmin + Lng Lmin

(3.1.16)

do đó số mức xám tính theo (3.1.15) cũng sẽ giảm đi.

3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian 3.1.5.6.1 Hình ảnh tương tự
Như đã đề cập tới ở phần trên, hình ảnh có thể biểu diễn bằng hàm 2 chiều f ( x , y ) . Giá trị hàm f tại điểm có tọa độ không gian (x,y) là độ chói của điểm ảnh (x,y). Đa số ảnh sử dụng trong tài liệu này này là ảnh đen – trắng, độ chói của các điểm ảnh nằm trong phạm vi nhất định từ L min tới Lmax . Nếu ảnh được tạo ra bởi quá trình vật lý thì giá trị các điểm ảnh sẽ tỷ lệ thuận với năng lượng của nguồn bức xạ, ví dụ năng lượng sóng điện từ, khi đó hàm f ( x , y ) là hữu hạn: 0 < f ( x , y ) < ∞ . Giá trị hàm f ( x , y ) phụ thuộc vào lượng ánh sáng rọi lên cảnh vật và lượng ánh sáng phản xạ lại từ cảnh vật đó:

f ( x, y ) = i ( x, y ) r ( x, y )
với 0 < i ( x , y ) < ∞ , 0 < r ( x , y ) < 1

(3.1.17)

i ( x , y ) - Hàm biểu diễn độ rọi sáng của nguồn lên bề mặt cảnh vật. r ( x, y ) - Hàm mô tả tính phản xạ (hay hấp thụ) ánh sáng của các vật thể trong cảnh vật.
Giá trị độ lớn của điểm ảnh đen-trắng có tọa độ ( x0 , y0 ) được gọi là mức xám hay độ chói của ảnh tại điểm này: l = ( x0 , y0 ) ; độ chói nằm trong khoảng L min < l < Lmax - được gọi là thang xám. Thường mức xám nhỏ nhất được quy về mức 0 (mức đen) , còn mức trắng sẽ tương ứng với giá trị độ chói lớn nhất l = L − 1 . 3.1.5.6.2 Quá trình lấy mẫu và lượng tử hóa tín hiệu hình ảnh

Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví dụ tín hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa tín hiệu hình ảnh này vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua ba giai đoạn: lấy mẫu, lượng tử hóa và mã hóa. Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 3.1.23. Tín hiệu mang tin tức về độ chói của một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biến đổi liên tục (hình 3.1.23). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều đoạn bằng nhau. Giá trị tín hiệu tại các điểm lấy mẫu được đánh dấu ô vuông trên đồ thị. Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rời rạc nhận được hoàn toàn xác định tín hiệu đó.

 

 96 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
Để Đ biến đổi t tiếp tín hiệu thành dạng s chúng ta phải thực hiện giai đoạn lượng tử hóa các số, mẫu vừ nhận đượ Đây là qu trình rời rạ tín hiệu th biên độ. Trên hình 3. ừa ợc. uá ạc heo .1.23 thang xám g được chia thành 8 mức rời rạc từ mức trắng tới mức đe Lượng tử hóa được th hiện đơn giản c g en. ử hực n bằng cách tìm giá trị mức lượn tử gần giốn nhất với g trị thực c mẫu và gán giá trị này cho c t ng ng giá của y mẫu ản Biên độ c mẫu ảnh sau khi lượn tử sẽ được mã hóa (bằn mã nhị ph nh. các ng c ng hân) để nhận được tín hiệu video số. Kết quả nhận được sau kh lấy mẫu, l K n hi lượng tử hóa và mã hóa l chuỗi số rờ rạc là ời một h. nh ho mô tả biến đổi độ chói trong m dòng ảnh Nếu thực hiện quá trìn số hóa ch tất cả các dòng ảnh từ trên xuống d dưới, chúng ta sẽ nhận đư ảnh số tro không gi hai chiều t ược ong ian u.

Hình 3.1.23 Quá trìn số hóa tìn hiệu video nh Khi K sử dụng chip cảm biến CCD, tín hiệu hình ả đã được rời rạc tron không gia hai g n ảnh c ng an chiều. Cấu trúc kh hung lấy mẫ hai chiều phụ thuộc v phương pháp phân b các điểm cảm ẫu vào bố m ngang và chi dọc trên bề mặt CCD Chất lượng hình ảnh số nhận được phụ iều D. g s c quang theo chiều n g ố ã thuộc vào số lượng điểm ảnh cũng như số mức lượng tử được sử dụng trong quá trình mã hóa 3.1.24). (hình 3

a)

b)

nh thành ảnh rời rạc trong ch CCD i hip Hìn 3.1.24 Quá trình hình t a - Ảnh tương tự b - Ảnh rời rạc trên b mặt CCD bề

3.1.5.7 Tín h video 3 hiệu

n hay tín hiệu video :

λ

động p

Chương 3 Kỹ thuật xử lý hình ảnh 

L = f L ( x, y , z , t ) ; ⎫ ⎪ λ = f λ ( x, y , z, t ) ; ⎬ ⎪ p = f p ( x, y , z, t ) . ⎭

(3.1.18 )

x, y , z - tọa độ trong không gian 3 chiều, t - thời gian.
Những phương trình trong (3.1.18) xác định độ chói (L) và màu sắc ( λ , p ) cho từng điểm thay đổi trong không gian và thời gian. Hệ thống truyền hình hiện nay là hệ thống truyền hình phẳng, do đó hàm mô tả ảnh truyền hình đen trắng là hàm ba chiều: để khôi phục ảnh bên phía thu, ngoài giá trị độ chói tức thời L cần phải xác định chính xác vị trí của điểm sáng trong không gian màn hình (hai chiều). Khi biến đổi tín hiệu hình ảnh ba chiều thành tín hiệu điện một chiều người ta dựa trên hai nguyên tắc chính là rời rạc hình ảnh (trong không gian và thời gian) và quét hình. Rời rạc hình ảnh trong không gian là phương pháp chia nhỏ hình ảnh ra thành một số hữu hạn các thành phần tử rời rạc. Một phần tử của hình ảnh là chi tiết nhỏ nhất của ảnh có độ chói và sắc màu không thay đổi trên diện tích chi tiết đó. Về mặt lý thuyết, số lượng phần tử ảnh càng nhiều thì độ nét của ảnh càng cao. Nhưng trên thực tế, do sự hạn chế về độ phân giải của mắt người, hình ảnh chỉ cần phân chia ra thành các phần tử có kích thước nhỏ vừa đủ để mắt người không nhận ra cấu trúc rời rạc của ảnh (hình 3.1.25). Chia nhỏ thêm những phần tử này không làm cho hình ảnh rõ nét thêm (theo cảm nhận của mắt), trong khi đó, lượng thông tin sẽ tăng lên nhiều lần.

L = f L ( x, y, t ) . Như vậy,

Hình 3.1.25 Ma trận các điểm ảnh rời rạc ảnh và "phần tử" ảnh Sau khi hình ảnh được rời rạc, các phần tử có thể được mã hoá và truyền đi riêng rẽ sang bên thu. Nhưng chúng ta không thể truyền song song tất cả các phần tử vì khi đó cần đến rất nhiều kênh truyền. Để giải quyết vấn đề này, trong hệ thống truyền hình người ta sử dụng nguyên tắc quét hình: nguyên tắc truyền lần lượt theo thời gian từng phần tử hình ảnh. Nguyên tắc này dựa trên đặc điểm lưu ảnh của mắt người. Sự lưu ảnh là khả năng mà người xem nhớ lại ấn tượng về ảnh trong một thời gian nào đó (~0.1- 0.3 giây) sau khi tác động của ảnh đó đã chấm dứt. Chính vì vậy, để truyền đi một hình ảnh tĩnh, ta “chiếu” lần lượt tất cả các phần tử của một ảnh tĩnh lên màn hình, vào đúng vị trí tương đương của các phần tử đó như trong hình ảnh đã được truyền đi. Nếu tốc độ “chiếu” một hình nhanh hơn thời gian lưu ảnh thì mắt người xem sẽ thu nhận và lưu lại tất cả các phần tử đã truyền đi để tái tạo ra một ảnh tĩnh hai chiều. Quá trình truyền lần lượt các phần tử của ảnh gọi là quá trình quét (scanning) ảnh. Tiếp theo, khi "chiếu" nhiều ảnh tĩnh nhận được bằng phương pháp trên với tần số tương đối lớn (trên 10 hình/giây), trong đó mỗi ảnh là một pha của hình ảnh chuyển động, thì người xem sẽ có cảm giác như đang quan sát chuyển động liên tục. Tần số ảnh được lựa chọn để đáp ứng hai yếu cầu: 1- Tạo cảm giác về quá trình chuyển động liên tục của ảnh; 2- Ảnh động tái tạo trên màn

 

 98 

Chương 3 Kỹ thuật xử lý hình ảnh 
hình không bị chớp. Trong các hệ truyền hình đại chúng, tần số được chọn là 25 (hoặc 30) ảnh/giây. Khi quét theo phương pháp xen kẽ, người ta chia ảnh thành 2 mành, trong mành đầu tiên sẽ được truyền đi các dòng lẻ 1, 3, 5 …, trong mành tiếp theo truyền đi các dòng chẵn 2, 4, 6 …(hình 3.1.26). Như vậy toàn bộ ảnh sẽ được chia ra làm 2 mành. Tần số ảnh sẽ là 25 (30) Hz, tần số mành là 50 (60) Hz.

Hình 3.1.26 Quá trình quét hình xen kẽ Tín hiệu video được tạo ra tại ống ghi hình bằng phương pháp quét xen kẽ, tuyến tính từ trái sang phải, trên xuống dưới là hàm của thời gian, giá trị hàm tỷ lệ thuận với độ chói của các phần tử ảnh truyền hình. Tín hiệu video đầy đủ (hình 3.1.28) bao gồm các thành phần sau: tín hiệu video, tín hiệu đồng bộ dòng và mành, tín hiệu xoá. Trong tín hiệu video màu còn có thêm thành phần mang tin tức về màu sắc của các dòng ảnh.

Hình 3.1.28 Hình dạng tín hiệu video Tín hiệu video có các đặc điểm sau: - Tín hiệu video là tín hiệu mang tính chất xung: ngoài các xung đồng bộ và xung xóa, trong tín hiệu video thường có sự thay đổi biên độ đột ngột, tạo ra biên trước và biên sau của các "xung hình"; - Tín hiệu video là tín hiệu đơn cực, có thành phần một chiều; - Tín hiệu video có thể được coi là tín hiệu tuần hoàn với tần số lặp lại là

f H = 1/ T H ; fV = 1/ TV ;
Tín hiệu video tương tự cũng như tín hiệu ảnh tĩnh phải được số hóa trước khi đưa vào hệ thống xử lý số. Cũng như trong các hệ thống xử lý tín hiệu một chiều, quá trình số hóa tín hiệu

 

 99 

Chương 3 Kỹ thuật xử lý hình ảnh 
hình ảnh cũng chia thành ba giai đoạn: 1- Rời rạc tín hiệu trong miền không gian 2 chiều, đây là quá trình lấy mẫu 2- Số lượng vô hạn các mức xám trong tín hiệu hình ảnh tương tự được thay bằng số lượng hữu hạn các mức lượng tử, đây là quá trình lượng tử hóa tín hiệu 3- Mỗi mức lượng tử được biểu diễn bằng một số nhị phân - mã hóa tín hiệu Quá trình số hóa tín hiệu hình ảnh trong không gian hai chiều có thể được thực hiện với nhiều cấu trúc lấy mẫu khác nhau và các bước lượng tử khác nhau nhằm giảm dung lượng tín hiệu số nhận được. Tuy nhiên, trên thực tế cấu trúc lấy mẫu trong đa số trường hợp có dạng trực giao (hình chữ nhật) với giá trị bước lượng tử không thay đổi, vì khi đó quá trình số hóa sẽ đơn giản nhất. Khi sử dụng cấu trúc lấy mẫu trực giao, ảnh số nhận được dưới dạng ma trận các điểm ảnh phân bố theo dòng và cột. Quá trình lấy mẫu tín hiệu video phải thỏa mãn định lý lấy mẫu Nyquist. Ví dụ: Tín hiệu video hệ PAL có bề rộng phổ BPAL = 5.0 MHz , tần số lấy mẫu theo Nyquits phải ≥ 10MHz . Trên thực tế, tần số lấy mẫu thường được lựa chọn cao hơn để tăng khoảng cách giữa dải phổ chính và phổ phụ của tín hiệu video rời rạc, khi đó thành phần phổ chính có thể được tách ra (trong quá trình khôi phục ảnh gốc) bằng các mạch lọc thông thấp đơn giản. Ngoài ra, tín hiệu video tổng hợp (bao gồm thành phần màu) được lấy mẫu với tần số là bội số của tần số sóng mang phụ fs (sóng mang màu). Với hệ PAL, tần số lấy mẫu sẽ là 3 fs (13,3 MHz) hoặc 4 fs (17,7 MHz). Trong hệ thống số hóa tín hiệu video theo thành phần, ba tín hiệu R, G, B hoặc thành phần chói Y và hai tín hiệu hiệu màu R-Y, B-Y sẽ được lấy mẫu với tần số đáp ứng định lý Nyquist và là bội số của tần số dòng theo cả 2 tiêu chuẩn 525 và 625 dòng/ ảnh. Tiêu chuẩn CCIR-601 cho phép sử dụng tần số lấy mẫu là 13,5 MHz. Số bít dùng để mã hóa tín hiệu video là 8 hoặc 10 bits. Các tiêu chuẩn lấy mẫu video thành phần: có nhiều tiêu chuẩn lấy mẫu theo thành phần, điểm khác nhau chủ yếu là tỷ lệ giữa tần số lấy mẫu của tín hiệu chói và tín hiệu màu (hoặc tín hiệu hiệu màu CR và CB): đó là các tiêu chuẩn 4:4:4, 4:2:2, 4:2:0, 4:1:1. - Tiêu chuẩn 4:4:4: Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Cấu trúc lấy mẫu trực giao (hình 3.1.29)

Hình 3.1.29 Cấu trúc lấy mẫu theo chuẩn 4:4:4 Tiêu chuẩn lấy mẫu 4:4:4 cho chất lượng hình ảnh tốt nhất, thuận tiện cho việc xử lý tín hiệu video số. Tuy nhiên, với phương pháp lấy mẫu này, tốc độ dòng dữ liệu video số sẽ tương đối cao, ví dụ khi số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8 bít lượng tử /điểm 3x720x576x8x25= 249Mbits/s. ảnh, 25 ảnh/s luồng dữ liệu số nhận được sẽ có tốc độ :

 

 100 

Chương 3 Kỹ thuật xử lý hình ảnh 

- Tiêu chuẩn 4:2:2: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Hai tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số lấy mẫu tín hiệu chói (hình 3.1.30)

Hình 3.1.30 Cấu trúc lấy mẫu theo chuẩn 4:2:2 - Tiêu chuẩn 4:2:0: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Cách một điểm lấy mẫu một tín hiệu màu. Tại các dòng lẻ chỉ lấy mẫu tín hiệu màu CR, tại dòng chẵn lấy mẫu tín hiệu CB. Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu sẽ là fD/2.

Hình 3.1.31 Cấu trúc lấy mẫu theo chuẩn 4:2:0 - Tiêu chuẩn 4:1:1: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng một phần tư tần số lấy mẫu tín hiệu chói (hình 3.1.32). Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu CR và CB sẽ là fD/4.

Hình 3.1.32 Cấu trúc lấy mẫu theo chuẩn 4:1:1

3.1.5.8 Biểu diễn tín hiệu ảnh số Sau khi số hóa tín hiệu hình ảnh theo các phương pháp đã nêu ở trên, chúng ta nhận được ma trận giá trị mức xám của các điểm ảnh. Các điểm ảnh rời rạc được sắp xếp theo cột và hàng    101 

Chương 3 Kỹ thuật xử lý hình ảnh 
như trên hình 3.1.33. Tọa độ của các điểm ảnh (x,y) là rời rạc. Gốc tọa độ nằm tại góc trên bên trái của ảnh ( x, y ) = ( 0,0 ) .

Hình 3.1.33 Hệ tọa độ để biểu diễn ảnh số Như vậy, chúng ta có thể biểu diễn ảnh số nói trên như ma trận kích thước MxN:

f ( 0,1) ... f ( 0, N − 1) ⎡ f ( 0, 0 ) ⎢ f (1, 0 ) f (1,1) ... f (1, N − 1) f ( x, y ) = ⎢ ⎢ ⎢ ⎢ f ( M − 1, 0 ) f ( M − 1,1) ... f ( M − 1, N − 1) ⎣

⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦

(3.1.19)

Mỗi phần tử của ma trận được gọi là 1 điểm ảnh (image element hay pixel). M và N phải là số nguyên dương. Số lượng mức xám có thể gán cho 1 điểm ảnh (L) thường được lựa chọn sao cho L = 2 k , k là số nguyên dương. Như vậy, số lượng bits được sử dụng để biểu diễn 1 ảnh số sẽ được xác định theo công thức:

b = M× N×k.

Ví dụ: ảnh số hiển thị trên màn hình VGA với độ phân giải 640x480 điểm, số lượng các mức xám là 256 (8 bits/mẫu) có thể được lưu lại trong bộ nhớ có kích thước M bằng:

M = 640 × 480 × 8 = 2 457 600 bits .
3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số
Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma trận 2 chiều các bits. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các phần tử ảnh (pixel). Đối với ảnh động (video), kết quả quá trình số hóa sẽ là ma trận 3 chiều cho thấy phân bố các điểm ảnh trong không gian theo hàng và cột cũng như quá trình biến đổi hình ảnh trong miền thời gian. Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng các thuật toán trong miền không gian và thời gian hoặc trong các không gian tín hiệu khác dựa trên các phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier, biến đổi Karhumen Loeve v.v. Trong phần này chúng ta sẽ làm quen với công cụ toán học thường dùng để mô tả quá trình xử lý ảnh trong không gian và các phép biến đổi không gian một và hai chiều (được sử dụng rộng rãi trong

 

 102 

Chương 3 Kỹ thuật xử lý hình ảnh 
các hệ thống lọc và nén ảnh). Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ minh họa một số kỹ thuật biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa trên phần mềm Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các phép xử lý ma trận rất thích hợp cho việc mô tả các giải thuật xử lý ảnh số.

3.1.6.1 Các toán tử không gian a) Hệ thống tuyến tính
Hệ thống xử lý tín hiệu số nói chung và xử lý ảnh nói riêng đều có thể được mô tả thông qua phương trình vào-ra sau:

y ( m, n ) = T ⎡ x ( m , n ) ⎤ ⎣ ⎦

(3.1.21)

x ( m, n ) - ảnh số đưa vào hệ thống (là tín hiệu 2 chiều); y ( m, n ) - ảnh số tại đầu ra hệ thống;
T – toán tử đặc trưng của hệ thống. Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính. Hệ thống biểu diễn bởi (3.1.21) được gọi là tuyến tính khi và chỉ khi:

T ⎡ ax1 ( m, n ) + bx2 ( m, n ) ⎤ = aT ⎡ x1 ( m, n ) ⎤ + bT ⎡ x2 ( m, n ) ⎤ = ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ = ay1 ( m, n ) + by2 ( m, n )

(3.1.22)

a và b là các hằng số bất kỳ. Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các phép dịch chuyển trong không gian, phép chập, các phép biến đổi thực hiện quá trình lọc tuyến tính mà chúng ta sẽ xét ở các chương sau. b) Xung đơn vị trong không gian 2 chiều Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh trong không gian.

δ ( m, n ) = ⎨

⎧1 ⎩0

khi m = n khi m ≠ n

(3.1.23)

δ ( m − A, n − B ) là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian.
Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị tác động lên hệ thống:

h [ m, n ] = T ⎡δ ( m, n ) ⎤ ⎣ ⎦
c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều

(3.1.24)

Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp tổng quát, đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông qua đáp ứng xung như sau:

 

 103 

Chương 3 Kỹ thuật xử lý hình ảnh 

y ( m, n ) = ∑ ∑ x ( l , k ) h ( m, l ; n, k )
l =0 k =0

N −1 N −1

(3.1.25)

Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh kết quả thông qua ảnh gốc và đáp ứng xung của hệ thống như sau:

y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k )
l =0 k =0

N −1 N −1

(3.1.26) (3.1.27)

hay

y ( m, n ) = x ( m, n ) ⊗ h ( m, n )

3.1.6.2 Các phép tính với vector và ma trận Đối với tín hiệu hình ảnh, các thuật toán nói trên thường được thực hiện trên ma trận các điểm ảnh hai chiều, do đó phần này sẽ giới thiệu sơ lược về ma trận và các phép toán thực hiện trên ma trận.
a) Vector Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử f ( n ) với n=1, 2, ..., N sắp xếp theo cột dọc:
⎡f ⎢ ⎢f ⎢ f =⎢ ⎢f ⎢ ⎢ ⎢f ⎣

(1) ⎤ ⎥ (2) ⎥
⎥ ⎥ ( j) ⎥ ⎥ ⎥ N )⎥ ( ⎦

(3.1.28)

Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử f ( n ) với n=1, 2, ..., N sắp xếp theo dòng ngang: f = ⎡ f (1) , f ( 2 ) ... f ⎣ b) Ma trận Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2,..,M, n=1,2,...,N được sắp xếp thành M hàng và N cột như sau:

( j ) ... f ( N ) ⎤ ⎦

(3.1.29)

F (1, N ) ⎤ ⎡ F (1,1) F (1, 2 ) ..... ⎢ ⎥ F ( 2, N ) ⎥ ⎢ F ( 2,1) F ( 2, 2 ) ..... F=⎢ ⎥ ............................................... ⎢ ⎥ ⎢ F ( M ,1) F ( M , 2 ) ..... F ( M , N ) ⎥ ⎣ ⎦

(3.1.30)

Lưu ý rằng, khi sử dụng phần mềm Matlab, địa chỉ của mỗi điểm ảnh được xác định khác so với phương pháp biểu diễn ảnh số được quy định ở phần trên: điểm ảnh trên cùng bên trái trong ma trận của Matlab là điểm F(1,1). Ma trận NxN được gọi là ma trận vuông cấp N. Trong ma trận vuông, tập hợp các phần tử F(1,1), F(2,2),..F(NN) được gọi là đường chéo chính, đường chéo còn lại gọi là đường chéo phụ.

 

 104 

Chương 3 Kỹ thuật xử lý hình ảnh 
Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận chéo. Ma trận chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký hiệu là In. c) Cộng ma trận Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C cũng có kích thước MxN, các phần tử của C là: C(m,n)= A(m,n)+B(m,n). d) Nhân ma trận Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B. Khi nhân ma trận A có kích thước MxP với B - PxN ta nhận được C có kích thước MxN:

C ( m, n ) = ∑ A ( m, p )B ( p, n )
p =1

P

(3.1.31)

Tích của hai ma trận không có tính giao hoán. Tích của ma trận vuông A và ma trận đơn vị cùng cấp B chính là ma trận A. e) Ma trận nghịch đảo Ma trận nghịch đảo của ma trận vuông A là ma trận A−1 nếu: AA−1 = I và A−1 A = I . Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả nghịch. Ma trận đơn vị I có nghịch đảo là chính nó. f) Ma trận chuyển vị Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột thành hàng và giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký hiệu là AT . Nếu A = AT , ma trận A được gọi là ma trận đối xứng. Ma trận nhận được khi cộng A + AT và nhân AAT là ma trận đối xứng. g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1:

k = g Tf = f Tg , k = ∑g(n)f (n)
n =1 N

(3.1.32)

h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma trận:

A=gf T , A(m, n) = g ( m ) f ( n )
i) Tích chập hai ma trận

(3.1.33)

Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và bất biến quan

 

 105 

Chương 3 Kỹ thuật xử lý hình ảnh 
hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô tả theo (3.1.23):

y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k )
l =0 k =0

N −1 N −1

(3.1.34)

Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu diễn dưới dạng ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu ta cần tìm tích chập hai ma trận. Tích chập hai ma trận kích thước M1 × N1 và M 2 × N 2 sẽ là ma trận có kích thước

( M1 + M 2 − 1) × ( N1 + N 2 − 1) .
Ví dụ:

Hình 3.1.34 Cách tìm tích chập hai ma trận Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm y(1,1) (hình 3.1.34), các điểm ảnh không tồn tại trong x(m,n) phải được chèn các giá trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng 0, lặp lại các giá trị mức xám trên đường biên của ảnh v.v. k) Biến đổi ma trận thành một vector (stacking operator) Trong một số trường hợp, việc phân tích hình ảnh 2 chiều sẽ đơn giản hơn khi ma trận F các điểm ảnh hai chiều ( N1 × N 2 ) được biến đổi thành vector cột có kích thước ( N1 N 2 ,1), để làm được như vậy, chúng ta sắp xếp lần lượt các cột (hay hàng) của F thành 1 vector dài. Thao tác trên có thể được mô tả thông qua vector vn ( N 2 ×1 ) và ma trận

Nn (

N1 N 2 × N1 ):
⎡0 ⎤ 1 ⎢ ⎥ ⎢ ⎥ ⎢0 ⎥ n − 1 ⎢ ⎥ vn = ⎢1 ⎥ n ⎢0 ⎥ n + 1 ⎢ ⎥ ⎢ ⎥ ⎢0 ⎥ N ⎣ ⎦ 2

(3.1.35)

 

 106 

Chương 3 Kỹ thuật xử lý hình ảnh 

⎡ ⎤ ⎧ [0] ⎢ ⎥ ⎪ ⎢ ⎥ ⎨( n − 1) zeros matrix (N1 × N1 ) ⎢ ⎥ ⎪ [0] ⎢ ⎥ ⎩ ⎢ ⎡1 0 … 0 ⎤ ⎥ ⎧ ⎢⎢ ⎪ th ⎥⎥ 0 1 … 0 ⎥ ⎪ n unit matrix ⎥ Nn = ⎢⎢ ⎨ ⎢⎢ ⎥ ⎥ ⎪ ⎢⎢ ⎥⎥ ⎪ 0 0 … 1⎦ ⎥ ⎢⎣ ⎩ ⎢ ⎥ 0] [ ⎢ ⎥ ⎧ ⎢ ⎥ ⎪( N 2 − n ) zeros matrix (N1 × N1 ) ⎨ ⎢ ⎥ ⎪ [0] ⎢ ⎥ ⎩ ⎣ ⎦

(3.1.36)

Ma trận F sẽ được biến đổi thành vector f như sau:

f = ∑ N n Fv n
n =1

N2

(3.1.37)

Biến đổi nghịch từ f thành F là:

F= ∑ NT f v T n n
n=1

N2

(3.1.38)

Sở dụng công thức (3.1.37) và (3.1.38) có thể dễ dàng xác định quan hệ giữa hai phương pháp biểu diễn hình ảnh thông qua ma trận và vector. Phương pháp biểu diễn dưới dạng vector giúp thu gọn đáng kể các công thức mô tả quá trình xử lý ảnh và cho phép chúng ta áp dụng những phương pháp xử lý tín hiệu một chiều trong xử lý ảnh. Ví dụ: Biến đổi ma trận F (3x3) thành vector f

⎡1 4 7⎤ ⎡1 ⎤ ⎡ 0⎤ ⎡ 0⎤ ⎢ 2 5 8 ⎥ , v = ⎢0 ⎥ ; v = ⎢1 ⎥ ; v = ⎢ 0⎥ , F= ⎢ ⎥ 1 ⎢ ⎥ 2 ⎢ ⎥ 3 ⎢ ⎥ ⎢ 3 6 9⎥ ⎢0⎥ ⎢ 0⎥ ⎢1 ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

⎡1 ⎢0 ⎢ ⎢0 ⎢ ⎢0 N1 = ⎢ 0 ⎢ ⎢0 ⎢0 ⎢ ⎢0 ⎢0 ⎣
N2

0 0⎤ ⎡0 0 0 ⎤ ⎡0 0 0 ⎤ ⎥ ⎢0 0 0 ⎥ ⎢0 0 0 ⎥ 1 0⎥ ⎢ ⎥ ⎢ ⎥ ⎢0 0 0 ⎥ ⎢0 0 0 ⎥ 0 1⎥ ⎥ ⎢ ⎥ ⎢ ⎥ 0 0⎥ ⎢1 0 0 ⎥ ⎢0 0 0 ⎥ 0 0 ⎥ ; N 2 = ⎢0 1 0 ⎥ ; N 3 = ⎢0 0 0 ⎥ ⎥ ⎢ ⎥ ⎢ ⎥ 0 0⎥ ⎢0 0 1 ⎥ ⎢0 0 0 ⎥ ⎢0 0 0 ⎥ ⎢1 0 0 ⎥ 0 0⎥ ⎥ ⎢ ⎥ ⎢ ⎥ 0 0⎥ ⎢0 0 0 ⎥ ⎢0 1 0 ⎥ ⎢0 0 0 ⎥ ⎢0 0 1 ⎥ 0 0⎥ ⎦ ⎣ ⎦ ⎣ ⎦

f= ∑ N n Fv n = N1 Fv1 + N 2 Fv 2 + N 3 Fv 3
n=1

 

 107 

Chương 3 Kỹ thuật xử lý hình ảnh 

⎡1 ⎢0 ⎢ ⎢0 ⎢ ⎢0 N1 Fv1 = ⎢0 ⎢ ⎢0 ⎢0 ⎢ ⎢0 ⎢0 ⎣

0 0⎤ ⎡1 ⎥ ⎢0 1 0⎥ ⎢ ⎢0 0 1⎥ ⎥ ⎢ 0 0 ⎥ ⎡1 4 7 ⎤ ⎡1 ⎤ ⎢0 ⎢ ⎥ 0 0 ⎥ ⎢ 2 5 8 ⎥ ⎢0 ⎥ = ⎢0 ⎥ ⎥⎢ ⎢ 0 0 ⎥ ⎢ 3 6 9 ⎥ ⎣0 ⎦ ⎢0 ⎣ ⎦⎢ ⎥ ⎢0 0 0⎥ ⎥ ⎢ 0 0⎥ ⎢0 ⎥ ⎢0 0 0⎦ ⎣

0 0⎤ ⎡1 ⎤ ⎢2⎥ ⎥ 1 0⎥ ⎢ ⎥ ⎢3 ⎥ 0 1⎥ ⎢ ⎥ ⎥ 0 0 ⎥ ⎡1 ⎤ ⎢0 ⎥ ⎢ ⎥ 0 0 ⎥ ⎢ 2 ⎥ = ⎢0 ⎥ ⎢ ⎥ ⎥ ⎢ ⎥ 0 0 ⎥ ⎣ 3 ⎦ ⎢0 ⎥ ⎢0 ⎥ 0 0⎥ ⎢ ⎥ ⎥ 0 0⎥ ⎢0 ⎥ ⎢0 ⎥ ⎥ 0 0⎦ ⎣ ⎦ ⎡1 ⎤ ⎢2⎥ ⎢ ⎥ ⎢3 ⎥ ⎢ ⎥ ⎢4⎥ f = ⎢5 ⎥ ⎢ ⎥ ⎢6 ⎥ ⎢7 ⎥ ⎢ ⎥ ⎢8 ⎥ ⎢9 ⎥ ⎣ ⎦

⎡0 ⎤ ⎡0 ⎤ ⎢0 ⎥ ⎢0 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢0 ⎥ ⎢0 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢4⎥ ⎢0 ⎥ Tương tự ta có: N 2 Fv 2 = ⎢5 ⎥ ; N 3Fv 3 = ⎢0 ⎥ ⇒ ⎢ ⎥ ⎢ ⎥ ⎢6 ⎥ ⎢0 ⎥ ⎢0 ⎥ ⎢7 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢0 ⎥ ⎢8 ⎥ ⎢0 ⎥ ⎢9 ⎥ ⎣ ⎦ ⎣ ⎦

3.1.6.3 Biểu diễn hệ thống tuyến tính bằng ma trận Việc phân tích các toán tử tuyến tính trong xử lý ảnh sẽ thuận tiện hơn khi chúng ta sử dụng phương pháp biểu diễn bằng ma trận đã đề cập tới ở trên.
Khi tìm đáp ứng hệ thống, biết hàm đáp ứng xung, chúng ta tìm tổng chập:

y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k )
l =0 k =0

N −1 N −1

(3.1.39)

Cho tín hiệu vào x ( m, n ) và đáp ứng xung h ( m, n ) là các ma trận vuông 3x3, ta có:

y ( m, n ) = = x ( 0, 0 ) h ( m − 0, n − 0 ) + x (1, 0 ) h ( m − 1, n − 0 ) + x ( 2, 0 ) h ( m − 2, n − 0 ) + x ( 0,1) h ( m − 0, n − 1) + x (1,1) h ( m − 1, n − 1) + x ( 2,1) h ( m − 2, n − 1) + x ( 0, 2 ) h ( m − 0, n − 2 ) + x (1, 2 ) h ( m − 1, n − 2 ) + x ( 2, 2 ) h ( m − 2, n − 2 )
Vế phải của (3.1.40) là tích vô hướng của hai vector cột x và hm,n : (3.1.40)

 

 108 

Chương 3 Kỹ thuật xử lý hình ảnh 
⎡ x ( 0, 0 ) ⎤ ⎡ h ( m − 0, n − 0 ) ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ x (1, 0 ) ⎥ ⎢ h ( m − 1, n − 0 ) ⎥ ⎢ x ( 2, 0 ) ⎥ ⎢ h ( m − 2, n − 0 ) ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x ( 0,1) ⎥ ⎢ h ( m − 0, n − 1) ⎥ ⎢ ⎥ ⎢ ⎥ x = ⎢ x (1,1) ⎥ hm ,n = ⎢ h ( m − 1, n − 1) ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x ( 2,1) ⎥ ⎢ h ( m − 2, n − 1) ⎥ ⎢ x ( 0, 2 ) ⎥ ⎢ h ( m − 0, n − 2 ) ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x (1, 2 ) ⎥ ⎢ h ( m − 1, n − 2 ) ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x ( 2, 2 ) ⎥ ⎢ h ( m − 2, n − 2 )⎥ ⎣ ⎦ ⎣ ⎦

(3.1.41)

Có thể thấy rằng, ma trận hai chiều các điểm ảnh X ứng với hàm x ( m, n ) - được biến đổi theo (3.1.37) để nhận được vector x. Nếu ma trận hai chiều ảnh Y ứng với y ( m, n ) cũng được biểu diễn tương tự, thì vector hm,n sẽ biến đổi thành ma trận H:
⎡ h ( 0,0 ) h ( −1,0 ) ⎢ ⎢ h (1,0 ) h ( 0,0 ) ⎢ h ( 2,0 ) h (1,0 ) ⎢ ⎢ h ( 0,1) h ( −1,1) H = ⎢ h (1,1) h ( 0,1) ⎢ ⎢ h ( 2,1) h (1,1) ⎢ h ( 0, 2 ) h ( −1, 2 ) ⎢ ⎢ h (1, 2 ) h ( 0, 2 ) ⎢ ⎣ h ( 2, 2 ) h (1, 2 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) h ( 0, −2 ) h ( −1, −2 ) h ( −2, −2 ) ⎤ ⎥ h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) h (1, −2 ) h ( 0, −2 ) h ( −1, −2 ) ⎥ h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) h ( 2, −2 ) h (1, −2 ) h ( 0, −2 ) ⎥ ⎥ h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) ⎥ h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) ⎥ ⎥ h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) ⎥ h ( −2, 2 ) h ( 0,1) h ( −1,1) h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) ⎥ ⎥ h ( −1, 2 ) h (1,1) h ( 0,1) h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) ⎥ ⎥ h ( 0, 2 ) h ( 2,1) h (1,1) h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) ⎦

(3.1.42) Khi đó, phương trình (3.1.40) được rút ngắn như sau:

y = Hx

(3.1.43)

Đây là phương trình cơ bản trong lĩnh vực xử lý ảnh tuyến tính. Ma trận H có thể được chia thành 9 ma trận nhỏ kích thước 3 × 3 có dạng:

⎡ H 00 H = ⎢ H10 ⎢ ⎢ H 20 ⎣

H 01 H11 H 21

H 02 ⎤ H12 ⎥ ⎥ H 22 ⎥ ⎦

(3.1.44)

Khi x ( m, n ) và y ( m, n ) có kích thước N × N , Ma trận H có kích thước N 2 × N 2 , các ma trận nhỏ H m,n sẽ có kích thước N × N . Trong trường hợp tổng quát, H là ma trận circulant khối, được tạo ra bởi N × N ma trận circulant theo cách sau:

 

 109 

Chương 3 Kỹ thuật xử lý hình ảnh 
l→ ⎤ ⎡ ⎡ ⎢ ⎢ ⎥ ⎢ ⎢m ↓ ⎛ k = 0 ⎞⎥ ⎜ ⎟ ⎢ ⎢ ⎝ n = 0 ⎠⎥ ⎦ ⎢ ⎣ ⎢ ⎡ l→ ⎤ ⎢ ⎢ ⎥ ⎢ ⎢m ↓ ⎛ k = 0 ⎞⎥ H= ⎜ ⎟ ⎢ ⎢ ⎝ n = 1 ⎠⎥ ⎦ ⎢ ⎣ ⎢ ⎢ l→ ⎤ ⎢⎡ ⎥ ⎢⎢ ⎛k = 0 ⎞⎥ ⎢⎢m ↓ ⎜ ⎟ ⎢⎢ ⎝ n = N − 1⎠ ⎥ ⎦ ⎣⎣ l→ ⎤ ⎡ ⎢ ⎥ ⎢m ↓ ⎛ k = 1 ⎞⎥ ⎜ ⎟ ⎢ ⎝ n = 0 ⎠⎥ ⎣ ⎦ l→ ⎤ ⎡ ⎢ ⎥ ⎢ m ↓ ⎛ k = 1⎞ ⎥ ⎜ ⎟ ⎢ ⎝ n = 1⎠⎥ ⎣ ⎦ l→ ⎡ ⎤ ⎢ ⎥ ⎞⎥ ⎢m ↓ ⎛ k = 1 ⎜ ⎟ ⎢ ⎝ n = N − 1⎠ ⎥ ⎣ ⎦ l→ ⎡ ⎤⎤ ⎢ ⎥⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥ ⎜ ⎟⎥ ⎥ ⎢ ⎝n = 0 ⎠⎦ ⎣ ⎥ l→ ⎡ ⎤⎥ ⎢ ⎥⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥ ⎜ ⎟⎥ ⎥ ⎢ ⎝n =1 ⎠⎦ ⎥ ⎣ ⎥ ⎥ l→ ⎡ ⎤⎥ ⎢ ⎥⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥ ⎜ ⎟ ⎢ ⎝ n = N − 1⎠⎥ ⎦ ⎣ ⎦⎥

(3.1.45)

Theo (3.1.37) vector y tương đương ma trận ảnh Y có thể tìm được thông qua ma trận X như sau:

y = ∑ HN n Xv n
n =1

N

(3.1.46)

Ngoài ra, sử dụng (3.1.38) chúng ta cũng có thể biếu diễn ma trận Y thông qua vector y của ảnh:
N

Y= ∑ M T y u T m m
m=1

(3.1.47)

Từ (3.1.46) và (3.1.47) chúng ta có thể tìm ra quan hệ giữa ma trận ảnh vào và ra của hệ thống tuyến tính:

Y= ∑∑ M T HN n X v n u T m m
m=1 n =1

N

N

(

) (

)
T

(3.1.48)

Có thể chứng minh được rằng việc nhân H với ma trận M m và N n sẽ tách ra các ma trận circulant H m,n , như vậy ta có:

Y= ∑∑ H m,n X v n u T m
m=1 n =1

N

N

(

)

(3.1.49)

Đối với hệ thống tuyến tính tách được (separable), quá trình tìm tổng chập (3.1.39) có thể được thực hiện lần lượt bằng cách tính tổng theo m, sau đó theo n. Ta có thể viết:

h ( m, l ; n, k ) = hc ( m, l ) hr ( n, k )
y ( m, n ) = ∑ hc ( m, l ) ∑ x ( l , k ) hr ( n, k )
l =0 k =0 N −1 N −1

(3.1.50) (3.1.51)

Theo (3.1.50) ta thấy trong các ma trận circulant (3.1.45) thành phần hr ( n, k ) là constant và có thể đưa ra ngoài ma trận. Do đó ma trận circulant khối H có thể biến đổi như sau (để rút gọn, chúng ta viết tắt hn , k = h ( n, k ) ):

 

 110 

Chương 3 Kỹ thuật xử lý hình ảnh 
⎡ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎢ ⎜ ⎟ ⎢ hr 0,0 ⎜ ⎟ ⎢ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎝ ⎠ ⎢ ⎢ hc 0,0 ... hc N −1,0 ⎛ ⎞ ⎢ ⎜ ⎟ ⎢ h ⎟ H = ⎢ r 0,1 ⎜ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎝ ⎠ ⎢ ⎢ ⎢ ⎢ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎢ ⎜ ⎟ ⎢ hr 0, N −1 ⎜ ⎟ ⎢ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎝ ⎠ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ hc 0,0 ... hc N −1,0 ⎛ ⎞ ⎥ ⎜ ⎟ ⎥ hrN −1,1 ⎜ ⎟ ⎥ = hT ⊗ hT r c ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎥ ⎝ ⎠ ⎥ ⎥ ⎥ ⎛ hc 0,0 ... hc N −1,0 ⎞⎥ ⎜ ⎟⎥ hrN −1, N −1 ⎜ ⎟⎥ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎥ ⎝ ⎠⎦ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎜ ⎟ hrN −1,0 ⎜ ⎟ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎝ ⎠

(3.1.52)

T Ma trận H được gọi là tích Kronecker của hai ma trận hrT và hc .

3.1.6.4 Biến đổi không gian tín hiệu 3.1.6.4.1 Biến đổi Fourier liên tục
Cặp biến đổi Fourie liên tục một chiều được định nghĩa như sau:

F (u) = f (x) =

−∞ ∞

∫ f (x)e

− j 2π ux

dx

(3.1.53)

−∞

∫ F (u) e

j 2π ux

du

(3.1.54)

f ( x ) là hàm liên tục, có biến thực x, j = −1 .
Công thức (3.1.53) được gọi là khai triển Fourier thuận còn (3.1.54) – khai triển Fourier nghịch. Trong trường hợp tổng quát, hàm F(u) là hàm phức, do đó nó có thể được biểu diễn dưới dạng:

F (u) = F (u) e

jΦ ( u )

(3.1.55) được gọi là phổ biên độ, còn hàm

Modul F ( u ) = ⎡ R 2 ( u ) + I 2 ( u ) ⎤ ⎣ ⎦

1/ 2

⎡ I (u) ⎤ Φ ( u ) = arctg ⎢ ⎥ gọi là phổ pha của hàm f(u). R(u) và I(u) là thành phần thực và ảo ⎣ R (u) ⎦
của F(u). Một đại lượng khác có thể suy ra từ phổ Fourier là phổ công suất của tín hiệu P(u):

P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2

(3.1.56)

Phổ công suất cho chúng ta thấy phân bố công suất của tín hiệu trong miền tần số. Đối với tín hiệu rời rạc, một biến, cặp khai triển Fourier thuận và nghịch có dạng như sau:

 

 111 

Chương 3 Kỹ thuật xử lý hình ảnh 

F (u) =

1 M
M −1 u =0

M −1


x =0

f ( x)e
j 2π

− j 2π

ux M

với u = 0,1, 2...M − 1 ,

(3.1.57)

f ( x ) = ∑ F (u)e

ux M

với x = 0,1,2...M − 1

(3.1.58)

như tín hiệu rời rạc f ( x ) , khai triển Fourier của nó cho kết quả là M các thành phần rời rạc. Dễ

Để thực hiện khai triển Fourier, chúng ta phải sử dụng M2 phép nhân và phép cộng. Cũng

dàng nhận thấy rằng, mỗi thành phần rời rạc trong F(u) là tổng của tích tất cả các giá trị của hàm

f ( x ) nhân với các hàm cosin và sin có M tần số khác nhau. Như vậy có thể nói F(u) là biểu diễn

tín hiệu f(x) trong miền tần số vì biến u xác định các tần số tạo nên tín hiệu rời rạc f(x). Có thể nói, khai triển Fourier cho phép chúng ta mô tả một hàm thông qua các thành phần tần số chứa trong hàm đó. Chính vì vậy khai triển Fourie có thể được sử dụng như một công cụ quan trọng để mô tả và phân tích các phương pháp lọc tuyến tính. Trong trường hợp tổng quát, phổ của tín hiệu rời rạc là hàm phức, do đó nó có thể được biểu diễn dưới dạng:

F (u) = F (u) e

jΦ ( u )

(3.1.59)

Phổ công suất của tín hiệu rời rạc là:

P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2

(3.1.60)

Biến đổi Fourier có thể được mở rộng cho hàm f ( x , y ) có hai biến. Khi f ( x , y ) liên tục và lấy tích phân được thì cặp biến đổi Fourier hai chiều thuận và nghịch sẽ là:

F ( u, v ) = f ( x, y ) =

−∞ ∞

∫ ∫ f ( x, y ) e

− j 2π ( ux+vy )

dxdy

(3.1.61)

−∞

∫ ∫ F ( u, v ) e

j 2π ( ux+vy )

dudv

(3.1.62)

u, v là biến tần số. Cũng như trường hợp biến đổi Fourier một chiều, ta có phổ biên độ, phổ pha và phổ công suất cho tín hiệu hai chiều:

F ( u, v ) = ⎡ R 2 ( u, v ) + I 2 ( u, v ) ⎤ ⎣ ⎦
⎡ I ( u,v ) ⎤ Φ ( u, v ) = arctg ⎢ ⎥ ⎣ R ( u, v ) ⎦

1/ 2

(3.1.63)

(3.1.64)

P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2

(3.1.65)

Ví dụ: Biến đổi Fourier của xung hình chữ nhật trong không gian 3 chiều (hình 3.1.35a) có

 

 112 

Chương 3 Kỹ thuật xử lý hình ảnh 
dạng như trên (hình 3.1.35b).

a)

b)

Hình 3.1.35 Phổ Fourier của xung hình chữ nhật trong không gian 3 chiều.

3.1.6.4.2 Biến đổi Fourier rời rạc 2 chiều
Biến đổi Fourier thuận 2 chiều của hàm rời rạc f(x,y) (mô tả ảnh số kích thước MxN) được biểu diễn như sau:

1 F ( u, v ) = MN

M −1 N −1 x =0 y =0

∑ ∑ f ( x, y ) e

⎛ ux vy ⎞ − j 2π ⎜ + ⎟ ⎝M N⎠

(3.1.66)

Nếu có F(u,v) chúng ta có thể tìm ra f(x,y) bằng khai triển Fourier thuận:

f ( x, y ) =

M −1 N −1 u =0 v =0

∑ ∑ F ( u, v ) e

⎛ ux vy ⎞ j 2π ⎜ + ⎟ ⎝M N⎠

(3.1.67)

Phổ biên độ, phổ pha và phổ công suất cũng được xác định như sau:

F ( u, v ) = ⎡ R 2 ( u, v ) + I 2 ( u, v ) ⎤ ⎣ ⎦
⎡ I ( u, v ) ⎤ Φ ( u, v ) = arctg ⎢ ⎥ ⎣ R ( u, v ) ⎦

1/ 2

(3.1.68)

(3.1.69)

P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2

(3.1.70)

Giá trị của phổ Fourier tại điểm u=v=0 bằng:

F ( 0,0 ) =

1 MN

M −1 N −1 x =0 y =0

∑ ∑ f ( x, y )

(3.1.71)

Nếu f(x,y) là hàm biểu diễn độ chói của ảnh số thì F(0,0) chính là giá trị trung bình của độ chói ảnh. Vì (0,0) là điểm gốc tọa độ của không gian tần số, nơi tần số bằng 0, nên thành phần F(0,0) còn được gọi là thành phần một chiều (DC) của phổ tín hiệu. Ví dụ: Trên hình 3.1.36a là ảnh chi tiết hình chữ nhật màu trắng, kích thước 20x40 nằm (3.1.66) trên ảnh phông màu đen. Phổ 2 chiều của ảnh trên nhận được bằng khai triển Fourie biểu diễn trên hình 3.1.36b. Các thành phần phổ của tín hiệu sẽ được đánh số theo thứ tự từ u=1 tới u=M, v=1 tới v=N. Để thành phần một chiều của phổ nằm tại trung tâm của ảnh, chúng ta phải thực hiện dịch phổ

 

 113 

Chương 3 Kỹ thuật xử lý hình ảnh 
trong không gian hai chiều, bằng cách nhân hàm f(x,y) với

( −1) , khi đó theo tính chất của khai triển Fourier, phổ của ảnh sẽ dịch chuyển đến vị trí u = ( M / 2 ) và v = ( N / 2 ) :
x +y

f ( x, y )( −1)

x+y

M N⎞ ⎛ ↔ F ⎜ u − ;v − ⎟ 2 2⎠ ⎝

(3.1.72)

Phổ của ảnh sau khi dịch chuyển được biểu diễn trên hình 3.1.36c. Phạm vi dải động (khoảng biến thiên) của giá trị các hệ số khai triển Fourier có thể cao hơn nhiều so với giá trị của thành phần chói. Vì vậy, để ảnh phổ hiển thị rõ hơn trên màn hình, đôi khi người ta biến đổi các giá trị phổ theo hàm logarit như sau:

D ( u,v ) = c log ⎡1 + F ( u, v ) ⎤ ⎣ ⎦
c- hằng số. Ảnh phổ sau khi biến đổi bằng (3.1.73) biểu diễn trên hình 3.1.36d.

(3.1.73)

Hình 3.1.36 Phổ Fourier của hình ảnh 2D

 

 114 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h

3.2 PHÂ TÍCH CÁ KỸ THU XỬ LÝ ẢNH VÀ V ÂN ÁC UẬT Ý VIDEO
3.2.1 Khá niệm về quan hệ giữa các điểm ản ái q a nh 3.2.1.1 Các điểm ảnh lâ cận 3 ân Mỗi M điểm ản p tại tọa độ (x,y) sẽ có 4 điểm ảnh được gọi là lân cận the chiều ngan và nh đ ó h à eo ng
dọc, đó là các điểm ( x + 1, y ) , ( x − 1, y ) , ( x y + 1) ( x, y − 1) . Tập h 4 điểm lân cận trên được m hợp l x, ký hiệu là u (x,y)

N4 ( p ) . Mỗi điểm lân cận nằm cách điểm (x 1 đơn vị 4 điểm ảnh lân cận với điểm l x,y) ị. h
đường ché éo ký hiệu là

theo

ND ( p ) ,

đó

là à

các và

điểm: đ

( x + 1, y + 1) , ( x + 1, y − 1) , ( x − 1, y + 1) ( x − 1, y − 1) .
được g là 8 điểm lân cận: gọi m lân cận có thể nằm bên ngoài ản n nh.

Tập hợp 8 điểm

N4 ( p )

ND ( p )

N8 ( p ) . Trong trường hợp khi điểm p nằm ở biên c ảnh, các điểm g p của

3.2.1.2 Mối liên kết (con 3 i nnectivity) Mối M liên kết giữa các điểm ảnh là khá niệm quan trọng, cho p ái n phép xác định giới hạn củ chi h ủa tiết hay các vùng tr y rong một ảnh Hai điểm ảnh có sự liê kết với nh nếu chún là các điểm lân h. ên hau ng m cận và giá trị mức xám của chú đáp ứng một tiêu chí nào đó. Ví dụ: với ảnh nhị phân, 2 điểm à úng g ảnh có liên kết, khi chúng nằm trong bộ 4 lâ cận và có giá trị giống nhau. ó i ân
Cho C V là tập các mức xá dùng để đ p ám định nghĩa mối liên kết, v dụ trong ả đen-trắng giá m ví ảnh g, trị các mức xám th đổi từ 0-2 hay 255, thì V có thể là 1 tập bất kỳ trong số 255 giá t này. Chhú ta ó g trị úng oại có 3 lo liên kết: 1) Liên kết 4: hai đ n điểm ảnh p và q có các giá trị từ V có liên kết 4 nếu q nằm tron tập à á l u ng 2) Liên kết 8: hai đ n điểm ảnh p và q có các giá trị từ V có liên kết 8 nếu q nằm tron tập à á l u ng 3) Liên kết m (hỗn hợp): hai điể ảnh p và q có các giá trị từ V có liên kết m nếu n ểm u: - q nằm tro tập N 4 ( p ) , hoặc ong - q nằm trong tập N D ( p ) và tập N 4 ( p ) ∩ N 4 ( q ) không ch các giá trị trong V. hứa Liên kết m là biến thể củ liên kết 8 dùng để loạ trừ các mối liên kết đa hướng (khôn rõ L ủa ại ng ràng) c thể gặp k dùng liên kết 8. Điều này minh h trên hình 3.2.1b. Liê kết 8 trên hình có khi n u họa h ên 3.2.1 đ được biểu diễ bằng đườn đứt nét là liên kết đa hướng, trong khi đó nếu sử dụng khái niệm ễn ng h liên kế m, ta sẽ x định 1 đư ết xác ường liên kế duy nhất g ết giữa các điểm ảnh có giá trị bằng 1 (hình m á 3.2.1c) Hai vùng ả S1 và S2 được gọi là h vùng liên kết nếu một điểm ảnh n đó trong S1 có ). ảnh hai n t nào liên kế với một điể ảnh khác trong S2. Giữ hai vùng ả có thể có liên kết 4, 8 hoặc liên kế m. ết ểm ữa ảnh ó ết

N4 ( p ) . N8 ( p ) .

Hìn 3.2.1 nh

Minh họa liên kết 8 và liên kết m. M n

Chương 3 Kỹ thuật xử lý hình ảnh 
Đường kết nối (rời rạc) giữa hai điểm ảnh p có tọa độ (x,y) và q có tọa độ là (s,t) là chuỗi các pixel khác nhau với các tọa độ: ( x 0 , y 0 ) , ( x1 , y1 ) ,..., ( x n , y n ) , trong đó:

( x 0 , y0 ) = ( x, y ) ( x n , yn ) = ( s, t )
( x i , yi ) và ( x i−1 , yi−1 ) là các điểm liên kết với 1 ≤ i ≤ n . n được gọi là chiều dài của đường kết nối. Khi ( x 0 , y 0 ) = ( x n , y n ) , đường nối được gọi là khép kín.
Tùy theo phương pháp xác định liên kết,chúng ta có đường kết nối 4, 8 hoặc đường kết nối m. Trên hình 3.2.1 mô tả hai loại đường kết nối với liên kết m và 8. Cho S là một tập các điểm ảnh, hai pixel p và q được gọi là liên kết trong S, nếu tồn tại đường kết nối giữa hai điểm p và q được tạo ra chỉ bởi các điểm trong tập S. Với bất cứ điểm p nào từ S, tất cả các pixel liên kết với p trong S sẽ được gọi là thành phần liên kết của S. Nếu S trong chỉ tồn tại một thành phần liên kết, thì tập S gọi là tập liên kết. Cho R là tập con các điểm ảnh, R được gọi là vùng ảnh nếu R là tập liên kết. Đường biên của vùng R được tạo ra từ tập nhỏ các điểm ảnh. Các điểm này có một hoặc nhiều hơn các điểm lân cận không nằm trong tập R.

3.2.1.3 Toán tử xử lý điểm ảnh Trong phần này, chúng ta sẽ nói đến một số phép tính thực hiện trực tiếp với các điểm ảnh trong ảnh, thí dụ nhân hoặc chia một ảnh cho ảnh khác theo từng điểm. Như đã giới thiệu ở trên, ta có thể biểu diễn ảnh số như ma trận các điểm ảnh, tuy nhiên trong trường hợp tổng quát, hai ma trận không chia được cho nhau. Do đó, khi thực hiện toán tử chia hai ảnh cho nhau, người ta chia các pixel tương ứng của ảnh này cho ảnh khác (với điều kiện các điểm ảnh của ảnh chia khác 0). Tương tự như vậy, các toán tử số học và logic sẽ được thực hiện cho các pixel tương ứng giữa hai ảnh.
3.2.1.3.1 Khoảng cách giữa các điểm ảnh

Đối với các pixels p, q, z với các tọa độ (x,y), (s,t), (u,v), D là hàm khoảng cách hoặc metric, nếu:
D ( p, q ) ≥ 0 , D ( p, q ) = 0 nếu p=q

D ( p, q ) = D ( q, p )
D ( p, z ) ≤ D ( p, q ) + D ( q, z )

3.2.1.3.2

Khoảng cách Euclide giữa p va q được định nghĩa:
1/ 2

2 2 De ( p,q ) = ⎡( x − s ) + ( y − t ) ⎤ ⎣ ⎦

(3.2.1)

3.2.1.3.3

Khoảng cách D4 giữa p va q được định nghĩa: (3.2.2)

D 4 ( p,q ) = x − s + y − t

Các pixels nằm cách điểm (x,y) một khoảng D4 nhỏ hơn hoặc bằng giá trị r sẽ tạo ra hình

 

116 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
thoi có tâm điểm tạ (x,y).Ví dụ pixels nằm cách (x,y) một khoảng D 4 ≤ 2 tạo ra hình thoi s ó ại ụ: m m r sau:

3.2.1.3.4

Khoảng cách D8 giữa p v q được địn nghĩa như sau: h va nh ư (3.2.3)

D8 ( p, q ) = max ( x − s , y − t ) x

Pixels nằm c P cách (x,y) mộ khoảng D 8 ≤ 2 tạo ra h ột hình vuông c tâm điểm t điểm (x,y) có tại ):

Pixels với kh P hoảng cách D 8 = 1 là 8 điểm lân cận của pixel (x,y c y).

3.2.2 Các phương ph nâng cao chất lượng ảnh c háp o g
Các C phương pháp xử lý nâng cao chất lượng hình ảnh thường được chia t h g thành hai lớp lớn, p đó là phương phá xử lý tron không gia ảnh và ph áp ng an hương pháp xử lý ảnh tr rong miền tầ số. ần ng ý ựa thao tác tác động trực tiế tới các điể ảnh. Để x lý đ ếp ểm xử Phươn pháp xử lý thứ nhất dự trên các t trong m miền tần số, ảnh số phải được ánh xạ về miền tầ số thông q biến đổi Fourier. Sau đây ần qua u chúng ta sẽ đề cập tới một số ph hương pháp x lý ảnh tro miền khô gian. xử ong ông Nâng cao ch lượng ảnh là bước tiền xử lý quan trọng, nhằm làm nổi bậ một số đặc tính N hất h n n m ật c của ản như làm tă độ tương phản, lọc nh nh ăng hiễu, nổi biên tăng kích th n, hước ảnh v.v v.

3.2.2.1 Nâng cao chất lư 3 g ượng ảnh bằn toán tử đ ng điểm Quá Q trình nân cao chất lượng ảnh tro không gian được biểu diễn như sa ng l ong u au:
g ( x, y ) = T ⎡ f ( x, y ) ⎤ ⎦ ⎣

(3.2.4)

nh h n h f ( x, y ) - ản số gốc; g ( x, y ) - ảnh đã được xử lý; T – toán tử dùng để biến đổi ảnh gốc. Toán t T có thể đ tử được thực hiệ cho một v ện vùng ảnh xung quanh điể ( x0 , y0 ) và cho nhiều ảnh ểm u liên tiế Thông th ếp. hường, vùng lân cận với điểm ( x0 , y0 ) thường đư chọn có dạng hình v ược vuông hoặc hình chữ nhật có điểm giữ là ( x0 , y0 ) - vùng này còn được gọi là mặt nạ. (h h t ữa c hình 3.2.2).

Mặt nạ

Hình 3.2.2 Vùng ảnh lân cận với điểm ( x0 , y0 ) h g n Toán tử T đ T được thực hiệ cho các đ ện điểm ảnh bên trong mặt nạ, tâm mặt nạ sẽ được dịch n t

Chương 3 Kỹ thuật xử lý hình ảnh 
chuyển lần lượt qua tất cả các điểm ảnh, thường là từ trái sang phải, từ trên xuống dưới. Sau đây là một số biện pháp xử lý ảnh dùng toán tử không gian.

3.2.2.1.1 Tăng độ tương phản
Khi vùng lân cận có kích thước 1x1, hàm g sẽ chỉ phụ thuộc vào f tại điểm (x,y). Toán tử T sẽ là hàm biến đổi mức xám:

s = T [r]
r và s là mức xám của ảnh gốc f ( x, y ) và ảnh g ( x, y ) tại điểm (x,y).

(3.2.5)

Ví dụ: Quá trình biến đổi mức xám đơn giản được mô tả trên hình 3.2.3. Ảnh gốc "Lena" (hình 3.2.3a) được tăng cường độ tương phản khi áp dụng hàm biến đổi có đặc tuyến trên hình 3.2.3b. Mục đích đạt được khi các điểm ảnh có mức xám lớn hơn mức trung bình m sẽ được làm “sáng” thêm, ngược lại các điểm ảnh có độ chói dưới mức m sẽ được làm tối đi. Trên hình 3.2.3c, ảnh được xử lý sẽ biến thành dạng nhị phân: chỉ có 2 mức cố định, đen hoặc trắng.

Lena

Hình 3.2.3 Biến đổi mức xám làm tăng độ tương phản

a)

b)

c) Hàm dùng để biến đổi mức xám trong Matlab có dạng: J = imadjust(I,[low_in; high_in],[low_out; high_out],gamma). Hàm này biến đổi các mức xám nằm trong khoảng [low_in; high_in] thành các giá
γ trị trong khoảng [low_out; high_out] theo quy luật e .

 

118 

Chương 3 Kỹ thuật xử lý hình ảnh  3.2.2.1.2 Biến đổi âm bản
Hàm biến đổi âm bản ảnh có dạng: s = L−r (3.2.6)

Giá trị các điểm ảnh trong ảnh âm bản (hình 3.2.4) có mức xám thay đổi từ mức 0 (đen) tới mức L (trắng).

Hình 3.2.4 Ảnh âm bản

3.2.2.1.3 Nén dải động của ảnh (biến đổi logarithm)
Khi dải động của ảnh biến đổi trong phạm vi quá rộng so với khả năng hiển thị của màn hình, ví dụ khi cần hiển thị ảnh 2-D của các hệ số khai triển DCT, chúng ta cần nén dải động theo hàm logarithm như sau:

s = c log ⎡1 + r ⎤ ⎣ ⎦

(3.2.7)

Hình 3.2.5 Nén dải động của ảnh bằng biến đổi logarithm Ví dụ: Hệ số khai triển Fourie của ảnh 3.2.5 (kích thước 512x512) có giá trị nằm trong dải
6 động ⎡0 ÷ 35 ⋅ 10 ⎤ , vì vậy khi trực tiếp hiển thị ảnh phổ nói trên lên màn hình máy tính (tín hiệu ⎣ ⎦

đầu vào có 256 mức xám) chúng ta sẽ có ảnh màu gần như trắng hoàn toàn (hình3.2.5b). Sau khi nén dải động theo hàm logarithm, chúng ta nhận được ảnh 3.2.5c. Do dải động của tín hiệu sau khi nén và dải động của thiết bị hiển thị tương đương với nhau, chúng ta có thể quan sát được dạng 2-D của ảnh phổ.

3.2.2.1.4 Tách ảnh theo mức chói
Có hai phương pháp tách ảnh theo mức chói: đó là tách có nền và tách không nền. Tách không có nền được thực hiện với toán tử sau:

⎧ Lmax T (r) = ⎨ ⎩ Lmin

A<r <B

(3.2.8)

với các r khác

Với phương pháp này, các mức xám trong phạm vi [A-B] được thay thế bằng lên mức Lmax , còn các mức khác sẽ được gán mức Lmin . Tách mức chói có nền dùng phép ánh xạ sau:

A<r<B ⎧L T ( r ) = ⎨ max ⎩r với các r khác

(3.2.9)

Toán tử (3.2.9) thay đổi mức chói cho các điểm ảnh trong dải [A-B] và giữ nguyên mức chói ở các điểm khác.

 

119 

Chương 3 Kỹ thuật xử lý hình ảnh 

a)

c)

Hình 3.2.6 So sánh hai phương pháp tách ảnh theo mức chói a) Ảnh gốc b) Đặc tuyến tách mức chói không nền và ảnh kết quả c) Đặc tuyến tách mức chói có nền và ảnh kết quả

b)

Trên hình 3.2.6 minh họa là kết quả tách dải chói [A-B] trong ảnh bằng hai phương pháp nói trên.

3.2.2.1.5 Tách ảnh theo mặt phẳng bit
Có ứng dụng đòi hỏi phải tách ảnh số với 256 mức lượng tử (8 bits/điểm) thành 8 ảnh nhị phân theo mặt phẳng bit như mô tả trên hình 3.2.7. Ví dụ, các bit tạo nên mặt phẳng thứ 7 là các MSB (most significant bit), các bit tạo nên mặt phẳng số 0 là LSB (least significant bit) của các điểm ảnh.

Hình 3.2.7 Tách ảnh (8 bits/điểm) theo các mặt phẳng bit.
Tám mặt phẳng bit được tách ra từ hình gốc "Lena" được biểu diễn trên hình 3.2.8. Có thể nhận thấy rằng các bit bậc cao (nhất là MSB) chứa phần lớn tin tức về hình dạng ảnh. Các bít bậc thấp hơn tập trung ở các chi tiết nhỏ. Cách chia ảnh theo phương pháp tách mặt phẳng bit được sử dụng trong một số phương pháp nén dư thừa trong ảnh.

Hình 3.2.8 Tám mặt phẳng bit được tách ra từ ảnh gốc "Lena"

3.2.2.1.6 Xử lý lược đồ xám (histogram)
Lược đồ xám của một ảnh số (histogram) có các mức xám biến thiên trong khoảng

 

120 

Chương 3 Kỹ thuật xử lý hình ảnh 

[0, L − 1] là hàm rời rạc h ( rk ) = nk , với
ảnh n, khi đó histogram chuẩn sẽ bằng:

rk là mức xám thứ k, nk - là số lượng điểm ảnh, có mức

xám rk . Thông thường, histogram được chuẩn hóa bằng cách chia các giá trị nk cho tổng số điểm

p ( rk ) = nk / n
với k=0,1,2...L-1.

(3.2.10)

Nói cách khác p ( rk ) là xác suất xuất hiện các điểm ảnh có mức xám rk. Tổng các giá trị rời rạc p ( rk ) bằng 1. Ngoài các thông tin thống kê về mức xám, histogram còn chứa nhiều tin tức quan trọng có thể sử dụng trong các quá trình xử lý khác như nén hay phân vùng ảnh. Hàm cơ bản nhất dùng để tìm histogram của ảnh trong Matlab là hàm: imhist(I, n), trong đó,toàn bộ dải động các mức xám được chia ra thành n đoạn. Trên hình 3.2.9 thể hiện 4 ảnh có độ chói và độ tương phản khác nhau cùng với histogram của chúng. Lược đồ xám được biểu diễn trong hệ tọa độ vuông góc, trục hoành biểu diễn các giá trị mức xám từ [0,255], trục tung biểu diễn số lượng điểm ảnh có cùng mức xám. Dễ dàng thấy rằng, khi ảnh có độ tương phản cao (hình 3.2.9a), các mức xám phân bố đều trên trục rk. Với ảnh có độ chói thấp (hình 3.2.9b), các mức xám tập trung tại miền giá trị độ chói thấp và ngược lại với ảnh có độ chói cao (hình 3.2.9c). Với ảnh có độ tương phản thấp, nhạt màu trên lược đồ xám các vạch xám tập trung tại trung tâm dải chói (hình3.2.9d).

Hình 3.2.9 Histogram của bốn loại ảnh thường gặp: a. b. c. d. Ảnh có độ tương phản cao Ảnh có độ sáng thấp Ảnh có độ sáng cao Ảnh có độ tương phản thấp

Kỹ thuật cân bằng histogram Khảo sát lược đồ xám của ảnh có thể phỏng đoán rằng, nếu phân bố giá trị các mức xám của các điểm ảnh đồng đều trên toàn bộ dải chói [ 0, L − 1] thì ảnh sẽ có độ tương phản cao. Quá trình biến đổi ảnh có lược đồ xám không đồng đều thành đồng đều được gọi là cân bằng lược đồ (histogram equalization). Xét toán tử biến đổi mức xám:

s = T (r)

0 ≤ r ≤1

(3.2.11)

 

121 

Chương 3 Kỹ thuật xử lý hình ảnh 
với điều kiện: a- T ( r ) là hàm đơn ánh và đồng biến trong khoảng 0 ≤ r ≤ 1 b- 0 ≤ T ( r ) ≤ 1 khi

0 ≤ r ≤1 0 ≤ s ≤ 1 . Ngoài ra, nếu

Điều kiện (a) cần thiết để tồn tại biến đổi nghịch: r = T −1 ( s )

hàm T(r) không đồng biến, trong ảnh kết quả có thể xuất hiện một phần dải chói là "âm bản" so với ảnh gốc. Điều kiện (b) cho thấy dải động của ảnh vào và ra giống nhau.

Hình 3.2.10 Hàm biến đổi mức xám đồng biến T(r) Mức xám xuất hiện trong ảnh là đại lượng ngẫu nhiên trong khoảng [0,1]. Cho pr ( r ) và

ps ( s ) là các hàm mật độ phân bố xác suất (PDF) của biến ngẫu nhiên r và s, hai hàm này có quan
hệ như sau:

ps ( s ) = pr ( r )

dr ds

(3.2.12)

Như vậy, mật độ phân bố xác suất mức xám của ảnh ra phụ thuộc vào mật độ phân bố xác suất mức xám của ảnh vào và hàm biến đổi s = T ( r ) . Trong lĩnh vực xử lý ảnh, hàm biến đổi sau đây có ý nghĩa rất quan trọng:

s = T ( r ) = ∫ pr (τ ) dτ
0

r

(3.2.13)

Vế phải của (3.2.13) chính là tích phân phân bố xác suất (CDF) của biến ngẫu nhiên r. Hàm này là hàm đơn ánh và đồng biến trong khoảng 0 ≤ r ≤ 1 , đáp ứng yêu cầu (a) và (b) trong (3.2.11). Lấy đạo hàm của s theo r ta có:

ds dT ( r ) = dr dr
r ⎤ ds d ⎡ = ⎢ ∫ pr (τ ) dτ ⎥ = pr ( r ) dr dr ⎣ 0 ⎦

(3.2.14) (3.2.15)

Thay (3.2.15) vào (3.2.12) ta có:

ps ( s ) = pr ( r )

dr 1 = pr ( r ) =1 ds pr ( t )

0 ≤ s ≤1

(3.2.16)

Như vậy, PDF của ảnh ra trong khoảng [0-1] là đồng đều. Nói cách khác, nếu hàm biến đổi mức xám có dạng (3.2.13) thì histogram ảnh kết quả sẽ có dạng phân bố đều và không phụ thuộc vào hàm PDF của ảnh gốc. Quá trình cân bằng lược đồ xám cho ảnh số được thực hiện với các biến ngẫu nhiên rời rạc

 

122 

Chương 3 Kỹ thuật xử lý hình ảnh 
nk và rk (nk là số lượng điểm ảnh có mức chói rk). Xác suất xuất hiện điểm ảnh có mức chói rk là:

pr ( rk ) =

nk n

k = 0,1,2,......, L − 1

(3.2.17)

n là tổng số pixel trong ảnh. Hàm pr ( rk ) với biến rk chính là histogram của ảnh gốc. Hàm biến đổi mức xám dùng để cân bằng histogram cho tín hiệu rời rạc tương đương với (3.2.13) trong trường hợp này sẽ có dạng:

sk = T ( rk ) = ∑ pr ( rj ) = ∑
j =0 j =0

k

k

nj n

k = 0,1,2,......, L − 1

(3.2.18)

Phương pháp biến đổi ảnh theo (3.2.18) cho phép nới rộng dải động mức xám của ảnh số chỉ dựa trên các thông tin có trong ảnh gốc.

a)

b)

c) a) b) c) d) (a) Ảnh có độ chói thấp, trước và sau khi cân bằng Ảnh có độ chói cao, trước và sau khi cân bằng Ảnh có độ tương phản thấp, trước và sau khi cân bằng Hàm biến đổi T(r) dùng để cân bằng các ảnh: - đồ thị 1, (b)- đồ thị 2, (c) - đồ thị 3

d)

Hình 3.2.11 Minh họa quá trình cân bằng lược đồ xám

Trên hình 3.2.11 biểu diễn ba ảnh có độ chói thấp, cao và có độ tương phản thấp. Ba ảnh trên được cân bằng histogram theo (3.2.18), hàm biến đổi của từng ảnh khác nhau và được biểu

 

123 

Chương 3 Kỹ thuật xử lý hình ảnh 
diễn trên hình 3.2.11d. Có thể thấy rằng, các ảnh nhận được sau khi áp dụng phương pháp cân bằng hisrogram có độ tương phản cao hơn. Đặc biệt, kết quả nhận được sau khi cân bằng lược đồ cho cả ba ảnh là tương đối giống nhau. Lí do vì trong ví dụ trên, các ảnh gốc đều có nội dung giống nhau, chỉ khác nhau về độ chói và độ tương phản. Sau khi được cân bằng histogram, độ tương phản được tăng lên làm cân bằng cả mức chói giữa các ảnh, do đó các ảnh kết quả, dưới mắt người quan sát, trở nên gần giống nhau. Kỹ thuật xấp xỉ histogram (Histogram matching) Kỹ thuật cân bằng mức xám là quá trình biến đổi tự thích nghi với ảnh gốc để tạo ra ảnh mới có histogram đồng đều. Trong một số trường hợp, chúng ta cần biến đổi ảnh gốc sao cho ảnh biến đổi có dạng histogram mong muốn, kỹ thuật này gọi là xấp xỉ histogram. Nhắc lại công thức mô tả kỹ thuật cân bằng mức xám (3.2.18):

sk = T ( rk ) = ∑ pr ( rj ) = ∑
j =0 j =0

k

k

nj n

k = 0,1,2,......, L − 1
(3.2.19)

Mức xám rk trong ảnh gốc được ánh xạ thành mức sk trong ảnh mới. Histogram ảnh mới sẽ có dạng đồng đều. Hàm pr rj là histogram của ảnh gốc. Bài toán đặt ra là cần biến đổi ảnh gốc thành ảnh mới sao cho histogram của nó có dạng mong muốn: pz ( zi ) . Thực hiện biến đổi (3.2.19) với pz ( zi ) ta có:

( )

vk = G ( zk ) = ∑ pz ( zi )
i =0

k

k = 0,1,2,......, L − 1

(3.2.20)

Biến đổi theo (3.2.20) có ý nghĩa là ảnh với histogram pz ( zi ) , sau khi biến đổi sẽ có histogram đồng đều. Biến đổi nghịch của (3.2.20):

zk = G −1 ( vk )

k = 0,1,2,......, L − 1

(3.2.21)

Biến đổi theo (3.2.21) thực hiện quá trình ánh xạ các mức chói vk của ảnh có histogram đồng đều thành ảnh có histogram pz ( zi ) . Nếu sk = vk , ta có:

zk = G −1 ( vk ) = G −1 ( sk ) = G −1 ⎡T ( rk ) ⎤ ⎣ ⎦
⎡ k ⎤ z k = G − 1 ⎢ ∑ p r ( rj ) ⎥ ⎣ j =0 ⎦

k = 0,1,2,......, L − 1

(3.2.22) (3.2.23)

Có thể thấy rằng quá trình biến đổi theo (3.2.23) sẽ ánh xạ mức xám rk của ảnh gốc (có histogram pr rj ) thành mức xám zk của ảnh mới, histogram của ảnh mới sẽ có dạng là pz ( zi ) . Như vậy phép biến đổi mức xám theo (3.2.23) đã cho phép chúng ta tạo xấp xỉ histogram theo dạng cho trước. Các bước thực hiện xấp xỉ histogram: Trên thực tế, quá trình thực hiện biến đổi mức xám thuận và nghịch theo (3.2.20) và (3.2.21) được thực hiện cho hình ảnh số bằng cách tra bảng. Ví dụ, bảng tra cứu sẽ chứa tập giá trị các mức chói rk với k = 0,1,2,......, L − 1 của ảnh gốc và các mức xám sk của ảnh kết quả. sk là

( )

 

124 

Chương 3 Kỹ thuật xử lý hình ảnh 
mức xám trung gian được sử dụng để tìm ra zk trong biến đổi (3.2.23). Dải biến thiên của sk tính theo (3.2.14) sẽ là [0,1]. Quá trình xấp xỉ theo (3.2.23) được minh họa trên hình 3.2.12.

Hình 3.2.12 a) Minh họa quá trình ánh xạ
T rk ⎯⎯ sk →

G b) Biến đổi thuận zq ⎯⎯ vq và →

G biến đổi nghịch sk ⎯⎯→ zk

−1

Trên hình 3.2.12a biểu diễn hàm biến đổi s = T ( r ) . Đặc tuyến T(r) có thể tìm ra dựa trên histogram của ảnh gốc thông qua (3.2.19). Dựa trên đặc tuyến T(r), điểm ảnh gốc có mức xám rk của sẽ được thay bằng mức xám sk . Biến đổi này chính là quá trình cân bằng mức xám. Biến đổi thuận G ( z ) là quá trình cân bằng xám cho ảnh gốc có histogam dạng pz ( zi ) ,
G biến đổi thuận có thể mô tả bằng công thức: zq ⎯⎯ vq . Khi thực hiện biến đổi nghịch →

G sk ⎯⎯→ zk , mỗi giá trị sk được ánh xạ ngược thành giá trị zk (hình 3.2.12b). Đặc tuyến G(z)

−1

được tìm ra dựa trên histogram cho trước và (3.2.20). Hàm (3.2.23) mô tả quá trình biến đổi kết hợp T ( r ) và G −1 ( sk ) , với giá trị trung gian sk . Biến đổi nghịch G −1 ( sk ) có thể được thực hiện bằng phương pháp dò tìm z sao cho:
*

⎡G s* − sk ⎤ ≥ 0 ⎣ ⎦

( )

k = 0,1,2,......, L − 1

(3.2.24)

khi đó, z k = z * . Quá trình dò tìm với giá trị sk (hình 3.2.12b) được bắt đầu thực hiện khi

z* = 0 , ta tăng dần z* đến khi bất đẳng thức (3.2.24) được thực hiện.
Tóm lại, quá trình xấp xỉ histogram thực hiện theo các bước sau: 1. Tính histogram của ảnh gốc 2. Sử dụng (3.2.19) để tìm các giá trị sk 3. Sử dụng (3.2.20) và hàm rời rạc pz ( z ) để tính hàm biến đổi G. 4. Dựa trên bất đẳng thức (3.2.24) dò tìm zk theo các giá trị sk . 5. Tạo ra bảng tra (Look Up Table - LUT) để thực hiện quá trình ánh xạ rk ⎯⎯ zk → theo (3.2.23).

 

125 

Chương 3 Kỹ thuật xử lý hình ảnh 
Dưới dây là một ví dụ minh họa quá trình xấp xỉ histogram theo dạng cho trước. Ảnh gốc (hình 3.2.13a) [15] chụp từ vệ tinh. Do điều kiện ánh sáng, trên ảnh gốc tồn tại chủ yếu hai vùng tối và sáng. Điều này cũng thể hiện trên lược đồ xám của ảnh. Các mức xám tập trung tại vùng có độ chói cao hoặc rất thấp.

Hình 3.2.13 So sánh hai phương pháp nâng cao chất lượng ảnh bằng kỹ thuật cân bằng mức xám và xấp xỉ histogram Quá trình cân bằng xám được thực hiện bởi hàm biến đổi có đồ thị như trên hình 3.2.14a. Hàm này được tìm ra dựa trên công thức (3.2.19) và histogram của ảnh gốc. Có thể thấy rằng, để cân bằng histogram, các điểm ảnh có mức xám nằm gần mức đen sẽ được biến đổi thành mức gần trắng. Trong ảnh gốc, các điểm ảnh có mức xám thấp chiếm đa số, do đó, ảnh nhận được sau khi cân bằng sẽ có mức chói trung bình rất cao (hình 3.2.13b), độ tương phản của ảnh sẽ bị giảm.

Hình 3.2.14

a) Đồ thị hàm biến đổi T ( r ) dùng để cân bằng mức xám cho ảnh trên hình 3.2.13. b) Histogram mong muốn của ảnh kết quả (được cho trước). c) Hàm biến đổi thuận G ( z k ) và nghịch G −1 ( vk ) .

Để ảnh có chất lượng tốt hơn, cần biến đổi làm sao cho histogram của ảnh kết quả không khác nhiều so với histogram của ảnh gốc, nhưng không có sự biến đổi quá nhanh trong khu vực mức xám thấp. Với ảnh cụ thể, ta lựa chọn histogram mong muốn có dạng:

 

126 

Chương 3 Kỹ thuật xử lý hình ảnh 
− ⎜ 1 p ( z ) = A1 e⎝ σ 1 2π ⎛ ( z − m1 )2 ⎞ ⎜ ⎟ 2 2σ 1 ⎟ ⎠

+ A2

1

σ 2 2π

e

⎛ ( z − m2 )2 ⎞ ⎟ −⎜ 2 ⎜ 2σ 2 ⎟ ⎝ ⎠

(3.2.25)

Thay đổi các thông số σ 1 , m1 ,σ 2 , m2 , A1 , A2 có thể nhận được histogram mong muốn theo những tiêu chí nói trên (hình 3.2.14b). Trong ví dụ trên sử dụng các giá trị sau:

m1 =0.02; σ 1 =0.025; m 2 =0.75; σ 2 =0.05; A1=3; A2=0.08
Đồ thị hàm biến đổi G ( z k ) tính theo (3.2.20) là đường cong 1 trên hình 3.2.14c. Đường cong 2 (hình 3.2.14c) là đồ thị hàm biến đổi nghịch G −1 ( vk ) nhận được theo phương pháp dò tìm đã trình bày ở trên. Ảnh kết quả nhận được khi thực hiện biến đổi nghịch G −1 ( sk ) với các giá trị sk và histogram của nó được hiển thị trên hình 3.2.13c. So sánh ảnh 3.2.13b và 3.2.13c, dễ dàng nhận thấy chất lượng 3.2.13c tốt hơn. Để đạt được kết quả tối ưu nhất, chúng ta phải thực hiện biến đổi ảnh với các dạng histogram khác nhau, ví dụ, bằng cách thay đổi các thông số trong (3.2.25).

3.2.2.1.7 Kỹ thuật triệt nhiễu dựa trên cơ sở trung bình hóa ảnh
Khi ảnh f ( x, y ) bị tác động bởi nhiễu cộng η ( x, y ) , ảnh kết quả sẽ là:

g ( x, y ) = f ( x, y ) + η ( x, y )

(3.2.26)

Nhiễu η ( x, y ) tại từng điểm (x,y) là các quá trình ngẫu nhiên độc lập tương hỗ và có giá trị trung bình thống kê bằng 0 (moment gốc cấp 1: mx , y = 0 ). Nếu chúng ta có tập M ảnh f ( x, y ) bị tác động bởi nguồn nhiễu ngẫu nhiên nói trên, thì ảnh trung bình cộng sẽ là:

g ( x, y ) =

1 M ∑ gi ( x, y ) M i −1

(3.2.27)

Giá trị trung bình thống kê của g tại mỗi điểm (x,y) bằng:

E {g ( x, y )} = f ( x, y )
1 2 σ M η( x, y)

(3.2.28)

2 Phương sai σ g ( x , y ) (chính là công suất nhiễu trong từng điểm của ảnh trung bình cộng)

bằng:

2 σ g ( x, y ) =

(3.2.29)

công thức (3.2.28) cũng cho thấy trong trường hợp này g ( x , y ) sẽ tiến dần tới f ( x, y ) . Như vậy, có thể kết luận rằng, khi số lượng ảnh tham gia vào quá trình trung bình cộng càng nhiều, ảnh kết quả g ( x, y ) sẽ càng giống với ảnh gốc f ( x, y ) . Trên hình 3.2.15 và 3.2.16 minh họa kỹ thuật triệt nhiễu phân tích ở trên.

Theo (3.2.29), khi M tăng lên, công suất trung bình của nhiễu tại mỗi điểm ảnh giảm đi;

Ảnh gốc 3.2.15a được tổng hợp với nhiễu cộng (nhiễu Gaussian với m=0, độ lệch chuẩn bằng 0.01) để tạo tập ảnh có nhiễu dùng để thực hiện trung bình cộng. Hai ảnh chịu tác động của nhiễu được hiển thị trên hình 3.2.15b và 3.2.15c. Ảnh trung bình cộng với M= 4, 8 và 16 biểu diễn trên hình 3.2.15d,e,f. Có thể thấy rõ ràng ảnh 3.2.15f có chất lượng gần với ảnh gốc nhất. Để thấy rõ hơn tác dụng của quá trình trung bình ảnh, trên hình 3.2.16 biểu diễn các ảnh sai số (tuyệt đối) giữa ảnh 3.2.15d,e,f và ảnh gốc cùng histogram của chúng. Dễ dàng nhận thấy độ lệch chuẩn của

 

127 

Chương 3 Kỹ thuật xử lý hình ảnh 
ảnh sai số giảm khi M tăng.

Hình 3.2.15 a- Ảnh gốc. b,c) ảnh bị tác động bởi nguồn nhiễu η ( x, y ) (tại các thời điểm khác nhau). d,e,f ) kết quả trung bình của 4, 8 và 16 ảnh có nhiễu.

Hình 3.2.16 Từ trái sang phải: ảnh sai số giữa ảnh gốc (3.2.15a) và ảnh 3.2.15d,e,f và histogram của chúng.

3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian Một cách tổng quát, toán tử không gian trong xử lý ảnh được thực hiện tại vùng xung quanh điểm ảnh theo các bước sau:
1- Xác định điểm ảnh trung tâm. 2- Thực hiện tính toán với các điểm ảnh nằm trong vùng lân cận điểm ảnh trung tâm (kích thước và hình dạng vùng ảnh này được xác định trước). 3- Kết quả tính toán ở bước 2 (còn gọi là đáp ứng của quá trình xử lý) sẽ được gán cho điểm ảnh trung tâm. 4- Thực hiện các bước trên cho toàn bộ các pixels của ảnh. Nếu toán tử biến đổi là tuyến tính, thì quá trình trên được gọi là quá trình lọc tuyến tính.

 

128 

Chương 3 Kỹ thuật xử lý hình ảnh 
Nếu ngược lại, ta có quá trình lọc phi tuyến. Toán tử không gian trong xử lý ảnh được sử dụng để lọc nhiễu và làm nổi các chi tiết nhỏ hay đường biên.

3.2.2.2.1 Các bộ lọc tuyến tính (trong không gian )
Khi thực hiện lọc tuyến tính, các điểm ảnh sẽ được nhân với hệ số sau đó được tổng hợp (cộng) lại với nhau để tạo ra đáp ứng của bộ lọc tại mỗi điểm (x,y). Vùng ảnh kích thước mxn được xử lý với ma trận mxn hệ số. Ma trận này thường được gọi là bộ lọc, ma trận lọc, cửa sổ lọc hay mặt nạ. Thường người ta lấy giá trị m và n là số lẻ để dễ xác định tâm điểm của mặt nạ. Quá trình dịch chuyển tâm điểm của mặt nạ dọc theo ảnh và thực hiện toán tử tuyến tính nói trên cho từng điểm ảnh là quá trình nhân chập ảnh và mặt nạ các hệ số. Cơ chế lọc tuyến tính được mô tả trên hình 3.2.17.

Hình 3.2.17 Quá trình lọc trong không gian 2-D

Có hai cách thực hiện quá trình lọc tuyến tính, đó là thực hiện phép nhân chập như đã nói ở trên hoặc thực hiện phép tính tương quan. Khi tính tương quan chúng ta di chuyển mặt nạ lọc qua các điểm ảnh; khi tính tích chập, mặt nạ phải được xoay 1800 trước khi thực hiện nhân với ma trận điểm ảnh. Ảnh f có kích thước MxN được lọc bởi mặt nạ w ( x , y ) kích thước (mxn) theo biểu thức tổng quát sau:

g ( x, y ) =

s =− a t =− b

∑ ∑ w ( s, t ) f ( x + s , y + t )

a

b

(3.2.30)

a = ( m − 1) / 2, b = ( n − 1) / 2 , x = 0,1, 2..., M − 1 , y = 0,1, 2..., N − 1 .
Đáp ứng của mặt nạ lọc mxn tại điểm (x,y) là:
mn

R = w1 z1 + w 2 z2 + ... + w mn zmn = ∑ wi zi
i =1

(3.2.30a)

Phép lọc tuyến tính trong Matlab được thực hiện bằng hàm: B = imfilter(A, H, option1, option2,...); H- ma trận lọc với các thông số tùy chọn option1, option2. Bộ lọc trung bình không gian thực hiện theo (3.2.30) thường được sử dụng để lọc nhiễu hoặc làm mờ (blurring) ảnh. Ví dụ: quá trình làm mờ ảnh có thể được sử dụng để lược bỏ các chi tiết nhỏ trước khi đưa vào nhận dạng những chi tiết có kích thước lớn trong ảnh. Trên hình 3.2.18 là hai mặt nạ dùng để thực hiện quá trình trung bình trong không gian, về bản chất, đó là mặt nạ lọc thông thấp. Đáp ứng mặt nạ hình 3.2.18a là giá trị trung bình của 9 điểm ảnh. Dễ dàng nhận

 

129 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
thấy, t thành phần nhiễu, là nhữn điểm ảnh có độ chói biến đổi bất t ng b thường so vớ mức chói t ới trung bình tr rong vùng ản rộng, sẽ bị làm "trơn" sau khi bị tác động bởi m nạ nói trê Tuy nhiên tác nh ị mặt ên. n, động c mặt nạ sẽ làm cho các đường biên hoặc các chi tiết nhỏ tron ảnh bị "là mờ". của ẽ c n i ng àm

ình Các dùng để thực hiện trung b bình không gi ian Hì 3.2.18 C mặt nạ d

a)

b)

Hì 3.2.19 Ảnh kết quả k lọc thông thấp bằng m trận 3x3 (a và 5x5 (b) ình Ả khi ma a) Với V mặt nạ hình 3.2.18b, các pixel kh nhau đượ nhân với h số khác nhau, làm như vậy h , hác ợc hệ n ư ta có th xác định " hể "trọng lượng riêng (mức độ quan trọ g" c ọng) cho từng pixel. Tron mặt nạ 3.2 g ng 2.18b, điểm t trung tâm có "trọng lượn lớn nhất, các điểm ả nằm càng xa tâm, "tr ó ng" , ảnh g rọng lượng" càng nhỏ. C Cách phân bố "trọng lượn này làm giảm hiệu ứ nhòe đư ố ng" m ứng ường biên kh thực hiện t hi trung bình hóa ảnh. Khi K kích thư cửa sổ tăn lên, băng thông của bộ lọc thông t ước ng thấp sẽ giảm, nên mức độ làm ộ "trơn" ảnh sẽ tăng lên, điều này thấy rõ trên hình minh h kết quả l thông thấ với hai ma trận y n họa lọc ấp a 3x3 và 5x5 (hình 3.2.19a và 3.2 à 2.19b). Tác T dụng lọc nhiễu của b lọc thông thấp với m trận 3x3 th hiện trên hình 3.2.20. Ảnh c bộ g ma hể gốc bị tác động củ nhiễu Gaussian được lọ tuyến tính bằng ma trận 3x3, đúng như phân t ủa ọc h g tích ở nh ó ưng uy trên, ản kết quả có mức nhiễu thấp hơn như độ nét su giảm so với ảnh gốc. Nhiễu Gausian được tổng hợp với ảnh I bởi hàm Matlab: N g h M J = imnoi ise(I,'ga aussian',m,v); m - trung bình t thống kê, v- đ lệch chuẩn của độ n hàm G Gausian.

b) ình u. hấp u Hì 3.2.20 a) Ảnh gốc. b Ảnh nhiễu c) Kết quả lọc thông th ảnh nhiễu Lọc L tuyến tín bằng phư nh ương pháp nh chập tron không gia còn sử dụn để làm nổ các hân ng an ng ổi chi tiết nhỏ, hay nổ biên ảnh (l thông cao Đặc điểm của các ma trận lọc thôn cao được phân t ổi lọc o). m ng

Chương 3 Kỹ thuật xử lý hình ảnh 
tích ở phần sau.

3.2.2.2.2 Làm trơn nhiễu bằng lọc phi tuyến (trong không gian )
Kỹ thuật lọc phi tuyến dựa trên cơ sở thống kê bằng cách sắp xếp giá trị các điểm ảnh trong mặt nạ lọc thành dãy theo quy luật tăng dần hay giảm dần, qua đó chọn ra giá trị nằm tại vị trí nhất định nào đó trong dãy - giá trị này chính là đáp ứng của bộ lọc. Giá trị điểm ảnh là trung tâm của ma trận lọc sẽ được thay thế bằng đáp ứng tìm được. Bộ lọc trung vị làm việc theo nguyên lý trên thường được sử dụng để lọc nhiễu xung. Đáp ứng của bộ lọc này chính là giá trị trung vị của các điểm ảnh nằm trong ma trận lọc. Trung vị của dãy số là giá trị x sao cho một nửa dãy số có giá trị nhỏ hơn hoặc bằng x, nửa còn lại lớn hơn hoặc bằng x. Với mặt nạ 3x3, trung vị sẽ bằng giá trị thứ 5 từ trên xuống. Ví dụ: trong mặt nạ 3x3 điểm ảnh có giá trị {25,20,20,15,30,60,40,35,15} , sau khi sắp xếp lại theo thứ tự tăng dần sẽ có dạng: {15,15,20,20,25,30,35,40,60} . Như vậy, trung vị sẽ là giá trị 25. Ưu điểm của bộ lọc phi tuyến so với các bộ lọc thông thấp ta đã xét ở trên là khả năng lọc nhiễu xung (nhiễu có dạng điểm đen trắng trên ảnh) tốt, đồng thời ít ảnh hưởng tới độ nét của ảnh. Ưu điểm nêu trên được minh họa trên hình 3.2.21. Ảnh gốc 3.2.21a bị ảnh hưởng của nhiễu xung. Ảnh có nhiễu (hình 3.2.21b) được đưa qua mạch lọc thông thấp (lấy trung bình không gian với ma trận (3x3) và mạch lọc trung vị với ma trận có cùng kích thước. Nhiễu xung được tạo ra trong ảnh bởi hàm Matlab: J = imnoise(I,'salt & pepper',d); d - mật độ nhiễu trong ảnh. Hàm lọc trung vị: J = medfilt2(I,[m n]);[m n]- kích thước ma trận lọc. Kết quả lọc trung vị (hình 3.2.21c) cho thấy nhiễu xung bị triệt gần như hoàn toàn, các đường biên hầu như không bị biến dạng. Bộ lọc thông thấp trong trường hợp này cho kết quả kém hơn rất nhiều (hình 3.2.21d): biên độ nhiễu giảm đi, nhưng kích thước của các điểm nhiễu lớn lên, các đường biên nhòe đi rõ rệt.

Hình 3.2.21

a) Ảnh gốc; c) Ảnh lọc median;

b) Ảnh nhiễu d) Ảnh lọc trung bình không gian

 

131 

Chương 3 Kỹ thuật xử lý hình ảnh 

3.2.2.2.3 Làm tăng độ nét của ảnh
Toán tử Laplace hay Laplacian của hàm hai biến f ( x, y ) được xác định bởi biểu thức:

∇2 f =

∂2 f ∂2 f + dx 2 dy 2

(3.2.31)

∂2 f = f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y ) ∂x 2 ∂2 f = f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y ) ∂y 2
Như vậy Laplacian tại điểm (x,y) tìm được theo biểu thức:

(3.2.32)

∇2 f = ⎡ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤ − 4 f ( x, y ) (3.2.33) ⎣ ⎦
Toán tử Laplace được sử dụng rộng rãi trong kỹ thuật xác định đường biên và sẽ được phân tích trong phần 3.2.4. Tại đây, chúng ta sẽ chỉ xét kỹ thuật làm rõ ảnh sử dụng toán tử Laplace. Về mặt bản chất, đây là phương pháp ứng dụng đạo hàm bậc hai để làm tăng độ nét của ảnh. Toán tử Laplace hai chiều cho tín hiệu rời rạc thường được thực hiện với mặt nạ kích thước 3x3. Hai mặt nạ lọc trên hình 3.2.22a và b thực hiện toán tử Laplacian rời rạc theo công thức (3.2.33) đều cho các ảnh kết quả giống nhau.

a)

b)

Hình 3.2.22 Mặt nạ Laplacian Ảnh gốc (hình 3.2.23a) được xử lý bằng mặt nạ Laplacian. Vì toán tử Laplace là đạo hàm bậc hai nên ảnh kết quả sẽ là tập hợp các đường biên nằm tại vùng biến đổi nhanh của mức chói trong ảnh (hình 3.2.23b). Thành phần nền của ảnh gốc (những vùng ảnh có độ chói gần như không đổi) sẽ cho giá trị gần bằng 0. Như vậy, nếu tổng hợp ảnh gốc 3.2.23a và ảnh các đương biên 3.2.23b, ta sẽ được ảnh mới, với các đường biên được tăng cường (hình 3.2.23c). Nói cách khác, ảnh kết quả sẽ có độ nét cao hơn.

a) a-

b) Hình 3.2.23 Làm nét ảnh bằng toán tử Laplace

c)

ảnh gốc; b- ảnh các đường biên được làm nổi c- ảnh tổng hợp

 

132 

Chương 3 Kỹ thuật xử lý hình ảnh 
Tóm lại, công thức tổng quát để làm nét ảnh với toán tử Laplace là:

⎧ f ( x , y ) − ∇ 2 f ( x, y ) ⎪ g ( x, y ) = ⎨ 2 ⎪ f ( x, y ) + ∇ f ( x, y ) ⎩

(3.2.34)

Khi thực hiện Laplacian với mặt nạ trên hình 3.2.22a (mặt nạ với hệ số trung tâm nhỏ hơn 0), ảnh kết quả sẽ là hiệu giữa ảnh gốc và ảnh Laplacian và ngược lại, với mặt nạ 3.2.22b ảnh kết quả sẽ là tổng hai ảnh. Quá trình làm nét theo (3.2.34) được thực hiện theo hai bước: tìm Laplacian của ảnh gốc và tổng hợp ảnh gốc và ảnh kết quả với nhau. Tuy nhiên, chúng ta có thể thực hiện quá trình biến đổi này nhanh hơn. Dựa vào (3.2.33) và (3.2.34) ta có đáp ứng của bộ lọc làm tăng độ nét là:

g ( x, y ) = f ( x, y ) − ∇ 2 f ( x, y ) = = 5 f ( x, y ) − ⎡ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤ ⎣ ⎦
Mạt nạ lọc thực hiện biểu thức (3.2.35) có dạng:

(3.2.35)

Hình 3.2.24 Mặt nạ làm nét ảnh bằng toán tử Laplace

3.2.3 Khôi phục ảnh
Khôi phục ảnh là quá trình loại bỏ hay tối thiểu hóa các ảnh hưởng của môi trường bên ngoài đến ảnh thu nhận được. Các nguyên nhân dẫn tới sự biến dạng (méo) ảnh có thể là: nhiễu tại bộ biến đổi quang-điện, méo do hệ thống ống kính quang học gây ra, nhiễu không gian ảnh hưởng tới tín hiệu trong quá trình truyền qua đường truyền, nhiễu công nghiệp tác động trực tiếp tới tín hiệu hình ảnh v.v. Trong phần này chúng ta sẽ đề cập tới một số phương pháp khôi phục ảnh như: lọc ảnh bằng bộ lọc không gian, khử nhiễu bằng các bộ lọc tần số thích nghi với nguồn nhiễu v.v.

3.2.3.1 Mô hình hóa quá trình gây méo và khôi phục ảnh
f ( x, y)
f ( x, y)

Hình 3.2.25 Mô hình gây méo/khôi phục ảnh Trong phần này, chúng ta sử dụng mô hình trên hình 3.2.25 để mô tả quá trình làm méo và khôi phục ảnh. Trong mô hình này, ảnh gốc f ( x, y ) chịu tác động của toán tử làm méo H, được đặc trưng bởi hàm đáp ứng xung h ( x, y ) và nhiễu cộng η ( x, y ) . Dựa trên h ( x , y ) và η ( x, y ) , chúng ta phải tìm ra phương pháp khôi phục ảnh, sao cho ảnh ra f ( x, y ) giống với ảnh vào nhất. Nếu H là toán tử tuyến tính và bất biến, thì ảnh bị nhiễu g ( x, y ) có dạng như sau:

g ( x, y ) = H ⎡ f ( x, y ) ⎤ + η ( x, y ) = h ( x, y ) ∗ f ( x , y ) + η ( x, y ) ⎣ ⎦
h ( x, y ) - hàm đáp ứng đặc trưng cho toán tử H trong không gian.

(3.2.36)

 

133 

Chương 3 Kỹ thuật xử lý hình ảnh 
Trong miền tần số, dựa trên tính chất của biến đổi Fourier ta có:

G ( u, v ) = H ( u, v ) ⋅ F ( u, v ) + N ( u, v )

(3.2.37)

với G ( u , v ) , H ( u, v ) , F ( u, v ) , N ( u, v ) là kết quả biến đổi Fourie của các hàm tương ứng.

3.2.3.2 Mô hình nhiễu Cường độ nhiễu tác động lên hình ảnh là một đại lượng ngẫu nhiên, vì vậy khi phân tích các kỹ thuật khôi phục ảnh, vấn đề quan trọng là cần xác định được mật độ phân bố xác suất của nguồn nhiễu. Dưới đây là một số loại nhiễu thường gặp trong lĩnh vực xử lý ảnh và hàm mật độ phân bố xác suất của chúng.

3.2.3.2.1 Nhiễu Gaussian
Mô hình Gaussian tiện lợi cho việc phân tích trong miền thời gian cũng như trong miền tần số, do đó mô hình này được sử dụng rất rộng rãi. Hàm mật độ phân bố xác suất của biến ngẫu nhiên z trong quá trình ngẫu nhiên Gaussian (quá trình ngẫu nhiên chuẩn) có dạng:

p( z) =

2 1 − z − m /2σ 2 e( ) 2πσ

(3.2.38)

m - giá trị trung bình thống kê của z; σ - độ lệch chuẩn.

σ 2 là phương sai của quá trình ngẫu nhiên.
Đồ thị hàm mật độ phân bố xác suất chuẩn được biểu diễn trên hình 3.2.26.

3.2.3.2.2 Nhiễu Rayleigh
Hàm mật độ phân bố xác suất của nhiễu Rayleigh:
2 ⎧2 −( z − a ) / b khi z ≥ a ⎪ (z − a)e p(z) = ⎨b ⎪ khi z < a ⎩0

(3.2.39)

2 Giá trị trung bình và phương sai có dạng m = a + π b / 4 và σ =

b(4 −π ) . 4

Đồ thị hàm phân bố xác suất Rayleigh có dạng không đối xứng (hình 3.2.26), do đó phân bố này thường được dùng để xấp xỉ histogram có dạng tương đương.

3.2.3.2.3 Nhiễu Erlang (Gamma)
Hàm mật độ phân bố xác suất của nhiễu Erlang có dạng:

⎧ a b z b −1 − az e ⎪ p ( z ) = ⎨ ( b − 1) ! ⎪0 ⎩
với a>0, b- số nguyên dương.

khi z ≥ 0 khi z < 0

(3.2.40)

Giá trị trung bình và phương sai bằng m =

b b và σ 2 = 2 . a a

3.2.3.2.4 Nhiễu có phân bố là hàm mũ
Hàm mật độ phân bố xác suất của nhiễu này là trường hợp đặc biệt của phân bố Erlang khi b=1:

 

134 

Chương 3 Kỹ thuật xử lý hình ảnh 
⎧ ae − az p(z) = ⎨ ⎩0
với a>0 Giá trị trung bình và phương sai bằng m =

khi z ≥ 0 khi z < 0

(3.2.41)

1 1 và σ 2 = 2 a a

3.2.3.2.5 Nhiễu có phân bố đều
Hàm mật độ phân bố xác suất của nhiễu có dạng:

⎧ 1 ⎪ p (z) = ⎨b − a ⎪0 ⎩

khi

a≤ z≤b

(3.2.42)
2

với các z khác

( a − b) . a+b Giá trị trung bình của biến ngẫu nhiên z là m = , phương sai σ 2 = 2 12
3.2.3.2.6 Nhiễu dạng xung
Hàm mật độ phân bố xác suất của nhiễu xung có thể mô tả như sau:

⎧ Pa ⎪ p ( z ) = ⎨ Pb ⎪0 ⎩

khi khi

z=a z=b
(3.2.43)

với các z khác

Pa và Pb là xác suất xuất hiện z = a hoặc z = b . Hàm mật độ phân bố có dạng
p ( z ) = Paδ ( z − a ) + Pbδ ( z − b ) .

Hình 3.2.26 Một số hàm mật độ phân bố xác suất quan trọng.

 

135 

Chương 3 Kỹ thuật xử lý hình ảnh 

3.2.3.3 Triệt nhiễu bằng phương pháp lọc không gian Trường hợp khi ảnh chỉ chịu tác động của nhiễu cộng, các phương pháp lọc nhiễu trong không gian thường cho kết quả khôi phục ảnh tốt nhất. Một số phương pháp lọc trong không gian được đề cập đến trong phần 3.2.2.2 như các biện pháp nâng cao chất lượng ảnh. Dưới đây sẽ giới thiệu một số bộ lọc không gian khác có thể dùng để khôi phục ảnh. Các thao tác thực hiện những bộ lọc này cũng dựa trên quá trình nhân chập mặt nạ lọc với ảnh như đã trình bày ở phần 3.2.2.2.

3.2.3.3.1 Các bộ lọc sử dụng kỹ thuật lấy trung bình trong không gian
Theo (3.2.36) và (3.2.37), ta có thể mô tả ảnh g ( x, y ) chỉ bị ảnh hưởng bởi nhiễu cộng

η ( x, y ) trong miền không gian như sau:
g ( x, y ) = f ( x, y ) + η ( x, y )
trong miền tần số ta có quan hệ: (3.2.44)

G ( u, v ) = F ( u, v ) + N ( u, v )

(3.2.45)

Trong các bộ lọc dưới đây, ta sử dụng ma trận lọc S xy có tâm nằm tại điểm (x,y) có kích

ˆ thước mxn. Ảnh khôi phục được ký hiệu là f ( x, y ) .
Bộ lọc sử dụng trung bình cộng (Arithmetic mean filter) Như đã đề cập trong phần 3.2.2.2.1, bộ lọc này thực hiện quá trình nhân chập ảnh vào với mặt nạ S xy có các hệ số bằng 1 / mn :

1 ˆ f ( x, y ) = ∑ g ( s, t ) mn ( s ,t )∈S xy
Bộ lọc trung bình nhân (Geometric mean filter)

(3.2.46)

Quan hệ giữa ảnh khôi phục và ảnh nhiễu được mô tả bằng công thức tính trung bình nhân như sau:

⎡ ⎤ mn ˆ f ( x , y ) = ⎢ ∏ g ( s, t ) ⎥ ⎢ ( s ,t )∈S xy ⎥ ⎣ ⎦

1

(3.2.47)

Bộ lọc trung bình nhân cũng có tác dụng làm trơn nhiễu, ưu điểm của nó so với bộ lọc trung bình cộng là mức độ làm mờ các chi tiết nhỏ tương đối thấp. Bộ lọc trung bình điều hòa (Harmonic mean filter) Kết quả nhận được khi lọc bằng bộ lọc trung bình harmonic sẽ là:

ˆ f ( x, y ) =

mn
( s ,t )∈S xy

1 g ( s, t )

(3.2.48)

Bộ lọc này có khả năng triệt nhiễu xung dạng "đốm trắng" và nhiễu Gaussian khá tốt. Nhưng bộ lọc này không có khả năng lọc các thành phần nhiễu xung dạng "đốm đen". Bộ lọc contraharmonic (Contraharmonic mean filter) Biến đổi trong bộ lọc contraharmonic được mô tả bằng biểu thức:

 

136 

Chương 3 Kỹ thuật xử lý hình ảnh 

ˆ f ( x, y ) =

( s ,t )∈S xy

∑ g ( s, t )

Q +1

( s ,t )∈S xy

∑ g ( s, t )

Q

(3.2.49)

Q - gọi là bậc của bộ lọc. Bộ lọc này thích ứng tốt với ảnh có nhiễu xung. Với Q là số dương, nhiễu xung "đốm đen" sẽ bị triệt, ngược lại, thành phần nhiễu xung "đốm trắng" được lọc bớt khi Q là số âm. Có thể thấy rằng khi Q=0, ta có bộ lọc trung bình cộng; với Q= -1 ta có bộ lọc trung bình hài. Nhìn chung, các bộ lọc trung bình cộng và nhân thích ứng tốt với các loại loại nhiễu có phân bố Gaussian, Rayleigh hay nhiễu có phân bố đều. Bộ lọc contraharmonic cho phép triệt nhiễu xung khá tốt, tuy nhiên, như đã phân tích ở trên, chúng ta phải xác định được dạng nhiễu xung là "đốm đen" hay "đốm trắng".

3.2.3.3.2 Các bộ lọc dựa trên thống kê thứ tự
Bộ lọc trung vị Trong phần 3.2.2.2.2 đã đề cập tới kỹ thuật lọc trung vị, cho phép loại nhiễu xung trong ảnh. Đây là bộ lọc phi tuyến có đáp ứng là giá trị bằng giá trị điểm trung vị trong ma trận lọc:

ˆ f ( x, y ) = med {g ( s, t )}
( s ,t )∈S xy

(3.2.50)

Bộ lọc trung vị được sử dụng rất rộng rãi vì nó một mặt cho phép loại bỏ hiệu quả các loại nhiễu xung lưỡng cực cũng như đơn cực, mặt khác bộ lọc này ít làm trơn ảnh so với các bộ lọc sử dụng toán tử lấy trung bình như đã xét ở phần trên. Bộ lọc dựa trên phép lựa trọn giá trị cực đại và cực tiểu Quá trình biến đổi dựa trên thống kê thứ tự và chọn giá trị cực đại được gọi là bộ lọc cực đại:

ˆ f ( x, y ) = max {g ( s, t )}
( s ,t )∈S xy

(3.2.51)

Bộ lọc cực đại cho phép phát hiện những điểm sáng nhất trong ảnh, đồng thời có tác dụng triệt nhiễu xung dạng "đốm đen". Bộ lọc cực tiểu được mô tả bằng biểu thức:

ˆ f ( x, y ) = min {g ( s, t )}
( s ,t )∈S xy

(3.2.52)

Bộ lọc này cho phép phát hiện những vùng tối của ảnh và làm giảm nhiễu xung "trắng". Bộ lọc giả trung vị Đáp ứng của bộ lọc này là giá trị trung bình giữa hai điểm cực đại và cực tiểu trong ma trận lọc:

1 ˆ f ( x, y ) = ⎡ max {g ( s, t )} + min {g ( s, t )}⎤ ⎥ ( s ,t )∈S xy 2 ⎢ ( s ,t )∈S xy ⎣ ⎦

(3.2.53)

3.2.3.4 Triệt nhiễu trong miền tần số Các bộ lọc trong miền không gian đề cập tới ở các phần trên là các bộ lọc thông thấp hoặc thông cao. Lọc không gian có thể được sử dụng để khôi phục ảnh có nhiễu hoặc để làm tăng chất lượng ảnh. Trong phần này chúng ta sẽ đề cập tới vấn đề xử lý ảnh trong miền tần số: đó là một số   137 

Chương 3 Kỹ thuật xử lý hình ảnh 
bộ lọc dải, bộ lọc chặn dải và ứng dụng của chúng để khôi phục ảnh có nhiễu tuần hoàn. Lọc chặn dải và lọc thông dải Đặc tuyến tần số của bộ lọc chặn dải lý tưởng được mô tả bằng biểu thức sau:

⎧ ⎪1 ⎪ ⎪ H ( u , v ) = ⎨0 ⎪ ⎪ ⎪1 ⎩

khi D ( u, v ) < D0 − khi D0 −

W 2
(3.2.54)

W W ≤ D ( u, v ) ≤ D0 + 2 2 W khi D ( u, v ) > D0 + 2

D ( u, v ) - Khoảng cách tính từ tâm điểm của không gian tần số (điểm 0) (hình 3.2.27d);
W - bề rộng băng chặn của bộ lọc; D0 - bán kính đường tròn đi qua tâm của băng chặn (hình 3.2.27d) Hàm đáp ứng tần số của bộ lọc chặn dải Butterworth bậc n có dạng:

H ( u, v ) =

1 ⎡ D ( u, v ) W ⎤ 1+ ⎢ 2 2⎥ ⎣ D ( u, v ) − D0 ⎦
2n

(3.2.55)

Hình 3.2.27 Đáp ứng tần số của bộ lọc a - lý tưởng, b - Butterworth, c- Gaussian d- đáp ứng tần số bộ lọc Gaussian
2 2 1 ⎡ D ( u ,v ) − D0 ⎤ − ⎢ ⎥ 2 ⎢ D ( u ,v ) W ⎥ ⎣ ⎦ 2

(hình chiếu từ trên xuống)

Hàm đáp ứng tần số của bộ lọc chặn dải Gaussian được định nghĩa như sau:

H ( u, v ) = 1 − e

(3.2.56)

Trên hình 3.2.27 a,b,c minh họa đáp ứng tần số của ba bộ lọc nêu trên (trong không gian 3 chiều). Bộ lọc thông dải có đáp ứng tần số H td ( u, v ) ngược lại so với bộ lọc chặn dải H cd ( u, v ) :

 

138 

Chương 3 Kỹ thuật xử lý hình ảnh 

H td ( u, v ) = 1 − H cd ( u, v )
Notch filter

(3.2.57)

Các bộ lọc Notch cho phép lọc một số thành phần phổ trong không gian phổ hai chiều của ảnh. Khác với các bộ lọc chặn dải có đặc tuyến tần số đẳng hướng (hình 3.2.27b,c), notch filter cho phép lọc bỏ các thành phần nhiễu theo hướng nhất định trong không gian tần số. Đặc tuyến tần số của notch filter (lọc chặn) lý tưởng có dạng đối xứng qua điểm gốc của không gian tần số, với đỉnh nằm tại các điểm ( u0 , v0 ) và ( −u0 , −v0 ) có thể được mô tả bằng biểu thức sau:

⎧0 H ( u, v ) = ⎨ ⎩1

khi D1 ( u, v ) ≤ D0 hay D2 ( u, v ) ≤ D0
với các trường hợp khác

(3.2.58)

D0- bán kính miền chặn dải của bộ lọc.
2 2 D1 ( u, v ) = ⎡( u − M / 2 − u0 ) + ( v − N / 2 − v0 ) ⎤ ⎣ ⎦ 2 2 D2 ( u, v ) = ⎡( u − M / 2 + u0 ) + ( v − N / 2 + v0 ) ⎤ ⎣ ⎦

(3.2.59) (3.2.60)

Đặc tuyến tần số của Butterworth notch filter bậc n có dạng:

H ( u, v ) =

1
2 ⎡ ⎤ D0 1+ ⎢ ⎥ ⎣ D1 ( u, v ) ⋅ D2 ( u, v ) ⎦
n

(3.2.61)

với D1 ( u, v ) và D2 ( u , v ) tính theo (3.2.59) và (3.2.60) Có thể thấy rằng, khi u0 = v0 = 0 notch filter trở thành bộ lọc thông cao. Notch pass filter (lọc thông dải) có đáp ứng tần số H ntd ( u, v ) ngược lại so với bộ lọc chặn dải H ncd ( u, v ) :

H ntd ( u, v ) = 1 − H ncd ( u, v )
3.2.3.5 Kỹ thuật lọc ngược (inverse filter) Nhắc lại công thức 3.2.36 mô tả quá trình làm méo tín hiệu hình ảnh:

(3.2.62)

g ( x, y ) = H ⎡ f ( x, y ) ⎤ + η ( x, y ) ⎣ ⎦

(3.2.63)

nhiễu cộng η ( x, y ) . Dựa trên hàm đáp ứng xung của hệ thống h ( x , y ) ta có:

Ở đây, chúng ta xét trường hợp tín hiệu bị làm méo bởi toán tử H tuyến tính, bất biến và

g ( x, y ) = h ( x, y ) ∗ f ( x, y ) + η ( x, y ) G ( u , v ) = H ( u, v ) ⋅ F ( u , v ) + N ( u, v )
ứng tần số (tương ứng với toán tử H).

(3.2.64)

Trong miền tần số, ứng dụng các tính chất của biến đổi Fourier ta có quan hệ sau: (3.2.65)

F ( u, v ) , G ( u, v ) , N ( u, v ) là phổ của ảnh gốc, ảnh kết quả và nhiễu. H ( u, v ) - hàm đáp
Trong trường hợp khi hàm H ( u, v ) được cho trước, kỹ thuật khôi phục đơn giản và chính

 

139 

Chương 3 Kỹ thuật xử lý hình ảnh 
xác nhất là lọc ngược. Hàm đáp ứng tần số của bộ lọc ngược là 1 / H ( u, v ) , khi đó phổ của ảnh

ˆ kết quả F ( u, v ) sẽ bằng: ˆ F ( u, v ) = G ( u, v ) / H ( u, v )
Nếu ảnh bị tác động bởi nhiễu cộng, từ (3.2.65) ta có: (3.2.66)

ˆ F ( u, v ) = F ( u, v ) + N ( u, v ) / H ( u, v )

(3.2.67)

Có thể thấy rằng, ngay cả khi biết trước H ( u, v ) , chúng ta vẫn không thể khôi phục chính xác được ảnh gốc, vì nhiễu cộng là tín hiệu ngẫu nhiễn và hàm mật độ phổ N ( u, v ) không xác định chính xác được. Một nhược điểm nữa của lọc ngược là khi hàm H ( u, v ) có giá trị bằng hoặc gần bằng 0, bộ lọc này trở nên không ổn định. Trong trường hợp này, thành phần thứ hai của (3.2.67) sẽ có giá trị lớn hơn nhiều so với tín hiệu ảnh gốc. Để không xảy ra hiện tượng nói trên, giá trị lớn hơn 0.

trên thực tế băng thông của bộ lọc ngược được hạn chế trong dải tần thấp, nơi hàm H ( u, v ) có

nhiễu. Bộ lọc Wiener cho phép khôi phục ảnh dựa trên hàm biến đổi H ( u, v ) và đặc điểm của nguồn nhiễu. Trong kỹ thuật lọc Wiener, ảnh số f ( u, v ) và nhiễu được mô tả như các các tín

3.2.3.6 Lọc Wiener Phương pháp lọc ngược tuy đơn giản, nhưng kết quả không tối ưu khi ảnh chịu tác động của

ˆ hiệu ngẫu nhiên; Tín hiệu ở đầu ra của bộ lọc là f ( u, v ) phải đáp ứng được điều kiện sao cho lỗi
ˆ trung bình bình phương (MSE - mean square error) của f ( u, v ) và f ( u, v ) phải là nhỏ nhất. Giá
trị MSE tính theo công thức sau:

e2 = E

{( f − fˆ ) }
2

(3.2.68)

Xét trường hợp thỏa mãn các điều kiện sau: - Nhiễu và ảnh gốc là hai tín hiệu ngẫu nhiên độc lập tương hỗ (không tương quan); - Hoặc ảnh gốc, hoặc nhiễu có giá trị trung bình bằng 0; - Hàm biến đổi H ( u, v ) là tuyến tính khi đó, có thể chứng minh được MSE sẽ là nhỏ nhất khi đáp ứng của bộ lọc được xác định theo biểu thức sau:

⎛ ⎞ H * ( u, v ) S f ( u, v ) ˆ ( u, v ) = ⎜ ⎟ G ( u, v ) = F 2 ⎜ S f ( u, v ) H ( u, v ) + Sη ( u, v ) ⎟ ⎝ ⎠
2 ⎛ ⎞ H ( u, v ) 1 ⎜ ⎟ G ( u, v ) = ⋅ ⎜ H ( u, v ) H ( u, v ) 2 + Sη ( u, v ) / S f ( u, v ) ⎟ ⎝ ⎠

(3.2.69)

Sη ( u, v ) = N ( u, v ) - Hàm mật độ phổ công suất của nhiễu;
2

S f ( u, v ) = F ( u, v ) - Hàm mật độ phổ công suất của tín hiệu ảnh gốc;
2

 

140 

Chương 3 Kỹ thuật xử lý hình ảnh 

Sη ( u, v ) / S f ( u, v ) - Tỷ lệ công suất nhiễu/tín hiệu (NSPR- Noise-to-Signal-PowerRatio).

G ( u, v ) - Phổ của ảnh đã bị biến đổi và chịu tác động của nhiễu.

ˆ Ảnh kết quả là biến đổi nghịch Fourier của F ( u, v ) .
Kết quả trên do N. Wiener thu được năm 1942. Bộ lọc có đáp ứng tần số mô tả trong (3.2.69) được gọi là bộ lọc trung bình bình phương cực tiểu. Nếu nhiễu không tồn tại trong hệ Có thể xác định hai đại lượng quan trọng là công suất trung bình của ảnh gốc và của nhiễu là:

thống, mật độ phổ công suất Sη ( u , v ) bằng 0, bộ lọc Wiener sẽ biến thành bộ lọc ngược.

fA =

1 MN 1 MN

∑∑ S ( u, v )
f u v

(3.2.70) (3.2.71)

ηA =

∑∑ Sη ( u, v )
u v

MxN là kích thước ma trận ảnh và nhiễu. Tỷ lệ R = η A / f A (là hằng số) đôi khi được sử dụng thay cho tỷ lệ NSPR trong (3.2.69), khi không thể tìm được hàm mô tả mật độ phổ công suất của nhiễu cũng như của tín hiệu hình ảnh. Tất nhiên, cách xấp xỉ này tương đối thô, nhưng ảnh khôi phục thường có chất lượng cao hơn so với ảnh nhận được khi lọc ngược. Phổ ảnh kết quả được mô tả bằng biểu thức sau:
2 ⎛ ⎞ H ( u, v ) 1 ˆ ( u, v ) = ⎜ ⎟ G ( u, v ) ⋅ F ⎜ H ( u, v ) H ( u, v ) 2 + R ⎟ ⎝ ⎠

(3.2.72)

Để so sánh khả năng khôi phục ảnh của các bộ lọc ngược và lọc Wiener, ta quan sát các ảnh được biểu diễn trên hình 3.2.28. Hình 3.2.28a là ảnh gốc dạng hình bàn cờ. Trong quá trình chụp ảnh, nếu camera bị dịch chuyển so với ảnh gốc, hình ảnh thu được sẽ bị nhòe. Trên hình 3.2.28b là ảnh bị làm nhòe theo cách trên, ảnh này được mổ phỏng bằng các hàm Matlab PSF=fspecial('motion',len,theta)và g=imfilter(f,PSF,'circular'); len - độ dịch chuyển của camera; theta - góc dịch chuyển; Trên hình 3.2.28c là ảnh đã bị làm nhòe được tổng hợp với nhiễu Gaussian với giá trị trung bình bằng 0, độ lệch chuẩn 0.005. Hình 3.2.28d là kết quả lọc ngược từ ảnh 3.2.28b. Quá trình này được thực hiện bằng hàm: fr0=deconvwnr(g,PSF); đây chính là hàm thực hiện bộ lọc Wiener với NSPR bằng 0. Vì ảnh 3.2.28b không bị ảnh hưởng của nhiễu, nên lọc ngược cho phép khôi phục chính xác ảnh gốc. Trên hình 3.2.28e là ảnh kết quả lọc ngược ảnh có nhiễu cộng, hình 3.2.28f là kết quả thực hiện lọc Wiener: fr2=deconvwnr(g,PSF,R), với giá trị R = η A / f A = 0,07 (được tính theo (3.2.70) và (3.2.71).

 

141 

Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.2.28 So sánh hiệu quả bộ lọc ngược và lọc Wiener Dựa trên các ảnh kết quả trên hình 3.2.28, có thể thấy rằng bộ lọc trung bình bình phương cực tiểu Wiener với NSPR không đổi (3.2.72) cho kết quả tốt hơn rất nhiều so với bộ lọc ngược khi ảnh biến đổi bị tác động của nhiễu cộng.

3.2.4 Các phương pháp xác định và dự đoán biên ảnh 3.2.4.1 Cơ sở phát hiện đường biên ảnh Làm nổi, phát hiện và dự đoán biên ảnh là vấn đề quan trọng trong phân tích ảnh. Như đã được định nghĩa ở phần trước, đường biên của một vùng ảnh R được tạo ra bởi các điểm ảnh có một hoặc nhiều điểm lân cận không nằm trong tập liên kết R. Nói cách khác, một điểm ảnh được coi là nằm trên đường biên nếu tại vị trí điểm ảnh đó có sự thay đổi đột ngột của mức xám. Như vậy, đường biên là đường nối các điểm ảnh nằm trong khu vực ảnh có thay đổi đột ngột về độ chói, đường biên thường ngăn cách hai vùng ảnh, khi mỗi vùng có các mức xám gần như không đổi.

a)

b)

Hình 3.2.29 Minh họa khái niệm đường biên của ảnh. a- Đường biên giữa hai vùng ảnh trong không gian 2 chiều b- Sự thay đổi độ chói trên đường biên. Trong trường hợp lý tưởng, độ chói giữa hai vùng ảnh thay đổi đột ngột hoặc tăng dần đều.

 

142 

Chương 3 Kỹ thuật xử lý hình ảnh 
Tuy nhiên, trên thực tế, mức xám giữa các vùng ảnh thay đổi tương đối ngẫu nhiên (hình 3.2.29b). Chính vì vậy quá trình phát hiện đường biên thường không đơn giản và kết quả thường không hoàn toàn chính xác. Có nhiều phương pháp phát hiện đường biên khác nhau: 1- Phương pháp phát hiện đường biên trực tiếp dựa trên các phân tích về sự thay đổi độ chói của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên là dùng đạo hàm. Khi lấy đạo hàm bậc nhất của ảnh ta có phương pháp gradient, khi lấy đạo hàm bậc hai ta có kỹ thuật Laplace. 2- Phương pháp phát hiện đường biên trong ảnh màu: phân tích ảnh màu thành các ảnh đơn sắc (R,G,B) và xác định đường biên trên cơ sở sự thay đổi màu sắc trong các ảnh đơn sắc nói trên. 3- Phân tích ảnh thành vùng theo các đặc điểm đặc trưng. Ví dụ theo kết cấu bề mặt (texture). Ranh giới giữa các vùng chính là đường biên của ảnh.

Hình 3.2.30 Sơ đồ khối tổng quát của hệ thống phát hiện đường biên Sơ đồ khối tổng quát của hệ thống phát hiện đường biên biểu diễn trên hình 3.2.30. Ảnh gốc f(x,y) được đưa vào khối làm nổi đường biên. Ở đây, bằng phương pháp xử lý tuyến tính hoặc phi tuyến, ảnh f(x,y) được làm tăng mức chênh lệch độ chói giữa các vùng ảnh. Ảnh G(x,y) là ảnh đã được xử lý đường biên. Tại khối so sánh, người ta so sánh giá trị các điểm ảnh G(x,y) với mức ngưỡng T để xác định vị trí các điểm nằm ở vùng có mức thay đổi độ chói lớn tức các điểm ảnh nằm trên đường biên. Ví dụ: khi f(x,y) được xử lý bằng đạo hàm bậc hai, ảnh kết quả G(x,y) sẽ được so sánh với các mức ngưỡng TL (thấp) và TH (cao). Nếu điểm (x,y) là điểm biên, nằm vùng có độ chói thấp. Và ngược lại nếu nằm ở vùng có mức chói cao. Việc lựa chọn giá trị ngưỡng rất quan trọng trong quá trình xác định đường biên. Khi giá trị T quá cao, các đường biên có độ tương phản thấp sẽ bị mất đi, ngược lại, khi T quá thấp, dễ xảy ra hiện tượng xác định biên sai khi ảnh chịu tác động của nhiễu.

G ( x, y ) < TL thì

G ( x, y ) > TH - điểm (x,y)

3.2.4.2 Phương pháp Gradient Phương pháp gradient là phương pháp dò biên cục bộ dựa vào giá trị cực đại của đạo hàm
bậc một. Gradient của ảnh f ( x, y ) tại điểm A là vector ∇f . Hướng của vector gradient trùng với hướng có tốc độ thay đổi lớn nhất của hàm f ( x, y ) .

⎡ ∂f ⎤ ⎡Gx ⎤ ⎢ ∂x ⎥ ∇f = ⎢ ⎥ = ⎢ ⎥ ⎣G y ⎦ ⎢ ∂f ⎥ ⎢ ∂y ⎥ ⎣ ⎦
Các thành phần của gradient được tính bởi:

(3.2.73)

 

143 

Chương 3 Kỹ thuật xử lý hình ảnh 

Gx =
Gy =

∂f ( x, y ) ∂x

=

f ( x + dx, y ) − f ( x, y ) dx

(3.2.74)

∂f ( x, y ) f ( x, y + dy ) − f ( x, y ) = dy ∂y

(3.2.75)

dx và dy là khoảng cách giữa các điểm theo hướng lấy đạo hàm x và y. Trên thực tế thường dùng dx=1, dy=1.

Hình 3.2.31 Vector Gradient tại điểm A Modul của vector gradient ∇ f chính là giá trị thay đổi lớn nhất của hàm f tại điểm A (hình 3.2.31) theo hướng của vector ∇f :
2 2 ∇f = ∇f = Gx + G y

(3.2.76)

Việc xác định modul gradient theo công thức trên đòi hỏi thực hiện phép tính bình phương và lấy căn bậc hai. Để đơn giản hóa quá trình tính toán, mà vẫn có kết quả tương đối chính xác khi tìm biên, người ta xấp xỉ giá trị gradient như sau:

∇f ≅ ∇f = Gx + G y
được xác định thông qua góc α ( x, y ) giữa vector ∇f và trục x:

(3.2.77)

Hướng của vector gradient tại điểm A có tọa độ (x,y) cũng là một thông số quan trọng, nó

α ( x, y ) = arctg ⎜

⎛ Gy ⎞ ⎟ ⎝ Gx ⎠

(3.2.78)

Hướng của đường biên ảnh là đường vuông góc với vector gradient ∇f , trên hình được biểu diễn như vector n. Khi ảnh số được biểu diễn như ma trận các điểm ảnh phân bố theo dòng và cột, gradient rời rạc theo hướng x sẽ bằng:

Gx ( x, y ) = f ( x + 1, y ) − f ( x, y )
Gradient theo hướng y sẽ là:

(3.2.79)

Gy ( x, y ) = f ( x, y + 1) − f ( x, y )

(3.2.80)

 

144 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h

a) a

b) Hình 3.2.32 Làm nổi đườn biên L ng s dụng phươ pháp gra sử ơng adient. a- Ản gốc; nh b- Gr radient theo c chiều x (Gx); ; c- Gr radient theo c chiều y (Gy); ; c)

Để Đ làm nổi n những đường biên dọc, ta phải lấy đạ hàm rời rạ theo chiều ngang và n g a ạo ạc u ngược lại. Kế quả quá trình làm n đường b ết nổi biên theo ph hương pháp gradient thể hiện trên hình ể 3.2.32. Có C nhiều các tìm đạo hà bậc một c ảnh, đơn giản nhất là phương phá sử dụng to tử ch àm của áp oán Robert t. Hình 3.2.33 Ma trận 9 điểm n ảnh và các mặt nạ dùng để tìm c gradient tạ điểm z5 ại

z1 z4 z7 -1 -1 -1 0 0 0

z2 z5 z8 z3 1 z3 1 z3 1

z3 z3 6 z3 9 -1 0 1
a- Ma trận các điểm ảnh h

-1
-1 0 z3 0 z3 1 0 1 -1 z3 z3 0

-1 0 1

-1 z3 z3 0 z3 1

-2 0 2

-1 z3 z3 0 z3 1

-1 -2 -1

0 0 0

z3 1 z3 2 z3 1

0 1

bb Mặt nạ Ro obert

c - M nạ Prew Mặt witt

d- mặt nạ Sobel t

Sử S dụng toán tử Robert, t tìm ra grad n ta dient theo đư ường chéo củ block 2x2 tại điểm z5 (hình ủa 3.2.33b như sau: b)

G1 = z9 − z5 G2 = z8 − z6

(3.2.81)

Gradient của ảnh được tìm ra bằng cá nhân chậ ảnh với các mặt nạ Rob như trên hình G a m ách ập c bert n (3.2.33 Trên hìn (3.2.34b) là hai ảnh k quả có đư sau khi t 3b). nh ) kết ược thực hiện toá tử Robert theo án t (3.2.81 Trong từn ảnh, các đ 1). ng đường biên d theo hai đường chéo được làm n còn các vùng dọc o nổi, ảnh (tr ảnh gốc) có độ chói kh rên hông đổi đượ tô màu đen trên ảnh kế quả. ợc ết

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
Do D mặt nạ 2x2 không có điểm trung tâm, người ta thường dù các mặt nạ có kích t 2 ó ùng thước 3x3 ho 5x5. Toá tử Prewitt được thực h oặc án t hiện với các mặt nạ như trên hình (3 ư 3.2.34c). Gra adient tính th chiều nga và chiều dọc sẽ bằng: heo ang

G x = ( z7 + z8 + z9 ) − ( z1 + z2 + z3 ) G y = ( z3 + z6 + z9 ) − ( z1 + z4 + z7 )

(3.2.82) (3.2.83)

điểm k khác biệt là c hệ số nằm tại vị trí lâ cận theo ch ngang v dọc với z5 tức N 4 ( z5 ) có các m ân hiều và

Toán tử Sobel được biểu diễn trên hì 3.2.33d c tác dụng g giống nh mặt nạ Pre T u ình có gần hư ewitt,

giá trị ±2 (hình 3.2 2.33d). Mặt nạ nói trên cũ cho phép thực hiện q trình tìm đạo hàm the hai n ũng p quá eo g: hướng

G x = ( z7 + 2 z8 + z9 ) − ( z1 + 2 z2 + z3 ) G y = ( z3 + 2 z6 + z9 ) − ( z1 + 2 z4 + z7 )

(3.2.84) (3.2.85)

Việc V tăng giá trị các hệ số nói trên sẽ làm giảm t s ẽ tính trung bìn hóa (làm mờ ảnh) của quá nh a trình nhân chập ảnh gốc với các mặt nạ này. n h c .

a)

b)

Hình 3.2.34 Ả Ảnh gốc g (a) và kết quả làm n k nổi đường biên sử dụng c đ n các mặt m nạ Robert (b), mặt nạ Prewitt (c) và mặt nạ P ) Sobel (d).

c)

d)

Chương 3 Kỹ thuật xử lý hình ảnh 
Có thể thấy rằng tổng các hệ số trong các mặt nạ nói trên bằng 0, như vậy tại những vùng ảnh có độ chói không đổi, đáp ứng của bộ lọc sẽ bằng 0, điều này hoàn toàn phù hợp với tính chất của toán tử tìm đạo hàm. Toán tử Prewitt và Sobel được sử dụng rộng rãi hơn so với Robert vì chúng ít nhậy cảm với nhiễu nhờ tháo tác lấy trung bình cục bộ trong vùng rộng hơn (9 điểm ảnh) Kết quả nhận được khi thực hiện toán tử Prewitt và Sobel được thể hiện trên hình (3.2.34c,d). Dễ dàng nhận thấy các đường biên ngang và dọc được làm nổi bằng toán tử Sobel có biên độ lớn hơn so với kết quả của toán tử Prewitt. Mặt nạ Prewitt và Sobel được mô tả ở trên cho phép làm nổi đường biên cục bộ nằm theo chiều ngang và chiều dọc. Có thể thay đổi cấu trúc những mặt nạ nói trên để chúng cho đáp ứng mạnh nhất với các đường biên nằm theo góc 450 và 1350 so với trục x. Hai cặp mặt nạ bổ xung Prewitt và Sobel dùng để làm nổi biên theo đường chéo có dạng như trên hình 3.2.35 và 2.3.36.

Hình 3.2.35 Cặp mặt nạ Prewitt (bổ xung)

Hình 3.2.36 Cặp mặt nạ Sobel (bổ xung)

3.2.4.3 Làm nổi biên bằng toán tử la bàn Đạo hàm rời rạc hai chiều có thể được thực hiện bằng cách lấy tổng chập giữa ảnh gốc và mặt nạ gradient. Một số mặt nạ được sử dụng để làm nổi các đường biên theo hướng nhất định. Các mặt nạ cho phép phát hiện đường biên nằm dọc theo tám hướng (địa lý) được sử dụng trong toán tử la bàn. Tên mặt nạ được đặt theo hướng thay đổi độ chói mà mặt nạ cho đáp ứng lớn nhất. Ví dụ, mặt nạ hướng đông cho đáp ứng mạnh nhất với sự thay đổi độ chói theo hướng từ trái sang phải. Lưu ý rằng tổng các hệ số trong từng mặt nạ bằng 0, như vậy đáp ứng của chúng với ảnh có mức chói không đổi sẽ bằng 0.

Hình 3.2.37 Mặt nạ dùng trong toán tử la bàn

 

147 

Chương 3 Kỹ thuật xử lý hình ảnh 
Trong hình dưới đây là một số ảnh đã được xử lý nổi biên bằng các mặt nạ trên: Mặt nạ Bắc Mặt nạ Nam

Mặt nạ Đông Bắc

Mặt nạ Đông

Hình 3.2.38 Minh họa quá trình làm nổi biên bằng toán tử la bàn. Có thể thấy rằng, các mặt nạ trên có tổng giá trị các hệ số bằng 0, do đó đáp ứng của mặt nạ tại vùng ảnh có độ chói không đổi sẽ bằng 0. Toán tử la bàn Kirsh cũng cho phép làm nổi biên theo tám hướng. 8 mặt nạ Kirsh có dạng như sau:

Hình 3.2.39 Mặt nạ thực hiện toán tử Kirsh

3.2.4.4 Kỹ thuật Laplace Phương pháp gradient cho kết quả khá tốt khi mức sáng giữa các vùng ảnh thay đổi tương đối rõ nét. Khi mức xám thay đổi chậm, các đường biên không rõ nét, miền chuyển tiếp tương đối rộng, phương pháp làm nổi biên hiệu quả hơn là dùng đạo hàm bậc hai. Phương pháp này gọi là phương pháp Laplace. Toán tử Laplace được định nghĩa như sau:

 

148 

Chương 3 Kỹ thuật xử lý hình ảnh 

∇2 f =

∂2 f ∂2 f + dx 2 dy 2

(3.2.86)

Việc xấp xỉ đạo hàm bậc hai cho tín hiệu rời rạc (tạm thời xét tín hiệu một chiều) được thực hiện như sau:

∂2 f = f ( x + 1) + f ( x − 1) − 2 f ( x ) ∂x 2
hiệu:

(3.2.87)

Để thấy sự khác biệt, chúng ta quan sát tác động của đạo hàm bậc một và bậc hai tới tín

Hình 3.2.40 Minh họa ứng dụng đạo hàm bậc một và bậc hai trong quá trình tách biên Nhìn trên đồ thị kết quả đạo hàm bậc một và hai (hình 3.2.40 và 3.2.41) ta thấy đạo hàm bậc một trong vùng mức xám giảm dần có giá trị khác không, trong khi đạo hàm bậc hai chỉ khác không ở vị trí đầu và cuối vùng này. Vùng biên trên ảnh thực thường có sự thay đổi độ chói tương đối chậm, do đó có thể thấy đạo hàm bậc hai cho phép xác định vị trí đường biên tốt hơn đạo hàm bậc một. Tại vị trí điểm ảnh riêng rẽ, đạo hàm bậc hai cho đáp ứng mạnh hơn, do đó các chi tiết nhỏ (và cả nhiễu) sẽ được làm nổi rõ nét hơn. Đường nét tương đối mảnh trên hình ảnh cũng được làm nổi nhiều hơn khi sử dụng đạo hàm bậc hai. Cuối cùng, đối với tín hiệu dạng "bậc sáng" (hình 3.2.40) đáp ứng của cả đạo hàm bậc một và hai gần giống nhau. Tuy nhiên đạo hàm bậc hai có thể cho giá trị âm và dương. Do đó kết quả xác định biên dựa trên đạo hàm bậc hai có thể cho hiệu ứng đường biên đôi.

Hình 3.2.41 Dạng tín hiệu nhận được sau khi lấy đạo hàm bậc 1 và bậc 2

 

149 

Chương 3 Kỹ thuật xử lý hình ảnh 
Các hệ thống phân tích ảnh dựa trên đạo hàm bậc hai thường rất nhạy cảm với nhiễu, điều này được minh họa trên hình (3.2.42). Trên hình (3.2.42a) là ba ảnh từ trái sang phải có độ chói tăng dần. Ảnh thứ hai và thứ ba bị tác động bởi nguồn nhiễu Gausian với tỷ lệ S/N tương ứng là 25 và 15 dB. Hình (3.2.42b) biểu diễn phân bố độ chói dọc theo từng dòng ảnh. Kết quả đạo hàm bậc một và hai của ảnh được biểu diễn trên các hình 3.2.42c và 3.2.42d. Dễ dàng nhận thấy hiệu ứng đường biên đôi, cũng như khả năng chống nhiễu kém của phương pháp tìm biên bằng đạo hàm bậc hai so với đạo hàm bậc một.

Hình 3.2.42 Minh họa quá trình phát hiện biên bằng đạo hàm bậc một và bậc hai. Đối với tín hiệu 2 chiều, đạo hàm riêng theo trục x và y bằng:

∂2 f = f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y ) ∂x 2

(3.2.88)

∂2 f = f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y ) ∂y 2

(3.2.89)

Thông thường, toán tử Laplace hai chiều rời rạc được thực hiện với mặt nạ kích thước 3x3. Có hai cách xấp xỉ đạo hàm bậc 2 rời rạc cho vùng ảnh 3x3: theo công thức (3.2.90) và (3.2.91).

∇2 f = 4z5 − [ z2 + z4 + z6 + z8 ] ∇2 f = 8z5 − [ z1 + z2 + z3 + z4 + z6 + z7 + z8 + z9 ]

(3.2.90) (3.2.91)

Để thực hiện các công thức trên, chúng ta sử dụng hai mặt mạ tương ứng như trên hình 3.2.43.

a)

b)

c)

Hình 3.2.43 Mặt nạ thực hiện toán tử Laplace a- Thứ tự các điểm ảnh trong mặt nạ b- Mặt nạ thực hiện toán tử (3.2.90) c- Mặt nạ thực hiện toán tử (3.2.91) Trên hình 3.2.44a và b là kết quả thực hiện toán tử Laplace bằng các mặt nạ 3.2.43b và

 

150 

Chươn 3 Kỹ thu xử lý hình ảnh  ng uật h
3.2.43c Biên độ cá đường biê thu được d trên bộ l bằng mặt nạ hình 3.2. c. ác ên dựa lọc t .43c có giá tr lớn rị hơn.

a)

b) Hì 3.2.44 M ình Minh họa quá trình làm nổi đường biên bằng toán tử Laplace i n ử

Trong thực tế toán tử La T t aplace ít đượ sử dụng tr tiếp do tính nhạy cả với nhiễu đặc ợc rực ảm u trưng cho đạo hàm bậc hai. N m Ngoài ra, như đã phân tíc ở trên, vi sử dụng đạo hàm bậ hai ư ch iệc ậc g ện ất iên o đoạn ảnh. Vì vậy, ì thường dẫn đến hiệ tượng xuấ hiện các bi kép, gây khó khăn cho việc phân đ để làm giảm ảnh h m hưởng của nh hiễu, trước k thực hiện toán tử Lap khi place người ta thường làm mờ t m ảnh bằ bộ lọc Ga ằng ausian. Ảnh đưa vào xử l trong trườ hợp này s được nhân chập với to tử lý ờng sẽ n oán Laplac của hàm Gausse hai ch có dạng n sau: ce G hiều như

h(r) = e

x2 + y2 2σ 2

=e

r2 2σ 2

(3.2.92)

Mức M độ làm mờ ảnh sẽ phụ thuộc vào giá trị dung sai chuẩn p o g Đạo Đ hàm bậc hai của hàm Gausse theo r sẽ có dạn c m ng:

σ2.

⎛ r 2 − σ 2 ⎞ − 2rσ ∇ h(r) = ⎜ ⎟e 4 ⎝ σ ⎠
2

2 2

(3.2.93)

Trên hình 3.2 T 2.45a, b, c là đồ thị 3 chiều, ảnh nhìn từ phía trên và hình cắt hàm đáp ứng của à h g hệ thốn thực hiện toán tử Lapl ng lacian-Gaussian (gọi tắt là Laplacian o a Gaussian – LoG). à of n

nh m ủa placian-Gaus ssian và ảnh kết quả Hìn 3.2.45 Hàm đáp ứng củ bộ lọc Lap Mặt M nạ trên hình 3.2.45d được sử dụn để xấp xỉ t h ng toán tử LoG rời rạc. Vì đạo hàm bậc h là đ hai phép tí tuyến tín do đó quá trình nhân c ính nh, á chập ảnh và L cũng tươ đương với việc nhân chập LoG ơng ảnh vớ hàm làm m Gausse 2 chiều (3.2.9 sau đó th hiện toán tử Laplace để làm nổi biên. ới mờ 92), hực n e Kết qu nhận được minh họa trên hình 3.2.4 uả c 45.

Chương 3 Kỹ thuật xử lý ảnh  3.2.5 Phân vùng ảnh 3.2.5.1 Tổng quan về phân vùng ảnh Vùng ảnh (segment) là một chi tiết trong ảnh. Nó được hình thành bởi tập hợp các điểm ảnh có cùng hoặc gần cùng một tính chất nào đó như: mức xám, màu sắc, kết cấu (texture) v.v. Đường bao xung quanh vùng ảnh được gọi là biên ảnh (boundary).
Phân vùng ảnh là quá trình phát hiện và tách ảnh thành các vùng hoặc các thành phần độc lập. Các thành phần độc lập có thể được xác định dựa trên cơ sở đường biên của chúng, hoặc dựa trên các tiêu chuẩn phân vùng liên thông có cùng độ chói, màu sắc hoặc có cùng các tham số khác của ảnh. Ngoài ra còn có các kỹ thuật phân vùng khác như phân vùng dựa vào biên độ, phân vùng theo kết cấu (texture segmentation), phân vùng dựa trên tốc độ di chuyển của các chi tiết trong ảnh v.v.

3.2.5.2 Phân vùng ảnh dựa theo đường biên Quá trình làm nổi biên cục bộ được trình bày ở phần trước, trong trường hợp tối ưu chỉ cho phép phát hiện tập hợp các điểm ảnh nằm trên đường biên. Trên thực tế, dưới tác động của nhiễu, tập hợp các điểm đó thường không mô tả đường biên một cách chính xác. Vì vậy, người ta thường sử dụng các thuật toán để liên kết tập hợp các điểm ảnh nói trên thành đường biên. Có nhiều kỹ thuật được dùng cho mục đích này. 3.2.5.2.1 Mô tả đường biên bằng giải pháp xử lý cục bộ
Một trong những giải pháp đơn giản nhất để thực hiện liên kết đường biên là phân tích các đặc trưng của điểm ảnh trong vùng lân cận nhỏ (3x3 hoặc 5x5) của mỗi điểm (x,y) trong ảnh cần tách biên. Tất cả các điểm ảnh có chung một đặc điểm lựa chọn trước sẽ được liên kết lại thành đường biên. Hai đặc điểm được lựa chọn để xác định sự giống nhau của các điểm ảnh biên là: 1- Độ lớn của gradient tại điểm biên 2- Hướng của gradient Độ lớn gradient ∇f được tính theo (3.2.76) hoặc (3.2.77) cho điểm ảnh (x,y). Điểm ảnh biên (x0,y0), nằm trong vùng ảnh xung quanh điểm (x,y) sẽ được coi là “giống” với điểm (x,y) nếu:

∇f ( x, y ) − ∇f ( x0 , y0 ) ≤ E
Trong đó E- là ngưỡng biên độ cho trước.

(3.2.94)

Hướng của vector gradient tại điểm (x0,y0) được cho là “trùng” với hướng vector gradient tại điểm (x,y) (tính theo (3.2.78)), nếu:

α ( x, y ) − α ( x0 , y0 ) ≤ A
A- Góc lệch được cho trước.

(3.2.95)

Điểm ảnh (x0,y0) sẽ được nối với điểm (x,y) nếu thỏa mãn hai điều kiện (3.2.94) và (3.2.95). Điểm ảnh (x0,y0) sẽ được ghi lại như điểm biên thực. Quá trình so sánh nói trên được thực hiện cho tất cả các điểm ảnh biên đã được phát hiện.

3.2.5.2.2 Mô tả đường biên bằng phương pháp xử lý toàn cục (global processing)
Trong phần này, quá trình mô tả đường biên sẽ được thực hiện dựa trên cở sở xác định các

 

 152 

Chương 3 Kỹ thuật xử lý ảnh 
điểm ảnh có nằm trên cùng đường cong (hoặc đường thẳng) cho trước hay không. Khác với phương pháp liên kết trong phần (3.2.5.2.1), để xấp xỉ đường biên, chúng ta phải xét đến quan hệ giữa các điểm ảnh nằm trong toàn ảnh. Xấp xỉ đường biên bằng đa thức Xét tập hợp các điểm ảnh có tọa độ ( xi , yi ) với i = 0,1,2,..... M nằm trên ranh giới giữa hai vùng ảnh. Các điểm ảnh được đánh số theo thứ tự sao cho điểm

( xi , yi )

nằm cạnh điểm

ˆ ( xi+1 , yi+1 ) . Quá trình xấp xỉ đường cong trên tập điểm ảnh là quá trình xác định hàm y = g ( x ) sao cho sai số xấp xỉ, tức độ khác biệt giữa điểm ( xi , yi ) và ⎡ xi , g ( xi ) ⎤ , là nhỏ nhất. Sai số xấp ⎣ ⎦
xỉ có thể được đánh giá thông qua: Sai số tuyệt đối: Sai số trung bình bình phương: Sai số tối đa:

ε = ∑ yi − g ( xi )
i =1 M

M

ε = ∑ ⎡ yi − g ( xi ) ⎤ ⎣ ⎦
i =1

2

ε = max yi − g ( xi )
i

Trong trường hợp tổng quát, ta có thể dùng đa thức bậc N để xấp xỉ đường biên:

ˆ y = a0 + a1 x + a2 x 2 + ... + aN x N
ai - hệ số của đa thức.

(3.2.96)

Sau khi đặt tọa độ của các điểm ảnh trên đường biên vào (3.2.96) ta có hệ phương trình tuyến tính:

⎡1 x0 ⎢ ⎢1 x1 ⎢1 x2 ⎢ ⎢1 ⎢1 xM ⎣

2 x0 x12 2 x2

2 xM

N ˆ ... x0 ⎤ ⎡ a0 ⎤ ⎡ y0 ⎤ ⎥ ⎢a ⎥ ⎢ y ⎥ ... x1N ⎥ ⎢ 1 ⎥ ⎢ ˆ1 ⎥ N ˆ ... x2 ⎥ ⎢ a2 ⎥ = ⎢ y2 ⎥ ⎥⎢ ⎥ ⎢ ⎥ ⎥⎢ ⎥ ⎢ ⎥ N ⎥⎢ ... xM ⎦ ⎣ a N ⎥ ⎢ y0 ⎥ ⎦ ⎣ˆ ⎦

(3.2.97)

Hệ phương trình trên có thể viết gọn thành:

ˆ Xa = y
Sai số trung bình bình phương là:

(3.2.98)

ˆ Giải hệ phương trình trên, ta có thể tìm ra được tập hệ số ai của đa thức y .

ˆ ˆ ε = ( y − y) ( y − y)
T

(3.2.99)

-

Xấp xỉ đường biên bằng các đoạn thẳng

Đây là phương pháp xấp xỉ đường biên tương đối đơn giản. Quá trình thực hiện được mô tả trên hình 3.2.46. Tại bước đầu tiên, ta nối hai điểm ngoài cùng của tập điểm đang xét là A và B bằng một đường thẳng. Sau đó tiến hành dò tìm điểm có độ lệch lớn nhất theo hướng trực giao với đường AB (điểm C) (hình 3.2.46a). Nối điểm A,B và C với nhau. Thao tác trên được lặp lại cho hai đoạn thẳng AC và CB với các điểm ảnh lân cận của chúng (hình 3.2.46b). Quá trình xấp xỉ biên sẽ được kết thúc khi đường thẳng gấp khúc sẽ “gần giống” với đường biên thực: cho đến lúc khoảng cách giữa các điểm biên và đường thẳng gấp khúc luôn nhỏ hơn ngưỡng quy định là dmin

 

 153 

Chương 3 Kỹ thuật xử lý ảnh 
(điểm F trên hình 3.2.46c).

Hình 3.2.46 Minh họa xấp xỉ đường biên bằng các đoạn thẳng Xấp xỉ đường biên bằng biến đổi Hough (Hough transform) Để xấp xỉ đường biên bằng các đoạn thẳng, chúng ta phải xác định được tập hợp các điểm ảnh nằm trên hoặc gần một đường thẳng nào đó. Để giải quyết bài toán này chúng ta có thể sử dụng phép biến đổi do Hough đề nghị năm 1962. Một đường thẳng trong mặt phẳng (x,y) có thể được biểu diễn bằng hệ tọa độ góc thông qua khoảng cách r từ đường thẳng tới điểm 0 và góc θ như trên hình 3.2.46a:

r = x cos θ + y sin θ

(3.2.100)

Như vậy, mỗi đường thẳng có thể biểu diễn trong mặt phẳng (r, θ ) bằng 1 điểm duy nhất (hình 3.2.47b).

Hình 3.2.47

Minh họa biến đổi Hough

a) Đường thẳng trong không gian (x,y). b) Đường thẳng được biểu diễn bằng 1 điểm trong không gian (r, θ ). c) Tập các đường thẳng đi qua một điểm d) Biến đổi Hough của tập đường thẳng e) Các điểm A,B,C nằm trên một đường thẳng có tọa độ góc (r, θ ) f) Biến đổi Hough cho tập các đường thẳng chạy qua A,B và C

Biến đổi Hught là quá trình ánh xạ các điểm nằm trên một đường thẳng thành một điểm trên mặt phẳng (r, θ ). Một tập các đường thẳng cắt nhau tại một điểm (hình 3.2.47c) sau khi được biến

 

 154 

Chương 3 Kỹ thuật xử lý ảnh 
đổi sẽ tạo ra 1 đường cong trên mặt phẳng (r, θ ) (hình 3.2.47d). Chúng ta xét ba điểm A, B, C trong mặt phẳng (x,y). Biến đổi Hough đối với các đường thẳng đi qua từng điểm A, B, C sẽ tạo ra ba đường cong trên mặt phẳng như trên hình 3.2.47f. Có thể thấy rằng điểm cắt của ba đường cong tại X ( r0 ,θ 0 ) ánh xạ sang mặt phẳng (x,y) sẽ cho đường thẳng đi qua cả ba điểm A, B và C. Khi ba điểm A,B,C không nằm cùng trên một đường thẳng, 3 đường cong nói trên sẽ không cắt nhau ở cùng một điểm. Tuy nhiên, có thể thấy rằng đối với các điểm nằm gần đường thẳng AC trên mặt phẳng (x,y), biến đổi Hough sẽ cho kết quả là các đường cong cắt nhau trong khu vực lân cận với điểm X ( r0 ,θ 0 ) (hình 3.2.47f). Tính chất này được sử dụng để xấp xỉ đường biên trong ảnh số. Tất cả các điểm biên rời rạc trong ảnh (trên mặt phẳng (x,y)) sẽ được biến đổi thành đường cong trên bề mặt (r, θ ). Mặt phẳng (r, θ ) được chia thành các ô nhỏ (cells) như trên hình 3.2.48. “Trọng lượng” của từng ô nói trên sẽ tỷ lệ thuận với số đường cong Hough đi qua nó. Chúng ta sẽ khảo sát để tìm ra các ô có “trọng lượng” lớn. Các đường cong đi qua những ô này tương ứng với những điểm có thể xấp xỉ gần đúng bằng một đường thẳng với tọa độ góc (ri, θ i) là tọa độ của ô đó. Những ô có “trọng lượng” nhỏ là ánh xạ của một số ít điểm ảnh nằm độc lập trong mặt phẳng (x,y) nên có thể loại bỏ trong kết quả mô tả đường biên. Ô vuông nằm tại

M ( r0 ,θ 0 ) có "trọng lượng" tương đối lớn nhất vì có 3 đường cong chạy qua (hình 3.2.48).

Hình 3.2.48 Chia nhỏ mặt phẳng (r, θ ) để xấp xỉ đường biên Quá trình xấp xỉ đường biên sử dụng biến đổi Hough được minh họa trên trên hình 3.2.49. Các bước thực hiện quá trình xấp xỉ đường biên với biến đổi Hough có trình tự như sau: 1- Tìm giá trị gradient cho các điểm trên ảnh gốc; So sánh giá trị modul gradient với ngưỡng (cho trước) để tạo ra ảnh nhị phân hiển thị vị trí của các điểm biên. 2- Chia mặt phẳng (r, θ ) thành các ô nhỏ. 3- Tìm ánh xạ của tất cả các điểm khác 0 trong ảnh nhị phân sang mặt phẳng (r, θ ) và tiến hành đánh giá "trọng lượng" từng ô trong mặt phẳng đó. 4- Chọn ra các ô có trọng lượng lớn nhất; tìm ra các điểm ảnh biên có thể xấp xỉ bằng đường thẳng có cùng tọa độ góc với tọa độ của ô có trọng lượng lớn, tương ứng với những đường cong đi qua ô đó.

 

 155 

Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.49 Biến đổi Hough và kết quả xấp xỉ biên Hình 3.2.49a là ảnh gốc được đưa vào xử lý. Hình 3.2.49b biểu diễn kết quả nhận được sau khi xử lý ảnh gốc bằng mặt nạ LoG. Đường biên A là một đường thẳng r0 = x cos θ 0 + y sin θ 0 . Kết quả biến đổi Hough cho các điểm ảnh biên được biểu diễn trên hình 3.2.49c. Có thể thấy rõ ràng rằng các đường cong Hough cắt nhau tại các ô A và B, nói cách khác, “trọng lượng” các ô A và B lớn hơn so với các ô còn lại trong mặt phẳng (r, θ ). Các đường thẳng A và B (hình 3.2.49d) chính là các đường thẳng được tạo ra bởi các điểm ảnh ứng với các đường cong ánh xạ đi qua hai ô có “trọng lượng” lớn nói trên.

3.2.5.3 Phân vùng dựa trên xử lý ngưỡng (biên độ) (Thresholding) 3.2.5.3.1 Giới thiệu chung về phương pháp phân vùng theo ngưỡng biên độ
Kỹ thuật biến đổi ảnh và so sánh biên độ các điểm ảnh với mức ngưỡng được sử dụng khá rộng rãi trong các phương pháp phân vùng ảnh. Trong trường hợp tổng quát, quá trình xử lý ngưỡng là quá trình so sánh ảnh với hàm T:

T = T ⎡ x, y , p ( x, y ) , f ( x, y ) ⎤ ⎣ ⎦

(3.2.101)

f(x,y)- giá trị mức xám tại điểm (x,y), p(x,y) - hàm biểu diễn tính chất của vùng ảnh xung quanh điểm (x,y), ví dụ, giá trị mức xám trung bình của vùng ảnh, có tâm là điểm (x,y). Kết quả so sánh được tổng hợp trên ảnh g(x,y) theo quy luật sau:

⎧1 ⎪ g ( x, y ) = ⎨ ⎪0 ⎩

f ( x, y ) > T f ( x, y ) ≤ T

(3.2.102)

Chúng ta gọi các điểm ảnh trong g(x,y) có giá trị bằng 1 là các điểm ảnh thuộc vật thể (hay vùng ảnh chi tiết), các điểm có giá trị bằng 0 sẽ thuộc vùng ảnh nền. Nếu T chỉ phụ thuộc vào f(x,y) và không thay đổi trong toàn bộ quá trình xử lý ảnh thì T được gọi là ngưỡng toàn cục. Nếu T phụ thuộc vào toạ độ không gian (x,y) ta gọi T là ngưỡng cục bộ. Nếu ngưỡng cục bộ T phụ thuộc vào p(x, y) hay nói cách khác, T thay đổi theo tính chất của từng vùng ảnh, ta gọi mức T là ngưỡng thích nghi.

 

 156 

Chương 3 Kỹ thuật xử lý ảnh  3.2.5.3.2 Phân vùng với ngưỡng toàn cục (Global thresholding)
Phương pháp phân vùng theo ngưỡng toàn cục là phương pháp khá đơn giản, khi vật thể và nền được tách bằng cách so sánh với một mức ngưỡng T. Mức độ chính xác của phương pháp này phụ thuộc vào tính chất của ảnh, ví dụ: nếu ảnh có histogram được chia thành các vùng rõ rệt (còn gọi là các mode) thì việc lựa chọn ngưỡng sẽ tương đối dễ dàng. Trên hình 3.2.50a là ảnh scan của văn bản, đây là loại hình ảnh thông dụng và tương đối đơn giản. Có thể thấy histogram của ảnh được chia thành các vùng rõ rệt (hình 3.2.50c). Như vậy để tách vùng ảnh (các chữ cái) khỏi nền màu xám, ta có thể dùng mức ngưỡng T nằm giữa hai vùng xám như trên hình 3.2.50c. Tất cảc các điểm ảnh có độ chói thấp sẽ được gán mức trắng, các điểm ảnh có độ chói cao (nền của ảnh) được thay bằng mức đen. Ảnh kết quả cho chúng ta hàng chữ trắng trên nền màu đen trên hình 3.2.50b.

Hình 3.2.50 Phân vùng bằng ngưỡng toàn cục T Cách chọn ngưỡng như trên dựa trên cơ sở phân tích histogram của ảnh bằng mắt người quan sát. Để có thể xác định ngưỡng T một cách tự động, chúng ta thực hiện các bước sau: 1- Lựa chọn mức ngưỡng ban đầu T. 2- Dùng T để phân vùng ảnh. Kết quả nhận được là hai nhóm điểm ảnh: nhóm G1 có giá trị độ chói lớn hơn T, G2 – có độ chói nhỏ hơn T. 3- Xác định giá trị độ chói trung bình m1 và m2 của hai nhóm điểm ảnh trên. 4- Xác định giá trị ngưỡng T mới bằng:

T =

1 ( m1 + m2 ) . 2

5- Thực hiện các bước 2-4 đến khi sai số giữa hai giá trị T kế tiếp không vượt quá giá trị T0 cho trước. Mức ngưỡng ban đầu thường được lựa chọn bằng giá trị trung bình giữa mức chói cao nhất và mức chói thấp nhất trong ảnh.

Hình 3.2.51 Minh họa kỹ thuật xác định ngưỡng tự động

 

 157 

Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.52 Histogram của ảnh 3.2.53a Trên hình 3.2.51 là kết quả quá trình phân vùng dựa trên kỹ thuật xác định ngưỡng so sánh tự động theo giải thuật nói ở trên. Hình 3.2.51a là ảnh gốc, ảnh phân vùng với mức ngưỡng ban đầu T=65 và mức ngưỡng kế tiếp T=100 được biểu diễn trên hình 3.2.51 b,c. Sau ba vòng lặp, kết quả cuối cùng nhận được là T=125 với T0=0. Histogram ảnh vân tay trong ví dụ nêu trên (hình 3.2.52) có hai mode được phân biệt khá rõ ràng, nên quá trình phân vùng theo ngưỡng toàn cục cho kết quả khá tốt.

3.2.5.3.3 Phân vùng với ngưỡng thích nghi
Trong nhiều trường hợp, khi ảnh có histogram phức tạp, dùng một mức ngưỡng toàn cục T không thể có kết quả phân vùng tốt, chúng ta phải sử dụng phương pháp phân vùng theo ngưỡng thích nghi. Như đã định nghĩa ở phần trên, ngưỡng T được gọi là thích nghi khi nó thay đổi theo vị trí của vùng ảnh được phân tích.

Hình 3.2.53 a) Ảnh gốc. b) Phân vùng với ngưỡng toàn cục. c) Ảnh được chia vùng d) Phân vùng với ngưỡng thích nghi. Hình 3.2.53a là ảnh gốc bao gồm nền và chi tiết có độ chói thay đổi trong phạm vi nhỏ. Histogram của ảnh không phân vùng rõ rệt, do đó, khi dùng ngưỡng toàn cục, tức ngưỡng duy nhất để phân vùng sẽ không cho kết quả tốt (hình 3.2.53b). Một phương pháp làm tăng chất lượng phân tích ảnh là chia ảnh gốc ra thành nhiều vùng nhỏ (segment) (hình 3.2.53c), trong mỗi vùng chúng ta sẽ tìm giá trị ngưỡng cục bộ theo phương pháp đã mô tả ở trên. Giá trị T ban đầu được chọn bằng giá trị trung bình giữa

 

 158 

Chương 3 Kỹ thuật xử lý ảnh 
mức chói cao nhất và mức chói thấp nhất trong vùng. Như vậy có thể nói rằng, ảnh gốc đã được xử lý với mức ngưỡng thích nghi theo từng vùng ảnh. Kết quả nhận dạng vùng theo ngưỡng thích nghi biểu diễn trên hình 3.2.53d, dễ dàng nhận thấy vùng ảnh chi tiết được hiển thị chính xác hơn nhiều so với trường hợp dùng ngưỡng toàn cục.

3.2.5.3.4 Phân vùng với ngưỡng toàn cục tối ưu
Trong phần này chúng ta sẽ phân tích kỹ thuật tìm ngưỡng toàn cục tối ưu theo tiêu chí tối thiểu hóa sai số phân vùng trung bình. Giả thiết ảnh chỉ có hai vùng có độ chói khác nhau, gọi là vùng sáng (ảnh chi tiết) và vùng tối (ảnh nền). Mức xám z của các điểm ảnh là biến ngẫu nhiên, được đặc trưng bởi hàm mật độ phân bố xác suất p ( z ) . Như chúng ta đã biết p ( z ) chính là histogram của ảnh. Hàm mật độ phân bố xác suất mức xám trong vùng sáng và vùng tối là p1 ( z ) và p2 ( z ) . Mật độ phân bố xác suất của toàn ảnh sẽ bằng tổng hai hàm trên:

p ( z ) = P ⋅ p1 ( z ) + P2 ⋅ p2 ( z ) 1
P , P2 - xác suất để điểm ảnh nằm trong vùng sáng hoặc vùng tối. 1
Vì ảnh chỉ bao gồm hai vùng sáng tối nên P + P2 = 1 . 1

(3.2.103)

Bài toán đặt ra là cần tìm giá trị ngưỡng toàn cục Topt (hình 3.2.54) để tách chi tiết ảnh, sao cho sai số dự đoán trung bình là nhỏ nhất.

Hình 3.2.54 Mật độ phân bố xác suất mức xám của hai vùng ảnh Xác suất để điểm ảnh nền bị xác định nhầm thành điểm ảnh chi tiết là:
T

E1 ( T ) =

−∞

∫ p2 ( z ) dz

(3.2.104)

Xác suất để điểm ảnh chi tiết bị xác định nhầm thành điểm ảnh nền là:

E2 (T ) = ∫ p1 ( z ) dz
T

(3.2.105)

Xác suất sai số chung sẽ là:

E ( T ) = P2

T

−∞

∫ p2 ( z ) dz + P1 ∫ p1 ( z ) dz
T

(3.2.106)

Để có được ngưỡng tối ưu Topt khi sai số E(T) là nhỏ nhất, đạo hàm của (3.2.106) theo T phải bằng 0, ta có:

P ⋅ p1 ( T ) = P2 ⋅ p2 ( T ) 1

(3.2.107)

 

 159 

Chương 3 Kỹ thuật xử lý ảnh 
Trường hợp khi P = P2 , ngưỡng tối ưu sẽ nằm tại điểm cắt đồ thị hàm p1 ( z ) và p2 ( z ) . 1 Trong trường hợp tổng quát, để tìm ra Topt , ta cần biết hai hàm phân bố xác suất p1 ( z ) và

p2 ( z ) . Thông thường mật độ phân bố mức xám được qui về dạng phân bố Gausian:
p( z) = P 1 e 2πσ 1

( z − μ1 )2
2 2σ 1

+

P2 e 2πσ 2

( z − μ2 )2
2 2σ 2

(3.2.108)

μ1 và σ 1 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh chi tiết, μ2 và σ 2 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh nền.
Sử dụng (3.2.107 ) và (3.2.108) ta suy ra phương trình:

AT 2 + BT + C = 0
với:
2 A = σ 12 − σ 2
2 B = 2 μ1σ 2 − μ 2σ 12

(3.2.109) (3.2.110)

(

)
2 σ 12 = σ 2 = σ 2 thì Topt là duy

2 2 C = μ2σ 12 − μ1σ 2 + 2σ 12 2σ 2 ln (σ 2 P / σ 1 P2 ) 1

Phương trình bậc hai có thể có hai nghiệm, do đó, trong một số trường hợp có thể có hai giá trị ngưỡng tối ưu. Nếu phương sai của hai hàm phân bố như nhau: nhất:

Topt =
Nếu P 1 = P2 , ta có:

μ1 + μ2
2

+

⎛P ⎞ ln ⎜ 2 ⎟ μ1 − μ 2 ⎝ P1 ⎠

σ2

(3.2.111)

Topt =

μ1 + μ2
2

(3.2.112)

3.2.6 Xử lý ảnh màu
Trong phần 3.1.5 đã giới thiệu sơ bộ về màu sắc và các thông số đặc trưng của màu sắc. Dựa trên các phân tích về cơ chế cảm nhận màu sắc của hệ thống thị giác ta thấy mọi màu sắc trong thiên nhiên có thể được tạo ra từ các màu cơ bản bằng các phương pháp pha trộn màu khác nhau. Không gian màu RGB hoặc XYZ thường được sử dụng để mô tả quá trình pha trộn màu sắc. Ta có thể xác định được mọi màu sắc được tạo ra từ tổ hợp ba màu bất kỳ bằng cách xác định vị trí ba màu đó trong không gian RGB (XYZ) sau đó nối chúng lại, để tạo ra tam giác màu; Tam giác có đỉnh là ba điểm nói trên sẽ chứa tất cả các màu sắc có thể được tạo ra bằng cách pha trộn ba màu trên (hình 3.2.55).

3.2.6.1 Các hệ màu cơ bản Hiện nay có khá nhiều hệ màu (không gian màu) được sử dụng với các mục đích khác nhau. Không gian màu RGB thường được sử dụng để mô phỏng các hệ thống tạo ảnh màu như màn hình TV màu, camera màu; hệ màu CMYK (Cyan-Magenta-Yellow-BlacK) thường được dùng trong kỹ thuật in ấn. Hệ màu HSI (Hue-Saturation-Intensity) hay còn gọi là HSB (Hue-SaturationBright) được sử dụng rộng rãi trong lĩnh vực xử lý ảnh. Hệ màu HSI cho phép mô tả ảnh màu    160 

Chương 3 Kỹ thuật xử lý ảnh 
thông qua các thành phần sắc màu và thành phần chói của ảnh. Phương pháp mô tả này tương đối phù hợp với cách cảm nhận màu sắc của hệ thống thị giác, đồng thời hệ HSI cũng có thể dùng khi phân tích ảnh đen-trắng (chỉ có các mức xám). Sau đây chúng ta nhắc lại một số đặc điểm chính của ba hệ màu nói trên.

Hình 3.2.55 Tam giác màu đơn vị XYZ trong hệ tọa độ vuông góc

xy

3.2.6.1.1 Hệ màu RGB
Như đã biết, trong hệ RGB, ba màu cơ bản là R (đỏ), G (xanh lục), B (xanh lam). Không gian RGB, trong lĩnh vực ảnh số, được thể hiện dưới dạng hình khối lập phương như trên hình 3.2.56a. Các màu cơ bản nằm trên ba đỉnh của hình khối. Màu đen K nằm tại điểm gốc tọa độ, màu trắng nằm đối diện với K qua đường chéo. Không gian màu RGB trên hình 3.2.56a là không gian màu chuẩn, giá trị của các màu RGB nằm trong khoảng [0,1]. Trong lĩnh vực ảnh số, mỗi điểm màu R, G hoặc B thường được lượng tử hóa với 256 mức, tức mỗi mẫu được mã hóa bằng 8 bit.

a) Hình 3.2.56 Không gian màu RGB

b)

Số lượng bít sử dụng để mã hóa 1 điểm ảnh màu được gọi là độ sâu của màu. Trường hợp nói trên, độ sâu màu sẽ là 24 bits khi đó số sắc màu tối đa có thể được hiển thị sẽ là

(2 )

8 3

= 16777216 . Trên hình 3.2.56b là không gian màu RGB 24 bits.

 

 161 

Chương 3 Kỹ thuật xử lý ảnh  3.2.6.1.2 Hệ màu CMYK
Như chúng ta đã biết, màu C (Cyan - xanh lơ), màu M (Magenta - mận chín) và màu Y (Yellow - vàng) là các màu bổ xung của R, G và B. Đa số các thiết bị in màu lên giấy đòi hỏi dữ liệu đưa vào tương ứng với các kênh màu CMY hoặc biến đổi từ RGB sang CMY. Quá trình biến đổi được thực hiện theo công thức sau:

⎡C ⎤ ⎡1⎤ ⎡ R ⎤ ⎢ M ⎥ = ⎢1⎥ − ⎢G ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢Y ⎥ ⎢1⎥ ⎢ B ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

(3.2.113)

Khi C=M=Y chúng ta sẽ nhận được màu đen. Tuy nhiên, trên thực tế màu nhận được không hoàn toàn đen. Do đó trong các hệ thống in ấn, người ta sử dụng thêm một loại mực nữa có màu đen (BlacK) - ký hiệu là K. Như vậy hệ màu CMY được mở rộng thành CMYK.

3.2.6.1.3 Hệ màu HSI
Trong không gian màu HSI, mỗi điểm màu được mô tả dựa trên các thông số về: sắc màu (bước sóng trội), độ bão hòa màu (độ sạch màu) và độ chói. Hai thông số đầu tiên đặc trưng cho "màu sắc", còn thông số thứ ba cho ta thấy độ sáng của điểm ảnh. Cách mô tả các điểm ảnh như vậy tương đối giống với thói quen quan sát và phân tích màu sắc của hệ thống thị giác.

Hình 3.2.57 Biến đổi không gian RGB thành HSI Để có được không gian HSI, chúng ta xoay hệ trục RGB như trên hình 3.2.57a. Điểm đen (0,0,0) sẽ là điểm thấp nhất trong không gian màu, điểm trắng (1,1,1) nằm phía trên cùng. Tất cả các mức xám có cường độ [0,1] nằm trên trục thẳng đứng nối K và W. Như vậy các điểm màu trên mặt phẳng vuông góc với trục KW (trục xám) có cùng độ chói. Các điểm màu nằm càng xa trục xám càng có độ bão hòa cao. Ngay trên trục KW, độ bão hòa màu sẽ bằng 0. Trên hình 3.2.57b, xét mặt phẳng đi qua điểm C và trục KW, dễ nhận thấy là tất cả các điểm màu nằm trong tam giác CKW được tạo ra từ màu C và hai thành phần không màu K và W, do đó chúng có cùng bước sóng trội là λC . Khi xoay tam giác CKW xung quanh trục xám, ta sẽ có các sắc màu khác nhau. Tóm lại, không gian HSI là tập hợp các mặt phẳng màu có cùng độ chói, vuông góc với trục chói thẳng đứng. Vị trí điểm màu trên các mặt phẳng nói trên được xác định bởi vector bắt đầu từ trục xám. Trên hình 3.2.58 là không gian màu HSI với các mặt phẳng màu là hình tròn đồng tâm. Chiều dài vector S tương đương với độ bão hòa màu, góc H giữa vector S và đường thẳng đi qua điểm R tương đương với bước sóng trội của điểm màu. Để biến đổi hệ màu RGB thành HSI, ta thực hiện các bước sau: - Xác định bước sóng trội H:

⎧θ H =⎨ ⎩360 − θ

B≤G B>G

(3.2.114)

 

 162 

Chương 3 Kỹ thuật xử lý ảnh 

với

1 ⎧ ⎫ ⎡( R − G ) + ( R − B ⎤ ⎣ ⎦ ⎪ ⎪ 2 θ = arccos ⎨ 1/2 ⎬ 2 ⎪ ⎡( R − G ) + ( R − B ) ( G − B ) ⎤ ⎪ ⎣ ⎦ ⎭ ⎩
3 ⎡ min ( R, G, B ) ⎤ ⎦ (R + G + B) ⎣

(3.2.115)

- Xác định độ bão hòa màu:

S =1−

(3.2.116)

- Xác định độ chói I:

I=

1 (R + G + B) 3

(3.2.117)

Hình 3.2.58 Không gian màu HSI Để biến đổi hệ màu HSI thành RGB, ta thực hiện lần lượt cho ba sector các bước sau: 1- Sector RG ( 0 ≤ H ≤ 120 ):
0 0

B = I (1 − S )
⎡ S cos H ⎤ R = I ⎢1 + ⎥ 0 ⎢ cos ( 60 − H ) ⎥ ⎣ ⎦

(3.2.118) (3.2.119) (3.2.120)

G = 3I − ( R + B )
2- Sector GB ( 1200 ≤ H ≤ 2400 ):

H = H − 1200
R = I (1 − S )
⎡ S cos H ⎤ G = I ⎢1 + ⎥ 0 ⎢ cos ( 60 − H ) ⎥ ⎣ ⎦

(3.2.121) (3.2.122) (3.2.123) (3.2.124)

B = 3I − ( R + G )
3- Sector BR ( 2400 ≤ H ≤ 3600 ):

H = H − 2400

(3.2.125)

 

 163 

Chương 3 Kỹ thuật xử lý ảnh 

G = I (1 − S )
⎡ S cos H ⎤ B = I ⎢1 + ⎥ 0 ⎢ cos ( 60 − H ) ⎥ ⎣ ⎦

(3.2.126) (3.2.127) (3.2.128)

R = 3I − ( G + B )

Các công thức (3.2.114) –(3.2.128) nhận được thông qua phép biến đổi hình học như đã mô tả trên hình 3.2.58. Trên hình 3.2.59 là các thành phần ảnh H, S, I được tách ra từ ảnh màu RGB theo công thức 3.2.114, 3.2.116, 3.2.117. Có thể thấy rằng, mức sáng của ảnh I chính là độ chói (Intensity) của ảnh màu. Mức sáng của ảnh H phụ thuộc vào góc vector màu với trục R, ví dụ, đối với màu đỏ H=0 nên vùng đỏ trên ảnh H sẽ có màu đen.

Hình 3.2.59 Ảnh màu RGB (24 bít) và các thành phần H,S,I tương ứng.

3.2.6.2 Một số kỹ thuật xử lý ảnh màu căn bản 3.2.6.2.1 Kỹ thuật tạo màu giả
Đây là phương pháp thay thế các mức xám trong của ảnh đen -trắng bằng các màu theo một quy luật nhất định. "Màu giả" được sử dụng để "tô" ảnh trong trường hợp này không phải là màu thực của ảnh. Như chúng ta biết, hệ thống thị giác có khả năng cảm nhận sự khác biệt về màu sắc tốt hơn sự thay đổi độ chói của ảnh, do đó trong nhiều trường hợp, kỹ thuật tạo màu giả cho phép hiển thị rõ ràng hơn những chi tiết có độ tương phản thấp trong ảnh đen-trắng. Kỹ thuật lượng tử theo mức chói và mã hóa bằng màu giả là một trong những phương pháp xử lý ảnh màu dựa trên quá trình tạo màu giả. Trên hình 3.2.60 mô tả ảnh đen trắng với các điểm ảnh có độ chói thay đổi trong dải động

[0 ÷ L − 1] phân bố trên mặt phẳng X0Y. Mặt phẳng có

độ chói không đổi là Li sẽ chia dải động nói trên thành 2 mức. Để thực hiện mã hóa bằng màu giả, chúng ta gán cho tất cả các điểm ảnh có độ chói nằm trên mặt phẳng cắt một màu nào đó, các điểm ảnh nằm dưới mặt phẳng cắt được gán một màu khác.

 

 164 

Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.60 Minh họa quá trình lượng tử theo mức chói và mã hóa bằng màu giả Hàm biến đổi mức xám-màu có đặc tuyến dạng bậc thang như trên hình 3.2.61.

Hình 3.2.61 Đặc tuyến biến đổi mức xám – màu Trong trường hợp tổng quát, dải động mức xám có thể chia thành N mức, các mức sẽ được hiển thị bằng các màu khác nhau. Đặc tuyến trên hình 3.2.61 sẽ biến đổi thành dạng bậc thang với N-1 bậc. Kỹ thuật lượng tử mức xám nói trên được sử dụng rộng rãi trong y khoa. Ví dụ: ảnh siêu âm tim trên hình 3.2.62a thu được có dạng đen-trắng, trên ảnh có vùng máu đông cần được phát hiện nằm ở gần mũi tên. Vùng này có độ tương phản không cao, nên rất khó phân biệt với các thành phần khác trong ảnh. Bằng kỹ thuật lượng tử theo mức chói, ta thay các mức xám bằng các lớp màu, khi đó, vùng ảnh cần quan tâm (nơi máu đông) sẽ hiển thị rõ nét hơn rất nhiều (hình 3.2.62b).

Hình 3.2.62 Xử lý ảnh siêu âm bằng kỹ thuật lượng tử mức xám. Trong ví dụ trên, dải động các mức xám (từ đen tới trắng) được chia đều thành 8 dải con bằng nhau, các điểm ảnh có biên độ nằm trong từng dải con được gán một màu nhất định. Như vậy, ảnh sẽ được phân tích thành tám vùng có màu tương ứng với tám dải chói khác nhau. Kỹ

 

 165 

Chương 3 Kỹ thuật xử lý ảnh 
thuật lượng tử mức xám có thể được sử dụng để tách các vật thể hiển thị trong ảnh dựa trên tính chất vật lý của chúng. Ví dụ, trên hình 3.263a, ta có ảnh X quang thu được trong hệ thống giám sát chất lượng các mối hàn [15].

Hình 3.2.63 a- ảnh chụp bằng tia X quang mối hàn ống thép b- ảnh kết quả sau khi mã hóa bằng màu giả. Trong đường hàn nằm ngang (sẫm màu) có vết rạn nứt, các vết rạn hiển thị như các vệt sáng chói, nằm theo chiều ngang ở giữa màn hình. Các vết nứt hiển thị trên ảnh có mức chói tối đa là 255, vì tia X đi qua các vết nứt sẽ làm thiết bị cảm biến (dùng để ghi nhận ảnh X quang) bị bão hòa. Để người kiểm tra có thể dễ dàng phát hiện ra các vết nứt, người ta có thể biến đổi mức 255 thành một màu, còn tất cả các mức xám còn lại thành một màu khác (hình 3.2.63). Dễ dàng thấy rằng, việc phát hiện lỗi hàn sẽ được thực hiện chính xác hơn khi sử dụng ảnh màu nhận được theo phương pháp nói trên.

3.2.6.2.2 Biến đổi thành phần chói thành màu
Các phương pháp xử lý ảnh dựa trên biến đổi thành phần chói thành màu mang tính tổng quát hơn kỹ thuật tạo màu giả. Mỗi điểm màu trong ảnh được phân tích thành ba màu cơ bản tùy theo hệ màu được xử dụng (ví dụ R, G, B). Sau khi phân tích, chúng ta nhận được ba ảnh đơn sắc, ba ảnh này có độ chói nằm trong khoảng [0-255], các ảnh đơn sắc đó có thể được hiển thị lên màn hình dưới dạng ảnh đen trắng. Như vậy, ảnh màu có thể được xử lý dựa trên các phép biến đổi độc lập với 3 ảnh đen trắng nói trên. Ảnh kết quả sẽ được tập hợp lại từ ba ảnh đen trắng khi đưa chúng vào các kênh màu tương ứng. Quá trình xử lý được mô tả bằng sơ đồ khối hình 3.2.64. Phương pháp xử lý nói trên được thực hiện cho từng điểm ảnh mà không phụ thuộc vào vị trí của chúng trong ảnh số. Kỹ thuật tạo màu giả là trường hợp đặc biệt của phương pháp biến đổi thành phần chói thành màu khi hàm biến đổi mức xám-màu có dạng bậc thang như trên hình 3.2.61.

Hình 3.2.64 Quá trình xử lý ảnh độc lập trên từng kênh màu

3.2.6.2.3 Biến đổi màu
Kỹ thuật xử lý ảnh màu được chia thành hai nhóm. Nhóm thứ nhất bao gồm các phương pháp phân tích ảnh màu thành ba ảnh đơn sắc (ví dụ: ảnh R, G, B), sau đó xử lý từng ảnh đơn sắc riêng rẽ; ảnh kết quả sẽ được tổng hợp từ các ảnh vừa được xử lý. Chúng ta gọi đây là các phương

 

 166 

Chương 3 Kỹ thuật xử lý ảnh 
pháp xử lý ảnh theo thành phần. Nhóm thứ hai là các kỹ thuật xử lý tác động trực tiếp lên các điểm ảnh màu. Trong không gian màu RGB, mỗi điểm màu có thể được biểu diễn như vector nối gốc tọa độ và điểm màu đó. Vector màu c có thể được biểu diễn thông qua các vector cơ bản R,G,B như sau:

⎡ R ( x, y ) ⎤ ⎢ ⎥ c ( x, y ) = ⎢G ( x, y ) ⎥ ⎢ B ( x, y ) ⎥ ⎣ ⎦

(3.2.129)

trong không gian R, G, B. Cần lưu ý rằng R ( x, y ) , G ( x, y ) , B ( x, y ) còn phụ thuộc vào tọa độ trong không gian ảnh (x,y). Các điểm màu trong ảnh kích thước MxN được biểu diễn bằng MxN vector màu

Công thức (3.2.129) cho thấy: các thành phần của vector màu c là tọa độ của điểm màu

c ( x, y ) , x

và y là vị trí của điểm màu trong ảnh. Quá trình xử lý ảnh dựa trên các thành phần đơn sắc và dựa trên các vector màu có thể cho kết quả khác nhau.

Hình 3.2.65 Kỹ thuật lọc bằng mặt nạ trong không gian ảnh a- ảnh đen - trắng b- ảnh màu Trên hình 3.2.65 mô tả quá trình lọc (trung bình hóa) ảnh trong miền không gian. Trên ảnh đen trắng, chúng ta cộng giá trị mức xám của các điểm ảnh bên trong mặt nạ rồi chia cho tổng số điểm ảnh của mặt nạ, giá trị trung bình này sẽ được gán cho điểm ảnh (x,y) (hình 3.2.65a). Trong ảnh màu RGB, quá trình trung bình hóa được thực hiện với các vector màu ứng với các điểm ảnh trong mặt nạ. Vector màu trung bình tại điểm (x,y) có các thành phần

R ( x, y ) , G ( x, y ) , B ( x, y ) bằng với giá trị trung bình trong mặt nạ xung quanh tọa độ (x,y) trên

mặt phẳng R, G và B (hình 3.2.65b). Do đó, trong trường hợp này, cả hai phương pháp xử lý: với các thành phần màu hay với các vector màu đều cho kết quả như nhau. Quá trình biến đổi ảnh màu có thể được biểu diễn giống như trường hợp ảnh đen-trắng:

g ( x, y ) = T ⎡ f ( x, y ) ⎤ ⎣ ⎦

(3.2.130)

f ( x, y ) - ảnh màu gốc, g ( x, y ) - ảnh kết quả, T- toán tử biến đổi.
Tuy nhiên, toán tử T sẽ mô tả quá trình biến đổi vector màu (gồm nhiều thành phần), chứ không phải mức xám như trong trường hợp ảnh đen-trắng. Quá trình biến đổi ảnh màu theo thành phần được mô tả như sau:

si = Ti ( ri )
 

i = 1,2... n

(3.2.131)

 167 

Chương 3 Kỹ thuật xử lý ảnh 
Biến ri và si là giá trị các thành phần màu của ảnh

f ( x, y ) và g ( x, y ) tại một điểm

(x,y) bất kỳ. n - số lượng thành phần màu. Ti - toán tử biến đổi cho từng thành phần màu. n được xác định bởi hệ màu đang sử dụng. Ví dụ: trong không gian màu RGB n=3, trong không gian CMYK n=4. Tập hợp các toán tử Ti sẽ xác định toán tử T trong (3.2.130). Trên hình 3.2.66 là ảnh màu và ảnh các thành phần trong không gian R,G,B. Ở đây, các thành phần có giá trị lớn nhất là 1 (mức trắng) , nhỏ nhất là 0 (mức đen). Trên ảnh đen-trắng biểu diễn thành phần R, ta thấy cánh hoa màu đỏ (gần bão hòa) sẽ có độ chói lớn nhất. Thành phần G và B trong vùng cánh hoa có giá trị rất thấp.

Hình 3.2.66 Ảnh màu và các ảnh thành phần RGB Trong không gian màu HSI, các thành phần H, S, I không đặc trưng cho màu sắc. Do đó, thành phần I (hình 3.2.67), sẽ là ảnh "đen-trắng" của ảnh gốc, nói cách khác, ảnh màu được tái tạo trên màn hình đen-trắng sẽ có dạng như thành phần I.

Hình 3.2.67 Ảnh màu và các ảnh thành phần H, S, I Thành phần S, đặc trưng cho độ bão hòa màu sẽ có giá trị lớn ở các chi tiết có độ sạch màu cao (trên các cánh hoa).

 

 168 

Chương 3 Kỹ thuật xử lý ảnh 
Thành phần H đặc trưng cho sắc màu của ảnh tính theo (3.2.114) có thể có các giá trị xung đột ở các điểm ảnh có góc H bằng 00 và 3600; ngoài ra, giá trị H cũng không được xác định tại các điểm ảnh đen, trắng hoặc xám. Các điểm ảnh có giá trị H bằng 00 và 3600 hiển thị trên ảnh H (hình 3.2.67) như các điểm đen hoặc trắng ngẫu nhiên trong vùng cánh hoa màu đỏ. Các biến đổi màu sắc ảnh có thể được thực hiện trong các hệ màu khác nhau, tuy nhiên, trên thực tế tùy theo ứng dụng, chúng ta nên chọn hệ màu phù hợp nhất. Ví dụ: để thực hiện quá trình biến đổi độ sáng của ảnh:

g ( x, y ) = k ⋅ f ( x, y ) với 0 < k < 1
bởi toán tử sau si = Ti ( ri )

(3.2.132)

Trong hệ màu HSI, theo nguyên tắc, biến đổi trên được thực hiện cho ba thành phần H, S, I

i = 1,2... n , với n=3. Trên thục tế để thay đổi độ sáng, trong hệ

HSI, chúng ta chỉ cần áp dụng biến đổi đối với thành phần I:

s3 = k ⋅ r3

(3.2.133)

Các thành phần khác của ảnh màu sẽ được giữ nguyên: s1 = r ; s2 = r2 . 1 Cũng bài toán trên, nếu thực hiện trong hệ màu RGB, chúng ta phải biến đổi cả ba thành phần màu R, G và B:

si = k ⋅ ri

i = 1,2,3

3.2.6.2.4 Tách ảnh theo các mức màu
Tương tự như kỹ thuật tách ảnh theo mức chói, khi xử lý ảnh màu, chúng ta có thể tách những chi tiết có màu nhất định ra khỏi ảnh gốc. Những thành phần màu khác trong ảnh kết quả sẽ được biến đổi thành màu nền (làm nổi những chi tiết màu cần tách). Nếu các màu được quan tâm nằm trong hình khối con có cạnh là D0, tâm hình khối nằm tại điểm ( a1, a2 , a3 ) trong không gian màu R, G, B, khi đó kỹ thuật tách ảnh theo các mức màu được mô tả theo biểu thức:

⎧ ⎪0,5 ⎪ si = ⎨ ⎪r ⎪ j ⎩

D0 2 D rj − a j ≤ 0 2 rj − a j >

(3.2.134)

với các i=1, 2, 3; j=1, 2, 3; Biến đổi (3.2.134) cho ảnh kết quả bao gồm các màu nằm trong hình khối có cạnh D0, các màu nằm ngoài hình khối sẽ được thay thế bằng mức xám trung bình. Nếu vùng màu quan tâm nằm trong hình cầu, biểu thức (3.2.134) sẽ biến đổi thành:

⎧ ⎪0,5 ⎪ si = ⎨ ⎪r ⎪ j ⎩

∑ ( rj − a j )
j =1 n

n

2

2 > R0

∑ ( rj − a j )
j =1

(3.2.135)
2

2 R0

i = 1, 2,....n , j = 1, 2,....n
Biểu thức (3.2.135) có thể ứng dụng cho không gian màu n-chiều. Các thành phần màu được tách biệt nằm trong hình cầu (khi n=3) có bán kính R0, tâm nằm tại điểm ( a1, a2 , a3 ). Trên hình 3.2.68 mô tả quá trình tách thành phần màu xung quanh màu đỏ có tọa độ

 

 169 

Chươn 3 Kỹ thu xử lý ảnh  ng uật
(0.686 0.1608, 0.1922) trong không gian R 63, RGB. Thực h biến đổi (3.2.134) vớ D0 =0.2549 và hiện ới 9, biến đổ (3.2.135) v R0 = 0.17 ta nhận đ ổi với 765, được các ảnh kết quả 3.2.72c và 3.2.7 Giá trị D0 và h 72d. R0 đượ lựa chọn sao cho vùng màu đỏ đượ tách một cá chính xá nhất. Quan sát ảnh gốc và ợc s ợc ách ác n ảnh kế quả, có thể nhận thấy rằ biến đổi (3.2.135) cho kết quả tốt hơn vì vùng màu đỏ đượ ết ằng o ợc tách ra có diện tích lớn hơn so v kết quả n a h với nhận được từ (3.2.134).

a)

b)

c)

d)

Hình 3.2.68 Minh họa kỹ thuật tách ả theo các mức màu H ỹ ảnh a- Ảnh màu g b- Vùng màu được tá trong khô gian màu RGB gốc, g ách ông u ác rong hình lập thể p c- Ảnh kết quả khi tách cá màu nằm tr ác rong hình cầu u d- Ảnh kết quả khi tách cá màu nằm tr

3.2.6.2.5 Hiệ chỉnh ảnh màu 3 ệu h
Quá Q trình hiệ chỉnh ảnh màu trên m hình má tính trước khi đưa tới các thiết bị in ấn ệu h màn áy thường được thực hiện từng bước theo hai g đoạn: hiệ chỉnh độ sáng và hiệu c g h giai ệu chỉnh màu. • Hiệu chỉnh độ sán ng Hiệu chỉnh độ sáng là qu trình thay đổi độ sáng và độ tương phản của ản để làm tăn tối H đ uá nh ng h. đa khả năng hiển th các chi tiế nhỏ của ảnh Các thông số về màu s của ảnh t giai đoạn xử lý ả hị ết g sắc tại này kh hông được th đổi. Tron hệ màu RG hay CMY quá trình biến đổi phải được thực hiện hay ng GB YK h c giống nhau hoàn to cho từng kênh màu. T oàn g Thông thườn có ba loại ảnh cần hiệu chỉnh: thiếu ánh ng u u sáng (h hình 3.2.69a) thừa ánh s ), sáng (hình 3.2 2.69b) và thi độ tương phản (hình 3.2.69c). Các đặc iếu g tuyến sử dụng để h hiệu chỉnh ản trong từng trường hợp và kết quả hiệu chỉnh đ nh g p được hiển thị trên ị hình 3.2.69. Ví dụ đặc tuyến dạng đường cong chữ S có thể được dùng để cả thiện độ t 3 ụ: c ải tương phản của ảnh; với đặc tuyến biế đổi như tr hình 3.2.6 các điểm ảnh gốc sẫ màu hoặc nhạt c đ ến rên 69c, m ẫm c màu sẽ trở nên sẫm hơn hoặc n ẽ m nhạt hơn trong ảnh kết quả, do đó độ tương phản của ảnh sẽ tăng q ộ n ẽ lên. Qu sát các ả và histog uan ảnh gram của chú trên hình 3.2.69 có t thấy rằng chất lượng hiển úng h thể g, g thị độ sáng (ảnh tố quá sáng hay thiếu tư ối, ương phản) có thể đánh g trực tiếp khi quan sát ảnh, giá t hông qua lượ đồ xám (hi ợc istogram) củ ảnh. ủa hoặc th

Chương 3 Kỹ thuật xử lý ảnh 

3.2.69 a) Ảnh thiếu ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói b) Ảnh thừa ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói c) Ảnh tương phản thấp, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói Hiệu chỉnh màu

Sau khi ảnh đã được hiệu chỉnh độ chói, bước xử lý tiếp theo là hiệu chỉnh màu. Đây là quá trình cân bằng màu với mục đích làm cho màu sắc hiển thị trên ảnh trở nên trung thực. Ví dụ: tuyết phải có màu trắng, cỏ phải có màu xanh lá cây v.v. Thường thì quá trình hiệu chỉnh màu được thực hiện trên các mảng hình có màu trắng, khi đó các thành phần màu R, G, B sẽ phải giống nhau. Ngoài ra, màu da mặt người cũng có thể dùng để hiệu chỉnh, vì hệ thống thị giác rất nhạy cảm với màu này. Khi tiến hành hiệu chỉnh theo từng kênh màu, nhất thiết cần phải hiểu rõ quá trình hiệu chỉnh tác động thể nào tới màu sắc tổng hợp của ảnh. Để thấy được ảnh hưởng của sự thay đổi mỗi thành phần màu tới màu sắc chung của ảnh có thể dựa trên vòng tròn màu (hình 3.2.70). Để làm tăng một thành phần màu trong ảnh có thể: hoặc làm giảm màu bổ xung với nó, hoặc tăng cùng lúc hai màu nằm cạnh màu đó. Ví dụ, trong hình màu hệ RGB có quá nhiều màu xanh lam (B), để làm giảm màu này, chúng ta có thể: (1) tăng màu bổ xung với nó là màu vàng (Y) hoặc (2) giảm các màu xanh lơ (C) và màu mận chín (M). Một ví dụ cụ thể được biểu diễn trên hình 3.2.71. Ảnh gốc trên hình 3.2.71a sau khi truyền qua kênh bị mất cân bằng màu. Thành phần màu xanh lam trở nên vượt trội hơn so với các màu khác (hình 3.2.71b). Để làm giảm màu xanh lam trên ảnh, chúng ta chuyển đổi ảnh từ hệ màu RGB sang hệ màu CMYK, tăng màu Y bằng cách áp dụng đặc tuyến hiệu chỉnh kênh Y như trên hình 3.2.71c. Ảnh kết quả nhận được (hình 3.2.71d) tương đối giống với ảnh gốc (hình 3.2.71a).

 

 171 

Chươn 3 Kỹ thu xử lý ảnh  ng uật

Hình 3.2.70 Vòng tròn m H màu

a)

b)

Hình 3.2.71 Hiệu chỉnh màu H gốc a- Ảnh g b- Ảnh n nhiều màu B Blue c- Đặc t tuyến hiệu chỉnh kênh Y d- Ảnh k quả kết

c)

d)

3.2.6.2.6 Xử lý histogram ảnh màu 3 ử m
Như N chúng t đã biết, kỹ thuật cân b ta ỹ bằng lược đồ xám (histo ồ ogram equalization) trong ảnh g đen-trắ làm cho phân bố các mức xám trở thành đồng đều. Đối vớ ảnh màu, được tổng hợ từ ắng g ới ợp nhiều ảnh đơn sắc việc thực hiện cân bằn lược đồ "xám" cho từ ảnh đơn sắc rồi tổng hợp c, h ng ừng g màu tới ng rên chúng thành ảnh m kết quả có thể dẫn t hiện tượn mất cân bằng màu. Tr hình 3.2.72 là í h. gốc ơng ấp ợc ành một ví dụ điển hình Ảnh màu g có độ tươ phản thấ (xem lược đồ xám) đượ tách ra thà 3 ảnh đơ sắc R, G, B. ơn B

Hình 3.2.72 C Cân bằng từng kênh lược đồ xám cho t G, màu R, G B Cả C ba ảnh trê được cân b ên bằng mức xá Tuy nhiê vì lược đồ xám của 3 ảnh đơn sắc c dải ám. ên ả có

Chươn 3 Kỹ thu xử lý ảnh  ng uật
động k khác nhau, kế quả quá tr ết rình cân bằng cũng sẽ khá nhau. Khi tổng hợp ản màu từ các ảnh g ác nh c đơn sắ nhận được sau khi cân bằng, tỷ lệ b thành phầ R, G, B tạ mỗi điểm ảnh bị thay đ so ắc c ba ần ại ả đổi với ảnh gốc, chính vì vậy, so sá hai ảnh m gốc và k quả, ta thấ có sự khác biệt về màu sắc. h ánh màu kết ấy c u Tuy nh hiên, độ tươn phản của ả kết quả t ng ảnh tăng lên rõ rệ đó cũng là hệ quả của b đổi cân bằng ệt, à biến lược đồ xám. Để Đ tránh tình trạng trên, quá trình cân bằng lược đồ xám được thực hiện ch ảnh màu t h n đ c ho trong hệ màu HSI. Khi đ cân bằng m xám chỉ được thực h cho ảnh I (kênh chói các ảnh H và S u đó, mức ỉ hiện i), được g nguyên. C giữ Chính vì vậy độ tương ph của ảnh sẽ được cải t y, hản thiện trong k sắc màu k khi không bị thay đổi. Trên h y hình 3.2.73 m tả quá trình cân bằng lược đồ xá trong khô gian HSI. Dễ mô g ám ông dàng n nhận thấy ản kết quả có độ tương p nh ó phản cao và m sắc "thậ hơn so kế quả nhận được màu ật" ết trên hì 3.2.71. ình

Hình 3.2.73 C bằng lượ đồ xám tro hệ màu H H Cân ợc ong HSI

3.2.6.2.7 Kỹ thuật làm trơ ảnh màu 3 ơn
Trong phần 3.2.2.2 chún ta đã nói đ quá trình làm trơn ả đen-trắng bằng các bộ lọc T ng đến h ảnh g không gian. Đặc tu uyến bộ lọc phụ thuộc vào các hệ số tr p o rong mặt nạ l (hình 3.2 lọc 2.74a). Khi m nạ mặt di chu uyển trong ản giá trị điểm ảnh tại t nh, tâm mặt nạ được thay bằ giá trị tr đ ằng rung bình của các a điểm ả bao trùm bởi mặt nạ. Lọc tuyến tí bằng phư ảnh m ính ương pháp nh chập tron không gian còn hân ng n sử dụn để làm nổi các chi tiết nhỏ, hay nổi biên ảnh (lọ thông cao) (xem 3.2.4). ng i ọc Quá Q trình lọc tuyến tính nói trên có th được áp dụ cho ảnh m (hình 3. c n hể ụng màu .2.74b). Cho C S xy là t hợp tọa đ của K điểm ảnh nằm lâ cận điểm ả màu trun tâm (x,y) t tập độ m ân ảnh ng trong không gian RGB. Giá trị trung bình của cá vector mà trong khôn gian ba chiều ứng vớ các g ác àu ng c ới điểm ả có tọa độ trong S xy là ảnh ộ à:

c ( x, y ) =

1 ∑ c ( x, y ) K ( x , y )∈S xy

(3.2.136)

Chương 3 Kỹ thuật xử lý ảnh 
Dựa vào tính chất cộng các vector, ta có:

⎡1 ⎤ ⎢ ∑ R ( x, y ) ⎥ ⎢ K ( x , y )∈S xy ⎥ ⎢ ⎥ 1 c ( x, y ) = ⎢ G ( x, y )⎥ ∑ ⎢ K ( x , y )∈S xy ⎥ ⎢ ⎥ ⎢1 ⎥ ⎢ K ∑ B ( x, y ) ⎥ ⎣ ( x , y )∈S xy ⎦

(3.2.137)

Như vậy, các tọa độ của vector màu trung bình trong không gian R, G, B bằng các giá trị trung bình tìm được trong từng ảnh đơn sắc riêng biệt. Điều này có nghĩa là quá trình làm trơn ảnh có thể được thực hiện cho từng thành phần màu riêng rẽ, sau đó tổng hợp lại thành ảnh màu kết quả. Ảnh này sẽ giống với ảnh màu được thực hiện làm trơn dựa trên các vector màu trong không gian màu RGB.

a)

b)

Hình 3.2.74 Mô tả kỹ thuật làm trơn ảnh màu theo từng thành phần

Hình 3.2.75 Làm trơn ảnh màu : a- Ảnh gốc b- Làm trơn ảnh trong hệ màu RGB c- Làm trơn ảnh trong hệ màu HSI d- Ảnh sai số giữa (b) và (c) Quá trình làm trơn ảnh có thể được thực hiện trong các không gian màu khác nhau. Hình 3.2.75b là ảnh kết quả, nhận được sau khi làm trơn ảnh trong không gian RGB theo phương pháp mô tả trên hình 3.2.75b. Các ảnh R. G và B được làm trơn một cách độc lập, sau đó tổng hợp lại thành ảnh màu kết quả. Trong không gian màu HSI, thành phần được làm trơn là ảnh mang tin tức về độ chói I. Ảnh H và S được giữa nguyên. Kết quả nhận được (hình 3.2.75c) cũng là ảnh gốc đã bị làm "mờ".

 

 174 

Chương 3 Kỹ thuật xử lý ảnh 
Tuy nhiên khi so sánh với ảnh được làm mờ trong hệ RGB, chúng ta nhận thấy rằng chúng có sự khác nhau. Ảnh sai số được hiển thị trên 3.2.75d. Vấn đề ở chỗ, màu của các điểm ảnh được làm trơn trong hệ RGB không hoàn toàn giống màu sắc thực vì thành phần R, G và B bằng giá trị trung bình trong không gian ma trận lọc (giá trị trung bình thường khác so với giá trị gốc của điểm ảnh màu). Trong khi đó, thành phần màu (H và S) của các điểm ảnh trong hệ HSI khi làm trơn không thay đổi. Cũng chính vì lý do vừa nêu trên, có thể đưa ra kết luận rằng mức độ sai số giữa các ảnh được làm trơn trong không gian RGB và HSI sẽ tăng khi kích thước ma trận lọc tăng.

3.2.6.3 Nhiễu trong ảnh màu Mô hình nhiễu được trình bày trong phần 3.2.3.2 có thể được áp dụng cho trường hợp ảnh màu. Tuy nhiên, tác động nhiễu tới ảnh màu có đặc thù riêng. Trong một số trường hợp, nhiễu tác động lên các kênh màu một cách khác nhau, ví dụ trong bộ cảm biến CCD, kênh R (màu đỏ) nhạy cảm với nhiễu nhiều hơn so với hai kênh màu còn lại. Tác động của nhiễu sẽ thay đổi mạnh khi chúng ta thực hiện phép biến đổi không gian biểu diễn ảnh màu. Trên hình 3.2.76, ảnh màu bị tác động bởi nhiễu Gaussian với độ lệch chuẩn 0.005 được phân tích thành các thành phần trong không gian RGB và HSI. Có thể thấy rằng thành phần H (sắc màu) và S (độ bão hòa màu) bị biến dạng rất nhiều dưới tác động của nhiễu, lý do chính vì trong công thức (3.2.114, 3.2.115, 3.2.116) tính H và S chứa các hàm phi tuyến là arccos và hàm tìm minimum.

Hình 3.2.76 Biểu diễn ảnh nhiễu (a) trong không gian màu RGB (b, c, d) và HSI (e, f,g) Quá trình triệt nhiễu cho ảnh màu có thể được thực hiện trên cở sở lọc trong không gian hay trong miền tần số như đã xét trong phần 3.2.3. Các bộ lọc nói trên có thể áp dụng cho các thành phần màu riêng rẽ hay áp dụng trực tiếp tới các vector màu. Một số bộ lọc, thí dụ bộ lọc trung bình không gian sẽ cho kết quả giống nhau. Các bộ lọc dựa trên nguyên tắc thống kê thứ tự điển hình là bộ lọc median thường chỉ được thực hiện cho từng thành phần màu. Quá trình thống kê thứ tự trong không gian vector màu nhiều chiều tương đối phức tạp nên không được giới thiệu ở đây.

 

 175 

Chương 3 Kỹ thuật xử lý hình ảnh 

3.3 CÁC KỸ THUẬT NÉN ẢNH
3.3.1 Giới thiệu chung về kỹ thuật nén ảnh Các kỹ thuật nén ảnh hướng tới giải quyết bài toán làm giảm thiểu khối lượng thông tin cần thiết để mô tả ảnh số. Nền tảng của quá trình nén là loại bỏ dư thừa có trong tín hiệu. Phương pháp nén hiệu quả nhất thường sử dụng các biến đổi toán học để biến ma trận các điểm ảnh trong không gian hai chiều sang một không gian hai chiều khác, nơi mức độ tương quan giữa các hệ số biến đổi mới nhỏ hơn. Như chúng ta biết, độ dư thừa trong tín hiệu ảnh số phụ thuộc vào mức độ tương quan giữa các điểm ảnh, độ tương quan lớn thì độ dư thừa cũng lớn.
Nén ảnh là lĩnh vực nghiên cứu khá lâu đời. Thời gian đầu, các nghiên cứu đi theo hướng xử lý tín hiệu video tương tự, nhằm nén "bề rộng phổ" của tín hiệu này. Nén video trong những năm 1950 được thực hiện bằng công nghệ tương tự có tỷ số nén thấp. Các hệ truyền hình tương tự NTSC, PAL, SECAM sử dụng kỹ thuật nén tín hiệu video bằng cách giảm độ rộng băng tần thành phần màu so với thành phần chói, ví dụ trong hệ NTSC, thành phần màu I và Q có bề rộng phổ 1,3 MHz và 0.6 MHz, bề rộng phổ thành phần chói là 4.2 MHz. Sự phát triển của kỹ thuật số và việc sử dụng công nghệ số vào kỹ thuật truyền hình làm cho khái niệm “nén video” trở thành đề tài nóng hổi trong những năm gần đây. Như chúng ta đã biết, tiêu chuẩn định dạng video thành phần 4:2:2 ( CCIR-601) với quy định bề rộng băng tần tín hiệu chói và màu là 5,75 MHz và 2,75 MHz (± 0,1 dB). Sau khi số hóa với tần số lấy mẫu tiêu chuẩn 13.5 MHz (cho kênh chói), tốc độ bit tổng cộng của tín hiệu chói và màu là 270 Mbps. Dòng dữ liệu video số có tốc độ cao như trên không thể được truyền qua vệ tinh với độ rộng dải tần mỗi kênh 27 MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với quy định 7÷8 MHz cho một kênh truyền hình tiêu chuẩn. Do vậy, nén tín hiệu video là công đoạn không thể thiếu để khắc phục được những khó khăn trên. Từ những năm 1980, các nhà khoa học đã đạt được những thành tựu quan trọng trong việc nén tín hiệu video và audio. Có rất nhiều hãng sản xuất thiết bị nén tín hiệu video, chủ yếu các thiết bị này làm việc với hai định dạng nén được coi là tiêu chuẩn là JPEG (Joint Photographic Experts Group) – áp dụng cho ảnh tĩnh và MPEG (Moving Picture Experts Group) - áp dụng cho ảnh động. Phân loại các phương pháp nén ảnh: Có thể thực hiện phân loại theo nguyên lý nén: - Nén không tổn hao (lossless data reduction) - Nén có tổn hao (loss data reduction) Phân loại theo cách thực hiện nén: - Phương pháp không gian (Spatial Data Compression): các phương pháp nén bằng cách tác động trực tiếp lên điểm ảnh. - Phương pháp sử dụng biến đổi (Transform Coding): phương pháp nén sử dụng các phép biến đổi không gian, quá trình nén được thực hiện bằng cách tác động lên ảnh biến đổi.

3.3.2 Dư thừa trong tín hiệu 3.3.2.1 Độ dư thừa số liệu Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước. Số liệu và thông tin không đồng nghĩa với nhau. Số liệu (tạo nên tín hiệu) chỉ là phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho trước có thể biểu diễn    176 

Chương 3 Kỹ thuật xử lý hình ảnh 
bằng các lượng số liệu khác nhau. Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Độ dư thừa được xác định như sau: nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối RD của tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau: RD = 1- 1/CN trong đó: CN = N1/N2

Trong trường hợp N1 = N2 thì RD = 0, điều này có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi N2 << N1 thì CN tiến tới vô cùng và RD tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn so với tập số liệu thứ hai. Chất lượng ảnh nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Có thể đánh giá chất lượng ảnh nén theo số bit cho một điểm trong ảnh nén (Nb). Nb được xác định bằng tổng số bit dùng để mô tả ảnh nén chia cho tổng số điểm ảnh: Nb = Số bit nén/Số điểm Trong lý thuyết nén ảnh số,có thể phân biệt ba loại dư thừa số liệu khác nhau, đó là: • Dư thừa mã (Coding Redundancy)

Nếu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết thì tín hiệu nhận được sẽ có độ dư thừa mã. Để giảm độ dư thừa mã, có thể sử dụng các mã VLC (Variable-Length Coding) như mã Huffman, mã LZW(Lempel-Ziv-Welch) v.v... • Dư thừa trong pixel (Interpixel Redundancy)

Mức độ tương quan giữa hai điểm ảnh gần nhau là tương đối lớn, do đó trong ảnh số tồn tại lượng dư thừa pixel (còn gọi là dư thừa không gian) tương đối lớn. Mỗi điểm ảnh có thể được dự báo từ giá trị các điểm lân cận với nó. Như đã nhắc tới ở trên, giảm độ dư thừa trong pixel của một ảnh có thể được thực hiện khi sử dụng phép biến đổi ảnh số từ miền không gian sang miền tần số. • Dư thừa tâm sinh lý

Dựa trên các nghiên cứu về hệ thống thị giác, chúng ta biết rằng mắt người chỉ cảm nhận được một phần thông tin chứa trong ảnh quang học. Nói cách khác, ảnh có thể được tách ra thành hai phần: một phần chứa các tin tức quan trọng cho người xem, phần khác là các thông tin mà người xem hầu như không cảm nhận được. Thành phần thứ hai có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh.

3.3.2.2 Tiêu chí đánh giá chất lượng hình ảnh Quá trình nén ảnh thường đi đôi với việc ảnh nén bị biến dạng so với ảnh gốc. Vì vậy, cần xác định tiêu chí và phương pháp đánh giá một cách khách quan lượng thông tin về ảnh đã bị mất đi sau khi nén. Có thể đánh giá mức độ sai số giữa hai ảnh thông qua mức sai lệch trung bình bình

ˆ phương - RMS (Root Mean Square). Cho f ( x, y ) là ảnh gốc, f ( x, y ) là ảnh khôi phục sau khi
nén. Khác biệt tuyệt đối giữa hai ảnh là:

ˆ e ( x, y ) = f ( x, y ) − f ( x, y )

(3.3.1)

 

 177 

Chương 3 Kỹ thuật xử lý hình ảnh 
Sai số trung bình bình phương được tính theo công thức sau:

eRMS

⎡ 1 =⎢ ⎢ MN ⎣

M −1 N −1 x =0 y =0

∑ ∑ ( fˆ ( x, y ) − f ( x, y ) )

1/2 2⎤

⎥ ⎥ ⎦

(3.3.2)

Thông thường, khi giá trị RMS thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một số trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị RMS. Một phương pháp đánh giá chất lượng ảnh nén khác dựa trên tỷ lệ tín hiệu/nhiễu được tính theo công thức sau:
M −1 N −1 ⎡ 2 ∑ ∑ fˆ ( x, y ) ⎢ x =0 y =0 SNR = ⎢ M −1 N −1 ⎢ ˆ ⎢ ∑ ∑ f ( x, y ) − f ( x, y ) ⎣ x =0 y =0

(

)

⎤ ⎥ ⎥ 2⎥ ⎥ ⎦

1/2

(3.3.3)

SNR (Signal to Noise Ratio) - tỷ lệ tín hiệu/ nhiễu. Các thông số nêu trên chỉ cho phép đánh giá chất lượng ảnh nén một cách gần chính xác. Trên thực tế chất lượng hình ảnh phụ thuộc rất nhiều vào cảm nhận tâm sinh lý của con người. Chính vì vậy, trong một số trường hợp người ta sử dụng phương pháp đánh giá chất lượng ảnh một cách chủ quan: ảnh được trình chiếu cho một số lượng lớn người quan sát. Dựa trên kết quả thống kê đánh giá của cả nhóm người quan sát, có thể đưa ra kết luận tương đối chính xác về chất lượng ảnh nén.

3.3.3 Mô hình hệ thống nén tín hiệu

Hình 3.3.1 Sơ đồ khối hệ thống nén tín hiệu Hệ thống truyền dẫn sử dụng các phương pháp nén tín hiệu khác nhau có thể được mô tả bằng sơ đồ khối như trên hình 3.3.1. Các thành phần quan trọng nhất trong hệ thống là bộ mã hóa và giải mã. Bộ mã hóa và giải mã nguồn Bộ mã hóa nguồn thực hiện quá trình loại bỏ các thành phần dư thừa trong ảnh gốc. Thông thường, bộ mã hóa nguồn có cấu trúc như trên hình 3.3.2.

Hình 3.3.2 Sơ đồ khối bộ mã hóa nguồn Bộ chuyển đổi: thường dùng các phép biến đổi không gian để chuyển ảnh trong không gian thực sang một không gian khác, nơi các hệ số chuyển đổi có mức độ tương quan thấp hơn. Kết quả nhận được là ma trận các hệ số biến đổi.

 

 178 

Chương 3 Kỹ thuật xử lý hình ảnh 
Bộ lượng tử hoá: sử dụng phương pháp lượng tử không đồng đều nhằm triệt tiêu các hệ số biến đổi có năng lượng thấp hoặc đóng vai trò không quan trọng khi khôi phục ảnh. Quá trình lượng tử không có tính thuận nghịch: ảnh khôi phục sẽ bị biến dạng so với ảnh gốc. Bộ mã hoá: gán một từ mã (một dòng bit nhị phân) cho một mức lượng tử.

Hình 3.3.3 Sơ đồ khối giải mã nguồn Bộ giải mã nguồn có các bộ phận chức năng sau: - Bộ giải mã: thực hiện giải mã tín hiệu nhận được để cho ra ma trận các hệ số của ảnh biến đổi. - Bộ chuyển đổi thực hiện biến đổi nghịch (so với quá trình biến đổi ở bộ mã hóa) để khôi phục lại ảnh số ban đầu. Bộ mã hóa và giải mã kênh Khi truyền tín hiệu qua kênh truyền có nhiễu, để làm giảm ảnh hưởng của nhiễu tới tín hiệu người ta thường sử dụng các phương pháp mã bằng cách thêm một số thông tin dư thừa vào chuỗi tín hiệu cần truyền đi. Tùy thuộc vào phương pháp mã hóa, tại phía thu, sau khi giải mã kênh, chúng ta có thể phát hiện được lỗi trong chuỗi tín hiệu vừa nhận được (do nhiễu kênh gây ra) hoặc có thể đồng thời thực hiện sửa các lỗi đó.

3.3.4 Các phương pháp nén không tổn hao (lossless data reduction) Trong nhiều ứng dụng tín hiệu phải được nén không làm mất mát thông tin: ví dụ khi cần nén các file chương trình trong máy tính hay khi nén những hình ảnh nhận được từ các thiết bị khảo sát vũ trụ: những ảnh này thường có giá trị sử dụng cao, cần được giữ nguyên chất lượng ban đầu. Sau đây chúng ta phân tích một số phương pháp nén không tổn hao tiêu biểu. 3.3.4.1 Phương pháp mã hóa Huffman Phương pháp mã hóa Huffman là phương pháp giảm dư thừa thống kê, dựa vào mô hình thống kê của tín hiệu. Phân tích dữ liệu gốc, người ta tính tần suất xuất hiện của các ký tự. Các ký tự có tần suất cao nhất sẽ được mã hóa bằng từ mã ngắn nhất và ngược lại. Tóm lại, với cách mã hóa trên, chúng ta đã làm giảm chiều dài trung bình của từ mã được dùng để mã hóa dữ liệu. 3.3.4.2 Phương pháp mã LZW (Lempel-Ziv-Welch) Đây là phương pháp mã hóa từ điển, quá trình mã hóa được thực hiện bằng cách thay chuỗi dữ liệu gốc có độ dài khác nhau bằng từ mã có độ dài cố định. Khác với mã Huffman, kỹ thuật LZW không cần biết tần suất của các ký tự trong tín hiệu gốc.
Để mã hóa theo phương pháp LZW, chuỗi dữ liệu phải được đưa vào tra cứu trong "từ điển" để tìm ra mã tương ứng với nó. "Từ điển" được hình thành ngay trong quá trình mã hóa. Ví dụ: khi nén ảnh đen-trắng được mã hóa bằng 8 bits/pixel, từ điển được khởi tạo bao gồm 256 từ tương ứng với các mức chói 0,1,2…255. Sau đó, coder sẽ phân tích lần lượt chuỗi ký tự (mức xám) liên tiếp trong dữ liệu nguồn, khi phát hiện trong từ điển không có chuỗi ký tự tương đương, coder sẽ ghi chuỗi ký tự liên tiếp đó vào vị trí còn trống của từ điển. Ví dụ: nếu hai điểm ảnh đầu tiên có giá trị 255, thì chuỗi 255-255 sẽ được ghi vào vị trí thứ 256, sau đó tổ hợp 255-255 có thể được truyền đi với từ mã là 256. Như vậy thay vì truyền hai ký tự có 16 bits, ta chỉ cần truyền đi từ mã 9 bits. "Từ điển" bao gồm các từ mã 9 bits có thể lưu được 512 từ mã. Có thể thấy rằng, khi "từ

 

 179 

Chương 3 Kỹ thuật xử lý hình ảnh 
điển" quá nhỏ, số lượng chuỗi ký tự được mã hóa sẽ ít, ngược lại khi "từ điển" quá lớn từ mã sẽ có độ dài lớn do đó hiệu quả nén cũng bị giảm. Cần lưu ý rằng, "từ điển" sử dụng khi mã hóa không cần phải chuyển sang phía giải mã, trong quá trình giải mã LZW, "từ điển" này sẽ được khôi phục tự động. Giải thuật nén LZW thường được sử dụng cho các loại ảnh nhị phân. Chuẩn nén này được sử dụng để tạo ra các dạng ảnh GIF và TIFF.

3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding) Kỹ thuật mã hóa RLC được pháp triển ban đầu để nén ảnh nhị phân như ảnh scan từ văn bản, ảnh nhận được từ máy Fax. Kỹ thuật nén này dựa trên nguyên lý tìm trong tín hiệu số nhị phân chuỗi bít "1" hoặc "0" liên tiếp, sau đó mã hóa chuỗi đó bằng hai thông số: giá trị bit lặp và số lượng bít lặp (chiều dài chuỗi). Đôi khi, để nâng cao hiệu quả nén, giá trị chiều dài các chuỗi có thể được mã hóa bằng mã có chiều dài thay đổi (ví dụ mã Huffman). Chiều dài chuỗi bits trong ảnh nhị phân đôi khi có thể lớn hơn 255. Vì thế, để có thể dùng 1 byte để mã hóa giá trị số bit lặp lại, người ta hạn chế chiều dài chuỗi bằng 255. Phương pháp nén RLC được sử dụng để lưu trữ các ảnh Bitmap theo dạng PCX, BMP. 3.3.4.4 Phương pháp mã hóa theo vùng đồng trị Đây là phương pháp khá đơn giản và hiệu quả khi mã hóa ảnh nhị phân hoặc ảnh mặt phẳng bit (xem phần 3.2.2.1.5). Ảnh gốc được chia thành nhiều khối nhỏ có kích thước mxn pixel. Chúng ta phân biệt ba loại khối ảnh: khối toàn màu trắng, toàn màu đen và khối có độ sáng hỗn hợp. Sau đó, các khối ảnh có tần suất cao được mã hóa với từ mã ngắn nhất, ví dụ từ mã "0". Hai khối còn lại được mã hóa bằng từ mã 2 bits: "01" và "10". Như vậy, thay vì phải truyền đi giá trị mxn điểm ảnh trong mỗi khối, với khối toàn trắng và toàn đen ta chỉ cần truyền đi các từ mã có độ dài 1 hoặc 2 bits. 3.3.4.5 Phương pháp mã dự đoán không tổn thất Phương pháp mã hóa này dựa trên tính tương quan giữa hai điểm ảnh nằm kề nhau và kỹ thuật tách và truyền thông tin "mới" chứa trong mỗi pixel ảnh. Theo những nghiên cứu thống kê về phân bố biên độ tín hiệu video, mức độ tương quan giữa các điểm ảnh nằm gần nhau trong miền không gian là khá cao, điều này có nghĩa là sự khác biệt giữa hai điểm ảnh kế bên rất nhỏ hoặc bằng 0, vì thế khi mã hóa độ chênh lệch này cần số lượng bit ít hơn so với khi mã hóa toàn bộ biên độ các mẫu.
Thông tin "mới" trong điểm ảnh được xác định bằng hiệu giữa điểm ảnh thực và điểm ảnh dự đoán. Phương pháp mã dự đoán còn gọi là điều xung mã vi sai (DPCM – Differential Pulse Code Modulation). Trong bộ mã hóa DPCM cũng sử dụng thêm các kỹ thuật lượng tử hóa thích nghi và mã hóa entropy để tăng hệ số nén. Các thành phần chính của hệ thống DPCM được mô tả trên hình 3.3.4. Hệ thống DPCM bao gồm bộ mã hóa (hình 3.3.4a) và bộ giải mã (hình 3.3.4b).
ˆ e n = fn − fn
fn

ˆ fn

a) mã hóa DPCM

 

 180 

Chương 3 Kỹ thuật xử lý hình ảnh 

en

fn

ˆ fn

b) giải mã DPCM Hình 3.3.4 Sơ đồ khối bộ mã hóa và giải mã DPCM Trong thành phần bộ mã hóa và giải mã đều có khối dự đoán. Khi một mẫu f n của ảnh được đưa tới bộ mã hóa, khối dự đoán sẽ thực hiện xấp xỉ giá trị mẫu ảnh đó dựa trên thông tin đã

ˆ có về các điểm ảnh trước. Sau đó giá trị xấp xỉ được làm tròn f n và đưa tới mạch trừ để tìm ra sai
số giữa điểm ảnh thực và điểm ảnh dự đoán:

ˆ en = f n − f n

(3.3.4)

Giá trị sai số (thường là nhỏ) được mã hóa bằng mã có độ dài thay đổi (mã Entropy) trước khi đưa vào đường truyền. Ở phí thu, sau khi dữ liệu nén được giải mã Entropy, giá trị sai số en được đưa tới bộ dự đoán để khôi phục giá trị điểm ảnh f n :

ˆ f n = f n + en

(3.3.5)

ˆ Để có được giá trị f n dựa trên các mẫu tới trước, có thể sử dụng các phương pháp xấp xỉ

ˆ cục bộ, toàn cục hoặc phương pháp thích nghi. Thông thường, f n được xác định dựa trên giá trị
của m mẫu đến trước như sau:

⎡m ⎤ ˆ f n = round ⎢ ∑ α i f n−i ⎥ ⎣ i =1 ⎦

(3.3.6)

α i - hệ số dự đoán với i = 1,2,...m ;
round ( ⋅ ) - toán tử làm tròn tới số nguyên gần nhất.
3.3.5 Các phương pháp nén tổn hao (loss data reduction) Các phương pháp nén có tổn hao thường có hiệu quả nén cao hơn rất nhiêu so với nén không tổn hao. Đặc điểm của các phương pháp nén này là hiệu quả nén càng cao thì mức độ tổn hao càng lớn, nói cách khác chất lượng ảnh nén sẽ giảm đi khi hệ số nén tăng lên. Một số phương pháp nén ảnh có tổn hao có thể đạt hệ số nén tới 100 lần trong khi chất lượng ảnh nén vẫn còn chấp nhận được. Cần chú ý rằng hệ số nén cũng như chất lượng ảnh nén trong trường hợp nén tổn hao phụ thuộc tương đối nhiều vào tính chất của hình ảnh gốc.
Sau đây chúng ta sẽ đề cập tới một số phương pháp nén ảnh tổn hao tiêu biểu.

3.3.5.1 Phương pháp mã dự đoán có tổn hao Sơ đồ khối của bộ mã hóa dự đoán có tổn thất khác với bộ mã hóa không tổn thất (hình 3.3.5) do có thêm bộ lượng tử hóa . Quá trình lượng tử hóa sẽ làm tròn giá trị en tới mức lượng tử
gần nhất là e n . Hiệu quả nén của hệ thống mã hóa và sai số giữa ảnh nén và ảnh gốc sẽ phụ thuộc vào số mức lượng tử được sử dụng trong coder.

 

 181 

Chương 3 Kỹ thuật xử lý hình ảnh 
Để kết quả dự đoán ở coder và decoder như nhau, các mẫu tới trước dùng để dự đoán tại coder phải chứa cả thành phần sai số do lượng tử hóa tạo ra vì sai số này tồn tại trong tín hiệu đưa tới bộ dự đoán trong decoder:

ˆ f n = en + f n

(3.3.7)

f n cũng được sấp xỉ theo công thức (3.3.6).
Trong bộ giải mã, giá trị các điểm ảnh giải nén cũng được xác định bởi (3.3.7).
en

en

fn

ˆ fn

fn

a) mã hóa DPCM
en
ˆ fn
fn

b) giải mã DPCM Hình 3.3.5 Hệ thống mã hóa dự đoán có tổn thất 3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu Trong phần này chúng ta sẽ phân tích kỹ thuật nén ảnh số sử dụng các phép biến đổi không gian tín hiệu. Nguyên lý chung của các phương pháp nén này là sử dụng các phép biến đổi tuyến tính (như biến đổi Fourier, biến đổi Cosin, biến đổi DCT - Discrete Cosine Transform v.v.) để ánh xạ ảnh số sang không gian khác. Tập hệ số kết quả của các biến đổi tuyến tính sau đó được lượng tử hóa và mã hóa. Ưu điểm quan trọng của các phép biến đổi là các hệ số khai triển thường có mức tương quan nhỏ hơn so với mức độ tương quan giữa các điểm ảnh trong không gian thực. Ngoài ra, phần lớn năng lượng của tín hiệu tập trung tại các hệ số nằm trong miền tần số thấp. Quá trình nén dữ liệu có thể được thực hiện trong giai đoạn lượng tử hóa: khi lựa chọn mức lượng tử tương đối lớn, các hệ số biến đổi có năng lượng nhỏ (thường nằm ở miền tần số cao) sẽ bị loại bỏ bớt. Ảnh nén nhìn chung sẽ không hoàn toàn giống được ảnh gốc, tuy nhiên có thể dự đoán rằng, ảnh hưởng của các thành phần cao tần bị loại bỏ thường không lớn, do đó chất lượng ảnh hầu như không bị thay đổi kể cả khi tín hiệu bị nén khá nhiều. Hình 3.3.6 mô tả sơ đồ khối tổng quát hệ thống nén ảnh sử dụng phép biến đổi không gian. Coder thực hiện bốn bước cơ bản: 1Chia ảnh thành các block (để tiện xử lý trong máy tính, các block thường có kích thước 8x8 pixel); 2- Thực hiện phép biến đổi với từng block; 3- Lượng tử hóa các hệ số biến đổi; 4- Mã hóa. Decoder thực hiện quá trình biến đổi ngược lại (ngoài việc lượng tử hóa).

 

 182 

Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.6 Sơ đồ khối hệ thống nén ảnh sử dụng phép biến đổi không gian a- Bộ mã hóa (coder) b- Bộ giải mã (decoder)

3.3.5.3 Các chuẩn nén ảnh tính và ảnh động • Các chuẩn nén ảnh tĩnh
Hiện nay trong lĩnh vực ảnh số có khá nhiều chuẩn nén đang được sử dụng. Một số định dạng nén không tổn hao được hầu hết các phần mềm xử lý ảnh số chuyên nghiệp như Photoshop (hãng Adobe Systems) hay Photo Paint (Corel Corp.) hỗ trợ là: BMP, PCX, GIF, TIFF…. Tuy nhiên như đã phân tích ở trên, các chuẩn nén không tổn hao thường có hệ số nén rất thấp, do đó chúng chỉ được sử dụng để nén ảnh có kích thướng nhỏ. Phương pháp nén ảnh có tổn hao được sử dụng rộng rãi vì có hiệu quả nén cao hơn nhiều so với nén không tổn hao. Hai phương pháp nén đáng chú ý nhất hiện nay đều dựa trên các phép biến đổi không gian, đó là phương pháp nén theo JPEG và nén ảnh sử dụng biến đổi Wavelet (Wavelet transform). Cả hai phương pháp nén nói trên có hiệu quả nén rất cao, tuy nhiên, chuẩn nén JPEG được sử dụng rộng rãi hơn. Tiêu chuẩn nén JPEG được hỗ trợ trong nhiều chương trình xử lý ảnh, trên các web browser; kỹ thuật nén JPEG còn được tích hợp trong các hệ thống nén ảnh động MPEG, là chuẩn nén thông dụng cho tín hiệu truyền hình số hiện nay. Phần sau của tài liệu này chúng ta sẽ nghiên cứu kỹ hơn về tiêu chuẩn nén JPEG và MPEG. • Các chuẩn nén ảnh động 1- Chuẩn H.261 ITU (CCITT) H.261 được phát triển để nén tín hiệu hình ảnh cho dịch vụ truyền hình hội nghị và video phone qua đường truyền ISDN ở tốc độ px64kbps (p=1..30). Trên đường truyền 64kbps, luồng 48kbps dùng để truyền tín hiệu video, 16kbps – dành cho audio. Kỹ thuật nén ảnh được sử dụng trong chuẩn H.261 sẽ làm nền tảng cho các chuẩn nén sau này như MPEG 1, 2. Trong chuẩn nén H.261 có sử dụng các kỹ thuật nén trong ảnh dựa trên biến đổi DCT, nén liên ảnh với bộ bù chuyển động. H.261 hỗ trợ hai độ phân giải CIF (Common Intermediate Format) và QCIF (Quarter Common Intermediate Format) (hình 3.3.7). Phương pháp lấy mẫu tín hiệu chói và màu: YCbCr 4:2:0. 2- Chuẩn H.263 Đây là chuẩn nén được cải tiến từ H.261 tạo ra luồng video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN. Chuẩn nén H.263 được công nhận năm 1996. Giống như H.261, H.263 sử dụng biến đổi DCT cho quá trình nén trong ảnh và ảnh sai số (là hiệu của ảnh gốc và ảnh nén). Chuẩn H.263 hỗ trợ các độ phân giải SQCIF, QCIF, CIF, 4 CIF và 16CIF.

 

 183 

Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.7 Độ phân giải chuẩn của video số 3- Chuẩn nén MPEG Chuẩn nén MPEG sẽ được phân tích cụ thể hơn ở phần sau của tài liệu này.

3.3.5.4 Phương pháp nén ảnh tĩnh theo chuẩn JPEG JPEG (Joint Photographic Expert Group ) là tên của một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Chuẩn JPEG được ứng dụng để nén ảnh tĩnh đơn sắc và ảnh màu.Tiêu chuẩn nén JPEG có thể được ứng dụng trong nhiều lĩnh vực: lưu trữ ảnh, truyền ảnh qua mạng, truyền ảnh báo chí, ảnh cho y học, camera số v.v...
Hệ số nén ảnh tĩnh theo phương pháp JPEG có thể đạt từ 10 – 50 (lần) mà không làm ảnh hưởng nhiều đến chất lượng hiển thị của ảnh. Khai triển DCT được chọn là kỹ thuật then chốt trong JPEG vì nó cho phép nén ảnh với chất lượng tốt nhất tại tốc độ bit thấp, giải thuật chuyển đổi nhanh và dễ dàng thực hiện bằng phần cứng. Trên hình 3.3.8 là sơ đồ khối bộ mã hóa ảnh theo chuẩn JPEG.
f ( i, j )
F ( u, v )

Fq ( u, v )

Hình 3.3.8 Sơ đồ khối bộ mã hóa ảnh theo JPEG Trước khi đưa tới bộ chuyển đổi DCT, ảnh màu gốc phải được phân tích thành các ảnh đơn sắc và được số hóa theo một trong những tiêu chuẩn hiện hành. Ảnh chói (Y) và hai ảnh màu đơn sắc UV (chuẩn PAL) hoặc IQ (chuẩn NTSC) được chia thành các block 8x8 và đưa tới bộ chuyển đổi DCT. Các block được "đọc" lần lượt từ ảnh gốc theo chiều từ trái sang phải, từ trên xuống dưới. Kích thước block là 8×8 được chọn bởi hai lý do sau: (1) nhiều công trình nghiên cứu cho thấy hàm tương quan giữa các điểm ảnh suy giảm rất nhanh khi khoảng cách giữa các pixel vượt quá 8; (2) kích thước 8x8 tiện lợi cho việc tính toán và thiết kế phần cứng. Bộ chuyển đổi DCT biến đổi ma trận ảnh f ( i , j ) 8x8 thành ma trận hệ số F ( u, v ) cùng kích thước. Ma trận F(u,v) được đưa tới bộ lượng tử. Các hệ số DCT sẽ được lượng tử hóa dựa trên bảng lượng tử. Tín hiệu chói và tín hiệu màu sẽ được lượng tử theo các bảng lượng tử khác

 

 184 

Chương 3 Kỹ thuật xử lý hình ảnh 
nhau. Ma trận các hệ số DCT nhận được sau bộ lượng tử là Fq ( u , v ) . Hệ số Fq ( 0,0 ) là thành phần trung bình (thành phần DC) của mỗi block được đưa tới bộ mã hóa vi sai (DPCM). Các hệ số khác (thành phần AC) trong từng block được đọc ra theo trình tự zigzag và đưa tới bộ mã hóa loạt dài (RLC). Cuối cùng chuỗi dữ liệu từ hai bộ mã hóa DPCM và RLC được mã hóa một lần nữa bằng mã entropy. Dữ liệu nén cùng các bảng mã và bảng lượng tử được kết hợp lại thành file ảnh nén theo chuẩn JPEG. Sau đây chúng ta sẽ phân tích từng khâu xử lý trong quá trình nén ảnh JPEG.

3.3.5.4.1 Biến đổi DCT
Công đoạn đầu tiên của quá trình nén theo JPEG là biến đổi cosin rời rạc DCT (Discrete Cosine Transform). DCT biến đổi dữ liệu từ miền không gian sang miền tần số. DCT được sử dụng tương đối rộng rãi vì nó có đặc tính "gói" năng lượng tốt, biến đổi DCT cho kết quả là các số thực, ngoài ra có các thuật toán nhanh để thực hiện biến đổi này. Biến đổi DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu chói Y và các khối tương ứng của tín hiệu hiệu màu (UV hoặc IQ). • DCT hai chiều:

Biến đổi DCT hai chiều (2-D) được dùng cho các khối ảnh có kích thước 8×8. Quá trình biến đổi thuận DCT (Forward DCT) dùng trong tiêu chuẩn JPEG được định nghĩa như sau: F(u,v)= trong đó: f(j,k)- các mẫu của ảnh gốc trong block 8×8 pixel. F(u,v)-các hệ số của khối DCT 8×8.

C (u )C (v ) 4

∑∑ f ( j, k ) cos
j =0 k =0

7

7

(2k + 1)vπ (2 j + 1)uπ cos 16 16

(3.3.8)

⎧ ⎪1 / 2 C (u ) , C (v ) = ⎨ ⎪1 ⎩

u, v = 0 u, v ≠ 0

ngang và một cho tần số dọc. Trong ma trận hệ số DCT hai chiều, hệ số thứ nhất F ( 0,0 ) bằng giá trị trung bình của các điểm ảnh trong block 8x8:

Phương trình trên là kết quả liên kết của hai phương trình DCT một chiều, một cho tần số

F ( 0,0) =

1 7 ∑ 8 j=0

∑ f ( j, k)
k =0

7

(3.3.9)

Các hệ số nằm ở các dòng dưới thành phần một chiều, đặc trưng cho các tần số cao hơn của tín hiệu theo chiều dọc. Các hệ số nằm ở các cột bên phải của thành phần một chiều đặc trưng cho các tần số cao hơn theo chiều ngang. Hệ số F(0,7) là thành phần có tần số cao nhất theo chiều ngang của block ảnh 8×8, và hệ số F(7,0) đặc trưng cho thành phần có tần số cao nhất theo chiều dọc. Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và chiều ngang. Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch cho phép tái tạo lại các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau:

 

 185 

Chương 3 Kỹ thuật xử lý hình ảnh 
f ( j, k ) = ∑∑ C ( u) C ( v) (2 j + 1)uπ (2k + 1)vπ F (u, v)cos cos 4 16 16 u=0 v=0
7 7

(3.3.10)

Bản thân phép biến đổi DCT không nén được dữ liệu, từ 64 mẫu ta nhận được 64 hệ số. Trong các hệ số DCT, thành phần DC thường có giá trị lớn nhất, các hệ số nằm kề nó ứng với tần số thấp có giá trị nhỏ hơn, các hệ số còn lại ứng với tần số cao thường có giá trị rất nhỏ. Trên hình vẽ 3.3.9 là một ví dụ minh họa quá trình biến đổi DCT hai chiều cho một block 8×8 điểm ảnh (chói) được trích ra từ một ảnh thực. Thành phần chói Y sau khi số hóa sẽ có biên độ các mẫu nằm trong khoảng 0-255, các mẫu của thành phần màu CR,CB có biên độ cực đại là ±128. Để có thể sử dụng một bộ mã hóa DCT cho cả tín hiệu chói và màu, tín hiệu Y được dịch mức xuống dưới bằng cách trừ 128 từ mỗi giá trị pixel trong block 8x8. Ở bộ giải mã DCT, giá trị này sẽ được cộng thêm vào các giá trị chói sau khi giải nén. Giá trị hệ số DC của khối DCT dao động trong khoảng từ −2
10

đến 2

10

− 1.

3.3.5.4.2 Lượng tử hóa
Bước tiếp theo của quá trình nén ảnh là bước lượng tử hóa các hệ số DCT F(u,v) với mục đích làm giảm số lượng bit cần thiết dùng để mô tả những hệ số đó. Các hệ số tương ứng với tần số thấp thường có giá trị lớn, những hệ số này chứa phần lớn năng lượng của tín hiệu, do đó chúng phải được lượng tử hóa với độ chính xác cao. Riêng hệ số DC cần mã hóa với độ chính xác cao nhất, bởi lẽ hệ số này là giá trị độ chói trung bình của từng block ảnh. Sự thay đổi độ chói trung bình của các block sẽ ảnh hưởng rất nhiều tới chất lượng của ảnh nén. Để thực hiện quá trình nén dữ liệu, ma trận các hệ số khai triển sau DCT phải được chia cho bảng trọng số Q(u,v) để loại bỏ một phần các hệ số DCT có biên độ nhỏ (thường là các thành phần cao tần).

Hình 3.3.9 Kết quả các bước nén ảnh theo JPEG và bảng lượng tử Q(u,v).

 

 186 

Chương 3 Kỹ thuật xử lý hình ảnh 
JPEG sử dụng phương pháp lượng tử không đồng đều, các hệ số có tần số thấp được chia cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trị lớn hơn, kết quả sẽ được làm tròn (bỏ đi các phần thập phân): Fq(u,v)=round ⎢

⎡ F (u, v) ⎤ ⎥ ⎣ Q(u, v) ⎦

(3.3.11)

Trên hình 3.3.9 mô tả quá trình biến đổi DCT: ảnh gốc (a), ma trận hệ số DCT trước (b) và sau khi lượng tử hóa (d) bằng cách chia cho bảng lượng tử Q(u,v) (c).

3.3.5.4.3 Quét zig-zag
Để mã hóa entropy các hệ số Fq(u,v), trước hết, cần biến đổi ma trận hệ số Fq(u,v) thành chuỗi số một chiều. Trong kỹ thuật JPEG sử dụng phương pháp đọc theo đường zig-zag (quét zigzag). Việc đọc 64 hệ số của khối 8x8 pixel theo đường zig-zag (hình 3.3.10) làm tăng tối đa độ dài của chuỗi các giá trị 0 liên tiếp. Như vậy hiệu quả nén khi dùng mã RLC sẽ tăng.

Hình 3.3.10 Quét zig-zag các hệ số lượng tử hóa DCT

3.3.5.4.4 Mã hóa thành phần DC
Các hệ số DC là giá trị trung bình của các khối ảnh 8x8. Độ chói trung bình của các block ảnh gần nhau thường ít biến đổi, do đó trong chuẩn nén JPEG, các hệ số DC được mã hóa theo phương pháp DPCM. Để tăng hiệu suất nén, kết quả nhận được sau đó được mã hóa tiếp bằng mã Huffman. Trên lý thuyết, dải động của các giá trị nhận được sau khi mã hóa DPCM lớn gấp đôi dải động của các hệ số DCT, có nghĩa là thành phần này sẽ có giá trị nằm trong khoảng −2
11

đến

2 − 1 . Số lượng bits cần thiết để mã hóa thành phần DC có thể lên tới 11.
Sơ đồ khối bộ mã hóa thành phần DC trình bày trên hình 3.3.11.

11

Hình 3.3.11 Bộ mã hóa thành phần DC Hệ số DC của các block DCT được lần lượt đưa tới bộ DPCM. Thành phần sai số giữa hai hệ số DC liên tiếp sẽ được mã hóa trong bộ mã hóa Huffman. Quá trình mã hóa Huffman được thực hiện cho thành phần DC như sau: 1- Dò tìm trong bảng phân loại để tìm "loại" của giá trị

 

 187 

Chương 3 Kỹ thuật xử lý hình ảnh 

ΔDC . ("loại" chính là chiều dài từ mã dùng để mã hóa thành phần ΔDC ); 2- Dùng bảng mã Huffman cho thành phần DC để tìm ra từ mã cho "loại" ΔDC tìm được ở bước 1; 3- Mã hóa nhị phân giá trị ΔDC ; 4- Ghép từ mã Huffman và giá trị nhị phân của ΔDC để có được từ mã cho
thành phần DC. Trên hình 3.3.12 và 3.3.13 là các bảng tra cần thiết để thực hiện mã hóa thành phần DC. Ví dụ: Thành phần DC trong block trên hình 3.3.14 có giá trị DCn=15. Giả sử thành phần DC của block trước đó là DCn-1=12. Như vậy kết quả mã hóa DPCM sẽ là giá trị

ΔDC = DCn − DCn−1 = 3 . Trên bảng 3.3.12, ta có ΔDC = 3 thuộc "loại" 2.

Hình 3.3.12 Bảng phân loại các hệ số AC và DC

Hình 3.3.13 Bảng mã Huffman cho thành phần DC

Hình 3.3.14 Block hệ số DCT cần được mã hóa Dựa vào bảng mã huffman ta có từ mã ứng với "loại" 2 là (01) (như vậy 2 chính độ dài của mã). Giá trị ΔDC = 3 được biểu diễn bằng chuỗi nhị phân "11". Như vậy từ mã DC sẽ là 0111.

3.3.5.4.5 Mã hóa thành phần AC
Sơ đồ khối của bộ mã hóa thành phần AC được biểu diễn trên hình 3.3.15.

 

 188 

Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.15 Bộ mã hóa thành phần AC Chuỗi các hệ số AC được lần lượt đưa vào bộ mã hóa RLC. Ở đầu ra ta nhận được các từ mã bao gồm hai thành phần: 1) Giá trị chạy – là số lượng bit "0" đứng trước hệ số khác "0" đang được mã hóa; 2) biên độ của hệ số khác "0" nói trên. Từ mã Huffman ứng với cặp giá trị trên được tìm ra trong bảng phân loại 3.3.12 và bảng mã Huffman cho thành phần AC (hình 3.3.16). Từ mã AC sẽ bao gồm từ mã Huffman và giá trị biên độ (nhị phân) của hệ số AC. Ví dụ: Sau quá trình quét zig-zag, từ block hệ số DCT trên hình 3.3.14 ta nhận được chuỗi hệ số AC sau: 0, -2, -1, -1, -1, 0 , 0,-1, 0 , 0…… Chuỗi bít nhận được sau bộ mã RLC là: (1,-2) (0, -1) (0, -1) (0, -1) (2,-1) (EOB) Sau hệ số khác "0" cuối cùng, chúng ta đặt từ mã đặc biệt để báo hiệu kết thúc khối, từ mã này có tên là EOB – End Of Block. Sử dụng bảng phân loại (hình 3.3.12) chúng ta tìm được loại của biên độ các hệ số. Tín hiệu được đưa vào mã hóa Huffman có cấu trúc sau: (1,2)(-2), (0,1)(-1), (0,1)(-1), (0,1)(-1) (2,1)(-1), (0,0) Ý nghĩa của các giá trị trong chuỗi trên được giải thích trong hình sau:

Hình 3.3.16 Bảng mã Huffman cho thành phần AC Từ mã Hufman cho từng cặp giá trị chạy và loại có thể được tìm ra sau khi tra bảng trên hình 3.3.16. Kết quả mã hóa các thành phần AC và DC được tập hợp lại thành chuỗi bít có dạng như sau:

 

 189 

Chương 3 Kỹ thuật xử lý hình ảnh 

0111 11100101 0000 0000 0000 1101100 1010
code Huffman

DC

AC

EOB

Có thể thấy rằng chỉ cần 35 bits để truyền đi block 64 điểm ảnh, như vậy hiệu quả nén của phương pháp JPEG trong trường hợp này là 0.5 bit/điểm ảnh.

3.3.5.4.6 Giải nén theo JPEG
Sơ đồ khối bộ giải nén ảnh JPEG biểu diễn trên hình 3.3.17. Quá trình giải nén JPEG được thực hiện với trình tự ngược với quá trình mã hóa. Đầu tiên, bộ giải mã tách các thông tin ghi trong phần Header của ảnh nén: đó là bảng mã và bảng lượng tử.
YUV, YIQ

f ( i, j )
IDCT

F ( u, v )
Lượng tử ngược

Fq ( u, v )

8x8

Bảng lượng tử ngược
Header Bảng mã

Bảng mã Giải mã DPCM Giải mã entropy Giải mã RLC
DC

AC

Hình 3.3.17 Sơ đồ khối bộ giải mã tín hiệu JPEG Các bảng này được đưa tới khối giải mã entropy và khối lượng tử ngược. Dữ liệu mang tin tức về ảnh được lần lượt đưa qua bộ giải mã entropy, giải mã DPCM và RLC. Các hệ số DC và AC sau khi giải mã sau đó sẽ được sắp xếp theo thứ tự để tạo ra block hệ số DCT giống như ở phía coder. Quá trình lượng tử ngược được thực hiện theo công thức:

F (u, v ) = Fq (u, v ) ⋅ Q(u, v )

(3.3.12)

Q(u, v ) - là bảng lượng tử giống như bảng lượng tử dùng ở coder.
Tập hệ số DCT F (u, v ) được đưa vào khối biến đổi DCT nghịch theo công thức (3.3.12) để tạo ra block ảnh giải nén.

3.3.5.5 Nén JPEG lũy tiến Phương pháp nén ảnh được phân tích ở phần trên được gọi là phương pháp nén JPEG căn bản (Baseline Lossy JPEG) hay JPEG tuần tự. Giải pháp nén JPEG lũy tiến được cải tiến từ JPEG tuần tự nên nhìn chung chúng có nhiều điểm tương đồng. Khi ảnh được nén theo chuẩn JPEG tuần tự, ở bộ giải nén, các block ảnh sẽ được khôi phục theo trình tự từ trái sang phải từ trên xuống dưới. Như vậy, toàn bộ ảnh chỉ được hiển thị lên trên màn hình sau khi nhận được tất cả các gói tin từ phía phát. Trong một số trường hợp, đặc biệt khi truyền ảnh số chất lượng cao qua mạng băng thông hẹp, thời gian truyền ảnh có thể tương đối lâu và người xem phải chờ một thời gian dài.
Phương pháp nén JPEG lũy tiến thực hiện ghi dữ liệu theo cách đặc biệt để decoder có thể giải mã toàn bộ ảnh ở "mức thô" ngay mà không cần chờ đến khi quá trình truyền ảnh kết thúc.

 

 190 

Chương 3 Kỹ thuật xử lý hình ảnh 
Các hệ số DCT ứng với tần số thấp của các block 8x8 được truyền đi trước, ví dụ, tất cả các hệ số F (0,0) của các block được truyền lần lượt theo thứ tự từ trái sang phải, từ trên xuống dưới. Kế tiếp là chuỗi các hệ số F ( 0,1) , F (1,0 ) v.v. Phía thu sau khi nhận được các hệ số F (0,0) , vì các điểm ảnh trong khối 8x8 điểm đều có giá trị bằng F ( 0,0 ) (tức giá trị trung bình của block). Với cách khôi phục ảnh như vậy, người quan sát sẽ không thấy khó chịu khi phải ngồi chờ trước màn hình trống trong một thời gian dài. Hơn nữa khi quan sát được nội dung chính của ảnh, người nhận có thể nhanh chóng đưa ra quyết định tải tiếp hay ngừng quá trình tải ảnh. Với cơ chế làm việc như vậy, bộ mã hóa và giải mã JPEG lũy tiến phải có bộ nhớ đệm, kích thước bộ nhớ đệm phải đủ lớn để chứa tất cả các hệ số DCT của ảnh. Trên hình vẽ 3.3.18 là các ảnh cho thấy sự khác nhau trong quá trình giải nén JPEG lũy tiến và JPEG tuần tự. decoder đã có thể nhanh chóng khôi phục được ảnh thô, với độ phân giải thấp hơn 64 lần ảnh gốc,

a)

b)

c)

d)

e)

Hình 3.3.18 So sánh quá trình giải mã JPEG lũy tiến và tuần tự a- Ảnh gốc. b- Ảnh nén theo JPEG tuần tự đang được giải mã. c, d, e- Các pha giải mã ảnh nén theo JPEG lũy tiến Nén JPEG lũy tiến có thể thực hiện theo 3 giải thuật sau: 1) 2) 3) Giải thuật lựa chọn phổ (progressive spectral selection algorithm). Giải thuật xấp xỉ thành công (progressive successive approximation algorithm). Giải thuật kết hợp (combined progresssive algorithm).

Giải thuật lựa chọn phổ vừa được mô tả ở trên. Trong giải thuật xấp xỉ, tất cả các hệ số DCT được gởi đi trước có độ chính xác thấp hơn, thí dụ: bước 1 truyền 4 bits, bước hai truyền thêm 4 bits, bước ba truyền nốt 2 bits còn lại của số nhị phân biểu diễn biên độ hệ số AC. Giải thuật kết hợp dựa trên nguyên tắc kết hợp cả hai giải thuật chia phổ và xấp xỉ. Hệ thống JPEG lũy tiến hiệu quả trong việc truyền các ảnh có kích thước lớn. Hệ thống này hướng đến những ứng dụng yêu cầu truyền nhanh các ảnh có độ phân giải cao qua mạng có băng thông giới hạn: ví dụ truyền ảnh y học, ảnh chụp từ vệ tinh cũng như truyền hình ảnh qua mạng Internet.

 

 191 

Chương 3 Kỹ thuật xử lý hình ảnh 
3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG Tiêu chuẩn JPEG xác định các tham số trong bảng sau:

Hình 3.3.19 Các tham số cơ bản của chuẩn JPEG 3.3.5.7 Phương pháp nén ảnh động theo chuẩn M-JPEG M – JPEG là chuẩn mở rộng của JPEG. Theo chuẩn này, ảnh động được tạo ra từ chuỗi các ảnh tĩnh có thể được nén trong ảnh bằng phương pháp JPEG. M–JPEG chỉ thực hiện nén dữ liệu trong mỗi ảnh nên hiệu quả nén thấp hơn so với các phương pháp nén ảnh động MPEG sẽ được xét sau đây. Hệ số nén đạt được khi nén ảnh động theo phương pháp M – JPEG phụ thuộc vào chất lượng ảnh nén: tín hiệu video nén M-JPEG chất lượng cao (dùng trong studio) thường có tốc độ dòng bits trên 24 Mbit/s. Khi tỷ số nén quá cao, trong ảnh nén sẽ bị "vỡ" thành các ô vuông có kích thước 8x8 pixel còn gọi là artefact. Vì các ảnh được mã hóa độc lập với nhau nên quá trình ghép cảnh khi dàn dựng trong studio sẽ có độ chính xác tới từng ảnh. Đây chính là điểm mạnh của chuẩn nén M – JPEG. Kỹ thuật nén ảnh M – JPEG được sử dụng rộng rãi trong công nghệ sản xuất chương trình truyền hình, tạo kỹ xảo, trong các máy quay video số, các hệ thống dàn dựng video trong gia đình (video home studio). Các thiết bị sử dụng định dạng nén M – JPEG có nhược điểm sau: • Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không thể sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi nén còn cao. • Kỹ thuật nén M-JPEG chưa được chuẩn hóa như các định dạng nén khác (JPEG, MPEG-2 v.v.), nên thiết bị nén của các hãng khác nhau thường không có tính tương thích cao, do đó khó có thể trao đổi trực tiếp số liệu cho nhau. • Các phần mềm giải mã video hỗ trợ định dạng M-JPEG còn chưa phổ biến.

 

 192 

Chương 3 Kỹ thuật xử lý hình ảnh 
3.3.6 Chuẩn nén ảnh động MPEG Nén tín hiệu video theo chuẩn MPEG (Moving Picture Experts Group) là phương pháp nén ảnh động không những làm giảm dư thừa trong không gian mà còn làm giảm dư thừa giữa các khung ảnh (frame), đây cũng là khác biệt cơ bản so với JPEG là chuẩn nén ảnh tĩnh chỉ làm giảm dư thừa không gian trong một khung ảnh. Như đã giới thiệu ở phần trước, các kỹ thuật nén được chuẩn hóa bởi MPEG bao gồm MPEG-1, MPEG-2, MPEG-4, MPEG-7. Song song với các định dạng nén cho tín hiệu video, trong các chuẩn MPEG còn xác định các phương pháp nén cho tín hiệu audio. Ví dụ, chuẩn MPEG-1 định nghĩa 3 lớp nén audio như sau:
• • •

MP1 or MPEG-1 Part 3 Layer 1 (MPEG-1 Audio Layer I) MP2 or MPEG-1 Part 3 Layer 2 (MPEG-1 Audio Layer II) MP3 or MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer III) Audio Layer 3 là tiêu chuẩn nén audio số được sử dụng rộng rãi hiện nay. Sau đây chúng ta sẽ phân tích các kỹ thuật nén ảnh tiêu biểu được sử dụng trong chuẩn nén ảnh động MPEG.

3.3.6.1 Kỹ thuật xử lý tín hiệu trong MPEG • Kỹ thuật bù chuyển động
Để nâng cao hiệu suất nén ảnh động, trong chuẩn MPEG sử dụng kỹ thuật bù chuyển động. Tín hiệu video được tạo thành từ một chuỗi ảnh tĩnh (frame). Vì tần số ảnh trong tín hiệu video tương đối cao (25 hoặc 30 ảnh/giây) nên trong các frames nằm gần nhau thường có nhiều vùng ảnh tương đối giống nhau. Nguyên lý bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần giống nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán). Thông tin về ảnh dự đoán sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của vùng ảnh thuộc ảnh tham khảo có mặt trong ảnh dự đoán. Quá trình tìm ra vector chuyển động gọi là quá trình xấp xỉ chuyển động (motion estimation), quá trình khôi phục ảnh dựa trên vector này gọi là quá trình bù chuyển động (motion compensation). Trong MPEG, người ta tìm vector chuyển động cho từng khối ảnh có kích thước 16x16. Để hạn chế thời gian xấp xỉ chuyển động, vector chuyển động của một block ảnh được tìm trong một vùng tìm kiếm nhất định. Kỹ thuật xấp xỉ và bù chuyển động được mô tả trên hình 3.3.20.

Hình 3.3.20 Minh họa quá trình xấp xỉ chuyển động Trong MPEG người ta thường chọn block ảnh dùng để xấp xỉ có kích thước 16 × 16 điểm ảnh và được gọi là macroblock (MB). Quá trình xấp xỉ chuyển động chỉ được thực hiện trong ảnh chói, tuy nhiên các vector chuyển động sẽ được sử dụng để mã hóa cho cả các ảnh màu thành phần. Trên hình 3.3.21 là một ảnh trong chuỗi ảnh MPEG sau khi được bù chuyển động dựa trên

 

 193 

Chương 3 Kỹ thuật xử lý hình ảnh 
các vector chuyển động (các đường thẳng màu xanh). Chỉ tiết ảnh có tốc độ dịch chuyển nhanh (cánh tay vận động viên) sẽ tạo ra các vector chuyển động có độ dài lớn hơn các vector chuyển động trong vùng ảnh nền.

Hình 3.3.21 Các vector chuyển động và ảnh bù chuyển động • Các loại ảnh nén trong MPEG Tùy theo phương pháp mã hóa, MPEG định nghĩa 4 loại ảnh sau: 1- Ảnh loại I (Intra-picture) Là ảnh được mã hóa trong ảnh bằng kỹ thuật nén giống JPEG. Ảnh I là ảnh tham khảo để dự đoán các ảnh B,P. Quá trình truy cập tới một vị trí nào đó trong đoạn video được bắt đầu từ frame I. Tỷ lệ nén của ảnh I thấp hơn so với các ảnh P và B. 2- Ảnh loại P (Predicted-picture) Là ảnh được mã hóa với vector chuyển động, được xấp xỉ từ ảnh I hay P trước nó. Ảnh P cung cấp hệ số nén cao hơn ảnh I và có thể sử dụng như ảnh tham khảo để xấp xỉ chuyển động trong các ảnh P và B khác. 3- Ảnh loại B ( Bi-directional predicted picture) Là ảnh được mã hóa với vector chuyển động được xấp xỉ dựa trên các ảnh I hoặc P ở phía trước và ở phía sau nó. Ảnh B cho tỷ lệ nén cao nhất. Nguyên tắc bù chuyển động trong ảnh B được mô tả trên hình 3.3.22.
Các chi tiết được dự đoán từ ảnh trước

Ảnh 1

Ảnh 2
Chi tiết được dự đoán từ ảnh sau

Ảnh 3

Hình 3.3.22 Quá trình bù chuyển động trong ảnh B 4- Ảnh loại D ( DC-coded picture)

 

 194 

Chương 3 Kỹ thuật xử lý hình ảnh 
Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG2. Ảnh D được mã hóa giống như ảnh I, tuy nhiên chỉ có thành phần một chiều (DC) được lưu lại. Các ảnh D được sử dụng khi cần tua nhanh video vì tốc độ giải mã ảnh D cao, tuy nhiên, độ phân giải của ảnh D rất thấp. • Nhóm ảnh (GOP)

Nhóm ảnh (GOP-Group of Picture) là đơn vị mang thông tin độc lập của MPEG. Ảnh P và B trong MPEG không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh tham khảo xuất hiện trước nó (đối với ảnh P) hay sự khác biệt giữa nó và các ảnh tham khảo xuất hiện trước và sau nó (đối với ảnh B). Để khôi phục được ảnh P và B cần có dữ liệu từ các ảnh tham khảo, như vậy khởi đầu một chuỗi ảnh phải là ảnh I. GOP trong MPEG là chuỗi ảnh liên tiếp bắt đầu bằng một ảnh I và tiếp sau nó là các ảnh P và B. Nhóm ảnh có thể mở (Open) hoặc đóng (Closed). Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh trước ảnh I tiếp theo, khi đó ảnh B cuối cùng của GOP sẽ dùng ảnh đầu tiên của GOP tiếp theo làm ảnh tham khảo (hình 3.3.23).

Hình 3.3.23 Cấu trúc GOP mở Trong hình 3.3.23, ảnh P (ảnh số 4) được dự báo trước trên cơ sở ảnh I. Ảnh B (3 và 4) được dự đoán từ I (1) và P (4). Ảnh B (5 và 6) được dự đoán từ ảnh P (4) và ảnh I của GOP tiếp theo (ảnh 7). Một điều cần chú ý là thứ tự truyền các ảnh trong GOP và thứ tự hiển thị ảnh giải nén lên màn hình không giống nhau. Ví dụ: để có thể giải mã được chuỗi ảnh trên hình 3.3.23, ảnh I(1) và P(4) phải được truyền trước, sau đó là hai ảnh B(3 và 4). Tiếp đến là ảnh ảnh I(7) sau đó là hai ảnh B (6 và 7) còn lại. Đối với cấu trúc khép kín (đóng), việc dự đoán ảnh không sử dụng thông tin của GOP khác. Trong trường hợp này, theo quy định, ảnh cuối cùng của một GOP bao giờ cũng là ảnh P (hình 3.3.24).

Hình 3.3.24 Cấu trúc GOP đóng

 

 195 

Chương 3 Kỹ thuật xử lý hình ảnh 
GOP được xác định bởi hai thông số M và N. Thông số M xác định số ảnh có trong một GOP. Số N là khoảng cách giữa hai ảnh P (hay giữa hai ảnh I và P). GOP trong hình 3.3.27, có M=4, N=3. Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP. GOP càng dài tỷ lệ nén càng lớn. Tuy nhiên, GOP dài sẽ ảnh hưởng tới quá trình tua video, dừng ảnh (freeze-frame), sửa lỗi... Do đó tùy thuộc vào từng ứng dụng cụ thể (sản xuất video, dựng hình, truyền dẫn, phát sóng v..v) cần lựa chọn độ dài GOP thích hợp. Ví dụ, trong kỹ thuật dựng hình, nhu cầu thiết yếu là truy cập ngẫu nhiên tới bất cứ ảnh nào trong đoạn video, vì vậy trong GOP sẽ chỉ có các ảnh I, tất nhiên khi đó tỷ lệ nén sẽ rất thấp.

3.3.6.2 Mã hóa tín hiệu MPEG Sơ đồ khối của bộ mã hóa MPEG được trình bày trên hình 3.3.25. Tín hiệu video trước khi đưa vào bộ nén được lấy mẫu theo chuẩn 4:2:2 hoặc 4:2:0. Các thành phần chói và màu được mã hóa riêng biệt. Ảnh chói và màu được chia thành các block 8x8. Ba khối DCT, Lượng tử hóa và Mã hóa entropy được sử dụng để nén trong ảnh. Các khối này có chức năng giống các khối tương tự trong bộ mã hóa JPEG (hình 3.3.8). Khác biệt chính giữa JPEG và MPEG là giai đoạn nén liên ảnh (nén trong miền thời gian) và kỹ thuật bù chuyển động. Quá trình nén trong miền thời gian được thực hiện như sau: ảnh đầu tiên trong chuỗi ảnh động ký hiệu là F1 (Frame 1) được mã hóa trong ảnh để tạo ra ảnh I. Trong sơ đồ khối, bộ Lượng tử hóa ngược và IDCT có chức năng giải
nén ảnh vừa được mã hóa tại coder. Ảnh nhận được là F1 . Ảnh này được lưu vào bộ nhớ trong khối ảnh so sánh. Ảnh tiếp theo (F2) không được nén trong hình như F1 mà được chuyển tới bộ xác định vector chuyển động. Quá trình xấp xỉ chuyển động trong ảnh F2 được thực hiện dựa trên ảnh tham khảo F1 . Quá trình bù chuyển động sẽ tạo ra ảnh dự đoán dựa trên các vector chuyển động vừa tìm được và ảnh F1 , ảnh dự đoán sẽ được đưa tới bộ trừ tín hiệu để tìm ảnh sai số giữa F2 và ảnh dự đoán. Ảnh sai số sau đó sẽ được mã hóa trong ảnh và đưa tới bộ trộn. Dữ liệu nhận được sau khi nén ảnh F2 bao gồm các vector chuyển động và ảnh sai số sẽ được tổng hợp tại bộ trộn.

Hình 3.3.25 Bộ mã hóa MPEG tiêu biểu Tốc độ bit của tín hiệu video nén không cố định mà phụ thuộc vào nội dung của ảnh. Khi truyền tín hiệu hình ảnh qua kênh truyền, tốc độ luồng bít phải được hạn chế trong phạm vi cố

 

 196 

Chương 3 Kỹ thuật xử lý hình ảnh 
định. Vì thế, ở đầu ra bộ mã hóa có bộ nhớ đệm. Luồng dữ liệu ở đầu ra bộ trộn được ghi vào bộ nhớ đệm, khi bộ nhớ đệm gần đầy, tín hiệu điều khiển sẽ được đưa tới khối Lượng tử hóa để điều chỉnh các hệ số trong bảng lượng tử theo chiều hướng tăng lên. Như vậy hệ số nén sẽ tăng, tốc độ luồng video nén sẽ giảm xuống. Một cơ chế điều khiển tốc độ luồng video khác dựa trên nguyên tắc thay đổi cấu trúc GOB cũng có thể được sử dụng. Trong trường hợp này, tín hiệu điều khiển từ bộ nhớ đệm phải được đưa tới khối xác định vector chuyển động.

3.3.6.3 Giải mã tín hiệu MPEG

Hình 3.3.26 Bộ giải mã MPEG Quá trình giải nén được thực hiện tại bộ giải mã MPEG (hình 3.3.26) theo quy trình sau. Ảnh nén trước hết được giải mã entropy tại khối VLD (Variable-Length Decoder). Nếu ảnh đưa tới bộ giải nén là ảnh I, tập hệ số DCT của từng block ảnh sẽ được đưa tới bộ Giải lượng tử sau đó biến đổi ngược IDCT để khôi phục lại ảnh gốc. Ảnh kết quả được lưu lại trong bộ Tái lập trật tự ảnh và bộ Lưu trữ ảnh tham khảo. Khi ảnh đưa vào giải mã là ảnh P hoặc B, bộ giải mã ước đoán sẽ tách ra từ luồng dữ liệu các hệ số DCT của ảnh sai số và các vector chuyển động. Tập hệ số DCT sẽ được đưa tới IDCT để khôi phục ảnh sai số. Các vector chuyển động được bộ bù chuyển động sử dụng để khôi phục ảnh dự đoán từ ảnh tham khảo. Ảnh dự đoán và ảnh sai số sẽ được tổng hợp lại tại bộ cộng để cho ra ảnh giải nén. Sau cùng, chuỗi ảnh giải nén phải được đảo vị trí cho đúng với trình tự như trong video gốc.

3.3.6.4 Các thành phần cơ bản trong ảnh nén MPEG Cấu trúc luồng video nén theo chuẩn MPEG gồm 6 lớp (hình 3.3.27): lớp chuỗi ảnh (sequence), lớp nhóm ảnh (GOP), lớp ảnh (picture), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block):
1. Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu . 2. Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước 16x16. Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn lấy mẫu 4:2:0). 3. Mảng (Slice): là một chuỗi macroblock kề nhau. Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock. Slice header chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định ma trận lượng tử trong quá trình giải mã slice. 4. Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B. Picture header chứa thông tin về: thứ tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích thước vùng tìm kiếm vector chuyển động. 5. Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B. Như đã đề cập ở phần trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N. Mỗi một nhóm ảnh bắt đầu bằng một khung I. GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm.

 

 197 

Chương 3 Kỹ thuật xử lý hình ảnh 
6. Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence". Sequence header chứa đựng các thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần số ảnh và kích thước bộ nhớ đệm.

Hình 3.3.27 Cấu trúc luồng video nén theo chuẩn MPEG-1 3.3.6.5 Tiêu chuẩn nén MPEG-2 MPEG-2 là dự án giai đoạn 2 của ủy ban ISO/IEC MPEG. MPEG-2 là chuẩn nén được phát triển từ MPEG-1, cho phép nén video với tốc độ bit cao hơn 4 Mbps. MPEG-2 hỗ trợ mã hóa video số chất lượng cao, dùng trong các ứng dụng như lưu trữ video và audio số (trên đĩa quang DVD), truyền hình số mặt đất DTTB (digital terrestrial television broadcast), truyền hình số vệ tinh, truyền hình cáp, HDTV (truyền hình có độ phân giải cao) v.v MPEG-2 là giải pháp mã hóa tín hiệu có tính co dãn (scalability) và tính tương hợp (compatibility). Phương pháp mã hóa có tính "co dãn" (Scalable Coding) trong MPEG-2 dựa trên nguyên tắc nén tín hiệu video ở mức cơ bản và một số mức nâng cao. Khi mức cơ bản được giải mã, chúng ta sẽ nhận được hình ảnh có chất lượng trung bình. Nếu thực hiện giải mã thêm các mức nâng cao, chất lượng hình ảnh sẽ được cải thiện. Với kỹ thuật scalable coding, tín hiệu MPEG-2 có thể được giải mã trên decoder MPEG-1, ngược lại, tín hiệu MPEG-1 cũng có thể được giải mã trên decoder MPEG-2. Như vậy, MPEG-1 và MPEG-2 là hai chuẩn nén có tính tương hợp. MPEG-2 hỗ trợ 3 dạng scalable coding dựa trên nguyên tắc phân cấp chất lượng theo tỷ lệ SNR, theo độ phân giải trong không gian (spartial scalability) và thời gian (temporal scalability). Trường hợp phân cấp theo SNR, tại mức cơ bản, các hệ số DCT được mã hóa với mức lượng tử thô, do đó lượng dữ liệu nén sẽ có tốc độ thấp. Ở mức nâng cao, tín hiệu được truyền đi là hiệu giữa các hệ số DCT chưa được lượng tử và các hệ số DCT tại mức cơ bản. Như vậy, bộ giải mã có thể sử dụng một hoặc cả hai luồng dữ liệu để khôi phục hình ảnh có hai mức chất lượng cơ bản hoặc nâng cao. Với tín hiệu được phân cấp chất lượng theo độ phân giải trong không gian, decoder có thể tạo ra hình ảnh với các độ phân giải từ thấp đến cao. Tại mức cơ bản, tín hiệu được đưa vào mã hóa được lấy mẫu với tốc độ thấp. Tại mức nâng cao, người ta mã hóa và truyền đi

 

 198 

Chương 3 Kỹ thuật xử lý hình ảnh 
ảnh sai số giữa ảnh có độ phân giải thấp và ảnh có độ phân giải cao (được lấy mẫu với tốc độ cao hơn). Như vậy, nếu giải mã cả hai luồng dữ liệu chúng ta sẽ nhận được ảnh có độ phân giải cao. Nếu chỉ sự dụng luồng dữ liệu cơ bản, có tốc độ chậm (phù hợp với các đường truyền tốc độ thấp) ảnh khôi phục sẽ có độ phân giải thấp hơn. Cuối cùng, MPEG-2 cho phép mã hóa phân cấp theo thời gian: tín hiệu giải nén có thể có các tần số ảnh khác nhau. Tại mức cơ bản, tín hiệu video đưa vào mã hóa có tần số ảnh thấp. Tại mức nâng cao, thông tin về các vector chuyển động sẽ được truyền sang phía thu, decoder (dựa trên các ảnh được truyền trong mức cơ bản ) thực hiện quá trình nội suy ảnh, làm tăng tần số ảnh của tín hiệu giải nén. Trên hình 3.3.28 là hai bảng dữ liệu cho thấy 6 profiles và 4 mức nén với các độ phân giải khác nhau trong chuẩn nén MPEG-2.

Hình 3.3.28 Các profiles và levels trong chuẩn nén MPEG-2 Như vậy MPEG-2 cho phép mã hóa tín hiệu với 24 tiêu chuẩn chất lượng khác nhau. Tốc độ truyền của dòng dữ liệu MPEG-2 thay đổi tùy theo các tiêu chuẩn chất lượng được lựa chọn.

3.3.7 Tiêu chuẩn nén MPEG-4 MPEG-4 bắt đầu được nghiên cứu từ năm 1993 và hình thành chuẩn vào tháng 7 năm 1995. MPEG-4 chính thức trở thành tiêu chuẩn quốc tế ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ xung và nâng cấp lên thành các version 3 và 4.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế tiêu chuẩn đưa ra với 3 dãy tốc độ bit dưới 64 kbps 64 đến 384 kbps 384 Kbps đến 4 Mbps

Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép sửa sai tại phía thu, vì vậy chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xảy ra lỗi như truyền dữ liệu qua kênh wireless đến các thiết bị cầm tay. Mặc dù tập trung vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng cho phép nén video chất lượng cao và có thể được sử dụng trong hệ thống HDTV. Những profile và level khác nhau trong MPEG-4 cho phép sử dụng tốc độ bit lên đến 1.2Gbps. MPEG-4 là

 

 199 

Chương 3 Kỹ thuật xử lý hình ảnh 
chuẩn quốc tế đầu tiên cho phép mã hoá các đối tượng (object) video. Kỹ thuật mã hoá đối tượng làm tăng hiệu quả nén và tính linh động của MPEG-4. Trong MPEG-4, các đối tượng của ảnh được tách rời và mã hoá riêng rẽ sau đó truyền tới bộ giải mã. Việc tách rời các đối tượng video như vậy làm tăng tính mềm dẻo khi thực hiện mã hoá thích nghi và đồng thời làm tăng hiệu quả nén tín hiệu. Các đối tượng khác nhau như video object và audio object và được kết hợp tại bộ giải mã. Các loại object khác nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Trong MPEG-4, một số object có thể được tạo ra một cách độc lập trên máy tính (ví dụ các nhân vật hoạt hình hay dòng phụ đề) và trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền (background) và object cận cảnh. Hình 3.3.29 cho thấy quá trình mã hóa và giải mã các đối tượng độc lập trong chuẩn nén MPEG-4.

Hình 3.3.29 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4 Nhìn chung, không có kỹ thuật nén ảnh nào có thể gọi là tối ưu hoàn toàn. DCT và phép lương tử dùng trong MPEG-1 và 2 chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có mức chói thay đổi chậm nhưng sẽ không tối ưu với ảnh có nhiều chi tiết nhỏ. Ví dụ, khi một cảnh quay có xen các dòng phụ đề (subtitle) thì một hệ thống mã hoá thông thường sẽ xem các chữ như là các chi tiết nhỏ của ảnh. Khi mã hóa bằng MPEG-1 hay MPEG2, các chi tiết nhỏ sau biến đổi DCT sẽ tạo ra các hệ số cao tần với biên độ lớn. Nếu nén ảnh trên với hệ số nén cao, các dòng chữ sẽ bị biến dạng đến mức không thể đọc được. Do đó việc thêm phụ đề hoặc các thành phần đồ họa (có độ nét cao) vào tín hiệu video ảnh hưởng rất lớn đến hiệu quả nén theo chuẩn MPEG. Tuy nhiên có thể mã hóa dòng chữ một cách hiệu quả hơn khi truyền các ký tự bằng mã ASCII, vị trí, font, kích thước, màu, thông tin về vị trí dòng chữ trong ảnh có thể được truyền đi với số bit tương đối nhỏ. Nhưng để làm được điều này bộ giải mã phải có khả năng tạo ra các title từ những thông tin được cung cấp. Quá trình giải mã trong MPEG-4 tương đối phức tạp, bộ giải mã phải có nhiều cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể truyền nhiều luồng text hoặc các thông tin phụ khác và việc lựa chọn luồng cụ thể để thực hiện giải mã có thể do người xem quyết định hoặc dựa trên các thông tin được truyền trong luồng bit. Ba đặc tính rất quan trọng của MPEG-4 là: 1- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ giải mã. 2- Các object có thể là các cảnh tự nhiên có được từ camera hay các cảnh tạo ra trên máy tính như text hay cảnh hoạt hình 2 hoặc 3-D. 3- Từ luồng bit MPEG-4, bộ giải mã có thể tách ra các thông tin khác nhau tùy theo lựa chọn người xem chẳng hạn như ngôn ngữ thuyết minh hay thành phần video được lọc bớt các thông tin không cần thiết (dành riêng cho trẻ em) v.v. Việc mã hóa độc lập các object trong MPEG-4 sẽ cho hiệu suất nén cao hơn đồng thời cho

 

 200 

Chương 3 Kỹ thuật xử lý hình ảnh 
phép tương tác các object với nhau đặc biệt trong các chương trình giáo dục và các trò chơi. Khi các object được truyền riêng rẽ, chúng ta có thể thay đổi tỷ lệ nén giữa các thành phần ảnh: chẳng hạn như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm độ phân giải ảnh nền trong trường hợp băng thông kênh truyền bị hạn chế hoặc thiếu tài nguyên ở bộ giải mã (bộ nhớ, tốc độ tính). Tuy nhiên MPEG-4 có một nhược điểm lớn là bộ giải mã MPEG-4 phức tạp hơn nhiều so với bộ giải mã MPEG-2. Hiện nay tín hiệu nén MPEG-4 thường được xử lý (nén và giải nén) trên PC sử dụng các phần mềm chuyên dụng, các bộ giải mã bằng phần cứng còn chưa phổ biến do giá thành còn tương đối cao và chưa được chuẩn hoá triệt để.

3.3.7.1 Video trong MPEG-4 Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 chúng ta làm quen với cấu trúc của một cảnh video theo định nghĩa trong chuẩn MPEG-4. Một cảnh tiêu biểu bao gồm ảnh nền (background) và một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc nhiều người, một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu theo thời gian để tạo ra chuỗi ảnh dạng bitmap, sau đó từng ảnh sẽ được mã hoá. MPEG-4 mã hoá riêng từng đối tượng tách ra được từ các ảnh bitmap. Nếu bỏ qua các chi tiết không quan trọng trong ảnh, cảnh video sẽ bao gồm background và một số objects được xem là foreground. Ví dụ: trong studio, người dự báo thời tiết đứng trước nền màu xanh nước biển hay xanh lá cây, hình ảnh thu từ camera sẽ được xử lý để loại bỏ nền màu để tạo thành “key signal” hay alpha channel diễn tả hình dạng của người cận cảnh. Thông tin về hình dạng người này sẽ được kết hợp với background (ví dụ bản đồ bề mặt trái đất). Nơi có hình người cận cảnh thì cảnh nền được thay thế bằng ảnh người đó còn những nơi khác ảnh nền không thay đổi. Trong MPEG-4, đối tượng video (video object) được mô tả bởi hai phần tử là ảnh trong đối tượng gọi là “texture” và key signal hay alpha channel được xem là hình dạng (shape) của đối tượng. 3.3.7.2 Cấp độ của video MPEG-4 Các object trong MPEG-4 được lấy mẫu theo thời gian. Hầu hết các object được lấy mẫu trong khoảng thời gian không đổi và sau khi lấy mẫu, ảnh nhận được gọi là video object plane (VOP). Như vậy mỗi object trong một cảnh được mô tả bởi một chuỗi các VOP ngoại trừ các object tĩnh có thể mô tả bằng một VOP.
Dữ liệu được truyền đi bao gồm thông tin về hình dạng và texture của VOP. Shape có thể đơn giản là hình chữ nhật hoặc được tạo từ các đường nét phức tạp. VOP cũng giống như các frame trong MPEG-2, chúng có thể được mã hóa trong ảnh hoặc mã hoá liên ảnh sử dụng phương pháp bù chuyển động. Lớp trên của VOP là GOV (Group of video object planes). GOV tương tự như GOP (group of pictures) trong MPEG-2. Các nhóm GOV được mã hoá độc lập, do đó nó cung cấp các điểm truy xuất ngẫu nhiên trong luồng bit MPEG-4. Trong lớp VOL (Video object layer) chúng ta có thể thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc GOV. Mức video object (VO) bao gồm các VOL dùng để dùng để mô tả đối tượng video. Cuối cùng là Video session (VS) là mức cao nhất của cảnh MPEG-4 bao gồm tất cả đối tượng video cả tự nhiên và tự tạo trong một cảnh.

3.3.7.3 Mã hóa đường nét (shape) Có hai loại đường nét dùng để mô tả đối tượng video trong MPEG-4 là chữ nhật và tùy ý.    201 

Chương 3 Kỹ thuật xử lý hình ảnh 
Dạng chữ nhật chỉ đơn thuần là kích thước vùng ảnh. Trong MPEG-2 kích thước vùng ảnh không thay đổi, thông tin này được mã hóa trong phần header của luồng bit. Trong MPEG-4 có thể có nhiều đối tượng video với kích thước khác nhau. Ví dụ: truyền hình ảnh trong ảnh (picture in picture -PIP) khi ảnh full frame và các ảnh nhỏ được truyền đi cùng lúc. Trong mặt phẳng ảnh, đường nét của đối tượng video xác định phạm vi hiển thị của đối tượng đó. Đường nét dạng chữ nhật được gọi là mask, kích thước của mask tương đương với kích thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask thường được chọn là bội số của 16 pixel. Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét nhị phân là dạng đơn giản nhất, nó chỉ ra vùng hiển thị của đối tượng video.

3.3.7.4 Mã hóa texture Thành phần texture của các đối tượng video có thể được mã hóa trong MPEG-4 theo phương pháp giống như bù chuyển động trong MPEG-2. Có các loại VOP như sau: I-VOP, PVOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu chuẩn 4:2:0 và YUV để mô tả texture của đối tượng video. 3.3.7.5 Sprites MPEG-4 có một loại đối tượng đặc biệt được dùng làm cảnh nền gọi là sprite. Sprite là đối tượng video có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử dụng liên tục trong một cảnh (tương tự như cảnh trên sân khấu diễn kịch). Sprite thường dùng để mã hoá các trò chơi điện tử (video game). Thông thường một cảnh trong game bao gồm ảnh nền và một số đối tượng nhân tạo di chuyển theo kịch bản của game và hành động của người chơi. MPEG-4 cho phép truyền toàn bộ cảnh nền như sprite và ảnh nền tức thời được đọc ra từ sprite dựa trên các thông tin cropping và wraping được truyền tới decoder. Như vậy, ảnh nền tức thời hiển thị trên màn hình chỉ là một vùng nhỏ (bằng kích thước cửa sổ màn hình) trong cảnh nền (hình 3.3.30). Trong video game, các thành phần của một sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng kể.

Hình 3.3.30 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị của màn hình Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ làm tăng băng thông tức thời và quá trình khởi động decoder sẽ kéo dài. Vì vậy, trong MPEG-4 người ta có thể truyền sprite theo từng phần. Phần ảnh nền cần thiết tại thời điểm tức thời sẽ được truyền đi, tất cả các ảnh thu được sẽ ghi nhớ ở bộ giải mã như một phần của sprite. Theo phương pháp khác, sprite có thể được mã hóa và truyền đi toàn bộ với độ phân giải thấp và thành phần tín hiệu dùng để khôi phục ảnh có độ phân giải cao hơn sẽ được truyền sau. Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG-2 và luôn

 

 202 

Chương 3 Kỹ thuật xử lý hình ảnh 
được mã Intra bởi vì bản chất của sprite là ảnh tĩnh.

3.3.7.6 Scalability MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. Trong cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer), lpưos này cho chất lượng ảnh thấp nhất có thể tái tạo từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement layer). Chất lượng hình ảnh có thể được điều chỉnh bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit truyền đi sẽ chỉ bao gồm lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bậc thấp. Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.

Hình 3.3.31 Bộ mã hóa phân cấp chất lượng MPEG-4 Hình 3.3.31 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống (down-converted) tới độ phân giải thấp và mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ Multiplexer. Lớp cơ sở còn được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. Tín hiệu có độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi lớp tăng cường chỉ sử dụng mã hóa dự đoán. Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường. Quá trình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng cơ sở. Điều này làm cho quá trình mã hóa và giải mã trở nên linh động hơn nhưng cũng phức tạp hơn. Chẳng hạn một bộ giải mã trong hệ thống chơi game không có đủ khả năng để giải mã tất cả các đối tượng ở tốc độ cao nhất có thể nên nó chọn phương pháp giải mã cảnh nền với tốc độ thấp và chấp nhận việc chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng cận ảnh làm cho chuyển động của chúng mịn hơn.

3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén Trong bảng dưới đây tập hợp các ứng dụng của một số tiêu chuẩn nén.
Ứng dụng của các tiêu chuẩn nén.

 

 203 

Chương 3 Kỹ thuật xử lý hình ảnh 
Ứng dụng hóa Videophone Hội nghị truyền hình Truyền hình cáp Truyền hình Studio / sản xuất H.261 H.261 MPEG-2 MPEG-2 MJPEG MPEG-2(@4:2:2) HDTV / sản xuất HDTV / truyền dẫn MPEG-2 MPEG-2 1920x1280 1920x1280 100 Mbps 20 Mbps Tiêu chuẩn mã Độ giải cực đại 176x144 352x288 720x576 720x576 720x576 phân đại 64 ÷128 Kbps 0.384 ÷1.554 Mbps 4…9 Mbps < 50 Mbps < 50 Mbps Tốc độ bit cực

Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp ứng được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc đầu tư thiết bị theo chuẩn MPEG cho tất cả các khâu trong lĩnh vực truyền hình là điều tất yếu. Nhưng khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn nghiên cứu và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, chất lượng hình ảnh phù hợp cho từng công đoạn là vấn đề cần thiết. Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu. MPEG-2 MP@ML sử dụng các ảnh I, P, B và nén với hệ số nén rất cao, do đó với chuẩn này, người ta có thể tiết kiệm tối đa dải thông của đường truyền, tăng số lượng chương trình. Khi nén video trong máy ghi hình, vấn đề cần ưu tiên là giữ chất lượng tín hiệu tốt nhất để phục vụ cho quá trình gia công xử lý trong studio sau này. Các phương pháp nén trong máy ghi hình số được thực hiện tại chỗ để giảm vận tốc dòng số ghi lên băng hoặc đĩa quang. Về mặt chất lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I (tương đương M-JPEG) sẽ tạo ra nhiều thuận lợi cho quá trình dàn dựng. Như vậy, ta có thể thấy rằng chuẩn M-JPEG khá tiện dụng cho việc xử lý, làm kỹ xảo trong studio với giá thành hệ thống phù hợp. TÓM TẮT CHƯƠNG 3 Những vấn đề chính được đề cập tới trong chương 3 là: 1- Khái niệm cơ bản về xử lý tín hiệu hình ảnh: lĩnh vực ứng dụng, các giai đoạn xử lý ảnh, giới thiệu chung về các thành phần cơ bản của hệ thống xử lý ảnh số. Cũng trong phần này, chúng ta đã nhắc lại một số vấn đề về ánh sáng và màu sắc, đưa ra các thông số cụ thể để đánh giá khách quan chất lượng ảnh đen trắng và ảnh màu. Trên cơ sở phân tích đặc điểm cảm nhận ánh sáng và màu sắc của hệ thống thị giác, chúng ta đã xác định được các thông số chính của tín hiệu hình ảnh tĩnh và ảnh động như: độ phân giải, khổ ảnh, số mức xám, tần số ảnh v.v. Tín hiệu hình ảnh nhận được sau khi biến đổi quang điện thường có dạng tương tự, hoặc rời rạc do đó cần biến đổi những tín hiệu này thành tín hiệu số trước khi đưa vào các hệ thống xử lý tín hiệu số. Quá trình biến đổi analog-digital cho tín hiệu một chiều và hai chiều được phân tích trong phần 3.1.5.6. Những vấn đề liên quan được giới thiệu trong phần này là: tần số và cấu trúc lấy mẫu tín hiệu hình ảnh; Các tiêu chuẩn lấy mẫu ảnh số theo thành phần; Giới thiệu phương

 

 204 

Chương 3 Kỹ thuật xử lý hình ảnh 
pháp biểu diễn tín hiệu ảnh số và video số. Tín hiệu video trong hệ thống truyền hình quảng bá. 2- Phần tiếp của chương 3 giới thiệu một số công cụ toán học dùng để phân tích quá trình xử lý ảnh số và video số trong không gian và trong miền tần số: đó là các phép tính thực hiện với từng điểm ảnh, phép tính với ma trận các điểm ảnh, phép tính tổng chập dùng để mô tả quan hệ vào ra của hệ thống xử lý ảnh số, các phép biến đổi không gian 1 và 2 chiều thông dụng trong lĩnh vực xử lý ảnh như: biến đổi Fourier, biến đổi DCT. Biến đổi DCT rời rạc được sử dụng rất rộng rãi trong các phương pháp nén ảnh tĩnh và ảnh động có tổn thất như JPEG, M-JPEG, MPEG1, 2, 4, 7 v.v. 3- Phần lớn chương ba (3.2) được dành để phân tích một số kỹ thuật xử lý ảnh từ mức thấp đến mức cao: xử lý để nâng cao chất lượng hình ảnh (tăng tương phản, mức chói, cân bằng histogram v.v), khôi phục ảnh bị làm méo hoặc bị ảnh hưởng của nhiễu, các kỹ thuật lọc nhiễu, các phương pháp làm nổi và dự đoán đường biên, phân vùng ảnh. Hầu hết các kỹ thuật xử lý ảnh số trong phần này đều được minh họa bằng hình ảnh, cho phép người đọc quan sát và đánh giá quá trình biến đổi ảnh từ lúc đưa vào hệ thống cho đến khi có ảnh kết quả. Trong từng ví dụ minh họa còn giới thiệu các hàm Matlab dùng để trợ giúp quá trình xử lý ảnh. Ngoài ra, các học viên có thể thực hiện lập trình (trong Matlab hoặc sử dụng các ngôn ngữ lập trình khác như C++, Pascall v.v) để kiểm chứng lại những vấn đề nêu trong tài liệu này. Phần xử lý ảnh màu được trình bày sau khi phân tích các kỹ thuật xử lý ảnh đen-trắng. Quá trình mô tả ảnh màu có thể được thực hiện trong các không gian màu khác nhau tùy theo mục đích sử dụng: ảnh trong các hệ thống truyền hình màu thường được biểu diễn trong không gian RGB, trong kỹ thuật in ấn - CMYK, trong lĩnh vực xử lý ảnh thì không gian màu HSI được sử dụng nhiều hơn cả. Quá trình xử lý ảnh màu có thể được thực hiện với từng điểm màu: khi mỗi điểm ảnh được biểu diễn như vector trong không gian màu được chọn, hoặc được thực hiện lần lượt với từng ảnh màu đơn sắc. Các phương pháp xử lý ảnh màu cũng được phân loại thành phương pháp biến đổi trong không gian và trong miền tần số. Trong phần này chúng ta nói đến các phương pháp xử lý đã được áp dụng cho ảnh đen trắng (lọc không gian, hiệu chỉnh, xử lý histogram v.v) cũng như một số kỹ thuật biến đổi chỉ áp dụng cho ảnh màu (kỹ thuật tạo màu giả, tách ảnh theo các mức màu, phép biến đổi màu v.v). 4- Phần cuối cùng của chương ba (3.3) giới thiệu về các phương pháp nén ảnh tĩnh và ảnh động. Trong phần này chỉ đề cập tới các phương pháp nén ảnh số tương đối thông dụng. Đó là các kỹ thuật nén không tổn thất như kỹ thuật mã hóa Entropy, mã LZW, mã RLC, mã DPCM không tổn thất v.v. và nén có tổn thất như DCPM, JPEG, MPEG v.v. Đặc biệt, quá trình nén theo JPEG và MPEG được phân tích tương đối kỹ, vì đấy là các phương pháp nén được sử dụng rộng rãi trong các hệ thống truyền thanh, truyền hình chất lượng cao. 5- Phần cuối chương 3 tập hợp một số bài tập và câu hỏi. Việc thực hiện các bài tập này giúp cho người đọc nắm vững hơn những kiến thức được trình bày trong toàn bộ chương "Kỹ thuật xử lý ảnh". CÂU HỎI VÀ BÀI TẬP CHƯƠNG 3 Bài 1 Camera được trang bị bộ cảm biến CCD có kích thước 5,4x7,2mm, độ phân giải 2140x1560 điểm. Ống kính camera có tiêu cự 35mm. Ảnh được hội tụ lên CCD nằm cách ống kính 0,5m. Tìm mật độ điểm ảnh (số điểm/mm) trên ảnh nhận được.

 

 205 

Chương 3 Kỹ thuật xử lý hình ảnh 
Bài 2 Tìm số lượng bits cần thiết để lượng tử hóa tín hiệu truyền hình số khi màn hình máy thu trong hệ thống truyền hình số nói trên có độ chói thay đổi trong khoảng từ Lmin = 2 cd/m2 đến Lmax =150 cd/m2, nguồn sáng bên ngoài chiếu lên bề mặt màn hình có độ chói 5 cd/m2. Giá trị ngưỡng tương phản σ = 0.03 . Bài 3 Bề mặt có hệ số phản chiếu bằng 1, được chiếu sáng bởi nguồn sáng có mật độ phân bố độ sáng như sau:

i ( x, y ) = Ke
với K=255.

2 2 − ⎡( x − x0 ) +( y − y0 ) ⎤ ⎣ ⎦

Ảnh phản chiếu từ bề mặt nói trên được số hóa. Số bits dùng để lượng tử hóa là k. Xác định k nhỏ nhất sao cho ảnh số nhận được có độ chói biến đổi liên tục trong mắt người quan sát. Được biết mắt người chỉ phân biệt được hai vùng ảnh tách biệt, khi độ chói giữa hai vùng đó chênh lệch trên 10%. Biểu diễn ảnh nhận được khi k=2. Bài 4 Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là 60 mành/giây (quét xen kẽ). Tín hiệu video được số hóa với độ phân giải giống nhau theo chiều ngang và chiều dọc. Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2. Mức lượng tử là 256 cho thành phần chói và 128 cho hai thành phần màu. Tìm khối lượng thông tin số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ. Bài 5 Cho ma trận điểm ảnh sau:
⎡2 ⎢8 I =⎢ ⎢1 ⎢ ⎣3 2 1 3⎤ 1 3 4⎥ ⎥ 4 2 9⎥ ⎥ 1 7 5⎦

thực hiện phép nhân chập Y = I ⊗ H , khi: H = ⎡ 1 −1⎤ ⎢ −1 1 ⎥ ⎣ ⎦ Bài 6 Xét hai vùng ảnh S1 và S2 trên màn hình:

Cho V {1} , xác định xem S1 và S2 có phải là hai vùng liên kết 4,8 hay m không. Bài 7 Cho V {0,1} , tìm khoảng cách D4, D8 nhỏ nhất giữa 2 điểm ảnh (p) và (q):

 

 206 

Chương 3 Kỹ thuật xử lý hình ảnh 

Tìm các khoảng cách trên cho trường hợp V {1, 2} . Bài 8 Biểu diễn tập hàm biến đổi, cho phép tách các mặt phẳng bit từ ảnh đen trắng (với 256 mức xám). Bài 9 Histogram của ảnh sẽ thay đổi thế nào khi bit nhỏ nhất (LSB) hoặc lớn nhất (MSB) của các điểm ảnh được gán mức 0. Bài 10 Ảnh gốc được xử lý bằng phương pháp tách mức chói có nền và không nền. Vẽ đặc tuyến hàm biến đổi. Histogram của hai ảnh kết quả sẽ thay đổi thế nào so với ảnh gốc? Bài 11 Ảnh số được cân bằng mức xám để có được ảnh kết quả. Chứng minh rằng khi cân bằng mức xám cho ảnh kết quả đó một lần nữa, ảnh nhận được sẽ không thay đổi. Bài 12 Cho hình ảnh có mật độ phân bố xác suất mức xám được biểu diễn bằng hàm:
− 1 pr = e 2πσ

( r − m )2
2σ 2

Tìm hàm biến đổi sk = T ( rk ) cho quá trình cân bằng mức xám ảnh nói trên. Bài 13 Cho ảnh f ( x, y ) , g ( x, y ) và histogram h f , hg của chúng. Tìm historam của ảnh được tạo ra sau các biến đổi sau: a) f ( x, y ) + g ( x, y ) c) f ( x, y ) ⋅ g ( x, y ) , , b) f ( x, y ) − g ( x, y ) d) f ( x, y ) / g ( x, y )

Trong trường hợp nào các biến đổi trên có thể được thực hiện? Bài 14 Trình bày nguyên lý biến đổi ảnh số bằng phương pháp tra bảng, ưu điểm của phương pháp này. Bài 16 Chứng minh toán tử thực hiện quá trình lọc trong không gian theo (3.2.30) là toàn tử tuyến tính. Bài 17 Chứng minh toán tử tìm median là toán tử phi tuyến Bài 18

 

 207 

Chương 3 Kỹ thuật xử lý hình ảnh 
Trình bày giải thuật tìm giá trị trung vị cho ma trận nxn điểm ảnh. Bài 19 Giải thích vì sao quá trình làm mờ ảnh có thể mô tả bằng tích chập ảnh gốc và đáp ứng xung của hệ thống làm mờ, như trong công thức (3.2.36)? Bài 20 Ảnh gốc được lọc nhiễu bằng kỹ thuật trung bình hóa trong không gian, sau đó dùng mặt nạ Laplacian để tăng cường độ nét. Nếu thứ tự lọc được đổi ngược, ảnh kết quả sẽ thay đổi thế nào? Bài 21 Tại sao không thể khôi phục chính xác được ảnh gốc trong các hệ thống xử lý ảnh thực tế? Bài 22 Trong trường hợp nào bộ lọc ngược cho phép khôi phục tín hiệu với độ chính xác cao? Bài 23 Tại sao bộ lọc Wiener ít nhạy cảm với nhiễu hơn so với bộ lọc ngược? Bài 24 Chứng minh biến đổi Fourier thuận và nghịch là biến đổi tuyến tính. Bài 25 Cho hàm đáp ứng xung của hệ thống là H ( x, y ) = A , A > 0 . Ảnh f ( x, y ) sẽ được biến đổi thế nào khi đưa qua hệ thống nói trên? Bài 26 Bộ lọc trong miền không gian được thực hiện với ma trận lọc sau:
h= ⎡0 1 0 ⎤ 1⎢ 1 0 1⎥ ⎥ 4⎢ ⎢0 1 0 ⎥ ⎣ ⎦

Tìm đáp ứng tần số của bộ lọc và chứng tỏ rằng đây là bộ lọc thông thấp. Bài 27 Đạo hàm của tín hiệu rời rạc thường được tính theo công thức gần đúng sau:
∂f = f ( x + 1, y ) − f ( x, y ) ∂x

Tìm đáp ứng tần số H(u,v) của hệ thống thực hiện toán tử trên. Chứng minh đây là bộ lọc thông cao. Bài 28 Viết chương trình thực hiện toán tử la bàn cho một ảnh bất kỳ. Bài 29 Cho hệ thống xử lý tín hiệu đặc trưng bởi hàm biến đổi sau:

h ( x − α, y − β ) = e

2 2 − ⎡( x −α ) +( y − β ) ⎤ ⎣ ⎦

Tín hiệu đưa tới hệ thống có dạng: f ( x, y ) = δ ( x − a ) . Tìm đáp ứng của hệ thống

 

 208 

Chương 3 Kỹ thuật xử lý hình ảnh 

g ( x, y ) trong trường hợp không có tác động của nhiễu..
Bài 30 Ảnh số sau khi đi qua hệ thống xử lý bị biến đổi theo hàm truyền đạt sau:

H ( u, v ) = − 2πσ ( u 2 + v 2 ) e

−2π 2σ 2 u 2 + v 2

(

)

Tìm hàm biến đổi của bộ lọc Wiener trong trường hợp tỷ lệ năng lượng nhiễu chia cho tín hiệu là hằng số. Chứng minh nếu đáp ứng xung của hệ thống là h ( r ) = ⎡ r 2 − σ 2 / δ 4 ⎤ e − r ⎣ ⎦

(

)

2

/2σ 2

,

r 2 = x 2 + y 2 thì hàm truyền đạt của nó là H ( u, v ) .
Bài 31 Viết chương trình thực hiện biến đổi Hough cho ảnh nhị phân (gồm các điểm trắng trên nền đen) Bài 32 Xác định vị trí của màu xám trên tam giác màu đơn vị XYZ (hình 3.2.58). Bài 33 Tìm các bước sóng trội và độ sạch màu của điểm màu "PINK" trên hình 3.2.58, lấy màu trắng chuẩn là màu "COOL WHITE" Bài 34 Cho ba màu c1 ( x1 , y1 ) , c2 ( x2 , y2 ) , c3 ( x3 , y3 ) nằm trong tam giác màu XYZ (hình 3.2.55). Ba màu trên tạo ra một tam giác màu con. Tìm công thức trộn màu để biểu diễn các màu trong tam giác con thông qua tọa độ của ba màu c1 , c2 , c3 . Bài 35 Trong không gian màu RBG, mỗi màu cơ bản được số hóa với 256 mức lượng tử (từ 0 đến 255). Cho biết có bao nhiêu mức xám thể hiện được trong không gian màu này? Bài 36 Không gian màu RGB được mô tả dưới dạng khối lập phương (hình 3.2.56b). 1- Mô tả quá trình thay đổi độ chói của các điểm màu nằm dọc theo các cạnh phía trước của khối màu. 2- Chúng ta đổi ba màu RGB thành CMY. Ảnh khối màu mới được hiển thị lên màn hình RGB. Xác định các màu nằm ở đỉnh hình khối trên màn hình. Bài 37 Xác định biểu thức cho phép tìm màu bổ xung trong không gian CMY Bài 38 Mô tả hàm biến đổi cho phép làm giảm độ tương phản trong không gian màu RGB. Bài 39 Ảnh màu có nhiễu được biểu diễn trong không gian màu HSI. Mô tả và giải thích hiện tượng biến đổi màu dưới tác động của nhiễu trong các thành phần H và S. Bài 40

 

 209 

Chương 3 Kỹ thuật xử lý hình ảnh 
Phân tích ưu và nhược điểm của phương pháp nén ảnh tổn hao và không tổn hao Bài 41 Viết chương trình nén và giải nén theo phương pháp RLC Bài 42 Viết thủ tục thực hiện biến đổi DCT thuận. Bài 43 Viết thủ tục thực hiện biến đổi DCT nghịch. Bài 44 Chuỗi điểm ảnh 8 bits có giá trị 10, 14, 25, 240, 195, 32 được đưa tới bộ mã hóa DPCM. Thành phần sai số được lượng tử với 32 mức. Tìm tín hiệu nhận được sau khi giải mã DPCM. Không thực hiện mã hóa entropy. Giá trị ban đầu trong bộ dự đoán bằng 0. Tìm sai số RMS giữa chuỗi kết quả và chuỗi điểm ảnh gốc. Bài 45 Thực hiện quá trình mã hóa hệ số DC theo phương pháp mô tả trong phần 3.3.5.4.4. giá trị DC block hiện tại bằng 32, giá trị DC của block trước là 20. Bài 46 Chuỗi các hệ số AC của khai triển DCT nhận được sau khi quét zig-zag bằng: 3,1,1,0, 0,1,0,0,0,0,2. Thực hiện quá trình mã hóa chuỗi hệ số AC theo phương pháp mô tả trong phần 3.3.5.4.5. Sử dụng kết quả bài tập 51 để tạo ra chuỗi tín hiệu nén JPEG. Tìm hệ số nén trong trường hợp này. Bài 47 So sánh sự khác biệt giữa MPEG-2 và MPEG-1. Bài 48 So sánh sự khác biệt giữa MPEG-4 và MPEG-2.

 

 210 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
CHƯƠNG 4 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH TRONG VIỄN THÔNG

4.1 CÁC ỨNG DỤNG CỦA XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
4.1.1 Lưu trữ âm thanh và hình ảnh 4.1.1.1 Băng từ Hiện nay, trong lĩnh vực lưu trữ dữ liệu, tương đối nhiều phương tiện lữu trữ trên các vật liệu có từ tính đang được sử dụng. Ví dụ: trong hệ thống máy tính, đĩa mềm (Floppy disk) được sử dụng tương đối phổ biến, ví dụ: đĩa mềm 5¼ -inch ghi được 1.2 MB, đĩa 3.5-inch HD (high density) có dung lượng 1.44MB.
Trong các hệ thống truyền audio và video thường có nhu cầu lưu trữ dữ liệu với khối lượng rất lớn kể cả sau khi tín hiệu đã được nén. Thật vậy, để lưu trữ 1 phút tín hiệu truyền hình số HDTV 1920x1080/P/50 cần bộ nhớ ~15.5GB. Luồng âm thanh số thường có tốc độ nhỏ hơn rất nhiều so với luồng video số, do đó, sau đây chúng ta chủ yếu đề cập tới khả lưu trữ tín hiệu video số (tích hợp âm thanh) của các thiết bị lưu trữ. Trước đây, khi chưa có các thiết bị cho phép ghi và lưu trữ hình ảnh động thời gian thực, hệ thống truyền hình luôn truyền trực tiếp tín hiệu nhận được từ camera. Từ năm 1956, sau khi hãng Ampex đưa ra các thiết bị ghi hình trên băng từ theo chuẩn Quadruplex, các chương trình truyền hình có thể được thực hiện từ nguồn video được lưu trên băng. Băng từ đầu tiên của Ampex có bề rộng 2 inch, lưu trữ trong cuộn mở. Tín hiệu video tương tự được ghi trên các đường từ nằm theo chiều ngang của băng. Tốc độ dịch chuyển của băng là 381 mm/s (NTSC). Cuộn băng dài 1500m cho phép lưu trữ gần 1 giờ video chuẩn NTSC. Loại băng từ Quadruplex có nhiều nhược điểm như kích thước lớn kéo theo kích thước của các thiết bị ghi và phát hình cũng lớn, giá thành cao v.v. Vì vậy, nhiều hãng đã nghiên cứu và đưa ra các chuẩn ghi hình mới, cho phép sử dụng nhiều loại băng từ bề rộng hẹp (1, 3/4 và 1/2 inch), đơn giản hóa hệ thống kéo băng, giảm tốc độ dịch chuyển của băng v.v. Sau này, băng từ được bảo quản trong các hộp kín (cassette). Năm 1976, hãng JVC công bố chuẩn ghi hình VHS (Video Home System) cho phép ghi hình với chất lượng tương đối cao trên băng từ 1/2 inch. VHS cassette có kích thước nhỏ gọn (187mm x 103mm x 25mm), chiều dài băng trong 1 cassette tiêu chuẩn ~430m. Tốc độ di chuyển băng khi ghi hình theo chuẩn NTSC là 3,335cm/s. Thời gian ghi hình tối đa với chất lượng SP (Standard Play) trên một băng hình là 3,5 giờ. Khác với chuẩn Quadruplex, trong VHS tín hiệu video tương tự được ghi trên các đường chéo so với chiều chuyển động của bằng từ (hình 4.1.3). VHS cho phép lưu trữ video trên băng từ với bề rộng phổ ~3Mhz, tương đương với 250 dòng trên ảnh (TVLines). Tín hiệu video được điều chế FM trước khi ghi lên băng. JVC sản xuất băng hình VHS-C (Compact) có kích thước cassette nhỏ (95x60x25mm) để sử dụng trong các máy quay video cầm tay. Thời gian ghi hình tối đa của băng VHS-C là 2 tiếng. Năm 1985, xuất hiện chuẩn HiFi VCR (Video Cassette Recoder) cho phép ghi song song tín hiệu hình ảnh và tín hiệu âm thanh stereo chất lượng cao (20-20000Hz, SNR>70dB). Tín hiệu âm thanh được điều chế FM, dải tần sử dụng để ghi âm thanh lên băng từ thấp hơn dải tần dùng cho tín hiệu video, do đó khi ghi lên băng, tín hiệu mang âm thanh sẽ tác động vào lớp từ sâu hơn so với tín hiệu video. Tín hiệu video ghi sau đó sẽ được ghi đè lên tín hiệu âm thanh trên bề mặt của băng từ, nhưng nó không xóa hết được thành phần âm thanh nằm sâu trong băng. Khi phát, tín hiệu âm thanh FM được đọc ra và khôi phục lại với chất lượng cao.

 

 211 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Năm 1987, JVC đưa ra chuẩn Super VHS cho phép ghi và phát tín hiệu video có bề rộng phổ lên tới 5MHz tương đương 420 TVL (để so sánh video ghi trên đĩa quang DVD có ~500 dòng). Tín hiệu video màu tương tự trong SVHS được xử lý tương tự như tín hiệu màu trong hệ NTSC: thành phần màu được hạn chế phổ tới mức 0.4 MHz, và ghép với tín hiệu chói bằng phương pháp điều chế QAM. Cạnh tranh với VHS của JVC là chuẩn Betamax (1984) của Sony. Cũng ghi trên băng từ 1/2 inch, tín hiệu Betamax có các thông số gần giống VHS: tốc độ băng 4cm/s, 250TVL. Kích thước băng Betamax nhỏ hơn VHS: 156x96x25mm. Thời gian ghi tối đa 4 giờ. Vì nhiều lý do, chuẩn Betamax không cạnh tranh được với VHS. Tới năm 1986, Sony Betamax chỉ chiếm 7.5% thị phần trên thị trường VCR, do đó Sony đã cải tiến Betamax để sử dụng trong các máy ghi hình gia đình (Camcoders), và đổi tên thành Video-8. Ưu điểm của Video-8 là casette nhỏ gọn (93x60x14mm); trên băng từ 8mm, theo chuẩn Video-8 có thể ghi được 4 tiếng video chất lượng VHS. Để so sánh, băng VHS-C (Compact) của JVC dùng cho camcoders chỉ cho phép ghi 2 tiếng video. Tuy nhiên, nhược điểm của Video-8 là kích cỡ băng không tương thích với các đầu VCR thông dụng (sử dụng băng từ 1/2 inch). Trong lĩnh vực lưu trữ hình ảnh chuyên nghiệp, chuẩn Betacam của Sony (ghi video tương tự) được sử dụng rất phổ biến. Theo chuẩn Betacam, tín hiệu video thành phần được ghi băng từ 1/2 inch. Thành phần chói Y và hai thành phần màu được ghi trên các đường ghi khác nhau. Chất lượng video vì vậy được cải thiện rất nhiều, hiện tượng nhiễu xuyên kênh màu - chói được loại trừ hoàn toàn. Tín hiệu Y cho phép hiển thị tối đa 500TVL. Chuẩn Betacam SP (Superior Performance) được sử dụng rất rộng rãi trong studio. Băng Betacam cho phép lưu trữ từ 30-90 phút video chất lượng cao (625/50). Cassette Betacam có hai loại là Small Size (156x96x25mm) hoặc Large Size (254x145x25mm). Các tiêu chuẩn ghi hình nói trên cho phép ghi trực tiếp lên băng tín hiệu video tương tự. Việc lưu trữ tín hiệu dưới dạng analog có nhiều nhược điểm: chất lượng tín hiệu sẽ giảm dần theo thời gian, tỷ lệ SNR cũng giảm dần sau mỗi lần sao chép, không thể thực hiện truy xuất nhanh tới vị trí bất kỳ trên đoạn video v.v. Để khắc phục các nhược điểm nói trên, dữ liệu âm thanh và hình ảnh được chuyển sang lưu trữ dưới dạng số. Tuy nhiên, cần lưu ý rằng, sau khi số hóa, chất lượng tín hiệu số sẽ không còn tốt như tín hiệu gốc (hiệu quả của quá trình lượng tử hóa), hơn thế nữa, dung lượng tín hiệu số thường lớn hơn nhiều lần so với dung lượng tín hiệu analog. Vì vậy, trong các hệ thống truyền dẫn và lưu trữ âm thanh, hình ảnh, vai trò của bộ nén tín hiệu là rất lớn. Như chúng ta đã biết, các chuẩn nén âm thanh và video được sử dụng rộng rãi trong hệ thống truyền hình quảng bá là MPEG1, 2, 4. Tùy theo nhu cầu sử dụng tín hiệu tại từng công đoạn trong quá trình sản xuất và truyền hình, người ta sẽ lựa chọn phương pháp nén phù hợp. Ví dụ, trong studio, khi cần có tín hiệu gốc chất lượng cao nhất và khả năng truy cập ngẫu nhiên để thực hiện dàn dựng chương trình, video sẽ được nén và lưu trữ theo chuẩn MPEG-2 chỉ với các frame I; khi ghi video thành phẩm lên đĩa DVD, người ta chọn phương pháp nén MPEG-2 với các ảnh IPB, chọn chiều dài GOP tương đối lớn để nâng cao hiệu quả nén v.v. Giai đoạn phát triển tiếp theo của hệ thống lưu trữ dữ liệu âm thanh và hình ảnh là lưu trữ dữ liệu số trên băng từ. Các chuẩn video số cho thiết bị dân dụng xuất hiện từ những năm 90. Chuẩn video số DV được giới thiệu năm 1996. Cassette dùng để lưu trữ DV có 2 loại L-size (120x90x12mm) và M-size (65x48x12) còn được gọi là MiniDV. Băng từ dùng trong chuẩn DV có bề rộng 1/4 inch (6,35mm). Với tốc độ ghi/đọc chuẩn (SP) băng MiniDV cho phép lưu trữ

 

 212 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
~13GB dữ liệu số tương đương với 60 phút video chất lượng cao (720x480). Chuẩn DV sử dụng phương pháp nén ảnh theo MPEG-2 với các ảnh I (tương đương với chuẩn MJPEG). Chuẩn lấy mẫu tín hiệu hình ảnh trong DV là 4:1:1 hoặc 4:2:0. Tín hiệu hình ảnh được nén với tốc độ không đổi là 25.146 Mbps, âm thanh được mã hóa 2 kênh, 16 bits, tần số lấy mẫu 48 KHz hoặc 4 kênh, 12 bits, tần số lấy mẫu 32KHz, tạo ra luồng số 1.536 Mbps. Năm 1998, hãng JVC giới thiệu chuẩn D-VHS (Digital VHS). Tiêu chuẩn nén video sử dụng trong D-VHS là MPEG-2. D-VHS cho phép ghi video với chất lượng khác nhau (tương đương với thời lượng khác nhau): HS (Hi Speed), STD (Standard Speed) và LS (Low Speed). DVHS cho phép ghi chậm hơn STD 3 và 5 lần, hai chế độ ghi này ký hiệu là LS3 và LS5. Độ phân giải của tín hiệu video ghi với STD là 720x480, dòng bits có tốc độ 14.1 Mbps. Máy ghi hình DVHS (ví dụ JVC HM-DR 10000) cho phép ghi và phát tín hiệu D-VHS lên băng hình tiêu chuẩn SVHS. Trong bảng 4.1 là các thông số của băng ghi hình theo chuẩn D-VHS. Bảng 4.1 Các loại băng từ ghi dữ liệu số theo chuẩn D-VHS

Chuẩn Digital-8 được Sony sử dụng trong các camcoder của hãng có các thông số tương tự như DV và D-VHS. Băng từ được sử dụng trong Digital-8 có bề rộng truyền thống là 8mm. Thời gian ghi hình tối đa trên 1 cassette ở chế độ standard là 130 phút. Băng cassette Digital-8 có kích thước (95x62x15 mm). Trong lĩnh vực ghi hình chuyên nghiệp, chuẩn DVCPRO25 và DVCPRO50 do hãng Panasonic nghiên cứu và đề xướng cho phép ghi dữ liệu video nén với tốc độ 25 hoặc 50 Mbps. Tiêu chuẩn lấy mẫu trong DVCPRO 25 là 4:1:1 và DVCPRO 50 là 4:2:2. Chuẩn DVCPRO HD hay DVCPRO 100 được sử dụng để ghi các tín hiệu truyền hình chất lượng cao HDTV: tín hiệu hình ảnh số ghi theo chuẩn này có độ phân giải lên tới 1440x1080 điểm ảnh, 50 mành/giây, quét hình theo phương pháp xen kẽ. Video được lấy mẫu với tần số 74.25MHz cho tín hiệu chói và nén theo tiêu chuẩn MPEG-2 với các ảnh I. Sau khi nén, tốc độ dòng bits sẽ xấp xỉ 100 Mbps. Thành phần âm thanh được ghi với 8 kênh, 16 bits với tần số lấy mẫu 48KHz. Dải tần tín hiệu âm thanh 20-20000Hz. Băng từ dùng để ghi dữ liệu theo chuẩn DVCPRO có hai cỡ: nhỏ (65x48x12mm) và lớn (120x90x12) với chiều dài băng khác nhau, cho phép lưu trữ từ 12 phút đến 253 phút video số với tốc độ 25Mbps. Chuẩn HDCAM của Sony được đưa ra vào năm 1997, đây là định dạng ghi tín hiệu HDTV với độ phân giải 1440x1080 điểm ảnh, 24 hình/giây, tốc độ luồng bits lên tới 144 Mbps. Năm 2003 HDCAM được nâng cấp lên thành chuẩn HDCAM-SR. Tín hiệu video được lượng tử hóa với 10 bits/ mẫu theo phương pháp 4:2:2 hoặc 4:4:4. Tốc độ dòng video số HDCAM-SR có thể lên tới 600 Mbps. Tín hiệu HDCAM-SR sẽ đáp ứng đầy đủ tiêu chuẩn High Definition Serial Digital Interface (HD-SDI) (1920x1080). Trong chuẩn HDCAM-SR có thể sử

 

 213 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
dụng phương pháp nén MPEG-2 hoặc MPEG-4 (Studio profile). Âm thanh trong chuẩn HDCAM-SR bao gồm 12 kênh âm thanh được mã hóa với 48KHz/24bits. Băng từ HDCAM-SR cho phép ghi từ 6 phút (BCT-6SR) đến 124 phút (BTC-124SRL) video 4:4:4. Như vậy, với tốc độ luồng bits của tín hiệu HDCAM-SR là 600 Mbps, trên một cuốn băng HDCAM-SR dài 693m, rộng 12.65 mm, có thể lưu trữ được ~560GB dữ liệu số. Kích thước cassette HDCAM-SR tương tự như Betacam. Hiện nay, các hãng truyền hình lớn đều sử dụng hệ thống lưu trữ dữ liệu audio và video số có dung lượng rất lớn. Ví dụ, hãng truyền hình Anh Chanel 4 Television sở hữu hệ thống lưu trữ Isilion có dung lượng 36TB, video được lưuu trữ dưới dạng MPEG-2 ( nén trong ảnh I với tốc độ 50Mbps). Chanel 4 có thể thực hiện tất cả các công đoạn truyền tin thẳng từ thư viện hình ảnh số trong bộ lưu trữ theo thời gian thực. Hệ thống Isilion còn được kết nối với cơ sở dữ liệu Sony Petasite. Hệ thống Sony Petasite ghi dữ liệu lên băng từ theo chuẩn LTO-3 (Linear Tape-Open LTO) (400GB/ băng dài 680m). Tổng dung lượng của hệ thống Sony Petasite lên tới 1 PB (Peta Byte - 1015 Byte) - đây là hệ thống lưu trữ trên băng từ có dung lượng lớn nhất châu Âu hiện nay. Băng từ chuyên dùng trong các hệ thống lưu trữ dung lượng lớn ra đời từ năm 1997. Có hai loại băng được sử dụng: Accelis - 8mm và Ultrium- 1/2 inch. Băng Ultrium có các thông số giống băng từ theo chuẩn Digital Linear Tape (DLT) của hãng Quantum được công bố từ năm 1989. Kích thước hộp băng Ultrium là 102x105x21,5 mm. Tốc độ đọc dữ liệu từ băng Ultrium có thể đạt 30-40 MBps, nhanh hơn nhiều loại ổ cứng trên thị trường hiện nay. Tiêu chuẩn nén dữ liệu được dùng trong các băng LTO là Streaming Lossless Data Compression (SLDC), đây là chuẩn nén dựa trên phương pháp mã LZW (đã phân tích trong phần 3.3.4.2 của tài liệu này). Hệ số nén dữ liệu theo chuẩn SLDC là ~2:1. Một số thông số của băng được liệt kê trong bảng 4.2. Bảng 4.2 Các thông số cơ bản của họ băng từ trong tiêu chuẩn LTO

Chuẩn DTF (Digital Tape Format) với băng từ 1/2 inch của hãng Sony cũng được sử dụng tương đối rộng rãi trong các hệ thống lưu trữ dung lượng lớn. Khác với băng LTO, dữ liệu số được ghi lên băng DTF trên các đường chéo so với chiều chuyển động của bằng từ. Tốc độ ghi/đọc dữ liệu trên các băng DTF-2 có thể lên tới 24 MBps. Dung lượng một băng DTF cỡ lớn (Large Size) là 200GB.

4.1.1.2 Đĩa quang Lưu trữ dữ liệu tương tự cũng như số trên băng và đĩa từ có rất nhiều nhược điểm, có thể liệt kê một số vấn đề chính như sau:
- Nhạy cảm với tác động cơ học

 

 214 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
- Để có giữ được chất lượng tín hiệu ghi trên băng từ trong thời gian dài, băng từ phải được bảo quản trong môi trường có nhiệt độ, độ ẩm luôn ở mức tối ưu. Ngay cả trong trường hợp này, tuổi thọ của băng từ cũng không lớn: khoảng 25-30 năm. Như vậy, theo chu kỳ ~25 năm cần phải sao chép lại toàn bộ cơ sở dữ liệu hình ảnh và âm thanh, điều này rất bất tiện và tốn kém. - Thiết bị ghi và đọc băng từ thường công kềnh và đắt tiền (chủ yếu do hệ thống kéo băng tương đối phức tạp. - Tốc độ di chuyển của băng từ tương đối cao nên thời gian truy cập tới vị trí cần thiết trong đoạn video lớn. Những năm gần đây, dữ liệu mutimedia thường được lưu trữ trên đĩa quang. Quá trình ghi và đọc được thực hiện bởi tia laser có các bước sóng khác nhau. Có khá nhiều loại đĩa quang khác nhau, tuy nhiên chúng thường có đường kính 12cm, dầy ~1mm. Loại đĩa mini được dùng trong camcoder có đường kính 8cm. Hệ thống lưu trữ dữ liệu trên đĩa quang cho phép khắc phục các nhược điểm của băng từ đã nêu ở trên, do đó đĩa quang ngày càng được sủ dụng rộng rãi. Hiện có khá nhiều tiêu chuẩn ghi dữ liệu trên nhiều loại đĩa có dung lượng khác nhau. Sau đây chúng ta sẽ đề cập tới một số loại đĩa thông dụng nhất.

4.1.1.2.1 Compact disk (CD)
Đĩa quang CD làm từ nhựa tổng hợp, có độ dày ~1.2 mm nặng ~16 grams. Trên bề mặt đĩa CD phủ một lớp nhôm hoặc vàng mỏng làm lớp phản chiếu. Phủ lên trên lớp phản chiếu là lớp sơn bảo vệ. Mặt trên lớp bảo vệ có thể được dùng để in tên (Label) đĩa. Dữ liệu số (nhị phân) trên CD được lưu dưới dạng chuỗi các điểm "lõm" pits trên bề mặt lớp phản chiếu. Khoảng cách giữa các pits được gọi là "lands". Mỗi pits có kích thước ~500nm (rộng), 850nm -3500nm (dài), và ~100 nm (sâu). Chuỗi pits phân bố trên bề mặt đĩa theo đường spiral. Dữ liệu trên CD được đọc bằng tia laser 780nm, hội tụ lên trên bề mặt phản chiếu của đĩa. Ánh sáng phản chiếu từ bề mặt CD sẽ thay đổi khi tia laser chạy qua pits hay lands, như vậy sử dụng photodiode để thu nhận chùm ánh sáng phản chiếu nói trên, ta sẽ "đọc ra" lại được chuỗi bít nhị phân ghi trên CD. Tốc độ đọc/ghi dữ liệu trên CD lên tới 52X (1X = 150KB/s). Dữ liệu được ghi trên CD từ tâm đĩa ra ngoài. Hai loại CD chuẩn có (1) - đường kính 120mm, đủ ghi 74-80 phút nhạc chất lượng cao, hoặc 650-700 MB dữ liệu và (2) - đường kính 80mm Mini CD, ghi được 21 phút nhạc hay 184 MB.

4.1.1.2.2 Digital Versatile Disc (DVD)
Trong thời gian gần đây, đĩa DVD được sử dụng rộng rãi trong lĩnh vực lưu trữ dữ liệu số. Đĩa DVD có kích thước tương tự đĩa CD nhưng có dung lượng lưu trữ lớn gấp 6 lần. Đĩa DVD có hai kích cỡ: DVD Standard size có đường kính 12cm, Mini DVD có đường kính 8cm. Mini DVD được sử dụng cho các máy quay video số ghi trực tiếp lên đĩa. Định dạng DVD cho phép ghi dữ liệu lên một mặt đĩa (SS- Single Sided) hoặc lên cả hai mặt (DS- Double Sided), ngoài ra trên một mặt đĩa có thể ghi được một hoặc hai lớp dữ liệu (SLSingle layer hoặc DL- Dual/Double layer). Kỹ thuật ghi hai lớp dữ liệu lên một mặt của đĩa được mô tả trong hình 4.1.1. Giữa hai lớp ghi (Recording Layer 0 và Recording Layer 1) được ngăn cách bởi lớp phản chiếu "gần trong suốt" (Semi-transparent REFLECTIVE Layer) và lớp nhựa polycarbonate trong suốt.

 

 215 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

Hình 4.1.1 Cấu tạo đĩa quang ghi hai lớp Semi-transparent REFLECTIVE Layer phản chiếu ~18% năng lượng tia laser. Khi đọc dữ liệu từ lớp Recording Layer 1, một phần năng lượng tia laser bị phản chiếu lại ở lớp Semitransparent REFLECTIVE, một phần năng lượng bị hấp thụ bởi lớp nhựa ngăn cách hai recording layers, do đó, lớp REFLECTIVE Layer (hình 4.1.1) được thiết kế có khả năng phản chiếu 50% năng lượng tia laser. Trong trường hợp này, công suất tia phản chiếu từ cả hai lớp ghi sẽ như nhau. Nhiều công trình nghiên cứu đang được thực hiện theo hướng nâng cao dung lượng đĩa quang bằng cách tăng số lớp ghi trên một mặt đĩa. Theo tính toán, có thể chế tạo ra đĩa quang có tới 1000 lớp. Khó khăn cần khắc phục là công suất tia phản xạ từ các lớp trong giảm đi rất nhanh, ví dụ, chỉ có 5% năng lượng của tia laser tia phản xạ lại từ lớp thứ 11, từ lớp 17 con số này là 3%. Vì lý do nói trên, hiện nay, trong các phòng thí nghiệm mới thực hiện được đĩa quang có 10 lớp. Các loại đĩa đã được thương mại hóa chỉ có từ 1 đến 3 lớp ghi. Dung lượng của một số loại đĩa DVD thông dụng được liệt kê trong bảng 4.3 Bảng 4.3 Dung lượng các loại đĩa DVD

Lưu ý rằng đơn vị GB và GiB có sự khác biệt: 1GB= 109 bytes, 1,073,741,824 bytes.

1GiB = 230 =

Trong DVD-DL thông tin được đọc và ghi từ 2 lớp bằng laser có bước sóng 450nm, nhỏ hơn bước sóng dùng trong CD và DVD SL. Quá trình ghi/đọc dữ liệu trên đĩa DVD SL được thực hiện bởi tia laser 650nm, tiết diện tia laser trên bề mặt đĩa DVD là 1,32 μm (so với CD là 2,11 μm). Tốc độ ghi/đọc dữ liệu từ đĩa DVD có thể lên tới 20X (với chuẩn DVD, 1X = 1350KB/s). DVD có thể được phân loại theo đặc tính không ghi được - DVD-ROM (Read-Only Memory, ghi được một lần (DVD Recordable) và ghi được nhiều lần (DVD Rewritable). Chuẩn ghi DVD-R (ghi một lần) ra đời năm 1996, cho phép ghi 4,7GB dữ liệu trên DVD single side, single layer. Tới năm 2002, DVD-R được cải tiến thành chuẩn DVD+R (Plus R). DVD+R sử dụng một số biện pháp kỹ thuật mới, cho phép tăng độ tin cậy của đĩa trong quá trình

 

 216 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
ghi dữ liệu. Chuẩn đĩa DVD-RW (ghi nhiều lần) được hãng Pioneer phát triển và công bố năm 1999, được sử dụng trong 75% DVD Player. DVD-RW có thể ghi được tới 1000 lần, dung lượng đĩa DVD-RW SL, SS là 4.7 GB. Đặc điểm DVD-RW là trước khi ghi dữ liệu mới, cần phải thực hiện quá trình xóa hết dữ liệu cũ. Chuẩn ghi DVD+RW (ra đời năm 1997) được cải tiến để khi ghi dữ liệu không cần phải format lại đĩa như DVD-RW. Hiện nay, hầu hết các đầu đọc đĩa quang đều nhận dạng được cả hai loại đĩa trên. Hai chuẩn đĩa quang thế hệ cuối cùng, có mật độ ghi dữ liệu cao đang cạnh tranh trên thị trường là High-Definition DVD (HD DVD) và Blu-ray Disc. Đĩa HD DVD được đề xuất bởi hai hãng sản xuất thiết bị điện tử Toshiba and NEC năm 2003. HD DVD ROM có thể có 1 đến 3 lớp ghi, dữ liệu có thể được ghi trên một hoặc cả hai mặt đĩa. Dung lượng của các loại đĩa HD DVD được nêu trên bảng 4.4. Bảng 4.4 Dung lượng đĩa HD DVD

Để có thể ghi dữ liệu với mật độ cao hơn đĩa DVD, tia laser sử dụng trong HD DVD có bước sóng nằm trong vùng "Blue violet" ~405nm. Tốc độ đọc dữ liệu có thể đạt được là 36.55 Mbps. Đĩa HD DVD có thể được sử dụng để ghi các chuẩn video số khác nhau, từ DVD-Video đến HDTV 720p, 1080i và 1080p. HD-DVD hỗ trợ chuẩn nén video thông dụng là MPEG-2 và MPEG-4. Công nghệ lưu trữ cạnh tranh với HD DVD hiện nay là Blue-Ray. Đĩa quang có tên BlueRay bởi vì tia laser "Blue violet" ~405nm được sử dụng để ghi thông tin lên đĩa. Chuẩn này do các nhà chế tạo thiết bị điện tử dân dụng như: Sony, Philips Electronics và Matsushita thống nhất và công bố. Những công ty cùng tham gia phát triển chuẩn DVD này là Hitachi, Pioneer, Sharp, LG và hãng Thomson Multimedia của Pháp. Đĩa Blue-Ray Single Layer có dung lượng 25GB, Dual Layer chứa được 50GB dữ liệu số. Như vậy, trên một đĩa Blue-Ray có thể lưu trữ được trên 20 giờ video chất lượng DVD hay khoảng 4.5 giờ video chất lượng cao (HDTV). Tốc độ đọc dữ liệu từ đĩa Blue-Ray Dual Layer có thể lên tới 72Mbps. Blue-Ray Disc hổ trợ các tiêu chuẩn nén hình MPEG-2, MPEG-4 AVC (H.264), và VC-1 (Windows Media Video codec). Tháng 8 năm 2006, hãng TDK công bố đã chế tạo thành công Blu-Ray Disc Single Side có dung lượng 200 GB với sáu lớp ghi, mỗi lớp chứa 33 GB. Hai định dạng HD DVD và Blue-Ray disc đang cạnh tranh khốc liệt trên thị trường đĩa quang. Tuy nhiên, với sự hậu thuẫn mạnh mẽ của Sony và một loạt hãng sản xuất phim lớn, định dạng Blue-Ray đang dần chiếm ưu thế trước HD DVD. Hãng Sony khẳng định đến cuối tháng

 

 217 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
8/2007, họ đã dẫn đầu thị trường với 1 triệu đĩa Blu-ray được tiêu thụ ở Mỹ và 250.000 ở châu Âu, chiếm thị phần 69%. Trong những năm gần đây, với mục đích đưa đĩa quang dung lượng cao đến người tiêu dùng, các hãng sản xuất đã nỗ lực không ngừng để giảm giá thành các thiết bị đọc/ghi đĩa quang có dung lượng cao cũng như giá thành các loại đĩa HD-DVD hay Blue-Ray. Đầu năm 2006, Toshiba tung ra thị trường Mỹ đầu đĩa HD DVD HD-A1 có chi phí sản xuất ~700 USD (để phát triển định dạng HD DVD, Toshiba đã bán sản phẩm này với giá rẻ hơn chi phí gần 200USD). Đầu đĩa Blu-ray được Sony bán ra cùng thời điểm tại Mỹ có giá 1.000 USD. Đến năm 2007, giá bán lẻ đầu đọc đĩa HD DVD mã hiệu HDA2-W của Toshiba đã hạ xuống còn 198 USD. So với băng từ, lưu trữ dữ liệu trên đĩa quang có nhiều ưu điểm vượt trội: - Độ bền cơ khí cao, dễ sử dụng - Bảo quản dễ dàng hơn băng từ - Tuổi thọ đĩa quang theo dự đoán lên tới 100 năm (cao hơn nhiều so với băng từ) - Thiết bị ghi/đọc đĩa quang đơn giản, gọn nhẹ và có giá thành thấp. - Hệ thống lưu trữ dữ liệu tự động lên đĩa quang có cấu tạo đơn giản hơn và giá thành rẻ hơn hệ thống băng từ. - Hệ thống lưu trữ trên đĩa quang cho phép truy cập dữ liệu theo bất kỳ thứ tự nào với tốc độ cao. - Giá thành đĩa quang ngày càng giảm vì lượng đĩa được sản xuất và tiêu thụ ngày càng tăng.

4.1.1.3 Lưu trữ dữ liệu trên hệ thống đĩa từ (hard disk) Hiện nay, đa số các hãng truyền hình sử dụng hệ thống điều khiển tự động quá trình truyền phát chương trình mutimedia dựa trên cơ sở dữ liệu được lưu trong các server đĩa cứng dung lượng cao. Tất cả các khâu xử lý tín hiệu trong quá trình thu phát, từ lúc dàn dựng, xem duyệt chương trình, lập trình thời gian phát và lưu trữ dữ liệu đều được thực hiện dưới sự điều khiển của hệ thống quản lý chung.
Hệ thống lưu trữ trên ổ cứng hiện nay có kích thước nhỏ gọn, tốc độ ghi/đọc cao. Tuy nhiên, do giá thành (giá thành lưu trữ 1 GB dữ liệu) so với băng từ còn tương đối cao, nên hệ thống lưu trữ trên ổ cứng thường có dung lượng vừa phải và được sử dụng như bộ nhớ đệm giữa hệ thống lưu trữ dài hạn (băng từ dung lượng cao) và hệ thống xử lý video. Các ổ đĩa cứng (Hard Disk Drive- HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới 300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Để có thể thiết lập được hệ thống lưu trữ với các thông số cần thiết về dung lượng, độ tin cậy và tốc độ truy cập dữ liệu, người ta thường sử dụng công nghệ RAID (Redundant Array of Independent Disks). RAID là hệ thống bao gồm 8, 16 hoặc nhiều hơn nữa các ổ cứng. Ví dụ, hãng Seagate đã sản xuất các ổ cứng SATA-2 có dung lượng 750 GB với giá bán lẻ ~250$. Như vậy, hệ thống 16 đĩa sẽ có dung lượng 12 TB, hệ thống này cho phép ghi tới ~2700 giờ video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Có thể thấy rằng, giá thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng 1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps. Hệ thống RAID cho phép tăng tốc quá trình chuyển tài dữ liệu của đĩa cứng theo nguyên tắc đổi dung lượng lấy tốc độ: nghĩa là tốc độ chuyển tải dữ liệu sẽ tăng nếu luồng dữ liệu được chia

 

 218 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
đều cho các đĩa cứng hoạt động đồng thời. Mặt khác, nếu cần nâng cao độ tin cậy của hệ thống lưu trữ, dữ liệu cũng có thể được ghi cùng một lúc lên 2 hay nhiều ổ cứng. Để tạo ra các hệ thống lưu trữ với đặc tính cần thiết về độ an toàn, tốc độ truy cập và dung lượng, RAID cho phép cấu hình theo các mức khác nhau. RAID-0 (hình 4.1.8): Trong chuẩn RAID-0, các đĩa cứng được xếp thành các dãy (arrays). Dữ liệu được bộ điều khiển (RAID controller) phân bổ đều trên các đĩa trên dãy theo hàng ngang (data stripping). Dung lượng của một hệ thống RAID sẽ bằng tổng dung lượng các đĩa cứng. Như vậy RAID-0 không có cơ chế bảo vệ dữ liệu. Ưu điểm của RAID-0 là dữ liệu được chuyển tải rất nhanh nhưng nhược điểm của nó là chỉ cần một trong các đĩa của hệ thống bị trục trặc thì dư liệu sẽ bị mất. RAID-0 được sử dụng nhiều ở các ứng dụng máy tính để bàn.

Hình 4.1.2 Cấu hình bộ lưu trữ theo chuẩn RAID-0 RAID-1: Trong RAID-1, dữ liệu được ghi cùng một lúc lên cả hai dãy đĩa.Như vậy, nếu một đĩa bị hỏng thì đĩa dãy đĩa thứ hai vẫn có thể tiếp tục hoạt động, nên dữ liệu sẽ không bị mất mát. Ở mức RAID-1, số lượng đĩa sử dụng gấp đôi so với RAID-0 nhưng bù lại độ tin cậy của hệ thống cao hơn. RAID-2, RAID-3: tại hai mức này, dữ liệu vào được phân bố để ghi đều lên hai dãy đĩa như trong mức RAID-0, trên dãy đĩa thứ ba sẽ ghi lại dữ liệu dùng để phát hiện lỗi và sửa lỗi (Error Checking and Correction) để khôi phục lại dữ liệu nếu các đĩa trong dãy 1 và 2 bị sự cố (RAID-2 sử dụng Hamming error correction codes). Như vậy tốc độ ghi của RAID-3 sẽ tương đương với RAID-0 nhưng độ tin cậy của hệ thống sẽ cao hơn. RAID-4, RAID-5: Nhược điểm của RAID 2, 3 là quá trình khôi phục thông tin có thể bị chậm đi khi toàn bộ thông tin để sửa lỗi được ghi trên 1 đĩa. Trong mức RAID-4 và 5, thông tin về lỗi được ghi trên các đĩa thành viên của các dãy như mô tả trên hình 4.1.3.

Hình 4.1.3 Cấu hình bộ lưu trữ theo chuẩn RAID-5 Các bộ điều khiển RAID mới nhất hiện nay được thực hiện trên bộ vi xử lý Intel i80331 cho phép cấu hình hệ thống ở cứng ở mức 6 và 6 Plus. Hai mức này thực hiện mã hóa phức tạp hơn, cho phép khôi phục lại dữ liệu ngay cả khi 2 hoặc 3 đĩa cứng bị sự cố cùng một lúc. Tuy nhiên, tốc độ xử lý dữ liệu của RAID-6 thường không cao, nên mức RAID-6 ít khi được sử dụng trong các hệ thống lưu trữ dữ liệu đòi hỏi tốc độ truy cập cao như tín hiệu video số.

 

 219 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Trong phần này, chúng ta đã tìm hiểu sơ bộ về các hệ thống lưu trữ dữ liệu trên băng từ, đĩa từ và đĩa quang. Tại mỗi thời điểm lịch sử, mỗi loại vật liệu dùng để ghi dữ liệu có những ưu điểm riêng. Xét trên khía cạnh giá thành (chi phí để lưu trữ một đơn vị dữ liệu), hệ thống lưu trữ dữ liệu trên đĩa quang đang có ưu thế vì giá đĩa quang ngày càng hạ (do sức ép cạnh tranh và do số lượng đĩa được sản xuất ngày càng lớn), đồng thời các chuẩn đĩa mới ra đời có dung lượng ngày càng cao. Tuy nhiên, để tạo ra các "kho" dữ liệu có kích thước rất lớn với mục đích lưu trữ khối lượng thông tin audio và video số khổng lồ cho các hãng truyền thông, băng từ vẫn được được sử dụng rộng rãi. Các hệ thống lưu trữ trên băng từ hiện hữu sử dụng băng ghi chuyên nghiệp theo tiêu chuẩn DFT và DLT có dung lượng lên tới nhiều PB ((Peta Byte). Nhược điểm chính của hệ thống ghi dữ liệu trên băng từ, hạn chế khả năng sử dụng trực tiếp chúng trong các hệ thống truyền thông, là thời gian tìm dữ liệu lớn, bảo quản khó và thời hạn sử dụng ngắn. Hệ thống lưu trữ tự động trên đĩa cứng được thiết lập theo công nghệ RAID thường được sử dụng để lưu các thông tin cần truy cập nhanh khi dàn dựng chương trình hoặc các chương trình được chuẩn bị để phát sóng. Ưu điểm quan trọng của hệ thống này là tốc độ truy cập nhanh, nguồn dữ liệu có thể thay đổi linh hoạt với độ tin cậy cao (điều này rất quan trọng khi dữ liệu được lưu với mục đích đưa vào kênh truyền). Các nhà phân tích dự đoán rằng, trong tương lai không xa, đĩa ghi quang học sẽ được sử dụng chủ yếu trong các hệ thống lưu trữ dung lượng lớn, vì xét trên góc độ kinh tế, hệ thống lưu trữ quang (bao gồm các thiết bị ghi/đọc tự động và đĩa trắng) có giá thành lưu trữ trên một GB dữ liệu thấp nhất, hơn thế nữa, đĩa quang là mặt hàng dân dụng, được sản xuất với số lượng nhiều nên giá thành của chúng cũng sẽ hạ xuống chóng.

4.1.2 Phân phối nội dung qua mạng viễn thông
Trong mạng viễn thông hiện nay, thông tin về âm thanh và hình ảnh có thể được phân phối tới người sử dụng qua nhiều môi trường truyền dẫn khác nhau. Phần này sẽ giới thiệu về các kênh phân phối tiêu biểu đang được sử dụng trên thực tế.

4.1.2.1 Phân phối nội dung qua kênh vô tuyến

Hình 4.1.4 Phân chia băng tần cho theo bước sóng Dải tần số được sử dụng để truyền thông tin có bề rộng hữu hạn và được phân chia cho các dịch vụ truyền dữ liệu khác nhau. Mỗi băng tần được đặt tên như trên hình.. Những dải tần sau đây được quy định để truyền tín hiệu viễn thông: Dải sóng trung tần MF (Medium Frequency) tần số từ 300 - 3000 kHz. Tại đây thực hiện phát thanh vô tuyến điều biên (AM) Dải sóng cao tần HF (High Frequency) có tần số từ 3 đến 30MHz. Ứng dụng của dải tần này là vô tuyến truyền thanh nghiệp dư, dân dụng, các loại thông tin vô tuyến di động. Dải sóng cực ngắn VHF (Very High Frequency) có tần số từ 30 đến 300MHz. Ứng dụng trong vô tuyến nghiệp dư, thông tin di động, đài phát FM thương mại (88MHz đến 108MHz), vô tuyến truyền hình.

 

 220 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Dải sóng siêu ngắn UHF (Ultra High Fequency) có tần số từ 300 đến 3GHz. Dải tần này sử dụng trong vô tuyến truyền hình (470-806 MHz), viba, mạng không dây WLAN v.v. Dải sóng SHF (Super high frequency) 3Ghz-30 Ghz được sử dụng để truyền tín hiệu truyền hình quảng bá qua vệ tinh, vi ba..

4.1.2.2 Truyền thanh quảng bá Phát thanh là quá trình tổ chức và chuyển tới khán giả các chương trình phát thanh thông qua các phương tiện viễn thông. Tại các trung tâm phát thanh người ta thực hiện việc dàn dựng chương trình trong các phòng thu (studio) và chuyển chúng vào mạng truyền thanh. Mạng truyền thanh bao gồm các thiết bị truyền và phân phối chương trình phát thanh trong phạm vi khu vực phục vụ.
Tín hiệu âm thanh trong hệ thống phát thanh quảng bá có thể được truyền theo mạng cáp truyền thanh (hữu tuyến) hoặc qua sóng vô tuyến. Thời gian gần đây, dịch vụ này được thực hiện chủ yếu qua đường truyền vô tuyến. Sơ đồ tổng quát một hệ thống phân phối âm thanh được mô tả trên hình
Ñöôøng truyeàn Trung taâm phaùt thanh Phoøng thu (Studio) M Khueách ñaïi Heä thoáng voâ tuyeán truyeàn thanh Maùy thu Ñöôøng truyeàn Heä thoáng truyeàn thanh caùp Thueâ bao

Hình 4.1.5 Hệ thống phân phối tín hiệu âm thanh

4.1.2.2.1 Các dải sóng vô tuyến dùng để phát thanh
Dưới đây là các dải tần dùng để truyền phát âm thanh đã được phân chia theo tiêu chuẩn CCIR. Dải VLF (Very Low Frequency) có tần số từ 3 kHz đến 30 kHz. Dải VLF được sử dụng trong thông tin nội bộ tại các cơ quan nhà nước, trong quân đội, ví dụ như thông tin giữa các tàu ngầm, thông tin di động hàng hải. Dải LF (Low Frequency) có tần số từ 30 kHz đến 300 kHz Dải LF dùng trong thông tin di động hàng hải, định vị vô tuyến, đèn hiệu hàng không, vô tuyến hàng hải. Dải MF (Medium Frequency) tần số trung bình. Dải MF có tần số từ 300 kHz đến 3000 kHz. Các đài phát thanh vô tuyến điều biên (AM) làm việc trong dải tần này. Dải HF (High Frequency) tần số cao hay còn gọi là sóng ngắn. Dải HF có tần số từ 3MHz đến 30MHz. Ứng dụng của dải tần này là vô tuyến truyền thanh nghiệp dư, dân dụng, các loại thông tin vô tuyến di động. Riêng trong thông tin công cộng dải tần này dùng thông tin vô tuyến thuê kênh, điện báo vô tuyến, thiết bị đo mức thiệt hại thảm hoạ thiên tai v.v. Dải VHF (Very High Frequency) gọi là sóng cực ngắn có tần số từ 30MHz đến 300MHz. Ứng dụng trong vô tuyến nghiệp dư, thông tin di động, đài phát FM thương mại (88MHz đến 108MHz), vô tuyến truyền hình.

 

 221 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông 4.1.2.2.2 Hệ thống phân phối tín hiệu âm thanh stereo
Tín hiệu âm thanh stereo được truyền đi trên dải tần 66-74 MHz (tại các nước Đông Âu) và 88-108 (theo chuẩn FCC) bằng phương pháp điều chế FM. Hệ thống phát thanh FM stereo phải mang tính tương hợp với hệ thống phát thanh mono. Hiện nay tồn tại ba hệ thống mã hóa tín hiệu FM stereo: hệ thống sử dụng phương pháp điều chế AM phân cực, hệ thống sử dụng tín hiệu pilot và hệ thống sử dụng phương pháp điều tần hai lần. Hệ thống phát thanh stereo với tín hiệu pilot ra đời tại Mỹ áp dụng nguyên lý ghép kênh theo tần số, hệ thống này hoàn toàn tương thích với hệ thống truyền thanh FM mono đã được sử dụng từ năm 1940 tại đây. Sơ đồ khối máy phát và máy thu được biểu diễn trên hình 4.1.6. Để thỏa mãn yêu cầu tương hợp, tín hiệu được mã hoá và truyền đi là tín hiệu tổng (L+R) và hiệu (L-R). Tín hiệu L+R nhận được sau bộ cộng chính là tín hiệu dành cho máy thu thanh mono. Tín hiệu L-R được điều chế bằng phương pháp AM DSB SC (điều biên hai dải bên triệt sóng mang). Để có thể khôi phục chính xác tín hiệu sóng mang, trong thành phần tín hiệu FM stereo còn có tín hiệu pilot – dao động tần số 19 kHz. Cấu trúc phổ tín hiệu FM stereo với tín hiệu pilot được vẽ trên hình 4.1.6b. Trong máy thu, tín hiệu âm thanh stereo trung tần

ms ( t ) nhận

được sau bộ tách sóng sẽ được đưa qua các mạch lọc thông thấp và thông dải để phân tích thành tín hiệu mono R+L và tín hiệu AM SC mang tin tức về kênh R-L. Tín hiệu R-L được khôi phục ra bởi mạch tách sóng đồng bộ (TSĐB). Tần số sóng mang phụ 38 MHz được tái tạo và ổn định nhờ mạch khoá pha vòng bao gồm mạch tạo sóng, mạch chia tần, mạch nhân và bộ lọc thông thấp (hình 4.1.6c). Tín hiệu âm thanh được truyền đi trong hệ thống FM stereo có bề rộng dải tần từ 50 dền 15000 Hz, phổ tín hiệu FM nằm trong dải 50-53000 Hz. Theo tiêu chuẩn của FCC, Băng tần dùng để pháp tín hiệu FM stereo 88-108 MHz, một kênh FM chiếm 200 kHz. Độ lệch tần số cực đại là 75 kHz. Hệ thống FM stereo sử dụng phương pháp điều tần hai lần khác với hệ thống trên ở chỗ tín hiệu R-L được điều chế bằng phương pháp điều tần, tần số sóng mang 33.5 MHz. Song song với tín hiệu âm thanh FM stereo người ta còn có thể truyền đi dữ liệu số trên sóng mang phụ 57 kHz (hoặc 67 kHz). Hệ thống thu phát tín hiệu phụ RDS (Radio Data System) thường được sử dụng để truyền đi các thông tin ngắn . Ngoài các hệ thống truyền thanh stereo 2 kênh còn tồn tại hệ thống truyền thanh 4 kênh. Microphone và loa trong hệ thống này được phân bố theo chu vi của phòng thu âm. Tín hiệu từ 4 kênh riêng biệt mang lại cảm giác âm thanh vòng (hiệu ứng hiện diện), tuy nhiên hệ thống truyền thanh 4 kênh có giá thành tương đối cao nên chưa được phổ biến.

 

 222 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Keânh traùi L Keânh phaûi R

L + R = mono audio

Tín hieäu FM stereo mS ( t ) Maùy phaùt FM

S FM ( t )

L−R

Boä ñieàu cheá DSB-SC fsc= 38 kHz Pilot tone Chia taàn 1:2

Boä taïo soùng fsc= 38 kHz

a) Maùy phaùt FM stereo

Pilot signal
Phoå tín hieäu audi mono 0 15 19 kHz kHz b) Phoå tín hieäu FM stereo

Phoå tín hieäu DSB-SC

38 kHz

f
Tín hieäu mono Keânh traùi (2L)

mS ( t )

S FM ( t ) Maùy thu FM

LTT 0-15 kHz LTD 23-53 kHz

L+R
L−R

∑ ∑

LTT 0-15 kHz TSÑB

Keânh phaûi (2R)

LTT 19 MHz 1:2 MTS 38 MHz

c) Maùy thu FM stereo

Hình 4.1.6 Sơ đồ khối hệ thống truyền thanh FM stereo với tín hiệu pilot

 

 223 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

4.1.2.3 Truyền hình quảng bá Hệ thống truyền hình quảng bá bao gồm nhiều trung tâm truyền hình và mạng lưới chuyển tải chương trình giữa các trung tâm đó (hình 4.1.15). Trung tâm truyền hình có nhiệm vụ xây dựng các chương trình truyền hình và truyền tới người xem.

Truyền hình qua kênh vô tuyến (mặt đất)

Hình 4.1.7 Mô hình trung tâm truyền hình và mạng lưới phân phối tín hiệu Các trung tâm truyền hình lớn có khả năng tự sản xuất chương trình: - Ca nhạc, kịch tại phim trường dựng cảnh - Các chương trình tin tức tại phim trường ảo - Chương trình có khán giả tại phim trường Các trung tâm truyền hình nhỏ chỉ có khả năng tiếp nhận và phát lại tín hiệu để phục vụ cho một vùng nhất định. Việc thực hiện chuyển tiếp cũng như phân phối các chương trình truyền hình giữa các trung tâm hay trực tiếp đến khán giả có thể sử dụng đường truyền radio, đường truyền vệ tinh, vi ba, hoặc cáp quang, hệ thống cáp đồng trục. Hiện nay, ở nước ta các chương trình truyền hình trong nước và quốc tế có thể thu qua hệ thống truyền hình mặt đất, truyền hình số vệ tinh (DTH- Direct To Home), truyền hình số mặt đất DVB-T (VTC), truyền hình MMDS (Multimedia Microwave Distribution System), hệ thống truyền hình cáp thành phố CATV (Community Access Television) và truyền hình qua internet (IPTV). Hệ truyền hình dân dụng sử dụng dải tần từ 47 MHz đến khoảng 960 MHz. Trong các tiêu chuẩn truyền hình khác nhau, băng tần trên được phân chia cho các kênh truyền hình một cách khác nhau. Dải tần trên được chia thành băng tần VHF, và băng tần UHF (dải tần VHF nằm trong khoảng 30 ÷ 300 MHz, dải tần UHF – 300 ÷ 3000 MHz). Dải tần quy định dành cho hệ thống truyền hình đại chúng theo tiêu chuẩn FCC được phân chia như sau: VHF -L: VHF -H: 54-88 MHz (5 kênh) 174-216 MHz (6 kênh)

 

 224 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
UHF: 470-806 MHz (56 kênh)

Dải tần quy định dành cho hệ thống truyền hình đại chúng theo tiêu chuẩn OIRT được phân chia như sau: 48-64 MHz (2 kênh) (VHF) (VHF) (VHF) (UHF) (UHF) 76-100 MHz (3 kênh) 174-230 MHz (7 kênh) 470-606 MHz (56 kênh) 606-958 MHz (44 kênh)

4.1.2.3.1

Đặc điểm kênh truyền hình tương tự

Phân bố kênh truyền hình trong các băng tần nêu trên phụ thuộc vào tiêu chuẩn của các hệ truyền hình. Dải thông của mỗi kênh theo tiêu chuẩn OIRT là 8 MHz, theo CCIR (Ủy ban tư vấn quốc tế về thông tin vô tuyến) là 7 MHz, còn theo FCC là 6 MHz. Trên hình 4.1.8 trình bày phân bố phổ của tín hiệu truyền hình màu đầy đủ trong một kênh truyền hình theo ba tiêu chuẩn FFC, CCIR, OIRT. Tín hiệu âm thanh được điều chế tần số và truyền đi cùng một lúc với tín hiệu hình ảnh. Trong một kênh truyền (theo chuẩn OIRT) có bề rộng băng thông 8 MHz, phổ của tín hiệu âm thanh FM nằm phía trên phổ của tín hiệu hình và chiếm khoảng 0.25 MHz. Khoảng cách giữa tần số sóng mang hình và sóng mang âm thanh là 6.5 MHz (

f0 S > f0V ), giá trị này được duy trì rất

chính xác từ phía phát. Tín hiệu âm thanh được điều tần dải rộng, có khả năng chống nhiễu cao, do đó để giảm ảnh hưởng của tín hiệu này tới kênh hình, công suất tín hiệu âm thanh phát đi được giảm nhỏ hơn công suất tín hiệu hình 10 lần. Tín hiệu video tần cao được tạo ra bằng phương pháp điều chế biên độ sóng mang bởi tín hiệu hình màu. Tín hiệu hình ảnh và âm thanh được điều chế theo các phương pháp khác nhau để đơn giản hoá việc tách chúng tại mày thu.

Hình 4.1.8 Cấu trúc một kênh truyền hình màu (bao gồm kênh âm thanh) theo ba tiêu chuẩn FFC, CCIR, OIRT Trong hệ thống truyền hình, do bề rộng dải phổ tín hiệu hình rất lớn và để tiết kiệm băng

 

 225 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
thông kênh truyền người ta chỉ truyền đi toàn bộ dải trên của tín hiệu hình AM (nơi chứa toàn bộ thông tin về tín hiệu hình ảnh) và một phần nhỏ (0.75 MHz) dải biên dưới để giảm hiện tượng méo do “thành phần vuông góc” cho các thành phần phổ thấp của tín hiệu hình ảnh. Các thành phần phổ thấp tương ứng với các chi tiết lớn trong ảnh truyền hình nên ảnh hưởng nhiều tới chất lượng hình ảnh.

4.1.2.3.2 Truyền hình qua kênh vệ tinh
Hệ thống truyền tín hiệu qua vệ tinh có các ưu điểm sau: - Đường truyền vệ tinh không bị ảnh hưởng bởi điều kiện địa hình, địa vật. - Việc thiết lập một đường vệ tinh có thể thực hiện trong thời gian tương đối ngắn. Vệ tinh có thể sử dụng trong hệ thống điểm - đa điểm, phủ sóng trên diện rộng, thuận tiện cho việc thiết lập các mạng truyền hình cáp (CATV), cũng như cung cấp dịch vụ truyền hình trực tiếp đến từng nhà (DTH - Direct To Home). Thành phần hệ thống truyền tin vệ tinh bao gồm: Trạm phát sóng mặt đất: truyền tín hiệu về hướng vệ tinh (uplink). Anten phát phải có tính định hướng rất cao (búp chính rất hẹp ~0.10- để tránh nhiễu loạn giữa các vệ tinh) nên kích thước thường rất lớn (hàng chục mét). Các búp phụ của anten phải cực tiểu. Anten hướng thường trực tới vệ tinh với độ chính xác đến vài phút. Cần có hệ thống điều chỉnh góc độ anten. Độ lợi anten khoảng 60 dB. Anten thường được dùng là loại "Cassegrain", có bề mặt bức xạ chính là parabol, nguồn sóng phát ra từ mặt phản xạ thứ cấp dạng hyperbol. Hướng phát của anten có thể được thay đổi bằng cách điều chỉnh mặt phản xạ thứ cấp. Công suất máy phát khoảng 50 watt (tại tần số 14 14.5GHz). Vệ tinh: có nhiệm vụ nhận tín hiệu, khuyếch đại và dịch chuyển tần số tín hiệu xuống dải tần số phát xuống qua bộ chuyển đổi (transponder) . Trên vệ tinh tín hiệu không được giải điều chế tới băng tần gốc. Vệ tinh có chức năng giống trạm trung chuyển trong hệ thống viba. Trạm thu mặt đất: tiếp nhận tín hiệu theo đường truyền xuống (downlink) Hệ thống truyền hình vệ tinh quảng bá sử dụng các dải tần sau để truyền tín hiệu: Băng tần C Ku K Phát lên (GHz) 5.925-6.425 14.0 – 14.5 17.3 – 17.8 Băng thông (MHz) 500 500 500 Phát xuống (GHz) 3.7 – 4.2 11.7 – 12.2 12.2- 12.7

Tần số được dùng để phát tín hiệu từ trạm mặt đất lên vệ tinh có tần số cao hơn tín hiệu phát ngược từ vệ tinh. Băng tần C có tần số thấp nên suy hao do mưa và trong không khí nhỏ hơn. Độ rộng băng tần 500 MHz. Nhược điểm của dải tần C là kích thước anten thu phát lớn: 3 - 5m. Thiết bị trên vệ tinh cồng kềnh, phức tạp. Tuy nhiên chỉ có băng C mới có thể đáp ứng yêu cấu phủ sóng trên diện rộng, trong các hệ thống vệ tinh toàn cầu. Đặc điểm của kênh truyền vệ tinh: - Khoảng cách giữa vệ tinh và trạm mặt đất rất xa (36000 - 41000km vì vậy tín hiệu bị suy hao nhiều, ảnh hưởng của nhiễu tới tín hiệu lớn. - Công suất phát từ vệ tinh bị giới hạn do nguồn nuôi được cung cấp từ ắc quy và pin mặt

 

 226 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
trời có công suất hạn chế. - Anten thu phát trên vệ tinh có kích thước và độ lợi giới hạn - Mức tín hiệu thu được tại các trạm mặt đất rất nhỏ vì tín hiệu từ vệ tinh được phân bố trên diện tích rất rộng. - Tuổi thọ của vệ tinh không cao (5-7 năm) vì các lý do sau: + Vệ tinh làm việc trong điều kiện khắc nghiệt; nhiệt độ thay đổi đột ngột, chịu các bức xạ không gian, va chạm của các thiên thạch. + Các bộ phận hư hỏng của vệ tinh không thể sửa chữa được. + Tuổi thọ của pin mặt trời và hệ thống ắc quy ngắn. Các dịch vụ được cung cấp trong hệ thống thông tin vệ tinh là: Dịch vụ truyền thông cố định (FSS- Fixed Satellite Service): truyền tín hiệu thoại hay truyền hình tới mạng CATV Dịch vụ truyền thông quảng bá (BSS- Broadcasting Satellite Service) (DTH) Dịch vụ thông tin di động (Mobile Satellite Service) Dịch vụ định vị vệ tinh (Navigational Satellite Service) Dịch vụ dự bảo thủy văn (Meteorological Satellite Service)

4.1.2.3.3 Dịch vụ truyền hình DTH tại Việt Nam
DTH (Direct to home) là phương thức truyền dẫn Truyền hình trả tiền qua vệ tinh sử dụng băng tần Ku (dải tần 12 GHz) trên vệ tinh Measat-2. So với các phương thức truyền dẫn tín hiệu khác truyền hình qua vệ tinh DTH là một phương thức phủ sóng rất hiệu quả, đặc biệt với địa hình có nhiều đồi núi như VN. Hiện nay, đài truyền hình Việt Nam thuê vệ tinh địa tĩnh Measat-2 để truyền trực tiếp tín hiệu 17 kênh truyền hình trong nước và quốc tế. Công suất tín hiệu thu được trong địa phận Việt Nam là -50 -60 dBW. Đường kính anten thu là 90 cm. Vệ tinh làm việc trên dải tần Ku. Hệ thống DTH của Đài THVN sử dụng hệ khóa mã CA của hãng Viaccess –Pháp, đây là hệ thống được nhiều nhà cung cấp sử dụng, có độ an toàn cao và có khả năng tương thích với nhiều dịch vụ gia tăng sau này.

Hình 4.1.9 Vệ tinh Measat dùng để truyền tín hiệu DTH cho lãnh thổ VN Truyền hình vệ tinh DTH có những ưu điểm sau: - Vùng phủ sóng rộng, không phụ thuộc vào địa hình, chất lượng cao - cường độ trường tại

 

 227 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
điểm thu ổn định, đồng đều trên toàn quốc- và có khả năng thông tin băng rộng. - Sử dụng ở băng tần Ku, kích thước anten thu nhỏ gọn (khoảng 0.6m), phù hợp với điều kiện thu tại các hộ gia đình. - DTH sử dụng công nghệ truyền dẫn số (nén theo chuẩn MPEG-2) nên đảm bảo chất lượng tín hiệu hình ảnh cũng như âm thanh, có thể truyền nhiều chương trình truyền hình có độ phân giải cao cùng một lúc, hệ thống âm thanh stereo hay âm thanh lập thể AC3. - Hệ thống DTH tương thích với nhiều loại hình dịch vụ khác như truyền dữ liệu, Internet, truyền hình tương tác sẽ được phát triển sau này.

4.1.2.4 Phân phối nội dung qua kênh hữu tuyến 4.1.2.4.1 Hệ thống truyền hình cáp
Phần này sẽ giới thiệu hệ thống phân phối tín hiệu truyền hình qua mạng cáp.Truyền hình cáp hữu tuyến CATV (Community Antenna Television) là phương thức truyền hình thiết lập trên cơ sở hệ thống thiết bị truyền dẫn cố định bằng đường dây cáp. Nhà cung cấp CATV cùng một lúc nhận tín hiệu của nhiều hãng truyền hình trên thế giới qua vệ tinh, khuếch đại những tín hiệu thu được và phân phối đến khách hàng qua mạng cáp quang hoặc cáp đồng trục. Hệ thống truyền hình cáp đang được phát triển rất mạnh mẽ trong các khu đô thị có mật độ dân cao. Ưu điểm của hệ thống CATV là: - Chất lượng hình ảnh cao trong môi trường đô thị với các tòa nhà cao tầng, gây nhiễu fading. Có thể chuyển tải tín hiệu tới những địa điểm không thể thu được sóng của đài truyền hình có chướng ngại vật - Chất lượng tín hiệu ổn định, không phụ thuộc vào nhiễu bầu khí quyển và nhiễu công nghiệp. - Kết hợp kỹ thuật mã hóa tín hiệu để thực hiện thu phí các thuê bao - Tái sử dụng dải tần số, vốn đã được sử dụng triệt để.

Hình 4.1.10 Sơ đồ khối mô tả hệ thống truyền hình cáp tiêu biểu Hệ thống truyền hình cáp tiêu biểu bao gồm các thành phần chính sau (hình 4.1.10): - HeadEnd Station - Tổng đài trung tâm

 

 228 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
- Cáp đường trục (Trunk cable) - Hệ thống cáp nhánh, cáp thuê bao - Thiết bị khuyếch đại đường trục (Trunk amplifier) - Mạch khuyếch đại thuê bao (Distributor amplifier) - Các thiết bị chia tín hiệu (Splitter) HeadEnd Station có nhiệm vụ: - Thu các kênh TH từ đài phát mặt đất, trạm vệ tinh hoặc các chương trình được truyền từ các trung tâm truyền hình khác qua đường viba, cáp quang v.v. - Biến đổi các tín hiệu cao tần thu được thành tín hiệu băng tần gốc - Thực hiện phân kênh theo tần số (FDM) trên toàn bộ băng thông cáp đồng trục. Mỗi kênh trong headend có mạch khuyếch đại riêng để điều chỉnh mức các kênh đồng đều trên toàn bộ dải tần tín hiệu CATV, tránh xảy ra hiện tượng nhiễu xuyên giữa các kênh truyền hình. Tín hiệu truyền hình phải được mã hóa trước khi đưa vào kênh truyền để có thể xác định quyền truy cập kênh truyền hình đối với từng thuê bao (PayTV). Cơ chế Pay TV có thể được thực hiện bằng cách đặt các mạch lọc chặn dải, ngăn các kênh mà thuê bao không có quyền truy cập, hoặc các phương thức mã hóa khác nhau (scrambling mechanisms) Đường truyền cáp đồng trục cho phép tái sử dụng dải tần số vì tín hiệu được truyền đi độc lập phía bên trong sợi cáp. Nhược điểm chính của cáp đồng trục là mức độ suy hao cao. Suy hao của cáp phụ thuộc vào đường kính cáp, chiều dài cáp và tần số tín hiệu. Tùy theo số lượng kênh truyền hình được truyền theo đường cáp, có thể phân biệt 3 hệ thống truyền hình cáp (bảng 4.5). Bảng 4.5

Hệ thống cỡ nhỏ sử dụng dải tần 50-220 MHz có từ 12-22 kênh truyền hình, đường cáp trục dài trên 30 Km, với khoảng 50 bộ khuyếch đại đường trục. Số thuê bao có thể lên tới 10000 máy. Hệ thống cỡ trung (ví dụ: thành phố San Antonio ở Mỹ) sử dụng dải tần 50-330 MHz có 40 kênh, tổng chiều dài đường cáp lên tới 6000 Km, với trên 2000 bộ khuyếch đại đường trục, 11000 bộ khuyếch đại thuê bao. Số thuê bao có thể lên tới 420000 máy. Hệ thống cỡ lớn có thể truyền tải tới 150 kênh truyền hình trên đường trục có băng thông 950 MHz. Mạng cáp trong CATV thường có cấu trúc dạng "cây" sử dụng cáp đồng trục hoặc dạng

 

 229 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
hỗn hợp, sử dụng cáp quang và cáp đồng trục (Hybrid Fiber Coaxial system). Trong mạng HFC, cáp quang được sử dụng thay cho cáp đồng trục trên đường trục. Việc sử dụng cáp quang cho phép nâng cao dung lượng đường truyền, nâng cao chất lượng tín hiệu, giảm chi phí lắp đặt.

Hình 4.1.11 Sơ đồ khối mạng CATV tiêu biểu, sử dụng cáp quang và cáp đồng trục (Hybrid Fiber Coaxial system). Hiện nay, ở nước ta có 16 đơn vị ứng dụng triển khai truyền hình cáp tại các địa phương như: Hà Nội, Hải Phòng,Thái Bình, TPHCM, Đà Nẵng, Cần Thơ... Theo số liệu của Bộ VHTT, hệ thống truyền hình cáp phục vụ khoảng 350000 thuê bao trên cả nước. Các nhà cung cấp dịch vụ CATV ở Việt Nam đang dùng công nghệ tương tự (analog) để cung cấp các chương trình truyền hình qua đường cáp đồng trục. Tín hiệu trong các hệ thống CATV hiện nay thường không bị mã hóa, do đó các thuê bao có thể chia sẻ chương trình cho nhiều máy thu trong nhà. Tại Tp HCM, SCTV là công ty đầu tiên phát triển hệ thống truyền hình cáp qua mạng cáp quang và cáp đồng trục hỗn hợp CATV. Truyền hình cáp SCTV cho phép tiếp nhận ~50 kênh quốc tế và kênh trong nước, phát sóng liên tục 24/24 giờ hàng ngày. Ngoài công nghệ CATV, hiện nay tại nước ta, các chương trình truyền hình còn được chuyển tải bằng nhiều công nghệ khác như vi ba nhiều kênh (MMDS), DTH, truyền hình số mặt đất DVB-T và truyền hình qua mạng Internet. Truyền hình cáp MMDS (Multi-media Microwave Distribution System) là một hệ thống dịch vụ truyền hình qua hệ thống viba nhiều kênh, làm việc trên dải tần 2.7 GHz. Năm 1995 dịch vụ MMDS được Đài THVN đưa vào sử dụng. Đây là hệ thống dịch vụ truyền hình sử dụng công nghệ analog tương đối lạc hậu. Một kênh truyền hình MMDS chiếm dải tần khoảng 8 Mhz. Hiện nay hệ thống MMDS không còn được phát triển, thay vào đó là các hệ thống phân phối tiên tiến hơn như truyền hình cáp hay truyền hình qua vệ tinh.

 

 230 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông 4.1.2.4.2 Công nghệ IPTV
Ngày nay, công nghệ đường dây thuê bao số (DSL – Digital Subcriber Line) cho phép các nhà cung cấp dịch vụ viễn thông cung cấp băng thông rộng đến khách hàng: 20 Mbps (ADSL2+) và 50Mbps(VDSL). Sự phát triển của công nghệ Video, các chuẩn nén mới ra đời như: H.264, MPEG-4 và Windows Media Video cho phép nén video hiệu quả hơn chuẩn MPEG-2; Cùng với sự ra đời của bộ định tuyến (Router), chuyển mạch (Switch), định hướng dịch vụ (Service Oreinted) có hiệu suất hoạt động cao, cổng giao tiếp lớn (10 Gbps) đảm bảo chất lượng dịch vụ (QoS) ở lớp 2, lớp 3. Tất cả các yếu tố nêu trên tạo điều kiện cho các nhà cung cấp dịch vụ viễn thông nhanh chóng, dễ dàng xây dựng và triển khai cung cấp đa dịch vụ (Triple Play: ThoạiVideo-Data) có tính cạnh tranh cao trên một cơ sở hạ tầng mạng chung với chi phí thấp. Ứng dụng truyền thông đa phương tiện qua mạng Internet đã trở thành mục tiêu quan trọng đối với các nhà nghiên cứu và thiết kế hệ thống. Thông tin liên lạc giữa con người được nâng lên tầm cao mới qua việc truyền hình ảnh chất lượng cao trong các mạng Internet thế hệ mới. Mục tiêu đề ra là hỗ trợ các ứng dụng phát triển đa dịch vụ trên mạng, đồng thời phải tối ưu hoá được năng lực mạng lưới của nhà cung cấp dịch vụ và đảm bảo tối đa về chất lượng cho khách hàng. Như vậy vấn đề đặt ra là giảm tốc độ truyền dữ liệu, đảm bảo chất lượng dịch vụ (QoS), nâng cao khả năng bảo mật, phát công suất hiệu quả và tăng khả năng chống lỗi trong môi trường có nhiễu. Tại Việt Nam, dịch vụ truyền tín hiệu video IPTV được thực hiện trên mạng DSL (Digital Subscriber Line - đường dây thuê bao số). DSL là công nghệ truyền dẫn dữ liệu tốc độ cao trên đôi dây cáp đồng truyền thống. DSL tận dụng khoảng băng thông rộng chưa sử dụng đến trên đôi dây cáp đồng (từ 4Khz đến 1Mhz) để truyền dữ liệu với tốc độ cao. Một số ưu điểm nổi bật của mạng DSL: • • Có thể kết nối Internet và sử dụng điện thoại đồng thời trên cùng một đường dây. Khả năng truyền tải dữ liệu với tốc độ cao hơn modem tương tự rất nhiều: ADSL có tốc độ tải dữ liệu xuống (download) từ 1,5 -8 Mb/s nhanh hơn modem 56K 140 lần và ISDN 128K 60 lần. Kết nối dành riêng cho mỗi thuê bao DSL nên hạn chế được tình trạng nghẽn mạch. Với các ưu điểm trên, DSL được sử dụng rộng rãi để cung cấp các dịch vụ thoại, truyền dữ liệu, hình ảnh, âm thanh, truy cập Internet, hội nghị truyền hình, trò chơi trực tuyến (Games on Line), xem phim theo yêu cầu(VoD), xem tivi trực tuyến (tương tự như truyền hình cáp) và các loại dịch vụ băng thông rộng khác. Tốc độ xDSL sẽ phụ thuộc phần lớn vào công nghệ sử dụng, ví dụ công nghệ IDSL đạt tốc độ tối đa 144 Kb/s trong khi VDSL đạt tốc độ lớn hơn 10 Mb/s (max 52Mb/s).

• •

Để sử dụng các dịch vụ xDSL, thuê bao cần lắp đặt modem hoặc router xDSL, thường được gọi là ATU-R (ADSL Transceiver Unit - Remote terminal) có ý nghĩa chung là thiết bị đầu cuối. Trong khi nhà cung cấp dịch vụ (ví dụ như Ngành Bưu Điện) cần có DSLAM hoặc đơn vị đường dây băng rộng (theo thiết bị tổng đài) hoặc tủ tiếp cận thuê bao băng rộng (độc lập với thiết bị tổng đài), tất cả gọi chung là thiết bị trung tâm kết nối xDSL (ATU - C hay ADSL Transceiver Unit Central). Thông thường, các thiết bị đầu cuối có thể kết nối với thiết bị khách hàng qua cổng USB, cổng Ethernet 10 Base T hay qua giao tiếp PCI bên trong máy tính. Đối với nhà cung cấp dịch vụ DSL, hệ thống DSLAM thực hiện tiếp nhận và tích hợp các kết nối DSL, đưa vào đường truyền chung dung lượng cao đến mạng diện rộng (WAN) hay Internet. Hệ thống ATU-C có thể hỗ trợ

 

 231 

Chươn 4 Ứng dụ kỹ thuật xử lý âm th ng ụng t hanh và hình ảnh trong v thông viễn
nhiều loại công ng ghệ, giao thứ và phương pháp điều chế xDSL k ức khác nhau. M Mạng người dùng một o eway – có thể là modem A ể ADSL, bộ đị tuyến), giao tiếp với m ịnh mạng gồm m cổng vào (Home gate của nh cung cấp có nhiệm vụ nhận nguồn hình IPTV, VoD và phâ phát đến c STB (Set Top hà c n ân các t Box). T Thiết bị đầu cuối (End po oint) : STB, P Phone, Mobi ile….có thể d dùng cáp đồn CAT5e – U ng UTP4 pair hoặc đường truyền vô tu g uyến (WiFi , Digital Enh hanced Cord dless Telecom mmunication để ns) i g kết nối vào Home gateway. Với V tốc độ p phát triển của mạng Inter a rnet băng thô rộng (AD ông DSL) hiện na thì nhu cầ sử ay, ầu dụng các dịch vụ g tăng trên mạng là xu hướng tất yế IPTV và VoD là dịch vụ gia tăng mới c gia ếu. h g xuất hiện ở Việt N Nam. Dịch vụ này không nằm ngoài x hướng tích hợp công n ụ xu h nghệ (Triple Play: deo) của ngà công ngh truyền thô trong tươ lai. Các chuyên gia nhận ành hệ ông ơng Data - Voice - Vid ẽ ng m định dịch vụ này sẽ thật sự “bùn nổ” trong một vài năm tới. Ngoài các tiệ ích về nhu cầu giải trí trực tuyến th trong tươn lai các tiện ích đáp ứng cho N ện u hì ng n g nhu cầ thiết thực của khách hàng cũng sẽ được triển k ầu khai như : mu sắm trực tuyến , dự b tỷ ua báo giá ngo tệ, dự báo thời tiết, tra đổi thông tin giữa khác hàng với n oại o ao ch nhau thông q giao diện TV. qua n

Hìn 4.1.12 Mộ số dịch vụ được triển kh trên mạng ADSL nh ột hai Hiện H nay ở V có hai nh cung cấp d VN hà dịch vụ IPTV là: FPT và VNPT với s thuê bao là 300 V số à (VNPT đang thử ng T ghiệm) , 100 (FPT). 00 Phương thức truyền: Bro P c oadcast và un nicast qua mạ IP sử dụn cáp đồng v cáp quang trên ạng ng và g nền bă rộng. ăng Kỹ K thuật: Vi ideo số nén t theo chuẩn M MPEG-2, độ phân giải ca nhất 720x5 pixels có khả ao 576 ó năng p triển lên độ phân giải 1920x1280p phát i pixels (chuẩn HDTV) n Thiết bị đầu cuối: Khi x T xem truyền hình trên PC thì không cầ thiết bị đầ cuối, Nếu xem ần ầu u truyền hình qua TV thì cần phả có STB. n V ải Các C dịch vụ: IPTV, inter : rnet, VoD, M MoD, VPN, WAN và các dịch vụ mua bán, thanh toán W a, h qua mạ ạng. Dịch vụ IPT đã được B điện Thà phố Hồ Chí Minh th nghiệm tạ một số khu vực D TV Bưu ành hử ại u trong t thành phố vớ khoảng 300 điểm với nh cự ly kh nhau (trong khoảng cá cáp từ 0.5 km ới 0 hiều hác ách -> 5km Nhận xét chung về dịc vụ như sau m). ch u: • Đây là dịch vụ m gây chú ý với khách hàng, tuy nh mới hiên còn thiế các dịch v đa ếu vụ dạng như: phim c g chất lượng c cao, xem các chương trìn truyền hìn ca nhạc theo nh nh,

232

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
yêu cầu chơi game trên TV, chat trên TV…v.v Chưa xác định được giá thành lắp đặt và thuê bao hợp lý (không quá cao so với truyền hình cáp), nên có nhiều mức phí theo các nhóm chương trình tự chọn. Nhà cung cấp nên hỗ trợ một phần chi phí thiết bị STB cho khách hàng do giá thiết bị STB hiện nay còn khá cao. Chất lượng hình ảnh và âm thanh thỏa mãn nhu cầu 90% mẫu thử. Chất lượng dịch vụ chỉ ổn định trong phạm vi khoảng cách cáp đồng nhỏ hơn 3.5 km. Đối với các khu vực chưa có ADSL2+ thì chưa thể triển khai dịch vụ được vì băng thông đường truyền không đảm bảo. Độ ổn định : cao.

• • • • • •

Khả năng đáp ứng nhu cầu dịch vụ IPTVcủa mạng viễn thông Việt Nam Hiện nay, với mạng ADSL có tốc độ truyền tương đối chậm, nên chỉ triển khai được một số dịch vụ đơn giản tích hợp trong IPTV. Để có thể triển khai thành công dịch vụ IPTV với nhiều tiện ích mới thì mạng băng rộng đóng vai trò tiên quyết, bởi vì chỉ có mạng băng rộng mới có thể bảo đảm cung cấp đầy đủ băng thông theo yêu cầu cho các dịch vụ IPTV (như truyền hình, video, Games,v.v..). Thị trường băng rộng tại Việt Nam đang trong giai đoạn phát triển bùng nổ nhu cầu và còn rất nhiều tiềm năng. Số lượng thuê bao băng rộng Việt nam đã đạt xấp xỉ 200.000 với sự tham gia của các nhà cung cấp dịch vụ VNPT, FPT Telecom, Viettel, SPT,.. Dự kiến đến cuối năm 2006, số lượng thuê bao băng rộng của Việt Nam sẽ đạt khoảng 300.000 và đến 2008 số lượng này sẽ phát triển lên tới 800.000 ÷1.000.000 thuê bao. Đồng thời với việc triển khai các công nghệ hữu tuyến xDSL/PON và công nghệ vô tuyến băng rộng (WiFi/WiMAX, CDMA,…) của các nhà cung cấp dịch vụ ở Việt Nam, thì IPTV lại càng có cơ hội phát triển mạnh mẽ và bảo đảm cho sự thành công của loại hình dịch vụ mới này.

4.2 CÁC TIÊU CHUẨN MÃ HOÁ ÂM THANH VÀ HÌNH ẢNH TRONG
TRUYỀN THÔNG ĐA PHƯƠNG TIỆN

4.2.1 Các tiêu chuẩn của ITU- T cho âm thanh
Các tiêu chuẩn ITU-T cho âm thanh bao gồm G.711 • G.722 • G.722.1 • G.722.2 • G.723 • G.723.1 • G.726 • G.728 • G.729 • G.729.1 • G.729a G.711 là chuẩn ITU-T dùng cho thoại chủ yếu trong các hệ thống tổng đài, đựơc phát hành chính thức vào năm 1972. G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở băng tần thoại, tần số lấy mẫu là 8000 mẫu trong một giây. Có hai giải thuật chính được định nghĩa trong chuẩn này, giải thuật µ-law dùng ở khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng ở khu vực Châu Âu và những nước còn lại. Cả hai giải thuật đều tính toán trên hàm mũ logarit, nhưng giải thuật A-law được thiết kế đặc biệt với mục đích đơn giản hóa quá trình tính toán. Hai giải thuật µ-law được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A-Law là 13-bit với mẫu 8-bit. Như vậy, bộ mã hóa G.711 sẽ tạo được luồng dữ liệu bit có tốc độ 64kbit/giây với tần số lấy mẫu là 8kHz. G.722 là chuẩn ITU-T dùng cho mã hóa tiếng nói băng tần rộng hoạt động với tốc độ truyền 32-64 kbit/giây. Công nghệ mã hóa dựa trên việc phân chia băng tần ADPCM.

 

 233 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
G.722.1 cho phép nén dữ liệu với tốt độ bit thấp. Một biến thể mới của G722.1 là G.722.2, được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép nén với tốc độ thấp hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như thích nghi với tính chất của mạng. Trong trường hợp sau, khi mạng bị nghẽn, coder sẽ tăng hệ số nén để tạo ra dòng bits có tốc độ thấp, khi mạng hết nghẽn sẽ quay trở về trạng thái bình thường,khi đó chế độ tốc độ bit cao và mức nén thấp hơn được phục hồi. Chuẩn G.722 xử lý dữ liệu âm thanh tại tốc độ lấy mẫu 16kHz, gấp đôi tốc độ xử lý tại các giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn. Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa âm thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là 16 kHz), sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn vào 30 tháng 09 năm 1999. Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi tối ưu hóa cho cả âm thoại lẫn nhạc. Độ phức tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật tại hai điểm đầu cuối là 40ms. Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005, còn được biết thông qua tên Siren14™, được phát triển bởi Polycom cho phép truyền không cần bản quyền với tần số lấy mẫu 14kHz. Thực tế, có ba loại mã hóa ITU đều có chung một tên là G.722. Đầu tiên, G.722 là mã hóa với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps. Một phiên bản khác G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng tốt như G.722 với phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt động với âm thoại băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP-based. Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết hạn, cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền của tập đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập đoàn VoiceAge. G.722.2 (GSM AMR WB) Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được phát triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất lượng âm thoại tốt vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so với các mã âm thoại băng hẹp hiện đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR-WB được hệ thống hóa thành G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T. Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ bit khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín hiệu truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu là 12.65 kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín hiệu truyền là âm nhạc. Tốc độ bit 6.60 và 8.85 cung cấp chất lượng chấp nhận được so với mã hóa băng tần hẹp. AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng như UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho nhiều mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB lần đầu tiên được thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức.

 

 234 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721 điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps. Hiện nay G.723 được thay thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi thời. Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung 30 ms hoặc 7.5ms. Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu băng thông thấp. Có hai tốc độ bit mà G.723.1 có thể hoạt động: 6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9) 5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62) G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16, 24, 32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723 (ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit thường sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits, 3-bits, 4bits, và 5-bits. Tốc độ thường dùng là 32 kbps, bằng một nửa so với chuẩn G.711, như vậy,dung lượng của mạng sẽ tăng lên 50%. Thông thường chuẩn này được dùng trong các mạng điện thoại quốc tế cũng như hệ thống điện thoại không dây DECT. G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới thiệu vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990. G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho môi trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng bộ lượng tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất trong chuỗi bit truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại. G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LDCELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự đoán tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích được tạo ra để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng giải thuật mã dấu chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728 có tốc độ lên đến 2400 bps. G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh với khung 10 ms. G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng tần thấp. Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động tại 6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn. Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính toán đơn giản hơn, tuy nhiên chuẩn này có chất lượng thoại kém hơn. Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín hiệu thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các thông số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để thực hiện việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được tích hợp trong chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do tín hiệu là tín hiệu phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi sử dụng chuẩn này cần phải thận trọng. Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu âm

 

 235 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được thiết kế theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách thức cắt giảm chuỗi bit truyền. G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào. Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. Lớp kế tiếp có tốc độ 14 kbps (tốc độ truyền tăng lên 2kbps). Các lớp khác sẽ có tốc độ tăng dần từng bước 2 kbps làm gia tăng chất lượng tín hiệu. Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de Sherbrooke.

4.2.2 Các tiêu chuẩn của ITU- T cho ảnh tĩnh và video. 4.2.2.1 Chuẩn H261 Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền trên hệ thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu của giải thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn hỗ trợ các khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương ứng (và 4:2:0 mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn này được hiệu chỉnh năm 1994, cho phép nâng chất lượng tín hiệu video nén lên tới độ phân giải 704x576.
Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế. Việc thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này (MPEG1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này. Ngoài ra, cac phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae Okubo) cộng tác phát triển chuẩn vẫn được ứng dụng trong các việc mã hóa theo các chuẩn sau này: đó là giải thuật mã hóa dùng kỹ thuật bù chuyển động và mã hóa trong không gian ảnh (được ứng dụng trong chuẩn JPEG). Trong H261, dự đoán hình ảnh nội tại sẽ được thực hiện với cơ chế để loại bỏ dư thừa trong thời gian dựa trên các vector chuyển động. Khi mã hóa trong ảnh, các block 8x8 điểm ảnh sẽ được chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa không gian, các hệ số biến đổi lượng tử được đọc ra theo đường zig-zag và mã hóa entropy để loại bỏ các dư thừa thống kê. Chuẩn H.261 không chỉ định rõ phương pháp mã hóa video (ví dụ: phương pháp dò tìm vector chuyển động). Các nhà thiết kế bộ mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của riêng họ.

4.2.2.2 Chuẩn H.262 Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn chung cho cả hai tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía cạnh của chuẩn. 4.2.2.3 Chuẩn H263 Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp mã hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình.
Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch

 

 236 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các hệ thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình ISDNbased), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet). Hầu hết nội dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace, v.v….) được mã hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ phiên bản Flash 8. Tín hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền LGPL-licensed dùng trong các chương trình như VLC media player và MPlayer. Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn có thể thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại có thêm các phiên bản H.263v2 (còn gọi là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000).

4.2.2.4 Chuẩn H264 Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG-4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ nén ảnh tiên tiến. Phiên bản nháp đầu tiên được hoàn thành vào tháng 05 năm 2003.
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát triển. Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế. Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấp hoặc độ phân giải cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng (mục đích broadcast, lưu trữ DVD, truyền qua mạng gói RTP/IP, và các hệ thống tổng đài)

4.2.2.5 Chuẩn JVT Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với chuẩn nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản mở rộng hỗ trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy mẫu (bao gồm mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc lấy mẫu như YUV 4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range Extensions ( như phép biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận trọng số lượng tử hóa dựa trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ các không gian màu cộng thêm và phép biến đổi màu số dư). Công việc thiết kế trong dự án được hoàn thành vào tháng 7 năm 2004 và phiên bản nháp được ra mắt vào tháng 09 năm 2004.

 

 237 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
TÓM TẮT CHƯƠNG 4 Trong chương bốn chúng ta đã đề cập tới một vấn đề quan trọng trong hệ thống truyền dẫn tín hiệu âm thanh và hình ảnh đó là lưu trữ dữ liệu. Trong đài truyền hình luôn tồn tại các hệ thống lưu trữ dữ liệu khổng lồ được sử dụng để lưu trữ những thước phim tư liệu quí giá. Số lượng phim ảnh cần lưu trữ tăng liên tục. Các định dạng video số chất lượng cao (HDTV) cũng đòi hỏi không gian lưu trữ tăng đáng kể so với tín hiệu video analog trước đây. Tại phần này, chúng ta đã lần lượt nhắc lại các công nghệ lưu trữ dữ liệu tương tự, ứng dụng trong kỹ thuật ghi hình nghiệp dư (VHS, SVHS, Video-8) cũng như chuyên nghiệp (Quadruplex Ampex) đến các công nghệ ghi tín hiệu số hiện đại trên đĩa quang (CD, DVD, HD-DVD, Blue-Ray). Trong phần này, không thể không nhắc đến các hệ thống lưu trữ chuyên dụng có dung lượng lớn và thời gian truy cập nhanh dựa trên hệ thống ổ cứng được cấu hình theo nguyên lý RAID-0...6. Cuối cùng, tài liệu này cũng giới thiệu sơ bộ về các hệ thống lưu trữ dữ liệu lâu dài trên các băng từ chuyên dụng LTO và DTF. Hệ thống lưu trữ là một hệ thống thiết bị phức tạp, cho phép tìm dữ liệu, ghi/đọc dữ liệu tự động có thể lập trình trước, thiết bị lưu trữ dự phòng tự động, vật liệu lưu trữ (băng từ, CD, DVD v.v.) và các thiết bị hỗ trợ như hệ thống điều hòa, hệ thống duy trì độ ẩm, chống cháy v.v. Các hệ thống lưu trữ trên băng từ, đĩa quang và đĩa cứng có đặc tính sử dụng khác nhau, bao gồm cả ưu điểm và nhược điểm. Tùy theo ứng dụng cụ thể, dựa trên các kết quả phân tích ở trên, chúng ta có thể lựa chọn cấu hình hệ thống lưu trữ phù hợp, để đạt hiệu quả kinh tế cao nhất. Phần tiếp theo của chương 4 giới thiệu với bạn đọc một số phương pháp phân phối tín hiệu âm thanh và hình ảnh qua mạng viễn thông. Tín hiệu âm thanh cũng như hình ảnh hiện nay được đưa tới người dùng thông qua các kênh truyền vô tuyến cũng như hữu tuyến. Trong phần này có đề cập tới giải pháp truyền tín hiệu âm thanh quảng bá qua đường vô tuyến, trong đó, chủ yếu dành thời gian giới thiệu về phương pháp hình thành và phân phối tín hiệu âm thanh lập thể (stereo) FM. Các hệ thống truyền hình được nhắc đến trong phần này bao gồm: - Hệ thống truyền hình quảng bá (dùng kênh vô tuyến trên mặt đất) - Hệ thống truyền hình số mặt đất - Hệ thống truyền hình vệ tinh DTH - Hệ thống truyền hình cáp (CATV) - Hệ thống truyền hình qua mạng (IPTV) Sau cùng, trong chương 4 có giới thiệu một số tiêu chuẩn mã hoá âm thanh và hình ảnh ứng dụng trong truyền thông đa phương tiện. Toàn bộ các tiêu chuẩn ITU-T cho âm thanh và hình ảnh, nếu cần, bạn đọc có thể tìm được trong các trang web có liệt kê trong các tài liệu tham khảo. CÂU HỎI VÀ BÀI TẬP CHƯƠNG 4 1. Tìm dung lượng bộ nhớ cần thiết để lưu trữ 10 phút dữ liệu video số HDTV 1920x1080/P/50, lấy mẫu theo tiêu chuẩn 4:2:2, lượng tử hóa với 10 bits/mẫu. 2. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu lên băng từ. 3. Cho biết khác biệt giữa băng ghi hình VHS và VHS-C 5. So sánh hai tiêu chuẩn ghi hình VHS và SVHS. Hai chuẩn này có tương thích với nhau hay không?

 

 238 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
6. Nêu ra các ưu điểm và các nhược điểm của chuẩn ghi hình Video-8 của Sony. 7. Cho biết sự khác biệt giữa các chuẩn ghi hình DVCPRO-25, DVCPRO-50 và DVCPRO100. 8. Tín hiệu video 1920x1080i/60 4:4:4, 10 bits/mẫu dài 15 phút được ghi lên băng hình HDCAM-SR. Tín hiệu video nói trên được nén theo chuẩn MPEG-4 với tỷ lệ nén 2:1. Thành phần âm thanh bao gồm 12 kênh được mã hóa với 48kHz/24 bits. Tính khối lượng dữ liệu được lưu trên băng hình trên. 9. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu lên đĩa quang. 10. Trình bày nguyên lý ghi đĩa quang nhiều lớp. Cho biết nguyên nhân chính hạn chế số lượng lớp ghi trên một mặt đĩa quang? 11. So sánh khác biệt của các loại đĩa quang CD, DVD, HD DVD, Blue-Ray. 12. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu trên hệ thống ổ cứng 13. Trình bày cơ chế làm việc của hệ thống RAID-0 ...5. So sánh ưu và nhược điểm của từng cấu hình. Cấu hình RAID nào thường được sử dụng trong hệ thống lưu trữ thông tin hình ảnh? 15. Phân tích phương pháp mã hóa tín hiệu FM stereo sử dụng tín hiệu pilot. 16. Cho biết phương pháp điều chế tín hiệu video trong hệ thống truyền hình quảng bá (truyền hình analog, phát sóng trên mặt đất). 17. Phân tích ưu điểm và nhược điểm của hệ thống phân phối chương trình sử dụng kênh truyền vô tuyến. 18. Phân tích chức năng các thành phần trong hệ thống truyền thông tin qua vệ tinh. 19.Tổng hợp các đặc điểm chính của hệ thống truyền tin qua vệ tinh. So sánh với hệ thống truyền tin viba. 20. Trình bày cấu trúc hệ thống truyền hình cáp CATV. Phân tích ưu điểm và nhược điểm của hệ thống truyền hình cáp. 21. Trong trường hợp nào nên sử dụng cấu trúc mạng cáp quang và cáp đồng trục hỗn hợp (Hybrid Fiber Coaxial system) cho hệ thống CATV? 22. Những dịch vụ nào có thể tích hợp trong mạng xDSL. 23. Cho biết những phương pháp nén tín hiệu được sử dụng trong hệ thống IPTV. Yếu tố nào quyết định chất lượng dịch vụ truyền hình IPTV? TÀI LIỆU THAM KHẢO [1.] [2.] [3.] [4.] [5.] John Watkinson, “An Introduction To Digital Audio”, Focall Fress, 1994. Mark Kahrs, “Applications of Digital Signal Processing to Audio and Acoustics”, Kluwer Academic Publisher, 2002. L. R. Rabiner, R. W. Schafer, “Digital Processing of Speech Signals“, Prentice-Hall, Inc., Englewood Cliffs, New Jersey, 1978. Yiteng (Arden) Huang Jacob Benesty, “Audio Signal Processing for Next-Generation Multimedia Communication System”, Kluwer Academic Publisher. Davide Rocchesso, “Introduction to Sound Processing”. http://www.sci.univr.it/~rocchess

 

 239 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
[6.] [7.] [8.] [9.] [10.] [11.] [12.] [13.] [14.] [15.] [16.] [17.] [18.] [19.] Giáo trình xử lý tín hiệu số - Đại Học Bách Khoa TP. HCM. Wai C. Chu, “Speech coding Algorithms”, Wiley-Interscience, 2003 Website: http://www.dcs.shef.ac.uk/~stu/com326/index.html Website: http://www.generation5.org/content/2001/markov.asp Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988. J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley, 1996. Alan C. Bovik , Handbook of Image and Video Processing, Academic Press, 2000. John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing of Speech Signals, Wiley-IEEE Press, 1999. R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing Using MATLAB, Prentice Hall, 2003. R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002. William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001 John Wiley & Sons, Inc. Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill Companies. Inc. Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa học và kỹ thuật, 2004. Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa học và kỹ thuật, 1999.

MỤC LỤC CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU 1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN ......................................................... 3 1.1.1 Tín hiệu và phân loại tín hiệu ................................................................................... 4 1.1.2 Tín hiệu rời rạc ......................................................................................................... 4 1.1.2.1 Biểu diễn tín hiệu rời rạc ....................................................................................... 5 1.1.2.2 Các phép biến đổi tín hiệu rời rạc .......................................................................... 5 1.1.3 Phân loại hệ thống .................................................................................................... 6 1.1.3.1 Hệ thống tương tự .................................................................................................. 6 1.1.3.2 Hệ thống rời rạc ..................................................................................................... 8 1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH VÀO MẠNG BĂNG THÔNG ĐA DỊCH VỤ ............................................................................................................... 11 1.2.1 Đặc điểm của multimedia ......................................................................................... 11 1.2.2 Nén tín hiệu trong mạng đa dịch vụ ......................................................................... 12 1.2.3 Lưu trữ ...................................................................................................................... 12

 

 240 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
1.2.4 Băng thông................................................................................................................ 13 1.2.5 Chất lượng dịch vụ (Quality of Service) .................................................................. 13 1.2.6 Tương tác .................................................................................................................. 14 Tóm tắt chương 1……………………………………………………………………. ...15 Câu hỏi và bài tập chương 1 .............................................................................................. 16 CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH 2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH ................................................................... 16 2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh .................................... 16 2.1.1.1 Đặc tính của âm thanh tương tự............................................................................. 16 2.1.1.2 Khái niệm tín hiệu ................................................................................................. 17 2.1.1.3 Phân loại tín hiệu ................................................................................................... 17 2.1.1.4 Phân loại hệ thống xử lý ........................................................................................ 19 2.1.1.5 Hệ thống số xử lý âm thanh ................................................................................... 20 2.1.1.6 Mô hình hóa tín hiệu âm thanh .............................................................................. 20 2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh .................................................................... 21 2.1.1.8 Tần số lấy mẫu....................................................................................................... 23 2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh ....................................... 23 2.1.2.1 Phép biến đổi z ...................................................................................................... 23 2.1.2.2 Phép biến đổi Fourier ............................................................................................ 24 2.1.2.3 Phép biến đổi Fourier rời rạc ................................................................................. 25 2.2 MÔ HÌNH XỬ LÝ ÂM THANH ................................................................................ 26 2.2.1 Các mô hình lấy mẫu và mã hoá thoại...................................................................... 26 2.2.1.1 Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục ............................... 26 2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục .................................... 27 2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc ..................................... 27 2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại .................................. 28 2.2.1.5 Kiến trúc của hệ thống mã hóa âm thoại ............................................................... 29 2.2.1.6 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại ......................................... 31 2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại .................................................. 32 2.2.2 Các mô hình dùng trong xử lý âm thanh .................................................................. 33 2.2.2.1 Mô hình quang phổ ................................................................................................ 33 2.2.2.2 Mô hình miền thời gian ......................................................................................... 36 2.2.2.3 Các mô hình phi tuyến ........................................................................................... 39 2.2.2.4 Mô hình thời gian rời rạc ....................................................................................... 41 2.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN ........................................................... 44 2.3.1 Phân tích dự đoán tuyến tính .................................................................................... 44 2.3.1.1 Bài toán dự đoán tuyến tính ................................................................................... 44

 

 241 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động .................................................... 46 2.3.1.3 Giải thuật Levison-Durbin ..................................................................................... 48 2.3.1.4 Giải thuật Leroux-Gueguen ................................................................................... 48 2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen ....................................... 49 2.3.2 Dự đoán tuyến tính trong xử lý thoại........................................................................ 50 2.3.2.1 Mô hình xử lý tín hiệu thoại .................................................................................. 50 2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC ........................................................... 53 2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI .......................................................... 54 2.4.1 Các phương pháp mã hoá ......................................................................................... 54 2.4.2 Các tham số liên quan đến chất lượng thoại ............................................................. 55 2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản................................................. 55 2.4.3.1 Phương pháp đánh giá chủ quan (MOS) ............................................................... 57 2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan ......................................... 58 2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI................................................................... 62 2.5.1 Mô hình thời gian động ............................................................................................ 62 2.5.1.1 Tổng quan .............................................................................................................. 62 2.5.1.2 Giải thuật DTW đối xứng ...................................................................................... 63 2.5.1.3 Giải thuật DTW bất đối xứng ................................................................................ 65 2.5.2 Mô hình chuỗi markov ẩn ......................................................................................... 67 2.5.2.1 Tổng quan .............................................................................................................. 67 2.5.2.2 Định nghĩa mô hình Markov ẩn ............................................................................. 67 2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục ...................................... 68 2.5.3 Mạng nơron .............................................................................................................. 69 2.5.3.1 Tổng quan .............................................................................................................. 69 2.5.3.2 Phương pháp học của não người ........................................................................... 69 2.5.3.3 Từ neuron người đến neuron nhân tạo................................................................... 70 2.5.3.4 Ứng dụng mạng neuron trong nhận dạng tiếng nói ............................................... 71 CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH......................................................... 80 3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ .......................................................................... 80 3.1.1 Khái niệm cơ bản về xử lý ảnh ................................................................................. 80 3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh...................................................................... 80 3.1.3 Các giai đoạn chính trong xử lý ảnh ......................................................................... 82 3.1.4 Các phần tử của hệ thống xử lý ảnh số ..................................................................... 83 3.1.5 Biểu diễn ảnh số ....................................................................................................... 85 3.1.5.1 Ánh sáng, màu sắc và hình ảnh ............................................................................. 85 3.1.5.2 Màu sắc và các thông số đặc trưng ........................................................................ 88 3.1.5.3 Các định luật trộn màu cơ bản ............................................................................... 89

 

 242 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
3.1.5.4 Không gian màu RGB ........................................................................................... 90 3.1.5.5 Hệ thống thị giác.................................................................................................... 93 3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian.................................... 96 3.1.5.7 Tín hiệu video ........................................................................................................ 97 3.1.5.8 Biểu diễn tín hiệu ảnh số ....................................................................................... 101 3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số .............................................. 102 3.1.6.1 Các toán tử không gian .......................................................................................... 103 3.1.6.2 Các phép tính với vector và ma trận ...................................................................... 104 3.1.6.3 Biểu diễn hệ thống tuyến tính bằng ma trận .......................................................... 108 3.1.6.4 Biến đổi không gian tín hiệu.................................................................................. 111 3.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ VIDEO ...................................... 115 3.2.1 Khái niệm về quan hệ giữa các điểm ảnh ................................................................. 115 3.2.1.1 Các điểm ảnh lân cận ............................................................................................. 115 3.2.1.2 Mối liên kết (connectivity) .................................................................................... 115 3.2.1.3 Toán tử xử lý điểm ảnh.......................................................................................... 116 3.2.2 Các phương pháp nâng cao chất lượng ảnh .............................................................. 117 3.2.2.1 Nâng cao chất lượng ảnh bằng toán tử điểm ......................................................... 117 3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian ............................................... 128 3.2.3 Khôi phục ảnh........................................................................................................... 133 3.2.3.1 Mô hình hóa quá trình gây méo và khôi phục ảnh ................................................ 133 3.2.3.2 Mô hình nhiễu........................................................................................................ 134 3.2.3.3 Triệt nhiễu bằng phương pháp lọc không gian ...................................................... 136 3.2.3.4 Triệt nhiễu trong miền tần số ................................................................................. 137 3.2.3.5 Kỹ thuật lọc ngược (inverse filter) ....................................................................... 139 3.2.3.6 Lọc Wiener ............................................................................................................ 140 3.2.4 Các phương pháp xác định và dự đoán biên ảnh ...................................................... 142 3.2.4.1 Cơ sở phát hiện đường biên ảnh ............................................................................ 142 3.2.4.2 Phương pháp Gradient ........................................................................................... 143 3.2.4.3 Làm nổi biên bằng toán tử la bàn .......................................................................... 147 3.2.4.4 Kỹ thuật Laplace .................................................................................................... 148 3.2.5 Phân vùng ảnh .......................................................................................................... 152 3.2.5.1 Tổng quan về phân vùng ảnh ................................................................................. 152 3.2.5.2 Phân vùng ảnh dựa theo đường biên ..................................................................... 152 3.2.5.3 Phân vùng dựa trên xử lý ngưỡng (biên độ) (Thresholding) ................................. 156 3.2.6 Xử lý ảnh màu .......................................................................................................... 160 3.2.6.1 Các hệ màu cơ bản................................................................................................. 160 3.2.6.2 Một số kỹ thuật xử lý ảnh màu căn bản ................................................................. 164

 

 243 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
3.2.6.3 Nhiễu trong ảnh màu ............................................................................................. 175 3.3 CÁC KỸ THUẬT NÉN ẢNH ..................................................................................... 176 3.3.1 Giới thiệu chung về kỹ thuật nén ảnh ....................................................................... 176 3.3.2 Dư thừa trong tín hiệu............................................................................................... 176 3.3.2.1 Độ dư thừa số liệu.................................................................................................. 176 3.3.2.2 Tiêu chí đánh giá chất lượng hình ảnh .................................................................. 177 3.3.3 Mô hình hệ thống nén tín hiệu .................................................................................. 178 3.3.4 Các phương pháp nén không tổn hao (lossless data reduction) ................................ 179 3.3.4.1 Phương pháp mã hóa Huffman .............................................................................. 179 3.3.4.2 Phương pháp mã LZW (Lempel-Ziv-Welch) ........................................................ 179 3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding) .................................. 180 3.3.4.4 Phương pháp mã hóa theo vùng đồng trị ............................................................... 180 3.3.4.5 Phương pháp mã dự đoán không tổn thất .............................................................. 180 3.3.5 Các phương pháp nén tổn hao (loss data reduction) ................................................. 181 3.3.5.1 Phương pháp mã dự đoán có tổn hao .................................................................... 181 3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu ........................ 182 3.3.5.3 Các chuẩn nén ảnh tính và ảnh động ..................................................................... 183 3.3.5.4 Phương pháp nén ảnh tĩnh theo chuẩn JPEG ......................................................... 184 3.3.5.5 Nén JPEG lũy tiến ................................................................................................. 190 3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG ............................................ 192 3.3.5.7 Phương pháp nén ảnh động theo chuẩn M-JPEG .................................................. 192 3.3.6 Chuẩn nén ảnh động MPEG .................................................................................... 193 3.3.6.1 Kỹ thuật xử lý tín hiệu trong MPEG ..................................................................... 193 3.3.6.2 Mã hóa tín hiệu MPEG .......................................................................................... 196 3.3.6.3 Giải mã tín hiệu MPEG ......................................................................................... 197 3.3.6.4 Các thành phần cơ bản trong ảnh nén MPEG ........................................................ 197 3.3.6.5 Tiêu chuẩn nén MPEG-2 ....................................................................................... 198 3.3.7 Tiêu chuẩn nén MPEG-4 .......................................................................................... 199 3.3.7.1 Video trong MPEG-4............................................................................................. 201 3.3.7.2 Cấp độ của video MPEG-4 .................................................................................... 201 3.3.7.3 Mã hóa đường nét (shape) ..................................................................................... 201 3.3.7.4 Mã hóa texture ....................................................................................................... 202 3.3.7.5 Sprites .................................................................................................................... 202 3.3.7.6 Scalability .............................................................................................................. 203 3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén .............................. 203

 

 244 

Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
CHƯƠNG 4 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH TRONG VIỄN THÔNG 4.1 CÁC ỨNG DỤNG CỦA XỬ LÝ ÂM THANH VÀ HÌNH ẢNH .............................. 211 4.1.1 Lưu trữ âm thanh và hình ảnh................................................................................... 211 4.1.1.1 Băng từ .................................................................................................................. 211 4.1.1.2 Đĩa quang............................................................................................................... 214 4.1.1.3 Lưu trữ dữ liệu trên hệ thống đĩa từ (hard disk) .................................................... 218 4.1.2 Phân phối nội dung qua mạng viễn thông ................................................................ 220 4.1.2.1 Phân phối nội dung qua kênh vô tuyến.................................................................. 220 4.1.2.2 Truyền thanh quảng bá .......................................................................................... 221 4.1.2.3 Truyền hình quảng bá ............................................................................................ 224 4.1.2.4 Phân phối nội dung qua kênh hữu tuyến ............................................................... 228 4.2 CÁC TIÊU CHUẨN MÃ HÓA ÂM THANHVÀ HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN..................................................... 233 4.2.1 Các tiêu chuẩn của ITU- T cho âm thanh ................................................................. 233 4.2.2 Các tiêu chuẩn của ITU- T cho ảnh tĩnh và video. ................................................... 236 4.2.2.1 Chuẩn H261 ........................................................................................................... 236 4.2.2.2 Chuẩn H.262 .......................................................................................................... 236 4.2.2.3 Chuẩn H263 ........................................................................................................... 236 4.2.2.4 Chuẩn H264 ........................................................................................................... 237 4.2.2.5 Chuẩn JVT ............................................................................................................. 237

 

 245 

Sign up to vote on this title
UsefulNot useful