You are on page 1of 353

BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH


Audio and Image Proceesing

Bộ môn: Tín hiệu và Hệ thống


Học kỳ: II, Năm học 2020-2021

09/09/2021 1
Giới thiêụ môn học
• Thời lượng môn học:
– 3TC/ 4 ĐVHT (36LT + 8BT + 1TH)
• Mục tiêu:
– Kiến thức: Môn học cung cấp cho người học những kiến
thức cơ bản về các kỹ thuật và các chuẩn nén audio,
ảnh, video và các ứng dụng của các chuẩn này.
– Kỹ năng: Rèn cho sinh viên có kỹ năng nghiên cứu,
phân tích, đánh giá về các các kỹ thuật xử lý âm thanh
và hình ảnh.

09/09/2021 2
Giới thiêụ môn học
• Nội dung:
– Chương 1: Giới thiệu chung
– Chương 2: Kỹ thuật xử lý âm thanh
– Chương 3: Kỹ thuật xử lý ảnh
– Chương 4: Các chuẩn mã hóa âm thanh và nén
ảnh trong truyền thông đa phương tiện

09/09/2021 3
Giới thiêụ môn học
• Tài liệu tham khảo:
– Bài giảng môn: Xử lý âm thanh và hình ảnh, Học viện CNBCVT.
– Yao wang, Joern Octermann, and Ya-Quin Zhang, Video Processing And
Communications, Prentice-Hall, 2002.
– R. C. Gonzalez, R. E. Woods, Digital Image Processing, Prentice Hall, 2nd
Edition, 2001.
– Stephen J.Solari, Digital Video and Audio Compression, McGraw-Hill, 1997.

• Đánh giá:
– Chuyên cần: 10 %
– Bài tập/ Thảo luận: 10%
– Kiểm tra giữa kì: 20%
– Thi kết thúc học phần: 60%

09/09/2021 4
-Chương 1-

Giới thiệu chung

09/09/2021 5
Chương 1- Giới thiêụ chung
1.1 Các khái niệm & lý thuyết cơ sở
– Tín hiệu
– Số hóa tín hiệu tương tự
– Một số các phép biến đổi toán học ứng dụng trong xử lý âm thanh
và hình ảnh
1.2 Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
– Các khái niệm cơ bản
– Đặc điểm của dữ liệu multimedia
– Những lợi ích và ứng dụng xử lý âm thành hình ảnh trong truyền thông
đa phương tiện
1.3 Khung cơ sở tiêu chuẩn hóa

09/09/2021 6
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.1- Tín hiệu
a) Định nghĩa: Tín hiệu là đại lượng vật lý biến thiên theo
thời gian, theo không gian, theo một hoặc nhiều biến
độc lập khác nhau.
 Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
 Hình ảnh: Cường độ sáng theo không gian (x, y, z)
 Địa chấn: chấn động địa lý theo thời gian (t)
 Biểu diễn toán học của tín hiệu là hàm theo biến độc lập:
𝟐
𝐮(𝐭)=𝟐𝐭
  − 𝟓 , 𝐟  (𝐱 , 𝐲)=𝐱𝟐 −𝟐 𝐱𝐲 − 𝟔 𝐲 𝟐
Thông thường: các tín hiệu tự nhiên không biểu diễn
bởi một hàm sơ cấp mà dùng hàm xấp xỉ.

09/09/2021 7
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.1- Tín hiệu
b) Phân loại tín hiệu: (theo đặc tính hàm số)
 Tín hiệu liên tục: Nếu biến độc lập của biểu diễn toán học của
một t/h là liên tục.
Xét theo biên độ:
+ Tín hiệu tương tự
+ Tín hiệu lượng tử hóa
 Tín hiệu rời rạc: Nếu t/h được biểu diễn bởi hàm của các biến rời
rạc.
Xét theo biên độ:
+ Tín hiệu lấy mẫu
+ Tín hiệu số

09/09/2021 8
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.1- Tín hiệu
b) Phân loại tín hiệu
+ Theo loại hình thông tin:
 Tín hiệu âm thanh (Voice): tín hiệu thoai, tín hiệu ca nhạc …
 Tín hiệu hình ảnh (Video): hình ảnh tĩnh, hình ảnh động …
 Tín hiệu dữ liệu (Data)
+ Theo năng lượng mang:
 Tín hiệu điện
 Tín hiệu quang
+ Theo vùng tần số:
 Tín hiệu VLF: 3- 30 kHz; Tín hiệu LF: 30- 300 kHz;
 Tín hiệu HF: 3- 30 MHz; VHF: 30- 300 MHz; UHF: 300- 3000 MHz;

09/09/2021 9
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
a) Nguyên lý có bản XL số t/h:
+ T/h vào tương tự liên tục theo x(t): được lọc qua bộ lọc ngoài.
+ Sau đó đưa vào bộ ADC: Lấy mẫu (mạch điện với tần số fs >2fmax):
biến đổi tín hiệu tương tự thành tín hiệu rời rạc theo (t); Lượng tử hoá
và Mã hóa (gán bởi một từ mã nhị phân).
+ Phía thu chuyển đổi số thành tương tự: qua bộ DAC và lọc

09/09/2021 10
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
b) Chuyển đổi A/D và D/A:

DAC

ADC

09/09/2021 11
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
b) Chuyển đổi ADC (theo PCM): 3 bước
 Lấy mẫu
 Lượng tử hóa
 Mã hóa

09/09/2021 12
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
b) Chuyển đổi ADC (theo PCM): 3 bước
 Lấy mẫu: là quá trình rời rạc hóa tín hiệu theo thời gian

1 1

0.5 0.5

1/1000 1/1000
giây giây
0 0
Th i gian Th i gian

-0.5 -0.5

-1 -1

09/09/2021 13
Lấy mẫu tín hiệu tương tự
C1- Giới thiệu chung
•   Cáckháiniệm&lýthuyếtcơsở
1.1-
1.1.2- Sốhóatínhiệu tươngtự
b) Chuyểnđổi ADC (theo PCM): 3 bước
 Lượngtửhóa(làmtrònxungmẫu): quátrìnhrờirạchóa t/h theobiênđộ

Khi LTH xảy ra sailệchgiữa: xungtínhiệu () vàxunglượngtửhóa ()  gây


09/09/2021 nhiễulượngtử (méo t/h). Côngsuấttrungbìnhnhiễu LT: (1) 14
C1- Giới thiệu chung
•1.1-  Cáckháiniệm&lýthuyếtcơsở
1.1.2- Sốhóatínhiệu tươngtự
b) Chuyểnđổi ADC (theo PCM): 3 bước
 Lượngtửhóa: khôngđều (phi tuyến)
- Phổbiếncó 2 môhình: theoluật A vàvàđượcbiểudiễn = hàmtoán
- Môtảtínhiệu tươngtựsaulấymẫuthì được đưa vàobộnén (đơn
thuầnlàbiểuthứctoán (1) đốivớiluật A và (2) đốivớiluật).

(2)

 
(3)

Trongđó: A=87,6 và=255; sgn(x) làhàmlấydấucủa x (âm or dương)


09/09/2021 15
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
b) Chuyển đổi ADC (theo PCM): 3 bước
 Mã hóa: Chuyển đổi biên độ xung lượng tử thành từ mã 8 bít.

09/09/2021 16
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
c) Ưu điểm của tín hiệu số
 Tín hiệu truyền chỉ có dạng 0,1 nên ít bị lỗi.
 Đơn giản hóa việc hợp nhất các dịch vụ viễn thông vào một mạng hợp
nhất
 Các loại dịch vụ khác nhau có thể sử dụng một phương tiện chung
nhất
 Giá thành thiết bị kỹ thuật số ngày càng giảm, chất lượng tốt, giá
thành rẻ
 Nhu cầu về dịch vụ thông tin ngày càng tăng nhanh và đa dạng hóa: ví
dụ Điện thoại thấy hình, hội nghị video tốc độ thấp, ảnh tĩnh, ảnh
động, âm thanh chất lượng cao, đa phương tiện,truyền hình chất lượng
09/09/2021 cao. 17
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
d) Các tham số đặc tính chung của tín hiệu video và âm thanh
 Băng tần
 Tỉ số tín hiệu trên nhiễu (SNR)
 Tỉ số tín hiệu trên méo (SDR)
 Dải động

09/09/2021 18
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
d) Các tham số đặc tính chung của tín hiệu video và âm thanh
 Tỉ số tín hiệu trên nhiễu (SNR) (cho lượng tử hóa đối với tín hiệu
tương tự):
 
(4)
 Tỉ số tín hiệu trên nhiễu (SNR) (cho lượng tử hóa đối với tín hiệu
hình sin):
 
(5)

 Với: Δ=Q=D/L ;  𝐿=2𝑟=2𝑚 và V=


 Δ(Q): bướclượngtử D: dảitínhiệu (-Vmax Vmax)
09/09/2021
L(M): sốmứclượngtử r(m): số bit cho 1 từmã 19
C1- Giới thiệu chung
•   Cáckháiniệm&lýthuyếtcơsở
1.1-
1.1.2- Sốhóatínhiệu tươngtự
d) Cácthamsốđặctínhchungcủatínhiệu video vàâmthanh
 Tỉsốtínhiệutrênnhiễu (SNR) (cholượngtửhóađốivớitínhiệurờirạc
(chuỗitínhiệu):
 
(6)

Trongđó:
- Sai sốlượngtửbìnhphươngtrungbình
- Sai sốtínhiệubìnhphươngtrungbình
- Giátrịtrungbình
N- Sốmẫu; - xungtínhiệu; - xunglượngtửhóa
09/09/2021 20
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.2- Số hóa tín hiệu tương tự
e) Bài tập:
Bài 1: Cho chuỗi x(n)={1,2; -0,2; -0,5; 0,4; 0,89; 1,3}. Sử dụng bộ lượng
tử hóa đều 4 mức trong dải (-1,5; 1,5)
a/ Xác định các mức lượng tử hóa và mức khôi phục của bộ lượng tử
hóa?
b/ Xác định chuỗi lượng tử hóa và mã hóa của chuỗi x(n)?
c/ Tính tỉ số SNR?

Bài 2: Một tín hiệu hình sin có biên độ V=1V cần được biến đổi thành
dạng số sao cho nhận được tỷ số SNR ≥ 30dB. Vậy phải cần bao nhiêu
bước lượng tử hóa đều và cần bao nhiêu bit để mã hóa cho mỗi xung
mẫu.
09/09/2021 21
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
 Fourier Transform (FT)
 Discrete Cosine Transform (DCT)
 Wavelet Transform ( WT)

09/09/2021 22
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
a) Fourier Transform (FT):
- Biến đổi Fourier (đặt tên theo nhà toán học người Pháp Joseph Fourier):
phép biến đổi một hàm số hoặc một tín hiệu theo miền thời gian sang
miền tần số.
- Các dạng của biến đổi Fourier:
+ Biến đổi Fourier liên tục: khai triển một hàm số theo các thành phần
trong phổ của nó
+ Chuỗi Fourier: Chuỗi Fourier khai triển các hàm tuần hoàn f(x) với chu
kì 2π (hoặc các hàm có tập xác định bị chặn) theo chuỗi của các hàm sin.
+ Biến đổi Fourier rời rạc: là một biến đổi trong giải tích Fourier cho các
09/09/2021
tín hiệu thời gian rời rạc 23
C1- Giới thiệu chung
•1.1-  Cáckháiniệm&lýthuyếtcơsở
1.1.3-
Mộtsốcácphépbiếnđổitoánhọcứngdụngtrongxửlýâmthanhvà
hìnhảnh
a) DiscreteFourier Transform (DFT):
- 1D DFT:
  + Biếnđổithuận: f(x)
vớiF(u)
u=0,1,2,…,M-1.(7)

 
Theo CT Euler: nên: (8)

  + Biếnđổingược: F(u)
09/09/2021 fvới f(x)
x=0,1,2,…,M-1.(9) 24
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
a) Discrete Fourier Transform (DFT):
- 2D DFT:
+ Biến đổi thuận: g(x,y) G(u,v)
 
G(10)
Với: u=0,1,2,…,M-1 và v=0,1,2,…,N-1.

+ Biến đổi ngược: G(u,v) g(x,y)


 
g(11)
Với: x=0,1,2,…,M-1 và y=0,1,2,…,N-1.
09/09/2021 25
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
b) Discrete Cosine Transform (DCT):
- Biến đổi Cosine rời rạc (DCT) biểu thị một chuỗi hữu hạn các điểm
dữ liệu theo tổng các hàm cosin dao động ở các tần số khác nhau.
- DCT rất quan trọng đối với nhiều ứng dụng trong khoa học và kỹ
thuật, từ nén âm thanh (ví dụ MP3) và hình ảnh (ví dụ JPEG) (bằng
cách loại bỏ một ít các thành phần tần số cao), cho đến việc giải
các phương trình vi phân riêng bằng các phương pháp phổ.

09/09/2021 26
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
b) Discrete Cosine Transform (DCT):
- 1D DCT: + Biến đổi thuận: f(x) F(u)
 
F (12)
Với:

+ Biến đổi ngược: F(u) f(x)


 
f (13)
Với:
09/09/2021 27
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
b) Discrete Cosine Transform (DCT):
- 2D DCT: + Biến đổi thuận: f(x) F(u)
 
F (14)
Với:

+ Biến đổi ngược: F(u) f(x)


 
f (15)
Với:
09/09/2021 28
C1- Giới thiệu chung
1.1- Các khái niệm & lý thuyết cơ sở
1.1.3- Một số các phép biến đổi toán học ứng dụng trong
xử lý âm thanh và hình ảnh
c) Wavelet Transform (WT):
- Biến đổi Wavelet: phân tích các tín hiệu không ổn định (non-stationary) –
là những tín hiệu có đáp ứng tần số thay đổi theo thời gian.
- Cách thực hiện: t/h được nhân với hàm Wavelet rồi thực hiện biến đổi riêng
rẽ cho các khoảng t/h khác nhau trong miền (t) tại các tần số khác nhau.
- DWT: Được gọi là phân tích đa phân giải – MRA (Multi Resolution Analysis):
phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác
nhau.
- MRA khi phân tích t/h cho phép: phân giải thời gian tốt và phân giải tần số
kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các
tần số thấp  Kỹ thuật này rất thích hợp với t/h: có các thành phần tần số
09/09/2021cao xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất 29
C1- Giới thiệu chung
•1.1-  Cáckháiniệm&lýthuyếtcơsở
1.1.3-
Mộtsốcácphépbiếnđổitoánhọcứngdụngtrongxửlýâmthanhvà
hìnhảnh
c) Wavelet Transform (WT):
-   1D CWT: + Biếnđổithuận: f(x) (t/h 1D) W(s,b) (sửdụnghàmWavelet )
(16)
Trongđó:W- hệsốbiếnđổi wavelet liêntụccủa f(x),
s- tỉlệ (nghịchđảotầnsố) và b- dịchchuyểnđặctrưngvịtrí.
- làhàmliênhiệpphứccủa Wavelet

  + Biếnđổingược: W(s,b) f(x)


(17)
Trongđó:- hằngsốphụthuộcvàohàm wavelet đượcsửdụng,
09/09/2021 30
C1- Giới thiệu chung
•1.1-  Cáckháiniệm&lýthuyếtcơsở
1.1.3-
Mộtsốcácphépbiếnđổitoánhọcứngdụngtrongxửlýâmthanhvà
hìnhảnh
c) Wavelet Transform (WT):
-   2D CWT: + Biếnđổithuận: f(R)(t/h 2D) W(s,B)(sửdụnghàmWavelet )
(18)
Trongđó:
. R- véctơtọađộgồm 2 thànhphầnthỏamãn,
. B- véctơvịtrígồm 2 thànhphầnthỏamãn.
. Hệsố(1/s)- đểchuẩnhóanăng lượngcủasóng Wavelet 2D

  + Biếnđổingược: W(s,B) f(R)


(19)
Trongđó:- hằngsốphụthuộcvàohàm wavelet đượcsửdụng,
09/09/2021 31
C1- Giới thiệu chung
•1.1-  Cáckháiniệm&lýthuyếtcơsở
1.1.3-
Mộtsốcácphépbiếnđổitoánhọcứngdụngtrongxửlýâmthanhvà
hìnhảnh
c) Wavelet Transform (WT):
- 1D DWT: + Biếnđổithuận: sửdụngkỹthuậtlọcsốkhiphântích (mỗi t/h
phânlàm 2 thànhphần: xấpxỉ (t/s thấp-ứngvớibộlọcthôngthấp:
sửdụnghàmtỉlệ) và chi tiết (t/s cao-ứngvớibộlọcthôngcao:
  sửdụnghàm Wavelet ). Quan hệgiữahàmvà: (16)
(16)

  + Biếnđổingược:
+ (17)
Trongđó:, – Tínhiệu ra bộlọcthôngcao, thôngthấp,
09/09/2021 32
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản

09/09/2021 33
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
a) Đa phương tiện:
- Phương tiện (media): chỉ đơn giản là một cách thức để truyền đạt
thông tin.

09/09/2021 34
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
a) Đa phương tiện:

09/09/2021 35
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
a) Đa phương tiện:

09/09/2021 36
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
b) Truyền thông đa phương tiện: đơn giản là có khả năng liên lạc,
giao tiếp theo nhiều hơn một cách thức.

09/09/2021 37
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
b) Truyền thông đa phương tiện:

09/09/2021 38
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
b) Truyền thông đa phương tiện: Narrowband và Broadband

09/09/2021 39
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
c) Hệ thống đa phương tiện:

09/09/2021 40
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.1- Các khái niệm cơ bản
c) Hệ thống đa phương tiện: (Mạng truyền thông đa phương tiện)

09/09/2021 41
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.2- Đặc điểm của dữ liệu multimedia
- Dữ liệu MM có dung lượng rất lớn và có đặc tính nhạy cảm với trễ
cũng như mất mát dữ liệu.
- Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng
truyền hình, các đặc tính kỹ thuật của từng loại dữ liệu phải được
biến đổi cho phù hợp với đường truyền.
- Việc điều chỉnh này bao gồm việc nén dữ liệu, định thời trong
truyền dẫn và lưu trữ đa phương tiện.
- Do đó, dữ liệu MM có các đặc điểm: Nén tín hiệu trong mạng đa dịch
vụ; Lưu trữ; Băng thông; Chất lượng dịch vụ (Quality of Service) và
Tương tác.
09/09/2021 42
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.3- Những lợi ích và ứng dụng xử lý âm thành hình ảnh trong
truyền thông đa phương tiên
- Giảm không gian lưu trữ dữ liệu.
- Giảm chi phí khi truyền khối lượng lớn dữ liệu trên đường dài qua
việc tối ưu băng thông đường truyền có sẵn.
- Tăng chất lượng hiển thị qua kênh truyền có băng thông giới hạn. Do
đó, người dùng có thể thưởng thức những tín hiệu nghe nhìn chất
lượng cao. Ví dụ: kênh TV 6 MHz có thể mang tín hiệu HDTV với
chất lượng âm thanh, hình ảnh tốt hơn ở tốc độ cao hơn và độ phân
giải cao hơn mà không cần thêm băng thông đường truyền.
- Vì việc giảm tốc độ dữ liệu bởi việc nén, mạng máy tính và Internet
đang ngày càng trở nên thân thiện hơn về âm thanh và đồ họa, hơn
là chỉ tập trung vào dữ liệu và văn bản như trước đây.
09/09/2021 48
C1- Giới thiệu chung
1.2- Ứng dụng xử lý âm thanh hình ảnh trong mạng truyền
thông đa phương tiện
1.2.3- Những lợi ích và ứng dụng xử lý âm thành hình ảnh trong
truyền thông đa phương tiên
- Tăng cường bảo mật dữ liệu nhờ mã hóa và truyền dữ liệu phân tán
từ những tập tin cơ sở dữ liệu đã nén nhằm ngăn việc truy xuất
những thông tin đã được sở hữu.
- Tăng đáng kể tốc độ tính toán nhập-xuất trong thiết bị nhờ biểu diễn
dữ liệu ngắn hơn.
- Giảm chi phí sao lưu và khôi phục dữ liệu nhờ lưu trữ bản sao của
những tập tin cơ sở dữ liệu ở dạng nén.
- Những lợi ích này sẽ cho phép nhiều ứng dụng đa phương tiện hơn
với giá thành giảm và do đó hướng tới nhiều người dùng hơn trong
một tương lai gần.
09/09/2021 49
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn

09/09/2021 50
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn

09/09/2021 51
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.1- Các tiêu chuẩn mã hóa Audio

09/09/2021 52
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.1- Các tiêu chuẩn mã hóa Audio

09/09/2021 53
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.1- Các tiêu chuẩn mã hóa Audio

09/09/2021 54
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.2- Các tiêu chuẩn mã hóa Video

09/09/2021 55
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.2- Các tiêu chuẩn mã hóa Video

09/09/2021 56
C1- Giới thiệu chung
1.3- Khung cơ sở tiêu chuẩn
1.3.3- Các tiêu chuẩn mã hóa MPEC

09/09/2021 57
C1- Giới thiệu chung
Bài tập ôn chương 1:
Bài 1: Cho tín hiệu s(t)=cos(2πt), vẽ dạng sóng tín hiệu, biểu diễn các xung lấy
mẫu với chu kỳ lấy mẫu:
a/ Ts = 0,5s; b/ T s=0,75s; c/ T s=1s

Bài 2: Cho chuỗi tín hiệu sau khi lấy mẫu là x = {1,2,3,4,5}, tìm các giá trị sau
khi dùng bộ nén theo luật A và theo luật μ.

Bài 3: Cho chuỗi x(n)={0,2; -0,3; -0,7; 0,8}. Sử dụng bộ lượng tử hóa đều 4
mức trong dải (-1; 1)
a/ Xác định các mức lượng tử hóa và mức khôi phục của bộ lượng tử hóa?
b/ Xác định chuỗi lượng tử hóa và mã hóa của chuỗi x(n)?
c/ Tính tỉ số SNR?

Bài 4: Một tín hiệu hình Sin có biên độ 5V(3V) cần được biến đổi thành dạng
số sao cho nhận tỷ số tín hiệu trên nhiễu lượng tử hóa không thấp hơn 25dB
(27dB). Yêu cầu cần bao nhiêu bước lượng tử hóa như nhau và cần có bao
09/09/2021 58
nhiêu bit để mã hóa mỗi thành phần rời rạc.
C1- Giới thiệu chung
Bài tập ôn chương 1:
Bài 5: Tín hiệu Audio mono được số hóa với tần số lấy mẫu 48kHz. Giả sử tín
hiệu Audio được phân bố đồng nhất trong khoảng [-2v,+2v]. Công suất trung
bình của nhiễu lượng tử không vượt quá
a- Xác định số bit cần thiết để lượng tử tín hiệu và SNR của tín hiệu lượng tử?
b- Giả sử tín hiệu Audio được lượng tử 16 bit, cứ mỗi 24 byte dữ liệu người ta
lại chèn thêm 1byte để ghi dữ liệu kênh con. Tính không gian lưu trữ tín hiệu
audio mono kéo dài 3 phút?

Bài 6: Truyền hình độ phân giải cao (HDTV) tạo các ảnh với độ phân giải 1125
dòng (trong đó mỗi dòng được quét trên bề mặt màn hình ở mỗi hai dải, mỗi
dải có chu kỳ là 1/60 (s). Tỉ lệ chiều rộng và chiều cao của ảnh là 16:9. Thực tế
mỗi dòng được sắp xếp riêng biệt với độ phân giải mành (dọc) của ảnh. Nếu
một công ty thiết kế một hệ thống thu nhận ảnh để tạo ra các ảnh số từ các ảnh
HDTV. Độ phân giải của mỗi dòng trong hệ thống của họ là tương ứng với độ
phân giải mành, cũng tương ứng với tỉ lệ chiều rộng và chiều cao của các ảnh.
Mỗi ảnh thành phần đỏ (R), xanh lục (G) và xanh lam (B) là loại ảnh 8 bit (Mỗi
pixel trong ảnh màu có 24 bit). Có 3 ảnh gốc tạo một ảnh màu. Hỏi có bao
nhiêu bit được tạo ra để lưu trong một chương trình HDTV kéo dài 2h?
09/09/2021 59
C1- Giới thiệu chung
Hướng dẫn BT chương 1
 Bài 3: x(n)={0,2; -0,3; -0,7; 0,8}; D={-1;1}; L=4 mức
a) Xácđịnhcácmứclượngtửhóavàmứckhôiphụccủabộlượngtửhóa?
- Bước 1: Tính bướclượngtửΔ= D/L
- Bước 2: Xácđịnhcácmứclượngtửhóa = (giátrịđầu-giátrịcuối)/2
- Bước 3: Xácđịnhmứckhôiphụccủabộlượngtửhóa (làmtrònđếnmức LTH
gầnnhất)
b) Xácđịnhchuỗilượngtửhóavàmãhóacủachuỗi x(n)?
- Bước 1: Xácđịnhchuỗilượngtửhóa= {tậpmức LTH tươngứng x(n)}
- Bước 2: Mãhóacủachuỗi x(n) (tínhsốbítchomộttừmã (m) vàgán bit)
c) Tínhtỉsố SNR
- Bước 1:
- Bước 2:

09/09/2021 60
C1- Giới thiệu chung
Hướng dẫn BT chương 1
Bài 6:
- Bước 1: Tính số pixel trên 1 dòng
1125x(16/9)=2000 (pixel/dòng)
- Bước 2: Tính tổng số pixel trên toàn bộ ảnh
1125x2000 (pixel/ảnh)
- Bước 3: Tính tổng số bit được tạo ra trong 1s
1125x2000x8x3x(1/(1/30) (bit/s)
- Bước 2: Tính tổng số bít được tạo ra trong 2h (7200 s)
1125x2000x8x3x(1/(1/30)x7200=1,166x1013(bit)=1,458x1012 (Byte)
=1,5 TB

09/09/2021 61
BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH


Chương 2: Kỹ thuật xử lý âm thanh

Bộ môn: Tín hiệu và Hệ thống

09/09/2021 62
Chương 2- Kỹ thuật xử lý âm thanh
2.1 Các đặc trưng cơ bản của âm thanh
– Khái niệm về âm thanh và các tham số
– Các đặc điểm của hệ thống thính giác con người
2.2 Mã hóa tín hiệu thoại
– Quá trình tạo ra tiếng nói
– Tổng quan về mã hóa tín hiệu thoại
– Các phương pháp mã hóa tín hiệu thoại
2.3 Mã hóa âm thanh
2.4 Mã hóa âm thanh cảm nhận
– Phân tích thời gian- tần số
– Phân tích Psychoacoustics
– Gán bit cảm nhận

09/09/2021 63
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
a)- Khái niệm về âm thanh:
- Âm thanh- Audio (trong thế giới tự nhiên) về bản chất là những
sóng âm được tạo ra từ dao động của vật thể và được truyền đi
trong một môi trường truyền âm nhất định.
- Tiếng nói- Voice (thoại) là một trường hợp riêng nhưng phổ biến
của âm thanh.
- Âm thanh của tiếng nói, là những sóng âm (tạo ra từ dao động của
các bộ phận trong bộ máy phát âm) được truyền đi trong môi
trường truyền âm (không khí). Khi truyền đến tai đập vào màng nhĩ
(màng mỏng rất nhạy), làm cho màng nhĩ dao động, các dây thần
kinh màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của
sóng đạt đến một độ lớn nhất định và người nghe nhận biết được
lời nói.
09/09/2021 64
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
a)- Khái niệm về âm thanh:
- Âm thanh (Audio) và Tiếng nói (Voice):

  Thoại Audio
Băng thông 300-3400Hz 16Hz-20kHz
Tốc độ lấy mẫu 8kHz 44.1kHz/48kHz
Số bits trên mẫu 8bits 16+bits
Tốc độ bit thô 64kbps 768kbps
Số kênh 1 1-6+kênh
Mô hình hiệu quả nguồn Có Không
Sức chịu đựng nguồn Có thể yêu cầu Yêu cầu
Chất lượng mong đợi Méo do bị giới hạn Chất lượng “CD”
Tính đa dạng của phổ Harmonic, V/UV Không thể phân loại
09/09/2021 65
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
a)- Khái niệm về âm thanh:
- Các tiêu chuẩn lấy mẫu:

Tốc độ lấy
Tiêu chuẩn Số bits/mẫu Mono/stereo Tốc độ Băng tần
mẫu

Điện thoại 8 kHz 8 bits/mẫu Mono 8 kbytes/s 4Khz

AM radio 11.025 kHz 8 bits/mẫu Mono 11.0 kbytes/s 5kHz

FM radio 22.05 kHz 16 bits/mẫu Stereo 88.2 kbytes/s 10kHz

CD 44.1 kHz 16 bits/mẫu Stereo 176.4 kbytes/s 20kHz


DAT (Digital
Audio Tape) 48 kHz 16 bits/mẫu Stereo 192.0 kbytes/s 20Khz

09/09/2021 66
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
b)- Các tham số đánh giá:
 Tần số: tần số của âm đơn là số lần dao động của không khí truyền
dẫn âm trong một đơn vị thời gian là 1 giây (Ðơn vị: Hz).
 Tần số biểu thị độ cao (pitch) của âm thanh, Tần số càng lớn thì
âm thanh càng cao và ngược lại
 Tai người chỉ cảm thụ được dao động có tần số trong khoảng từ
16 – 20.000 Hz (dải tần số âm thanh/sóng âm)
 Âm có tần số dưới 16 Hz gọi là sóng hạ âm, Âm có tần số trên
20.000 Hz gọi là sóng siêu âm.
 Áp suất âm thanh (thanh áp (p)): Âm thanh truyền đến đâu thì làm
thay đổi áp suất không khí ở đó, (Ðơn vị: Bar hoặc Pa (Pascan)).
 1 bar = 1 dyn/cm2
09/09/2021 67
 1 bar = 10 Kpa; 1 Pa = 1 N/m2
2.1- Các đặc trưng cơ bản của âm thanh
•   Kháiniệmvềâmthanh&cácthamsố
2.1.1-
b)- Cácthamsốđánhgiá:
 Côngsuấtâmthanh(P): nănglượngâmthanhđi qua mộtdiệntích S
trongthờigianmộtgiây, (Ðơnvị: W (oát)).
   (1) (2.1)
Trongđó: p- thanháp, S- diệntích
v- tốcđộdaođộngcủamộtphầntửkhôngkhí
 Thôngthường, máy bay phảnlựccó P là 10.000W; ô
tôvậntảiphóngnhanh: 0,12W; nóichuyệnbìnhthường: 0,0003W..
 Cườngđộâmthanh(I): côngsuấtâmthanhđi qua mộtđơnvịdiệntíchlà
1cm2. (Ðơnvị: W /m2(oát))
   I = P/S = pv (2.2)
 Âmthanhcónănglượngcànglớnthìcôngsuất,
09/09/2021 68
cườngđộvàápsuấtcủaâmthanhcànglớn.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
b)- Các tham số đánh giá:
 Độ mạnh (Intensity): do biên độ dao động của vật thể quyết định.
Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một
nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và
ngược lại, (Ðơn vị: dB (décibel)).
 Độ dài (Length): do thời gian dao động của vật thể quyết định.
 Âm sắc (Timbre): phụ thuộc vào độ cao, độ dài và độ mạnh tham
gia bổ sung vào các thành phần kết cấu của âm. Âm sắc được
quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp
do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật
thể dao động.

09/09/2021 69
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Khi sóng âm đập vào tai người làm rung động trống tai một cách
đồng bộ.
 Qua nhiều cơ chế, năng lượng âm thanh được truyền đến các tế
bào thần kinh mà não cảm nhận là âm thanh.
 Tai có thể chia thành 3 phần:
 Tai ngoài.
 Tai giữa.
 Tai trong.

09/09/2021 70
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Tai ngoài:
 Ống tai: tập trung năng lượng âm thanh đưa đến.
 Màng nhĩ:
• Giao tiếp giữa tai ngoài và tai giữa,
• Âm thanh được chuyển thành rung
động cơ học qua tai giữa,
• Rung động màng nhĩ của trống tai.

09/09/2021 71
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Tai giữa:
 Gồm 3 xương nhỏ: Xương búa, xương đe và xương bàn đạp.
 Các xương này khuếch đại áp lực âm thanh
 Liên kết từ trống tai.

09/09/2021 72
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Tai trong:
 Ốc tai:
• Chuyển đổi áp lực cơ học các
xương nhỏ thành áp lực nước,
• Ốc tai chứa đầy chất lỏng,
• Áp lực nước truyền vào ống
dẫn ốc tai đễn vỏ não.
 Các ống bán nguyệt:
• Cơ chế cân bằng cơ thể,
• Cảm nhận âm thanh.

09/09/2021 73
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Nghe ở các tần số khác nhau:
 Áp lực sóng lên màng nhĩ gây sức ép từ cửa sổ oval dừng đột
ngột tại màng nhĩ che cửa sổ hình tròn,
 Áp lực này truyền lên tất cả các bộ phận của màng nhĩ,
 Bề mặt bên trong của màng nhĩ có khoảng hơn 20000 tế bào
thần kinh hình sợi gọi là stereocilia,
 Màng nhĩ chặt ở một đầu và lỏng ở đầu kia:
• Âm thanh tần số cao cực đại ở đầu chặt,
• Âm thanh tần số thấp ở đầu lỏng,
 Các tần số cộng hưởng như trên sợi dây cột chặt,
 Stereo phân biệt từng khoảng nhỏ của độ dài và độ co giãn của
09/09/2021
chất lỏng mà nó đi qua. 74
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Nghe ở các tần số khác nhau:
 Âm thanh nén chặt di chuyển vào tai giữa từ màng nhĩ,
 Stereocilia chuyển động,
 Mỗi stereolicia cảm nhận một tần số khác nhau,
 Tế bào stereocilia cộng hưởng với biên độ lớn của rung động
 Biên độ rung động tăng lên dẫn đến tế bào stereocilia giải phóng
xung điện từ dọc theo các tế bào thần kinh thính giác lên não,
 Não cảm nhận âm thanh nhận được nhờ những xung điện từ
này.

09/09/2021 75
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)

 Tai người có thể được coi như một dải các bộ lọc,
 Phụ thuộc vào môi trường nghe, với nhiễu lớn thì hạn chế khả năng
nghe và khả năng phân biệt các âm thanh khác nhau.
09/09/2021 76
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)
 Lựa chọn tần số của màng nền:
- Các thành phần tần số khác nhau được sắp xếp khi lan truyền
dọc theo màng nền. (Giảm dần từ phải sang trái)
- Xử lý tín hiệu: quá trình xử lý chọn lọc tần số = lọc băng con,
màng nền=dải các bộ lọc thính giác thông dải.

09/09/2021 77
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)
 Màng nền=Dải bộ lọc:

Tần số cao

Tần số trung
bình

Tần số thấp

Ốc tai

09/09/2021 78
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
a) Ngưỡng nghe tuyệt đối (AHT- Absolute Theshold of Hearing)

 Ngưỡng nghe: cường độ âm MIN mà tai còn cảm nhận được âm


 Cách đo: Cho 1 người ở trong phòng kín yên tĩnh, phát âm kiểm tra
(test tone) với tần số xác định (1kHz), tăng mức âm thanh cho đến
khi có thể nghe được, ghi lại các giá trị và lặp lại với tần số khác.
 Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối (là 1 hàm t/số âm thanh).79
09/09/2021
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
b) Hiện tượng che (masking)
 Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm
nhận yếu đi khi âm này có t/số gần với âm cần nghe or biên độ lớn.
 SNR = SMR (Signal to Mask Ratio) + NMR (Noise to Mask Ratio)
dB masking
tone
SNR
masking
threshold
SMR
minimum masking
NMR threshold
m-1 bit
m bit
m+1 bit

frequency
critical next
09/09/2021 81
band band
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
b) Che tần số (Frequency masking)
 Khi một thành phần t/h cao hơn mức ngưỡng nghe, thì nó vẫn bị che khuất bởi các
thành phần lớn hơn lân cận trong miền tần số. Hiện tượng này là gọi là che tần số.
 Thành phần tín hiệu che khuất làm dịch ngưỡng nghe.
 Cách xác định: Cho 1 người ở trong phòng kín yên tĩnh, phát âm che (masking tone)
ở một mức nào đó (60dB), sau đó, phát âm kiểm tra (test tone) (1,1kHz), tăng mức
đến khi có thể nghe được. Thay đổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che
khác.

09/09/2021 82
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
c) Che thời gian (Time masking)
 Cách xác định: Phát một âm che ở tần số 1kHz, biên độ 55dB,
thêm một âm kiểm tra 1,1kHz, biên độ 20dB trước và sau âm che.
Âm kiểm tra không thể nghe được (nó đang bị che). Lặp lại các
mức khác của âm kiểm tra và vẽ.
 Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước
khoảng 15ms và che sau khoảng 50ms.

09/09/2021 83
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
 Khoảng tần bị che gần đúng theo tần số và biên độ gọi là dải tới hạn.
 Dải tần nghe được của con người được phân chia tự nhiên thành các
dải băng tần tới hạn. Tai không thể phân biệt các âm thanh xuất hiện
đồng thời trong cùng một dải băng.
 Dải tới hạn biểu diễn công suất xác định của tai cho các tần số hay
dải tần số liên tục.
 Băng tần của mỗi băng tần tới hạn khoảng 100 Hz đối với các tín hiệu
dưới 500 Hz, và tăng tuyến tính trong dải 500 Hz đến 5000 Hz.
 Hệ thống thính giác có thể được mô hình như dải bộ lọc, gồm 25 bộ
lọc băng thông chồng lấn, từ 0 đến 20 KHz.
 Độ rộng của 1 băng = 1 bark.

09/09/2021 84
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bandwidth)
 Bark là đơn vị để biểu diễn một dải tới hạn, 1 bark=1 độ rộng dải tới
hạn.
 Số băng giới hạn (Bark) (2.4)
của một tần số đã cho:

 Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark]


 Hoặc: 1bark=13arctg(0.76f)+3.5arctg(f2/65.25) [bark]

09/09/2021
(2.5)
85
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
 Flecher chia băng thông âm thanh thành 25 dải tới hạn:

09/09/2021 86
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
 Cảm nhận âm (tần số và giải tần số âm thanh):

09/09/2021 87
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Cấu trúc bộ máy phát âm
1. Khoang mũi (Nasal Cavity)
2. Ngạc cứng (Hard palate)
3. Vòm miệng (Alveoral ridge)
4. Ngạc mềm (Soft palate)
5. Đầu lưỡi (Apex)
6. Mặt lưỡi (Dorsum)
7. Lưỡi con (Uvula)
8. Gốc (cuối) lưỡi (Radix)
9. Hầu (Pharynx)
10. Nắp thanh quản (Epiglottis)
11. False Vocal Cord
12. Dây thanh (Vocal Cords)
13. Thanh quản (Larynx)
14. Thực quản (Esophagus)
09/09/2021 88
15. Khí quản (Trachea)
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
 Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm
học có nguồn gốc từ cơ chế tạo tiếng nói.
 Khoảng không giữa dây thanh và thanh quản gọi là thanh môn.
 Hệ thống đằng sau thanh môn (phổi, phế quản, khí quản) có vai trò
như một nguồn năng lượng để tạo tiếng nói.
 Tuyến âm (vocal tract): cả bộ máy phát âm tính từ thanh môn trở lên.
 Có 2 loại nguồn âm:
 Nguồn tuần hoàn: dây thanh rung (vị trí nằm ở thanh môn)
• Dây thanh: vocal folds, vocal cords
• Chu kỳ tuần hoàn: chu kỳ rung của dây thanh
• Nguồn tuần hoàn chủ yếu tương ứng với nguyên âm
 Nguồn tạp âm: dây thanh không rung (vị trí tùy theo âm tạo ra,
không nằm ở thanh môn)
• Chủ yếu là phụ âm, VD: âm “s”  nguồn ở khoang miệng,
09/09/2021
• Nói thì thào: dây thanh không rung, thanh môn gần như khép
89
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Các loại phụ âm trong tiếng việt

09/09/2021 90
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
a) Sơ đồ khối hệ thống mã hóa thoại
Ngu n B bi n đ i B a B a
i B c B l ym u
A/D ngu n kênh

Kênh truy n

B i B i B bi n đ i i
B c
kênh ngu n D/A đ u ra

09/09/2021 91
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
b) Các ứng dụng của mã hóa thoại
Mã hóa tiếng nói là quá trình biểu diễn tín hiệu tiếng nói đã số hóa sử
dụng càng ít bit càng tốt, đảm bảo được mức chất lượng tiếng nói hợp lý
(Nén tiếng nói). Các ứng dụng:
 Thoại cố định (Wireline Telephony)
 Hội nghị truyền hình (Videoconferencing)
 Thoại di động (Digital Cellular)
 Thoại IP (IP Telephony)
 Thư thoại (Voice Mail)
 Thiết bị tiếng nói (Speech Storage)

09/09/2021 92
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
c) Các yêu cầu đối với bộ mã hóa thoại
 Tốc độ bit thấp: băng thông truyền dẫn thấp, sử dụng hệ thống hiệu
quả hơn(<> chất lượng thoại). Tùy thuộc vào ứng dụng.
 Chất lượng thoại cao: chất lượng có thể chấp nhận được theo ứng
dụng hướng đến; Các tham số xác định: tính dễ hiểu, tính tự nhiên,
tính dễ chịu, khả năng nhận diện giọng người nói.
 Tính bền vững: qua các ngôn ngữ khác nhau, chống nhiễu
 Hiệu năng tốt đối với tín hiệu phi thoại: âm thông báo, nhạc.
 Kích thước bộ nhớ nhỏ, độ phức tạp tính toán thấp
 Trễ mã hóa thấp

09/09/2021 93
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
a) Phân loại

Phân loại theo tốc độ Phân loại theo kỹ thuật mã hóa

09/09/2021 94
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
a) Phân loại: theo kỹ thuật mã hóa

09/09/2021 95
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng: Được phân làm 2 loại chính
 Trong miền thời gian:
 Mã hoá điều xung mã (PCM),
 Mã hóa điều biến xung mã vi sai (DPCM)
 Mã hóa điều biến xung mã vi sai thích nghi (ADPCM).
 Mã hóa điều chế Delta
 Trong miền tần số:
 Mã hoá băng con (SBC- subband coding)
 Mã hoá biến đổi thích nghi (ATC- Adaptive Transform Coding).

09/09/2021 96
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền thời gian:
 Khôi phục được tín hiệu sóng giống như tín hiệu gốc.
 Độ phức tạp, giá thành, độ trễ công suất tiêu thụ thấp.
 Chỉ tạo được tiếng nói chất lượng cao tại các tốc độ lớn hơn
16kbps.
 Không tạo được tiếng nói chất lượng cao tại tốc độ nhỏ hơn
16kbps.

09/09/2021 97
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền thời gian:
 Mã hoá PCM: mỗi mẫu t/h được mã hóa độc lập với các mẫu khác.
 Mã hóa DPCM (dự đoán):
– Các mẫu lân cận tương quan với nhau đáng kể = sự sai khác về
biên độ giữa các mẫu liên tiếp là khá nhỏ.
– Xây dựng mô hình mã hóa này để giảm tốc độ số liệu ở đầu ra
của nguồn: mã hóa sự sai khác giữa các mẫu liên tiếp thay vì
mã hóa từng mẫu độc lập.
– Dự đoán mẫu hiện tại từ các mẫu trước đó. Lượng tử hóa, mã
hóa sai số dự đoán thay vì cả giá trị mẫu.
– Nếu dự đoán chính xác, sai số dự đoán tập trung gần 0 và có
thể mã hóa ít bit hơn so với mẫu ban đầu.
– Bộ dự đoán thường được sử dụng là bộ dự đoán tuyến tính:
 Mã hóa ADPCM: Cải thiện chất lượng DPCM, nếu bộ dự đoán và
09/09/2021
bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp 98
với
các đặc tính của thoại được mã hoá
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền thời gian:
 Mã hóa DPCM:

Yn  X n  Xˆ n 1 (2.6)

p
Xˆ n 1   ai Xˆ n i
09/09/2021 i 1 99
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền thời gian:
 Mã hóa ADPCM:
X[n] + D[n] C[n]
L ng t a ch nghi
- Xp[n-1]

D đ n ch nghi il ng t a ch
nghi
Xp[n]

+
Dq[n]
+

C[n] Dq[n] Xp[n]


il ng t a ch +
nghi
+

L ng t a ch nghi
09/09/2021 Xp[n-1] 100
2.2- Mã hóa tín hiệu thoại
•2.2.3-
  Cácphươngphápmãhóatínhiệuthoại
b) Mãhóadạngsóng:
 Trongmiềnthờigian:
Mãhóa Delta:
• Sửdụngbộlượngtửhóasaisốdựđoángồmcó 2 mức:
• Mỗimẫumãhóa 1 bit.

09/09/2021 101
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền tần số:
 Mã hoá băng con (SBC- subband coding):
– Tín hiệu được chia thành nhiều dải băng hẹp, tín hiệu trong miền
thời gian ứng với mỗi dải được mã hóa độc lập.
– Trong mã hóa tiếng nói, dải tần số thấp chứa phần lớn năng
lượng của tín hiệu, đồng thời nhiễu lượng tử ảnh hưởng đến tai
rất thấp. Do vậy, tín hiệu ở băng tần thấp được mã hóa nhiều bit
hơn tín hiệu ở miền tần cao.
– Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu.
– Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ
phụ thuộc vào mã hóa sử dụng trong băng con đó.

09/09/2021 102
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
 Trong miền tần số:
 Mã hoá biến đổi thích nghi (ATC):
– Tại phía phát: chia các mẫu tín hiệu của nguồn thành từng khung
Nf mẫu, số liệu trong mỗi khung được chuyển sang miền tần số
để mã hóa truyền đi.
– Tại phía thu mỗi khung phổ các mẫu tín hiệu được chuyển đổi
ngược lại trong miền thời gian và tín hiệu sẽ được tổng hợp lại từ
các mẫu.
– Để mã hóa hiệu quả, ta dùng nhiều bit cho các thành phần phổ
quan trọng, và ít bit cho các thành phần phổ không quan trọng.
– Các phép biến đổi được chọn sao cho các mẫu phổ không tương
quan với nhau: KLT (Karhunen-Loéve) (tối ưu nhưng phức tạp),
DCT.
09/09/2021 103
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm
dưới 16 Kbps.
 Để giảm tốc độ bit, mô hình tạo tiếng nói cần được khai thác: mã hóa
dựa trên mô hình (mã hóa tham số). (Mã hóa không dựa trên mô hình
được gọi là mã hóa dạng song).
 Các bộ mã hóa tham số cho tín hiệu thoại còn được gọi là Vocoder
(Voice + Coder).
 Mã hóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps)
và dù tiếng nói được tái tạo lại là dễ hiểu nhưng lại khác khá nhiều so
với giọng nói tự nhiên con người.
 Có nhiều mô hình được đề xuất: thành công nhất là mô hình mã hóa
dựa trên dự đoán tuyến tính (LPC): bộ lọc biến đổi theo thời gian.

09/09/2021 104
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– LPC áp dụng sớm nhất cho thoại được đưa ra ở các bài báo bởi:
• Atal 1968- 1971
• Markel 1971- 1972
• Makhoul 1975
– Đây là một nhóm các phương pháp được sử dụng rộng rãi từ
thoại tiêu chuẩn đến liên lạc quân sự (chất lượng thấp).
– Tốc độ đặc trưng: 0,8-16Kbps
– LPC là một mô hình để tạo tín hiệu thoại (AR- auto regressive):
dựa trên giả thiết là tín hiệu thoại được tạo bởi một mô hình rất cụ
thể.
– Sơ đồ cơ bản : LPC-10,

09/09/2021 105
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Môhìnhtạotínhiệuthoại:
(cơquanphátâm)
. Đầu ra của bộ lọc LPC
(bộ lọc số): tín hiệu thoại
số
. Đầu vào là chuỗi xung
hoặc chuỗi nhiễu trắng.
Quan hệ giữa 2 mô hình:

09/09/2021 106
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóa LPC- (Linear Prediction Coding):
– Cácphươngtrình LP cơbản:
•Bộdựđoántuyếntínhbậc p là
mộthệthốngcódạng:
   
(2.7)

•Lỗidựđoán, e(n)códạng:
 
(2.8)

•Lỗidựđoánđầu ra hệthốngvớihàmtruyềnđạt:
 
09/09/2021 (2.9) 107
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Mô hình tạo tín hiệu thoại
(biểu diễn toán học):
• Mô hình tương đương với tín hiệu
được tạo bởi pt sai phân:
 
(2.10)  
(2.11)

• Cách biểu diễn khác:

09/09/2021 108
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Mô hình bộ mã hóa LPC:
• Transmiter: s(n] {a}
LPC i
T,G Encoder
  s Analysis …11011…
v/u

• Receiver: { ai } s[n]
g[n]
Decoder T,G Ex
…11011… G(z)   s
v/u
Các tham số tín hiệu kích thích (excitation signal): u(n)
. v/u (voiced/ unvoiced): dạng tín hiệu kích thích
. T (pitch for voiced): chu kỳ
. G (signal gain): độ tăng ích (hệ số KĐ)
Tham số bộ lọc LPC:
09/09/2021 109
. {ai}: hệ số bộ lọc
2.2- Mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại


c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Sơ đồ bộ mã hóa LPC:

09/09/2021
(a)- Sơ đồ khối chung (b)- Sơ đồ khối sử dụng bộ lọc lỗi dự110
đoán
2.2- Mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại


c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Sơ đồ khối bộ mã hóa LPC (đầy đủ): (LPC-10)

09/09/2021 111
2.2- Mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại


c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Sơ đồ khối bộ giải mã LPC (đầy đủ): (LPC-10)

09/09/2021 112
2.2- Mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại


c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động:
 Quá trình mã hóa (phân tích):
 Lấy mẫu:
• Tín hiệu tiếng nói được lấy mẫu ở tốc độ fs = 8000 mẫu/s.
• Sau đó được chia thành các Frame segment: (160 mẫu, 20 ms)
 Xác định âm hữu thanh hay vô thanh:
• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment
• Dùng 1 bit để báo cho bộ giải mã biết.
 Ước lượng tần số pitch (T)
• Dựa vào hàm tự tương quan
• Giá trị pitch được lượng tử hóa và mã hóa dùng 6 bit
 Xác định các thông số của bộ lọc
• Các hệ số của bộ lọc G, {ap(i)}.
 Quá trình giải mã (tổng hợp ):
 Xác định tín hiệu kích thích và tần số pitch:
• Khi segment là âm vô thanh: tạo nguồn kích thích là nhiễu trắng
• Khi segment là âm hữu thanh: tạo nguồn là chuỗi xung tuần hoàn
 Xác định các hệ số G và {ap(i)} cho từng Frame segment.
09/09/2021
 Cho tín hiệu kích thích qua bộ lọc  tạo ra tín hiệu thoại. 113
 Mỗi segment được giải mã độc lập, sau đó được kết hợp lại với nhau.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Tách giọng nói (Voicing Detector)
• Mục đích: Phân loại khung đã cho là vô thanh hay hữu thanh
• Ranh giới giữa V/ UV không phải lúc nào cũng rõ ràng: xảy ra
đối với các khung chuyển tiếp (tín hiệu chuyển từ hữu thanh
sang vô thanh hoặc ngược lại)
• Cần thiết phải thực hiện phân loại chính xác V/ UV là một trong
những hạn chế của mô hình LPC.
• Nó là một thành phần quan trọng, vì việc phân loại sai các trạng thái
giọng nói có thể gây ra hậu quả nghiêm trọng đối với chất lượng của
lời nói tổng hợp.
• Thông thường, âm hữu thanh có năng lượng cao hơn nhiều bậc so
với âm vô thanh.

09/09/2021 114
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Tínhtoáncôngsuất(Power Computation)
• Côngsuấtchuỗidựđoánlỗilàkhácnhauđốivớicáckhungvôthanhvà
hữuthanh
• Đốivớitrườnghợpvôthanh:
với N làđộdàikhung
 
(2.12)
• Đốivớitrườnghợphữuthanh:
vớilà chu kỳ pitch
 
(2.13)
09/09/2021 116
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Các cơchếdựđoán (xácđịnhhệsố)
• Có 2 kỹthuậtcơbản: dựđoántrongvàdựđoánngoài.
– Dựđoántrong: cáchệsố LPC
đượctínhtừcácgiátrịtựtươngquanướclượngđượcsửdụngdữliệucủakhungthoạiđể
xửlýchochínhkhungthoạiđó
– Dựđoánngoài: đượcsửdụngvìtínhthốngkêcủatínhiệuthayđổichậmtheothờigian.
Cáchệsố LPC tìmđượcđượcsửdụngtrongkhungtươnglai(sauđó).
Nếukhungkhôngquálớn,
nhữngtínhchấtthốngkêcóthểđượclấytừcáckhungtrướcđókhôngxa.
• Khungcóđộdàiđiểnhình: 160 đến 240 mẫu.
Phảisửdụngcửasổcókíchthướchữuhạnđểlấy ra cácmẫu.
– Khungdàihơn: độphứctạptínhtoánít, tốcđộ bit thấphơn,
vìviệctínhtoánvàtruyềncáchệsố LPC ítthườngxuyênhơn. Song
trễmãhóalớnhơnvìhệthốngphảichờtậphợpcácmẫu. Khôngchođộlợidựđoáncao.
– Khungngắnhơn: biểudiễnchínhxáchơn, nhưngtảitínhtoánvàtốcđộ bit caohơn
09/09/2021 117
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Các cơchếdựđoán (xácđịnhhệsố)
• Dựđoántuyếntínhđóngvaitròquantrọngtrongcácthuậttoánmãhóatiếngn
ói
– Trongmộtkhungtínhiệu, cáctrọngsố (hệsốdựđoántuyếntính)
đượcsửdụngđểtínhtoántổhợptuyếntínhđượctìm qua
việctốithiểuhóasaisốdựđoánbìnhphươngtrungbình.
– Đồngthời, cáchệsốnàyđượcsửdụngđểbiểudiễnlạikhungtínhiệuđó.
• Thànhphầncơbảncủa pp dựđoánlàmôhình AR.
Phântíchdựđoántuyếntínhlàquátrìnhdựđoánđểtìmcácthamsố AR
dựatrêncácmẫutínhiệu (đượcmôhìnhhóalàtínhiệu AR).
• LP cũngđượcxemlàphươngphápướclượngphổ: phântích LP
chophéptìmđượccácthamsố AR (xácđịnhPSD-Power spectral
densitycủachínhtínhiệu). Qua việctínhtoáncáchệsố LPC
củakhungtínhiệucóthểtạo ra đượcmộttínhiệukháccónội dung
09/09/2021
phổgầngiốngvớiphổcủatínhiệugốc. 118
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Bài toán dự đoán tuyến tính
• Dự đoán tuyến tính là bài toán nhận dạng các tham số AR được ước
lượng từ chính tín hiệu AR (hình 4.1). Tín hiệu nhiễu trắng x[n] được lọc
bởi bộ tổng hợp tiến trình AR cho đầu ra s[n] (tín hiệu AR) với các tham
số AR là . Bộ dự đoán LP được sử dụng để dự đoán s[n] dựa trên M
mẫu trước đó:
(2.14)

– trong đó ai là các dự đoán của tham số AR và là hệ số LPC


• Sai số dự đoán: (2.15)

09/09/2021 119
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Bàitoándựđoántuyếntính (Tốithiểuhóasaisố-Tìm)
• Bàitoánnhậndạnghệthống: dựđoáncácthamsố AR từ s[n], vớicácdựđoánlàcáchệsố
LPC. Đểthựchiệndựđoán, phảithiếtlậpđượctiêuchuẩn. Trongtrườnghợpnày:
saisốdựđoánbìnhphươngtrungbình:

(2.16)

đượctốithiểuhóa qua việcchọncáchệsố LPC. (J làhàmbậc 2 củacác LPC).


Thấyđượcsựphụthuộccủa J vàcáchệsố LPC.
• Tìmcáchệsố LPC tốiưu qua việclấyđạohàm J theoak: (2.17)

09/09/2021 120
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Bàitoándựđoántuyếntính (Tốithiểuhóasaisố-Tìm)
• Từ (15), viếtlại:

(2.18)

• Hoặc:
(2.19)

09/09/2021 121
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Bàitoándựđoántuyếntính (Tốithiểuhóasaisố-Tìm)
• Biểudiễn (17) ở dạng ma trận:
(2.20)

• Trongđó:

(2.21)

(2.22)
(2.23)
09/09/2021 122
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Bàitoándựđoántuyếntính (Tốithiểuhóasaisố-Tìm)
• Nhưvậy, nếutồntại ma trậnnghịchđảocủa ma trântươngquan Rs,
tìmđượccáchệsốtốiưu LPC:
(2.24)

• Độlợidựđoán(tỷsốgiữaphươngsaicủatínhiệuvàovớiphươngsaicủasaisốdựđoán):
Đánhgiáhiệunăngcủabộdựđoán
(2.25)

09/09/2021 123
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Bàitoándựđoántuyếntính (Tốithiểuhóasaisố-Tìm)
• Tínhiệuthoại: tínhchấtđộng. Cáchệsố LPC phảiđượctính ở mỗikhung.
Giảthiếttínhthốngkêkhôngđổitrongmỗikhungđó. Tínhcáchệsố LPC từ N
điểmdữliệukếtthúctạithờiđiểm m: s[m-N+1], s[m-N+2],…, s[m]. Vector LPC
(M: bậcdựđoán) là:
(2.29)
• Từ (18) viếtlại ở dạngphụthuộcvàothờigian: (2.30)
• Với:

(2.31)

09/09/2021 124
(2.32)
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Xácđịnhhệsố
• Tìmcáchệsốdựđoán:
– Phươngphápkhử Gauss
– Phươngtrìnhnghịchđảo ma trận, nhưngnhìnchunglàphứctạp.
• Giảithuật Levison-Durbin (LD) rấtphùhợpchoviệcphântích LP
củacáchệthốngtriểnkhaitrongthựctế.
• Xétphươngtrình:
(2.33)
• Mụctiêu:
– Tìmcáchệsố aitheocácgiátrịtựtươngquanchotrước
» Cácgiátrịtươngquancóđượctừviệcướclượngcácmẫutínhiệu
» J làsaisốdựđoántrungbìnhbìnhphươngtốithiểu (thựctếkhôngbiếttrước)
• Thuậttoán LD: tìmlờigiảicủabộdựđoánbậc M từbộdựđoánbậc M-1
09/09/2021 (đệquylặp). 125
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Xácđịnhhệsố
• Thuậttoándựatrêntínhchấtcơbảnbấtbiếncủa ma trậntươngquan:
Nếu:

(2.34)

Thì:

(2.35)

09/09/2021 126
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Xácđịnhhệsố
• Bộdựđoánbậc 0:
(2.36)
Mởrộngchiềucủa (34):

(2.37)
• Bộdựđoánbậc 1:
- Vì a1=0, 0
nênđiềukiệntốiưukhôngđạtđược,
 0  R1
đưathêmđểcânbằngphươngtrìnhvàđượcxácđịnh:
(2.38)
- Từtínhchấtcủa ma trậntươngquan, (35) tươngđươngvới:

(2.39)
09/09/2021 127
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Xácđịnhhệsố
• Bộdựđoánbậc 1:
- Phươngtrình (35) và (37) đượcsửdụngchobướctiếptheo:
- Tìmlờigiảicho:

(2.40)

(2.41)

09/09/2021
trongđó, 2 biếncầntìmchophươngtrình (39): 128
– : làhệsốdựđoáncủabộdựđoánbậc 1.
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Hoạtđộng: + Xácđịnhhệsố
• Bộdựđoánbậc 1:
- Tìmđượchệsốphảnxạ k1 , hệsốdựđoáncủabộlọcbậc 1, và J1:

(2.42)

(2.43)

(2.44)

09/09/2021
TiếptụcchoBộdựđoánbậccao hơn 129
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Tổng kết giải thuật Levinson- Durbin
– Các đầu vào là các hệ số tự tương quan R[l], với các đầu ra LPC
và RC
. Ban đầu, l=0 đặt:
. Đệ qui: cho l=1,2,…, M
– Bước 1: Tính RC thứ l

(2.45)

09/09/2021 130
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Tổng kết giải thuật Levinson- Durbin
– Bước 2: Tính LPC với bộ dự đoán bậc thứ l

(2.46)
(2.47)

– Dừng khi l=M


– Bước 3: Tính lỗi dự đoán trung bình bình phương tối thiểu kết hợp
nghiệm bậc thứ l: (2.48)

09/09/2021 131
– Đặt quay trở lại bước 1
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Bàitập: + Xácđịnhhệsố

Vídụ 1: Cho
mộtkhungdữliệuthoạicócáctựtươngquanlà
R(0)=1; R(1)=0,865; R(2)=0,521. Tìmcáchệsố
ai=? (i=1,2) (Sửdụngthuậttoán Levinson-Durbin)

09/09/2021 132
2.2- Mã hóa tín hiệu thoại
•   Cácphươngphápmãhóatínhiệuthoại
2.2.3-
c) Mãhóathamsố:
 Mãhóadựđoántuyếntính (LPC- Linear Prediction Coding):
– Bàitập: + Xácđịnhhệsố
Bài 1: Cho mộtkhungdữliệuthoạicócáctựtươngquanlà R(0)=1;
R(1)=0,866; R(2)=0,554 và R(3)=0,225. Tìmcáchệsố ai=? (i=1,2,3)
(Sửdụngthuậttoán Levinson-Durbin)
Bài 2: Cho hệthống LPC cócáchệsốdựđoán a1=1,793; a2=-1,401;
a3=0,566; a4=-0,147. Biếtđộlợithu G=2, độdài chu kỳ pitch=60;
giảthiếtlàâmhữuthanh. Vớicácđiềukiệnđầu =0 tạithờiđiểmbắtđầucủa
chu kỳ pitch, tổnghợp 10 mẫuđầutiên?
Bài 3: Cho 3 hệsốtựtươngquanđầutiêncủatínhiệulà: R(0)=1; R(1)=0,865;
R(2)=0,521
– Tìmcáchệsốcủamôhìnhdựđoántuyếntínhbậc 2.
09/09/2021
– Sửdụngmôhìnhnàytínhđápứngtầnsốcủatiếntrìnhvàbiểudiễnphổcủa
133
bộdựđoán.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Bộ mã hóa LPC Vocoder:
– Thông tin đưa đến bộ giải mã:
• Các tham số đặc trưng cho bộ lọc;
• Âm vô thanh/hữu thanh;
• Những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm
thanh.
– Phương trình biểu diễn quan hệ vào/ra của bộ lọc được thể hiện ở
phương trình sai phân tuyến tính:

– Hàm truyền đạt của bộ lọc:

09/09/2021 134
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Bộ mã hóa LPC Vocoder:
– Mô hình bộ lọc được biểu diễn dưới dạng vector:

• A thay đổi theo chu kỳ 20ms (theo tính chất không dừng của
tín hiệu thoại), tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia
thành các khung có độ dài 20 ms (50 khung/sec).
– Mô hình này tương đương với:
– Như vậy, 160 giá trị của S được đại diện cho 13 giá trị của A
– 2 kiểu bài toán:
• Tổng hợp (Synthesis): Cho A, tạo S.
09/09/2021 • Phân tích (Analysis): Cho S, tìm A tốt nhất 135
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Bộ mã hóa LPC Vocoder 2,4Kbps :
– Sơ đồ:

– Hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn
– Tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với tiếng nói
tự nhiên của con người.
– Các hệ số LPC được biểu diễn là các tham số cặp phổ vạch (line spectrum
09/09/2021 pair (LSP)). LSP tương đương 1-1 về mặt toán học với LPC 136
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Bộ mã hóa LPC Vocoder 2,4Kbps :

09/09/2021 137
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
 Bộ mã hóa LPC Vocoder 2,4Kbps:

09/09/2021 138
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai:
 Cải thiện chất lượng bộ mã hóa Vocoder
 Sử dụng lai ghép 2 công nghệ mã hoá sóng và mã hoá Vocoder
 Có thể đạt được chất l­ượng thoại tốt tại các tốc độ bit 2-16kbps
 Mã hóa lai phổ biến nhất là mã hoá phân tích bằng cách tổng hợp
AbS (Analysis-by-Synthesis):
– MPE (Multi Pulse Excited): mã hóa kích thích đa xung
– RPE-LTP (Regular Pulse Excited Long-Term Prediction): mã hóa
kích thích xung đều.
– CELP, ACELP (Code Excited Linear Predictive): mã hóa kích thích
mã.
 Việc phân chia các bộ mã hóa lai dựa chủ yếu vào cách tạo ra tín
hiệu kích thích.
09/09/2021 139
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai:
 Tạo ra các âm thanh tự nhiên hơn, tín hiệu kích thích là tùy ý, được
chọn sao cho dạng sóng tiếng nói được tạo ra càng giống với dạng
sóng thật càng tốt.
 Bộ mã hóa lai: sử dụng mã hóa mô hình bộ lọc và tín hiệu kích thích
như một dạng sóng (thay thế ứng dụng mô hình 2 trạng thái đơn giản -
hữu thanh/vô thanh), nhằm giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu
vào và dạng sóng tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích
thích lý tưởng.
 Bộ mã hóa dự đoán kích thích mã (CELP): chọn tín hiệu kích thích từ
các từ mã trong bảng mã đã được thiết kế trước.
 Nguyên lý này cho phép chất lượng tín hiệu thoại có thể chấp nhận
được trong dải tốc độ 4,8 – 16 kbps trong các hệ thống điện thoại vô
09/09/2021 140
tuyến.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
 Cơ chế tối ưu hóa vòng kín (closed-loop): chọn tham số tốt nhất ánh
xạ để tín hiệu thoại tổng hợp càng giống càng tốt tín hiệu gốc.
 Tín hiệu được tổng hợp trong quá trình mã hóa cho mục đích phân
tích gọi là AbS

09/09/2021 141
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
 Cơ chế tối ưu hóa vòng hở (open-loop):

09/09/2021 142
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
 Cũng sử dụng mô hình cơ quan phát âm của con người.
 Thay vì sử dụng các mô hình tín hiệu kích thích đơn giản thì tín hiệu
kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói
tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt.
 Thuật toán tìm ra dạng sóng kích thích quyết định độ phức tạp bộ mã
hóa.
 Được sử dụng phổ biến trong các chuẩn mã hóa tiếng nói cho mạng
di động.

09/09/2021 143
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
 Cũng sử dụng mô hình cơ quan phát âm của con người.

09/09/2021 144
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
 Là bộ mã hóa ADPCM, trong đó bộ dự đoán thực hiện tính toán từ tín
hiệu, tìm sai số dự đoán và lượng tử sai số này s/dụng cơ chế thích nghi.
 Có 2 bộ dự đoán thời gian ngắn và thời gian dài, tăng được độ lợi dự
đoán trung bình.
 Bộ mã hóa:
– Các tham số của mỗi khung/khung con được lấy ra và được đóng gói tạo
thành luồng bit.
– Chia các mẫu tiếng nói đầu vào thành các khung (160 mẫu – 20ms), từ các
khung chia thành các khung con (40 mẫu).
– Khối tiền xử lý: sử dụng bộ lọc thông cao để loại bỏ thành phần DC.
– Phân tích LP: được thực hiện trên từng khung, sử dụng bậc dự đoán là 8. 9
giá trị tự tương quan được tính toán từ khung sử dụng cửa sổ hình chữ nhật.
09/09/2021 Các giá trị tương quan được sử dụng để tìm 8 hệ số phản xạ. 145
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 146
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 147
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 148
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 149
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 150
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM

09/09/2021 151
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
 Tín hiệu Audio phải được lọc trước khi lấy mẫu để loại bỏ thành phần
tần số cao
 Tín hiệu Audio phải được lấy mẫu tại tân số Nyquist .
 Tần số lấy mẫu audio:
– 96 kHz DVD Audio
– 48 kHz Digital Audio Tape (DAT)
– 44.1 kHz CD Audio
– 32 kHz Extended Play DAT
– 8 kHz Telephony (300 Hz - 3300 Hz bandwidth)
 Giá trị lượng tử hóa chung:
– 8 bits (48 dB dynamic range)
– 12 bits (72 dB)
– 16 bits (96 dB)
– 20 bits (120 dB)
09/09/2021 152
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
 Âm nhạc có băng tần rộng hơn và đa kênh.
 Mã hóa dạng sóng đảm bảo được chất lượng âm thanh tự nhiên
 Sử dụng những đặc tính của tai người để xác định số mức lượng tử
hóa trong các dải tần số khác nhau.
– Mỗi thành phần tần số được lượng tử hóa với kích cỡ bước phụ
thuộc vào ngưỡng nghe.
– Không mã hóa thành phần tần số mà tai người không thể nghe
được
 Chất lượng âm thanh cao đòi hỏi tốc độ lấy mẫu, số bít/mẫu cũng cao
hơn và nhiều kênh hơn.
 Tốc độ truyền tín hiệu audio Nch kênh:
B0 = b (số bit/mẫu). Fs. Nch (2.49)

09/09/2021 153
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
 Ví dụ:
• CD: 2 kênh (stereo).
• DVD:
– 5.1 kênh (surround sound) (5 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– 7.1 kênh (surround sound) (7 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– Kênh NHK của Nhật: 22.2 kênh,…
• Do đó với DVD-Video: Nếu tần số mẫu 48 kHz và 24 bit/mẫu
– 48 kHz x 24 bit/mẫu = 1.152 kbps/ 1 channel;
– 2.304 kbps/2 channles; 6.912 kbps/5.1; 9.216 kbps/7.1;…
• Nếu tần số lấy mẫu là 192 kHz thì tốc độ bit này sẽ tăng gấp 4 lần
• Kỹ thuật để giảm tốc độ bit đối với việc truyền các tín hiệu âm thanh
được gọi là kỹ thuật mã hóa âm thanh số (nén âm thanh số).
09/09/2021 154
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã
 Bộ hóa âm thanh
mã hóa kênh, bộ điều chế, kênh vật
 Mã hóa âmlý,thanh
bộ giảinhằm mục
điều chế, bộ tiêu giảm
giải mã kênhtốc
… độ bít nhờ sử
dụng các bộ Phát sinh lỗi
mã hóa vàbit.
giải mã.
Audio nguồn Audio khôi phục
Yêu cầu ít bit
Tỷ số nén: r=B0/B
(B: tốc độ bit yêu cầu để truyền bản nén)

Bản nén Bản nén


Bộ mã hóa Kênh truyền Bộ giải mã

a) Không tổn thất (Lossless): tín hiệu âm thanh khôi phục


giống với tín hiệu âm thanh nguồn.
b) Tổn thất (Lossy): bản gần giống, một số thông tin bị mất, tín
09/09/2021
hiệu âm thanh méo (không cảm nhận được) 155
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
a) Mã hóa dạng sóng (Lossless): các t/h được biến đổi toán
học Fourier thành các thành phần tần số. Các biên độ của mỗi
thành phần được mã hóa (Mục tiêu: tái tạo lại dạng sóng một
cách chính xác với số lượng bit mã hóa thấp nhất có thể).
b) Mã hóa dựa trên khai thác tính dư thừa về cảm nhận
của các giác quan của con người (lossy): khai thác một
số điểm yếu trong hệ thống thính giác của con người để mã
hoá một t/h, đó là mã hóa dựa trên khoa học tâm sinh lý
nghe- âm học (Psychoacoustics) – cách thức con người
cảm nhận âm thanh. (Chuẩn nén MPEG-1 layer 3 dựa trên
09/09/2021 phương pháp mã hóa cảm nhận (perceptual coding)). 156
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
a) Mã hóa dạng sóng (không tổn thất- Lossless): Khôi
phục đúng thông tin ban đầu sau khi giải nén.
• Lý thuyết thông tin: tốc độ bit trung bình tối thiểu cần thiết để
truyền tín hiệu nguồn là entropy H của nó (xác định bởi xác
suất phân bố của tín hiệu nguồn).
• Sự sai khác: R= B0 – H, dư thừa thống kê.
• Cơ sở mã hóa lossless: loại bỏ dư thừa thống kê từ tín
hiệu nguồn càng nhiều càng tốt, sao cho B càng gần H càng
tốt.
• Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào độ phức tạp của
tín hiệu nguồn.
• Sử dụng kỹ thuật mã hoá dự đoán trong miền thời gian.
09/09/2021 157
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
a) Mã hóa dạng sóng (không tổn thất- Lossless):
• Kỹ thuật mã hoá dự đoán trong miền thời gian:
– Thuật toán vi sai:
T/h âm thanh có đặc tính lặp nên có dư thừa số liệu. Thông tin lặp
được loại bỏ trong quá trình mã hoá và được khôi phục trong quá trình
giải mã sử dụng kỹ thuật DPCM.
Các t/h audio được phân tích thành tập các băng con (các âm thanh
rời rạc), DPCM được sử dụng để dự báo các t/h lặp theo chu kỳ. Nếu
sử dụng ADPCM còn cho kết quả tốt hơn.
–Mã hoá Entropy:
Tận dụng độ dư thừa biểu thị bởi các hệ số băng con đã lượng tử
hoá nhằm cải thiện tính hiệu quả của quá trình mã hoá. Các hệ số
lượng tử được gởi đi theo sự tăng dần của tần số.
Kết quả nhận được là bảng mã tối ưu thống kê các giá trị miền tần
số thấp và cao.
09/09/2021
Sử dụng mã hoá Hufman, Lempel-Zip để nén. 158
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
a) Mã hóa dạng sóng (Không tổn
Mã hóa thất- làLossless
entropy: ):
kỹ thuật mã
hóa gỡ bỏ phần dư thừa thống kê

Nhận xét:
Tỉ lệ nén: hạn chế (2:1), ko thỏa mãn yêu cầu thực tế (36:1),
với mức này một số thông tin trong tín hiệu nguồn sẽ bị mất,
09/09/2021 không chuyển đổi ngược lại được (bộ giải mã) 159
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Lossy):
• Thông tin mất không chuyển ngược lại được → gây méo
ở t/h audio khôi phục tại đầu ra bộ giải mã.
• Vấn đề: Thiết kế được bộ mã hóa đảm bảo việc tai ko
cảm nhận được méo, hoặc có thể cảm nhận được nhưng
chưa đến mức khó chịu (annoying).
• Phần thông tin trong t/h nguồn gây méo nhưng ko ảnh
hưởng đến cảm nhận or không khó chịu là thông tin ko
liên quan đến cảm nhận (ngoài cảm nhận: perceptual
irrelevant) có thể loại bỏ khỏi t/h nguồn, giảm đáng kể tốc
độ bit.
• Bộ mã hóa lossy: remove những thông tin ko ảnh hưởng
09/09/2021đến sự cảm nhận + dư thừa thống kê. 160
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Loss):
• Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén
và giải nén và chất lượng audio yêu cầu (thực tế 36:1).
• Các kỹ thuật được sử dụng:
- Kỹ thuật che (masking) đối với các thành phần t/h trong
miền thời gian và tần số.
- Che mức tạp âm lượng tử cho từng âm của t/h âm
thanh: bằng cách gán số bit vừa đủ để mức nhiễu lượng tử
luôn nằm dưới mức giá trị cần che.
- Mã hoá ghép: Khai thác độ dư thừa trong HT audio đa
kênh với các thành phần số liệu trong các kênh giống nhau.
Mã hoá một phần số liệu chung trên một kênh và chỉ định
cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại. 161
09/09/2021
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Loss):

09/09/2021 162
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
 Bộ mã hóa: phân chia t/h đầu vào thành các khung có khoảng
thời gian từ 2 đến 50 ms,
 Khối phân tích (t) – (f) thực hiện ước lượng các thành phần thời
gian và phổ của khung (tập các tham số (t)–(f) lấy ra được để
lượng tử hóa theo số đo méo cảm nhận,

09/09/2021 163
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Biến đổi tần số lấy mẫu:
• Bộ phân chia:
– Giảm tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=fs/M.
– Tín hiệu ngõ ra có biên độ ở những thời điểm có chu kỳ Ts’=1/fs’.
s(n) yM(n)
M
fs fs’=fs/M

• Bộ nội suy:
– Tăng tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=Lfs.
– Tín hiệu ngõ ra có biên độ của tín hiệu ngõ vào, ngoài ra, nó còn chèn L-1
mẫu có giá trị bằng 0 giữa hai mẫu từ tín hiệu ngõ vào.
s(n) yL(n)
L
09/09/2021 fs fs’=Lfs 164
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Băng lọc số: là một tập hợp các bộ lọc số có chung đầu vào
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào.
• Băng lọc số phân tích: là tập hợp các bộ lọc số có đáp ứng tần
số Hk(ej) có chung đầu vào và nhiều đầu ra
– Đầu ra gồm M tín hiệu Xk(n) chiếm dải tần liên tiếp nhau gọi
là các tín hiệu băng con (subband).
– Các bộ lọc H0(ej): thông thấp, HM-1(ej): thông cao, Hi(ej):
thông dải, với i từ 1 đến M-2
x0(n)
H0(ej) X0(ej)
x1(n)
x(n) H1(e )
j
X1(ej)
X(ej) …
xM-1(n)
09/09/2021 HM-1(ej) XM-1(ej) 165
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số tổng hợp: Là tập hợp các bộ lọc số có đáp ứng tần
số Gk(ej) có chung đầu ra
– Các bộ lọc : G0(ej): thông thấp, GL-1(ej): thông cao, Gi(ej):
thông dải, với i từ 1 đến L-2

x0(n) G0(ej)
X0(e )
j

x1(n) G1(ej) +
X1(e )
j


x(n)
xL-1(n) GL-1(e )
j
+
XL-1(ej) X(ej)
09/09/2021 166
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân
tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy.
– Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì
ta có băng lọc số nhiều nhịp hai kênh.
– H0(ej), G0(ej): Lọc thông thấp. H1(ej), G1(ej): Lọc thông
cao. Lý tưởng: xˆ (n)  x(n)

x(n) x0(n) v0(n) y0(n) y0’(n)


H0(ej) 2 2 G0(ej)

xˆ (n)
H1(e )
j
2 2 G1(e )
j
+
09/09/2021 x1(n) v1(n) y1(n) y1’(n) 167
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Nếu |H0(ej)|=|H1(ej)| và nếu chọn tần số cắt cho 2 bộ lọc
là /2 thì ta thấy |H0(ej)|là ảnh của |H1(ej)| qua gương đặt
ở vị trí /2. Băng lọc nhiều nhịp hai kênh với đặc tính như
vậy gọi là băng lọc gương cầu phương.
– Nếu xˆ (n)  cx(n  n0 ) giống dạng tín hiệu đầu vào thì ta gọi là
băng lọc gương cầu phương khôi phục hoàn hảo PRQMF
(Perfect Reconstructure QMF)
x(n) x0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 2 G0(ej)

xˆ ( n)
09/09/2021
H1(e )
j
2 2 G1(e )
j
+ 168
x1(n) v1(n) y1(n) y1 (n)

2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Mã hoá băng con:
– Sử dụng bộ lọc số để mã hoá băng con:
x(n) x0(n) v0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 Kênh 2 G0(ej)
truyền xˆ (n)
H1(e )
j
2 dẫn 2 G1(e )
j
+
x1(n) v1(n) v1(n) y1(n) y1 (n)

Mã hoá Giải mã

09/09/2021 – Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung
169
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đơn phân giải: H020(ej) 2

x(n)
H01(ej) 2

H120(ej) 2
H021(ej) 2

H11(ej) 2

H121(ej) 2
09/09/2021 170
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đa phân giải: cho lượng bit đầu ra tối ưu
và phù thuộc vào sự phân bố phổ của tín hiệu.

H020(ej) 2

x(n)
H01(ej) 2

H120(ej) 2

H11(ej) 2
09/09/2021 171
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
b) Kỹ thuật phân tích tâm lý học:
+ Ngưỡng che:
SNR = SMR (Signal to Mask Ratio) + NMR (Noise to Mask Ratio)
dB
Masking tone
SNR
masking
threshold
SMR
minimum masking
NMR threshold
m-1 bit
m bit
m+1 bit

critical next frequency


09/09/2021 band band 172
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
c) Gán bít (mức che): Phân dải tần nghe được thành các
băng con và LTH các mẫu trong từng băng với số bít khác
nhau

09/09/2021 173
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
(b,c) Bài tập ngưỡng che & gán bít (mức che):
Bài 1:
Xác định số bit cần thiết để mã hóa cho các băng 7 và 9?
Biết băng 8 che 12 dB ở băng 7, 15 dB ở băng 9 và tín hiệu
gốc được mã hóa 8 bit/mẫu/băng.
Băng: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Mức (db) 0 8 12 10 6 2 20 60 14 20 15 2 3 5 3 1
Bài 2:
Sau khi phân tích, mức của 16 băng con đầu là:
Band: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level (db): 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
Nếu mức của băng con thứ 8 là 60 thì nó che 12 dB ở băng
con thứ 7 và 15 dB ở băng con thứ 9. Xác định số bit cần
thiết để mã hóa cho các băng 7 và 9?
09/09/2021 174
2.4- Mã hóa âm thanh cảm nhận
2.4.2- Bộ mã hóa âm thanh cảm nhận
• Phân tích t/h thành các dải tần số riêng biệt qua việc sử dụng
dải bộ lọc.
• Phân tích năng lượng t/h trong các dải khác nhau và xác định
ngưỡng che toàn phần của mỗi dải bởi các t/h trong dải khác.
• Lượng tử hóa các mẫu trong các dải khác nhau có tỷ lệ chính
xác theo mức che:
– Một t/h nào đó dưới mức che không cần mã hóa.
– T/h trên mức che được LTH với kích cỡ bước lượng tử phụ thuộc
vào mức che; các bit được gán qua các dải sao cho mỗi bit thêm
vào có thể giảm tối đa méo cảm nhận.

09/09/2021 175
2.4- Mã hóa âm thanh cảm nhận
2.4.3- Các tiêu chuẩn MPEG
• MPEG: nhóm chuyên gia ảnh động của t/chức t/chuẩn quốc tế (ISO).
• MPEG-1: định nghĩa các chuẩn mã hóa về âm thanh và video, cách
thức gói hóa các bit âm thanh và video để đồng bộ thời gian.
– Tốc độ tổng: 1,5 Mbps.
– Video (352x240 pels/frame, 30 frame/s): 30 Mbps đến 1,2 Mbps.
– Âm thanh ( 2 kênh, 48 K samples/s, 16 bit/sample): 2*768 kbps đến < 0,3 Mbps.
– Ứng dụng: web movies, MP3 audio, video CD.
• MPEG-2: cho âm thanh và video chất lượng tốt hơn.
– Video: 720x480 pels/frame, 30 frames/s: 216 Mbps đến 3-5 Mbps.
– Audio (5.1 kênh), mã hóa âm thanh tiên tiến (AAC).
• MPEG-4: hướng đến sự đa dạng về các ứng dụng, có dải chất lượng
và tốc độ bit rộng, nhưng chất lượng được cải thiện chủ yếu ở tốc độ
bit thấp.
- Cho ứng dụng internet audio video streaming.
• Các tiêu chuẩn mã hóa âm thanh khác MPEG:
09/09/2021 – Dolby AC-3; DVD-Audio 176
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
MPEG-1
a) Các Lớp trong MPEG-1:
Mono và Stereo
32, 44.1, 48kHz

Lớp I Lớp II Lớp III

- Được phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172.


- Sử dụng tần số lấy mẫu với fs=32; 44.1; 48kHz, mã hoá
16bits/mẫu tín hiệu.
- Tốc độ bít: 32 - 768 kbps/channel.
- Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo.
- Xác định các tham số khác nhau về tốc độ, dòng số sau khi nén,
số mẫu trong header cho một kênh, cấu trúc thời gian khung,
phương pháp mã hoá dự đoán và các chế độ làm việc.
09/09/2021 177
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
a) Các Lớp trong MPEG-1: so sánh

09/09/2021 178
2.4- Mã hóa âm thanh cảm nhận
2.4.3- Tiêu chuẩn MPEG 1
b) Kiến trúc MPEG-1
Băng lọc 32
Lượng tử Dữ liệu
phân tích đa 32 hoá
MPEG1 lớp 1,2 pha 32 kênh Mã hoá kênh
s(n) MU
Lượng tử X
SMR
FFT Phân tích Phân phối
LI: 512 Thông
tâm sinh lý bit động tin thêm
LII: 1024
âm học
MPEG1 lớp 3 Dữ liệu
Băng lọc Vòng lặp chỉ định bit
32
phân tích đa 32 MDCT Lượng tử hoá
pha 32 kênh Mã hoá Huffman
M kênh
s(n) U
X

Phân tích Mã thông


SMR Thông
SMR (Signal Mark FFT tâm sinh lý tin thêm tin thêm
Rate): Tỷ số tín âm học
hiệu/ngưỡng che
09/09/2021 179
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
c) Các bước cơ bản trong mã hóa âm thanh MPEG-1
1. Chía băng con: Sử dụng các bộ lọc tích chập để chia tín hiệu âm
thanh thành 32 băng con (lọc băng con).
2. Xác định mức che đối với mỗi băng: dựa trên tần số của nó (ngưỡng
che tuyệt đối – threshold in quiet) và năng lượng của băng lân cận
về tần số và thời gian (che miền tần số và che miền thời gian).
3. Nếu năng lượng trong một băng nằm dưới ngưỡng che, không mã
hóa nó.
4. Ngược lại, xác định số bit cần thiết để biểu diễn hệ số trong băng
này sao cho tạp âm sinh ra do lượng tử hóa nằm dưới hiệu ứng che
(khi thêm vào 1 bit giảm được tạp âm lượng tử hóa đi 6 dB).
5. Định dạng luồng bit: chèn các tiêu đề thích hợp, mã hóa thông tin
phía phát như lượng tử hóa các hệ số tỷ lệ cho các băng khác nhau
và mã hóa (sử dụng mã hóa độ dài thay đổi: Huffman).
09/09/2021 180
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
d) Chuyển đổi MDCT (Modified Discrete Cosine Transform)
- MDCT là phép biến đổi trực giao tuyến tính được hiệu
chỉnh từ DCT: R2N  RN
- MDCT thuận:
2 N 1
  1 N  1 
MDCT : X k  
n 0
xn .cos   n    k   
N  2 2  2 
- MDCT ngược (IMDCT):

1 N 1   1 N  1 
IMDCT : y n   X k .cos   n    k   
N k 0 N  2 2  2 
09/09/2021 181
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
d) Chuyển đổi MDCT (Modified DCT)
1. Chồng các khung dài 2N.

2. MDCT: 2N các hệ số N; IMDCT: N các mẫu 2N


3. Cọng yi[n] với nhau được y[n]
09/09/2021 182
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
d) Chuyển đổi MDCT (Modified DCT)

1. Nếu x, X và y- các vector cột: và


Trong đó M là một ma trận với
(M- ma trận biến đổi thuận)
2. Bán trực giao (Quasi- Orthogonality):
Ma trận vuông , gần như đồng nhất

09/09/2021 183
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
e) Lượng tử hóa
1. Sử dụng các bộ lọc tích chập để chia tín hiệu âm thanh thành 32
băng con: lọc băng con.

09/09/2021 184
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
e) Lượng tử hóa
1. Sử dụng các bộ lọc tích chập để chia tín hiệu âm thanh thành 32
băng con: lọc băng con.

09/09/2021 185
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
(d,e) Bài tập MDCT và Lượng tử hóa:
Bài 1:
Cho 4 giá trị đầu tiên của đoạn tiếng nói: x(n)=[1,2,3,5]:
a) Hãy tính các hệ số MDCT sử dụng N=2. Biết ma trận biến
đổi thuận A (2x4) như sau: 0, 7 0, 7 1,8 1,8
1,8 1,8 0, 7 0, 7

b) Lượng tử hóa các hệ số MDCT sử dụng bộ lượng tử hóa
đều đúng bước (mid-tread) với bước lượng tử = 1.
c) Khôi phục x(n) qua việc thực hiện biến đổi MDCT ngược
T
các hệ số đã lượng tử hóa. Biết ma trận biến đổi ngược là A 8

09/09/2021 186
BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH


Chương 3: Kỹ thuật xử lý hình ảnh

Bộ môn: Tín hiệu và Hệ thống

09/09/2021 187
Chương 3- Kỹ thuật xử lý hình ảnh
3.1 Giới thiệu
– Khái niệm ảnh và xử lý ảnh/ Các ứng dụng xử lý ảnh
– Các giai đoạn xử lý ảnh số/ K/n ảnh số/ Các định dạng/Máu sắc..
3.2 Cơ sở xử lý ảnh số
– Cơ sở cảm nhận thị giác
– Số hóa ảnh/ Biểu diễn ảnh số
3.3 Kỹ thuật nén ảnh
– Tổng quan về nén ảnh
– Hiệu quả nén ảnh và chất lượng ảnh
– Phân loại các phương pháp nén ảnh
3.4 Các phương pháp nén ảnh không tổn thất
– Mã hóa Huffman/ Mã hóa số học/ Mã hóa từ điển LZW/
3.5 Các phương pháp nén ảnh có tổn thất
– Mã hóa DPCM/ Mã hóa biến đổi
3.6
09/09/2021 Một số chuẩn nén ảnh 188
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
a) Khái niệm ảnh:
- Thông tin về vật thể hay quang cảnh được chiếu sáng mà con
người quan sát và cảm nhận được bằng mắt và hệ thống thần
kinh thị giác.
- Biểu diễn ảnh về mặt toán học: F(x,y): trong đó x,y là tọa độ
không gian 2 chiều (biến liên tục) và F (biến liên tục) là độ lớn
của độ chói (ánh sáng đơn sắc) hoặc độ lớn của màu (ảnh màu).
- Ảnh số là ảnh thu được từ ảnh liên tục bằng phép lấy mẫu và
lượng tử hóa.

09/09/2021 189
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
- Một ảnh số thường được biểu diễn dưới dạng một ma trận
các điểm ảnh.
+ Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x, y) với
mức xám hoặc màu nhất định.
+ Kích thước và khoảng cách giữa các điểm ảnh đó được chọn
thích hợp sao cho mắt người cảm nhận sự liên tục về không gian
và mức xám (hoặc màu) của ảnh số gần như ảnh thật.
- Mỗi một điểm ảnh có thể được biểu diễn bằng:
+ 1 bit (ảnh đen trắng - ảnh nhị phân),
+ 8 bit (ảnh đa mức xám- Gray-scale)
+ 8, 16, 24 bit (ảnh màu)
09/09/2021 190
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
- Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bằng 1 bit,
các ảnh này đôi khi còn được gọi là ảnh 2 mức (Bi-level
hoặc Bi-tonal images)

Bức ảnh Lena đơn sắc 1 bi


09/09/2021 191
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
- Ảnh đa mức xám: mỗi điểm ảnh được biểu diễn bằng
các mức chói khác nhau, thường là 256 mức chói hay 8
bit cho mỗi điểm ảnh

Hình ảnh thang độ xám Các mặt phẳng bit cho hình
09/09/2021
của Lena ảnh 8-bit thang độ xám 192
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
- Ảnh màu: mỗi điểm ảnh màu được biểu diễn bởi các
thành phần chói và các thành phần màu.

09/09/2021 193
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
- Ảnh màu: mỗi điểm ảnh màu được biểu diễn bởi các
thành phần chói và các thành phần màu.

09/09/2021 194
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:
• Điểm ảnh: là một phần tử của ảnh số tại tọa độ (x,y) có mức
xám hoặc mức màu nhất định. Kích thước và khoảng cách
giữa các điểm ảnh được chọn thích hợp sao cho mắt người
cảm nhận được sự liên tục về không gian mức xám (hoặc
màu) của ảnh số gần giống như ảnh thật
• Độ phân giải của ảnh: là mật độ điểm ảnh được chỉ thị trên
một ảnh số được hiển thị
• Mức xám của điểm ảnh: cường độ sáng của nó được thể
hiện bằng một giá trị số tại điểm đó
• Các thang giá trị mức xám thông thường: 16, 32, 64, 128;
256 (mức phổ biến)
dpi (dots per inch)
1 inch = 2.54 centimeters
09/09/2021 195
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
b) Ảnh số:

09/09/2021 196
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
c) Khái niệm xử lý ảnh:
- Nâng cao chất lượng ảnh theo một tiêu chí nào đó (cảm nhận
của con người).
- Phân tích ảnh để thu được các thông tin đặc trưng giúp cho
việc phân loại, nhận biết ảnh.
- Hiểu ảnh đầu vào để có những mô tả về ảnh ở mức cao hơn,
sâu hơn.
- Là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong
muốn. Ảnh
“Tốt hơn”
Ảnh
XỬ LÝ ẢNH
09/09/2021 Kết luận 198
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
d) Lịch sử về xử lý ảnh:
• Bắt nguồn từ 2 ứng dụng: nâng cao chất lượng thông tin hình
ảnh và xử lý số liệu cho máy tính.
• Ứng dụng đầu tiên: truyền thông tin ảnh báo giữa London và
NewYork vào năm 1920 qua cáp Bartlane:
- Mã hóa dữ liệu ảnh → khôi phục.
- Thời gian truyền ảnh: từ 1 tuần → 3 tiếng.

09/09/2021 199
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
d) Lịch sử về xử lý ảnh:
• Ảnh 15 mức độ xám được truyền từ London
đến NewYork, năm 1929. (McFarlane)
• Hệ thống đầu tiên có khả năng mã hóa hình ảnh với mức xám
là 5.
• Trong khoảng thời gian này mới chỉ nói đến ảnh số, chưa nói
đến xử lý ảnh số (chưa có máy tính).
• Năm 1964: ảnh mặt trăng được đưa về trái đất thông qua
máy chụp của tàu Ranger 7 để cho máy tính xử lý (chỉnh
méo).

09/09/2021 200
3.1- Giới thiệu
3.1.1- Khái niệm ảnh & xử lý ảnh
d) Lịch sử về xử lý ảnh:
• Cùng với các ứng dụng trong khám phá vũ trụ, các kỹ thuật xử
lý ảnh cũng bắt đầu trong y học từ cuối 1960s và đầu 1970s.
• Đến nay, xử lý ảnh có một bước tiến dài trong nhiều ngành
khoa học, từ ứng dụng đơn giản đến phức tạp.
• Mô hình hệ thống xử lý ảnh (góc độ người dùng)

09/09/2021 201
3.1- Giới thiệu
3.1.2- Các ứng dụng của xử lý ảnh
• Xử lý ảnh vệ tinh, ảnh viễn thám
• Thiên văn, nghiên cứu không gian, vũ trụ
• Thăm dò địa chất
• Y tế
• Robot, tự động hóa
• Giám sát phát hiện chuyển động
• Tách ghép ảnh và video,…

09/09/2021 202
Xử lý số ảnh:
3.1- Giới thiệu
 Phân vùng ảnh (Segmentation)
 Phân tích ảnh (Analyse): có được sự mô tả về ảnh, xác định biên ảnh.
 Nén dữ liệu ảnh (Compression)
Biến đổiCác
3.1.3-
ảnh giai
tương tự thành
đoạn xử lýảnh rờisố
ảnh rạc:
Trích chọn các đặc tính (Feature Extraction)...
Lấy
Tăngmẫu (rờiảnh
cường rạc (Enhancement):
về mặt không gian)nhằm loại bỏ các suy giảm
Lượng tử hóa(rời
(degradation) trongrạc
ảnh:vềlọcmặt
độ biên
tươngđộ).
phản, khử nhiễu, nổi màu,…
 Khôi phục ảnh (Restoration).
 Phát hiện biên (Egde Detection)

Hệ quyết định:
Tùy mục đích của ứng dụng mà chuyển sang giai đoạn
khác là hiển thị, nhận dạng, phân lớp, truyền thông…

Là giai đoạn quan trọng nhất.


Thiết bị thu nhận: các ông ghi hình chân không
(vidicon, plumbicon v.v.) hoặc thiết bị cảm biến quang
09/09/2021 điện bán dẫn CCD (Charge-Coupled Device) 203
3.1- Giới thiệu
3.1.4- Các thành phần của hệ thống xử lý ảnh số

09/09/2021 204
3.1- Giới thiệu
3.1.4- Các thành phần của HT xử lý ảnh số
a) Thiết bị thu nhận hình ảnh:
- Biến đổi quang-điện (biến đổi hình ảnh quang học thành tín
hiệu điện dưới dạng analog/ số).
- Có nhiều dạng cảm biến cho phép làm việc với ánh sáng
nhìn thấy hoặc hồng ngoại.
- Hai loại thiết bị biến đổi quang – điện chủ yếu thường
được sử dụng là đèn ghi hình điện tử và CCD.
b) Bộ xử lý ảnh chuyên dụng:
- Chip xử lý ảnh chuyên dụng (thực hiện nhanh các lệnh
chuyên dùng trong xử lý ảnh.
- Thực hiện các quá trình xử lý ảnh: lọc, làm nổi đường bao,
nén và giải nén video số…
- Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ
09/09/2021cao. 205
3.1- Giới thiệu
3.1.4- Các thành phần của HT xử lý ảnh số
c) Máy tính:
- Để bàn cũng như siêu máy tính có chức năng điều khiển
tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.
d) Màn hình hiển thị:
- Hệ thống biến đổi điện - quang hay đèn hình (đen trắng
cũng như màu)
- Biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu
video) thành hình ảnh trên màn hình.
- Có hai dạng display được sử dụng rộng rãi là đèn hình
CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD
(Liquid Crystal Display).
- Đèn hình CRT thường có khả năng hiển thị màu sắc tốt
hơn màn hình LCD nên được dùng phổ biến trong các hệ
09/09/2021thống xử lý ảnh chuyên nghiệp. 206
3.1- Giới thiệu
3.1.4- Các thành phần của HT xử lý ảnh số
e) Bộ nhớ trong và ngoài:
- Dung lượng rất lớn dùng để lưu trữ ảnh tĩnh/động số (ảnh
số đen trắng 1024x1024 điểm, 8 bits/điểm ~ bộ nhớ 1MB;
ảnh màu không nén, dung lượng bộ nhớ tăng gấp 3).
- Bộ nhớ chia làm 3 loại:
+ Bộ nhớ đệm trong PC để lưu ảnh trong quá trình xử lý (khả
năng ghi/đọc rất nhanh (25 hình/s));
+ bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để
lưu thông tin thường dung (là ổ cứng, thẻ nhớ flash...)
+ Bộ nhớ dùng để lưu trữ dữ liệu (dung lượng lớn, tốc độ truy
cập không cao): đĩa quang (ROM) ghi 1 lần/nhiều lần (DVD)
có dung lượng 4.7GB (một mặt).
- Ngoài ra còn có các vật liệu khác: giấy in, giấy in nhiệt,
giấy trong, đó có thể là máy in phun, in laser, in trên giấy
09/09/2021 207
ảnh đặc biệt bằng công nghệ nung nóng …
3.1- Giới thiệu
3.1.5- Các định dạng file ảnh phổ biến
a) Định dạng GIF (Graphics Interchange Format):
- Đưa ra bởi Cty Unisys và Compuserve, để truyền các hình
ảnh đồ họa trên đường dây điện thoại thông qua Modem.
- Các tiêu chuẩn GIF sử dụng thuật toán nén Lempel-Ziv-
Welch và được giới hạn cho 256 màu (8 bit).
- Thực tế, GIF có hai chuẩn:
+ GIF87a- Phiên bản kỹ thuật ban đầu
+ GIF89a- Phiên bản mở rộng (hỗ trợ hoạt hình đơn giản).
b) Định dạng JPEG (Joint Photographic Experts Group):
- Được tạo ra bởi một nhóm làm việc của Tổ chức tiêu
chuẩn quốc tế (ISO) gọi là JPEG
- Các file ảnh được tạo ra theo chuẩn nén JPEG có tên định
dạng jpeg. JPEG cho phép người dùng thiết lập một mức
09/09/2021độ mong muốn về chất lượng, hoặc tỉ lệ nén. 208
3.1- Giới thiệu
3.1.5- Các định dạng file ảnh phổ biến
c) Định dạng PNG (Portable Network Graphics):
- Xuất phát từ sự phổ biến của Internet nhằm hỗ trợ nhiều
hơn cho các định dạng hình ảnh hệ thống độc lập.
- PNG có thể thay thế các t/c GIF và hỗ trợ lên đến 48 bit
thông tin màu sắc.
d) Định dạng TIFF (Tagged Image File Format):
- Tập tin định dạng phổ biến hình ảnh.
- Phát triển bởi Công ty Aldus, 1980, sau đó được hỗ trợ bởi
Microsoft.
- TIFF có thể lưu trữ nhiều loại khác nhau của hình ảnh: 1-
bit, màu xám, 8-bit, 24-bit RGB.

09/09/2021 209
3.1- Giới thiệu
3.1.5- Các định dạng file ảnh phổ biến
e) Định dạng EXIF (Exchange Image File):
- Định dạng hình ảnh cho máy ảnh kỹ thuật số.
- Ban đầu 1995, phiên bản hiện tại (2.2) được đưa ra 2002
bởi các hãng điện tử Nhật Bản và Informa- Hiệp hội Công
nghiệp Công nghệ (JEITA).
f) Định dạng Windows WMF (Windows Metafile):
- Định dạng file gốc cho HĐHMicrosoft Windows.
- Tệp tin WMF gồm một tập hợp các hàm giao diện thiết bị
đồ họa (GDI), cũng có nguồn gốc ở các môi trường
Windows.
f) Định dạng Windows BMP (Bitmap):
- T/chuẩn hệ thống định dạng tập tin đồ họa lớn cho
Microsoft Windows.
- Lưu trữ ảnh 24-bit bitmap khá hiệu quả (BMP có rất nhiều
09/09/2021 210
chế độ khác nhau, bao gồm cả không nén hình ảnh 24-bit).
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
a) Các mô hình màu trong ảnh
- Lý thuyết về mầu: bất kỳ một màu nào đều có thể được
tổng hợp từ ba màu chính, cơ bản có cường độ tương
thích: Đỏ (Red); Xanh lá cây (Green) và Xanh lơ (Blue).
- Ngược lại bất kỳ màu sắc nào cũng đều có thể phân
chia thành ba mầu cơ bản R, G và B.

Mầu Bước sóng, 10-9 m


Đỏ (R) 615
Xanh lá cây (G) 532
Xanh lơ (B) 470

09/09/2021 211
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
a) Các mô hình màu trong ảnh
+ Mô hình cộng màu RGB
Magenta (Đỏ tươi) = Red + Blue
Cyan (Lục lam) = Blue + Green
Yellow = Green + Red
White = Red + Blue + Green

09/09/2021 212
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
a) Các mô hình màu trong ảnh
+ Mô hình loại trừ màu CMY (C:Cyan-Lục lam; M:Magenta-Đỏ
tươi; Y: Yellow- Vàng):
Magenta = White – Green
Cyan = White - Red
Yellow = White - Blue
Black = Red + Blue + Green

09/09/2021 213
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
a) Các mô hình màu trong ảnh
+ Chuyển đổi màu:
- RGB thành CMY (C:Cyan-Lục lam; M:Magenta-Đỏ tươi;
Y: Yellow- Vàng):

(3.1)

- CMY thành RGB (C:Cyan-Lục lam; M:Magenta-Đỏ tươi;


Y: Yellow- Vàng):

(3.2)

09/09/2021 214
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
b) Các mô hình màu trong video
- Các ảnh trước khi truyền, được quét với 3 thiết bị quang,
mà mỗi một trong số chúng đều có một bộ lọc màu khác
nhau đặt ở phía trước của thiết bị.
- Ba kênh (R, G, B) được hiệu chỉnh sao cho nếu một vùng
trắng đều được quét, thì cả 3 đầu ra phải có điện áp cân
bằng nhau.
- Vì mắt người có độ nhạy khác nhau đối với các màu có
cùng cường độ, nên độ chói phải được bổ sung thêm các
trọng số. Độ chói của t/h Y:
Y= 0.299R+0.587G+0.114B (3.3)
- Do một sắc màu đc xác định: nếu hai trong số ba màu cơ
bản được biết, nên chỉ cần truyền đi thông tin của 2 t/h.
Màu thứ 3 sẽ được tính toán lại tại phía thu  đưa ra mô
hình màu khác nhau trong truyền dẫn tín hiệu video.
09/09/2021 215
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
b) Các mô hình màu trong video
+ Mô hình YUV:
(được sử dụng cho tín hiệu video tương tự hệ PAL)

- T/h màu U, V:
(3.4)

- Chuyển đổi RGB thành YUV:

(3.5)

09/09/2021 216
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
b) Các mô hình màu trong video
+ Mô hình YIQ: (được sử dụng cho t/h video màu NTSC)
- Do U và V không biểu thị hết phân cấp bậc thấp nhất về độ
nhạy hiển thị của người. NTSC đã sử dụng I và Q thay thế.
- YIQ được xem như là một phiên bản của YUV, với cùng
một Y nhưng với U và V được quay đi góc 33 °
- T/h màu U, V:

(3.6)

- Chuyển đổi RGB thành YIQ:


(3.7)

09/09/2021 217
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
b) Các mô hình màu trong video
+ Mô hình YCbCr:
- Chuẩn quốc tế cho các tín hiệu video số (ITU-R BT.601-4). Tiêu
chuẩn này dùng một không gian màu YCbCr. Biến đổi YCbCr
được sử dụng trong nén ảnh JPEG và nén video MPEG
- T/h màu Cb, Cr:

(3.8)

- Chuyển đổi RGB thành YCbCr:


(3.9)

09/09/2021 218
3.1- Giới thiệu
3.1.6- Màu sắc trong ảnh và video
b) Bài tập các mô hình màu trong video
+ Bài 1:

The conversion between RGB and YCbCr


coordinate is shown below:
a) Determine the YCbCr coordinate for a color that
is specified in (R,G,B) coordinate with R=100,
G=200, B=50.
b) Determine the (R,G,B) coordinate for a color
specified in the YCbCr coordinate with Y=100,
Cb=50, Cr=30.
09/09/2021 219
3.1- Giới thiệu
3.1.7- Cơ bản về video
a) Các loại tín hiệu video: được tổ chức thành 3 loại
Video thành phần (Component Video); Video tổ hợp (Composite
Video) và S-Video
+ Video thành phần:
- Các HT Video đầu cuối cao cấp như phòng thu hình
(studios) sử dụng ba tín hiệu Video riêng rẽ cho các ảnh
màu đỏ, xanh lá cây và xanh lơ (là các tín hiệu Video thành
phần).
- Ở HT phòng thu này sử dụng ba dây (connector) kết nối
Camera hoặc các thiết bị khác đến TV hay màn hình.
- Video thành phần cho tái tạo màu sắc tốt nhất vì không có
xuyên nhiễu giữa ba kênh tín hiệu khác nhau, tuy nhiên đòi
hỏi nhiều băng thông hơn và đồng bộ tốt hơn cho cả ba tín
hiệu thành phần.
09/09/2021 220
3.1- Giới thiệu
3.1.7- Cơ bản về video
a) Các loại tín hiệu video:
+ Video tổ hợp:
- Các t/h mầu và độ chói được trộn trong 1 sóng mang đơn.
T/h mầu là tổ hợp của hai thành phần hiệu mầu I và Q
(hoặc U và V). T/h Video tổ hợp được sử dụng trong truyền
hình mầu quảng bá, thích ứng với truyền hình đen – trắng.
- Trong hệ NTSC: I và Q được kết hợp thành một t/h mầu,
và một sóng mang sẽ đặt t/h mầu vào cuối tần số cao hơn
của kênh chia sẻ với tín hiệu độ chói. Sau đó, các thành
phần độ chói và màu được tách ra tại đầu cuối máy thu và
hai thành phần màu sắc được khôi phục.
- Khi nối với TV hoặc VCR, Video tổ hợp chỉ dùng 1 dây và
các t/h mầu video được trộn với nhau, không gửi riêng
biệt. Các t/h đồng bộ và tiếng cũng được đưa chung vào.
Vì t/h mầu và độ chói được đưa vào cùng một t/h, nên có
09/09/2021 221
3.1- Giới thiệu
3.1.7- Cơ bản về video
a) Các loại tín hiệu video:
+ S-Video:
- Xem như là sự thỏa hiệp giữa Video thành phần và Video tổ
hợp S-Video (Separated Video hoặc Supper Video) sử dụng 2
dây, một cho độ chói và một cho tín hiệu mầu. Kết quả là, có ít
xuyên nhiễu giữa các thông tin về màu sắc và mức độ xám.

Cáp S-Video
09/09/2021 222
3.2- Cơ sở xử lý ảnh số
3.2.1- Cơ sở cảm nhận thị giác
• Việc xử lý hình ảnh trong các ứng dụng: trợ giúp con người
quan sát thông tin trong một hình ảnh  phải hiểu được hệ
thống thị giác của con người.
• Hệ thống thị giác của người tập trung chủ yếu: vào mắt (cảm
biến hình ảnh hay camera), thần kinh thị giác (đường dẫn
hình ảnh) và não (các khối thông tin xử lý về ảnh…).

09/09/2021 223
3.2- Cơ sở xử lý ảnh số
3.2.1- Cơ sở cảm nhận thị giác
• Mắt hoạt động như một camera: thấu kính tập trung hình ảnh vào
võng mạc.
• Võng mạc: nơi tập trung các tế bào hình que (rods) và ba loại tế
bào hình nón (cones).
• Các tế bào hình que (~75-150 triệu): phân bố quanh hoàng điểm
(điểm vàng), rất nhậy về ánh sáng nhưng không cảm thụ màu sắc.
• Các tế bào hình nón (~6,5 triệu): tập trung tại hoàng điểm, kém
nhậy cảm với ánh sáng, nhưng cảm thụ và phân biệt được màu
tương ứng với ba loại tế bào hình nón nhậy cảm với 3 mầu khác
nhau: Đỏ, Xanh lá cây và Xanh lơ

09/09/2021 224
3.2- Cơ sở xử lý ảnh số
3.2.1- Cơ sở cảm nhận thị giác
• Mắt hoạt động như một camera: thấu kính tập trung hình ảnh vào
võng mạc.
• Võng mạc: nơi tập trung các tế bào hình que (rods) và ba loại tế
bào hình nón (cones).
• Các tế bào hình que (~75-150 triệu): phân bố quanh hoàng điểm
(điểm vàng), rất nhậy về ánh sáng nhưng không cảm thụ màu sắc.
• Các tế bào hình nón (~6,5 triệu): tập trung tại hoàng điểm, kém
nhậy cảm với ánh sáng, nhưng cảm thụ và phân biệt được màu
tương ứng với ba loại tế bào hình nón nhậy cảm với 3 mầu khác
nhau: Đỏ, Xanh lá cây và Xanh lơ

09/09/2021 225
3.2- Cơ sở xử lý ảnh số
3.2.1- Cơ sở cảm nhận thị giác
+ Đáp ứng phổ của mắt người:
• Mắt người nhạy cảm nhất với ánh sáng ở vùng giữa của phổ
nhìn thấy, độ nhạy tương đối là hàm của bước sóng.
• Hàm độ nhạy của mắt người V( ) (đứt nét): tổng 3 đường
cong đáp ứng phổ của các mầu đỏ, xanh lá cây, và xanh lam.

09/09/2021 226
3.2- Cơ sở xử lý ảnh số
3.2.1- Cơ sở cảm nhận thị giác
+ Mô hình hình thành hình ảnh:
• Ánh sáng từ nguồn với phân bố năng lượng phổ (SPD-
Spectral Power Distribution) - E( ) đến bề mặt của vật thể, có
hàm phản xạ phổ bề mặt S() và sau đó được lọc bởi các
hàm độ nhạy phổ tương ứng với các tế bào hình nón q().
Hàm C() được gọi là tín hiệu màu sắc và tích của E( ) và
S().

09/09/2021 227
3.2- Cơ sở xử lý ảnh số
3.2.2- Quá trình thu tín hiệu hình ảnh
• Ảnh được nhận qua camera màu hoặc đen trắng:
– Loại camera tương tự ống chuẩn CCIR- (Consultative
Committee on international Radio) với tần số 1/25, mỗi
ảnh 25 dòng),
– Loại camera số (CCD– Charge Coupled Device) là loại
photodiode tạo cường độ sáng tại mỗi điểm ảnh.
• Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng
hai chiều.
• Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu,
vào môi trường (ánh sáng, phong cảnh).
• Trên thực tế các thiết bị thu nhận ảnh có thể là: máy quay
(Cameras) cộng với bộ chuyển đổi tương tự số; máy quét
(Scaners) chuyên dụng và các bộ cảm biến ảnh (Sensors).
09/09/2021 228
3.2- Cơ sở xử lý ảnh số
3.2.2- Quá trình thu tín hiệu hình ảnh
+ Thu nhận ảnh sử dụng bộ cảm biến đơn:
• Bộ cảm biến đơn phổ biến nhất là photodiode (vật liệu
silicon): dạng sóng điện áp đầu ra tỷ lệ với ánh sáng đầu vào.
• Sử dụng bộ lọc ở mặt trước của bộ cảm biến: nâng cao tính
chọn lọc.
• Ví dụ: bộ lọc mầu xanh lá trước bộ cảm biến sẽ nhạy hơn cho
ánh sáng trong băng mầu xanh lá của phổ mầu. Kết quả: đầu
ra cảm biến sẽ cho ảnh có ánh sáng mầu xanh mạnh hơn các
thành phần mầu khác.

09/09/2021 229
3.2- Cơ sở xử lý ảnh số
3.2.2- Quá trình thu tín hiệu hình ảnh
+ Thu nhận ảnh sử dụng dải cảm biến:
• Dải cảm biến bao gồm nhiều cảm biến được sắp xếp theo một hàng.
• Dải cảm biến tạo ra các phần tử ảnh theo một hướng.Chuyển động
theo hướng vuông góc với dải cảm biến: tạo ra ảnh theo một hướng
khác. (các ứng dụng XLA bằng máy bay)
• Các dải cảm biến cũng có cấu hình vòng sử dụng trong y học và công
nghiệp để tạo ra các ảnh cắt lớp cho các vật thể 3D.

09/09/2021 230
3.2- Cơ sở xử lý ảnh số
3.2.2- Quá trình thu tín hiệu hình ảnh
+ Thu nhận ảnh sử dụng mảng cảm biến:
• Các bộ cảm biến được sắp xếp lại để hình thành nên một mảng cảm
biến hai chiều. (Các thiết bị cảm biến siêu âm, điện từ trường hoặc
trong các camera số (loại CCD)).
• Ưu điểm: có thể thu nhận được ngay toàn bộ ảnh hoàn chỉnh của
vật thể thông qua việc tập trung nguồn năng lượng sáng trên bề
mặt của mảng cảm biến.

09/09/2021 231
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh
• Các t/h và hình ảnh (trước khi cảm nhận) là những đối
tượng tương tự tự nhiên (các tín hiệu tồn tại trong miền
không gian/thời gian) là liên tục và cũng có thể nhận các
giá trị liên tục.
• Khi nói về xử lý các t/h video và hình ảnh số (T/h được
cảm nhận): phải được chuyển sang dạng số mà máy vi
tính có thể đọc được.
• Nói đến kỹ thuật số nghĩa là: tín hiệu được xác định trên
miền (không gian/thời gian) rời rạc, và nó nhận các giá trị
từ một tập các khả năng rời rạc.
• Trước khi bắt đầu quá trình xử lý số: phải thực hiện quá
trình chuyển đổi từ tương tự sang số (A/D). Biến đổi A/D
bao gồm: lấy mẫu, lượng tử hóa và mã hóa .
09/09/2021 232
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh
• Quá trình chuyển đổi tín hiệu và ảnh A/D:

09/09/2021 233
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử)
+ Chuyển đổi dữ liệu liên tục trong bộ cảm ứng sang dạng
số (số hóa ảnh):
• Từ ảnh liên tục theo tọa độ x, y và biên độ f,
• Tiến hành lấy mẫu theo cả 2 tọa độ và biên độ
• Lấy mẫu: số hóa giá trị các tọa độ
(Quét ảnh theo hàng và lấy mẫu theo hàng. Đầu ra là rời rạc
về mặt không gian, nhưng liên tục về mặt biên độ)
• Lượng tử hóa: số hóa các giá trị biên độ
(lượng tử hóa về mặt biên độ (độ sáng) cho dòng ảnh vừa
được rời rạc hóa)

09/09/2021 234
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử hóa)
+ Chuyển đổi dữ liệu liên tục trong bộ cảm ứng sang dạng
số (số hóa ảnh):
• Lấy mẫu: (số hóa giá trị các tọa độ)
– Yêu cầu tín hiệu có dải phổ hữu hạn: f x  f x max , f x  f x max
– Ảnh thỏa mãn điều kiện trên, và được lấy mẫu đều trên
một lưới hình chữ nhật, với bước nhảy (chu kỳ lấy mẫu)
x, y sao cho:
1 1
 2 f x max ,  2 f y max (3.10)
x y

– Thực tế luôn có nhiễu ngẫu nhiên trong ảnh, nên có một


số kỹ thuật khác được dùng: lưới không vuông, lưới bát
09/09/2021
giác. 235
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử hóa)
+ Chuyển đổi dữ liệu liên tục trong bộ cảm ứng sang dạng
số (số hóa ảnh):
• Lượng tử hóa: (số hóa các giá trị biên độ)
– Lượng hóa ảnh nhằm ánh xạ từ một biến liên tục u
(biểu diễn giá trị độ sáng) sang một biến rời rạc u* với
các giá trị thuộc tập hữu hạn:  r1 , r2 ,..., rL  ,
– Cơ sở lý thuyết của lượng hóa: chia dải độ sáng biến
thiên từ Lmin đến L thành một số mức (rời rạc và
nguyên)- Phải thỏa mãn tiêu chí về độ nhạy của mắt.
Thường Lmin=0, Lmax là số nguyên dạng: 2B (Thường
chọn B=8, mỗi điểm ảnh sẽ được mã hóa 8 bít).

09/09/2021 236
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử hóa)
• Bắt đầu từ phần đầu của ảnh, thực hiện LM và LTH theo từng
dòng tạo ra ảnh số 2 chiều:
– Ảnh liên tục (hình vẽ)
– Đoạn thẳng AB quét qua ảnh liên tục trong quá trình số
hóa.

Dòng quét từ A đến B trong ảnh liên tục


09/09/2021 237
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử hóa)
Lấy mẫu và lượng tử hóa (thang
độ xám được chia thành 8 mức: Đường quét số có được
từ đen đến trắng) sau khi LM và LTH.

- Kết quả sau LM và LTH: chuỗi giá trị rời rạc mô tả các mức độ chói trong
một dòng ảnh. Chuỗi được mã hóa để gán biểu diễn thành các từ mã.
- Thực hiện quá trình số hóa cho tất cả các dòng ảnh từ trên xuống dưới:
09/09/2021 238
sẽ nhận được ảnh số trong không gian hai chiều.
3.2- Cơ sở xử lý ảnh số
3.2.3- Số hóa ảnh (Lấy mẫu và lượng tử hóa)
• Ảnh liên tục được chiếu lên một mảng cảm ứng và Ảnh số

09/09/2021 239
Chất lượng ảnh được xác định qua số mẫu và mức xám sử dụng
3.2- Cơ sở xử lý ảnh số
3.2.4- Biểu diễn ảnh số
• Ảnh số: tập hợp các điểm ảnh với mức xám phù hợp
dùng để mô tả ảnh gần với ảnh thật.
• Biểu diễn ảnh số:
– Ảnh được bd bởi một ma trận kích thước MxN, tương
ứng với số điểm ảnh của bộ cảm biến quang
– Mỗi phần tử của ảnh sẽ có 1 đến 3 giá trị tùy thuộc vào
ảnh mức xám (đen trắng) hay ảnh màu
– Các khoảng giá trị là một số nguyên nằm trong khoảng
[Lmin, Lmã]
– Tổng số bit để biểu diễn các mức xám trong khoảng L là
K sao cho: L=2K
– Tổng số bit cần để lưu trữ một ảnh là: MxNxK (bit)
09/09/2021 240
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mục đích nén ảnh: để giảm thiểu dung lượng dữ liệu nhằm
nâng cao hiệu quả truyền dẫn và lưu trữ.
• Ví dụ:
100KB/s ~ 1phut

5,7MB=5760KB

3x640x480
x8 x24 =
177MB

09/09/2021
Video 24 h/s 241
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mục đích nén ảnh: để giảm thiểu dung lượng dữ liệu nhằm
nâng cao hiệu quả truyền dẫn và lưu trữ.
• Ví dụ:

Ảnh 512X512, RGB, 30Hz:

 1 picture = 512x512x3 =786 KB

 1 second = 786KB x 30 = 23.5 MB

 1 minute = 23.5 MB x 60 = 1.4 GB

 1 hour = 1.4 GB x 60 = 84 GB

09/09/2021 242
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh: thực hiện quá trình làm giảm thông
tin dư thừa trong dữ liệu.

1600x1200 1600x1200

Nén

5,7MB 406KB

DATA = INFORMATION + REDUNDANT DATA

• Độ dư thừa dữ liệu là tham số đánh giá trong nén ảnh số


09/09/2021 243
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh:
- Tham số đánh giá cho quá trình thực hiện giải thuật nén
là tỉ lệ nén (CN): N
CN  1 (3.11)
N2
trong đó: N1 và N2 là lượng dữ liệu trong hai tập hợp số liệu
dùng để biễu diễn lượng thông tin cho trước.
- Độ dư thừa dữ liệu tương đối RD của tập số liệu thứ nhất so
với tập số liệu thứ hai: R  1 1 (3.12)
D CN
Nếu N1 = N2 , CN=1 và RD=0 Không dư thừa
Nếu N1 >> N2 , CN  và∞RD
→ →1
  Dư thừa cao
09/09/2021
Nếu N1 << N2 , CR → 0 R
  and →− ∞
  undesirable
244
D
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh:
- Trong nén ảnh số: có 3 loại dư thừa dữ liệu
+ Dư thừa mã (Coding Redundancy)
+ Dư thừa giữa các điểm ảnh (Interpixel
Redundancy)
+ Dư thừa tâm sinh lý (Psychovisual Redundancy)

09/09/2021 245
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh:
+ Dư thừa mã (Coding Redundancy):
. Nếu các mức của t/h video mã hóa = các symbol nhiều hơn cần
thiết thì t/h nhận được sẽ có độ dư thừa mã.
. Để giảm độ dư thừa mã, trong nén ảnh thường sử dụng
các mã có từ mã thay đổi đổi (VLC) như mã Huffman, mã
số học, mã LZW (Lempel-Ziv-Welch)...
. Ví dụ:
 
7
𝐿𝑎𝑣 =∑ 𝑙(𝑟 𝑘 )¿¿
09/09/2021 246
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh:
+ Dư thừa giữa các điểm ảnh (Interpixel Redundancy):
. Mức độ tương quan giữa hai điểm ảnh gần nhau là tương đối
lớn, do đó trong ảnh số tồn tại lượng dư thừa pixel.
. Mỗi điểm ảnh có thể được dự báo từ giá trị các điểm lân cận
với nó.
. Giảm độ dư thừa trong pixel của một ảnh có thể được thực
hiện khi sử dụng các phương pháp mã hóa biến đổi (biến
đổi cosin rời rạc DCT,…) để chuyển đổi ảnh từ miền không
gian sang miền tần số, bằng cách này sẽ giảm được độ dư
thừa dữ liệu trong ảnh ở miền tần số cao

09/09/2021 247
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Nguyên lý nén ảnh:
+ Dư thừa tâm sinh lý (Psychovisual Redundancy):
. Dựa trên các nghiên cứu về hệ thống thị giác, chúng ta biết
rằng mắt người chỉ cảm nhận được một phần thông tin chứa
trong ảnh quang học.
. Nói cách khác, ảnh có thể được tách ra thành hai phần: một
phần chứa các tin tức quan trọng cho người xem, phần khác
là các thông tin mà người xem hầu như không cảm nhận
được. Thông tin này được gọi là độ dư thừa tâm lý thị giác.
. Thành phần thứ hai có thể được loại bỏ mà không ảnh
hưởng đáng kể đến chất lượng thu nhận ảnh.
. Độ dư thừa tâm lý thị giác có quan hệ tới việc lượng tử hóa
09/09/2021 248
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mô hình nén ảnh:

Loại bỏ thông tin Tăng khả năng


dư thừa nguồn chống nhiễu

Mô hình hệ thống nén tổng quát


09/09/2021 249
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mô hình nén ảnh:
Reduce inter-pixel Reduce psycho- Reduce coding
redundancy visual redundancy redundancy
(Reversible) (Irreversible) (Reversible)

09/09/2021
Mô hình mã hóa và giải mã nguồn 250
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mô hình nén ảnh: (Bộ mã hóa nguồn)

. Bộ biến đổi: dùng phép biến đổi DCT, DWT để tập trung
năng lượng t/h vào một số lượng nhỏ các hệ số khai triển để
thực hiện phép nén hiệu quả hơn là dùng t/h ban đầu.
. Bộ lượng tử hoá: tạo ra một lượng ký hiệu giới hạn cho ảnh
nén với hai kỹ thuật: LT vô hướng (thực hiện LTH cho từng
phần dữ liệu) và LT vectơ (thực hiện LTH một lần một khối dữ
liệu). Quá trình này không thuận nghịch.
. Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi
ký hiệu.
09/09/2021 251
3.3- Kỹ thuật nén ảnh
3.3.1- Tổng quan về nén ảnh
• Mô hình nén ảnh: (Bộ giải mã hóa nguồn)

. Bộ giải mã: thực hiện giải mã tín hiệu nhận được để cho ra ma
trận các hệ số của ảnh biến đổi.
, Bộ chuyển đổi: thực hiện biến đổi nghịch (so với quá trình biến
đổi ở bộ mã hóa) để khôi phục lại ảnh số ban đầu.

09/09/2021 252
3.3- Kỹ thuật nén ảnh
3.3.2- Hiệu quả nén ảnh và chất lượng ảnh
• Hiệu quả nén ảnh: được xác định bằng tỉ lệ nén (tỉ số
giữa lượng dữ liệu của ảnh gốc trên lượng dữ liệu của
ảnh nén)
. Độ phức tạp của thuật toán nén: được xác định bằng số
bước tính toán trong cả hai quá trình mã hóa và giải mã.
. Thông thường thì thuật toán nén càng phức tạp bao nhiêu
thì hiệu quả nén càng cao nhưng ngược lại giá thành và
thời gian để thực hiện lại tăng.

09/09/2021 253
3.3- Kỹ thuật nén ảnh
3.3.2- Hiệu quả nén ảnh và chất lượng ảnh
• Chất lượng ảnh nén:
. Đánh giá chất lượng ảnh nén=sai lệch bình phương trung bình
rms (Root Mean Square):

(3.13)

. Hoặc qua PSNR (Peak to Signal to Noise Ratio):

(3.14)

09/09/2021 254
3.3- Kỹ thuật nén ảnh
3.3.3- Phân loại các phương pháp nén ảnh
• Phân loại theo nguyên lý nén:
- Nén không tổn thất (Loss-less): bao gồm các p2 nén ảnh mà
sau khi giải nén thu được chính xác dữ liệu gốc.
- Nén tổn thất (Lossy Compression): sau khi giải nén ta không
thu được dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các
phương pháp “tâm lý thị giác”.
• Phân loại theo cách thực hiện nén:
. Phương pháp không gian (Spatial Data Compression): thực hiện
nén bằng cách tác động trực tiếp lên các mẫu (điểm ảnh) của
ảnh gốc.
. Phương pháp sử dụng mã hóa biến đổi (Transform
Coding): tác động lên các hệ số biến đổi của ảnh gốc mà
không tác động trực tiếp lên các mẫu của ảnh gốc.
09/09/2021 255
3.4- Các p2 nén ảnh không tổn thất

- Nén cho các ứng dụng yêu cầu không lỗi: Ví dụ trong y
tế, nén tài liệu..vv
- Tỷ số nén CR= 2 đến 10
- Loại bỏ sự dư thừa về mã và dư thừa về không gian
- Ví dụ: Huffman codes, Arithmetic coding, LZW, 1D and 2D
run-length encoding, Loss-less Predictive Coding, and
Bit-Plane Coding.

09/09/2021 256
3.4- Các p2 nén ảnh không tổn thất
3.4.1- Mã hoá Huffman
- Dựa vào mô hình thống kê tính x/suất xuất hiện các ký tự.
- Gán cho các ký tự có xác xuất cao bằng một từ mã ngắn,
các ký tự có xác xuất thấp bằng một từ mã dài.
• Thuật toán:
1. Khởi tạo: liệt tất cả các ký hiệu trong danh sách đã được sắp
xếp theo xác suất xuất hiện giảm dần.
2. Lặp lại cho đến khi danh sách chỉ còn lại 1 ký hiệu.
(a) Từ danh sách, chọn 2 ký hiệu có x/s xuất hiện thấp nhất. Tạo
thành một nút con.
(b) Gán tổng x/suất của các nút con vào nút cha và chèn vào
danh sách sao cho trật tự giảm dần được đảm bảo.
(c) Xóa các nút con khỏi danh sách.
09/09/20213. Gán từ mã cho mỗi lá theo đường dẫn từ gốc. 257
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- Là kĩ thuật nén dữ liệu mà cho phép mã hóa dữ liệu bằng cách
tạo ra một chuỗi mã (code string). Chuỗi này biểu diễn một giá
trị thập phân nằm trong khoảng giữa 0 và 1.
- Ý tưởng cơ bản của mã hóa số học là sử dụng khoảng chia
giữa 0 và 1 để biểu diễn các khoảng mã hóa.
- Rõ ràng hàm mật độ xác xuất tích lũy của tất cả các kí hiệu sẽ
bằng 1.
- Khi bản tin càng dài thì các khoảng để biểu diễn bản tin đó
càng ngắn, và số các bít cần để xác định khoảng đó càng tăng.
- Dựa trên các xác suất kí hiệu tạo ra bởi mô hình, kích thước
của các khoảng cho các kí tự tiếp theo của bản tin sẽ giảm.

09/09/2021 258
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- Quá trình mã hóa:
+ B1: Gán mỗi ký hiệu riêng lẻ với một đoạn của dải [0, 1)
(khởi đầu) (mà đoạn đó tương ứng với xác suất xuất hiện
của kí tự đó trong hàm mật độ xác suất tích lũy).
+ B2: Xác định giá trị biên trên (Un) và biên dưới (Ln) cho
dải bản tin đầu ra (Sau khi kí hiệu đầu tiên đã được mã
hóa). Mỗi giá trị mới được mã hóa sẽ càng làm cho dải này
hẹp lại.
+ B3: Lặp (B1,B2) dải giá trị mới cho đến khi xác định chuỗi
mã đầu ra (một giá trị thập phân).

09/09/2021 259
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- Quá trình giải mã:
+ Sử dụng các khoảng xác suất giống như bộ mã hóa và thực
hiện quá trình tương tự.
+ Tổng quát đối với quá trình giải mã có thể được công thức hóa
như sau:
Rn  Ln
Rn 1  (3.15)
U n  Ln
Trong đó: Rn là mã nằm trong dải giá trị dưới Ln và giá trị trên Un
của kí hiệu thứ n và Rn+1 là mã cho kí hiệu tiếp theo.

09/09/2021 260
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- Ví dụ 1: Cho tập các ký hiệu {a, b, c, d} và mô hình tĩnh
được sử dụng với các xác suất như biểu diễn ở Bảng:
Kí hiê ̣u Xác suất Dải
A 0.6 [0.0, 0.6)
B 0.2 [0.6, 0.8)
C 0.1 [0.8, 0.9)
D 0.1 [0.9, 1)

a) Xác định chuỗi mã đầu ra bộ mã hóa số học cho bản tin


ACD.
b) Từ kết quả câu a, xác định bản tin đầu ra bộ giải mã. So
sánh với bản tin đầu vào bộ mã hóa số học đã cho.
09/09/2021 261
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- HD Ví dụ 1:
a) Xác định chuỗi mã đầu ra bộ mã hóa số học
B1: Gán mỗi ký hiệu riêng lẻ với một đoạn của dải [0, 1)
a b c d

B2:
+ Kí hiệu đầu tiên cần được mã hóa là a. Do đó, bản tin
được mã hóa cuối cùng phải là một số lớn hơn hoặc bằng
0 (Ln) và nhỏ hơn 0.6 (Un)
+ Sau khi kí hiệu đầu tiên đã được mã hóa, ta biết được giá trị
Un và Ln cho dải mới bản tin đầu ra.
09/09/2021 262
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- HD Ví dụ 1:
a) Xác định chuỗi mã đầu ra bộ mã hóa số học
B3: Bước lặp
+ Mã hóa cho ký hiệu thứ 2 trong bản tin:
. Gán mỗi ký hiệu riêng lẻ với một đoạn của dải mới [0, 0.6)
a b c d

. Ký hiệu thứ 2 (c) được mã hóa: xác định dải mới [0.48,
0.54)

09/09/2021 263
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- HD Ví dụ 1:
a) Xác định chuỗi mã đầu ra bộ mã hóa số học
B3: Bước lặp
+ Mã hóa cho ký hiệu cuối trong bản tin:
. Gán mỗi ký hiệu riêng lẻ với một đoạn của dải mới [0.48, 0.54)

a b c d

. Ký hiệu cuối (d) được mã hóa: xác định dải mới [0.534,
0.54). Do đó: đầu ra bộ mã hóa số học nhận được x =
0.534 (nằm trong dải 0.534 ≤ x <0.54)
09/09/2021 264
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- HD Ví dụ 1:
a) Xác định chuỗi mã đầu ra bộ mã hóa số học
Bảng biểu diễn quá trình mã hóa số học cho bản tin
“ACD”
  Kí tự mới Dải
Khởi tạo   [0, 1)
Sau khi xem xét một kí hiê ̣u A [0, 0.6)
  C [0.48, 0.54)
  D [0.534, 0.54)
Kết quả đầu ra bộ mã hóa số học nhận được chuỗi mã ra: x
= 0.534 (nằm trong dải 0.534 ≤ x <0.54)
09/09/2021 265
3.4- Các p2 nén ảnh không tổn thất
3.4.2- Mã hoá số học
- HD Ví dụ 1:
b) Xác định bản tin đầu ra bộ giải mã
Bộ giải mã sẽ sử dụng các khoảng xác suất giống như bộ
mã hóa và thực hiện quá trình tương tự khi nhận được
x= 0.534.
Bảng biểu diễn quá trình giải mã hóa số học
Số (chuỗi) được mã hóa Dải Kí hiệu đầu ra
0.534 [0, 0.6) A
0.89 [0.8, 0.9) C
0.9 [0.9, 1) D
Kết quả đầu ra bộ giải mã số học nhận được bản tin: ACD
(Giống bản tin đầu vào bộ mã hóa) Phương pháp nén
ảnh ko tổn thất.
09/09/2021 266
3.4- Các p2 nén ảnh không tổn thất
3.4.3- Mã hoá từ điển LZW
- Là một trong những kỹ thuật nén không tổn thất.
- Khai thác dư thừa giữa các pixel của ảnh.
- Thực hiện gán các từ mã cố định vào các chuỗi có độ dài thay
đổi của các ký hiệu nguồn. Dựa trên việc xây dựng Từ điển lưu
các chuỗi ký tự có tần suất lặp cao, thay thế bằng từ mã
tương ứng khi gặp lại.
- Nâng cao tỉ lệ nén (kỹ thuật tổ chức từ điển).
Ứng dụng:
- Thường dùng để nén các loại văn bản, ảnh đen trắng, ảnh
màu, ảnh đa mức xám...
- Là chuẩn nén cho các dạng ảnh GIF và TIFF.

09/09/2021 267
3.4- Các p2 nén ảnh không tổn thất
3.4.3- Mã hoá từ điển LZW
• Cách thức mã hóa:
- Khác với mã Huffman, kỹ thuật LZW không cần biết tần
suất của các ký tự trong tín hiệu gốc.
- Để mã hóa theo phương pháp LZW, chuỗi dữ liệu phải
được thực hiện dựa vào tra cứu trong "từ điển" để tìm ra
mã tương ứng với nó. "Từ điển" được hình thành ngay
trong quá trình mã hóa.
- Ví dụ: khi nén ảnh đen-trắng mã hóa 8 bits/pixel, từ điển
được khởi tạo bao gồm 256 từ tương ứng với các mức
chói 0,1,2…255. Sau đó, bộ mã hóa sẽ phân tích lần lượt
chuỗi ký tự (mức xám) liên tiếp trong dữ liệu nguồn, khi
phát hiện trong từ điển không có chuỗi ký tự tương đương,
bộ mã hóa sẽ ghi chuỗi ký tự liên tiếp đó vào vị trí còn
trống của từ điển.
09/09/2021 268
3.4- Các p2 nén ảnh không tổn thất
3.4.3- Mã hoá từ điển LZW
• Cấu trúc từ điển:

Mã của 256 kí tự cơ bản


trong bảng mã ASCII
Cấu
trúc
(Khi số mẫu lặp > 4096)
từ (Cho từng ảnh)
điển Chứa các mẫu lặp lại trong ảnh:
 258-511: 9 bit.
 512 -1023: 10 bit
1024-2047: 11 bit
- 2048-4095: 12 bit

09/09/2021 269
3.4- Các p2 nén ảnh không tổn thất
3.4.3- Mã hoá từ điển LZW
• Bảng từ điển (mã hóa):

09/09/2021 270
3.4- Các p2 nén ảnh không tổn thất
3.4.4- Mã hoá loạt chạy dài (RLC)
• Cách thức mã hóa:
- Tư tưởng của phương pháp là dựa trên sự lặp lại các bit.
- Thay thế các bit bởi chiều dài chuỗi và bít lặp.
- Để phân biệt với các ký tự khác ta có thể thêm 1 từ mã đặc
biệt trước 2 thông tin chiều dài chuỗi và bit lặp.
• Ví dụ:
- Cho dãy các giá trị mức xám như sau
55 22 22 22 22 22 22 22 22 51 52 52 52 60 …
- Ta có thể thay đoạn mã trên bằng
55 E 8 22 51 E 3 52 60 …
- Với E là ký tự đặc biệt, hai giá trị sau E là chiều dài ký tự
lặp và ký tự lặp.
- .
09/09/2021 271
3.4- Các p2 nén ảnh không tổn thất
3.4.5- Mã hoá dự đoán không tổn thất
 Có thể dự đoán giá trị pixel.
 Mô hình mã hóa dự đoán không tổn thất

 m

fˆn  round   l f n l 
 l 1 

09/09/2021 272
3.4- Các p2 nén ảnh không tổn thất
3.4.5- Mã hoá dự đoán không tổn thất
• Giảm thiểu dư thừa giữa các pixel lân cận: tách và chỉ
mã hóa thông tin mới (sai khác giữa giá trị thực tế và
giá trị dự đoán của pixel đó) trong mỗi pixel:
• Bộ giải mã khôi phục lại:

en  f n  fˆn

f n  en  fˆn (3.16)

 m

   i f n 1 
ˆf  round
trong đó: n
 i 1 
09/09/2021 273
3.4- Các p2 nén ảnh không tổn thất
Bài tập:
Bài 1: Cho ảnh I như sau :

a) Xây dựng bảng mã Huffman cho các mức xám của ảnh I trên. Tính tốc độ
bit trung bình và so sánh nó với entropy của nguồn.
b) Mã hóa ảnh I trên sử dụng bảng mã Huffman xây dựng ở câu a.

 36 36 128 128
 36 36 128 128
Bài 2: Cho ảnh I4x4: I  
128 36 36 128
 
128 36 36 128
a) Mã hóa ảnh I sử dụng mã hóa từ điển LZW. Tính tỷ số nén?
b) Với dữ liệu ảnh nén có được ở câu a, sử dụng giải mã LZW để tìm ảnh ban
đầu? (Giả thiết ảnh được đọc và hiển thị theo thứ tự từ trái qua phải, từ
trên xuống dưới).
09/09/2021 274
3.4- Các p2 nén ảnh không tổn thất
Bài tập:
Bài 3: Cho tập các ký hiệu {a, c, d, e, k, !} và mô hình tĩnh được sử
dụng với các xác suất như biểu diễn ở Bảng sau:

Kí hiê ̣u Xác suất Dải


a 0.2 [0.0, 0.2)
c 0.3 [0.2, 0.5)
d 0.1 [0.5, 0.6)
e 0.2 [0.6, 0.8)
k 0.1 [0.8, 0.9)
! 0.1 [0.9, 1.0)
a) Xác định chuỗi mã đầu ra bộ mã hóa số học cho bản tin cadd!.
b) Từ kết quả câu a, xác định bản tin đầu ra bộ giải mã. So sánh với bản tin
đầu vào bộ mã hóa số học đã cho.
09/09/2021 275
3.4- Các p2 nén ảnh không tổn thất
Bài tập:
Bài 4: Cho sơ đồ mã hóa như hình vẽ, bộ dự đoán đưa ra
giá trị dự đoán u(n)  u(n  1) , giả sử giá trị pixel đầu tiên
được truyền trực tiếp không lỗi u(n)  u.(1Tìm ) giá trị
u(n), e(n), e(nvà
) u(n )
tương ứng với chuỗi pixel ảnh đầu
vào u(n)=101, 110, 107, 108, 105, 102.

09/09/2021 276
3.4- Các p2 nén ảnh không tổn thất
HD Bài tập:
Bài 1: Cho ảnh I như sau :

a) Xây dựng bảng mã Huffman cho các mức xám của ảnh I trên. Tính
tốc độ bit trung bình và so sánh nó với entropy của nguồn.
B1: Vẽ biểu đồ Histogram của vùng ảnh và chuyển sang dạng bảng
Số pixel (nk)
6
Mức xám rk 2 3 4 5
5 Số pixel nk 6 5 4 1
4 p(rk) = nk/n 6/16 5/16 4/16 1/16
3
  5
2
1
1
𝐿𝑎𝑣 = ∑ 𝑙 (𝑟 𝑘 ) ¿ ¿
0 𝑘 =0
1 2 3 4 5 Mức xám (rk)
b) Mã hóa ảnh I trên
1 sử dụng bảng mã Huffman xây dựng ở câu a.
09/09/2021 277
3.5- Các p2 nén ảnh tổn thất
- Nén ảnh có tổn thất được xây dựng dựa trên độ chính xác
của việc khôi phục lại ảnh trong lúc trao đổi nhằm tăng hiệu
quả nén.
- Nếu kết quả không chính xác (ảnh kém chất lượng) có thể
chấp nhận được, thì hiệu quả nén là đáng kể.
- Trong thực tế, nhiều kỹ thuật mã hoá có tổn thất có khả năng
khôi phục lại ảnh đơn sắc từ dữ liệu được nén có tỉ số nén
100:1, hoặc ảnh khôi phục gần như không phân biệt được so
với ảnh gốc nếu tỉ số nén 10:1 đến 50:1.
- Phương pháp nén ảnh có tổn thất sẽ được trình bày bao gồm
mã hóa DPCM và mã hóa biến đổi.

09/09/2021 278
3.5- Các p2 nén ảnh tổn thất
3.5.1- Mã hoá DPCM
- Là p2 mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát
hiện sự giống nhau và khác nhau giữa các điểm ảnh gần
nhau để tìm cách loại bỏ các thông tin thừa.
- Phân tích thống kê phân bố biên độ t/h video: thấy phân bố
biên độ các mẫu tương ứng với các điểm ảnh về nguyên
tắc là phân bố đều, ngược lại phân bố về độ lệch biên độ
các điểm ảnh có đồ thị hình chuông xung quanh điểm 0.
- Nếu dựa trên các đặc trưng thống kê ảnh, thì sự khác
nhau mẫu là không lớn lắm và để mã hóa chỉ cần số bit bé
(so với việc mã hóa toàn bộ biên độ các mẫu).
- P2 DPCM còn sử dụng đặc điểm của mắt người (kém nhạy
với mức LT có chênh lệch về độ chói giữa điểm ảnh gần
nhau, so với mức LTH chênh lệch nhỏ) và cho phép dùng
09/09/2021đặc trưng phi tuyến về LTH. 279
3.5- Các p2 nén ảnh tổn thất
3.5.1- Mã hoá DPCM
• Sơ đồ khối của bộ mã hóa và giải mã DPCM:

(a)

09/09/2021
(b) 280
3.5- Các p2 nén ảnh tổn thất
3.5.1- Mã hoá DPCM
• Ví dụ BT mã hóa và giải mã DPCM:

Mã hóa chuỗi sau sử dụng bộ mã hóa DPCM: {1,3,4,4,7,8,6,5,3,1}. Sử


dụng bộ dự đoán đơn giản: dự đoán giá trị hiện tại bằng một giá trị
trước đó và sử dụng bộ lượng tử 3 mức: 2 d 1

e n = Q(d)= 0 d <1
-2 d  -1

Giả sử dự đoán mẫu đầu tiên là 1. Tính toán chuỗi bit nhị phân mã hóa
nếu mã sau được sử dụng để mã hóa tín hiệu sai số lượng tử: e =0 
n
“1”;
09/09/2021 e
 =2  “01”; e =-2  “00”; 281
n n
3.5- Các p2 nén ảnh tổn thất
3.5.1- Mã hoá DPCM
• Ví dụ BT mã hóa và giải mã DPCM:

Mẫu vào Mẫu dự Sai số dự Sai số được Mã Giá trị khôi


(fn)
1
đoán ( )
1
đoán (en)
0 0
𝒆˙
Lượng tử hóa (  )
𝒏 1
phục
1
3 1 2 2 01 3
4 3 1 2 01 5
4 5 -1 -2 00 3
7 3 4 2 01 5
8 5 3 2 01 7
6 7 -1 -2 00 5
5 5 0 0 1 5
3 5 -2 -2 00 3
09/09/2021 1 3 -2 -2 00 1 282
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá chuyển đổi
- Động lực chuyển đổi:
+ Biểu diễn ảnh gốc hiệu quả hơn
+ Các tham số chuyển đổi y/c ít bit mã hóa hơn (Đóng gói
năng lượng, giải tương quan giữa các điểm ảnh).
- Các phép biến đổi: DFT, DCT và wavelet để ánh xạ ảnh số
sang không gian khác.
- Tập hệ số kết quả của các biến đổi tuyến tính sau đó được lượng
tử hóa và mã hóa.
- Ưu điểm của các phép biến đổi là các hệ số khai triển thường có
mức tương quan nhỏ hơn so với mức độ tương quan giữa các
điểm ảnh trong không gian thực.
- Ngoài ra, phần lớn năng lượng của tín hiệu tập trung tại các hệ
số nằm trong miền tần số thấp.
09/09/2021 283
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Sơ đồ khối của bộ mã hóa và giải mã:

09/09/2021 284
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Cosin rời rạc:
– DCT thuận ảnh f, MxN:

2C  u  C  v  M 1 N 1
 2i  1 u  2 j  1 v
F  u, v  
MN
 f
i 0 j 0
ij cos
2M
cos
2N
 1
 u, v  0
C (u ), C (v)   2 (3.17)
 1 u, v  0

2 M 1 N 1  2i  1 u  2 j  1 v
ij  ngược:   C  u  C  v  F (u , v ) cos
– fDCT cos
MN u 0 v 0 2M 2N
09/09/2021 (3.18)
285
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet:
– Sử dụng để phân tích các tín hiệu không dừng (non-
stationary) - là những tín hiệu có đáp ứng tần số thay
đổi theo thời gian.
– Mục đích: giải quyết vấn đề về độ phân giải tín hiệu
(miền thời gian hoặc tần số) mà STFT vẫn còn hạn chế.
– Được thực hiện theo cách phân tích đa phân giải - MRA
(Multi Resolution Analysis): phân tích tín hiệu (ảnh)
thành các tín hiệu con (ảnh con) có mức phân giải khác.
Cụ thể:
• Tín hiệu được nhân với hàm Wavelet (tương tự như
nhân với hàm cửa sổ trong biến đổi STFT).
• Thực hiện biến đổi riêng rẽ cho các khoảng t/h khác
09/09/2021
nhau trong miền thời gian tại các tần số khác nhau. 286
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet:
– Lọc dữ liệu (ảnh) thành dữ liệu phân giải thấp và dữ liệu
chi tiết.

09/09/2021 287
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet rời rạc – DWT-1D:
– Sử dụng một tập các bộ lọc: thông cao và thông thấp
(giống kỹ thuật mã hoá băng con- subband coding).
Nhưng các bộ lọc trong DWT được thiết kế phải có đáp
ứng phổ phẳng, trơn và trực giao.
– Dạng tổng quát của biến đổi DWT một chiều (DWT-1D):

– Phân tích: Tín hiệu được đưa qua các bộ lọc thông cao G
09/09/2021
và thông thấp H rồi được giảm mẫu (down sampling) hệ số
288
2 tạo thành biến đổi DWT mức 1. Ngược lại là quá trình
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet hai chiều – DWT-2D:
– Sử dụng các bộ lọc riêng biệt, thực hiện biến đổi DWT-1D
dữ liệu vào (ảnh) theo hàng rồi thực hiện theo cột. Theo
cách này nếu thực hiện biến đổi DWT-2D ở mức 1, sẽ tạo
ra 4 nhóm hệ số biến đổi: LL, HL, LH, HH.

09/09/2021 289
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet hai chiều – DWT-2D:
– DWT-2D 3 mức:

09/09/2021 290
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Một số họ Wavelet rời rạc:
– Wavelet Harr; Wavelet Daubechies; Wavelet Morlet
– The Haar basis vectors are

(3.19)

– An example of Daubechies basis vectors (there are many


others) follows:

(3.20)

09/09/2021 291
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Xét tín hiệu rời rạc:
Trong đó: N- độ dài của tín hiệu, các giá trị f (thực)
được xác định từ tín hiệu tương tự tại thời điểm t1, t2,
…,tN:

– Biến đổi wavelet sẽ phân tích t/h thành 2 băng con


(độ dài N/2):
• Một t/h con là trung bình chạy (running average)
(trend)
• Một t/h con là sai khác chạy (running difference)
09/09/2021
(fluctuation) 292
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr: Thuận (mức 1: )
– T/h con trung bình chạy: lấy trung bình, nhân sqrt(2)
(bảo toàn năng lượng của tín hiệu)

(3.21)

– Tín hiệu con vi sai: 1/2 sai khác, nhân sqrt(2))

(3.22)
09/09/2021 293
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr: Ngược

(3.23)

– Biên độ của tín hiệu con vi sai thường nhỏ hơn đáng kể so
với biên độ của tín hiệu gốc.
– Nếu f có 8 giá trị, trung bình là 7 thì tín hiệu con vi sai có 4
giá trị, trung bình 0,75sqrt(2) (nhỏ hơn 6,6 lần).

09/09/2021 294
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Ví dụ: Cho tín hiệu rời rạc:

– T/h con trung bình chạy:


– Tín hiệu con vi sai:
– Biến đổi Haar mức 1:

+ Thuận:

09/09/2021 + Ngược: 295


3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Tính bảo tồn và đóng gói năng lượng:
• Năng lượng của tín hiệu f: (3.24)

• Biến đổi wavelet mức 1 (biến đổi Haar):

 Năng lượng t/h con trung bình chiếm: 440/446=


98,7% tổng năng lượng của t/h
• Biến đổi nhiều mức
09/09/2021 296
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Tính bảo tồn và đóng gói năng lượng:
• Năng lượng của tín hiệu f:

• Biến đổi nhiều mức: Từ t/h con trung bình mức 1


phân tích thành 2 t/h con trung bình và vi sai mức
2, mức 3, …:

Trong đó: (Chiếm 90% năng lượng của tín hiệu, độ


09/09/2021 dài 1/4) 297
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Bài tập: DWT-1D (Biến đổi thuận)
Cho x(k)= {1, 2, 3, 4, 5, 6, 7, 8}. Haar 2 mức:

09/09/2021 298
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Bài tập: DWT-1D (Biến đổi thuận)
Cho x(k)= {1, 2, 3, 4, 5, 6, 7, 8}. Haar 2 mức:

09/09/2021 299
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Bài tập: DWT-1D (Biến đổi ngược)

Haar 2 mức:

09/09/2021 300
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr:
– Bài tập: DWT-1D (Biến đổi ngược)

Haar 2 mức:

09/09/2021 301
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr: Bài tập: DWT-2D (thuận)
Cho:

+ Thực hiện biến đổi theo hàng, sau đó theo cột

09/09/2021 302
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr: Bài tập: DWT-2D (ngược)
Với:

09/09/2021 303
3.5- Các p2 nén ảnh tổn thất
3.5.2- Mã hoá biến đổi
• Biến đổi Wavelet Harr: Bài tập: DWT-2D (ngược)

09/09/2021 304
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• JPEG: Joint Photographic Experts Group
• Trở thành chuẩn quốc tế vào đầu những năm 90 (bắt
đầu nghiên cứu vào 80’s).
• Chuẩn JPEG: cho nén ảnh tĩnh đơn sắc và màu. Nhưng
cũng được sử dụng cho nhiều ứng dụng với ảnh động
(do chất lượng ảnh khôi phục khá tốt và ít phải tính toán
hơn so với nén MPEG).
• MPEG-1/2/4/7: do Ủy ban ISO IEC/JTC1/SC29/WG11
phát triển cho mã hoá kết hợp giữa video và audio.
• H.261: chuẩn mã hoá video cho các dịch vụ nghe nhìn
tốc độ nx 64Kbps, do nhóm nghiên cứu XI phát triển.
• ITU-TS H.263 cho các ứng dụng điện thoại thấy hình tốc
09/09/2021độ dưới 64Kbps. 305
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:

09/09/2021 306
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước I: Chia ảnh thành các khối 8x8
- Chèn 0 đối với các khối biên không phải 8x8.
- Với ảnh màu thường chuyển sang không gian màu (Y, Cb, Cr)
- Mỗi khối chỉ có 64 pixel. Nhiều giá trị pixel gần bằng nhau đối
với các pixel lân cận.

09/09/2021 307
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước II: Thực hiện DCT-2D trên mỗi khối, có được 64 hệ số
biến đổi ở đầu ra.
- Với i(p,q): giá trị của pixel (p=0,…,7; q=0,…,7)

(3.25)

Hầu hết các giá trị lớn


hơn nằm ở góc trên trái
(tại tần số thấp)
09/09/2021 308
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước III: Lượng tử hóa các hệ số DCT
- Sử dụng bộ lượng tử hóa đều đối với mỗi hệ số.
- Các hệ số khác nhau được lượng tử hóa với kích cỡ
bước khác nhau (Q):
- Các hệ số tần số thấp có Q nhỏ hơn
- Các hệ số tần số cao có Q lớn hơn
- Được xác định trong ma trận chuẩn tắc. Sau đó ma
trận này có thể được định cỡ qua hệ số tỷ lệ (QP).

09/09/2021 309
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước III: Lượng tử hóa các hệ số DCT

09/09/2021 310
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước III: Lượng tử hóa các hệ số DCT
Ma trận LTH mặc định trong JPEG (cho tp Luminance)

09/09/2021 311
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước III: Lượng tử hóa các hệ số DCT
LTH đều

09/09/2021 312
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước VI: Quét zig-zag trong JPEG
Horizontal frequency

0 1 5 6 14 15 27 28

2 4 7 13 16 26 29 42
Vertical frequency

3 8 12 17 25 30 41 43

9 11 18 24 31 40 44 53

10 19 23 32 39 45 52 54

20 22 33 38 46 51 55 60

21 34 37 47 50 56 59 61

09/09/2021 313
35 36 49 48 57 58 62 63
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Sau khi lượng tử hóa, các hệ số (1 DC + 63 AC) được mã hóa
entropy.
- Các hệ số DC và AC được xử lý khác nhau. Vì sau khi LTH, có
nhiều thành phần AC=0, thực hiện RLC:
- Bước RLC thay thế các giá trị trong vector 64 phần tử
bằng các cặp: (Chạy dài, Giá trị)
- trong đó Chạy dài: là số số 0 và Giá trị là giá trị khác 0
kế tiếp.
- Chú ý, hầu hết các thành phần 0 thường nằm về phía
góc phải dưới (các tần số không gian lớn- t/s cao).
09/09/2021 - Thực hiện quét zig-zag cho một vector 64 phần tử. 314
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số DC:
- Mỗi 1 khối có 1 DC.
- Các hệ số DC có thể khác nhau rất nhiều trong toàn bộ
ảnh, nhưng khác nhau ít từ khối này đến khối lân cận.
- Các hệ số DC được mã hóa DPCM.

- Ví dụ: có 5 hệ số DC đầu tiên: 150, 155, 149, 152, 144,


chúng ta có mã DPCM: 150, 5, -6, 3, -8

09/09/2021 315
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số DC:
Sơ đồ khối bộ mã hóa

09/09/2021 316
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số DC:
Bảng mã Huffman phân loại các thành phần DC và AC

09/09/2021 317
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số DC:

Bảng mã Huffman cho các thuộc tính của thành phần DC

09/09/2021 318
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số AC:
Sơ đồ khối bộ mã hóa

09/09/2021 319
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số AC:
Bảng mã Huffman phân loại các thành phần DC và AC

09/09/2021 320
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số AC:

Bảng mã Huffman
cho thành phần AC

09/09/2021 321
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Mã hóa JPEC:
+ Bước V: Mã hóa entropy JPEG
- Mã hóa các hệ số AC: Sơ đồ khối bộ mã hóa

09/09/2021 322
3.6- Một số chuẩn nén ảnh
3.6.1- Chuẩn nén JPEC
• Giải mã JPEC:

09/09/2021 323
Bài tập chương 3
3.5.2- Mã hoá biến đổi (Harr)
Bài 1: Cho đoạn tiếng nói gồm 8 mẫu thoại như sau:
x(n)=[1,-2,-1,0,1,2,-1,0] với n=0,…,7.
Thực hiện phân tích đa phân giải tín hiệu trên, với các sóng
con:
a) Tìm biến đổi Haar 2 mức. Phân tích đóng gói năng
lượng của biến đổi Haar.
b) Khôi phục lại x(n) qua biến đổi Haar ngược. Tính MSE
giữa tín hiệu ban đầu và tín hiệu khôi phục?
c) Nêu ý nghĩa của biến đổi Haar

09/09/2021 324
Bài tập chương 3
0 0 0 0
3.5.2- Mã hoá biến đổi (Harr)
0 256 0 0
Bài 2: Cho ảnh I4x4 (8 bits/pixel) như sau: I 
0 0 0 0
0 0 0 0

Tính toán biến đổi sóng con Haar 1 mức ảnh I ở trên, sau đó
thực hiện mã hóa trung bình 2 bits/pixel như sau:
a) Mã hóa băng con LL với 8 bits/pixel và các băng con còn lại
là 0 bits/pixel sử dụng lượng tử hóa đều vô hướng.
b) Mã hóa 4 băng con với 2 bits/pixel sử dụng lượng tử hóa
đều vô hướng.
c) Mã hóa 4 băng con sử dụng DPCM với lượng tử hóa đều vô
hướng 2 bits/pixel.
d) So sánh các ảnh khôi phục của ảnh I tương ứng với các cơ
09/09/2021 325
Bài tập chương 3
3.5.2- Mã hoá biến đổi (Harr)
Bài 3: Cho ảnh X4x4:

a) Thực hiện chuyển đổi Wavelet Haar hai mức. Phân tính đóng gói
năng lượng của phép chuyển đổi Haar.
b) Mã hóa băng LL bằng 8 bit/pixel, các băng con còn lại là 0 bit/pixel,
dùng lượng tử đều kích thước bước lượng tử bằng 1.
c) Khôi phục lại ảnh qua biến đổi haar ngược. Tính MSE giữa tín hiệu
gốc và tín hiệu sau khôi phục.
09/09/2021 326
Bài tập chương 3
3.6.1- Chuẩn nén JPEC
Bài 4: Cho khối ảnh S2x2:
8 2
S  
2 8

a) Mã hóa ảnh S trên sử dụng chuẩn nén ảnh JPEG (bỏ qua bước trừ
3 2
Q 
128 điểm ảnh). Biết ma trận lượng tử 2
và DC của khối
 5
trước

đó là 3.

b) Tính tỷ số nén, RMS,MSE, PSNR?


09/09/2021 327
BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH


Chương 4: Kỹ thuật xử lý Video

Bộ môn: Tín hiệu và Hệ thống

09/09/2021 328
Chương 4- Kỹ thuật xử lý Video
4.1 Giới thiệu chung
4.2 Mã hóa Video bù chuyển động
4.3 Phân tích chuyển động
4.4 Kỹ thuật so khớp khối
– Tiêu chí so khớp khối
– Các thủ tục tìm kiếm
4.5 Dự đoán ảnh (bù chuyển động)
4.6 Một số chuẩn mã hóa Video ứng dụng trong truyền
thông
– Các chuẩn nén video H26x của ITU
– Chuẩn nén video MPEG
09/09/2021 329
4.1- Giới thiệu chung
4.1.1- Khái niệm cơ bản về Video và xử lý Video
a) Khái niệm:
- Video là một chuỗi các ảnh/ khung hình tạo cảm giác về sự
chuyển động khi được trình chiếu/ hiện thị một cách liên
tiếp.
- Video là kết hợp của chuyển động và âm thanh.

09/09/2021 330
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
- Các ảnh trước khi truyền: được quét với 3 thiết bị quang
(có một bộ lọc màu khác nhau đặt ở phía trước).
- Ba kênh (R, G, B) được hiệu chỉnh: khi 1 vùng trắng đều
được quét, thì cả 3 đầu ra phải có điện áp bằng nhau.
- Với các màu có cùng cường độ: mắt người có độ nhạy
khác nhau  độ chói (t/h Y): bổ sung các trọng số.
Y= 0.299R+0.587G+0.114B (4.1)
- Một màu đc xác định: nếu 2/3 màu cơ bản được biết nên
chỉ cần truyền 2 t/h màu, màu thứ 3 sẽ đc tính ở đầu thu.
 Đưa ra mô hình màu khác nhau trong truyền dẫn t/h
video.
09/09/2021 332
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YUV:
(được sử dụng cho tín hiệu video tương tự hệ PAL)

- T/h màu U, V:

(4.2)

- Chuyển đổi RGB thành YUV:


(4.3)

09/09/2021 333
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YIQ: (được sử dụng cho t/h video màu NTSC)
- Do U và V không biểu thị hết phân cấp bậc thấp nhất về
độ nhạy hiển thị của người. NTSC đã sử dụng I và Q
thay thế.
- YIQ được xem như là một phiên bản của YUV, với cùng
một Y nhưng với U và V được quay đi góc 33 °
- T/h màu U, V:

(4.4)

- Chuyển đổi RGB thành YIQ:


(4.5)
09/09/2021 334
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YCbCr:
- Chuẩn quốc tế cho các tín hiệu video số (ITU-R BT.601-
4). Tiêu chuẩn này dùng một không gian màu YCbCr.
Biến đổi YCbCr được sử dụng trong nén ảnh JPEG và
nén video MPEG
- T/h màu Cb, Cr:
(4.6)

- Chuyển đổi RGB thành YCbCr:


(3.7)
09/09/2021 335
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Lấy mẫu thành phần video số
– 4:4:4; 4:2:2; 4:1:1; 4:2:0

09/09/2021 337
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Lấy mẫu thành phần video số
- Thường được biểu thị theo tỷ lệ: 3 phần J: a: b,
- Mô tả: độ chói (Y), các mẫu màu (Cr, Cb) trong một
vùng rộng J pixel và cao 2 pixel.
+ J: chiều rộng vùng lấy mẫu. Thông thường: 4.
+ a: số lượng mẫu màu (Cr, Cb) trong hàng (J pixel)
đầu tiên.
+ b: số lượng thay đổi các mẫu màu (Cr, Cb) giữa hàng
1 và 2 của pixel J

09/09/2021 338
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:4:4 (J: a: b)

- Tổng cộng: 12 mẫu, 4 cho Y, CB, CR.


- Tổng cộng: 12 x 8 = 96 bits,
trung bình 96/4 = 24 bits/pixel.
- Tần số lấy mẫu cho các thành
phần Y, CB, CR là 13,5MHz.

- Số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8


bit lượng tử/pixel, 25 f/s. Luồng dữ liệu số nhận được sẽ có
tốc độ : 3 x 720 x 576 x 8 x 25= 249 Mbits/s
09/09/2021 339
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:2:2 (J: a: b)

- Tín hiệu chói được lấy mẫu tại


tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video.
- Tín hiệu màu trên mỗi dòng
được lấy mẫu với tần số = 1/2
tần số lấy mẫu tín hiệu chói.
- Tần số lấy mẫu cho các thành
phần Y= 13,5MHz, Cb = 6,75MHz,
Cr = 6,75MHz.

09/09/2021 340
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:2:0 (J: a: b)
- Tín hiệu chói được lấy mẫu tại tất
cả các điểm lấy mẫu trên dòng tích
cực của tín hiệu video.
- Nếu tần số lấy mẫu tín hiệu chói là
fD, tần số lấy mẫu tín hiệu màu sẽ là
fD/2. Tần số lấy mẫu cho các thành
phần Y= 13,5MHz; CB = CR =
6,75MHz.
- Chỉ sử dụng 6 mẫu: 4 cho Y và 1 cho
mỗi Cb và Cr, yêu cầu tổng cộng 6 x
8 = 48 bits, trung bình 48/4 = 12
09/09/2021
bits/ điểm ảnh. 341
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:1:1 (J: a: b)
- Tín hiệu chói được lấy mẫu tại tất cả
các điểm lấy mẫu trên dòng tích cực
của tín hiệu video.
- Tín hiệu màu trên mỗi dòng được lấy
mẫu với tần số bằng một phần tư tần
số lấy mẫu tín hiệu chói .
- Nếu tần số lấy mẫu tín hiệu chói là fD,
thì tần số lấy mẫu tín hiệu màu CR và
CB sẽ là fD/4. Tần số lấy mẫu cho các
thành phần Y= 13,5MHz; CB = CR =
3,375MHz.
09/09/2021 342
4.1- Giới thiệu chung
4.1.4- Khuôn dạng video
Các kiểu khung video
• Có 3 kiểu khung video: I-frame, P-frame và B-frame. I kí hiệu cho khung mã
hóa trong, P kí hiệu cho khung dự đoán và B kí hiệu cho khung dự đoán hai
chiều.
• Các I-frame mã hóa: không bù chuyển động và được sử dụng như một tham
chiếu cho các khung P và B được dự đoán tương lai. (Khung I cần số lượng
bit tương đối lớn để mã hóa).
• Các P-frame mã hóa: sử dụng dự đoán bù chuyển động từ một khung tham
chiếu (khung I hoặc khung P).
Các khung P cần số bit ít hơn khung I, nhưng nhiều bit hơn khung B. Các
khung B có số bit ít nhất so với 2 khung I và P, nhưng tính toán phức tạp.

09/09/2021 344
4.2- Mã hóa video
4.2.2- Mã hóa video bù chuyển động
• Ngoài kỹ thuật mã hóa dự đoán sai khác ảnh (kỹ thuật
bù khung), một kỹ thuật khác trong nén video cũng được
phát triển là mã hóa dự đoán dựa trên chuyển động.
• Trong một mô hình chuyển động: những thay đổi giữa
các ảnh liên tiếp là do sự chuyển dịch của các đối tượng
chuyển động trong các mặt phẳng ảnh.
• Do vậy: trước hết cần ước lượng các vector chuyển
động của các đối tượng. Sau đó thực hiện mã hóa
vector này.
 mã hóa dự đoán bù chuyển động.

09/09/2021 348
4.2- Mã hóa video
4.2.2- Mã hóa video bù chuyển động
• Các bước thực hiện:
- Bước 1: Ước lượng chuyển động (motion estimation)
Phân tích chuyển động, ước lượng vector chuyển động (hoặc
của mỗi pixel hoặc của một tập các pixel).
- Bước 2: Dự đoán và phân biệt
Dự đoán ảnh hiện tại dựa trên các vector chuyển động ước
lượng được và ảnh trước đó (gọi là dự đoán bù chuyển động). Sau
đó, tính sai số dự đoán.
- Bước 3: Mã hóa.
Sai số dự đoán (sai khác giữa ảnh hiện tại và ảnh dự đoán hiện
tại) và các vector chuyển động được mã hóa.

09/09/2021 349
4.3- Phân tích chuyển động (B1)
4.3.1- Phân tích chuyển động
• Phân tích hay ước tính chuyển động liên quan đến:
– Ước tính chuyển động mặt phẳng ảnh (chuyển động
2-D)
– Ước tính chuyển động đối tượng (chuyển động 3-D)
• Các kĩ thuật ước tính chuyển động 2-D:
– Tương quan
– Đệ qui
– Vi sai
• Kĩ thuật sử dụng phổ biến:
– Kĩ thuật so khớp khối ảnh
09/09/2021 350
4.4- Kỹ thuật so khớp khối (B1)
4.4.1- Giới thiệu
• Nguyên lý so khớp khối ảnh:
- Phân chia khung hiện tại thành các
khối
- Xác định một vector dịch chuyển cho
mỗi khối
- Tìm so khớp tốt nhất trong khung
tham chiếu dựa trên MÉO SO KHỚP

• Đo méo so khớp khối ảnh:


- Điển hình: méo SAD (Sum of Absolute Difference-Tổng độ
lệch tuyệt đối)
09/09/2021 351
4.4- Kỹ thuật so khớp khối (B1)
4.4.1- Giới thiệu
Tiêu chí so khớp
• Tổng độ lệch bình phương (SSD-Sum of Square Difference)
để xác định sự tương tự

(4.8)

09/09/2021 352
4.4- Kỹ thuật so khớp khối (B1)
4.4.1- Giới thiệu
Tiêu chí so khớp
• Tiêu chuẩn so khớp thay thế:
SAD- Sum of Absolute Difference (Tổng độ lệch tuyệt đối),
tương quan chéo

(4.9)

Lưu ý: Sai số tuyệt đối trung bình (Mean Absolute Error)


MAE =SAD/(NxN)

• Vector dịch chuyển được xác định như sau:

09/09/2021 (4.10)
353
4.4- Kỹ thuật so khớp khối (B1)
4.4.1- Giới thiệu
• Mô tả giải thuật so khớp khối

Cửa sổ đo được so sánh với các khối Khối mẫu được xem xét trong khung
bị dịch khác trong khung tham chiếu và hiện tại được lựa chọn như một cửa
09/09/2021 354
khung khớp nhất sẽ được xác định. sổ đo.
4.4- Kỹ thuật so khớp khối (B1)
4.4.2- Ví dụ Bài tập
VD1- Giả thiết MB 2x2 được sử dụng. Với MB:

Tương ứng các cường độ chói trong khung tham chiếu cho
như sau:

Hãy tính vector chuyển động với thực hiện tìm kiếm trong
phạm vi ±1 pixel

09/09/2021 355
4.4- Kỹ thuật so khớp khối (B1)
4.4.2- HD Bài tập
+ B1: Tính SAD cho tất cả các khả năng

+ B2: Xác định Min SAD  vector chuyển động


Min SAD= 3  vector chuyển động (0,1)

09/09/2021 356
4.5- Dự đoán ảnh (bù chuyển động) (B2)
4.5.1- Giới thiệu
• Cấu trúc GOP (Group of Picture): một GOP chứa 3 loại
ảnh/khung I/P/B,
+ I: Intra-picture (mã hóa trong)
+ P:Predicted picture (dự đoán)
+ B:Bi-directional picture (dự đoán 2 chiều)

• Thứ tự khung:
I1 BB P1 BBB P2 …

• Thứ tự mã hóa:
I1 P1 BB P2 BBB …
• Cấu trúc của một GOP được mô tả bởi hai tham số: N là số ảnh
09/09/2021trong GOP và M là khoảng cách giữa các ảnh P-pictures 357
4.5- Dự đoán ảnh (bù chuyển động) (B2)
4.5.2- Cấu trúc Video
• Thường có 5 lớp: (Cho chuẩn MPEG và H.26X)
1. GOP (Group of pictures); 2. Picture
3. Slice; 4. Marcoblock; 5. Block

09/09/2021 358
4.5- Dự đoán ảnh (bù chuyển động) (B2)
4.5.4- Ví dụ bài tập
VD 1: Chuẩn mã hóa Video MPEG 1 với tốc độ mã hóa 1,15
Mbit/s tần số quét 25 Hz với M= 4 và N= 16. Nếu khung I có
số bít gấp 4 lần khung P và khung P có số bít gấp 5 lần
khung B. Tính số bít trung bình cho mỗi macroblock (MB)
tương ứng với mỗi kiểu khung giả sử mỗi khung có 396
macroblock.

09/09/2021 360
4.5- Dự đoán ảnh (bù chuyển động) (B2)
4.5.4- HD VDBài tập
VD 1:
+ B1: Xác định cấu trúc GOP
. M=4 : là khoảng cách giữa I và P, giữa P và P
. N=16: chiều dài khung
Thứ tự các khung I, P, B trong GOP là: I BBB P BBB P BBB P BBB
Vậy một GOP có: 1 khung I, 12 khung B và 3 khung P
+ B2: Xác định số bit trong các khung I, P, B
Gọi x là số bit khung P  Số bit khung I: 4x, số bit khung B: x/5
Tốc độ mã hóa là: [(4x.1+x.3+12.x/5)/(1+12+3)].25=1,15.106
 x=78298 bit
+ B3: Tính số bít trung bình cho mỗi macroblock (mỗi kiểu khung)
Số bit trung bình của khung P trong mỗi macroblock=x/396=197,7 bit
Số bit trung bình của khung I trong mỗi macroblock=4x/396=790,8 bit
Số bit trung bình của khung B trong mỗi macroblock=x/5.396=39.5 bit361
09/09/2021
4.6- Một số chuẩn nén Video
4.6.1- Giới thiệu

09/09/2021 362
4.6- Một số chuẩn nén Video
4.6.2- Chuẩn nén MPEG/ H.26x (đọc tài liệu)

09/09/2021 363
Bài tập chương 4
Bài 1: Trình bày các khuôn dạng lấy mẫu YCbCr ? Cho một
hệ thống truyền hình chất lượng cao với số dòng z=1080,
tỷ lệ khuôn hình 16:9, tần số quét là 60 mành/giây (quét
đan xen). Tín hiệu video được số hóa với độ phân giải theo
chiều ngang và chiều dọc giống nhau. Mức lượng tử là 256
cho thành phần chói và 128 cho hai thành phần màu. Tính
khối lượng thông tin số có được sau khi thực hiện số hóa
một chương trình truyền hình có thời gian là 2 giờ với
khuôn dạng lấy mẫu : 4:2:0?

09/09/2021 364
Bài tập chương 4
Bài 2:
a) Xác định số bit trung bình cho 1 điểm ảnh (gồm cả thành
phần chói và màu). Biết rằng ảnh sử dụng chuẩn lấy mẫu
4:2:2 với 16 bit/mẫu và tỷ số nén của cả thành phần chói
và màu là 25.
b) Tính dung lượng lưu trữ nếu ảnh sử dụng chuẩn lấy
mẫu 4:2:0 độ phân giải chói 576x720, tỷ số nén cho thành
phần chói là 20 và tỷ số nén thành phần màu gấp 2 lần
chói?
c) Xác định phương thức điều chế thích hợp để truyền ảnh
trong dải băng tần 2MHz, tần số 25Hz cho ảnh được mã
hóa theo định dạng câu b?

09/09/2021 365
Bài tập chương 4
Bài 3: Dựa vào kỹ thuật so khớp (ánh xạ) khối xác định véc tơ
chuyển động MB in đậm trong hình vẽ. Biết rằng cửa số tìm
kiếm có kích thước 4x4.

09/09/2021 366
Bài tập chương 4
Bài 4: Xét chuẩn mã hóa video MPEG-1 có M=3 và N=12, tần số quét
25Hz. Nếu khung I có số bit gấp 3 lần khung P và khung P có số bit gấp
4 lần khung B. Mỗi macroblock (MB) của khung B sử dụng 50 bit. Xác
định tốc độ bit của luồng video, biết mỗi khung có 396 macroblock.

09/09/2021 367
C2- Mã hóa âm thanh
Hướng dẫn BT chương 2
Bài 6:
- Bước 1: Tính số pixel trên 1 dòng
1125x(16/9)=2000 (pixel/dòng)
- Bước 2: Tính tổng số pixel trên toàn bộ ảnh
1125x2000 (pixel/ảnh)
- Bước 3: Tính tổng số bit được tạo ra trong 1s
1125x2000x8x3x(1/(1/30) (bit/s)
- Bước 2: Tính tổng số bít được tạo ra trong 2h (7200 s)
1125x2000x8x3x(1/(1/30)x7200=1,166x1013(bit)=1,458x1012 (Byte)
=1,5 TB

09/09/2021 368

You might also like