You are on page 1of 151

TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG


 

BÀI GIẢNG
XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
Chuyên ngành Điện tử Viễn thông
(Lưu hành nội bộ )

Biên soạn: TS. Lê Nhật Thăng

Hà Nội - 7/2010
MỤC LỤC

MỤC LỤC i
LỜI NÓI ĐẦU iii
CÁC THUẬT NGỮ VIẾT TẮT iv

Chương 1: Giới thiệu chung 1


1.1. Các khái niệm và lý thuyết cơ sở 1
1.2. Vai trò của xử lý âm thanh và hình ảnh trong truyền thông đa 8
phương tiện
1.3 Kết luận chương 1 11
Hướng dẫn ôn tập chương 1 11

Chương 2: Kỹ thuật xử lý âm thanh 12


2.1. Các đặc trưng cơ bản của âm thanh 12
2.1.1. Khái niệm về âm thanh và các tham số đánh giá 12
2.1.2. Các đặc điểm của hệ thống thính giác con người 14
2.2. Mã hóa tín hiệu thoại 20
2.2.1. Quá trình tạo ra tiếng nói 20
2.2.2. Tổng quan về mã hóa tín hiệu thoại 25
2.2.3. Các phương pháp mã hóa 27
2.2.3.1. Mã hóa dạng sóng 29
2.2.3.2. Mã hóa tham số 32
2.2.3.3. Mã hóa lai 35
2.3. Mã hóa âm thanh 37
2.4. Kết luận chương 2 41
Hướng dẫn ôn tập chương 2 42

Chương 3: Kỹ thuật xử lý ảnh 43


3.1. Giới thiệu chung 43
3.1.1. Khái niệm cơ bản về ảnh và xử lý ảnh, video 43
3.1.2. Các ứng dụng phổ biến của xử lý ảnh 44
3.1.3. Các bước xử lý ảnh số 49
3.1.4. Các thành phần của hệ thống xử lý ảnh số 50
3.1.5. Đồ họa và các kiểu dữ liệu ảnh 51
3.1.6. Mầu sắc trong ảnh và video 56
3.1.7. Cơ bản về video 60
3.2. Cơ sở kỹ thuật xử lý ảnh 65
3.2.1. Cơ sở của cảm nhận thị giác 65
3.2.2. Quá trình thu tín hiệu hình ảnh 68
3.2.3. Lấy mẫu và lượng tử hóa 71
3.2.4. Xử lý ảnh trong miền không gian 78
3.2.5. Xử lý ảnh trong miền tần số 80
3.3. Kỹ thuật nén ảnh 84
3.3.1. Tổng quan về nén ảnh 84
3.3.2. Hiệu quả của quá trình nén và chất lượng ảnh 88
3.3.3 Phân loại các phương pháp nén ảnh 89
3.3.4. Các phương pháp mã hoá dùng trong kỹ thuật nén không tổn 91
thất
3.3.5. Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn 100
thất
3.4. Nén trong ảnh 105
3.5. Nén liên ảnh 114
3.6. Kết luận chương 3 118
Hướng dẫn ôn tập chương 3 119

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa 121
phương tiện
4.1. Các chuẩn mã hóa tín hiệu thoại 121
4.2. Các chuẩn mã hóa âm thanh 123
4.3. Các chuẩn nén ảnh JPEG 125
4.4. Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21 130
4.5. Các chuẩn nén Video H26x của ITU 143
4.6. Kết luận chương 4 143
Hướng dẫn ôn tập chương 4 144

TÀI LIỆU THAM KHẢO 145


LỜI NÓI ĐẦU

Trong những năm gần đây, cùng với sự tiến bộ của khoa học kỹ thuật, sự phát triển
mạnh mẽ của máy tính, thông tin di động và của Internet thì nhu cầu trao đổi các
dịch vụ truyền thông đa phương tiện trên mạng thông tin là rất lớn đặc biệt là các ứng dụng
truyền âm thanh và video thời gian thực qua mạng IP như âm nhạc theo yêu cầu, video
phone, video-conferencing, tele-medical hay video theo yêu cầu…Cho nên, vấn đề xử lý âm
thanh và hình ảnh sao cho có hiệu quả cao, đảm bảo tiết kiệm băng thông truyền dẫn, giảm
bớt không gian lưu trữ để truyền thông tin trên mạng một cách dễ dàng và nhanh chóng trở
nên cấp thiết hơn bao giờ hết.
Bài giảng “Xử lý âm thanh và hình ảnh” sẽ giới thiệu những kiến thức cơ bản về các
kỹ thuật xử lý âm thanh, hình ảnh, video và đặc biệt chú trọng đến các phương pháp nén,
lưu trữ, các tiêu chuẩn nén âm thanh, hình ảnh, video đã và đang được ứng dụng trong
truyền thông đa phương tiện nhằm đảm bảo chất lượng âm thanh, hình ảnh và tăng hiệu suất
truyền dẫn thông tin.
Nội dung của bài giảng bao gồm:

• Chương 1: Giới thiệu chung: Giới thiệu tổng quan các khái niệm và lý thuyết
cơ sở phục vụ cho môn học và vai trò của xử lý âm thanh và hình ảnh ứng
dụng trong truyền thông đa phương tiện.

• Chương 2: Kỹ thuật xử lý âm thanh: Giới thiệu các đặc trưng cơ bản của âm
thanh, phân tích các đặc điểm của cơ quan phát âm và tạo ra tiếng nói của con
người, các phương pháp mã hóa thoại, âm thanh.

• Chương 3: Kỹ thuật xử lý ảnh: Tập trung trình bày các khái niệm cơ bản về
ảnh và video; giới thiệu về kỹ thuật xử lý ảnh, nén ảnh tĩnh, nén video.

• Chương 4: Các chuẩn nén âm thanh và hình ảnh: Giới thiệu các chuẩn nén
thoại, âm thanh, các chuẩn nén ảnh JPEG và nén video MPEG, H26x.

Mặc dù đã có nhiều cố gắng, song do đây là lần biên soạn đầu tiên và còn có nhiều
hạn chế về thời gian nên bài giảng này không tránh khỏi thiếu sót. Rất mong nhận được sự
đóng góp của các đồng nghiệp, các học viên, sinh viên và bạn đọc để bài giảng này được
hoàn thiện hơn.

Những ý kiến đóng góp xin gửi về:


Bộ môn Kỹ thuật Chuyển mạch- Khoa Viễn thông 1
Học Viện Công nghệ Bưu chính Viễn thông
Địa chỉ: Km 10, đường Hà Nội – Hà Đông, Hà Đông, Hà Nội
Tel: 0433820860; 0438549352; 0904342557
Fax: 0433511405
E-mail: thangln@ptit.edu.vn

Xin trân trọng cám ơn!

Hà Nội, tháng 7 năm 2010

TS. Lê Nhật Thăng


CÁC THUẬT NGỮ VIẾT TẮT

Đường dây thuê bao số bất đối


ADSL Asymmetric Digital Subscriber Line
xứng
Adaptive Differential Pulse Code
ADPCM Điều chế xung mã vi sai thích ứng
Modulation
BRR Bit Rate Reduction Sự giảm tốc độ bit
BSC Binary Symmetric Channel Kênh nhị phân đối xứng
Context Adaptive Binary Arithmetic Mã hoá thuật toán nhị phân theo
CABAC
Coding tình huống
Thiết bị cảm biến quang điện bán
CCD Charge Coupled Device
dẫn
CIF Common Intermediate Format Khuôn dạng trung gian chung
DCT Discrete Cosine Transform Biến đổi Cosin rời rạc
DDC Double Delta Coding Mã hoá delta kép
DFT Discrete Fourier Transform Biến đổi rời rạc Fourier
DPCM Differential Pulse Code Modulation Điều chế xung mã vi sai
DSL Digital Subcriber Line Đường dây thuê bao số
Digital Subscriber Line Access
DSLAM Bộ tập trung đường dây thuê bao số
Multiplexer
DSM Digital Storage Media Phương tiện lưu trữ số
DVB Digital Video Broadcasting Quảng bá truyền hình số
DVD Digital Video Disc Đĩa ảnh số (quang)
DWT Descrete Wavelet Transform Biến đổi Wavelet rời rạc
Embedded Block Coding with Optimal Mã hóa khối nhúng với cắt giảm tối
EBCOT
Truncation ưu
EDTV Extended Definition TeleVision Truyền hình mở rộng
EOB End of Block Kết thúc khối
FIR Finite Impulse Response Đáp ứng xung hữu hạn
GIF Graphics Interchange Format Định dạng trao đổi ảnh
GOP Group of Picture Nhóm các khung ảnh
GOV Group of VOPs Nhóm các GOV
HDTV High-Definition TeleVision Truyền hình độ phân giải cao
HVS Human Vision System Hệ thống thị giác của người
Chuyển đổi màu không thuận
ICT Irreversible color transform
nghịch
IGMP Internet Group Management Protocol Giao thức quản lý nhóm Internet
IIR Infinte impulse responce Đáp ứng xung vô hạn
IPTV Internet Protocol Television Truyền hình dựa trên Internet
International Organization for
ISO Tổ chức chuẩn quốc tế
Standardization
JIF JPEG Interchange Format Định dạng trao đổi JPEG
Joint Photographic Experts Group/ Joint
JPEG/ JVT Nhóm chuyên gia ghép nối đồ họa
Video Team
KLT Karhunen – Loeve Transform Chuyển đổi Karhunen – Loeve
LZW Lempel Ziv-Wench Transform Chuyển đổi Lempel Ziv-Wench
MoD Music on Demand Âm nhạc theo yêu cầu
MPEG Moving Picture Experts Group Nhóm chuyên gia về ảnh động
Ủy ban hệ thống truyền hình quốc
NTSC National Television System Committee
gia
PAL Phase Alternating Line PAL
PCM Pulse Code Modulation Điều chế xung mã
PDF Portable Document Format Định dạng tài liệu linh động
PON Passive Optical Networks Mạng quang thụ động
QCIF Quarter Common Intermediate Format Định dạng có độ phân giải ¼ CIF
RAC Relative Address Coding Mã hóa địa chỉ tương đối
RCT Reversible Color Transform Chuyển đổi thuận nghịch
RLC/ RLE Run Length Coding/ Encoding Mã hóa độ dài chạy
RMS Root Mean Square Độ lệch trung bình bình phương
SECAM Sequential Color with Memory SECAM
SNR Signal to Noise Ratio Tỷ số tín hiệu trên nhiễu
STB Set Top Box Set Top Box
TIFF Tagged Image File Format Khuôn dạng file tiêu chuẩn
TVoD TeleVision on Demand Tivi theo yêu cầu
Very High Speed Digital Subscriber
VDSL Đường thuê bao số tốc độ rất cao
Line
VLC Variable Length Code Mã hóa độ dài thay đổi
VO Video Object Đối tượng hình ảnh
VoD Video on Demand Video theo yêu cầu
Lớp đối tượng hình ảnh chuyển
VOL Video Object Layer
động
Mặt phẳng đối tượng hình ảnh
VOP Video Object Plane
chuyển động
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Chương 1: Giới thiệu chung

1.1. Các khái niệm và lý thuyết cơ sở

1.1.1. Tín hiệu

1.1.1.1. Định nghĩa

Tín hiệu là biểu diễn vật lý của thông tin. Trong thực tế, các tín hiệu nhìn thấy là
các sóng ánh sáng mang thông tin tới mắt của con người và các tín hiệu nghe thấy là các
sự biến đổi của áp suất không khí truyền thông tin tới tai chúng ta.

Về mặt toán học, tín hiệu được biểu diễn bởi hàm của một hoặc nhiều biến số độc
lập. Ví dụ, tín hiệu âm thanh có biên độ âm biến đổi theo thời gian như ở hình vẽ dưới
đây.

Hình 1.1: Tín hiệu âm thanh


Tổng quát hơn, tín hiệu có thể biến đổi theo hai chiều: không gian/thời gian. Ví dụ
với ảnh, có màu biến đổi theo không gian hai chiều; với video, màu biến đổi theo cả
không gian và thời gian.

1.1.1.2. Tín hiệu liên tục

Nếu biến độc lập của sự biểu diễn toán học của một tín hiệu là liên tục, thì tín hiệu
đó được gọi là liên tục. Dựa theo biên độ, người ta có thể phân loại tín hiệu liên tục
thành: tín hiệu tương tự và tín hiệu lượng tử hóa.

1
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Nếu biên độ của tín hiệu liên tục là liên tục thì tín hiệu đó được gọi là tín hiệu
tương tự. Còn nếu biên độ của tín hiệu liên tục là rời rạc thì tín hiệu đó được gọi là tín
hiệu lượng tử hóa.

1.1.1.3. Tín hiệu rời rạc

Nếu tín hiệu được biểu diễn bởi hàm của các biến rời rạc thì tín hiệu đó được gọi là
tín hiệu rời rạc. Dựa theo biên độ, người ta có thể phân loại tín hiệu rời rạc thành: tín hiệu
lấy mẫu và tín hiệu số.

Nếu biên độ của tín hiệu rời rạc là liên tục (không được lượng tử hóa) thì tín hiệu
đó được gọi là tín hiệu lấy mẫu. Còn nếu biên độ của tín hiệu rời rạc là rời rạc thì tín hiệu
đó được gọi là tín hiệu số.

1.1.2. Số hóa tín hiệu tương tự

Nói chung tín hiệu tương tự thì liên tục theo thời gian và giá trị. Theo quan điểm lý
thuyết thông tin, lượng thông tin chứa trong tín hiệu tương tự là vô hạn. Rõ ràng, điều này
này tạo ra quan hệ với các tín hiệu này một nhiệm vụ khó khăn trong điều kiện dung lượng
bộ nhớ và năng lực xử lý của máy tính bị hạn chế. Mặt khác, các tín hiệu số chỉ xuất hiện
trong những khoảng thời gian nhất định và chỉ được biểu diễn bằng các giá trị biên độ rời
rạc. Sự suy giảm thông tin này là mục tiêu làm cho quá trình xử lí thêm hữu ích và trên
thực tế là những bước nén đầu tiên.

Số hóa là phương pháp giảm lượng thông tin đến mức hợp lý bằng cách lấy những
giá trị đại diện có tính toán cân nhắc kỹ. Việc này làm thành hai phần. Phần lấy mẫu theo
thời gian và lấy mẫu biên độ. Theo lý thuyết cả hai bước độc lập nhau, trong thực tế,
chúng thường được thực hiện bởi cùng phần tử xử lý là bộ chuyển đổi tương tự thành số
(ADC). Đó là sự số hóa trong giới hạn để thu được thông tin mong muốn có ích chứa trong
tín hiệu tương tự và loại bỏ thông tin dư thừa không cần thiết. Cho nên chúng ta phải biết
các thuộc tính của các tín hiệu cần thiết được số hóa để thực hiện biến đổi tín hiệu tương
tự sang tín hiệu số một cách thích hợp.

Thuộc tính chung của tín hiệu video và âm thanh bao gồm băng tần, tỉ số tín hiệu
trên nhiễu, tỉ số tín hiệu trên méo, và dải động. Độ rộng băng tần miêu tả sự thay đổi tín
hiệu tương tự khả dụng trong quãng thời gian cho trước, nó lần lượt xác định số lượng
mẫu được lấy trong một đơn vị thời gian để bảo toàn được thông tin chứa trong tín hiệu.
Thông tin về dải động và các nhân tố khác (ví dụ như nhiễu chồng lấn tín hiệu) xác định
độ chính xác biên độ của tin hiệu phải được giữ để chống lại bất kỳ tạp âm chú ý hay
không mong muốn.

Để chuyển đổi tín hiệu tương tự sang tín hiệu số, tín hiệu tương tự thường được lấy
mẫu tại những khoảng thời gian bằng nhau. Và biên độ của mỗi mẫu được lượng tử hoá

2
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

rồi được gán với một từ mã số. Vì thế tín hiệu số là một chuỗi với tốc độ bit không đổi
hình thành từ quá trình xử lí lấy mẫu với mã số nhị phân độ dài bằng nhau.

Hình 1.2 mô tả việc lấy mẫu tín hiệu. Tín hiệu vào tương tự liên tục theo thời gian
x(t) được lọc thông qua bộ lọc ngoài. Sau đó đi qua bộ lấy mẫu, bộ này là một mạch điện
lấy mẫu với tần số fs lớn hơn hai lần tần số lớn nhất của tín hiệu. Bộ lấy mẫu biến đổi tín
hiệu tương tự thành tín hiệu rời rạc theo thời gian, tín hiệu này sau đó, trong đoạn sau của
bộ chuyển đổi ADC, được lượng tử hoá và gán bởi một từ mã nhị phân. Toàn bộ quá trình
trên được minh họa trong hình 1.3.

Hình 1.2: Lấy mẫu tín hiệu tương tự

Hình 1.3: Nguyên lý cơ bản của xử lý số tín hiệu

Tín hiệu được lấy mẫu và được lượng tử hóa như trên được gọi là điều chế xung
mã PCM (Pulse Code Modulation) vì mỗi một mẫu được mã hóa độc lập với các mẫu
khác và các từ mã có chiều dài không đổi. Mỗi từ mã bao gồm nhiều bit: 8 đến 10 bít được
sử dụng cho tín hiệu video; 8 bit cho tín hiệu âm thanh ở dải tần thấp và 16 đến 20 bít
dùng cho tín hiệu âm thanh yêu cầu chất lượng cao.

3
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

1.1.3. Biến đổi Fourier

Biến đổi là công cụ khá mạnh cho việc mô hình hóa nội dung thông tin và áp dụng
cho các nguyên lý nén. Trong lĩnh vực âm thanh, một biến đổi cho phép ta thấy nội dung
thông qua phổ âm thanh. Trong lĩnh vực video (hình ảnh động), các phép biến đổi có thể
giúp ta phân tích tần số không gian trong từng bức tranh đơn lẻ; và nó có thể cũng được sử
dụng ở các chu kỳ theo chiều cao hoặc độ rộng của bức tranh.

Phân tích Fourier dựa trên việc bất kỳ một dạng sóng tín hiệu tuần hoàn nào đều có
thể được tái cấu trúc thành một số các tín hiệu hình sin có biện độ và pha thay đổi và có
quan hệ điều hòa với nhau.

Biến đổi Fourier là một công cụ mạnh và được ứng dụng khá nhiều trong xử lý âm
thanh và hình ảnh. Lưu ý rằng, các tín hiệu âm thanh và video hiếm khi là tổ hợp của các
tín hiệu có tính chu kỳ nên chúng ta cần xác định rõ cửa sổ thời gian hoặc không gian mà
chúng ta sẽ áp dụng khi biến đổi.

1.1.3.1. Biến đổi Fourier thuận


Nếu dãy x(n) thoả mãn điều kiện:

∑ x( n)
n = −∞
< ∞
(1.1)

thì sẽ tồn tại phép biến đổi Fourier như sau:


X (e jω ) = ∑ x ( n) e
n = −∞
− jω .n
(1.2)

Biến đổi Fourier đã chuyển dãy số x(n) thành hàm phức X(ejω), (1.2) là biểu thức
biến đổi Fourier thuận và được ký hiệu như sau:
FT [ x(n)] = X (e j∞ ) (1.3)

hay: FT
x(n) → X (e j ∞ ) (1.4)

(FT là chữ viết tắt của thuật ngữ tiếng Anh Fourier Transform).
Ký hiệu X(ejω) để phân biệt phép biến đổi Fourier của dãy số x(n)
FT [ x(n)] = X (e j∞ ) với phép biến đổi Fourier của hàm liên tục x(t) :
• ∞
FT [ x(t )] = X (ω ) = ∫ x(t ).e
− jωt
dt
(1.5)
−∞

4
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Biểu thức biến đổi Fourier của dãy số x(n) (1.2) là suất phát từ biểu thức biến đổi
Fourier của hàm liên tục x(t), vì khi hàm dưới dấu tích phân là dãy rời rạc thì phải thay
dấu tích phân bằng dấu tổng.
Do tính chất tuần hoàn của hàm mũ ejω, nên X(ejω) là hàm tuần hoàn của biến ω
với chu kỳ 2π :
∞ ∞
X (e j (ω + k .2π ) ) = ∑ x ( n) e
n = −∞
− j (ω + k .2π ).n
= ∑ x ( n) e
n = −∞
− jω .n
= X (e jω )

Điều đó có nghĩa là chỉ cần nghiên cứu hàm tần số X(ejω) của các dãy rời rạc x(n)
với ω ∈ (-π , π ) hoặc ω ∈ ( 0 , 2π ).
Sử dụng biến đổi Fourier cho phép nghiên cứu phổ của tín hiệu số và đặc tính tần
số của hệ xử lý số. Nếu x(n) là tín hiệu số thì FT[ x(n)] = X (e j∞ ) là phổ của tín hiệu x(n),
còn với h(n) là đặc tính xung của hệ xử lý số thì FT[h(n)] = H (e j∞ ) là đặc tính tần số của
hệ xử lý số.

1.1.3.2. Biến đổi Fourier ngược


Biến đổi Fourier ngược cho phép tìm dãy x(n) từ hàm ảnh X(ejω). Để tìm biểu thức
của phép biến đổi Fourier ngược, xuất phát từ biểu thức Fourier thuận (1.2):

X (e jω ) = ∑ x ( n) e
n = −∞
− jω .n
(1.6)

Nhân cả hai vế của (1.6) với ejω.m rồi lấy tích phân trong khoảng (-π , π ) , nhận
được:
π π ∞ ∞ π

∫π X (e ∫π ∑ x(n).e ∑ x(n) ∫ .e ω
jω jω .m − jω .n jω .m j .( m − n )
).e dω = .e dω = dω
− − n = −∞ n = −∞ −π

 2π
π
khi m = n
Vì : ∫π e
jω ( m − n )
dω = 
−  0 khi m ≠ n
π
Nên : ∫π X (e ).e jωn dω = 2π .x(n)

Từ đó suy ra biểu thức của phép biến đổi Fourier ngược:


π
1
x ( n) = ∫π X (e ).e jω .n dω

2π (1.7)

Phép biến đổi Fourier ngược được ký hiệu như sau:


IFT [ X (e jω )] = x(n) (1.8)

5
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Hay :
IFT
X (e jω ) 
→ x(n) (1.9)

(IFT là chữ viết tắt của thuật ngữ tiếng Anh Inverse Fourier Transform).
Biểu thức biến đổi Fourier thuận (1.6) và biểu thức biến đổi Fourier ngược (1.7) hợp
thành cặp biến đổi Fourier của dãy số x(n).

1.1.4. Biến đổi Cosin rời rạc

Phép biến đổi được xem là tốt nhất cho nén ảnh là phép biến đổi cosin rời rạc
(DCT). DCT là một trường hợp đặc biệt của biến đổi Fourier.

Biến đổi DCT là một công đoạn chính trong các phương pháp nén sử dụng biến
đổi. Hai công thức ở đây minh hoạ cho 2 phép biến đổi DCT thuận nghịch đối với mỗi
khối ảnh có kích thước 8 x 8. Giá trị x(n1, n2) biểu diễn các mức xám của ảnh trong miền
không gian, X(k1, k2) là các hệ số sau biến đổi DCT trong miền tần số.
(1.10)

(1.11)

với

1.1.5. Biến đổi Wavelet

Biến đổi Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không
ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian.
Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet rồi
thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau trong miền thời gian tại các
tần số khác nhau. Cách tiếp cận như vậy còn được gọi là: phân tích đa phân giải – MRA
(Multi Resolution Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân
giải khác nhau. MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải
tần số kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số

6
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

thấp. Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao
xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng
thời gian dài chẳng hạn như ảnh và khung ảnh video.
1.1.5.1. Biến đổi Wavelet liên tục
Bằng cách lấy thang tỉ lệ (scaling) và dịch chuyển một hàm thời gian ψ(t) gọi
wavelet mẹ hay wavelet cơ sở, ta được một họ wavelet:

(1.12)

trong đó a là thông số thang tỉ lệ chỉ sự co giãn của wavelet, b là thông số dịch chuyển
chỉ vị trí thời gian của wavelet. Dạng sóng tổng quát của các wavelet trong cùng họ được
bảo toàn trong mọi co giãn và tịnh tiến.

Biến đổi wavelet liên tục (CWT) của một hàm thời gian (tín hiệu) x(t) được định
nghĩa như sau:

(1.13)

trong đó * chỉ liên hiệp phức, 〈⋅〉 chỉ tích nội. Biến đổi wavelet Wx(a,b) diễn tả sự tương
quan giữa tín hiệu x(t) và wavelet ψa,b(t). Biến đổi thuận ở trên là phân tích, ngược lại là
tổng hợp để phục hồi tín hiệu thời gian.

1.1.5.2. Biến đổi Wavelet rời rạc

Biến đổi wavelet liên tục chứa nhiều trùng lắp và đòi hỏi tính toán công phu nên ít
được dùng. Cả hai trở ngại trên được giải quyết đồng thời bằng cách rời rạc hóa thông số
a, b:
(1.14)
trong đó m, n là số nguyên. Họ wavelet ở (1.12) trở thành:

(1.15)

Thông dụng nhất là rời rạc hóa dạng bát phân (octave) hay lũy thừa của 2 (dyadic) với
a0=2, b0 = 1, kết quả:

(1.16)

Với sự chọn lựa thông số a, b như trên ta có biến đổi wavelet rời rạc (DWT) có các hệ số
wavelet là:

7
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

(1.17)

Việc tổng hợp sẽ cho lại tín hiệu thời gian:


(1.18)

1.2. Vai trò của xử lý âm thanh và hình ảnh trong truyền thông đa phương tiện

Truy cập thông tin đa phương tiện khắp mọi nơi bây giờ là động lực chính cho việc
thiết kế những mạng máy tính và mạng truyền thông thế hệ mới. Hơn nữa, các sản phẩm
đang được phát triển để mở rộng khả năng tại tất cả các kết nối mạng hiện có để hỗ trợ lưu
lượng truyền thông đa phương tiện. Đây là một sự chuyển dịch từ mạng điện thoại tương
tự phát triển bởi Bell System đến mạng chuyển mạch gói dữ liệu – cơ sở của mạng
Internet đến mạng truyền thông hợp nhất hỗ trợ người dùng ở khắp mọi nơi.
Đa phương tiện là sản phẩm của quá trình kết hợp dữ liệu, thoại, đồ họa, âm thanh,
hình ảnh và video theo một cách thức nhất định để phục vụ nhu cầu truyền thông của con
người. Truyền thông đa phương tiện liên quan đến việc truyền thông tin đa phương tiện
qua mạng truyền thông.

Ngày nay, các công nghệ truyền thông hiện đại đã trở thành một phần không thể
thiếu trong giao tiếp hằng ngày của chúng ta. Nó đã làm thay đổi nhanh chóng cách sống
của chúng ta, cách tiếp nhận sự giáo dục, cách làm việc và là phần cơ bản tất yếu giúp
thực hiện nhiệm vụ một cách suôn sẻ trong xã hội đương thời cũng như cuộc sống cá nhân
của mỗi con người. Sự lớn mạnh một cách nhanh chóng trong kỹ thuật truyền thông của
chúng ta là một cuộc cách mạng đã làm thay đổi xã hội chỉ trong một thời gian ngắn cuối
thế kỷ 20, đặc biệt là trong hai thập kỷ cuối.

Trong những tiến bộ của cuộc cách mạng truyền thông gần đây, chúng ta thấy có
bốn phát triển kỹ thuật đã làm thay đổi toàn cảnh trong lĩnh vực viễn thông. Đầu tiên là sự
tăng nhanh của tốc độ trao đổi thông tin, với sự đột phá của công nghệ cáp quang, việc
truyền thông tin đã được nâng lên từ khoảng 100Mbps cho một sợi quang bắt đầu từ năm
1980 cho đến bây giờ là 400Gbps. Dung lượng sợi quang đến 4000 lần chỉ trong vòng 20
năm qua.

Thứ 2 là, sự có mặt khắp nơi của các mạng chuyển mạch gói bởi sự phổ biến một
cách nhanh chóng của Internet và các trang Web. Sự ra đời và phát triển của Internet và
Web đã tạo ra một nền tảng chung cho chúng ta chia sẻ nhiều loại thông tin một cách
nhanh chóng trong nhiều mối quan hệ theo nhiều cách khác nhau. So sánh với các mạng
chuyển mạch kênh truyền thống thì các mạng chuyển mạch gói có chi phí hiệu quả hơn và
có năng lực xử lý và phục vụ tốt hơn. Hơn nữa, việc bổ sung thêm nhiều dịch vụ mới và
những ứng dụng mới dễ dàng và linh hoạt hơn so với mạng chuyển mạch kênh.

8
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Thứ 3 là sự phát triển của truyền thông không dây. Hơn hai thập niên trước đây, tất
cả mọi người đều biết rất ít về truyền thông cá nhân không dây, nhưng ngày nay nó đã
được đón nhận nồng nhiệt bởi cả cộng đồng và công việc kinh doanh của nó đang lớn
mạnh từng ngày ở khắp mọi nơi. Công nghệ truyền thông không dây đã phát triển từ
những hệ thống tương tự đầu tiên (1G) cho đến thế hệ thứ hai (2G) là hệ thống kĩ thuật số,
và nó hiện đang tiếp tục tiến triển đến thế hệ thứ 3 (3G), thứ 4 (4G) mà ở đó có sự tối ưu
cho cả các dịch vụ truyền thông thoại, dữ liệu, ảnh và video hợp nhất.

Thứ 4 là nhu cầu phát triển truy nhập băng thông rộng qua các kết nối như đường
dây thuê bao số DSL (Digital Subscriber Line) hoặc cáp tới mạng Internet là rất
lớn…Chính sự phát triển này cho thấy trước được truyền thông trong tương lai gần sẽ tiến
tới các mạng chuyển mạch gói dung lượng cao, tốc độ truyền tải lớn với truy nhập băng
rộng không dây vào bất kỳ lúc nào và ở bất kỳ đâu.

Theo các nhà nghiên cứu, truyền thông đa phương tiện bao gồm rất nhiều chủ đề:
• Xử lý đa phương tiện và mã hóa: bao gồm phân tích nội dung đa phương tiện,
tìm kiếm đa phương tiện dựa trên nội dung, an ninh đa phương tiện, xử lý âm
thanh, hình ảnh và video, nén ...
• Đa phương tiện hỗ trợ và hệ thống mạng: bao gồm các giao thức mạng, Internet,
các hệ điều hành, máy chủ và khách, chất lượng dịch vụ (QoS), và cơ sở dữ liệu.
• Các công cụ đa phương tiện, hệ thống đầu cuối, và các ứng dụng. Chúng bao
gồm hệ thống siêu đa phương tiện (hypermedia), giao diện người dùng, hệ thống
phân quyền, tương tác đa phương thức, và tích hợp: có mặt khắp nơi "ubiquity" -
thiết bị duyệt Web ở khắp mọi nơi, giáo dục đa phương tiện, bao gồm cả máy tính
hỗ trợ dạy học và thiết kế, và các ứng dụng của môi trường ảo.

Từ đây chúng ta có thể thấy rằng xử lý âm thanh, hình ảnh và video mà đặc biệt là
các kỹ thuật nén âm thanh, thoại, hình ảnh và video là một trong những nội dung nghiên
cứu của truyền thông đa phương tiện, hỗ trợ đắc lực cho việc truyền tải cũng như lưu trữ
các nội dung đa phương tiện một cách có hiệu quả nhất.
Ví dụ như một tín hiệu âm thanh chất lượng cao cần xấp xỉ 1.5 Mbps hay một tín
hiệu video màu độ phân giải thấp chất lượng TV chứa 30 khung hình/giây, với mỗi khung
hình chứa 640x480 điểm ảnh (24 bit cho mỗi điểm ảnh màu) cần hơn 210 Megabit/giây
cho lưu trữ. Do đó, một giờ phim màu số hóa cần xấp xỉ 95 Gigabyte để lưu trữ. Với tín
hiệu video có độ phân giải cao – HDTV (High-Definition Television) có độ phân giải
1280x720 với 60 khung hình/giây thì đòi hỏi lưu trữ càng nhiều hơn nữa. Một giờ phim
màu số hóa của tín hiệu video HDTV sẽ cần khoảng 560 Gigabyte lưu trữ. Hình chụp X-
quang số hóa kích thước 14x17 inch2 chiếm gần 45 Megabyte lưu trữ.

9
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

Hơn thế nữa, việc truyền những tín hiệu đa phương tiện có yêu cầu băng thông rất
lớn qua những kênh truyền thông với băng thông giới hạn là một thách thức lớn và đôi
khi không thể truyền được ở dạng thô của những tín hiệu đó. Mặc dù giá thành lưu trữ đã
giảm đáng kể qua thập niên vừa rồi, nhưng nhu cầu của những ứng dụng lưu trữ và xử lý
dữ liệu đang phát triển bùng nổ vượt qua tiến bộ này. Hầu hết những tín hiệu như ảnh,
video, và âm thanh thường chứa nhiều thông tin dư thừa trong biểu diễn của chúng. Nén
dữ liệu nói chung cũng như nén âm thanh, thoại, hình ảnh và video là giảm dư thừa trong
biểu diễn dữ liệu để giảm đòi hỏi lưu trữ dữ liệu và do đó giảm chi phí truyền thông.

Những lợi ích và ứng dụng của nén dữ liệu được liệt kê dưới đây:
• Giảm không gian lưu trữ dữ liệu.
• Giảm chi phí khi truyền khối lượng lớn dữ liệu trên đường dài qua việc tối
ưu băng thông đường truyền có sẵn.
• Tăng chất lượng hiển thị qua kênh truyền có băng thông giới hạn. Do đó,
người dùng có thể thưởng thức những tín hiệu nghe nhìn chất lượng cao. Ví
dụ: kênh TV 6 MHz có thể mang tín hiệu HDTV với chất lượng âm thanh,
hình ảnh tốt hơn ở tốc độ cao hơn và độ phân giải cao hơn mà không cần
thêm băng thông đường truyền.
• Vì việc giảm tốc độ dữ liệu bởi việc nén, mạng máy tính và Internet đang
ngày càng trở nên thân thiện hơn về âm thanh và đồ họa, hơn là chỉ tập
trung vào dữ liệu và văn bản như trước đây.
• Tăng cường bảo mật dữ liệu nhờ mã hóa và truyền dữ liệu phân tán từ
những tập tin cơ sở dữ liệu đã nén nhằm ngăn việc truy xuất những thông
tin đã được sở hữu.
• Tăng đáng kể tốc độ tính toán nhập-xuất trong thiết bị nhờ biểu diễn dữ liệu
ngắn hơn.
• Giảm chi phí sao lưu và khôi phục dữ liệu nhờ lưu trữ bản sao của những
tập tin cơ sở dữ liệu ở dạng nén.
• Những lợi ích này sẽ cho phép nhiều ứng dụng đa phương tiện hơn với giá
thành giảm và do đó hướng tới nhiều người dùng hơn trong một tương lai
gần.

Tóm lại, nén dữ liệu đã tạo ra nhiều cơ hội cho những ứng dụng sáng tạo như thư
viện số, lưu trữ số, hội nghị truyền hình từ xa, giải trí số…

Hiện tại, có rất nhiều các chuẩn nén âm thanh, thoại, hình ảnh và video đang được
sử dụng phổ biến trong truyền thông đa phương tiện như: G711, G729; JPEG; MPEG;
H264…

10
Xử lý âm thanh và hình ảnh Chương 1: Giới thiệu chung

1.3. Kết luận chương 1

Chương 1 đã giới thiệu những khái niệm cơ bản liên quan đến âm thanh, hình ảnh
và video, trình bày về xu hướng phát triển của viễn thông: các nhu cầu về dịch vụ băng
thông rộng, tốc độ cao và các hạn chế của công nghệ truyền dẫn, chuyển mạch liên quan
để thấy được vai trò của xử lý âm thanh, thoại, hình ảnh và video trong truyền thông đa
phương tiện.

Hướng dẫn ôn tập chương 1

1. Phân biệt các loại tín hiệu (liên tục, rời rạc).
2. Quá trình số hóa tín hiệu tương tự.
3. Ý nghĩa của các biến đổi Fourier, DCT và Wavelet.
4. Những lợi ích và ứng dụng của nén dữ liệu trong truyền thông đa phương tiện.
5. Một tín hiệu hình Sin có biên độ 5V cần được biến đổi thành dạng số sao cho nhận
được tỷ số tín hiệu trên tạp âm lượng tử hóa không thấp hơn 25 dB. Yêu cầu cần bao
nhiêu bước lượng tử hóa như nhau và cần có bao nhiêu bít để mã hóa mỗi thành phần rời
rạc.
6. Giả sử một tín hiệu có phân bố đều (uniform), được lượng tử đều 256 mức, có tỷ số
S/N là 18dB. Nếu muốn tăng tỷ số S/N của tín hiệu thành 30dB thì số mức lượng tử sẽ
phải là bao nhiêu?

11
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Chương 2: Kỹ thuật xử lý âm thanh

2.1. Các đặc trưng cơ bản của âm thanh


2.1.1. Khái niệm về âm thanh và các tham số đánh giá

Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.

Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của
các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói
là truyền thông tin từ não người nói sang não người nghe. Có thể xem như tiếng nói
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.

Âm thanh có các tham số đánh giá đặc trưng sau đây:


1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn
thì âm thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là
Hz).
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến
khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay
âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được
các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể
nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không
khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều
trong các thiết bị máy móc hiện nay.
Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm
thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong
không khí = 340m/s). Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến
0.017m.
Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm
phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn.
Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ

12
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con
người thường có dải tần số từ 300Hz đến 3400Hz.
2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan
đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một
điểm gọi là thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động
lên một diện tích 1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta
thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.

3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian
một giây. Công suất âm thanh P có thể tính bằng biểu thức:

P = p.S.v (2.1)
Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S
là diện tích. Công suất âm thanh tính theo đơn vị oát (W).
Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải
phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W.
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị
diện tích là 1cm2.

I = P/S = p.v (2.2)


Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suất của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt
là dB). Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm
lượng của âm và trọng âm của từ.
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên
các nguyên âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối
lập âm a dài (trong "tang") và âm a ngắn (trong "tăng").
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định
bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm
thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ
dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với
từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi.
13
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể
dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra
âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động
(non - sonants hoặc bruyants).

Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự
hiện diện của âm thanh đối với người nghe. Chúng bao gồm: (1) Tái tạo lại âm nhạc với
độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio
compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại
(synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người.

Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm:
Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng
(enhancement) và hồi phục tiếng nói (restoration).

Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin
di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén
cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử
dụng tài nguyên hệ thống có hiệu quả hơn. Một ví dụ khác nữa là lưu trữ thoại số (các
máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu
nhiều bản tin dài hơn.

Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra
tiếng nói và đặc trưng hệ thống thính giác con người.

2.1.2. Các đặc điểm của hệ thống thính giác con người

2.1.2.1. Cấu trúc tai người

Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp.
Hình 2.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai
phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính
0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm
thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an
toàn ở trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ
(tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào
màng nhĩ và làm cho nó rung động.
Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của
màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung
động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ
có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu
được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông

14
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp
có nghĩa là ốc sên (snail) – hình 2.2.

Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng,
chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường,
trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở
kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số
nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính
kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong
không khí. Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị
phản xạ trở lại tại giao tiếp không khí/chất lỏng.

Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng
lượng sóng âm đi vào dung dịch chất lỏng của tai trong. Chẳng hạn, cá không có trống tai
hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí. Phần lớn
những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai
(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm
thành vào trong dung dịch chất lỏng. Màng nhĩ có diện tích khoảng chừng 60 mm2, trong
khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho
diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15
lần.
Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng
12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai
(cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về
phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum
analyzer). Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái
cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như
vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều
này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt.
Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường
dẫn âm tới bộ não.

Hình 2.1: Sơ đồ chức năng của tai người


15
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

1. Ống tai 2. Trống tai 3-5. Xương 6. Cửa sổ 7. Ống 8. Ốc tai 9. Thần
tai giữa oval thông kinh âm
xuống mũi thanh

Hình 2.2: Cấu tạo của tai người

2.1.2.2. Sự cảm thụ của tai người đối với âm thanh

Tai người rất nhạy cảm âm thanh. Chúng ta có thể nghe những sóng âm kéo dài
chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại. Mắt người không cảm nhận được
những thay đổi về mức độ ánh sáng trong một vài ms. Kết quả là trong quá trình truyền
thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng
âm thanh lớn hơn hình ảnh.

1. Ngưỡng nghe
Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được
đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện
được. Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây. Ngưỡng này là một hàm
của tần số âm thanh. Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới
mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất
trong phạm vi tần số từ 2 – 4KHz.

16
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.3: Ngưỡng nghe

2. Mặt nạ tần số (frequency masking)


Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che
khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này là
gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”
qua các thành phần bên cạnh. Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần
bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được. Kết quả là có một
thành phần – thành phần che khuất làm dịch ngưỡng nghe. Hình 2.4 minh họa hiện tượng
này.

Hình 2.4: Mặt nạ tần số

17
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

3. Mặt nạ thời gian


Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong
miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm
thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi
tăng âm lượng có thể bị che khuất. Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển
hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau.

Hình 2.5: Mặt nạ thời gian


4. Các dải băng tần tới hạn

Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng
tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được
các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là
khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz.
Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng
thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây.
Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải
tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6). Nói cách khác, hệ thống
thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn
nhau, trong dải tần từ 0 đến 20kHz. Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm
thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới
hạn thay vì chỉ nằm trong một dải tần. Trong thực tế, tai người không có khả năng biết
phân biệt trong cùng một dải tần tới hạn do sự che tần số.

Tần số giới hạn Tần số Tần số giới hạn


Độ rộng
Dải tần # dưới trung tâm trên
băng tần (Hz)
(Hz) (Hz) (Hz)
1 - 50 100 -
2 100 150 200 100
3 200 250 300 100
4 300 350 400 100

18
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

5 400 450 510 110


6 510 570 630 120
7 630 700 770 140
8 770 840 920 150
9 920 1000 1080 160
10 1080 1170 1270 190
11 1270 1370 1480 210
12 1480 1600 1720 240
13 1720 1850 2000 280
14 2000 2150 2320 320
15 2320 2500 2700 380
16 2700 2900 3150 450
17 3150 3400 3700 550
18 3700 4000 4400 700
19 4400 4800 5300 900
20 5300 5800 6400 1100
21 6400 7000 7700 1300
22 7700 8500 9500 1800
23 9500 10500 12000 2500
24 12000 13500 15500 3500
25 15500 18775 22050 6550

Bảng 2.1: Các băng tần tới hạn và độ rộng băng tần

Hình 2.6: Hệ thống các bộ lọc thông dải

Một đơn vị mới được gọi là Bark, theo tên của Heinrich Barkhausen (1881-1956),
một nhà khoa học về âm thanh. Một đơn vị Bark tương ứng với độ rộng của một dải tần
tới hạn, với bất kỳ tần số che chắn nào.
Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị
Bark như sau:

(2.3)3)

19
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz.

Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các
dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ
biến nhất trong các chuẩn nén âm thanh MPEG.

2.2. Mã hóa tín hiệu thoại

2.2.1. Quá trình tạo ra tiếng nói


Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc
biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ
có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như
ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở
tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết.
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm
thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người,
có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện
thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là
phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ
nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ,
điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao
tiếp nhanh chóng.
Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có
điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại.

Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ
bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật
ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ
thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm
thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để
hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi.

Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với
nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi.
Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống
họng để hình thành nên các âm thoại giọng mũi.
Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục
theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian.

20
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số
được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này

Hình 2.7: Bộ phận phát âm của con người

Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra
tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây
thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người
có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh.

Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra
được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở.

Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một
chu kỳ nhất định T0 tạo ra các nguyên âm.

Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua
tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra
các phụ âm xát - rít.

Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng
hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần

21
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông
qua sự chuyển động của lưỡi.
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn
thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số
được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có
nhiều formant:
• F1: ứng với cộng hưởng vùng yết hầu
• F2: ứng với cộng hưởng khoang miệng

Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4,
F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi,
hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình
dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng.
Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng
tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm.

Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây
thanh âm. Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào
phương thức kích thích.

• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở
hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi
tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị
kích thích. Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp
của âm thanh (pitch). Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ
căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên
chúng từ phổi. -> nguyên âm. Các âm hữu thanh thường có tính chu kỳ cao, điển
hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8. của một đoạn âm
hữu thanh lấy mẫu tại tần số 8KHz. Hàm mật độ phổ công suất – PSD (Power
Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9.

• Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ
việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây
thanh âm ở trạng thái mở. Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó
có thể ở dạng tạp âm, nhiễu… Tính chu kỳ của những âm vô thanh cũng được thể
hiện ở các hình vẽ 2.10 và 2.11.

• Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống
họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột.-
> phụ âm.

22
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.8: Một đoạn điển hình của các âm hữu thanh

Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh

23
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.10: Một đoạn điển hình của các âm vô thanh

Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh

Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói
trên, tuy nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát)
được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng
được hình thành.

Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát
và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:

24
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Bảng 2.1: Các loại phụ âm trong tiếng Việt

Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống
họng và phương thức kích thích lên nó thay đổi tương đối chậm. Do vậy, thoại - tiếng nói
có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn
(khoảng chừng 20ms). Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các
tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các
dây thanh âm và do những sự cộng hưởng âm trong cuống họng. Các bộ mã hóa thoại
đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc
độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại.

2.2.2. Tổng quan về mã hóa tín hiệu thoại

Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan
trọng của những nhà vận hành hệ thống điện thoại ngày ngày. Sự mã hóa tiếng nói bây
giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa,
truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ.
Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói.
Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói
được xây dựng lại tại phía thu. Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc
độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s).

Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại
tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu
rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá
(nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã
hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh.
25
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền
dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống
hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến
theo một vài cách nào đó (nén có tổn thất).

Nguồn Bộ lọc Bộ lấy Bộ biến Bộ mã Bộ mã


thoại mẫu đổi A/D hóa nguồn
hóa kênh

Kênh
truyền

Bộ giải Bộ giải Bộ biến Bộ lọc Thoại


mã kênh mã nguồn đổi D/A đầu ra

Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại

Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những
ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý
Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để
tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói. Nếu sử
dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.

Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc
truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật
điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi
tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi
thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng
trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử
dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di
động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác-
dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường
thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền
thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.

Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích
ứng (ADPCM) theo chuẩn G.726 ITU-T. ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa
(tạo ra băng thông 32 Kbit/s). Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên

26
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

độ xung lấy mẫu mà là mã hóa sự khác nhau giữa biên độ các xung, cũng như tốc độ thay
đổi các biên độ đó sử dụng phương pháp dự đoán tuyến tính trước.

Vấn đề đặt ra là giảm băng thông hơn nữa mà vẫn đảm bảo chất lượng dịch vụ để
phù hợp với mạng VoIP, từ đó xuất hiện một số kỹ thuật mã hóa và nén tín hiệu thoại tốc
độ thấp cụ thể như trong GSM: G.723.1, G.729. PCM và ADPCM đều là kỹ thuật mã hóa
theo dạng sóng. Kỹ thuật nén mới (mã hóa nguồn) được phát triển cách đây 10 đến 15
năm dựa vào sự nhận biết các đặc tính nguồn của tín hiệu thoại phát ra. Kỹ thuật này sử
dụng thủ tục xử lý tín hiệu và nén thoại bằng việc chỉ gửi đi thông tin ở dạng các tham số
đã được đơn giản hóa về việc kích thích tín hiệu nguồn dạng của giọng nói do vậy đòi hỏi
ít băng thông hơn.

2.2.3. Các phương pháp mã hóa tín hiệu thoại

Nhiệm vụ phân loại các bộ mã hóa thoại hiện đại là không đơn giản và thường
không rõ ràng do sự phân chia thiếu rõ rệt giữa các cách tiếp cận khác nhau. Mục này
giới thiệu một số tiêu chuẩn phân loại hiện có. Lưu ý rằng đây là lĩnh vực tiến triển liên
tục và nhiều loại bộ mã hóa mới sẽ được tạo ra khi có những công nghệ thay thế được
giới thiệu.

Phân loại theo tốc độ

Tất cả các bộ mã hóa được thiết kế để giảm tốc độ bit từ 64-128 Kbps xuống các giá
trị thấp hơn. Căn cứ theo tốc độ của luồng bit được mã hóa, việc phân loại các bộ mã hóa
thoại theo bảng 2.2 dưới đây.

Phân loại Phạm vi tốc độ

Tốc độ cao >15 Kbps


Tốc độ trung bình 5 – 15 Kbps
Tốc độ thấp 2 – 5 Kbps
Tốc độ rất thấp <2 Kbps

Bảng 2.2: Phân loại các bộ mã hóa thoại theo tốc độ

Môt bộ mã hóa thoại được cho là làm việc tốt tại một tốc độ bit nhất định (tùy theo
phương pháp mã hóa) nhưng chất lượng của bộ giải mã thoại sẽ bị ảnh suy giảm nhanh nếu
nó giảm xuống quá mức dưới mức độ giới hạn cho phép. Tốc độ bit thấp nhất mà các bộ
mã hóa thoại có thể đạt được bị giới hạn bởi nội dung thông tin của tín hiệu thoại. Các bộ
mã hóa hiện tại có thể hoạt động với chất lượng tốt ở tốc độ 2 Kbps hay cao hơn, đây cũng
là những cơ hội mới cho những nghiên cứu cải tiến trong tương lai.

27
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Phân loại theo kỹ thuật mã hóa

a. Mã hóa dạng sóng

Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của
các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại
nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng
nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá
thành tín hiệu số trước khi phát đi. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để
khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi
phục được sẽ rất giống với dạng sóng của tiếng nói gốc.

Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất
lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng
sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỷ số tín hiệu trên nhiễu – SNR
(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa
dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM.

b. Mã hóa tham số

Mã hóa tham số (parametric coding) hay còn gọi là Vocoder. Ở đây, các tín hiệu
thoại được giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ
quan phát âm của con người), mô hình này được điều khiển bởi một vài tham số chức
năng. Trong quá trình mã hóa, những tham số của mô hình được suy ra (ước đoán) từ tín
hiệu thoại đầu vào. Kiểu mã hóa này không bảo toàn hình dạng sóng ban đầu của tín hiệu
nên không thể dùng tỷ số tín hiệu trên nhiễu SNR để đánh giá. Chất lượng nhận thức (cảm
nhận) của tín hiệu thoại sau khi giải mã liên quan trực tiếp đến độ chính xác của mô hình.
Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối với các tín hiệu không phải là tín
hiệu thoại.

Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình
dự đoán tuyến tính. Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được
thực hiện bằng việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được
xây dựng dựa trên thủ tục phân tích dự đoán tuyến tính.

Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển
hình của các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction
Coding) và bộ mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation
Linear Prediction).

c. Mã hóa lai

28
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Mã hóa lai (hybrid coding) hay còn gọi là mã hóa tổng hợp là sự kết hợp của hai
loại mã hóa nói trên. Giống như mã hóa tham số, mã hóa lai dựa vào một mô hình tạo ra
tiếng nói và trong quá trình mã hóa, các tham số của mô hình sẽ được xác định. Thêm
vào đó, các tham số của mô hình được tối ưu theo cách mà tín hiệu thoại được giải mã
gần giống nhất có thể được với dạng sóng tín hiệu ban đầu.

Các bộ mã hóa lai được dùng chủ yếu cho tốc độ bit ở mức trung bình với chất
lượng khá tốt với thuật toán dự đoán tuyến tính kích thích mã – CELP (Code-Excited
Linear Prediction).

Hình vẽ 2.13 dưới đây minh họa chất lượng thoại của cả ba loại bộ mã hóa phổ
biến thay đổi theo tốc độ mã hóa như thế nào.

Hình 2.13: Chất lượng thoại so với tốc độ bit của các loại bộ mã hóa

2.2.3.1. Mã hóa dạng sóng

Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số, phương pháp
này khai thác các đặc tính của dạng sóng tín hiệu nguồn (hình bao phổ/hài/độ cao thấp
của âm) thông qua các phương pháp tương quan ngắn hạn, ví dụ như: bằng phương pháp
dự đoán tuyến tính – cố gắng dự đoán các mẫu dạng sóng từ giá trị của các mẫu trước đó.
Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín
hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân
tích trong miền thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi
dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do đó nó không có
nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế

29
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất
lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng
sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con
người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng
xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu.
Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương
đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn
giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa
sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng
trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức
tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM
có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).
a. Mã hóa 64 Kbít PCM (ITU G. 711)
Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất.
Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng
tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa
cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm
xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.

Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã
hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt
được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại
bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thế kỷ 20.

Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ, trong khi đó ở Châu Âu, mã hóa
theo luật A được áp dụng. Do tính đơn giản, chất lượng thoại đảm bảo và độ trễ thấp, cả
hai loại mã hóa PCM này vẫn được sử dụng rộng rãi cho đến ngày nay.

Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị
của mẫu tiếp theo từ những mẫu trước đó. Điều này có thể khả thi bởi có sự tương quan
hiện tại giữa những mẫu thoại dưới tác dụng của cơ quan phát âm và sự rung động của
dây thanh âm như đã được giới thiệu ở 2.2.1.

Nếu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và
những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên
gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng
bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung
mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác
biệt giữa những tín hiệu gốc và tín hiệu dự đoán.

30
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Kết quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ
lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại
được mã hoá. Điều này dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM
(Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã
chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương
đương với phương pháp điều chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt
động ở các tốc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải
mã ADPCM được minh họa ở hình 2.14 dưới đây.

Hình 2.14: Bộ mã hóa và giải mã ADPCM

b. Mã hóa ADPCM (ITUG.721, G.726, G.727)

Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng
thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử
hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự đoán.

Nếu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán
sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được
lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu
thoại gốc.

Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu
dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện
thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ
lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.

31
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Vào giữa những năm 1980, CCITT đã chuẩn hoá ADPCM 32Kbps được biết đến
với cái tên G721, cho phép khôi phục thoại tốt như phương pháp PCM 64 Kbps. Các
khuyến nghị sau đó: các bộ mã hóa G726 và G727 hoạt động ở các tốc độ 40, 32, 24 và
16 Kbps cũng đã được chuẩn hoá.

Các bộ mã hóa dạng sóng được mô tả ở trên đều mã hóa thoại hoàn toàn trong
miền thời gian. Tuy nhiên, các tiếp cận theo miền tần số cũng có thể thực hiện được và có
một số ưu điểm. Ví dụ như ở trong mã hóa băng con - SBC (Sub – Band Coding), tín hiệu
thoại đầu vào được phân chia thành một số dải băng tần thoại gọi là các băng con thông
qua các bộ lọc số và sau đó mỗi một băng con được mã hóa độc lập bằng việc sử dụng
các bộ mã hóa như ADPCM. Ở đây, các băng con tương ứng với phổ tần số thấp chứa
hầu hết năng lượng của tín hiệu thoại sẽ được cấp phát với số bit mã hóa lớn, còn các
băng con tương ứng với các phổ tần số cao, chứa ít năng lượng tín hiệu sẽ được mã hóa
với số bit nhỏ hơn. Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu. Tại phía thu, các tín hiệu băng con
được giải mã và kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G. 722 1988).

Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ phụ thuộc vào mã
hóa sử dụng trong băng con đó. Bởi vậy chúng ta có thể cấp phát nhiều bit hơn cho các
băng con quan trọng sao cho nhiễu trong những vùng tần số này là thấp, trong khi đó ở
các băng con khác, chúng ta có thể cho phép có nhiễu mã hóa cao vì nhiễu ở những tần
số này có tầm quan trọng thấp hơn. Các mô hình cấp phát bit thích ứng có thể được sử
dụng để khai thác thêm ý tưởng này. Các bộ mã hóa băng con cho chất lượng thoại tốt
trong phạm vi tốc độ từ 16 – 32 Kbps. Do phải cần đến bộ lọc để tách tín hiệu thoại trong
các băng con nên mã hóa băng con phức tạp hơn bộ mã hóa DPCM thông thường và có
thêm độ trễ mã hóa. Tuy nhiên, độ phức tạp và độ trễ là tương đối thấp so với các bộ mã
hóa lai.

2.2.3.2. Mã hóa tham số

Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps.
Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có
khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình.

Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được
tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của
mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hiệu thoại còn
được gọi là Vocoder (Voice + Coder).
Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu,
trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng
sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với

32
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn
dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người.

a. Mô hình LPC

Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới
đây:

Hình 2.15: Mô hình toán học của LPC

Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các
xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến
đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại
vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.

Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ
lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm
thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (non-
stationary) của tín hiệu thoại.

Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách
khác nhau sử dụng các kỹ thuật trong miền thời gian hoặc tần số. Đồng thời các thông tin
có thể được mã hóa để truyền dẫn theo những cách khác nhau.

Mối quan hệ giữa mô hình toán học và mô hình vật lý – cơ quan phát âm thoại của
con người được mô tả dưới đây:

Cuống họng H(z) (Bộ lọc LPC)


Không khí u(n)
Dao động của dây thanh âm V (Các âm hữu thanh)
Chu kỳ dao động của dây thanh âm T (Độ cao âm thanh)
Các âm vô thanh UV (Vô thanh)
33
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Lượng không khí G (Độ tăng ích)

Hàm truyền đạt của bộ lọc được xác định theo biểu thức (2.4)
(2.4)

Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình
vi phân tuyến tính:
(2.5)

Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau:

(2.6)

A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20
ms hay có 50 khung/sec. Mô hình A theo biểu thức (2.6) tương đương với

(2.7)

Cho nên 160 giá trị của S được đại diện tương ứng bới 13 giá trị của A. Ngoài ra,
cần phân biệt hai quá trình:

• Tổng hợp LPC (LPC Synthesis): Cho A, tạo S.


• Phân tích LPC (LPC Analysis): Cho S, tìm A tốt nhất

b. LPC Vocoder 2,4Kbps

LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 2.16 dưới
đây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra
thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con
người. LPC Vocoder chủ yếu được áp dụng trong lĩnh vự quân sự, ở đó các âm thanh tự
nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điện
thoại an toàn.

34
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.16: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps


2.2.3.3. Mã hóa lai

Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa
nguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại với
chất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tại tốc
độ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn,
nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào.

Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng
nhiều nhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua
việc tổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình
bộ lọc dự đoán tuyến tính cho cơ quan phát âm như được trong các bộ mã thoại LPC. Tuy
nhiên, để thay thế cho việc ứng dụng mô hình 2 trạng thái đơn giản - hữu thanh/vô thanh,
mô hình này cố gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng
tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng.
Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình
đầy đủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 2.17 dưới đây:

35
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.17: Cấu trúc bộ mã hóa và giải mã lai AbS

Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn
có độ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng
với khung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thông
qua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào và
tín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tin
liên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗi
bộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổng
hợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyến
tính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter)
liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấp
tín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phương
pháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa qua
bộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất.
Có một số phương pháp mã hóa lai khác cũng được phát triển và đưa vào sử dụng
bao gồm: bộ mã hóa kích thích đa xung - MPE (Multi – Pulse – Excited); bộ mã hóa kích
thích xung đều – RPE (Regular – Pulse – Excited); bộ mã hóa dự đoán tuyến tính kích
thích mã - CELP (Code - Excited – Linear – Predictive.
Trong phương pháp MPE tín hiệu kích thích u(n) được xác định bằng một số
lượng cố định các xung tương ứng đối với mỗi khung tín hiệu. Do vậy thông tin cần
truyền đi sẽ bao gồm thông tin về độ lớn và về vị trí của các xung này. Phương pháp này
cung cấp chất lượng thoại khá tốt tại tốc độ bit khoảng 10 kbits/s.

36
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Phương pháp RPE tương tự như MPE tuy nhiên các xung kích thích sử dụng trong
phương pháp này được sắp xếp cách đều nhau một khoảng cố định do đó phía phát chỉ
cần truyền đi thông tin về độ lớn của các xung và vị trí của xung đầu tiên. Như vậy ở
cùng một tốc độ bit cho trước thì RPE sẽ có thể sử dụng nhiều xung kích thích hơn so với
MPE. Điều này cho phép mã hóa RPE cung cấp chất lượng thoại tốt hơn so với phương
pháp MPE song nó lại có độ phức tạp lớn hơn. Mặc dù hai phương pháp MPE và RPE có
thể cung cấp chất lượng thoại tốt tại tốc độ bit vào khoảng 10 kbits/s hoặc cao hơn tuy
nhiên chúng lại không thích hợp cho việc sử dụng ở tốc độ bit giảm thấp hơn nữa.
Phương pháp CELP khác với hai phương pháp MPE và RPE ở chỗ tín hiệu kích thích
được lượng tử hóa vector một cách hiệu quả. Các tín hiệu này được xác định bởi một mã
nằm trong bộ mã lượng tử vector và một hệ số khuếch đại để điều khiển công suất của tín
hiệu. Bộ mã lượng tử vector thường được mã hóa bằng 10 bit và hệ số khuếch đại được
mã hóa bởi 5 bit tín hiệu do đó sẽ làm giảm đáng kể tốc độ bit dùng để truyền thông tin
đi. Tuy nhiên việc phải đưa tất cả các chuỗi tín hiệu kích thích (tương ứng với số lượng
tất cả các mã trong bộ mã lượng tử) qua bộ lọc tổng hợp sẽ khiến cho mã hóa CELP có
độ phức tạp rất cao. Những nghiên cứu gần đây nhằm cải tiến cấu trúc của bộ mã hóa
lượng tử và những tiến bộ trong việc chế tạo các chip vi xử lý đã giúp cho việc thực hiện
mã hóa CELP trong thời gian thực. Phương pháp này cung cấp tín hiệu thoại chất lượng
tốt ở tốc độ 4,8 Kbps và 16 Kbps. Các nghiên cứu trong thời gian gần đây nhằm cải tiến
phương pháp mã hóa CELP đã cho phép cung cấp tín hiệu thoại tại tốc độ 2,4 Kbps.

2.3. Mã hóa âm thanh

Tín hiệu âm thanh có thể được số hóa bởi một thiết bị ADC (Bộ chuyển đổi tương
tự/số). ADC nhận tín hiệu đầu vào là điện áp của tín hiệu và đầu ra là các số nhị phân.
Xem một ví dụ về một tín hiệu âm thanh ở dạng sóng hình sin (Hình 2.18a). Để biểu diễn
tín hiệu này ở dạng số, trước tiên chúng ta lấy mẫu tín hiệu này theo chu kỳ T (Hình.
2.18b). Nếu một tín hiệu âm thanh không phải là một sóng sin chuẩn mà là một sóng sin
tổ hợp tuyến tính của nhiều sóng sin khác, và có tần số lớn nhất là f, thì theo định lý
Nyquist, tần số lấy mẫu là 2f.

37
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.18: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa

Kỹ thuật số hóa bằng cách lấy mẫu không bao giờ chính xác. Các mẫu trong hình
2.18c chỉ cho phép có 9 mức giá trị, từ -1,00 đến 1,00 với mỗi bước là 0,25. Việc lấy mẫu
8-bit, cho phép có 256 giá trị. Lấy mẫu 16-bit, sẽ cho 65.536 giá trị. Những lỗi xẩy ra khi
giới hạn một số lượng bit trong khi lấy mẫu được gọi là sai số lượng tử hóa. Nếu sai số
quá lớn thì tai người sẽ phát hiện được.

Hai ví dụ rõ nhất khi sử dụng lấy mẫu âm thanh là điện thoại và đĩa CD nhạc.
Trong hệ thống điện thoại, sử dụng 8-bit để lấy mẫu và tần số 8000 lần trong 1 giây. Ở
Bắc Mỹ và Nhật Bản, 7 bit là cho dữ liệu và 1 là cho kiểm soát; ở Châu Âu đang có tất cả
8 bit cho dữ liệu. Hệ thống này cho phép truyền dữ liệu 56.000 bps hay 64.000 bps. Với
việc lấy tần số 8.000 mẫu / giây, thì những tần số lớn hơn 4 kHz sẽ mất.

Các đĩa CD được số số hóa với một tỷ lệ lấy mẫu 44.100 mẫu/giây, đủ để số hóa
các tần số lên tới 22.050 Hz, đó là đủ tốt cho nhiều người, nhưng xấu cho những người
yêu âm nhạc. Lưu ý lấy mẫu 16-bit, chỉ cho phép có 65.536 giá trị khách nhau. Do đó,
bằng cách sử dụng chỉ 16 bit trong mỗi mẫu sẽ sinh ra nhiễu lượng tử. Với 44.100 mẫu /
sec/16 mỗi bit, một đĩa CD âm thanh cần băng thông 705,6 Kbps cho âm thanh mono và
1,411Mbps cho âm thanh stereo. Mặc dù yêu cầu thấp hơn nhu cầu để truyền video
nhưng nó vẫn còn chiếm gần như đầy đủ một kênh T1 để truyền đĩa âm thanh CD chất
lượng stereo (không nén) trong thời gian thực.

Số hoá âm thanh có thể dễ dàng xử lý bằng các phần mềm máy tính. Có rất nhiều
chương trình viết cho máy tính cá nhân cho phép người sử dụng ghi chép, hiển thị, chỉnh
sửa, pha trộn, và lưu trữ âm thanh từ nhiều nguồn.

Như chúng ta đã biết, để truyền âm thanh chất lương CD yêu cầu băng thông là
1,411 Mbps, do vậy cần thiết phải nén để truyền đi trên Internet. Vì lý do này, các thuật
toán nén âm thanh đã được phát triển. Có lẽ là phổ biến nhất là chuẩn nén âm thanh

38
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

MPEG, trong đó MP3 (MPEG audio layer 3) là mạnh và được biết đến nhiều nhất. Có
một lượng lớn âm nhạc dạng MP3 có sẵn trên Internet hiện nay. MP3 thuộc phần âm
thanh của tiêu chuẩn nén video MPEG.

Nén âm thanh có thể được thực hiện theo một trong hai cách. Cách thứ nhất là mã
hóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi Fourier thành các
thành phần tần số. Các biên độ của mỗi thành phần sau đó được mã hóa. Mục tiêu là để
tái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể.

Cách thứ hai là mã hóa dựa trên cảm nhận của các giác quan của con người. Ở
đây, người ta khai thác một số điểm yếu trong hệ thống thính giác của con người để mã
hoá một tín hiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe (Psychoacoustics) –
cách thức con người cảm nhận âm thanh. Chuẩn nén MP3 dựa trên mã hóa cảm nhận này
(perceptual coding).

Đặc tính chính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanh
khác. Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp. Sau đó, đột ngột có
một nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường. Khi đó không ai có thể
nghe được sáo nữa. Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa. Do vậy
để mã hoá chỉ cần tần số bằng tần số của búa bởi vì không thể nghe được tiếng sáo. Đây
là gọi là che tần số (frequency masking) - khả năng một âm thanh lớn trong một băng tần
số sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ có thể nghe những âm thanh
có tần số lớn. Trong thực tế, ngay cả sau khi âm thanh của tiếng búa ngừng, cũng không
thể nghe thấy các âm thanh của tiếng sao trong một khoảng thời gian ngắn. Hiện tượng
này được gọi là che thời gian (temporal masking).

Để hiểu rõ thêm chúng ta xem xét một số thí nghiệm sau. Đầu tiên, một người
trong một phòng yên lặng đã cắm tai nghe vào máy tính. Máy tính tạo ra một sóng sin
100 Hz ở mức thấp, nhưng dần dần tăng lên. Người này sẽ nhấn vào một nút để báo hiệu
khi nghe thấy. Máy tính sẽ lưu lại những ngưỡng này. Tiến hành lặp lại thử nghiệm ở các
tần sô 200 Hz, 300 Hz, và tất cả các tần số khác cho đến giới hạn nghe của con người.
Khi tính trung bình trên nhiều người, ta có một đồ thị ghi lại những ngưỡng nghe thấy
theo như hình 2.19a. Kết quả cho thấy không bao giờ cần thiết phải lưu trữ bất kỳ tần số
nào mà nhỏ hơn tần số con người có thể nghe được. Ví dụ, nếu âm thanh có tần số 100
Hz và âm lượng 20 dB trong 2.19b, thì nó có thể bị bỏ qua mà không thể nhận ra được
bởi vì nó nằm dưới ngưỡng nghe của con người.

39
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hình 2.19: (a) Đồ thị ngưỡng nghe theo tần số; (b) Che tần số

Thí nghiệm 2: Các máy tính chạy ở thí nghiệm trước thêm lần nữa, nhưng cố định
biên độ ở 150Hz. Chúng ta thấy là ngưỡng nghe với âm thanh có tần số gần 150 Hz được
nâng lên, như hiển thị trong hình 2.19b.
Kết quả quan sát mới này cho thấy chúng ta có thể loại bỏ nhiều hơn nữa khi mã
hóa tín hiệu. Trong 2.19b, các tín hiệu có tần số 125Hz có thể được bỏ qua hoàn toàn ở
đầu ra, và không ai có thể thấy sự khác biệt. Bản chất của MP3 là sử dụng biến đổi
Fourier để lấy điểm ngưỡng cho mỗi tần số và sau đó chỉ truyền tải những tần số không
bị che.
Với những thông tin nền tảng như vậy, bây giờ chúng ta có thể xem mã hóa được
thực hiện như thế nào. Các âm thanh nén được thực hiện bằng cách lấy mẫu ở dạng sóng
tại 32 KHz, 44,1 KHz và 48 KHz. Mẫu có thể được thực hiện trên một hoặc hai kênh, ở
trong bất kỳ bốn cấu hình:

1. Monophonic (một đầu vào).


2. Dual Monophonic (hai đầu vào ví dụ như, một tiếng Anh và một tiếng Nhật Bản).
3. Phân chia stereo (mỗi kênh được nén riêng).
4. Joint stereo .

Đầu tiên, tốc độ bit đầu ra được chọn. MP3 có thể nén một đĩa rock 'n roll CD
dạng stereo xuống 96 Kbps với thiệt hại nhỏ về chất lượng, thậm chí các fan của rock 'n
roll cũng không thể thấy. Đối với các đĩa hòa nhạc piano, cần ít nhất là 128 Kbps. Bởi vì
có những sự khác nhau giữa tỷ lệ các tín hiệu trên nhiễu (SNR) của rock 'n roll cao hơn
nhiều so với hòa tấu piano.

Sau đó, các mẫu được xử lý trong các nhóm 1152 (trị giá khoảng 26 msec). Mỗi
nhóm đầu tiên được đưa qua 32 bộ lọc số để có được 32 dải tần số. Trong thời gian đó,
các yếu tố đầu vào được đưa vào mô hình tâm sinh lý nghe (psychoacoustic) để xác định
những tần số bị che. Tiếp theo, mỗi một trong 32 băng tần được biến đổi tiếp để cung cấp
một dải tần (phổ) phù hợp.

40
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Trong giai đoạn kế tiếp, các bit mã hóa được phân bố vào các băng tần, sao cho
phần lớn bit thuộc vào những băng tần có có công suất phổ không bị che, một lượng bit ít
hơn được phân bố vào các băng tần không bị che nhưng có phổ công suất thấp hơn và
không bit nào được cấp phát cho các băng bị che. Cuối cùng, các bit được mã hoá bằng
cách sử dụng mã hóa Huffman.

So sánh giữa nén thoại và nén âm thanh được mô tả vắn tắt ở bảng dưới đây

Nén thoại Nén âm thanh

Chủ yếu cho âm nhạc (bao gồm cả thoại)


Chủ yếu cho các ứng dụng điện thoại với yêu cầu chất lượng cao. Âm nhạc có
băng tần rộng hơn và đa kênh

Nén dạng sóng tốc độ cao cho âm thanh tự


Nén dạng sóng để đảm bảo âm thanh tự
nhiên, trung thực. Thường kết hợp kỹ thuật
nhiên, trung thực
dự đoán
Khai thác đặc tính của hệ thống thính giác
để xác định các mức lượng tử khác nhau
cho các băng tần con (mã hóa theo cảm
nhận)
Nén theo mô hình, tốc độ thấp, cho âm
• Mỗi thành phần tần số được lượng
thanh không tự nhiên nhưng đủ hiểu
tử với giá trị bước lượng tử phụ
thuộc vào ngưỡng nghe
• Không mã hóa tín hiệu mà tai
không nghe được

Bảng 2.3: So sánh giữa nén thoại và nén âm thanh

2.4. Kết luận chương 2

Kỹ thuật xử lý âm thanh là kỹ thuật được ứng dụng khá phổ biến trong mạng
chuyển mạch điện thoại công cộng PSTN, mạng thông tin di động và Internet… Do thoại
được xem là trường hợp đặc biệt và phổ biến của âm thanh nên sau khi trình bày các đặc
trưng cơ bản của âm thanh, chương 2 tập trung giới thiệu các đặc điểm của hệ thống
thính giác của con người và quá trình tạo ra tiếng nói từ cơ quan phát âm của con người.
Những đặc điểm này là cơ sở quan trọng cho quá trình mã hóa thoại (mã hóa nguồn) và
mã hóa âm thanh (mã hóa cảm nhận) nhằm mục đích giảm tốc độ của tín hiệu thoại cũng
như âm thanh sau khi mã hóa, tạo điều kiện thuận lợi cho việc truyền dẫn qua mạng
thông tin cũng như lưu trữ.

41
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh

Hướng dẫn ôn tập chương 2

1. Các tham số đánh giá đặc trưng cho âm thanh.


2. Sơ đồ chức năng của tai người.
3. Sự cảm thụ của tai người đối với âm thanh (Ngưỡng nghe, mặt nạ tần số, mặt nạ thời
gian, các dải băng tần tới hạn) và ứng dụng trong mã hóa âm thanh.
4. Quá trình tạo tiếng nói và ứng dụng trong mã hóa tham số tín hiệu thoại.
5. Mô hình chung của bộ mã hóa thoại.
6. Phân loại các phương pháp mã hóa tín hiệu thoại (mã hóa dạng sóng, mã hóa tham số
và mã hóa lai).
7. Phương pháp mã hóa PCM, DPCM, ADPCM.
8. Mã hóa tham số - LPC.
9. Mã hóa lai – AbS, MPE, RPE và CELP.
10. Mã hóa âm thanh.
11. So sánh giữa nén thoại và nén âm thanh.
12. Trong các hình vẽ dưới đây: (a) Tín hiệu hình âm thanh hình Sin; (b) Lấy mẫu tín
hiệu; (c) Lượng tử hóa các xung mẫu.

Ở hình vẽ (c) chúng ta có thể thấy nhiễu lượng tử xuất hiện do việc sử dụng các từ
mã 4 bit để biểu diễn cho 9 mức giá trị khác nhau. Xung mẫu đầu tiên tại thời điểm 0 là
chính xác, nhưng một số các xung mẫu tiếp theo thì không. Tính toán sai số (theo %) cho
các xung mẫu tại các thời điểm 1/32, 2/32 và 3/32 của chu kỳ lấy mẫu?

42
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Chương 3: Kỹ thuật xử lý ảnh


3.1. Giới thiệu chung
3.1.1. Khái niệm cơ bản về ảnh và xử lý ảnh, video
Đứng trên góc độ cảm nhận của thị giác, ảnh là một sự vật đại diện cho người,
sinh vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết thông
qua hệ thống thị giác hai chiều. Ảnh động (video) như đã thấy trên truyền hình, phim ảnh
là tập hợp của nhiều ảnh liên tiếp. Khi một ảnh được số hoá thì nó trở thành ảnh số và
ảnh số này lại là tập hợp của các phần tử ảnh nhỏ được gọi là điểm ảnh “pixel”. Mỗi điểm
ảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia thành 3 loại ảnh
khác nhau:

• Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi 1 bit, các ảnh này đôi khi
còn được gọi là Bi-level hoặc Bi-tonal images.
• Ảnh Gray-scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác
nhau, thường thì được biểu diễn bằng 256 mức chói hay 8 bit cho mỗi điểm
ảnh.
• Ảnh màu: mỗi điểm ảnh màu được chia ra gồm 1 tín hiệu chói và các tín
hiệu màu.

Biểu diễn ảnh số


Một mẫu tín hiệu hai chiều có thể mô tả bằng một dãy hai chiều , ký
hiệu . Trong đó là các số nguyên, và là khoảng cách các mẫu của
mành và dòng. Cường độ của tín hiệu được đặc trưng bởi độ cao của toạ độ ô
.
Đối với ảnh đen trắng thì ảnh được biểu diễn bằng một hàm cường độ sáng hai
chiều , trong đó là các giá trị tọa độ không gian và giá trị tại bất kỳ của một
điểm sẽ tỉ lệ với độ sáng (mức xám) của ảnh tại điểm này. Đôi khi, người ta còn
biểu diễn hàm ảnh với một trục thứ 3 là cường độ sáng.

Hình 3.1: Biểu diễn ảnh bằng hàm


Một ảnh số là một ảnh được gián đoạn theo không gian và độ sáng.

43
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Nếu và là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Một ảnh số
được xem như là một ma trận với hàng và cột biểu diễn một điểm trong ảnh và giá trị
điểm ma trận tương ứng mức xám tại điểm đó. Các phần tử của một dãy số như thế được
gọi là các điểm ảnh (pixels).
Lĩnh vực xử lý ảnh đề cập đến việc xử lý ảnh bằng máy tính số. Trong thực tế,
người ta phân chia thành ba loại xử lý của máy tính trong quá trình liên tục từ: mức thấp,
mức trung, đến mức cao.
- Quá trình xử lý mức thấp liên quan đến những hoạt động như là tiền xử lý ảnh để
giảm nhiễu, tăng độ sáng. Một quá trình xử lý thấp có đặc điểm là cả đầu vào và đầu
ra của nó đều là hình ảnh.
- Xử lý ảnh mức trung liên quan đến công việc như phân đoạn ảnh (segmentation), mô
tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và
phân loại từng đối tượng. Mức trung có đặc điểm đầu vào của nó thường là hình ảnh,
nhưng kết quả đầu ra của nó là thuộc tính trích ra từ những hình ảnh (ví dụ như các
cạnh, đường viền của ảnh, và nhận dạng của các đối tượng cá nhân).
- Xử lý ảnh mức cao liên quan đến việc "tạo cảm nhận" của một tập các đối tượng
nhận dạng, như trong phân tích ảnh, và xa hơn là quá trình thực hiện các chức năng
nhận dạng thông thường gắn với hệ thống thị giác của con người.

3.1.2. Các ứng dụng phổ biến của xử lý ảnh


Máy tính đủ mạnh đầu tiên để thực hiện nhiệm vụ xử lý ảnh xuất hiện vào những
năm đầu của thập kỷ 60, thế kỷ 20. Xử lý ảnh bằng máy tính đã được thực hiện tại Phòng
thí nghiệm Jet Propulsion (Pasadena, California) vào năm 1964 về hình ảnh của mặt
trăng được truyền bởi Ranger 7 từ khoảng không vũ trụ. Hình 3.2 hiển thị hình ảnh đầu
tiên của mặt trăng đưa bởi Ranger 7 lúc 9h09’ sáng ngày 31 tháng 6 năm1964.

Hình 3.2: Hình ảnh đầu tiên của mặt trăng do tàu vũ trụ Ranger 7 chụp

44
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Từ những năm 1960s cho đến nay, xử lý ảnh đã phát triển mạnh mẽ. Ngoài các
ứng dụng trong lĩnh vực y khoa, thám hiểm không gian vũ trụ, thiên văn học, địa lý (phát
hiện các nguồn tài nguyên thiên nhiên), dự báo thời tiết, xử lý ảnh số hiện nay đang được
sử dụng đa dạng trong nhiều lĩnh vực ứng dụng khác nhau.

Xử lý ảnh dùng tia Gamma

Chủ yếu ứng dụng trong y học hạt nhân và quan sát thiên văn. Trong y học hạt
nhân, cách tiếp cận ở đây là tiêm vào người bệnh chất đồng vị phóng xạ phát ra các tia
gamma khi bị phân rã. Các hình ảnh được tạo ra từ việc thu thập các bức xạ bởi bộ phát
hiện tia gamma. Hình ảnh có được bằng sử dụng tia Gamma ở hình vẽ 3.3 dưới đây cho
thấy bệnh nhân có một khối u trong não và trong phổi qua các đốm nhỏ màu trắng.

Hình 3.3: Hình ảnh bệnh nhân dùng tia Gamma

Xử lý ảnh dùng X-quang

X-quang là một trong các phát minh lâu đời nhất của việc dùng nguồn bức xạ sóng
điện từ cho việc tạo ra ảnh. Trong y khoa, X-quang rất phù hợp cho việc chẩn đoán bệnh

45
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

và được dùng khá phổ biến. Ngoài ra X-quang cũng được sử dụng rộng rãi trong các
ngành công nghiệp khác...

Hình 3.4: Minh họa về các ảnh chụp bằng X-quang

Xử lý ảnh trong băng cực tím

Các ứng dụng của "ánh sáng" cực tím là rất đa dạng. Chúng bao gồm điêu khắc,
kiểm tra công nghiệp, kính hiển vi, laser, xử lý ảnh sinh học, và thiên văn học. Hình vẽ
3.5 dưới đây mô tả xử lý ảnh bằng tia cực tím giúp phát hiện được bệnh nấm Smut ở cây
ngô (hình bên phải) – một loại bệnh khá phổ biến ở các cây ngũ cốc.

Hình 3.5: Xử lý ảnh bằng tia cực tím

46
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Xử lý ảnh trong băng hồng ngoại

Xem xét đến các băng nhìn thấy được của quang phổ điện từ là rất gần gũi với
hoạt động của tất cả chúng ta. Băng hồng ngoại thường được sử dụng cùng với xử lý ảnh
trực quan, vì vậy xử lý ảnh trong băng hồng ngoại được ứng dụng khá nhiều trong thiên
văn vũ trụ, cảm biến từ xa, kính hiển vi…
Quan trắc thời tiết và dự đoán là một trong những ứng dụng chính của xử lý ảnh
hồng ngoại. Ở hình vẽ 3.6 là ảnh của một cơn bão cung cấp bởi một vệ tinh Hải dương
học và khí tượng Quốc gia (NOAA). Vệ tinh này sử dụng các cảm biến hồng ngoại và
mắt của cơn bão đó nhìn rõ trong hình ảnh này.

Hình 3.6: Xử lý ảnh trong băng hồng ngoại

Xử lý ảnh trong băng vi ba

Ứng dụng chính của xử lý ảnh trong băng vi ba là Radar. Tính đặc trưng của xử lý
ảnh bằng Radar là khả năng thu thập dữ liệu bất kỳ ở đâu bất cứ lúc nào, bất kể thời
tiết hay điều kiện ánh sáng. Một số sóng Radar có thể thâm nhập đám mây, và dưới
điều kiện nhất định cũng có thể xuyên qua thảm thực vật, băng, cát rất khô. Trong
nhiều trường hợp, Radar là cách duy nhất để thám hiểm các vùng trên bề mặt Trái
đất.
Hình 3.7 minh họa ảnh bằng Radar trên vùng núi khu vực đông nam của Tây
Tạng, cách 90 km về phía đông của thành phố của Lhasa.

47
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.7: Ảnh Radar một vùng núi Tây Tạng


Xử lý ảnh trong băng radio

Các ứng dụng chính của xử lý ảnh trong băng radio chủ yếu trong y khoa và thiên
văn học. Trong lĩnh vực y khoa, các sóng radio được sử dụng trong chụp ảnh cộng hưởng
từ (MRI). Ở đây, bệnh nhân được đặt trong từ trường mạnh và các sóng radio ở dạng các
xung ngắn được truyền qua cơ thể người bệnh. Mỗi xung đáp ứng của một sóng vô tuyến
của bệnh nhân phát giá. Sự định vị bắt nguồn từ các tín hiệu mạnh của chúng được xác
định bởi một máy tính, nó cung cấp một ảnh bệnh nhân hai chiều. MRI có thể cung cấp
ảnh trong mọi mặt phẳng.

Hình 3.8: Ảnh chụp cộng hưởng từ đầu gối của bệnh nhân

48
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.1.3. Các bước xử lý ảnh số


Các bước xử lý ảnh số được mô tả ở hình vẽ 3.9 dưới đây.

Hình 3.9: Các bước xử lý ảnh số


Tiếp theo đây là mô tả tóm tắt các giai đoạn chính trong xử lý ảnh:

1. Thu nhận hình ảnh: Đây là giai đoạn đầu tiên và quan trọng nhất trong tòan bộ
quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai
đoạn sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽ
bị giảm. Thiết bị thu nhận có thể là các ống ghi hình chân không (vidicon, plumbicon...)
hoặc CCD (Charge-Coupled Device).

2. Tiền xử lý ảnh: Giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng
ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm
nổi đường biên, khử nhiễu …

3. Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt.
Đây là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực
hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp,
còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đoạn sai thì kết
quả nhận được cuối cùng sẽ không chính xác.

49
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

4. Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đoạn hình ảnh. Các vật
thể sau khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới
một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả
thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng
bên ngòai của chi tiết ảnh như độ cong, các góc cạnh… Biểu diễn vùng thường được sử
dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture)
hay hình dạng (skeletal).

5. Nén ảnh: bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu
trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.

6. Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể
đó (ví dụ các phương tiện giao thông có trong ảnh).

3.1.4. Các thành phần của hệ thống xử lý ảnh số


Cấu trúc của một hệ thống xử lý ảnh số được mô tả ở hình vẽ 3.10 dưới đây.

Hình 3.10: Các thành phần chính của hệ thống xử lý ảnh số

50
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh
quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều
dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết
bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và CCD.

Bộ nhớ trong và ngoài: các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để
lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước
1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh
màu không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý
ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý.
Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốc
độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể
là ổ cứng, thẻ nhớ flash... 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có
dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần
(ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ra
trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như
giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc
biệt bằng công nghệ nung nóng …

Bộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện
nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh
như lọc, làm nổi đường bao, nén và giải nén video số…Trong bộ xử lý ảnh thường tích
hợp bộ nhớ đệm có tốc độ cao.

Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như
màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành
hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT
(Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình
CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ
biến trong các hệ thống xử lý ảnh chuyên nghiệp.

Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất
cả các bộ phận chức năng trong hệ thống xử lý ảnh số.

3.1.5. Đồ họa và các kiểu dữ liệu ảnh


Số lượng các định dạng tập tin được sử dụng trong truyền thông đa phương tiện
liên tục phát triển. Bảng 3.1dưới đây cho thấy một danh sách các định dạng file phổ biến
sử dụng trong sản phẩm Macromedia Director. Ở đây, chúng ta chỉ tập trung giới thiệu
một số định dạng tập tin phổ biến như GIF và định dạng hình ảnh JPG.

51
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

File Import File Export Native


Image Palette Sound Video Anim. Image Video
.BMP, .PAL .AIFF .AVI .DIR .BMP .AVI .DIR
.DIB, .ACT .AU .MOV .FLA .MOV .DXR
.GIF, .MP3 .FLC .EXE
.JPG, .WAV .FLI
.PICT, .GIF
.PNG, .PPT
.PNT,
.PSD,
.TGA,
.TIFF,
.WMF

Bảng 3.1: Các định dạng file

3.1.5.1. Hình ảnh 1-bit

Hình ảnh bao gồm các điểm ảnh, hoặc Pels hình ảnh- phần tử trong hình ảnh kỹ
thuật số. Một hình ảnh 1-bit bao gồm các bit on và off và do đó là loại đơn giản nhất của
hình ảnh. Mỗi pixel được lưu giữ như là một bit duy nhất (0 hay 1). Do đó, do vậy một
hình ảnh cũng được gọi như là một hình ảnh nhị phân.
Nó cũng được gọi là một hình ảnh đơn sắc-1, vì nó không chứa màu sắc. Hình
3.11 cho thấy một hình ảnh đơn sắc 1-bit (các nhà khoa học đa phương tiện gọi là "Lena"
- đây là một hình ảnh tiêu chuẩn được sử dụng để minh họa nhiều thuật toán). Một hình
ảnh kích thước 640 x 480 đơn sắc đòi hỏi 38,4 Kb dung lượng lưu trữ (640 x 480/8).
Hình ảnh đơn sắc 1-bit chỉ tốt cho hình có chứa đồ họa đơn giản và văn bản.

Hình 3.10: Bức ảnh Lena đơn sắc 1 bit

52
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.1.5.2. Ảnh thang độ xám 8-Bit

Xem xét một hình ảnh 8-bit, mỗi một điểm ảnh có giá trị mức xám (Gray level)
giữa 0 và 255. Mỗi pixel được đại diện bởi một byte duy nhất - ví dụ, một điểm ảnh tối có
thể có giá trị 10, và một điểm ảnh sáng có thể là 230.

Toàn bộ hình ảnh có thể được xem như một mảng hai chiều của các giá trị pixel.
Chúng ta tham khảo một mảng như bitmap, - một đại diện của các đồ họa / dữ liệu hình
ảnh song song với cách thức mà nó được lưu trữ trong bộ nhớ video.

Chúng ta có thể xem hình ảnh 8-bit như là một tập hợp các mặt phẳng bit
(bitplanes) 1 bit. Hình 3.11 mô tả khái niệm về các mặt phẳng bit. Mỗi một mặt phẳng bit
có thể có giá trị 0 hoặc 1 tại mỗi pixel, nhưng cùng với tất cả các bitplanes tạo thành một
byte duy nhất để lưu trữ giá trị mức xám từ 0 đến 255.

Hình 3.11: Các mặt phẳng bit cho hình ảnh 8-bit thang độ xám.

Như vậy, mỗi điểm ảnh thường được lưu trữ như là một byte (cho một giá trị mức
xám giữa 0-255), do đó, một ảnh thang độ xám 640 x 480 đòi hỏi dung lượng lưu trữ hơn
300 Kb (640 x 480 x 8 = 307.200 Kb). Hình 3.12 minh họa một lần nữa hình ảnh Lena
theo thang độ xám.

Hình 3.12: Hình ảnh thang độ xám của Lena.

53
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.1.5.3. Ảnh 24 bít màu

Trong một hình ảnh 24-bit màu, mỗi điểm ảnh được đại diện bởi 3 byte, thường là
đại diện cho RGB. Vì mỗi giá trị trong khoảng 0-255, định dạng này hỗ trợ 256 x 256 x
256, hoặc tổng số 16.777.216 màu sắc có thể kết hợp . Tuy nhiên, như sự linh hoạt dẫn
đến bất lợi trong việc lưu trữ vì: một hình ảnh 640 x 480 24-bit màu sẽ yêu cầu 921,6 Kb
dung lượng lưu trữ.
Hình 3.13 minh họa một đám cháy rừng qua một hình ảnh 24-bit trong Microsoft
Windows định dạng BMP (forestfire. bmp).

Hình 3.13: Hình ảnh có độ phân giải màu sắc cao và


các ảnh màu sắc từ các kênh R, G, B
3.1.5.4. Ảnh mầu 8 bit

Khi lưu trữ ảnh là vấn đề quan tâm thì nhiều hệ thống có thể chỉ dùng 8 bit thông
tin màu (gọi là "256 màu sắc") trong việc thể hiện ảnh trên màn hình. Lúc này một ảnh
mầu 640 x 480 8-bit chỉ đòi hỏi dung lượng 300 Kb, so với 921,6 Kb cho một hình ảnh
màu 24 bit mà chưa cần áp dụng một giải pháp nén bất kỳ nào.

54
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.14 cho thấy hình ảnh 8-bit theo định dạng GIF và chúng ta thấy rằng rất khó
để phân biệt sự khác nhau giữa hình ảnh 24-bit mầu (3.13), và hình ảnh 8-bit mầu (3.14).

Hình 3.14: Hình ảnh 8-bit màu

3.1.5.5. Các định dạng file ảnh phổ biến

Định dạng GIF (Graphics Interchange Format): được đưa ra bởi Công ty Unisys và
Compuserve, ban đầu để truyền các hình ảnh đồ họa trên đường dây điện thoại thông qua
Modem. Các tiêu chuẩn GIF sử dụng thuật toán nén Lempel-Ziv-Welch và được giới hạn
cho 256 màu (8 bit). Trong thực tế, GIF có hai chuẩn: GIF87a (Phiên bản kỹ thuật ban
đầu) và GIF89a – Phiên bản mở rộng hỗ trợ cho hoạt hình đơn giản.

Định dạng JPEG: Các tiêu chuẩn hiện hành quan trọng nhất cho nén hình ảnh là JPEG,
tiêu chuẩn này được tạo ra bởi một nhóm làm việc của Tổ chức tiêu chuẩn quốc tế (ISO)
đã được chính thức gọi là Joint Photographic Experts Group và do đó các file ảnh được
tạo ra theo chuẩn nén JPEG có tên định dạng jpeg. JPEG cho phép người dùng thiết lập
một mức độ mong muốn về chất lượng, hoặc tỉ lệ nén.

Định dạng PNG (Portable Network Graphics): Xuất phát từ sự phổ biến của Internet
nhằm hỗ trợ nhiều hơn cho các định dạng hình ảnh hệ thống độc lập. Tiêu chuẩn PNG có
thể thay thế các tiêu chuẩn GIF và hỗ trợ lên đến 48 bit thông tin màu sắc.

Định dạng TIFF (Tagged Image File Format): là một tập tin định dạng phổ biến hình
ảnh. Phát triển bởi Công ty Aldus vào những năm 1980, sau đó nó đã được hỗ trợ bởi
Microsoft. TIFF có thể lưu trữ nhiều loại khác nhau của hình ảnh: 1-bit, màu xám, 8-bit,
24-bit RGB.

55
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Định dạng EXIF (Exchange Image File): là một định dạng hình ảnh cho máy ảnh kỹ
thuật số. Ban đầu phát triển vào năm 1995, phiên bản hiện tại của nó (2.2) đã được đưa
ra vào năm 2002 bởi các hãng điện tử Nhật Bản và Informa - Hiệp hội Công nghiệp Công
nghệ (JEITA). Nén các tập tin EXIF sử dụng chuẩn nén JPEG.

Định dạng Windows WMF (Windows Metafile): là định dạng file gốc cho môi trường hệ
điều hành Microsoft Windows. Tệp tin WMF thực sự bao gồm một tập hợp các hàm giao
diện thiết bị đồ họa (GDI), cũng có nguồn gốc ở các môi trường Windows. Khi chơi
(play) một tập tin WMF (thông thường bằng cách sử dụng hàm Windows PlayMetaFile())
các đồ họa mô tả được trả lại.

Định dạng Windows BMP (Bitmap): là tiêu chuẩn hệ thống định dạng tập tin đồ họa lớn
cho Microsoft Windows, được sử dụng trong Microsoft Paint và chương trình khác. Nó
có thể lưu trữ ảnh 24-bit bitmap khá hiệu quả. Tuy nhiên lưu ý BMP có có rất nhiều chế
độ khác nhau, bao gồm cả không nén hình ảnh 24-bit.

3.1.6. Mầu sắc trong ảnh và video

Ánh sáng là một dạng sóng điện từ và màu sắc của nó được đặc trưng bởi các
bước sóng. Ánh sáng Laser chỉ có một bước sóng đơn - ví dụ, Laser Ruby tạo ra một
chùm tia sáng màu đỏ tươi. Ngược lại, phần lớn các nguồn ánh sáng có nhiều bước sóng.
Con người không thể phát hiện tất cả các ánh sáng – mà chỉ có các anh sáng có bước
sóng thuộc vùng nhìn thấy được. Bước sóng ngắn tạo ra một cảm giác màu xanh, và
bước sóng dài tạo ra một cảm giác màu đỏ.

Ánh sáng nhìn thấy được là một dạng sóng điện từ có bước sóng trong khoảng
400-700 nm. Hình 3.15 minh họa cho thấy mối quan hệ về công suất tương đối của từng
bước sóng có trong thành phần của ánh sáng ban ngày. Đường cong này được gọi là phân
bố năng lượng quang phổ (SPD), hoặc quang phổ của ánh sáng E (λ ) tại mỗi bước sóng
λ.

56
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.15: Phân bố năng lượng quang phổ của ánh sáng ban ngày.

3.1.6.1. Các mô hình màu trong ảnh

Các lý thuyết về mầu sắc chỉ ra rằng bất kỳ một màu nào đều có thể được tổng hợp
từ ba màu chính, cơ bản có cường độ tương thích đó là ba màu: Đỏ (Red); Xanh lá cây
(Green) và Xanh lơ (Blue). Thông tin về ba mầu cơ bản được minh họa ở hình 3.16 dưới
đây. Ngược lại bất kỳ màu sắc nào cũng đều có thể phân chia thành ba mầu cơ bản R, G
và B.

Mầu Bước sóng, 10-9 m

Đỏ (R) 615

Xanh lá cây (G) 532

Xanh lơ (B) 470

Hình 3.16: Các mầu cơ bản

Mô hình cộng màu RGB

Mô hình cộng mầu RGB được mô tả ở hình vẽ 3.17. Theo đó chúng ta có một số
nguyên tắc cộng màu như sau:
Magenta = Red + Blue
Cyan = Blue + Green
Yellow = Green + Red
White = Red + Blue + Green

57
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.17: Mô hình cộng màu RGB

Mô hình màu loại trừ CMY


Mô hình loại trừ màu CMY (C: Cyan-Màu lục lam; M: Magenta-Màu đỏ tươi; Y:
Yellow-Màu vàng) được mô tả ở hình vẽ 3.18. Theo đó chúng ta có một số nguyên tắc
trừ màu như sau:
Magenta = White - Green
Cyan = White - Red
Yellow = White - Blue
Black = Red + Blue + Green

Hình 3.17: Mô hình trừ màu CMY

Chuyển đổi từ RGB thành CMY

Một số hệ tọa độ mầu quan trọng có thể được chuyển đổi sang nhau thông qua một
số phép biến đổi đơn giản. Ví dụ như chuyển đổi từ RGB thành CMY, người ta sử dụng
quan hệ:

58
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

(3.1)

Ngược lại khi chuyển từ CMY thành RGB, người ta sử dụng quan hệ:

(3.2)1)

3.1.6.2. Các mô hình màu trong Video

Các ảnh, trước khi được truyền đi, phải được quét với 3 thiết bị quang, mà mỗi
một trong số chúng đều có một bộ lọc màu khác nhau đặt ở phía trước của thiết bị. Ba
kênh (R, G, B) được hiệu chỉnh sao cho nếu một vùng trắng đều được quét, thì cả 3 đầu
ra phải có điện áp cân bằng nhau.

Bởi vì mắt người có độ nhạy khác nhau đối với các màu có cùng cường độ, nên độ
chói phải được bổ sung thêm các trọng số. Độ chói của tín hiệu Y được xác định bởi:

Y= 0.299R+0.587G+0.114B (3.3)

Thông tin về bão hoà màu cũng đã được xác định cùng với độ chói; để tránh việc
truyền nhiều lần về bão hòa màu, nó sẽ bị loại trừ ra khỏi các thành phần của màu. Các
thành phần hiệu màu cần một băng tần truyền thấp hơn so với thông tin độ chói, bởi vì
mắt người không thể phân tích được nhiều chi tiết màu như chi tiết độ chói.

Do một sắc màu được xác định nếu hai trong số ba màu cơ bản được biết, cho nên
người ta chỉ cần truyền đi thông tin của 2 tín hiệu hiệu màu. Màu cơ bản thứ 3 sẽ được
tính toán lại tại phía thu. Từ đây, người ta đưa ra một số mô hình màu khác nhau trong
truyền dẫn tín hiệu video.

Mô hình màu YUV

Ban đầu, mô hình YUV được sử dụng cho tín hiệu video tương tự hệ PAL. Một
phiên bản của YUV hiện nay cũng được sử dụng trong tiêu chuẩn CCIR 601 cho video
kỹ thuật số.
Đầu tiên, nó mã hóa tín hiệu độ chói Y theo biểu thức (4.3) và tiếp theo đó các tín
hiệu hiệu mầu U, V được xác định theo biểu thức 4.4 dưới đây.

(3.4)
Từ các biểu thức (4.3) và (4.4) ta có:

59
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

(3.5)

Trong các tín hiệu PAL tương tự, băng thông 1,3 MHz được giành cho các tín
hiệu hiệu mầu U và V, trong khi đó băng tần 5,5 MHz được dành riêng cho các tín hiệu
độ chói Y. Với tín hiệu video số, 8 bit được giành cho Y và 4 bit cho các tín hiệu U, V.

Mô hình màu YIQ

YIQ được dùng trong truyền hình màu hệ NTSC. Mặc dù U và V được định nghĩa
khá đơn giản, nhưng nó không nắm bắt được hệ thống phân cấp bậc thấp nhất về độ nhạy
hiển thị của con người. NTSC đã sử dụng I và Q thay thế. YIQ được xem như là một
phiên bản của YUV, với cùng một Y nhưng với U và V được quay đi góc 33 °.

(3.6)
Điều này dẫn đến các ma trận biến đổi sau đây:

(3.7)

NTSC cấp phát băng thông 4,2 MHz cho tín hiệu độ chói Y; 1,5 MHz cho tín hiệu
hiệu màu I và 0,6 MHz cho tín hiệu Q. Tuy nhiên, hiện nay cả I và Q đều được cấp phát
băng thông 1,0 MHz.

Mô hình màu YCbCr

Chuẩn quốc tế chính thức cho các tín hiệu video số thành phần là Khuyến nghị
ITU-R BT.601-4 (được gọi là "Rec. 601"). Tiêu chuẩn này dùng một không gian màu
YCbCr. Biến đổi YCbCr được sử dụng trong nén ảnh JPEG và nén video MPEG và có
liên quan đến biến đổi YUV. Cụ thể như sau:

(3.8)
Khi đó, chúng ta có:

(3.9)

3.1.7. Cơ bản về Video

Tín hiệu Video nói chung được sử dụng trong rất nhiều lĩnh vực: truyền hình,
truyền hình quảng bá, truyền hình vệ tinh, truyền hình di động… Với công nghệ phát
triển ngày nay thì tín hiệu Video được sử dụng rộng rãi đặc biệt là Video số.

60
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.1.7.1. Các loại tín hiệu Video

Các tín hiệu Video có thể được tổ chức theo ba cách khác nhau: Video thành phần
(Component Video); Video tổ hợp (Composite Video) và S-Video.

Video thành phần: Các hệ thống Video đầu cuối cao cấp như các phòng thu hình
(studios) sử dụng ba tín hiệu Video riêng rẽ cho các ảnh màu đỏ, xanh lá cây và xanh lơ.
Các tín hiệu này được biết đến như là các tín hiệu Video thành phần. Ở những hệ thống
phòng thu này người ta sử dụng ba dây (connector) kết nối Camera hoặc các thiết bị khác
đến TV hay màn hình.
Video thành phần cho tái tạo màu sắc tốt nhất vì không có xuyên nhiễu giữa ba
kênh tín hiệu khác nhau, tuy nhiên nó đòi hỏi nhiều băng thông hơn và đồng bộ tốt hơn
cho cả ba tín hiệu thành phần.

Video tổ hợp: Các tín hiệu mầu và độ chói được trộn vào trong một sóng mang đơn. Tín
hiệu mầu là tổ hợp của hai thành phần hiệu mầu I và Q (hoặc U và V). Tín hiệu Viedo tổ
hợp được sử dụng trong truyền hình mầu quảng bá, thích ứng với truyền hình đen – trắng.
Trong hệ truyền hình NTSC, I và Q được kết hợp thành một tín hiệu mầu, và một
sóng mang sẽ đặt tín hiệu mầu vào cuối tần số cao hơn của kênh chia sẻ với tín hiệu độ
chói. Sau đó, các thành phần độ chói và màu được tách ra tại đầu cuối máy thu và hai
thành phần màu sắc được khôi phục tiếp theo đó.
Khi đấu nối với TV hoặc VCR, Video tổ hợp chỉ sử dụng 1 dây (Hình 3.18) và các
tín hiệu mầu video được trộn với nhau, không gửi riêng biệt. Các tín hiệu đồng bộ và
tiếng cũng được đưa vào chung với tín hiệu này. Vì tín hiệu mầu và độ chói được đưa vào
cùng một tín hiệu, nên nhiễu giữa chúng là không thể tránh khỏi.

Hình 3.18: Cáp Video tổ hợp

S-Video: Xem như là sự thỏa hiệp giữa Video thành phần và Video tổ hợp S-Video
(Separated Video hoặc Supper Video) sử dụng 2 dây, một cho độ chói và một cho tín
hiệu mầu. Kết quả là, có ít xuyên nhiễu giữa các thông tin về màu sắc và mức độ xám.

61
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.18: Cáp S-Video

3.1.7.2. Video tương tự

Phần lớn các TV hiện nay vẫn gửi và nhận tín hiệu Video tương tự. Một tín hiệu
tương tự f(t) lấy mẫu một ảnh biến đổi theo thời gian. Một quá trình quét tuần tự (lũy
tiến) từng dòng một từ trên xuống dưới theo hết một ảnh (một khung) trong một khoảng
thời gian nào đó được gọi là chu kỳ (tốc độ) quét - ∆ t s/ảnh . Màn hình máy tính có độ
phân giải cao thường có chu kỳ (tốc độ) quét ∆ t = 1/72 sec.

Trong TV cũng như trong nhiều chuẩn đa phương tiện khác, quét xen kẽ được sử
dụng mà ở đó các dòng lẻ được quét đầu tiên và sau đó đến các dòng chẵn. Kết quả là các
mành "chẵn" và "lẻ" tạo nên một khung hình.

Trong thực tế, các dòng lẻ được quét bắt đầu ở trên cùng bên trái mành, các dòng
chẵn được bắt đầu quét ở giữa mành. Hình 3.19 minh họa biểu đồ quét. Trước tiên đường
liền nét (lẻ) được quét từ P đến Q, sau đó R đến S, và kết thúc tại T - sau đó các mành
chẵn bắt đầu từ U và kết thúc ở V. Sự nhảy từ Q đến R trong hình 3.19 được gọi là quét
ngược ngang. Sự nhảy từ T đến U hoặc V tới P được gọi là quét ngược đứng.

Hình 3.19: Quét mành xen kẽ

62
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Cần phải lưu ý rằng nếu yêu cầu video có độ phân giải (cả không gian và thời
gian) cao, ví dụ như truyền hình độ nét cao HDTV thì cần phải sử dụng chế độ quét liên
tục. Mặc dụ các video được quét theo kiểu xen rẽ cũng đã là một lựa chọn tốt cho tín hiệu
truyền hình, song nó không thích hợp cho việc hiển thị trên màn hình máy tính với đặc
điểm là khoảng cách giữa màn hình và người dùng là nhỏ. Nếu như các hình ảnh trên TV
được sử dụng cho máy tính sẽ gây cảm giác khó chịu bởi độ rung giữa các dòng, cuộn
dòng… Để tránh các hiện tượng này, các máy tính sử dụng các màn hình có chế độ hiển
thị liên tục với tốc độ lớn hơn 50/60 khung/s, thông thường là 72 khung/s.
Hình 3.20 minh họa một tín hiệu điện tử cho một dòng quét video tổ hợp theo
chuẩn NTSC. Tín hiệu “mức trắng-White” có giá trị đỉnh 0,714 V; tín hiệu “mức đen-
Black” là 0,055 V; tín hiệu “xóa-Blank” là 0 V. Khoảng thời gian cho các xung xóa trong
tín hiệu cũng được sử dụng cho việc đồng bộ với giá trị tín hiệu đồng bộ (Sync) xấp xỉ -
0,286V.

Hình 3.20: Tín hiệu điện cho một dòng quét NTSC

Chuẩn NTSC (National Television System Committee)

Chuẩn TV NTSC (Uỷ ban Tiêu chuẩn Truyền hình quốc gia) được sử dụng phổ biến ở
Bắc Mỹ và Nhật Bản từ năm 1953. NTSC áp dụng tỷ lệ ảnh 4:3; 525 dòng quét/60Hz cho
một khung (Quét xen kẽ, 262.5 dòng / mành) và tốc độ khung là 30 khung hình/sec; mô
hình màu là YIQ. NTSC cấp phát băng thông 4,2 MHz cho độ chói Y; 1.6 MHz cho I và
0,6 MHz cho Q do mắt người ít nhạy cảm hơn đối với các chi tiết về mầu sắc so với độ
chói. Ưu điểm chính của hệ thống chuẩn này này là: đơn giản, thiết bị mã hóa và giải mã
không phức tạp, giá thành thấp khi xây dựng hệ thống thiết bị. Tuy nhiên dễ bị sai màu
khi hệ thống truyền tín hiệu không lý tưởng và có nhiễu.

Chuẩn PAL (Phase Alteration Line)

63
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Chuẩn PAL được phát triển từ năm 1962 ở Đức. PAL dùng tỷ lệ ảnh 4:3; 625 dòng
quét/50Hz (Quét xen kẽ,312.5 dòng/mành), 25 khung hình/giây; mô hình màu YUV với
băng thông cho Y là 5.5 MHz và U, V là 1,8MHz. Chuẩn hệ PAL có méo pha nhỏ hơn
hẳn so với hệ NTSC, không có hiện tượng xuyên lẫn màu, thuận tiện cho việc ghi băng
hình hơn hệ NTSC, nhưng máy thu hình hệ PAL phức tạp hơn, tính kết hợp với hệ truyền
hình đen trắng kém hơn hệ NTSC

Chuẩn SECAM (Sequentiel Couleurs a Memoire – Sequential Color with Memory)

SECAM được triển từ năm 1956 ở Pháp. SECAM cũng sử dụng 625 dòng quét/50Hz cho
mỗi khung hình, 25 khung hình / giây, với tỉ lệ 4:3 và quét mành xen kẽ. SECAM cũng
sử dụng mô hình màu YUV với băng thông 6MHz cho Y và 2MHz cho U và V. Chuẩn
hệ SECAM có tính chống nhiễu tương đối cao; kém nhạy với méo pha, méo biên độ.

3.1.7.3. Video số

Video dù thuộc dạng RGB hay YUV đều có dạng số. Trong trường hợp này, các
mẫu rời rạc của tín hiệu video tương tự được số hóa tạo ra chuỗi các từ mã biểu diễn các
điểm ảnh. Các từ mã này được phân thành ba trường biểu diễn cho từng tín hiệu một của
RGB hay YUV. Phạm vi của các chiều dài là 16 bit hoặc 24 bit. Với 24 bit thì trong đó R
= G = B = 8 bit; còn với 16 bit thì Y = 8 bit và U = V = 4 bit.

Video số có nhiều ưu điểm so với Video tương tự, cụ thể như sau:

• Lưu trữ video trên các thiết bị số hoặc trong bộ nhớ, sẵn sàng để được xử lý (loại
bỏ nhiễu, cắt và dán, …) và tích hợp vào nhiều các ứng dụng đa phương tiện khác
nhau.
• Truy cập trực tiếp, và làm cho biên tập video trở nên đơn giản.
• Lặp đi lặp lại việc xử lý hình mà không làm giảm chất lượng hình ảnh.
• Dễ dàng mật mã hóa.

Các chuẩn CCIR cho Video số

CCIR là Uỷ ban tư vấn quốc tế về Radio và một trong các tiêu chuẩn quan trọng
nhất cho Video số là CCIR-601 cho tín hiệu Video số thành phần. Chuẩn này đã trở thành
chuẩn ITU-R-601, một tiêu chuẩn quốc tế cho các ứng dụng video chuyên nghiệp.

Chuẩn NTSC có 525 dòng quét; mỗi một dòng có 858 điểm ảnh (với 720 điểm ảnh
nhìn thấy và số còn lại không nhìn thấy trong chu kỳ xóa). Do NTSC dùng mô hình lấy
mẫu 4:2:2, mỗi điểm ảnh tương ứng với hai bytes (8 bit cho Y và 8 bit thay đổi giữa Cb
và Cr) nên tốc độ bit dữ liệu Video số xấp xỉ 216 Mbps
(525×858×30×2bytes×8bits/byte≈216Mbps).

64
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Bảng 3.2 dưới đây mô tả các tham số đặc trưng của Video số theo các chuẩn khác
nhau. Lưu ý các chuẩn đều áp dụng tỷ lệ ảnh 4:3.

Bảng 3.2: Thông số video số


3.2. Cơ sở kỹ thuật xử lý ảnh
3.2.1. Cơ sở của cảm nhận thị giác
Việc xử lý hình ảnh trong các ứng dụng có mục chính là để giúp đỡ con người
quan sát thông tin trong một hình ảnh. Vì vậy, điều quan trọng là phải hiểu được hệ thống
thị giác của con người. Hệ thống thị giác của con người tập trung chủ yếu vào mắt (cảm
biến hình ảnh hay camera), thần kinh thị giác (đường dẫn hình ảnh), và não (các khối
thông tin xử lý về ảnh…). Cấu tạo của mắt người được minh họa ở hình 3.21 dưới đây.

Hình 3.21: Cấu tạo của mắt người


Mắt người có cấu trúc gần dạng hình cầu với đường kính trung bình khoảng
20mm. Mắt người gồm có các thành phần chủ yếu sau:
Giác mạc: Là phần trước lồi trong suốt của lớp xơ phía ngoài con ngươi mà bao bọc
mống mắt và đồng tử.
Màng cứng: Bọc ở phía ngoài có sợi trắng cứng bao trùm tất cả con ngươi trừ giác mạc.

65
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Mô mạc: Choàng lấy mạch máu nâu tối của mắt giữa màng cứng và võng mạc bao gồm
các màng máu cung cấp dinh dưỡng cho mắt.
Mống mắt: Mống mắt mở rộng hoặc thu gọn nhằm điều khiển lượng ánh sáng chiều vào
mắt.
Thấu kính: Được tạo ra từ những lớp đồng tâm của những tế bào có sợi, chứa 60-70%
lượng nước.
Võng mạc: Mảnh dẻ, nhiều lớp, màng nhạy cảm và được nối bởi thần kinh thị giác tới
não. Là nơi nhạy cảm với ánh sáng và mầu sắc.
Mắt hoạt động như một camera, với thấu kính tập trung hình ảnh vào võng mạc. Võng
mạc có chứa các tế bào hình que (rods) và ba loại tế bào hình nón (cones) theo như hình
dáng của chúng. Các tế bào hình que (có khoảng 75-150 triệu) được phân bố xung quanh
hoàng điểm (điểm vàng), rất nhậy cảm về ánh sáng nhưng không cảm thụ màu sắc. Các
tế bào hình nón (có khoảng 6,5 triệu) được tập trung tại hoàng điểm, kém nhậy cảm với
ánh sáng, nhưng cảm thụ và phân biệt được màu sắc tương ứng với ba loại tế bào hình
nón nhậy cảm với 3 mầu khác nhau: Đỏ, Xanh lá cây và Xanh lơ.

Mắt người nhạy cảm nhất với ánh sáng ở vùng giữa của phổ nhìn thấy được. Giống
như thuộc tính phân bố năng lượng quang phổ (SPD) của một nguồn ánh sáng, như trong
hình 3.15, chúng ta thấy độ nhạy tương đối là hàm của bước sóng. Hình 3.22 minh họa
hàm độ nhạy của mắt người V(λ ) (đường đứt nét) và là tổng của các đường cong đáp
ứng phổ của các mầu đỏ, xanh lá cây, và xanh lam. Theo đó, mắt người không nhạy cảm
đồng đều với các màu sắc có bước sóng khác nhau và nhạy cảm nhất vùng xanh lá cây-
vàng (λ ≈ 555nm).

Gọi qR(λ),qG(λ) và qB(λ) là các hàm độ nhạy phổ của các màu cơ bản R, G, và B,
khi đó chúng ta có hàm vector q(λ), với các thành phần:
(3.10))

Các phản ứng trong từng kênh màu trong mắt người tỷ lệ với số lượng tế bào thần
kinh liên quan. Đối với các kênh màu đỏ, bất kỳ ánh sáng nào rơi xuống bất cứ nơi nào ở
phần khác không của hàm độ nhạy của tế bào hình nón - nhạy cảm với màu đỏ trong hình
3.22 sẽ tạo ra một số phản ứng.

66
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.22: Đáp ứng phổ (độ nhạy) của mắt người

Đáp ứng tổng hợp của kênh màu đỏ là tổng tất cả ánh sáng rơi vào võng mạc nơi
có các tế bào hình nón nhạy cảm với màu đỏ đang cảm nhận. Nếu chúng ta xem các hàm
độ nhạy là liên tục, thì các màu sắc cơ bản có thể được xác định bởi biểu thức (3.11).

(3.11)

Vì tín hiệu hình ảnh được truyền đi có ba thành phần mầu cơ bản nên các mầu sắc
hình thành một không gian vector ba chiều.

Biểu thức (3.11) ở trên thực tế chỉ áp dụng khi chúng ta xem một đối tượng tự phát
sáng (nghĩa là một nguồn ánh sáng). Trong phần lớn các trường hợp, chúng ta nhìn thấy
hình ảnh của một vật thể là do ánh sáng phản xạ từ bề mặt của vật thể đó đến mắt chúng
ta. Các bề mặt phản xạ các lượng ánh sáng khác nhau ở các bước sóng khác nhau, bề mặt
sẫm thì phản xạ năng lượng ít hơn các bề mặt sáng. Hàm phản xạ được ký hiệu là S(λ).

Tình huống hình thành hình ảnh được mô tả như sau. Ánh sáng từ nguồn sáng với
phân bố năng lượng quang phổ (SPD) - E(λ ) đến bề mặt của vật thể, có hàm phản xạ phổ
bề mặt S(λ) và sau đó được lọc bởi các hàm độ nhạy phổ tương ứng với các tế bào hình
nón q(λ) – Hình 3.23. Hàm C(λ) được gọi là tín hiệu màu sắc và tich của E(λ ) và S(λ).

Các biểu thức hình thành màu sắc tương tự như biểu thức (3.12) mà có tính đến các
mô hình hình thành hình ảnh là:

67
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

(3.12)1)

Hình 3.23: Mô hình hình thành hình ảnh

3.2.2. Quá trình thu tín hiệu hình ảnh


Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera là
ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có
loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiode tạo
cường độ sáng tại mỗi điểm ảnh.
Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất lượng
một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong
cảnh). Trên thực tế các thiết bị thu nhận ảnh có thể là: máy quay (Cameras) cộng với bộ
chuyển đổi tương tự số; máy quét (Scaners) chuyên dụng và các bộ cảm biến ảnh
(Sensors).
Thu nhận ảnh sử dụng bộ cảm biến đơn

Hình vẽ 3.24 dưới đây mô tả các thành phần của một bộ cảm biến đơn. Bộ cảm
biến phổ biến nhất của loại này là photodiode, được cấu thành từ các vật liệu silicon có
dạng sóng điện áp đầu ra tỷ lệ với ánh sáng đầu vào. Việc sử dụng bộ lọc ở mặt trước của
bộ cảm biến để nâng cao tính chọn lọc. Ví dụ một bộ lọc mầu xanh lá cây ở phía trước bộ
cảm biến ánh sáng sẽ thiên vị hơn cho ánh sáng trong băng mầu xanh lá cây của phổ mầu.
Kết quả là, đầu ra của bộ cảm biến sẽ cho ra ảnh có ánh sáng mầu xanh mạnh hơn các
thành phần mầu khác trong phổ ánh sáng nhìn thấy được.

68
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.24: Bộ cảm biến ảnh đơn

Thu nhận ảnh sử dụng các dải cảm biến


Dải cảm biến bao gồm nhiều cảm biến được sắp xếp theo một hàng như mô tả ở
hình vẽ 3.25.

Hình 3.25: Dải cảm biến


Dải cảm biến thường được dùng để tạo ra các phần tử ảnh theo một hướng nào đó.
Chuyển động theo hướng vuông góc với dải cảm biến sẽ tạo ra ảnh theo một hướng khác
như được thấy ở hình 3.26 (a). Các dải cảm biến thường được dùng cho các ứng dụng xử
lý ảnh bằng máy bay mà ở đó hệ thống xử lý ảnh được gắn trên máy bay và bay ở đô cao
nhất định với vận tốc không đổi trên bề mặt của một vùng địa lý nào đó cần được chụp
ảnh.
Các dải cảm biến cũng có cấu hình vòng sử dụng trong y học và công nghiệp để
tạo ra các ảnh cắt lớp cho các vật thể 3 chiều – hình 3.26 (b).

69
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.26: Thu nhận ảnh sử dụng dải cảm biến tuyến tính (a) và dải cảm biến vòng (b)
Thu nhận ảnh sử dụng mảng cảm biến
Hình 3.27 mô tả các bộ cảm biến được sắp xếp lại để hình thành nên một mảng
cảm biến hai chiều. Các thiết bị cảm biến siêu âm, điện từ trường…thường được sắp xếp
theo dạng mảng như thế này. Kiểu sắp xếp theo mảng cũng hay gặp trong các camera số
(loại CCD).

Hình 3.27: Mảng cảm biến

70
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Ưu điểm chính của mảng cảm biến là có thể thu nhận được ngay toàn bộ ảnh hoàn
chỉnh của vật thể thông qua việc tập trung nguồn năng lượng sáng trên bề mặt của mảng
cảm biến.
Cách thức mà một mảng cảm biến được sử dụng để thu nhận ảnh được mô tả chi
tiết trong hình 3.28. Ở đây, ánh sáng mà đối tượng phản xạ ra từ một nguồn sáng chiếu
vào nó được thu nhận bởi mảng cảm biến để hình thành nên ảnh của đối tượng và sau đó
ảnh được chuyển hóa thành ảnh số cho các xử lý tiếp theo.

Hình 3.28: Ví dụ minh họa về quá trình thu nhận ảnh số


3.2.3. Lấy mẫu và lượng tử hóa

Môi trường xung quanh chúng ta tồn tại ở một mức độ quan sát hợp lý trong một
thể liên tục về không gian/thời gian. Tương tự như vậy, các tín hiệu và hình ảnh có rất
nhiều trong môi trường (trước khi được cảm nhận) là những đối tượng tương tự tự nhiên.
Nói là tương tự nghĩa là: các tín hiệu tồn tại trong miền (không gian/thời gian) là liên tục
và cũng có thể nhận các giá trị liên tục. Tuy nhiên, khi nói về việc xử lý các tín hiệu
video và hình ảnh số, tức là khi các tín hiệu video hoặc hình ảnh số được cảm nhận,
chúng phải được chuyển sang dạng số mà máy vi tính có thể đọc được. Nói là kỹ thuật số
chúng tôi muốn chỉ hai điều: tín hiệu được xác định trên miền (không gian/thời gian) rời
rạc, và nó nhận các giá trị từ một tập các khả năng rời rạc. Trước khi việc xử lý số có thể
bắt đầu, quá trình chuyển đổi từ tương tự sang số (Biến đổi A/D) phải được thực hiện.

71
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Biến đổi A/D bao gồm hai tiến trình riêng biệt: lấy mẫu và lượng tử hóa. Quá trình biến
đổi tín hiệu và ảnh từ tương tự sang số được minh họa ở hình 3.29 dưới đây.

Hình 3.29: Quá trình chuyển đổi tín hiệu và ảnh từ tương tự sang số
3.2.3.1. Lấy mẫu và lượng tử hóa tín hiệu ảnh

Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví
dụ tín hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa
tín hiệu hình ảnh vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua hai
giai đọan: lấy mẫu và lượng tử hóa.

Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 3.30. Tín hiệu
ảnh ứng với một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ
biến đổi liên tục (hình 3.30b). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành
nhiều đoạn bằng nhau. Giá trị tín hiệu tại các điểm lấy mẫu được đánh dấu ô vuông trên
đồ thị. Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần

72
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

số lớn nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rời rạc nhận được hoàn toàn
xác định tín hiệu đó.

Để biến đổi tiếp tín hiệu thành dạng số, chúng ta phải thực hiện giai đoạn lượng tử
hóa các mẫu vừa nhận được. Đây là quá trình rời rạc tín hiệu theo biên độ. Trên hình
3.30d thang xám được chia thành 8 mức rời rạc từ mức trắng tới mức đen. Lượng tử hóa
được thực hiện đơn giản bằng cách tìm giá trị mức lượng tử gần giống nhất với giá trị
thực của mẫu và gán giá trị này cho mẫu ảnh.

Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến
đổi độ chói trong một dòng ảnh. Nếu thực hiện quá trình số hóa cho tất cả các dòng ảnh
từ trên xuống dưới, chúng ta sẽ nhận được ảnh số trong không gian hai chiều.

Hình 3.30: Qúa trình số hóa tín hiệu ảnh


3.2.3.2. Lấy mẫu và lượng tử hóa tín hiệu Video
Trong những năm gần đây công nghệ phần cứng và những hoạt động chuẩn hóa đã
phát triển tới mức có tính khả thi trong việc truyền tải, lưu trữ, xử lý, và xem những tín
hiệu video được lưu ở dạng số, và trong việc chia sẻ tín hiệu video giữa các ứng dụng
khác nhau. Đó là sự phát triển tự nhiên vì thay đổi tạm thời thường có liên quan đến
chuyển động của vài kiểu là thuộc tính quan trọng nhất của một tín hiệu trực quan.

73
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Theo lý thuyết, một tín hiệu video tương tự I(x, y, t) trong đó (x, y) là tọa độ không
gian liên tục và t là thời gian liên tục thì liên tục trong cả hai chiều thời gian và không
gian, vì thông lượng bức xạ vốn có ở độ cảm biến video là liên tục ở mức quan sát bình
thường.
Video số là hiển thị của một hiện tượng tự nhiên trực quan (thế giới thực), được
lấy mẫu theo không gian và thời gian. Một hiện tượng được lấy mẫu ở một điểm thời gian
để tạo ra khung (là hiển thị của hiện tượng trực quan một cách đầy đủ tại thời điểm đó)
hoặc một trường (bao gồm các dãy các mẫu về không gian được đánh số chẵn lẻ). Lấy
mẫu được lặp lại theo chu kì (ví dụ, chu kì 1/25 hoặc 1/30 giây) để tạo ra tín hiệu video
động. Có 3 bộ mẫu (các thành phần) được yêu cầu chủ yếu để hiển thị một hiện tượng
theo màu sắc. Như vậy mỗi một mẫu không gian – thời gian (yếu tố hình ảnh hay pixel)
được hiển thị như là một số hay một bộ các số mô tả độ chói và màu sắc của mẫu.

Hình 3.31: Lấy mẫu theo không gian và thời gian của một chuỗi video
Lấy mẫu không gian
Đầu ra của một mảng CCD là một tín hiệu tương tự, một tín hiệu điện biến đổi
hiển thị hình ảnh video. Lấy mẫu tín hiệu tại một thời điểm tạo ra một hình ảnh hay
khung hình được lấy mẫu xác định giá trị trong tập các điểm lấy mẫu. Định dạng phổ
biển nhất cho một ảnh lấy mẫu là một hình chữ nhật với điểm lấy mẫu nằm trên một hình
vuông hay lưới chữ nhật. Hình 3.32 chỉ ra một khung liên tục với 2 lưới lấy mẫu khác
nhau được đặt chồng lên nhau. Việc lấy mẫu xảy ra tại một trong các điểm giao nhau trên
lưới và hình ảnh được lấy mẫu có thể được tái tạo lại bởi việc hiển thị từng mẫu như là
một yếu tố hình ảnh vuông (pixel).

74
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.32: Hình ảnh với 2 lưới lấy mẫu


Chất lượng hiển thị của hình ảnh bị ảnh hưởng bởi số lượng các điểm lấy mẫu.
Lựa chọn một lưới lấy mẫu “thô” (lưới màu đen trong hình 3.32) tạo ra hình ảnh được lấy
mẫu có độ phân giải thấp (hình 3.33) trong khi tăng số lượng điểm lấy mẫu (lưới màu
xám, hình 3.34) tăng đáng kể độ phân giải của hình ảnh được lấy mẫu.

Hình 3.33: Hình ảnh được lấy mẫu ở độ phân giải thô (lưới lấy mẫu màu đen)

75
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.34: Hình ảnh được lấy mẫu ở độ phân giải tốt hơn
(lưới lấy mẫu màu xám)
Lấy mẫu thời gian

Một hình ảnh video chuyển động được chụp bởi việc chụp theo điểm chữ nhật của
tín hiệu theo các chu kì thời gian. Chiếu lại một loạt các khung tạo ra sự chuyển động.
Tốc độ lấy mẫu cao hơn (tốc độ khung) cho ta sự chuyển động mượt mà hơn trong cảnh
video nhưng yêu cầu nhiều mẫu được chụp và lưu nhiều hơn. Tốc độ khung dưới 10
khung trên giây thường được sử dụng cho thông tin video tốc độ bit thấp (vì số lượng
thông tin tương đối nhỏ) nhưng sự chuyển động thì khá giật và không tự nhiên ở tốc độ
này. Từ 10 đến 20 khung trên giây thì thông dụng hơn cho thông tin video tốc độ bit thấp;
hình ảnh trơn tru hơn nhưng chuyển động bị giật có thể xảy ra trong các phần hình ảnh
chuyển động nhanh. Lấy mẫu ở 25 đến 30 hình trên giây là chuẩn cho hình ảnh truyền
hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60
khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tốc rất cao này).

Các dạng lấy mẫu YCbCr


Hình 3.35 thể hiện 3 cách lấy mẫu cho Y, Cb và Cr theo chuẩn MPEG-4 và H.264.
Lấy mẫu 4:4:4 có nghĩa 3 thành phần (Y,Cb và Cr) là tương đương, và do đó mẫu của
mỗi thành phần tồn tại tại mọi vị trí điểm ảnh.
Các tham số chỉ ra mối quan hệ tốc độ lấy mẫu của mỗi thành phần trong mặt
phẳng nằm ngang, ví dụ lấy 4 mẫu độ chói có 4 mẫu Cb và 4 mẫu Cr. Lấy mẫu 4:4:4 đảm
bảo tính trung thực của mỗi thành phần. Với lấy mẫu 4:2:2 ( đôi khi được gọi là YUY2)
các thành phần có cùng tỉ lệ theo phương thẳng đứng tuy nhiên có một nửa tỉ lệ theo
phương nằm ngang, ví dụ lấy 4 mẫu độ chói có 2 mẫu Cb và 2 mẫu Cr.

76
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Với định dạng 4:2:0 phổ biến (YV12), Cb và Cr mỗi thành phần có giá trị bằng
một nửa tỉ lệ theo chiều ngang và theo chiều dọc của Y. Do mỗi thành phần màu sắc
riêng biệt bao gồm một phần tư số lượng mẫu trong thành phần Y, 4:2:0 video yêu cầu
chính xác một nửa số lượng mẫu của 4:4:4 video.
Ví dụ với 1 ảnh 720 x 576 pixels.
Độ phân giải Y 720 x 576 mẫu, mỗi mẫu được thể hiện với 8 bits.
4:4:4: Độ phân giải Cb, Cr : 720 x 576 mẫu, mỗi mẫu 8 bits.
Tổng số bits : 720 x 576 x 8 x 3 = 9953280 bits.
4:2:0: Độ phân giải Cb, Cr : 360 x 288 mẫu, mỗi mẫu 8 bits.
Tổng số bits : (720 × 576 × 8) + (360 × 288 × 8 × 2) = 4976640bits.
4:2:0: video yêu cầu chính xác một nửa số lượng mẫu của 4:4:4 video.

Hình 3.35: Các mẫu 4:4:4 , 4:2:2 và 4:2:0

77
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Mẫu 4:2:0 đôi khi được gọi là 12 bits trên một điểm ảnh. Với một nhóm bao gồm
4 điểm ảnh, sử dụng mẫu 4:4:4 có tổng cộng 12 mẫu, 4 cho mỗi tham số Y, Cb, Cr, yêu
cầu tổng cộng 12 x 8 = 96 bits, trung bình 96 / 4 = 24 bits/ 1 điểm ảnh. Với mẫu 4:2:0 chỉ
sử dụng 6 mẫu trong đó 4 cho Y và 1 cho mỗi Cb và Cr, yêu cầu tổng cộng 6 x 8 = 48
bits, trung bình 48 / 4 = 12 bits/ điểm ảnh.
Tiếp theo lấy mẫu là quá trình lượng tử hóa. Sự lượng tử hóa là quá trình chuyển
một ảnh có giá trị liên tục, có một khoảng liên tục (tập các giá trị nó có thể nhận) thành
ảnh có giá trị rời rạc, có một khoảng rời rạc. Việc này thường được thực hiện bởi quy
trình cắt tròn, cắt xén hoặc một vài quá trình không tuyến tính, không thể đảo ngược của
sự phá hủy thông tin. Lượng tử hóa là tiền thân của việc xử lý số vì các cường độ ảnh
phải được biểu diễn với giới hạn chính xác (được giới hạn bởi độ dài của từ) trong bất kỳ
bộ xử lý số nào.
Không giống như việc lấy mẫu, sự lượng tử hóa rất khó phân tích vì nó không
tuyến tính. Hơn nữa hầu hết các phương pháp mang tính lý thuyết của việc xử lý số đều
giả thiết rằng các tín hiệu nghiên cứu không được lượng tử hóa, vì điều này dường như sẽ
làm phức tạp sự phân tích. Trái lại, lượng tử hóa là một phần thiết yếu của bất kỳ phép
toán nén tín hiệu nào, ở đó mục tiêu có thể được xem như việc tìm một chiến lược lượng
tử hóa tối ưu mà cùng một lúc giảm lượng dữ liệu có trong tín hiệu trong khi gần như giữ
nguyên độ trung thực của tín hiệu.

3.2.4. Xử lý ảnh trong miền không gian


Nâng cao chất lượng ảnh số là quá trình xử lý trên ảnh ban đầu để tạo ra kết quả là
một bức ảnh tốt hơn xét theo một tiêu chí cụ thể. Ví dụ xử lý để nâng cao chất lượng của
ảnh chụp X-quang sẽ khác với việc nâng cao chất lượng của ảnh chụp của một vệ tinh địa
tĩnh. Có nhiều phương pháp nhằm tăng cường chất lượng của ảnh, nhưng tập trung vào
hai nhánh chính là xử lý ảnh trong miền không gian và xử lý ảnh trong miền tần số.
Trong miền không gian, ảnh được xử lý trực tiếp trên các pixels. Miền tần số sử dụng
biến đổi Fourier để xử lý.
Miền không gian là tập hợp các pixels trong một bức ảnh. Chúng ta sẽ tiến hành
xử lý trực tiếp trên các pixels này. Quá trình xử lý này có thể được mô tả thông qua biểu
thức sau:
g(x, y)=T[f(x, y)] (3.13)1)
Với f(x, y) là ảnh gốc, g(x,y) là ảnh sau xử lý, và T là phép toán biến đổi, dựa trên
các điểm ảnh xung quanh (x, y).
Các điểm ảnh xung quanh có thể có các kích cỡ khác nhau, có thể là dạng vuông
hoặc chữ nhật, trong đó điểm ảnh cần xử lý ở vị trí trung tâm. Trên hình là một khung có
kích thước 3x3. Tùy mục đích cụ thể mà ta dùng các phép biến đổi khác nhau.

78
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.36: Lân cận 3x3 của điểm ảnh (x,y)

3.2.4.1. Phép biến đổi mức xám

Trong phép biến đổi này, giá trị g(x, y) chỉ phụ thuộc vào giá trị của f(x, y), và T
trở thành hàm biến đổi mức xám. Ta có biểu thức đơn giản sau:

s=T(r) (3.14)1)
Với r là mức xám ban đầu tại (x,y), s là mức xám sau biến đổi tại (x,y).

Hình 3.37: Các hàm biến đổi mức xám để nâng cao độ tương phản
Ví dụ: Xét hai phép biến đổi mức xám sau:
Với hình 3.37a, phép biến đổi cho ta ảnh sau xử lý có độ tương phản cao hơn so
với ảnh ban đầu. Các giá tri mức xám r<m qua phép biến đổi được nén lại gần mức 0 (tối
hơn), tương tự với các giá trị r>m nhưng được nén lại gần mức 1 (sáng hơn) làm ảnh sau
xử lý có độ tương phản cao. Phép biến đổi ở hình 3.37b nhằm biến 1 ảnh grayscale thành
1 ảnh nhị phân. Ta xét mức ngưỡng m, với r<m được xét thành mức 0, và r>m xét thành
mức 1.

79
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.2.4.2. Lọc ảnh không gian


Nhiễu thường xuất hiện trên ảnh do nhiều nguyên nhân khác nhau. Để giảm nhiễu
và nâng cao chất lượng ảnh ta sử dụng những phương pháp lọc khác nhau, phù hợp với
mỗi loại nhiễu cụ thể. Lọc không gian (spatial filtering) cũng là một quá trình xử lý trên
các điểm ảnh, dựa trên một phép toán với các điểm ảnh xung quanh. Phương pháp lọc
ảnh bao gồm các bước: (1) xác định điểm ảnh trung tâm (x, y); (2) thực hiện các phép
toán với các điểm xung quanh (x, y); (3) kết qua ta được đáp ứng của quá trình lọc tại (x,
y); (4) lập lại các bước trên với tất cả các điểm ảnh khác.

3.2.5. Xử lý ảnh trong miền tần số

3.2.5.1. Biến đổi Fourier


Trước tiên ta xem xét các khái niệm và bản chất của biến đổi Fourier (FT) cho tín
hiệu số một chiều và hai chiều. Vì ảnh số chỉ là một phần của tín hiệu số nên phải dùng
một dạng khác của biến đổi FT đó là biến đổi Fourrier rời rạc DFT (Discrete Fourrier
Transform).

a. Khái niệm và công thức


Biến đổi Fourrier cho một tín hiệu có thể hình dung như sau:
x(t) FT X(f)
Miền thời gian Miền tần số

Một số ứng dụng cần miền phức, người ta dùng biến đổi phức (biến đổi z) :

x(n) TZ X(z) với z là biến phức

Biến đổi Fourrier cho một tín hiệu một chiều gồm một cặp biến đổi:
- Biến đổi thuận: chuyển sự biểu diễn từ không gian thực sang không gian tần số
(phổ và pha). Các thành phần tần số này được gọi là các biểu diễn trong không gian
Fourrier của tín hiệu.
- Biến đổi ngược: chuyển đổi sự biểu diễn của đối tượng từ không gian Fourrier
sang không gian thực.

a1. Không gian một chiều


Cho một hàm f(x) liên tục. Biến đổi Fourrier của f(x), kí hiệu F(u), u biểu diễn tần
số không gian, được định nghĩa:

∫ f ( x )e
−2 πixu
F(u) = dx (3.15)
−∞

trong đó:

80
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

f(x): biểu diễn biên độ tín hiệu


e-2πixu : biểu diễn pha.
Biến đổi ngược của F(u) cho f(x) được định nghĩa:

f(x) = ∫ F (u)e 2πixu du (3.16)1)


−∞

a2. Không gian hai chiều


Cho f(x, y) hàm biểu diễn ảnh liên tục trong không gian 2 chiều, cặp biến đổi
Fourier cho f(x, y) được định nghĩa:
- Biến đổi thuận
∞ ∞

∫ ∫ f ( x , y )e
−2 πi ( xu + yv )
F(u ,v) = dxdy (3.17)1)
−∞ −∞

u,v biểu diễn tần số không gian.


- Biến đổi ngược
∞ ∞

∫ ∫ F ( u, v ) e
2 πi ( xu + yv )
f(x ,y) = dudv (3.18)1)
−∞ −∞

b. Biến đổi Fourrier rời rạc - DFT

Biến đổi DFT được phát triển dựa trên biến đổi Fourrier cho ảnh số. Ở đây, ta
dùng tổng thay cho tích phân. Biến đổi DFT tính các giá trị của biến đổi Fourrier
cho một tập các giá trị trong không gian tần số được cách đều.

b1. DFT cho tín hiệu một chiều

Với tín hiệu một chiều, người ta biểu diễn bởi một chuỗi trực giao các hàm cơ sở.
Với các hàm liên tục, khai triển chuỗi trực giao sẽ cung cấp chuỗi các hệ số dùng trong
nhiều quá trình khác nhau hay trong phân tích hàm. Khai triển Fourrier rời rạc DFT
cho một dãy {u(n), n = 0, 1, ..., N-1} định nghĩa bởi:
N −1 kn

v(k) = ∑ u( n ) WN , k = 0, 1, ..., N-1; với WN = e-j2π/N (3.19)1)


n =0

và biến đổi ngược:


N −1
1
u(n) =
N
∑ v ( k ) WN-kn , k = 0, 1, ..., N-1
(3.20)
k =0

Thực tế trong xử lý ảnh người ta hay dùng DFT đơn vị:


N −1
1
v(k) =
N
∑ u( k ) WN kn , k=0, 1, ..., N-1
(3.21)1)
n=0

81
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

N −1
1
u(n) =
N
∑ v(k ) WN -kn , k=0, 1, ..., N-1
(3.22)1)
k =0

Các DFT và DFT đơn vị có tính đối xứng. Hơn nữa khai triển DFT và DFT đơn vị
của một chuỗi và biến đổi ngược lại của nó có tính chu kỳ và chu kỳ N.

b2. DFT cho tín hiệu hai chiều (ảnh số)

DFT hai chiều của một ảnh M x N : {u(m, n)} là một biến đổi tách được và được
định nghĩa:
N −1 N −1
v(k,l) = ∑ ∑ u(m, n) WN km WN ln 0 = l, k = N-1
(3.23)1)
m= 0 n = 0

và biến đổi ngược:


N −1 N −1
1
u(m,n) =
N
2 ∑ ∑ v( k , l ) WN -km WN -ln 0 = m, n = N-1
(3.24)1)
k =0 l = 0

Cặp DFT đơn vị hai chiều được định nghĩa:


N −1 N −1
1
v(k,l) =
N
∑ ∑ u(m, n) WN km WN ln 0 = l, k = N-1
(3.25)
m= 0 n = 0

N −1 N −1
1
u(m,n) =
N
∑ ∑ v ( k , l ) WN -km WN -ln 0 = m, n = N-1
(3.26)1)
k =0 l =0

Viết lại công thức trên, ta có:


N −1 N −1
1
v(k,l) =
N
∑ ∑ u(m, n) WN (km + ln) 0 = l, k = N-1
m= 0 n = 0
(3.27)

N −1 N −1
1
u(m,n) =
N
∑ ∑ v ( k , l ) WN -(km + ln) 0 = m, n = N-1
(3.28)1)
k =0 l =0

Ở đây, WN(km+ln) là ma trận ảnh cơ sở, ejα = cos(α) +jsin(α) (công thức Eucle). Do vậy:

WN(km+ln) = e-j2π(km+ln)/N = cos(2π(km+ln)/N) - j sin (2π(km+ln)/N)


(3.29)1)

Như vậy, các hàm cơ sở trong ma trận ảnh cơ sở của biến đổi Fourier là các hàm
cosine và hàm sine. Theo tính toán trên, ta thấy biến đổi Fourrier biểu diễn ảnh trong
không gian mới theo các hàm sine và cosine.

82
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.2.5.2. Lọc ảnh trong miền tần số


Như chúng ta đã biết biến đổi Fourier đóng vai trò quan trọng trong xử lý ảnh, có
khả năng linh hoạt cao trong thiết kế và tiến hành các phương pháp lọc trong việc nâng
cao chất lượng ảnh, phục hồi ảnh, nén ảnh… Ở đây, mỗi giá trị F(u, v) chứa tất cả các
thành phần f(x, y) nhân với thành phần mũ, do đó phổ Fourier có liên quan đến sự thay
đổi các giá trị mức xám của ảnh. Tần số thấp ứng với các thành phần có sự thay đổi chậm
về mức xám của ảnh, trong khi đó tần số cao ứng với sự thay đổi mức xám nhanh hơn, ví
dụ như nhiễu và cạnh biên. Như vậy nếu lọc đi các thành phần tần số cao và lấy thành
phần tần số thấp thì ảnh thu được sẽ mượt và giảm nhiễu, trong khi đó nếu ta chỉ lấy các
thành phần tần số cao thì ảnh sau lọc sẽ sắc nhọn và các chi tiết như nhiễu sẽ nổi bật hơn.
Ta có các bộ lọc tương ứng là bộ lọc thông thấp và bộ lọc thông cao.

83
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.3. Kỹ thuật nén ảnh


3.3.1. Tổng quan về nén ảnh

Mỗi ngày, một lượng thông tin khổng lồ được lưu trữ lại, truy cập và truyền dẫn
dưới dạng số. Các công ty cung cấp cho các đơn vị liên quan, các nhà đầu tư, và khách
hàng, tiềm năng dữ liệu về tài chính, các báo cáo thường niên, kiểm kê đánh giá và thông
tin về sản phẩm thông qua mạng Internet. Với yêu cầu tiếp nhận và tìm kiếm, hai trong số
hầu hết các cách giao dịch cơ bản trực tuyến, thông thường được thực hiện tại nhà với sự
thoải mái tiện nghi. Bước đầu của chính phủ điện tử (còn gọi là chính phủ số) của Hoa
Kỳ là thiết lập ra toàn bộ danh sách (hoặc nội dung) của thư viện Quốc hội, đó là thư viện
lớn nhất thế giới, có thể truy cập điện tử và các chương trình truyền hình cáp theo yêu cầu
sẽ trở thành hiện thực trong tương lai gần. Do hầu hết các thông tin trực tuyến được diễn
đạt dưới dạng đồ họa hoặc hình ảnh tự nhiên, các yêu cầu về lưu trữ và truyền thông là rất
lớn. Nên các phương pháp nén dữ liệu trước khi lưu trữ và truyền dẫn là mối quan tâm
mang tính chất thương mại và thực tiễn rất quan trọng.

Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu cầu để tái hiện lại
một ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toán
học, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quan
về mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyền
hình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạo lại hình ảnh
gốc hoặc gần đúng của nó.

Mối quan tâm về việc nén ảnh đã có từ hơn mấy chục năm nay. Trọng tâm ban đầu
của các nỗ lực nghiên cứu trong lĩnh vực này theo các phương pháp tương tự để giảm
băng thông truyền tín hiệu video, đó là một quy trình được gọi là nén băng thông. Việc
đạt đến máy tính số và sự phát triển sau đó của các mạch tích hợp tân tiến đưa đến yêu
cầu phải thay đổi các phương thức nén từ tương tự sang số. Với một vài khóa quốc tế của
chuẩn nén ảnh mới được thông qua gần đây, phạm vi này đã trải qua sự phát triển rất ý
nghĩa thông qua các ứng dụng thực tế của lý thuyết bắt đầu từ những năm 1940, khi
C.E.Shannon và những nhà khoa học khác đưa ra công thức đầu tiên theo xác suất của
thông tin và các quá trình tái tạo, truyền dẫn và nén.
Hiện nay, nén ảnh được thừa nhận như là: “công nghệ hỗ trợ”. Thêm vào phạm vi
vừa được đề cập, nén ảnh là một công nghệ tự nhiên để trình bày cho giải pháp tăng về
không gian của cảm biến ảnh ngày nay và tiến triển đến các chuẩn quảng bá vô tuyến.
Hơn nữa, nén ảnh còn nắm vai trò lớn hơn trong nhiều ứng dụng khác nhau, bao gồm cả
thoại hội nghị video, khả năng phán đoán từ xa (việc sử dụng hình ảnh từ vệ tinh các ứng
dụng trong dự báo thời tiết hoặc về các tài nguyên khác của trái đất), các ảnh tài liệu, các
ảnh y học, truyền dẫn kiểu sao chép (FAX), các phương tiện điều khiển từ xa trong quân
đội, không gian và các ứng dụng quản lý còn đang bị bỏ ngỏ khác. Nói tóm lại, số lượng
các ứng dụng luôn phát triển không ngừng phụ thuộc vào hệ số thao tác, bộ nhớ và sự
truyền dẫn nhị phân, mức xám và các ảnh màu.

84
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đa
phương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏ
hơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nén
ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên mà
có trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết được
phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng
bit it hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ
tổ chức, sắp xếp lại được bức ảnh, xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoả
mãn chất lượng yêu cầu, đảm bảo đủ thông tin cần thiết.

3.3.1.1. Nguyên tắc cơ bản

Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giám lượng số liệu dư thừa số liệu
cần thiết để biểu diễn cùng một lượng thông tin cho trước. Cần phải phân biệt giữa số liệu
và thông tin. Thực tế số liệu và thông tin không đồng nghĩa với nhau. Số liệu (và do đó
tín hiệu) chỉ là phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho
trước có thể biểu diễn bằng các lượng số liệu khác nhau. Ví dụ, trong một trường hợp cụ
thể một câu chuyện dài được tóm lược thành câu chuyện ngắn hơn. Ở đây, thông tin cần
quan tâm là câu chuyện, các câu từ là dữ liệu được sử dụng để tóm lược thông tin. Nếu sử
dụng 2 cách riêng biệt với các từ ngữ khác nhau để cùng kể câu chuyện trên, ta sẽ tạo
được 2 phiên bản của câu chuyện và sẽ có một cái kém nhất sẽ chứa dữ liệu không cần
thiết. Đó là, nó bao gồm dữ liệu (các từ) chúng cung cấp không liên quan đến thông tin
hay đơn giản là trình bày lại cái đã biết. Và do đó, nó bao gồm dữ liệu dư thừa.

Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Đánh giá cho quá trình
thực hiện giải thuật nén là tỉ lệ nén ( ) được xác định như sau: Nếu và là lượng số
liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông tin cho trước thì
độ dư thừa số liệu tương đối của tập số liệu thứ nhất so với tập số liệu thứ hai có thể
được định nghĩa như sau:
(3.30)
trong đó:
(3.31)
Trong trường hợp thì và có nghĩa là so với tập số liệu thứ hai thì
tập số liệu thứ nhất không chứa số liệu dư thừa. Khi thì tiến tới vô cùng và
tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá
lớn hay tập số liệu thứ hai đã được nén khá nhỏ.

Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ
làm giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi
tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đề

85
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

nghị tính số bit cho một điểm trong ảnh nén ( ). Nó được xác định là tổng số bit ở ảnh
nén chia cho tổng số điểm:
= Số bit nén/Số điểm (3.32)
Trong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạng và phân biệt.
• Dư thừa mã (Coding Redundancy)
Nếu các mức của tín hiệu video được mã hóa bằng càc symbol nhiều hơn cần thiết
(tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thường
sử dụng các mã VLC như mã Huffman, mã RLC v.v... Lượng thông tin về hình ảnh có
xác suất thấp hơn.
• Dư thừa trong pixel (Interpixel Redundancy)
Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của các
lân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của một
pixel riêng vào một ảnh là dư thừa. Nhiều tên (bao gồm: dư thừa không gian, dư thừa
hình học, dư thừa trong ảnh) được đặt ra để phân biệt sự phụ thuộc này của các pixels. Ta
dùng độ dư thừa trong pixel để chỉ tất cả các tên trên. Để giảm độ dư thừa trong pixel của
một ảnh, dãy pixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một
dạng có hiệu quả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến
đổi cosin rời rạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách
này sẽ giảm được độ dư thừa số liệu trong pixel ở miền tần số cao.
• Dư thừa tâm sinh lý
Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới trong một
phạm vi nhất định. Hiện tượng này xuất phát từ sự thật là mắt không đáp ứng với cùng độ
nhậy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơn
thông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn.
Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. Khác
với độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thông
tin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ một
khoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử không
đảo ngược (mất thông tin) cho kết quả nén số liệu có tổn hao.

3.3.1.2. Mô hình nén

Trong lĩnh vực truyền thông video, kỹ thuật xử lý tín hiệu chủ yếu tập trung vào
mục đích nén. Người ta thường sử dụng 3 phương pháp nén đối với hình ảnh dựa vào các
loại độ dư: dư thừa không gian, dư thừa phổ và dư thừa tâm sinh lý nhìn.

Nén về cơ bản là một quá trình trong đó số lượng số liệu (data) biểu diễn lượng
thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số liệu dư
thừa trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều phần ảnh giống nhau. Vậy
tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua mà không làm mất
thông tin hình ảnh. Đó là các phần xóa dòng, xóa mành, vùng ảnh tỉnh hoặc chuyển động
rất chậm,vùng ảnh nền giống nhau, mà ở đó các phần tử liên tiếp hoặc khác nhau rất ít.

86
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Ngoài ra, để tăng hệ số nén ảnh động, chuyển động trong ảnh truyền hình phải được dự
báo, khi đó, ta chỉ cần truyền các thông tin về hướng và mức độ (vector) chuyển động của
các vùng ảnh khác nhau. Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần
truyền các thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu video
và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh có nhiều chi tiết
và các phần tử chuyển động). Quá trình giải nén ảnh là quá trình xấp xỉ để khôi phục ảnh
gốc (thường thực hiện ở phía thu).

Một hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi,
bộ lượng tử hoá, bộ mã hoá (hình 3.38).

Hình 3.38: Sơ đồ khối hệ thống nén ảnh tiêu biểu

- Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tín
hiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn là
dùng tín hiệu nguyên thủy.
- Bộ lượng tử hoá: tạo ra một lượng ký hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượng
tử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiện
lượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch.
- Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi ký hiệu.
Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên và
được phân loại như sau:
- Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độ
bit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuận
nghịch.
- Hệ thống nén có mất thông tin (loss data reduction): đạt được độ trung thực tốt nhất đối
với tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vì
có hệ số nén cao.

Trong sơ đồ hình 3.38, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không
bị tổn thất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta
có thể phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã
hoá nguồn (mã hoá có tổn thất).

87
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.3.2. Hiệu quả của quá trình nén và chất lượng ảnh

Hiệu quả nén được xác định bằng tỉ lệ nén, nghĩa là tỉ số giữa số lượng dữ liệu của
ảnh gốc trên số liệu của ảnh nén.

Độ phức tạp của thuật toán nén, được xác định bằng số bước tính toán trong cả hai
quá trình mã hóa và giải mã. Thông thường thì thuật toán nén càng phức tạp bao nhiêu thì
hiệu quả nén càng cao nhưng ngược lại giá thành và thời gian để thực hiện lại tăng. Đối
với thuật toán nén có tổn thất thì độ sai lệch được xác định bằng số thông tin bị mất đi khi
ta tái tạo lại hình ảnh từ dữ liệu nén. Với nén không tổn thất thì chúng ta có thể có những
thuật toán mã hóa càng gần với Entropy của thông tin nguồn bởi vì lượng Entropy của
nguồn chính là tốc độ nhỏ nhất mà bất cứ một thuật toán nén không tổn thất nào cũng có
thể đạt được.

Ngược lại, trong nén có tổn thất thì mối quan hệ giữa tỉ lệ nén và độ sai lệch thông
tin được Shannon nghiên cứu và biểu diễn dưới dạng hàm (hàm về độ sai lệch thông
tin). Lý thuyết của ông cũng chỉ ra rằng với thuật toán nén có tổn thất thì chúng ta sẽ có
hiệu quả nén cao nhất nhưng ngược lại ta lại bị mất thông tin trong quá trình tái tạo lại nó
từ dữ liệu nén. Trong khi đó nén không tổn thất, mặc dù đạt được hiệu quả thấp, nhưng ta
lại không bị mất thông tin trong quá trình tái tạo lại nó. Vì vậy ta phải tìm ra một giải
pháp nhằm trung hòa giữa hai thuật toán nén này để tìm ra một thuật toán nén tối ưu sao
cho hiệu quả cao mà lại không bị mất mát thông tin.

Phương pháp đánh giá chất lượng ảnh nén thông dụng nhất là dựa trên mức sai
lệch bình phương trung bình so với ảnh gốc - rms (Root Mean Square) được tính bởi biểu
thức:

(3.39)

trong đó: rms: sai lệch bình phương trung bình


X i : giá trị điểm ảnh gốc
X i' : giá trị điểm ảnh sau khi nén
n: tổng số điểm ảnh trong một ảnh
Thông thường, khi giá trị rms thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một
số trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị rms.

88
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.3.3. Phân loại các phương pháp nén ảnh

Có nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào
nguyên lý nén. Cách này phân các phương pháp nén thành loại chính:
• Nén không mất thông tin: bao gồm các phương pháp nén mà sau khi giải nén
ta thu được chính xác dữ liệu gốc.
• Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta
không thu được dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các
phương pháp “tâm lý thị giác”. Các phương pháp này lợi dụng tính chất của
mắt người, chấp nhận một số sai số trong ảnh khi khôi phục lại. Tất nhiên,
các phương pháp này chỉ có hiệu quả khi mà độ sai lệch là chấp nhận được
bằng mắt thường hay với dung sai nào đó.

Cách phân loại thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta
cũng phân thành hai phương pháp:
• Phương pháp không gian (Spatial Data Compression): thực hiện nén bằng
cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc.
• Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến
đổi của ảnh gốc mà không tác động trực tiếp.

Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây:

Quá trình nén

Dữ liệu gốc Dữ liệu nén

Quá trình giải nén

Hình 3.39: Sơ đồ quá trình nén và giải nén dữ liệu

Sau đây ta tập trung giới thiệu về các phương pháp nén theo cách phân loại thứ
nhất.

3.3.3.1. Nén không mất thông tin

Nén không mất thông tin cho phép phục hồi đúng tín hiệu ban đầu sau khi giải
nén. Đây là một quá trình mã hoá có tính thuận nghịch. Hệ số nén không mất thông tin
nhỏ hơn . Các kỹ thuật nén không mất thông tin có thể là:

89
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Mã hoá với độ dài từ mã thay đổi VLC: Đây là phương pháp mã hoá Huffman và
mã hoá Entropy dựa trên khả năng xuất hiện của các biên độ trùng hợp trong một bức
ảnh, thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài
cho các giá trị còn lại. Khi giải nén sử dụng các băng tìm kiếm.

Mã hóa LZW: Phương pháp nén LZW được phát minh bởi Lempel - Zip và
Welch. Nó hoạt động dựa trên một ý tưởng rất đơn giản là người mã hóa và người giải
mã cùng xây dựng bảng mã.

Thuật toán Huffman có ưu điểm là hệ số nén tương đối cao, phương pháp thực
hiện tương đối đơn giản, đòi hỏi ít bộ nhớ, có thể xây dựng dựa trên các mảng bé hơn
. Nhược điểm của nó là phải chứa cả bảng mã vào tập tin nén thì phía nhận mới có
thể giải mã được do đó hiệu suất nén chỉ cao khi ta thực hiện các tập tin lớn. Thuật toán
LZW thì có ưu điểm là hệ số nén tương đối cao, trong tập tin nén không cần chứa bảng
mã, nhược điểm của thuật toán này là tốn nhiều bộ nhớ, khó thực hiện dựa trên các mảng
đơn giản (<64KB).

3.3.3.2. Nén có tổn thất

Sau khi nén một số thông tin bị mất chất lượng hình ảnh giảm do quá trình làm
tròn và loại bỏ giá trị trong phạm vi khung hình hay giữa các khung hình. Nếu nén nằm
trong giới hạn sự cảm nhận của mắt người thì chất lượng suy hao không nghiêm trọng.
Với việc nén có tổn hao này, nén tín hiệu mới thật sự có ý nghĩa đối với truyền hình.

Nén mất thông tin đạt tới hệ số nén . Tốc độ dòng số liệu đạt được trong hệ
thống nén phụ thuộc vào yêu cầu chất lượng ảnh cần có. Các kỹ thuật nén có tổn thất bao
gồm:
Mã hóa dự đoán tổn hao, các giá trị mang thông tin đã được gửi hay đang sẵn có
sẽ được sử dụng để dự đoán các giá trị khác, và chỉ mã hóa sự sai lệch giữa chúng.
Phương pháp này đơn giản và rất phù hợp với việc khai thác các đặc tính cục bộ của bức
ảnh. Kỹ thuật DPCM chính là một ví dụ điển hình của phương pháp này.

Mã hóa dựa trên phép biến đổi thì lại thực hiện như sau: trước tiên thực hiện phép
biến đổi thường dùng là DCT – Biến đổi Cosin rời rạc, DWT – biến đổi Wavelet rời rạc,
tiếp đó thực hiện mã hóa đối với các hệ số biến đổi. Phương pháp này có hệ số cao hơn
rất nhiều so với phương pháp dự đoán bởi vì chính các phép biến đổi (sử dụng các thuộc
tính nén năng lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một ít
các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi lượng tử hóa và
như vậy lượng dữ liệu phải truyền nhỏ đi rất nhiều. Còn trong phương pháp mã hóa dự
đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn còn có ý nghĩa (còn sử dụng ở các bước
tiếp theo) sau khi lượng tử hóa, chính điều này làm cho phương pháp mã hóa dự đoán có
nhiều dữ liệu được truyền đi hơn so với phương pháp biến đổi.

90
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.3.4. Các phương pháp mã hoá dùng trong kỹ thuật nén không tổn thất

Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sự
giảm bớt dữ liệu. Một ứng dụng ví dụ như nơi lưu trữ những tài liệu y học hay doanh
nghiệp, nơi mà việc nén có tổn thất thường là không được phép vì những lý do bắt buộc.
Một ví dụ khác là việc xử lý các hình ảnh vệ tinh, bất kỳ một sự mất mát nào đều không
thích hợp cho cả việc sử dụng lẫn chi phí của việc tập hợp dữ liệu. Tuy thế, việc chụp X
quang số, thì mất mát thông tin có thể được thoả hiệp sự chính xác trong chuẩn đoán.
Trong một vài trường hợp khác, nhu cầu việc nén không tổn thất được thúc đẩy bởi việc
xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén.

Trong phần này, chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn
thất hiện thời đang được sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn
nữa, chúng cũng thích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free
thường bao gồm 2 thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế
ảnh cũ trong đó sự dư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn
ảnh đó để loại trừ tối đa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã
hoá ký tự của kiểu mã hoá nguồn.

3.3.4.1. Mã hoá với độ dài từ mã thay đổi

Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơ
chuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gán
tương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độ
dài của các mã nên biến đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC.
Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tức là
log2p. Do đó, entropy của các kí hiệu là số bít trung bình tối thiểu cần để biểu diễn các kí
hiệu:
n
H ( x) = −∑ pi log 2 pi (3.40)
i =1

Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman
và mã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC)
chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng như
giải mã các vec tơ chuyển động.

1. Mã hóa Shannon-Fano

Thuật toán Shannon-Fano phát triển độc lập bởi Shannon ở Bell Labs và Robert
Fano tại MIT. Để minh họa thuật toán, chúng ta giả sử các ký hiệu được mã hoá là các ký
tự trong từ HELLO. Tần xuất xuất hiện của các ký tự là:

91
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Các ký hiệu H E L O
Tần xuất xuất hiện 1 1 2 1
Các bước của thuật toán mã hóa Shannon-Fano có thể được trình bày theo cách từ
trên xuống:

1. Phân loại các ký hiệu theo tần xuất xuất hiện của chúng
2. Phân chia theo đệ quy các ký hiệu thành hai phần, với mỗi khoảng cùng số lượng của
số lần xuất hiện, cho đến khi tất cả các phần có chứa chỉ có một ký hiệu.

Một cách tự nhiên của việc thực hiện các thủ tục trên là xây dựng một cây nhị
phân. Theo quy ước, chúng ta gán bit 0 cho nhánh trái của nó và bit 1 cho các nhánh
phải.

Hình 3.40: Cây mã hóa cho từ HELLO bởi thuật toán Shannon-Fano

Ban đầu, các ký hiệu được sắp xếp là LHEO. Hình 3.40 cho thấy, việc chia đầu
tiên tạo ra làm 2 phần: (a) L với tần suất xuất hiện là 2, ký hiệu là L: (2) ; và (b) H, E và
O với tổng số lần xuất hiện là 3, ký hiệu là H, E, O: (3). Lần phân chia thứ hai sinh ra
H: (1) và E, O: (2) và lần phân chia cuối cùng là E: (l) và O: (1).

Bảng 3.3 tóm tắt kết quả, hiển thị mỗi ký hiệu, tần xuất xuất hiện của chúng, nội
dung thông tin ( lo g 2 p1 ), từ mã kết quả, và số bit cần thiết để mã hóa cho mỗi ký hiệu
i

trong từ HELLO. Tổng số bit sử dụng được hiển thị ở phía dưới và entropy trong trường
hợp này được tính:

H=

92
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

= 0.4 x 1.32 + 0.2 x 2.32 + 0.2 x 2.32 + 0.2 x 2.32 = 1.92

Symbol Count pi log 2 1


pi
Code Số bít được dùng
L 2 1.32 0 2
H 1 2.32 10 2
E 1 2.32 110 3
O 1 2.32 111 3
Tổng số bít 10

Bảng 3.3: Kết quả thực hiện bởi thuật toán Shannon-Fano cho từ HELLO.

Điều này cho thấy số bit trung bình tối thiểu của để mã mỗi ký hiệu trong từ
HELLO là 1,92. Trong ví dụ này, các thuật toán Shannon-Fano sử dụng một giá trị trung
bình là 10 / 5 = 2 bit để mã mỗi ký tự, khá gần với giới hạn thấp là1,92. Rõ ràng, kết quả
là thỏa đáng.

Lưu ý rằng kết quả của thuật toán Shannon-Fano không nhất thiết là duy nhất. Ví
dụ, nếu cách chia đầu tiên trong ví dụ trên thành hai phần L, H: (3) và E, 0: (2). Điều này
sẽ cho kết quả mã hóa ở hình 3.41. Bảng 3.4 cho thấy các từ mã thu được khác với trước
(Bảng 3.3). Các thuật toán Shannon-Fano đạt yêu cầu mã hóa cho nén dữ liệu, nhưng việc
nén này sẽ được thực hiện tốt hơn bởi phương pháp mã hóa Huffman.

Hình 3.41: Một dạng cây mã hóa khác cho từ HELLO theo thuật toán Shannon-Fano

Symbol Count pi log 2 1


pi Code Số lượng bit dùng
L 2 1.32 00 4
H 1 2.32 01 2
E 1 2.32 10 2
0 1 2.32 11 2
Tổng số bít: 10

Bảng 3.4: Một kết quả khác được thực hiện bởi thuật toán Shannon-Fano với từ HELLO

93
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

2. Mã hoá Huffman

Mã hóa Huffman là một phương pháp mã hóa độ dài thay đổi được sử dụng phổ
biến. Nó dựa trên bảng tần xuất xuất hiện các kí hiệu cần mã hóa để xây dựng một bộ mã
nhị phân cho các kí hiệu đó sao cho dung lượng (số bít) sau khi mã hóa là nhỏ nhất. Số
bít tối ưu sử dụng để mã hóa cho mỗi kí hiệu là -log2p, trong đó p là xác suất của một kí
hiệu.

Tuy nhiên, vì các từ mã được gán phải là một số nguyên các bít, khiến cho mã hóa
Huffman trở nên kém tối ưu. Ví dụ, nếu xác suất của một kí hiệu là 0.33 thì số bít tối ưu
dùng để mã hóa kí hiệu đó là 1.6 bit, nhưng với mã hóa Huffman thì ta phải gán hoặc 1
bít hoặc 2 bit cho mã. Tính trung bình thì cả hai trường hợp này đều phải dùng nhiều bit
hơn so với entropy của nó. Khi xác suất của một kí hiệu càng lớn thì mã hóa Huffman
càng trở nên kém tối ưu. Ví dụ, với kí hiệu có xác suất là 0.9, kích cỡ mã tối ưu nên là
0.15 bít, nhưng với mã hóa Huffman thì phải gán ít nhất 1 bít cho một kí hiệu, tức là lớn
gấp khoảng 6 lần so với mức cần thiết.

Để tạo ra mã Huffman cho các kí hiệu với xác suất xuất hiện đã biết, ta thực hiện
các bước sau:
- Sắp xếp các kí hiệu theo thứ tự xác xuất xuất hiện của chúng.
- Lần lượt hợp nhất hai kí hiệu với xác suất nhỏ nhất để hình thành nên một kí
hiệu hợp mới, và lại tiến hành sắp xếp các kí hiệu này để tạo ra một cây mà
mỗi node của cây đó mang xác suất của tất cả các node dưới nó.
- Lần theo đường đi tới mỗi lá, ghi lại hướng tại mỗi node.

Hình 3.42 cho ta một ví dụ của mã hóa Huffman cho 7 kí hiệu: A đến G. Cột thứ 3
là các xác suất xuất hiện của chúng theo thứ tự giảm dần. Ở cột tiếp theo, ta kết hợp hai
xác suất nhỏ nhất để tạo ra một xác suất hợp. Tiếp tục thực hiện như vậy cho tới khi đạt
tới xác suất bằng 1. Bắt đầu từ cột cuối cùng, ta gán ‘0’ cho nhánh cao và gán ‘1’ cho
nhánh thấp. Từ mã tương ứng (ở cột 1) có được bằng cách đọc ngược theo thứ tự từ phải
qua trái. Như vậy, với độ dài từ mã cố định thì mỗi mẫu được biểu diễn bởi 3 bít, trong
khi trong VLC chúng được biểu diễn bởi từ hai đến bốn bit.

94
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.42: Ví dụ về mã Huffman cho 7 kí hiệu


Số bít trung bình trên một kí hiệu là:
L= 0.25 × 2 + 0.20 × 2 + 0.18 × 3 + 0.15 × 3 + 0.12 × 3 + 0.06 × 4 + 0.04 × 4 = 2.65 bit
Giá trị này rất gần với giá trị entropy:
 0.25 × log 2 0.25 + 0.2 × log 2 0.2 + 0.18 × log 2 0.18 + 0.15 × log 2 0.15 
H= −   = 2.62 bit
 +0.12 × log 2 0.12 + 0.06 × log 2 0.06 + 0.04 × log 2 0.04 
3. Mã hóa số học

Mã hóa Huffman có thể được tối ưu nếu xác suất kí hiệu là một số nguyên lũy
thừa của ½, nhưng không phải lúc nào cũng như vậy. Mã hóa số học là kĩ thuật nén dữ
liệu mà cho phép mã hóa dữ liệu bằng cách tạo ra một chuỗi mã (code string). Chuỗi này
biểu diễn một giá trị thập phân nằm trong khoảng giữa 0 và 1.

Mô hình là cách tính toán phân bố các xác suất cho kí hiệu tiếp theo sẽ được mã
hóa, sao cho bộ giải mã tìm ra được phân bố xác suất y hệt như thế. Có hai loại mô hình
được sử dụng trong mã hóa số học:
- Mô hình cố định: Trong mô hình này, cả bộ mã hóa và bộ giải mã biết được
xác suất đã gán cho mỗi kí hiệu. Những xác suất này có thể được xác định
bằng cách đo đạc các tần số trong các mẫu đại diện sắp được mã và các tần số
kí hiệu
- Mô hình thích nghi: xác suất được gán có thể thay đổi khi mỗi kí hiệu được mã
hóa, dựa trên các tần số kí hiệu thấy được.

95
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Nguyên lý
Ý tưởng cơ bản của mã hóa số học là sử dụng khoảng chia giữa 0 và 1 để biểu diễn
các khoảng mã hóa. Rõ ràng hàm mật độ xác xuất tích lũy của tất cả các kí hiệu sẽ bằng
1. Khi bản tin càng dài thì các khoảng để biểu diễn bản tin đó càng ngắn, và số các bít
cần để xác định khoảng đó càng tăng. Dựa trên các xác suất kí hiệu tạo ra bởi mô hình,
kích thước của các khoảng cho các kí tự tiếp theo của bản tin sẽ giảm.

Để hiểu nguyên lý hoạt động của mã hóa số học, ta xét mã hóa số học mô hình
tĩnh. Giả sử các chữ cái là {a, e, i, o, u, !} và mô hình tĩnh được sử dụng với các xác suất
như biểu diễn ở Bảng 3.5.

Kí hiệu Xác suất Dải


a 0.2 [0.0, 0.2)
e 0.3 [0.2, 0.5)
i 0.1 [0.5, 0.6)
o 0.2 [0.6, 0.8)
u 0.1 [0.8, 0.9)
! 0.1 [0.9, 1.0)

Bảng 3.5: Ví dụ Mô hình tĩnh cho các chữ cái {a, e, i, o, u, !}


Một khi biết được xác suất tín hiệu, thì mỗi kí hiệu riêng lẻ cần được gán một đoạn
của dải [0, 1) mà đoạn đó tương ứng với xác suất xuất hiện của kí tự đó trong hàm mật độ
xác suất tích lũy. Chẳng hạn, chữ cái u với xác suất là 0.1, được định nghĩa trong dải tích
lũy của [0.8, 0.9) có thể lấy bất cứ giá trị nào từ 0.8 đến 0.8999...

Phần quan trọng nhất của một bản tin được mã hóa số học là việc mã hóa kí tự đầu
tiên. Giả sử ta cần mã hóa bản tin eaii!, kí tự đầu tiên cần được mã hóa là e. Do đó, bản
tin được mã hóa cuối cùng phải là một số lớn hơn hoặc bằng 0.2 và nhỏ hơn 0.5. Sau khi
kí hiệu đầu tiên đã được mã hóa, ta biết được giá trị biên trên và biên dưới cho dải bản tin
đầu ra. Mỗi giá trị mới được mã hóa sẽ càng làm cho dải này hẹp lại.

Kí tự tiếp theo cần được mã hóa là kí tự a nằm trong dải 0-0.2 trong khoảng mới.
Đây không phải là kí tự đầu tiên được mã hóa nên nó nằm trong dải tương ứng với 0-0.2
nhưng ở dải con mới [0.2, 0.5). Trong dải con mới có độ dài 0.5 – 0.2 = 0.3 này, dải cho
a là [0.2, 0.26). Tiếp theo, kí tự i được mã hóa, tương tự nó phải nằm trong dải [0.23,
0.236). Cứ tiếp tục như vậy, ta sẽ xây dựng được quá trình mã hóa bản tin như Bảng 3.6
sau đây.

96
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Kí tự mới Dải
Khởi tạo [0, 1)
Sau khi xem xét một kí hiệu e [0.2, 0.5)
a [0.2, 0.26)
i [0.23, 0.236)
i [0.233, 0.2336)
! [0.23354, 0.2336)

Bảng 3.6: Biểu diễn quá trình mã hóa số học

Hình 3.43 minh họa một cách biểu diễn khác của quá trình mã hóa.

Hình 3.43: Biểu diễn quá trình mã hóa số học với các khoảng chia tại mỗi giai đoạn cho
bản tin eaii!

Dải cuối cùng thu được, tức là dải [0.23354, 0.2336), biểu diễn bản tin eaii!. Điều
đó có nghĩa là nếu ta truyền bất cứ số nào nằm trong dải này, thì số đó đều biểu diễn toàn
bộ bản tin eaii!.

Giải mã

Với sơ đồ mã hóa này, tương đối đơn giản để giải mã từng thành phần riêng lẻ của
bản tin eaii! Giả sử ta truyền đi số x = 0.23355 (nằm trong dải 0.23354 <= x <0.2336).
Bộ giải mã sẽ sử dụng các khoảng xác suất giống như bộ mã hóa và thực hiện quá trình
tương tự. Bắt đầu với khoảng khởi đầu [0,1), giá trị 0.23355 nằm trong khoảng [0.2, 0.5)
của e. Do vậy, kí hiệu đầu tiên chỉ có thể là e. Tương tự như quá trình mã hóa, các
khoảng kí hiệu bây giờ được xác định trong khoảng mới [0.2, 0.5). Điều này tương đương
với việc định nghĩa mã đó trong dải khởi tạo [0, 1) nhưng offset mã này bởi giá trị dưới
và sau đó lấy tỉ lệ trong dải ban đầu của nó. Như thế, mã mới sẽ là (0.23355-0.2)/(0.5-

97
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

0.2)=0.11185. Dễ thấy mã này nằm trong khoảng [0, 0.2) của kí hiệu a. Do đó, kí hiệu
thứ hai được giải mã là kí hiệu a. Để tìm kí hiệu thứ ba, ta phải tìm mã mới trong dải này,
tức là (0.11185-0)/(0.2-0)=0.55925. Giá trị này nằm trong khoảng [0.5, 0.6), ứng với kí
hiệu i, tức là kí hiệu thứ ba được giải mã ra là kí hiệu i. Tiếp tục, ta tìm được mã mới sau
khi giải mã kí hiệu thứ ba là (0.55925-0.5)/(0.6-0.5)=0.5925, giá trị này cũng nằm trong
khoảng [0.5, 0.6), do đó kí hiệu thứ tư sẽ là i. Lặp lại trình tự như trên, ta được mã mới
(0.5925-0.5)/(0.6-0.5)=0.925, nằm trong khoảng [0.9, 1), tương ứng với kí hiệu ! , đây là
kí hiệu cuối cùng cần giải, và quá trình giải mã kết thúc. Bảng 3.7 minh họa toàn bộ quá
trình giải mã của bản tin eaii!.

Số được mã hóa Kí hiệu đầu Dải


ra
0.23355 e [0.2, 0.5)
0.11185 a [0, 0.2)
0.55925 i [0.5, 0.6)
0.59250 i [0.5, 0.6)
0.925 ! [0.9, 1)

Bảng 3.7: Biểu diễn quá trình giải mã của mã hóa số học

Tổng quát, quá trình giải mã có thể được công thức hóa như sau:
R − Ln
Rn +1 = n (3.41)
U n − Ln
Trong đó Rn là mã nằm trong dải giá trị dưới Ln và giá trị trên Un của kí hiệu thứ n
và Rn+1 là mã cho kí hiệu tiếp theo.

3.3.4.4. Mã hoá dự đoán không tổn hao

Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc
phân tích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã
hoá dự đoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm
trong không gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong
mỗi điểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự
đoán và thực tế của điểm ảnh đó.

Hình 3.44 chỉ ra các thành phần cơ bản của một hệ thống mã hoá dự đoán không
tổn hao. Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ
dự đoán đồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng , được
đưa vào trước tiên trong bộ mã hoá, bộ dự đoán tạo ra một giá trị dự đoán trước của điểm
ảnh trên cơ sở số các đầu vào cũ.

98
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu
thị bởi , và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán.
(3.42)

Ảnh đầu +∑ Mã hoá Ảnh đã


vào ký hiệu được nén
_

Bộ dự Làm tròn với số


đoán nguyên gần nhất

Ảnh đã Giải mã en +∑ fn Ảnh đã


được nén ký hiệu _ giải nén

f^n Bộ dự
đoán

Hình 3.44: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã

Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá
biểu tượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình
3.44 (b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo:
(3.43)

Các phương pháp thích hợp khác nhau giữa các miền hoặc toàn cầu (xem 3.3.5.1)
có thể được sử dụng để tạo ra . Tuy nhiên, trong hầu hết các trường hợp, bộ dự đoán
được cấu tạo bởi sự kết hợp tuyến tính của điểm ảnh trước đó:
(3.44)
là bậc của bộ dự đoán tuyến tính, là một hàm số sử dụng để biểu thị quá
trình làm tròn tới giá trị nguyên gần nhất, với là các hệ số dự đoán.
Trong vạch quét của quá trình quét, chỉ số mô tả các đầu ra dự đoán phù hợp với
khoảng thời gian mà nó xảy ra. Có nghĩa là , và trong biểu thức (3.42) tới (3.44)
có thể được thay thế bởi các ký hiệu rõ ràng hơn và với biểu thị khoảng
thời gian. Trong các trường hợp khác, được sử dụng như một chú dẫn trong toạ độ
không gian và/hoặc khung số( trong chuỗi thời gian của ảnh) của một ảnh. Trong mã hoá
dự đoán tuyến tính 1-D, ví dụ, biểu thức (3.44) có thể viết thành:

99
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

(3.45)

Với mỗi ký hiệu thay đổi bây giờ được biểu diễn rõ ràng như một hàm số của toạ
độ không gian và y. Chú ý rằng biểu thức (3.45) chỉ ra dự đoán tuyến tính 1-D
là hàm số của các điểm ảnh trước trên dòng đơn hiện tại. Trong mã hoá dự đoán
2-D, dự đoán là một hàm số của các điểm ảnh trước trong dòng quét từ trái qua phải, từ
trên xuống dưới của một ảnh. Với 3-D, cơ bản là các điểm ảnh này và các điểm ảnh trước
của khung trước. Biểu thức (3.45) không thể tạo ra giá trị cho điểm ảnh đầu tiên của
mỗi dòng, những điểm ảnh này phải được mã hoá sử dụng điều kiện khác (như bảng mã
Huffman chẳng hạn) và coi như một sự vượt quá của quá trình mã hoá dự đoán. Một chú
giải tương tự ứng dụng cho các trường hợp có kích cỡ lớn hơn.

3.3.5. Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất

Không như phương pháp nén không tổn thất được đưa ra ở phần trước, nén tổn
thất được xây dựng trên cơ sở độ chính xác của việc khôi phục lại ảnh trong lúc trao đổi
nhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặc
không) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể. Trong thực tế,
nhiều kỹ thuật mã hoá tổn thất có khả năng tái tạo lại ảnh đơn sắc từ dữ liệu được nén
nhiều hơn 100:1 và ảnh gần như không phân biệt được so với ảnh gốc từ 10:1 đến 50:1.
Mã hoá không tổn thất của ảnh đơn sắc hiếm khi lớn hơn 3:1 khi nén dữ liệu. Như đã chỉ
ra tại phần 3.3.4, sự khác nhau cơ bản của hai phương pháp là sự có mặt của khối lượng
tử.

3.3.5.1 Mã hoá dự đoán có tổn thất

Trong phần này, chúng ta thêm một bộ lượng tử vào phần đầu trong phần 3.3.4.4
và kiểm tra kết quả giữa việc tái hiện lại một cách chính xác và quá trình thực hiện nén.
Như 3.45 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự nhiên, được
chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo ra. Nó ánh xạ lỗi
dự đoán tới khoảng giới hạn đầu ra, biểu thị là ėn, điều thiết lập sự liên đới giữa nén và
kết hợp méo với mã hoá dự đoán tổn hao.

100
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.45: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã

Nhằm cung cấp sự liên kết của bước lượng tử, bộ mã hoá không tổn thất (hình
3.44 (a)) phải biến đổi để dự đoán sinh ra bởi bộ mã hoá và giải mã là tương tự. như hình
3.45 (a) chỉ ra, điều này đạt tới bằng cách đặt vào bộ dự đoán mã hoá tổn thất trong vòng
lặp. tại đầu vào của nó, biểu hiện bằng được tạo ra bởi một hàm giữa dự đoán trước và
lỗi lượng tử tương ứng. Đó là :
(3.46)
được chỉ rõ trong phần 3.3.4.4. Nó kết thúc vòng lặp ngăn cản việc tạo ra lỗi tại
bộ giải mã đầu ra. Chú thích trong hình 3.45 (b) có ý đầu ra của bộ giải mã cũng có thể
đưa ra bằng (3.46).

Mã hóa DPCM (Differential Pulse Code Modulation)


Đây là phướng pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện
sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại bỏ
các thông tin thừa. Phân tích thống kê về phân bố biên độ tín hiệu video, ta thấy phân
bố biên độ các mẫu tương ứng với các điểm ảnh về nguyên tắc là phân bố đều, ngược
lại phân bố về độ chênh lệch biên độ các điểm ảnh có đồ thị hình chuông xung quanh
điểm 0. Nếu dựa trên các đặc trưng thống kê ảnh, thì sự khác nhau này là không lớn
lắm và để mã hóa nó chỉ cần giảm số bit là đủ (so với việc mã hóa toàn bộ biên độ các
mẫu).
Phương pháp DPCM còn sử dụng đặc điểm của mắt người (kém nhạy với mức
lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so với mức lượng tử hóa

101
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 3.46
mô tả sơ đồ khối của bộ mã hóa và giải mã DPCM

x(n ) + d (n) d ′(n) c(n )


Q() Bộ mã hóa
+
nhị phân
-
x p (n) xˆ (n)
Bộ +
dự đoán

x p (n) = ∑ a k xˆ (n − k ) d ( n ) = x ( n) − x p ( n) xˆ (n) = x p (n) + d ' (n)

(a)
c(n ) d ′(n) x(n )
Bộ mã hóa Q −1 ( ) +
nhị phân

Bộ
x p (n) dự đoán

(b)
Hình 3.46: Sơ đồ bộ mã hóa (a) và giải mã (b) DPCM
Mã hóa chuỗi sau sử dụng bộ mã hóa DPCM: {1,3,4,4,7,8,6,5,3,1}. Sử dụng bộ
dự đoán đơn giản: dự đoán giá trị hiện tại bằng một giá trị trước đó và sử dụng bộ
lượng tử 3 mức:

Giả sử dự đoán mẫu đầu tiên là 1. Tính toán chuỗi bit nhị phân mã hóa nếu mã sau
được sử dụng để mã hóa tín hiệu sai số: Error “0”  “1”; Error “2”  “01”; Error “-2”
 “00”;

Ta có bảng kết quả như sau:

102
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Mẫu vào Mẫu dự đoán Sai số Lượng tử Mã Khôi phục


x(n) x (n) d (n) d ′(n) c(n)
p

1 1 0 0 1 1
3 1 2 2 01 3
4 3 1 2 01 5
4 5 -1 -2 00 3
7 3 4 2 01 5
8 5 3 2 01 7
6 7 -1 -2 00 5
5 5 0 0 1 5
3 5 -2 -2 00 3
1 3 -2 -2 00 1

3.3.5.2 Mã hoá biến đổi (transform coding)

Kỹ thuật mã hoá dự đoán bàn luận trong phần 3.3.5.1 hoạt động trực tiếp trên các
điểm ảnh của một ảnh gọi là phương pháp tên miền không gian. Trong phần này, chúng ta
coi như các kỹ thuật nén là dựa trên việc sửa đổi sự biến đổi của ảnh. Trong mã hoá biến
đổi, một dòng đảo ngược chuyển đổi (như biến đổi Fourier) được sử dụng để ánh xạ một
ảnh vào một hệ số biến đổi, phần mà sau đó sẽ được lượng tử hoá và mã hoá. Cho hầu hết
các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độ nhỏ và được lưọng tử thô (hoặc
loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trong biến đổi, bao gồm biến đổi rời rạc
Fourier (DFT) có thể được sử dụng để biến đổi dữ liệu ảnh.

Ảnh vào Xây dựng Biến Lượng Mã hoá Ảnh đã


(NxN) nxn
ảnh nhỏ đổi tử ký hiệu nén
thuận
(a) : Bộ mã hóa

Ảnh đã Giải mã Biến Hợp n x n Ảnh đã


ảnh nhỏ
nén ký hiệu đổi giải nén
ngược
(b): Bộ giải mã

Hình 3.47: Hệ thống mã hóa biến đổi

Hình 3.47 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước
đảo chuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt
động cân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa. Một ảnh

103
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sau đó được
chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mục
đích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnh
nhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Trạng
thái lượng tử được lựa chọn để loại trừ hoặc lượng tử với hệ số lượng tử thô (mang ít
thông tin nhất). Các hệ số này có tác động nhỏ nhất đối với việc tái tạo lại ảnh nhỏ. Cuối
quá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bất
kỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọi
là mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổi
không thích ứng.

3.3.5.3. Mã hoá Wavelet

Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp các
điểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Wavelet
không chia ra các ảnh con trước khi biến đổi.
Không giống như biến đổi Fourier chỉ thích hợp khi phân tích những tín hiệu ổn
định (stationary), Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không
ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian. Để
khắc phục những hạn chế của biến đổi Fourier (FT), phép biến đổi Fourier thời gian ngắn
(STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữa STFT và FT là trong biến đổi STFT,
tín hiệu được chia thành các khoảng nhỏ và trong khoảng đó tín hiệu được giả định là tín
hiệu ổn định. Để thực hiện kỹ thuật này cần chọn một hàm cửa sổ w sao cho độ dài của
cửa sổ đúng bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta có
thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với phép biến đổi FT
ta không thực hiện được.
Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:
∞ *

− 2 jπ f
X (f ,t)=
−∞
[x (t )w (t − τ ) ].e dt (3.47)
Trong đó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí của
cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đoạn
tín hiệu ta thay đổi giá trị τ.
Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giải
quyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vẫn còn hạn
chế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet
(tương tự như nhân với hàm cửa sổ trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽ
cho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cách
tiếp cận như vậy còn được gọi là: phân tích đa phân giải MRA (Multi Resolution
Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau.

104
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số
kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp.
Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuất
hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thời
gian dài chẳng hạn như ảnh và khung ảnh video.
Hình 3.48 minh hoạ một hệ thống mã hoá Wavelet

Ảnh Chuyển đổi Bộ lượng tử Mã hoá Ảnh đã nén


vào Wavelet ký hiệu

(a): Bộ mã hóa

Giải mã Chuyển đổi


Ảnh đã nén Ảnh đã giải nén
ký hiệu Wavelet ngược

(b): Bộ giải mã

Hình 3.48: Hệ thống mã hoá Wavelet


3.4. Nén trong ảnh

3.4.1. Nguyên lý
Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miền không gian. Sử dụng
cả hai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các
ảnh trước và sau ảnh đang xét.

Điều khiển tốc độ bit


Bảng lượng tử
Tín hiệu
Nguồn
ảnh nén
ảnh Tiền xử DCT Lượng tử Mã hoá Mạch Khuyếch
lý thuận hoá entropy trộn đại đệm

Hình 3.49: Nén trong ảnh (Intra Frame Compression)

Sử dụng phương pháp biến đổi DCT. Phương pháp chuyển đổi tối ưu là chuyển
đổi KLT (Karhunen – Loeve). Chuyển đổi này thông qua một ma trận chuyển đổi làm
giảm trật tự tương quan của một quá trình xử lý ngẫu nhiên liên tiếp dưới dạng đường
chéo. Sử dụng phương pháp chuyển đổi KLT không thông dụng cho tất cả các ứng dụng

105
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

của nén ảnh số. Vì vậy, thay thế nó là phương pháp DCT (Discrete Cosine Transform) có
nhiều thuật toán biến đổi nhanh cho việc tính toán.

3.4.2 Tiền xử lý
Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khối lớn riêng biệt
không chồng lên nhau (MB – Macro Block). Mỗi MB bao gồm 4 block các mẫu tín hiệu
chói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tín hiệu
màu phụ thuộc vào tiêu chuẩn của tín hiệu video.

Các block có cùng kích thước, mỗi block là một ma trận điểm ảnh 8x8 được lấy
mẫu từ màn hình từ trái sang phải, từ trên xưống dưới.

Ví dụ: Chia thành các block của hình ảnh hệ PAL. Phần tích cực của tín hiệu video
với độ phân giải 576 x 720 được chia làm 72 x 90 block. Như vậy sẽ có 36 x 45 MB nếu
tiêu chuẩn lấy mẫu là 4:2:0 hoặc 4:1:1.

Cấu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồm
các mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quét
xen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field).

3.4.3 Quá trình biến đổi Cosin rời rạc

Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các điểm ảnh dưới một
khối các hệ số trong miền tần số.

Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong
tiêu chuẩn lấy mẫu 4:2:2. Sự thay đổi độ dọc theo 8 bit trong phạm vi dải tần số từ 0 đến
f/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mỗi
giải băng tần có một hệ số đặc trưng cho năng lương tín hiệu trong dải băng tần đó.

Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín
hiệu gọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần
số cao hơn trong tín hiệu ban đầu gọi là hệ số AC.

Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phép
biến đổi cho khối 8x8 giá trị các điểm chói.

Quá trình mã hoá thuận cho khối 8x8 được xác định.

(3.48)

Trong đó:
là các hàm mẫu ban đầu trong khối điểm chói

106
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

là các hệ số biến đổi DCT khối


là tấn số chuẩn hoá theo chiều ngang
là tần số chuẩn hoá theo chiều đứng

Biến đổi DCT áp dụng cho các tín hiệu video số thành phần UY, CR, CB. Các tín
hiệu này có biên độ cực đại là 12,8 tín hiệu chói có biên độ từ 0÷255.

Bộ biến đổi A/D 8 bit được sử dụng để tạo ra các khối tín hiệu chói UY với giá trị
nhị phân từ -128 đến +127. Khi giải mã mức 128 được cộng vào để thu được tín hiệu
chói như ban đầu.

Trước khi biến đổi ngược DCT sử dụng bộ lọc thông thấp loại bỏ các hệ số thành
phần tần số cao.

Quá trình biến đổi DCT không giảm tôc độ dòng số liệu và tính chất đảo ngược
(Inverse DCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ
nguyên.

3.4.4. Lượng tử hoá khối DCT

Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ
thống nén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh.

Bộ lượng tử hoá chia mỗi hệ số DCT cho một số lớn hơn 1 để tạo ra các số có giá
trị 0 hoặc gần bằng 0 có thể làm tròn hoặc bỏ qua trong quá trình tiếp theo. Các hệ số có
năng lượng thấp đặc trưng cho sự biến đổi ít giữa các điểm ảnh có thể loại bỏ mà không
ảnh hưởng đến sự cảm thụ chất lượng ảnh của mắt người.

Thành phần DC và tần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh
ban đầu. Hệ số DC được lượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện
giữa các khối điểm ảnh. Trong khi hệ số tương ứng với thành phần tần số cao được lượng
tử với độ chính xác 2 bit (do khả năng cảm nhận ở mắt người giảm).

107
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Bảng
trọng số
Bảng
Phân lớp năng
Huffman Lựa chọn tốc
lượng khối
độ bít dòng ra

Định dạng khối và Quét Dòng tín


cấu trúc DCT Lượng tử hoá zig-zag RLC VLC Bộ đệm
hiệu nén

Hệ số cân
Xác định khối
Điều khiển đệm bằng
Mã DPCM
hệ số DC

Hình 3.50: Nén trong ảnh


Hệ số bảng lượng tử hoá thuận được xác định theo biểu thức:

(3.49)

Ảnh càng chi tiết thì hệ số thành phần tần số càng lớn, có thể tràn bộ nhớ đệm nếu
hệ số trong bảng lượng tử quá thấp.

Với cấu trúc gồm 4 khối điểm chói, các chi tiết ảnh có thể được tập trung năng
lượng cao vào 1 trong 4 khối. Tạo ra lượng tử hoá thô cũng như xuất hiện lỗi lượng tử
lớn. Để tránh hiện tượng này, năng lượng trong khối được đánh giá bằng cách xem xét hệ
số AC có ý nghĩa nhất trong tất cả các khối.

3.4.5. Mã hoá Entropy

Giá trị lượng tử có thể chỉ biểu diễn nhờ các từ mã có độ dài cố định, tức là các giá
trị lượng tử hoá biểu diễn bằng cùng một số bit tuy nhiên hiệu quả không cao. Để hiệu
quả hơn người ta dùng mã hoá entropy, dùng đặc tính thống kê của tín hiệu được mã hoá.
Từ mã ít xảy ra sẽ nhiều thông tin hơn từ mã hay xảy ra.

Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài
cố định và tốc độ bít thay đổi theo thời gian.

108
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Khi phân bố xác suất càng lệch khỏi phân bố đều thì xuất hiện càng tăng nhờ mã
hoá entropy.

Để mã hóa entropy các hệ số được lượng tử hóa Fq(u,v), trước hết, cần biến đổi
mảng hai chiều của các hệ số Fq(u,v) thành chuỗi số một chiều bằng cách quét zig-zag.
Việc xử lý 64 hệ số của khối 8x8 pixel bằng cách quét zig-zag làm tăng tối đa chuỗi các
giá trị 0 và do vậy làm tăng hiệu quả nén khi dùng RLC.

Hình 3.51: Quét zig-zag các hệ số lượng tử hóa DCT

Mã hóa độ dài chạy (RLC) được dùng để mã hóa có hiệu quả các hệ số DCT đã
lượng tử hóa hơn là dùng trực tiếp cho số liệu ảnh. Sau quá trình quét zig-zag ở trên,
RLC sẽ được thực thi. Một hệ số khác 0 sau giá trị DC được mã hóa bằng 1 từ mã bao
gồm 2 thông số: số lượng 0 chạy trước 1 hệ số riêng khác 0 và mức của nó sau khi lượng
tử hóa. RLC thực chất là việc thay thế các hệ số có giá trị 0 bằng số lượng các chữ số 0
xuất hiện.
Hình vẽ 3.52 là một ví dụ về mã hóa entropy. Trong ví dụ này, chuỗi một chiều
các hệ số DCT sau khi quét zig-zag với các giá trị giống nhau được gom lại với nhau
bằng mã RLC. Lúc này, chuỗi một chiều có các đoạn chuỗi dài có cùng giá trị là các
symbol có dạng:< chiều dài chuỗi 0, giá trị>.
Ở đây, giá trị 10 không có giá trị 0 nào trước đó được biễu diễn bằng <0,10>; giá
trị –2 có hai giá trị 0 đứng trước được biễu diễn bằng <2,-2>v.v... Riêng một dấu đặc biệt
là End of Block (EOB) được dùng để cho biết tất cả các hệ số tiếp theo trong khối bằng 0.
Trong ví dụ này, ta có một chuỗi 49 từ mã với giá trị 0. Như vậy chỉ xét riêng 49 từ mã
giá trị 0 được nén xuống chỉ còn 3 từ mã. Điều này chứng tỏ hiệu suất nén rất cao của mã
hóa RLC. Nén bằng mã RLC là quá trình nén không tổn hao.

109
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.52: Quá trình mã hóa RLC

Các từ mã RLC tiếp tục được mã hóa bằng cách đặt các từ mã ngắn cho các mức
có xác suất xuất hiện cao và các từ mã dài cho các mức có xác suất xuất hiện thấp. Bảng
3.8 minh họa các phân nhóm các hệ số AC.

Bảng 3.9 là một ví dụ về bảng mã Huffman tương ứng cho các nhóm. Từ mã ngắn
báo hiệu kết thúc khối (EOB) cho biết tất cả các hệ số còn lại trong khối mang giá trị 0.
Trong ví dụ khối hệ số DCT, hệ số DCT (40) được mã hóa DPCM bằng cách dùng giá trị
DC (25) của khối DCT trước. Mã hóa DPCM mở rộng thang biễu diễn tín hiệu Y từ (-
1024 đến 1016) đến (-2048 đến 2032).

110
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Bảng 3.8: Phạm vi giá trị các hệ số trong các nhóm (category)

Giá trị chênh lệch hệ số DC được mã hóa VLC nhờ một bảng tìm kiếm (lookup
table). Đầu ra của nó là một số nhị phân Huffman dựa trên giá trị chênh lệch các hệ số
DC này. Các hệ số AC biểu diễn bởi các từ mã RLC được mã hóa Huffman bằng các
bảng tìm kiếm. Đầu ra kết hợp với giá trị chạy (số lượng số 0 trước hệ số AC) để tạo một
số nhị phân Huffman biểu diễn giá trị hệ số AC tương ứng. Trong cả hai trường hợp mã
hóa giá trị sai lệch hệ số DC và độ lớn các hệ số AC đều sử dụng từ mã nhị phân ngắn
nhất để biểu diễn chúng.
Tại đầu ra VLC, tất cả các từ mã của cùng một khối DCT được kết hợp tạo thành
một dòng tín hiệu ra. Trong ví dụ trên, số liệu tương ứng với khối DCT ban đầu (8x8x8
bit =512 bit) được giảm thành 48 bits sau khi mã hóa VLC. Hệ số nén trong trường hợp
này bằng 512/48=10,6. Hệ số nén cũng thường được tính bằng số bit biễu diễn điểm ảnh.
Trong ví dụ trên, 48 bit biểu diễn cho 64 điểm ảnh, theo đó thu được hệ số nén
tương ứng là 48/64=0,75 (bit/điểm ảnh). Mã hóa VLC tự nó là một kỹ thuật mã hóa
không tổn thất, nó cho phép giảm thêm tốc độ dòng bit (đã được giải tương quan, làm
tròn, và giảm qua quá trình lượng tử hóa DCT). Quá trình mã hóa VLC cho hệ số DC và
các hệ số AC được mổ tả trong sơ đồ khối hình 3.53.

111
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Bảng 3.9: Ví dụ bảng Huffman cho hệ số AC

112
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hình 3.53: Sơ đồ khối hệ thống mã VLC cho hệ số DC (a) và AC (b)

3.4.6. Bộ nhớ đệm

Các từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp
của ảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc
ra từ bộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được
tràn, rỗng. Quá trình điều khiển đựoc thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá
trình lượng tử hoá được thực hiện với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng
bit nhỏ lại bằng cách tăng hệ số cân bằng của bộ lượng tử.

3.4.7. Giải mã DCT


Quá trình lượng tử hoá ngược được tiến hành theo biểu thức:

113
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

(3.50)
Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình để tạo lại khối giá
trị các điểm ban đầu theo biểu thức:

(3.51)

Bảng mã Bảng
Huffman lượng tử

Video
Lượng Tách khối và Y
nén VLC RLC (Zig-zag)-1 IDCT CB
tử hoá cấu trúc khối
CR

Giải mã DPCM
hệ số DC

Hình 3.54: Giải mã DCT

Biểu thức biểu diễn quá trình biến đổi DCT và IDCT là tương tự nhau, hệ thống
nén và giải nén có thể dùng chung một thiết bị phần cứng, sai lệch giữa khối ban đầu và
các giá trị tạo lại nguyên nhân do các lỗi xuất hiện trong quá trình nén. Lỗi được biểu
diễn: .

3.5. Nén liên ảnh

3.5.1 Mô hình

Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung
ảnh (frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi
vị trí tương đối (toạ độ ngang và dọc) của nó trong từng frame.

Ảnh nguồn Bù chuyển động Nén trong ảnh Ảnh lưu

Hình 3.55: Mô hình nén liên ảnh


Với một chuỗi ảnh liên tục, lương thông tin chứa trong mỗi ảnh rất ít từ ảnh này
đến ảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quan

114
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

trọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xấp xỉ, bù chuyển động và
nén trong ảnh, ý tưởng đó được xây dựng như trong hình 3.52.

3.5.2 Kỹ thuật dự doán bù chuyển động


.
Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ
frane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỷ thuật bù chuyển động,
ảnh của frame hiện hành được dự báo từ ảnh của frame kế trước bằng cách làm xấp xỉ
chuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hành
và frame dự báo được gọi là phần dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chính
là đưa vào việc mã hoá phần dư thừa bù chuyển động này.

Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh
động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so
với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã
giúp tránh được phần dư thừa này bị mã hoá lặp nhiều lần. Như vậy, việc xác định phần
ảnh động để làm xấp xỉ chuyển động là quá trình khôi phục một ảnh bằng cách dùng các
phần ảnh trong frame trước đó cùng với các thông tin về chuyển động của frame này
chính là công việc bù chuyển động. Sự đánh giá chuyển động của ảnh có thể thực hiện
trên toàn khung: người ta chia mỗi khung thành các ô mẫu nhỏ (thường lấy 8x8 pixel/1ô),
sau đó đánh giá chuyển động của từng ô. Hình 3.56 minh hoạ chuyển động chiếc xe máy
kéo với một cặp khung liền kề từ xâu ảnh động để đánh giá ô nào biểu diễn phần ảnh tĩnh
và ô nào biểu diễn phần ảnh động. Việc đánh giá này dẫn tới hai vấn đề:
(1). Phải xác định biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai
khung.
(2). Phải xác định cái gì được điền vào không gian trống do vùng ảnh đã chuyển
động.

3 2

Khung 1 Khung 2

Hình 3.56: Khảo sát ô mẫu pixel của ảnh chuyển động
Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu cầu nêu ở trên trong hệ
thống mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước (Khung 1) trong
khi tạo lại ảnh tiếp theo (Khung 2); khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng

115
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

thời phải tạo lại mỗi ảnh (sau khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này
(khung 2) vì bộ giải mã không có chức năng tạo lại các ô mẫu bù chuyển động.

Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình
(frame) liền kề và tạo ra một vector chuyển động chỉ rõ vị trí mới của đối tượng ảnh
chuyển động được nêu như ở trên hình 3.57. Ở đây, vector chuyển động sẽ phối hợp với
các ô ở trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lặp lại các ô này
tại vị trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung
ảnh trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết
lập trước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một
khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tại và ô dự đoán của nó trong
khung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.

Vùng tìm kiếm được xác định nằm trong biên của vùng ảnh có chứa các ô mẫu
ảnh chuyển động của khung ảnh hiện tại, nó bao phủ cả vị trí hiện tại và vị trí trước đó
của ô mẫu chuyển động đang khảo sát. Kích thước của vùng tìm kiếm được quyết định
bởi độ phức tạp của quá trình phối hợp ô mẫu ảnh chuyển động của vị trí trước và vị trí
hiện tại, thường vùng này lấy kích thước 16x16 hay 24x24 pixel.

Để giảm thiểu công việc nặng nhọc của quá trình xác định vector chuyển động,
người ta có thể xử lý ảnh động theo các bước:
(1). Bước xử lý thô: Đầu tiên, giảm độ phân giải của ảnh xử lý, chẳng hạn ảnh
720x480 giảm xuống 360x240 (pixel); khi đó số bit cần xử lý giảm nhiều và vùng dự
đoán trở nên lớn hơn, do đó ảnh dự đoán chuyển động mức thô xác định được nhanh hơn.
(2). Bước xử lý tinh: Sau khi có ảnh dự đoán thô, người ta tiến hành phép dự đoán
vector chuyển động chính xác bằng cách xác định vị trí chính xác của các đối tượng
chuyển động giữa hai khung ảnh với độ phân giải 720x480.
(3). Tiếp tục lặp hai bước trên cho đến hết các khung của xâu ảnh động.
Vị trí ô 8x8 pixel lúc đầu Vector chuyển động Vị trí ô 8x8 pixel hiện tại

a. khung thứ i Vùng tìm kiếm b. khung i+1

Hình 3.57: Mô tả vector chuyển động giữa hai frame kế cạnh nhau

116
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

3.5.3 Ảnh dự đoán trước


Phương pháp mã hoá nhờ ảnh dự đoán trước sử dụng xác suất các ảnh liên tục
trong chuỗi ảnh. Nhờ xác suất này, phần lớn các ảnh trong chuôi có thể nhận biết gần
giống nhau trên cơ sở thông tin chứa trong ảnh. Phương pháp này rất hiệu quả khi chuỗi
ảnh là ảnh tĩnh hoàn toàn, trong trường hợp này chỉ cần truyền ảnh đầu tiên là đủ. Khi
xuất hiện vật thể chuyển động nào đó phải xác định vật thể này và biểu diễn đặc trưng về
sự thay đổi vị trí của nó.

Các chuyển động ngoài vùng tìm kiếm không thể thực hiện dự đoán bù chuyển
động từ khung hình trước. Trường hợp này sẽ được mã hoá bằng phương pháp nén trong
ảnh.

Trong khối xác định vecto chuyển động. Vecto chuyển động tính toán sao cho ảnh
hiện tại và ảnh dự báo cho ra ảnh khác biệt ở đầu ra. Số liệu về vecto chuyển động và ảnh
khác biệt sẽ được truyền đi. Hạn chế của mô hình này là không biểu diễn phần lớn các
chuyển động có thể coi như các chuyển động quay, giảm hoặc tăng lên và các chuyển
động phức tạp khác.

Ảnh hiện tại + Ảnh khác biệt


Σ
+
- Ảnh dự đoán +
Σ
Tạo ảnh hiện tại để sử dụng
Ảnh dự cho dự đoán ảnh tiếp theo
đoán
Ảnh trước đó
(Ảnh so sánh)

Xác định vecto Vecto chuyển động


chuyển động

Hình 3.58: Nén liên ảnh (ảnh dự đoán trước)

3.5.4 Ảnh dự đoán hai chiều

Dự đoán hai chiều theo thời gian, còn gọi là nội suy bù chuyển động sử dụng
thông tin trong một khung hình cho trước và một khung hình hiện tại để dự đoán.

Mô hình này cho khả năng nén số liệu cao hơn. Hiệu ứng nhiễu trong khung hình
hiện tại giảm bằng mức nhiễu trung bình của khung hình trước và khung hình sau, có khả
năng dự đoán ngoài phạm vi của vùng tìm kiếm nhờ các khung hình tiếp theo.

117
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Sự khác nhau cơ bản giữa hai mạch, mạch tạo ảnh dự đoán trước và mạch tạo ảnh
dự đoán hai chiều là nhờ bộ so sánh. Để tạo ảnh dự báo trước chỉ cần nhớ ảnh trước đó.
Để tạo ảnh dự đoán hai chiều phải nhờ cả hai ảnh: trước và sau ảnh đang xét.

Ảnh dự đoán hai chiều là kết quả nội suy giữa hai ảnh để xác định chuẩn của nó,
nên sẽ làm thay đổi thứ tự truyền ảnh. Bộ mã hoá ảnh đầu tiên phải truyền cả hai ảnh
chuẩn, sau đó mới truyền đến ảnh dự đoán hai chiều.

Quá trình sắp xếp lại khi mã hoá và giải mã tạo ra một thời gian trễ phụ thuộc vào
khung hình giữa hai khung tham chiếu. Có thể có nhiều hơn một khung hình được dự
đoán giữa hai khung hình tham chiếu xuất hiện trước và sau nó. Khi số các khung hình
dự đoán tăng lên quan hệ giữa chúng và khung tham chiếu giảm xuống do vậy số bit để
mã hoá khung dự đoán tăng lên.

Mã hoá dự đoán giữa các khung hình áp dụng cho các chương trình có ít chuyển
động hoặc chuyển động quá chậm.

Ảnh hiện tại


+ Ảnh hiện tại

- +
Ảnh dự đoán +

Ảnh dự
đoán Ảnh

Ảnh sau

Xác định
vecto chuyển Vecto chuyển động

Hình 3.59: Nén liên ảnh (ảnh dự đoán 2 chiều)

3.9. Kết luận chương 3

Chương 3 đã giới thiệu các khái niệm cơ bản nhất về ảnh, màu sắc, tín hiệu video
và cơ sở của kỹ thuật xử lý ảnh và video. Tiếp đến, tổng quan về kỹ thuật nén ảnh được
trình bày cùng với các phương pháp mã hóa dùng trong kỹ thuật nén không tổn thất và có
tổn thất. Cuối cùng, các nguyên lý nén trong ảnh và liên ảnh nhằm giảm bớt thông tin dư
thừa trong miền không gian và thời gian được giới thiệu.

118
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

Hướng dẫn ôn tập chương 3

1. Các khái niệm cơ bản về ảnh.


2. Các ứng dụng phổ biến của xử lý ảnh
3. Các giai đoạn chính trong xử lý ảnh.
4. Các thành phần của hệ thống xử lý ảnh số.
5. Các kiểu dữ liệu ảnh.
6. Mầu sắc trong ảnh và video.
7. Các loại tín hiệu video
8. Video tương tự và các chuẩn
9. Video số và các chuẩn.
10. Hệ thống thị giác.
11. Quá trình thu nhận tín hiệu hình ảnh.
12. Lấy mẫu và lượng tử hóa tín hiệu ảnh và video.
13. Xử lý ảnh trong miền không gian và tần số.
14. Bản chất của các kỹ thuật nén ảnh và video. Phân biệt nén không tổn thất và nén có
tổn thất.
15. Cho nguồn các ký hiệu A, B, C, D, E, F, G, H có xác suất xuất hiện của các ký hiệu
như sau:
m A B C D E F G H
P(m) 0.09 0.17 0.39 0.04 0.07 0.11 0.08 0.05
Xác định mã Huffman cho các ký hiệu nói trên, độ dài từ mã trung bình và hiệu
suất mã?
16. Mã hóa chuỗi sau {2,3,5,4,7,8,6,5,3,1,…} bằng việc sử dụng bộ mã hóa DPCM? Ở
đây, sử dụng bộ dự đoán Xp(n)=1/2 (X(n-1)+ X(n-2)) và bộ lượng tử 3 mức dưới đây:

Giả sử rằng giá trị tạo lại của 2 mẫu đầu tiên là 2, 2. Mã sau được sử dụng để mã hóa tín
hiệu sai số: Error “0”-> “1”, Error “2” -> “01”, Error “-2” -> 00”.
17. Xác định các hệ số DC, AC(0,1) và AC(1,0) của phép biến đổi DCT cho khối block
ảnh 8x8 dưới đây?

97 91 94 79 76 83 69 51
96 90 93 78 75 82 68 50
94 88 91 76 73 80 66 48
92 86 89 74 71 78 64 46
90 84 87 72 69 76 62 44
88 82 85 70 67 74 60 42
86 80 83 68 65 72 58 40
84 78 81 66 63 70 56 38

119
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh

18. Cho khối ảnh 8x8 sau khi biến đổi DCT và lượng tử được bảng dưới đây. Hãy mã
hóa khối ảnh 8x8 này bằng mã RLC và VLC biết rằng giá trị DC có trong khối DCT
trước là 25?
85 -5 -2 2 0 0 0 0
1 0 2 0 0 0 0 0
0 -1 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0

120
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong


truyền thông đa phương tiện

4.1. Các chuẩn mã hóa tín hiệu thoại

Phần này tập trung chủ yếu vào giới thiệu vắn tắt sự hình thành và phát triển các tiêu
chuẩn của mã hoá. Một kỹ thuật được xem như là phổ biến khi và chỉ khi nó là một phần
của tiêu chuẩn. Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông
tin liên lạc và cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và
các dịch vụ dựa trên các cùng một tham chiếu.

Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một
quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để
đảm bảo rằng một tập hợp các yêu cầu được đáp ứng. Chỉ có các tổ chức với nguồn lực
lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này. Thời
gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5
năm.

Điều này không có nghĩa một tiêu chuẩn không có lỗi hoặc không thể cải tiến
thêm được nữa. Trên thực tế một tiêu chuẩn mới thường xuất hiện như là sự cải tiến của
các chuẩn đã có trước đó và phù hợp với các ứng dụng trong tương lai.

Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại được giới thiệu sau đây:

• Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU
(ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đến mã hóa thoại cho các
ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định.

• Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa
thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia
Hoa Kỳ (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện
thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia
theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA.

• Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước
Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn
thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất
trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn
hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới.

121
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

• Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa
thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ,
được ứng dụng chủ yếu trong quân sự.

• Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR):
Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.

Bảng 4.1 dưới đây mô tả vắn tắt các chuẩn mã hóa thoại:

Các chuẩn
Năm Thuật toán Tốc độ Ứng dụng MOS Delay
µ&A-law, Mạng truyền
G.711 1972 64 kbps 4.3 0.125 ms
PCM dẫn
1984,
G.721 ADPCM 32 kbps Cáp biển 4.0 0.125 ms
87
Subband ISDN, Thoại
G.722 1988 48-64 kbps 4.0 0. 2 ms
ADPCM hội nghị
2,3.2,4,
G.726,727 1988 VBR-ADPCM 16-24-32-40 kbps PCS/cordless 0.125 ms
4.2
Mạng truyền
G.728 1992 LD-CELP 16 kbps 4.2 0.625 ms
dẫn
Mạng di động
G.729 1995 CS-ACELP 8 kbps 4.0 15 ms
2G
Thoại thấy hình
MP_MLQ
G.723.1 1995 5.27/6.3 kbps (Videophone) 3.5-3.7 37.5 ms
ACELP
H.323, H.324
Mạng di động
GSM-FR 1989 LTP_RPE 13 kbps 3.7 20 ms
Châu Âu
Mạng di động
GSM-EFR 1995 ACELP 13 kbps 4.0 20 ms
Châu Âu
Mạng di động
IS-54 1989 VSELP 8 kbps Bắc Mỹ- 3.5 20 ms
TDMA
Mạng di động
1.2,2.4,4.8,9.6
IS-96 1993 QCELP Bắc Mỹ- 3.3 20 ms
kbps
CDMA
Mạng di động
GSM_HR 1994 VSELP 5.6 kbps 3.5 24.5 ms
Châu Âu
DoD_FS1015 1996 LPC-10 2.4 kbps Quân sự ≤3.0 25 ms
DoD_FS1016 1990 CELP 4.8 kbps Quân sự 3.0 45ms
VoIP, Thoại
AMR_WB hội nghị, 15-25
G.722.2 2001 6.6-23.85kbps 3.7-4.4
ACELP Mạng di động ms
3G

Bảng 4.1: Các chuẩn mã hoá thoại

122
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

4.2. Các chuẩn mã hóa âm thanh

4.2.1. Các chuẩn mã hóa âm thanh ISO/MPEG

Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén
âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm
thanh và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ
MO và ổ cứng máy tính.
MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên
nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC.
Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1,
MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC
JTC1 SC29 WG11
ISO : International Organization for Standardization
IEC : International Electro-technical Commission
JTC1 : Joint Technical Committee 1
SC29 : Sub-committee 29
WG11: Work Group 11 (moving picture with audio).
MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa
ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo
mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng
bít) của bộ mã hóa. Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa
là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và
tất cả các Layer thấp hơn N.
Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tất cả các Layer
sử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận
thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phần
phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận
để xác định mức nhiễu có thể nghe thấy. Trong giai đoạn lượng tử hóa và mã hóa, bộ mã
hóa sẽ cố gắng để chỉ rõ số bít dữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng
che lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các
thành phần phổ được mã hóa.

Tất cả các Layer:


• Dùng chung cấu trúc bộ lọc dải- filerband.
• Dùng chung thông tin của phần đầu- header information trong dòng dữ liệu
• Đều có khả năng nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cấu trúc
dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale
factor”, “side information”) và các phần ít nhạy hơn (dữ liệu về các thành
phần phổ “data of spectral components”).

123
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

• Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng dữ liệu âm
thanh.
• Có thể sử dụng tần số lấy mẫu là 32,44.1 hoặc 48 kHz.
• Cho phép hoạt động với các dòng bít giống nhau

Danh sách các chuẩn MPEG:

- MPEG-1(IS 11172,10,92): Mã hóa các ảnh chuyển động và âm thanh kèm theo
các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s.
• Ba phần đầu được chuẩn hóa từ năm 1992.
• IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu
video và âm thanh
• IS-11172-2 (“Video”) mô tả nén các tín hiệu video, chú trọng vào các tín
hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD”
• IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành
viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, III)
• IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu
được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm
theo yêu cầu đặt ra trong các phần khác
• DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phần MPEG
-1.
-MPEG-2 (IS 13818, 11-97): đặc điểm chung của mã hóa hình ảnh chuyển động
và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rộng.
-MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiểu
là 320 Kbps. Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của
một kênh tăng cường tần số thấp có băng thông giảm.
-MPEG-4 (CD – 14496, 11-97): mã hóa các đối tượng nghe nhìn, chú trọng đến
các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ.

4.2.2. Doby AC-3


Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng
trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyền hình chất lượng cao HDTV ở nước
Mỹ. AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai
đoạn đầu tiên của bộ giải mã hoá AC-3 là lấy 512 mẫu đầu vào và áp dụng biến đổi
MDCT. Để tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các
hàm loga và hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các
kênh khác và được đóng thành các khung để truyền đi.

4.2.3. AES-3 (Audio Engineering Society-3)

124
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là
định dạng truyền nối tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ
đơn giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung
của Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng
quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cân
bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét. Ba tốc độ
lấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz.

4.3. Các chuẩn nén ảnh JPEG

4.3.1. Chuẩn JPEG

JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các
chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính
thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG
được khẳng định với tiêu chuẩn ISO 10918-1.
JPEG là định dạng nén ảnh có tổn thất. Tiêu chuẩn này có có thể được ứng dụng
trong nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera
số... Nó còn có các định dạng mở rộng khác như .jpg, .jpeg, .jpe, .jfif và .jif. Kỹ thuật này
có thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc. Tuy nhiên, hệ số nén càng
cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban
đầu chứ không đạt hoàn toàn như hình ảnh gốc.
Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên nó cũng
được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá
tốt và ít tính toán hơn so với nén MPEG. Nén JPEG có thể thực hiện bởi bốn mode mã
hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tổn thất và mã hóa phân cấp. Mã hóa
không tổn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao. Khai
triển DCT được chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt
nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phần
cứng.
Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước
rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên màn
hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh
JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn.
Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa
(regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế. Ảnh màu được
chuyển sang dạng YUV hoặc CIELAB, trong đó thông tin về độ chói (luminance) được
tách rời với thông tin về độ màu (chrominance). Một yếu tố được tính tới là mắt người ta
nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt
ở đầu xanh của phổ. Ngoài ra cách làm này còn khai thác thực tế là ảnh thường có nhiều
vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu.
125
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Bước tiếp theo là lấy mẫu cho các kênh màu (gọi là “downsampling” hoặc
“chroma subsampling”). Đây là 1 trong 2 công đoạn làm mất thông tin và chỉ thực hiện
khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của
JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ thống các thông tin màu sắc đối với
các hàng hoặc cột điểm ở tỉ lệ cho trước. Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng
và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75%. Khi tời ảnh, trị của các
điểm loại bỏ trước đó được ngoại suy từ những gì còn lại.
Bước tiếp theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ
được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hoá bởi
8 bít không dấu), áp dụng biến đổi DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến
+1023 (có thể được mã hoá bởi 11 bít có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến
2040 (được mã hoá bởi 11 bít không dấu) và cần cách xử lý khác ở phần cứng hoặc phần
mềm so với các hệ số AC. Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi
biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu
diễn.
Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng biến đổi DCT để tạo ra mảng
hai chiều các hệ số biến đổi. Hệ số có tương ứng với tần số không gian thấp nhất nhưng
lại có giá trị lớn nhất được gọi là hệ số DC (một chiều), nó tỉ lệ với độ chói trung bình
của cả khối ảnh 8x8. Các hệ số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết,
biến đổi DCT không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển thông
tin ảnh sang miền không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo.

Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ
đồng nhất. Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập. Quá trình lượng
tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém
hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ
số được chọn sao cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử
hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ lệ để tạo ra các
mức nén thay đổi tuỳ theo tốc độ bít và chất lượng ảnh. Việc lượng tử hoá sẽ tạo ra rất
nhiều giá trị 0, đặc biệt là ở tần số cao. Quá trình làm tròn trong khi lượng tử hoá chính là
nguyên nhân chính gây ra sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén.

Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng
hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng
một chiều. Cách sắp xếp này cho phép giảm thiểu năng lượng tổn hao trung bình và tạo ra
dãy các giá trị bằng 0 liên tiếp. Kiểu quét Zigzag này cũng nhằm đặt các hệ số có tần số
thấp lên trước các hệ số có tần số cao. Các hệ số này sẽ được mã hóa dựa trên bảng mã
Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất.

Đến đây các hệ số được nén trung thực bằng mã hóa độ dài chạy – RLC. Tiếp đến,
các hệ số DC được tách khỏi các hệ số AC và sử dụng kỹ thuật mã hoá điều xung mã vi

126
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

sai – DPCM. Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã
hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén
cũng như giảm thiểu lỗi.

Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các
hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử. Mảng hai
chiều các hệ số DCT kết quả sẽ được biến đổi IDCT rồi cộng mỗi giá trị với 128 để xấp
xỉ tạo thành các khối ảnh con kích thước 8x8. Chú ý là bảng lượng tử hoá và mã hoá
entropy ở cả phía nén và giải nén là đồng nhất. Hai thành phần hiệu màu cũng được mã
hoá tương tự như thành phần chói ngoại trừ khác biệt là chúng được lấy mẫu xuống hệ số
2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT. Ở phía giải nén , thành phần
màu sẽ được nội suy độ chói (Y) và hiệu mầu (U, V) thành R, G và B.

Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Hình 4.1: Sơ đồ quá trình nén ảnh theo chuẩn JPEG

127
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG

4.3.2. Chuẩn JPEG-2000

Chuẩn JPEG ban đầu đã thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp
nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp
trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh. Hơn nữa, ảnh số hóa
ngày càng phổ biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các
vấn đề xử lý ảnh cũng tăng theo. Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ
và các yêu cầu băng thông, mà còn cho để nguyên phép tách, ghép để sắp xếp xử lý và
đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể. Ngoài ra, yêu cầu về hiệu suất
nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triển chuẩn JPEG-2000.

Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ
JPEG truyền thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được
phát triển từ các tiêu chuẩn đã có.

Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các
miền quan tâm, các thành phần và hơn nữa, tất cả chúng được đưa vào một dòng bit nén
đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cần thiết cho bất kỳ một
thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn JPEG-2000. Tính tương thích
này là một trong những ưu điểm nổi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất
nhiều khó khăn.

Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến
đổi cosin rời rạc (DCT – Discrete Cosin Tranform) dùng mã hóa Huffman, JPEG-2000
sử dụng kỹ thuật mã hóa dạng sóng rời rạc (DWT – Descrete Wavelet Transform) dùng
mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian

128
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn
JPEG-2000 mô tả ở hình 4.3 dưới đây:

Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000

Bước 1: Xử lý trước biến đổi

Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối
xứng qua 0. Xử lý trước biến đổi chính là giai đoạn đảm bảo dữ liệu đưa vào nén ảnh có
dạng trên. Ở phía giải mã, giai đoạn xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho
dữ liệu ảnh.

Bước 2: Biến đổi liên thành phần

Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000
sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (Reversible Color
Transform - RCT) và biến đổi màu không thuận nghịch (Irreversible Color Transform -
ICT) trong đó biến đổi thuận nghịch làm việc với các giá trị nguyên, còn biến đổi không
thuận nghịch làm việc với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian
màu RGB sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và
không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Việc áp dụng các biến đổi này
trước khi nén ảnh không nằm ngoài mục đích làm tăng hiệu quả nén. Các thành phần Cr,
Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y
có ảnh hưởng rất lớn tới ảnh.

Bước 3: Biến đổi riêng thành phần


Biến đổi riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi
Wavelet.

Bước 4: Lượng tử hoá - Giải lượng tử hoá

Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá. Quá trình lượng tử
hoá cho phép đạt tỷ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính
xác tương ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được

129
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

lượng tử hoá theo phép lượng tử hoá vô hướng. Các hàm lượng tử hoá khác nhau sẽ được
áp dụng cho các băng con khác nhau và được thực theo biểu thức:

(4.1)

với ∆ là bước lượng tử, U(x, y) là giá trị băng con đầu vào; V(x, y) là giá trị sau lượng tử
hoá. Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đổi thực thì
bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ. Bước lượng tử của
mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho
ảnh. Công thức giải lượng tử hoá là:
(4.2)
r là một tham số xác định dấu và làm tròn, các giá trị U(x, y); V(x, y) tương ứng là các giá
trị khôi phục và giá trị lượng tử hoá nhận được. JPEG-2000 không cho trước r tuy nhiên
thường chọn r = 1/2 .

Bước 5: Mã hoá
JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều
phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có
thể thu được chất lượng ảnh tương ứng với ứng dụng cần xử lý. Điều này giúp cho JPEG-
2000 mềm dẻo hơn nhiều so với JPEG. Việc áp dụng các phương pháp mã hoá khác nhau
cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đổi Wavelet. Trong thực tế các
phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đổi Wavelet cũng như
JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất:
phương pháp SPIHT và phương pháp EZW (Embedded Zerotree Wavelet Encoder).

JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với
JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất
là 2 lần so với JPEG. Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn. Tuy nhiên
điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá
trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có thể tốn
mất nhiều thời gian hơn khi lưu trữ và hiển thị.

4.4. Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21


4.4.1. Tổng quan về MPEG

MPEG (Moving Picture Expert Group) được ra đời vào năm 1988 nhằm mục đích
chuẩn hoá cho nén tín hiệu âm thanh và video. Nén tín hiệu video theo chuẩn MPEG là
phương pháp nén ảnh động không những làm giảm dư thừa không gian (như JPEG) mà
còn làm giảm dư thừa thời gian giữa các khung ảnh, đây là khác biệt so với JPEG.

130
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

MPEG không phải là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh dùng
MPEG chính là ở chỗ MPEG có một tập hợp các công cụ mã hoá chuẩn, chúng có thể
được kết hợp vói nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác
nhau.
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiền xử lý
(Preprocessing), đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal
prediction), bù chuyển động ở bộ giải mã (motion compensation) và mã lượng tử hoá
(quatisation coding). Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín
hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của
mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video
dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm
nhất định sẽ có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía
sau nó. Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là
macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới
frame khác. Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị
trí và hướng chuyển động của nó. Do đó chỉ những sự thay đổi giữa các khối trong frame
hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới
bên phía thu. Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay
đổi từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền
thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục.
Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian
(spatial coding) và thời gian (temporal coding). Trong MPEG, việc loại bỏ dư thừa về
thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau
giữa các ảnh liên tiếp (Inter-frame techniques). Chúng ta có thể sử dụng tính chất này để
tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó
(“predicted”). Do vậy ở phía bộ mã hoá, ta chỉ cần gửi những bức ảnh có thay đổi so với
những ảnh trước, sau đó ta lại dùng phương pháp nén về không gian để loại bỏ sự dư thừa
về không gian trong chính bức ảnh sai khác này. Nén về không gian dựa trên nguyên tắc
là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding
techniques). JPEG chỉ áp dụng phương pháp nén theo không gian vì nó được thiết kế để
xử lý và truyền các ảnh tĩnh. Tuy nhiên nén tín hiệu theo phương pháp của JPEG cũng có
thể được dùng để nén các bức ảnh một cách độc lập trong dãy tín hiệu video. ứng dụng
này thường được gọi là JPEG động (Motion JPEG). Trong một chu kỳ gửi một dãy các
bức ảnh theo kiểu JPEG động, ảnh đầu tiên được nén nhờ sự loại bỏ độ dư thừa về không
gian, sau đó các ảnh tiếp theo được nén nhờ sự loại bỏ độ dư thừa về thời gian (nén liên
ảnh). Quá trình được lặp đi lặp lại cho một dãy các bức ảnh trong tín hiệu video.
Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối ảnh 8x8
picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong
cùng một bức ảnh. Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các
điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có
nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc
tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa
131
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

các bức ảnh (Motion compesated prediction between frames). Trong nhiều sơ đồ nén
MPEG, người ta thường kết hợp cả việc tiên đoán bù chuyển động theo thời gian và phép
biến đổi thông tin theo không gian để đạt hiệu quả nén cao (Hybrid DPCM/DCT coding
of video).
Hầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lấy mẫu bổ xung (Subsampling)
và lượng tử hoá (Quantization) trước khi mã hoá. Lấy mẫu bổ xung nhằm mục đích để
làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiều dọc, như vậy sẽ
giảm số lượng các điểm ảnh trước mã hoá. Cũng nên nhớ rằng trong một số trường hợp
người ta còn lấy mẫu bổ xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy
ảnh trước khi mã hoá. Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư
thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ. Thường thường, chúng ta có thể
phân biệt sự thay đổi về độ sáng của ảnh (changes in Brightness) tốt hơn so với sự thay
đổi về màu (Chromaticity changes). Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành
chia bức ảnh thành các thành phần Y (độ chói) và U, V (các thành phần hiệu mầu). Các
tín hiệu video thành phần này sẽ được lấy mẫu (samples) và số hoá (digitised) để tạo nên
các điểm ảnh rời rạc theo tỷ lệ 4:2:2 và 4:2:0.
Kỹ thuật tiên đoán bù chuyển động được sử dụng như là một trong những công cụ
mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh. Khái niệm về bù chuyển
động là dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành
phần trong dãy video sẽ được thay thế gần đúng. Kỹ thuật tiên đoán bù chuyển động giữa
các bức ảnh được xem như là biện pháp để hạn chế bớt các thông số của chuyển động bởi
việc dùng các vector chuyển động để mô tả sự dịch chuyển của các điểm ảnh. Kết quả
tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức
ảnh đã mã hoá được truyền phía trước của nó. Cả hai thông số, sai số chuyển động (biên
độ) và các vectors chuyển động (hướng chuyển động) đều được truyền tới phía bên nhận.
Tuy nhiên do có mối quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian
(trùng về không gian), một vector chuyển động có thể được dùng cho một khối các điểm
ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels).

4.4.2. Cấu trúc dòng bít


Để tạo khả năng chống lỗi khi truyền tín hiệu qua kênh có nhiễu, bộ ước đoán phải
được xác lập lại (reset) thường xuyên và mỗi ảnh nén trong khung hay nén ước đoán
được phân đoạn thành nhiều lát nhỏ (slice) cho việc tái đồng bộ tại bộ giải mã phía thu.
Cấu trúc dòng MPEG gồm 6 lớp: lớp dãy ảnh (sequence), lớp nhóm ảnh (GOP), lớp ảnh
(pictrue), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block). Mỗi lớp này hỗ
trợ một chức năng nhất định: một là chức năng xử lý tín hiệu (DCT, bù chuyển động) hai
là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu nhiên). Quá trình tạo ra dòng bit
MPEG là ghép kênh: kết hợp các dòng dữ liệu vào, dòng dữ liệu ra, điều chỉnh đồng bộ
và quản lý bộ đệm. Cú pháp dòng MPEG bao gồm: lớp dòng bit (stream), lớp gói (pack)
và lớp gói tin (packet) như trong hình 4.5.

132
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

1. Khối: Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương
pháp nén DCT.
2. Tổ hợp cấu trúc khối (macroblock): một cấu trúc khối là một nhóm các khối
tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh. Cấu
trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc
mẫu được sử dụng. Thông tin đầu tiên trong cấu trúc khối mang dạng của nó (là cấu trúc
khối Y hay Cr, Cb) và các vector bù chuyển động tương ứng.
3. Mảng (Slice): mảng bao gồm một vài cấu trúc khối kề nhau. Kích thước lớn
nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một
cấu trúc khối. Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và
hệ số cân bằng lượng tử.
4. Ảnh (Picture): lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa.
Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải mã có thể sắp xếp các ảnh lại
theo một thứ tự đúng. Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ
phân giải và phạm vi của vector chuyển động. Trong MPEG, có 3 loại ảnh khác nhau
được dùng để mã hoá cho các khối ảnh:
• Kiểu ảnh ‘Intra’ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần
tham khảo tới các ảnh khác. Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về
không gian mà không có yếu tố thời gian tham gia vào quá trình. I-pictures được
dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá
trình giải mã.
• Ảnh ‘Predictive’ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước
nó để bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc
tiên đoán các ảnh khác tiếp theo. Mỗi khối ảnh trong P-picture có thể hoặc được
mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded).
Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được
tăng lên một cách đáng kể so với I-pictures.
• Ảnh ‘Bidirectionally-Predictive’ pictures hay B- Pictures có thể sử dụng các ảnh I
hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động và do vậy cho kết quả
nén cao nhất. Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược,
xuôi, cả hai hướng hoặc được mã một cách độc lập. Để có thể tiên đoán ngược từ
một bức ảnh phía sau nó, bộ mã hoá sẽ tiến hành sắp xếp lại các bức ảnh từ thứ tự
xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền.
Do vậy từ đầu ra của bộ mã hoá, B-pictures được truyền sau các ảnh dùng để tham
khảo ở phía trước và phía sau của nó. Điều này sẽ tạo ra độ trễ do phải sắp xếp lại
thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp
nhau được truyền.

5. Nhóm ảnh (GOP): Các ảnh I, P, B-pictures thường xuất hiện theo một thứ tự lặp
đi lặp lại một cách tuần hoàn, do đó ta có khái niệm về nhóm các bức ảnh GOP (Group of

133
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Pictures). Đối với chuẩn nén MPEG, chất lượng ảnh không những phụ thuộc vào tỷ lệ
nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh GOP. Nhóm ảnh
là khái niệm cơ bản của MPEG, nó là đơn vị mang thông tin độc lập của MPEG. GOP bắt
buộc phải bắt đầu bằng một ảnh I cho phép xác định điểm bắt đầu để tìm kiếm và biên
tập (thông tin đầu gồm 25 bit chứa mã định thời và điều khiển) và tiếp sau nó là một loại
các ảnh P và B.
Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:
B1 B2 I3 B4 B5 B7 B8 P9 B10 B11 P12
Thứ tự xuất hiện của chúng trên đường truyền bị thay đổi do sự sắp xếp lại của bộ
mã hoá như sau:
I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11
Cấu trúc của một GOP có thể được mô tả bởi hai tham số: N là số các ảnh trong
GOP và M là khoảng cách giữa các ảnh P-pictures. Nhóm GOP này được miêu tả như N
= 12 và M = 3.
6. Đoạn (chương trình) video: đoạn video bao gồm thông tin đầu, một số nhóm
ảnh và thông tin kết thúc đoạn. Thông tin đầu của đoạn video chứa đựng kích thước mỗi
chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video số, tần số ảnh và bộ
đệm tối thiểu cần có. Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa
gọi là dòng cơ bản (Elementary Stream).

Hình 4.4: Cấu trúc dòng bit MPEG

134
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Hình 4.5: Kiến trúc dòng dữ liệu MPEG


4.4.3. Nguyên lý hoạt động

Hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại thời điểm
đang xét. Quá trình nén theo chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên
ảnh. Tín hịeu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo ra ảnh khác
biệt ở đầu ra bộ cộng. Ảnh khác biệt này sau đó được nén trong ảnh qua các bước: biến
135
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

đổi DCT, lượng tử hóa, mã hóa. Cuối cùng ảnh này được trộn cùng với vector chuyển
động đưa đến bộ khuyếch đại đệm sẽ thu được ảnh đã nén. Ta xét ví dụ bộ nén theo
phương pháp trên, dùng ảnh I và P trong cấu trúc GOP (Hình 4.6).

Ảnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I. Trong trường hợp này,
sau khi lấy mẫu lần đầu, tín hiệu video được truyền đến khối biến đổi DCT cho các MB
riêng, sau đó bộ lượng tử và mã hóa entropy. Tín hiệu ra từ bộ lượng tử hóa được đưa
đến bộ lượng tử hóa ngược và biến đổi DCT ngược, sau đó được lưu vào bộ nhớ ảnh.

Trong trường hợp mã hóa ảnh loại P, mạch nén chuyển động làm việc. Trên cơ sở
so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vector chuyển động, sau
đó dự báo ảnh. Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó được biến đổi
DCT, lượng tử hóa và mã hóa entropy. Cũng như trong trường hợp các ảnh loại I, tín hiệu
ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đổi DCT ngược rồi cộng với ảnh dự
báo đang xét và lưu vào bộ nhớ.

Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội dung
ảnh đang xét. Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc độ
cho dung lượng kênh truyền. Do đó, tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ lớn. Bộ
mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm. Khi số liệu trong bộ nhớ đệm gần
bằng dung lượng cực đại, thì các hệ số biến đổi DCT ngược được lượng tử hóa ít chính
xác hơn. Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm chứa số liệu quá ít, thì việc
lượng tử hóa các hệ số sẽ tăng lên.

Hình 4.6: Bộ mã hóa MPEG tiêu biểu

136
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Quá trình giải mã: Theo lý thuyết, quá trình giải mã là ngược lại với quá
trình mã hóa và được minh họa trên hình 4.7.

Hình 4.7: Bộ giải mã MPEG tiêu biểu

Chuỗi tín hiệu vào được giải mã entropy tại VLD (Variable-Length Decoder).
Sau đó tách số liệu ảnh (hệ số biến đổi DCT) ra khỏi các vector chuyển động. Số liệu sẽ
được giải lượng tử hóa và biến đổi DCT ngược. Trong trường hợp ảnh loại I bắt đầu ở
mỗi nhóm ảnh trong chuỗi, sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách trên. Nó được
lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo.

Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử và biến đổi DCT ngược
với việc sử dụng các vector chuyển động và ảnh lưu vào bộ nhớ ảnh. Trên cơ sở đó xác
định được dự báo ản đang xét. Ta nhận được ảnh ra sau khi cộng dự báo ảnh và kết quả
biến đổi DCT ngược. Ảnh này cũng được lưu vào bộ nhớ để có thể sử dụng như là chuẩn
khi giải mã các ảnh tiếp theo.

4.4.4. Các chuẩn nén MPEG

4.4.4.1. MPEG-1
Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết
kế để cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM.
Chuẩn MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm
cả ghép kênh video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về
audio nén. Phần 2 (video) được phát triển với mục đích hỗ trợ việc mã hóa có hiệu quả
video cho các ứng dụng phát lại trên CD và tạo ra chất lượng video tương đương hoặc tốt
hơn băng video VHS về tốc độ bit CD (khoảng 1,2 Mbps đối với video). Khi mà hầu hết
các ứng dụng của người tiêu dùng đòi hỏi chỉ cần giải mã và phát lại, không bao gồm mã
hóa thì nảy sinh yêu cầu phải tối thiểu hóa sự phức tạp trong giải mã. Do đó, quá trình

137
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

giải mã của MPEG-1 có thể xem là đơn giản hơn so với mã hóa (không giống như JPEG,
bộ mã hóa và giải mã có mức độ phức tạp tương tự nhau).
Các đặc tính của MPEG-1
Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0
(Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.
Mỗi khung video được xử lý theo từng khối của một macroblock, tương ứng với một
vùng 16×16 pixel trong khung hiển thị. Vùng này được tạo ra từ 16×16 mẫu độ sáng, 8×8
mẫu Cr và 8×8 mẫu Cb (vì Cr và Cb phải bằng một nửa độ phân giải ngang và dọc của
thành phần độ sáng). Một macroblock bao gồm 6 khối 8×8: 4 khối độ sáng (Y), một khối
Cr và một khối Cb.
Mỗi khung video được mã hóa để tạo ra một bức ảnh mã hóa. Có 3 loại chính: các
ảnh I, các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D
nhưng loại này hiếm khi sử dụng trong các ứng dụng thực tế).
Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm tham
khảo cho những ảnh dự đoán xa hơn.
Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo (ảnh P hoặc ảnh
I có trước ảnh P hiện tại). Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyển
tiếp và bản thân một ảnh P có thể được sử dụng làm tham khảo cho các ảnh dự đoán xa
hơn.
Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc
ảnh I trước và sau ảnh B hiện tại. Hai vectơ chuyển động được tạo ra cho mỗi
macroblock trong một ảnh B: một chỉ tới một vùng thích hợp trong ảnh tham khảo trước
đó (một vectơ chuyển tiếp) và một chỉ tới một vùng thích hợp trong ảnh tham khảo tương
lai (vectơ hồi tiếp). Một macroblock dự đoán bù chuyển động có thể được thực hiện theo
3 cách: dự đoán chuyển tiếp sử dụng vecto chuyển tiếp, dự đoán hồi tiếp sử dụng vecto
hồi tiếp hoặc dự đoán hai chiều (trong đó sự tham khảo dự đoán được thực hiện bằng
cách lấy trung bình các tham khảo dự đoán chuyển tiếp và hồi tiếp). Thông thường, một
bộ mã hóa sẽ chọn một chế độ dự đoán (chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo
ra được năng lượng thấp nhất trong macroblock sai phân. Bản thân các ảnh loại B không
được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào.
Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,
chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thực
tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chứa
những chức năng nhất định.

4.4.4.2. MPEG-2
Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là
truyền hình số. Để cung cấp một sự lựa chọn cải tiến cho truyền hình tương tự, một vài

138
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

đặc tính chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu
quả các kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân
giải của ITU-R 601) và mã hóa video kết hợp. Với những độ phân giải chất lượng truyền
hình, video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng
những yêu cầu này.
MPEG-2 bao gồm 3 phần chính: Video, Audio (dựa trên mã hóa audio của MPEG-
1) và Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng
audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:
Mã hóa hiệu quả video với chất lượng truyền hình: Ứng dụng quan trọng nhất của
MPEG-2 là truyền hình số quảng bá. Các chức năng chính của MPEG-2 được đánh giá là
có hiệu quả trong mã hóa những độ phân giải truyền hình ở tốc độ bit trong khoảng từ 3-5
Mbps.
Hỗ trợ mã hóa video kết hợp: MPEG-2 video có một vài đặc tính hỗ trợ mã hóa
một cách linh hoạt video kết hợp. Hai trường tạo ra một khung kết hợp hoàn chỉnh có thể
được mã hóa như những hình ảnh riêng biệt, mỗi trường sẽ được mã hóa thành một ảnh I,
P hoặc B. Các ảnh trường P và B có thể được dự đoán từ một trường trong khung khác
hoặc từ trường khác trong khung hiện tại.
Khả năng phân cấp: Những chế độ tiên tiến của JPEG được mô tả trước đó là các
dạng mã hóa phân cấp. Một luồng bit mã hóa phân cấp bao gồm một lớp cơ sở và một
hoặc nhiều lớp tăng cường. Lớp cơ sở có thể được giải mã để tạo ra chuỗi video có thể
nhận diện mà có chất lượng nhìn bị hạn chế, và một chuỗi chất lượng cao hơn có thể
được tạo ra bởi việc giải mã lớp cơ sở cộng với những lớp tăng cường, với mỗi lớp tăng
cường thêm vào sẽ nâng cao chất lượng của chuỗi giải mã. MPEG-2 hỗ trợ 4 chế độ phân
cấp:
 Phân cấp theo không gian
 Phân cấp theo thời gian
 Phân cấp SNR
 Phân vùng dữ liệu
Profile và level: Hầu hết các ứng dụng đều chỉ yêu cầu một tập nhỏ giới hạn các
chức năng trên diện rộng hỗ trợ bởi MPEG-2. Để khuyến khích khả năng liên kết đối với
các ứng dụng ‘chủ yếu’ bất kỳ (ví dụ truyền hình số), chuẩn này bao gồm một tập các
profile và level đề nghị, mỗi tập định nghĩa một tập con nhất định các chức năng của
MPEG-2. Mỗi profile xác định một tập các khả năng và những khả năng quan trọng. Còn
mỗi level sẽ xác định các độ phân giải không gian và thời gian.
Chuẩn MPEG-2 cũng định nghĩa những kết hợp nhất định đề nghị cho các profile và
level. Main profile/low level (chỉ sử dụng mã hóa khung) thực chất là MPEG-1. Main
profile/main level phù hợp với truyền hình số quảng bá và đây là sự kết hợp profile/level
được sử dụng rộng rãi nhất. Main profile/high level phù hợp với truyền hình độ nét cao
(HDTV).
139
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

4.4.4.3. MPEG-4
Các chuẩn MPEG-1 và MPEG-2 xử lý các khung video hoàn chỉnh, mỗi khung
được mã hóa như một đơn vị riêng lẻ. Chuẩn MPEG-4 được phát triển với mục đích mở
rộng khả năng của những chuẩn trước đó theo một số hướng.
Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp
nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng
nổi bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơn
nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp.
Hỗ trợ mã hóa dựa trên đối tượng: Có thể nói hầu hết sự thay đổi nguyên tắc
trong chuẩn MPEG-4 đều hướng đến mã hóa dựa trên đối tượng hay dựa trên nội dung,
trong đó một cảnh video có thể được xử lý như một tập các đối tượng nền và đối tượng
cận cảnh hơn là chỉ như một chuỗi các khung hình chữ nhật. Loại mã hóa này mở ra một
dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một
cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn được kết hợp
trong một cảnh) và độ tương tác cao. Khái niệm cơ sở sử dụng trong MPEG-4 Visual là
VO (Video Object). Một cảnh video (VS) (một chuỗi các khung video) được tạo thành từ
một số các VO. MPEG-4 cung cấp các công cụ cho phép mỗi VO được mã hóa một cách
độc lập, mở ra một nhiều khả năng mới. Dưới dạng VO, một ‘khung’ tương đương với
một mặt phẳng đối tượng video (VOP – Video Object Plane). Một cảnh hoàn chỉnh có thể
được mã hóa như một VOP đơn hình chữ nhật và điều này tương đương với một bức ảnh
dưới dạng MPEG-1 và 2.
Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rất hạn chế, MPEG-2 đưa
ra khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách
cho các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các
công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một
khung chuẩn hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’.
Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể
được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các
công cụ cũng tiếp tục tăng lên.

4.4.4.4. MPEG-7
Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để
mô tả nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ
liệu khác và thậm chí cả thông tin nghe-nhìn tương tự. Các bộ mô tả cùng với các cơ chế
mô tả sẽ được kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu
nhanh và có hiệu quả của người dùng.
Các mức mô tả
140
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Một sự kiện nghe nhìn xác định có thể được mô tả với nhiều tập hợp đặc tính khác
nhau nếu những ứng dụng của chúng là khác nhau. Để mô tả những sự kiện về thị giác,
đầu tiên chúng được mô tả bởi độ trừu tượng thấp như hình dạng, kích thước, bố cục,
màu sắc, sự chuyển động và các vị trí của chúng trong khung hình ảnh. Độ trừu tượng
cao hơn là sự mô tả mối quan hệ thuộc về ngữ nghĩa giữa những sự trừu tượng mức thấp
hơn ở trên. Tất cả những mô tả đều được mã hóa theo một cách mà chúng có thể được
tìm kiếm một cách hiệu quả nhất.
Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu
đa phương tiện, ví dụ:
• Dạng: ví dụ như cơ chế mã hóa được sử dụng (như JPEG, MPEG-2,…), hoặc kích
thước toàn bộ dữ liệu.
• Những điều kiện để truy cập tài liệu: có thể bao gồm thông tin về bản quyền,
giá,…
• Sự phân loại: sự phân loại nội dung vào một số loại được định nghĩa trước.
• Liên kết đến dữ liệu liên quan khác: thông tin này sẽ giúp người dùng tăng được
tốc độ của hoạt động tìm kiếm.
• Bối cảnh: đối với một số sự kiện được ghi lại, một điều quan trọng là biết được sự
kiện đặc biệt của quá trình ghi lại đó. (ví dụ, World Cup 2002, trận chung kết diễn
ra giữa Brazil và Đức).
Phạm vi ứng dụng
Các phần tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay
MPEG-7 cũng tạo ra mạng lưới có khả năng tìm kiếm nội dung đa phương tiện như khả
năng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng
như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mục
đích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởi
các thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân.
Tất cả các vùng ứng dụng tạo ra việc sử dụng đa phương tiện đều có thể thu được
lợi ích từ MPEG-7. Một số miền có thể tìm thấy sự hữu ích của MPEG-7 như:
 Kiến trúc, di sản thực và thiết kế nội thất (ví dụ như tìm kiếm các ý tưởng).
 Lựa chọn đa phương tiện quảng bá (ví dụ các kênh radio và TV).
 Dịch vụ văn hóa (các bảo tàng lịch sử, phòng trưng bày nghệ thuật,…).
 Các thư viện số (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh sinh
dược, phim, video và radio thu được).
 Thương mại điện tử (ví dụ quảng cáo cá nhân, các danh mục trực tuyến, danh mục
các cửa hàng điện tử).
 Giáo dục (nơi chứa các khóa học đa phương tiện, tìm kiếm đa phương tiện dữ liệu
hỗ trợ).
141
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

 Giải trí tại nhà (ví dụ các hệ thống cho quản lý các bộ sưu tập đa phương tiện cá
nhân, bao gồm cả sự thao tác đối với nội dung như tạo video tại nhà, tìm kiếm trò
chơi).
 Các dịch vụ pháp y (nhận dạng các đặc điểm cá nhân, pháp lý).
 Nghề báo (tìm kiếm lời nói của một nhà chính trị nào đó thông qua tên, giọng nói
hoặc khuôn mặt của người đó).
 Các dịch vụ danh bạ đa phương tiện (ví dụ các trang vàng, các hệ thống thông tin
du lịch, thông tin địa lý).
 Biên tập đa phương tiện (ví dụ các dịch vụ thông tin điện tử cá nhân).
 Khả năng phán đoán từ xa (ví dụ như nghiên cứu bản đồ, nghiên cứu mối quan hệ
của sinh vật sống với môi trường, quản lý nguồn tài nguyên thiên nhiên).
 Mua sắm (ví dụ tìm kiếm những mẫu quần áo mà bạn yêu thích).
 Giám sát (ví dụ điều khiển giao thông, vận tải trên biển, những thử nghiệm không
mang tính phá hoại trong môi trường đối địch).
 …

4.4.4.5. MPEG-21
Ngày nay công nghệ đa phương tiện đã trở nên tiên tiến đến mức có thể truy cập vào
một lượng rất lớn thông tin và các dịch vụ từ bất kỳ đâu và bất kỳ lúc nào thông qua các
mạng và thiết bị đầu cuối phổ biến. Tuy nhiên, không có một bức tranh hoàn chỉnh nào
cho việc làm thế nào để những nhóm người khác nhau có thể tương tác một cách tốt nhất
với nhau trên một cơ sở hạ tầng phức tạp. Những ví dụ về những nhóm người này như
những người cung cấp nội dung, tài chính, truyền thông, máy tính và các bộ phận điện tử
của người sử dụng và các khách hàng. Việc phát triển một khung đa phương tiện chung
sẽ làm cho sự liên kết giữa những bộ phận này trở nên thuận tiện và hỗ trợ sự hoạt động
và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng
nội dung. Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG-21.
MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một ‘bức tranh lớn’ cho
việc làm thế nào để các phần tử khác nhau có thể xây dựng một cơ sở hạ tầng cho việc
phân phối và sử dụng nội dung đa phương tiện – đang tồn tại hoặc đang được phát triển –
có thể làm việc cùng nhau.
MPEG-21 bao gồm một phát biểu chung về nội dung đa phương tiện, một ngôn ngữ
làm đơn giản hóa sự tương thích động của nội dung vào mạng phân phối và các thiết bị
sử dụng, và nhiều công cụ khác nhau để làm cho sự quản lý các quyền số có khả năng
liên kết.

142
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

4.5. Các chuẩn nén Video H26x của ITU

Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật
điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá Video. Những
khuyến nghị của ITU được thiết kế dành cho các ứng dụng truyền thông Video thời gian
thực như Video Conferencing hay điện thoại truyền hình
Các chuẩn mã hóa video MPEG của ISO nhằm vào việc lưu trữ và phân phối video
cho lĩnh vực giải trí và cố gắng đạt được các yêu cầu của người cung cấp cũng như người
tiêu dùng trong ‘nền công nghiệp phương tiện’. Trong khi đó ITU quan tâm nhiều hơn tới
công nghiệp viễn thông, và do đó các chuẩn mã hóa video của tổ chức này (H.261,
H.263, H.264) hướng tới truyền thông thời gian thực, điểm-điểm và đa điểm.
Chuẩn mã hóa video đầu tiên của ITU-T, H.261, được phát triển trong suốt cuối
thập kỷ 80 và đầu thập kỷ 90 của thế kỷ 20 với sự chú ý về ứng dụng và kênh truyền dẫn
đặc biệt. Ứng dụng là hội nghị truyền hình (truyền thông hai chiều qua một ‘đường nối’
video) và kênh truyền là ISDN.
H.261 đã khá thành công và tiếp tục được sử dụng trong nhiều ứng dụng hội nghị
truyền hình mang tính di sản. Những cải tiến trong hiệu suất xử lý, các công nghệ mã hóa
video và sự nổi lên của các modem tương tự và mạng IP như các kênh truyền đã dẫn tới
sự phát triển tiếp theo của nó, H.263, vào giữa thập kỷ 90 của thế kỷ 20.
Bằng việc tạo ra những cải tiến so với H.261, H.263 cung cấp hiệu suất nén tốt hơn
nhiều cũng như độ linh động cao hơn. Chuẩn H.263 ban đầu (phiên bản 1) có 4 chế độ
tùy chọn. Các chế độ này được xem là khá hữu dụng và phiên bản 2 (H.263+) thêm vào
12 chế độ tùy chọn nữa. Phiên bản gần đây nhất (có thể là phiên bản cuối) (v3) chứa tổng
cộng 19 chế độ, mỗi chế độ cung cấp một hiệu suất nén được cải thiện, phục hồi lỗi
và/hoặc độ linh động.
Phát triển mới nhất của nhóm chuyên môn ITU-T là chuẩn H.264. H.264 là dự án
kết hợp gần đây nhất giữa ITU-T VCEG và ISO/IEC MPEG. Đây là một chuẩn mới sử
dụng một số đặc tính tốt nhất của H.263 và nhằm cải thiện hiệu suất nén lên khoảng 50%
ở các tốc độ bit thấp. Ngoài ra, H.264, được thông qua như là một phần của chuẩn
MPEG-4, thường được gọi là MPEG-4 AVC (Advanced Video Coding) hoặc MPEG-4
part 10. H.264 giảm yêu cầu băng thông trong khi chất lượng ảnh tương đương MPEG-2
và MPEG-4. Công nghệ này giúp cho tăng cường khả năng nén không gian và nén thời
gian, cho hình ảnh truyền rất nhanh trên mạng LAN, Internet. Với những ưu việt của
mình, H.264 đang được ứng dụng rất rộng rãi.
4.6. Kết luận chương 4
Trong chương này chúng ta sẽ xem xét các chuẩn mã hóa thoại, âm thanh, các chuẩn nén
hình ảnh JPEP và video MPEG/H26x. Những chuẩn này đã và đang được ứng dụng phổ
biến cho truyền thông đa phương tiện trên mạng viễn thông, mạng truyền hình và
Internet…
143
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

Hướng dẫn ôn tập chương 4

1. Các chuẩn mã hóa thoại và âm thanh.


2. Các chuẩn nén ảnh JPEG và JPEG2000.
3. Các chuẩn nén video MPEG và H26x.

144
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…

TÀI LIỆU THAM KHẢO

[1] Stephen J. Solari, Digital Video and Audio Compression, McGraw-Hill, 1997
[2] Steven W. Smith, The Scientist and Engineer’s Guide to Digital Signal Processing,
Elsevier Science, 2003.
[3] Wai C. Chu, Speech Coding Algorithms- Foundation and Evolution of Standardized
Coders, John Wiley & Sons, 2003.
[4] David Lindbergh, Multimedia Communications: Directions and Innovations,
Academic Press, 2001
[5] R. C. Gonzalez, R. E. Woods , Digital Image Processing, Prentice Hall, 2nd Edition,
2001.
[6] Iain E. G. Richardson, H.264 and MPEG-4 Video Compression: Video Coding for
Next-generation Multimedia, John Wiley & Sons Ltd, 2003.
[7] Andrew S. Tanenbaum, “Computer Networks”, Prentice Hall, Inc., 2003.
[8] Đỗ Hoàng Tiến, Vũ Đức Lý, Truyền hình số, Nhà Xuất bản Khoa học và Kỹ thuật,
2001.
[9] Yiteng, Jacob Benesty, Audio Signal Processing for Next Generation Multimedia
Communication Systems, Kluwer Academic Publisher, 2004
[10] J.R. Parker, Algorithms for Image and Video Processing, Wiley,1996
[11] Alan C. Bovic, Handbook of Image and Video Proceesing, Academic Press, 2000
[12] Rafael C. Gonzalez,Richard E. Wood, Steven L.Eddins, Digital Image Processing
Using MALAB, Prentice Hall, 2003
[13] Nguyễn Quốc Trung, Xử lý tín hiệu và lọc số, Nhà xuất bản Khoa học và Kỹ thuật,
1998.
[14] Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, Nhà xuất bản Khoa
học và Kỹ thuật, 1999.

145

You might also like