You are on page 1of 78

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI

KHOA : ĐIỆN – ĐIỆN TỬ


------------------------

BÀI TẬP LỚN

KỸ THUẬT XỬ LÝ ÂM THANH VÀ
HÌNH ẢNH

ĐỀ TÀI: NÉN ÂM THANH MPEG_file.mpx

Giảng viên hướng dẫn : Nguyễn Tiến Hưng


Sinh viên thực hiện 1 : Nguyễn Đình Hoá
Sinh viên thực hiện 2 : Lê Như Quang
Sinh viên thực hiện 3 : Nguyễn Hữu Trung Kiên

Lớp : Kỹ Thuật Viễn Thông 03 – K60

Hà Nội, 11/2022
Mục lục
CHUƠNG 1. CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH. .................................... 6
1.Âm thanh. ............................................................................................................... 6
1.1 . Đơn vị vật lý của âm thanh. .......................................................................... 6
1.1.1. Đơn vị âm khách quan: ........................................................................... 7
1.1.2. Đơn vị âm chủ quan: ............................................................................... 7
2.Các đặc tính của âm thanh. .................................................................................... 8
2.1.Các đặc trưng vật lí của âm thanh. .................................................................. 9
2.2.Các đặc trưng sinh lí của âm thanh. ................................................................ 9
3.Nén âm thanh. ........................................................................................................ 9
Chương II: Giới Thiệu Về MPEG............................................................................... 10
1.MPEG là gì ? ........................................................................................................ 10
2.So sánh các chuẩn MPEG. ................................................................................... 10
3.Âm thanh MPEG. ................................................................................................. 11
4.Hoạt động của MPEG .......................................................................................... 11
5.Các khái niệm cơ bản về MPEG. ......................................................................... 12
5.1.Lược đồ mã hóa Perceptual Subband............................................................ 12
5.2.Hiệu ứng che ( Masking ). ............................................................................ 13
6.Các lớp âm thanh MPEG. .................................................................................... 14
6.1.Lớp I (Layer I)............................................................................................... 15
6.2.Lớp II (Layer II) ............................................................................................ 15
6.3.Lớp III (Layer III) ......................................................................................... 15
7.Các thông số dùng trong MPEG. ......................................................................... 16
7.1.Mode ............................................................................................................. 16
7.2.Sampling Frequency (tốc độ lấy mẫu) .......................................................... 17
7.3Bit Rate........................................................................................................... 17
7.4.Layers. ........................................................................................................... 18
Chương III: Giải Thuật Nén Âm Thanh MPEG. ........................................................ 19
1.Nền tảng lý thuyết thông tin................................................................................. 19
2.Các giải thuật nén không có tổn thất. ................................................................... 20
2.1.Mã hóa Huffman. .......................................................................................... 20
2.2.Mã Huffman sửa đổi. .................................................................................... 20
2.3.Mã hóa số học. .............................................................................................. 21
2.4.Giải thuật Lempel-Ziv-Welch(LZW)............................................................ 21
3.Các giải thuật nén có tổn thất. .............................................................................. 22
3.1.Các phương pháp nén âm thanh đơn giản. .................................................... 22
3.2.Nén âm thanh dùng mô hình âm - tâm lý...................................................... 22
3.2.1.Hệ thống nghe và phát âm của con người. ............................................. 22
3.2.2.Che tần số (Frequency masking)............................................................ 22
3.2.3.Băng giới hạn. ........................................................................................ 22
3.2.4.Che nhất thời (Temporal masking): che theo thời gian. ........................ 23
3.3.Nén âm thanh MPEG. ................................................................................... 23
3.3.1.Sơ đồ đơn giản cấu trúc mã hóa và giải mã của MPEG. ....................... 23
3.3.2.Giải thuật. ............................................................................................... 24
4. MP3-Tiêu chuẩn nén âm thanh MPEG. .............................................................. 25
4.1. Đặc điểm của MP3 ....................................................................................... 25
4.2.MÃ HOÁ MP3 ( MP3 ENCODING) ........................................................... 26
4.2.1Phân tích phép biến đổi Fourier nhanh (FFT analysis) .......................... 27
4.2.2.Ngưỡng che (Masking Threshold) ......................................................... 27
4.2.3.Băng lọc phân tích (Analysis Filterbank) .............................................. 27
4.2.4.MDCT với cửa sổ động ......................................................................... 27
4.2.5.Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) ............................ 29
4.2.6.Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream
Generation) ...................................................................................................... 29
4.3. Thiết Kế MP3. .............................................................................................. 31
1. Mã hóa âm thanh. ........................................................................................ 31
2. Giải mã âm thanh. ....................................................................................... 31
3. Chất lượng âm thanh. .................................................................................. 32
4. Bit rate. ........................................................................................................ 32
5. Cấu trúc tập tin. ........................................................................................... 32
6. Hạn chế của MP3. ....................................................................................... 33
7. Âm thanh Lossy và âm thanh Lossless. ...................................................... 33
8. Âm thanh Lossy. ......................................................................................... 34
9. Âm thanh LossLess. .................................................................................... 35
10. Cách nhận biết âm thanh Lossy và âm thanh LossLess. ........................... 36
Chương IV: Ứng dụng của nén Audio ........................................................................ 38
4.1.Compressor ....................................................................................................... 38
4.1.1 Threshold(Ngưỡng tác động) ..................................................................... 39
4.1.2.Attack ( Thời gian chuyển vào bộ nén)...................................................... 39
4.1.3. Release ( Thời gian thoát khỏi bộ nén) ..................................................... 39
4.1.4.Radio ( Tỷ số nén) ...................................................................................... 40
4.1.5. Make-up Gain............................................................................................ 40
TÀI LIỆU THAM KHẢO
1. Xử lí tín hiệu âm thanh (Youtobe-Hai Ta)
2. https://tinhte.vn/thread/cach-phan-biet-chat-luong-nhac-mp3-voi-nhac-
lossless-chat-luong-cao.2163690/
3. https://vi.wikipedia.org/wiki/MP3
4. https://tailieu.vn/doc/phuong-phap-ma-hoa-va-nen-am-thanh-theo-
chuan-mpeg-1546072.html
5. https://vimach.net/forums/MA.
6. https://audiotechnicashop.vn/ky-thuat-loc-nhieu-trong-thu-am-2/
CHUƠNG 1. CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH.
1.Âm thanh.
* Nguồn gốc của âm thanh
-Âm thanh là do vật thể dao động cơ học mà phát ra . Âm thanh phát ra dưới dạng sóng
âm .Sóng âm là sự biến đổi các tính chất của môi trường đàn hồi khi năng lượng âm
truyền qua.Âm thanh truyền được đến tai người là do môi trường dẫn âm. Sóng âm có
thể truyền được trong chất rắn,chất lỏng ,không khí.Có chất dẫn âm rất kém gọi là chất
hút âm như: len,da,xốp,……Sóng âm không thể truyền trong môi trường chân không.
- Khi kích thích dao động âm trong môi trường không khí thì lớp khí sẽ bị nén và dãn.
Trạng thái nén dãn lần lượt được lan truyền từ nguồn âm dưới dạng sóng dọc tới nơi
thu âm. Nếu cường độ nguồn âm càng lớn thì âm thanh truyền đi càng xa.
*Sự cẩm thụ của tai người đối với âm thanh:
-Khoảng cách dải âm lớn nhất và yếu nhất mà tai con người có thể nghe là 120dB, tức
là dải 1 triệu lần biên độ. Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi
tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%).
-Nhận biết mức độ ồn liên quan mật thiết với công suất âm thanh theo bậc mũ 1/3.
-Nếu tăng công suất âm lên 10 lần, người nghe nhận được rằng độ ồn tăng lên tầm 2
lần (101/3≈2 lần).
-Dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ
1kHz đến 4kHz.
-Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm
kém.
1.1 . Đơn vị vật lý của âm thanh.
• Âm thanh hay tiếng động mà con người nhận biết được do tác động của sóng âm
lên màng nhĩ tai.
• Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không
khí.. dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm đến kích động màng nhĩ tai gây
cảm giác về âm, do đó cần phân biệt hai loại đại lượng về âm:
- Đại lượng âm khách quan: những đại lượng thuần túy vật lý, không phụ thuộc vào
tai người.
- Đại lượng âm chủ quan: những đại lượng tâm lý vật lý phụ thuộc vào tai người.
1.1.1. Đơn vị âm khách quan:
a. Áp suất âm:
Khi sóng âm tới một mặt nào đó, do các phân tử môi trường dao động tác dụng lên
mặt đó một lực gây ra áp suất. Áp suất ở đây là áp suất dư do sóng âm gây ra ngồi áp
suất khí quyển.
Trong phạm vi nghe được, áp suất âm trong khoảng từ 2.10-4 đến 2.102 bar, chênh
lệch 106 lần, đó là một phạm vi rất rộng.
b. Cường độ âm (I):
- Cường độ âm ở một điểm nào đó trên phương đã cho trong trường âm là số năng
lượng âm đi qua đơn vị diện tích của mặt S vuông góc với phương truyền âm, tại
điểm đó trong đơn vị thời gian.
- Một vài cường độ âm đáng chú ý:
+ Người nói thường I = 2.10-3 W/m2
+ Còi ô-tô I = 5 W/m2
+Còi báo động I = 3.000 W/m2
- Trong điều kiện chuẩn (to = 20oC, áp suất 760mmHg):
+Vận tốc âm trong không khí : C = 340 m/s  = 0,00121 gr/cm3 .  = Cp/Cv = 1,4
- Trong tính tốn người ta quy ước lấy âm đơn tần số f = 1000 Hz làm chuẩn để so
sánh (gọi là âm chuẩn).
- Đối với âm chuẩn, trong phạm vi nghe được
+ Áp suất âm nhỏ nhất Pmin = 2.10-4 bar
+Cường độ âm nhỏ nhất Imin = 10-16 W/cm2 .
- Aùp suất âm và cường độ âm lớn nhất mà tai người có thể chịu được là:
+ Pmax = 2.102 bar Imax = 10-4 W/cm2 .
- Công suất âm nhỏ nhất có thể nghe thấy được
+ Wmin = 10-12 Watt.

1.1.2. Đơn vị âm chủ quan:


• Tai người trung bình có thể nhận được những sóng âm có tần số từ 16 đến 20000
Hz, hiệu qủa này có liên quan tới khả năng sinh lý của tai người.
• Như vậy, âm thanh là một hiện tượng tâm lý vật lý, không phải bất cứ sóng âm nào
tới tai cũng gây ra cảm giác âm thanh như nhau. Aâm có tần số khác nhau gây ra cảm
giác khác nhau.
• Cường độ âm nhỏ nhất của một sóng âm xác định mà tai người nghe thấy được gọi
là “Ngưỡng nghe”. Aâm có tần số khác nhau giá trị ngưỡng nghe cũng khác nhau. Tai
người thính nhất với âm có tần số trong khoảng từ 1000 đến 3000 Hz, trong phạm vi
này cường độ âm ngưỡng nghe nhỏ nhất. Những tần số khác, tai kém thính hơn,
ngưỡng nghe có giá trị lớn hơn.
• Đối với âm chuẩn, cường độ và áp suất ở ngưỡng nghe bằng: Po = 2.10-5 N/ m2 .
Io = 10-12 W/m2 .
• Do cảm giác âm thanh phụ thuộc vào đặc tính sinh lý của tai người, cho nên phải có
một số đại lượng đặc trưng cho cảm giác âm thanh phụ thuộc vào tai người, những
đại lượng như vậy gọi là đại lượng âm chủ quan.
a. Bel và decibel (db):
Theo định lý sinh lý của Vebe-Fécne, cảm giác nghe to đối với một âm không
tỉ lệ thuận với cường độ âm của âm đó.
Khi cường độ âm tăng từ Io tới I thì cảm giác nghe to tăng tỉ lệ với lg(I/Io). Do
đó người ta dùng thang lô-ga-rít cơ số 10 để đo mức cảm giác so với mức
ngưỡng. Mức ngưỡng gọi là mức zero qui ước :
lg(I/Io) = lg(10-12/ 10-12) = 0 bel.
Đơn vị là Bel hay db. 10db = 1 bel.
b. Mức cường độ âm (LI): Nếu gọi I là cường độ âm của âm đang xét và Io là cường
độ âm của mức zero qui ước của âm chuẩn thì mức cường độ âm LI bằng :
LI = 10lg(I/Io) db I tính bằng W/m2 .
c. Mức áp suất âm (Lp): Mức áp suất âm suy dẫn từ mức cường độ âm Lp =
20lg(P/Po) db.
Trong đó: P :áp suất âm có ích của âm đang xét (N/m2)
Po:áp suất âm của âm chuẩn ở ngưỡng nghe.
Thực tế áp suất âm là đại lượng cơ bản hơn cường độ âm, nên thường dùng mức
áp suất âm sau đó suy ra mức cường độ âm. Đơn vị chung là bel hay db. Đơn vị
này cũng dùng để đo mức công suất, mức năng lượng âm. Vài mức áp suất âm
đáng chú ý :
+Nói chuyện thường : 30db.
+ Nói chuyện to : 70db.
2.Các đặc tính của âm thanh.
*Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.
*Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các
bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm.
2.1.Các đặc trưng vật lí của âm thanh.
*Phạm vi tần số: 16 Hz – 20 kHz.
*Sóng âm lan truyền trong môi trường rắn, lỏng, khí.
*Sự truyền âm phụ thuộc vào môi trường.
*Tần số âm thanh.
*Cường độ âm, mức cường độ âm.
*Âm cơ bản và họa âm.
2.2.Các đặc trưng sinh lí của âm thanh.
*Ðộ cao: do tần số dao động của dây thanh và/hoặc của các bộ phận khác trong bộ máy
phát âm quyết định. Tần số dao động (số chu kì dao động trong một giây) càng lớn thì
âm thanh càng cao và ngược lại. Ðơn vị để đo độ cao của âm thanh là Hertz (viết tắt là
Hz).
*Ðộ mạnh: do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn
nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh
càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt là dB).
*Ðộ dài: do thời gian dao động của vật thể quyết định.
*Âm sắc: phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các thành
phần kết cấu của âm.
3.Nén âm thanh.
*Nén âm thanh là làm rút gọn dung lượng của các file âm thanh như là lưu trữ được
nhiều file âm thanh trong một đĩa CD, hoạc là lưu trữ được dữ liệu gốc của âm thanh
hay là loại bỏ những tập âm,….của âm thanh, giúp âm thanh có biên độ, âm sắc,..ổn
định và người nghe có thể dễ nghe hơn,……
*“Nén” tập tin là biện pháp làm giảm đi dung lượng của tập tin, cho phép lưu trữ được
nhiều hơn và chia sẻ nhanh chóng hơn. Dung lượng tập tin quá lớn có thể gây ảnh
hưởng đến các nhu cầu chia sẻ lên mạng xã hội, làm gia tăng băng thông và gây khó
khăn cho người dùng sử dụng các dịch vụ mạng có giới hạn (internet giới hạn lưu
lượng, kết nối mobile date, 3G…).
Chương II: Giới Thiệu Về MPEG
1.MPEG là gì ?
*MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên
nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn
ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn
MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được kết hợp vào MPEG-2 và không
còn tách riêng nữa. Nhóm MPEG hiện nay đã phát triển đến chuẩn MPEG-7.MPEG
chỉ là 1 tên riêng ,tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11.
ISO : International Organization for Standardization
IEC :International Electro-technical Commission
JTC : Joint Technical Committee 1
SC29 : Sub-committee 29
WG11 : Work Group 11
2.So sánh các chuẩn MPEG.

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và
âm thanh trên các thiết bị lưu trữ .Tiêu chuẩn này định nghĩa rằng hình ảnh được phát
lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio,
độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các
phần mềm huấn luyện bằng máy tính,các game hành động trong máy tính ,video chất
lượng trong VHS,..
MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc
phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 có thể tạo hình ảnh lớn
gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc
tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..
*MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế
hệ tiếp theo của công nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã
không được phát triển hoàn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2.
MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến
1920x1080x30 Hz và được mã hoá ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta
đã nhận ra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất
tốt đối với HDTV.
*MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nó định
nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ
và việc tái hợp chúng trên thiết bị thu. MPEG-4 được phát triển theo 2 giai đoạn, 1 và
2. Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đó các phần của một
cảnh có thể được thao tác trong khi những phần khác vẫn không đổi.
*MPEG-5 và MPEG-6 vẫn chưa được công bố.
*MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu
thông tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description
Interface”. Mục tiêu của MPEG-7 là chuẩn hoá việc biểu diễn các mô tả về nội dung
nghe nhìn. Tuy nhiên chuẩn không định nghĩa các công cụ để nhận ra nội dung nghe
nhìn thật sự.
3.Âm thanh MPEG.
*Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tập tin âm thanh đi rất
nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thô với
cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát
ra thì cũng chỉ được 60 đến 72 phút.
-Bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới.
Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình ảnh thì đó chính là độ phân giải.
-Sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây.
Ví dụ : 22 kHz = 22.000 mẫu / 1giây.
*Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin. Nếu đổi
cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích thước lưu trữ đi 1
nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa.
4.Hoạt động của MPEG
*Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe”
của con người. Thật không may đó không phải 1 thiết bị hoàn hảo để nhận biết âm
thanh nhưng là thiết bị duy nhất chúng ta có được. Nhưng chúng ta có thể chuyển những
khuyết điểm của nó thành ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe và khả
năng thích hợp của nó.
*MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về âm mang
đặc tính sinh lý và tâm lý.
-Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.
-Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.
*Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng. Dựa trên nghiên cứu
về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông tin nào là
căn bản và những thông tin nào có thể bỏqua.
*Hiệu quả này đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn nhạc có một nhạc
cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta không thể nghe được. Nhưng
máy thâu âm vẫn ghi lại đầy đủ tất cảtần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm
hoàn toàn không cókhả năng thích nghi động như con người. Nhưng khi phát lại, ta
vẫn không nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ ghi lại
những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính
trên đĩa CD là hoàn toàn không hiệu quả về khía cạnh này. Do đó thay vì phải ghi lại
thông tin của những âm không nghe được, ta sẽ dành chỗ cho các âm có thể nghe được.
Theo cách này, dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà
không làm giảm chất lượng âm thanh.
*Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ não của
chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần thiết. Kỹ thuật
âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thông tin lẽ ra phải
được lọc bởi não bộ bây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.

Hình 2.1: Mức biên độ của 1 âm thanh ở 16 bit và 8 bit

5.Các khái niệm cơ bản về MPEG.


5.1.Lược đồ mã hóa Perceptual Subband

*Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và
xác định ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở
dưới nó không thể nghe được bởi hệ thống nghe của con người.
Hình 2.2: Sơ Đồ Mã Hóa Perceptual Subband
*Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu
“subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn được bắt đầu bởi
việc mã hóa sẽ không vượt quá đường cong che của subband đó. Sự lượng tử hóa phổ
tiếng ồn vì thế thích nghi động với phổ của tín hiệu.Thông tin trên bộ số hóa được
dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hóa. Bộ
giải mã sẽ giải mã dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa
xác định những thông tin này. Điều này cho phép bộ mã hóa hoạt động với những
mức độkhác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong
tương lai của bộ mã hóa.
5.2.Hiệu ứng che ( Masking ).
*là âm lớn át âm bé, âm mạnh át âm yếu.
Hình 2.4: Hiệu ứng Masking
*Ngưỡng nghe và mức nhạy cảm.
-“Ngưỡng nghe” : là mức mà dưới nó 1 âm thanh không thể nghe được. Nó thay đổi
theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều
nhạy cảm ở mức 2 đến 5 kHz. Một người có nghe được âm thanh hay không tùy thuộc
vào tần số của âm và độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần số đó. Tai
nhạy cảm ở mức 2 đến 5 kHz .
-Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được.
Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được rõ ràng
ở điều kiện bình thường. Tuy nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận
của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là
hoàn toàn không thể nghe được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản
lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Âm thanh mà ta không thể nghe được
do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked).
6.Các lớp âm thanh MPEG.
*Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa trên cùng một
lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức tạp của bộ mã hóa và giải mã
tuỳ thuộc vào mỗi lớp. Sau đây là hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới
100% chất lượng CD với các bộmã hóa và giải mã khác nhau.
Hình 2.5: Các lớp âm thanh MPEG.
6.1.Lớp I (Layer I)
*Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng. Mô hình âm học tâm
lý của lớp này chỉ sử dụng các tần số che. Điều này cónghĩa rằng nó sẽ bỏ qua các tần
số bị khuất sau các tần số khác. Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s
(stereo). Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao
(gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương trình
stereo. Không nên mã hóa với mức nén cao hơn 384 kb/s. Độ phức tạp của bộ giải mã
thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần. Lớp I được dùng nhiều trong DDC
và Solid State Audio.
6.2.Lớp II (Layer II)
*Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn. Nó có những ứng
dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư, như qua đài phát thanh, Ti
Vi…Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm thanh mono, và từ 64 - 384 kb/s cho
âm thanh stereo. Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất
lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một
chương trình stereo. Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I, và bộ
mã hóa có mức phức tạp cao hơn 2 - 4 lần.
6.3.Lớp III (Layer III)
*Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ mã hóa
Huffman
Layer Complexity
Encoder Decoder
I 1.5-3 1
II 2-4 1.25
III >7 2.5
Bảng 1: Độ phức tạp giữa các lớp.
*Trong bảng trên, độ phức tạp của bộ giải mã lớp I được dùng để so sánh với lớp II và
III.
*Lớp III là chuẩn hiệu quả nhất và đã trở thành chuẩn trong thực tế cho việc mã hoá
chất lượng âm thanh. Lập luận này dành riêng cho việc thực thi lớp III của chuẩn MPEG
1 được gọi là MP3.
*Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :
-Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giá trị MDCT để loại bỏ
sự dư thừa do sự chồng lấp giữa các băng.
-Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào của nó lên ¾ năng
lượng trứơc khi lượng tử hóa để cung cấp tỉsố tín hiệu trên nhiễu (SNR) cao hơn.
-Mã hóa entropy các giá trị dữ liệu : Lớp 3 sử dụng mã Huffman để mã hóa các mẫu
lượng tử hóa cho việc nén dữ liệu tốt hơn .
-Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù hợp hơn với độ dài thay
đổi của dữ liệu được nén. Cũng giống như lớp 2, khung dữ liệu lớp 3 có 1152 mẫu.
Lớp 3 không giống lớp 2 ở chỗ dữ liệu mã hóa không nhất thiết phải vừa vặn trong một
khung cố định. Bộ mã hóa có thể lấy hoặc mượn các bit từ bộ dựtrữ bit nếu cần thiết .
-Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit trong lớp 1 và lớp 2 chỉ
xấp xỉ lượng nhiễu gây bởi lượng tử hóa theo số bit cho trước. Bộ mã hóa lớp 3 sử dụng
một vòng lặp phân bốnhiễu. Theo cách này , các bộ lượng tử hóa được thay đổi theo
thứ tự , và lượng tử hóa có được là do tính toán và được phân bố cho mỗi băng phụ.
7.Các thông số dùng trong MPEG.
*Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt nhất phù
hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa cho các loại là tổng quát. Các thông
số có thể chọn lựa trong bộ mã hóa MPEG bao gồm : Mode, Sampling frequency,
Bitrate, và Layer.
7.1.Mode
*Chuẩn MPEG có 4 chế độ:
-Mono.
-Dual channel.
-Stereo.
-Intensity Stereo (còn gọi là Joint Stereo).
*Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
*Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác định đâu là tín hiệu trái
và đâu là tín hiệu phải để chia chúng ra thành 2 files khác nhau, nhằm sau này ta có thể
làm việc độc lập trên kênh trái hoặc phải. Lúc đó ta sẽ chọn chế độ Mono. Nếu 2 kênh
không cần hoạt động độc lập, ta chọn Stereo, Dual hay Intensity Stereo để tạo một file
duy nhất.
*Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng sinh ra một file
duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ thị sẽ nhận dạng xem một file là ở
chế độ nào và có thể được dùng cho những áp dụng nào...
*Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và phải nhằm tối ưu
mã. Chất lượng chủ quan của Intensity Stereo thay đổi theo hình ảnh stereo của tín hiệu
đã mã hóa. Tuy nhiên nó đặc biệt thích hợp cho tốc độ truyền bit thấp.
7.2.Sampling Frequency (tốc độ lấy mẫu)
*Một số tốc độ lấy mẫu:
-32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩn ISO/IEC 11172-3).
-16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩn ISO/IEC 13818-3).
*Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
-Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏ hơn).
-Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32 kHz và 8 kHz ở
tốc độ 16 kHz.
-Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể chọn độc lập.
-Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc chọn lọc vì độ
dài frame (byte) là thay đổi.
-Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn khi hòa trộn.
-Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tín hiệu nhập.
-Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1 kHz cho phát
thanh hay ứng dụng multimedia. Nếu ta phải sử dụng tốc độ bit thấp cho sự truyền có
hiệu quả, tốc độ 24 kHz là thích hợp.
7.3Bit Rate.
*Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate). Việc chọn tốc độ bit
tùy thuộc trước tiên vào chất lượng âm yêu cầu. Băng thông tín hiệu là hẹp hơn nếu tốc
độ bit thấp, khiến cho nó không thực tế đối với một số ứng dụng. Tốc độ bit được đo
theo kilobits/sec(kbps).
*Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
-Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm thanh CD sẽ đạt
được với Layer I hay Layer II.
-Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong suốt.
+Tốc độ 128 kbps/kênh được dùng phổ biến nhất trong phát thanh. Nó tương ứng với
tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp hơn 128 kbps/kênh được dùng trong
các ứng dụng yêu cầu tỉ số nén lớn hơn do giới hạn của băng thông truyền hay thiết bị
lưu trữ.
*Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :
-MPEG 1: 32 kHz, 44.1 kHz và 48 kHz
+Layer I :
•32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.
•Những tốc độ này là có thể ở chế độ Mono hay stereo..
+Layer II:
•32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.
•32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono.
•64, 96, 112, 128, 160, 192 kbps có thể ở cả hai chế độ Mono và Stereo.
•224, 256, 320, 384 kbps chỉ có thể ở chế độ Stereo.
-MPEG 2 : 16 kHz, 22.05 kHz và 24 kHz
+Layer I :
•32, 48, 56, 64, 80, 96, 112, 128, 144, 160, 176, 192, 224, 256 kbps
•Những tốc độ này là có thể ở chế độ Mono hay stereo..
- Layer II :
•8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps.
•Những tốc độ này là có thể ở chế độ Mono hay stereo.
7.4.Layers.
*Chuẩn MPEG có ba layer.
*Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
-Ở cùng tốc độ bit, Layer II mang lại chất lượng âm thanh tốt hơn Layer I. Kết luận
này là chủ quan, vì sự chênh lệch là rất khó phân biệt ở tốc độ bit 128 kbps và lớn hơn.
-Dùng Layer I thì việc chọn lọc chính xác hơn Layer II bởi vì độ phân giải của Layer I
gấp ba lần Layer II.

Sampling frequency Layer I (384 samples) Layer II (1152 samples)


32 kHz 12 ms 36 ms
44.1 kHz # 8.71 ms # 26.12 ms
48 kHz 8 ms 24 ms
16 kHz 24 ms 72 ms
22.05 kHz # 17.42 ms # 52.24 ms
24 kHz 16 ms 48 ms
Bảng 2:Tần số lấy mẫu của layer I và II.
*Các điểm kỹ thuật mấu chốt.
*Chuẩn mã hóa âm thanh MPEG chỉ định việc ghi một số cố định các mẫu (384 cho
Layer I và 1152 cho Layer II) để tạo ra một chuỗi các bytes gọi là “frame”. “Frame” là
thực thể nhỏ nhất được điều khiển bởi một ứng dụng. Việc chọn tốc độ bit(kbps) thiết
lập nên kích thước của frame đó theo byte.
*Ví dụ:
-Ở 48 kHz, 128 kbps, chế độ Mono, Layer II:
+48,000 mẫu, tương ứng 1000 ms hay 1s, 1152 mẫu tương ứng 24 ms.
+Ở tốc độ bit 128,000 bits/s, 3072 bits (384 bytes) cần cho 24 ms.
+Chiều dài frame vì thế là 384 byte.
+Để lưu 1 phút, cần 960,000 byte (hay khoảng 1 Megabyte) đĩa trống.
Chương III: Giải Thuật Nén Âm Thanh MPEG.
1.Nền tảng lý thuyết thông tin.
*Theo Shannon, entropy của một nguồn thông tin S được định nghĩa:
H(S) =  = ipi log2(1/pi)
-Trong đó:
+pi: là xác suất mà ký hiệu Si xuất hiện trong S.
+log2(1/pi) chỉ ra số lượng thông tin chứa đựng trong Si, nghĩa là số bit cần thiết để
mã hóa Si.
2.Các giải thuật nén không có tổn thất.
2.1.Mã hóa Huffman.
*Khởi tạo: đưa tất cả các node vào danh sách OPEN theo thứ tự tại mọi thời
điểm. Ví dụ: ABCDE
*Lặp lại cho đến khi danh sách OPEN chỉ còn một node bên trái như sau:
-Từ danh sách OPEN, chọn hai node có xác suất thấp nhất, tạo node cha cho chúng.
-Gán tổng các xác suất cho node cha và đưa node cha vào danh sách OPEN.
-Gán các mã 0, 1 vào các nhánh của cây, xóa các node con khỏi danh sách OPEN.
*Việc giải mã cho cả hai giải thuật trên là chừng nào mà bảng mã (thống kê) được gửi
trước dữ liệu. Có một bit bên trên công việc truyền này, nhưng không đáng kể nếu file
dữ liệu lớn.
*Tính chất tiền tố duy nhất: không có mã nào là tiền tố cho một mã khác (tất cả các ký
hiệu đều là node lá) → rõ ràng là lớn đối với bộ giải mã.
*Nếu việc thống kê có thể tiến hành được trước đó và với độ chính xác cao, thì mã
Huffman là rất tốt.
2.2.Mã Huffman sửa đổi.
*Các giải thuật trên đây yêu cầu kiến thức về thống kê là điều mà khó có thể thực hiện
(ví dụ âm thanh, hình ảnh sống..).
*Ngay cả khi nếu điều đó là có thể làm được thì chi phí cho nó khá nặng, đặc biệt khi
có nhiều bảng phải được truyền mà mô hình non-order() được sử dụng, nghĩa là việc
đưa vào tính toán sự ảnh hưởng của các ký hiệu trước đó với xác suất của ký hiệu hiện
hành (ví dụ: “qu” thường đi với nhau,..).
*Giải pháp đưa ra là dùng giải thuật sửa đổi cho thích hợp. Như ví dụ, việc mã hóa
Huffman sửa đổi được khảo sát sau đây với ý tưởng là làm thế nào có thể áp dụng vào
các giải thuật nén thích hợp khác.
-Mấu chốt ở đây là cả hai bộ mã hóa và giải mã đều dùng cùng các hàm Initialize_model
và update_model .
-Hàm update_model có hai lưu ý: Tăng biến đếm và cập nhật cây Huffman.
*Trong suốt qúa trình cập nhật, cây Huffman sẽ được duy trì tính kế thừa, các nodes
(node trong và lá) được sắp xếp theo thứ tự tăng dần của trọng lượng .
*Khi cần thiết trao đổi (swapping), node xa nhất với trọng lượng W được trao đổi với
node mà trọng lượng của nó tăng lên 1 đơn vị W+1.
*Lưu ý: nếu node trọng lượng W có cây con bên dưới nó thì cây con đó cũng phải dời
cùng với nó.
*Cây Huffman có thể nhìn rất khác so với trước khi trao đổi, ví dụ trong cây thứ 3 ,
node A được trao đổi và trở thành node 5. Bây giờ nó được mã hóa chi bằng 2 bit.
2.3.Mã hóa số học.
*Mã hóa Huffman sử dụng một số nguyên k các bit cho mỗi ký hiệu, vì thế k không
bao giờ nhỏ hơn 1. Đôi khi, ví dụ phải truyền một hình ảnh 1 bit, thì không thể nén
được.
*Ý tưởng: giả sử mẫu tự là [X,Y] và P(X) = 2/3; P(Y) = 1/3.
-Nếu ta chỉ quan tâm với chiều dài mã hóa là 2 thông điệp, thì ta có thể ánh xạ tất cả
thông điệp có thể có vào những đoạn trong phạm vi [0..1]

-Để mã hóa thông điệp, chỉ dùng vừa đủ số bit cần thiết cho mỗi đoạn.
-Tương tự, ta có thể ánh xạ tất cả chiều dài 3 thông điệp vào các đoạn trong [0..1].
-Nói chung, số bit được xác định bằng kích thước của đoạn.
*Ví dụ: Đoạn đầu tiên là 8/27, cần 2 bit→ 2/3 bit cho mỗi ký tự. Đoạn cuối là 1/27, cần
5 bit.
-Tóm lại, cần -[logp] bit để biểu diễn cho đoạn có kích thước p.
-Vấn đề đặt ra là làm thế nào để xác định được xác suất?
*Ý tưởng đơn giản là dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu.
Cập nhật tần số cho mỗi ký hiệu mới.
2.4.Giải thuật Lempel-Ziv-Welch(LZW).
*Giả sử chúng ta muốn mã hóa cho một cuốn tự điển Tiếng Anh 159,000 từ. Như vậy
mỗi từ cần 18 bit để mã hóa.
*Nhược điểm:
-Dùng qúa nhiều bit.
-Chỉ làm việc cho ký tự tiếng Anh
*Giải pháp: Cần phải tìm một cách mã hóa cuốn từ điển cho thích hợp.
*Các phương pháp ban đầu được đề xuất bởi Ziv và Lempel vào năm 1978 và 1979.
Terry Welch phát triển lược đồ vào năm 1981 và trở thành giải thuật LZW.
3.Các giải thuật nén có tổn thất.
3.1.Các phương pháp nén âm thanh đơn giản.
*Các phương pháp nén khảo sát ở trên không hiệu quả trong việc nén âm thanh.
*Sau đây là các phương pháp nén có tổn thất:
-Nén “silence” : dò các khoảng “yên lặng”, giống như mã hoá run-length.
-LPC (Linear Predictive Coding).
-CELP (Code Excited Linear Predictor).
3.2.Nén âm thanh dùng mô hình âm - tâm lý.
3.2.1.Hệ thống nghe và phát âm của con người.
*Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz.
*Phạm vi phát âm bình thường từ 500 Hz đến 2 kHz.
3.2.2.Che tần số (Frequency masking).
*“Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số
và mức to (dB) xác định sẽ có một “ngưỡng che”.
3.2.3.Băng giới hạn.
*Thước đo tần số đồng bộ không tương xứng với độ rộng của đường cong che.
*Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng lên
đối với các tần số >500Hz.
*Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen)
-1 Bark = bề rộng của băng giới hạn:
+Tần số < 500Hz : 1 bark = freq/100.
+Tần số > 500Hz : 1 bark = 9 + 4log(freq/1000).
*Ngưỡng che trên thước đo băng giới hạn:
Hình 3.1: Ngưỡng che trên thước đo băng giới hạn.
3.2.4.Che nhất thời (Temporal masking): che theo thời gian.
*Tai người cũng có đặc tính lưu âm.
*Nếu có một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được
một âm lân cận nhỏ hơn.
3.3.Nén âm thanh MPEG.
3.3.1.Sơ đồ đơn giản cấu trúc mã hóa và giải mã của MPEG.

Hình 3.2: Sơ đồ mã hóa (a) và giải mã (b) của MPEG.


*Với bộ mã hóa : Tín hiệu đầu vào là tín hiệu PCM rồi tiếp đó tín hiệu được đi qua một
giàn lọc ( gồm các bộ lọc như bộ lọc thông giải, thông thấp,…), tiếp đến tín hiệu được
đưa vào khối lượng tử hóa và mã hóa. Ở đây, khối Psychoacoustic model - khối dùng
để loại bỏ các thông tin, tín hiệu mà con người khó và không thể cảm nhận được kết
hợp với khối lượng tử hóa và mã hóa thì tín hiệu được thêm vào các tín hiệu bổ trợ
khác ( có thể có hoặc không ) và định dạng thành một dòng bit và ở đầu ra của bộ mã
hóa thu được một dòng bit đã được mã hóa.
*Với bộ giải mã: Tín hiệu đầu vào chính là dòng bit đã được mã hóa ở phía thu của bộ
mã hóa, dòng bit này sẽ được đưa đến bộ giải lượng tử hóa, giải mã và đồng thời có
thể loại bỏ ra các tín hiệu bổ trợ khác, tiếp đến dòng được đưa đến khối ánh xạ tín hiệu
và được ánh xạ vào dải tần số và cuối cùng ở đầu thu thu được dòng audio đã được giải
mã.
3.3.2.Giải thuật.
*Vài thông số:
*MPEG-1:
-1.5Mbits/s cho âm thanh và hình ảnh.
-Khoảng 1.2 Mbits cho hình ảnh và 0.3Mbits/s cho âm thanh.
*Âm thanh CD không nén dùng: (44,100 mẫu/s * 16bit/mẫu * 2 kênh) > 1.4 Mbits/s.
-Âm thanh MPEG cung cấp các tần số lấy mẫu là 32, 44.1 và 48 kHz.
-Giải thuật:
+Dùng bộ lọc thông để chia tín hiệu âm thanh thành các sub-band theo tần số, tương
ứng với 32 băng giới hạn → lọc sub-band.
+Xác định số lượng che của mỗi band gây bởi các band lân cận bằng các kết qủa bước
1 → mô hình âm - tâm lý.
+Nếu mức to của một băng mà nhỏ hơn ngưỡng che thì không mã hóa nó.
+ Ngược lại, xác định số bit cần thiết để mã hóa sao cho nhiễu sinh ra bởi việc lượng
tử hóa này thấp hơn đường cong che.
+ Định dạng dòng dữ liệu bit.
Hình 3.3: Sơ đồ định dạng dòng bit.
*Ví dụ: Sau khi phân tích, 16 band đầu tiên trong số 32 band như sau:
Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level(dB) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1

-Nếu mức to của âm thứ 8 là 60dB, nó sẽ che band thứ 7 ở mức 12dB và band thứ 9 ở
mức 15dB. Mức to ở band 7 là 10dB ( 15dB) nên được tiếp tục xử lý.
-Layer I: bộ lọc loại DCT với 1 frame và độ rộng tần số như nhau trên mỗi sub-band.
Mô hình âm-tâm lý chỉ sử dụng hiệu quả che tần số (Frequency masking).
-Layer II: sử dụng 3 frame trong bộ lọc (trước, hiện tại và kế tiếp, tổng cộng 1152 mẫu).
Mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời (Temporal masking).
-Layer III: dùng bộ lọc băng giới hạn tốt hơn, mô hình âm-tâm lý có sử dụng hiệu quả
che nhất thời, và có dùng bộ mã hoá Huffman.
4. MP3-Tiêu chuẩn nén âm thanh MPEG.
*MP3 là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (lossy). Nó là một
dạng âm thanh được mã hóa PCM pulse-code modulation và có dung lượng nhỏ hơn
rất nhiều so với dữ liệu ban đầu do nó bỏ đi những phần âm thanh được cho là không
quan trọng trong khoảng nghe được của con người
4.1. Đặc điểm của MP3
*Tên của định dạng MP3 bắt nguồn từ "MPEG-1, layer 3", còn được gọi chính thức
hơn là ISO/IEC 11172-3 lớp 3. Những tập tin theo dạng này được lưu với phần mở
rộng tên .mp3. Đôi khi những tập tin theo tiêu chuẩn MPEG-2, layer 3 cũng sử dụng
phần mở rộng này.
*Có rất nhiều kỹ thuật đã được dùng trong chuẩn nén MP3 để xác định phần nào nên
bỏ đi, trong đó có tâm thần âm học psychoacoustic. Dữ liệu MP3 có thể được tạo ra
với nhiều bitrate khác nhau để có thể dễ dàng chọn lựa giữa chất lượng cao hay cỡ tập
tin đầu ra nhỏ.
*Cốt lõi của kỹ thuật nén MP3 là một dạng biến đổi phức để chuyến tín hiệu sóng
ngang theo thời gian thành tín hiệu dựa theo tần số:
-32 băng tần phép lọc cầu phương đa âm.
-36 hay 12 nhánh MDCT; kích cỡ có thể được định cho từng băng tần con từ 0 đến 1,
từ 2 đến 31.
-Đặt ký hiệu aliasing để làm giảm cỡ tập tin sau nén.
*Sử dụng trong MP3 của một thuật toán nén được thiết kế để làm giảm đáng kể số
lượng dữ liệu cần thiết để đại diện cho âm thanh ghi âm và vẫn còn âm thanh như một
sự sao chép trung thành của âm thanh không nén ban đầu cho hầu hết các thính giả.
Một tập tin MP3 được tạo ra bằng cách sử dụng các thiết lập của 128 kbit / s sẽ cho kết
quả trong một tập tin đó là khoảng 1/11 kích thước, lưu ý của file CD tạo ra từ nguồn
âm thanh ban đầu. Một tập tin MP3 cũng có thể được xây dựng với tốc độ bit cao hơn
hoặc thấp hơn, với chất lượng kết quả cao hơn hoặc thấp hơn.
*Nén hoạt động bằng cách làm giảm độ chính xác của các bộ phận nhất định của âm
thanh được coi là vượt quá khả năng giải quyết thính giác của hầu hết mọi người.
Phương pháp này thường được gọi là mã hóa tri giác sử dụng mô hình tâm lý học để
loại bỏ hoặc làm giảm độ chính xác của các thành phần này ít nghe điều trần của con
người, và sau đó ghi lại các thông tin còn lại một cách hiệu quả.
*Trong thời đại bùng nổ Internet, MP3 đã chứng tỏ mình là một sự lựa chọn hàng đầu
khi có khả năng làm giảm kích thước tập tin gấp nhiều lần so với kích thước ban
đầu. Thêm vào đó là việc tạo ra các tập tin MP3 cũng rất dễ dàng mà vẫn không làm
mất đi tính rõ ràng của âm thanh.
*Cụ thể hơn, nó có thể nén các tập tin bằng cách loại bỏ đi những âm thanh dư thừa bao
gồm cả tiếng ồn, âm tần quá cao hoặc quá thấp và âm nhiễu của sóng điện do dụng cụ
thu âm gây ra. Đây cũng là những âm thanh chiếm khá nhiều dung lượng của bản nhạc.
*Song, bên cạnh quá trình loại bỏ những âm thanh không cần thiết, MP3 vẫn có một
số thuật toán để bù đắp lại những chỗ mất mát mà nó đã lược bỏ bằng cách tạo ra những
âm thanh méo mó so với âm gốc, mà vẫn không làm giảm chất lượng cảm nhận khi so
sánh với các tập tin chưa qua nén MP3
4.2.MÃ HOÁ MP3 ( MP3 ENCODING)
Tín hiệu vào bộ mã hóa là bộ điều biến mã xung bình thường (PCM)
được phân chia vào khung có 1152 mẫu. Khung này được chia làm hai
granules, mỗi granule là 576 mẫu. Khung được gởi đến cả hai khối biến
đổi Fourier nhanh (FFT) và băng lọc phân tích.

4.2.1Phân tích phép biến đổi Fourier nhanh (FFT analysis)

Khối FFT chuyển 576 mẫu đến miền tần số sử dụng phép biến đổi Fourier.
4.2.2.Ngưỡng che (Masking Threshold)

Thông tin tần số từ khối FFT được sử dụng để liên kết mô hình âm
tâm lý để xác định ngưỡng che cho tất cả các tần số. Ngưỡng che
được áp dụng vào bộ lượng tử hóa để xác định số bit cần thiết mã
hóa cho mỗi mẫu. Chúng thường xem xét liệu sự chuyển đổi cửa sổ
có cần thiết trong khối biến đổi cosin rời rạc cải tiến (MDCT).

4.2.3.Băng lọc phân tích (Analysis Filterbank)

Băng lọc phân tích bao gồm 32 băng thông lọc bằng nhau. Đầu ra của
băng lọc là 1 mẫu tới hạn. Nghĩa là mỗi granules gồm 576 mẫu, có 18
mẫu ra từ 32 băng thông lọc, mà đưa ra tổng cộng là 576 mẫu
subband.

4.2.4.MDCT với cửa sổ động

Mẫu subband được biến đổi đến miền tần số thông qua MDCT. MDCT
thực hiện 18 mẫu (khối dài ) cùng thời điểm để đạt độ phân giải tần
số cao, thực hiện 6 mẫu (khối ngắn ). Do có sự chồng cửa sổ lên nhau
50% nên kích thước cửa sổ là 36 mẫu cho khối dài và 12 mẫu cho
khối ngắn. Khối ngắn cải thiện độ phân thời gian tốt hơn để dùng cho
các tín hiệu chuyển tiếp và làm nhỏ tiếng vang lại. Khối dài cho phép
độ phân giải tần số tốt hơn. Lớp 3 có 3 mode chọn khối : 2 mode khi
tất cả các lối ra của băng lọc đều qua được biến đổi MDCT, và 1 mode
hỗn hợp khi 2 băng tần thấp sử dụng khối dài còn 30 băng tần cao sử
dụng khối ngắn .

Trước mỗi đợt MDCT xuất ra subband, mỗi subband cũ phải nghịch
đảo tần số (nhân -1) để dòng phổ xuất hiện theo thứ tự tăng dần.

Khi mã hóa thụ cảm entropy vượt quá giá trị 1800 sẽ xác định hằng
số. Khối lọc MDCT sẽ được chuyển đến cửa sổ ngắn. Để duy trì thuộc
tính tái tạo lại của MDCT, sự chuyển đổi giữa khối ngắn và khối dài
không thể tức thì, vì vậy có cửa sổ chuyển đổi từ dài đến ngắn, từ ngắn
đến dài.

Chiều dài của khối ngắn bằng 1/3 khối dài. Trong chế độ khối ngắn,
3 khối ngắn thay thế 1 khối dài mà không kể đến loại cửa sổ áp dụng,
số dòng MDCT còn lại không đổi. Cho 1 khối riêng biệt của dữ liệu,
tất cả các kênh khối lọc có thể cùng kiểu khối MDCT ( dài hoặc ngắn)
hoặc 1 mode khối hỗn hợp nơi mà subband tần số nhỏ hơn 2 cho phép
khối dài trong khi còn lại dãi trên 30 có khối ngắn. Chế độ hỗn hợp
cung cấp độ phân giải tần số tốt hơn cho tần số thấp hơn trong khi
duy trì độ phân giải thời gian cao hơn.

MDCT biến đổi tín hiệu âm thanh vào miền tần số, sinh ra biệt danh
được đưa vào bởi mẫu con trong khối lọc có thể thoát khỏi từng phần
(partially cancelled).

4.2.5.Chia tỉ lệ và lượng tử hóa (Scaling và Quantization)

Ngưỡng che được sử dụng để tính toán có bao nhiêu bit cần thiết trong
mỗi băng tới hạn để mã hóa mẫu sao cho nhiễu lượng tử hóa không
thể nghe được. Bộ mã hoá thường sử dụng tốc độ bit phù hợp với yêu
cầu.

Mã hoá Huffman là một phần của phép lặp bởi vì nó không có khả
năng xác định số bit cần thiết cho việc mã hoá.

4.2.6.Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation)
Mẫu lượng tử hoá là lưu trữ và mã hoá Huffman trong dòng bit dọc
theo hệ số tỉ lệ và thông tin (side infomation).

Huffman là phương pháp mã hoá không mất dữ liệu dùng từ mã


(codeword) để lưu trữ bit nhị phân của “symbol”. Ví dụ các symbol
A, B, C, D được mã hoá thông qua các code word như sau:

Symbo Code
l word
A 0
B 10
C 110
D 111

Symbol A và B được phân biệt thông qua chiều dài của từ mã tương
ứng là “0” và “10”. Thế mạnh của của mã hoá Huffman là tất cả code
word có khả năng giải mã đồng nhất ( uniquely decodable). Vì vậy
trình tự mã hoá của các bit là:
01101110100
tương ứng với chuỗi dữ
liệu: “ACDABA”
Giải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree)
dùng để phân biệt các symbol thông qua code word. Symbol nào có
xác suất cao thì code word ngắn, ngược lại symbol có xác suất thấp thì
code dài hơn. Trình tự thực hiện theo các bước sau:

• Sắp xếp số lần xuất hiện ( xác suất) các symbol theo thứ tự
giảm dần.
• Nối 2 symbol lại với nhau theo thứ tự từ trên xuống để tạo
symbol mới.
• Tiếp tục bước 2 cho đến khi còn lại 1 symbol với xác suất là 1.
• Tiến hành đánh số cho cây mã hoá, bắt đầu từ gốc (symbol có
xác suất là 1) trở lên phía trên thì đánh số “0” ngược lại từ gốc
đi xuống ta đánh số “1”.

Ví dụ ta có chuỗi cần mã hoá là “ EXAMPLE OF HUFFMAN


CODING”. Đầu tiên ta tính xác suất của từng symbol trong chuỗi ký
tự.

Symbo Xác suất


l
E 2/25
X 1/25
A 2/25
M 2/25
P 1/25
L 1/25
4.3. Thiết Kế MP3.
1. Mã hóa âm thanh.
*Có rất nhiều bộ mã hóa MP3 khác nhau có sẵn, mỗi file sản xuất chất lượng khác nhau.
*Các tiêu chuẩn MPEG-1 không bao gồm một đặc điểm kỹ thuật chính xác cho một bộ
mã hóa MP3, nhưng không cung cấp các mô hình ví dụ của tâm lý học, tỷ lệ vòng lặp.
2. Giải mã âm thanh.
*Hầu hết các bộ giải mã là "bitstream tuân thủ", có nghĩa là sản lượng giải nén - mà họ
sản xuất từ một tập tin MP3 cho là như vậy, trong một mức độ quy định khoan dung
làm tròn, như đầu ra quy định toán học trong các tài liệu ISO/IEC tiêu chuẩn cao
(ISO/IEC 11.172-3). Vì vậy, so sánh các bộ giải mã thường dựa trên tính toán hiệu quả
(ví dụ, bao nhiêu bộ nhớ hoặc CPU thời gian họ sử dụng trong quá trình giải mã).
3. Chất lượng âm thanh.
*Khi thực hiện mất dữ liệu mã hóa âm thanh, chẳng hạn như việc tạo ra một tập tin
MP3, có là một thương mại-off giữa số lượng không gian được sử dụng và chất lượng
âm thanh của kết quả. Thông thường, người sáng tạo được cho phép để thiết lập một tỷ
lệ bit, trong đó xác định các tập tin có thể sử dụng bao nhiêu kilobits mỗi giây của âm
thanh. Tốc độ bit cao hơn, lớn hơn các tập tin nén sẽ được, và, nói chung, gần gũi hơn
nó sẽ âm thanh thành tập tin gốc.
*Bên cạnh tỷ lệ bit của một phần mã hóa âm thanh, chất lượng của các tập tin MP3
cũng phụ thuộc vào chất lượng của các bộ mã hóa riêng của mình, và những khó khăn
của các tín hiệu được mã hóa. Như là tiêu chuẩn MP3 cho phép khá một chút tự do với
các thuật toán mã hóa, mã hóa khác nhau có thể tính năng chất lượng hoàn toàn khác
nhau, ngay cả với tốc độ bit giống hệt nhau.
*Chất lượng là phụ thuộc vào sự lựa chọn của các thông số mã hóa và mã hóa.
*Chất lượng cảm nhận có thể bị ảnh hưởng bởi môi trường âm nhạc (môi trường xung
quanh tiếng ồn), sự chú ý của người nghe, và đào tạo người biết lắng nghe và trong
nhiều trường hợp thiết bị âm thanh nghe (chẳng hạn như card âm thanh, loa và tai nghe).
4. Bit rate.
*Một số tốc độ bit được quy định cụ thể trong MPEG-1 Audio III Lớp tiêu chuẩn: 32,
40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 và 320 kbit/s, với tần số lấy mẫu có
sẵn 32, 44,1 và 48 kHz.
*Một tỷ lệ mẫu là 44,1 kHz được hầu như luôn luôn được sử dụng, bởi vì điều này cũng
được sử dụng cho đĩa CD âm thanh, nguồn chính được sử dụng để tạo ra các tập tin
MP3. Một loạt lớn hơn tốc độ bit được sử dụng trên Internet. Tỷ lệ 128 kbit/s được sử
dụng phổ biến, một tỉ lệ nén của 11:01, cung cấp đầy đủ chất lượng âm thanh trong một
không gian tương đối nhỏ. Khi tinh Internet băng thông và kích thước ổ đĩa cứng đã
tăng lên, tốc độ bit cao hơn lên đến 320 kbit/s là phổ biến rộng rãi.
*Âm thanh không nén được lưu trữ trên một đĩa CD âm thanh có tốc độ bit 1,411.2
kbit/s, lưu ý để bitrate 128, 160 và 192 kbit/s đại diện cho tỷ lệ nén khoảng 11:01, 9:1
và 07:01 tương ứng.
5. Cấu trúc tập tin.
*Mp3filestructure.svg
*Một tập tin MP3 được tạo thành từ nhiều khung hình MP3, trong đó bao gồm một tiêu
đề và một khối dữ liệu. Chuỗi các khung này được gọi là một dòng tiểu. Do "hồ chứa
byte", khung không phải là mặt hàng độc lập và có thể không thường được chiết xuất
trên ranh giới khung tùy ý. Các khối dữ liệu MP3 chứa các thông tin âm thanh (nén) về
tần số và biên độ. Đồ thị cho thấy Header MP3 bao gồm một từ đồng bộ, được sử dụng
để xác định sự khởi đầu của một khung hợp lệ. Tiếp theo là một chút chỉ ra rằng đây là
tiêu chuẩn MPEG và hai bit chỉ ra rằng lớp 3 được sử dụng, vì vậy MPEG-1 Audio
Layer 3 hoặc MP3. Sau này, các giá trị sẽ khác nhau, tùy thuộc vào các tập tin MP3.
ISO / IEC 11.172-3 xác định phạm vi của các giá trị cho mỗi phần của tiêu đề cùng với
các đặc điểm kỹ thuật của tiêu đề. Hầu hết các tập tin MP3 hôm nay chứa ID3 siêu dữ
liệu, trước hoặc sau các khung MP3.
6. Hạn chế của MP3.
*Có một số những hạn chế cố hữu đối với các định dạng MP3 mà không thể được khắc
phục bởi bất kỳ bộ mã hóa MP3.
*Thời gian giải quyết có thể là quá thấp cho tín hiệu cao thoáng và có thể gây nhòe của
âm thanh bộ gõ.
*Việc kết hợp các kết quả đầu ra của hai ngân hàng bộ lọc tạo ra các vấn đề răng cưa
phải được xử lý một phần của giai đoạn "răng cưa bồi thường", tuy nhiên, tạo ra năng
lượng dư thừa sẽ được mã hóa trong miền tần số, do đó làm giảm hiệu quả mã hóa. Độ
phân giải tần số được giới hạn bởi kích thước nhỏ dài cửa sổ khối, làm giảm hiệu quả
mã hóa.
*Stereo phần chỉ được thực hiện trên cơ sở khung-to-frame.
*Xử lý nội bộ của hồ chứa bit tăng chậm trễ mã hóa.
*Bộ mã hóa / giải mã chậm trễ tổng thể không xác định, có nghĩa là không có quy định
chính thức cho Gapless phát lại. Tuy nhiên, một số bộ mã hóa như LAME có thể đính
kèm thêm siêu dữ liệu mà sẽ cho phép người chơi có thể xử lý nó để cung cấp phát lại
liền mạch.
*Các dòng dữ liệu có thể chứa một tổng kiểm tra tùy chọn, nhưng tổng kiểm tra các chỉ
bảo vệ các dữ liệu tiêu đề, không phải là dữ liệu âm thanh.

7. Âm thanh Lossy và âm thanh Lossless.


*Sau quá trình thu âm, ta được một file nhạc wav có chất lượng nguyên gốc nhưng dung
lượng rất lớn, khoảng 10 MB cho mỗi phút nhạc. Bởi vậy, để tiện việc lưu trữ hay chia
sẻ, người ta phải nén các bản nhạc lại dưới các định dạng. Mỗi định dạng ứng với một
thuật toán nén nhất định và tỉ lệ nén cũng như chất lượng sau khi nén của bản nhạc cũng
khác nhau. Có hai cách nén chính là: nén có mất (lossy compression) tạo ra các file
nhạc mp3, wma, ogg…và nén không mất (lossless compression) để tạo các file nhạc
flac, ape…
*Khi nén có mất (rip hoặc convert nhạc), chương trình nén sẽ cắt bớt đi những dải tần
số âm thanh nhất định (thường là dải tần trên 20 Khz, theo đặc điểm về khả năng nghe
của tai người), từ đó giảm được dung lượng bản nhạc. Nhưng cái phải trả giá là chất
lượng âm thanh sẽ giảm đi. Do vậy, càng giảm ít thì định dạng nhạc hay thuật toán mã
hóa càng tốt.
8. Âm thanh Lossy.
*Lossy: nói nôm na là các file nén không bảo toàn dữ liệu. Các định dạng file phổ biến
mà ai cũng biết đó là Mp3, AAC, WMA, Vorbis… Nếu như cách đây hơn 5-10 năm
khi mà các thiết bị lưu trữ như ổ cứng, thẻ nhớ còn bị giới hạn và giá thành cao ngất
ngưỡng thì các định dạng lossy luôn là ưu tiên hàng đầu để lưu giữ. Ngày nay thì dung
lượng có lẽ không còn là mối bận tâm đối với đa số người dùng nhất là những người
yêu thích công nghệ. Tuy nhiên, các file này hiện vẫn còn rất phổ biến vì đặc tính gọn
nhẹ, dễ chia sẻ và chất lượng vẫn phù hợp với mặt bằng chung số đông người dùng.
*Với sự phát triển của PC và Internet, nhu cầu chia sẻ thông tin và nhạc càng ngày càng
được đòi hỏi cao. Nhưng người ta không thể nào gửi cả album nhạc đến 700Mb qua
Internet với tốc độ èo uột 56kps thời đấy được. Do đó các nhóm nghiên cứu, các tổ
chức, và nhiều công ty khác nhau đã cố gắng tìm ra những định dạng âm thanh mới sử
dụng những thuật toán riêng để nhằm giảm bớit dung lượng dữ liệu cần đề diễn tả âm
thanh gốc cùng lúc đó cố gắng giữ cho âm thanh gần với âm thanh gốc nhất. Đó cũng
là mục đích của định dạng âm thanh nén mất dữ liệu (lossy).
*Có rất nhiều định dạng khác nhau đã ra đời như mp3, wma, aac, ogg, mpc, atrac, ...
Chúng hoạt động gần giống nhau nhưng mỗi định dạng có 1 thuật toán khác nhau để
xác định xem giữ lại mẫu âm thanh nào, bỏ mẫu âm thanh nào, hoặc điều chỉnh mẫu
âm thanh thế nào. Thế thì tại sao lại có thể bỏ, hoặc giữ? Vì theo lí thuyết tai con người
sẽ rất khó nhận ra sự hiện diện của 1 tần số âm thanh nhất định nào đó (có thể là quá
20Khz). Việc bỏ đi 1 phần dữ liệu âm thanh này giúp cho các định dạng âm thanh mất
dữ liệu như Mp3 có thể giảm dữ liệu cần thiết để diễn tả 1 lần lấy mẫu (sẽ ít hơn rất
nhiều so với 16 bit cho 44100 lần 1 giây như của âm thanh gốc).
*Ngoài ra các định dạng âm thanh này còn tạo ra những âm thanh giả nhằm đắp vào
những phần nó đã loại bỏ, điều này là thực sự không thể chấp nhận được, nó tạo ra
những âm thanh ta hay gọi là "éo éo" hoặc vang hoặc méo hẳn so với âm chuẩn, đúng
vậy những file được nén với bitrate càng thấp thì hiện tượng này xảy ra càng nhiều (ví
dụ điển hình nhất: bạn hãy nghe thử 1 đoạn khán giả vỗ tay của 1 file mp3 và 1 track
trong CD gốc hoặc 1 file nén không mất dữ liệu (lossless) sẽ ngay lập tức nhận ra. Vì
sao tiếng vỗ tay lại gây ra nhiều vấn đề như vậy ? Bởi vì tiếng vỗ tay là 1 âm thanh hỗn
hợp ngẫu nhiên, nếu trong âm thanh chuẩn gốc nó sẽ đc diễn ta đầy đủ, thế nhưng với
âm thanh nén, định dạng nén buộc phải "ép" bitrate của mình vào khoảng cho phép do
đó nó tạo ra những âm thanh vỗ tay đều đều nhau rất ít sự khác biệt hoặc bị hiệu ứng
vang).
*Chúng ta thường thấy rằng MP3 hay được nén với bitrate là 128, hoặc 192, hoặc 320
kilobit /1 giây (kbps) . Bạn có thể nhận thấy rằng nó chỉ bằng 1/10 so với biterate của
WAV (1411kbps) đó là lí do tại sao 1 phút nhạc MP3 128kbps chỉ tốn khoảng 1Mb.
*Đúng là trong 1 số trường hợp nhất định, hoặc 1 dạng âm thanh/nhạc nào đó, sẽ rất
khó phân biệt sự khác nhau giữa âm thanh gốc và MP3. Bên cạnh đó các thuật toán nén
của các định nhạc mất dữ liệu đã được cải thiện rất nhiều. Thế nhưng không có gì hoàn
hảo, và chắc chắn cái gì đã mất đi thì sẽ làm cho nó hỏng đi.
9. Âm thanh LossLess.
*Trong công việc hàng ngày với máy tính, hẳn không ít lần bạn đã nén 1 file tài liệu
gửi cho đồng nghiệp. Có thể bạn đã sử dụng Zip hoặc Rar làm định dạng nén.
*File tài liệu được bạn nén sau khi qua Zip hoặc Rar sẽ trở nên nhỏ hơn rất nhiều nhưng
khi người nhận nhận được file, họ sẽ giải nén và có được file tài liệu gốc mà bạn đã tạo.
Vậy Zip và Rar đã làm gì ? Nói đơn giản, đó là những thuật toán nhằm tìm ra những
quy luật lặp của dữ liệu từ đó tìm 1 cách hiển thị khác tối ưu hơn, tốn ít dữ liệu hơn. (ví
dụ ta có chuỗi: aaaaa bbbbbbb aaa 11111 , bạn thấy rằng cách diễn giải tốt hơn nhiều
mà tốn ít chữ hơn là ax5 bx7 ax3 1x5). Đấy là 1 ví dụ rất đơn giản để bạn hiểu, còn thì
nó phức tạp hơn rất nhiều .
*Như vậy khi người nhận nhận file và giải nén, Zip và Rar đóng nhiệm vụ sử dụng
những chuỗi dữ liệu nén đấy tập hợp và tạo lại file gốc ban đầu.
*Đó cũng là mục đích của định dạng âm thanh nén không mất dữ liệu (lossess). Với cấu
trúc trên của zip hoặc rar thì bạn có thể thấy rõ rằng đối với lossless audio, nó lấy đầu
vào là âm thanh gốc của CD, cố gắng tìm ra những quy luật âm thanh và nén nó lại.
Việc nén lại này là không cao vì dữ liệu âm thanh rất đa dạng và sử dụng nhiều dữ liệu.
Hiện tại mức độ nén cao nhất có thể của kĩ thuật nén không mất dữ liệu là bằng khoảng
1/3 dung lượng gốc của âm thanh gốc. Do đó mỗi album lossless sẽ có dung lượng
khoảng 200 đến 300 Mb.
*Khi giải nén hoặc khi nghe lossless điều chắc chắn ta đạt được đó chính là tín hiệu gốc
của âm thanh CD (44.1Khz, 16bit, 1411Kbps) . Điều này là cứu nhân cho mọi người
yêu âm nhạc luôn đòi hỏi âm thanh trung thực nhưng không có điều kiện có CD gốc
hoặc muốn sử dụng máy tính làm nơi lưu trữ albums.
10. Cách nhận biết âm thanh Lossy và âm thanh LossLess.
Tiêu chuẩn CDDA (Compact Disc Digital Audio) và sự liên quan của nó tới tiêu
chuẩn chất lượng âm thanh số.
*CDDA (Compact Disc Digital Audio) là tiêu chuẩn âm thanh của đĩa CD (Compact
Disc), tiêu chuẩn CDDA chỉ định âm thanh trong đĩa CD cần đảm bảo:
-Số kênh (channels): 2
-Độ sâu bit (bit-depth) = 16 bit
-Mẫu tần (sampling rate) = 44.1 kHz
-Tần số âm thanh = 22.05 kHz.
*Trong 4 yếu tố nêu trên thì 3 yếu tố đầu bao gồm: channels - bit-depth - sampling rate
là bộ khung cố định đối với nhạc trong CD, duy chỉ có Tần số âm thanh là có thể nhỏ
hơn hoặc bằng 22.05kHz, vậy nên Tần số âm thanh là yếu tố quyết định đến chất lượng
CDDA.
-Nếu âm thanh có tần số = 22.05 kHz thì đó là âm thanh đạt chuẩn CDDA, ta gọi đó là
CDDA 100% tức là âm thanh thuần khiết.
-Nếu âm thanh có tần số < 22.05 kHz ta gọi đó là MPEG, MPEG là âm thanh không
thuần khiết chứa tạp âm, thường được dùng để ghép với video.
* Cách nhận biết.:
*Chúng ta sẽ sử dụng phần mềm AU (Adobe Audition ) để kiểm tra, nhận biết sự khác
biệt giữa Lossless và Lossy
*Adobe Audition được biết đến như một phần mềm giúp hỗ trợ người thu âm điều chỉnh
tệp ghi âm thanh chuyên nghiệp. Ứng dụng cho phép người dùng thao tác, xử lý các
thông số và dữ liệu âm thanh bằng cách cập nhật thêm hiệu ứng, lọc tạp âm, điều chỉnh
các bức sóng âm thanh, thay đổi tần số, cải thiện chất lượng tệp podcast,….
*Nhạc Lossless: có chất lượng âm thanh đạt chuẩn CDDA với tần số âm = 22.05 kHz,
để kiểm tra file nhạc lossless là thật hay giả chúng ta sẽ kiểm tra quang phổ của chúng.
Hình 4.1: Quang phổ của âm thanh dạng Lossless
*Nhạc Lossly: có chất lượng âm thanh với tần số âm < 22.05 kHz.

Hình 4.2: Quang phổ của âm thanh dạng Lossly


*Tuy nhiên không phải bất cứ bản nhạc dạng Lossless và Lossly mà chúng ta nghe
trên mạng đều là chuẩn vì khi kiểm tra thông số ta có thể thấy nó thực sự không bằng
được những thuân số chuẩn của dạng âm thanh đó.
Ví dụ với 1 file nhạc Lossless ( FLAC ) với chuẩn 16-bit/44 KHz thì sẽ có bitrate là
1043 Kbps nhưng với những file nhạc trên mạng dạng FLAC mà ta tải về thường sẽ
không được 1043 Kbps:
Chương IV: Ứng dụng của nén Audio

4.1.Compressor

Trước khi tìm hiểu về compressor, việc đầu tiên bạn phải biết về Compression.
Compression là hiệu ứng giúp giảm bớt sự khác biệt về âm lượng của âm thanh, giữa
các tín hiệu âm thanh lớn nhất và nhỏ nhất, nhờ đó âm thanh loa phát ra sẽ đều đặn và
mượt mà hơn rất nhiều. Khi có tín hiệu âm thanh đầu vào như giọng hát, một loại
nhạc cụ (keyboard, guitar...) thì chắc chắn sẽ có tín hiệu âm thanh to nhỏ khác, hiệu
ứng compression này sẽ giúp giảm bớt sự biến động về âm lượng của âm thanh, cho
bản nhạc nghe được dễ chịu và hài hòa hơn. Và compressor là thiết bị đóng vai trò xử
lý hiệu ứng compression này.
Nói một cách dễ hiểu hơn thì compreesor sẽ lấy một mức âm lượng trung bình của tín
hiệu âm thanh và loa, nhờ vậy mà âm thanh sẽ hay và mượt mà hơn, không quá to và
không quá nhỏ.
4.1.1 Threshold(Ngưỡng tác động)
Định nghĩa chung : Mức tín hiệu gốc phải đạt đến để nén âm thnah phát huy tác dụng.
Định nghĩa thực tế : Tần suất máy nén sẽ phải hoạt động vàlamf việc khi tín hiệu đi qua
nó.
Chú ý đến : Tuổi thọ của âm thanh .Bnaj hiếm khi muốn máy nén của mình luôn hoạt
động .Những phần bạn không nén cũng quan trọng như những phần bạn nén .Bnaj muốn
các bộ phận yên tĩnh hơn của bạn đi qua để cho phép bài hát của bạn thở.
4.1.2.Attack ( Thời gian chuyển vào bộ nén)
Định nghĩa chung : Máy nén tăng nhanh như thế nào từ 0 đến 100 sau khi tín hiệu ban
đầu vượt qua ngưỡng .
Định nghĩa thực tế :Bao nhiêu tín hiệu ban đầu mà máy nén sẽ cho đi qua sau khi vượt
qua ngưỡng.
Nghe để làm gì : Lắng nghe mép âm thnah bạn đnag nén -nó dày hay mỏng -1 cuộc tấn
công máy nén nhanh hơn sẽ làm cho mép âm thanh mỏng hơn và 1 cuộc tấn công chậm
hơn sẽ làm cho nó dày hơn.
4.1.3. Release ( Thời gian thoát khỏi bộ nén)
Định nghĩa chung: Máy nén ngừng hoạt động nhanh như thé nào sau khi tín hiệu giảm
xuống dưỡi ngưỡng.
Lắng nghe để làm gì : Lắng nghe mép dau của âm thanh của bạn và cách tín hiệu di
chuyển ngược về phía bạn
Những gì bạn muốn : Bạn muốn 1 cài đặt phát hành hoạt đọng theo âm nhạc với cách
phát hoặc rảnh của nhạc cụ hoặc vòng lặp ,mà bạn đang nén.Đó là về cảm giác hơn là
âm thanh theo 1 cách nào đó .Bạn có thể nhảy theo nó không ? Nó có làm cho bạn
cảm thấy như bạn đnag ở trong zero-g ? Nó có bật trở lại tốt với rãnh của cuộc chơi
hay không?
4.1.4.Radio ( Tỷ số nén)
Định nghĩa chung :Mức độ nén âm thanh được áp dụng .Ví dụ ,tỷ lệ 3:1 có nghĩa là
đối với mức tăng 3dB trong mức tín hiệu gốc vượt ngưỡng ,máy nén sẽ chỉ cho phép
tăng mức 1 dB trên đầu ra của nó
Định nghĩa thực tế : Âm thanh của bạn sẽ xuất hện chắc chắn /chặt chẽ và lớn đến
mức .
Điều cần lắng nghe : Bạn muốn đạt được sự cân bằng giữa độ cứng và kích thước
.Quá săn chắc và bạn bắt đầu giảm kích thước và ngược lại .Cố gắng giam rtyr lệ
xuống mức thấp nhất óc thể mà không làm mất đi độ chắc mà bạn muốn từ âm thanh
nén của mình.

4.1.5. Make-up Gain


Quá trình nén âm thanh thường kéo các đỉnh các bạn xuống nên mức tổng thể của tín
hiệu bị giảm khi bị nén .Make-up gain là 1 bộ khuếch đại hoặc núm âm lượng đơn
giản ở đầu ra của máy nén cho phép bạn bù đắp sự mất mát của mức đọ bắng cách
tăng mức độ.

You might also like