Professional Documents
Culture Documents
BTL X Lí Âm Thanh
BTL X Lí Âm Thanh
KỸ THUẬT XỬ LÝ ÂM THANH VÀ
HÌNH ẢNH
Hà Nội, 11/2022
Mục lục
CHUƠNG 1. CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH. .................................... 6
1.Âm thanh. ............................................................................................................... 6
1.1 . Đơn vị vật lý của âm thanh. .......................................................................... 6
1.1.1. Đơn vị âm khách quan: ........................................................................... 7
1.1.2. Đơn vị âm chủ quan: ............................................................................... 7
2.Các đặc tính của âm thanh. .................................................................................... 8
2.1.Các đặc trưng vật lí của âm thanh. .................................................................. 9
2.2.Các đặc trưng sinh lí của âm thanh. ................................................................ 9
3.Nén âm thanh. ........................................................................................................ 9
Chương II: Giới Thiệu Về MPEG............................................................................... 10
1.MPEG là gì ? ........................................................................................................ 10
2.So sánh các chuẩn MPEG. ................................................................................... 10
3.Âm thanh MPEG. ................................................................................................. 11
4.Hoạt động của MPEG .......................................................................................... 11
5.Các khái niệm cơ bản về MPEG. ......................................................................... 12
5.1.Lược đồ mã hóa Perceptual Subband............................................................ 12
5.2.Hiệu ứng che ( Masking ). ............................................................................ 13
6.Các lớp âm thanh MPEG. .................................................................................... 14
6.1.Lớp I (Layer I)............................................................................................... 15
6.2.Lớp II (Layer II) ............................................................................................ 15
6.3.Lớp III (Layer III) ......................................................................................... 15
7.Các thông số dùng trong MPEG. ......................................................................... 16
7.1.Mode ............................................................................................................. 16
7.2.Sampling Frequency (tốc độ lấy mẫu) .......................................................... 17
7.3Bit Rate........................................................................................................... 17
7.4.Layers. ........................................................................................................... 18
Chương III: Giải Thuật Nén Âm Thanh MPEG. ........................................................ 19
1.Nền tảng lý thuyết thông tin................................................................................. 19
2.Các giải thuật nén không có tổn thất. ................................................................... 20
2.1.Mã hóa Huffman. .......................................................................................... 20
2.2.Mã Huffman sửa đổi. .................................................................................... 20
2.3.Mã hóa số học. .............................................................................................. 21
2.4.Giải thuật Lempel-Ziv-Welch(LZW)............................................................ 21
3.Các giải thuật nén có tổn thất. .............................................................................. 22
3.1.Các phương pháp nén âm thanh đơn giản. .................................................... 22
3.2.Nén âm thanh dùng mô hình âm - tâm lý...................................................... 22
3.2.1.Hệ thống nghe và phát âm của con người. ............................................. 22
3.2.2.Che tần số (Frequency masking)............................................................ 22
3.2.3.Băng giới hạn. ........................................................................................ 22
3.2.4.Che nhất thời (Temporal masking): che theo thời gian. ........................ 23
3.3.Nén âm thanh MPEG. ................................................................................... 23
3.3.1.Sơ đồ đơn giản cấu trúc mã hóa và giải mã của MPEG. ....................... 23
3.3.2.Giải thuật. ............................................................................................... 24
4. MP3-Tiêu chuẩn nén âm thanh MPEG. .............................................................. 25
4.1. Đặc điểm của MP3 ....................................................................................... 25
4.2.MÃ HOÁ MP3 ( MP3 ENCODING) ........................................................... 26
4.2.1Phân tích phép biến đổi Fourier nhanh (FFT analysis) .......................... 27
4.2.2.Ngưỡng che (Masking Threshold) ......................................................... 27
4.2.3.Băng lọc phân tích (Analysis Filterbank) .............................................. 27
4.2.4.MDCT với cửa sổ động ......................................................................... 27
4.2.5.Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) ............................ 29
4.2.6.Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream
Generation) ...................................................................................................... 29
4.3. Thiết Kế MP3. .............................................................................................. 31
1. Mã hóa âm thanh. ........................................................................................ 31
2. Giải mã âm thanh. ....................................................................................... 31
3. Chất lượng âm thanh. .................................................................................. 32
4. Bit rate. ........................................................................................................ 32
5. Cấu trúc tập tin. ........................................................................................... 32
6. Hạn chế của MP3. ....................................................................................... 33
7. Âm thanh Lossy và âm thanh Lossless. ...................................................... 33
8. Âm thanh Lossy. ......................................................................................... 34
9. Âm thanh LossLess. .................................................................................... 35
10. Cách nhận biết âm thanh Lossy và âm thanh LossLess. ........................... 36
Chương IV: Ứng dụng của nén Audio ........................................................................ 38
4.1.Compressor ....................................................................................................... 38
4.1.1 Threshold(Ngưỡng tác động) ..................................................................... 39
4.1.2.Attack ( Thời gian chuyển vào bộ nén)...................................................... 39
4.1.3. Release ( Thời gian thoát khỏi bộ nén) ..................................................... 39
4.1.4.Radio ( Tỷ số nén) ...................................................................................... 40
4.1.5. Make-up Gain............................................................................................ 40
TÀI LIỆU THAM KHẢO
1. Xử lí tín hiệu âm thanh (Youtobe-Hai Ta)
2. https://tinhte.vn/thread/cach-phan-biet-chat-luong-nhac-mp3-voi-nhac-
lossless-chat-luong-cao.2163690/
3. https://vi.wikipedia.org/wiki/MP3
4. https://tailieu.vn/doc/phuong-phap-ma-hoa-va-nen-am-thanh-theo-
chuan-mpeg-1546072.html
5. https://vimach.net/forums/MA.
6. https://audiotechnicashop.vn/ky-thuat-loc-nhieu-trong-thu-am-2/
CHUƠNG 1. CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH.
1.Âm thanh.
* Nguồn gốc của âm thanh
-Âm thanh là do vật thể dao động cơ học mà phát ra . Âm thanh phát ra dưới dạng sóng
âm .Sóng âm là sự biến đổi các tính chất của môi trường đàn hồi khi năng lượng âm
truyền qua.Âm thanh truyền được đến tai người là do môi trường dẫn âm. Sóng âm có
thể truyền được trong chất rắn,chất lỏng ,không khí.Có chất dẫn âm rất kém gọi là chất
hút âm như: len,da,xốp,……Sóng âm không thể truyền trong môi trường chân không.
- Khi kích thích dao động âm trong môi trường không khí thì lớp khí sẽ bị nén và dãn.
Trạng thái nén dãn lần lượt được lan truyền từ nguồn âm dưới dạng sóng dọc tới nơi
thu âm. Nếu cường độ nguồn âm càng lớn thì âm thanh truyền đi càng xa.
*Sự cẩm thụ của tai người đối với âm thanh:
-Khoảng cách dải âm lớn nhất và yếu nhất mà tai con người có thể nghe là 120dB, tức
là dải 1 triệu lần biên độ. Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi
tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%).
-Nhận biết mức độ ồn liên quan mật thiết với công suất âm thanh theo bậc mũ 1/3.
-Nếu tăng công suất âm lên 10 lần, người nghe nhận được rằng độ ồn tăng lên tầm 2
lần (101/3≈2 lần).
-Dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ
1kHz đến 4kHz.
-Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm
kém.
1.1 . Đơn vị vật lý của âm thanh.
• Âm thanh hay tiếng động mà con người nhận biết được do tác động của sóng âm
lên màng nhĩ tai.
• Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không
khí.. dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm đến kích động màng nhĩ tai gây
cảm giác về âm, do đó cần phân biệt hai loại đại lượng về âm:
- Đại lượng âm khách quan: những đại lượng thuần túy vật lý, không phụ thuộc vào
tai người.
- Đại lượng âm chủ quan: những đại lượng tâm lý vật lý phụ thuộc vào tai người.
1.1.1. Đơn vị âm khách quan:
a. Áp suất âm:
Khi sóng âm tới một mặt nào đó, do các phân tử môi trường dao động tác dụng lên
mặt đó một lực gây ra áp suất. Áp suất ở đây là áp suất dư do sóng âm gây ra ngồi áp
suất khí quyển.
Trong phạm vi nghe được, áp suất âm trong khoảng từ 2.10-4 đến 2.102 bar, chênh
lệch 106 lần, đó là một phạm vi rất rộng.
b. Cường độ âm (I):
- Cường độ âm ở một điểm nào đó trên phương đã cho trong trường âm là số năng
lượng âm đi qua đơn vị diện tích của mặt S vuông góc với phương truyền âm, tại
điểm đó trong đơn vị thời gian.
- Một vài cường độ âm đáng chú ý:
+ Người nói thường I = 2.10-3 W/m2
+ Còi ô-tô I = 5 W/m2
+Còi báo động I = 3.000 W/m2
- Trong điều kiện chuẩn (to = 20oC, áp suất 760mmHg):
+Vận tốc âm trong không khí : C = 340 m/s = 0,00121 gr/cm3 . = Cp/Cv = 1,4
- Trong tính tốn người ta quy ước lấy âm đơn tần số f = 1000 Hz làm chuẩn để so
sánh (gọi là âm chuẩn).
- Đối với âm chuẩn, trong phạm vi nghe được
+ Áp suất âm nhỏ nhất Pmin = 2.10-4 bar
+Cường độ âm nhỏ nhất Imin = 10-16 W/cm2 .
- Aùp suất âm và cường độ âm lớn nhất mà tai người có thể chịu được là:
+ Pmax = 2.102 bar Imax = 10-4 W/cm2 .
- Công suất âm nhỏ nhất có thể nghe thấy được
+ Wmin = 10-12 Watt.
MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và
âm thanh trên các thiết bị lưu trữ .Tiêu chuẩn này định nghĩa rằng hình ảnh được phát
lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio,
độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các
phần mềm huấn luyện bằng máy tính,các game hành động trong máy tính ,video chất
lượng trong VHS,..
MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc
phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 có thể tạo hình ảnh lớn
gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc
tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..
*MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế
hệ tiếp theo của công nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã
không được phát triển hoàn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2.
MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến
1920x1080x30 Hz và được mã hoá ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta
đã nhận ra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất
tốt đối với HDTV.
*MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nó định
nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ
và việc tái hợp chúng trên thiết bị thu. MPEG-4 được phát triển theo 2 giai đoạn, 1 và
2. Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đó các phần của một
cảnh có thể được thao tác trong khi những phần khác vẫn không đổi.
*MPEG-5 và MPEG-6 vẫn chưa được công bố.
*MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu
thông tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description
Interface”. Mục tiêu của MPEG-7 là chuẩn hoá việc biểu diễn các mô tả về nội dung
nghe nhìn. Tuy nhiên chuẩn không định nghĩa các công cụ để nhận ra nội dung nghe
nhìn thật sự.
3.Âm thanh MPEG.
*Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tập tin âm thanh đi rất
nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thô với
cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát
ra thì cũng chỉ được 60 đến 72 phút.
-Bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới.
Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình ảnh thì đó chính là độ phân giải.
-Sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây.
Ví dụ : 22 kHz = 22.000 mẫu / 1giây.
*Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin. Nếu đổi
cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích thước lưu trữ đi 1
nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa.
4.Hoạt động của MPEG
*Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe”
của con người. Thật không may đó không phải 1 thiết bị hoàn hảo để nhận biết âm
thanh nhưng là thiết bị duy nhất chúng ta có được. Nhưng chúng ta có thể chuyển những
khuyết điểm của nó thành ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe và khả
năng thích hợp của nó.
*MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về âm mang
đặc tính sinh lý và tâm lý.
-Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.
-Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.
*Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng. Dựa trên nghiên cứu
về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông tin nào là
căn bản và những thông tin nào có thể bỏqua.
*Hiệu quả này đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn nhạc có một nhạc
cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta không thể nghe được. Nhưng
máy thâu âm vẫn ghi lại đầy đủ tất cảtần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm
hoàn toàn không cókhả năng thích nghi động như con người. Nhưng khi phát lại, ta
vẫn không nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ ghi lại
những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính
trên đĩa CD là hoàn toàn không hiệu quả về khía cạnh này. Do đó thay vì phải ghi lại
thông tin của những âm không nghe được, ta sẽ dành chỗ cho các âm có thể nghe được.
Theo cách này, dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà
không làm giảm chất lượng âm thanh.
*Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ não của
chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần thiết. Kỹ thuật
âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thông tin lẽ ra phải
được lọc bởi não bộ bây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.
*Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và
xác định ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở
dưới nó không thể nghe được bởi hệ thống nghe của con người.
Hình 2.2: Sơ Đồ Mã Hóa Perceptual Subband
*Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu
“subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn được bắt đầu bởi
việc mã hóa sẽ không vượt quá đường cong che của subband đó. Sự lượng tử hóa phổ
tiếng ồn vì thế thích nghi động với phổ của tín hiệu.Thông tin trên bộ số hóa được
dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hóa. Bộ
giải mã sẽ giải mã dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa
xác định những thông tin này. Điều này cho phép bộ mã hóa hoạt động với những
mức độkhác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong
tương lai của bộ mã hóa.
5.2.Hiệu ứng che ( Masking ).
*là âm lớn át âm bé, âm mạnh át âm yếu.
Hình 2.4: Hiệu ứng Masking
*Ngưỡng nghe và mức nhạy cảm.
-“Ngưỡng nghe” : là mức mà dưới nó 1 âm thanh không thể nghe được. Nó thay đổi
theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều
nhạy cảm ở mức 2 đến 5 kHz. Một người có nghe được âm thanh hay không tùy thuộc
vào tần số của âm và độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần số đó. Tai
nhạy cảm ở mức 2 đến 5 kHz .
-Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được.
Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được rõ ràng
ở điều kiện bình thường. Tuy nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận
của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là
hoàn toàn không thể nghe được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản
lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Âm thanh mà ta không thể nghe được
do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked).
6.Các lớp âm thanh MPEG.
*Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa trên cùng một
lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức tạp của bộ mã hóa và giải mã
tuỳ thuộc vào mỗi lớp. Sau đây là hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới
100% chất lượng CD với các bộmã hóa và giải mã khác nhau.
Hình 2.5: Các lớp âm thanh MPEG.
6.1.Lớp I (Layer I)
*Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng. Mô hình âm học tâm
lý của lớp này chỉ sử dụng các tần số che. Điều này cónghĩa rằng nó sẽ bỏ qua các tần
số bị khuất sau các tần số khác. Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s
(stereo). Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao
(gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương trình
stereo. Không nên mã hóa với mức nén cao hơn 384 kb/s. Độ phức tạp của bộ giải mã
thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần. Lớp I được dùng nhiều trong DDC
và Solid State Audio.
6.2.Lớp II (Layer II)
*Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn. Nó có những ứng
dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư, như qua đài phát thanh, Ti
Vi…Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm thanh mono, và từ 64 - 384 kb/s cho
âm thanh stereo. Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất
lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một
chương trình stereo. Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I, và bộ
mã hóa có mức phức tạp cao hơn 2 - 4 lần.
6.3.Lớp III (Layer III)
*Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ mã hóa
Huffman
Layer Complexity
Encoder Decoder
I 1.5-3 1
II 2-4 1.25
III >7 2.5
Bảng 1: Độ phức tạp giữa các lớp.
*Trong bảng trên, độ phức tạp của bộ giải mã lớp I được dùng để so sánh với lớp II và
III.
*Lớp III là chuẩn hiệu quả nhất và đã trở thành chuẩn trong thực tế cho việc mã hoá
chất lượng âm thanh. Lập luận này dành riêng cho việc thực thi lớp III của chuẩn MPEG
1 được gọi là MP3.
*Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :
-Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giá trị MDCT để loại bỏ
sự dư thừa do sự chồng lấp giữa các băng.
-Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào của nó lên ¾ năng
lượng trứơc khi lượng tử hóa để cung cấp tỉsố tín hiệu trên nhiễu (SNR) cao hơn.
-Mã hóa entropy các giá trị dữ liệu : Lớp 3 sử dụng mã Huffman để mã hóa các mẫu
lượng tử hóa cho việc nén dữ liệu tốt hơn .
-Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù hợp hơn với độ dài thay
đổi của dữ liệu được nén. Cũng giống như lớp 2, khung dữ liệu lớp 3 có 1152 mẫu.
Lớp 3 không giống lớp 2 ở chỗ dữ liệu mã hóa không nhất thiết phải vừa vặn trong một
khung cố định. Bộ mã hóa có thể lấy hoặc mượn các bit từ bộ dựtrữ bit nếu cần thiết .
-Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit trong lớp 1 và lớp 2 chỉ
xấp xỉ lượng nhiễu gây bởi lượng tử hóa theo số bit cho trước. Bộ mã hóa lớp 3 sử dụng
một vòng lặp phân bốnhiễu. Theo cách này , các bộ lượng tử hóa được thay đổi theo
thứ tự , và lượng tử hóa có được là do tính toán và được phân bố cho mỗi băng phụ.
7.Các thông số dùng trong MPEG.
*Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt nhất phù
hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa cho các loại là tổng quát. Các thông
số có thể chọn lựa trong bộ mã hóa MPEG bao gồm : Mode, Sampling frequency,
Bitrate, và Layer.
7.1.Mode
*Chuẩn MPEG có 4 chế độ:
-Mono.
-Dual channel.
-Stereo.
-Intensity Stereo (còn gọi là Joint Stereo).
*Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
*Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác định đâu là tín hiệu trái
và đâu là tín hiệu phải để chia chúng ra thành 2 files khác nhau, nhằm sau này ta có thể
làm việc độc lập trên kênh trái hoặc phải. Lúc đó ta sẽ chọn chế độ Mono. Nếu 2 kênh
không cần hoạt động độc lập, ta chọn Stereo, Dual hay Intensity Stereo để tạo một file
duy nhất.
*Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng sinh ra một file
duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ thị sẽ nhận dạng xem một file là ở
chế độ nào và có thể được dùng cho những áp dụng nào...
*Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và phải nhằm tối ưu
mã. Chất lượng chủ quan của Intensity Stereo thay đổi theo hình ảnh stereo của tín hiệu
đã mã hóa. Tuy nhiên nó đặc biệt thích hợp cho tốc độ truyền bit thấp.
7.2.Sampling Frequency (tốc độ lấy mẫu)
*Một số tốc độ lấy mẫu:
-32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩn ISO/IEC 11172-3).
-16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩn ISO/IEC 13818-3).
*Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
-Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏ hơn).
-Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32 kHz và 8 kHz ở
tốc độ 16 kHz.
-Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể chọn độc lập.
-Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc chọn lọc vì độ
dài frame (byte) là thay đổi.
-Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn khi hòa trộn.
-Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tín hiệu nhập.
-Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1 kHz cho phát
thanh hay ứng dụng multimedia. Nếu ta phải sử dụng tốc độ bit thấp cho sự truyền có
hiệu quả, tốc độ 24 kHz là thích hợp.
7.3Bit Rate.
*Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate). Việc chọn tốc độ bit
tùy thuộc trước tiên vào chất lượng âm yêu cầu. Băng thông tín hiệu là hẹp hơn nếu tốc
độ bit thấp, khiến cho nó không thực tế đối với một số ứng dụng. Tốc độ bit được đo
theo kilobits/sec(kbps).
*Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
-Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm thanh CD sẽ đạt
được với Layer I hay Layer II.
-Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong suốt.
+Tốc độ 128 kbps/kênh được dùng phổ biến nhất trong phát thanh. Nó tương ứng với
tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp hơn 128 kbps/kênh được dùng trong
các ứng dụng yêu cầu tỉ số nén lớn hơn do giới hạn của băng thông truyền hay thiết bị
lưu trữ.
*Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :
-MPEG 1: 32 kHz, 44.1 kHz và 48 kHz
+Layer I :
•32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.
•Những tốc độ này là có thể ở chế độ Mono hay stereo..
+Layer II:
•32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.
•32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono.
•64, 96, 112, 128, 160, 192 kbps có thể ở cả hai chế độ Mono và Stereo.
•224, 256, 320, 384 kbps chỉ có thể ở chế độ Stereo.
-MPEG 2 : 16 kHz, 22.05 kHz và 24 kHz
+Layer I :
•32, 48, 56, 64, 80, 96, 112, 128, 144, 160, 176, 192, 224, 256 kbps
•Những tốc độ này là có thể ở chế độ Mono hay stereo..
- Layer II :
•8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps.
•Những tốc độ này là có thể ở chế độ Mono hay stereo.
7.4.Layers.
*Chuẩn MPEG có ba layer.
*Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
-Ở cùng tốc độ bit, Layer II mang lại chất lượng âm thanh tốt hơn Layer I. Kết luận
này là chủ quan, vì sự chênh lệch là rất khó phân biệt ở tốc độ bit 128 kbps và lớn hơn.
-Dùng Layer I thì việc chọn lọc chính xác hơn Layer II bởi vì độ phân giải của Layer I
gấp ba lần Layer II.
-Để mã hóa thông điệp, chỉ dùng vừa đủ số bit cần thiết cho mỗi đoạn.
-Tương tự, ta có thể ánh xạ tất cả chiều dài 3 thông điệp vào các đoạn trong [0..1].
-Nói chung, số bit được xác định bằng kích thước của đoạn.
*Ví dụ: Đoạn đầu tiên là 8/27, cần 2 bit→ 2/3 bit cho mỗi ký tự. Đoạn cuối là 1/27, cần
5 bit.
-Tóm lại, cần -[logp] bit để biểu diễn cho đoạn có kích thước p.
-Vấn đề đặt ra là làm thế nào để xác định được xác suất?
*Ý tưởng đơn giản là dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu.
Cập nhật tần số cho mỗi ký hiệu mới.
2.4.Giải thuật Lempel-Ziv-Welch(LZW).
*Giả sử chúng ta muốn mã hóa cho một cuốn tự điển Tiếng Anh 159,000 từ. Như vậy
mỗi từ cần 18 bit để mã hóa.
*Nhược điểm:
-Dùng qúa nhiều bit.
-Chỉ làm việc cho ký tự tiếng Anh
*Giải pháp: Cần phải tìm một cách mã hóa cuốn từ điển cho thích hợp.
*Các phương pháp ban đầu được đề xuất bởi Ziv và Lempel vào năm 1978 và 1979.
Terry Welch phát triển lược đồ vào năm 1981 và trở thành giải thuật LZW.
3.Các giải thuật nén có tổn thất.
3.1.Các phương pháp nén âm thanh đơn giản.
*Các phương pháp nén khảo sát ở trên không hiệu quả trong việc nén âm thanh.
*Sau đây là các phương pháp nén có tổn thất:
-Nén “silence” : dò các khoảng “yên lặng”, giống như mã hoá run-length.
-LPC (Linear Predictive Coding).
-CELP (Code Excited Linear Predictor).
3.2.Nén âm thanh dùng mô hình âm - tâm lý.
3.2.1.Hệ thống nghe và phát âm của con người.
*Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz.
*Phạm vi phát âm bình thường từ 500 Hz đến 2 kHz.
3.2.2.Che tần số (Frequency masking).
*“Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số
và mức to (dB) xác định sẽ có một “ngưỡng che”.
3.2.3.Băng giới hạn.
*Thước đo tần số đồng bộ không tương xứng với độ rộng của đường cong che.
*Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng lên
đối với các tần số >500Hz.
*Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen)
-1 Bark = bề rộng của băng giới hạn:
+Tần số < 500Hz : 1 bark = freq/100.
+Tần số > 500Hz : 1 bark = 9 + 4log(freq/1000).
*Ngưỡng che trên thước đo băng giới hạn:
Hình 3.1: Ngưỡng che trên thước đo băng giới hạn.
3.2.4.Che nhất thời (Temporal masking): che theo thời gian.
*Tai người cũng có đặc tính lưu âm.
*Nếu có một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được
một âm lân cận nhỏ hơn.
3.3.Nén âm thanh MPEG.
3.3.1.Sơ đồ đơn giản cấu trúc mã hóa và giải mã của MPEG.
-Nếu mức to của âm thứ 8 là 60dB, nó sẽ che band thứ 7 ở mức 12dB và band thứ 9 ở
mức 15dB. Mức to ở band 7 là 10dB ( 15dB) nên được tiếp tục xử lý.
-Layer I: bộ lọc loại DCT với 1 frame và độ rộng tần số như nhau trên mỗi sub-band.
Mô hình âm-tâm lý chỉ sử dụng hiệu quả che tần số (Frequency masking).
-Layer II: sử dụng 3 frame trong bộ lọc (trước, hiện tại và kế tiếp, tổng cộng 1152 mẫu).
Mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời (Temporal masking).
-Layer III: dùng bộ lọc băng giới hạn tốt hơn, mô hình âm-tâm lý có sử dụng hiệu quả
che nhất thời, và có dùng bộ mã hoá Huffman.
4. MP3-Tiêu chuẩn nén âm thanh MPEG.
*MP3 là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (lossy). Nó là một
dạng âm thanh được mã hóa PCM pulse-code modulation và có dung lượng nhỏ hơn
rất nhiều so với dữ liệu ban đầu do nó bỏ đi những phần âm thanh được cho là không
quan trọng trong khoảng nghe được của con người
4.1. Đặc điểm của MP3
*Tên của định dạng MP3 bắt nguồn từ "MPEG-1, layer 3", còn được gọi chính thức
hơn là ISO/IEC 11172-3 lớp 3. Những tập tin theo dạng này được lưu với phần mở
rộng tên .mp3. Đôi khi những tập tin theo tiêu chuẩn MPEG-2, layer 3 cũng sử dụng
phần mở rộng này.
*Có rất nhiều kỹ thuật đã được dùng trong chuẩn nén MP3 để xác định phần nào nên
bỏ đi, trong đó có tâm thần âm học psychoacoustic. Dữ liệu MP3 có thể được tạo ra
với nhiều bitrate khác nhau để có thể dễ dàng chọn lựa giữa chất lượng cao hay cỡ tập
tin đầu ra nhỏ.
*Cốt lõi của kỹ thuật nén MP3 là một dạng biến đổi phức để chuyến tín hiệu sóng
ngang theo thời gian thành tín hiệu dựa theo tần số:
-32 băng tần phép lọc cầu phương đa âm.
-36 hay 12 nhánh MDCT; kích cỡ có thể được định cho từng băng tần con từ 0 đến 1,
từ 2 đến 31.
-Đặt ký hiệu aliasing để làm giảm cỡ tập tin sau nén.
*Sử dụng trong MP3 của một thuật toán nén được thiết kế để làm giảm đáng kể số
lượng dữ liệu cần thiết để đại diện cho âm thanh ghi âm và vẫn còn âm thanh như một
sự sao chép trung thành của âm thanh không nén ban đầu cho hầu hết các thính giả.
Một tập tin MP3 được tạo ra bằng cách sử dụng các thiết lập của 128 kbit / s sẽ cho kết
quả trong một tập tin đó là khoảng 1/11 kích thước, lưu ý của file CD tạo ra từ nguồn
âm thanh ban đầu. Một tập tin MP3 cũng có thể được xây dựng với tốc độ bit cao hơn
hoặc thấp hơn, với chất lượng kết quả cao hơn hoặc thấp hơn.
*Nén hoạt động bằng cách làm giảm độ chính xác của các bộ phận nhất định của âm
thanh được coi là vượt quá khả năng giải quyết thính giác của hầu hết mọi người.
Phương pháp này thường được gọi là mã hóa tri giác sử dụng mô hình tâm lý học để
loại bỏ hoặc làm giảm độ chính xác của các thành phần này ít nghe điều trần của con
người, và sau đó ghi lại các thông tin còn lại một cách hiệu quả.
*Trong thời đại bùng nổ Internet, MP3 đã chứng tỏ mình là một sự lựa chọn hàng đầu
khi có khả năng làm giảm kích thước tập tin gấp nhiều lần so với kích thước ban
đầu. Thêm vào đó là việc tạo ra các tập tin MP3 cũng rất dễ dàng mà vẫn không làm
mất đi tính rõ ràng của âm thanh.
*Cụ thể hơn, nó có thể nén các tập tin bằng cách loại bỏ đi những âm thanh dư thừa bao
gồm cả tiếng ồn, âm tần quá cao hoặc quá thấp và âm nhiễu của sóng điện do dụng cụ
thu âm gây ra. Đây cũng là những âm thanh chiếm khá nhiều dung lượng của bản nhạc.
*Song, bên cạnh quá trình loại bỏ những âm thanh không cần thiết, MP3 vẫn có một
số thuật toán để bù đắp lại những chỗ mất mát mà nó đã lược bỏ bằng cách tạo ra những
âm thanh méo mó so với âm gốc, mà vẫn không làm giảm chất lượng cảm nhận khi so
sánh với các tập tin chưa qua nén MP3
4.2.MÃ HOÁ MP3 ( MP3 ENCODING)
Tín hiệu vào bộ mã hóa là bộ điều biến mã xung bình thường (PCM)
được phân chia vào khung có 1152 mẫu. Khung này được chia làm hai
granules, mỗi granule là 576 mẫu. Khung được gởi đến cả hai khối biến
đổi Fourier nhanh (FFT) và băng lọc phân tích.
Khối FFT chuyển 576 mẫu đến miền tần số sử dụng phép biến đổi Fourier.
4.2.2.Ngưỡng che (Masking Threshold)
Thông tin tần số từ khối FFT được sử dụng để liên kết mô hình âm
tâm lý để xác định ngưỡng che cho tất cả các tần số. Ngưỡng che
được áp dụng vào bộ lượng tử hóa để xác định số bit cần thiết mã
hóa cho mỗi mẫu. Chúng thường xem xét liệu sự chuyển đổi cửa sổ
có cần thiết trong khối biến đổi cosin rời rạc cải tiến (MDCT).
Băng lọc phân tích bao gồm 32 băng thông lọc bằng nhau. Đầu ra của
băng lọc là 1 mẫu tới hạn. Nghĩa là mỗi granules gồm 576 mẫu, có 18
mẫu ra từ 32 băng thông lọc, mà đưa ra tổng cộng là 576 mẫu
subband.
Mẫu subband được biến đổi đến miền tần số thông qua MDCT. MDCT
thực hiện 18 mẫu (khối dài ) cùng thời điểm để đạt độ phân giải tần
số cao, thực hiện 6 mẫu (khối ngắn ). Do có sự chồng cửa sổ lên nhau
50% nên kích thước cửa sổ là 36 mẫu cho khối dài và 12 mẫu cho
khối ngắn. Khối ngắn cải thiện độ phân thời gian tốt hơn để dùng cho
các tín hiệu chuyển tiếp và làm nhỏ tiếng vang lại. Khối dài cho phép
độ phân giải tần số tốt hơn. Lớp 3 có 3 mode chọn khối : 2 mode khi
tất cả các lối ra của băng lọc đều qua được biến đổi MDCT, và 1 mode
hỗn hợp khi 2 băng tần thấp sử dụng khối dài còn 30 băng tần cao sử
dụng khối ngắn .
Trước mỗi đợt MDCT xuất ra subband, mỗi subband cũ phải nghịch
đảo tần số (nhân -1) để dòng phổ xuất hiện theo thứ tự tăng dần.
Khi mã hóa thụ cảm entropy vượt quá giá trị 1800 sẽ xác định hằng
số. Khối lọc MDCT sẽ được chuyển đến cửa sổ ngắn. Để duy trì thuộc
tính tái tạo lại của MDCT, sự chuyển đổi giữa khối ngắn và khối dài
không thể tức thì, vì vậy có cửa sổ chuyển đổi từ dài đến ngắn, từ ngắn
đến dài.
Chiều dài của khối ngắn bằng 1/3 khối dài. Trong chế độ khối ngắn,
3 khối ngắn thay thế 1 khối dài mà không kể đến loại cửa sổ áp dụng,
số dòng MDCT còn lại không đổi. Cho 1 khối riêng biệt của dữ liệu,
tất cả các kênh khối lọc có thể cùng kiểu khối MDCT ( dài hoặc ngắn)
hoặc 1 mode khối hỗn hợp nơi mà subband tần số nhỏ hơn 2 cho phép
khối dài trong khi còn lại dãi trên 30 có khối ngắn. Chế độ hỗn hợp
cung cấp độ phân giải tần số tốt hơn cho tần số thấp hơn trong khi
duy trì độ phân giải thời gian cao hơn.
MDCT biến đổi tín hiệu âm thanh vào miền tần số, sinh ra biệt danh
được đưa vào bởi mẫu con trong khối lọc có thể thoát khỏi từng phần
(partially cancelled).
Ngưỡng che được sử dụng để tính toán có bao nhiêu bit cần thiết trong
mỗi băng tới hạn để mã hóa mẫu sao cho nhiễu lượng tử hóa không
thể nghe được. Bộ mã hoá thường sử dụng tốc độ bit phù hợp với yêu
cầu.
Mã hoá Huffman là một phần của phép lặp bởi vì nó không có khả
năng xác định số bit cần thiết cho việc mã hoá.
4.2.6.Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation)
Mẫu lượng tử hoá là lưu trữ và mã hoá Huffman trong dòng bit dọc
theo hệ số tỉ lệ và thông tin (side infomation).
Symbo Code
l word
A 0
B 10
C 110
D 111
Symbol A và B được phân biệt thông qua chiều dài của từ mã tương
ứng là “0” và “10”. Thế mạnh của của mã hoá Huffman là tất cả code
word có khả năng giải mã đồng nhất ( uniquely decodable). Vì vậy
trình tự mã hoá của các bit là:
01101110100
tương ứng với chuỗi dữ
liệu: “ACDABA”
Giải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree)
dùng để phân biệt các symbol thông qua code word. Symbol nào có
xác suất cao thì code word ngắn, ngược lại symbol có xác suất thấp thì
code dài hơn. Trình tự thực hiện theo các bước sau:
• Sắp xếp số lần xuất hiện ( xác suất) các symbol theo thứ tự
giảm dần.
• Nối 2 symbol lại với nhau theo thứ tự từ trên xuống để tạo
symbol mới.
• Tiếp tục bước 2 cho đến khi còn lại 1 symbol với xác suất là 1.
• Tiến hành đánh số cho cây mã hoá, bắt đầu từ gốc (symbol có
xác suất là 1) trở lên phía trên thì đánh số “0” ngược lại từ gốc
đi xuống ta đánh số “1”.
4.1.Compressor
Trước khi tìm hiểu về compressor, việc đầu tiên bạn phải biết về Compression.
Compression là hiệu ứng giúp giảm bớt sự khác biệt về âm lượng của âm thanh, giữa
các tín hiệu âm thanh lớn nhất và nhỏ nhất, nhờ đó âm thanh loa phát ra sẽ đều đặn và
mượt mà hơn rất nhiều. Khi có tín hiệu âm thanh đầu vào như giọng hát, một loại
nhạc cụ (keyboard, guitar...) thì chắc chắn sẽ có tín hiệu âm thanh to nhỏ khác, hiệu
ứng compression này sẽ giúp giảm bớt sự biến động về âm lượng của âm thanh, cho
bản nhạc nghe được dễ chịu và hài hòa hơn. Và compressor là thiết bị đóng vai trò xử
lý hiệu ứng compression này.
Nói một cách dễ hiểu hơn thì compreesor sẽ lấy một mức âm lượng trung bình của tín
hiệu âm thanh và loa, nhờ vậy mà âm thanh sẽ hay và mượt mà hơn, không quá to và
không quá nhỏ.
4.1.1 Threshold(Ngưỡng tác động)
Định nghĩa chung : Mức tín hiệu gốc phải đạt đến để nén âm thnah phát huy tác dụng.
Định nghĩa thực tế : Tần suất máy nén sẽ phải hoạt động vàlamf việc khi tín hiệu đi qua
nó.
Chú ý đến : Tuổi thọ của âm thanh .Bnaj hiếm khi muốn máy nén của mình luôn hoạt
động .Những phần bạn không nén cũng quan trọng như những phần bạn nén .Bnaj muốn
các bộ phận yên tĩnh hơn của bạn đi qua để cho phép bài hát của bạn thở.
4.1.2.Attack ( Thời gian chuyển vào bộ nén)
Định nghĩa chung : Máy nén tăng nhanh như thế nào từ 0 đến 100 sau khi tín hiệu ban
đầu vượt qua ngưỡng .
Định nghĩa thực tế :Bao nhiêu tín hiệu ban đầu mà máy nén sẽ cho đi qua sau khi vượt
qua ngưỡng.
Nghe để làm gì : Lắng nghe mép âm thnah bạn đnag nén -nó dày hay mỏng -1 cuộc tấn
công máy nén nhanh hơn sẽ làm cho mép âm thanh mỏng hơn và 1 cuộc tấn công chậm
hơn sẽ làm cho nó dày hơn.
4.1.3. Release ( Thời gian thoát khỏi bộ nén)
Định nghĩa chung: Máy nén ngừng hoạt động nhanh như thé nào sau khi tín hiệu giảm
xuống dưỡi ngưỡng.
Lắng nghe để làm gì : Lắng nghe mép dau của âm thanh của bạn và cách tín hiệu di
chuyển ngược về phía bạn
Những gì bạn muốn : Bạn muốn 1 cài đặt phát hành hoạt đọng theo âm nhạc với cách
phát hoặc rảnh của nhạc cụ hoặc vòng lặp ,mà bạn đang nén.Đó là về cảm giác hơn là
âm thanh theo 1 cách nào đó .Bạn có thể nhảy theo nó không ? Nó có làm cho bạn
cảm thấy như bạn đnag ở trong zero-g ? Nó có bật trở lại tốt với rãnh của cuộc chơi
hay không?
4.1.4.Radio ( Tỷ số nén)
Định nghĩa chung :Mức độ nén âm thanh được áp dụng .Ví dụ ,tỷ lệ 3:1 có nghĩa là
đối với mức tăng 3dB trong mức tín hiệu gốc vượt ngưỡng ,máy nén sẽ chỉ cho phép
tăng mức 1 dB trên đầu ra của nó
Định nghĩa thực tế : Âm thanh của bạn sẽ xuất hện chắc chắn /chặt chẽ và lớn đến
mức .
Điều cần lắng nghe : Bạn muốn đạt được sự cân bằng giữa độ cứng và kích thước
.Quá săn chắc và bạn bắt đầu giảm kích thước và ngược lại .Cố gắng giam rtyr lệ
xuống mức thấp nhất óc thể mà không làm mất đi độ chắc mà bạn muốn từ âm thanh
nén của mình.