You are on page 1of 28

CHƯƠNG 4: MÃ HÓA NGUỒN

Nội dung

1 MÔ HÌNH TOÁN HỌC CỦA NGUỒN TIN

2 ĐO LƯỢNG TIN CỦA NGUỒN

3 CÁC KỸ THUẬT MÃ HÓA NGUỒN RỜI RẠC

4 CÁC KỸ THUẬT MÃ HÓA NGUỒN TƯƠNG TỰ

2
1. MÔ HÌNH TOÁN HỌC CỦA NGUỒN TIN

• Nguồn tin: tạo ra bản tin một cách ngẫu nhiên, ngõ ra được
đặc trưng bằng các quy luật thống kê
- Nguồn tương tự: tín hiệu ngõ ra có dạng liên tục

- Nguồn rời rạc: tín hiệu ngõ ra có dạng rời rạc


• Một nguồn rời rạc sẽ tạo ra một chuỗi biến ngẫu nhiên rời
rạc {x1, x2, x3, … xL} với xác suất tương ứng {p1, p2, p3, …
pL}

• Nguồn rời rạc nhị phân X sẽ gồm hai ký hiệu: {0,1} và


P(X=0)+ P(X=1)=1.
3
2. ĐO LƯỢNG TIN CỦA NGUỒN

• Lượng tin: thông tin càng có ý nghĩa khi nó càng hiếm


gặp, độ bất ngờ cao và xác suất xuất hiện thấp.
• Lượng tin: đo thông tin của một tin

• Đơn vị: Tùy vào cơ số hàm logarit (cơ số 2: đơn vị là bit,


cơ số e: đơn vị là nat, cơ số 10: Hartley)

4
2. ĐO LƯỢNG TIN CỦA NGUỒN (tt)

5
2. ĐO LƯỢNG TIN CỦA NGUỒN (tt)

• Lượng tin có điều kiện: lượng tin có được khi sự kiện X


= xi xảy ra sau khi quan sát sự kiện Y = yj đã xảy ra.

• Lượng tin tương hỗ: lượng tin có được về sự kiện X =xi


từ việc xảy ra sự kiện Y=yi .

6
2. ĐO LƯỢNG TIN CỦA NGUỒN (tt)

• Lượng tin trung bình: lượng tin tức trung bình chứa trong
một ký hiệu bất kỳ của nguồn đã cho => phản ánh giá trị
tin tức của cả nguồn tin.

• VD: Một nguồn gồm 2 ký hiệu {x0,x1} với xác suất xuất
hiện các ký hiệu tương ứng là 0.99 và 0.01.
- Lượng tin riêng của x1

• Lượng tin trung bình:

7
ENTROPY CỦA NGUỒN RỜI RẠC
• Entropy của nguồn chính là lượng tin trung bình của nguồn đó


- H(X) = 0 khi một ký hiệu có xác suất xuất hiện bằng 1 và các
ký hiệu khác có xác suất là 0.
- Nếu các ký hiệu của nguồn có xác suất xuất hiện bằng nhau
thì Entropy sẽ đạt giá trị cực đại.
ENTROPY CỦA NGUỒN RỜI RẠC
• Entropy đồng thời:

• Entropy có điều kiện:

• Công thức liên hệ:


H(X,Y)

H(Y)
H(X) I(X,Y)
ENTROPY CỦA NGUỒN LIÊN TỤC
• Nếu biết hàm xác suất các giá trị tức thời của mẫu x(ti) là p(x)
thì Entropy của nguồn liên tục được xác định như sau:

• Ví dụ: Tìm H(X) của một nguồn liên tục X có:

• Giải:
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
• Giả sử nguồn rời rạc X gồm L ký hiệu {x1, x2,…, xL}, với xác
suất xuất hiện các ký hiệu tương ứng là {p1,p2,…,pL}. Mã hóa
nguồn X chính là quá trình biểu diễn các ký hiệu xi của nguồn
bởi các chuỗi bi có chiều dài Ri. (bi = [b1,b2,…,bRi], bi = 0/1)

Nguồn rời {xi} Mã hóa {bi}: 0/1


rạc X nguồn

• Qúa trình mã hoá sao cho việc giải mã là duy nhất


• Hiệu suất mã hoá:

: Chiều dài trung bình của từ mã


MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá từ mã có chiều dài cố định
• Một nguồn L ký hiệu đồng xác suất được mã hoá với từ
mã có chiều dài R bit.
VD: mã ASCII, mã EBCDIC,…

• Giá trị của R:

• Hiệu suất mã hoá:

• Mã hoá J ký hiệu cùng 1 lúc:


MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá với từ mã có chiều dài thay đổi:
• Các ký hiệu có xác suất xuất hiện không bằng nhau
• Còn gọi là mã hoá entropy hay mã hoá thống kê tối ưu
• Để việc giải mã là duy nhất thì mã phải có tính prefix => thoả
mãn bất đẳng thức Kraft:

• VD: mã Morse, mã huffman, mã Shannon-Fano,…


MÃ HOÁ NGUỒN DỮ LIỆU SỐ
• Mã hoá với từ mã có chiều dài thay đổi:
Ví dụ: Một nguồn DMS có 4 ký hiệu được mã hoá theo bảng sau:

Ký hiệu ai Xác suất pi Tập mã 1 Tập mã 2

a1 1/2 1 0
a2 1/4 00 10
a3 1/8 01 110
a4 1/8 10 111

Giả sử chuỗi thu được: 001001…. Xác định ký hiệu đã mã hóa ?


Ký hiệu ai Xác suất pi Tập mã 1 Tập mã 2

a1 1/2 1 0
a2 1/4 00 10
a3 1/8 01 110
a4 1/8 10 111

• Theo tập mã 1: 00 1 00 1 => a2 a1 a2 a1


00 10 01 => a2 a4 a3

• Theo tập mã 2: 0 0 10 0 1 => a1 a1 a2 a1

• Tập mã 1: {1,00,01,10} không có tính prefix

• Tập mã 2: {0,10,110,111} có tính prefix


MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Shannon-fano:
• Lập mã thống kê trên cơ sở độ dài từ mã tỉ lệ nghịch với xác
suất xuất hiện.
• Các bước thực hiện:
✔ Liệt kê các ký hiệu theo thứ tự xác suất giảm dần
✔ Chia các ký hiệu làm hai nhóm sao cho tổng xác suất của mỗi
nhóm là gần bằng nhau nhất. Ký hiệu nhóm đầu là 0, nhóm
sau là 1.
✔ Trong mỗi nhóm lại lại chia thành hai nhóm nhỏ có xác suất
gần bằng nhau nhất. Quá trình cứ tiếp tục cho đến khi chỉ còn
một ký hiệu thì kết thúc.
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Shannon-fano:

• Ví dụ: Nguồn DMS có 7 ký hiệu với xác suất xuất hiện như
sau:
ui u1 u2 u3 u4 u5 u6 u7
pi 0.34 0.23 0.19 0.1 0.07 0.06 0.01

Hãy thực hiện quá trình mã hóa Fano và tính hiệu suất mã hóa?
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Shannon-fano:
Giải:
Lập bảng như sau:
Ký hiệu Xác suất Lần Lần Lần Lần Lần Từ mã
ui pi chia 1 chia 2 chia 3 chia 4 chia 5
u1 0.34 0 0 00
u2 0.23 0 1 01
u3 0.19 1 0 10
u4 0.10 1 1 0 110
u5 0.07 1 1 1 0 1110
u6 0.06 1 1 1 1 0 11110
u7 0.01 1 1 1 1 1 11111
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Shannon-fano:
Giải:
Kết quả giải mã: u1 = 00 u4 = 110
u2 = 01 u5 = 1110
u3 = 10 u6 = 11110 u7 = 11111
Hiệu suất mã hoá:
Entropy của nguồn:
= 2.38
Chiều dài trung bình của từ mã:
= 2.45
Hiệu suất:
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Huffman:
• Phương pháp này cho bộ mã có tính prefix và quá trình giải
mã là duy nhất.
• Các bước thực hiện:
✔ Liệt kê các ký hiệu theo thứ tự xác suất giảm dần
✔ Hai ký hiệu cuối có xác suất bé nhất được hợp thành ký
hiệu mới có xác suất mới bằng tổng hai xác suất.
✔ Các ký hiệu còn lại cùng với ký hiệu mới lại được liệt kê
theo thứ tự xác suất giảm dần.
✔ Quá trình cứ tiếp tục cho đến khi hợp thành một ký hiệu
mới có xác suất xuất hiện bằng 1.
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Huffman:

Ví dụ: Nguồn DMS có 7 ký hiệu với xác suất xuất hiện như sau:
ui u1 u2 u3 u4 u5 u6 u7
pi 0.34 0.23 0.19 0.1 0.07 0.06 0.01

Hãy thực hiện quá trình mã hóa Huffman và tính hiệu suất mã hóa?
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Huffman:
Giải:
Quá trình thực hiện
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá Huffman:
Kết quả các từ mã như bảng sau:
ui u1 u2 u3 u4 u5 u6 u7
Töø 00 10 11 011 0100 01010 01011
maõ
▪ Hiệu suất mã hoá:
- Entropy của nguồn: = 2.38

- Chiều dài trung bình của từ mã: = 2.45

Hiệu suất:
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
MÃ HOÁ NGUỒN DỮ LIỆU SỐ
Mã hoá LZW (Lempel – Ziv)
Phương pháp này độc lập với tính chất thống kê của nguồn
❖ Các bước thực hiện:
✔ Chia dãy các ký hiệu của nguồn rời rạc thành từng cụm có
chiều dài thay đổi.
✔ Các cụm ký hiệu phải khác cụm trước đó ở ký hiệu cuối cùng
✔ Các cụm được liệt kê trong từ điển theo vị trí tồn tại của cụm
đó
✔ Mã hoá cụm mới dựa trên việc xác định vị trí của cụm đang tồn
tại ghép thêm ký hiệu mới vào phía cuối.
MÃ HOÁ NGUỒN TƯƠNG TỰ
Phương pháp mã hóa miền thời gian:
▪ Phương pháp mã hóa PCM
▪ Phương pháp mã hóa PCM vi sai (DPCM)
▪ Phương pháp mã hóa PCM vi sai thích nghi (ADPCM)
▪ Phương pháp mã hóa delta DM
• Phương pháp mã hóa miền tần số:
▪ Phương pháp mã hóa băng con (SubBand Coding)
▪ Phương pháp mã hóa biến đổi thích nghi ACT (Adaptive
Transform Coding)

(Đọc tài liệu)


Q&A

28

You might also like