You are on page 1of 15

11/18/2022

THÔNG TIN SỐ
CHƯƠNG 3: MÃ HÓA NGUỒN

3.1. Mô hình toán học cho thông tin

• Khái niệm tin tức và đại lượng tin tức


• Khái niệm entropy
• Khái niệm tốc độ hình thành tin R của nguồn tin
• Khái niệm thông lượng C của kênh thông tin

1
11/18/2022

Tin tức và đại lượng tin tức


• Tin tức là tất cả những gì mà con người muốn trao đổi
hoặc thu nhận từ khách quan.
• Một tin tức đối với người nhận có 2 đặc tính: độ bất ngờ
và ý nghĩa của tin.
• Những tin tức càng bất ngờ thì khi xuất hiện tác động càng
mạnh lên giác quan của con người, và chúng ta cho rằng
lượng tin của chúng càng lớn.

Tin tức và đại lượng tin tức


• Xét mối liên hệ giữa khái niệm tin tức với lý thuyết xác suất trong
nguồn tin rời rạc. Một nguồn tin XN có các lớp tin độc lập {x1, x2, x3,
… xN-1, xN}, trong đó N được gọi là cỡ của nguồn tin, với xác suất
xuất hiện tương ứng lần lượt là {p(x1), p(x2), p(x3), … p(xN-1), p(xN)}.
• Ứng với nguồn tin X, nơi nhận tin YM có các lớp tin độc lập {y1, y2,
y3, … yN-1, yM}, trong đó M được gọi là cỡ của nguồn tin nơi nhận,
với xác suất xuất hiện tương ứng lần lượt là {p(y1), p(y2), p(y3), …
p(yM-1), p(yM)}.

2
11/18/2022

Tin tức và đại lượng tin tức


• Theo luật phân bố xác suất riêng ta có:

( )=

( )=

• Trong nguồn tin XN ta có định nghĩa lượng tin riêng của lớp tin xi như sau:
( )=− ( )
Tùy thuộc vào cơ số của hàm loga, ta có các đơn vị sau:
• n=2 đơn vị là bit
• n=e đơn vị là nat (nit)
• n = 10 đơn vị là Hartley

Tin tức và đại lượng tin tức


Việc nhận 1 lớp tin yj cụ thể ở nơi nhận tin chỉ cho ta biết khả năng tin
tức của nguồn tin X truyền đi lớp tin xi , điều này theo quan điểm xác
suất thống kê, có thể xác định được xác suất có điều kiện về sự xuất
hiện các lớp tin xi ở nguồn với điều kiện nơi nhận- nhận được lớp tin
yj.

 Xác suất này được gọi là xác suất có điều kiện ký hiệu là p(xi/yj),
biểu thị quy luật phân bố xác suất của nguồn tin theo các lớp tin ở
nơi nhận tin.

3
11/18/2022

Tin tức và đại lượng tin tức


• Tương tự như vậy, ta cũng có xác suất có điều kiện biểu thị sự phân
bố xác suất nguồn tin nơi nhận theo các lớp tin của nguồn, ký hiệu
là p(yj/xi), đây là xác suất có điều kiện về sự xuất hiện các lớp tin yj
ở nơi nhận tin với điều kiện nguồn tin phát đi lớp tin xi. Ngoài ra ta
còn xác định được xác suất xuất hiện đồng thời các lớp tin xi ở
nguồn và yj ở nơi nhận là p(xi/yj).

Lượng tin có các đặc tính sau:


• Lượng tin riêng bao giờ cũng lớn hơn lượng tin về nó chứa trong
bất kỳ một ký hiệu nào của nguồn tin nơi nhận (lượng tin tương
hỗ). Khi 2 lớp tin xi và yj độc lập thống kê với nhau thì lượng tin
tương hỗ giữa 2 lớp tin xi và yj bằng không và cực đại khi xác suất có
điều kiện p(xi/yj) = 0.

 Nói cách khác, ý nghĩa của lượng tin tương hỗ giữa 2 lớp tin mô tả
sự ràng buộc giữa 2 lớp tin, khi ràng buộc đó tăng lên thì lượng tin
tương hỗ giữa 2 lớp tin đó cũng lớn lên và cực đại bằng chính lượng
tin riêng của lớp tin.

4
11/18/2022

Lượng tin có các đặc tính sau:


• Lượng tin riêng bao giờ cũng là một số dương, còn lượng tin tương
hỗ có thể âm hoặc dương.
• Lượng tin của một cặp tin (xi , yj) bằng tổng lượng tin riêng của từng
lớp tin trừ đi lượng tin tương hỗ giữa 2 lớp tin. Khi 2 lớp tin xi và yj
độc lập thống kê với nhau thì lượng tin của 1 cặp tin bằng tổng 2
lượng tin riêng.

Tin tức và đại lượng tin tức


• Theo đó, ta có thể tính toán lượng tin chứa trong một ký tự nguồn:

Đơn vị: bit

 Lượng tin tỷ lệ nghịch với xác suất

5
11/18/2022

Entropy ?
• Entropy là lượng tin trung bình chứa trong mỗi ký tự của nguồn tin.
• Công thức tính entropy:

• = ( )log =− ( )log ( ) [bit/s]


()

• Entropy cực đại:


1
= log = log

Tin tức và đại lượng tin tức


• Tốc độ lập tin:
R = no.H (bit/s)
no: Số ký tự nguồn sinh ra trong một đơn vị thời gian [ký tự/s]
H: Entropy [bit/ký tự]

• Dung lượng kênh:


C = Rmax = no.Hmax (bit/s)

6
11/18/2022

Mã hóa nguồn thống kê


• Thông thường entropy của nguồn thấp hơn entropy cực đại.
• Cần làm cho cấu trúc thống kê của nguồn trở nên hợp lý hơn
Giải pháp:
• Tăng entropy của các ký tự dùng để mã hóa nguồn

• Mã hóa thống kê:


Mã hóa các ký tự có xác suất sinh ra lớn bằng các từ mã ngắn và
ngược lại.
VD: mã Morse

Mã hóa nguồn thống kê

Morse
code

7
11/18/2022

Mã hóa nguồn thống kê


Mã hóa nguồn thống kê tối ưu:
• Độ dài từ mã trung bình nhỏ nhất
• Mã không đều
• Giữa các từ mã không có ký hiệu phân cách
Yêu cầu để giải mã được: mã phải thỏa mãn tính prefix
Công thức:
( )log ( )
= . 100% = − . 100%
log
( )log ( )
= . 100% = − . 100%
()

Lượng tin trung bình:

• Lượng tin riêng của từng lớp tin chỉ có ý nghĩa đối với một lớp tin
nào đó, nó không phản ánh được giá trị tin tức của nguồn tin.
Lượng tin riêng của 1 lớp tin chỉ đánh giá tin tức của 1 tin khi nó
đứng riêng lẻ mà không phản ánh được tin tức của 1 tập hợp tin mà
nó tham gia.

• Lớp tin trong nguồn tin là những biến cố xảy ra một cách ngẫu
nhiên, lượng tin riêng gắn với nó cũng được coi là những biến ngẫu
nhiên.

8
11/18/2022

Lượng tin trung bình:

Để đánh giá được giá trị của những biến ngẫu nhiên này, người ta dùng
trị trung bình. Giá trị trung bình của lượng tin riêng trong nguồn tin được
gọi là lượng tin trung bình của nguồn tin, nó phản ánh giá trị tin tức trung
bình của nguồn tin:

( )= ( ) ( )

=− ( )log ( )

3.2. Entropy và đo lường thông tin cho các biến ngẫu nhiên liên
tục:
Entropy
• Lượng tin trung bình được hiểu là lượng tin trung bình trong
một tin bất kỳ của nguồn tin đã cho. Khi nhận được một tin, ta
sẽ nhận được một lượng tin trung bình, đồng thời độ bất ngờ
của tin cũng được giải thoát, do vậy độ bất ngờ của tin và
lượng tin về ý nghĩa vật lý trái ngược nhau nhưng về số đo lại
bằng nhau.
• Công thức tính độ dư (redundancy):


= =1−

9
11/18/2022

3.3. Mã hóa nguồn rời rạc, thuật toán Lempel-Zip:

• Thuật toán LZ (Lempel-Ziv): là thuật toán nén dữ liệu


theo từ điển cơ sở (Dictionary-based compression).

• Được tính bằng tỷ số giữa tổng số bit cần nén 1 từ hay 1


văn bản (vd:mã ascci-7bit) và số bít sử dụng để nén
trong bộ từ điển đó.

• Sử dụng một bảng chứa tất cả các chuỗi ký tự có thể


xuất hiện trong văn bản và được chứa trên cả bộ mã hóa
và giải mã.

3.3. Mã hóa nguồn rời rạc, thuật toán Lempel-Zip:

• Bộ mã hóa thay vì gửi các từ riêng lẻ, nó chỉ gửi chỉ số


của từ được lưu trong bảng. Bộ giải mã sẽ truy cập vào
bảng xử lý để tái tạo lại văn bản đó.

• Thuật toán LZ sử dụng 1 từ điển chung cho cả mã hóa và


giải mã.

• Một số gói xử lý từ có liên quan tới từ điển được sử


dụng cho việc kiểm tra chính tả và nén văn bản.

10
11/18/2022

3.3. Mã hóa nguồn rời rạc, thuật toán Lempel-Ziv:

• Những từ ngắn hơn sẽ có tỉ lệ nén nhỏ hơn so và những


từ dài hơn sẽ có tỉ lệ nén lớn hơn.

• Thuật toán LZ được phát triển, là sử dụng một bộ từ


điển động được xây dựng trên cả bộ mã hóa và giải mã.
Do đó kích thước của từ điển sẽ được tối ưu hơn so với
từ điển tĩnh thông thường.

Họ thuật toán Lempel - Ziv

3.4. Lượng tử hóa biên độ:

11
11/18/2022

3.4. Lượng tử hóa biên độ:

• Lượng tử hóa không đều:


Chia biên độ xung lấy
mẫu thành các khoảng
không đều nhau theo
nguyên tắc khi biên độ
xung lấy mẫu càng lớn
thì độ dài bước lượng
tử càng lớn.

3.5. Điều chế xung mã vi sai - DPCM:

12
11/18/2022

3.5. Điều chế xung mã vi sai - DPCM:

DPCM (Điều chế mã xung vi sai) là một biến thể của PCM. PCM không hiệu quả vì
nó tạo ra rất nhiều bit và tiêu tốn nhiều băng thông hơn. Vì vậy, để khắc phục vấn
đề nêu trên, DPCM đã được tạo ra. Tương tự như PCM, DPCM bao gồm các quy
trình lấy mẫu, lượng tử hóa và mã hóa. Nhưng DPCM khác với PCM vì nó định
lượng sự khác biệt của mẫu thực tế và giá trị dự đoán. Đó là lý do nó được gọi là
PCM vi sai.

DPCM sử dụng đặc tính chung của PCM trong đó mức độ tương quan cao giữa
các mẫu liền kề được sử dụng. Mối tương quan này được tạo ra khi tín hiệu được
lấy mẫu ở tốc độ lớn hơn tốc độ Nyquist. Tương quan có nghĩa là tín hiệu không
thích ứng thay đổi nhanh chóng từ mẫu này sang mẫu khác.

3.6. Mã hóa khối:


• Bộ tham số: n , k , khoảng cách Hamming tối thiểu.

Tỷ lệ mã R = k / n
(thường từ ½ -1)

13
11/18/2022

Mã khối tuyến tính:

• Có chứa từ mã toàn bit 0


• Có tính chất đóng với 2 từ mã: Ci và Cj bất kỳ, ta có:
Ci + Cj = Ck
Với Ck cũng là từ mã

Mã vòng:

• Mã khối tuyến tính không có từ mã toàn 0


• Dịch vòng một từ mã thì cũng được 1 từ mã trong cùng bộ mã

Khả năng phát hiện và sửa lỗi của mã khối:

• Khoảng cách Hamming giữa các từ mã trong 1 bộ mã liên


quan đến khả năng phát hiện lỗi của bộ mã đó.

d ≥ r +s + 1

• d: khoảng cách Hamming


• r: số lỗi phát hiện được
• s: số lỗi sửa được

14
11/18/2022

Hết chương 3

15

You might also like