lec04 dịch

Machine Translated by Google
Lý thuyết thông tin

Bất bình đẳng
TS Lê Nguyên Khôi
Trường Đại học Kỹ thuật Công nghệ, ĐHQGHN
Nội dung
Bất bình đẳng Jensen và hệ quả của nó Chuỗi
Markov
Bất bình đẳng trong xử lý dữ liệu
Số liệu thống kê đầy đủ
Bất đẳng thức Fano
1
Lê Nguyên Khôi Lý thuyết thông tin
Hàm lồi & lõm
Ví dụ về hàm lồi (a) và hàm lõm (b)
Lê Nguyên Khôi Lý thuyết thông tin 2

Hàm lồi & lõm
Convex: Một hàm () được cho là lồi trên một khoảng (,)
nếu với mọi 1, 2 (,) và 0 ≤ ≤ 1
+ 1 - ≤ 1 + 1 - ( 2)
2 1
là hoàn toàn lồi nếu bình đẳng giữ Chỗ lõm là như thế này
chỉ khi = 0 hoặc = 1
Mọi hợp âm của () đều nằm trên ()

() là lõm - () là lồi
Ví dụ:
Lồi: 2
, , , (≥ 0)
Phần lõm: , (≥ 0)
Định lý: Nếu đạo hàm cấp hai của hàm số không âm trên một
khoảng thì hàm số lồi trên khoảng đó
2
2 > 0 (,) () là hàm lồi

Sự bất bình đẳng của Jensen
nếu là một hàm lồi và là một biến ngẫu nhiên
() ≥ ()
Chứng minh bằng quy nạp vào
= 1: = = ( 1) Các tổng này là 1
= k:
1
= = + (1 -)
= 1 = 1
1 -
1
Giả sử JI đúng
≥ + 1 - với = k - 1
Tiếp theo từ 1 -
= 1
định nghĩa của
1
lồi
≥ + 1 - = ()
= 1
1 -

Bất bình đẳng thông tin
Cho (), (), , là các hàm khối lượng xác suất
(||) ≥ 0
Với bằng nhau nếu và chỉ khi = () cho tất cả
Cho =: > 0
Của Jensen
- = - =
khúc gỗ khúc gỗ
Bất bình đẳng
:
≤ nhật ký = nhật ký ≤ nhật ký = log1 = 0
if = 0: vì log là hoàn toàn lõm, đẳng thức giữ nếu () / () là một hằng
số
Như = = 1, do đó = 1 & ≡

Phân phối đồng đều có entropy tối đa
= 1
,…, 1 và = nhật ký chút ít
0 ≤ ( ) = khúc gỗ = log -
0 ≤ ( ) = log -
≤ nhật ký

Ràng buộc độc lập
1: = 1: 1 ≤ ()
= 1 = 1
Với sự bình đẳng nếu và chỉ khi
tất cả độc lập

Thông tin lẫn nhau không có nghĩa
; = + - ,
,
= nhật ký
= (,) Với () ≥ 0
đẳng thức nếu và chỉ khi
(,) ≡ () & độc lập
Hệ quả: (; |) ≥ 0
với sự bình đẳng nếu và chỉ khi và độc lập có điều
kiện cho trước

số 8
Điều hòa làm giảm entropy
; = -
≤ ()
Với sự bình đẳng nếu và chỉ khi
(,) ≡ () & độc lập

Thí dụ
Hãy , có sự phân phối chung sau:
, = =
= 0 3
4
= 1 1
số 8 số 8
Khi đó H (X) = H (1/8 , 7/8) = 0,544 bit, H (X | Y = 1) =

0 bit và H (X | Y = 2) = 1 bit. Ta tính được H (X | Y) =
3 / 4H (X | Y = 1) + 1 / 4H (X | Y = 2) = 0,25 bit. Do đó,
độ không đảm bảo đo trong X tăng lên nếu quan sát thấy Y =
2 và giảm nếu quan sát thấy Y = 1, nhưng độ không đảm bảo
đo giảm ở mức trung bình.

Chuỗi Markov
Dự đoán từ tiếp theo: Phiên
bản hôm nay là thứ…
Hôm nay là ngày…
Được đặt theo tên của nhà toán học người Nga Andrey
Markov
Nhiều ứng dụng làm mô hình thống kê của thế giới thực
các quy trình, chẳng hạn
như nghiên cứu hệ thống kiểm soát hành trình trên
các phương tiện cơ giới xếp hàng hoặc dòng khách đến
sân bay tỷ giá hối đoái của tiền tệ tăng dân số của
một số loài động vật nhất định
11
Chuỗi Markov
Các biến ngẫu nhiên tạo, thành

, một chuỗi Markov theo
thứ tự đó ( ) nếu
Phân phối có điều kiện của chỉ phụ thuộc vào
Và có điều kiện không phụ thuộc vào

, = , , = ,
Hậu quả:
iff và độc lập có điều kiện cho trước
iff (đối xứng)

nếu = () thì () (xử lý dữ liệu)

Chuỗi Markov
Hậu quả:
iff và độc lập có điều kiện
cho trước
= (,) = () ,
,
() ()
= , =
Vì vậy, Markov ngụ ý sự độc lập có điều kiện

& ngược lại

Chuỗi Markov
Hậu quả:
iff
= (,,) = () ,
,
(,) (,)
= =
() (,)
Vì vậy, thuộc tính chuỗi Markov là đối xứng

Chuỗi Markov
Chuỗi Markov có nghĩa là:
Cách duy nhất ảnh hưởng là thông qua

giá trị của
Nếu bạn đã biết thì việc quan

, sát sẽ không cung cấp cho
bạn thông tin bổ sung về ,

; = 0 - , = 0
= ,
,
Nếu bạn đã biết thì việc quan sát không cung cấp cho
bạn thông tin bổ sung về

Entropy của tiếng Anh

Giả sử rằng bảng chữ cái tiếng Anh bao gồm 26 chữ cái và ký
hiệu khoảng trắng (bỏ qua dấu câu và sự khác biệt giữa chữ
hoa và chữ thường)
Xây dựng các mô hình cho tiếng Anh bằng cách sử dụng các
phân phối thực nghiệm được thu thập từ các mẫu văn bản
Tần suất các chữ cái trong tiếng Anh không đồng đều
Chữ cái phổ biến nhất, E, có tần suất 13%
Các chữ cái ít phổ biến nhất, Q và Z, xảy ra với
tần suất 0,1%

Chữ E phổ biến đến mức hiếm khi tìm thấy một
câu không chứa chữ cái

Tần suất xuất hiện của các cặp chữ cái cũng cách xa
đồng phục
Ví dụ, chữ Q luôn được theo sau bởi chữ U

Cặp thường xuyên nhất là TH, diễn ra bình thường
với tần suất khoảng 3,7%
Chúng ta có thể sử dụng tần số của các cặp để

ước tính xác suất để một chữ cái theo sau bất kỳ chữ cái
nào khác
Chúng tôi cũng có thể ước tính xác suất có điều kiện bậc
cao hơn và xây dựng các mô hình phức tạp hơn cho ngôn ngữ

Dưới đây là một số ví dụ về các phép gần đúng Markov đối với
Tiếng Anh từ bài báo gốc của Shannon:
Xấp xỉ bậc 0
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGXYD
QPAAMKBZAACIBZLHJQD
Xấp xỉ bậc nhất
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI
ALHENHTTPA OOBTTVA NAH BRL
Xấp xỉ bậc hai
TRÊN IE ANTSOUTINYS LÀ T INCTORE ST BE S DEAMY ACHIN
D THÚ VỊ BẤT NGỜ TẠI TEASONARE FUSO TIZIN ANDY
TOBE SEACE CTISBE

Dưới đây là một số ví dụ về các phép gần đúng Markov đối với
Tiếng Anh từ bài báo gốc của Shannon:
Xấp xỉ bậc ba.
KHÔNG CÓ GÌ NỮA NỮA NỮA NỮA NÀO TẠO HÌNH ẢNH HƯỞNG ĐẾN BERS GROCID PONDEN MỘT SỐ
DEMONSTURES CỦA REPTAGIN LÀ QUY ĐỊNH CỦA CRE
Xấp xỉ bậc 4.
CÔNG VIỆC ĐƯỢC PHÁT TRIỂN CUNG CẤP TỐT HƠN GIỮA MÃ ĐƯỢC HIỂN THỊ, CÁC CẬP NHẬT
CHUYỂN ĐỘNG LÀ MÃ TRONG THESTICAL IT DO HOCK CẢ HAI MERG.
(CÀI ĐẶT LỖI LỖI. KHÔNG BAO GIỜ BẤT CỨ CÔNG BỐ VÀ LÝ THUYẾT NÀO. THỬ THÁCH SỰ KIỆN ĐỂ
LOẠI BỎ BẰNG CHỨNG BẰNG BỘ NHƯ CÓ)

Mô hình từ bậc nhất (Các từ được chọn

độc lập nhưng với tần số như trong tiếng Anh)
TUYÊN BỐ VÀ TỐC ĐỘ LÀ MỘT PHƯƠNG ÁN TỐT HOẶC ĐẾN
CÓ THỂ KHÁC BIỆT TỰ NHIÊN Ở ĐÂY ÔNG A TRONG ĐẾN ĐẾN
CỦA ĐỂ TRẢI NGHIỆM XÁM ĐẾN NỘI THẤT DÒNG
THÔNG ĐIỆP ĐÃ LÀ NHỮNG ĐIỀU NÀY
Mô hình từ bậc hai (Sự chuyển đổi từ

xác suất khớp với văn bản tiếng Anh)
PHẦN ĐẦU VÀ THEO DÕI TRƯỚC VỀ MỘT TIẾNG ANH
VIẾT RẰNG NHÂN VẬT CỦA ĐIỂM NÀY LÀ
VẬY LÀ PHƯƠNG PHÁP KHÁC CHO CÁC CHỮ CÁI RẰNG
THỜI ĐIỂM CỦA AI BAO GIỜ GIẢI QUYẾT VẤN ĐỀ CHO AN
KHÔNG NGỜ TỚI

Các giá trị gần đúng ngày càng gần giống

Tiếng Anh
Ví dụ, các cụm từ dài của giá trị gần đúng nhất có thể dễ dàng
xuất hiện trong một câu tiếng Anh thực. Có vẻ như chúng ta
có thể nhận được một giá trị gần đúng rất tốt bằng cách sử dụng
một mô hình phức tạp hơn
Những giá trị gần đúng này có thể được sử dụng để ước tính
entropy của tiếng Anh
Ví dụ, entropy của mô hình bậc 0 là log 27 = 4,76 bit trên mỗi chữ
cái
Mô hình bậc nhất đưa ra ước tính entropy là 4,03

bit trên mỗi chữ cái, trong khi mô hình bậc 4 đưa ra ước tính 2,8
bit trên mỗi chữ cái

Các ứng dụng của mô hình ngẫu nhiên của ngôn ngữ:
Nhận dạng giọng
nói Dịch máy thống kê

Xử lí dữ liệu
Ước lượng = (), một hàm ở đâu

Một trường hợp đặc biệt của chuỗi Markov ()
Việc xử lý gia tăng thông tin có chứa

Định lý Xử lý Dữ liệu
Nếu thì ; ≥;
Việc xử lý không thể làm tăng thông tin về ;
Nếu thì ≥; Biết không làm

tăng số lượng nói về Chứng minh: (bằng cách áp
dụng quy tắc dây chuyền theo những cách khác nhau)
; , =; Dấu +; =; Dấu +;
Nhưng chuỗi Markov
và độc lập có điều kiện cho trước
; = 0
kể từ đây ; Dấu +; vì =;
thế ; ≥; và ; ≥;

Vì vậy, tại sao xử lý?
Người ta không thể tạo ra thông tin bằng cách thao tác
dữ liệu
Nhưng không có thông tin nào bị mất nếu quyền bình đẳng được duy trì
Số liệu thống kê đầy đủ
chứa tất cả thông tin về
Lưu giữ thông tin lẫn nhau ; =;

Công cụ ước tính phải được thiết kế theo
cách mà nó đưa ra đủ số liệu thống kê
Có thể ước tính chính xác một cách tùy ý không?

Bất bình đẳng Fano
Nếu chúng ta ước lượng, từ tức hoặc
là = Dạng chuỗi Markov , trong cái gì là

xác suất lỗi = ( )?
≤ ≤ + nhật
-
ký ) (- 1)
( ≥ ≥
khúc gỗ khúc gỗ
Dạng bất đẳng thức về sau yếu hơn nhưng dễ sử dụng hơn
nhưng phải lưu ý rằng xác suất lỗi
NÊN lớn hơn 0 (≥ 0)

Bằng chứng bất bình đẳng của Fano
Xác định một biến ngẫu nhiên =

1
0 =
Theo quy tắc chuỗi: (bằng 2 cách)
, = + , = + ,
+ 0 = + ,
≤ + ,
= + , = 0 1 - + , = 1
≤ + 0 × 1 - + nhật ký
Bởi chuỗi Markov: ; ≤; ≤

Vì vậy ≤ + nhật ký

Hàm ý bất bình đẳng của Fano
Xác suất lỗi bằng 0 = 0 = 0

Xác suất lỗi thấp nếu nhỏ
Nếu lớn thì khả năng lỗi cao
Có thể được tăng cường một chút để

≤ + log (- 1)
Bất đẳng thức Fano được sử dụng bất cứ khi nào bạn cần
chứng minh rằng không thể tránh khỏi sai sót
Ví dụ: Chuyển đổi sang định lý mã hóa kênh

Ví dụ về bất bình đẳng của Fano

Chúng tôi được cung cấp bản phân phối chung sau trên (,)
Hãy là một người ước tính cho (dựa trên)

Cho = PR
Tìm xác suất tối thiểu của công cụ ước tính lỗi và
liên kết
Đánh giá sự bất bình đẳng của Fano và so sánh

Ví dụ về bất bình đẳng của Fano

Vấn đề 2.32 (tr.50)
Chúng ta có thể thấy rằng
,2 == 1 = ,3 =
1
= 1, + 1, + 2, + 2, + 3, + 3, = 2
( 1)
Từ bất đẳng thức Fano: ≥ . Nơi đây,
= = log = + = =
+ = =
1 1 1 1 1 1 1 1 1
= , , = + , , = + , , =
2 4 4 2 4 4 2 4 4
1 1 1 1 1 1
= , , = + = + = = , , × 1 = 1,5
2 4 4 2 4 4
1 1,5 1
Do đó ≥ = = 0,316.
khúc gỗ log 3
1 1,5 1
As , áp dụng hình thức mạnh hơn ≥ = = 1
2
log 1 log 3 1

Bài tập về Bất đẳng thức Fano
= {1: 5}, = [0,35, 0,35, 0,1, 0,1, 0,1]

6
= {1: 2}, nếu ≤ 2 thì = với xác suất 7,
trong khi nếu> 2 thì = 1 hoặc 2 với xác suất bằng nhau.
1. Xây dựng xác suất khớp (,)
2. Xác định chiến lược tốt nhất có thể cho 3.
Tính toán dựa trên chiến lược của bạn

4. Tính toán và Fano ràng, buộc.
5. Căn cứ vào tính toán của bạn trong 3
Đáp số: = 0,4; = 1,771; Fano bị ràng buộc 0,3855

lec04 dịch

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

lec04 dịch

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Lý thuyết thông tin

Bất bình đẳng Jensen và hệ quả của nó Chuỗi

Bất bình đẳng trong xử lý dữ liệu

Số liệu thống kê đầy đủ

Bất đẳng thức Fano

Hàm lồi & lõm

Ví dụ về hàm lồi (a) và hàm lõm (b)

Lê Nguyên Khôi Lý thuyết thông tin 2

Hàm lồi & lõm

chỉ khi = 0 hoặc = 1

Mọi hợp âm của () đều nằm trên ()

2 > 0 (,) () là hàm lồi

Lê Nguyên Khôi Lý thuyết thông tin 3

Sự bất bình đẳng của Jensen

nếu là một hàm lồi và là một biến ngẫu nhiên

= 1: = = ( 1) Các tổng này là 1

Lê Nguyên Khôi Lý thuyết thông tin 4

Bất bình đẳng thông tin

Cho (), (), , là các hàm khối lượng xác suất

≤ nhật ký = nhật ký ≤ nhật ký = log1 = 0

Lê Nguyên Khôi Lý thuyết thông tin 5

Bất bình đẳng thông tin

Phân phối đồng đều có entropy tối đa

Lê Nguyên Khôi Lý thuyết thông tin 6

Bất bình đẳng thông tin

Ràng buộc độc lập

Với sự bình đẳng nếu và chỉ khi

tất cả độc lập

Lê Nguyên Khôi Lý thuyết thông tin 7

Bất bình đẳng thông tin

Thông tin lẫn nhau không có nghĩa

Lê Nguyên Khôi Lý thuyết thông tin

Bất bình đẳng thông tin

Điều hòa làm giảm entropy

Với sự bình đẳng nếu và chỉ khi

(,) ≡ () & độc lập

Lê Nguyên Khôi Lý thuyết thông tin 9

Khi đó H (X) = H (1/8 , 7/8) = 0,544 bit, H (X | Y = 1) =

Lê Nguyên Khôi Lý thuyết thông tin 10

Dự đoán từ tiếp theo: Phiên

bản hôm nay là thứ…

Hôm nay là ngày…

như nghiên cứu hệ thống kiểm soát hành trình trên

một số loài động vật nhất định

Các biến ngẫu nhiên tạo, thành

Và có điều kiện không phụ thuộc vào

iff (đối xứng)

Lê Nguyên Khôi Lý thuyết thông tin 12

Vì vậy, Markov ngụ ý sự độc lập có điều kiện

Lê Nguyên Khôi Lý thuyết thông tin 13

Lê Nguyên Khôi Lý thuyết thông tin 14

Chuỗi Markov có nghĩa là:

Cách duy nhất ảnh hưởng là thông qua

Nếu bạn đã biết thì việc quan

bạn thông tin bổ sung về ,

bạn thông tin bổ sung về

Lê Nguyên Khôi Lý thuyết thông tin 15

Entropy của tiếng Anh

hoa và chữ thường)

Chữ cái phổ biến nhất, E, có tần suất 13%

Các chữ cái ít phổ biến nhất, Q và Z, xảy ra với

tần suất 0,1%