Professional Documents
Culture Documents
TEORIA INFORMACJI
I KODOWANIA l
PRZEDMOWA
Norman Abramson
WYKAZ OZNACZEŃ I POSTACI ENTROPII
W. 1. Schematy
«i Xl
Si Xl
Źródło
wiadomości X Si~*-X{ = to,, Xiv . . . , xtj)
», I X,
Zbiór Zbiór Ciąg kodowy
wiadomości sygnałów
Kodowanie wiadomości
01 61
02 Kanał
¿2
informacyjny B
ar b.
Zbiór elementarnych Zbiór elementarnych
sygnałów wejściowych sygnałów wyjściowych
Kanał informacyjny
W. 2. Podstawowe oznaczenia
S zbiór wiadomości
s( wiadomość elementarna ze zbioru wiadomości S
q liczba wiadomości elementarnych w zbiorze S
S" n-krotne rozszerzenie zbioru S
<r( wiadomość (elementarna) ze zbioru n-krotnie rozszerzonego S"
S źródło stowarzyszone ze źródłem S
Pt prawdopodobieństwo wiadomości elementarnej st
X zbiór sygnałów elementarnych, z których zbudowane są ciągi kodowe
x, sygnał elementarny ze zbioru X
8 Wykaz oznaczeń i postaci entropii
W. 3. Postacie entropii
1
/(*,)=log ilość informacji dostarczana przez wiado-
P(»i) mość st (źródło bezpamięciowe)
1
« ( 5 ) = £ p ( * , , * , ) log entropia źródła ciągów Markowa pierwsze-
s go rzędu
H(S)
entropia mierzona w jednostkach r-nar-
log r
nych
1
warunkowa entropia A (entropia a poste-
A riori)
1
H(A\B)— £ P ( a , 6)log średnia entropia warunkowa
A. B P(fl|"«
1 entropia łączna A i B
H(A, ß)=£P(a,6)log
P (a,b)
I(A; B) = H(A)-H(A\B) ilość informacji
nowym, lecz było znane już bardzo dawno. Istotnie, wczesnym przykładem
podkreślenia wagi takiego formułowania wiadomości jest następujący
cytat z Ewangelii Mateusza, rozdział 5 wiersz 37: „Mowa wasza niech
będzie: tak-tak, nie-nie. A co ponadto jest, ode złego jest". Taki punkt
widzenia może być nieco skrajny, dlatego w naszych rozważaniach nad
teorią informacji, poczynając już od rozdziału 2, będziemy operowali za-
równo wiadomościami binarnymi jak i niebinarnymi.
Prosty przykład przedstawienia wiadomości niebinarnych za pomocą
cyfr binarnych 0 i 1 podany jest w tablicy 1.1.
TABLICA 1.1. Kodowanie binarne cyfr dziesiętnych
Cyfra Odpowiednia
dziesiętna liczba binarna
0 0000
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
Wiadomości
Ciągi kodowe
elementarne
ii 0
Sz 01
s3 001
St 111
(1.1) 111001
możemy odtworzyć jako
(1.2) s4s3
lub jako
(1.3) s4sxs2.
Wiadomości
Ciągi kodowe
elementarne
ii 0
Sl 10
s3 110
J* 1110
Wiadomości Prawdopodobieństwa
Słonecznie i
Chmurnie i
Deszczowo i
Mglisto i
1.4. Problem przesyłania wiadomości 17
kod sś
słonecznie 00
chmurnie 01
deszczowo 10
mglisto 11
2 Teoria informacji
18 3.1. Wstęp 18
i mgłą nie jest bez znaczenia dla mieszkańców każdego z tych miast, nie
stanowi ona istotnego czynnika przy projektowaniu systemu telekomuni-
kacyjnego. Odkąd cztery stany pogody zostały zakodowane pod postacią
ciągów binarnych, sens lub znaczenie określonego ciągu staje się nieistotne
z telekomunikacyjnego punktu widzenia.
Jednakże może tu wystąpić inna różnica meteorologiczna, która nie
jest bez znaczenia dla projektanta systemu telekomunikacyjnego. Biorąc
pod uwagę klimat Los Angeles, musimy uwzględnić różne prawdopodo-
bieństwa czterech występujących tam stanów pogody. Ilustruje to tablica 1.5.
TABLICA 1.5. Charakterystyka stanu pogody w Los
Angeles
Wiadomości Prawdopodobieństwa
Słonecznie i
Chmurnie ł
Deszczowo ł
Zadymienie i
kod 38
słonecznie 10
chmurnie 110
(1.5)
deszczowo 1110
zadymienie 0
Stosując kod 38 do przekazania wiadomości „słonecznie, zadymienie,
zadymienie, chmurnie" przesłalibyśmy poprzez system telekomunikacyjny
„1000110".
1.4. Problem przesyłania wiadomości 19
UWAGI
ZADANIE
1.1. W paragrafie 1.4 określiliśmy dwa kody, kod s i i kod 2S, które mogą być
stosowane do przekazywania stanu pogody w Los Angeles. Średnia długość ciągu
kodowego w kodzie si wynosiła 2 binity na wiadomość, a w kodzie 36 była równa
binita na wiadomość. W rozdziale 4 pokażemy, że najmniejsza możliwa średnia
długość ciągu kodowego dla problemu przedstawionego w tablicy 1.5 wynosi l ł binita
na wiadomość. Ponadto pokażemy metodę tworzenia takiego kodu.
Bez zaglądania do rozdziału 4 spróbować własnymi siłami znaleźć kod, który
osiąga tę minimalną wartość średnią. Należy pamiętać, że ciąg ciągów kodowych
w tym kodzie winien być jednoznacznie przyporządkowany wiadomościom.
2. OCENA ILOŚCI INFORMACJI DOSTARCZANEJ
PRZEZ WIADOMOŚCI. ŹRÓDŁA WIADOMOŚCI
(2.1)7 J (v £ ) = l o g — -
' P(£)
jednostek informacji.
Wybór podstawy logarytmu w powyższej definicji stanowi o wyborze
jednostki ilości informacji, ponieważ
(2.2) logax=—i—log„x.
log;, a
Jeżeli stosujemy logarytm o podstawie 2, wynikająca stąd jednostka ilości
2.1. Definicja miary ilości informacji dostarczanej przez wiadomość 23 '
(2.3') /(£) = l n — n a t ó w .
wynosi
/ ( £ ) = 300000 log 1 0 » 106 bitów.
Możemy także porównać obliczoną powyżej ilość informacji zawartej
w obrazie telewizyjnym z ilością informacji zawartej w 1000 słów spikera
radiowego. Przyjmijmy, że spiker dysponuje słownikiem o objętości 10000
słów i że wybiera w zupełnie przypadkowy sposób 1000 słów z tego słow-
nika (można znaleźć spikerów radiowych, o których wolno czynić takie
założenia). Wówczas prawdopodobieństwo któregokolwiek ciągu 1000
słów wynosi l/lOOOO1000, a dostarczona w tym ciągu ilość informacji jest
równa
J ( £ ) = 1000 log 10000« 1,3-10 4 bitów.
Zatem obraz (telewizyjny) jest — jak się okazuje — wart 1000 słów (radio-
wych).
/ ( s , ) = l o g — - bitów.
P(Sf)
Prawdopodobieństwo takiego zdarzenia wynosi P(J,), tak więc średnia
ilość informacji przypadająca na wiadomość elementarną wytwarzaną
przez to źródło wynosi
£ P ( S i ) / ( s , ) bitów,
s
gdzie Yj oznacza sumowanie po q wiadomościach elementarnych jakie
s
może wytworzyć źródło S. Wartość średniej ilości informacji przypada-
jącej na wiadomości elementarną wytworzoną przez źródło nazywana jest
entropią H(S) źródła bezpamięciowego ( 1 )
def i
(2.5) H (S) = ę P (s() log — bitów.
PRZYKŁAD 2.1. Rozważmy źródło S= {II, s2, ¿3}, dla którego P(JI) = I oraz
P(i 2 ) = P(j 3 ) = i . Wówczas:
tf(S)=łlog2+ilog4+łlog4=f bita.
Jeżeli /(i,) jest wyrażone w jednostkach r-narnych, również H(S) jest
wyrażone w jednostkach r-narnych. Mamy wówczas:
(2.5")
Vu
3 -
-3
(2.6) lnx^x —1
przechodząca w równość wtedy i tylko wtedy, gdy JC*=1. Mnożąc relację
(2.6) przez —1 otrzymujemy następującą słabą nierówność
(2.7) ln—>l-x,
x
która równością staje się wtedy i tylko wtedy, gdy x=l. Nierówność (2.6)
posłuży nam do wyprowadzenia następującej dalej zależności.
Niech x i t x 2 , . . . , x ą i y i , y 2 , •••»J, będą dwoma dowolnymi zbiorami
prawdopodobieństw. Z tego założenia wynikają następujące zależności:
y^0 dla wszystkich i oraz j
oraz
9 1
Z Xl- Z yj=1.
¡=1 1
Na tej podstawie, korzystając ze wzoru (2.2), możemy napisać równość
1
v£ * , 1l o g y'- « — vZ x , l1n y'—
¡=i xt lnZi=i Xj
(2.8) t t x/—
1-1 xi ln2 ¡=1 \Xt )
Z y,- Z x()<0
ln/ ¡=i ¡=1
lub
przy czym równość zachodzi wtedy i tylko wtedy, gdy x t = y / dla każdego /.
= £ PilogqP^loge.t P^nqP,.
i=l i=l
(2.11) logq-H(S)>loge £
q
/ i 1 P\
>\ogel £ P, I ~!b0.
V ¡=1 q i= 1 PJ
Entropia H(S) jest więc zawsze mniejsza lub równa log q.
Należy przy tym podkreślić, że — jak wynika ze wzoru (2.7) — słaba
nierówność, którą tutaj wyprowadziliśmy, staje się ścisłą równością wtedy
i tylko wtedy, gdy P f = l/<7 dla wszystkich i. Tak więc wykazaliśmy, że
w przypadku bezpamięciowego źródła wiadomości o zbiorze zawierają-
cym q elementów maksymalna wartość entropii jest równa log q, przy czym
maksimum entropii występuje wtedy i tylko wtedy, gdy wszystkie wiadomości
wytwarzane przez źródło są równoprawdopodobne.
2. 3. Niektóre własności entropii 29
przez dany binit będzie mniejsza lub większa od jednego bita, zależnie
od tego, jakie są prawdopodobieństwa tych wyjść (por. wzór (2.1)). Jednakże
średnia ilość informacji dostarczana z takiego źródła binarnego przez
dany binit będzie zawsze mniejsza lub równa 1 bit na binit (rys. 2.3).
Należy także podkreślić, że maksymalna ilość informacji dostarczanej
przez bezpamięciowe źródło informacji o q różnych wyjściach rośnie wolno
wraz ze wzrostem q. Wynika to stąd, że maksymalna ilość informacji
dostarczana przez takie źródło rośnie tylko jak logarytm liczby różnych
jego wyjść i dlatego aby podwoić maksymalną ilość informacji przypa-
dającą na pojedynczą wiadomość wytwarzaną przez źródło, w stosunku
do źródła o q różnych wyjściach, należy użyć źródła o q2 różnych wyjś-
ciach.
2.4. Rozszerzenie źródła bezpamięciowego 31
(') Dla źródła 5™ używa się też nazwy źródło n-krotnie rozszerzone (przyp. tłum.).
( 2 ) Zauważmy, że według naszej definicji źródłem Sl jest samo źródło S.
32 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
= i i - i PuP,t-Pu-
i, = l ¡2=1 ¡„=1
p
= i h i Pi,- i Pt„=1.
¡1 = 1 ¡2=1 ¡n=l
Równanie (2.14) może być przedstawione w postaci
1
(2.16) H(S")= £ P(<r,)log =
S" Ph Pil — Pin
= I ^ l o g ^ - E 2 p i 2 . . . Ż= 1 p i n = I= 1
pfliog^-=
¡1 = 1 PI L ' 2 = <» '> MI
= ZP/llog^-=ii(S).
s fi.
2.4. Rozszerzenie źródła bezpamięciowego 33
Elementy
"1 <T4 ff6 O? O» (Tg
zbioru S2
Odpowiednie
ciągi elemen- Jiii SiS2 S1S3 i 2 i l s2s2 S2S3 ¡3 S2 S3S3
tów zbioru S
Prawdopodo- i 1 1 1 1 1 1 1
bieństwo P(<T() 4 8 8 8 16 16 8 16 16
=ilog4+4-łlog8+4-^logl6 =
= 3 bity na wiadomość.
3 Teoria informacji
34 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
P(1|00)=P(0|11)=0,1,
P(0|01) = P ( 0 | 1 0 ) = P ( 1 | 0 1 ) = P ( 1 | 1 0 ) = 0 , 5 .
Ponieważ q jest równe 2 i ponieważ rozpatrywane źródło jest źródłem ciągów
Markowa drugiego rzędu, możliwe są cztery stany źródła: 00, 01, 10, 11. Wykres
stanów dla takiego źródła pokazany jest na rysunku 2.4. Możliwe stany naszego
źródła są oznaczone czterema kropkami. Możliwe zmiany stanów są oznaczone strzał-
kami wiodącymi od stanu do stanu, przy czym liczby towarzyszące tym strzałkom
oznaczają prawdopodobieństwa odpowiednich zmian stanu. Na przykład: jeżeli
jesteśmy w stanie 00, możemy przejść do stanu 01 lub pozostać w tym stanie, nato-
miast przejście do stanu 10 lub 11 jest niemożliwe. Jak pokazano, prawdopodobień-
stwo pozostania w stanie 00 wynosi 0,8, a prawdopodobieństwo przejścia do stanu
01 wynosi 0,2.
2.4. Wykres stanów źródła ciągów Mar- 2.5. Wykres stanów nieergodycznego
kowa drugiego rzędu źródła ciągów Markowa drugiego rzędu
Tak jak w poprzednim przykładzie mamy tutaj cztery możliwe stany: 00, 01,
10, 11. Wykres tych stanów pokazany jest na rysunku 2.5. Zauważmy, że jeżeli w przy-
padku rozważanego źródła kiedykolwiek znajdziemy się w jednym ze stanów 00 lub
11, pozostaniemy już w tym stanie. Wybierzmy zatem w dowolny sposób jeden z czte-
rech możliwych stanów (oznacza to, że każdy spośród stanów może być wybrany
z prawdopodobieństwem równym i ) . Jeżeli następnie wystartujemy z wybranego
stanu, będziemy się mogli spodziewać, że po dostatecznie dużej liczbie zmian stanów
znajdziemy się z prawdopodobieństwem równym 0,5 w stanie 00. Oznacza to, że po
wytworzeniu dużej liczby wiadomości źródło wytworzy wiadomość 0 z prawdopo-
dobieństwem 0,5 i analogicznie — wiadomość 1 z prawdopodobieństwem 0,5. Niemniej
jeżeli obserwacje przeprowadzać będziemy przez czas dłuższy, to w dowolnie wybra-
nym ciągu zaobserwujemy prawie na pewno albo same zera, albo same jedynki. Inny-
mi słowy nie zaobserwujemy (z prawdopodobieństwem 1) typowego ciągu wytwarza-
nego przez źródło; nie jest to więc źródło ergodyczne.
3*
36 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
P ( 0 0 ) = P ( l l ) = .5i,
(2.20) 2
,
P(01) = P(10) = i i.
(') Autor ma. tu na myśli bądź to sytuację, gdy nastąpiło bardzo wiele zmian
stanów i bieżący rozkład stanów stał się stacjonarny, bądź sytuację, gdy rozkład
w pierwszym kroku jest identyczny z rozkładem stacjonarnym; w tej drugiej sytuacji
wszystkie rozkłady bieżące są identyczne i identyczne z rozkładem stacjonarnym
(przyp. tłum.).
( J ) Określenia proces Markowa i ciąg Markowa autor traktuje jako jednoznaczne
(przyp. tłum.).
2.5. Źródło ciągów Markowa 37
(2.21) P ( s J i , sj2, ..., sJm, s^ = P(s i \s J i ,sj2, ..., sJm) P ( s J t , sj2, ..., sjm).
1
xlog
P(si\sji,sj2,...,sjm)
1
= Z
¡_, - , -J2 7 -w—o u, , „ V
(') Uśrednienia tego dokonujemy przy założeniu, że rozkład stanów jest stacjo-
narny — porównaj notka na str. 36.
( 2 ) Ściśle biorąc nie zdefiniowaliśmy jeszcze źródła 5™, tzn. wi-krotnego rozsze-
rzenia źródła ciągów Markowa. Jednakże zastosowanie we wzorach (2.24) symbolu
5™ nie powinno budzić wątpliwości. Wyczerpująca definicja rozszerzenia źródła cią-
gów Markowa podana będzie w paragrafie 2.7.
2.5. Źródło ciągów Markowa 39
s 4
000 0,8 i* 14
5 1
001 0,2 14 14
2 1
010 0,5 14 14
2 1
011 0,5 14 14
2 1
100 0,5 14 Ti
2 i
101 0,5 14 14
5 1
110 0,2 14 14
5 4
111 0,8 14 14
tf(S)=Y P(ij,i*,i,)log—- =
Tj P(i,|ij,i»)
l0
=2 • 8 o75+ 2 • A l0
8O + 4 -
A l 0 « oTs =
= 0 , 8 1 bit/binit.
kowa pierwszego rzędu, że entropia H(S) jest większa lub równa entropii
H(S)- Odpowiedni dowód dla źródła ciągów Markowa m-tego rzędu
otrzymuje się poprzez proste uogólnienie.
Niech S będzie źródłem ciągów Markowa pierwszego rzędu, a , s2,
. . . , s q niech będą wiadomościami elementarnymi wytwarzanymi przez to
źródło, których prawdopodobieństwa warunkowe wynoszą odpowiednio
P(ijlSj-), / , y ' = l , 2 , ...,q. Niech PlyP2, Pq będą prawdopodobieństwa-
mi pierwszego rzędu( J ) wiadomości elementarnych ze zbioru 5 oraz niech
S będzie źródłem stowarzyszonym z 5. Jeżeli zdefiniujemy P ( s j , s t ) jako
prawdopodobieństwo łączne zdarzenia polegającego na tym, że źródło S
jest w stanie określonym przez Sj oraz na jego wyjściu pojawia się sit to
zachodzi równość (zgodnie ze wzorem (2.21)):
(2.25) P(sj,sl)=P(si\sj)Pj.
(2.26) Z P ^ l o g ^ L
s? p (Sj,St)
Ze wzoru (2.8) wynika, że wartość tej sumy jest mniejsza lub równa zero,
przy czym równość zachodzi wtedy i tylko wtedy, gdy
X2 P ( s „ S ( ) l o g - A - < 0
s P(s,|sj)
lub
ip(Sj,s,)\og~ .
i-lj=l fi
(') Tu jak i w innych miejscach autor rozpatruje sytuację, kiedy rozkład praw-
dopodobieństw stanów jest stacjonarny, por. notka na str. 36 (przyp. tłum.).
42 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
i P(SJ,SI) = P ł ,
J' 1
na podstawie czego otrzymujemy
S2 P(Si\Sj) S Pi
lub
(2.29) H(S)^H(S).
gdzie <Tj reprezentuje wiadomość elementarną ze zbioru S", tzn. ciąg «-ele-
mentowy wiadomości elementarnych typu Ciąg ( ? j i , S j J , sJm) może
być przedstawiony jako pewien ciąg zbudowany z elementów Oj, na przykład
<Tj ,<Tj2, ...,ff J l Ł , gdzie n = [m/n], czyli jest najmniejszą liczbą całkowitą
większą lub równą m/n.
Warunkowe prawdopodobieństwo ze wzoru (2.30) można zatem wy-
razić następująco
<2.31) P(ff||ah,ah,
= p (Si.| s
ji>sj2>->sjJx
xP(si2\Sj2,Sh,...,Sjm,Sh)...X
X P ( S in| S i„- m 'S/ B - m + , «(.-,)•
W powyższym zapisie zakładamy, że dla ostatniego z czynników w ilo-
czynie zachodzi « > m. Jeżeli n < m, wówczas ostatnim z czynników jest
44 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
(2.33') /i(S")=EZP(^,ai)log—1r-.
S" S" r({T,| <Tj)
1
(2.36) lP(«ry,ff|)log --=lP(s7,s(l)log =H{S).
s*» P(sh\sj) s* PiSł^Sy)
2.7. Rozszerzenie źródła ciągów Markowa 45
Stąd wynika, że
(2.37) H(S")=nH (S).
Dalsze interesujące własności entropii źródła ciągów Markowa można
określić wprowadzając źródło S" stowarzyszone ze źródłem «-krotnie
rozszerzonym S". Niech Pio-j), P(er2), ..., P(o>) będą prawdopodobień-
stwami (') pierwszego rzędu wiadomości elementarnych wytwarzanych
przez źródło S", w przypadku gdy źródło pierwotne S jest źródłem ciągów
Markowa pierwszego rzędu, jakie rozważaliśmy wyżej. Ponieważ <7; odpo-
wiada ciągowi (j,-, , s h ..., i,„), więc P(<rf) może być traktowane jako prawdo-
podobieństwo łączne «-tego rzędu wiadomości elementarnych slk. Zatem
lub
(2.41) H (Sn) = nH (S) + [H (S) - H ( S ) ] .
Zwróćmy uwagę na to, że człon w nawiasie kwadratowym p o prawej
stronie znaku równości we wzorze (2.41) jest stałą nieujemną niezależną
od «. Jeżeli S jest źródłem ciągów Markowa m-tego rzędu (zamiast jak
poprzednio tylko pierwszego rzędu), wtedy (2.41) należy zastąpić wzorem
gdzie em jest stałą dodatnią, która (tak długo jak n>m) zależy tylko od
statystyki źródła S (zob. zadanie 2.1).
Dzieląc obydwie strony równania (2.42) przez « otrzymujemy
H(S") em
(2.43) ——=H(S)+~.
n n
(2.45) lim
n-* oo «
(2.46) H(S")jtH(Sn).
^ = 0 , 9 3 bita,
2
—-—-=0,89 bita,
3
H{S*)
= 0 , 8 7 bita
4
dąży do wartości H(S) (por. wyżej).
(2.48) H ( S ) = l o g 2 7 = 4 , 7 5 bita.
(2.50)
N N B N N D O E T T N I I I A D TSI ISLEENS. L R I _ L D R R B N F
REMTDEEIKE U _ H B F _ E V S N BRGANWN IENEEHM
E N R H N L H D SRG EITAW EESRNNGLGR
Drugie przybliżenie
AFERORERGERAUSCHTER D E H A B A R ADENDERG
E E U B R N D A N A G R E T U ZUBERKLIN DIMASO
N DEU UNGER EIEIEMMLILCHER_WELT WIERK
Trzecie przybliżenie
4«
52 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
UOALNAO N E L D N I S E T R T E G A T U E O E C S ASU
D U ZELNNTSSCASOSED T I R EIS TAMMO Tli
U O E D E O U E I EOSEELA NMSLAANTEC
Drugie przybliżenie
C I N D E U N E C O — P E _ _ C A L P R O S E LAS L A B I T E J A S
TE—ONTOMECITRODRESIO P A Y E N SPUSEL LA
— S — U T A J A R E T E S O L O N D A M I V E ESA S CLUS
Trzecie przybliżenie
Pierwsze przybliżenie
Drugie przybliżenie
C T QU V E N I N L U M U A QUREO A B I T SAT F I U M A
G E ICAM M E S T A M M Q U M C U T A T P A M NOND
Q U M O M F I T N I S E R I S T E L ONO IHOSEROCO
Trzecie przybliżenie
UWAGI
1. Słowo entropia zostało utworzone przez Clausiusa w 1876 roku ze słów greckich
£v i rpmeiv. Razem wzięte słowa te oznaczają zwrot do środka. Clausius użył słowa
entropia dla określenia tej części energii systemu, która nie może być przetworzona
na pracę mechaniczną bez przekazywania ciepła innemu ciału lub bez zmiany war-
tości. Boltzmann w roku 1896 pokazał po raz pierwszy, że entropia dowolnego układu
może być wyrażona jako wartość średnia logarytmu z prawdopodobieństw stanów
tego układu. D o teorii informacji wprowadził to słowo po raz pierwszy Shannon (1948).
Pojęcie entropii jest z pewnością najważniejszym ale nie jedynym punktem,
w którym stykają się teoria informacji i mechanika statystyczna. Jaynes (1959) roz-
ważał bowiem możliwość wykorzystania w teorii informacji funkcji partycji stosowanej
w mechanice.
2. W całej tej książce przyjmujemy, że prawdopodobieństwa poszczególnych
elementów rozważanych zbiorów wiadomości są znane. Gdy prawdopodbieństwa
te nie są znane (a być może nawet liczba elementów w zbiorze danego źródła jest
nieznana), możemy estymować entropię źródła bezpamięciowego na podstawie obser-
wacji k wyjść tego źródła. Miller i Madow (1954) znaleźli optymalny w sensie najwięk-
szego prawdopodobieństwa estymator entropii oparty na podobnych obserwacjach.
Basharin (1959) użył prawdopodobieństw empirycznych pt, aby wprowadzić
nasuwający się w sposób oczywisty estymator
r 1
l
H(S)= Y p , log— .
s Pu
Pokazał on, że H (S) jest obciążonym, zgodnym, asymptotycznie normalnym esty-
matorem H(S), przy czym
E [H(S)]=H(S)~^ loge+O ,
gdzie q jest liczbą elementów zbioru źródła, & N — liczbą dokonanych obserwacji
wyjścia źródła, na podstawie których dokonuje się estymacji. Blyth (1958) badał nie-
które inne estymatory H(S); między innymi wykazał on, że istnieje nieobciążony esty-
mator H{S).
3. W paragrafie 2.2 zdefiniowaliśmy entropię zmiennej losowej, która może przyj-
mować jedną ze skończonej liczby wartości. (Dystrybuanta takiej zmiennej losowej
ma skończoną liczbę skoków).
Aby opisać własności zmiennej losowej, mogącej zmieniać się w sposób ciągły
(dystrybuanta takiej zmiennej jest funkcją absolutnie ciągłą), możemy wziąć pod
uwagę ciąg dystrybuant o skończonej liczbie skoków aproksymujących dystrybuantę
absolutnie ciągłą. Niech [i] oznacza całkowitą część liczby i. Wprowadzimy nową
zmienną losową
s.— — [nj]
n
54 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
oraz niech
Oznaczmy przez Sn źródło odpowiadające zmiennej s„. W miarę jak n rośnie, zmienna
losowa s„ przybliża się coraz to bardziej do zmiennej s. Niestety II(Sn) nie pozostaje
skończone.
Renyi (1959) zdefiniował wymiar zmiennej losowej i jako
H(Sn)
d (s) = lim — ,
«-.w l o g «
a d-wymiarową entropię s jako
H i ( S ) = lim [ # ( £ „ ) - ¿ l o g « ] ,
gdy granice te istnieją. Gdy dystrybuanta ma skończoną ilość skoków, wymiar jest
oczywiście równy zero, a H0(S) sprowadza się do H(S). Renyi (1959) wykazał również,
że gdy dystrybuanta jest funkcją absolutnie ciągłą, a entropia H(S,) jest skończona,
to d(s) = l i, jeżeli przez p(s) oznaczymy gęstość prawdopodobieństwa zmiennej s,
entropia H ^ S ) równa jest
00
^ ( 5 ) = i/>(i)iog4-rfi,
J p(s)
— <0
o ile całka ta istnieje.
Csiszar (1961) otrzymał rezultaty częściowo podobne do rezultatów Renyi.
4. Oprócz rozważanego przez nas w punkcie 2.8 wytwarzania słów za pomocą
sztucznych źródeł, możliwe jest również wytwarzanie elementów melodycznych. Pin-
kerton (1956) użył tej metody do komponowania muzyki. Pierce (1961) poświęcił
w swej książce wiele miejsca takiemu tworzeniu muzyki; pierwszej chyba próby zbliże-
nia teorii informacji i sztuki dokonał Pierce (1957, str. 260), przytaczając w szeregu
urywkach Suitę Illiaca dla kwartetu StringaC)
5. Jak podkreślaliśmy poprzednio, użycie entropii jako miary ilości informacji
dostarczanej przez źródło wiadomości znajdzie uzasadnienie w pierwszym twierdzeniu
Shannona (rozdział 4). Uzasadnieniem takim może być również i ta okoliczność,
że jedynie entropia jest funkcją prawdopodobieństw wiadomości dostarczanych przez
źródła, czyniącą zadość określonym warunkom (Feinstein, 1958). Określmy trzy bez-
(') Autor myśli tutaj o kodzie „skomponowanej" przez Hillera i Isaacona za po-
mocą maszyny cyfrowej. Wykazali oni, że za pomocą takiej maszyny można wy-
twarzać kombinacje rytmiczne i dynamiczne według muzycznego ciągu Markowa,
w którym wybór kolejnej nuty zależy od prawdopodobieństw obliczanych z tablic
sporządzonych na podstawie badań nad harmonią i składowymi harmonicznymi.
„Kompozycja" ta została opublikowana jako Illiac Suite for String Quartet w czaso-
piśmie „ N e w Musie" w 1957 roku (przyp. tłum.).
Uwagi 55
Sl p1 Si p1 st a
s2 p2 S2 Pl s2 a
ZADANIA
Z.2.2.
56 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
a) Obliczyć H(S).
b) Obliczyć H(S). Czy odpowiedź sprawdza się w przypadku p = 0, p=l?
*c) Dla jakiej wartości p entropia H(S) osiąga maksimum?
d) Zbadać zachowanie się H(S) dla p=e, gdzie « « 0 .
e) Zbadać zachowanie się H(S) dla p = 1 — <5, gdzie ¿ « 0 .
f) Narysować wykres stanu dla S 2 .
g) Obliczyć i / ( S 2 ) i H(Ś*).
2.3. Dwa bezpamięciowe źródła Si i S 2 mają zbiory zawierające odpowiednio
<?! i q2 wiadomości elementarnych. Wiadomości elementarne ze zbioru S i pojawiają
się z prawdopodobieństwami Pt, i=l, 2, ..., qlt a ze zbioru S2 — z prawdopodobień-
stwami Q{, i ' = l , 2, ..., q2; entropie źródeł Si i S2 wynoszą odpowiednio Hi i H2.
Utworzone zostaje nowe bezpamięciowe źródło S(A), nazywane mieszaniną S i i S 2 ,
którego zbiór zawiera qx+q2 elementów. Pierwsze qx elementów źródła S(ż.) ma praw-
dopodobieństwa XP(, i = l , 2, ..., qlt pozostałe q2 elementów tego źródła ma praw-
dopodobieństwa ).Q(, i= 1, 2, ..., q2 (A=l—A).
a) Dla źródła o takich własnościach zachodzi równość
H [S (A) ] = X H x + XH2 + H (a) .
Udowodnić i zinterpretować tę równość.
*b) Wyrazić ).0 — wartość A maksymalizującą Z/[S(A)] — jako funkcję HL i H 2 .
Obliczyć i/[S(A 0 )]-
2.4. Uogólnić problem będący przedmiotem punktu a) w zadaniu 2.3 na przy-
padek n bezpamięciowych źródeł S i , S2 S„.
2.5. Bezpamięciowe źródło wiadomości ma przeliczalny nieskończony zbiór
elementów S = { i i , s2, ...} o prawdopodobieństwach P, = aa} dla wszystkich i.
a) Wyrazić a jako funkcję a.
b) Obliczyć i wykreślić przebieg H(S) jako funkcję a. Zwrócić szczególną uwagę
na postać tej funkcji dla a « 0 i a « l .
Przy rozwiązywaniu tego zadania można się posłużyć równościami
CO CO _
n V »
Z
, a = 1-a ,
"
> na = ( l - i
V
2.6. Wykres stanu binarnego źródła ciągów Markowa pierwszego rzędu jest
pokazany na rysunku Z.2.6. Prawdopodobieństwa stacjonarne są dla tego źródła
P P <7
<7
Z.2.6.
O
równe P ( 0 ) = q l ( p + q ) , P(1 )=pl(p+q) (dowód tego można traktować jako etap roz-
wiązania zadania).
Zadania 57
a) Obliczyć H(S).
b) Obliczyć H(S).
c) Niech ą-p. Znaleźć i wykreślić / / ( S ) jako funkcję p.
d) Obliczyć H(S) w przypadku ą—p.
2.7. a) Niech dla źródła, jak w zadaniu 2.6, q = 1 (założenie to nie oznacza, iż
q=p). Obliczyć i wykreślić H(S) jako funkcję p.
b) Zachowując ą = 1, znaleźć //(5[0) i //(.S|l), tzn. informację przypadającą na
pojedynczą wiadomość wytwarzaną przez źródło, gdy źródło jest odpowiednio w stanie
0 lub 1.
2.8. a) Rozważmy binarne źródło ciągów Markowa trzeciego rzędu, dla którego
prawdopodobieństwo wytworzenia 0 lub 1 nie zależy od poprzednich dwóch wyjść,
zależy natomiast od trzeciego, licząc wstecz, wyjścia. Prawdopodobieństwo, iż aktualne
wyjście będzie identyczne z tym wyjściem z przeszłości, wynosi 0,9; prawdopodobień-
stwo, że wyjścia te będą się różniły — 0,1. Narysować wykres stanu dla takiego źródła.
b) Znaleźć entropię tego źródła (bezpośrednia metoda obliczania prawdopo-
dobieństw stacjonarnych itd. nie jest tutaj metodą najłatwiejszą).
2.9. Niech S0 będzie źródłem wiadomości-ciągów trzyelementowych zbudowa-
nych z wiadomości pierwotnych wytwarzanych przez bezpamięciowe źródło wiado-
mości binarnych, dla którego prawdopodobieństwo wiadomości 0 jest równe p. Inne
źródło S jest związane ze źródłem S0 w ten sposób, że wytwarza ono jedną z wiado-
mości 0, 1, 2 lub 3 w zależności od tego, czy wyjście S0 zawiera 0, 1, 2 czy 3 zera.
a) Obliczyć ff(S0).
b) Obliczyć ff(S).
c) Obliczyć H(S0)—H(S). Uzasadnić tę różnicę entropii i podać jej interpretację.
2.10. Uogólnić problem, będący przedmiotem punktu c) w zadaniu 2.9 na
przypadek, w którym S0 jest źródłem wytwarzającym wiadomości-ciągi «-elementowe
zbudowane z wiadomości pochodzących ze źródła binarnego, a S wytwarza 0, 1 , 2 , ...,
lub n. Przy okazji: Jak wiele informacji średnio traci się w przypadku, gdy wiadomość
odbieramy ze źródła S zamiast ze źródła S01
2.11. Rozważmy bezpamięciowe źródło wiadomości 5 0 , w którym prawdo-
podobieństwo 0 wynosi px 1. Ponieważ prawdopodobieństwo wytwarzania 0 jest
tak duże, sensowne jest rozważenie długich ciągów następujących po sobie zer. Można
by zatem wprowadzić nowe źródło S o elementach i i , s2, s3, ..., w którym na przy-
kład ciąg s}, S2, f«, »i, ss odpowiadałby pierwotnemu ciągowi binarnemu
001 01 0001 1 00000001
S3 S2 Są SI Sa
a) Korzystając z równania
b) Obliczyć H(S)/H(S0).
c) Obliczyć średnią liczbę binitów wytwarzanych przez źródło pierwotne przy-
padającą na pojedynczą wiadomość ze źródła S.
s„ 0000 ...01
i„ + 1 0000 . . . 0 0
n binitów
a) Obliczyć H(Sn).
b) Niech p = 0,9; wykreślić H(S„) jako funkcję n.
p
Z.2.13.
a) Obliczyć H(~S).
b) Obliczyć H(S). Sprawdzić odpowiedź dla p = 0, p= 1,
c) Obliczyć H(S2).
Zadania 59
3.1. Wstęp
(') Niektórzy autorzy (np. Peterson, 1961, Seidler, 1965) określają kody blokowe
jako takie kody, w których wszystkie ciągi kodowe zawierają tę samą liczbę sygnałów
elementarnych.
3.1. Wstęp 61
ii 0
Sl 11
00
s* 11
Wiadomości Ciągi
elementarne ' kodowe
ii 0
s2 11
00
Si 01
ii ii 00 S3 Si 000
Sl s2 011 Sl s2 0011
Si s3 000 s3 s3 0000
Sl Si 001 S3 Są 0001
S2 i i 110 Są S1 010
S2 S2 1111 S4 S2 0111
S2 s3 1100 Są S3 0100
S2 Są. 1101 SĄ SĄ 0101
(') W definicji tej zakłada się, że każdy z ciągów XLM zostaje przyporządkowany
wiadomości s,m w sposób niezależny od pozostałych wiadomości s,t według kodu
pierwotnego nierozszerzonego.
64 3. Niektóre własności kodów
dwa nowe ciągi wiadomości S[ i S'2. Niech S[ będzie określony jako ciąg
wiadomości, w którym po ciągu S2 następuje SL. Ciąg S'2 jest odpowiednio
ciągiem zawierającym ciąg Sl3 po którym następuje S2. Widzimy, że za-
równo S[, jak i S2 prowadzą do ciągu sygnałów, w którym po prostu
po ciągu X0 następuje X0. Obydwa ciągi S\ i S2 mają tę samą długość.
Tak więc, kod taki nie spełnia warunku jednoznacznego dekodowania
sformułowanego wyżej.
Sardinas i Patterson (1953) znaleźli warunki konieczne i dostateczne
jednoznacznego dekodowania. Ponieważ w dalszym ciągu ograniczymy
się w naszych rozważaniach do klasy kodów jednoznacznie dekodowal-
nych, nie będziemy potrzebowali przytaczać tutaj ich rezultatów.
Wiadomości
K o d •aC Kod a
elementarne
ii 00 0
Sl 01 10
Si 10 110
S4. 11 1110
(') W dalszym ciągu będziemy używali liter pisanych dla oznaczenia kodów.
r 3.3. Kody dekodowalne bez opóźnienia 65
Wiadomości
Kod <e
elementarne
•Sl 0
Sl 01
Sz 011
s4 0111
w istotny sposób. Jeżeli bowiem dany jest ciąg binarny złożony z ciągów
kodowych kodu c€, to nie jesteśmy w stanie zdekodować go dekodując
z osobna jeden ciąg kodowy po drugim. Jeżeli na przykład odbieramy ciąg
01, nie możemy stwierdzić, że ciąg ten odpowiada wiadmości s2, tak długo,
jak długo nie odbierzemy następnego sygnału elementarnego. Jeżeli nas-
tępnym jest sygnał elementarny 0, wiemy wówczas, że odebrany przez nas
ciąg odpowiada wiadomości s2, natomiast jeżeli następnym sygnałem
byłoby 1, wtedy musielibyśmy czekać na jeszcze jeden kolejny sygnał ele-
mentarny, aby móc ustalić, czy odebraliśmy s3 (011) czy też (0111). Tak
więc wprowadzenie opóźnienia jest niezbędnym warunkiem dekodowania
kodu (ś, podczas gdy kody s/ i mogliśmy dekodować na bieżąco — ciąg
kodowy po ciągu kodowym.
DEFINICJA. Jednoznacznie dekodowalny kod nazywać będziemy kodem
dekodowalnym bez opóźnienia, jeżeli każdy z ciągów kodowych tego kodu
można dekodować bez czekania aż pojawią się sygnały elementarne od-
5 Teoria i n f o r m a c j i
66 3. Niektóre własności kodów
sygnałów elementarnych podstawowego ciągu; tak więc kod ten nie jest
kodem dekodowalnym bez opóźnienia.
Nieblokowe
Kody Osobliwe Niejednoznacznie
Blokowe dekodowane
Nieosobliwe Z opóźnieniem
Jednoznacznie
dekodowane
Bez opóźnienia
5»
68 3. Niektóre własności kodów
s4-1110,
s5->llll.
Si-» 0 0 .
Teraz możemy przyporządkować
s2->01,
po czym mieć będziemy dwa przedrostki o długości 2, które dotąd nie były
stosowane. Możemy je zastosować tak, jak to pokazano niżej:
s3->10,
s4->-110,
s5->lll.
S = { s i , s 2 , ...,
(3.2) |>-"<1,
i— 1
(3.3) E2"'<<1,
i= 1
gdzie sumowanie rozciągnięte jest na wszystkie ciągi kodowe kodu bloko-
wego. Zanim udowodnimy tę nierówność, pouczającym będzie, jeśli po-
każemy, jak można z niej korzystać celem określenia, czy dana długość
ciągu /; jest możliwa do przyjęcia jako długość ciągu kodowego kodu
dekodowalnego bez opóźnienia. Weźmy źródło wiadomości o zbiorze
zawierającym elementy st, s2, s3 i s4. W tablicy 3.6 wymienionych jest
pięć możliwych kodów b narnych, którymi się można posłużyć przy kodo-
waniu wiadomości pochodzących z tego źródła.
TABLICA 3.6. Pięć kodów binarnych
Wiadomości
Kod s/ Kod a Kod <ś Kod a Kod g
elementarne •
Ji 00 0 0 0 0
Sl 01 100 10 100 10
Sl 10 110 110 110 110
Są 11 111 111 11 11
Obliczymy teraz wartość sumy £ 2 dla każdego z tych kodów. Jak widać,
¡=i
dla kodu si mamy
4
Z2_'' = 2 - 2
+2 - 2
+ 2~2+2 - 2
= l,
i= 1
stąd wynika, że długości ciągów kodowych kodu s / mogą być przyjęte
jako długości ciągów kodowych kodu dekodowalnego bez opóźnienia.
Zauważmy jednak, że nierówność Krafta nie mówi nam, że kod s4 jest
kodem dekodowalnym bez opóźnienia. Nierówność ta stanowi warunek
narzucony jedynie na długość ciągów kodowych, nie zaś na same te ciągi.
W szczególności, w rozważanym przypadku, z nierówności tej wynika,
że istnieje kod dekodowalny bez opóźnienia, zawierający cztery ciągi kodowe
każdy o długości 2. Jest jednak oczywiste, że w tym przypadku nie tylko
długości ciągów kodowych kodu sś spełniają nierówność Krafta, lecz także,
że i same te ciągi tworzą kod bez opóźnienia.
3.5. Nierówność Krafta — sformułowanie i dyskusja 71
gdy źródło wytwarza znacznie więcej zer i jedynek niż dwójek, trójek itd.
Jeżeli kodowalibyśmy zera i jedynki w sposób następujący ( ł ):
(3.4,
1->10,
(3.5) ¿2-'<<l.
i= 0
0 0
1 10
2 11000
3 11001
4 11010
5 11011
6 11100
7 11101
8 11110
9 11111
(3.7) tr-'«<l.
¡=i
Możemy obecnie przepisać wzór (3.7) stosując w nim zmienne «¡. Suma
we wzorze (3.7) zawiera w, składników postaci r _ 1 , n2 składników postaci
r~2 itd. Wzór (3.7) przyjmuje zatem postać następującą:
(3.9) ¿n(r-'< 1
74 3. Niektóre własności kodów
(3.10) ¿«¡r^r'.
¡=1
Rozwijając sumę po lewej stronie znaku nierówności i przenosząc na prawą
stronę wszystkie jej składniki z wyjątkiem ostatniego otrzymujemy
(3.11) ul^rl-nl rl~1-n2rl~1-...-nl-.lr.
(3.11") n3^r3-n1r2-n2r,
(3.11"') n2^r2-nir,
(3.11 IV ) n^r.
(3.14) i>-''<l
¡=i
Rozważmy sumę
(3.15) ( £ r "'')"= (r"' 1 + r - ' 2 + . . . + r " ' ' ) n .
i=l
(3.16) r -^-lh---''n = r - k
i
gdzie
(3.17) l h + /¡2 + ... + /,„ = fc.
(3.19) (Z>-'<)"< Y S r - ^ n l - n + l ^ n l .
i= 1 k=n
Równanie (3.19) stanowi dowód, którego poszukiwaliśmy, bowiem jeżeli
.v> 1, to x">nl, dla n dostatecznie dużych. Równanie (3.19) obowiązuje
dla dowolnego całkowitego n, zatem musi być spełniona nierówność
(3.20)
i=l
3.8. Przykłady
1= 1
Si-+0,
s 2 ->10,
53^11,
s 4 -> 12,
s 5 ->20,
S 6 -»21,
s 7 -+ 220,
S 8 ->221 ,
s 9 ->222.
UWAGI
5
BAB A AB • • • I 6. I J
0 0.7 1.0
S
__J j AA , AB ! BA ,BBI
0 0,49 0,70 0 , 9 1 1,0
l 0 , 1 j
0 0,5 1,0
1 oo .oi i io • n
O 0,25 0,50 0 75 1.0
Zauważmy, że nie jest konieczne, by ciąg binarny był w całości odebrany, zanim
zaczniemy dekodowanie. Na przykład, jeżeli ciąg binarny rozpoczyna się od 011 . . . ,
wiemy, że reprezentujący go punkt musi leżeć pomiędzy 0,375 i 0,50, wynika stąd,
że pierwszą z wiadomości wytworzonych przez źródło musiałaby być A. Jeżeli ciąg
binarny zaczyna się od 0110, reprezentujący go punkt musi leżeć pomiędzy 0,375
i 0,4375; stąd pierwszymi trzema wiadomościami musiały być AAB.
Koncepcja ta jest podstawą modyfikacji dowodu pierwszego twierdzenia Shan-
nona (paragraf 4.3, rozdział 4, uwaga 1) przeprowadzonej przez Biilingsley'a (1961).
Przedstawił on ciąg wytworzony przez źródło wiadomości jako punkt na odcinku
jednostkowym i zastosował rezultaty wynikające z teorii wymiarów Hausdorffa
aby wykazać, że naturalny zapis o podstawie r jest najbardziej efektywnym opisem
tego punktu.
2. Jedno z najbardziej interesujących zastosowań koncepcji dyskutowanych
w rozdziale 3 dotyczy kodowania genetycznego (Golomb 1961, 1962). Stwierdzono,
że ogromna ilość informacji konieczna dla określenia struktury biologicznej dowolnego
organizmu żywego jest zawarta w chromosomach rodziców. Mówiąc dokładniej:
nośnikiem informacji genetycznej jest kwas deoxyribonukleinowy ( D N A ) zawarty
Uwagi 79
ZADANIA
Wyjście 1
P(i<) % 9 <r
źródła
1
Sl 2 000 0 0 0 0 0
1
SI 4 001 01 10 10 10 100
1
S3 16 010 011 110 110 1100 101
i
s4 7« 011 0111 1110 1110 1101 110
i
SS 16 100 01111 11110 1011 1110 111
t
S6 16 101 011111 111110 1101 1111 001
80 3. Niektóre własnośti kodów
TABELA Z . 3 . 3
6 Teoria Informacji
82 4. Kodowanie wiadomości
4
wszystkich i oraz £ Q i = l. Wówczas — na mocy nierówności (2.8) mamy
¡=i
(4.3) ZiVog|<i;iVogl
1=1 "i ¡ = 1 V.i
przy czym równość zachodzi tu wtedy i tylko wtedy, gdy P; = dla wszyst-
kich i. Stąd
(4.4) i / ( S X - £ p , log&,
i=l
przy czym równość zachodzi wtedy i tylko wtedy, gdy Pt = Qi dla wszyst-
kich i.
Równanie (4.4) jest spełnione dla dowolnego zbioru nieujemnych
liczb Qt, których suma równa się jedności. Możemy zatem przyjąć
r-u
(4.5) ft —5
i=l
po czym otrzymujemy:
(4.7")
log r
Wielkość H(S) występująca we wzorze (4.7') mierzona jest w bitach.
6*
84 4. Kodowanie wiadomości
(4.7"') Hr(S)^L.
(4.8) t r~l' = 1.
J
lub '1
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne s(
tarnej P,
Sl i
Si i
S3 i '
SĄ i
4
1
H—Y Pt l o g — = 2 bity na wiadomość.
M Pt
Ze wzoru (4.7"') wynika, że zakodowanie wiadomości pochodzących z tego źródła
w kodzie binarnym, jednoznacznie dekodowalnym, o średniej długości L mniejszej
NIŻ 2 binity na pojedynczą wiadomość, jest niemożliwe. Każda wiadomość wytwarza-
na przez to źródło ma prawdopodobieństwo i = 0ł) 2 ,a zatem wobec (4.9') kod zwięzły
musi zawierać cztery ciągi kodowe o długości 2. Kod taki był przedstawiony w roz-
dziale 1. A oto ten kod:
5,-» 00,
j2-ł01,
86 4. Kodowanie wiadomości
i3-»10,
s4-»ll.
Średnia długość ciągu kodowego w takim kodzie wynosi 2 binity na wiadomość; nie
istnieje jednoznacznie dekodowalny kod odpowiadający rozważanemu źródłu wia-
domości, o mniejszej średniej długości ciągu kodowego.
W tablicy 1.5 opisaliśmy inne źródło bezpamięciowe, jego własności ilustruje
tablica 4.2.
TABLICA 4.2. Źródło wiadomości
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne st
tarnej Pt
Sl ł
i
J3 ł
SĄ i
Entropia tego źródła wynosi
* i
y Pi log — log 2 log 4 l o g 8 log 8 =
1=1 n
= l j bita na wiadomość.
Zatem najmniejsza możliwa średnia długość ciągu kodowego, jaką jesteśmy w stanie
uzyskać stosując kod binarny dekodowalny bez opóźnienia, wynosi dla takiego źródła
binita na wiadomość. Najlepszym rezultatem, jaki mogliśmy osiągnąć w rozdziale 1,
była średnia długość wynosząca 11 binita na wiadomość. Jednakże w przypadku
rozważanego źródła prawdopodobieństwa wszystkich jego elementów są wielkościami
postaci (i)*', gdzie a, jest całkowite, zatem jest możliwe osiągnięcie dolnej granicy
wynoszącej 1J binita na wiadomość. Ze wzoru (4.9') widać, że zachodzić to będzie
w przypadku, w którym uczynimy długości słów równe odpowiednio 1,2,3,3. Szukany
kod przedstawia się zatem następująco:
s2-+10,
i3-»110, •
j4->lll.
Dla kontroli znajdujemy bezpośrednio L
4
¿ = Y p ( / I = 1J binita na wiadomość.
i= i
PRZYKŁAD 4.2. Jako ostatnią ilustrację kodowania, w którym można osiągnąć
dolną granicę daną równaniem (4.7), rozważmy źródło bezpamięciowe o zbiorze
siedmioelementowym, którego własności opisane są w tablicy 4.3.
4.2. Metoda kodowania w przypadku źródeł specjalnych 87
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne st
tarnej P,
i
Sl T
i
T
i
s3 ~9
1
S4 ~9
1
is 27
1
S6 27
1
«7 27
si~>0,
¿3-20,
i s-»220,
S6-+221 ,
i 7 -222.
Dla sprawdzenia obliczamy
7
L:
L=Y_, Pt symboli trinarnych na wiadomość.
(') tzn. kod, którego ciągi kodowe zbudowane są z sygnałów mogących przyj-
mować jedną z trzech możliwych postaci (przyp. tłum.).
( 2 ) tzn. logarytmów o podstawie 3 (przyp. tłum.).
88 4. Kodowanie wiadomości
(4.10)
lub
(4.11) -u
Pt>r~".
l> Z r-\
Równanie (4.10) określa zatem zbiór wartości /¡, jakie mogą być przyjęte
dla kodu dekodowalnego bez opóźnienia.
Jeżeli pomnożymy równanie (4.10) przez P ( i dokonamy obustronnie
4.3. Pierwsze twierdzenie Shannona 89
(4.12) H,(S)<L<HXS)+1.
(4.14) L„= £ P ( a M -
i=X
Iloraz LJn jest( 1 ) zatem średnią liczbą sygnałów elementarnych użytych
dla odwzorowania pojedynczej wiadomości ze zbioru S. Ze wzoru (2.16)
wynikało, że entropia źródła Sn jest « razy większa od entropii źródła S.
Na tej podstawie wzór (4.13) możemy przepisać w postaci
(4.15) Hr(S)<-<Hr(S)+-,
(') Nie należy mieszać symboli LJn i L. Wprawdzie obydwa one odnoszą się
do średniej liczby sygnałów elementarnych, z których zbudowany jest ciąg kodowy
odpowiadający pojedynczej wiadomości wytwarzanej przez źródło pierwotne, wiel-
kość LJn pokazuje jednak, że, aby tę średnią otrzymać, wiadomości pierwotne s,
kodowaliśmy w blokach zawierających po n wiadomości elementarnych, nie zaś po-
jedynczo.
90 4. Kodowanie wiadomości
(4.15') lim — = / / r ( S ) .
«-•00 W
Równanie (4.15) znane jest jako pierwsze twierdzenie Shannona lub twier-
dzenie o kodowaniu dla kanałów bezszumowych. Jest to jedno z dwóch głów-
nych twierdzeń teorii informacji. Równanie to powiada, że średnią liczbą
r-narnych sygnałów elementarnych przypadających na pojedynczą wiado-
mość możemy zmniejszać aż do wartości równej entropii źródła mierzonej
w jednostkach r-narnych, jednak nie możemy już uczynić jej mniejszej.
Ceną, jaką płacimy za zmniejszenie wartości LJn, jest zwiększenie zło-
żoności kodu w rezultacie powiększenia liczby różnych wyjść źródła q",
które musimy zakodować.
(4.16) L= i P^.
4.4. Pierwsze twierdzenie Shannona dla źródeł ciągów Markowa 91
(4.18) HASHH,(S)ŚL.
(4.20) Jir(Ś)<L<H,(Ś)+l
l o g i </,<log—^ + 1 .
"t "i
Obliczone wartości 1-, zestawione są w czwartej kolumnie tablicy 4.4. Kod
sś pokazany w piątej kolumnie tej tablicy jest spełniającym nasze założenia
kodem dekodowalnym bez opóźnienia, zawierającym ciągi o takiej dłu-
gości. Średnia długość kodu sć wynosi
L ^ = f - l + f - 3 + i - 4 = l,78 binita na wiadomość.
Entropia tego źródła wynosi
3
1
H(S)= ^ Pi l o g — = 1 , 2 2 bita na wiadomość.
i=> i Pt
Zauważmy, że wielkość Lr/ jest ograniczona w myśl nierówności
(4.23) H(S)^Ls,<H(S) +1.
Jest to jednak tylko mała pociecha dla kiepskiego kodu, jakim jest kod s4.
Łatwo znaleźć dla takiego źródła kod dekodowalny bez opóźnienia, lepszy
niż kod sś. Taki kod (kod SS) podany jest w ostatniej kolumnie tablicy
4.4. Obliczmy średnią długość ciągu kodowego w takim kodzie. Mamy
L a = | - l + | - 2 + | - 2 = l , 3 3 binita na wiadomość.
Wartość ta wykazuje niemałą przewagę nad średnią długością kodu s4.
Podkreślić należy, że w rozważanym przypadku niewiele zyskalibyśmy
stosując w miejsce kodowania bezpośredniego kodowanie wiadomości-
-ciągów. W najlepszym razie moglibyśmy otrzymać średnią długość 1,22
binita na wiadomość, tymczasem już stosując kod Si uzyskaliśmy 1,33
binita na wiadomość.
Wiadomości Prawdopo - „
1 St St 5«
elementarne dobieństwa
Wiado- Prawdo-
mości -podo-
elemen- . . . . Kod <Si Si Si S,
tarne bienstwo
Wiado- Prawdo-
niOŚCi r*nrłn
elemen- J p o a o Kod S, S2 S3 S,
tarne bienstwo
si 0,4 1 0
s2 0,3 00 1
s, 0,1 0100
s< 0,1 0101
s6 0,00 0110
Ss 0,04 0111
? Teoria informacji
98 4. Kodowanie wiadomości
011
0100
0101
L = 1-0,4+2-0,3+4-0,1+ 4-0,1+4-0,06+4-0,04 =
=2,2 binita na wiadomość,
L = 1 - 0 , 4 + 2 - 0 , 3 + 3 - 0 , 1 + 4 - 0 , 1 + 5-0,06 + 5-0,04 =
=2,2 binita na wiadomość
Źródło
Źródło pierwotne
zredukowane
Wiadomości Prawdopodo- ^ ^
Si
elementarne bieństwo
Si 0,5 0 0,5 0
Si 0,25 10 0,25 10
S3 0,125 110 0,125 110
ST 0,100 1110-1^0,125 111
Si 0,025 1111-f - ^
T
100 4. Kodowanie wiadomości
(4.26) L J . ^ L j + P . O + P.
(4.27) l9 = l t - i .
Ź r ó d ł o pierwotne Ź r ó d ł o zredukowane
Wiadomości Prawdopodo- S,
elementarne bieństwo
St
s to 0,04-, 0,05
«11 0,03
Elementy f s u 0,00
symulującej^,- 0,00 ->
Wiadomości P r a w d o p o d o - Ciągi
Si S2 S,
elementarne bieństwo kodowe
«8 0,05 12 0,06 11
8, 0,05 13 0,05 12
tak, aby w ten sposób zyskać r—l elementów. Dowód tego, że jeżeli wyj-
dziemy od kodu zwięzłego, to stosując tę metodę dojdziemy do kodu
zwięzłego i 1 ), jest całkowicie analogiczny do dowodu przedstawionego
w paragrafie 4.7. (zadanie 4.2).
(4.28) n=——.
//(5)=ilog4+ilogj=0,811 bita.
SI ^ i 0
S2 i 1
Średnia długość ciągu kodowego wynosi w tym kodzie 1 binit, a zatem sprawność
kodu wynosi:
tli = 0 , 8 1 1 .
Aby powiększyć sprawność, rozważmy kod dla źródła S2, tzn. dwukrotnie rozsze-
rzonego źródła 5:
9
ii ii 16 0
3
S1S2 16 10
3
S2S1 16 110
1
S2S2 16 111
Średnia długość ciągu kodowego w tym kodzie wynosi ^ binita. Entropia źródła
S 2 wynosi 2H(S); tak więc
2-0,811-16
i}2 = =0,961.
27
TABLICA 4.5. Kody zwięzłe zbudowane przy użyciu różnych zbiorów sygnałów ele-
mentarnych
p (»,) st 13 12 11 10 9 8 7 6 5 4 3 2
1
Sl 0 0 0 0 0 0 0 0 0 0 0 00
1
Ą
S2 1 1 1 1 1 1 1 1 1 1 1 01
1
16 S2 2 2 » 2 2 2 2 2 2 20 200 1000
1
16 i4 3 3 3 3 3 3 3 3 30 21 201 1001
1
16 Ss 4 4 4 4 4 4 4 4 31 22 202 1010
1
16 s6 5 5 5 5 5 5 5 50 32 23 210 1011
1
16 Sl 6 6 6 6 6 6 60 51 33 30 211 1100
1
16 Sa 7 7 7 7 7 70 61 52 34 31 212 1101
1
16 s9 8 8 8 8 80 71 62 53 40 32 220 1110
1
64 s 10 9 9 9 90 81 72 63 54 41 330 221 111100
1
64 «11 A A AO 91 82 73 64 550 42 331 2220 111101
1
64 «12 B BO Al 92 83 74 65 551 43 332 2221 111110
1
64 «13 C BI A2 93 84 75 66 552 44 333 2222 111111
Średnie
długości
ciągu
kodowe-
33 67 17 9 19 5 87 23 23 131 25
go L 1 32 64 16 "8" 16 "4 64 16 16 64 T
Entropia źródła z tablicy 4.35 wynosi 3,125 bita na pojedynczą wiadomość. Wyko-
rzystując tę informację oraz korzystając ze wzoru (4.28) możemy wykreślić przebieg
sprawności jako funkcji r.
4.9. Sprawność i rozwlekłość kodu 107
1,00
0,98-
0,96
p-
0,94
u
"U
O 0,92
0,90
O
c
0,88
NJ
O. 0,85
(/)
0,84
0,82
0,80
4 6 8 10 12 14
Liczba sygnałów elementarnych r
4.7. Sprawność kodu jako funkcja liczby sygnałów elementarnych, z których zbudo-
wany jest kod
UWAGI
00
01
10
110
1110
1111
1110 1111
Dla q = 3 istnieje znowu tylko jedno możliwe drzewo kodowe odpowiadające dłu-
gościom ciągów kodowych:
/i=l
h = 2
h=2
h=l h—2
12 = 2
h = 3
h=2
U= 3 h=2
U= 2
Uwagi 109
Ji = l
¡2 = 2
h=3
U=4
h=4
ZADANIA
4.1. Wyprowadzić równanie (4.22) dla źródeł ciągów Markowa m-tego rzędu.
4.2. Wykazać, że jeżeli przechodząc od źródła do źródła zredukowanego (jak to
opisaliśmy w punkcie 4.8), zaczniemy od r-narnego kodu zwięzłego, to otrzymamy
w ostateczności kod będący również r-narnym kodem zwięzłym.
4.3. Ciąg wiadomości ze źródła S" jest kodowany według metody Huffmana przy
zastosowaniu zbioru sygnałów elementarnych X={xi, x2 , ...,xr). Rezultat takiego
kodowania może być rozpatrywany jako zespół wyjść nowego źródła wiadomości
o zbiorze X. Pokazać, że ze wzrostem n prawdopodobieństwo każdego z elementów
Xi tego nowego źródła dąży do wartości l / r .
4.4. W bezpamięciowym źródle binarnym P(0) = 0,1 i P(l) = 0,9.
a) Obliczyć H(S).
b) Obliczyć L — średnią długość ciągu kodowego kodu zwięzłego dla 5, gdy
X— {0,1}.
c) Obliczyć LJn dla « = 2,3,4 i n-* oo, gdy S„ jest kodowane w kodzie zwięzłym,
przy czym jak poprzednio X= {0,1} .
d) Obliczyć sprawność czterech otrzymanych kodów.
4.5. W zadaniu 4.4 kodowaliśmy źródła S, S2, S3 i S* posługując się zbiorem
sygnałów elementarnych o postaci X. Metody tam zastosowane dawały w rezultacie
ciągi zer i jedynek. Ciągi te można rozpatrywać jako ciągi wytwarzane przez źródło
wtórne S0 tak, jak to pokazano na schemacie Z. 4 . 5 . Znaleźć H(S0), gdy « = 1 , 2 , 3 , 4 .
! 1
Źródło binarne S,
Z.4.5.
s * ¿2 i3 i4 is SE S^
• 1 1 1 1 i i
P(s,) 3 3 9 9 27 27 27
s Sl «2 Sz si s. s6 Sl «8
a) Znaleźć kod zwięzły dla takiego źródła w przypadku gdy X={0, 1,2}.
b) W rozważanym przypadku można skonstruować więcej niż jeden różnych
nietrywialnych kodów zwięzłych (tzn. różnych zbiorów długości ciągów kodowych)
operujących tym samym zbiorem sygnałów elementarnych. Należy znaleźć listę zbio-
rów długości ciągów kodowych dla wszystkich takich kodów.
4.8. W zadaniu 2.14 przyjmijmy Znaleźliśmy poprzednio dla źródła 5
kod binarny, w którym L = H(S). Znaleźć L' — średnią długość kodu zwięzłego dla
źródła S'.
4.9. Źródło S ma zbiór liczący dziewięć elementów, z których każdy pojawia
się na wyjściu źródła z prawdopodobieństwem
a) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1}.
b) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1, 2}.
c) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1, 2, 3}.
4.10. Źródło S ma zbiór liczący sześć elementów, których prawdopodobieństwa
wynoszą odpowiednio Plt ...,P6. Załóżmy, że uporządkowaliśmy wartości P, tak,
że Pi>P2>...>P(,. Chcemy dla takiego źródła znaleźć kod zwięzły, posługując się
przy tym zbiorem sygnałów elementarnych X= {0, 1, 2, 3}. Określić zbiór długości
ciągów kodowach takiego kodu zwięzłego, jeżeli =
4.11. Znaleźć wszystkie możliwe różne zwięzłe kody binarne dla źródła opisa-
nego w następującej tablicy: .
S Si j s2 \ s3 j4 Ss s6 s7 Ss Sg S10
i 0,04
P(i,) 0,20 0,18 J 0,12 0,10 0,10 0,08 0,06 0,06 0,06
Jako „różne" kody potraktować tylko kody różniące się długościami ciągów kodo-
wych /,.
4.12. a) Dla q = 6 znaleźć pięć różnych drzew kodowych, o których była mowa
w uwadze 2.
b) Znaleźć dziewięć różnych drzew kodowych dla q — 7.
4.13. To zadanie dotyczy uogólnienia uwagi 2. Dla źródeł o q = 3, 4, 5, 6, 7, 8, 9
znaleźć wszystkie możliwe różne drzewa kodowe odpowiadające kodowi zwięzłemu,
zbudowanemu na trzyelementowym zbiorze sygnałów elementarnych.
5. KANAŁY I ILOŚĆ INFORMACJI
5.1. Wprowadzenie
pewne zaskoczony tym, że nasza miara ilości informacji może być zastoso-
wana równie dobrze do analizy tego typu kodowania, jak i kodowania
omawianego wcześniej. Istotnie, pomimo dość szerokiego zakresu dotych-
czasowych rozważań, nie został dotychczas przedstawiony ani podstawowy
rezultat teorii informacji, ani większość ważnych jej zastosowań. Ten
rezultat — niezwykle ważne drugie twierdzenie Shannona — wykorzystuje
koncepcję entropii do opisu możliwości stosowania „zawodnego" kanału
informacyjnego do „niezawodnego" przekazywania informacji.
8 Teoria i n f o r m a c j i
114 5. Kanały i ilość informacji
Wyjścia
b\ 6j . . . ft.
Ol P(6,/a,) P(b,/a0 • • P(b./a,)
Wejścia a 2 P(6i/o,) P(b,/a,) • • P(6./oj)
(5.1) Pij=P(bj\ai).
Wówczas tablica 5.3 może być interpretowana jako tzw. macierz kanału.
Macierz kanału oznaczymy symbolem P:
P12 • • Pu
(5.2) P = P 21 P22 • • P2s
Ai Pr 2 • Prs
Kanał informacyjny jest w pełni określony przez swoją macierz. Będziemy
używać symbolu P równocześnie do określenia kanału i macierzy ka-
nału.
Każdy wiersz macierzy odpowiada jednemu wejściu naszego kanału,
każda kolumna zaś odpowiada jednemu wyjściu. Fundamentalna własność
5.2. Kanały informacyjne 115
(5.3) t 1, i—1,2 r.
j=i
(5.4) r* n .
Lp PJ
Podobnie jak to uczyniliśmy w przypadku źródeł informacji, możemy
rozpatrywać nie pojedyncze sygnały wejściowe i wyjściowe, ale bloki
złożone z « takich sygnałów. Zdefiniujemy teraz kanał rozszerzony «-tego
rzędu.
DEFINICJA. Rozważmy kanał informacyjny określony przez zbiór ele-
mentarnych sygnałów wejściowych A={at}, / = 1, 2, ..., r, zbiór elemen-
tarnych sygnałów wyjściowych B—{bj},j= 1 , 2 , . . . , s , oraz macierz
"Pil P12 • • Pl 5 ~
n= n2l n22 •
.. n2s„
8«
116 5. Kanały i ilość informacji
'p' PP VP Ps"
pp p2 p1 VP
pp p* p' pp
.p' pp pp p2 -
pp Pp
n= pp pp
(') Jest to słuszne jedynie przy założeniu, że kanał jest stacjonarny i bezpamię-
ciowy (przyp. tłum.).
5.2. Kanały informacyjne 117
P u P12 • •Pu
_Prl Pr2 •
Założymy, że przekazywane przez ten kanał sygnały wejściowe wybierane
są zgodnie z prawdopodobieństwami 0 ) P(ai), P(i?2), ••• > P(tfr)- Sygnały
wyjściowe będą pojawiać się wówczas zgodnie z innymi prawdopodobień-
stwami P(&i), P(b2), ..., P(6S). Łatwo można wyprowadzić związki po-
między prawdopodobieństwami sygnałów wejściowych i prawdopodobień-
stwami sygnałów wyjściowych. Dla przykładu, sygnał wyjściowy może
być odebrany w r różnych sytuacjach. Jeżeli zostanie nadane a x , wówczas
bx zostanie odebrane z prawdopodobieństwem P u ; jeżeli zostanie na-
dane a2, ¿i zostanie odebrane z prawdopodobieństwem P2i itd. Możemy
zatem napisać:
P(al)Pll+P(a2)P2i + ...+P(ar)Prl=P(b1),
(') Założenie, które czyni autor, jest równoważne temu, że na wejście kanału'
dołączono źródło informacji opisane przez prawdopodobieństwa P ( a , ) P(a,)»
(przyp. tłum.).
118 5. Kanały i ilość informacji
<5.7') .
¡=1
Lio ioJ
'-[i I]-
Jak poprzednio, wiersze i kolumny powyższej macierzy odpowiadają poszczególnym
sygnałom wejściowym i wyjściowym. Tak więc P { ¿ > = 0 | a = 0 } = i ; P {¿> = l | a = 0 } = } itd.
(5.9) P { 6 = 0 } - 4 - T + T'ro=i5>
(5.9') +
(5.10') P = =
40
(5.10") P {a = l | i > = 0 } = ^ j ,
(5.10"') P {a=0|6 = l } = ^ .
(') Dla wygody w pozostałej części książki będziemy opuszczać indeksy przy a,
oraz bj, jeżeli sumujemy po wszystkich elementach zbiorów A i B.
5.4. Entropia a priori i entropia a posteriori 121
Tak więc, jeżeli odbierzemy 0, entropia — tj. nieoznaczoność nadanego sygnału wej-
ściowego — zmniejsza się, jeżeli jednak odbierzemy 1, to nieoznaczoność wzrasta.
Kanal
(5.17) Zp(b)H(A\b).
B
Ten ważny wynik jest w samej rzeczy prawdziwy. Nie wynika to jednak
z pierwszego twierdzenia Shannona. Twierdzenie to dotyczy bowiem
jedynie kodowania dla źródła z ustalonym zbiorem statystyk, nie dotyczy
zaś kodowania dla źródła o zmieniających się statystykach po każdym
sygnale wyjściowym. W dalszym ciągu uogólnimy pierwsze twierdzenie
Shannona tak, aby obejmowało i taki przypadek.
Pytanie, które musimy zadać ażeby otrzymać to uogólnienie, nie jest
takie samo jak pytanie, które zadaliśmy aby otrzymać pierwsze twierdzenie
Shannona, a mianowicie: Jaka metoda kodowania jest najbardziej sprawna?
(W tym przypadku źródłem jest A). Teraz jednakże statystyki źródła, które
chcemy kodować, zmieniają się od sygnału do sygnału. Wskazówki o tym,
jaka jest statystyka źródła, dostarcza nam sygnał b} na wyjściu kanału.
Zauważmy, że kod zwięzły dla jednego zbioru statystyk źródła nie będzie
na ogół kodem zwięzłym dla innego zbioru statystyk źródła. Wykorzy-
stamy znajomość bj do konstrukcji s kodów binarnych ( Ł ) — jeden dla
każdego z możliwych sygnałów odbieranych bj. Gdy na wyjściu naszego
kanału odbierzemy bj, posłużymy się j-tym kodem binarnym do zakodo-
wania przekazywanego sygnału at. Przyjmiemy, że długości ciągów kodo-
wych są takie jak w tablicy 5.1.
Jeśli założyć, że kody są dekodowalne bez opóźnienia, to dla każdego
kodu z osobna możemy zastosować pierwsze twierdzenie Shannona. Pro-
fi hi ¡12 h.
Ol hi 122 ... h,
a
r Irl In Ir,
wadzi to do nierówności
(5.18)
A
gdzie L j oznacza średnią dhigość ciągu dla y-tego kodu. Bierzemy tutaj
warunkowe prawdopodobieństwa P(a,|£/) zamiast prawdopodobieństw
brzegowych P(a,), ponieważ y'-ty kod jest stosowany tylko wtedy, gdy
został odebrany sygnał bj.
Średnią ilość binitów użytą do zakodowania w ten sposób poszczegól-
nych elementów zbioru A otrzymamy przeprowadzając uśrednienie po
odbieranych sygnałach by Mnożąc (5.18) przez P ( b j ) i sumując po wszyst-
kich elementach zbioru B otrzymujemy
(5.19) £tf04|b,)P(b,)< £ ? ( « „ bj)l,fil;
B A, B
Ljest średnią ilością binitów przypadających na element zbioru A, uśred-
nioną zarówno ze względu na sygnały wejściowe, jak i wyjściowe. Zwróćmy
uwagę na podobieństwo (5.19) i (4.7).
Aby wykazać, że wynikający z nierówności (5.19) kres może być osiąg-
nięty, opiszemy teraz pewną specjalną procedurę kodowania. Przyjmijmy,
że na wyjściu naszego kanału pojawia się bj. Wówczas jako ltJ (długość
ciągu kodowego odpowiadającego wejściu a f ) wybierzemy liczbę całko-
witą spełniającą nierówność
(') To może być wykazane w taki sam sposób, jaki stosowaliśmy przy dowodzeniu
pierwszego twierdzenia Shannona (patrz § 4.3).
124 5. Kanały i ilość informacji
(5.22) £P(i)tf04|b)<L<XP(fc)//04|i>) + l .
B B
Wzór (5.22) jest słuszny dla wszystkich kanałów rozważanego przez nas
typu, w szczególności słuszny jest dla kanału rozszerzonego «-tego rzędu:
(5.24) ^P(b)H(A\b)^<'ZP(b)H(A\b) + ^ .
(5.25) Y,P(b)H{A\b).
B
(5.26) H(^|5)=EP(fc)H(^|fc)=ZP(ft)lP(«|fc)log-ii- =
B B A
(5.27) ]im—=H(A\B).
n~* oo n •
Ol
a2 ¿2
P(bj\ai)
b.
(5.28) fl(/t)=XP(<i)log-i-
A P (a)
Jeżeli mamy prawdopodobieństwa wejściowe oraz prawdopodobieństwa
warunkowe P(67|a,), to możemy obliczyć (paragraf 5.3) prawdopodobień-
stwa warunkowe P(a t \bj), prawdopodobieństwa łączne P(aj, bj), a dalej
miarę nieoznaczoności
1
(5.29) H(A\B)= ]>] P (a, b)log -
A, B 'p(a| BY
= X P ( f l ) l o g - i - - EP(a,Z>)log, 1
A P(A) A, B 'P (a\b)
(5.34) I(A;B)>0,
(5.36) I(A ; B ) = J ( B ; A) .|
(5.38)
oraz
(5.39)
<4,fl "W
— / ( A s I O + I i W l o g ^ + l P W l o g ^ -
H(A, B)
lewe koło, entropia B zaś przez koło prawe. Część wspólna obydwu kół
odpowiada ilości informacji. Tak więc pozostałe części H{A) i H(B) odpo-
wiadają nieoznaczonościom warunkowym:
(5.42) H (A\B) = H(A) — I(A ; B),
(5.43) H(B\A) = H(B) — I(A; B).
Abstrahując od faktu, że część wspólna jest włączona dwa razy, entropia
łączna H(A, B) jest sumą H(A) i H(B). Tak więc
(5.44) H(A,B) = H(A) + H(B)-I(A;B).
9 Teoria i n f o r m a c j i
130 5. Kodowanei i ilość informacji
Zauważmy także, że
(5.45) H(A,B) = H(A)+H(B\A),
(5.45') H(A, B)=H(B)+H(A\B).
Równania te wynikają bezpośrednio z rysunku 5.9 lub związków (5.42),
(5.43) i (5.44). Możemy interpretować te równania jako stwierdzenie, że
całkowita nieoznaczoność pary A i B jest sumą nieoznaczoności A i nie-
oznaczoności B przy danym A, lub odwrotnie.
Podsumowując stwierdzamy, że chociaż podstawowym obiektem na-
szego zainteresowania jest kanał informacyjny, argumentacja użyta w tym
paragrafie nie zależy od tego, że A jest zbiorem sygnałów wejściowych
B zaś — zbiorem sygnałów wyjściowych kanału informacyjnego. Możemy
zdefiniować informacyjne miary, pokazane na schemacie 5.9 dla każdych
dwóch zmiennych losowych. Jeżeli dwie zmienne losowe nie są statycznie
niezależne, ilość informacji będzie dodatnia.
PRZYKŁAD 5.4. Obliczmy ilość informacji dla KBS. Macierz opisująca KBS
jest następująca:
[V]
Lp pi
gdzie p—l— p. Załóżmy, że prawdopodobieństwa przekazywania 0 i 1 są równe od-
powiednio co i co. Wypiszmy ilość informacji w postaci
(5.46) I{A\B)^H(B)-H(B\A)=H(B)-YJ'PM^(ba)\og—^r =
a B P(o|a)
•Ó1
•h
•b3
•bs
1 , ,t
9*
132 5. Kodowanei i ilość informacji
i I 0 0 0 o
P = 0 0 4 ro ro o
0 0 0 0 0 1
1
-b,
Ilość informacji dla kanałów omawianych wyżej daje się łatwo obliczyć.
Weźmy pod uwagę najpierw kanał bezszumowy. Jeżeli w kanale bezszu-
mowym obserwujemy sygnał wyjściowy bj, wiemy z prawdopodobieństwem
1, jakie at jest przekazywane; tak więc prawdopodobieństwa warunkowe
P(ai\bj) są wszystkie albo 1, albo 0. Napiszemy teraz entropię H{A\B):
(5.50) tf(/l|B)=0.
(5.52)
A B F{bj\a,)
A C
Kanal 1 Kanał 2
(5.55) P ( a i | b ; , c , ) = P(a i |b ; ).
(5.61) P ( a | 6 , c ) = P(fl|c)
z kanałem
"1 0 0"
0 i i .
.0 i i.
Szeregowy układ powyższych dwóch kanałów można przedstawić graficznie tak jak
na schemacie 5.14.
M
LP P\
są połączone następująco:
A K
KBS KBS
*
0,8
0,6
0,4
0,2
0
0,2 0,4 0,6' 0,8 1
Prawdopodobieństwo błędu p w kanale
11 P12 ••
~p Pu P l,i+l • • Pu
P2 PP PP P2
P = PP P2 P2 PP
PP P2 P2 PP
P2 PP PP P2
P P
P P
P =
P P
P P
5.10. Kanały zredukowane i redukcje wystarczające 141
A
V1 Kanał
deterministyczny
C
Kanał
zredukowany
(5.65) H(A\C)>H(A\B)
oraz
(5.66) I(A;C)^I(A;B).
(5.67)
P = P 21 P 22
P(Mfl)P(fl) P(b2\a)P(a)
(5.71); = i-: == n —, dla wszystkich a
£ P ( 6 l f l ) P ( a ) £P(i> 2 |a)P(a)
A A
[liii]
L.12 6 * 2J
może być zredukowany do
144 5. Kodowanei i ilość informacji
i ostatecznie do kanału
(5.74') H(A\bj)=ZP(a\bj)log?-^
(5.75) ZP(b)H(A\b)=H(A\B).
B
(5.75') X P(b,c)H(A\b,c)=H(A\B,C).
B,C
(5.77) H(A)-H(A\B)
10 Teoria i n f o r m a c j i
146 5. Kodowanie i ilość informacji
oraz
(5.78) I(A;B)=H(A)-H(A\B).
1
= £ P ( a ) l o g - i - - X P(a,b,c)log =
A P(A) A.B.c P(a\b,c)
5.11. Addytywność ilości informacji 147
= £ P(<3, b, c ) l o g — — £ P ( a , b, c)log
A/B, c P(a) B, C P(a|b,c)
A.B.C P(A)
(5.82') n A - , B , C . Y ? ( . , b ,
5.84) I(A;B,C)^U(B,C)~H(B,C\A).
PRZYKŁAD 5.11. Dla ilustracji addytywności ilości informacji zbadamy KBS
M .
L p pi
10«
148 5. Kodowanie i ilość informacji
0 0 0 i ip2 i(p2+P2)
0 0 1 i iPP PP
0 1 0 i hPP PP
0 1 1 i iP2 HP2+p2)
1 0 0 i iP2 i(j>2+P2)
1 0 1 i iPP pp
1 1 0 i iPP pp
1 1 1 i i P2 HP2+P2)
P2+P2'
Z (5.85) wynika, że informacja z takiej obserwacji wynosi
(5.87) J ) .
Każdy element tego ciągu jest nie większy niż poprzedzający. Widzimy,
5.12. Ilość informacji w przypadku kilku zbiorów 149
(5.90) I(A-,B)=H(A)-H(A\B),
I(A; B) jest wzajemną informacjąO A i fi; I(A\ C\B) jest wzajemną infor-
macją A i C przy danym fi. Obydwie te wielkości jednakże dotyczą wza-
(5.92) I (A ; B ; C) =
p
L\i v o/ u \| («>%)
A?B P(fl)P(&) A.B.C ' ' P(a|c)P(b|c)
- Z P(a,fc,c)logP(a'b)P(fllC)P(f)=
A.B.C P(a)P(b)P(a, b\c)
V D, K M P(«,fi)P(«.E)P(6.C)
¿,B,C P ( a ) P ( 6 ) P ( c ) P ( A , I>, c)
= / f ( A ) + H ( B ) + H ( C ) - H ( X , B ) - f l ( ^ , C ) - J i ( B , C ) + i i ( , 4 , B , C).
(5.93) I(A;B)=H(A)+H(B)-H(A,B).
Wzory (5.92) i (5.93) można łatwo uogólnić dla więcej niż trzech zbiorów.
Na przykład, wzajemna informacja A, B, C i D ma postać
= [H(A)+H(B)+H(C) + H (£>)] -
~[H(A,B)+H(A,Q+H(A,D)+
+ [H(A,B,C) + H(A,B,D) +
H(A, B, o H(A, B, o
/ * \ r * \
000 1 i ł
i i
001 0 0 0 i ł
010 0 0 0 i
011 i 1 ł i i
100 0 0 0 i ł
101 i 1 i i i
110 i 1 i i i
111 0 0 0 i ł
Wykorzystując tę tablicę, możemy obliczyć:
n a w e j ś c i u , ci
Pil Pil • • Pu
Pil P 22 • • P2s
-P.
Pfl PP f 2- ••• P -
Prs
Jak poprzednio, PiJ = P(bJ\ai). Kanał taki jest nazywany kanałem jedno-
litym, jeżeli elementy każdego wiersza i kolumny są permutacjami ele-
mentów pierwszego wiersza.
5.13. Przepustowość kanału 155
P V V -
p
r - 1 r - 1 r —1
V V V
r - 1 P r - 1 r —1
P V P
Lr - 1 r - 1 r - 1 P
przy czym drugi składnik w (5.99) nie zależy od rozkładu sygnałów wejścio-
wych. Aby wyznaczyć maksimum prawej strony (5.99) należy znaleźć
jedynie maksimum H(B). Ponieważ zbiór wyjściowy obejmuje r sygnałów,
wiemy, że H(B) nie może przekraczać logr bitów. H(B) będzie równe
log r wtedy i tylko wtedy, gdy wszystkie sygnały wyjściowe będą równo-
prawdopodobne. W ogólności jednak nie jest prawdziwe stwierdzenie, że
istnieje rozkład wejściowych sygnałów taki, że sygnały wyjściowe są równo-
prawdopodobne. Dla jednolitego kanału jednakże można łatwo sprawdzić,
że jeśli założyć równoprawdopodobne sygnały wejściowe, to sygnały wyjścio-
156 5. Kodowanie i ilość informacji
(5.100) C=logr-ęP(h|a)log]^i_ =
= logr+XP(fc|a)logP(i>|a).
B
(5.102) I(A-,B)=lP(a,b)\og?^-,
A.B R (B)
(5.104) /(asiO-lPiil«)10«^^-;
(5.106') I(a2;B)<C.
Zmieniamy prawdopodobieństwa
(5.107) P ( f l l ) , P(a 2 ), P( f l 3 ), ..., P(a r )
na prawdopodobieństwa
(5.107') P ( a 1 ) + ^ > P ( a 2 ) - A , P(a 3 ) P(a r ),
gdzie A jest pewną małą liczbą mniejszą od P(a2)- Pokażemy dalej, że
wielkość wzajemnej informacji wówczas wzrasta. Ponieważ przyjęliśmy,
że pierwotne prawdopodobieństwa (5.107) odpowiadały przepustowości,
mamy sprzeczność; stąd nasze założenie, że wszystkie I(a; B) nie są stałe,
jest fałszywe. Zajmiemy się teraz dowodem wspomnianej tezy. Oznaczmy
prawdopodobieństwa (5.107') przez Pifai), Pi(a 2 ), • ••> Pi(ar)- Odpowied-
nie prawdopodobieństwa wyjściowe oznaczmy Pi(6j.)> Pi(^ 2 ), Pi(6 s ).
Prawdopodobieństwo Pj (b) wynosi
(5.108) P1(ft)=£P1(a)P(b|a) =
A
= ?(b)+A[P(b\a1)-P(b\a2)].
(5.109) I1(A',B)-C=
= Z P 1 ( « ) Z P ( t | a ) l o g ^ - l P ( a ) Z P ( H a ) l o g - ® =
A B m(0) A B
Po dodaniu i odjęciu
P ( b | f l l ) 1 g P ( h l f l 2 ) l 0 8
(5.110) 4 ę ° ^ ) " ę p k ]
-Ę{P(t)+J[P(j.|a,)-P(i.|g,)]}lo8 ^ ^ p g p g i .
1 +
P(i»
5.14. Warunkowa ilość informacji 159
(5.113) ZP1(fc)log-^«1^E{P(fe)+^[P(i)|a1)-P(bM}x
B "iW ln/B
AjPib\ai)-?(b\a2)-]
X * &
P (¿0
in z b
[P(b|fll)-P(fc|q2)]2^
B P (b)
~ In 2 V P (b)
UWAGI
(Blackwell, 1953, Lindley, 1956, Shannon, 1958). Jak czytelnik mógł wcześniej wy-
wnioskować, przepustowość nie jest jedyną metodą oceny przydatności kanału infor-
macyjnego. Gdy liczba hipotez (sygnałów wejściowych) wynosi 2, można skorzystać
z wielu konkretnych wyników zawartych w literaturze dotyczącej statystyki (Kull-
back, 1959, Grettenberg 1962, Birnbaum, 1961). W pewnych przypadkach tradycyjne
metody statystyczne zastosowane do kanałów informacyjnych prowadzą do wyników
diametralnie przeciwnych w stosunku do wyników uzyskanych z teorii informacji
(Abramson, 1960).
2. Przepustowość istoty ludzkiej grającej rolę kanału informacyjnego była badana
przez Pierce'a i Karlina (1957). Mierzyli oni ludzką przepustowość informacyjną
za pomocą eksperymentów z czytaniem. Stwierdzili oni, że rozbieżność pomiędzy
mierzoną w ten sposób przepustowością kanału ludzkiego (40 - 55 bitów na sekundę)
oraz przepustowością kanału telefonicznego i telewizyjnego (odpowiednio około
50000 bitów na sekundę i 50000000 bitów na sekundę) jest wyzywająca.
Trzeba podkreślić, że Pierce i Karlin badali informację odbieraną przez wewnę-
trzne punkty ludzkiego systemu przetwarzania informacji. Kelly (1962) też zmierzył
przepustowość informacyjną pojedynczej ludzkiej siatkówki oka i otrzymał liczbę
109 bitów na sekundę.
3. Przy testowaniu hipotez statystycznych podstawową rolę gra stosunek praw-
dopodobieństw (lub często logarytm stosunku prawdopodobieństw). Jeżeli x oraz
1 —x są odpowiednio prawdopodobieństwami hipotez 1 i 2, mamy następujący lo-
garytm stosunku prawdopodobieństw:
108
rb•
Golomb (1961) wykorzystał fakt, że
y
("log ~du = H(y)~H(x)
J l—u
x
11 Teoria I n f o r m a c j i
162 5. Kodowanie i ilość informacji
gdzie |JST,»|, \Ka\ i |iTi,| są odpowiednio wyznacznikami macierzy kowariancji (a, b),
a oraz b. Jeżeli a reprezentuje realizację procesu gaussowskiego, zdefiniowanego
w pewnym (może być również nieskończonym) przedziale, b zaś jest pewną zmienną
losową, wówczas
I(A ; B ) = - i l o g < 7 * ,
ZADANIA
¿i b2
a i ["0,8 0,21
a 2 [o,3 0,7j
(ck\at, bj)=-p(ck\at).
A B
Kanał 1
A , Kanał 2
C
Z. 5.2.
bl
)
loj 62
B
\a r b.
Z. 5.5.
= 1, 2 dla dowolnego X należącego do przedziału <0, 1>, zbiór liczb R,=XP,+
+XQ, może być również potraktowany jako zbiór prawdopodobieństw wejściowych.
r
Wynika to stąd, że Rt>0 dla wszystkich i oraz «, = 1. Niech IP(A; B), IQ(A\ B)
1=1
oraz JK(A; B) będą ilościami informacji, gdy prawdopodobieństwa wejściowe wynoszą
odpowiednio P ( , Qt oraz R,.
a) Udowodnić „wypukłość" ilości informacji, tj. wykazać, że
Ir(A ; B)>XIP{A ; B)+X1Q(A ; B).
b) Wykazać, że zachodzi związek
Ir(A ; B)<XIP(A ; B)+XIQ(A ; B)+H(X).
5 .6. Uogólnić punkty a) i b) zadania 5.5 na przypadek, gdy zbiór prawdopodo-
bieństw R, jest konstruowany nie na podstawie dwu, ale na podstawie n zbiorów praw-
dopodobieństw.
ii'
164 5. Kodowanie i ilość informacji
Z. 5.7.
a) Zdefiniujemy nowy kanał, którego zbiór wejściowy A jest sumą zbiorów wej-
ściowych Ai i A2. Niech dalej zbiór wyjściowy B będzie sumą zbiorów B1 i B2. Sygnał
wejściowy nowego kanału jest wybierany jak gdyby w dwu etapach: najpierw wybiera
się zbiór At (z prawdopodobieństwem X) lub A2 (z prawdopodobieństwem 1 —X — ).),
następnie wybierany jest sygnał ze zbioru z prawdopodobieństwem odpowiednio
Pi(a) lub P 2 (a). Przedstawić H(A) za pomocą H(Ai), H(A2) oraz X.
b) Prawdopodobieństwa opisujące nowy kanał P(£|a) są równe P ^ a ) , jeżeli
a i b należą odpowiednio do A1 i B,, oraz P 2 (6|a), jeżeli a i b należą odpowiednio do A2
02, są zaś równe zeru, jeżeli a należy do Alt natomiast b do B2 lub gdy a należy do A2,
natomiast b do Bt. Przedstawić H{A\B) za pomocą HiAĄBi), H(A2\B2) oraz A.
c) Przedstawić I(A; B) za pomocą I(A,; Bi), I(A2; B2) oraz A.
5.8. Uogólnić zadanie 5.7 na przypadek n informacyjnych kanałów (/i>2).
5.9. Binarny kanał multyplikatywny, przedstawiony na rysunku Z.5.9, ma dwa
binarne wejścia i jedno binarne wyjście b=ac. Kanał ten może być opisany tak samo
Z. 5.9.
jak zwykły kanał bezpamięciowy, jeżeli cztery możliwe kombinacje wejściowe po-
traktujemy jako nowy zbiór wejściowy A':
00
10
U
a) Napisać macierz kanału ze zbiorem wejściowym A' oraz wyjściowym B.
Zadania 165
A B C
P P
Z. 5.10.
A B c
KBS
Z. 5.11.
ri -p-q q p I
W szczególnym przypadku, gdy P—0, kanał nosi nazwę kanału binarnego wymazu-
jącego. Podać interpretację przepustowości kanału binarnego wymazującego.
;
[o P2]
O oznacza macierz, której wszystkie elementy są równe zeru. Niech P(a ( ) będzie
prawdopodobieństwem sygnału wejściowego a,eA. Niech dalej G i = ^ P ( o ( ) ,
"10 0
0 p p
.0 P P.
Naszkicować wykres przepustowości jako funkcji p i porównać z odpowiedzią
*w punkcie a).
Zadania
a) \ p ~ e r e .
[p—e p—e 2ej
. \ \P~e P~e 2« 0 1
' \_p-a p-s 0 2e\ '
c) Wykorzystać przybliżenie
6.1. Wprowadzenie
(6.1)
Kanał ten posiada trzy sygnały wejściowe at, a2, a3 i trzy sygnały wyjściowe
b i, b2, b3. Co można powiedzieć o nadanym sygnale wejściowym, gdy
został odebrany jakiś sygnał wyjściowy kanału? Pytanie to prowadzi
do następującej definicji.
DEFINICJA. Rozważmy kanał z R-elementowym zbiorem wejściowym
A = {ai}, i = l, 2, ..., r, oraz s-elementowym zbiorem wyjściowym B= {bj},
j= 1, 2 , . . . , s. Reguła decyzyjna d(bj) jest pewną funkcją przyporządkowującą
jednoznacznie każdemu elementowi wyjściowemu element wejściowy ( ł ).
P r z y k ł a d 6.1. Dla kanału 6.2 są możliwe następujące dwie reguły decyzyjne:
</(M=a i.
(6.3) </(&,)« o 2 ,
d(b3)=a3
oraz
(6.4) d(b2)=a2,
d(bs)=a2.
(6.5) PE=£P(£|6)P(&).
B
Reguła zdefiniowana relacją (6.9') jest znana jako reguła największej wiaro-
godności. Reguła największej wiarogodności nie zależy od prawdopodo-
bieństw a priori. Gdy prawdopodobieństwa a priori są wszystkie jedna-
kowe, reguła największej wiarogodności zapewnia minimalną wartość
prawdopodobieństwa błędu. Jeżeli prawdopodobieństwa a priori nie są jed-
nakowe (lub są nieznane), reguła ta może być również stosowana; w przy-
padkach takich oczywiście nie zapewniamy minimalnej wartości prawdo-
podobieństwa błędu.
d(bl)=a1,
d(bi) = a3,
d(b3)=a2.
Zauważmy, że wypisana reguła nie jest jedyną, jaką można skonstruować. W istocie
istnieją dla omawianego kanału trzy reguły największej wiarogodności.
(6.10) p £ = l P ( # ) P ( i O = l P W - E P W ] P ( f c ) =
B B B
= 1-IP [d(b),b-].
6.2. Prawdopodobieństwo błędu i reguły decyzyjne 173
= £ P(a,i»)logr-^+i:P(^,i>)logl.
B,A~>«• fi "£
+ £P(fl*,f>)k>g
- r A ^ f ^ i - ^ + f i i P " " ] - ^ » « .
| _ r — LB,A-A* J B
000 000
001 001
010 010
011 011
100 — (BSK)' 100
101 101
110 110
111 111
(i-p)3=(/03.
(6.26) P £ « 3 • 10~4.
12 Teoria i n f o r m a c j i
178 6. Wierne przekazywanie wiadomości przez zawodne kanały
00000 • 00000
00001 00001
00010 00010
00011 00011
—• (BSK)'
11110
11111 11111
(6.28) P£«10~5.
2
1 io-
4
3 3-10-
5 lO" 5
7 4-10" 7
8
9 lO"
1 0
11 5-10"
6.4. Niezawodne przekazywanie wiadomości przez zawodne kanały 179
12*
180 6. Wierne przekazywanie wiadomości przez zawodne kanały
Rysunek 6.4 nasuwa ważne pytanie. Badany dotąd przez nas system
kodowania — proste powtarzanie — jest najbardziej oczywistą metodą
zamiany omawianego stosunku na niezawodność. Czy istnieją ciekawsze
i bardziej sprawne metody realizowania tej wymiany? Czy istnieją, dla danej
wartości prawdopodobieństwa błędu, metody dające większy stosunek
niż proste powtarzanie? Odpowiedź na to pytanie jest wyraźna: Tak! Od-
powiedź taka wynika z drugiego twierdzenia Shannona (paragraf 6.10).
Twierdzenie to nie tylko usta'a, że możemy polepszyć stosunek wykreślony
na rysunku 6.4, ale również ustala granicę, do której możemy go polepszać.
Odpowiedź na pytanie: O ile lepiej? wynikająca z drugiego twierdzenia
Shannona jest najbardziej atrakcyjną częścią naszych dalszych rozważań.
Graficznie odpowiedź naszkicowaliśmy na rysunku 6.5.
000 000 \
001 ooi I
010 010 /
011 011
A> 100 (BSK)' > = B'
100 [
101 101 \
110 110 1
111 111 /
6.6. Kanał (KBS) 3
0101
011
011/
1001
101
101/
1101
110
lllJ
(*) Jak pokazano w przykładzie 6.2., reguła największej wiarogodności nie jest
jedyna. W przykładzie tym, oprócz reguły pokazanej na rysunku 6.7 istnieje kilka
innych reguł największej wiarogodności.
6.5. Przykład kodowania z korekcją błędów 183
a,=101111,
/?,-= 1 1 1 1 0 0
oraz niech D(oLt, pj) oznacza odległość Hamminga pomiędzy a( i fij. Wów-
czas D(ah
Koncepcja odległości Hamminga może być zastosowana do dyskuto-
wanych w poprzednim paragrafie trzech różnych kodów dla kanału (KBS)3.
TABLICA 6.2 Trzy kody dla kanału (KBS) 3
Ciągi kodowe trzech kodów zebranych w tablicy 6.2 mogą być przed-
stawione jako wierzchołki trójwymiarowych kostek. Wówczas odległość
Hamminga pomiędzy jakimiś dwoma punktami kodowymi może być trak-
towana jako ilość kroków, które musimy uczynić, aby przejść od jednego
punktu do drugiego. Zauważmy, że minimalne odległości pomiędzy punk-
tami kodowymi w kodach si, Si i <€ wynoszą odpowiednio 1, 2 i 3.
Najmniejsza odległość pomiędzy punktami kodowymi jest ściśle związana
z prawdopodobieństwem błędu tego kodu. Na ogół możemy oczekiwać,
że im większa jest najmniejsza odległość, tym mniejsze prawdopodobień-
stwo błędu. Oczywiście, im większa ma być najmniejsza odległość, tym
mniej punktów kodowych można umieścić w wierzchołkach «-wymiarowej
kostki. Jest to inne wyrażenie efektu podkreślonego w poprzednim para-
grafie. Oceniając dany kod należy mieć na uwadze zarówno korzyści wy-
6.6. Odległość Hamminga 185
^-Najblizszy
ciąg kodowy
.4" B"
00 • • 00 00 • • 00
00 • •01 n 00 • • 01
(BSK)
00 • • 10 00 • • 10
11 • • 11 11 • • 11
(BSK)
6.11. Kanał
Rozważymy zatem inną regułę decyzyjną podobnego typu. Chociaż nie bę-
dzie ona tak dobra jak reguła największej wiarogodności, pokażemy, że mi-
mo to można uzyskać prawdopodobieństwo błędu decyzji dowolnie małe.
Stwierdziliśmy poprzednio, że średnia odległość pomiędzy przeka-
zywanym ciągiem a 0 i ciągiem odebranym pj będzie równa np, gdzie n jest
rzędem rozszerzenia kanału KBS (lub długością ciągu kodowego), a p jest
prawdopodobieństwem błędu binarnego. Gdy odbierzemy ciąg fij na wejściu
naszego kanału, naturalne będzie poszukiwanie przekazywanego ciągu
kodowego wśród ciągów kodowych o odległości np lub mniejszej od fij.
Odwołując się do interpretacji geometrycznej możemy powiedzieć, że budu-
jemy dookoła Pj kulę o promieniu np i szukamy ciągu kodowego a0 wew-
nątrz tej kuli. Jednakże np jest średnią odległością a0 od P} i może być rzeczą
rozsądną zwiększyć nieco naszą kulę, aby zwiększyć prawdopodobieństwo
tego, że a 0 będzie leżało wewnątrz kuli. Matematycy mają zwyczaj ozna-
czać takie zabezpieczenie symbolem s i my też tak uczynimy. Rozważmy
kulę o środku Pj i o promieniu npt, g d z i e p e = p + £ (rys. 6.12).
6.7. Drugie twierdzenie Shannona dla K B S — etap pierwszy 189
powstaje wtedy, gdy przekazywany ciąg kodowy a 0 nie leży w kuli S(npc),
a błąd drugiego rodzaju wtedy, gdy w kuli S(npF) oprócz a 0 znajdzie się
inny ciąg kodowy. Stąd prawdopodobieństwo błędu wynosi
(6.38) PE^P{aoeS(npc)} +
< £ P{ateS(np$,
(') Opisana procedura może kończyć się pewnym niekorzystnym kodem, tj.
możemy wybrać tę samą kartkę papieru więcej niż jeden raz, a zatem przypisać ten
sam ciąg kodowy więcej niż jednej wiadomości. Dla M < 2 " taki przypadek jest mało
prawdopodobny, ale możliwy. Dla M > 2" taki przypadek jest nieunikniony.
192 6. Wierne przekazywanie wiadomości przez zawodne kanały
(') Oczywiście npc nie musi być liczbą całkowitą. Jeśli npe nie jest liczbą całko-
witą, wówczas zastępujemy npe w ostatnim współczynniku dwumianu (6.45) przez
największą liczbę całkowitą mniejszą od npe. D o w ó d jednak nie zmienia się pod
żadnym względem.
6.8. Kodowanie losowe — etap drugi 193
(6.47) af#a0.
może być uczyniona dowolnie bliska H(p), i możemy wybrać ilość wiado-
mości M dowolnie bliską 2n[l~H(p)]. Różnica 1 — H(p) jest przepustowością
C kanału KBS. Stąd możemy wybrać M wiadomości, gdzie M jest pewną
liczbą mniejszą niż 2"c, i średnie prawdopodobieństwo błędu może być
uczynione mniejsze od dowolnej, z góry założonej liczby. Musi istnieć przy-
najmniej jeden kod tak dobry jak średnia; jesteśmy więc pewni, że istnieje
kod z M < 2"c ciągami kodowymi i prawdopodobieństwem błędu dowolnie
małym.
To jest rezultat, który obiecywaliśmy przy końcu paragrafu 6.5. Jeżeli
użyjemy dostatecznie długich bloków o długości n, to możemy wybrać
M<2nC ciągów kodowych i korzystając z kanału KBS będziemy mogli
uzyskać prawdopodobieństwo błędnego odtworzenia ciągu kodowego
13 Teoria Informacji
194 6. Wierne przekazywanie wiadomości przez zawodne kanały
tak małe, jak tylko będziemy chcieli. Stąd możemy przez kanał KBS o prze-
log 2"c
13*
196 6. Wierne przekazywanie wiadomości przez zawodne kanały
A» B"
a0 (Kanał)" — 0,-
(6-51) d(Pj)=ct*,
gdzie
(6.51') P(/Jj|a*)>P(/?j|a,) dla wszystkich i .
Ponownie stwierdzamy, że do obliczenia prawdopodobieństwa błędu
jest wygodnie posłużyć się, zamiast samą regułą największej wiarogodności,
pewną regułą decyzyjną blisko związaną z regułą największej wiarogod-
ności. Chcemy napisać warunek wyznaczający a*, równoważny warunkowi
6.10. Drugie twierdzenie Shannona — przypadek ogólny 199
(6-52'} ^ WSZyStkiCh
Wielkość
. Po(^)
,6.54) g P ^ ^ - W .
Jasny jest teraz powód wprowadzenia P0(Pj) do (6.53). Suma (6.54) jest
ze znakiem przeciwnym warunkową ilością informacji /(a 0 ; B"), zdefinio-
waną w paragrafie 5.13. Ponieważ P0(Pj) są prawdopodobieństwami pj
takimi, że I(A."; B")=nC, więc 7(a 0 ; B") nie zależy od a 0 i mamy
Jeżeli zatem odbieramy na wyjściu naszego kanału ciąg P Jt jest rzeczą natu-
ralną szukać nadanego ciągu kodowego wśród ciągów spełniających warunek
(
"6)
200 6. Wierne przekazywanie wiadomości przez zawodne kanały
zwiększamy promień kuli o ne (rys. 6.17) tak, aby zawierał ciągi kodowe
spełniające warunek
Po (Pi)
(6.58) log • < - « C + HE=-ii(C-E).
(') Słowo kula jest użyte jedynie do ułatwienia zrozumienia argumentów wy-
korzystanych w przypadku KBS. Promień „kuli" jest ujemny.
6.10. Drugie twierdzenie Shannona — przypadek ogólny 201
6.59) P£=P{a0ĆS(e)} +
+ P { a 0 e S ( e ) } P {przynajmniej jeden inny ciąg kodowy e S(e)}.
(6.60) P£^P{a0ĆS(e)} +
+ P {przynajmniej jeden inny ciąg kodowy e S ( f ) } ,
. W
| 0 8
pW
wynosi — nC. Logarytm ten może być rozłożony na sumę n składników,
z których każdy dotyczy jednego z n elementów tworzących ¡ij i jednego
z n elementów tworzących x 0 . Tak więc, dzięki prawu wielkich liczb, dla dos-
tatecznie dużych n prawdopodobieństwo zdarzenia, że suma będzie większa
od —nC o wartość większą od ne, będzie mniejsze niż d, gdzie ó jest do-
wolnie małe. Nierówność (6.62) przyjmuje postać
(6.63) P £ <«5 + £ P {ot; e S (e)}.
<xi=ta o
Zastosujemy teraz kodowanie losowe. Niech P0(a,) będą wejściowymi
prawdopodobieństwami odpowiadającymi przepustowości. Wybieramy M
ciągów kodowych zgodnie z tymi prawdopodobieństwami (dopuszczając
znowu możliwość kodu osobliwego). Prawdopodobieństwa możliwych
rM" kodów nie koniecznie są jednakowe — prawdopodobieństwo wyboru
jakiegoś ustalonego zbioru M ciągów kodowych jest dane przez iloczyn
odpowiadających M prawdopodobieństw.
Uśredniamy (6.63) po rMn możliwych kodach, aby otrzymać oszacowanie
w*/
średniego prawdopodobieństwa błędu PE. Stosując wężyk do oznaczenia
uśrednienia po rM" kodach mamy
WW AVWWWWVVWMV WWWWWWW
(6.64) P£s$<5+ X P l a . e S i e ^ ^ + i M - l J P f o e S t e ) } « ;
ai&ao
wwwwwww
<5 + MP{afeS(e)}.
Do tego miejsca etapy naszego dowodu odpowiadały ściśle etapom do-
wodu drugiego twierdzenia Shannona dla KBS. Jednakże, aby obliczyć
s*/WWWWWW/V\ wwwwwwww
P{aje5(fi)}, konieczna jest inna metoda postępowania. P {a; e S(s)j jest
średnim prawdopodobieństwem zdarzenia, że a, jest zawarte w S(E). Dla
6.10. Drugie twierdzenie Shannona — przypadek ogólny 203
(6.72) H(A")-H(An\Bn)^nC,
mamy
(C+e)
\og 2" -H(A"\B")^nC
lub
(6.73) ne^H(An\B").
ne —1
(6-75) PE> —
nC + ne
6.11. Epilog
Oczywiście można posłużyć się tablicą liczb losowych i użyć takiej tab-
licy do wybierania ciągów kodowych. Jednakże losowe wybieranie kodu
nie jest zadowalającą metodą konstruowania systemu komunikacyjnego.
Praktycznie system taki byłby niemal niewykonalny. Ponadto istnieje
zawsze możliwość (aczkolwiek mała), że wybrany kod nie zapewni małego
prawdopodobieństwa błędu. Drugie twierdzenie Shannona stwierdza,
że prawie wszystkim kodom odpowiada małe prawdopodobieństwo błędu
(udowodniliśmy twierdzenie przez losowy wybór kodu). Czy nie potra-
fimy zatem podać deterministycznej metody wyznaczania dobrych kodów?
Jest to dylemat, który uparcie szydzi z teoretyków od czasu ukazania
się pierwszej pracy Shannona w 1948 r. Mimo ogromnego wysiłku (Peterson,
1961) włożonego już do tej pory w poszukiwanie świętego Grala teorii
informacji, deteremi ni styczna metoda konstruowania shannonowskich
kodów wciąż jeszcze czeka na odkrycie.
UWAGI
r (C-Rf 1
P£<2exp - n dla 0<C-R<$,
L 16rs J
ZADANIA
TABLICE
Dodatek
! n log n n log n
1 0.000000 26 4.700439
2 1.000000 27 4.754887
3 1.584962 28 4.807355
•
4 2.000000 29 4.857981
5 2.321928 30 4.906890
6 2.584962 31 4.954196
7 2.807355 32 5.000000
!» 8
10
3.000000
3.169925
3.321928
33
34
35
5.044394
5.087463
5.129283
11 3.459431 36 5.169925
12 3.584962 37 5.209453
13 3.700440 38 5.247927
14 3.807355 39 5.285402
15 3.906890 40 5.321928
16 4.000000 41 5.357552
17 4.087463 42 5.392317
18 4.169925 43 5.426264
» 4.247927 44 5.459431
20 4.321928 45 5.491853
21 4.392317 46 5.523562
22 4.459431 47 5.554589
23 4.523562 48 5.584962
24 4.584962 49 5.614710
25 4.643856 50 5.643856
• 1
Tablice
n log w n log n
51 5.672425 76 6.247927
52 5.700439 77 6.266786
53 5.727920 78 6.285402
54 5.754887 79 6.303780
55 5.781359 80 6.321928
56 5.807355 81 6.339850
57 5.832890 82 6.357552
58 5.857981 83 6.375039
59 5.882643 84 6.392317
60 5.906890 85 6.409391
61 5.930737 86 6.426264
62 5.954196 87 6.442943
63 5.977280 88 6.459431
64 6.000000 89 6.475733
65 6.022367 90 6.491853
66 6.044394 91 6.507794
67 6.066089 92 6.523562
68 6.087462 93 6.539158
69 6.108524 94 6.554588
70 6.129283 95 6.569855
71 6.149747 96 6.584962
72 6.169925 97 6.599912
73 6.189824 98 6.614709
74 6.209453 99 6.629356
T e o r i a i n f o r m a c j i
Dodatek
p H(p) P H(p)
p H(j>) P H(p)
Przedmowa 5
Wykaz oznaczeń i postaci entropii 7
1. Wstęp
1.1. Czym nie jest teoria informacji 11
1.2. Czym jest teoria informacji 12
1.3. Kodowanie wiadomości 13
1.4. Problem przesyłania wiadomości 16
1.5. Sformułowanie niektórych problemów 19
Uwagi 20
Zadanie 21
Uwagi 78
Zadania 79
4. Kodowanie wiadomości
4.1. Średnia długość ciągu kodowego 81
4.2. Metoda kodowania w przypadku źródeł specjalnych 84
4.3. Pierwsze twierdzenie Shannona 88
4.4. Pierwsze twierdzenie Shannona dla źródeł ciągów Markowa . . . 90
4.5. Kodowanie bezpośrednie 92
4.6. Znajdowanie binarnych kodów zwięzłych — kody Huffmana . . 93
4.7. Uzupełnienie dowodu 99
4.8. r-narne kody zwięzłe 101
4.9. Sprawność i rozwlekłość kodu 104
Uwagi 107
Zadania 110
Dodatek: Tablice
Bibliografia . .
Skorowidz . . .