Abramson N. - Teoria Informacji I Kodowania

RMAN ABRAMSON
TEORIA INFORMACJI
I KODOWANIA l
PRZEDMOWA
Praca nad tą książką została zapoczątkowana przez przygotowanie

zbioru notatek na temat teorii informacji i kodów binarnych do cyklu
wykładów wygłaszanych w Federalnych Laboratoriach ITT. Następnie
notatki te były rozszerzone i wykorzystane jako materiały do jednotry-
mestralnego kursu dyplomowego na wydziale elektrotechniki Uniwersytetu
w Stanfordzie. Przeważająca część końcowej wersji rękopisu została opra-
cowana podczas jednosemestralnego kursu teorii informacji przeprowadzo-
nego w Laboratoriach Badawczych 1BM0) w San Jose w Kalifornii.
Celem tej książki jest przedstawienie podstawowych pojęć teorii infor-
macji, bez wnikania — o ile tylko to jest możliwe — w szczegółowe zależ-
ności matematyczne, będące językiem najczęściej używanym dla wyrażania
tych pojęć. Wprawdzie możliwe jest traktowanie teorii informacji jedynie
jako matematycznych rozważań nad własnościami pewnych wielkości, na
zbiorach których zdefiniowana jest miara prawdopodobieństwa, jednakże
nas interesować będą związki tej teorii z praktycznymi zastosowaniami
i związki pomiędzy badanymi wielkościami i szeroką klasą ważnych intui-
cyjnych pojęć, występujących w różnych dziedzinach. W celu wydobycia
tych związków użyjemy matematyki jako języka adekwatnego do wyra-
żania teorii informacji. Najważniejsze twierdzenia teorii informacji będą
ściśle sformułowane i udowodnione. Kompletne dowody podane będą dla
wszystkich twierdzeń, a odwoływanie się do intuicji mieć będzie miejsce
tylko przy interpretowaniu wyprowadzonych rezultatów. Pomimo tego
podbudowa matematyczna wymagana do zrozumienia wykładanego w tej
książce materiału jest całkiem skromna. Umiejętność działań na logarytmach
i intuicyjne zrozumienie pojęcia prawdopodobieństwa oraz pojęcia wartości
średniej stanowią to, co jest tu konieczne. Rachunek różniczkowy i cał--
(') International Bussiness Machines (przyp. tłum.).

6 Przedmowa
kowy nie jest wykorzystywany w tej książce. Jednakże chcemy uprzedzić

czytelnika nie mającego przygotowania matematycznego, że bez pewnego
zaznajomienia się z podstawowymi metodami dowodzenia stosowanymi
w matematyce, zużyje on sporo czasu dla zrozumienia pewnych fragmen-
tów przytaczanych tu dowodów. Natomiast same twierdzenia i objaśnienia
ich znaczenia nie będą wymagały podbudowy matematycznej.
Taka prostota została osiągnięta za cenę ograniczenia ogólności po-
dejścia do przedmiotu. Rozważane bowiem będą tu tylko źródła wiado-
mości o skończonej liczbie elementów i skończonej pamięci. Spośród
kanałów informacyjnych rozważać będziemy tylko kanały o pamięci
zerowej i o skończonej liczbie dopuszczalnych postaci sygnałów wejścio-
wych i wyjściowych. Takie ograniczenia pozwolą nam przedstawić wszystkie
najważniejsze problemy teorii informacji. Jednakże ceną, jaką trzeba było
zapłacić za takie ograniczenia, jest elegancja matematyczna wykładu. Tym
spośród czytelników, dla których jest ona istotna, wskazujemy przeto
prosty sposób dokonania odpowiednich uogólnień, mianowicie: można
ich dokonać przez przeniesienie przedstawionych tu dowodów do pól
borelowskich.
Materiał zawarty w tej książce przeszedł próby wykładów zarówno
dla uniwersyteckiej jak i przemysłowej grupy słuchaczy. Materiał ten można
z powodzeniem wyłożyć w ciągu jednego semestru studentom specjalizu-
jącym się w dziedzinie elektroniki, badań operacyjnych lub maszyn mate-
matycznych. Studentom o lepszym przygotowaniu matematycznym lub
specjalnie zainteresowanym przedmiotem zalecam bardziej zaawansowane
problemy przedstawione w uwagach na końcu każdego rozdziału. Uwagi
te są pomyślane jako sugestie szeregu interesujących tematów badaw-
czych z dziedziny teorii informacji. Na końcu każdego rozdziału podane
są również zadania. Do rozwiązania zadań oznaczonych gwiazdką wyma-
gane jest stosowanie rachunku różniczkowego i całkowego.
Norman Abramson
WYKAZ OZNACZEŃ I POSTACI ENTROPII
W. 1. Schematy
«i Xl
Si Xl
Źródło
wiadomości X Si~*-X{ = to,, Xiv . . . , xtj)
», I X,
Zbiór Zbiór Ciąg kodowy
wiadomości sygnałów
Kodowanie wiadomości
01 61
02 Kanał
¿2
informacyjny B
ar b.
Zbiór elementarnych Zbiór elementarnych
sygnałów wejściowych sygnałów wyjściowych
Kanał informacyjny
W. 2. Podstawowe oznaczenia
S zbiór wiadomości
s( wiadomość elementarna ze zbioru wiadomości S
q liczba wiadomości elementarnych w zbiorze S
S" n-krotne rozszerzenie zbioru S
<r( wiadomość (elementarna) ze zbioru n-krotnie rozszerzonego S"
S źródło stowarzyszone ze źródłem S
Pt prawdopodobieństwo wiadomości elementarnej st
X zbiór sygnałów elementarnych, z których zbudowane są ciągi kodowe
x, sygnał elementarny ze zbioru X
8 Wykaz oznaczeń i postaci entropii
r liczba sygnałów elementarnych w zbiorze X (także liczba sygnałów elementar-

nych pojawiających się na wejściu kanału)
X\ ciąg kodowy (ciąg sygnałów elementarnych x{) odpowiadający wiadomości s{
/ ( liczba sygnałów elementarnych użytych w ciągu kodowym Xt odpowiadającym
wiadomości elementarnej st
A, liczba sygnałów elementarnych użytych w ciągu kodowym odpowiadającym
wiadomości <x,
L średnia długość ciągu kodowego dla wiadomości ze zbioru S
Ln średnia długość ciągu kodowego dla wiadomości ze zbioru S"
A zbiór elementarnych sygnałów wejściowych (na wejściu kanału)

o, sygnał elementarny ze zbioru A
r liczba sygnałów elementarnych pojawiających się na wejściu kanału (także
liczba sygnałów elementarnych, z których zbudowane są ciągi kodowe)
A" n-krotne rozszerzenie zbioru elementarnych sygnałów wejściowych
af ciąg ze zbioru A"
B zbiór elementarnych sygnałów wyjściowych (na wyjściu kanału)

bj sygnał elementarny ze zbioru B
s liczba sygnałów elementarnych pojawiających się na wyjściu kanału
B" n-krotne rozszerzenie zbioru elementarnych sygnałów wyjściowych
pj ciąg ze zbioru B"
m oznaczenie rzędu źródła ciągów Markowa

Pu element macierzy opisującej kanał; prawdopodobieństwo, że odebrane zosta-
nie bj, gdy zostało nadane o,
p prawdopodobieństwo błędu w KBS (p = l— p)
PE prawdopodobieństwo błędu
C przepustowość kanału
M ilość wiadomości
R zawartość informacji
D odległość Hamminga
d(bj) reguła decyzyjna
W. 3. Postacie entropii
1
/(*,)=log ilość informacji dostarczana przez wiado-
P(»i) mość st (źródło bezpamięciowe)
/(s,|sj) = log ilość informacji dostarczana przez wiado-

P(f«lij) mość jeżeli poprzednio odebrana była
wiadomość sj (źródło ciągów Markowa
pierwszego rzędu)
9 Wykaz oznaczeń i postaci entropii
entropia bezpamięciowego źródła S

P(».)
1
/ / ( 5 | J J ) = ¿ P t i i W log entropia warunkowa w przypadku źródła
1=1 ciągów Markowa pierwszego rzędu
1
« ( 5 ) = £ p ( * , , * , ) log entropia źródła ciągów Markowa pierwsze-
s go rzędu
H(S)
entropia mierzona w jednostkach r-nar-
log r
nych
//(a>)=colog — + ( 1 — to)log —i— funkcja entropii (rys. 2.3)

CO 1 —w
1
/ / ( / ! ) = £ P(a)log entropia zbioru wejściowego (entropia
PW a priori)
1
warunkowa entropia A (entropia a poste-
A riori)
1
H(A\B)— £ P ( a , 6)log średnia entropia warunkowa
A. B P(fl|"«
1 entropia łączna A i B
H(A, ß)=£P(a,6)log
P (a,b)
I(A; B) = H(A)-H(A\B) ilość informacji
P(6|a) warunkowa ilość informacji

/(«; 5) = £ p ( 6 | a ) l o g
P(b)
H(A, B\C)= £ P(a, b, ć) log entropia warunkowa A i B przy ustalo-

P ( o , b\c) nym c
H(A\B, C)— Y P ( a , b, c)log entropia A przy ustalonych B i C

A^b.C P(fl|ó,c)
/(A; B\C)=H(A\C)—H(A\B, C) ilość informacji, jaką A dostarcza B przy
ustalonym C
1(A\ B; C) = I(A ; B)-1(A ; B\C) wzajemna informacja A, ~B i C
1. WSTĘP
1.1 Czym nie jest teoria informacji
Teoria informacji jako nazwa dla oznaczenia dyscypliny naukowej jest

wybitnie pociągająca; kiedy jednak odnieść tę nazwę do przedmiotu tej
książki, okazuje się ona nieco myląca. Początki teorii informacji datują
się od publikacji Claude E. Shannona w Bell System Technical Journal
w 1948 roku (Shannon, 1948) (Ł). Shannon, zdając sobie być może sprawę
z mogącego wprowadzić w błąd sensu słowa „informacja", nadał swej
pracy tytuł Matematyczna teoria telekomunikacji. Używając słowa „infor-
macja" w potocznym znaczeniu, można powiedzieć, że praca Shannona
dotyczy raczej przekazywania przenoszących informację sygnałów, nie zaś
informacji jako takiej. Praca ta dotyczy raczej telekomunikacji i środków
telekomunikacji niż trudno uchwytnego rezultatu końcowego telekomuni-
kacji, jakim jest informacja.
Rozróżnienie, jakie chcemy tutaj wprowadzić, jest bardzo ważne.
Poczynając od rozdziału 2, określimy szereg podstawowych własności,
jakie powinny posiadać sygnały służące przekazywaniu informacji. Będziemy
wskazywali, że sygnały muszą spełniać pewne warunki, jeżeli mają być
zdolne do przenoszenia informacji; będziemy wiązać własności sygnałów
z ilością informacji, jaką te sygnały mogą przenieść. Jednakże o tym, czy
rozważany sygnał istotnie przenosi informację, będą na ogół decydować
czynniki nie mieszczące się w zasięgu naszej teorii. Na przykład zdanie:
„le soleil brille" ( 2 ) dostarczy informacji tylko niektórym spośród czytel-
ników tej książki. Wspólny język ułatwia przekazywanie informacji. Zna-
cznie mniej oczywiste jest oddziaływanie na informację czynników psy-
(') Wykaz cytowanej literatury znajduje się na końcu książki.

( 2 ) Po francusku „słońce świeci" (przyp. tłum.).
12 3.1. Wstęp 12
chologicznych. Nie jest wykluczone, że zdanie „słońce świeci" może spowo-

dować więcej niż tylko meteorologiczne implikacje, jeżeli będzie słyszane
przez psychopatę. Czynniki semantyczne mogą powodować, że ten sam
zbiór słów mieć będzie różne znaczenie dla różnych słuchaczy. Shannon
(1948) skomentował to następująco: „Semantyczna strona telekomuni-
kacji jest bez znaczenia dla problemów technicznych". Weaver (1949)
stwierdził jednakże, iż odwrócenie tej tezy niekoniecznie jest prawdziwe —
techniczne aspekty telekomunikacji mogą się wiązać z aspektami seman-
tycznymi, psychologicznymi i lingwinistycznymi. W paragrafie 2.8 zilustru-
jemy zastosowanie wykładanej w tej książce teorii do lingwistyki. Jednakże
oprócz tego paragrafu i pewnych uwag na końcu każdego z rozdziałów,
nie będziemy się zajmowali wysoce wyspecjalizowanymi problemami
związanymi z zastosowaniami teorii informacji w innych dziedzinach.
Zajmiemy się centralnymi koncepcjami teorii informacji, kładąc szcze-
gólny nacisk na pojęcie miary ilości informacji i jego interpretację. Czy-
telnik być może zechce przeanalizować w sposób bardziej szczegółowy
możliwości zastosowań teorii informacji w wielu innych dziedzinach.
Możliwości takie są niemal nieograniczone. Materiał rozważany w tej
książce może być w szczególności odniesiony do informacji dostarczonej
przez doświadczenia przypadkowe (Lindley, 1956; Kullback, J 959; Gretten-
berg, 1962). Przekonamy się tu, że koncepcja entropii będąca główną
koncepcją teorii informacji, w tym sensie w jakim się ją tutaj pojmuje,
jest co najmniej formalnie równoważna entropii w sensie termodynamiki
(Brillouin, 1956; Jaynes, 1959). Przedmiotem badań były również zastoso-
wania teorii informacji do psychologii (Quastler, 1956), sztuki (Pierce,.
1961 str. 250-267) i semantyki (Bar-Hillel i Carnap, 1952) a nawet teologii
(Elias, 1958).
1.2. Czym jest teoria informacji
Pierwszym krokiem w naszych rozważaniach nad informacją będzie

zdefiniowanie miary ilości informacji i badanie własności tej miary. Włas-
ności, które określimy, nadadzą sens naszej mierze i pomogą nam po-
wiązać teorię matematyczną z motywującym tę teorią modelem fizycznym.
Należy jednakże mocno podkreślić, że uzasadnienie naszej definicji miary
1.2. Czym jest teoria informacji 13
ilości informacji nie może być uzyskane w oparciu o związki mieszczące

się całkowicie w ramach tej definicji. Jest rzeczą oczywistą, że można tak
ustalić granice teorii informacji, że będzie to teoria konsekwentna sama
w sobie i całkowicie racjonalna. Jednakże takie granice, bez dalszego ich
uzasadnienia będą określały dyscyplinę jedynie matematyczną. Uzasad-
nienie teorii może być dokonane tylko poprzez wykazanie związków wiel-
kości, które mieszczą się w ramach przez nas określonych, z wielkościami
leżącymi całkowicie poza tymi ramami. Tak więc najpierw wprowadzimy
definicję miary ilości informacji i szereg wypływających z niej związków,
które same w sobie są całkowicie racjonalne. Definicja miary ilości infor-
macji nie będzie jednakże uzasadniona przez wewnętrzną zgodność tych
związków, ale poprzez dowód, że związki te dotyczą też wielkości nie
objętych ramami teorii informacji. Aby podkreślić potrzebę analizowania
tego, w jakim stopniu nasz model matematyczny odpowiada pojęciom
fizycznym, wykorzystamy niniejszy rozdział wstępny dla postawienia kilku
ważnych problemów, które mogą być sformułowane w sposób całkowicie
niezależny od dowolnej szczególnej miary ilości informacji. W rozdziałach
2, 3 i 4, zobaczmy, jak nasza definicja miary ilości informacji nadaje iloś-
ciowy i matematycznie rozsądny wyraz odpowiedziom na problemy, które
w dalszym ciągu tego rozdziału postawimy.
1.3. Kodowanie wiadomości
W celu wprowadzenia podstawowych pojęć teorii informacji, rozpatrzy-

my kilka przykładów przekazywania wiadomości. Na początku ograni-
czymy się do rozważania szczególnie prostego, ale ważnego typu wiado-
mości — wiadomości binarnych. Przykłady takich wiadomości łatwo przy-
toczyć. Wiadomości zarejestrowane na kartach perforowanych (w maszy-
nach analitycznych - przyp. tłum.), wiadomości przesyłane w binarnych
systemach telegraficznych, wiadomości zarejestrowane w dwustanowych
elementach elektronicznych maszyn liczących — oto tylko kilka przy-
kładów. Ograniczając nasze rozważania w tym rozdziale do wiadomości
tego typu poważnie uprościmy problemy, którymi chcemy się tu zająć.
Jest rzeczą godną podkreślenia, że wbrew powszechnemu mniemaniu
przedstawienie wiadomości w formie binarnej nie jest bynajmniej czymś
14 3.1. Wstęp 14
nowym, lecz było znane już bardzo dawno. Istotnie, wczesnym przykładem
podkreślenia wagi takiego formułowania wiadomości jest następujący
cytat z Ewangelii Mateusza, rozdział 5 wiersz 37: „Mowa wasza niech
będzie: tak-tak, nie-nie. A co ponadto jest, ode złego jest". Taki punkt
widzenia może być nieco skrajny, dlatego w naszych rozważaniach nad
teorią informacji, poczynając już od rozdziału 2, będziemy operowali za-
równo wiadomościami binarnymi jak i niebinarnymi.
Prosty przykład przedstawienia wiadomości niebinarnych za pomocą
cyfr binarnych 0 i 1 podany jest w tablicy 1.1.
TABLICA 1.1. Kodowanie binarne cyfr dziesiętnych
Cyfra Odpowiednia
dziesiętna liczba binarna
0 0000
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
Zasada przyporządkowania cyfrom dziesiętnym ciągów cyfr binarnych

zilustrowana w tablicy 1.1 jest prostym przykładem kodu, ciągi binarne
podane w tej tablicy — przykładami ciągów kodowych, a dziesięć cyfr
dziesiętnych, którym te ciągi są przyporządkowane — przykładami wiado-
mości elementarnych i 1 ). Posługując się kodem przedstawionym w tablicy 1.1
(') Ciągami kodowymi nazywamy sygnały przyporządkowane wiadomościom,

mające strukturę ciągów zbudowanych z sygnałów elementarnych, które mogą przyj-
mować niewielką ilość postaci. Zbiór takich ciągów oraz zasadę przyporządkowania
ich wiadomościom nazywamy kodem, operację takiego przyporządkowania — kodo-
waniem, system telekomunikacyjny, w którym stosowane jest kodowanie wiadomości,
nazywamy systemem kodowym. Wiadomości przesyłane w systemach kodowych mają
na ogół postać ciągów zbudowanych z wiadomości przyjmujących niewielką ilość
postaci, nazywanych wiadomościami elementarnymi. Pojęcia, o których tu mowa,
będą szczegółowo omówione w dalszych rozdziałach (przyp. tłum.).
1.3. Kodowanie wiadomości 15
możemy oczywiście zakodować za pomocą cyfr binarnych dowolną wiado-

m®ść będącą ciągiem cyfr dziesiętnych (tzn. dowolny ciąg wiadomości
elementarnych). Na odwrót: od ciągu cyfr binarnych tworzących ciąg ko-
dowy takiego kodu możemy jednoznacznie powrócić do ciągu cyfr dzie-
siętnych tworzących wiadomość.
Przejście od ciągu binarnych ciągów kodowych do odpowiadających
im wiadomości elementarnych nie zawsze jest bezpośrednie. Na przykład:
rozważmy kod, opisany w tablicy 1.2.
TABLICA 1.2. Przykład kodu binarnego
Wiadomości
Ciągi kodowe
elementarne
ii 0
Sz 01
s3 001
St 111
Na podstawie ciągu ciągów kodowych utworzonego według tego kodu

możemy nie być w stanie jednoznacznie odtworzyć ciągu wiadomości
elementarnych. Na przykład ciąg.
(1.1) 111001
możemy odtworzyć jako
(1.2) s4s3
lub jako
(1.3) s4sxs2.
W tym miejscu czytelnik może zauważyć, że użycie myślnika lub prze-

cinka, czy zastosowanie odstępu jest wystarczającym środkiem dla poko-
nania tej trudności. Tak jest istotnie; użycie przecinka lub odstępu pozo-
staje jednakże w sprzeczności z naszymi założeniami o kodzie binarnym.
Zastosowanie przecinka dla rozdzielenia ciągów kodowych jest równo-
ważne ze stosowaniem ciągów kodowych zbudowanych z trzech sygnałów
elementarnych: zera, jedynki i przecinka.
Łatwo znaleźć kod, którego stosowanie nie pociąga takich trudności
ak w przypadku kodu opisanego w tablicy 1.2. Jeżeli dany jest ciąg ciągów
16 3.1. Wstęp 16
kodowych utworzonych wedhig kodu opisanego w tablicy 1.3, możemy

na jego podstawie określić w sposób jednoznaczny ciąg odpowiadających
mu wiadomości elementarnych.
W rozdziale tym zajmować się będziemy tylko takimi kodami.
TABLICA 1.3. Przykład kodu binarnego
Wiadomości
Ciągi kodowe
elementarne
ii 0
Sl 10
s3 110
J* 1110
1.4. Problem przesyłania wiadomości
Dla zilustrowania podstawowych zasad kodowania i ich powiązania

z pojęciem ilości informacji, rozważmy następujący problem. Istnieje po-
trzeba skonstruowania systemu telekomunikacyjnego łączącego San Fran-
cisco i Nowy Jork. System ten ma służyć do przekazywania stanu pogody
w San Francisco w określonych momentach czasu. Wymaga się, aby w syste-
mie tym były stosowane tylko urządzenia dwustanowe (binarne). Dla
uproszczenia zadania określenie stanu pogody w San Francisco sprowadza
się do stwierdzenia jednego z czterech możliwych stanów: słonecznie,
chmurnie, deszczowo lub mglisto. Te cztery możliwe stany traktować
będziemy jako cztery różne wiadomości, tak jak to jest pokazane w tablicy
1.4. W tablicy tej określone są także prawdopodobieństwa wystąpienia
tych stanów; przyjmujemy, że są one równoprawdopodobne. Jedną z możli-
TABLICA 1.4. Charakterystyka stanu pogody

w San Francisco
Wiadomości Prawdopodobieństwa
Słonecznie i
Chmurnie i
Deszczowo i
Mglisto i
1.4. Problem przesyłania wiadomości 17
wych metod kodowania tych wiadomości w ciągi sygnałów binarnych

jest zastosowanie następującej zasady przyporządkowania ich wiadomościom
zasady, którą nazywać będziemy kodem si.
kod sś
słonecznie 00
chmurnie 01
deszczowo 10
mglisto 11
Tak więc zakodowany za pomocą kodu sć ciąg wiadomości „słonecznie,

mglisto, mglisto, chmurnie" będzie miał postać ciągu binarnego „00111101".
Jest rzeczą oczywistą, że kod s/ jest kodem możliwym do przyjęcia,
a to dlatego, że na podstawie danego ciągu ciągów kodowych możemy
jednoznacznie odtworzyć ciąg wiadomości, któremu odpowiada ten szcze-
gólny ciąg ciągów kodowych.
Jest również oczywiste, że stosowanie kodu sś wymaga dwóch symboli
binarnych (binitów) (') dla przesłania pojedynczej wiadomości. Zresztą
czytelnik może się łatwo przekonać, że nie da się zbudować kodu, za
pomocą którego można by przekazać każdą z wymienionych wiadomości
przy użyciu mniej niż dwóch symboli.
Rozważmy teraz problem konstruowania podobnego binarnego systemu
telekomunikacyjnego do przekazywania stanu pogody z Los Angeles do
Nowego Jorku. Ze względu na istotne meteorologiczne różnice pomiędzy
pogodą w San Francisco i Los Angeles, w miejsce rozważanych dotych-
czas czterech stanów pogody, dla określenia stanu pogody w Los An-
geles wprowadzimy następujące stany: słonecznie, chmurnie, deszczowo
lub zadymienie. I chociaż różnica pomiędzy zadymieniem przemysłowym
O Począwszy od tego miejsca będziemy używali skrótu „binit" (skrót słów

angielskich binarny digit — przyp. tłum.) dla określenia elementarnego sygnału bi-
narnego. Jest rzeczą ważną rozróżnienie określeń binit i bit (jednostka ilości infor-
macji, którą zdefiniujemy w rozdz. 2). Jak pokażemy, binit może dostarczać jeden
bit informacji.
Nazywanie sygnału binarnego bitem — jak to czynią niektórzy autorzy — jest
błędem, który prowadzi do poważnych nieporozumień (przyp. tłum.).
2 Teoria informacji
18 3.1. Wstęp 18
i mgłą nie jest bez znaczenia dla mieszkańców każdego z tych miast, nie
stanowi ona istotnego czynnika przy projektowaniu systemu telekomuni-
kacyjnego. Odkąd cztery stany pogody zostały zakodowane pod postacią
ciągów binarnych, sens lub znaczenie określonego ciągu staje się nieistotne
z telekomunikacyjnego punktu widzenia.
Jednakże może tu wystąpić inna różnica meteorologiczna, która nie
jest bez znaczenia dla projektanta systemu telekomunikacyjnego. Biorąc
pod uwagę klimat Los Angeles, musimy uwzględnić różne prawdopodo-
bieństwa czterech występujących tam stanów pogody. Ilustruje to tablica 1.5.
TABLICA 1.5. Charakterystyka stanu pogody w Los
Angeles
Wiadomości Prawdopodobieństwa
Słonecznie i
Chmurnie ł
Deszczowo ł
Zadymienie i
Jeżeli do przekazywania wiadomości z Los Angeles użyjemy kodu

będzie to rozwiązanie równie dobre, ale nie lepsze, niż w przypadku systemu
telekomunikacyjnego transmitującego wiadomości z San Francisco. To
znaczy, jeżeli użyjemy kodu będziemy wykorzystywali 2 binity dla
przekazania pojedynczej wiadomości, niezależnie od stanu pogody, który
ona określa. Rozważmy jednak możliwość zastosowania do przekazywa-
nia wiadomości następującego kodu, nazywanego dalej kodem 38.
kod 38
słonecznie 10
chmurnie 110
(1.5)
deszczowo 1110
zadymienie 0
Stosując kod 38 do przekazania wiadomości „słonecznie, zadymienie,
zadymienie, chmurnie" przesłalibyśmy poprzez system telekomunikacyjny
„1000110".
I znowu, każdy ciąg binarny zbudowany według opisanego kodu może

być jednoznacznie dekodowany (') w odpowiadający mu ciąg wiadomości.
Dzieje się tak dlatego, że każdy ciąg binarny odpowiadający elementarnej
wiadomości kończy się sygnałem elementarnym 0; tak więc 0 może być
tutaj traktowane jako sygnał kończący ciągi kodowe. Średnią długość
ciągu kodowego (w binitach), przy stosowaniu kodu Si, możemy obliczyć
w sposób następujący ( 2 ):
L = 2 P (słonecznie)+3P (chmurnie)+4P (deszczowo)+ 1P (zadymienie) =
-2-ł+3-ł+4-ł+l-i-
= l-sbinita na wiadomość elementarną.
Tak więc dla systemu telekomunikacyjnego łączącego Los Angeles
z Nowym Yorkiem znaleźliśmy metodę przekazywania wiadomości o stanie
pogody, która wymaga średnio tylko binita na wiadomość, zamiast —
— jak poprzednio — 2 binity na wiadomość. Czytelnik łatwo może spraw-
dzić, że jeżeli użylibyśmy kodu 89 dla przekazywania stanu pogody w San
Francisco (tablica 1.4), pociągnęłoby to konieczność użycia L-2\ binita
na wiadomość. Pokazaliśmy więc, że można przekazywać tego samego
typu wiadomości z Los Angeles przy użyciu średnio o około 6 procent
mniejszej liczby binitów na wiadomość. Takie zmniejszenie liczby użytych
dla przekazania wiadomości sygnałów binarnych jest z praktycznego
punktu widzenia poważnym zyskiem. Ponadto dodać należy, że zysk ten
może być osiągnięty po prostu przez użycie stosownych oznaczeń dla
nadawanych wiadomości.
1.5. Sformułowanie niektórych problemów
Przykład podany w poprzednim paragrafie uzmysławia nam szereg

problemów o podstawowym znaczeniu. Przede wszystkim osiągnięcie tak
prostymi środkami 6-procentowego zysku zachęca do dalszych badań.
Powstaje pytanie: Czy można osiągnąć dodatkową poprawę tego rodzaju
przez oznaczenie wiadomości w sposób bardziej racjonalny? Jeżeli dalsza
poprawa jest możliwa (w tym szczególnym przykładzie to zachodzi), jak
(') Dekodowaniem nazywa się operację przyporządkowywania ciągom kodowym

odpowiadających im wiadomości (przyp. tłum.)*
( 2 ) Symbol P oznacza prawdopodobieństwo (przyp. tłum.).
20 3.1. Wstęp 20
daleko sięgają nasze możliwości? Inaczej mówiąc, jaka jest minimalna

liczba binitów na wiadomość, którą trzeba użyć dla przekazania tej wia-
domości o stanie pogody? Skoro już określimy minimalną wartość L,
aktualny się stanie' problem konstrukcji kodu, który pozwala osiągnąć
tę minimilną wartość. Jakie są praktyczne metody syntezy takich kodów?
Ostatnim z pytań, które nasuwa nam ten prosty przykład, jest pytanie
„dlaczego?". Jakie są różnice w opisanej sytuacji w Los Angeles i San
Francisco — dopuszczające stosowanie mniejszej liczby binitów dla prze-
kazania stanu pogody w Los Angeles? Ostatnie pytanie jest z pewnością
najbardziej fundamentalne. Innymi słowy pytanie to można wyrazić na-
stępująco: „Co jest istotą informacji?". Fakt, że potrzebujemy mniejszej
liczby binitów dla opisania stanu pogody w Los Angeles, w pewnym sensie
implikuje, że informator dostarczający danych o stanie pogody w Los
Angeles dostarcza mniej informacji niż informator z San Francisco. Jak
się przekonamy, pojawiające się tu ważne pojęcie jakim jest ilość infor-
macji może być sprecyzowane poprzez wprowadzenie odpowiedniej defi-
nicji miary ilości informicji dostarczanej przez wiadomość. Z przykładu
podanego w paragrafie 1.4 wynika w sposób oczywisty, że definicja takiej
miary może być związana z prawdopodobieństwem pojawienia się róż-
nych wiadomości.
W następnych trzech rozdziałach uzyskamy odpowiedź na te pytania,
definiując miarę ilości informacji dostarczonej przez wiadomość w oparciu
0 prawdopodobieństwo wiadomości. W szczególności: 1) określimy mini-
malną wartość średniej liczby binitów na wiadomość, którą musimy użyć
do jej przekazania; 2) określimy metody konstrukcji kodów, które pozwolą
nam osiągnąć to minimum i wreszcie 3) przedyskutujemy istotę samej
informacji.
UWAGI
1. Przystępne matematyczne ujęcie teorii informacji czytelnik może znaleźć

w artykule przeglądowym McMillana (1953). McMillan przytacza również zabawny
opis matematycznego punktu widzenia inżynierów specjalistów w dziedzinie tele-
komunikacji na teorię informacji.
1 2. Pewien pogląd na kolosalny zakres teorii informacji (w szerokim sensie) można
uzyskać na podstawie liczącej około czterech tysięcy pozycji bibliografii teorii infor-
macji, sporządzonej przez Stumpersa (1953, 1955, 1957, 1960).
Zadanie 21
ZADANIE
1.1. W paragrafie 1.4 określiliśmy dwa kody, kod s i i kod 2S, które mogą być
stosowane do przekazywania stanu pogody w Los Angeles. Średnia długość ciągu
kodowego w kodzie si wynosiła 2 binity na wiadomość, a w kodzie 36 była równa
binita na wiadomość. W rozdziale 4 pokażemy, że najmniejsza możliwa średnia
długość ciągu kodowego dla problemu przedstawionego w tablicy 1.5 wynosi l ł binita
na wiadomość. Ponadto pokażemy metodę tworzenia takiego kodu.
Bez zaglądania do rozdziału 4 spróbować własnymi siłami znaleźć kod, który
osiąga tę minimalną wartość średnią. Należy pamiętać, że ciąg ciągów kodowych
w tym kodzie winien być jednoznacznie przyporządkowany wiadomościom.
2. OCENA ILOŚCI INFORMACJI DOSTARCZANEJ
PRZEZ WIADOMOŚCI. ŹRÓDŁA WIADOMOŚCI
2.1. Definicja miary ilości informacji dostarczanej przez wiadomość
W rozdziale 1 sformułowaliśmy szereg podstawowych problemów do-

tyczących istoty informacji. Aby odpowiedzieć na pytania, jakie tam zo-
stały postawione, zdefiniujemy teraz miarę ilości informacji dostarczanej
przez wiadomość i pokażemy, że wprowadzona przez nas miara ma włas-
ności, jakich należy oczekiwać od każdej sensownej miary ilości informacji.
Podkreślić należy jednakże, że ta okoliczność, iż jesteśmy w stanie pokazać,
że nasza definicja jest sensowna i wewnętrznie zgodna, nie stanowi jej
uzasadnienia. Uzasadnimy naszą definicję, odpowiadając na pytania posta-
wione w rozdziale 1, tzn. na pytania, które sformułowaliśmy abstrahując
od jakiejkolwiek definicji ilości informacji — w szczególności od naszej
definicji.
DEFINICJA. Niech E będzie pewnym zdarzeniem, które zachodzi z praw-

dopodobieństwem P(£). Jeżeli zaobserwowaliśmy zdarzenie E, wtedy
mówimy, że odebraliśmy
(2.1)7 J (v £ ) = l o g — -
' P(£)
jednostek informacji.
Wybór podstawy logarytmu w powyższej definicji stanowi o wyborze
jednostki ilości informacji, ponieważ
(2.2) logax=—i—log„x.
log;, a
Jeżeli stosujemy logarytm o podstawie 2, wynikająca stąd jednostka ilości
2.1. Definicja miary ilości informacji dostarczanej przez wiadomość 23 '
informacji nazywana jest bitem (skrót angielskich słów binary unit):
(2.3) J(E)=log * bitów.
Przy zastosowaniu logarytmu naturalnego jednostką ilości informacji jest

nat (natural unit):
(2.3') /(£) = l n — n a t ó w .
W przypadku gdy podstawą logarytmu jest 10, jednostka miary informacji

nazywa się hartley. Nazwa ta pochodzi od nazwiska R. V. Hartleya, który
jako pierwszy zaproponował wprowadzenie logarytmicznej miary informacji
(Hartley, 1928):
(2.3") J(E) = l o g 1 0 - i - hartleyów.

P(£)
Ogólnie, jeżeli podstawą logarytmu jest liczba r, mamy
(2.3"') / ( £ ) = l o g P p ^ jednostek r-narnych.
Ze wzoru (2.2) wynika, że

(2.4) 1 hartley = 3,32 bita,
(2.4') 1 nat = 1,44 bita.

Zauważmy, że jeżeli P ( £ ) = J, to / ( £ ) = 1 bit. Tak więc 1 bit jest ilością
informacji, jaką otrzymujemy, gdy zachodzi jedna z dwóch równoprawdo-
podobnych alternatyw. Podobna sytuacja ma miejsce, gdy obserwuje się
wynik rzutu monetą, bądź sygnał na wyjściu binarnego sytemu telekomuni-
kacyjnego.
Aby zdać sobie sprawę z ilości informacji przesyłanej w nowoczesnych
systemach telekomunikacyjnych, rozważmy jako przykład transmisję obrazu
telewizyjnego. Obraz taki może być przedstawiony jako układ czarnych,
białych i szarych kropek, złożony w przybliżeniu z 500 wierszy i 600 kolumn.
Przyjmiemy, że każda z tych 500 x 600 = 300000 kropek może zajmować
300000
jeden spośród 10 rozróżniał nych poziomów jasności, t a k ż e istnieje io
różnych możliwych obrazów telewizyjnych. Jeżeli każdy z takich obrazów
jest jednakowo prawdopodobny, to prawdopodobieństwo przesłania danego
obrazu wynosi l/lO 3 0 0 0 0 0 , a ilość informacji zawarta w obrazie tego typu
24 2. Ocena ilości informacji dostarczanej przez wiadomości — Źródła wiadomości
wynosi
/ ( £ ) = 300000 log 1 0 » 106 bitów.
Możemy także porównać obliczoną powyżej ilość informacji zawartej
w obrazie telewizyjnym z ilością informacji zawartej w 1000 słów spikera
radiowego. Przyjmijmy, że spiker dysponuje słownikiem o objętości 10000
słów i że wybiera w zupełnie przypadkowy sposób 1000 słów z tego słow-
nika (można znaleźć spikerów radiowych, o których wolno czynić takie
założenia). Wówczas prawdopodobieństwo któregokolwiek ciągu 1000
słów wynosi l/lOOOO1000, a dostarczona w tym ciągu ilość informacji jest
równa
J ( £ ) = 1000 log 10000« 1,3-10 4 bitów.
Zatem obraz (telewizyjny) jest — jak się okazuje — wart 1000 słów (radio-
wych).
2.2. Bezpamięciowe źródło wiadomości
W dalszych rozważaniach potrzebny będzie matematyczny opis mecha-

nizmu wytwarzania wiadomości. W tym punkcie określimy więc model
źródła wiadomości dyskretnej; źródło takie przedstawia schemat 2.1.
Źródło -«¡, «j.
2.1. Źródło wiadomości
Źródło wiadomości będziemy tu traktowali jako obiekt, który z wia-

domości elementarnych, tworzących ustalony i skończony zbiór S= {sj, s2,
...,s q }, wytwarza ciąg wiadomości elementarnych. Kolejne wiadomości
elementarne w tym ciągu wybierane są zgodnie z pewnym ustalonym roz-
kładem prawdopodobieństwa. Niekiedy będziemy oznaczali symbolem S
samo źródło wiadomości, jednak nie powinno to prowadzić do niejasności.
(') W dalszym ciągu logarytm o podstawie 2 z liczby * będziemy oznaczali symbo-

lem log x pomijając dwójkową podstawę logarytmu. Logarytm naturalny z liczby x
będziemy oznaczali symbolem ln x. Wszystkie inne logarytmy będą miały zaznaczoną
podstawę (np. l o g i 0 x).
2.2. Bezpamięciowe źródło wiadomości 25
Jako najprostszy rodzaj źródła wiadomości traktować będziemy źródło,

w przypadku którego kolejno wybierane wiadomości elementarne są sta-
tystycznie niezależne. Takie źródło wiadomości nazywać będziemy źródłem
bezpamięciowym. Jest ono w pełni opisane przez zbiór wiadomości ele-
mentarnych i prawdopodobieństwa pojawiania się tych wiadomości
P(Sl),P(s2),...,P(s4).
Średnią ilość informacji dostarczaną przez źródło bezpamięciowe obli-

czamy następująco: jeżeli pojawia się wiadomość sit to otrzymujemy ilość
informacji równą
/ ( s , ) = l o g — - bitów.
P(Sf)
Prawdopodobieństwo takiego zdarzenia wynosi P(J,), tak więc średnia
ilość informacji przypadająca na wiadomość elementarną wytwarzaną
przez to źródło wynosi
£ P ( S i ) / ( s , ) bitów,
s
gdzie Yj oznacza sumowanie po q wiadomościach elementarnych jakie
s
może wytworzyć źródło S. Wartość średniej ilości informacji przypada-
jącej na wiadomości elementarną wytworzoną przez źródło nazywana jest
entropią H(S) źródła bezpamięciowego ( 1 )
def i
(2.5) H (S) = ę P (s() log — bitów.
PRZYKŁAD 2.1. Rozważmy źródło S= {II, s2, ¿3}, dla którego P(JI) = I oraz
P(i 2 ) = P(j 3 ) = i . Wówczas:
tf(S)=łlog2+ilog4+łlog4=f bita.
Jeżeli /(i,) jest wyrażone w jednostkach r-narnych, również H(S) jest
wyrażone w jednostkach r-narnych. Mamy wówczas:
(2.5') Hr(S) = £ P (s,) log r —— jednostek r-narnych.

S P(SJ)
( 1 ) Związek pomiędzy entropią w teorii informacji i entropią w statystycznej

termodynamice jest dyskutowany w książce Brillouina (1956).
Pochodzenie słowa entropia wyjaśnione zostanie w uwagach na końcu rozdziału
Z równania (2.2) wynika, że
(2.5")
Zauważmy, że na podstawie definicji danej wzorem (2.1) wielkość /(J,)

możemy interpretować jako ilość informacji niezbędną na to, by mieć
pewność, czy pojawiła się wiadomość Wielkość H(S) może być nato-
miast interpretowana jako średnia ilość informacji przypadajaca na wia-
domość elementarną wytwarzaną przez źródło lub jako średnia niepew-
ność obserwatora zanim zaobserwuje on wyjście źródła. Obie te inter-
pretacje będziemy wykorzystywali w dalszej części książki. Najpierw jednak
przedstawimy niektóre podstawowe własności entropii źródła.
2.3. Niektóre własności entropii
Aby określić niektóre własności entropii musimy się posłużyć własnościa-

mi funkcji logarytmicznej. Przebieg funkcji ln x przedstawiony jest na
rysunku 2.2. Na rysunku tym pokazana jest także linia prosta, której
równaniem jest y=x— 1.
Vu
3 -
-3
2.2. Wykresy funkcji In* oraz x—1

2. 3. Niektóre własności entropii 27
Łatwo stwierdzimy, że linia 1 leży zawsze powyżej krzywej

Stąd wynika słaba nierówności 1 )
(2.6) lnx^x —1
przechodząca w równość wtedy i tylko wtedy, gdy JC*=1. Mnożąc relację
(2.6) przez —1 otrzymujemy następującą słabą nierówność
(2.7) ln—>l-x,
x
która równością staje się wtedy i tylko wtedy, gdy x=l. Nierówność (2.6)
posłuży nam do wyprowadzenia następującej dalej zależności.
Niech x i t x 2 , . . . , x ą i y i , y 2 , •••»J, będą dwoma dowolnymi zbiorami
prawdopodobieństw. Z tego założenia wynikają następujące zależności:
y^0 dla wszystkich i oraz j
oraz
9 1
Z Xl- Z yj=1.
¡=1 1
Na tej podstawie, korzystając ze wzoru (2.2), możemy napisać równość
1
v£ * , 1l o g y'- « — vZ x , l1n y'—
¡=i xt lnZi=i Xj
a po zastosowaniu nierówności (2.6) do każdego ze składników sumy po

prawej stronie znaku równości otrzymujemy
(2.8) t t x/—
1-1 xi ln2 ¡=1 \Xt )
Z y,- Z x()<0
ln/ ¡=i ¡=1
lub
(2.8') £ x , l o g — < Z *|log — ,

¡=1 Xi ¡=1 yf
przy czym równość zachodzi wtedy i tylko wtedy, gdy x t = y / dla każdego /.
(') Słabą nierównością nazywamy relację < (przyp. tłum.).

Jak już wyżej podkreślaliśmy, jedna z możliwych interpretacji entropii

źródła polega na tym, że traktujemy tę wielkość jako średnią ilość infor-
macji przypadającą na pojedynczą wiadomość wytwarzaną przez to źródło.
Dlatego naturalnym się wydaje, aby zbadać zależność entropii od prawdo-
podobieństw różnych wiadomości wytwarzanych przez źródło. W szcze-
gólności chcielibyśmy poznać, jaką ilość informacji może nam dostarczyć
źródło bezpamięciowe.
Niech źródło bezpamięciowe, którego wyjście przyjmuje jedną z q
możliwych postaci, będzie opisane przez zbiór wiadomości S = {i(}, / =
= 1 , 2 , . . . , q . Prawdopodobieństwa tych wiadomości oznaczymy odpo-
wiednio przez P(st)=Pt, / = 1, 2, ..., ą. Entropia H(S) dana jest wtedy
wzorem
(2.9) H(S)= f P.log^-.

¡=1 P,
Rozważmy wielkość
(2.10) l o g q - H ( S ) = t Pilogq- £ P,log^ =

¡=1 >=1 f;
= £ PilogqP^loge.t P^nqP,.
i=l i=l
Ostatnią równość we wzorze (2.10) otrzymuje się wykorzystując zależność

(2.2). Jeżeli teraz podstawimy nierówność daną wzorem (2.7) do wzoru
(2.10), otrzymamy
(2.11) logq-H(S)>loge £
q
/ i 1 P\
>\ogel £ P, I ~!b0.
V ¡=1 q i= 1 PJ
Entropia H(S) jest więc zawsze mniejsza lub równa log q.
Należy przy tym podkreślić, że — jak wynika ze wzoru (2.7) — słaba
nierówność, którą tutaj wyprowadziliśmy, staje się ścisłą równością wtedy
i tylko wtedy, gdy P f = l/<7 dla wszystkich i. Tak więc wykazaliśmy, że
w przypadku bezpamięciowego źródła wiadomości o zbiorze zawierają-
cym q elementów maksymalna wartość entropii jest równa log q, przy czym
maksimum entropii występuje wtedy i tylko wtedy, gdy wszystkie wiadomości
wytwarzane przez źródło są równoprawdopodobne.
2. 3. Niektóre własności entropii 29
Szczególnie ważnym przykładem źródła bezpamięciowego jest bezpa-

mięciowe źródło binarne. Zbiór elementów takiego źródła S ma postać
{0, 1}. Przyjmijmy, że prawdopodobieństwo wiadomości 0 jest równe co,
wówczas prawdopodobieństwo wiadomości 1 jest równe 1 — tu. Oznaczmy
¿3 = 1— co. Korzystając ze wzoru (2.5) znajdujemy, że entropia takiego
źródła wynosi
r !
'i] _ l
(2.12) H(S)=co\og — + colog— [bitów].
V OJ (y
Funkcja zmiennej co dana we wzorze (2.12) pojawia się często w proble-

mach teorii informacji. Dlatego też wygodnie jest oznaczyć ją specjalnym
symbolem:
def
1 _ 1
(2.13) H(co) = o)log— + w l o g — .
Pi l<°
Określoną w ten sposób funkcję zmiennej co nazywać będziemy funkcją
entropii. Zwróćmy uwagę na różnicę pomiędzy wzorami (2.12) i (2.13).
H{S) określa entropię konkretnego źródła S, a H(co) jest funkcją zmiennej co
określoną na <0, 1>. Sens symbolu H{-) zależy więc od jego argumentu.
Podkreślić należy również, że zachodzi równość
lim co log co = 0 ,
co-»o
dlatego też definiujemy
01og0 = 0 .
Przebieg funkcji H(co) dla co zawartych w przedziale <0, 1) pokazany

jest na rysunku 2.3. Zauważmy, że jeżeli wyjście źródła binarnego jest
określone (co=0, albo co= 1), wtedy źródło to nie dostarcza żadnej infor-
macji. Maksymalna ilośe wiadomości dostarczana przez każdą z wiado-
mości wytwarzanych przez źródło binarne wynosi log 2 lub, inaczej mówiąc,
1 bit; ma to miejsce wtedy i tylko wtedy, gdy wiadomości 0 i 1 są równo-
prawdopodobne.
Wyjścia źródła binarnego są cyframi binarnymi lub - jak je poprzed-
nio nazywaliśmy — binitami. Widzimy więc, że ciąg binitów wytwarza-
nych przez bezpamięciowe źródło binarne o równoprawdopodobnych
wyjściach 1 i 0 będzie dostarczał 1 bit informacji na binit. Jeżeli wyjścia
1 i 0 nie są równoprawdopodobne, wtedy ilość informacji dostarczana
2.3. Funkcja entropii H(co)
przez dany binit będzie mniejsza lub większa od jednego bita, zależnie
od tego, jakie są prawdopodobieństwa tych wyjść (por. wzór (2.1)). Jednakże
średnia ilość informacji dostarczana z takiego źródła binarnego przez
dany binit będzie zawsze mniejsza lub równa 1 bit na binit (rys. 2.3).
Należy także podkreślić, że maksymalna ilość informacji dostarczanej
przez bezpamięciowe źródło informacji o q różnych wyjściach rośnie wolno
wraz ze wzrostem q. Wynika to stąd, że maksymalna ilość informacji
dostarczana przez takie źródło rośnie tylko jak logarytm liczby różnych
jego wyjść i dlatego aby podwoić maksymalną ilość informacji przypa-
dającą na pojedynczą wiadomość wytwarzaną przez źródło, w stosunku
do źródła o q różnych wyjściach, należy użyć źródła o q2 różnych wyjś-
ciach.
2.4. Rozszerzenie źródła bezpamięciowego 31
2.4. Rozszerzenie źródła bezpamięciowego

Przy rozważaniu własności źródeł wiadomości i kanałów informacyj-
nych, jakie prowadzić będziemy w następnych rozdziałach, przekonamy
się wielokrotnie, że wygodniej jest zajmować się ciągami wiadomości niż
elementarnymi wiadomościami wytwarzanymi przez źródło. Na przykład
w przypadku rozważanego poprzednio źródła binarnego jako elementarne
wyjścia źródła możemy traktować ciągi, z których każdy złożony jest
z dwóch binitów. Źródło binarne traktowane w ten sposób jest oczywiście
równoważne źródłu z czterema możliwymi wyjściami: 00, 01, 10 i 11. Myśl
tę można rozwijać. Jeżeli potraktujemy oryginalne źródło binarne jako
źródło wytwarzające ciągi binitów, po trzy binity w każdym ciągu, źródłu
takiemu odpowiadać będzie 8 możliwych wyjściowych trzyelementowych
ciągów binarnych; binarne źródło wiadomości, traktowane w ten sposób,
staje się więc równoważne źródłu o zbiorze ośmioelementowym.
Ogólnie rzecz biorąc, jeżeli dane jest źródło, którego zbiór elementów 5
ma postać { j u s2, ..., i,}, jako wyjście źródła S możemy traktować ciąg n
wyjść elementarnych wziętych łącznie. Mamy wówczas qn takich ciągów
wyjściowych. Sformalizujemy to postępowanie w następującej definicji.
DEFINICJA. Niech S będzie bezpamięciowym źródłem wiadomości
o zbiorze { J i , s 2 , oraz niech prawdopodobieństwo wiadomości st
będzie równe i5,-.
n-krotnym rozszerzeniem S" O źródła S nazywać będziemy bezpamię-
ciowe źródło wiadomości o zbiorze zawierającym q" elementów {<T, , a2,
..., oy}, przy czym każdemu z elementów a ; odpowiada «-elementowy
ciąg wiadomości elementarnych st wytwarzanych przez źródło pierwotne S.
Prawdopodobieństwo wiadomości er,, P(c,), jest prawdopodobieństwem
wytworzenia przez źródło S" określonego «-elementowego ciągu wiadomości
elementarnych st. To znaczy, że jeżeli C; odpowiada ciągowi (st, s^, ..., stn),
to zachodzi równość • ...• Pin.
Ponieważ pojedyncza wiadomość ze źródła S" odpowiada n wiadomo-
ściom elementarnym ze źródła S, należy oczekiwać ( 2 ), że entropia przy-
padająca na pojedynczą wiadomość ze zbioru S" będzie n razy większa
niż entropia przypadająca na pojedynczą wiadomość, ze zbioru S. Nie-
(') Dla źródła 5™ używa się też nazwy źródło n-krotnie rozszerzone (przyp. tłum.).
( 2 ) Zauważmy, że według naszej definicji źródłem Sl jest samo źródło S.
trudno to udowodnić. Niech at będzie wiadomością ze zbioru S" odpo-

wiadającą ciągowi (st ,st , ..., SjJ ze zbioru S. Wtedy mamy:
(2.14) H(S")= EP^log--i-

S" r(<Ti)
gdzie suma jest rozciągnięta na wszystkie qn wiadomości ze zbioru S".
W dalszym ciągu w przypadkach, w których zajmować się będziemy źródłem
wiadomości i odpowiadającym mu źródłem wiadomości-ciągów, będziemy
używać symbolu £ dla podkreślenia, że operacja sumowania jest rozciągnię-
S"
ta na wszystkie elementy zbioru S".
Taka suma rozciągnięta na q" wiadomości ze zbioru S" jest równoważna
n sumom, z których każda rozciągnięta jest na q wiadomości ze zbioru S,
a to dlatego, że <rl=(sii, sL, ..., sin). W szczególności, ponieważ P(cri) =
= ... Pln dla źródła bezpamięciowego, zachodzi równość
(2.15) £P(<rd-^PuK-Pu'
S" S"
= i i - i PuP,t-Pu-
i, = l ¡2=1 ¡„=1
p
= i h i Pi,- i Pt„=1.
¡1 = 1 ¡2=1 ¡n=l
Równanie (2.14) może być przedstawione w postaci
1
(2.16) H(S")= £ P(<r,)log =
S" Ph Pil — Pin
= Z P(^)log I P(<T ( )log^- + ...4- Z P(<T,)l0g i .

S" Pil S" ¡2 S" fin
Weźmy pod uwagę pierwszy spośród składników sumy danej we wzorze
(2.16). Mamy:
1
(2.17) I P(<x,)łog = £ P h p h . . . p i n log 1 =
s- S" rit
= I ^ l o g ^ - E 2 p i 2 . . . Ż= 1 p i n = I= 1
pfliog^-=
¡1 = 1 PI L ' 2 = <» '> MI
= ZP/llog^-=ii(S).
s fi.
Łatwo zauważyć, że wartość pozostałych n-1 składników jest identyczna.

Na tej podstawie otrzymujemy
(2.18) H (S") = nH (S).
PRZYKŁAD 2.2. Weźmy dwukrotne rozszerzenie źródła 5 z przykładu 2.1. Przy-
pominamy, że zbiór elementów tego źródła miał postać 5 = { i l t s2, s3}, przy czym
odpowiednie prawdopodobieństwa były równe P(si) = i , P ( i 2 ) = P ( i 3 ) = i - Wobec
tego zbiór S2 ma dziewięć następujących elementów:
Elementy
"1 <T4 ff6 O? O» (Tg
zbioru S2
Odpowiednie
ciągi elemen- Jiii SiS2 S1S3 i 2 i l s2s2 S2S3 ¡3 S2 S3S3
tów zbioru S
Prawdopodo- i 1 1 1 1 1 1 1
bieństwo P(<T() 4 8 8 8 16 16 8 16 16
=ilog4+4-łlog8+4-^logl6 =
= 3 bity na wiadomość.
2.5. Źródło ciągów Markowa
Założenie, które dotychczas czyniliśmy, że źródło jest bezpamięciowe,

jest w niektórych przypadkach zbyt daleko idącym ograniczeniem. Ogól-
niejszym źródłem wytwarzającym q różnych wiadomości jest źródło, w przy-
padku którego pojawienie się danej wiadomości może zależeć od skoń-
czonej liczby m wiadomości, jakie pojawiły się poprzednio. Własności
takiego źródła (nazywanego źródłem ciągów Markowa m-tego rzędu) są
w pełni opisane, jeżeli dany jest zbiór jego elementów S i zbiór prawdo-
podobieństw warunkowych (')
(2.19) P(s,\sh,sj2 s j dla 1 - 1 , 2 , ...,q, jr=l,2, ...,q
(') Zakładamy, że sygnały występujące w prawdopodobieństwie warunkowym

s
Pîl j1>Sj2> •••> SJ,J ułożone kolejno w czasie tworzą ciąg sjl,sj2, ...,sJm,st.
3 Teoria informacji
W przypadku źródła ciągów Markowa m-tego rzędu prawdopodobień-

stwo wytworzenia danej wiadomości jest więc określone, jeżeli znamy m
poprzednich wiadomości. Zatem, dla dowolnego momentu czasu, m poprze-
dzających wiadomości będziemy traktowali jako stan źródła ciągów Mar-
kowa m-tego rzędu w tym momencie. Ponieważ źródło może wytworzyć q
różnych wiadomości, może ono zatem przyjmować qm różnych stanów.
Stan takiego źródła ulega więc zmianom wraz z wytwarzaniem kolejnych
wiadomości. Własności źródła Markowa wygodnie jest ilustrować za
pomocą wykresu stanów. Na wykresie takim przedstawiamy każdy z qm
możliwych stanów za pomocą oddzielnych punktów, a przejścia ze stanu
do stanu — za pomocą strzałek.
PRZYKŁAD 2.3. Rozważmy źródło ciągów Markowa drugiego rzędu, którego

zbiór elementów ma postać S= { 0 , 1 } . Przyjmijmy, że prawdopodobieństwa warun-
kowe są równe:
P (0|00) = P (1111) = 0 , 8 ,
P(1|00)=P(0|11)=0,1,
P(0|01) = P ( 0 | 1 0 ) = P ( 1 | 0 1 ) = P ( 1 | 1 0 ) = 0 , 5 .
Ponieważ q jest równe 2 i ponieważ rozpatrywane źródło jest źródłem ciągów
Markowa drugiego rzędu, możliwe są cztery stany źródła: 00, 01, 10, 11. Wykres
stanów dla takiego źródła pokazany jest na rysunku 2.4. Możliwe stany naszego
źródła są oznaczone czterema kropkami. Możliwe zmiany stanów są oznaczone strzał-
kami wiodącymi od stanu do stanu, przy czym liczby towarzyszące tym strzałkom
oznaczają prawdopodobieństwa odpowiednich zmian stanu. Na przykład: jeżeli
jesteśmy w stanie 00, możemy przejść do stanu 01 lub pozostać w tym stanie, nato-
miast przejście do stanu 10 lub 11 jest niemożliwe. Jak pokazano, prawdopodobień-
stwo pozostania w stanie 00 wynosi 0,8, a prawdopodobieństwo przejścia do stanu
01 wynosi 0,2.
W dalszych rozważaniach nad źródłami ciągów Markowa m-tego

rzędu ograniczymy się do źródeł nazywanych ergodycznymi. W języku
matematyka i statystyka własność ergodyczna i warunki, przy których
źródło jest ergodyczne, są nieco zawiłe. Z naszego jednakże punktu widze-
nia, koncepcja źródła ergodycznego sama w sobie wydaje się prosta.
Źródło ergodyczne jest bowiem po prostu źródłem, które — jeśli je
obserwować przez czas dłuższy — będzie wytwarzać z prawdopodobień-
stwem 1 „typowy" ciąg wiadomości. Koncepcja źródła posiadającego
własność ergodyczną jest istotnie tak prosta, że niektórzy spośród czytel-
2.5. Źródło ciągów Markowa 35
2.4. Wykres stanów źródła ciągów Mar- 2.5. Wykres stanów nieergodycznego
kowa drugiego rzędu źródła ciągów Markowa drugiego rzędu
ników mogą mieć trudności z wyobrażeniem sobie źródła informacji,

które nie jest ergodyczne. Dlatego też podamy tu przykład nieergodycznego
źródła wiadomości.
PRZYKŁAD 2.4. Rozważmy źródło ciągów Markowa drugiego rzędu, którego

zbiór elementów ma postać 5 = { 0 , 1 } . Przyjmijmy, że prawdopodobieństwa warun-
kowe są równe:
P(0|'00) = P ( 1 | 1 1 ) = 1 , 0 ,
P(1|00)=P(0|11)=0,
P(0|01)=P(0|10) = P(1|01)=P(1|10)=0,5.
Tak jak w poprzednim przykładzie mamy tutaj cztery możliwe stany: 00, 01,
10, 11. Wykres tych stanów pokazany jest na rysunku 2.5. Zauważmy, że jeżeli w przy-
padku rozważanego źródła kiedykolwiek znajdziemy się w jednym ze stanów 00 lub
11, pozostaniemy już w tym stanie. Wybierzmy zatem w dowolny sposób jeden z czte-
rech możliwych stanów (oznacza to, że każdy spośród stanów może być wybrany
z prawdopodobieństwem równym i ) . Jeżeli następnie wystartujemy z wybranego
stanu, będziemy się mogli spodziewać, że po dostatecznie dużej liczbie zmian stanów
znajdziemy się z prawdopodobieństwem równym 0,5 w stanie 00. Oznacza to, że po
wytworzeniu dużej liczby wiadomości źródło wytworzy wiadomość 0 z prawdopo-
dobieństwem 0,5 i analogicznie — wiadomość 1 z prawdopodobieństwem 0,5. Niemniej
jeżeli obserwacje przeprowadzać będziemy przez czas dłuższy, to w dowolnie wybra-
nym ciągu zaobserwujemy prawie na pewno albo same zera, albo same jedynki. Inny-
mi słowy nie zaobserwujemy (z prawdopodobieństwem 1) typowego ciągu wytwarza-
nego przez źródło; nie jest to więc źródło ergodyczne.
3*
Dyskusja przeprowadzona powyżej wskazuje trudności, jakie z na-

szego punktu widzenia nastręczają źródła nieergodyczne. Jeżeli wybierzemy
początkowy stan źródła ciągów Markowa (zgodnie z pewnym zbiorem
początkowych prawdopodobieństw stanów) i odczekamy dużą liczbę
zmian stanów, to będziemy wiedzieli, że z ustalonym prawdopodobieństwem
pojawi się przy tym każdy ze stanów. Ponadto, jak to sugerowaliśmy po-
wyżej używając słowa typowy, w przypadku źródła ergodycznego stany,
które aktualnie się pojawiły, będą (z prawdopodobieństwam równym 1)
w bardzo długim ciągu występować ze wspomnianymi wyżej prawdopo-
dobieństwami (ściślej: częstościami — przyp. tłum.). Dalszą godną uwagi
własnością ergodycznego źródła ciągów Markowa jest, że rozkład prawdo-
podobieństwa na zbiorze stanów, który ustala się p o wielu zmianach sta-
nów (lub — co temu jest równoważne — rozkład stanów w typowym
ciągu wyjściowym) nie zależy od początkowego rozkładu stanów (Feller,
1966). Istnieje więc pewien specyficzny rozkład prawdopodobieństwa na
zbiorze stanów ergodycznego źródła ciągów Markowa ( J ), według którego
(z prawdopodobieństwem równym 1) będą pojawiały się poszczególne
stany w długim ciągu wiadomości wytwarzanych przez to źródło. Ten
specyficzny rozkład nazywamy stacjonarnym rozkładem prawdopodobieństwa
ergodycznego procesu Markowa ( 2 ). Rozkład stacjonarny nie zależy od
rozkładu początkowego, z którym wybierane są stany w pierwszym kroku,
a do obliczenia tego rozkładu wystarcza znajomość prawdopodobieństw wa-
runkowych wiadomości. Na przykład można wykazać, że w przypadku
źródła ciągów Markowa, którego własności zilustrowane są na rysunku 2.4,
rozkładem stacjonarnym jest rozkład
P ( 0 0 ) = P ( l l ) = .5i,
(2.20) 2
,
P(01) = P(10) = i i.
Gdy określamy warunkowe prawdopodobieństwa wiadomości P(i,|iy , S j ,
(') Autor ma. tu na myśli bądź to sytuację, gdy nastąpiło bardzo wiele zmian
stanów i bieżący rozkład stanów stał się stacjonarny, bądź sytuację, gdy rozkład
w pierwszym kroku jest identyczny z rozkładem stacjonarnym; w tej drugiej sytuacji
wszystkie rozkłady bieżące są identyczne i identyczne z rozkładem stacjonarnym
(przyp. tłum.).
( J ) Określenia proces Markowa i ciąg Markowa autor traktuje jako jednoznaczne
(przyp. tłum.).
• • > s j „ ) ergodycznego procesu Markowa m-tego rzędu, tym samym pośred-

nio określamy także qm stacjonarnych prawdopodobieństw stanów P ( s ^ , ,
. . . , S j J odpowiadających rozkładowi stacjonarnemu. Na podstawie tych
p r a w d o p o d o b i e ń s t w o możemy obliczyć prawdopodobieństwo zdarzenia
łącznego „źródło jest w stanie, który możemy przedstawić w postaci ciągu
(Sj , S j , ..., sjm) i jako kolejna wiadomość pojawia się w i a d o m o ś c i , " .
Prawdopodobieństwo takiego zdarzenia wynosi
(2.21) P ( s J i , sj2, ..., sJm, s^ = P(s i \s J i ,sj2, ..., sJm) P ( s J t , sj2, ..., sjm).
Należy zwrócić uwagę, że dotychczas nie rozważaliśmy problemu efektyw-

nego obliczania odpowiadających rozkładowi stacjonarnemu prawdo-
podobieństw stanów ergodycznego źródła ciągów Markowa, opisanego
przez zadane prawdopodobieństwa warunkowe. Jest to na ogół dość trudny
problem; czytelnika odsyłamy w związku z tym do pracy Fellera (1966)
lub Bharucha-Reida (1960). Tu ograniczymy się jedynie do stwierdzenia,
że stacjonarne prawdopodobieństwa stanu mogą być obliczone na podsta-
wie znanych prawdopodobieństw warunkowych wiadomości.
Średnią ilość informacji dostarczaną przez źródło ciągów Markowa
»¡-tego rzędu( ł ) możemy obliczyć następująco. Jeżeli znajdujemy się w sta-
nie określonym jako (sj , s J i t ...,s j m ), tzn. m wiadomościami wytworzo-
nymi przez to źródło w przeszłości były wiadomości (sj , Sj^, ..., sJm),
wówczas warunkowe prawdopodobieństwo wytworzenia jako kolejnej
wiadomości — wiadomości i f jest określone jako P ( j , | i j , Sj^, ..., sjm).
Na podstawie wzoru (2.1) ilość informacji, jaką otrzymamy, jeżeli w stanie
(sj\>sj2' •••>sj„i) źródło dostarczy wiadomości sit wynosi
(2.22) I(Si\Sji, Sj2, ..., s , J = l o g • —

" > S j 2 , ••••> SjJ
Zatem średnia ilość informacji dostarczana przez wiadomość wytwarzaną
przez źródło znajdujące się w stanie (_sji, S j , ..., sJm) dana jest następu-
jącym wzorem:
(2.23) H(S|sy,,sj2,..., sJm) =
= 1 p ( s <| s y. >sń> ••• • SjJHSilS;, >sj2,-, ¡¡jj.
(') Na przyszłość będziemy pomijali słowo ergodyczne, mówiąc o źródłach

tego typu.
Jeżeli z kolei dokonamy uśrednienia (*) tej wielkości na qm możliwych

stanów, to otrzymamy średnią ilość informacji lub entropię źródła S ciągów
Markowa m-tego rzędu
(2.24') H(S)= £ P ( s „ , sh, ..., Sjm)H(S\sJi, sj2, . . . , s j .

sm
We wzorze (2.24') wykorzystaliśmy tę okolicznośc, iż określenie stanu
poprzez ciąg (sj , Sj , ..., sJnt) jest równoważne określeniu go poprzez
wiadomość ze zbioru S""(2). Podstawiając (2.23) do wzoru (2.24') otrzy-
mujemy
(2.24") J / ( S ) = £m ?(sh, s , 2 , . . . , sJm) X P(s,|s y i , sj2,..., sJm) x

S s
1
X log
P(si\sh,sj2, ...,SjJ
p
= E
S-n + l
( * / , . S h . • • •' s j J p ( s i | s y i > s h s
JJ X
1
xlog
P(si\sji,sj2,...,sjm)
1
= Z
¡_, - , -J2 7 -w—o u, , „ V
przy czym w ostatnim kroku korzystaliśmy ze wzoru (2.21).

Jeżeli S nie jest źródłem ciągów Markowa lecz źródłem bezpamięcio-
wym, mamy:
S
P(s<\'j„'h ; J = P ( S /)
i wzór (2.24") redukuje się do postaci (2.5')
PRZAKŁAD 2.5. Rozważmy źródło ciągów Markowa pokazane na rysunku 2.4.

Opisujący to źródło rozkład stacjonarny dany jest wzorem (2.20). Odpowiednie prawdo-
(') Uśrednienia tego dokonujemy przy założeniu, że rozkład stanów jest stacjo-
narny — porównaj notka na str. 36.
( 2 ) Ściśle biorąc nie zdefiniowaliśmy jeszcze źródła 5™, tzn. wi-krotnego rozsze-
rzenia źródła ciągów Markowa. Jednakże zastosowanie we wzorach (2.24) symbolu
5™ nie powinno budzić wątpliwości. Wyczerpująca definicja rozszerzenia źródła cią-
gów Markowa podana będzie w paragrafie 2.7.
TABLICA 2.1. Rozkłady prawdopodobieństwa opisujące źródło ciągów Markowa

pokazane na rys. 2.4.
S j , Sil, st P(ii|iy, sk) P (Sj,Sk) P (Sj,St,St)
s 4
000 0,8 i* 14
5 1
001 0,2 14 14
2 1
010 0,5 14 14
2 1
011 0,5 14 14
2 1
100 0,5 14 Ti
2 i
101 0,5 14 14
5 1
110 0,2 14 14
5 4
111 0,8 14 14
podobieństwa zestawiono w tablicy 2.1. Entropia, którą obliczamy korzystając ze

wzoru (2.24"), wynosi zatem
tf(S)=Y P(ij,i*,i,)log—- =
Tj P(i,|ij,i»)
l0
=2 • 8 o75+ 2 • A l0
8O + 4 -
A l 0 « oTs =
= 0 , 8 1 bit/binit.
2.6. Źródła stowarzyszone
Dla danego źródła ciągów Markowa m-tego rzędu możemy w zasadzie

obliczyć rozkład stacjonarny, to znaczy rozkład stanów źródła ciągów
Markowa( l ). W przypadku źródła ciągów Markowa pierwszego rzędu
zbiór stanów jest identyczny ze zbiorem wiadomości wytwarzanych przez
źródło, a rozkład stacjonarny daje nam bezpośrednio rozkład prawdo-
podobieństwa pierwszego rzędu( 2 ) (bezwarunkowy). W przypadku źródła
i 1 ) Patrz notka na stronie 36.

( 2 ) W przypadku gdy mowa jest o ciągu wiadomości elementarnych Si, s2,..., sK
rozkładem prawdopodobieństwa pierwszego rzędu nazywamy rozkład prawdopodo-
bieństwa pojedynczej wiadomości elementarnej. Rozkładem rzędu K nazywamy roz-
kład prawdopodobieństwa łącznego tych wiadomości. Wchodzą w grę zarówno wa-
runkowe jak i bezwarunkowe rozkłady prawdopodobieństwa Ji-tego rzędu. Autor,
mówiąc o prawdopodobieństwie pierwszego rzędu, ma na myśli bezwarunkowe praw-
dopodobieństwo pojedynczej wiadomości elementarnej (przyp. tłum.).
ciągów Markowa wyższego rzędu, obliczenie rozkładu prawdopodobień-

stwa pierwszego rzędu na podstawie rozkładu stacjonarnego również nie
przedstawia trudności^). Na przykład można pokazać, że źródło ciągów
Markowa, którego rozkład stacjonarny dany jest wzorem (2.20), ma nastę-
pujący rozkład pierwszego rzędu: P(0) = P(1) = ^. Znając rozkład prawdo-
podobieństwa pierwszego rzędu dla źródła ciągów Markowa, możemy
zdefiniować inne źródło.
DEFINICJA. Niech S={si, s2, •••, sq} będzie zbiorem wiadomości ele-
mentarnych wytwarzanych przez źródło ciągów Markowa m-tego rzędu
oraz niech Pl, P2, ..., Pą będą prawdopodobieństwami pierwszego rzędu
tych wiadomości( 2 ). Źródłem stowarzyszonym ze źródłem S, które ozna-
czać będziemy symbolem 5, jest bezpamięciowe źródło wiadomości, o iden-
tycznym jak zbiór S zbiorze wiadomości elementarnych, których prawdo-
podobieństwa są odpowiednio równe prawdopodobieństwom pierwszego
rzędu wiadomości elementarnych generowanych ze źródła S.
Na przykład z symetrii wykresu stanów pokazanego na rysunku 2.4
wynika, że 0 i 1 są równoprawdopodobne. Tak więc źródłem stowarzy-
szonym ze źródłem, którego własności zilustrowane zostały na rysunku 2.4,
jest źródło binarne bezpamięciowe, wytwarzające wiadomości binarne
z jednakowym prawdopodobieństwem; entropia tego źródła H(S)=\.
Zauważmy, że źródłem stowarzyszonym z bezpamięciowym źródłem S
jest samo źródło S. W dalszym ciągu wykażemy, że entropia źródła sto-
warzyszonego 5 nie jest nigdy mniejsza niż entropia źródła S. Interpretacja
tego ma doniosłe znaczenie. Obydwa źródła S i S mają identyczne roz-
kłady prawdopodobieństwa pierwszego rzędu, natomiast różnią się one
tym, że na źródło S narzucone są dodatkowe ograniczenia wyrażone za
pomocą warunkowych rozkładów prawdopodobieństwa, którym podle-
gają wytwarzane przez to źródło ciągi wyjściowe. Właśnie te ograniczenia
pociągają zmniejszenie średniej ilości informacji dostarczanej prżeż to
źródło.
Aby nie komplikować oznaczeń, pokażemy teraz na możliwie naj-
prostszym przykładzie, a mianowicie na przykładzie źródła ciągów Mar-
(') Wystarczy wykorzystać wzór na prawdopodobieństwo brzegowe.

( 2 ) Autor ma tu na myśli sytuację, o której mowa w notce na str. 36 (przyp.
tłum.).
2.6. Źródła stowarzyszone 41
kowa pierwszego rzędu, że entropia H(S) jest większa lub równa entropii
H(S)- Odpowiedni dowód dla źródła ciągów Markowa m-tego rzędu
otrzymuje się poprzez proste uogólnienie.
Niech S będzie źródłem ciągów Markowa pierwszego rzędu, a , s2,
. . . , s q niech będą wiadomościami elementarnymi wytwarzanymi przez to
źródło, których prawdopodobieństwa warunkowe wynoszą odpowiednio
P(ijlSj-), / , y ' = l , 2 , ...,q. Niech PlyP2, Pq będą prawdopodobieństwa-
mi pierwszego rzędu( J ) wiadomości elementarnych ze zbioru 5 oraz niech
S będzie źródłem stowarzyszonym z 5. Jeżeli zdefiniujemy P ( s j , s t ) jako
prawdopodobieństwo łączne zdarzenia polegającego na tym, że źródło S
jest w stanie określonym przez Sj oraz na jego wyjściu pojawia się sit to
zachodzi równość (zgodnie ze wzorem (2.21)):
(2.25) P(sj,sl)=P(si\sj)Pj.
Rozważmy teraz podwójną sumę
(2.26) Z P ^ l o g ^ L
s? p (Sj,St)
Ze wzoru (2.8) wynika, że wartość tej sumy jest mniejsza lub równa zero,
przy czym równość zachodzi wtedy i tylko wtedy, gdy
(2.27) P ( s ; , s f ) = P j P, dla wszystkich i oraz j .
Jeżeli zapiszemy tę nierówność korzystając ze wzorów (2.25) i (2.26), to

otrzymamy
X2 P ( s „ S ( ) l o g - A - < 0
s P(s,|sj)
lub
(2.28) £2 P ( S j , s,)log—^-r-, < I 2 P(s,-, s j l o g ' <

s s 'i
ip(Sj,s,)\og~ .
i-lj=l fi
Operacja sumowania p o j w podwójnej sumie po prawej stronie wzoru
(') Tu jak i w innych miejscach autor rozpatruje sytuację, kiedy rozkład praw-
dopodobieństw stanów jest stacjonarny, por. notka na str. 36 (przyp. tłum.).
(2.28) może być przeprowadzona w sposób bardzo prosty, jeśli zauważymy,

że występujący we wzorze logarytm jest niezależny od j oraz że
i P(SJ,SI) = P ł ,
J' 1
na podstawie czego otrzymujemy
S2 P(Si\Sj) S Pi
lub
(2.29) H(S)^H(S).
Warunkiem, by we wzorze (2.29) zachodziła równość (wypowiedzianym

już we wzorze (2.27)) jest po prostu, aby wiadomości j, i Sj były niezależne
statystycznie, tzn., aby źródło S było rzeczywiście źródłem bezpamięcio-
wym. Ilustrowaliśmy już poprzednio na przykładzie relację wyrażoną
wzorem (2.29). Przypominamy tutaj, że dla źródła pokazanego na ry-
sunku 2.4 entropia //(S) = 0,81 bitów, podczas gdy entropia H(S) = 1 bit.
2.7. Rozszerzenie źródła ciągów Markowa
W paragrafie 2.4 rozważając własności bezpamięciowego źródła wiado-

mości wprowadziliśmy pojęcie rozszerzenia źródła, określając w ten sposób
źródło wiadomości wytwarzające wiadomości-ciągi. Były to ciągi wiado-
mości elementarnych pierwotnych wytwarzanych przez źródło pierwotne
(bezpamięciowe). W podobny sposób możemy wprowadzić pojęcie roz-
szerzenia źródła w przypadku, gdy źródło pierwotne jest źródłem ciągów
Markowa: «-elementowe ciągi wiadomości elementarnych pierwotnych,
tzn. wiadomości generowanych przez pierwotne źródło ciągów Markowa,
traktuje się łącznie jako wtórne wiadomości elementarne <Tf.
DEFINICJA. Niech S będzie źródłem ciągów Markowa m-tego rzędu,
którego zbiór wiadomości elementarnych ma postać (sx, s2, ..., J,); niech
warunkowe prawdopodobieństwo wiadomości J( będzie równe ?(si\sj , Sj^,
..., sJm). n-krotnym rozszerzeniem S" źródła S nazywać będziemy źródło
ciągów Markowa rzędu o zbiorze zawierającym q" wiadomości elemen-
tarnych {(T,,a 2 , ..., (?,„}, przy czym każda z wiadomości elementarnych
2.7. Rozszerzenie źródła ciągów Markowa 43
o{ odpowiada określonemu ciągowi zbudowanemu z « wiadomości elemen-

tarnych pierwotnych st. Warunkowe prawdopodobieństwa wiadomości a,
oznaczymy odpowiednio przez P(<r/|<Tyi, a ^ , . . . , ffjJ. Ścisłe określenie
tych prawdopodobieństw oraz określenie wartości n podamy w dalszym
ciągu.
Aby w pełni opisać charakterystyki statystyczne źródła S", w przy-
padku gdy źródło pierwotne S jest źródłem ciągów Markowa m-tego rzędu,
musimy określić prawdopodobieństwo warunkowe
(2.30) P(cri\sJt,sh,...,sJJ,
gdzie <Tj reprezentuje wiadomość elementarną ze zbioru S", tzn. ciąg «-ele-
mentowy wiadomości elementarnych typu Ciąg ( ? j i , S j J , sJm) może
być przedstawiony jako pewien ciąg zbudowany z elementów Oj, na przykład
<Tj ,<Tj2, ...,ff J l Ł , gdzie n = [m/n], czyli jest najmniejszą liczbą całkowitą
większą lub równą m/n.
Warunkowe prawdopodobieństwo ze wzoru (2.30) można zatem wy-
razić następująco
<2.31) P(ff||ah,ah,
Na przykład, gdy S jest źródłem ciągów Markowa piątego rzędu, któ-

rego zbiór zawiera q wiadomości elementarnych, źródłem S3 będzie źródło
ciągów Markowa drugiego rzędu o zbiorze zawierającym q3 wiadomości
elementarnych. Zauważmy, że jeśli S jest źródłem ciągów Markowa m-tego
rzędu, to utworzone dla niego źródło Sm będzie źródłem ciągów Markowa
pierwszego rzędu. Wreszcie przedstawiamy prawdopodobieństwo P(<Ti\ffj ,
(7Ju) opisujące źródło S" za pomocą prawdopodobieństw warunkowo-
wych opisujących źródło pierwotne S. Niech a{ = (s^, s^, ..., sin). Wtedy :
(2.32) P(a i \a J i ,aj2,..., ffjJ = P(s, v sh sin\sJt ,sj2,..., sJm)=
= p (Si.| s
ji>sj2>->sjJx
xP(si2\Sj2,Sh,...,Sjm,Sh)...X
X P ( S in| S i„- m 'S/ B - m + , «(.-,)•
W powyższym zapisie zakładamy, że dla ostatniego z czynników w ilo-
czynie zachodzi « > m. Jeżeli n < m, wówczas ostatnim z czynników jest
Pokazaliśmy poprzednio, że gdy źródło pierwotne S jest bezpamię-

ciowe, to entropia źródła rozszerzonego S" jest n razy większa od entropii
źródła pierwotnego. Łatwo pokazać, że tę własność wykazują także źródła
ciągów Markowa. Udowodnimy to na przykładzie źródła ciągów Markowa
pierwszego rzędu.
Niech S będzie źródłem ciągów Markowa pierwszego rzędu, o zbiorze
wiadomości elementarnych postaci {sj, s2, ..., sq}, z prawdopodobieństwami
przejścia P(s,|j;) i rozkładem stacjonarnym P j , P2, ..., Pq. Niech S"
będzie źródłem wiadomości-ciągów o długości n, zbudowanych z wiado-
mości elementarnych tworzących zbiór S, a elementarnymi wiadomościami
wytwarzanymi przez to źródło niech będą crf, / = 1, 2, ..., q". S" jest więc
źródłem ciągów Markowa pierwszego rzędu (na zasadzie podanego poprzed-
nio określenia n). Mamy wówczas
(2.33') /i(S")=EZP(^,ai)log—1r-.
S" S" r({T,| <Tj)
Prawa strona równania (2.33'), jeśli rozpatruje się ją w aspekcie źródła

S", jest podwójną sumą, której obydwa wskaźniki i i j przebiegają wartości
od 1 do q". W sposób alternatywny możemy potraktować tę sumę w aspek-
cie źródła S2" utworzonego ze źródła pierwotnego S. W takim przypadku
mamy:
(2.33") H (S") = Z P(*j, ff,)log ¿7- 1 ,— .

s2" ^(oąoj)
Podstawiając we wzorze (2.32) m = 1 otrzymujemy
(2.34) P(<r,|(Ty) = P (s,,, sh sin\Sj) =
= P (stl\sj) P (s i 2 |s ( l )... P (s łn |s In .,) ,
a na tej podstawie prawą stronę równania (2.33") możemy przedstawić
w postaci n sum
(2.35) tf(S")= £ P log—L-+...+ Z P ^ . ^ l o g ^ r - i V
Każdą z tych sum można zredukować. Na przykład, wykonując 2n — 2

wskazanych sumowań w pierwszym składniku, otrzymujemy
1
(2.36) lP(«ry,ff|)log --=lP(s7,s(l)log =H{S).
s*» P(sh\sj) s* PiSł^Sy)
Stąd wynika, że
(2.37) H(S")=nH (S).
Dalsze interesujące własności entropii źródła ciągów Markowa można
określić wprowadzając źródło S" stowarzyszone ze źródłem «-krotnie
rozszerzonym S". Niech Pio-j), P(er2), ..., P(o>) będą prawdopodobień-
stwami (') pierwszego rzędu wiadomości elementarnych wytwarzanych
przez źródło S", w przypadku gdy źródło pierwotne S jest źródłem ciągów
Markowa pierwszego rzędu, jakie rozważaliśmy wyżej. Ponieważ <7; odpo-
wiada ciągowi (j,-, , s h ..., i,„), więc P(<rf) może być traktowane jako prawdo-
podobieństwo łączne «-tego rzędu wiadomości elementarnych slk. Zatem
(2.38) tf(S")=X P(ffi)log-i- =

S" P (<Ti)
_ 1
S
= L
S" P ( h . «/a ' • • • '
S
J p7„
"K s
ii> stI2> •••> sTiJ\ •
Źródło S jest jednakże źródłem ciągów Markowa pierwszego rzędu,
dlatego zachodzi równość:
(2.39) P(s,,, si2,..., s J = P(s f l ) P(s i 2 |s ( l )... P(s i n |s i n .,).
Podstawiając wzór (2.39) do (2.38) otrzymujemy:
<2.40, H C T - Z P(»„,S„ „ . ( [ l o g ^ + l o g ^+ ...+
lub
(2.41) H (Sn) = nH (S) + [H (S) - H ( S ) ] .
Zwróćmy uwagę na to, że człon w nawiasie kwadratowym p o prawej
stronie znaku równości we wzorze (2.41) jest stałą nieujemną niezależną
od «. Jeżeli S jest źródłem ciągów Markowa m-tego rzędu (zamiast jak
poprzednio tylko pierwszego rzędu), wtedy (2.41) należy zastąpić wzorem
(2.42) H (Sn) = nH (S) + e m ,
(') Stacjonarnymi (przyp. tłum.).

gdzie em jest stałą dodatnią, która (tak długo jak n>m) zależy tylko od
statystyki źródła S (zob. zadanie 2.1).
Dzieląc obydwie strony równania (2.42) przez « otrzymujemy
H(S") em
(2.43) ——=H(S)+~.
n n
Poprzednio udowodniliśmy nierówność
(2.44) H(Ś")^H(Sn) = nH(S).
Równanie (2.43) powiada nam jednakże, że gdy n rośnie, to wielkości po

obydwu stronach tej nierówności zbliżają się coraz to bardziej do siebie.
Ścieślej: ze wzoru (2.43) wynika, że
(2.45) lim
n-* oo «
Inaczej mówiąc, w przypadku dużych « charakterystyczne dla źródeł ciągów

Markowa wzajemne uzależnienie wiadomości elementarnych wytwarza-
nych przez źródło S" staje się coraz to mniej istotne.
Należy tutaj zwrócić uwagę, że źródło stowarzyszone ze źródłem S"
bynajmniej nie jest równoważne «-krotnemu rozszerzeniu źródła stowa-
rzyszonego ze źródłem S. Konsekwencją tego jest to, że
(2.46) H(S")jtH(Sn).
Istotnie, ponieważ ¡5 jest źródłem bezpamięciowym, zachodzi równość
(2.47) H (S") = nH (S),
którą możemy przeciwstawić zależności (2.44).
PRZYKŁAD 2.6. Obecnie możemy zebrać niektóre rezultaty uzyskane w poprzed-

nich przykładach, dotyczące źródła przedstawionego na rysunku 2.4, aby zilustrować
wyprowadzone wyżej zależności. Otrzymaliśmy poprzednio:
/ / ( S ) = 0 , 8 1 bita, H(S)=1,00 bita.
Z równania (2.37) wynika, że

H(S2)=2H(S)=1,62 bita.
W dalszym ciągu obliczamy:

i / ( S y ) = Y P C f y . i O l o g — i — = 1 , 8 6 bita,
si P(«j,i»)
a po odpowiednio bardziej złożonych obliczeniach otrzymujemy
H(S*)=2,66 bita, / / ( 5 ^ = 3 , 4 7 bita.
Zwróćmy uwagę, jak ciąg

H(S)=1,00 bita,
^ = 0 , 9 3 bita,
2
—-—-=0,89 bita,
3
H{S*)
= 0 , 8 7 bita
4
dąży do wartości H(S) (por. wyżej).
2.8. Struktura języka
W poprzednich paragrafach tego rozdziału wprowadziliśmy model

źródła wiadomości i określiliśmy niektóre proste własności tego modelu.
Interesujące jest zbadanie, jak dokładnie taki model odwzorowuje fizyczny
proces wytwarzania wiadomości. Szczególnie ważnym przypadkiem wytwa-
rzania wiadomości jest wytwarzanie wiadomości tworzących sensowne
w danym języku słowa. W tym paragrafie na przykładzie języka angielskie-
go pokażemy, jak wytwarzanie takich wiadomości może być odwzorowane
za pomocą ciągów coraz to bardziej skomplikowanych źródeł wiadomości.
Ograniczymy się do zbioru 27 symboli: 26 liter stosowanych w języku
angielskim i przerwyC1). Najprostszym możliwym źródłem wykorzystu-
jącym taki zbiór jest źródło bezpamięciowe, w przypadku którego każdy
spośród 27 elementów zbioru ma jednakowe prawdopodobieństwo. Łatwo
obliczyć entropię takiego źródła:
(2.48) H ( S ) = l o g 2 7 = 4 , 7 5 bita.
( l ) W dalszym ciągu przerwę będziemy traktować jako oddzielną literę (przyp.

tłum.).
Oto typowy ciąg liter dostarczanych z podobnego źródła: Ciąg ten

będziemy traktowali jako zerowe przybliżenie ciągu słów języka angielskiego.
ZEWRTZYNSADXESYJRQY WGECIJJ OBVKRBQPOZB

YMBUAWVLBTQCNIKFMP KMVUUGBSAXHLHSIE M
Zwróćmy uwagę, że w ciągu tym nie ma żadnej dającej się zauważyć

struktury i nie można go traktować jako ciąg pochodzący z jakiegokolwiek
języka operującego tym samym zbiorem liter. Lepsze przybliżenie języka
angielskiego może być uzyskane poprzez wykorzystanie rzeczywistych
TABLICA 2.2. Prawdopodobieństwa poszczególnych liter w języku angielskim
(Reza, 1961)
Litera Prawdopodobieństwo Litera Prawdopodobieństwo
Przerwa 0,1859 N 0,0574

A 0,0642 O 0,0632
B 0,0127 P 0,0152
C 0,0218 Q 0,0008
D 0,0317 R 0,0484
E 0,1031 S 0,0514
F 0,0208 T 0,0796
G 0,0152 U 0,0228
H 0,0467 V 0,0083
I 0,0575 w 0,0175
J 0,0008 X 0,0013
K 0,0049 Y 0,0164
L 0,0321 Z 0,0005
M 0,0198
prawdopodobieństw występujących w tym języku liter (tablica 2.2). Entro-

pia bezpamięciowego źródła liter z prawdopodobieństwami liter danymi
w tablicy 2.2 jest równa
(2.49) i i ( S ) = X P i l o g - = 4,03 bita na literę.

s Pi
Typowy ciąg liter wytwarzany przez takie źródło, czyli pierwsze przybli-
żenie języka angielskiego, wygląda następująco:
AL—NGAE ITF—NNR ASAEV OIE BAINTHA HYR

0 0 POER SETRYGAIETRWCO EHDUARU__EU_C_F
T—NSREM—DIY EESE F _ 0 _ S R I S _ R UNNASHOR
r
2.8. Struktura języka 49
Chociaż pokazany tu ciąg nie może być zakwalifikowany j a k o dobra

angielszczyzna, wykazuje on jednak pewne cechy charakteru tego języka
(porównajmy go z przybliżeniem zerowym). „Stówa" w tym przybliżeniu
mają w przeważającej części rozsądną długość, a proporcje spółgłosek do
samogłosek zdają się bardziej realne. Źródło wytwarzające pierwsze przy-
bliżenie możemy dalej udoskonalić nadając mu własności źródła ciągów
Markowa pierwszego rzędu z odpowiednimi warunkowymi prawdopodo-
bieństwami liter. Prawdopodobieństwa te określone zostały przez Pratta
(1942). Otrzymujemy wówczas
(2.50)
Wprawdzie wytwarzanie typowego ciągu liter ze źródła ciągów Markowa

pierwszego rzędu, z prawdopodobieństwami określonymi przez Pratta,
jest możliwe, jednakże Shannon pokazał znacznie ciekawszą metodę.
Otóż okazuje się, że prawdopodobieństwa, których szukamy, zawarte
są w zwykłym angielskim tekście. Otwórzmy zatem książkę i wybierzmy
losowo jakąś literę, powiedzmy U. Następnie opuszczamy kilka linii,
czytamy dalszy tekst aż napotkamy pierwsze U, wybieramy pierwszą
literę następującą p o U; niech to na przykład będzie R. Znowu opuszcza-
my kilka linii, czytamy aż do napotkania R i wybieramy — analogicznie
jak poprzednio — następną literę. Stosując tę procedurę konstruujemy
drugie przybliżenie języka angielskiego:
URTESHETHING__AD E AT FOULE ITHALIORT W

ACT—D STE MINTSAN OLINS TWID OULY TE T
HIGHE CO YS TII HR UPAVIDE .PAD CTAVED
Zauważmy, jak charakter języka angielskiego odnajduje się w drugim

przybliżeniu. Z pewnością mielibyśmy mniej wątpliwości w identyfikowaniu
tego ciągu jako przybliżenia tekstu angielskiego niż powiedzmy tekstu
francuskiego.
Metodę Shannona możemy zastosować d o konstruowania przybliżeń
tekstu angielskiego wyższych rzędów. Wybierając litery z książki zgodnie
z dwoma poprzedzającymi literami, możemy skonstruować trzecie przybli-
żenie, czyli typowy ciąg odpowiadający przybliżeniu języka angielskiego
poprzez źródło ciągów Markowa drugiego rzędu:
4
Teoria informacji
50 2. O c e n a i l o ś c i i n f o r m a c j i d o s t a r c z a n e j p r z e z w i a d o m o ś c i — Ź r ó d ł a w i a d o m o ś c i
IANKS CAN OU ANG RLER THATTED OF TO S

HOR OF TO HAVEMEM__A I MAND AND BUT
WHISSITAI3LY THERVEREER .EIGHTS TAKILLIS TA
Shannon (1951) obliczył, iż entropia źródła, któremu odpowiada taki

ciąg jest równa 3,1 bita na pojedynczą literę. Stosując inne metody wykazał,
że entropia języka angielskiego — jeżeli wziąć pod uwagę cały tekst poprze-
dzający — waha się w granicach 0,6 i 1,3 bita na literę.
Wprawdzie procedurę wykorzystywaną poprzednio można zastosować
do wytwarzania typowych ciągów, za pomocą źródeł ciągów Markowa
rzędu m-tego (m ^ 3), o prawdopodobieństwach odpowiadających prawdo-
podobieństwom języka angielskiego, jednakże w przypadku m większych
od 2 metoda taka staje się niepraktyczna. Wobec takich trudności Shannon
zajął się analizą bezpamięciowego źródła wiadomości, traktując jako
pojedyncze wiadomości — zamiast liter — słowa angielskie. Przyjmując
prawdopodobieństwa pojawienia się poszczególnych słów w przybliżeniu
takie same, jak w angielskim tekście, otrzymał (Shannon, 1948) czwarte
przybliżenie tekstu angielskiego:
REPRESENTING AND SPEEDILY IS AN GOOD APT

OR COME CAN DIFFERENT NATURAL HERE HE
THE A IN CAME THE TO OF TO EXPERT
GRAY COME TO FURNISHES THE LINE MES-
SAGE HAD BE THESE
Bardziej złożone przybliżenie tekstu angielskiego możemy skonstruować

analogicznie, uzależniając prawdopodobieństwo wyboru danego słowa od
słowa poprzedzającego. Źródło odpowiadające takiemu przybliżeniu jest
źródłem ciągów Markowa pierwszego rzędu, którego elementami są słowa
angielskie. Shannon (1948) skonstruował także typowy ciąg dla takiego źródła:
THE HEAD AND IN FRONTAL ATTACK ON AN
ENGLISH WRITER THAT THE CHARACTER OF
THIS POINT IS THEREFORE ANOTHER METHOD
FOR THE LETTERS THAT THE TIME OF WHO
EVER TOLD THE PROBLEM FOR AN UNEX-
PECTED
Warto zauważyć, że taki ciąg jest rozsądnym przybliżeniem krótkiego

wystąpienia, jakiego można się spodziewać od bardzo podekscytowanego
i całkiem niekonsekwentnego mówcy. Ta okoliczność, że za pomocą pros-
tych modeli, jakimi są źródła bezpamięciowe i źródła ciągów Markowa,

możemy aproksymować (przynajmniej do pewnego stopnia) tak skompli-
kowane źródło wiadomości, jakim jest osoba mówiąca językiem angielskim,
wydaje się bardzo zachęcająca.
Wiele spośród źródeł informacji, jakie znajdujemy w praktycznych pro-
blemach telekomunikacji ma znacznie prostszą naturę, możemy zatem
oczekiwać, że nasze modele umożliwią lepsze przybliżenie rzeczywistości
w takich przypadkach.
Uderzającą ilustrację różnic pomiędzy poszczególnymi językami zacho-
dnimi otrzymano konstruując ciągi typowe w oparciu o statystyki tych języ-
ków. Dokonano tego dla trzech języków, otrzymując następujące ciągi:
Ciąg przybliżeń języka francuskiego
Pierwsze przybliżenie
R EPTTFVSIEOISETE TTLGNSSSNLN U N S T FSNST

F E IONIOILECMPADINMEC TCEREPTTFLLUMGLR
ADBIUVDCMSFUAISRPMLGAVEAI MILLUO
Drugie przybliżenie
TTEPONT J E N E IESEMANT. PAVEZ L BO S PAS

E LQU SUIN DOTI CIS NC M O U R O U N E N T FUI
T—JE DABREZ D A U I E T O U N T LAGAUVRSOUT MY
Trzecie przybliżenie
JOU MOUPLAS. D E MONNERNAISSAINS—DEME—U

S VREH BRE TU D E TOUCHEUR DIMMERE—LL
ES MAR ELAME RE A VER—IL—DOUVENTS—SO
Ciąg przybliżeń języka niemieckiego
N N B N N D O E T T N I I I A D TSI ISLEENS. L R I _ L D R R B N F
REMTDEEIKE U _ H B F _ E V S N BRGANWN IENEEHM
E N R H N L H D SRG EITAW EESRNNGLGR
AFERORERGERAUSCHTER D E H A B A R ADENDERG
E E U B R N D A N A G R E T U ZUBERKLIN DIMASO
N DEU UNGER EIEIEMMLILCHER_WELT WIERK
BET—JEREINER SOMMEIT SINACH G A N T U R H A T T

E R _ A U M WIE BEST ALLIENDER TAUSSICHELLE
— L A U F U R C H T ER BLEINDESEIT—UBER—KONN—
4«
Ciąg przybliżeń języka hiszpańskiego

UOALNAO N E L D N I S E T R T E G A T U E O E C S ASU
D U ZELNNTSSCASOSED T I R EIS TAMMO Tli
U O E D E O U E I EOSEELA NMSLAANTEC
C I N D E U N E C O — P E _ _ C A L P R O S E LAS L A B I T E J A S
TE—ONTOMECITRODRESIO P A Y E N SPUSEL LA
— S — U T A J A R E T E S O L O N D A M I V E ESA S CLUS
R A M A D E LLA E L GUIA IMO SUS C O N D I A S S

U E UNCONDADADO DEA M A R E _ T O BUERBALI
A N U E Y H E R A R S I N D E SE SUS SUPAROCEDA
Jak poprzednio, pierwsze przybliżenie odpowiada ciągowi wytwarza-

nemu przez źródło bezpamięciowe, drugie — przybliżeniu za pomocą źró-
dła ciągów Markowa rzędu pierwszego, a trzecie — za pomocą źródła cią-
gów Markowa rzędu drugiego.
Jako ostatni przykład z tej serii przedstawiamy ciąg przybliżeń innego
jeszcze języka zachodniego, przy czym pozostawiamy czytelnikowi odga-
dnięcie, jaki to język:
SETIOSTT N I N N TUEEHHIUTIAUE N IREAISRI M

I N R N E M O S E P I N M A I P S A C SES LN ANEIISUNTINU
AR T M U M O E C N U R I R E I A L AEFIITP
C T QU V E N I N L U M U A QUREO A B I T SAT F I U M A
G E ICAM M E S T A M M Q U M C U T A T P A M NOND
Q U M O M F I T N I S E R I S T E L ONO IHOSEROCO
E T LIGERCUM SITECI LIBEMUS ACERELEN TE

VICAESCERUM PE NON SUM MINUS UTERNE
U T I N A R I O N — P O P O M I N SE I N Q U E N E Q U E IRA
Uwagi 53
UWAGI
1. Słowo entropia zostało utworzone przez Clausiusa w 1876 roku ze słów greckich
£v i rpmeiv. Razem wzięte słowa te oznaczają zwrot do środka. Clausius użył słowa
entropia dla określenia tej części energii systemu, która nie może być przetworzona
na pracę mechaniczną bez przekazywania ciepła innemu ciału lub bez zmiany war-
tości. Boltzmann w roku 1896 pokazał po raz pierwszy, że entropia dowolnego układu
może być wyrażona jako wartość średnia logarytmu z prawdopodobieństw stanów
tego układu. D o teorii informacji wprowadził to słowo po raz pierwszy Shannon (1948).
Pojęcie entropii jest z pewnością najważniejszym ale nie jedynym punktem,
w którym stykają się teoria informacji i mechanika statystyczna. Jaynes (1959) roz-
ważał bowiem możliwość wykorzystania w teorii informacji funkcji partycji stosowanej
w mechanice.
2. W całej tej książce przyjmujemy, że prawdopodobieństwa poszczególnych
elementów rozważanych zbiorów wiadomości są znane. Gdy prawdopodbieństwa
te nie są znane (a być może nawet liczba elementów w zbiorze danego źródła jest
nieznana), możemy estymować entropię źródła bezpamięciowego na podstawie obser-
wacji k wyjść tego źródła. Miller i Madow (1954) znaleźli optymalny w sensie najwięk-
szego prawdopodobieństwa estymator entropii oparty na podobnych obserwacjach.
Basharin (1959) użył prawdopodobieństw empirycznych pt, aby wprowadzić
nasuwający się w sposób oczywisty estymator
r 1
l
H(S)= Y p , log— .
s Pu
Pokazał on, że H (S) jest obciążonym, zgodnym, asymptotycznie normalnym esty-
matorem H(S), przy czym
E [H(S)]=H(S)~^ loge+O ,
gdzie q jest liczbą elementów zbioru źródła, & N — liczbą dokonanych obserwacji
wyjścia źródła, na podstawie których dokonuje się estymacji. Blyth (1958) badał nie-
które inne estymatory H(S); między innymi wykazał on, że istnieje nieobciążony esty-
mator H{S).
3. W paragrafie 2.2 zdefiniowaliśmy entropię zmiennej losowej, która może przyj-
mować jedną ze skończonej liczby wartości. (Dystrybuanta takiej zmiennej losowej
ma skończoną liczbę skoków).
Aby opisać własności zmiennej losowej, mogącej zmieniać się w sposób ciągły
(dystrybuanta takiej zmiennej jest funkcją absolutnie ciągłą), możemy wziąć pod
uwagę ciąg dystrybuant o skończonej liczbie skoków aproksymujących dystrybuantę
absolutnie ciągłą. Niech [i] oznacza całkowitą część liczby i. Wprowadzimy nową
zmienną losową
s.— — [nj]
n
oraz niech
Oznaczmy przez Sn źródło odpowiadające zmiennej s„. W miarę jak n rośnie, zmienna
losowa s„ przybliża się coraz to bardziej do zmiennej s. Niestety II(Sn) nie pozostaje
skończone.
Renyi (1959) zdefiniował wymiar zmiennej losowej i jako
H(Sn)
d (s) = lim — ,
«-.w l o g «
a d-wymiarową entropię s jako
H i ( S ) = lim [ # ( £ „ ) - ¿ l o g « ] ,
gdy granice te istnieją. Gdy dystrybuanta ma skończoną ilość skoków, wymiar jest
oczywiście równy zero, a H0(S) sprowadza się do H(S). Renyi (1959) wykazał również,
że gdy dystrybuanta jest funkcją absolutnie ciągłą, a entropia H(S,) jest skończona,
to d(s) = l i, jeżeli przez p(s) oznaczymy gęstość prawdopodobieństwa zmiennej s,
entropia H ^ S ) równa jest
00
^ ( 5 ) = i/>(i)iog4-rfi,
J p(s)
— <0
o ile całka ta istnieje.
Csiszar (1961) otrzymał rezultaty częściowo podobne do rezultatów Renyi.
4. Oprócz rozważanego przez nas w punkcie 2.8 wytwarzania słów za pomocą
sztucznych źródeł, możliwe jest również wytwarzanie elementów melodycznych. Pin-
kerton (1956) użył tej metody do komponowania muzyki. Pierce (1961) poświęcił
w swej książce wiele miejsca takiemu tworzeniu muzyki; pierwszej chyba próby zbliże-
nia teorii informacji i sztuki dokonał Pierce (1957, str. 260), przytaczając w szeregu
urywkach Suitę Illiaca dla kwartetu StringaC)
5. Jak podkreślaliśmy poprzednio, użycie entropii jako miary ilości informacji
dostarczanej przez źródło wiadomości znajdzie uzasadnienie w pierwszym twierdzeniu
Shannona (rozdział 4). Uzasadnieniem takim może być również i ta okoliczność,
że jedynie entropia jest funkcją prawdopodobieństw wiadomości dostarczanych przez
źródła, czyniącą zadość określonym warunkom (Feinstein, 1958). Określmy trzy bez-
(') Autor myśli tutaj o kodzie „skomponowanej" przez Hillera i Isaacona za po-
mocą maszyny cyfrowej. Wykazali oni, że za pomocą takiej maszyny można wy-
twarzać kombinacje rytmiczne i dynamiczne według muzycznego ciągu Markowa,
w którym wybór kolejnej nuty zależy od prawdopodobieństw obliczanych z tablic
sporządzonych na podstawie badań nad harmonią i składowymi harmonicznymi.
„Kompozycja" ta została opublikowana jako Illiac Suite for String Quartet w czaso-
piśmie „ N e w Musie" w 1957 roku (przyp. tłum.).
Uwagi 55
pamięciowe źródła wiadomości oraz prawdopodobieństwa wytwarzanych przez

te źródła wiadomości następująco (a = l —a):
Sl p1 Si p1 st a
s2 p2 S2 Pl s2 a
p,-l Sq- 1 pt-1

s. Pą i. a Pą
s«+l aPq
Entropia jest jednoznaczną (z dokładnością do stałego mnożnika) funkcją praw-
dopodobieństw wyjść źródła spełniającą warunki:
a) H(Sl) = H(S)+PqmS2),
b) H(S2) jest funkcją ciągłą zmiennej a,
c) H(S) jest funkcją symetryczną zmiennych Plt P2 Pt.
ZADANIA
2.1. Udowodnić równość 2.42.

2.2. Wykres stanu źródła ciągów Markowa pierwszego rzędu o zbiorze 5 =
= {0, 1, 2} jest pokazany na rysunku Z.2.2. Oznaczamy p-\—p. Z zasady symetrii
wynika, że rozkład P(0) = P(1) = P(2) = J jest stacjonarny.
Z.2.2.
a) Obliczyć H(S).
b) Obliczyć H(S). Czy odpowiedź sprawdza się w przypadku p = 0, p=l?
*c) Dla jakiej wartości p entropia H(S) osiąga maksimum?
d) Zbadać zachowanie się H(S) dla p=e, gdzie « « 0 .
e) Zbadać zachowanie się H(S) dla p = 1 — <5, gdzie ¿ « 0 .
f) Narysować wykres stanu dla S 2 .
g) Obliczyć i / ( S 2 ) i H(Ś*).
2.3. Dwa bezpamięciowe źródła Si i S 2 mają zbiory zawierające odpowiednio
<?! i q2 wiadomości elementarnych. Wiadomości elementarne ze zbioru S i pojawiają
się z prawdopodobieństwami Pt, i=l, 2, ..., qlt a ze zbioru S2 — z prawdopodobień-
stwami Q{, i ' = l , 2, ..., q2; entropie źródeł Si i S2 wynoszą odpowiednio Hi i H2.
Utworzone zostaje nowe bezpamięciowe źródło S(A), nazywane mieszaniną S i i S 2 ,
którego zbiór zawiera qx+q2 elementów. Pierwsze qx elementów źródła S(ż.) ma praw-
dopodobieństwa XP(, i = l , 2, ..., qlt pozostałe q2 elementów tego źródła ma praw-
dopodobieństwa ).Q(, i= 1, 2, ..., q2 (A=l—A).
a) Dla źródła o takich własnościach zachodzi równość
H [S (A) ] = X H x + XH2 + H (a) .
Udowodnić i zinterpretować tę równość.
*b) Wyrazić ).0 — wartość A maksymalizującą Z/[S(A)] — jako funkcję HL i H 2 .
Obliczyć i/[S(A 0 )]-
2.4. Uogólnić problem będący przedmiotem punktu a) w zadaniu 2.3 na przy-
padek n bezpamięciowych źródeł S i , S2 S„.
2.5. Bezpamięciowe źródło wiadomości ma przeliczalny nieskończony zbiór
elementów S = { i i , s2, ...} o prawdopodobieństwach P, = aa} dla wszystkich i.
a) Wyrazić a jako funkcję a.
b) Obliczyć i wykreślić przebieg H(S) jako funkcję a. Zwrócić szczególną uwagę
na postać tej funkcji dla a « 0 i a « l .
Przy rozwiązywaniu tego zadania można się posłużyć równościami
CO CO _
n V »
Z
, a = 1-a ,
"
> na = ( l - i
V
2.6. Wykres stanu binarnego źródła ciągów Markowa pierwszego rzędu jest
pokazany na rysunku Z.2.6. Prawdopodobieństwa stacjonarne są dla tego źródła
P P <7
<7
Z.2.6.
O
równe P ( 0 ) = q l ( p + q ) , P(1 )=pl(p+q) (dowód tego można traktować jako etap roz-
wiązania zadania).
Zadania 57
a) Obliczyć H(S).
b) Obliczyć H(S).
c) Niech ą-p. Znaleźć i wykreślić / / ( S ) jako funkcję p.
d) Obliczyć H(S) w przypadku ą—p.
2.7. a) Niech dla źródła, jak w zadaniu 2.6, q = 1 (założenie to nie oznacza, iż
q=p). Obliczyć i wykreślić H(S) jako funkcję p.
b) Zachowując ą = 1, znaleźć //(5[0) i //(.S|l), tzn. informację przypadającą na
pojedynczą wiadomość wytwarzaną przez źródło, gdy źródło jest odpowiednio w stanie
0 lub 1.
2.8. a) Rozważmy binarne źródło ciągów Markowa trzeciego rzędu, dla którego
prawdopodobieństwo wytworzenia 0 lub 1 nie zależy od poprzednich dwóch wyjść,
zależy natomiast od trzeciego, licząc wstecz, wyjścia. Prawdopodobieństwo, iż aktualne
wyjście będzie identyczne z tym wyjściem z przeszłości, wynosi 0,9; prawdopodobień-
stwo, że wyjścia te będą się różniły — 0,1. Narysować wykres stanu dla takiego źródła.
b) Znaleźć entropię tego źródła (bezpośrednia metoda obliczania prawdopo-
dobieństw stacjonarnych itd. nie jest tutaj metodą najłatwiejszą).
2.9. Niech S0 będzie źródłem wiadomości-ciągów trzyelementowych zbudowa-
nych z wiadomości pierwotnych wytwarzanych przez bezpamięciowe źródło wiado-
mości binarnych, dla którego prawdopodobieństwo wiadomości 0 jest równe p. Inne
źródło S jest związane ze źródłem S0 w ten sposób, że wytwarza ono jedną z wiado-
mości 0, 1, 2 lub 3 w zależności od tego, czy wyjście S0 zawiera 0, 1, 2 czy 3 zera.
a) Obliczyć ff(S0).
b) Obliczyć ff(S).
c) Obliczyć H(S0)—H(S). Uzasadnić tę różnicę entropii i podać jej interpretację.
2.10. Uogólnić problem, będący przedmiotem punktu c) w zadaniu 2.9 na
przypadek, w którym S0 jest źródłem wytwarzającym wiadomości-ciągi «-elementowe
zbudowane z wiadomości pochodzących ze źródła binarnego, a S wytwarza 0, 1 , 2 , ...,
lub n. Przy okazji: Jak wiele informacji średnio traci się w przypadku, gdy wiadomość
odbieramy ze źródła S zamiast ze źródła S01
2.11. Rozważmy bezpamięciowe źródło wiadomości 5 0 , w którym prawdo-
podobieństwo 0 wynosi px 1. Ponieważ prawdopodobieństwo wytwarzania 0 jest
tak duże, sensowne jest rozważenie długich ciągów następujących po sobie zer. Można
by zatem wprowadzić nowe źródło S o elementach i i , s2, s3, ..., w którym na przy-
kład ciąg s}, S2, f«, »i, ss odpowiadałby pierwotnemu ciągowi binarnemu
001 01 0001 1 00000001
S3 S2 Są SI Sa
a) Korzystając z równania
znaleźć entropię źródła S. Nie pozostawiać odpowiedzi w formie sumy nieskończonej.

b) Obliczyć H(S)/H(S0).
c) Obliczyć średnią liczbę binitów wytwarzanych przez źródło pierwotne przy-
padającą na pojedynczą wiadomość ze źródła S.
2.12. Źródło S dyskutowane w zadaniu 2.11 musiałoby dysponować nieskoń-

czoną liczbą możliwych wiadomości s{. Jako przybliżenie S możemy rozważać źródło
Sm, mające n +1 wyjść:
ii 1
i2 01
i3 001
s„ 0000 ...01
i„ + 1 0000 . . . 0 0
n binitów
a) Obliczyć H(Sn).
b) Niech p = 0,9; wykreślić H(S„) jako funkcję n.
2.13. Wykres stanu źródła ciągów Markowa pierwszego rzędu, posiadającego

zbiór elementów 5 = { 0 , 1 , 2}, pokazany jest na rysunku Z.2.13. N a zasadzie symetrii
rozkład stacjonarny ma postać: P(0) = P(1) = P(2) =
p
Z.2.13.
a) Obliczyć H(~S).
b) Obliczyć H(S). Sprawdzić odpowiedź dla p = 0, p= 1,
c) Obliczyć H(S2).
Zadania 59
2.14. Niech S będzie źródłem bezpamięciowym o zbiorze elementów S = { s ( } ,

/ = 1 , 2 , ..-,?> których prawdopodobieństwa wynoszą odpowiednio Plt P2, ..., P,,
Skonstruować nowe źródło bezpamięciowe S' zawierające dwa razy więcej elementów,
5 ' = { j i } , i = l , 2 , . . . , 2 q . Niech prawdopodobieństwa Pt opisujące to nowe źródło,
będą następujące:
f(l-£)P, dla i = l , 2 , . . . , q,
dla i=q+l, q+2 2q.

Wyrazić H{S') jako funkcję H(S).
3. NIEKTÓRE WŁASNOŚCI KODÓW
3.1. Wstęp
Zanim przystąpimy do badania związków pomiędzy kodowaniem

i miarą ilości informacji zdefiniowaną w rozdziale 2, zajmiemy się określe-
niem pewnych klas kodów. Z pojęciem kodu i związanymi z nim pojęciami
zbioru wiadomości elementarnych i zbioru sygnałów elementarnych zazna-
jomiliśmy się już poprzednio (w paragrafie 1.3).
DEFINICJA. Niech S = { J 1 , S 2 » •••>•?„} oznacza dany zbiór elementów.
Kodem nazywamy wówczas odwzorowanie zbioru wszystkich możliwych
ciągów utworzonych z elementów zbioru S w pewien zbiór ciągów utwo-
rzonych z elementów innego zbioru X= , x2, ..., xr}. Zbiór S nazy-
wać będziemy zbiorem wiadomości elementarnych, a zbiór X — zbiorem
sygnałów elementarnych.
Podana wyżej definicja jest zbyt ogólna na to, aby można było posłu-
żyć się nią przy syntezie kodu. Dlatego też ograniczymy krąg naszych
zainteresowań do kodów mających pewne dodatkowe własności. Pierwszą
z takich własności, której będziemy domagali się od kodu, jest, aby był
to kod blokowy.
DEFINICJA. Kodem blokowym nazywamy kod I 1 ) , który każdą z wiado-
mości elementarnych wchodzących w skład zbioru S odwzorowuje w usta-
lony ciąg sygnałów elementarnych ze zbioru X. Takie ciągi sygnałów ele-
mentarnych nazywamy ciągami kodowymi (w oryginale słowami kodowymi —
(') Niektórzy autorzy (np. Peterson, 1961, Seidler, 1965) określają kody blokowe
jako takie kody, w których wszystkie ciągi kodowe zawierają tę samą liczbę sygnałów
elementarnych.
3.1. Wstęp 61
przyp. tłum.). Ciąg kodowy odpowiadający wiadomości st oznaczać będzie-

my przez Xi. Tak więc symbol Xt oznacza ciąg złożony z elementów typu Xj.
PRZYKŁAD 3.1. Przykład binarnego kodu blokowego dany jest w tablicy 3.1.
TABLICA 3.1 Binarny kod blokowy
l
Wiadomości Ciągi
elementarne kodowe
ii 0
Sl 11
00
s* 11
Na pierwszy rzut oka wymaganie, abyśmy każdą wiadomość elemen-

tarną kodowali w ustalony ciąg sygnałów elementarnych, wydaje się wy-
górowane. Zauważmy jednakże, że jeżeli dany kod odwzorowuje wszystkie
ciągi wiadomości elementarnych o długości « w ustalone ciągi sygnałów
elementarnych, to kod taki odwzorowuje każdą wiadomość ze źródła
«-krotnie rozszerzonego w pewien ustalony ciąg sygnałów elementar-
nych. To ostatnie odwzorowanie stanowi właśnie kod blokowy dla źródła
«-krotnie rozszerzonego.
Zespół zasad określający transformację zbioru wiadomości w zbiór
sygnałów elementarnych może czynić zadość naszej definicji kodu blo-
kowego wtedy tylko, kiedy rozważamy wiadomości ze źródła «-krotnie
rozszerzonego, zbudowane z « wiadomości elementarnych pierwotnych.
W dalszym ciągu rozdziału zajmować się będziemy w głównej mierze ko-
dami blokowymi.
3.2. Kody jednoznacznie dekodowalne
Z przykładu podanego wyżej w sposób oczywisty wynika, że musimy

nałożyć dalsze ograniczenia na kody blokowe, jeśli kody takie mają być
użyteczne; naturalnym ograniczeniem, jakie można nałożyć na kod, wy-
daje się założenie, aby każdy z ciągów kodowych Xt różnił się od pozosta-
łych.
(') Tzn. każdą wiadomość-ciąg o długości n.

62 3. Niektóre własności kodów
Zauważmy, że ciągi kodowe X2 i XA kodu pokazanego w tablicy 3.1

nie różnią się.
DEFINICJA. Mówimy, że kod blokowy jest nieosobliwy, jeżeli wszystkie
jego ciągi kodowe różnią się nawzajem.
PRZYKŁAD 3.2. Przykład nieosobliwego kodu blokowego podany jest w tablicy 3.2.
TABLICA 3.2 Nieosobliwy kod

blokowy
Wiadomości Ciągi
elementarne ' kodowe
ii 0
s2 11
00
Si 01
Chociaż w podanym tu przykładzie nieosobliwego kodu blokowego

wszystkie ciągi kodowe są różne, to jednak wciąż jest możliwe pojawienie
się ciągu sygnałów elementarnych, który nie będzie mógł być jednoznacznie
odwzorowany w ciąg wiadomości. N a przykład ciąg 0011 mógłby odpo-
wiadać bądź ciągowi wiadomości s3s2, bądź ciągowi wiadomości J j J , ^ .
Oznacza to, że kod w tablicy 3.2, chociaż jest nieosobliwy w sensie szcze-
gólnym, jest kodem osobliwym w sensie ogólnym. Przykład ten pokazuje
więc, że musimy wprowadzić mocniejszy warunek niż nieosobliwość,
jeśli kod ma być użyteczny.
Niech dany kod blokowy odwzorowuje wiadomości ze zbioru S na usta-
lone ciągi sygnałów elementarnych ze zbioru X. (Źródło S może być roz-
szerzeniem pewnego źródła pierwotnego, tzn. może wytwarzać wiadomości
będące ciągami wiadomości elementarnych pierwotnych). Ponieważ ogra-
niczamy się do kodów blokowych, mamy naturalną elementarną jednostkę
kodową, a mianowicie wiadomość elementarną ze zbioru S i odpowiadający
jej ciąg sygnałów elementarnych pochodzących ze zbioru sygnałów ele-
mentarnych, z których budujemy ciągi kodowe. Możemy obecnie połączyć
ze sobą tak zbudowane bloki, podobnie jak łączyliśmy następujące po sobie
wiadomości elementarne, tworząc rozszerzone źródło wiadomości.
DEFINICJA, n-krotnym rozszerzeniem kodu blokowego, przyporządko-
wującego wiadomościom s t ciągi kodowe A";, jest kod blokowy, który ciągom
3.2. Kody jednoznacznie dekodowalne 63
wiadomości elementarnych O (sh, si2, ..., sin) przyporządkowuje ciągi

ciągów kodowych {Xh, Xh, ..., Xin)
Z powyższej definicji wynika, że «-krotne rozszerzenie kodu blokowego
jest także kodem blokowym.
PRZYKŁAD 3.3. Dwukrotne rozszerzenie kodu blokowego podanego w tablicy 3.2

jest pokazane w tablicy 3.3.
TABLICA 3.3 Kod blokowy dla wiadomości-ciągów

dwuelementowych
Wiadomości Ciągi Wiadomości Ciągi

elementarne kodowe elementarne kodowe
ii ii 00 S3 Si 000
Sl s2 011 Sl s2 0011
Si s3 000 s3 s3 0000
Sl Si 001 S3 Są 0001
S2 i i 110 Są S1 010
S2 S2 1111 S4 S2 0111
S2 s3 1100 Są S3 0100
S2 Są. 1101 SĄ SĄ 0101
DEFINICJA. Kod blokowy nazywamy jednoznacznie dekodowalnym

wtedy i tylko wtedy, gdy «-krotne rozszerzenie tego kodu jest kodem nie-
osobliwym dla dowolnego skończonego «.
Definicja ta zapewnia nas, że dowolnym dwóm wytwarzanym przez
źródło ciągom wiadomości, tej samej długości, odpowiadają różne ciągi
kodowe. Oczywiście powinniśmy także wymagać, aby dwa ciągi wiadomości,
nawet jeżeli nie są one tej samej długości, prowadziły do różnych ciągów
kodowych. Ta własność wynika również z naszej definicji. Przypuśćmy,
że tak nie jest, to znaczy załóżmy, że istnieją dwa ciągi wiadomości i S2,
którym odpowiada ten sam ciąg kodowy X0. Zauważmy, że Ol , 1 Xq
reprezentują tutaj ciągi symboli, a nie jedynie pojedyncze symbole. Ponadto
51 i S2 mogą być ciągami wiadomości o różnej długości. Utwórzmy teraz
(') W definicji tej zakłada się, że każdy z ciągów XLM zostaje przyporządkowany
wiadomości s,m w sposób niezależny od pozostałych wiadomości s,t według kodu
pierwotnego nierozszerzonego.
dwa nowe ciągi wiadomości S[ i S'2. Niech S[ będzie określony jako ciąg
wiadomości, w którym po ciągu S2 następuje SL. Ciąg S'2 jest odpowiednio
ciągiem zawierającym ciąg Sl3 po którym następuje S2. Widzimy, że za-
równo S[, jak i S2 prowadzą do ciągu sygnałów, w którym po prostu
po ciągu X0 następuje X0. Obydwa ciągi S\ i S2 mają tę samą długość.
Tak więc, kod taki nie spełnia warunku jednoznacznego dekodowania
sformułowanego wyżej.
Sardinas i Patterson (1953) znaleźli warunki konieczne i dostateczne
jednoznacznego dekodowania. Ponieważ w dalszym ciągu ograniczymy
się w naszych rozważaniach do klasy kodów jednoznacznie dekodowal-
nych, nie będziemy potrzebowali przytaczać tutaj ich rezultatów.
3.3. Kody dekodowalne bez opóźnienia
Dwa przykłady kodów jednoznacznie dekodowalnych podane są w ta-

blicy 3.4( Ł ).
TABLICA 3.4. Dwa kody jednoznacznie
dekodowalne
Wiadomości
K o d •aC Kod a
elementarne
ii 00 0
Sl 01 10
Si 10 110
S4. 11 1110
Przedstawiony wyżej kod s / wskazuje, jaka jest niewątpliwie najprostsza

metoda konstruowania jednoznacznie dekodowalnego kodu. Wszystkie
ciągi kodowe kodu s / są tej samej długości, a na dodatek kod st jest oczy-
wiście nieosobliwy. Można wykazać, że te dwie własności są warunkami
dostatecznymi na to, aby kod był kodem jednoznacznie dekodowalnym.
Natomiast dany w tablicy 3.4 kod 38 jest kodem jednoznacznie dekodo-
walnym, ponieważ jest to kod nieosobliwy, a na dodatek jest to kod, który
można nazwać kodem z przecinkiem. Oznacza to, że w kodzie 38 sygnał
(') W dalszym ciągu będziemy używali liter pisanych dla oznaczenia kodów.
r 3.3. Kody dekodowalne bez opóźnienia 65
elementarny 0 pełni funkcję przecinka rozdzielającego jeden ciąg kodowy

od drugiego.
Gdy śledzimy ciąg sygnałów elementarnych, możemy posłużyć się tym
przecinkiem dla określenia miejsca, w którym kończy się jeden ciąg kodowy,
a zaczyna się ciąg następny.
Możliwość określenia, w jakim miejscu w obrębie skończonego ciągu
sygnałów elementarnych kończy się pewien ciąg kodowy, wydaje się mieć
podstawowe znaczenie przy konstruowaniu obydwu rozważanych wyżej
kodów. Istotnie, własność ta jest bowiem bardzo bliska koncepcji jedno-
znacznego dekodowania.
Rozważmy jeszcze jeden kod jednoznacznie dekodowalny (tabl. 3.5).
Oznaczymy go symbolem ( €. Kod różni się od kodów $ ł i 28 z tablicy 3.4
TABLICA 3.5. Kod jednoznacznie
dekodowalny
Wiadomości
Kod <e
elementarne
•Sl 0
Sl 01
Sz 011
s4 0111
w istotny sposób. Jeżeli bowiem dany jest ciąg binarny złożony z ciągów
kodowych kodu c€, to nie jesteśmy w stanie zdekodować go dekodując
z osobna jeden ciąg kodowy po drugim. Jeżeli na przykład odbieramy ciąg
01, nie możemy stwierdzić, że ciąg ten odpowiada wiadmości s2, tak długo,
jak długo nie odbierzemy następnego sygnału elementarnego. Jeżeli nas-
tępnym jest sygnał elementarny 0, wiemy wówczas, że odebrany przez nas
ciąg odpowiada wiadomości s2, natomiast jeżeli następnym sygnałem
byłoby 1, wtedy musielibyśmy czekać na jeszcze jeden kolejny sygnał ele-
mentarny, aby móc ustalić, czy odebraliśmy s3 (011) czy też (0111). Tak
więc wprowadzenie opóźnienia jest niezbędnym warunkiem dekodowania
kodu (ś, podczas gdy kody s/ i mogliśmy dekodować na bieżąco — ciąg
kodowy po ciągu kodowym.
DEFINICJA. Jednoznacznie dekodowalny kod nazywać będziemy kodem
dekodowalnym bez opóźnienia, jeżeli każdy z ciągów kodowych tego kodu
można dekodować bez czekania aż pojawią się sygnały elementarne od-
5 Teoria i n f o r m a c j i
powiadające dalszym ciągom kodowym (następującym po ciągu kodowym

aktualnie dekodowanym).
Kody s i i SS dane wyżej są kodami dekodowalnymi bez opóźnienia.
Kod m jest natomiast przykładem kodu dekodowalnego jednoznacznie
jedynie z opóźnieniem. W rozważanych przypadkach trzech kodów łatwo
sprawdzić, czy kod jest kodem dekodowalnym bez opóźnienia. Użytecz-
ne będzie jednak znalezienie ogólnego testu pozwalającego określić,
przy jakich warunkach dany kod jest kodem dekodowalnym bez opóź-
nienia; obecnie przedstawimy taki test.
DEFINICJA. Niech X't—(xt , xt , ..., xim) będzie ciągiem kodowym
pewnego kodu. Ciąg sygnałów elementarnych (xt , x>^, ..., xij), gdzie /
nazywamy przedrostkiem ciągu kodowego Xt.
PRZYKŁAD 3.4. Ciąg kodowy 0111 ma cztery przedrostki: 0111, 011, 01 i 0.
Test, którego szukamy, może być obecnie sformułowany następująco:

Warunkiem koniecznym i dostatecznym na to, aby dany kod by! kodem
dekodowalnym bez opóźnienia, jest, aby żaden pełny ciąg kodowy tego kodu
nie był użyty jako przedrostek innego ciągu kodowego tegoż kodu.
Dostateczność spełnienia powyższego testu wynika bezpośrednio z po-
przedniej definicji kodu dekodowalnego bez opóźnienia. Jeżeli bowiem
żaden z ciągów kodowych nie jest przedrostkiem innego ciągu, to możemy
w prosty sposób dekodować dowolny ciąg sygnałów będący ciągiem ciągów
kodowych. Badamy po prostu kolejno odebrane sygnały elementarne
tak długo, aż dojdziemy do ciągu będącego pewnym ciągiem kodowym.
Musi to być przy tym faktycznie nadany ciąg kodowy, ponieważ przyjęliśmy,
że żaden ciąg kodowy nie może być przedrostkiem innego ciągu kodowego.
W ten sposób, nie wprowadzając opóźnienia, przeprowadzamy proces
dekodowania ciągu za ciągiem.
Konieczność spełnienia powyższego testu można wykazać przyjmując
sytuację przeciwną i dochodząc do sprzeczności. Przyjmijmy zatem, że ist-
nieje pewien ciąg w naszym kodzie, na przykład niech będzie to ciąg Xt,
który jest zarazem przedrostkiem innego ciągu kodowego Xj. Jeżeli więc
teraz będziemy przeszukiwali ciąg elementarnych sygnałów odebranych
i dojdziemy do ciągu Xit będzie to bądź kompletny ciąg kodowy, bądź
tylko pierwsza część ciągu Xj. Nie jesteśmy w stanie powiedzieć, która
z tych alternatyw jest prawdziwa, tak długo, dokąd nie zbadamy dalszych
3.3. K o d y d e k o d o w a l n e bez o p ó ź n i e n i a 67
sygnałów elementarnych podstawowego ciągu; tak więc kod ten nie jest
kodem dekodowalnym bez opóźnienia.
Nieblokowe
Kody Osobliwe Niejednoznacznie
Blokowe dekodowane
Nieosobliwe Z opóźnieniem
Jednoznacznie
dekodowane
Bez opóźnienia
3.1. Klasy kodów
W tym miejscu warto zestawić różne klasy kodów, z którymi dotychczas

mieliśmy do czynienia. Schemat 3.1 ilustruje drogę wiodącą nas poprzez
„gąszcze" klas kodów do klasy kodów dekodowalnych bez opóźnienia.
3.4. Konstruowanie kodów dekodowalnych bez opóźnienia
Istota ograniczeń nakładanych na kod, od którego wymagamy, by był

kodem dekodowalnym bez opóźnienia, może być właściwie zrozumiana
przy pewnych prymitywnych usiłowaniach syntezy kodu. Dokonajmy
próby syntezy binarnego kodu dekodowalnego bez opóźnienia dla źródła
wiadomości o zbiorze pięcioelementowym. Konstruowanie takiego kodu
moglibyśmy zacząć przyporządkowując wiadomości elementarnej i ! sygnał
elementarny 0
Gdybyśmy tak postąpili, wtedy przyporządkowując sygnały wszystkim

pozostałym wiadomościom musielibyśmy odpowiadające im ciągi kodowe
rozpoczynać sygnałem elementarnym 1. Jeżelibyśmy tego nie zrobili, zna-
leźlibyśmy się w sprzeczności z regułą (3.1). Nie możemy również dopuścić,
aby wiadomości s2 odpowiadał ciąg kodowy złożony z pojedynczego syg-
nału 1; w takiej sytuacji bowiem żaden sygnał nie pozostałby nam dla skon-
struowania pozostałych trzech ciągów kodowych. Moglibyśmy zastosować
przyporządkowanie
s 2 -+10.
5»
To z kolei wymagałoby od nas, abyśmy pozostałe ciągi kodowe zaczynali

sygnałami 11. Jeżeli
Sj-llO,
wtedy jedynym niezastosowanym jeszcze 3-elementowym przedrostkiem

byłby ciąg 111 i moglibyśmy kodować:
s4-1110,
s5->llll.
Zauważmy w jaki sposób w takim kodzie, poczynając od przyporząd-

kowania wiadomości i ! odpowiadającego jej sygnału elementarnego 0,
ograniczamy liczbę wchodzących w rachubę ciągów kodowych. Odkąd
dokonaliśmy takiego pierwszego kroku, musimy się ograniczyć do ciągów
kodowych zaczynających się od 1. Dlatego możemy oczekiwać, że jeżeli-
byśmy dwuelementowy ciąg kodowy przyporządkowali wiadomości slt
mielibyśmy więcej swobody przy następnych ciągach kodowych i nie za-
istniałaby konieczność uciekania się do stosowania takich długich ciągów
kodowych, jak ostatnie dwa ciągi w skonstruowanym tu kodzie. Aby spraw-
dzić to przypuszczenie przeprowadzimy obecnie, dla tego samego źródła
wiadomości, inną syntezę kodu binarnego.
Zaczniemy od przyporządkowania
Si-» 0 0 .
Teraz możemy przyporządkować
s2->01,
po czym mieć będziemy dwa przedrostki o długości 2, które dotąd nie były
stosowane. Możemy je zastosować tak, jak to pokazano niżej:
s3->10,
s4->-110,
s5->lll.
Nasuwa się pytanie: Który z kodów przez nas skonstruowanych jest

lepszy? Nie może ono jednak uzyskać odpowiedzi przy posiadanych przez
nas dotychczas informacjach. Dwa przykłady kodowania, jakie tu przepro-
wadziliśmy, pokazują, że przy konstruowaniu kodów bez opóźnienia,
3.4. Konstruowanie kodów dekodowalnych bez opóźnienia 69
jeżeli krótkimi uczynimy pierwsze kilka ciągów kodowych, będziemy mu-

sieli później zastosować dłuższe ciągi. Poprzez użycie 0 jako ciągu w pierw-
szym z kodów, ograniczyliśmy zasób pozostałych ciągów do ciągów za-
czynających się sygnałem 1. W drugim kodzie użyliśmy ciągu 00 jako pierw-
szego z ciągów kodowych. W tym przypadku mogliśmy uformować po-
zostałe ciągi zaczynając je od 1, a dodatkowo mogliśmy użyć ciągów za-
czynających się od 01.
3.5. Nierówność Krafta — sformułowanie i dyskusja
W paragrafie 3.4 dyskutowaliśmy w sposób jakościowy pewne warunki,

jakie spełnia długość ciągów kodowych kodu dekodowalnego bez opóź-
nienia. Warunki takie można też wyrazić w sposób ilościowy. Pozostała
część tego rozdziału będzie dotyczyła warunków, jakie spełniać muszą
długości ciągów kodowych kodu dekodowalnego bez opóźnienia.
Rozważmy kod dekodowalny bez opóźnienia, przyporządkowujący
elementom zbioru wiadomości
S = { s i , s 2 , ...,
ciągi kodowe zbudowane z sygnałów elementarnych, których zbiór ma pos-

tać A r ={x 1 , x2, x r }. Niech Xly X2, ..., Xq będą ciągami kodowymi.
Długość ciągu kodowego Xt (tzn. liczbę sygnałów elementarnych, z któ-
rych ciąg taki jest zbudowany) oznaczymy przez /¡. W praktyce wymaga
się często, aby długość ciągu kodowego była możliwie najmniejsza. Wa-
runki konieczne i dostateczne istnienia kodu dekodowalnego bez opóź-
nienia z ciągami kodowymi o długościach 12, ..., lq są określone nie-
równością Krafta (1949).
Warunkiem koniecznym i dostatecznym istnienia kodu dekodowalnego
bez opóźnienia z ciągami kodowymi o długościach / 1 ; l 2 , ..., lq jest, aby
spełniona była nierówność:
(3.2) |>-"<1,
i— 1
gdzie r jest liczbą różnych sygnałów elementarnych, z których zbudowane

są ciągi kodowe.
W szczególnym przypadku kodu binarnego, z nierówności Krafta wy-

nika, że /f musi spełniać warunek
(3.3) E2"'<<1,
i= 1
gdzie sumowanie rozciągnięte jest na wszystkie ciągi kodowe kodu bloko-
wego. Zanim udowodnimy tę nierówność, pouczającym będzie, jeśli po-
każemy, jak można z niej korzystać celem określenia, czy dana długość
ciągu /; jest możliwa do przyjęcia jako długość ciągu kodowego kodu
dekodowalnego bez opóźnienia. Weźmy źródło wiadomości o zbiorze
zawierającym elementy st, s2, s3 i s4. W tablicy 3.6 wymienionych jest
pięć możliwych kodów b narnych, którymi się można posłużyć przy kodo-
waniu wiadomości pochodzących z tego źródła.
TABLICA 3.6. Pięć kodów binarnych
Wiadomości
Kod s/ Kod a Kod <ś Kod a Kod g
elementarne •
Ji 00 0 0 0 0
Sl 01 100 10 100 10
Sl 10 110 110 110 110
Są 11 111 111 11 11
Obliczymy teraz wartość sumy £ 2 dla każdego z tych kodów. Jak widać,
¡=i
dla kodu si mamy
4
Z2_'' = 2 - 2
+2 - 2
+ 2~2+2 - 2
= l,
i= 1
stąd wynika, że długości ciągów kodowych kodu s / mogą być przyjęte
jako długości ciągów kodowych kodu dekodowalnego bez opóźnienia.
Zauważmy jednak, że nierówność Krafta nie mówi nam, że kod s4 jest
kodem dekodowalnym bez opóźnienia. Nierówność ta stanowi warunek
narzucony jedynie na długość ciągów kodowych, nie zaś na same te ciągi.
W szczególności, w rozważanym przypadku, z nierówności tej wynika,
że istnieje kod dekodowalny bez opóźnienia, zawierający cztery ciągi kodowe
każdy o długości 2. Jest jednak oczywiste, że w tym przypadku nie tylko
długości ciągów kodowych kodu sś spełniają nierówność Krafta, lecz także,
że i same te ciągi tworzą kod bez opóźnienia.
3.5. Nierówność Krafta — sformułowanie i dyskusja 71
W przypadku kodu 38 otrzymujemy odpowiednio

4
X2"', = 2"1 + 2"3 + 2"3 + 2 " 3 =

¡=I
Widzimy tu znowu, że długości ciągów kodowych mogą być przyj-

mowane jako długości ciągów kodowych kodu dekodowalnego bez opóź-
nienia. Natomiast z analizy samych ciągów kodowych tego kodu wynika,
że kod 38 spełnia warunek (3.1), a zatem istotnie jest kodem dekodowalnym
bez opóźnienia. Kod <<? jest identyczny z kodem 38 z wyjątkiem tego,
że drugi z ciągów kodowych ma opuszczony jeden binit. Otrzymujemy
tutaj odpowiednio
4
_ 1 2
£2-'' = 2 +2~ + 2~3 + 2~3 = l ,
¡=1
co oznacza, że długości ciągów kodowych znowu spełniają nierówność

Krafta.
Analogicznie jak poprzednio przekonujemy się, że kod jest kodem
dekodowalnym bez opóźnienia. Również kod 2> powstaje z kodu 38 przez
opuszczenie jednego binitu (tym razem dotyczy to czwartego ciągu). Stwier-
dzamy również, że ciągi kodowe kodu spełniają nierówność Krafta.
Jak poprzednio wspomnieliśmy, nie gwarantuje to jednak, że kod 2 jest
dekodowalny bez opóźnienia; istotnie — widzimy, że czwarty ciąg kodowy
jest przedrostkiem trzeciego ciągu. Warunek (3.1) nie jest zatem spełniony
i kod 2 nie jest kodem dekodowalnym bez opóźnienia. Wreszcie w przy-
padku kodu 8, danego również w tablicy 3.6, otrzymujemy
4
i i
£2- = 2~1 + 2 _ 2 + 2 - 3 + 2 - 2 = l i .
i= 1
W tym przypadku dalsze badania nie są konieczne. Ciągi kodowe
tego kodu nie spełniają nierówności Krafta, zatem kod 8 nie może być
kodem blokowym dekodowalnym bez opóźnienia.
Rozważmy jeszcze jeden przykład, zanim przystąpimy do dowodzenia
nierówności Krafta. Załóżmy, że chcemy zakodować wyjście źródła o zbio-
rze 10-elementowym S={0, 1, 2, ..., 9} w kodzie binarnym dekodowal-
nym bez opóźnienia. Załóżmy dalej, że z pewnych względów należy wia-
domościom 0 i 1 pochodzącym z takiego źródła przyporządkować stosun-
kowo krótkie ciągi kodowe. Rozsądne jest postawienie takiego wymagania,
gdy źródło wytwarza znacznie więcej zer i jedynek niż dwójek, trójek itd.
Jeżeli kodowalibyśmy zera i jedynki w sposób następujący ( ł ):
(3.4,
1->10,
wtedy moglibyśmy być zainteresowani w znalezieniu odpowiedzi na pytanie:

Jak uczynić pozostałe ciągi kodowe możliwie najkrótszymi? Jeżeli żądamy
przy tym, aby wszystkie ciągi kodowe miały tę samą długość, powiedzmy /,
wtedy nierówność Rrafta daje nam prostą odpowiedź na to pytanie. Z nie-
równości tej bowiem w rozważanym przypadku wynika następujący wa-
runek :
(3.5) ¿2-'<<l.
i= 0
Przyjęliśmy / 0 = 1, /i = 2 i /2 = / 3 = ... = / 9 = /. Podstawiając te wartości

do wzoru (3.5) otrzymujemy
i+ł+8(2-')<l
lub
(3.6) Z>5.
TABLICA 3.7. Kod binarny dla cyfr
dziesiętnych
Cyfry dziesiętne Kod binarny
0 0
1 10
2 11000
3 11001
4 11010
5 11011
6 11100
7 11101
8 11110
9 11111
(') Nie możemy oczywiście stosować przyporządkowania 0->0 i 1-+1, ponieważ

wyczerpałoby to wszystkie możliwe jednobinitowe przedrostki zanim zakodowali-
byśmy pozostałe osiem elementów zbioru; na skutek tego nie bylibyśmy w stanie
skonstruować kodu dekodowalnego bez opóźnienia.
Znalezienie kodu dokodowalnego bez opóźnienia, przy założeniu / < 5,

nie jest więc możliwe. Z nierówności Krafta wynika, że taki kod istnieje
dla / równego 5, lecz nierówność ta nie mówi, jak skonstruować taki kod.
Nietrudno go jednak znaleźć; jest on przedstawiony w tablicy 3.7.
3.6. Nierówność Krafta — dowód
W poprzednim paragrafie przedstawiliśmy nierówność Krafta oraz po-

daliśmy przykłady, których zadaniem było pomóc czytelnikowi w zrozu-
mieniu istoty ograniczeń nakładanych przez tę nierówność. Obecnie —
uwzględniając wnioski płynące z poprzednich rozważań — przystąpimy
do dowodu tej nierówności.
Najpierw wykazaliśmy, że spełnienie nierówności Krafta jest warunkiem
dostatecznym istnienia kodu dekodowalnego bez opóźnienia; dokonaliśmy
tego, konstruując kod dekodowalny bez opóźnienia spełniający nierówność
(3.7) tr-'«<l.
¡=i
Załóżmy, że dane są długości ciągów kodowych h , l 2 , •••, lq spełniające

nierówność (3.7) oraz że chcemy skonstruować kod dekodowalny bez opóź-
nienia, zawierający takie ciągi. Założone długości ciągów mogą, ale nie
muszą, być różne. Jak się przekonamy, wygodnie będzie jednocześnie roz-
ważać wszystkie ciągi kodowe o danej długości.
Oznaczmy zatem przez n 1 liczbę ciągów kodowych o długości 1, przez
«2 — liczbę ciągów o długości 2, itd. Jeżeli największą spośród długości
jest /, mamy
(3.8) £ > , = <Z.

¡=i
Możemy obecnie przepisać wzór (3.7) stosując w nim zmienne «¡. Suma
we wzorze (3.7) zawiera w, składników postaci r _ 1 , n2 składników postaci
r~2 itd. Wzór (3.7) przyjmuje zatem postać następującą:
(3.9) ¿n(r-'< 1
lub, po pomnożeniu obydwu stron przez rl,
(3.10) ¿«¡r^r'.
¡=1
Rozwijając sumę po lewej stronie znaku nierówności i przenosząc na prawą
stronę wszystkie jej składniki z wyjątkiem ostatniego otrzymujemy
(3.11) ul^rl-nl rl~1-n2rl~1-...-nl-.lr.
Ze wzoru (3.11) możemy w prosty sposób otrzymać następujący interesujący

ciąg nierówności:
(3.11') nI_1<r'-1-n1r'-2-n2r'-3-...-«,_2r,
(3.11") n3^r3-n1r2-n2r,
(3.11"') n2^r2-nir,
(3.11 IV ) n^r.
Ciąg tych nierówności jest kluczem do konstrukcji kodu, jakiego szu-

kamy. Chcemy utworzyć n t ciągów o długości 1. Stosując kod, którego ciągi
kodowe zbudowane są z r sygnałów elementarnych, ciągi, o które nam
chodzi, możemy utworzyć na r możliwych sposobów. Ponieważ ni
możemy wybrać te n l sygnałów elementarnych w sposób dowolny. Uczy-
nimy więc tak; pozostanie nam wówczas r—nY możliwych przedrostków,
tych mianowicie, które nie zostały użyte jako ciągi kodowe. Dodając po
jednym sygnale elementarnym do każdego z tych przedrostków możemy
utworzyć
(3.12) ( r - n x ) r = r2 - n , r
ciągów kodowych o długości 2. Tymczasem relacja (3.11"') informuje nas,

że ciągów kodowych o długości 2 nie potrzeba więcej, niż wynosi ich liczba
określona równaniem (3.12).
Wybierzmy dowolnie — tak jak czyniliśmy poprzednio — n2 ciągów
kodowych spośród będących do dyspozycji r2—ntr ciągów; pozostanie
nam wówczas
(r2-n1 r)—n2
niewykorzystanych przedrostków o długości 2, z których możemy utworzyć
(3.13) O 2 — n1r — n2)r = r3 — nt r2 — n2r
3.6. Nierówność Krafta — dowód 75
dopuszczalnych przedrostków o długości 3. I znowu z relacji (3.11") wia-

domo, że nie potrzeba ich więcej niż wynosi liczba dana wzorem (3.13); wy-
bieramy zatem potrzebną ilość ciągów o długości 3 dowolnie spośród pozo-
stających do dyspozycji. Procedurę taką możemy kontynuować aż do utwo-
rzenia wszystkich ciągów naszego kodu. Relacje (3.11) - (3.11") zapewniają
nas, że na każdym etapie pozostaje dostateczna ilość przedrostków.
Skoro wykazaliśmy, że spełnienie zależności (3.7) (iub, co temu jest rów-
noważne, (3.9)) jest dostatecznym warunkiem skonstruowania kodu de-
kodowalnego bez opóźnienia, zawierającego ciągi kodowe o długościach
h , ¡i> •••> lą> t o J u ż stosunkowo łatwo można wykazać, że ta nierówność
jest także warunkiem koniecznym. W tym celu należy tylko odwrócić ar-
gumenty, którymi się już posługiwaliśmy. Zamiast szczegółowego przepro-
wadzania tej procedury, udowodnimy znacznie silniejszą zależność.
3.7. Nierówność McMillana
W poprzednim punkcie wykazaliśmy, że nierówność
(3.14) i>-''<l
¡=i
jest dostatecznym warunkiem, jaki spełniać mają długości ciągów kodowych

kodu dekodowalnego bez opóźnienia; dokonaliśmy tego pokazując, jak
skonstruować taki kod, jeżeli długości ciągów kodowych są dane. Ponie-
waż kody dekodowalne bez opóźnienia stanowią podklasę kodów jedno-
znacznie dekodowalnych, warunki dostateczności stosują się także do kodów
jednoznacznie dekodowalnych, tzn. możemy skonstruować kod jednoznacz-
nie dekodowalny o długościach ciągów kodowych , 1 2 , ..., I q , jeżeli te dłu-
gości spełniają nierówność (3.14).
Natomiast z dowodu tego, że nierówność Krafta jest warunkiem ko-
niecznym dla kodu dekodowalnego bez opóźnienia, nie wynika, że jest
ona warunkiem koniecznym dla kodów jednoznacznie dekodowalnych.
Dowód tego, iż relacja (3.14) jest warunkiem koniecznym istnienia
kodów jednoznacznie dekodowalnych, jak również kodów dekodowalnych
bez opóźnienia, przeprowadził po raz pierwszy McMillan (1956). Dowód
podany przez McMillana był następnie uproszczony przez Karusha (1961).
Rozważmy sumę
(3.15) ( £ r "'')"= (r"' 1 + r - ' 2 + . . . + r " ' ' ) n .
i=l
Gdy to wyrażenie rozwiniemy, będzie ono zawierać q" wyrazów postaci
(3.16) r -^-lh---''n = r - k
i
gdzie
(3.17) l h + /¡2 + ... + /,„ = fc.
Tak jak w poprzednim paragrafie, oznaczymy przez / maksymalną spośród

długości ciągów kodowych. Wówczas A; będzie mogło przyjmować wartości
od n do nl. Oznaczmy przez Nk liczbę wyrazów postaci r~k we wzorze (3.15).
Wtedy:
(3.18) (i>-'<)"= T,Nkr~k.

¡=1 k=n
Ale ze wzoru (3.17) wynika, że Nk określa liczbę ciągów kodowych zawie-
rających po n ciągów kodowych, przy czym każdy ciąg ciągów kodowych
jest tak uformowany, że zawiera dokładnie k sygnałów elementarnych.
Jeżeli dany kod jest jednoznacznie dekodowalny, Nk nie może być większe
od rk, tzn. od liczby różnych r-narnych ciągów o długości k. Tak więc
mamy:
(3.19) (Z>-'<)"< Y S r - ^ n l - n + l ^ n l .
i= 1 k=n
Równanie (3.19) stanowi dowód, którego poszukiwaliśmy, bowiem jeżeli
.v> 1, to x">nl, dla n dostatecznie dużych. Równanie (3.19) obowiązuje
dla dowolnego całkowitego n, zatem musi być spełniona nierówność
(3.20)
i=l
3.8. Przykłady
Rozdział poświęcony omówieniu niektórych własności kodu zakoń-

czymy dwoma dalszymi ilustracjami nierówności Krafta i przykładem kon-
struowania kodu bez opóźnienia.
3.7. Nierówność McMillana 77
Pierwszy z przykładów jest następujący: Załóżmy, że chcemy zakodować

wyjście źródła o zbiorze liczącym 10 elementów w binarnym kodzie de-
kodowalnym bez opóźnienia, zawierającym ciągi kodowe o długościach
1, 2, 2, 2, 2, 2, 3, 3, 3, 3. Używając jako testu nierówności Krafta, znajdu-
jemy
10
J
Ł , J
3 T
9 27 2 7 ^ x
•
¡=1
Znalezienie kodu dekodował nego bez opóźnienia o takich długościach

słów kodowych nie jest więc możliwe.
A oto drugi przykład: Załóżmy, że chcemy zakodować wyjścia dziewię-
cioelementowego źródła wiadomości w binarnym kodzie dekodowalnym
bez opóźnienia, z ciągami kodowymi o długościach 1, 2, 2, 2, 2, 2, 3, 3, 3.
Obecnie stosując nasz test otrzymujemy
1= 1
Zatem znalezienie takiego kodu jest możliwe. Jest to kod następujący:
Si-+0,
s 2 ->10,
53^11,
s 4 -> 12,
s 5 ->20,
S 6 -»21,
s 7 -+ 220,
S 8 ->221 ,
s 9 ->222.
Zauważmy, że konstrukcja powyższego kodu ilustruje metodę kodo-

wania zastosowaną przy dowodzeniu nierówności Krafta. Zastosowaliśmy
jeden przedrostek o długości 1 (przedrostek 0) i w ten sposób w przypadkach
pozostałych ciągów kodowych ograniczyliśmy się do dwóch przedrostków
o długości 1. Daje to nam sześć dozwolonych ciągów kodowych o długości 2.
Z tego wykorzystano pięć możliwych ciągów, zachowując szósty ciąg 22
jako przedrostek dla trzech ostatnich ciągów kodowych.
78 3. Niektóre własnośti kodów
UWAGI
1. Metodę konstruowania kodu nieblokowego, który jest kodem jednoznacznie

dekodowalnym w sensie potocznym (ale nie w sensie określonym w paragrafie 3.2)
zawdzięczamy Eliasowi. Dla zilustrowania jego metody rozważmy bezpamięciowe
źródło wiadomości binarnych A i B, wytwarzające te wiadomości z prawdopodobień-
stwami wynoszącymi odpowiednio 0,7 i 0,3. Dowolny nieskończony ciąg wiadomości
pochodzących z takiego źródła możemy przedstawić jako punkt na osi liczbowej,
mieszczący się w przedziale <0, 1), tak jak to pokazano na rysunku niżej. (Ciągi
5
BAB A AB • • • I 6. I J
0 0.7 1.0
S
__J j AA , AB ! BA ,BBI
0 0,49 0,70 0 , 9 1 1,0
rozpoczynające się od A są zaliczane do przedziału <0, 0 , 7 ) , ciągi rozpoczynające się

od AB — do przedziału < 0 , 4 9 , 0 , 7 0 ) itd.). Aby zakodować dany ciąg wytworzony
przez to źródło wystarczy tylko każdemu z punktów w przedziale <0, 1> przyporząd-
kować wiadomość-ciąg, dodając odpowiednio symbol binarny, tak jak to niżej poka-
zano.
l 0 , 1 j
0 0,5 1,0
1 oo .oi i io • n
O 0,25 0,50 0 75 1.0
Zauważmy, że nie jest konieczne, by ciąg binarny był w całości odebrany, zanim
zaczniemy dekodowanie. Na przykład, jeżeli ciąg binarny rozpoczyna się od 011 . . . ,
wiemy, że reprezentujący go punkt musi leżeć pomiędzy 0,375 i 0,50, wynika stąd,
że pierwszą z wiadomości wytworzonych przez źródło musiałaby być A. Jeżeli ciąg
binarny zaczyna się od 0110, reprezentujący go punkt musi leżeć pomiędzy 0,375
i 0,4375; stąd pierwszymi trzema wiadomościami musiały być AAB.
Koncepcja ta jest podstawą modyfikacji dowodu pierwszego twierdzenia Shan-
nona (paragraf 4.3, rozdział 4, uwaga 1) przeprowadzonej przez Biilingsley'a (1961).
Przedstawił on ciąg wytworzony przez źródło wiadomości jako punkt na odcinku
jednostkowym i zastosował rezultaty wynikające z teorii wymiarów Hausdorffa
aby wykazać, że naturalny zapis o podstawie r jest najbardziej efektywnym opisem
tego punktu.
2. Jedno z najbardziej interesujących zastosowań koncepcji dyskutowanych
w rozdziale 3 dotyczy kodowania genetycznego (Golomb 1961, 1962). Stwierdzono,
że ogromna ilość informacji konieczna dla określenia struktury biologicznej dowolnego
organizmu żywego jest zawarta w chromosomach rodziców. Mówiąc dokładniej:
nośnikiem informacji genetycznej jest kwas deoxyribonukleinowy ( D N A ) zawarty
Uwagi 79
w chromosomach. W roku 1953 Crick i Watson pokazali, że D N A występuje w postaci

podwójnych spiral. Spirale te można traktować jako rezultat połączenia ciągu czterech
nukleotydów, które zawierają wiadomości genetyczne. Nukleotydy te zwykle ozna-
czone symbolami A, C, G i T (skróty nazw adenina, cytosina, guanina, thynina)
odpowiadają dyskutowanym w rozdziale 3 sygnałom elementarnym, z których zbudo-
wane są ciągi kodowe. Doświadczenie pokazuje nam zatem, że natura operuje kodami
o czterech sygnałach elementarnych. Za pomocą tego rodzaju sygnałów zakodowa-
nych zostaje około dwudziestu aminokwasów, które muszą być wyprodukowane
przez nowe systemy biologiczne. Określenie sposobu, według którego nukleotydy
(A, C, G ,T) są układane, aby zakodować różne aminokwasy, jest zasadniczym pro-
blemem kodowania genetycznego.
ZADANIA
3.1 Kod dekodowalny bez opóźnienia ma ciągi kodowe o długościach /,,

l 2 , . . . , / „ , które spełniają nierówność
Y r - ' < < 1.
Zbiór sygnałów elementarnych, z których zbudowane są te ciągi, ma postać X=

— {*i> Xi, ..., xr). Wykazać, że w tym przypadku istnieją ciągi sygnałów elemen-
tarnych
XI , XI , XI, . . . , które nie mogą być dekodowane jako ciągi kodowe.
3.2. Źródło wiadomości ma sześć możliwych wyjść, których prawdopodobieństwa
są dane w tablicy Z.3.2. Rozważa się użycie jednego z kodów s/, £H, V, 9, S i & ,
które są dane również w tej tablicy.
a) Które z tych kodów są jednoznacznie dekodowalne?
b) Które są kodami dekodowalnymi bez opóźnienia?
c) Znaleźć średnią długość L dla wszystkich kodów jednoznacznie dekodowal-
nych. TABLICA Z . 3 . 2
Wyjście 1
P(i<) % 9 <r
źródła
1
Sl 2 000 0 0 0 0 0
1
SI 4 001 01 10 10 10 100
1
S3 16 010 011 110 110 1100 101
i
s4 7« 011 0111 1110 1110 1101 110
i
SS 16 100 01111 11110 1011 1110 111
t
S6 16 101 011111 111110 1101 1111 001
80 3. Niektóre własnośti kodów
3.3. a) Które ze zbioru długości ciągów kodowych pokazanych w tablicy Z.3.3

wchodzą w rachubę w przypadku kodu jednoznacznie dekodowalnego, gdy zbiór
sygnałów elementarnych kodu ma postać X = { 0 , 1 , 2 } ?
b) Skonstruować kod dekodowalny bez opóźnienia dla każdego zbioru możli-
wych do przyjęcia długości z tej tablicy.
TABELA Z . 3 . 3
Długości ciągów kodowych /,

1 2 3 4 5
Liczba ciągów kodowych o długości lt w każdym

z kodów:
Kod sł 2 1 2 4 1
Kod 3S 2 2 2 3 1
Kod if 1 4 6 0 0
Kod 2 2 2 2 2 3
3.4. Źródło bezpamięciowe ma zbiór elementów S= {a, b, c), których średnie

prawdopodobieństwa wynoszą 0,6, 0,3 i 0,1. Wyjścia tego źródła są kodowane w kodzie
binarnym nieblokowym przy użyciu metody opisanej wyżej w uwadze 1. Znaleźć
tyle, ile tylko jest możliwe, początkowych binitów ciągu kodowego odpowiadającego
ciągowi: acbcaab ...
4. KODOWANIE WIADOMOŚCI
4.1. Średnia długość ciągu kodowego
W rozdziale 3 pokazaliśmy, jak należy konstruować kody dekodo-

walne bez opóźnienia, przyporządkowujące wyjściom źródła wiadomości
ciągi kodowe zbudowane jako ciągi sygnałów elementarnych. Jednakże
dla danego źródła wiadomości i danego zbioru sygnałów elementarnych
możemy skonstruować wiele kodów bez opóźnienia lub kodów jednoznacz-
nie dekodowalnych. Ta obfitość możliwych do przyjęcia kodów zmusza
nas do znalezienia kryterium wyboru kodu optymalnego w takim zbiorze
kodów. Wydaje się, że naturalnym, aczkolwiek nie jedynym możliwym,
kryterium takiego wyboru jest długość ciągu kodowego.
Istotnie, kryterium takiego używaliśmy już explicite w przykładach w roz-
dziale 1 i implicite w różnych naszych późniejszych dyskusjach dotyczących
kodowania.
Jeżeli nawet nie wchodzą w rachubę inne względy, to choćby z punktu
widzenia zwykłej ekonomii wypowiedzi i ogólnej ekonomii urządzeń tele-
komunikacyjnych wolimy kod z wieloma krótkimi ciągami od kodu z wie-
loma długimi ciągami. Zdefiniujemy zatem średnią długość kodu (ciągu
kodowego — przyp. tłum.).
DEFINICJA. Niech kod blokowy odwzorowuje wiadomości J , , s2, •••, sq
w ciągi kodowe Xlt X2, ..., Xą. Niech prawdopodobieństwa tych wiado-
mości będą równe Pl3 P2 Pq oraz niech długości odpowiednich ciągów
kodowych będą równe llyl2, ...,/,. Wówczas średnią długość ciągu kodowego
L definiujemy wzorem
(4-1) L=lP(/i.
6 Teoria Informacji
82 4. Kodowanie wiadomości
W dalszym ciągu zajmiemy się znalezieniem kodu o możliwie najmniej-

szej średniej długości ciągu kodowego.
DEFINICJA. Rozważmy kod jednoznacznie dekodowalny, przyporząd-

kowujący elementom źródła wiadomości S ciągi kodowe zbudowane
z sygnałów elementarnych, których zbiór zawiera r elementów. Kod taki
będziemy nazywali kodem zwięzłym (dla źródła 5), jeżeli jego średnia dłu-
gość jest mniejsza lub równa średniej długości wszystkich innych jednoznacz-
nie dekodowalnych kodów dla tego samego źródła wiadomości i tego sa-
mego zbioru sygnałów elementarnych.
W oparciu o te dwie definicje podstawowy problem kodowania wia-
domości możemy sformułować jako problem znajdywania kodów zwięzłych.
Zauważmy, że obydwie przedstawione tu definicje odnoszą się tylko do dłu-
gości ciągów kodowych, a nie do samych ciągów. Dlatego też, możemy ogra-
niczyć się w naszych poszukiwaniach kodów zwięzłych do klasy kodów
dekodowalnych bez opóźnienia (paragraf 3.7). Nierówność McMillana
upewnia nas o tym, że dowolny zbiór długości ciągów kodowych uzyskany
w przypadku kodu jednoznacznie dekodowalnego uzyskiwany jest także
w przypadku kodu dekodowalnego bez opóźnienia. Zatem pierwszym
krokiem naszych poszukiwań będzie znalezienie minimalnej wartości L
możliwej do uzyskania w przypadku kodu dekodowalnego bez opóź-
nienia.
Wprowadzona przez nas definicja L dotyczy zarówno źródeł bezpamię-
ciowych, jak i źródeł Markowa. Jednak, aby uprościć rozważania, ograni-
czymy się chwilowo do źródeł bezpamięciowych. W paragrafie 4.4 usuniemy
to ograniczenie.
Rozważmy bezpamięciowe źródło wiadomości o zbiorze zawierają-
cym elementy Sj, s2, ..., sq, których prawdopodobieństwa wynoszą P^, P2,
..., Pq. Niech kod blokowy przyporządkowuje wyjściom tego źródła ciągi
kodowe zbudowane z sygnałów elementarnych, których zbiór zawiera r
elementów, i niech długości ciągów kodowych odpowiadających wyjściom st
będą równe ¡¡. Entropia takiego źródła bezpamięciowego wynosi
(4.2) H(S)= — £ Pt log Pi.

¡=i
Niech Qą, Q2,..., Qq stanowią zbiór pewnych q liczb takich, że 0 dla

4.1. Średnia długość ciągu kodowego 83
4
wszystkich i oraz £ Q i = l. Wówczas — na mocy nierówności (2.8) mamy
¡=i
(4.3) ZiVog|<i;iVogl
1=1 "i ¡ = 1 V.i
przy czym równość zachodzi tu wtedy i tylko wtedy, gdy P; = dla wszyst-
kich i. Stąd
(4.4) i / ( S X - £ p , log&,
i=l
przy czym równość zachodzi wtedy i tylko wtedy, gdy Pt = Qi dla wszyst-
kich i.
Równanie (4.4) jest spełnione dla dowolnego zbioru nieujemnych
liczb Qt, których suma równa się jedności. Możemy zatem przyjąć
r-u
(4.5) ft —5
i=l
po czym otrzymujemy:
(4.6) H(S)<- Z Pi(logr"'0+ E P,(log £

¡=i ¡=i
< l o g r X Ptlt+log( t r"'0<

¡=i ;=i
4
«SLlogr + log X r-1'.
J=i
Jeżeli uwzględnimy założenie, że nasz kod ma być kodem dekodowalnym
bez opóźnienia, wówczas z nierówności Krafta wynika, że argument dru-
giego z logarytmów po prawej stronie wzoru (4.6) musi być mniejszy lub
równy jedności. Wartość logarytmu, o którym mowa, jest zatem mniejsza
lub równa zero, a wobec tego
(4.7') H(S)śLlogr
lub
(4.7")
log r
Wielkość H(S) występująca we wzorze (4.7') mierzona jest w bitach.
6*
Przypomnijmy, że L jest średnią liczbą sygnałów r-narnych( 1 ) używanych

do kodowania elementów zbioru S. Jeżeli entropię będziemy mierzyli także
w jednostkach r-narnych, tak jak we wzorze (2.5"), wtedy wzór (4.7")
będziemy mogli przepisać następująco:
(4.7"') Hr(S)^L.
4.2. Metoda kodowania w przypadku źródeł specjalnych
Nietrudno zauważyć, że zależność dana wzorem (4.7) stanowi kamień

milowy w naszych studiach nad teorią informacji. Równanie to jest pierw-
szym przykładem ilustrującym związek pomiędzy naszą definicją miary
ilości informacji i wielkością (w tym przypadku L), która jest niezależna
od tej definicji. Od wzoru (4.7) zaczynamy obecnie proces weryfikacji
naszej miary ilości informacji.
Na pozór zależność (4.7) stanowi jedynie pewne ograniczenie nałożone
na L — średnią długość ciągu kodowego w kodzie bez opóźnienia. W pew-
nych przypadkach jednak, dyskutując to równanie, można wykazać znacznie
więcej. Zbadajmy zatem uważnie warunki, przy których we wzorze (4.7)
zachodzi równość. Nierówność (4.7) była wyprowadzona w dwóch punk-
tach: najpierw we wzorze (4.4) oraz po raz drugi, gdy we wzorze (4.6)
opuściliśmy drugi człon. Ze wzoru (4.6) wynika, że warunkiem koniecznym
zachodzenia równości we wzorze (4.7) jest, aby suma
(4.8) t r~l' = 1.
Zatem powracając do wzoru (4.4) stwierdzamy, że koniecznym i dosta-

tecznym warunkiem na to, aby zależność ta stała się równością, jest, aby
r-u
(4.9) pi = Qi = — = r u dla wszystkich i
J
lub '1
(4.9') log r — = / j dla wszystkich i.
(') r-narnym nazywamy sygnał mogący przyjmować r różnych postaci (przyp.

4łum.).
4.2. Metoda kodowania w przypadku źródeł specjalnych 85
Reasumując poprzednie rozważania możemy stwierdzić, że dla kodu

dekodowalnego bez opóźnienia i źródła bez pamięci, L musi być większe
lub równe Hr(S). Zatem L może osiągnąć tę dolną granicę wtedy i tylko
wtedy, gdy długości ciągów możemy uczynić równymi log/l/P,) dla
każdego i. Aby więc zachodziła równość, log P (l/P,) musi być liczbą cał-
kowitą dla każdego i. Skądinąd widzimy, że aby zachodziła ta równość,
prawdopodobieństwa wiadomości muszą mieć postać (1 ¡r)", gdzie a,
jest całkowite. Zauważmy jako pewną dodatkową gratkę, że jeżeli warunki
te są jednocześnie spełnione, to otrzymujemy od razu długości ciągów kodo-
wych kodu zwięzłego. Przyjmujemy wówczas po prostu /f równe ot;. Gdy
już określiliśmy długości tych ciągów, dalszą konstrukcję kodu zwięzłego
przeprowadzamy zgodnie z procedurą przedstawioną w punkcie 3.8.
PRZYKŁAD 4.1. Obecnie możemy już odpowiedzieć na niektóre z pytań doty-
czących kodowania postawionych w rozdziale 1. W tablicy 4.1 przytaczamy jeszcze
raz własności źródła bezpamięciowego przedstawionego po raz pierwszy w tablicy-
1.4.
TABLICA 4.1. Źródło wiadomości
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne s(
tarnej P,
Sl i
Si i
S3 i '
SĄ i
Obliczmy entropię tego źródła
4
1
H—Y Pt l o g — = 2 bity na wiadomość.
M Pt
Ze wzoru (4.7"') wynika, że zakodowanie wiadomości pochodzących z tego źródła
w kodzie binarnym, jednoznacznie dekodowalnym, o średniej długości L mniejszej
NIŻ 2 binity na pojedynczą wiadomość, jest niemożliwe. Każda wiadomość wytwarza-
na przez to źródło ma prawdopodobieństwo i = 0ł) 2 ,a zatem wobec (4.9') kod zwięzły
musi zawierać cztery ciągi kodowe o długości 2. Kod taki był przedstawiony w roz-
dziale 1. A oto ten kod:
5,-» 00,
j2-ł01,
i3-»10,
s4-»ll.
Średnia długość ciągu kodowego w takim kodzie wynosi 2 binity na wiadomość; nie
istnieje jednoznacznie dekodowalny kod odpowiadający rozważanemu źródłu wia-
domości, o mniejszej średniej długości ciągu kodowego.
W tablicy 1.5 opisaliśmy inne źródło bezpamięciowe, jego własności ilustruje
tablica 4.2.
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne st
tarnej Pt
Sl ł
i
J3 ł
SĄ i
Entropia tego źródła wynosi
* i
y Pi log — log 2 log 4 l o g 8 log 8 =
1=1 n
= l j bita na wiadomość.
Zatem najmniejsza możliwa średnia długość ciągu kodowego, jaką jesteśmy w stanie
uzyskać stosując kod binarny dekodowalny bez opóźnienia, wynosi dla takiego źródła
binita na wiadomość. Najlepszym rezultatem, jaki mogliśmy osiągnąć w rozdziale 1,
była średnia długość wynosząca 11 binita na wiadomość. Jednakże w przypadku
rozważanego źródła prawdopodobieństwa wszystkich jego elementów są wielkościami
postaci (i)*', gdzie a, jest całkowite, zatem jest możliwe osiągnięcie dolnej granicy
wynoszącej 1J binita na wiadomość. Ze wzoru (4.9') widać, że zachodzić to będzie
w przypadku, w którym uczynimy długości słów równe odpowiednio 1,2,3,3. Szukany
kod przedstawia się zatem następująco:
s2-+10,
i3-»110, •
j4->lll.
Dla kontroli znajdujemy bezpośrednio L
4
¿ = Y p ( / I = 1J binita na wiadomość.
i= i
PRZYKŁAD 4.2. Jako ostatnią ilustrację kodowania, w którym można osiągnąć
dolną granicę daną równaniem (4.7), rozważmy źródło bezpamięciowe o zbiorze
siedmioelementowym, którego własności opisane są w tablicy 4.3.
Prawdopodobieństwo
Wiadomości
wiadomości elemen-
elementarne st
tarnej P,
i
Sl T
i
T
i
s3 ~9
1
S4 ~9
1
is 27
1
S6 27
1
«7 27
Załóżmy, że chcemy skonstruować dla tego źródła trinarnyO kod dekodowalny

bez opóźnienia. Najpierw obliczymy entropię rozważanego źródła (używąjąc — dla
uproszczenia obliczeń — jednostek trinarnych( 2 )). Mamy:
7 1 13
H z = ^ P i l o g 3 — j e d n o s t e k trinarnych na wiadomość,
i-i Pt
co oznacza, że w przypadku takiego źródła nie można skonstruować trinarnego kodu
bez opóźnienia, który zużywałby średnio mniej niż " sygnałów trinarnych na wia-
domość. Możemy jednakże skonstruować kod, którego średnia długość i tę wartość
osiąga, a to dlatego, że prawdopodobieństwa P, są wielkościami postaci (J)"', gdzie
a, jest całkowite. Obliczając potrzebne długości ciągów kodowych ze wzoru (4.9'),
otrzymujemy kod następujący:
si~>0,
¿3-20,
i s-»220,
S6-+221 ,
i 7 -222.
Dla sprawdzenia obliczamy
7
L:
L=Y_, Pt symboli trinarnych na wiadomość.
(') tzn. kod, którego ciągi kodowe zbudowane są z sygnałów mogących przyj-
mować jedną z trzech możliwych postaci (przyp. tłum.).
( 2 ) tzn. logarytmów o podstawie 3 (przyp. tłum.).
4.3. Pierwsze twierdzenie Shannona
Problem kodowania w przypadku źródeł bezpamięciowych z prawdo-

podobieństwami poszczególnych wiadomości postaci (l/r)" został więc
rozwiązany. Zwrócimy teraz uwagę na źródła bezpamięciowe z dowolnymi
prawdopodobieństwami wiadomości.
Z równania (4.9') wynika, że jeżeli log r (l¡Pi) jest liczbą całkowitą, po-
winniśmy wybierać długość ciągu /, równą tej liczbie. Jeżeli log P (ł/P() nie
jest liczbą całkowitą, to może się wydać rozsądnym postępowanie pole-
gające na tym, aby przy konstruowaniu kodu dekodowalnego bez opóź-
nienia wybierać wartość /; równą najmniejszej liczbie całkowitej, większej
niż lo&O//»,)• Przypuszczenie to w rzeczywistości nie jest uzasadnione,
chociaż stwierdzimy dalej, że taka zasada wyboru wartości /; może pro-
wadzić do pewnych doniosłych rezultatów. Wybierzmy zatem /,• jako licz-
bę całkowitą określoną jednoznacznie przez nierówność:
(4.10)
Przede wszystkim możemy się przekonać, że długości ciągów wybrane

w ten sposób spełniają nierówność Krafta, a zatem mogą być one długoś-
ciami ciągów kodowych kodu dekodowalnego bez opóźnienia. Lewą stronę
nierówności (4.10) możemy przedstawić w postaci
lub
(4.11) -u
Pt>r~".
Sumując po i wielkości dane wzorem (4.11) otrzymujemy
l> Z r-\
Równanie (4.10) określa zatem zbiór wartości /¡, jakie mogą być przyjęte
dla kodu dekodowalnego bez opóźnienia.
Jeżeli pomnożymy równanie (4.10) przez P ( i dokonamy obustronnie
4.3. Pierwsze twierdzenie Shannona 89
operacji sumowania rozciągniętej na wszystkie i, otrzymamy
(4.12) H,(S)<L<HXS)+1.
Zanim postąpimy dalej, chcielibyśmy podkreślić ważną różnicę pomiędzy

zależnością (4.12) i zależnością (4.7), z której wynika dolny kres L. Wzór
(4.7) określa kres dolny średniej długości ęiągu kodowego L niezależnie od
tego, jaki konkretnie system kodowania zostanie zastosowany. Aby nie-
równość ta była spełniona, wystarczy, by nasz kod był kodem dekodowal-
nym bez opóźnienia. Natomiast równanie (4.12) wyprowadziliśmy przyj-
mując metodę kodowania opartą na wzorze (4.10); określa ono zarówno
dolny jak i górny kres dla wielkości L przy zastosowaniu kodowania okre-
ślonego wzorem (4.10).
Ponieważ zależność (4.12) obowiązuje dla dowolnego źródła bezpamię-
ciowego S, możemy zastosować ją również do źródła S", tzn. «-krotnego
rozszerzenia bezpamięciowego źródła pierwotnego S. Mamy wówczas
(4.13) Hr(Sn)^Ln<Hr(Sn) +1,
gdzie Ln reprezentuje średnią długość ciągów kodowych odpowiadających

wiadomościom elementarnym ze źródła S". To znaczy, że jeżeli jest
długością ciągu kodowego odpowiadającego wiadomości <7; oraz P(c,)
jest prawdopodobieństwem crf, wtedy
(4.14) L„= £ P ( a M -
i=X
Iloraz LJn jest( 1 ) zatem średnią liczbą sygnałów elementarnych użytych
dla odwzorowania pojedynczej wiadomości ze zbioru S. Ze wzoru (2.16)
wynikało, że entropia źródła Sn jest « razy większa od entropii źródła S.
Na tej podstawie wzór (4.13) możemy przepisać w postaci
(4.15) Hr(S)<-<Hr(S)+-,
(') Nie należy mieszać symboli LJn i L. Wprawdzie obydwa one odnoszą się
do średniej liczby sygnałów elementarnych, z których zbudowany jest ciąg kodowy
odpowiadający pojedynczej wiadomości wytwarzanej przez źródło pierwotne, wiel-
kość LJn pokazuje jednak, że, aby tę średnią otrzymać, wiadomości pierwotne s,
kodowaliśmy w blokach zawierających po n wiadomości elementarnych, nie zaś po-
jedynczo.
a ponieważ przez kodowanie wiadomości ze źródła Sn zamiast ze źródła

pierwotnego S możemy uczynić wielkość LJn dowolnie bliską Hr{S),
mamy
(4.15') lim — = / / r ( S ) .
«-•00 W
Równanie (4.15) znane jest jako pierwsze twierdzenie Shannona lub twier-
dzenie o kodowaniu dla kanałów bezszumowych. Jest to jedno z dwóch głów-
nych twierdzeń teorii informacji. Równanie to powiada, że średnią liczbą
r-narnych sygnałów elementarnych przypadających na pojedynczą wiado-
mość możemy zmniejszać aż do wartości równej entropii źródła mierzonej
w jednostkach r-narnych, jednak nie możemy już uczynić jej mniejszej.
Ceną, jaką płacimy za zmniejszenie wartości LJn, jest zwiększenie zło-
żoności kodu w rezultacie powiększenia liczby różnych wyjść źródła q",
które musimy zakodować.
4.4. Pierwsze twierdzenie Shannona dla źródeł ciągów Markowa
Rezultaty otrzymane w trzech poprzednich punktach można uogólnić

na przypadek źródeł ciągów Markowa. Niezbędne dowody przeprowadzi-
my tutaj przenosząc ograniczenia jakim podlega średnia długość ciągów
kodowych, na odpowiednie źródło stowarzyszone — źródło bezpamięciowe.
Wystarczy wówczas tylko wykorzystać własności źródeł stowarzyszonych
określone w punktach (2.6) i (2.7), aby otrzymać pełne dowody.
Zdefiniowaliśmy źródło ciągów Markowa pierwszego rzędu S podając
zbiór jego elementów slt s2, ..., sq i prawdopodobieństwa warunkowe
P(i ( |ij). Zdefiniowaliśmy także źródło Sn, jako n-krotnie rozszerzone
źródło S, z elementami cr1, cr2, <fy> i prawdopodobieństwami warunko-
wymi P(<7|Jffj). Elementom źródeł S i Sn przypisaliśmy odpowiednio praw-
dopodobieństwa pierwszego rzędu (bezwarunkowe) P, i P(o-f). Proces ko-
dowania wiadomości slf s2, ..., st w kodzie blokowym dekodowalnym
bez opóźnienia jest w przypadkach źródła S i stowarzyszonego z nim źródła S
identyczny. Jeżeli ciąg kodowy odpowiadający wiadomości st ma długość /(,
to średnia długość kodu wynosi (zgodnie ze wzorem (4.1))
(4.16) L= i P^.
4.4. Pierwsze twierdzenie Shannona dla źródeł ciągów Markowa 91
Zatem średnia długość jest w przypadku źródeł S i S identyczna, bowiem

prawdopodobieństwa pierwszego rzędu P, elementów st są u obydwu źródeł
identyczne. Źródło S jest jednakże źródłem bezpamięciowym, zatem sto-
sując (4.7"') otrzymujemy:
(4.17) Hr(S)^L.
Nierówność tę można uogólnić tak (por. wzór (2.29)), że przyjmie ona
postać:
(4.18) HASHH,(S)ŚL.
Analogiczną nierówność możemy napisać dla źródeł S" i S"
(4.19) Hr(S") < Hr(Sn) < L„.
Ln jest tutaj średnią długością ciągu kodowego odpowiadającego wiadomości

elementarnej <rh tak jak ją zdefiniowano we wzorze (4.14).
Analogicznie jak w punkcie 4.3, zauważmy znowu, że nierówności
te są całkowicie ogólne, w tym sensie, że nie zależą od zastosowanego
schematu kodowania. Jeżeli teraz wybierzemy /( zgodnie ze wzorem (4.10),
wtedy wielkość L możemy ograniczyć od góry i od dołu; biorąc pod uwagę
(4.12) otrzymujemy wówczas
(4.20) Jir(Ś)<L<H,(Ś)+l
lub, w przypadku źródła wiadomości-ciągów,
(4.21) Hr(sn)<Ln<Hr(Sn) +1.
Jeżeli skorzystamy ze wzoru (2.41) i otrzymaną nierówność podzielimy

przez H, otrzymamy ostatecznie:
Hr(S)+Hr(S) Ln \Hr(S)-Hr(S)-] + l
(4.22) Hr(S) + — — H,(S) + —— ,
n n n
a zatem znowu możemy uczynić LJn dowolnie bliskim Hr(S), czyniąc n

dostatecznie dużym, tzn. stosując kodowanie długich bloków. Taka jest
właśnie treść pierwszego twierdzenia Shannona dla źródeł Markowa pierw-
szego rzędu. Odpowiedni dowód dla źródeł Markowa m-tego rzędu nie
różni się znacznie. (Zadanie 4.1).
4.5. Kodowanie bezpośrednie
Nasze dowody pierwszego twierdzenia Shannona (zarówno w przypadku

źródła bezpamięciowego jak i źródła Markowa) okazały się konstruktywne.
To znaczy, wzór (4.10) dostarcza nam metody wyboru /,• długości ciągów
kodowych. Jeżeli zastosujemy tę metodę do wyboru długości ciągów ko-
dowych kodu blokowego, służącego do kodowania wiadomości ze źródła
«-krotnie rozszerzonego S" i weźmiemy n dostatecznie duże, to iloraz LJn
możemy uczynić dowolnie bliskim entropii Hr(S). Zastanówmy się jednak
co się będzie działo, jeżeli nie będziemy chcieli, aby « było odpowiednio
dużą liczbą. W przypadku gdy « jest ustalone, wszystkie poprzednie twier-
dzenia powiadają nam, że jeżeli wybierzemy długości ciągów w naszym
kodzie zgodnie ze wzorem (4.10), to średnia ich długość będzie nie większa
niż wielkość po prawej stronie wzoru (4.15) lub (4.22). Z twierdzeń tych
nie wynika jaką wartość L (lub LJn) uzyskamy. Co ważniejsze: nie mamy
nawet gwarancji, że wybór długości ciągów zgodnie ze wzorem (4.10)
zapewni nam najmniejszą, możliwą do uzyskania dla takiego «, wartość
L (lub LJn).
Prosty przykład, jaki teraz rozważymy, będzie dobrą ilustracją tego,
że stosowanie wzoru (4.10) istotnie nie stanowi najlepszej drogi wyboru
długości ciągów kodowych. Użyjemy więc wzoru (4.10) jako podstawy
w konstruowaniu binarnego kodu dekodowalnego bez opóźnienia dla bez-
pamięciowego źródła wiadomości określonego w tablicy 4.4. Przyjmijmy,
TABLICA 4.4. Przykład kodowania
Wiadomości Kod Kod

Pi logi h
elementarne s/ 3»
2 0,58
ii T 1 0 0
2
s2 9 2,17 3 100 • 10
1
i3 T 3,17 4 1010 11
że wymaga się bezpośredniego kodowania wiadomości pochodzących z tego

źródła bez uciekania się do kodowania wiadomości-ciągów, o długości
dwa lub większej. Jaka jest najmniejsza średnia długość osiągalna przy
kodowaniu bezpośrednim?
Aby można było zastosować wzór (4.10), obliczamy najpierw wartości
4.5. Kodowanie bezpośrednie 93
log (1 //*,•); wartości te zestawiono w trzeciej kolumnie tablicy 4.4. Długość

ciągu kodowego, odpowiadającego wiadomości sit wybieramy następnie
w ten sposób, aby spełniona była nierówność
l o g i </,<log—^ + 1 .
"t "i
Obliczone wartości 1-, zestawione są w czwartej kolumnie tablicy 4.4. Kod
sś pokazany w piątej kolumnie tej tablicy jest spełniającym nasze założenia
kodem dekodowalnym bez opóźnienia, zawierającym ciągi o takiej dłu-
gości. Średnia długość kodu sć wynosi
L ^ = f - l + f - 3 + i - 4 = l,78 binita na wiadomość.
Entropia tego źródła wynosi
3
1
H(S)= ^ Pi l o g — = 1 , 2 2 bita na wiadomość.
i=> i Pt
Zauważmy, że wielkość Lr/ jest ograniczona w myśl nierówności
(4.23) H(S)^Ls,<H(S) +1.
Jest to jednak tylko mała pociecha dla kiepskiego kodu, jakim jest kod s4.
Łatwo znaleźć dla takiego źródła kod dekodowalny bez opóźnienia, lepszy
niż kod sś. Taki kod (kod SS) podany jest w ostatniej kolumnie tablicy
4.4. Obliczmy średnią długość ciągu kodowego w takim kodzie. Mamy
L a = | - l + | - 2 + | - 2 = l , 3 3 binita na wiadomość.
Wartość ta wykazuje niemałą przewagę nad średnią długością kodu s4.
Podkreślić należy, że w rozważanym przypadku niewiele zyskalibyśmy
stosując w miejsce kodowania bezpośredniego kodowanie wiadomości-
-ciągów. W najlepszym razie moglibyśmy otrzymać średnią długość 1,22
binita na wiadomość, tymczasem już stosując kod Si uzyskaliśmy 1,33
binita na wiadomość.
4.6. Znajdowanie binarnych kodów zwięzłych — kody Huffmana
Jeżeli dla danego źródła chcemy skonstruować kod bez opóźnienia,

wiemy, że średnia długość takiego kodu musi być większa lub równa
entropii tego źródła. Jednakże z przykładu podanego w tablicy 4.4 wynika,
że ogólna metoda kodowania, którą rozwijaliśmy dotychczas, prowadzi
do kodów zwięzłych tylko w granicy, gdy n, tzn. długość wytwarzanych

wiadomości-ciągów lub, inaczej — krotność rozszerzenia, rośnie. Jak więc
należy skonstruować kod zwięzły dla danego źródła?
Otóż zauważmy, że kwestia granicznej wartości LJn nie pozostaje
w związku z definicją zwięzłości; kodem zwięzłym dla źródła S jest bowiem
kod, który ma najmniejszą średnią długość, gdy wiadomości wytwarzane
przez źródło kodujemy pojedynczo. W paragrafie tym pokażemy metodę
konstruowania takich kodów, gdy zbiór sygnałów elementarnych jest
zbiorem binarnym. Bardziej ogólny problem konstruowania kodów zwięz-
łych w przypadku r-narnego zbioru sygnałów elementarnych będzie roz-
ważany w paragrafie 4.8. Obydwa te problemy były rozwiązane przez
Huffmana (1952).
Rozważmy źródło wiadomości o zbiorze S, którego elementami są
wiadomości j j , s2, •••, sq, a ich prawdopodobieństwa wynoszą Px, P2,
..., Pq. Niech wiadomości te będą uporządkowane według malejących
prawdopodobieństw, tzn. P ^ P ^ T r a k t u j ą c ostatnie dwie wiado-
mości elementarne jako jedną wiadomość wtórną, otrzymujemy w miejsce
źródła pierwotnego S nowe źródło (*) o zbiorze wiadomości zawierającym
tylko q— 1 elementów. Źródło tak określone nazywać będziemy źródłem
zredukowanym S. Elementy zbioru takiego źródła mogą być na nowo
uporządkowane i znowu możemy połączyć w jedną wiadomość wtórną
dwie ostatnie najmniej prawdopodobne wiadomości tak, aby zredukować
poprzednio zredukowane źródło S. Stosując tego rodzaju procedurę rekuren-
cyjną, otrzymamy ciąg źródeł o zbiorach, z których każdy zawiera o jeden
element mniej niż poprzedni, ostatnie ze źródeł w tym ciągu zawierać
będzie tylko dwa elementy.
PRZYKŁAD 4.3. Schemat 4.1 zilustruje procedurę rekurencyjną wiodącą od źródła

o zbiorze sześcioelementowym do źródła o zbiorze dwuelementowym.
Konstruowanie ciągu źródeł zredukowanych tak, jak to zilustrowano,

jest pierwszym etapem przy konstruowaniu dla źródła S zwięzłego kodu
dekodowalnego bez opóźnienia. Następny etap sprowadza się jedynie do
(') Ze względu na wygodę rozważań chcielibyśmy, aby to źródło było źródłem

bezpamięciowym. Ponieważ jednak dopuszczamy kodowanie wiadomości tylko po-
jedynczo, przeto nie ma różnicy, czy źródło jest źródłem bezpamięciowym, czy też
źródłem ciągów Markowa.
4.6. Znajdowanie binarnych kodów zwięzłych — kody Huffmana 95
Źródło pierwotne Źródło zredukowane
Wiadomości Prawdopo - „
1 St St 5«
elementarne dobieństwa
SI 0,4 0,4 0,4 0,4 P-^0,6

s2 0,3 0,3 0,3 (0 , 3 - i j 0,4
0 3
0,1 00 , 1 R-»-0,2-, ,r-*» "
- 0 .' 3 - 1
st 0,1 0.1-ij 0,1
0,06 0 , 1 -J
se 0,04
4.1. Źródło pierwotne i źródła zredukowane
stwierdzenia, że binarny zwięzły kod dekodowalny bez opóźnienia dla

ostatniego ze źródeł zredukowanych (źródła o zbiorze zawierającym tyiko
dwa elementy) jest trywialnym kodem z dwoma ciągami 0 i 1. Wreszcie
etapem końcowym będzie wykazanie, że jeżeli określony jest zwięzły kod
dekodowalny bez opóźnienia dla jednego ze źródeł w ciągu źródeł zreduko-
wanych, to istnieje prosty sposób skonstruowania zwięzłego kodu deko-
dowalnego bez opóźnienia dla źródła bezpośredniego poprzedzającego to
źródło zredukowane. Wykorzystując tę okoliczność, wystartujemy od
ostatniego ze źródeł zredukowanych i odpowiadającego mu trywialnego
zwięzłego kodu dekodowalnego bez opóźnienia, a następnie cofając się
wzdłuż ciągu źródeł dojdziemy do zwięzłego kodu dekodowalnego bez
opóźnienia dla źródła pierwotnego.
Przyjmijmy, że znaleźliśmy zwięzły kod dekodowlany bez opóźnienia
dla Sj, jednego ze źródeł w ciągu źródeł zredukowanych. Jeden z elemen-
tów zbioru źródła Sj, niech to na przykład będzie sx, został utworzony
z dwóch elementów zbioru poprzedzającego źródło 5 j _ t . Oznaczmy te dwa
elementy symbolami sa0 i sal. Każdy z pozostałych elementów Sj odpowiada
jednemu z pozostałych elementów Kod zwięzły dekodowalny bez
opóźnienia dla konstruujemy na podstawie kodu dla Sj jak następuje:
Każdemu z elementów Sj-1 (z wyjątkiem sa0 i s a l ) przy-
porządkowujemy ciągi kodowe odpowiadające elementom Sj.
(4.24) Ciągi kodowe dla elementów 5 a0 i ¿«i tworzymy dodając odpo-
wiednio 0 i 1 do ciągu kodowego odpowiadającego elemen-
towi sa.
Łatwo zauważyć, że kod w ten sposób skonstruowany jest kodem dekodo-

walnym bez opóźnienia (warunek (3.1)). Dowód na to, że jest to także
kod zwięzły, nie jest tak natychmiastowy i zanim go przedstawimy, zilu-
strujemy najpierw sposób konstruowania kodu zwięzłego.
PRZYKŁAD 4.4. Zilustrujemy tutaj sposób konstruowania binarnego kodu zwięzłe-

go dla źródła opisanego w schemacie 4.1.
Źródła pierwotne . Źródła zredukowane
Wiado- Prawdo-
mości -podo-
elemen- . . . . Kod <Si Si Si S,
tarne bienstwo
«1 0,4 1 0,4 1 0,4 1 0,4 1 [-0,6 0

SJ 0,3 00 0,3 00 0,3 00 0,3 0 0 - J 0,4 1
«» 0,1 011 0,1 011 |»-0,2 0 1 0 —J_J*-0,3 01-J
«4 0,1 0100 0,1 0100-J 0,1 011
Si 0,06 01010 - P M U 0 1 0 1 -J
St 0,04 01011
4.2. Konstruowanie kodu zwięzłego
Kod zwięzły pokazany w kolumnie po lewej stronie konstruujemy

przechodząc trzy poprzednio wymienione etapy. Najpierw wychodząc ze
źródła pierwotnego S, tworzymy ciąg źródeł zredukowanych. (Zobacz
także schemat 4.1). Następnie przyporządkowujemy ciągi kodowe 0 i 1
ostatniemu ze źródeł w takim ciągu źródeł (w tym przypadku jest to źródło
Ą ) . Wreszcie na zakończenie przechodzimy z powrotem drogę poprzez
źródła zredukowane od do S. Przechodząc od źródła do źródła dokonu-
jemy „dekompozycji" jednego z ciągów kodowych, tworząc w ten sposób
każdorazowo dwa nowe ciągi kodowe.
Procedura ta ilustruje różne własności kodów zwięzłych. Specjalnie
ważna jest ich różnorodność. Zauważmy, że metoda tworzenia z jednego
ciągu dwóch ciągów kodowych, jaką zastosowaliśmy przechodząc poprzez
kolejne źródła zredukowane, polega jedynie na dodawaniu binitu na
końcu ciągu podlegającego dekompozycji. Nie stanowi przy tym różnicy,
który z dwóch tworzonych ciągów zostanie przyporządkowany danej
wiadomości. To zaś oznacza, że przydzielenie jednego z dwóch sygnałów
elementarnych 0 lub 1 różnym ciągom kodowym kodu zwięzłego, jaki

konstruujemy, odbywa się arbitralnie. Możemy dopełnić (*) j-ty element
każdego z ciągów kodowych tego kodu, otrzymujemy wtedy inny kod
zwięzły. Dla przykładu: Jeżeli dopełnimy pierwsze i ostatnie elementy
ciągów kodowych kodu ze schematu 4.2, otrzymamy następujący „nowy"
kod zwięzły:
0
10
111
1100
11011
11010
Różnice pomiędzy utworzonymi w ten sposób dwoma kodami są jednakże
tylko trywialne. Nowy kod otrzymany jest bowiem ze starego kodu po
prostu przez zmianę etykiet. Dla danego źródła istnieje jednakże możli-
wość skonstruowania dwóch fundamentalnie różniących się kodów zwięz-
łych.
PRZYKŁAD 4.5. Aby się o tym przekonać, dokonamy teraz dla tego samego źródła
co w przykładzie 4.4 konstrukcji kodu całkowicie odmiennego od kodu pokazanego
w schemacie 4.2. Metodę konstruowania takiego kodu ilustrujemy schematem 4.3.
Wiado- Prawdo-
niOŚCi r*nrłn
elemen- J p o a o Kod S, S2 S3 S,
tarne bienstwo
si 0,4 1 0
s2 0,3 00 1
s, 0,1 0100
s< 0,1 0101
s6 0,00 0110
Ss 0,04 0111
(') Dopełnieniem 0 jest 1; dopełnieniem 1 jest 0.
? Teoria informacji
Zauważmy, że metody konstrukcji przedstawione na schematach 4.2

i 4.3 są tak długo identyczne, jak długo nie przechodzimy od kodu dla
S, do kodu dla źródła pierwotnego S. W tym punkcie możemy dokonać
dekompozycji dowolnego z trzech wymienionych niżej ciągów kodowych:
011
0100
0101
Jeżeli wybierzemy pierwszy z tych ciągów, otrzymamy kod o następujących

długościach ciągów:
1.2.4.4.4.4.
Jeżeli wybierzemy drugi lub trzeci z tych ciągów, otrzymamy następujące

długości:
1.2.3.4.5.5.
Średnie długości kodów są w obydwu przypadkach identyczne:
L = 1-0,4+2-0,3+4-0,1+ 4-0,1+4-0,06+4-0,04 =
=2,2 binita na wiadomość,
L = 1 - 0 , 4 + 2 - 0 , 3 + 3 - 0 , 1 + 4 - 0 , 1 + 5-0,06 + 5-0,04 =
=2,2 binita na wiadomość
i dla takiego źródła nie jesteśmy w stanie skonstruować kodu dekodo-

walnego bez opóźnienia o mniejszej długości średniej.
Inną osobliwością, jaka się tutaj ujawniła, jest to, że czasami nie jest
konieczne tworzenie całego ciągu źródeł zredukowanych aż do źródła
o zbiorze zawierającym tylko dwa elementy włącznie. Ma to miejsce dla-
tego, że źródła zredukowane powinniśmy tworzyć tylko dotąd, dokąd nie
znajdziemy źródła, dla którego już mamy kod zwięzły. Jeżeli już uzyskamy
kod zwięzły, możemy odwrócić kierunek naszego działania tak, jak to
opisuje reguła (4.24). Przypadek ten jest zilustrowany schematem 4.4.
Widzimy tutaj, że wszystkie elementy zbioru źródła zredukowanego
jednokrotnie mają prawdopodobieństwa postaci (i)", gdzie a ( jest liczbą
całkowitą. Aby dla takiego źródła utworzyć kod zwięzły, możemy zasto-
Źródło
Źródło pierwotne
zredukowane
Wiadomości Prawdopodo- ^ ^
Si
elementarne bieństwo
Si 0,5 0 0,5 0
Si 0,25 10 0,25 10
S3 0,125 110 0,125 110
ST 0,100 1110-1^0,125 111
Si 0,025 1111-f - ^
sować metodę podaną w paragrafie 4.2. Postępując w kierunku odwrotnym,

znajdziemy kod zwięzły dla źródła pierwotnego tak, jak to czyniliśmy
poprzednio.
4.7. Uzupełnienie dowodu
W poprzednim paragrafie pokazaliśmy, jak konstruować kod zwięzły

dla dowolnego źródła wiadomości. Przedstawiony dowód optymalności
tej procedury byłby kompletny, gdybyśmy wykazali, że kod skonstruo-
wany według formuły (4.24) jest kodem zwięzłym. Wykażemy to teraz,
uzupełniając w ten sposób poprzedni dowód. Załóżmy, że znaleźliśmy dla
pewnego źródła zredukowanego S j (./-krotnie zredukowanego źródła
pierwotnego S) kod zwięzły ^ ¡ . Niech średnia długość ciągu kodowego
w takim kodzie będzie równa Lj. Jeden z elementów Sj, powiedzmy sx,
utworzony zostaje z dwóch najmniej prawdopodobnych elementów po-
przedniego źródła zredukowanego S j - N i e c h tymi dwoma elementami
będą s a 0 i oraz niech ich prawdopodobieństwa wynoszą odpowiednio
P a o i P a i - Prawdopodobieństwo sa wynosi więc Pa=Pa0+Pal. Oznaczmy
przez tfj-i kod dla utworzony zgodnie z regułą (4.24); niech
będzie średnią długością ciągu kodowego w takim kodzie. t jest w prosty
sposób związane z Lj, ponieważ ciągi kodowe kodu Wj i kodu Wj-i są
identyczne z wyjątkiem tego, że (dwa) ciągi odpowiadające sx0 i są
o jeden binit dłuższe niż (jeden) ciąg odpowiadający sa. Stąd wynika, że
(4.25) Lj-^Lj+Pa+P*.
T
Chcemy teraz pokazać, że jeżeli } jest kodem zwięzłym, wtedy ^

musi być także kodem zwięzłym. Innymi słowy: Jeżeli L j jest najmniejszą
możliwą dla Sj średnią długością kodu bez opóźnienia, wtedy (tak
jak tę wielkość określa równanie (4.25)) jest najmniejszą możliwą średnią
długością ciągu kodowego w kodzie dekodowalnym bez opóźnienia dla
S j - 1 . Analogicznie jak poprzednio, dowód przeprowadzimy wykazując, że
w przypadku dopuszczenia sytuacji przeciwstawnej dochodzimy do sprzecz-
ności. Załóżmy więc, że znaleźliśmy dla kod zwięzły, którego średnia
długość Z 7 _ t < _ i . Oznaczmy przez , 2> ••• > ciągi kodowe tego
kodu, przez h > h , •••>hi zaś oznaczmy odpowiednio ich długości. Przyj-
mijmy tu, że wskaźniki są uporządkowane zgodnie z malejącymi prawdo-
podobieństwami wiadomości tak, że zachodzi:
Jeden z ciągów kodowych tego kodu (oznaczmy go przez musi być

identyczny z £ a l z wyjątkiem ostatniego elementu. Jeżeli nie byłoby to
prawdziwe, moglibyśmy opuścić w ostatni element i zmniejszyć średnią
długość kodu, nie pozbawiając przy tym tego kodu własności kodu dc-
kodowalnego bez opóźnienia. Konstruujemy wreszcie kod dla S}\
dokonujemy tego łącząc X x l i i opuszczając ich ostatni binit, podczas
gdy wszystkie inne ciągi kodowe pozostawiamy bez zmiany. W ten sposób
otrzymujemy dla Sj kod dekodowalny bez opóźnienia o średniej długości
Lj, związanej z równaniem
(4.26) L J . ^ L j + P . O + P.
Porównajmy to równanie z równaniem (4.25). Z obydwu równań wynika,

że przyjęte przez nas założenie Z J _ 1 < L ; _ 1 implikuje, że możemy skon-
struować kod o średniej długości L j < L } . Jest to właśnie sprzeczność,
której oczekiwaliśmy, bowiem kod o średniej długości L} jest kodem
zwięzłym.
Tak więc nasz dowód, że wzór (4.24) prowadzi od jednego kodu zwięz-
łego do drugiego, stał się kompletny. Zanim rozważymy bardziej ogólny
przypadek kodowania, przy zastosowaniu zbioru sygnałów elementarnych
liczącego r elementów, właściwe będzie pokazanie dwóch cech kodów
zwięzłych, które ujawniliśmy już poprzednio. Pierwszą z tych cech jest
4.7. Uzupełnienie dowodu 101
po prostu to, że jeżeli prawdopodobieństwa wiadomości wytwarzanych ze

źródła są uporządkowane tak, że P , ••• >P 4 > t o długości ciągów
kodowych przyporządkowanych tym wiadomościom mogą być uporząd-
kowane tak: / j ^ / a ^ . . . ^ / , . Nie jest to niespodzianką. Wyraża to jedynie
ten fakt, że przyporządkowujemy najbardziej prawdopodobnym wiado-
mościom najkrótsze ciągi kodowe naszego kodu. Druga z cech jest być
może nieco mniej oczywista. Pokazaliśmy, że długości dwóch ostatnich
(w zgodzie z ciągiem uporządkowanych prawdopodobieństw) ciągów kodo-
wych kodu zwięzłego są identyczne:
(4.27) l9 = l t - i .
Jeżeli w zbiorze wiadomości elementarnych danego źródła różne wiado-

mości mają to samo prawdopodobieństwo Pq, ich wskaźniki możemy tak
określić, że ciągi kodowe przyporządkowane dwom ostatnim elementom
zbioru wiadomości będą się różniły tylko co do ostatnich sygnałów elemen-
tarnych.
4.8. r-narne kody zwięzłe
W paragrafie 4.6 podkreślaliśmy, że konstruowanie binarnych kodów

zwięzłych przebiega w trzech etapach. Po pierwsze, wychodząc ze źródła
pierwotnego konstruujemy ciąg źródeł zredukowanych. Następnie znajdu-
jemy kod zwięzły dla jednego ze źródeł w tym ciągu. Wreszcie wracając
poprzez ten ciąg, konstruujemy z kodów już otrzymanych nowe kody
zwięzłe tak, aż dochodzimy w końcu do kodu zwięzłego dla źródła pierwot-
nego S. W tym paragrafie zobaczymy, że także w przypadku, gdy zbiór
sygnałów elementarnych, z których zbudowany jest kod, jest zbiorem;
r-narnym, konstruowanie kodu zwięzłego zawiera analogiczne trzy etapy.
Ostatnie dwa etapy będą się przy tym nieistotnie różniły od przypadku
kodu binarnego.
Tworzenie źródeł zredukowanych, będące etapem przygotowawczym do>
konstruowania kodu binarnego zwięzłego, przebiegało w myśl zasady::
łączymy ze sobą dwie najmniej prawdopodobne wiadomości, tworząc
w ten sposób pojedynczą wiadomość ze zbioru źródła zredukowanego.
W tym przypadku gdy zamierzamy skonstruować r-narny kod zwięzły,
stosując analogiczną zasadę, będziemy łączyli ze sobą r wiadomości, aby

utworzyć pojedynczą wiadomość ze zbioru źródła zredukowanego.
Jednakże przypadek kodu r-narnego nastręcza tu pewną wątpliwość,
która nie miała miejsca w przypadku kodu binarnego. Otóż w tym ostat-
nim przypadku, każde ze źródeł w ciągu źródeł zredukowanych zawiera
w swym zbiorze o jeden element mniej niż źródło bezpośrednio go poprze-
dzające. W przypadku kodu r-narnego łączymy r elementów w jeden,
zatem każde ze źródeł w ciągu źródeł zredukowanych ma o r — l mniej
elementów od źródła poprzedzającego. Chcielibyśmy, aby ostatnie ze
źródeł w ciągu miało zbiór zawierający dokładnie r elementów. (Pozwoli
nam to bowiem na skonstruowanie dla takiego źródła trywialnego kodu
zwięzłego). Ostatnie ze źródeł będzie jednak zawierało w swym zbiorze r
elementów wtedy i tylko wtedy gdy źródło pierwotne zawiera tych elemen-
tów r+a(r—1), gdzie a jest całkowite. Jeżeli zatem zbiór źródła pierwot-
nego nie zawiera r + a ( r — 1) elementów, dodawać będziemy elementy
„symulujące", aż osiągniemy tę żądaną liczbę elementów. Przyjmiemy,
że elementy symulujące mają prawdopodobieństwa równe zero, zatem
gdy już kod zostanie skonstruowany, można będzie nie brać ich pod
uwagę.
PRZYKŁAD 4.6. Rozważmy źródło S o zbiorze 11-elementowym pokazane na

schemacie 4.5. Wychodząc z tego źródła chcemy utworzyć ciąg źródeł zredukowanych,
zanim ich wyjścia zakodujemy w kodzie zbudowanym z czterech sygnałów elemen-
tarnych. Jeżeli ostatnie ze źródeł w takim ciągu ma mieć zbiór, zawierający cztery
elementy, zbiór S musi zawierać 4 + 3 a elementów, gdzie a jest liczbą całkowitą.
Ponieważ 11 nie jest liczbą postaci 4 + 3 a , dodajemy dwa elementy symulujące,
aby uzupełnić liczbę elementów zbioru S do 13. Następnie redukując po cztery
elementy źródła dochodzimy do źródła o zbiorze zawierającym dokładnie cztery
elementy.
Utworzywszy źródła zredukowane tak, jak to pokazano w schemacie

4.5, przechodzimy do konstruowania kodu zwięzłego sposobem opisanym
w paragrafie 4.6. Wybieramy r ciągów kodowych, każdy o długości 1,
aby dla ostatniego ze źródeł zredukowanych utworzyć kod zwięzły. Kod
ten następnie rozwijamy tak, jak to miało miejsce w przypadku kodu
binarnego, aby utworzyć kod zwięzły dla poprzedniego ze źródeł zreduko-
wanych. Każdorazowo przechodząc od danego źródła zredukowanego do
źródła go poprzedzającego, z jednego elementu tworzymy r elementów
4.8. r-narne kody zwięzłe 103
Ź r ó d ł o pierwotne Ź r ó d ł o zredukowane
Wiadomości Prawdopodo- S,
elementarne bieństwo
St
81 0,22 0,22 -0,23 -0,40
«2 0,15 0,15 0,22 0,23
S3 0,12 0,12 0,15 0,22

St 0,10 0,10 0,12 0,15
St 0,10 0,10 0,10

Se 0,0S 0,08 0,10
J
«7 0,00 "0,07 i 0,08
Ss 0,05 0,06
S9 0,05 0,05
s to 0,04-, 0,05
«11 0,03
Elementy f s u 0,00
symulującej^,- 0,00 ->
4.5. Źródło pierwotne i źródła zredukowane
Wiadomości P r a w d o p o d o - Ciągi
Si S2 S,
elementarne bieństwo kodowe
Sl 0,22 2 0,22 2 [»-0,23 1 r*-0,40 0
Sl 0,15 3 0,15 3 0,22 2 0,23 1
Sj 0,12 00 0,12 00 0,15 3 0,22 2
s< 0,10 01 0,10 01 0,12 0 0 - 0,15 3
S5 0,10 0 2 0,10 0 2 0,10 01
«« 0,08 03 0,08 03 0,10 0 2
«7 0,06 11 0,07 10-1 0,08 03 J
«8 0,05 12 0,06 11
8, 0,05 13 0,05 12
810 0,04 100-1 0,05 13 J
Sil 0,03 101
Sl2 0,00 102
Sl3 0,00 103 J
4.6. Kod zwięzły zbudowany przy użyciu czterech sygnałów elementarnych

tak, aby w ten sposób zyskać r—l elementów. Dowód tego, że jeżeli wyj-
dziemy od kodu zwięzłego, to stosując tę metodę dojdziemy do kodu
zwięzłego i 1 ), jest całkowicie analogiczny do dowodu przedstawionego
w paragrafie 4.7. (zadanie 4.2).
PRZYKŁAD 4.7. Dla zilustrowania opisanej wyżej metody, znajdziemy tu dla

źródła przedstawionego w schemacie 4.5 kod zwięzły zbudowany z czterech sygna-
łów elementarnych (schemat 4.6, str. 103).
4.9. Sprawność i rozwlekłość kodu
Pierwsze twierdzenie Shannona pokazuje, że istnieje wspólna miara,

którą można stosować do dowolnego źródła wiadomości. Wartość wiado-
mości wytwarzanych przez źródło wiadomości S może być mierzona za
pomocą równoważnej liczby cyfr binarnych potrzebnych dla przedstawienia
pojedynczej wiadomości z takiego źródła. Twierdzenie Shannona powiada,
że średnia wartość wiadomości ze źródła S wynosi H(S). Ogólniej rzecz
biorąc: Średnia wartość wiadomości ze źródła S w przeliczeniu na cyfry
r-narne wynosi Hr(S).
Niech średnia długość ciągu kodowego jednoznacznie dekodowałnego
kodu r-narnego będzie dla źródła S równa L. L nie może być mniejsze
niż Hr(S). Wobec tego sprawność kodu, którą oznaczymy przez t], zdefiniu-
jemy następująco:
H { S )
( A '
(4.28) n=——.
Zdefiniujemy tu także rozwlekłość kodu:

(4.29) rozwlekłość = 1 —>7 = -—Hr(S)
PRZYKŁAD 4.8. Rozważmy źródło bezpamięciowe o zbiorze 5 = { j l t i 2 ) z prawdo-

podobieństwami P ( i i ) = i i P ( i 2 ) = i . W przypadku takiego źródła mamy
//(5)=ilog4+ilogj=0,811 bita.
(') Dla źródła pierwotnego (przyp. tłum.).

4.9. Sprawność i rozwlekłość kodu 105
Kod zwięzły przedstawia się dla tego źródła następująco:
SI P(i.) Kod zwięzły
SI ^ i 0
S2 i 1
Średnia długość ciągu kodowego wynosi w tym kodzie 1 binit, a zatem sprawność
kodu wynosi:
tli = 0 , 8 1 1 .
Aby powiększyć sprawność, rozważmy kod dla źródła S2, tzn. dwukrotnie rozsze-
rzonego źródła 5:
Ol P(ffi) Kod zwięzły
9
ii ii 16 0
3
S1S2 16 10
3
S2S1 16 110
1
S2S2 16 111
Średnia długość ciągu kodowego w tym kodzie wynosi ^ binita. Entropia źródła
S 2 wynosi 2H(S); tak więc
2-0,811-16
i}2 = =0,961.
27
Jeżeli stosować będziemy kodowanie wiadomości ze źródeł S3 i S*, otrzymamy odpo-

wiednio:
>73=0,985 oraz 74=0,991.
W miarę jak będziemy kodowali wiadomości-ciągi wytwarzane przez źródła coraz

to więcej razy rozszerzone(') sprawność kodu dążyła będzie do 1. W rozważanym
przykładzie ta zbieżność jest stosunkowo szybka i tylko niewielką poprawę zyskamy
kodując źródła rozszerzone więcej niż dwukrotnie (tzn. wiadomości-ciągi o dłu-
gości większej niż dwa). Tego rodzaju własność jest typowa dla metody kodowania
podanej przez Huffmana.
Przykład, który rozważaliśmy, ilustruje wzrost sprawności kodu osią-

gany poprzez kodowanie coraz to więcej razy rozszerzonego źródła.
(') Tzn. wiadomości-ciągi o coraz to większej długości (przyp. tłum.).

Będzie to pouczające przy badaniu, jak przebiega zależność sprawności

kodu od r-liczby sygnałów elementarnych, z których zbudowane są ciągi
kodowe.
PRZYKŁAD 4.9. Weźmy bezpamięciowe źródło S o zbiorze 13-elementowym

i prawdopodobieństwach, które dane są w tablicy 4.5. W tej samej tablicy podano
kody zwięzłe (HufFmana) zbudowane na zbiorach sygnałów elementarnych zawiera-
jących od 2 do 13 elementów.
TABLICA 4.5. Kody zwięzłe zbudowane przy użyciu różnych zbiorów sygnałów ele-
mentarnych
Kody zwięzłe dla r =
p (»,) st 13 12 11 10 9 8 7 6 5 4 3 2
1
Sl 0 0 0 0 0 0 0 0 0 0 0 00
1
Ą
S2 1 1 1 1 1 1 1 1 1 1 1 01
1
16 S2 2 2 » 2 2 2 2 2 2 20 200 1000
1
16 i4 3 3 3 3 3 3 3 3 30 21 201 1001
1
16 Ss 4 4 4 4 4 4 4 4 31 22 202 1010
1
16 s6 5 5 5 5 5 5 5 50 32 23 210 1011
1
16 Sl 6 6 6 6 6 6 60 51 33 30 211 1100
1
16 Sa 7 7 7 7 7 70 61 52 34 31 212 1101
1
16 s9 8 8 8 8 80 71 62 53 40 32 220 1110
1
64 s 10 9 9 9 90 81 72 63 54 41 330 221 111100
1
64 «11 A A AO 91 82 73 64 550 42 331 2220 111101
1
64 «12 B BO Al 92 83 74 65 551 43 332 2221 111110
1
64 «13 C BI A2 93 84 75 66 552 44 333 2222 111111
Średnie
długości
ciągu
kodowe-
33 67 17 9 19 5 87 23 23 131 25
go L 1 32 64 16 "8" 16 "4 64 16 16 64 T
Entropia źródła z tablicy 4.35 wynosi 3,125 bita na pojedynczą wiadomość. Wyko-
rzystując tę informację oraz korzystając ze wzoru (4.28) możemy wykreślić przebieg
sprawności jako funkcji r.
1,00
0,98-
0,96
p-
0,94
u
"U
O 0,92
0,90
O
c
0,88
NJ
O. 0,85
(/)
0,84
0,82
0,80
4 6 8 10 12 14
Liczba sygnałów elementarnych r
4.7. Sprawność kodu jako funkcja liczby sygnałów elementarnych, z których zbudo-
wany jest kod
Z wykresu 4.7 wynika, że sprawność kodu zmierza do maksimum, gdy r maleje.

Wzrost ten jednakże nie jest monofoniczny. Zwróćmy uwagę na sprawność kodu dla
r=2 i r=4. Prawdopodobieństwa wszystkich wiadomości są wówczas postaci 1/2*
lub l / 4 a , gdzie a jest całkowite. Jak wiemy (paragraf 4.2) w takich przypadkach można
znaleźć kod zwięzły o długości średniej równej wartości entropii.
UWAGI
1. W rozdziale tym udowodniliśmy pierwsze twierdzenie Shannona tylko dla

ergodycznych źródeł ciągów Markowa, których zbiory mają skończoną liczbę ele-
mentów (tzn. stanów). Bardziej elegancki dowód tego twierdzenia w przypadku do-
wolnego stacjonarnego źródła ergodycznego przeprowadzony został przez McMillana
(1953), który nadał mu nieco inną postać, nazywaną własnością asymptotycznej ekwi-
partycji (WAE). Niech dla dowolnego źródła S
1
/ ( i , , 5 2 , ... , , . ) = l 0 g — — — .
, ¿2 s„)
Wówczas powiadamy, że źródło S ma WAE, jeżeli I(si, s2 sn)/n zmierza z prawdo-

podobieństwem 1 do H(S). Znaczenie W A E polega na tym, że długie ciągi wytwa-
rzane przez źródło mające tę własność można podzielić na dwie klasy:
1) klasę ciągów, z których każdy ma prawdopodobieństwo w przybliżeniu równe
2 - n H(S).
2) klasę złożoną z ciągów, które nie pojawiają się prawie nigdy.
Prosty dowód kombinatoryczny W A E został przeprowadzony przez Thoma-
siana (1960). Uogólnienie na przypadki źródeł bardziej skomplikowanych podał

Perez (1959).
2. W paragrafie 4.6 rozważaliśmy pewien przykład, który pokazywał, że dwa
różne (co do długości ich ciągów kodowych) kody binarne mogą być kodami zwięzły-
mi dla danego źródła. Golomb zbadał warunki, przy których to zjawisko ma miejsce,
i liczbę różnych możliwych do skonstruowania dla danego źródła nietrywialnych
kodów zwięzłych.
Sposób konstruowania kodu możemy opisać za pomocą drzewa kodowego
(Fano, 1961). Dla pizykładu rozważmy kod binarny i odpowiadające mu drzewo
kodowe:
00
01
10
110
1110
1111
1110 1111
Poprzednio sformułowane pytanie dotyczące tego, ile różnych kodów można

skonstruować dla źródła o zbiorze zawierającym q elementów, może znaleźć odpo-
wiedź, jeżeli je rozważymy w kategoriach drzew kodowych. Dla q=2 istnieje tylko
jedno drzewo kodowe, odpowiadające następującym długościom ciągów kodowych:
Dla q = 3 istnieje znowu tylko jedno możliwe drzewo kodowe odpowiadające dłu-
gościom ciągów kodowych:
/i=l
h = 2
h=2
Dla q = 4 istnieją dwa takie drzewa:
h=l h—2
12 = 2
h = 3
h=2
U= 3 h=2
U= 2
Uwagi 109
Dla q = 5 liczba możliwych drzew rośnie do trzech:
Ji = l
¡2 = 2
h=3
U=4
h=4
Dla q = 6 i 7 istnieje odpowiednio pięć i dziewięć różnych drzew.

Golomb znalazł także warunki, jakie spełniać muszą prawdopodobieństwa
poszczególnych wiadomości, aby istniał więcej niż jeden kod zwięzły. Dla przykładu,
jeżeli q=4, to warunkiem takim jest oczywiście, aby P1 = Pi+Pi. Dalsza analiza
pokazuje, że jeżeli dwa różne kody zwięzłe mają istnieć, powinna zachodzić nierów-
ność 5 < J \ < f .
3. Rozważaliśmy problem kodowania wiadomości przy założeniu, że czas trwania
(lub nieco inaczej — kryterium kosztu) jest identyczny dla wszystkich sygnałów ele-
mentarnych, z których zbudowany jest kod. Jeżeli warunek ten nie jest spełniony,
rezultaty uzyskane w rozdziale 4 wymagają modyfikacji. Niech zbiór sygnałów, o któ-
rych mowa, ma postać
X= {xi, Xi, ..., xr}
i niech czas trwania sygnału x, będzie równy /,. Jeżeli N(T) jest liczbą ciągów o czasie
trwania dokładnie równym T, wtedy zachodzi
N(T) = N(T-tl) + N(T-t2) + ... + N(T-tr).
Gdy rozwiążemy to równanie różnicowe, to okaże się, że Af(T)dla dużych T rośnie
jak AR%, gdzie A jest pewną stalą, R0 zaś jest największym spośród pierwiastków rze-
czywistych równania charakterystycznego
z~'l+z~'2 +...+ z~'r — .
Asymptotyczna ilość równoważnych binitów przypadających na jednostkę czasu jest
więc równa
,. log N( T)
hm ——=Ko•
T->oo T
Otrzymany wynik możemy zastosować w celu modyfikacji dotychczasowej postaci

pierwszego twierdzenia Shannona. Problem ograniczonego czasu kodowania dla ta-

kiego zbioru sygnałów elementarnych (równoważny problemowi kodowania Huffmana)
był rozważany przez Karpa (1961).
ZADANIA
4.1. Wyprowadzić równanie (4.22) dla źródeł ciągów Markowa m-tego rzędu.
4.2. Wykazać, że jeżeli przechodząc od źródła do źródła zredukowanego (jak to
opisaliśmy w punkcie 4.8), zaczniemy od r-narnego kodu zwięzłego, to otrzymamy
w ostateczności kod będący również r-narnym kodem zwięzłym.
4.3. Ciąg wiadomości ze źródła S" jest kodowany według metody Huffmana przy
zastosowaniu zbioru sygnałów elementarnych X={xi, x2 , ...,xr). Rezultat takiego
kodowania może być rozpatrywany jako zespół wyjść nowego źródła wiadomości
o zbiorze X. Pokazać, że ze wzrostem n prawdopodobieństwo każdego z elementów
Xi tego nowego źródła dąży do wartości l / r .
4.4. W bezpamięciowym źródle binarnym P(0) = 0,1 i P(l) = 0,9.
a) Obliczyć H(S).
b) Obliczyć L — średnią długość ciągu kodowego kodu zwięzłego dla 5, gdy
X— {0,1}.
c) Obliczyć LJn dla « = 2,3,4 i n-* oo, gdy S„ jest kodowane w kodzie zwięzłym,
przy czym jak poprzednio X= {0,1} .
d) Obliczyć sprawność czterech otrzymanych kodów.
4.5. W zadaniu 4.4 kodowaliśmy źródła S, S2, S3 i S* posługując się zbiorem
sygnałów elementarnych o postaci X. Metody tam zastosowane dawały w rezultacie
ciągi zer i jedynek. Ciągi te można rozpatrywać jako ciągi wytwarzane przez źródło
wtórne S0 tak, jak to pokazano na schemacie Z. 4 . 5 . Znaleźć H(S0), gdy « = 1 , 2 , 3 , 4 .
! 1
Źródło binarne S,
Z.4.5.
4.6. Dana jest następująca tablica:
s * ¿2 i3 i4 is SE S^
• 1 1 1 1 i i
P(s,) 3 3 9 9 27 27 27
a) Znaleźć H(S) i HZ(S).

Zadania 111
b) Znaleźć zwięzły kod dla S w przypadkach, gdy X={0, 1} i X= {0, 1 , 2 } .

c) Obliczyć L dla obydwu tych kodów.
4.7. Dana jest następująca tablica:
s Sl «2 Sz si s. s6 Sl «8
Pfe) 0,4 0,2 0,1 0,1 0,05 0,05 0,05 0,05 j
a) Znaleźć kod zwięzły dla takiego źródła w przypadku gdy X={0, 1,2}.
b) W rozważanym przypadku można skonstruować więcej niż jeden różnych
nietrywialnych kodów zwięzłych (tzn. różnych zbiorów długości ciągów kodowych)
operujących tym samym zbiorem sygnałów elementarnych. Należy znaleźć listę zbio-
rów długości ciągów kodowych dla wszystkich takich kodów.
4.8. W zadaniu 2.14 przyjmijmy Znaleźliśmy poprzednio dla źródła 5
kod binarny, w którym L = H(S). Znaleźć L' — średnią długość kodu zwięzłego dla
źródła S'.
4.9. Źródło S ma zbiór liczący dziewięć elementów, z których każdy pojawia
się na wyjściu źródła z prawdopodobieństwem
a) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1}.
b) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1, 2}.
c) Skonstruować dla źródła S kod zwięzły posługując się zbiorem sygnałów
elementarnych X— {0, 1, 2, 3}.
4.10. Źródło S ma zbiór liczący sześć elementów, których prawdopodobieństwa
wynoszą odpowiednio Plt ...,P6. Załóżmy, że uporządkowaliśmy wartości P, tak,
że Pi>P2>...>P(,. Chcemy dla takiego źródła znaleźć kod zwięzły, posługując się
przy tym zbiorem sygnałów elementarnych X= {0, 1, 2, 3}. Określić zbiór długości
ciągów kodowach takiego kodu zwięzłego, jeżeli =
4.11. Znaleźć wszystkie możliwe różne zwięzłe kody binarne dla źródła opisa-
nego w następującej tablicy: .
S Si j s2 \ s3 j4 Ss s6 s7 Ss Sg S10
i 0,04
P(i,) 0,20 0,18 J 0,12 0,10 0,10 0,08 0,06 0,06 0,06
Jako „różne" kody potraktować tylko kody różniące się długościami ciągów kodo-
wych /,.
4.12. a) Dla q = 6 znaleźć pięć różnych drzew kodowych, o których była mowa
w uwadze 2.
b) Znaleźć dziewięć różnych drzew kodowych dla q — 7.
4.13. To zadanie dotyczy uogólnienia uwagi 2. Dla źródeł o q = 3, 4, 5, 6, 7, 8, 9
znaleźć wszystkie możliwe różne drzewa kodowe odpowiadające kodowi zwięzłemu,
zbudowanemu na trzyelementowym zbiorze sygnałów elementarnych.
5. KANAŁY I ILOŚĆ INFORMACJI
5.1. Wprowadzenie
W pierwszych czterech rozdziałach rozważaliśmy własności źródeł

wiadomości oraz sposoby przyporządkowywania ciągów kodowych ciągom
wiadomości elementarnych. Ustaliliśmy związek pomiędzy miarą ilości
informacji a własnościami źródeł wiadomości. W szczególności pokaza-
liśmy, że entropia źródła (wyrażona w odpowiednich jednostkach) określa
dolną granicę średniej ilości elementarnych sygnałów kodowych potrzebnych
do zakodowania wiadomości elementarnej. Posłużyliśmy się tą granicą
w paragrafie 4.9 do określenia sprawności i rozwlekłości kodu. Istotnie,
patrząc wstecz zauważamy, że duża część pierwszej połowy tej książki
była poświęcona stworzeniu podstaw umożliwiających wprowadzenie defi-
nicji sprawności i rozwlekłości oraz syntezie kodów o możliwie najmniejszej
rozwlekłości.
Biorąc pod uwagę to, czym dotychczas zajmowaliśmy się, czytelnik
może być zaskoczony tym, że rozdziały 5 i 6 będą dotyczyły głównie metod
wprowadzania z powrotem rozwlekłości do ciągów kodowych. Zobaczymy,
że nie zawsze jest pożądane stosowanie ciągów kodowych z małą rozwle-
kłością, względnie bez rozwlekłości. W tym rozdziale naszą uwagę prze-
suniemy ze ź r ó d ł a w i a d o m o ś c i na k a n a ł , tj. z wytwarzania informacji
na jej przekazywanie.
Koncepcja kanału informacyjnego, którą wprowadzimy, prowadzi do
tego, że możliwe jest powstawanie błędów w procesie przekazywania in-
formacji. Zbadamy wpływ tych błędów na możliwości przekazywania
informacji. To z kolei doprowadzi do koncepcji kodowania, tak aby zmniej-
szyć efekt błędów wprowadzanych przez kanał. Czytelnik nie będzie za-
5.1. Wprowadzenie 113
pewne zaskoczony tym, że nasza miara ilości informacji może być zastoso-
wana równie dobrze do analizy tego typu kodowania, jak i kodowania
omawianego wcześniej. Istotnie, pomimo dość szerokiego zakresu dotych-
czasowych rozważań, nie został dotychczas przedstawiony ani podstawowy
rezultat teorii informacji, ani większość ważnych jej zastosowań. Ten
rezultat — niezwykle ważne drugie twierdzenie Shannona — wykorzystuje
koncepcję entropii do opisu możliwości stosowania „zawodnego" kanału
informacyjnego do „niezawodnego" przekazywania informacji.
5.2. Kanały informacyjne
Zasadniczym tematem omawianym w pozostałej części książki będzie

kanał informacyjny.
DEFINICJA. Kanał informacyjny ( l ) opisany jest przez: zbiór sygnałów
wejściowych A={at}, i— 1, 2, ..., r, zbiór sygnałów wyjściowych B={bj},
j= 1, 2, ..., s, oraz przez zbiór prawdopodobieństw warunkowych P(bj\at)
dla wszystkich i oraz j. V(bj\aj) oznacza przy tym prawdopodobieństwo,
że zostanie odebrany sygnał wyjściowy b}, jeżeli został nadany sygnał
wejściowy at.
5.1. Kanał informacyjny 5.2. Kanał binarny symetryczny

KBS
Zarówno w teorii, jak i w praktyce ważnym typem kanału jest tzw.

binarny kanał symetryczny (KBS). Graficzna reprezentacja prawdopodo-
bieństw warunkowych charakteryzujących kanał KBS jest podana na
rysunku 5.2.
(') Kanał wyżej zdefiniowany jest czasami nazywany kanałem bezpamięciowym.

Jest możliwa bardziej ogólna definicja, gdy prawdopodobieństwo danego sygnału
wyjściowego yj zależy od kilku poprzedzających sygnałów wejściowych, a nawet
od sygnałów wyjściowych.
114 5. Kanały i ilość informacji
Oznaczmy jak zwykle p=l-p. Na wejściu naszego kanału mogą poja-

wiać się dwa sygnały (aj = 0 , ¿72 = 1) i na wyjściu także dwa sygnały (b 1 = 0,
ft2 = l)- Kanał ten nazywamy symetrycznym, ponieważ prawdopodobień-
stwo odebrania 1, jeżeli nadano 0, jest równe prawdopodobieństwu ode-
brania 0, jeśli nadano 1. To prawdopodobieństwo będące prawdopodo-
bieństwem wystąpienia błędu wynosi p.
Wygodnym sposobem opisu kanału informacyjnego jest ułożenie
warunkowych prawdopodobieństw sygnałów wyjściowych w formie tablicy
takiej jak 5.3.
Wyjścia
b\ 6j . . . ft.
Ol P(6,/a,) P(b,/a0 • • P(b./a,)
Wejścia a 2 P(6i/o,) P(b,/a,) • • P(6./oj)
a. P(6i/a,) P(bi/a,) • • P(b./ar)
5.3. Opis kanału informacyjnego
Zauważmy, że każdy wiersz tablicy odpowiada ustalonemu sygnałowi

wejściowemu, elementy wiersza zaś są prawdopodobieństwami odebrania
różnych bj przy ustalonym sygnale wejściowym. Ponieważ taka forma
opisu kanału będzie często występować, wprowadzimy pewne uproszczenia
zapisu. Zdefiniujemy przeto
(5.1) Pij=P(bj\ai).
Wówczas tablica 5.3 może być interpretowana jako tzw. macierz kanału.
Macierz kanału oznaczymy symbolem P:
P12 • • Pu
(5.2) P = P 21 P22 • • P2s
Ai Pr 2 • Prs
Kanał informacyjny jest w pełni określony przez swoją macierz. Będziemy
używać symbolu P równocześnie do określenia kanału i macierzy ka-
nału.
Każdy wiersz macierzy odpowiada jednemu wejściu naszego kanału,
każda kolumna zaś odpowiada jednemu wyjściu. Fundamentalna własność
5.2. Kanały informacyjne 115
macierzy kanału polega na tym, że suma wyrazów każdego wiersza jest

równa 1 O - Własność ta wynika stąd, że jeżeli zostanie nadany sygnał
wejściowy at, na wyjściu musi pojawić się któryś z sygnałów wyjściowych.
Zapiszemy tę własność w następującej postaci:
(5.3) t 1, i—1,2 r.
j=i
Kanał KBS ma następującą macierz:
(5.4) r* n .
Lp PJ
Podobnie jak to uczyniliśmy w przypadku źródeł informacji, możemy
rozpatrywać nie pojedyncze sygnały wejściowe i wyjściowe, ale bloki
złożone z « takich sygnałów. Zdefiniujemy teraz kanał rozszerzony «-tego
rzędu.
DEFINICJA. Rozważmy kanał informacyjny określony przez zbiór ele-
mentarnych sygnałów wejściowych A={at}, / = 1, 2, ..., r, zbiór elemen-
tarnych sygnałów wyjściowych B—{bj},j= 1 , 2 , . . . , s , oraz macierz
"Pil P12 • • Pl 5 ~
P= P21 P22 • • Pis
_p,*l P,2 • • Prs_

Kanał rozszerzony «-tego rzędu definiują: zbiór sygnałów wejściowych
A={<Xi}, i = l , 2 , ..., r", zbiór sygnałów wyjściowych Bn={fij}, j=l, 2,
..., s", oraz macierz kanału
n12 . .. nls„
n= n2l n22 •
.. n2s„
_nrn! nrn 2 . • nrnsn _
O Takie macierze są nazywane macierzami Markowa lub macierzami stochastycz-

nymi.
8«
Każdy z sygnałów wejściowych af składa się z ciągu n elementarnych

sygnałów wejściowych ( a n , ai2, ..., a/B), a każdy sygnał wyjściowy jest
ciągiem n elementarnych sygnałów wyjściowych {bn, bJ2, ..., bJn). Prawdo-
podobieństwa 77ii = P()?y|ai) są równe iloczynowi odpowiednich prawdo-
podobieństw, dotyczących poszczególnych sygnałów elementarnych ( ł ).
Podobnie jak w przypadku, gdy definiowaliśmy rozszerzone źródło
informacji, rozszerzony kanał informacyjny nie jest istotnie nową kon-
cepcją, ale nowym spojrzeniem na starą koncepcję. Po prostu grupując
sygnały jakiegoś kanału w bloki o długości «, otrzymujemy kanał roz-
szerzony «-tego rzędu.
PRZYKŁAD 5.1. Symetryczny bezpamięciowy kanał rozszerzony 2-rzędu jest
kanałem, na którego wejściu i wyjściu mogą się pojawić cztery różne bloki. Macierz
5,4 jest macierzą takiego kanału.
'p' PP VP Ps"
pp p2 p1 VP
pp p* p' pp
.p' pp pp p2 -
5.4. Macierz kanału (KBS) 2
Zauważmy, że macierz symetrycznego, bezpamięciowego kanału dru-

giego rzędu (KBS) 2 może być napisana jako macierz macierzy. Niech P,
podobnie jak poprzednio, będzie macierzą kanału KBS; wówczas macierz
kanału (KBS) 2 może być zapisana następująco:
pp Pp
n= pp pp
Powyższa macierz jest znana jako kwadrat Kroneckera (Bellman, 1960)

lub tensorowy kwadrat macierzy P. W bardziej ogólnym przypadku macierz
kanału rozszerzonego «-tego rzędu jest «-tą potęgą Kroneckera macierzy
pierwotnego kanału.
W pierwszej części książki użyliśmy pewnej miary do mierzenia średniej
ilości informacji wysyłanej przez źródło. Jednakże zadaniem kanału infor-
macyjnego jest nie wysyłanie informacji, ale przekazywanie informacji
(') Jest to słuszne jedynie przy założeniu, że kanał jest stacjonarny i bezpamię-
ciowy (przyp. tłum.).
z wejścia do wyjścia. Spodziewamy się przeto, że możliwe będzie zastoso-

wanie naszej miary do mierzenia zdolności kanału do przekazywania
informacji. Przejdziemy teraz do zbadania ilości informacji, która może
być przekazywana przez kanał.
5.3. Probabilistyczne związki w kanale
Rozważmy kanał informacyjny, na którego wejściu może się pojawiać

jeden spośród r sygnałów wejściowych, na wyjściu zaś jeden spośród s
sygnałów wyjściowych. Kanał jest określony przez macierz P:
P u P12 • •Pu
(5.5) P = P21P22 • •P2s
_Prl Pr2 •
Założymy, że przekazywane przez ten kanał sygnały wejściowe wybierane
są zgodnie z prawdopodobieństwami 0 ) P(ai), P(i?2), ••• > P(tfr)- Sygnały
wyjściowe będą pojawiać się wówczas zgodnie z innymi prawdopodobień-
stwami P(&i), P(b2), ..., P(6S). Łatwo można wyprowadzić związki po-
między prawdopodobieństwami sygnałów wejściowych i prawdopodobień-
stwami sygnałów wyjściowych. Dla przykładu, sygnał wyjściowy może
być odebrany w r różnych sytuacjach. Jeżeli zostanie nadane a x , wówczas
bx zostanie odebrane z prawdopodobieństwem P u ; jeżeli zostanie na-
dane a2, ¿i zostanie odebrane z prawdopodobieństwem P2i itd. Możemy
zatem napisać:
P(al)Pll+P(a2)P2i + ...+P(ar)Prl=P(b1),
( P (a,) Pi 2 + P («2) P22 + -+P («,) Pr 2 = P (62) •
P ( f l l ) Pls + P(a2) P2s+... + P(ar) P r s = P(b s ).
(') Założenie, które czyni autor, jest równoważne temu, że na wejście kanału'
dołączono źródło informacji opisane przez prawdopodobieństwa P ( a , ) P(a,)»
(przyp. tłum.).
Równania (5.6) dają nam prawdopodobieństwa różnych sygnałów

wyjściowych, jeżeli są dane prawdopodobieństwa a priori P(a,) sygnałów
wejściowych oraz macierz kanału, tj. macierz prawdopodobieństw warun-
kowych P(fy|a,).
W dalszej części tego rozdziału przyjmiemy, że są dane P(a ; ) oraz
Tak więc P ( b j ) mogą być obliczone ze związków (5.6). Zauważmy
jednakże, że jeżeli mamy dane prawdopodobieństwa P(6j) oraz P(6y|a(),
rozwiązanie układu równań liniowych (5.6) ze względu na P(a f ) może nie
być możliwe.
Na przykład jeżeli w kanale KBS p=\, to dla dowolnego zbioru praw-
dopodobieństw sygnałów wejściowych otrzymuje się jednakowo prawdo-
podobne sygnały wyjściowe. W ogólności może istnieć wiele rozkładów
wejściowych, które prowadzą do tego samego rozkładu wyjść. Natomiast,
na odwrót, jeżeli dany jest rozkład wejść, możemy wyznaczyć rozkład
wyjściowy za pomocą związków (5.6).
Oprócz P {bj) istnieją dodatkowo dwa zbiory prawdopodobieństw
charakteryzujących kanał informacyjny, które mogą być wyznaczone na
podstawie P(a f ) oraz P(^|c ( ). Zgodnie z prawem Bayesa prawdopodo-
bieństwo warunkowe sygnału wejściowego a,, gdy dany jest sygnał ode-
brany bj, jest równe
„7)
lub — po wykorzystaniu (5.6) —
<5.7') .
¡=1
W celu odróżnienia od prawdopodobieństw P(bj\a,), prawdopodobieństwa

P( a i\bj) są czasami określane jako prawdopodobieństwa wsteczne. Liczniki
prawych stron (5.7) i (5.7') są prawdopodobieństwami łącznymi pary
sygnałów (a,, bj):
<5-8) P(ai,bj) = P(bj\ai)P(at),

które może również być przedstawione nieco inaczej:
<5.8') P(.ai,bJ) = P(ai\bJ)P(bJ).
5.3. Probabilistyczne związki w kanale 119
PRZYKŁAD 5.2. Zilustrujemy obliczanie różnych prawdopodobieństw związa-

nych z kanałem informacyjnym. Weźmy kanał binarny, wówczas A = { 0 , 1 } oraz
B= { 0 , 1 } . Założymy, że V(bj\a,) tworzą macierz:
Lio ioJ
'-[i I]-
Jak poprzednio, wiersze i kolumny powyższej macierzy odpowiadają poszczególnym
sygnałom wejściowym i wyjściowym. Tak więc P { ¿ > = 0 | a = 0 } = i ; P {¿> = l | a = 0 } = } itd.
5.5. Kanał informacyjny z szumem
Założymy ponadto, że P {a = 0} = J oraz P {a = 1} = i . Powyższe dane są zwięźle przed-

stawione na schemacie 5.5. Prawdopodobieństwa sygnałów wyjściowych wyznaczamy
na podstawie (5.6):
(5.9) P { 6 = 0 } - 4 - T + T'ro=i5>
(5.9') +
Zauważmy, że P { 6 = 0 } + P { 6 = 1} = 1. Prawdopodobieństwa warunkowe sygnałów

wejściowych wyznaczamy na podstawie (5.7):
3 2
(5.10) P { A =0|6=0} = ^ I = ^ ,
40
1 9
(5.10') P = =
40
Pozostałe dwa prawdopodobieństwa wsteczne możemy wyznaczyć podobnie. Proś-

ciej jednakże można je wyznaczyć wykorzystując to, że P { a = 0 | 6 = 0 } + P { a = 116 = 0} =
= 1 oraz P { a = 0 | 6 = l } + P {a= 1 \b = 1 } = 1. Tak więc:
(5.10") P {a = l | i > = 0 } = ^ j ,
(5.10"') P {a=0|6 = l } = ^ .
Prawdopodobieństwa łączne wyznaczamy na podstawie (5.8). Obliczamy jedno z nich:

(5.11) P { o =0,6=0} = P{a=0|6=0}P{6=0}=^-^ = | .
5.4. Entropia a priori i entropia a posteriori
Sygnały wyjściowe naszego kanału występują zgodnie z prawdopodo-

bieństwami P ( b j ) . Zauważmy, że jeżeli nie znamy aktualnie nadanego
sygnału wejściowego, to prawdopodobieństwo danego sygnału wyjścio-
wego bj jest P ( b j ) .
Wiemy jednakże, że jeżeli znamy sygnał wejściowy at, wówczas praw-
dopodobieństwo sygnału wyjściowego bj zmienia się z P ( ^ ) na V(bj\aj).
Przypomnijmy sobie, że wejściowe sygnały a{ pojawiają się z prawdo-
podobieństwami P(a,). Jeżeli dalej obserwujemy sygnał wyjściowy bj,
prawdopodobieństwo, że at jest sygnałem wejściowym, oznaczymy P(tf,|6 ; )
(wzór (5.7)). Zwróćmy naszą uwagę na zmianę prawdopodobieństw poszcze-
gólnych sygnałów wejściowych, jeżeli znamy sygnał wyjściowy bj.
Prawdopodobieństwa P(a,) są prawdopodobieństwami a priori sygnałów
wejściowych, tj. prawdopodobieństwami at, gdy nieznany jest sygnał wyjś-
ciowy (przed odebraniem sygnału wyjściowego kanału). (P(A,|Z>J) będziemy
nazywali prawdopodobieństwami a posteriori sygnałów wejściowych, tj.
prawdopodobieństwami, gdy znany nam jest odpowiedni sygnał bj (po
odebraniu sygnału na wyjściu kanału). Z paragrafu 2.2. wiemy, że można
obliczyć entropię zbioru sygnałów wejściowych dla prawdopodobieństw
obydwu typów. Entropia a priori zbioru A jest równa (')
(5.12) H(A) = ^P(a)\og^
a entropię a posteriori zbioru A (tj. gdy znamy bj) określamy następu-

jąco:
(5.13) H (A | bj) = Z P H bj) log — ^ .
Interpretacja tych dwóch wielkości wynika bezpośrednio z pierwszego

twierdzenia Shannona. H(A) jest średnią liczbą niezbędnych binitów przy-
porządkowanych wiadomości elementarnej ze źródła, gdy prawdopodo-
bieństwa a priori są P(o,), /'= 1, 2, ..., r, a H(A\bj) jest średnią liczbą
(') Dla wygody w pozostałej części książki będziemy opuszczać indeksy przy a,
oraz bj, jeżeli sumujemy po wszystkich elementach zbiorów A i B.
5.4. Entropia a priori i entropia a posteriori 121
niezbędnych binitów przyporządkowanych wiadomości elementarnej ze

źródła opisanego prawdopodobieństwami a posteriori P(ai\bj),i= 1 , 2 , . . . ,r.
PRZYKŁAD 5.3. Powtórzmy dla wygody rysunek 5.6 wzięty z przykładu 5.2. Entro-
5.6. Kanał informacyjny z szumem
pia a priori zbioru sygnałów wejściowych wynosi
(5.14) #04)=flogy+-^log4=0,811 bita.
Jeżeli odbierzemy sygnał 0 na wyjściu kanału, prawdopodobieństwa a posteriori

są dane wzorami (5.10) i (5.10'). Entropia a posteriori wynosi
(5.15) i/04|0)=^log^+^log21=0,276 bita.
Jeżeli odbierzemy sygnał 1, entropia a posteriori wynosi
(5.16) //M|l)=^logy+^log^=0,998 bita.
Tak więc, jeżeli odbierzemy 0, entropia — tj. nieoznaczoność nadanego sygnału wej-
ściowego — zmniejsza się, jeżeli jednak odbierzemy 1, to nieoznaczoność wzrasta.
5.5. Uogólnienie pierwszego twierdzenia Shannona
Według pierwszego twierdzenia Shannona, entropia zbioru może być

interpretowana jako średnia liczba potrzebnych binitów przyporządkowa-
Kanal
5.7. Kanał informacyjny
nych elementowi zbioru. Rozważmy tę interpretację w odniesieniu do

entropii a priori i a posteriori (schemat 5.7).
Przed odebraniem sygnału wyjściowego z kanału, przyjmujemy dla
wejściowego zbioru A prawdopodobieństwa P(at). Średnia ilość niezbęd-

nych binitów przyporządkowanych elementowi tego zbioru wynosi H(A).
Jeżeli odbierzemy dany sygnał, powiedzmy bj, przyjmiemy dla zbioru
sygnałów wejściowych prawdopodobieństwa P(a,1&y). Średnia ilość nie-
zbędnych binitów przyporządkowanych elementom zbioru z takimi (a poste-
riori) prawdopodobieństwami wynosi H(A\bj). Ponieważ sygnały wyjściowe
pojawiają się z prawdopodobieństwami P { b j ) , możemy oczekiwać, że śred-
nia ilość niezbędnych binitów (uśredniając również po bj) przyporządko-
wanych sygnałowi wejściowemu a i (jeśli jest dany sygnał wyjściowy) jest
średnią entropią a posteriori:
(5.17) Zp(b)H(A\b).
B
Ten ważny wynik jest w samej rzeczy prawdziwy. Nie wynika to jednak
z pierwszego twierdzenia Shannona. Twierdzenie to dotyczy bowiem
jedynie kodowania dla źródła z ustalonym zbiorem statystyk, nie dotyczy
zaś kodowania dla źródła o zmieniających się statystykach po każdym
sygnale wyjściowym. W dalszym ciągu uogólnimy pierwsze twierdzenie
Shannona tak, aby obejmowało i taki przypadek.
Pytanie, które musimy zadać ażeby otrzymać to uogólnienie, nie jest
takie samo jak pytanie, które zadaliśmy aby otrzymać pierwsze twierdzenie
Shannona, a mianowicie: Jaka metoda kodowania jest najbardziej sprawna?
(W tym przypadku źródłem jest A). Teraz jednakże statystyki źródła, które
chcemy kodować, zmieniają się od sygnału do sygnału. Wskazówki o tym,
jaka jest statystyka źródła, dostarcza nam sygnał b} na wyjściu kanału.
Zauważmy, że kod zwięzły dla jednego zbioru statystyk źródła nie będzie
na ogół kodem zwięzłym dla innego zbioru statystyk źródła. Wykorzy-
stamy znajomość bj do konstrukcji s kodów binarnych ( Ł ) — jeden dla
każdego z możliwych sygnałów odbieranych bj. Gdy na wyjściu naszego
kanału odbierzemy bj, posłużymy się j-tym kodem binarnym do zakodo-
wania przekazywanego sygnału at. Przyjmiemy, że długości ciągów kodo-
wych są takie jak w tablicy 5.1.
Jeśli założyć, że kody są dekodowalne bez opóźnienia, to dla każdego
kodu z osobna możemy zastosować pierwsze twierdzenie Shannona. Pro-
(') Założenie binarności nie jest konieczne. Uczyniliśmy je dla uproszczenia

dalszych rozważań.
5.5. Uogólnienie pierwszego twierdzenia Shannona 123
TABLICA 5.1 Długość ciągów dla s kodów
Element Kod Kod Kod

wejściowy 1 2 i
fi hi ¡12 h.
Ol hi 122 ... h,
a
r Irl In Ir,
wadzi to do nierówności
(5.18)
A
gdzie L j oznacza średnią dhigość ciągu dla y-tego kodu. Bierzemy tutaj
warunkowe prawdopodobieństwa P(a,|£/) zamiast prawdopodobieństw
brzegowych P(a,), ponieważ y'-ty kod jest stosowany tylko wtedy, gdy
został odebrany sygnał bj.
Średnią ilość binitów użytą do zakodowania w ten sposób poszczegól-
nych elementów zbioru A otrzymamy przeprowadzając uśrednienie po
odbieranych sygnałach by Mnożąc (5.18) przez P ( b j ) i sumując po wszyst-
kich elementach zbioru B otrzymujemy
(5.19) £tf04|b,)P(b,)< £ ? ( « „ bj)l,fil;
B A, B
Ljest średnią ilością binitów przypadających na element zbioru A, uśred-
nioną zarówno ze względu na sygnały wejściowe, jak i wyjściowe. Zwróćmy
uwagę na podobieństwo (5.19) i (4.7).
Aby wykazać, że wynikający z nierówności (5.19) kres może być osiąg-
nięty, opiszemy teraz pewną specjalną procedurę kodowania. Przyjmijmy,
że na wyjściu naszego kanału pojawia się bj. Wówczas jako ltJ (długość
ciągu kodowego odpowiadającego wejściu a f ) wybierzemy liczbę całko-
witą spełniającą nierówność
Długości ciągów określone w ten sposób spełniają nierówność Krafta (\)
(') To może być wykazane w taki sam sposób, jaki stosowaliśmy przy dowodzeniu
pierwszego twierdzenia Shannona (patrz § 4.3).
dla każdego j ; l t j określają zatem s zbiorów długości ciągów odpowiada-

jących s kodom. Pomnóżmy teraz (5.20) przez P(a,-, ¿ J ) = P(a,|6y) P(6/):
(5.21) P ( b j ) P ( a t \ b j ) l o g p ^ j ^ < h j P ( « i , *>;)<
< P (bj) P (at\bj) log + P ( f l (,
i zsumujmy po wszystkich elementach zbiorów A i B:
(5.22) £P(i)tf04|b)<L<XP(fc)//04|i>) + l .
B B
Wzór (5.22) jest słuszny dla wszystkich kanałów rozważanego przez nas
typu, w szczególności słuszny jest dla kanału rozszerzonego «-tego rzędu:
(5.23) X P (fi) H (A"\fi) < Ln < £ P (j5) H (An\^)+1,

B" B"
gdzie L„ jest średnią długością ciągu odpowiadającego elementowi ze

zbioru A", lub inaczej, średnią długością ciągu odpowiadającego « elemen-
tom ze zbioru A. Każda entropia a posteriori H(A"\fi) występująca w (5.23)
może być zapisana jako suma n wyrażeń postaci H(A\b) tak, iż (5.23)
przechodzi w związek
(5.24) ^P(b)H(A\b)^<'ZP(b)H(A\b) + ^ .
Wzór (5.24) jest poszukiwanym uogólnieniem pierwszego twierdzenia

Shannona. Zwróćmy uwagę na podobieństwo (5.24) oraz (4.15). Zwięk-
szając «, możemy uczynić Ljn dowolnie bliskie sumie
(5.25) Y,P(b)H{A\b).
B
Ljn jest średnią liczbą binitów konieczną do zakodowania wejścio-

wego sygnału elementarnego ze zbioru A, jeżeli znamy odpowiadający mu
sygnał należący do zbioru wyjściowego B. L„ występujące w związku (5.24)
jest mierzone w binitach, a H(A\bj) — w bitach. Jest rzeczą trywialną
uogólnić to wyrażenie tak, aby Z„ było mierzone w r-narnych symbolach,
H(A\bj) zaś w r-narnych jednostkach informacji.
Dotychczas nie uprościliśmy wyrażenia £ P(b) H(A\b) tylko dlatego,

B
aby podkreślić fakt, że jest to średnia entropia a posteriori. Przeprowadźmy
proste przekształcenia:
(5.26) H(^|5)=EP(fc)H(^|fc)=ZP(ft)lP(«|fc)log-ii- =
B B A
H(A\B) jest nazywane miarą nieoznaczoności (A ze względu na fi) lub cza-

sami miarą nieoznaczności kanału. Posługując się miarą nieoznaczoności
możemy wzór (5.24) zapisać w postaci
(5.27) ]im—=H(A\B).
n~* oo n •
Zadaliśmy sobie tyle trudu, aby podkreślić podobieństwo pomiędzy

dowodem nierówności (5.24) oraz dowodem pierwszego twierdzenia Shan-
nona, że czytelnik mógł nie zauważyć jednej zasadniczej różnicy. Kolejne
sygnały wejściowe at (lub bloki sygnałów wejściowych) są kodowane za
pomocą różnych kodów odpowiadających różnym pojawiającym się
sygnałom wyjściowym bj (lub blokom sygnałów wyjściowych). Chociaż
każdy z użytych kodów jest jednoznacznie dekodowalny, nie jest na ogół
prawdziwe, iż ciąg ciągów kodowych kodów jednoznacznie dekodowalnych
jest jednoznacznie dekodowalny. Nie wystarcza zatem wybrać zbiór
kodów jednoznacznie dekodowalnych, których długości ciągów spełniają
warunek (5.20); wszystkie kody muszą być kodami dekodowalnymi bez
opóźnienia. Podsumowując zauważamy, że wzór (5.24) odnosi się do
zespołu kodów, podczas gdy pierwsze twierdzenie Shannona odnosi się
do wszystkich kodów jednoznacznie dekodowalnych, kodów dekodowal-
nych bez opóźnienia i z opóźnieniem.
5.6. Dość informacji
Powróćmy do rozważań dotyczących kanału informacyjnego, na którego

wejściu może się pojawić jeden spośród r sygnałów, na wyjściu zaś jeden
spośród s sygnałów (schemat 5.8). Jeżeli sygnały wejściowe są wybierane
126 5. Kodowanei i ilość informacji
Ol
a2 ¿2
P(bj\ai)
b.
5.8. Kanał informacyjny
zgodnie z prawdopodobieństwami P(ą), i= 1, 2, ..., r, to entropia zbioru

wejściowego wynosi
(5.28) fl(/t)=XP(<i)log-i-
A P (a)
Jeżeli mamy prawdopodobieństwa wejściowe oraz prawdopodobieństwa
warunkowe P(67|a,), to możemy obliczyć (paragraf 5.3) prawdopodobień-
stwa warunkowe P(a t \bj), prawdopodobieństwa łączne P(aj, bj), a dalej
miarę nieoznaczoności
1
(5.29) H(A\B)= ]>] P (a, b)log -
A, B 'p(a| BY
Według pierwszego twierdzenia Shannona, każdemu sygnałowi wejścio-

wemu a, musi odpowiadać średnio H{A) binitów. Dzięk uogólnieniu
opisanemu w paragrafie 5.5, każdemu sygnałowi wyjściowemu musi odpo-
wiadać średnio tylko H(A\B) binitów, jeżeli dopuszczamy możliwość
obserwacji sygnału wyjściowego odpowiadającego danemu sygnałowi wejś-
ciowemu. Jest więc naturalnym mówić, że obserwacja pojedynczego sygnału
wyjściowego dostarcza nam średnio H(A) — H(A \B) binitów informacji.
Występująca różnica jest nazywana ilością informacji (A i B) (') lub ilością
informacji przekazywaną przez kanał. Można ją zapisać następująco:
(5.30) I(A;B) = H(A)-H(A\B).
Podamy teraz kilka równoważnych sposobów przedstawiania ilości infor-

macji:
(') Nazwę tę traktujemy równoważnie z nazwą wzajemna informacja (przyp.

tłum.).
5.6. Ilość informacji 127
(5.31) 1(A ; B) = H(A) — H(A\B) =
= X P ( f l ) l o g - i - - EP(a,Z>)log, 1
A P(A) A, B 'P (a\b)
Ponieważ P(a,, ¿ J ) = P(a,|6J) P(^), więc:
(5.31') /(A ; B)= S P ( a ,

P(tf)P(f>)
Ilość informacji dla kanału wykorzystanego n razy może być obliczona

według (5.31). Jeżeli elementy zbioru są wybierane zgodnie z prawdopo-
dobieństwami P(aj) = P(a a ) P(o i2 ) ••• P(«¡n), ilość informacji jest wówczas
«-krotną ilością informacji kanału podstawowego (zadanie 5.4):
(5.32) I(An-B") = nI(A;B).
5.7. Własności ilości informacji
Wykazaliśmy, że ilość informacji jest równa różnicy pomiędzy średnią

ilością niezbędnych binitów, gdy nie znany jest sygnał wyjściowy, i średnią
ilością niezbędnych binitów, gdy znamy sygnał wyjściowy, tzn.
(5.33) I(A \B)=H(A)-H(A\B).
Bezpośrednim pytaniem wynikającym z powyższej interpretacji ilości in-

formacji jest pytanie dotyczące jej znaku. Wiemy (paragraf 5.4), że H(A) —
— H(A\bj) może być ujemne; można bowiem niekiedy znaleźć takie sygnały
wyjściowe bj, że po odebraniu ich entropia zbioru wejściowego może
wzrosnąć. Jednakże, ilość informacji jest średnią (po zbiorze wyjściowym)
różnicy H(A)-H(A\bj). Czy średnia ta może być ujemna? Aby odpowie-
dzieć, przepiszmy (5.31'):
? ( a , & )
I(A ; B)= Y P ( a , b)log .
Bezpośrednio korzystając z nierówności (2.8) mamy
(5.34) I(A;B)>0,
przy czym równość zachodzi wtedy i tylko wtedy, gdy
(5.35) P(at, bJ^FiaJPibj) dla wszystkich i,y'.
Jest to uspokajający wynik. Mówi on, że średnia informacja prze-

kazywana przez kanał jest zawsze nieujemna. Średnio biorąc, nie mo-
żemy tracić informacji, dzięki obserwacji wyjścia kanału. Co więcej,
warunek przy którym średnia informacja jest równa zeru, odpowiada
statystycznej niezależności sygnałów wejściowych i wyjściowych kanału
(wzór (5.35)). Inna ważna własność ilości informacji może być określona
na podstawie wzoru (5.31'). To równanie, które możemy potraktować
jako definicję I (A; B), jest symetryczne ze względu na obydwie zmienne
losowe a ; oraz bj. Zamieniając miejscami sygnały wejściowe i wyjś-
ciowe nie zmieniamy I(A; B). Możemy zatem napisać
(5.36) I(A ; B ) = J ( B ; A) .|
Jest to równanie, które podkreśla symetrię ilości informacji. Wobec po-

wyższego możemy (5.33) przepisać inaczej:
(5.37) I(A-,B) = H(B)-H(B\A),

gdzie
(5.38)
oraz
(5.39)
Ostatnia wielkość jest nazywana nieoznaczonością B ze względu na A.

Oprócz entropii H(A) i H(B) można zdefiniować łączną entropię,
która mierzy nieoznaczoność łącznego zdarzenia (c f , bj). Prawdopodo-
bieństwo takiego zdarzenia jest P(a^bj), a entropia łączna określona
jest następująco:
(5.40) H(A,B)= £P(a, fc)log—

A, B P (a,b)
5.7. Własności ilości informacji 129
Łatwo można wyprowadzić związek pomiędzy H(A, B) oraz H(A)

i H(B):
P
(5.41) H(, ) B )=ZP( a > f c )lo g -(^VlP( f l , b )lo g p ^ r
<4,fl "W
— / ( A s I O + I i W l o g ^ + l P W l o g ^ -
Łączna entropia /I i / / ( / i , B) jest oczywiście symetryczna ze względu

na A i B.
Łatwa metoda zapamiętania różnych wyprowadzonych relacji jest
przedstawiona na schemacie 5.9. Entropia A jest reprezentowana przez
H(A, B)
5.9. Związki pomiędzy niektórymi wielkościami opisującymi kanał
lewe koło, entropia B zaś przez koło prawe. Część wspólna obydwu kół
odpowiada ilości informacji. Tak więc pozostałe części H{A) i H(B) odpo-
wiadają nieoznaczonościom warunkowym:
(5.42) H (A\B) = H(A) — I(A ; B),
(5.43) H(B\A) = H(B) — I(A; B).
Abstrahując od faktu, że część wspólna jest włączona dwa razy, entropia
łączna H(A, B) jest sumą H(A) i H(B). Tak więc
(5.44) H(A,B) = H(A) + H(B)-I(A;B).
Zauważmy także, że
(5.45) H(A,B) = H(A)+H(B\A),
(5.45') H(A, B)=H(B)+H(A\B).
Równania te wynikają bezpośrednio z rysunku 5.9 lub związków (5.42),
(5.43) i (5.44). Możemy interpretować te równania jako stwierdzenie, że
całkowita nieoznaczoność pary A i B jest sumą nieoznaczoności A i nie-
oznaczoności B przy danym A, lub odwrotnie.
Podsumowując stwierdzamy, że chociaż podstawowym obiektem na-
szego zainteresowania jest kanał informacyjny, argumentacja użyta w tym
paragrafie nie zależy od tego, że A jest zbiorem sygnałów wejściowych
B zaś — zbiorem sygnałów wyjściowych kanału informacyjnego. Możemy
zdefiniować informacyjne miary, pokazane na schemacie 5.9 dla każdych
dwóch zmiennych losowych. Jeżeli dwie zmienne losowe nie są statycznie
niezależne, ilość informacji będzie dodatnia.
PRZYKŁAD 5.4. Obliczmy ilość informacji dla KBS. Macierz opisująca KBS
jest następująca:
[V]
Lp pi
gdzie p—l— p. Załóżmy, że prawdopodobieństwa przekazywania 0 i 1 są równe od-
powiednio co i co. Wypiszmy ilość informacji w postaci
(5.46) I{A\B)^H(B)-H(B\A)=H(B)-YJ'PM^(ba)\og—^r =
a B P(o|a)
=H(B)-Yp (a) (p l o g ~ + j i l o g - i ) — H(B) — (p log — +p log ~ ) .

A \ P P! \ P p'
Jak łatwo obliczyć, prawdopodobieństwa, że bj—0 i bj= 1, są odpowiednio równe
cap +cbp i cop+cbp. Stąd
(5.47) I(A ; B)= [(cop+cbp) log _ 1 _ + (cop+cbp) log —_] -

L cop+cop cop+cops
- (plog— + ^ l o g — ) .
\ P P!
Możemy wyrazić I(A; B) przez entropię (rys. 2.3):
(5.48) I(A ; B) — H(cop+cbp) —H(p).

Równanie (5.48) ma prostą interpretację geometryczną. Ponieważ cop + ćbp musi
zawsze leżeć pomiędzy p i p, H(a>p+cbp)>H(p) i rysunek 5.10 jest geometrycznym
dowodem nieujemności ilości informacji. Interesujące nas warunki graniczne mogą

również być odczytane z rysunku 5.10; np. dla ustalonej wartości p możemy zmieniać co
i badać zachowanie się I(A; B). Widzimy, że I(A; B) osiąga maksimum, gdy a > = } ,
i wartość maksymalna wynosi 1 —H(p). Dla c o = 0 lub co = 1 ilość informacji jest
równa zeru.
5.8. Kanały bezszumowe i deterministyczne
W paragrafie tym zdefiniujemy dwa szczególne rodzaje kanałów i okreś-

limy uproszczone wyrażenia dla ilości informacji, odpowiadającej tym
•Ó1
•h
•b3
•bs
1 , ,t
5.11. Kanał bezszumowy
9*
kanałom. W dalszych rozważaniach przyjmiemy, że w każdej kolumnie

macierzy kanału jest przynajmniej jeden element różny od zera. Sygnał
wyjściowy, któremu przyporządkowana jest kolumna samych zer, ma
prawdopodobieństwo pojawienia równe zeru. Sytuację taką tutaj pomijamy.
DEFINICJA. Kanał opisany przez macierz z jednym i tylko jednym ele-
mentem niezerowym w każdej kolumnie będziemy nazywali kanałem bez-
szumowym.
PRZYKŁAD 5.5. Weźmy pod uwagę następującą macierz kanału bezszumowego:
i I 0 0 0 o
P = 0 0 4 ro ro o
0 0 0 0 0 1
Ilustracja graficzna własności takiego kanału jest pokazana na rysunku 5.11.
KBS z prawdopodobieństwem błędu p równym zeru jest kanałem

bezszumowym. Zauważmy jednakże, że KBS z prawdopodobieństwem
błędu równym 1 jest także kanałem bezszumowym. Jest to wyrażeniem
faktu, że kanał, który konsekwentnie wprowadza błąd, jest równie uży-
teczny jak kanał nie wprowadzający żadnych błędów.
DEFINICJA. Kanał opisany przez macierz z jednym i tylko jednym ele-
mentem różnym od zera w każdym wierszu będzie nazywany kanałem
deterministycznym.
PRZYKŁAD 5.6. Przykładem macierzy kanału deterministycznego może być na-
stępująca macierz:
1 0 0"
1 0 0
0 1 0
0 1 0
0 1 0
0 0 1
Ilustracja graficzna własności tego kanału jest pokazana na rysunku 5.12.
Ponieważ występuje tylko jeden element niezerowy w każdym wierszu

macierzy kanału deterministycznego, z drugiej zaś strony suma elementów
każdego wiersza musi być równa 1, elementy macierzy kanału determini-
stycznego, są wszystkie albo zerami, albo jedynkami.
5.8. Kanały bezszumowe i deterministyczne 133
1
-b,
5.12. Kanal deterministyczny
Ilość informacji dla kanałów omawianych wyżej daje się łatwo obliczyć.
Weźmy pod uwagę najpierw kanał bezszumowy. Jeżeli w kanale bezszu-
mowym obserwujemy sygnał wyjściowy bj, wiemy z prawdopodobieństwem
1, jakie at jest przekazywane; tak więc prawdopodobieństwa warunkowe
P(ai\bj) są wszystkie albo 1, albo 0. Napiszemy teraz entropię H{A\B):
(5.49) H(A\B)=Y,p (bj)Z p

(ai\bj) lo
s —1
B A
Zauważmy, że wszystkie wyrażenia sumy wewnętrznej (mające postać

1 - log 1 lub 0-log !) są zerami. Stąd wynika, że dla kanału bezszumowego
(5.50) tf(/l|B)=0.
Konkluzja ta jest również widoczna ze względu na uogólnione pierwsze

twierdzenie Shannona (paragraf 5.5). Znając sygnały wyjściowe kanału
bezszumowego możemy jednoznacznie określać sygnały wejściowe kanału.
Stąd wynika, że średnia niezbędna ilość binitów odpowiadająca wejściom,
gdy znamy wyjścia, jest równa zeru. Na podstawie wzoru (5.30) widzimy,
że dla kanału bezszumowego mamy:
(5.51) I(A;B) = H(A).
Ilość informacji przekazywanej przez taki kanał jest równa całkowitej

niejednoznaczności wejściowego zbioru. Analogiczne rezultaty możemy
wyprowadzić dla kanałów deterministycznych. W kanale deterministycz-
nym sygnał w e j ś c i o w y at wystarcza do wyznaczenia w y j ś c i o w e g o
sygnału bj z prawdopodobieństwem 1. Stąd wszystkie prawdopodobień-

stwa P(fry|a,) są albo 0, albo 1, więc
(5.52)
A B F{bj\a,)
Korzystając z (5.37) dla kanału deterministycznego, mamy:
(5.53) I(A ; B)=H (B).
5.9. Kanały połączone szeregowo
Niektóre interesujące własności entropii i ilości informacji stają się

widoczne przy rozważaniu dwu szeregowo połączonych kanałów (sche-
mat 5.13). (Szczegółowe badanie kanałów binarnych połączonych szerego-
wo przeprowadził Silverman (1955)).
A C
Kanal 1 Kanał 2
5.13. Kaskada dwu kanałów
Przyjmujemy, że kanał z r sygnałami zbioru wejściowego A oraz s sygna-

łami zbioru wyjściowego B jest połączony z drugim kanałem jak pokazano
wyżej. Zbiór wejściowy drugiego kanału jest identyczny z B, a jego zbiór
wyjściowy C zawiera t sygnałów.
Z faktu, że kanały są połączone szeregowo (jak pokazano na rys. 5.13)
wynikają pewne związki pomiędzy prawdopodobieństwami sygnałów.
Jeżeli jest przekazywany sygnał at ze zbioru A, na wyjściu pierwszego
kanału wystąpi sygnał z B, powiedzmy bj. Dalej bj powoduje, że na wyjściu
drugiego kanału pojawi się jakieś ck. Sygnał ck zależy od pierwszego sygna-
łu Oj tylko poprzez bj.
Istotnie, jeżeli znamy pośredni sygnał bj, prawdopodobieństwo wystą-
pienia końcowego sygnału ck zależy od bj, a nie zależy od początkowego
sygnału ah który spowodował wystąpienie bj. Ta własność kanałów połą-
czonych szeregowo może być zapisana następująco:
(5.54) a i ) = P(c t |b J ) dla wszystkich i, j , k.
5.9. Kanały połączone szeregov,o 135
Wzór (5.54) może być traktowany jako definicja tego, co my rozumiemy

pod pojęciem połączenia szeregowego dwóch kanałów. Na podstawie
(5.54) oraz twierdzenia Bayesa otrzymujemy podobną relację dla prawdo-
podobieństw warunkowych:
(5.55) P ( a i | b ; , c , ) = P(a i |b ; ).
Należy podkreślić, że (5.54) i (5.55) obejmują tylko specjalny przypadek,

gdy A, B i C są zbiorami odpowiadającymi kanałom połączonym szere-
gowo przedstawionym na rysunku 5.13.
Można przypuszczać, że w czasie transmisji przez kanały połączone
szeregowo od A przez B do C, entropia powinna wzrastać, tj. H(A \ C)
powinna być większa od H(A\B). Zbadajmy ten problem.
Wykorzystajmy (5.55) do przekształcenia (5.56):
Wykorzystując nierówność (2.8) możemy wykazać, że sumowanie po

zbiorze A w (5.57) daje wartość nieujemną, stąd
(5.58) H(A\C)-H(A\B)>0
lub
(5.59) H(A\C)^H(A\B).
Bezpośrednią konsekwencją (5.59) jest

(5.60) 1(A;B)>I(A;C).
Nierówności te pierwszy udowodni! Woodward (1955). Pokazują one,

że kanały informacyjne wprowadzają „wyciekanie" informacji. Informacja,
która ostatecznie przedostaje się przez kaskadę kanałów, nie może być
większa niż informacja wypływająca z jakiegoś wewnętrznego punktu
kaskady (o ile punkt taki możemy mieć w ogóle dostępny).
Warunek, przy którym we wzorach (5.59) i (5.60) zachodzą równości,
jest niezwykle interesujący. Wracając do dowodu związku (5.59), widzimy,
że równość będzie zachodziła wtedy i tylko wtedy, gdy
(5.61) P ( a | 6 , c ) = P(fl|c)
dla wszystkich a oraz b i c takich, że P(b, c)^0. Równoważny zapis tego

warunku jest następujący:
(5.61') P( f l |6) = P( fl |c)
dla wszystkich a oraz b i c, dla których P ( 6 , c ) ^ 0 .

Warunek równości wymaga pewnego komentarza. Na pierwszy rzut
oka może się wydawać, że równość będzie zachodziła wtedy i tylko wtedy,
gdy drugi kanał w kaskadzie na rysunku 5.13 będzie bezszumowy. Jeżeli
kanał jest istotnie bezszumowy, to nietrudno sprawdzić, że nasz warunek
(5.61') będzie spełniony. Jednakże, jak to wynika z następnego przykładu,
warunek ten może być spełniony również w innych sytuacjach.
P r z y k ł a d 5.7. Weźmy połączenie szeregowe kanału
z kanałem
"1 0 0"
0 i i .
.0 i i.
Szeregowy układ powyższych dwóch kanałów można przedstawić graficznie tak jak
na schemacie 5.14.
Mimo że obydwa kanały nie są bezszumowe, można zobaczyć, że jest spełniona

relacja (6.61'). Zatem
I(A ; B)=I(A ; C).
W przykładzie tym równość (5.61') jest spełniona niezależnie od własności statystycz-
5.14. Kanały szeregowe

nych zbioru wejściowego A. Można łatwo znaleźć przypadki, gdzie (5.61') jest speł-
nione tylko dla niektórych specjalnych rozkładów. Wrócimy do tego problemu w nas-
tępnym paragrafie.
Możemy zilustrować stratę informacji jaka wynika z przepływu jej

przez kaskadę kanałów odwołując się do przykładu, w którym ludzi
potraktujemy jako kanały informacyjne. Wiadomość w oryginale napisana
po angielsku jest tłumaczona na inny język, a następnie z powrotem na
angielski przez innego tłumacza, który nie zna oryginalnego tekstu wia-
domości. Wynik takiej operacji będzie zniekształconą wersją oryginalnego
tekstu i może być traktowany jako wynik przekazania wiadomości przez
kanał z szumem. Aby symulować kaskadę kanałów, powtarzamy poprzed-
nią operację, biorąc jednakże teraz jako wejście zniekształconą wersję
wiadomości.
Opisany eksperyment był przeprowadzany przy użyciu prostego cztero-
wierszowego poematu Żółw Ogdena Nasha. Poemat był tłumaczony z języ-
ka angielskiego na inne języki w następującej kolejności: angielski-fran-
cuski-angielski-niemiecki-hiszpański-angielski. Przy tłumaczeniu zrezygno-
wano z zachowania rytmu i miary wierszowej oryginalnego fragmentu.
The turtle lives 'twixt plated decks
Which practically conceal its sex.
I think it clever of the turtle
In such a fix to be so fertile.
Wyjście kanału: angielski-francuski-angielski było następujące:
The turtle lives in a scaled carapace which in fact
hides its sex. I find that it is clever for the turtle
to be so fertile in such a tricky situation.
Na wyjściu kanału: angielski-niemiecki-angielski był tekst:

The turtle lives in an enclosed shell under which, in reality, it hides its sex. I find
that the turtle must be very clever, indeed, to be so fertile in such a tight situation.
Ostatnie wyjście kanału: angielski-hiszpański-angielski było następujące:

The turtle lives inside a closed shell, under which, really, it hides its sex. I feel the
turtle had to be certainly clever to be so fertile in a so tight situation.
Już dawniej zwracano uwagę na występowanie „szumów" w kanale

komunikacyjnym pomiędzy ludźmi oraz wynikające stąd straty informacji.
Thucydides w I tomie Wojny Peloponeskiej pisze:
O wypadkach wojennych nie odważałem się mówić nic na podstawie przypad-
kowych informacji ani na podstawie własnego poglądu (tj. prawdopodobieństwa
a priori); nie napisałem nic poza tym, co widziałem sam albo dowiedziałem się od in-
nych, których uważałem za najbardziej ostrożnych i dociekliwych (tj. własność wpro-
wadzania szumów w kanale). Zadanie było pracochłonne, ponieważ naoczni świad-
kowie jakiegoś zdarzenia relacjonowali je w zależności od tego, jak je pamiętali lub
jak byli zaangażowani w działaniach jednej lub drugiej strony (tj. szum kanałów).
Jako ostatni (bardziej ilościowy) przykład straty informacji w kanałach

połączonych szeregowo, rozpatrzymy przypadek kaskady dwu identycz-
nych KBS.
PRZYKŁAD 5.8. Dwa kanały KBS o macierzach (jednakowych)
M
LP P\
są połączone następująco:
A K
KBS KBS
*
Dwie możliwe postacie sygnału wejściowego 1-go kanału są wybierane z jednakowym

prawdopodobieństwem. Stąd na podstawie (5.48) mamy
(5.62) I(A;B) = 1-H(p).
Można łatwo pokazać, że kaskada tych KBS jest równoważna pojedynczemu KBS
z prawdopodobieństwem błędu 2pp. Tak więc
(5.63) I(A ; C) = \-H(2pp).
Jeżeli dodamy jeszcze jeden identyczny KBS (ze zbiorem wyjściowym D) otrzymamy
(5.64) I(A ;D) = l-H(3p2p+p3).
Odpowiednie krzywe są przedstawione graficznie na rysunku 5.15.
1
0,8
0,6
0,4
0,2
0
0,2 0,4 0,6' 0,8 1
Prawdopodobieństwo błędu p w kanale
5.15. Wzajemna informacja kaskady n kanałów KBS przy założeniu jednakowych

prawdopodobieństw sygnałów wejściowych
5.10. Kanały zredukowane i redukcje wystarczające
W wielu typach kanałów informacyjnych spotykanych w praktyce,

zbiór sygnałów wyjściowych kanału jest znacznie liczniejszy niż to życzyłby
sobie użytkownik. Na przykład dane naukowe przekazywane z satelity
przez binarny kanał telemetryczny często zawierają informację nie mającą
związku z zasadniczymi badanymi zjawiskami. Antena na ziemi może
w takim systemie odbierać ciągi impulsów o różnych amplitudach. Od-
biornik analizowałby wówczas każdy impuls i jeżeli jego amplituda byłaby
większa od pewnego progu, interpretowałby impuls jako 1; jeżeli ampli-
tuda byłaby mniejsza od progu, odbiornik interpretowałby impuls jako 0.
W opisanej sytuacji możemy rozważyć dwa typy kanałów. Pierwszy jest
kanałem z binarnymi sygnałami wejściowymi (wysyłanymi z satelity) i dużą
ilością sygnałów wyjściowych (odpowiadającą liczbie rozróżnialnych ampli-
tud impulsu). Drugi jest kanałem z binarnymi sygnałami wejściowymi
i binarnymi sygnałami wyjściowymi (odpowiadającymi wyjściom naszego
odbiornika). Drugi kanał stanowi oczywiście uproszczenie kanału pierwsze-
go; drugi kanał będziemy więc nazywali redukcją kanału pierwszego.
DEFINICJA. Rozważmy kanał z r sygnałami wejściowymi i s sygnałami
wyjściowymi opisany przez macierz
11 P12 ••
~p Pu P l,i+l • • Pu
p= Pil P 22 •• Pu Pz.i+i • •• Pl,
frl Pr2 • • Pri Pr,i+1 • • Prs_
Zdefiniujmy nowy kanał z r wejściami i i—1 wyjściami, sumując dwie

dowolne kolumny macierzy P. Macierz nowego kanału oznaczmy symbo-
lem P':
>11 P12 • • Pll + ^l.l+l •• Pu
P = P 21 P2 2 • • P2i "1" P2, i+ 1 • P 2s
Pn Pr2 • • Pri + Pr, i+1 • Pfs _

Nowy kanał P' jest nazywany redukcją elementarną kanału P. Możemy
powtórzyć ten proces pewną ilość razy, konstruując redukcję elementarną
kanału P' itd. Końcowy rezultat więcej niż jednej redukcji elementarnej
będzie nazywany po prostu redukcją pierwotnego kanału P.
PRZYKŁAD 5.9. W przykładzie 5.1 skonstruowaliśmy macierz kanału (KBS) 2 :
P2 PP PP P2
P = PP P2 P2 PP
PP P2 P2 PP
P2 PP PP P2
Elementarną redukcję kanału P konstruujemy przez dodanie pierwszej i drugiej ko-

lumny:
2
P PP P
2
P P PP
P = -2
P P PP
P PP P2
Redukcję kanału P konstruujemy dodając drugą i trzecią kolumnę P':
P P
P P
P =
P P
P P
5.10. Kanały zredukowane i redukcje wystarczające 141
Dogodny sposób interpretowania kanału zredukowanego pokazany

jest na schemacie 5.16. Kanał deterministyczny zamienia zbiór B w zbiór C
o mniejszej ilości elementów. Stąd kanał ze zbiorem wejściowym A i zbio-
A
V1 Kanał
deterministyczny
C
Kanał
zredukowany
5.16 Kanał zredukowany
rem wyjściowym C, zaznaczony linią przerywaną na rysunku 5.16, jest

redukcją kanału P. Przedstawiona metoda konstrukcji kanału zreduko-
wanego pozwala nam wykorzystać rezultaty poprzedniego paragrafu.
W szczególności mamy (odwołując się do rys. 5.16)
(5.65) H(A\C)>H(A\B)
oraz
(5.66) I(A;C)Î(A;B).
Redukcja kanału zmniejsza (lub w najlepszym razie nie zmienia) ilości

informacji, związanej ze zbiorami sygnałów wejściowych i wyjściowych.
Jest to cena, jaką płacimy za uproszczenie kanału. Najważniejszym py-
taniem, wynikającym z powyższych uwag, jest pytanie: kiedy możemy
uprościć kanał bez płacenia kary w postaci zmniejszenia ilości informacji,
tj. kiedy ilość informacji, przepływająca przez kanał zredukowany, jest
równa ilości informacji związanej z kanałem pierwotnym?
Aby odpowiedzieć na to pytanie, wystarczy rozważyć przypadek re-
dukcji elementarnych. Odpowiedź na pytanie dotyczące przypadku ogól-
nej redukcji może być uzyskane przez indukcję. Utwórzmy redukcję ele-
mentarną kanału:
rPn P 12 ls'
(5.67)
P = P 21 P 22
Pri Prl ... P,

Nie tracąc na ogólności, możemy przyjąć, że redukcję elementarną prze-

prowadzamy dodając dwie pierwsze kolumny macierzy P., Sytuacja taka
jest przedstawiona na schemacie 5.17.
5.17. Redukcja kanału za pomocą kaskady
W paragrafie 5.9 znaleźliśmy warunki konieczne oraz dostateczne,

aby łączenie szeregowe kanałów nie wprowadzało straty informacji. Były
one następujące (5.61'):
(5.68) P(a|6) = P(a|c)
dla wszystkich a, b i c takich, że P(b, ć)=£ 0. Ponieważ zajmujemy się re-

dukcją elementarną, warunek ten jest oczywiście spełniony dla wszystkich
elementów B, z wyjątkiem dwu elementów by i b2, które połączyliśmy
ze sobą. Niech c1 będzie elementem zbioru C, odpowiadającym połączo-
nym bl'\b2. Stosując wzór 5.68 dla by\b2, znajdujemy warunki konieczne
i dostateczne na to, by nie występowała strata informacji:
(5.69) P(a|b ł ) = P(a|c 1 ) = P(a|6 2 ) dla wszystkich a .

Powyższe warunki są równoważnej) warunkom następującym:
(5.70) P(a|ft 1 ) = P(a|6 2 ) dla wszystkich a.
Innymi słowami, dwa sygnały wyjściowe bl i b2 mogą być traktowane jako
(') Warunek nałożony na P(o|c,) wynika automatycznie z (5.70).

jeden bez straty informacji wtedy i tylko wtedy, gdy prawdopodobieństwa

warunkowe P(a|i>i) i P(a\b2) są jednakowe dla wszystkich a. Jest to ważny
wynik zarówno ze względu na właściwe zrozumienie pojęcia ilości infor-
macji, jak i z praktycznego punktu widzenia. Prowadzi on do ustalenia
warunków, przy których kanał może być uproszczony bez płacenia kary.
Zauważmy, że prawdopodobieństwa warunkowe zależą od prawdopodo-
bieństw a priori P(o,), tj. zależą one od tego, jak wykorzystujemy nasz
kanał. Jest rzeczą interesującą ustalić, kiedy możemy przeprowadzić re-
dukcję dla dowolnych prawdopodobieństw a priori. Odpowiedź na to
możemy uzyskać wykorzystując wzór Bayesa do przepisania (5.70) w nastę-
pującej formie:
P(Mfl)P(fl) P(b2\a)P(a)
(5.71); = i-: == n —, dla wszystkich a
£ P ( 6 l f l ) P ( a ) £P(i> 2 |a)P(a)
A A
Jeżeli (5.72) jest spełnione dla wszystkich możliwych prawdopodobieństw

P(a), musi zachodzić:
(5.73) P(f>j|a)=const• P(b 2 \a) dla wszystkich a.
Równanie (5.73) jest poszukiwanym warunkiem. Jeżeli mamy macierz
kanału spełniającą (5.73), to możemy dodać dwie kolumny macierzy i nowa
macierz kanału będzie tak samo dobra jak macierz pierwotna. Wyrażając
się bardziej dokładnie, dla dowolnego zbioru prawdopodobieństw okre-
ślonych na zbiorze wejściowym, ilości informacji dla kanału pierwotnego
i kanału zredukowanego będą identyczne. Zredukowany kanał posiada-
jący tę własność będzie nazywany redukcją dostateczną (wystarczającą).
P r z y k ł a d 5.10. Kanał
[liii]
L.12 6 * 2J
może być zredukowany do
i ostatecznie do kanału
Kanał ostatni jest redukcją dostateczną kanału pierwotnego.
5.11. Addytywność ilości informacji
Ważną własnością ilości informacji jest jej addytywność. W paragrafie

tym zbadamy addytywność rozważając średnią ilość informacji o zbiorze
sygnałów wejściowych dostarczanej przez ciąg sygnałów wyjściowych.
Rozważmy przypadek, gdy możemy zyskiwać informację o wejściu na
podstawie kilku obserwacji. Przykładem jest sytuacja, gdy sygnały wejścio-
we kanału szumowego nie są przekazywane jeden raz, a są powtarzane
pewną ilość razy. Taka procedura może być stosowana dla poprawienia
wierności przekazywania informacji przez zawodne (wprowadzające zakłó-
cenia) kanały. Innym przykładem jest kanał informacyjny, w którym
odpowiedzią na pojedynczy sygnał wejściowy jest nie pojedynczy sygnał
wyjściowy, ale ciąg sygnałów wyjściowych.
Zbadamy własność addytywności ilości informacji w szczególnym przy-
padku, gdy sygnał wyjściowy odpowiadający pojedynczemu sygnałowi
wejściowemu składa się z dwu sygnałów elementarnych. Bardziej ogólny
przypadek, gdy sygnał wyjściowy składa się z n sygnałów elementarnych,
może być zbadany przez indukcję.
Zmodyfikujmy nasz model kanału informacyjnego tak, że zamiast
pojedynczego sygnału wyjściowego dla każdego sygnału wejściowego
odbieramy dwa sygnały, powiedzmy b j i ck. Sygnały bj i ck są elementami
zbiorów wyjściowych
B={bj}, j=l,2, ...,s i C={ck), k=l, 2, ..., t.
Bez straty ogólności możemy przyjąć, że dwa sygnały wyjściowe są odbie-

rane w kolejności bj, ck. Wówczas, po odebraniu pierwszego sygnału
wyjściowego, prawdopodobieństwa a priori sygnałów wejściowych P(o,)
zmieniają się w prawdopodobieństwa a posteriori P(a(|6j); po odebraniu
drugiego sygnału wyjściowego zmieniają się one w prawdopodobieństwo
„bardziej a posteriori" P(a,|Z>;, ck).
5.11. Addytywność ilości informacji 145
Jeżeli są odebrane dwa sygnały b} \ ck, to średnia niejednoznaczność

czyli entropia zbioru sygnałów wejściowych, zmienia się z
(5.74) H(A)=Y,V(a) log—^—-

A P (A)
w entropię a posteriori
(5.74') H(A\bj)=ZP(a\bj)log?-^
i dalej w entropię „bardziej a posteriori"
(5.74") H(A\bj, ck)=Y.P(a\bj, ck)
W paragrafie 5.5 uśredniliśmy H(A\bj) po bj, aby znaleźć średnią entropię

a posteriori, czyli niejednoznaczność A ze względu na B:
(5.75) ZP(b)H(A\b)=H(A\B).
B
W ten sam sposób możemy uśrednić H(A\bj, ck) po wszystkich bj i ck

ażeby znaleźć niejednoznaczność A względem B i C:
(5.75') X P(b,c)H(A\b,c)=H(A\B,C).
B,C
Wynik uogólnienia pierwszego twierdzenia Shannona (paragraf 5.5) sto-

suje się bezpośrednio do H(A\B, C), przy czym H(A\B, C) jest średnią
ilością binitów niezbędnych do zakodowania elementu zbioru A, gdy
znane są odpowiednie elementy ze zbioru B i C.
Równania (5.75) oraz (5.75') sugerują dwa różne sposoby mierzenia
ilości informacji, jakiej o A dostarcza para B i C. W pierwszym spo-
sobie możemy zdefiniować ilość informacji o A w parze (B, C) tak samo,
jak to czyniliśmy gdy na wyjściu kanału był pojedynczy sygnał, tj.
(5.76) I(A;B,C) = H(A)-H(A\B,C).
W drugim możemy rozważyć ilość informacji dostarczaną o A jedynie

przez B, następnie ilość informacji o A dostarczaną przez C dodatkowo,
gdy poznaliśmy już wcześniej B. Są to następujące wielkości:
(5.77) H(A)-H(A\B)
146 5. Kodowanie i ilość informacji
oraz
(5.77') H(A\B) — H(A\B, C).
Pierwsza z nich została wcześniej zdefiniowana jako I(A; B):
(5.78) I(A;B)=H(A)-H(A\B).
Jest rzeczą naturalną wprowadzić dla różnicy (5.77') oznaczenie
(5.78') I(A;C\B) = H(A\B)-H(A\B,Q
i nazwać je ilością informacji o A w C przy ustalonym B. Dodając (5.78)

i (5.78') otrzymujemy
(5.79) I(A ; B)+I(A ; C\B)=H(A)-H(A\B, C)=I(A ; B, C).
Równanie (5.79) wyraża własność addytywności ilości informacji.

Mówi ono o tym, że średnia ilość informacji dostarczana przez obser-
wację nie zależy od tego czy traktujemy obserwację jako całość, czy dzie-
limy ją na części składowe. Równanie (5.79) może być bezpośrednio uogól-
nione:
(5.80) I{A ; B, C,..., D) = I(A ; B) + I(A ; C\B)+... + I(A ; D\B, C,...),
gdzie wyrażenie po lewej stronie jest średnią ilością informacji dostarcza-

nej o A na podstawie obserwacji ze zbiorów B, C, ..., D. Pierwsze wyra-
żenie po prawej stronie jest średnią ilością informacji o A dostarczaną
przez obserwację ze zbioru B. Drugie wyrażenie po prawej stronie jest
średnią ilością informacji o A dostarczaną przez obserwację ze zbioru C,
po dokonaniu obserwacji ze zbioru B, itd. W szczególności kolejność,
w jakiej odbieramy informację, jest bez znaczenia. Na przykład możemy
napisać (odpowiednio do 5.79)
(5.81) I(A ; B, C) = I(A; C) + I(A ; B\C).
Wielkości informacyjne dyskutowane powyżej możemy napisać w kilku

różnych postaciach. Z (5.76) mamy:
(5.82) I(A;B,C) = H(A)-H(A\B,Q =
1
= £ P ( a ) l o g - i - - X P(a,b,c)log =
A P(A) A.B.c P(a\b,c)
= £ P(<3, b, c ) l o g — — £ P ( a , b, c)log
A/B, c P(a) B, C P(a|b,c)
A.B.C P(A)
Inną użyteczną postać otrzymamy mnożąc licznik i mianownik pod lo-

garytmem przez P(¿>, c):
(5.82') n A - , B , C . Y ? ( . , b ,
Czytelnik powinien zauważyć podobieństwo pomiędzy wzorami (5.82)

i (5.82') i wzorami (5.31) i (5.31'). Możemy mianowicie otrzymać (5.82)
i (5.82') podstawiając po prostu w (5.31) i (5.31') b, c zamiast b. Nasze
rozważania sugerują definicję
1
(5.83) H(B,C\A)= £ P(a, fr,c)log
A.B.C R{T>,C\a)
Łatwo sprawdzić, że:
5.84) I(A;B,C)Û(B,C)~H(B,C\A).
PRZYKŁAD 5.11. Dla ilustracji addytywności ilości informacji zbadamy KBS
M .
L p pi
gdzie p = l — p . Założymy teraz, że sygnał wejściowy (0 lub 1) jest powtarzany tak,

że na wyjściu kanału mamy dwa binarne sygnały bj, ck dla każdego sygnału wejścio-
wego a,. Dla prostoty przyjmiemy ponadto, że obydwa sygnały wejściowe są wybie-
rane z jednakowymi prawdopodobieństwami. Podstawiając zatem co = ł w (5.48)
mamy
(5.85) I(A ; £) = 1 —H(p).
Aby znaleźć I(A; B, C) wykorzystamy (5.82'). Niezbędne prawdopodobieństwa podane

są w tabeli 5.2. Podstawiając te prawdopodobieństwa do (5.820 mamy
lZn2S lf2p 2 • r / p2 \ 1
(5.86) /(^;B,C)=p2log^—,+Zlog-j—2=(/+/) 1-if K — j •
P +p p +Pj L \p +p / J
Interpretacja wyrażenia (5.86) jest prosta. Jeżeli obserwujemy 10 lub 01 na wyjściu

takiego kanału, mamy wówczas całkowitą dwuznaczność; dwa możliwe sygnały wej-
ściowe będą w dalszym ciągu jednakowo prawdopodobne i nie uzyskujemy informacji
10«
TABLICA 5.2 Prawdopodobieństwa opisujące kanał KBS z powtórzeniami
dl bj Cu P(«l) P ( f i , bj, ck) P (bJtck)
0 0 0 i ip2 i(p2+P2)
0 0 1 i iPP PP
0 1 0 i hPP PP
0 1 1 i iP2 HP2+p2)
1 0 0 i iP2 i(j>2+P2)
1 0 1 i iPP pp
1 1 0 i iPP pp
1 1 1 i i P2 HP2+P2)
na podstawie naszej obserwacji. Jeżeli jednakże zaobserwujemy 00 lub 11, to zyskujemy

informację o wejściu, która jest równoważna informacji zyskanej na podstawie po-
jedynczego sygnału wyjściowego kanału KBS, w którym prawdopodobieństwo błędu
jest równe
P2+P2'
Z (5.85) wynika, że informacja z takiej obserwacji wynosi
(5.87) J ) .
00 lub 11 obserwujemy z prawdopodobieństwem p2+p2, stąd wynika (5.86).

Argumenty przytoczone wyżej można łatwo uogólnić na przypadek KBS użytego
kilkakrotnie. Dla przykładu, jeżeli każde wejście wywołuje trzy binarne sygnały wyj-
ściowe, mamy:
(5.88) I(A ; B, C, D)=(p3+p*) [ l - H (-Tf^)] +3PP [1 -H(/>)].
Równania (5.85), (5.86) i (5.88) są zilustrowane na rysunku 5.18.
5.12. Ilość informacji w przypadku kilku zbiorów
W naszych badaniach addytywności ilości informacji (paragraf 5.11)

napotykaliśmy ciąg wielkości entropii
.(5.89) H(A), H(A\B), H(A\B,C), ...
Każdy element tego ciągu jest nie większy niż poprzedzający. Widzimy,
5.12. Ilość informacji w przypadku kilku zbiorów 149
że różnica pomiędzy dwoma kolejnymi elementami może być interpreto-

wana jako średnia informacja o A dostarczana przez nową obserwację:
(5.90) I(A-,B)=H(A)-H(A\B),
(5.90') I(A; C\B)=H(A\B)-H(A\B,Q,
I(A; B) jest wzajemną informacjąO A i fi; I(A\ C\B) jest wzajemną infor-
macją A i C przy danym fi. Obydwie te wielkości jednakże dotyczą wza-
5.18. Wzajemna informacja przy n powtórzeniach w kanale KBS
jemnych informacji jedynie dwu zbiorów. Jest możliwe zdefiniowanie

wzajemnej informacji dla więcej niż dwu zbiorów (McGill, 1954). Zde-
finiujemy następująco wzajemną informację zbiorów A, B i C'.
(5.91) I(A ; B ; C) = J(/1; B)—I(A ; fi|C).
Nasza definicja wzajemnej informacji A, fi i C sugeruje, że I(A;B;C)

jest symetryczna względem A, fi i C. Jeżeli tak jest istotnie, (5.91) może
(') Ze względu na symetrie I(A; B) = I(B; A) pojęcie ilości informacji będziemy

używali równorzędnie z pojęciem informacja wzajemna (przyp. tłum.).
być zapisane również następująco:
(5.91') I(A;B;C) = I(B;C)-I(B;C\A)

lub
(5.91") I (A; B ; C)=I(C ; A)-I(C ; A\B).
Aby udowodnić symetrię I(A; B; C) przekształćmy (5.91):
(5.92) I (A ; B ; C) =
p
L\i v o/ u \| («>%)
A?B P(fl)P(&) A.B.C ' ' P(a|c)P(b|c)
- Z P(a,fc,c)logP(a'b)P(fllC)P(f)=
A.B.C P(a)P(b)P(a, b\c)
V D, K M P(«,fi)P(«.E)P(6.C)
¿,B,C P ( a ) P ( 6 ) P ( c ) P ( A , I>, c)
= / f ( A ) + H ( B ) + H ( C ) - H ( X , B ) - f l ( ^ , C ) - J i ( B , C ) + i i ( , 4 , B , C).
Wykazując symetrię zauważmy dodatkowo, że wzór (5.92) przypomina

wyrażenie na wzajemną informację w przypadku dwóch zbiorów:
(5.93) I(A;B)=H(A)+H(B)-H(A,B).
Wzory (5.92) i (5.93) można łatwo uogólnić dla więcej niż trzech zbiorów.
Na przykład, wzajemna informacja A, B, C i D ma postać
(5.94) I(A ; B ; C ; D)=I(A]B; C ;)-I(A ; B ; C\D) =
= [H(A)+H(B)+H(C) + H (£>)] -
~[H(A,B)+H(A,Q+H(A,D)+
+ H(B, C)+H(B, D) + H(C, D)] +
+ [H(A,B,C) + H(A,B,D) +
+ H(A, C, D) + H(B, C, D)]-H(A,B, C, D).
Blachman (1961) zasugerował uzupełnienie rysunku (5.9), pomocne

przy interpretacji powyższych wyrażeń. Dla trzech zbiorów mamy związki
pokazane na schemacie 5.19. Chociaż rysunek 5.19 stanowi pomoc

w zrozumieniu związków między wyżej zdefiniowanymi wielkościami,
może on jednak czasami wprowadzać w błąd. Jak pokazano, wzajemna
H(A, B, o H(A, B, o
/ * \ r * \
5.19. Niektóre związki informacyjne
informacja I(A; B) jest nieujemna; wzajemna informacja I(A; B\ C)

jednakże może być ujemna. Oznaczałoby to, że przecięcie trzech kół
na rysunku 5.19a może być ujemne. Podamy przykład pokazujący, że
jest to możliwe.
PRZYKŁAD 5.12. Rozważmy trzy zbiory binarne A, B, C. Niech a, oraz bj przyj-

mują wartości 0 i 1, każdą z prawdopodobieństwem i i niezależnie od siebie. Przyj-
miemy dalej, że ck jest 0, jeżeli a, jest równe bj, lub 1, jeżeli a, jest różne od bj.
Niektóre z prawdopodobieństw dla tych trzech zmiennych losowych zebrane są
w tablicy 5.3.
TABLICA 5.3 Prawdopodobieństwa w przypadku trzech zmiennych losowych
a,bjck ?(a,,bj,ck)P(<*<|bj, ck) p bj\ck) P(*i ,bj) P M
000 1 i ł
i i
001 0 0 0 i ł
010 0 0 0 i
011 i 1 ł i i
100 0 0 0 i ł
101 i 1 i i i
110 i 1 i i i
111 0 0 0 i ł
Wykorzystując tę tablicę, możemy obliczyć:
I(A ; fi)=0 bitów,

I(A; B\C)—1 bit,
I(A; B; C)=I(A ; B)—I(A ; B | C ) = —1 bit.
Jest jasne, dlaczego otrzymaliśmy takie rezultaty. Ponieważ A i B są statystycznie

niezależne, I(A; B) = 0 i element zbioru B nie dostarcza żadnej informacji o elementach
zbioru A. Jedakże jeśli wcześniej znamy element zbioru C, poznanie elementu ze zbio-
ru B pozwala określić, który element ze zbioru A był wybrany; dostarcza nam zatem
jeden bit informacji.
5.13. Przepustowość kanału
Rozważmy kanał informacyjny określony przez zbiór wejściowy A,

zbiór wyjściowy B i prawdopodobieństwa warunkowe P(6;|i7(). Aby obli-
czyć ilość informacji
P< a b)
(5.95) I(A ; B)= Y P (a, fe)log
5
^ '
A.B P(a)P(b)'
trzeba znać prawdopodobieństwa sygnałów wejściowych P(tfj). Informacja
wzajemna zależy zatem nie tylko od kanału, ale również od sposobu wy-
5.13. Przepustowość kanału 153
korzystania kanału, tj. od prawdopodobieństw, z którymi wybierane są

sygnały wejściowe kanału. Jest interesujące zbadanie zmienności I(A; B)
w zależności od prawdopodobieństw wejściowych.
PRZYKŁAD 5.13. Dla KBS z prawdopodobieństwem błędu p mamy (patrz (5.48)):
(5.96) I(A ; B)=H(cop+mp)-H(p),
gdzie co jest prawdopodobieństwem zera na wejściu oraz ¿3 = 1—co, p = 1 —p. Możemy
potraktować (5.96) jako funkcję co dla ustalonego p (patrz rys. 5.20).
n a w e j ś c i u , ci
5.20. Wzajemna informacja w kanale KBS
Ilość informacji przepływająca przez KBS zmienia się od 0 do 1— H(p). Mi-

nimalną wartość równą zeru osiąga, gdy co=0 lub 1. W tych przypadkach na wyj-
ściu znamy wejście z prawdopodobieństwem 1 i to przed odebraniem sygnału
wyjściowego. Maksimum równe 1 — H(p) ilość informacji osiąga dla co—i, tj. gdy
obydwa sygnały wejściowe są jednakowo prawdopodobne.
Dla ogólnego kanału informacyjnego widzimy, że ilość informacji

można zawsze sprowadzić do zera, wybierając jeden z sygnałów wejścio-
wych z prawdopodobieństwem 1. Ponieważ ilość informacji jest nieujemna,
łatwo odpowiedzieć na pytanie, kiedy I(A; B) osiąga minimum. Znacznie
trudniej odpowiedzieć na pytanie dotyczące wartości maksymalnej. Maksy-
malna wartość I{A; B) ze względu na prawdopodobieństwa sygnałów
wejściowych jest oznaczana przez C i nazywana przepustowością kanału:
(5.97) C = max I(A ; B).
P(»i)
Zauważmy, że przepustowość kanału informacyjnego jest funkcją

jedynie prawdopodobieństw warunkowych określających kanał. Prze-
pustowość nie zależy od wejściowych prawdopodobieństw, związanych ze
sposobem wykorzystania kanału. Z rysunku 5.20 widzimy, że przepusto-
wość kanału KBS z prawdopodobieństwem błędu binarnego p wynosi
\~H(j>).
Obliczanie przepustowości kanału informacyjnego jest w ogólności
skomplikowane (Muroga, 1953, Shannon, 1957 b, Fano, 1961). W pewnych
przypadkach jednakże obliczenia mogą być uproszczone. Najważniejszą
klasą kanałów, dla których obliczenia upraszczają się, jest klasa tzw. ka-
nałów jednolitych.
5.21. Przepustowość kanału KBS
DEFINICJA. Rozpatrzmy kanał określony przez macierz
Pil Pil • • Pu
Pil P 22 • • P2s
-P.
Pfl PP f 2- ••• P -
Prs
Jak poprzednio, PiJ = P(bJ\ai). Kanał taki jest nazywany kanałem jedno-
litym, jeżeli elementy każdego wiersza i kolumny są permutacjami ele-
mentów pierwszego wiersza.
P r z y k ł a d 5.14. Mieliśmy już do czynienia z jednym przykładem jednolitego

kanału informacyjnego, a mianowicie z KBS. Naturalne uogólnienie KBS, r-narny
kanał symetryczny (KrS) jest jednolitym kanałem z r sygnałami wejściowymi i r wyj-
ściowymi. Kanał KrS jest określony przez macierz 5.22. Jak zwykle, p= 1 —p. Cał-
kowite prawdopodobieństwo błędu dla takiego kanału jest p, jednakże teraz każdy
sygnał wejściowy może być odebrany niepoprawnie na r — l różnych sposobów.
P V V -
p
r - 1 r - 1 r —1
V V V
r - 1 P r - 1 r —1
P V P
Lr - 1 r - 1 r - 1 P
5.22. Macierz kanału KrS
Obliczymy teraz przepustowość w przypadku ogólnym kanału jedno-

litego. Przepustowość jest wartością maksymalną 7(A; B) ze względu na
rozkłady wejściowe:
(5.98) I(A;B)=H(B)-H(B\A) =
1
=//(B)-£P(a)lP(f>|a)log]
P(40
Sumowanie po B w ostatnim składniku (5.98) jest dla każdego at sumo-

waniem elementów zawartych w / tym wierszu macierzy kanału. Dla kanału
jednolitego sumowanie to nie zależy jednakże od i. Stąd
(5.99) J04; B)=H(B)— £ P(b|a)log ^ ^ ,
przy czym drugi składnik w (5.99) nie zależy od rozkładu sygnałów wejścio-
wych. Aby wyznaczyć maksimum prawej strony (5.99) należy znaleźć
jedynie maksimum H(B). Ponieważ zbiór wyjściowy obejmuje r sygnałów,
wiemy, że H(B) nie może przekraczać logr bitów. H(B) będzie równe
log r wtedy i tylko wtedy, gdy wszystkie sygnały wyjściowe będą równo-
prawdopodobne. W ogólności jednak nie jest prawdziwe stwierdzenie, że
istnieje rozkład wejściowych sygnałów taki, że sygnały wyjściowe są równo-
prawdopodobne. Dla jednolitego kanału jednakże można łatwo sprawdzić,
że jeśli założyć równoprawdopodobne sygnały wejściowe, to sygnały wyjścio-
we są również równoprawdopodobne. Tak więc maksymalna wartość

wyrażenia (5.99), czyli przepustowość, wynosi:
(5.100) C=logr-ęP(h|a)log]î_ =
= logr+XP(fc|a)logP(i>|a).
B
PRZYKŁAD 5.15. Korzystając z (5.100) obliczamy przepustowość kanału KrS:
(5.101) C = l o g r+p l o g p + p log ~— = log r-p log (r-\)-H(j>).

r— 1
5.14. Warunkowa ilość informacji
Przepustowość kanału jest maksymalną wartością wyrażenia
(5.102) I(A-,B)=lP(a,b)\og?^-,
A.B R (B)
będącego średnią wyrażenia log [P(6]a)/P(6)] ze względu na zbiór wejścio-

wy A, jak i zbiór wyjściowy B. Ilość informacji może być również przepi-
sana w formie
(5.103) I(A ; B) = £ P( f l ) £ P(fc|a)log = £ P ( a ) i ( a ; B),
A B R (O) A
gdzie
(5.104) /(asiO-lPiil«)10«^^-;
I(a; B) jest nazywane warunkową ilością informacji (warunek ze względu

na a). Warunkowa ilość informacji jest średnią wyrażenia log [P(6|a)/P(6)]
ze względu na warunkowe prawdopodobieństwo P(6|o).
W ogólności, I(a; B) zależy od sygnału wejściowego a. Jednakże gdy
sygnały wejściowe są wybierane zgodnie z prawdopodobieństwami, dla
których ilość informacji jest równa przepustowości kanału, to jak zoba-
czymy, I(a; B) nie zależy od a dla wszystkich sygnałów wejściowych, dla
których P(a)^0. Gdy prawdopodobieństwa wejściowe są takie jak prawdo-
podobieństwa, dla których ilość informacji jest równa przepustowości, to
(5.105) / (a ; B) = C
dla wszystkich a takich, źe P(a)^0.
5.14. Warunkowa ilość informacji 157
Stwierdzenie to stanowi podstawę przy obliczaniu przepustowości

kanałów bardziej ogólnych od kanałów jednolitych, badanych w poprzed-
nim paragrafie (Fano, 1961). Wykorzystamy je też w paragrafie 6.10 przy
dowodzeniu drugiego twierdzenia Shannona.
Udowodnimy wzór (5.105) przez zaprzeczenie. Załóżmy, że mamy
zbiór prawdopodobieństw wejściowych(') P(aj), P(a 2 ), ..., P(ar), które
odpowiadają przepustowości kanału, ale które nie spełniają (5.105) i wszyst-
kie I(a; B) nie są równe przepustowości. Ponieważ średnia I(a; B) jest
równa przepustowości, musi być przynajmniej jedno I(a; B) większe od C,
i przynajmniej jedno I(a; B) mniejsze od C. Bez straty ogólności przyj-
mijmy
(5.106) I(al-,B)>C,
(5.106') I(a2;B)<C.
Zmieniamy prawdopodobieństwa
(5.107) P ( f l l ) , P(a 2 ), P( f l 3 ), ..., P(a r )
na prawdopodobieństwa
(5.107') P ( a 1 ) + ^ > P ( a 2 ) - A , P(a 3 ) P(a r ),
gdzie A jest pewną małą liczbą mniejszą od P(a2)- Pokażemy dalej, że
wielkość wzajemnej informacji wówczas wzrasta. Ponieważ przyjęliśmy,
że pierwotne prawdopodobieństwa (5.107) odpowiadały przepustowości,
mamy sprzeczność; stąd nasze założenie, że wszystkie I(a; B) nie są stałe,
jest fałszywe. Zajmiemy się teraz dowodem wspomnianej tezy. Oznaczmy
prawdopodobieństwa (5.107') przez Pifai), Pi(a 2 ), • ••> Pi(ar)- Odpowied-
nie prawdopodobieństwa wyjściowe oznaczmy Pi(6j.)> Pi(^ 2 ), Pi(6 s ).
Prawdopodobieństwo Pj (b) wynosi
(5.108) P1(ft)=£P1(a)P(b|a) =
A
= ?(b)+A[P(b\a1)-P(b\a2)].
Niech Ii(A; B) będzie wielkością wzajemnej informacji obliczoną dla

prawdopodobieństw Px(a). Zgodnie z założeniem, wielkość wzajemnej
( l ) Przyjmiemy, że wszystkie P(a,) są różne od zera. Jeżeli P(a,) = 0, możemy roz-

ważać nowy kanał różniący się od starego usunięciem sygnału wejściowego a,.
informacji dla pierwotnych prawdopodobieństw P(a) jest równa C, czyli

jest równa przepustowości kanału. Obliczmy różnicę:
(5.109) I1(A',B)-C=
= Z P 1 ( « ) Z P ( t | a ) l o g ^ - l P ( a ) Z P ( H a ) l o g - ® =
A B m(0) A B
=zf [ £ P ( i > h ) log P ( % ) - X p (fc|a2) + l o g P ( % ) ] +

B B
Po dodaniu i odjęciu
P ( b | f l l ) 1 g P ( h l f l 2 ) l 0 8
(5.110) 4 ę ° ^ ) " ę p k ]
po obydwu stronach (5.109), otrzymujemy
(5.111) it(A; B)—C=
=^[/(0i ;B)-I(a2 + ZPi(*)log

B RX(O)
Aby doprowadzić do sprzeczności, chcemy teraz pokazać, że prawa strona

wzoru (5.111) jest dodatnia. Dzięki (5.106) pierwsze wyrażenie po prawej
stronie (5.111) jest dodatnie. Drugie wyrażenie, na podstawie często uży-
wanej nierówności (2.8), musi być jednakże ujemne. Na pozór wydaje się
więc, że nie możemy wyciągnąć żadnych wniosków o znaku prawej strony
(5.111). Jak pokażemy badając dokładniej ostatnie wyrażenie (5.111),
pesymizm ten nie jest uzasadniony. Mamy
-Ę{P(t)+J[P(j.|a,)-P(i.|g,)]}lo8 ^ ^ p g p g i .
1 +
P(i»
Dla dostatecznie małego x możemy aproksymować log [1/(1 + * ) ] przez

funkcję —x/ln 2. Wykorzystując to w (5.112) widzimy, że dla A wystar-
czająco małego
(5.113) ZP1(fc)log-^«1Ê{P(fe)+^[P(i)|a1)-P(bM}x
B "iW ln/B
AjPib\ai)-?(b\a2)-]
X * &
P (¿0
in z b
[P(b|fll)-P(fc|q2)]2^
B P (b)
~ In 2 V P (b)
ponieważ ^ P ( f c | a 1 ) = ^ P ( i ) | a 2 ) : = l - Tak więc, drugie wyrażenie (5.111)

B B
(ujemne) zachowuje się jak A2 dla dostatecznie małych A, podczas gdy
pierwsze wyrażenie (dodatnie) zachowuje się jak A; biorąc dostatecznie
małe A, prawa strona staje się dodatnia i mamy pożądaną sprzeczność.
Założenie, że nie wszystkie warunkowe ilości informacji są równe prze-
pustowości, jest więc błędne i równość (5.105) została udowodniona.
UWAGI
1. Możemy zdefiniować bardziej ogólny kanał bezpamięciowy niż kanał ze skoń-

czoną ilością sygnałów wejściowych i wyjściowych, opisany w paragrafie 5.1. Kanał
bezpamięciowy opisany jest przez przestrzeń wejść A, przestrzeń wyjść B i miarę praw-
dopodobieństwa p(-\a), określoną w przestrzeni B dla każdego aeA. Kanały infor-
macyjne są matematycznie równoważne „eksperymentom statystycznym" (Kempt-
horne, 1952). „Hipotezy" eksperymentu odpowiadają sygnałom wejściowym kanału,
a „wyniki" eksperymentu odpowiadają sygnałom wyjściowym kanału. Struktura
eksperymentu (tak jak dla kanału) jest wówczas opisana przez zbiór warunkowych
miar prawdopodobieństwa określony na przestrzeni „wynikowej". Liczne problemy,
istotne z punktu widzenia ogólnej teorii eksperymentów statystycznych, nie są ważne
w przypadku kanałów informacyjnych i vice versa. Obszarem wspólnego zaintereso-
wania jest porównywanie eksperymentów lub porównywanie kanałów informacyjnych
(Blackwell, 1953, Lindley, 1956, Shannon, 1958). Jak czytelnik mógł wcześniej wy-
wnioskować, przepustowość nie jest jedyną metodą oceny przydatności kanału infor-
macyjnego. Gdy liczba hipotez (sygnałów wejściowych) wynosi 2, można skorzystać
z wielu konkretnych wyników zawartych w literaturze dotyczącej statystyki (Kull-
back, 1959, Grettenberg 1962, Birnbaum, 1961). W pewnych przypadkach tradycyjne
metody statystyczne zastosowane do kanałów informacyjnych prowadzą do wyników
diametralnie przeciwnych w stosunku do wyników uzyskanych z teorii informacji
(Abramson, 1960).
2. Przepustowość istoty ludzkiej grającej rolę kanału informacyjnego była badana
przez Pierce'a i Karlina (1957). Mierzyli oni ludzką przepustowość informacyjną
za pomocą eksperymentów z czytaniem. Stwierdzili oni, że rozbieżność pomiędzy
mierzoną w ten sposób przepustowością kanału ludzkiego (40 - 55 bitów na sekundę)
oraz przepustowością kanału telefonicznego i telewizyjnego (odpowiednio około
50000 bitów na sekundę i 50000000 bitów na sekundę) jest wyzywająca.
Trzeba podkreślić, że Pierce i Karlin badali informację odbieraną przez wewnę-
trzne punkty ludzkiego systemu przetwarzania informacji. Kelly (1962) też zmierzył
przepustowość informacyjną pojedynczej ludzkiej siatkówki oka i otrzymał liczbę
109 bitów na sekundę.
3. Przy testowaniu hipotez statystycznych podstawową rolę gra stosunek praw-
dopodobieństw (lub często logarytm stosunku prawdopodobieństw). Jeżeli x oraz
1 —x są odpowiednio prawdopodobieństwami hipotez 1 i 2, mamy następujący lo-
garytm stosunku prawdopodobieństw:
108
rb•
Golomb (1961) wykorzystał fakt, że
y
("log ~du = H(y)~H(x)
J l—u
x
(gdzie //(•) jest funkcją entropii), do utożsamienia logarytmu stosunku prawdopodo-

bieństw z gęstością ilości informacji. Jeżeli prawdopodobieństwa a priori dwu hipo-
tez wynoszą x i 1 —x oraz prawdopodobieństwa a posteriori, po obserwacji rezultatu
/-tego eksperymentu (lub po sygnale wyjściowym), są y i 1 —y, wówczas
n
f log du= //(>>,) -H(x).
J 1 -u
X
Używając oznaczeń paragrafu 5.4 wielkość powyższą można zapisać w postaci

H(A\b))—H(A). Różnica ta może być uśredniona ze względu na wszystkie możliwe
rezultaty eksperymentu tak, aby otrzymać wielkość odpowiadającą różnicy pomiędzy
wartościami ilości wzajemniej informcji eksperymentu a hipotezy. Golomb uogólnił
tę ideę na przypadek więcej niż dwu hipotez.
Uwagi 161
4. Shannon (1956) wykazał, że można skonstruować algebrę kanałów. Suma dwu

kanałów odpowiada przypadkowi, gdy wykorzystywany jest zawsze tylko jeden z ka-
nałów (nie obydwa jednocześnie). Wejściowy i wyjściowy zbiór nowego kanału pow-
staje przez odpowiednie połączenie wejściowych i wyjściowych zbiorów kanałów pier-
wotnych (patrz zadanie 5.15). Iloczyn dwu kanałów odpowiada przypadkowi, gdy oby-
dwa kanały są wykorzystywane jednocześnie. Zarówno operacja dodawania jak i mno-
żenia mają cechę łączności i przemienności, iloczyn zaś jest rozdzielny wzlędem sumy.
5. Kelly (1956) zbadał alternatywną interpretację przepustowości kanału, która
jest przydatna do niektórych problemów ekonomicznych (Murphy, 1962). Rozważmy
gracza obserwującego wejście KBS z prawdopodobieństwami błędu p < \ i wykorzys-
tującego obserwacje do stawiania zakładów na przekazywane wiadomości. Jeżeli
hazardzista dąży do maksymalizacji oczekiwanego kapitału po n grach, zakłada cały
swój kapitał po każdej obserwacji. Niefortunnie jednak, dla dużych n gracz uży-
wający takiej strategii zbankrutuje z prawdopodobieństwem 1. Jeżeli po każdej obser-
wacji gracz stawia ustaloną (mniejszą niż 1) część swego kapitału, kapitał jego będzie
rosnąć wykładniczo z liczbą zakładów. Kelly zasugerował strategię zapewniającą mak-
symalizację tempa wzrostu kapitału (tj. optymalne tempo) i pokazał, że maksymalna
wielkość tempa wzrostu wynosi C — przepustowość kanału; w artykule Kelly'ego
są również rozwinięte niektóre uogólnienia tego problemu.
6. Wzajemna informacja dwu zmiennych losowych I(A; B) jest zdefiniowana
nie tylko dla przypadku, gdy A i B są odpowiednio wejściowym i wyjściowym zbiorem
kanału. Jak wzmiankowano w tym rozdziale, a, oraz bj mogą być dwoma dowol-
nymi zmiennymi losowymi i I(A\ B) pozostaje miaią ilości informacji dostarczanej
o jednej zmiennej przez drugą. Pinsker (1954), Powers (1956) oraz Gelfand i Jagłom
(1957) zdefiniowali ilość informacji o procesie stochastycznym, zawartą w innym pro-
cesie stochastycznym — jest to naturalne uogólnienie wzajemnej informacji zdefinio-
wanej w tym rozdziale. Niech p ab będzie miarą prawdopodobieństwa zmiennej losowej
(a, b) oraz niech i Mb będą odpowiednimi miarami dla a i b. Jeżeli pab jest absolutnie
ciągłe względem MaMt, definicja Gelfanda i Jagłoma jest równoważna następującej
definicji:
gdzie d/iablduadHb jest pochodną Radona-Nikodyma z p cb względem Ma Mb- Jeżeli

zmienne losowe a i b przyjmują skończoną ilość wartości, definicja powyższa upraszcza
się do definicji podanej w tym rozdziale. Jeżeli a i b mają łączną i brzegowe gęstości
prawdopodobieństw p(a, b), p(a) i p(b), wówczas
Gdy a i b są wielowymiarowymi zmiennymi gaussowskimi, z powyższego wynika, że
11 Teoria I n f o r m a c j i
gdzie |JST,»|, \Ka\ i |iTi,| są odpowiednio wyznacznikami macierzy kowariancji (a, b),
a oraz b. Jeżeli a reprezentuje realizację procesu gaussowskiego, zdefiniowanego
w pewnym (może być również nieskończonym) przedziale, b zaś jest pewną zmienną
losową, wówczas
I(A ; B ) = - i l o g < 7 * ,
gdzie al jest znormalizowanym błędem średnio-kwadratowym estymacji b na podstawie

obserwacji a. Wreszcie, gdy a i b są realizacjami procesów gaussowskich określonych
w przedziale nieskończonym, średnia szybkość, z którą jeden z tych procesów dostar-
cza informacji o drugim, wynosi (')
•CA m i f , log ———•——

S*(f)S>(f) ..
i(A; B)—i 2 df,
-r
J sa(f)s„(f)-\sM) I
gdzie S„(f) i Sb(f) są gęstościami widmowymi procesów stochastycznych a i b, S„b(f)
zaś jest skośną gęstością widmową.
ZADANIA
5.1. Macierz binarnego kanału informacyjnego jest następująca:
¿i b2
a i ["0,8 0,21
a 2 [o,3 0,7j
Dla wygody podano wyżej symbole odpowiadające poszczególnym wierszom i ko-

lumnom tej macierzy. Niech P(a 1 ) = P 1 , V(a2) = P2, P ( M = Gi i P(6 2 )= Q2-
a) Wypisać równania (5.6) dla tego kanału, wyrażając Qi przez Pt.
b) Rozwiązać te równania ze względu na P,, wyrażając je przez Q,.
c) Znaleźć P(a,\bj) oraz Qj dla tego kanału, gdy P1=P2 = 0,5.
d) Wyrazić Pt przez Qj używając P(a,\bj) obliczonego w punkcie c). Porównaj
odpowiedzi z punktów b) i d).
5.2. Sygnał wejściowy jest przekazywany przez kanał 1, a następnie powtórnie
jest przekazywany przez kanał 2 (patrz schemat Z. 5.2), wyjście może być więc trakto-
wane jako para symboli (bj, ck). Przyjmiemy dalej, że powtórzenie nie zależy od re-
zultatów pierwotnej transmisji, tzn.
(ck\at, bj)=-p(ck\at).
(') Pojęcie szybkość przekazywania informacji jest opisane dokładnie w mono-

grafii J. Seidlera Teoria kodów, Warszawa 1965 (przyp. tłum.).
Zadania 163
Podkreślamy, że nie oznacza to, iż ck i bj są statystycznie niezależne:

P(c,|A,)#P(c»).
a) Pokazać, że
I(A ; B, C)—I(A ; B)+I(A ; C)-I(B\C)
i podać interpretację.
b) Uogólnić punkt a) na przypadek n kanałów.
A B
Kanał 1
A , Kanał 2
C
Z. 5.2.
5.3. Wykorzystać wyniki zadania 5.2a) dla sprawdzenia równości (5.86).

5.4. Udowodnić równość (5.32):
1(A"; B")=n I(A ; B)
5.5. Rozważmy kanał informacyjny pokazany na schemacie Z.5.5. Dla dowol-
nych dwu zbiorów prawdopodobieństw wejściowych P„ i— 1, 2, ..., r, oraz Qt, »=
bl
)
loj 62
B
\a r b.
Z. 5.5.
= 1, 2 dla dowolnego X należącego do przedziału <0, 1>, zbiór liczb R,=XP,+
+XQ, może być również potraktowany jako zbiór prawdopodobieństw wejściowych.
r
Wynika to stąd, że Rt>0 dla wszystkich i oraz «, = 1. Niech IP(A; B), IQ(A\ B)
1=1
oraz JK(A; B) będą ilościami informacji, gdy prawdopodobieństwa wejściowe wynoszą
odpowiednio P ( , Qt oraz R,.
a) Udowodnić „wypukłość" ilości informacji, tj. wykazać, że
Ir(A ; B)>XIP{A ; B)+X1Q(A ; B).
b) Wykazać, że zachodzi związek
Ir(A ; B)<XIP(A ; B)+XIQ(A ; B)+H(X).
5 .6. Uogólnić punkty a) i b) zadania 5.5 na przypadek, gdy zbiór prawdopodo-
bieństw R, jest konstruowany nie na podstawie dwu, ale na podstawie n zbiorów praw-
dopodobieństw.
ii'
5.7. Rozważmy dwa kanały informacyjne ze zbiorami wejściowymi At i A2

oraz odpowiednio zbiorami wyjściowymi B, i B2 (schemat Z.5.7). Prawdopodobieństwa
określające kanał wynoszą Pi(b\a) dla kanału 1 i P2(b\a) dla kanału 2. Niech Pi(a)
i P 2 (a) będą rozkładami wejściowymi określonymi na Ai i A2.
Z. 5.7.
a) Zdefiniujemy nowy kanał, którego zbiór wejściowy A jest sumą zbiorów wej-
ściowych Ai i A2. Niech dalej zbiór wyjściowy B będzie sumą zbiorów B1 i B2. Sygnał
wejściowy nowego kanału jest wybierany jak gdyby w dwu etapach: najpierw wybiera
się zbiór At (z prawdopodobieństwem X) lub A2 (z prawdopodobieństwem 1 —X — ).),
następnie wybierany jest sygnał ze zbioru z prawdopodobieństwem odpowiednio
Pi(a) lub P 2 (a). Przedstawić H(A) za pomocą H(Ai), H(A2) oraz X.
b) Prawdopodobieństwa opisujące nowy kanał P(£|a) są równe P ^ a ) , jeżeli
a i b należą odpowiednio do A1 i B,, oraz P 2 (6|a), jeżeli a i b należą odpowiednio do A2
02, są zaś równe zeru, jeżeli a należy do Alt natomiast b do B2 lub gdy a należy do A2,
natomiast b do Bt. Przedstawić H{A\B) za pomocą HiAĄBi), H(A2\B2) oraz A.
c) Przedstawić I(A; B) za pomocą I(A,; Bi), I(A2; B2) oraz A.
5.8. Uogólnić zadanie 5.7 na przypadek n informacyjnych kanałów (/i>2).
5.9. Binarny kanał multyplikatywny, przedstawiony na rysunku Z.5.9, ma dwa
binarne wejścia i jedno binarne wyjście b=ac. Kanał ten może być opisany tak samo
Z. 5.9.
jak zwykły kanał bezpamięciowy, jeżeli cztery możliwe kombinacje wejściowe po-
traktujemy jako nowy zbiór wejściowy A':
00
10
U
a) Napisać macierz kanału ze zbiorem wejściowym A' oraz wyjściowym B.
Zadania 165
b) Sygnały wejściowe a i c są wybierane niezależnie i P { a = 0 } = ® 1 ( P {c=0} — co2.

Oznaczmy 1— co1 = coi oraz 1— co2 = co2. Wyznaczyć I(A'; B). Podać interpretację
odpowiedzi.
c) Znaleźć maksimum 1(A'\ B) ze względu na &>i i co2. Podać wszystkie możliwe
kombinacje a>i i co2 odpowiadające tej wielkości maksymalnej.
5.10. Niech P będzie macierzą kanału z r sygnałami elementarnymi na wejściu
i s na wyjściu. Niech dalej a będzie ilością kolumn zerowych macierzy.
A B C
P P
Z. 5.10.
a) Znaleźć przepustowość przy założeniu, że kanał jest deterministyczny.

b) Znaleźć przepustowość przy założeniu (zamiast założenia z punktu a), że kanał
jest bezszumowy.
c) Przyjmijmy teraz założenia z punktu a) i b) jednocześnie. Dwa kanały (opisane
przez założenia z punktów a) i b) są połączone szeregowo, jak pokazano na rysunku.
Wyznaczyć przepustowość kanału kaskadowego z wejściem A i wyjściem C.
5.11. Dwa kanały KBS, każdy z prawdopodobieństwem błędu p, są połączone

szeregowo, jak pokazano na rysunku. Wejścia 0 i 1 kanału A są wybierane z jednako-
wymi prawdopodobieństwami. Obliczyć:
A B c
KBS
Z. 5.11.
a) H(A), b) H(B), c) H(C), d) H(A, B),

e) H(B, O , f) U (A, O , g) H(A, B, Q, h) I(A; B; C).
5.12. Niech a i b będą dwoma niezależnymi binarnymi zmiennymi losowymi

o jednakowych własnościach statystycznych. Prawdopodobieństwo zera jest równe
prawdopodobieństwu jedynki. Zdefiniujemy nową binarną zmienną losową c—ab.
Obliczyć:
a) H(A), H(B), H(C), b) /(A; B), I (A; C), I(B; O ,
c) H(A, B), H(A, O, H(B, C), d) H(A,B, C),
e) H(A\B), H(A\C), H(B\C), f) H(A\B, C), H(B\A, C), H(C\A, B),
g) /(A; BIO, / ( £ ; ¿\C), HC; A\B), h) I(A• B; C).
5.13. Niech a i b będą dwoma niezależnym, binarnymi zmiennymi losowymi

o jednakowym rozkładzie. Prawdopodobieństwo zera jest równe prawdopodobieństwu
jedynki. Zdefiniujmy nową zmienną losową jako sumę c=a+Z> modulo 2, tj. c jest
równe 0, jeżeli a=b oraz c = l , jeżeli ai=b. Obliczyć:
a) H(A), H(B), H(C), b) I(A; B), I(A; C), I(B; C),

c) H(A, B), H(A, C), H(B, Q, d) H(A, B, C),
e) H(A\B), H(A\C), H(B\C), f) H(A\B, C), H(B\A, Q, H(C\A, B),
g) I(A; B\C), I(B; A\Q, I(C; A\B), h) I(A; B; C).
5.14. Obliczyć przepustowość kanału opisanego przez macierz
ri -p-q q p I
W szczególnym przypadku, gdy P—0, kanał nosi nazwę kanału binarnego wymazu-
jącego. Podać interpretację przepustowości kanału binarnego wymazującego.
5.15. Niech P, i P 2 będą macierzami dwu kanałów ze zbiorami wejściowymi

odpowiednio Ax i A2 oraz zbiorami wyjściowymi Bt i Bx. Postać macierzy nowego
kanału P, ze zbiorem wejściowym A = At u A2 oraz zbiorem wyjściowym B = Bt u B2
jest pokazana niżej:
;
[o P2]
O oznacza macierz, której wszystkie elementy są równe zeru. Niech P(a ( ) będzie
prawdopodobieństwem sygnału wejściowego a,eA. Niech dalej G i = ^ P ( o ( ) ,
Q2 = P(a,). Qi jest prawdopodobieństwem nadawania sygnału należącego do A,.
Niech Ci, C2 i C będą odpowiednio przepustowościami kanałów P j , P 2 i P.

a) Wyznaczyć wielkości Q, (przez Ci i C 2 ) potrzebne do określenia przepusto-
wości kanału P.
b) Wyrazić C przez C t i C 2 .
c) Uogólnić wyniki punktów a) i b) na przypadek n kanałów (n>2).
5.16. a) Obliczyć przepustowość kanału określonego przez macierz

p p 0 0
p p 0 0
0 0 p p
0 0 p p
Naszkicować zależność pomiędzy przepustowością i p.
b) Obliczyć przepustowość kanału
"10 0
0 p p
.0 P P.
Naszkicować wykres przepustowości jako funkcji p i porównać z odpowiedzią
*w punkcie a).
Zadania
5.17. Obliczyć przepustowość następujących dwu kanałów:
a) \ p ~ e r e .
[p—e p—e 2ej
. \ \P~e P~e 2« 0 1
' \_p-a p-s 0 2e\ '
c) Wykorzystać przybliżenie
log(l—£)«— dla e«0

ln 2
do obliczenia i porównania powyższych dwu kanałów dla małych

6. WIERNE PRZEKAZYWANIE WIADOMOŚCI
PRZEZ ZAWODNE KANAŁY
6.1. Wprowadzenie
W rozdziale 6 udowodnimy drugie twierdzenie Shannona, które stanowi

zaskakujący i szczególnie ważny rezultat teorii informacji. Ze względu
na znaczenie tego twierdzenia, dobrze będzie cofnąć się i przejrzeć najważ-
niejsze, wcześniej otrzymane rezultaty. Potrafimy uzasadnić wykorzystanie
entropii i miar informacji pochodzących od entropii w dwu przypadkach:
pierwszego twierdzenia Shannona (paragraf 4.3) oraz uogólnienia tego twier-
dzenia uwzględniającego niejednoznaczność (paragraf 5.5). Pierwsze twier-
dzenie Shannona dostarczyło nam kryterium, za pomocą którego można
mierzyć informację wysyłaną ze źródła. Dzięki temu twierdzeniu potra-
filiśmy przypisać wiadomościom ze źródła równoważną liczbę binitów
(lub jednostek r-narnych) koniecznych do ich reprezentowania. Uogólnie-
nie tego twierdzenia pokazuje, że wielkość związaną z entropią (niejedno-
znacznością) można użyć jako miernika rezultatów przekazywania infor-
macji przez kanał.
Wiemy, że by zakodować wiadomość ze zbioru A, którym dysponuje
źródło, trzeba średnio H(A) binitów. Jeżeli jednak wiadomości ze zbioru A
przekazywane są przez kanał i możemy obserwować wyjściowe sygnały ze
zbioru B, trzeba tylko H(A\B) binitów na wiadomość z A, ażeby przed-
stawić ją jednoznacznie. Tak więc odbieranie wyjść kanału jak gdyby
dostarczyło nam H{A)~H{A\B) binitów. Niejednoznaczność H(A\B) może
zmieniać się od H(A) (gdy wejścia i wyjścia kanału są statystycznie nie-
zależne) do zera (gdy kanał jest bezszumowy). Powoduje to, że ilość binitów,
które odbieramy, przypadająca na element A, zmienia się od zera do H(A).
Przekazywanie H(A) — H(A\B) binitów informacji jest osiągnięciem

godnym uwagi. Postać b nitów, które pojawiają się na wyjściu naszego
kanału informacyjnego, nie została bliżej określona. Zbadamy tę sprawę
bardziej szczegółowo. Zakładamy, że przekazujemy przez kanał informa-
cyjny bloki n sygnałów ze źródła A. Wówczas, jeżeli kanał jest bezszumowy,
to H(A\B) jest równe zeru i każdy sygnał wyjściowy zawiera H(A) bitów
informacji. Możemy wówczas odtworzyć bezbłędnie ciąg n wejść kanału
na podstawie ciągu n wyjść kanału. Jest oczywiste, że odebraliśmy H(A)
bitów bezbłędnej (nie obarczonej błędem) informacji. Jednakże, jeżeli
kanał nie jest bezszumowy, nieoznaczoność nie będzie w ogólności
równa zeru i każdy sygnał wyjściowy będzie zawierał tylko H(A) — H(A\B)
bitów informacji. Co więcej, zauważmy niekorzystną własność, dzięki której
informacja ta różni się od informacji wyjściowej kanału bezszumowego.
Nie możemy odtworzyć precyzyjnie ciągu wejściowego kanału pomimo
znajomości ciągu wyjściowego z kanału. Możemy powiedzieć jedynie,
że znając sygnały wyjściowe, do kodowania wejść kanału potrzeba na jeden
element H(A)—H(A\B) binitów mniej. Tak więc, chociaż otrzymujemy
informację przez kanał, nie mamy bezbłędnej wiedzy o przekazywanej
wiadomości. Tego rodzaju stan rzeczy można ocenić jako pływanie w obło-
kach: usuniemy je dopiero dzięki drugiemu twierdzeniu Shannona.
Drugie twierdzenie Shannona było po raz pierwszy opublikowane
w roku 1948. Publikację tę można uznać jako narodziny teorii informacji.
Oryginalny dowód twierdzenia podany przez Shannona zawierał jednak
pewne niejasności (McMillan, 1953). Pierwszy ścisły dowód drugiego
twierdzenia Shannona podał Feinstein w roku 1955. Następnie różne do-
wody były podane przez Shannona (1957a), Blackwella, Breimana i
Thomasiana (1959) oraz Fano (1961). Dowód przedstawiony w tym roz-
dziale jest nieco prostszy niż dowody wyżej wspomniane.
6.2. Prawdopodobieństwo błędu i reguły decyzyjne
Drugie twierdzenie Shannona dotyczy ilości irformacji, którą możemy

bezbłędnie przekazywać przez kanał. Aby pełniej ocenić znaczenie tego
twierdzenia, spójrzmy na problem prawdopodobieństwa błędu. Dla nie-
których prostych i używanych kanałów — takich jak KBS czy KrS - jest
170 6. Wierne przekazywanie wiadomości przez zawodne kanały
intuicyjnie jasne, co nazwać prawdopodobieństwem błędu kanału. Niemniej

zobaczymy, że właśnie w tych przypadkach prawdopodobieństwo błędu
będzie zależało od czynnika jeszcze nie rozważanego w naszych studiach
dotyczących kanałów informacyjnych. Dla przykładu rozważmy KBS:
(6.1)
Zwyczajnie powiedzielibyśmy, że prawdopodobieństwo błędu tego kanału

wynosi 0,1. Zauważmy jednak, że stwierdzenie to opiera się na założeniu,
iż kanał jest wykorzystany we „właściwy" sposób. Jeżeli odbiornik na wyjś-
ciu kanału wykazuje, iż nadano jedynkę, gdy jest odebrane zero i vice versa,
to prawdopodobieństwo błędu wynosiłoby 0,9. Oczywiście taki sposób
wykorzystywania kanału jest nieracjonalny, niemniej jest on możliwy
i musi być uwzględniony. Prawdopodobieństwo błędu zależy od tego,
jak odbiornik interpretuje wyjściowe sygnały kanału. Dla wyjaśnienia tej
sprawy weźmy kanał:
0,5 0,3 0,2
(6.2) 0,2 0,3 0,5
0,3 0,3 0,4
Kanał ten posiada trzy sygnały wejściowe at, a2, a3 i trzy sygnały wyjściowe
b i, b2, b3. Co można powiedzieć o nadanym sygnale wejściowym, gdy
został odebrany jakiś sygnał wyjściowy kanału? Pytanie to prowadzi
do następującej definicji.
DEFINICJA. Rozważmy kanał z R-elementowym zbiorem wejściowym
A = {ai}, i = l, 2, ..., r, oraz s-elementowym zbiorem wyjściowym B= {bj},
j= 1, 2 , . . . , s. Reguła decyzyjna d(bj) jest pewną funkcją przyporządkowującą
jednoznacznie każdemu elementowi wyjściowemu element wejściowy ( ł ).
P r z y k ł a d 6.1. Dla kanału 6.2 są możliwe następujące dwie reguły decyzyjne:
</(M=a i.
(6.3) </(&,)« o 2 ,
d(b3)=a3
O Reguła decyzyjna tak zdefiniowana nosi nazwę reguły decyzyjnej punktowej.

Pełne omówienie rodzajów reguł decyzyjnych można znaleźć w monografii J. Seidlera
Statystyczna teoria odbioru sygnałów (przyp. tłum).
6.2. Prawdopodobieństwo błędu i reguły decyzyjne 171
oraz
(6.4) d(b2)=a2,
d(bs)=a2.
Dla kanału z r sygnałami wejściowymi i s sygnałami wyjściowymi

istnieje rs różnych możliwych reguł decyzyjnych. Pytanie, które prowadziło
do definicji reguły decyzyjnej, może zatem być przeredagowane nastę-
pująco: „Którą spośród rs reguł decyzyjnych powinniśmy zastosować?"
Odpowiedź na to pytanie będzie zależeć od tego, co zamierzamy osiągnąć;
rozsądnym celem naszych działań jest minimalizacja prawdopodobieństwa
błędu decyzji. Stąd szukamy reguły decyzyjnej, która minimalizuje praw-
dopodobieństwo błędu decyzji. Aby znaleźć taką regułę, obliczamy praw-
dopodobieństwo błędu PE. Prawdopodobieństwo to może być napisane
jako średnia z P(E[bj), czyli średnia warunkowego prawdopodobieństwa
błędu, gdy na wyjściu kanału jest bj:
(6.5) PE=£P(£|6)P(&).
B
Równanie (6.5) wyraża prawdopodobieństwo błędu jako sumę nieujemnych

składników. Wobec tego, aby minimalizować PE przez wybór reguły decy-
zyjnej d(bj), musimy wybierać d(bj) minimalizujące każdy składnik sumy
oddzielnie. P ( b j ) nie zależy od stosowanej reguły decyzyjnej, a więc oma-
wianą minimalizację uzyskamy przez wybór d(bj) minimalizującego waiun-
kowe prawdopodobieństwo błędu P(E\bj). Dla ustalonej reguły decyzyjnej,
d(bj)=a,,
(6.6) P(E\bj)=l-?[d(bj)\b^,
gdzie ze względu na ustalenie reguły decyzyjnej P[d(bj)\bj) jest prawdo-

podobieństwem P(a,|6y). Ostatecznie, aby minimalizować (6.6) dla każdego
bj, wybieramy
(6.7) d(bj) = a*,
gdzie a* jest określone przez nierówność
(6.7') P(a*\bj)^P(at\bj) dla wszystkich i.
Innymi słowy, prawdopodobieństwo błędu decyzji jest zminimalizowane,
jeżeli posługujemy się taką regułą decyzyjną, która każdemu elementowi
wyjściowemu przyporządkowuje najbardziej prawdopodobny element

wejściowy. Reguła taka jest niekiedy nazywana regułą największego praw-
dopodobieństwa. Reguła największego prawdopodobieństwa zależy od praw-
dopodobieństw a priori P(o,). Dzięki prawu Bayesa możemy przepisać (6.7')
w postaci
P (bj\a*) P (a*) P (bj\at) P (a,)
(6.8) — ^ - dla wszystkich i.
P (bj) P (bj)
Stąd, gdy wszystkie prawdopodobieństwa a priori są jednakowe, reguła

największego prawdopodobieństwa może być zapisana następująco:
(6.9) d(bj) = a*,
gdzie
(6.9') P(bj\a*)^P(bj\ai) dla wszystkich i.
Reguła zdefiniowana relacją (6.9') jest znana jako reguła największej wiaro-
godności. Reguła największej wiarogodności nie zależy od prawdopodo-
bieństw a priori. Gdy prawdopodobieństwa a priori są wszystkie jedna-
kowe, reguła największej wiarogodności zapewnia minimalną wartość
prawdopodobieństwa błędu. Jeżeli prawdopodobieństwa a priori nie są jed-
nakowe (lub są nieznane), reguła ta może być również stosowana; w przy-
padkach takich oczywiście nie zapewniamy minimalnej wartości prawdo-
podobieństwa błędu.
PRZYKŁAD 6.2. Bezpośrednio na podstawie wzoru (6.9) możemy napisać regułę

największej wiarogodności dla kanału 6.2. Reguła taka ma postać
d(bl)=a1,
d(bi) = a3,
d(b3)=a2.
Zauważmy, że wypisana reguła nie jest jedyną, jaką można skonstruować. W istocie
istnieją dla omawianego kanału trzy reguły największej wiarogodności.
Za pomocą wzorów (6.5) i (6.6) można łatwo otrzymać prawdopodo-

bieństwo błędu dla danej reguły decyzyjnej:
(6.10) p £ = l P ( # ) P ( i O = l P W - E P W ] P ( f c ) =
B B B
= 1-IP [d(b),b-].
Składniki sumy (6.10) są łącznymi prawdopodobieństwami zdarzeń,

że przekazywane jest d(b¡)=a*, a odebrane b¡ (dla każdego j). Stąd, de-
finiując P E = l — P E możemy zapisać (6.10) następująco:
(6.11) PE=Z P(a*,b).
B
Ponieważ
(6.12) £P(fl,i) = l,
A,B
możemy przepisać (6.10) również nieco inaczej:

(6.13) P£= X P(a,&).
B,A — A*
Zapis YJ oznacza sumowanie po wszystkich elementach zbioru A z wy-

A-A*
jątkiem d(bj)=a*. Równoważny sposób zapisu wzoru (6.13) jest nastę-

pujący:
(6.14) P£= X P(b\a)P(a).
B,A-A•
Jeżeli wszystkie prawdopodobieństwa a priori P(a) są jednakowe, wówczas

(6.14) przechodzi w
(6.15) PE=- X P(6|a).
R B,A — A*
Równanie (6.15) jest interesujące, ponieważ (dla szczególnego przypadku

jednakowych prawdopodobieństw a priori) wyraża prawdopodobieństwo
błędu decyzji przez składniki sumy P(b\a) będące elementami macierzy
określającej kanał. Sumowanie przeprowadza się po wszystkich elementach
macierzy kanału, z wyjątkiem jednego (odpowiadającego d(bjj) omijanego
w każdej kolumnie.
PRZYKŁAD 6.3. Obliczymy prawdopodobieństwa błędu dla kanału omawianego
w przykładach 6.1 i 6.2
"0,5 0,3 0,2"
(6.16) 0,2 0,3 0,5

.0,3 0,3 0,4
Zakładamy, że wszystkie trzy elementy wejściowe są wybierane z jednakowymi praw-
dopodobieństwami i wykorzystujemy regułę największej wiarogodności (przypomi-
namy, że reguła ta zapewnia minimum PE dla jednakowych prawdopodobieństw
a priori):
P£=}[(0,2+0,3) + (0,3+0,3) + (0,2+0,4)]=0,56 •
6.3. Nierówność Fano
Prawdopodobieństwo błędu zostało omówione w poprzednim para-

grafie bez odwoływania się do entropii, entropii warunkowej i ilości infor-
macji. Celem rozdziału 6 jest pokazanie powiązania pomiędzy tymi dwoma
różnymi grupami pojęć. Jako pierwszy krok w tym kierunku podamy górne
i dolne ograniczenie nieoznaczoności wyrażone przez prawdopodo-
bieństwo błędu. W dalszym ciągu skorzystamy ponownie z wzorów (6.11)
i (6.13):
Ą - l P ( a * W,
PE=BX P(a,b).
B,A — a*
Za pomocą tych dwu związków konstruujemy identyczność
(6.17) H (P £ ) + PE log (r - 1 ) = PE log — + PE log ~ =

"E "E
= £ P(a,i»)logr-^+i:P(^,i>)logl.
B,A~>«• fi "£
Entropia warunkowa H(A\B) może być zapisana w postaci tego samego

rodzaju sumowań:
(6.18) «(,| B >_ J ^ . W o ^ + Z P ^ W o g ^ .
Odejmując identyczność (6.17) od (6.18) mamy
(6.19) H (A\B)—H (Pr) —Pfilog (r—1) = £ P(a,b) +

B.A-a' (r— 1) P(fl|f>)
+ £P(fl*,f>)k>g
Użyjemy teraz wzoru (2.2) do zmiany podstawy logarytmów po prawej

stronie (6.19)
(6.20) (log e ) - 1 \H (A\B)—H (P £ ) - PE log (r - 1 ) ] =

6.3. Nierówność Fano 175
Możemy teraz skorzystać z nierówności

(6.21) lnx<x-l
wobec każdego składnika sumowania. Prawa strona równości (6.20) jest

równa lub mniejsza od:
<«2> ,?./<« • ']+5P(a* • 4 4 " 1

] "
- r A ^ f ^ i - ^ + f i i P " " ] - ^ » « .
| _ r — LB,A-A* J B
mamy więc szukaną nierówność:
(6.23) H (A\B)^H (P E ) + PE log (r — 1).

Ta ważna nierówność była po raz pierwszy wyprowadzona przez Fano.
Jest ona spełniona bez względu na stosowaną regułę decyzyjną, chociaż
prawdopodobieństwo błędu zależy wyraźnie od reguły decyzyjnej. Postać
tej nierówności sugeruje interesującą interpretację. Przyjmijmy, że mamy
ustaloną pewną regułę decyzyjną. Jeżeli odbieramy jakiś sygnał wyjściowy,
potrzebujemy H(PE) bitów informacji do określenia, czy nasza reguła
decyzyjna doprowadziła do popełnienia błędu. Doprowadziła ona do błędu
z prawdopodobieństwem PE i wówczas możemy określić, który spośród
r— 1 pozostałych elementów wejściowych był nadany, za pomocą co naj-
wyżej log(r—1) bitów. Powyższa interpretacja nie stanowi dowodu nie-
równości (6.23), jednak może być wykorzystana jako podstawa dowodu,
nieco innego od przytoczonego przez nas.
Zbadajmy, kiedy w słabej nierówności Fano (6.23) zachodzi równość.
Relacja (6.21)
lnx<x—1
staje się równością wtedy i tylko wtedy, gdy x = l . Stosując ten warunek
do (6.23) stwierdzamy, że słaba nierówność Fano staje się równością
wtedy i tylko wtedy, gdy
p
(6.24) P(a|b)=—- dla wszystkich b oraz aâ
r— 1
oraz
(6.24') P(a*\b)—PE dla wszystkich b.
Ponieważ £ P ( a | 6 ) = l dla wszystkich b, przeto warunek (6.24') wynika

A
z (6.24). Według równania (6.24), dla wszystkich b wszystkie wejściowe

elementy z wyjątkiem wybranego przez naszą regułę decyzyjną są jednakowo
prawdopodobne. Warunek ten pozwala na wzmocnienie naszej interpre-
tacji nierówności Fano.
6.4. Niezawodne przekazywanie wiadomości przez zawodne kanały
Przedmiotem drugiego twierdzenia Shannona jest ustalenie podsta-

wowych ograniczeń, jakie winny być spełnione, aby było możliwe odtwa-
rzanie w sposób wiarogodny wiadomości, mimo że sygnały przesyłane
są przez zawodny kanał. Rozważmy najpierw użycie KBS do wiarogodnego
przekazywania wiadomości (schemat 6.1).
6.1. Kanał KBS
Precyzując założymy, że prawdopodobieństwo błędu p w tym kanale

KBS wynosi 0,01. Tak więc 99% przekazywanych binitów jest odbiera-
nych bezbłędnie. Dla wielu nowoczesnych systemów transmisji danych
taki poziom wiarogodności jest daleki od tego, by był zadowalający. Często
spotyka się wymagania, aby prawdopodobieństwo błędu było rzędu 1 0 - 6 ,
10" 8 , a nawet mniejsze. Aby zapewnić większą niezawodność systemu,
Niewykorzystywane Ciągi przyporządkowane Ciągi

ciągi wejściowe wiadomościom wyjściowe
000 000
001 001
010 010
011 011
100 — (BSK)' 100
101 101
110 110
111 111
6.2. Metoda zwiększania wiarogodności

6.4. Niezawodne przekazywanie wiadomości przez zawodne kanały 177
możemy powtarzać wiadomość kilka razy. Przypuśćmy na przykład,

że każdą wiadomość (0 lub 1) wysyłamy trzy razy. Jeden ze sposobów
spojrzenia na tę procedurę zilustrowany jest na schemacie 6.2.
W omawianej sytuacji wyjście kanału ma strukturę wyjścia kanału
(K.BS)3 — jest to binarny ciąg o długości 3. Prawdopodobieństwo, że nie
wystąpi żaden błąd w czasie przesyłania naszych trzech cyfr, wynosi
(i-p)3=(/03.
Prawdopodobieństwo tylko jednego błędu jest równe 3pp 2 , a dwu błędów

3p 2 p. Prawdopodobieństwo tego, że wszystkie trzy binity będą odebrane
błędnie, wynosi p3. Jeżeli p jest mniejsze od i (tj. jeżeli prawdopodobieństwo
poprawnego odebrania binitu jest większe od prawdopodobieństwa ode-
brania binitu błędnie), wydaje się rozsądnym decydować, że wiadomością
jest 000 lub 111, zgodnie z regułą większości zastosowaną do trzech ode-
branych binitów. Powyższa reguła decyzyjna nie jest uzasadniona jedynie
czysto demokratycznymi przesłankami. Łatwo wykazać, że jest to reguła
decyzyjna największej wiarogodności. Taka reguła decyzyjna zapewnia
prawdopodobieństwo błędnego odtwarzania(') wiadomości PE (równe
sumie prawdopodobieństw błędnego odebrania wszystkich trzech binitów
lub tylko dwóch) wynoszące
(6.25) PE=p3 + 3p2p.
Dla /> = 0,01 daje to
(6.26) P £ « 3 • 10~4.
Możemy zatem zmniejszyć prawdopodobieństwo błędu od wartości 1 0 - 2

(gdy nadajemy 0 lub 1) do wartości 3-10" 4 (gdy nadajemy 000 lub 111).
Wydłużając procedurę nietrudno zauważyć, jak wzrasta niezawodność.
Możemy na przykład wysyłać w kanał pięć bitów dla każdej binarnej wia-
domości, którą chcemy przekazać. Przedstawia to schemat 6.3.
(') Prawdopodobieństwo błędnego odtwarzania wiadomości będzie zwykle za-

leżeć od prawdopodobieństw a priori wiadomości. Jednakże ze względu na symetrię
w opisanej sytuacji, prawdopodobieństwo błędu nie zależy od prawdopodobieństw
a priori.
Niewykorzystywane Ciągi przyporządkowane Ciągi

ciągi wejściowe wiadomościom wyjściowe
00000 • 00000
00001 00001
00010 00010
00011 00011
—• (BSK)'
11110
11111 11111
6.3. Metoda zwiększania wiatogodności
Prawdopodobieństwa bezbłędnej transmisji, popełnienia jednego, dwu,

trzech, czterech i pięciu błędów wynoszą odpowiednio: p5, 5pp*, 10p2p3,
10p 3 p 2 , 5pĄp, p5. Jeżeli ponownie do podejmowania decyzji o tym, czy prze-
kazywany jest ciąg 00000 czy 11111, użyjemy reguły większości (tj. najwięk-
szej wiarogodności), otrzymujemy następujące prawdopodobieństwo błędu:
(6.27) PE=ps + 5p*p+Wp3p2
(jest to suma prawdopodobieństw pięciu, czterech i trzech błędów). Dla

Z'= 0,01 daje to wartość
(6.28) P£«10~5.
Nie istnieje oczywiście żadne ograniczenie wzrostu niezawodności dla

tej prymitywnej metody. W tablicy 6.1 podano prawdopodobieństwa błęd-
TABLICA 6.1. Prawdopodobieństwo błędnego odtworzenia wiadomości
gdy wykorzystywany jest kanał KBS
Ilość binitów Prawdopodobieństwo

na wiadomość binarną błędnego odtworzenia wiadomości
2
1 io-
4
3 3-10-
5 lO" 5
7 4-10" 7
8
9 lO"
1 0
11 5-10"
6.4. Niezawodne przekazywanie wiadomości przez zawodne kanały 179
nego przekazywania wiadomości, jeżeli na każdą wiadomość przypada

1, 3, 5, 7, 9 i 11 binitów oraz korzystamy z kanału KBS z prawdopodobień-
stwem pojedynczego błędu binarnego /? = 0,01.
Poprawa wykazana w tablicy 6.1 jest osiągana za pewną cenę. Ceną,
którą płacimy za wzrastającą niezawodność przekazywania wiadomości,
jest rozwlekłość transmisji. Innymi słowy, chociaż możemy zmniejszyć
Zawartość informacji wyrażona w ilości

binarnych wiadomości na binit
6.4. Wymiana zawartości informacyjnej na wiarogodność w kanale KBS przy stoso-

waniu powtórzeń
prawdopodobieństwo błędu od 10~ 2 do 5 -10" 1 0 przez przyporządkowanie

każdej wiadomości binarnej zamiast jednego — jedenastu bitów, to musimy
jednocześnie zmniejszyć stosunek wiadomości do ilości binitów od 1 wia-
domości na binit do n wiadomości na binit. W ogólności opisana metoda
prostego powtarzania może prowadzić do wymiany stosunku ilości wia-
domości do ilości binitów, czyli zawartości informacji na niezawodność
transmisji. Taka typowa wymiana zilustrowana jest graficznie na rysunku 6.4.
12*
6.5. Przykład kodowania z korekcją błędów
Rysunek 6.4 nasuwa ważne pytanie. Badany dotąd przez nas system
kodowania — proste powtarzanie — jest najbardziej oczywistą metodą
zamiany omawianego stosunku na niezawodność. Czy istnieją ciekawsze
i bardziej sprawne metody realizowania tej wymiany? Czy istnieją, dla danej
wartości prawdopodobieństwa błędu, metody dające większy stosunek
niż proste powtarzanie? Odpowiedź na to pytanie jest wyraźna: Tak! Od-
powiedź taka wynika z drugiego twierdzenia Shannona (paragraf 6.10).
Twierdzenie to nie tylko usta'a, że możemy polepszyć stosunek wykreślony
na rysunku 6.4, ale również ustala granicę, do której możemy go polepszać.
Odpowiedź na pytanie: O ile lepiej? wynikająca z drugiego twierdzenia
Shannona jest najbardziej atrakcyjną częścią naszych dalszych rozważań.
Graficznie odpowiedź naszkicowaliśmy na rysunku 6.5.
Zawartość informacji wyrażona w ilości

'6.5. Ograniczenie wymiany zawartości informacyjnej na wiarogodność w KBS

6.5. Przykład kodowania z korekcją błędów 181
Drugie twierdzenie Shannona mówi, że dla dowolnej zawartości in-

formacyjnej, mniejszej od przepustowości kanału C, możemy znaleźć kody,
które zapewnią prawdopodobieństwo błędu mniejsze od dowolnie małej
dodatniej liczby e. Twierdzenie przedstawia dość niespodziewany wynik,
że nie jest konieczne zmniejszanie zawartości informacyjnej do zera, aby
otrzymywać coraz poprawniejszą transmisję przez kanał.
W paragrafie 6.4 przedyskutowaliśmy możliwości uzyskania praktycznie
bezbłędnej transmisji informacji przez zawodny kanał KBS. Zbadajmy
teraz nieco bliżej wymianę zawartości informacyjnej na niezawodność.
W poprzednim paragrafie zmniejszaliśmy zawartość informacyjną przez
zwykłe powtarzanie binarnej wiadomości, którą chcieliśmy przekazać.
Jak poprzednio na rysunkach 6.1 i 6.2, może to być traktowane jako wzrost
rzędu rozszerzenia używanego kanału i wybranie tylko dwu spośród moż-
liwych rozszerzonych elementów wejściowych a, jako wiadomości. Bar-
dziej skuteczną metodą zmian zawartości informacyjnej — metodą, którą
zastosujemy przy dowodzeniu drugiego twierdzenia Shannona — jest
ustalenie rzędu rozszerzenia i zmiana ilości wejściowych elementów kanału
ix,, które traktujemy jako wiadomości. Ponownie ilustrujemy to dla przy-
padku kanału KBS na schemacie 6.6.
000 000 \
001 ooi I
010 010 /
011 011
A> 100 (BSK)' > = B'
100 [
101 101 \
110 110 1
111 111 /
6.6. Kanał (KBS) 3
Załóżmy, że możemy przesyłać binarne sygnały przez kanał KBS w ilości

jeden na sekundę. Wówczas a,, będące ciągiem 3 binitów, może być prze-
kazane w ciągu 3 sekund. Jeżeli jako dopuszczalne wiadomości wykorzystu-
jemy tylko dwa ciągi 000 i 111, to, jak pokazano w poprzednim paragrafie,
prawdopodobieństwo błędu wynosi
(6.29) P£=3-10"4,
podczas gdy zawartość informacyjna przypadająca na jednostkę czasu
jest równa £ binita na sekundę. Jeżeli natomiast jako wiadomości wyko-
rzystamy wszystkie osiem a i ( to prawdopodobieństwo, że wiadomość

(nie binit) będzie przekazana poprawnie, wynosi p3. Prawdopodobieństwo
błędu jest wówczas równe l—p 3 . Dla />=0,01 daje to
(6.30) PEx 3 - 1 0 " 2 .
Zawartość informacyjna na jednostkę czasu, odpowiadająca temu praw-
dopodobieństwu błędu, wynosi 1 binit na sekundę. Oczywiście istnieje
szereg możliwości pośrednich pomiędzy powyższymi dwiema skrajnymi.
Możemy wybrać cztery ot, jako ciągi kodowe odpowiadające czterem wia-
domościom równoprawdopodobnym. Dla przykładu: niech czterem wia-
domościom odpowiadają ciągi
000
011
(6.31)
v
' 101
110
Jeżeli te cztery a, są wybrane, możemy stosować regułę największej wiaro-
godności (*) przedstawioną na schemacie 6.7. Wówczas prawdopodobień-
Ciągi Ciągi będące
wyjściowe decyzjami
0001
000
001/"
0101
011
011/
1001
101
101/
1101
110
lllJ
6.7. Reguła decyzyjna największej wiarogodności
stwo, że wiadomość będzie odtworzona poprawnie, PE, jest prawdopodo-

bieństwem, że pierw.,ze dwa binity są przekazane bezbłędnie, czyli
(6.32) PE=p2.
(*) Jak pokazano w przykładzie 6.2., reguła największej wiarogodności nie jest
jedyna. W przykładzie tym, oprócz reguły pokazanej na rysunku 6.7 istnieje kilka
innych reguł największej wiarogodności.
Dla />=0,01 daje to

(6.33) P £ « 2 • 10~ 2 .
Stąd cztery użyte ciągi binarne odpowiadają dwóm binarnym wia-

domościom i potrzebujemy 3 sekundy do przekazania każdej wiadomości,
zawartość informacyjna wynosi więc binita na sekundę. Porównując
rezultaty gdy wybiera się dwie, cztery lub osiem wiadomości spośród
ośmiu możliwych ciągów wejściowych kanału (KBS) 3 widzimy, że — ogól-
nie — im więcej mamy wiadomości, tym większe jest prawdopodobieństwo
błędnego odtworzenia wiadomości.
/i-te wydłużenie źródła r wejściowych elementów daje nam całkowitą
ilość r" wejściowych kombinacji, które możemy wykorzystywać. Jednak
jeżeli jako wiadomości wykorzystamy tylko M spośród tych możliwości,
możemy zmniejszyć prawdopodobieństwo błędu. Zadanie polega na zmniej-
szeniu prawdopodobieństwa błędu bez żądania, aby M było na tyle małe,
że zawartość informacyjna (*), (log M)/n, staje się zbyt mała. Drugie twier-
dzenie Shannona mówi, że prawdopodobieństwo błędu może być dowolnie
małe tak długo, dopóki M jest mniejsze od 2" c .
Dla takiego M zawartość informacyjna wynosi
log M
(6.34)
n
a przepustowość kanału, jak widać, odpowiada dolnej granicy zawartości
informacyjnej przy bezbłędnej transmisji.
6.6. Odległość Hamminga
W paragrafach 6.7 i 6.8 udowodnimy drugie twierdzenie Shannona

w szczególnym przypadku kanału KBS. Dla uproszczenia tego twierdzenia
dla KBS korzystne jest przyjęcie binarnej struktury sygnałów wejściowych
(') Zawartość informacyjną mierzymy w równoważnych binarnych wiadomoś-

ciach na element. Zatem nadanie jednej spośród M możliwych wiadomości za pomo-
cą n elementów jest równoważne nadaniu log M binarnych wiadomości za po-
mocą n elementów. Zawartość informacyjna wynosi (log M)\n binarnych wiadomości
na element.
i wyjściowych. Hamming wprowadził pożyteczne pojęcie odległości pomiędzy

dwoma binarnymi ciągami (Hamming, 1950). Odległość Hamminga pomię-
dzy dwoma ciągami binarnymi a i oraz fij, tej samej długości, jest zdefinio-
wana jako ilość pozycji, w których różnią się a, i fij. Dla przykładu niech
a,=101111,
/?,-= 1 1 1 1 0 0
oraz niech D(oLt, pj) oznacza odległość Hamminga pomiędzy a( i fij. Wów-
czas D(ah
Koncepcja odległości Hamminga może być zastosowana do dyskuto-
wanych w poprzednim paragrafie trzech różnych kodów dla kanału (KBS)3.
TABLICA 6.2 Trzy kody dla kanału (KBS) 3
Kod tf Kod 33 Kod <€
000 000 000

001 011 111
010 101
011 110
100
101
110
111
Ilość wiadomości M: 8 4 2
Ciągi kodowe trzech kodów zebranych w tablicy 6.2 mogą być przed-
stawione jako wierzchołki trójwymiarowych kostek. Wówczas odległość
Hamminga pomiędzy jakimiś dwoma punktami kodowymi może być trak-
towana jako ilość kroków, które musimy uczynić, aby przejść od jednego
punktu do drugiego. Zauważmy, że minimalne odległości pomiędzy punk-
tami kodowymi w kodach si, Si i <€ wynoszą odpowiednio 1, 2 i 3.
Najmniejsza odległość pomiędzy punktami kodowymi jest ściśle związana
z prawdopodobieństwem błędu tego kodu. Na ogół możemy oczekiwać,
że im większa jest najmniejsza odległość, tym mniejsze prawdopodobień-
stwo błędu. Oczywiście, im większa ma być najmniejsza odległość, tym
mniej punktów kodowych można umieścić w wierzchołkach «-wymiarowej
kostki. Jest to inne wyrażenie efektu podkreślonego w poprzednim para-
grafie. Oceniając dany kod należy mieć na uwadze zarówno korzyści wy-
6.6. Odległość Hamminga 185
nikające z dużej ilości wiadomości w danym kodzie, jak i korzyści wynika-

jące z małego prawdopodobieństwa błędnego przesłania wiadomości
przez kanał.
Kod tf Kod 3S Kod <e
6.8. Trzy przykłady kodów gdy stosowany jest kanał (KBS) 3
Błędy powstające w czasie transmisji przez kanał (KBS)" ciągu n bi-

nitów a 0 powodują,* że odebrany ciąg pj różni się od ciągu nadanego.
Jeżeli podczas transmisji wystąpi D błędów, odległość Hamminga pomiędzy
a 0 i Pj będzie równa D,
(6.35) D(ct0, f}j)=D.
Średnia ilość błędów występujących w bloku n binitów będzie równa np,

gdzie p jest prawdopodobieństwem błędu binarnego w KBS. Zatem średnia
odległość Hamminga pomiędzy ciągiem nadanym i odebranym jest rów-
nież np. Oczywiście faktyczna odległość pomiędzy ciągiem nadanym i ode-
branym będzie rzadko równa tej średniej. Wobec powyższego wyłania się
problem określenia nadanego ciągu kodowego na podstawie ciągu wyj-
ściowego z kanału pj, czyli problem określenia reguły decyzyjnej.
W tym rozdziale możemy założyć, że wiadomości (a stąd i ciągi kodowe)
są jednakowo prawdopodobne. W paragrafie 6.2 pokazaliśmy, że reguła
decyzyjna największej wiarogodności minimalizowała prawdopodobień-
stwo błędu, gdy wszystkie możliwe ciągi wejściowe były jednakowo praw-
dopodobne. Pokażemy teraz, że reguła decyzyjna największej wiarogod-
ności ma prostą interpretację za pomocą odległości Hamminga. Niech a,
będzie nadanym ciągiem kodowym, a fij jakimś możliwym ciągiem wyj-
ściowym kanału. Jak poprzednio, niech odległość Hamminga pomiędzy
tymi dowoma binarnymi ciągami o długości n będzie równa D. Wówczas af
oraz Pj różnią się na D pozycjach; prawdopodobieństwo, że będzie ode-
^-Najblizszy
ciąg kodowy
6.9. Reguła decyzyjna największej wiarogodności w przypadku kanału (KBS) 3
brany ciąg pj, jeżeli nadano x l t jest prawdopodobieństwem tego, że wys-

tąpią błędy binarne w konkretnych D pozycjach (w których ciągi pj i a,
różnią się), a nie wystąpią żadne błędy w pozostałych n — D pozycjach,
czyli
.n-D
(6.36) p (Ph)=PD(P)'
Dla p<\ (w jedynie sensownym przypadku) P(/?y|o(,) maleje ze wzrostem D.
Im bardziej Pj różni się od nadanego ciągu binarnego, tym mniejsze jest
prawdopodobieństwo odebrania tego ciągu. Reguła decyzyjna maksy-
malnej wiarogodności wybiera ten ciąg kodowy, który maksymalizuje
P(/fy<*i)> stąd dla jakiegoś ciągu odebranego pj reguła największej wiaro-
godności wybiera ciąg kodowy najbliższy pj w sensie odległości Hamminga.
6.7. Drugie twierdzenie Shannona dla KBS — etap pierwszy
Udowodnimy teraz drugie twierdzenie Shannona w szczególnym przy-

padku kanału KBS. Bardziej ogólne twierdzenie obowiązujące dla bez-
pamięciowych informacyjnych kanałów ze skończoną ilością wiadomości
będzie udowodnione w paragrafie 6.9.
DRUGIE TWIERDZENIE SHANNONA (przypadek szczególny). Rozważamy
KBS z prawdopodobieństwem błędu p i przepustowością C— 1 — H(p).
Niech e będzie dowolnie małą liczbą dodatnią oraz niech M = 2 n ( C - £ ) .
Wówczas dla dostatecznie dużych n możliwe jest wybranie w zbiorze 2"
6.7. Drugie twierdzenie Shannona dla KBS — etap pierwszy 187
możliwych ciągów wejściowych kanału (KBS) n podzbioru M ciągów kodowych

(odpowiadających M jednakowo prawdopodobnym wiadomościom), takich że
prawdopodobieństwo błędnego odtwarzania wiadomości będzie dowolnie małe.
Na schemacie 6.10 podano 2" możliwych ciągów wejściowych i 2"
ciągów wyjściowych kanału (KBS)". Prawdopodobieństwo błędu wynosi p.
.4" B"
00 • • 00 00 • • 00
00 • •01 n 00 • • 01
(BSK)
00 • • 10 00 • • 10
11 • • 11 11 • • 11
6.10. Kanał (KBS)"
Wejścia i wyjścia tego kanału są ciągami n liczb binarnych. Aby prze-

kazywać M wiadomości przez ten kanał, wybieramy M spośród 2" możli-
wych wejść jako ciągi kodowe. W paragrafie 6.5 pokazaliśmy, jak prawdo-
podobieństwo błędnego odtwarzania wiadomości PE wzrasta ze wzrostem M.
Pytanie, na które musimy teraz dać odpowiedź, jest następujące: Ile wia-
domości możemy przekazywać zapewniając małe prawdopodobieństwo
błędnego ich odtwarzania?
Oczywiście odpowiedź na to pytanie musi zależeć od sposobu przypo-
rządkowania wiadomościom naszych ciągów wejściowych. Jeżeli wybie-
ramy ciągi kodowe tak, że są one zgrupowane, możemy oczekiwać więk-
szego prawdopodobieństwa błędu niż wtedy, gdy konstruujemy kod o tej
samej ilości ciągów kodowych, ale mniej więcej równomiernie rozłożonych.
Metoda kodowania rozstrzyga o prawdopodobieństwie błędu, a zatem
i o maksymalnej ilości wiadomości, które możemy praktycznie dostatecznie
niezawodnie przekazywać. Odkładając na razie na bok poprzednio sformu-
łowane pytanie, założymy, że w jakiś sposób skonstruowaliśmy kod zawie-
rający M ciągów kodowych po n binitów każdy. Kod ten jest wykorzy-
stywany wraz z kanałem (KBS)". Przypuśćmy, że został nadany jeden
z ciągów kodowych stosowanych w naszym kodzie, powiedzmy oc0, a od-
bierany jest jakiś na ogół inny ciąg binarny o długości n, powiedzmy
(schemat 6.11).
Wiemy, że reguła decyzyjna największej wiarogodności, opisana w po-

przednim paragrafie, minimalizuje prawdopodobieństwo błędu, jeżeli
wszystkie M wiadomości są nadawane z jednakowym prawdopodobień-
stwem. Jednakże reguła największej wiarogodności jest trudna do analizy.
(BSK)
6.11. Kanał
Rozważymy zatem inną regułę decyzyjną podobnego typu. Chociaż nie bę-
dzie ona tak dobra jak reguła największej wiarogodności, pokażemy, że mi-
mo to można uzyskać prawdopodobieństwo błędu decyzji dowolnie małe.
Stwierdziliśmy poprzednio, że średnia odległość pomiędzy przeka-
zywanym ciągiem a 0 i ciągiem odebranym pj będzie równa np, gdzie n jest
rzędem rozszerzenia kanału KBS (lub długością ciągu kodowego), a p jest
prawdopodobieństwem błędu binarnego. Gdy odbierzemy ciąg fij na wejściu
naszego kanału, naturalne będzie poszukiwanie przekazywanego ciągu
kodowego wśród ciągów kodowych o odległości np lub mniejszej od fij.
Odwołując się do interpretacji geometrycznej możemy powiedzieć, że budu-
jemy dookoła Pj kulę o promieniu np i szukamy ciągu kodowego a0 wew-
6.12. Kula dookoła ciągu odebranego
nątrz tej kuli. Jednakże np jest średnią odległością a0 od P} i może być rzeczą
rozsądną zwiększyć nieco naszą kulę, aby zwiększyć prawdopodobieństwo
tego, że a 0 będzie leżało wewnątrz kuli. Matematycy mają zwyczaj ozna-
czać takie zabezpieczenie symbolem s i my też tak uczynimy. Rozważmy
kulę o środku Pj i o promieniu npt, g d z i e p e = p + £ (rys. 6.12).
6.7. Drugie twierdzenie Shannona dla K B S — etap pierwszy 189
Nasza procedura decyzyjna polega na tym, że budujemy kulę o promieniu

npŁ i środku fij i jeżeli wewnątrz tej kuli znajdzie się pojedynczy ode-
brany punkt kodowy, podejmiemy decyzję, że przekazywana jest wiadomość
odpowiadająca temu punktowi. Jeżeli wewnątrz kuli nie ma pojedynczego
odebranego punktu kodowego (nie ma żadnego punktu lub jest ich kilka),
poddajemy się i popełniamy błąd. Czytelnik może teraz stwierdzić, że zbyt
łatwo rezygnujemy. Obiekcje czytelnika są słuszne. Chcemy jednak poka-
zać, iż powyższe postępowanie prowadzi do pomijalnie małego prawdo-
podobieństwa błędu.
Przy dekodowaniu odebranego ciągu za pomocą opisanej procedury
mogą powstać błędy dwojakiego rodzaju. Niech S(npe) oznacza kulę dookoła
odebranego ciągu o promieniu npe (rys. 6.13). Błąd pierwszego rodzaju
6.13. Przykład dekodowania sygnału Pj
powstaje wtedy, gdy przekazywany ciąg kodowy a 0 nie leży w kuli S(npc),
a błąd drugiego rodzaju wtedy, gdy w kuli S(npF) oprócz a 0 znajdzie się
inny ciąg kodowy. Stąd prawdopodobieństwo błędu wynosi
(6.37) P £ = P{a 0 eS(/ip £ )} +
+ P { a 0 e S ( n p £ ) } P {przynajmniej jeden inny ciąg kodowy e S(np e )}.
Ponieważ P{a 0 e S(np e )}^ 1, na podstawie (6.37) mamy:
(6.38) PE^P{aoeS(npc)} +
+ P {przynajmniej jeden inny ciąg kodowy e S(npc)} .

Prawdopodobieństwo, że wystąpi przynajmniej jeden z dwóch możli-

wych przypadków, jest nie większe od sumy prawdopodobieństw indy-
widualnych. Uogólniając tę regułę mamy:
(6.39) P{przynajmniej jeden inny ciąg kodowy e 5 ( « p t ) } <
< £ P{ateS(np$,
gdzie po prawej stronie jest sumowanie po M— 1 ciągach kodowych,

które nie są przekazywane. Podstawienie (6.38) do wzoru (6.39) daje nam
poszukiwaną nierówność:
(6.40) P£<P{a0^S(np£)}+ £ P{a,eS(«pJ}.

aiâto
Wzór (6.40) daje proste ograniczenie prawdopodobieństwa błędu dla

wybranego zbioru M ciągów kodowych. Pierwsze wyrażenie po prawej
stronie (6.40) jest prawdopodobieństwem zdarzenia, że odległość Hamminga
pomiędzy ciągiem odebranym i ciągiem przekazywanym będzie większa
od «(/>+£); drugie wyrażenie jest sumą prawdopodobieństw (każde od-
powiada jednemu ciągowi, który nie jest przekazywany), że odległość
Hamminga pomiędzy ciągiem odebranym i kolejnymi ciągami nie prze-
kazywanymi będzie mniejsza od n(p + E).
Pierwsze wyrażenie po prawej stronie wzoru (6.40) może być łatwo obli-
czone. Jest to właśnie prawdopodobieństwo zdarzenia, że wystąpi co naj-
mniej n(p+e) błędów w czasie transmisji n binitów przez KBS z prawdo-
podobieństwem błędu binarnego p. Średnia ilość błędów występujących
w bloku n binitów wynosi np. Dla danej skończonej wartości n skończone
będzie prawdopodobieństwo, że ilość błędów przewyższy o ne lub więcej
wartość średnią. Jednakże, jeżeli n wzrasta, zdarzenie takie staje się coraz
mniej prawdopodobne; wyrażając się bardziej precyzyjnie, słabe prawo
wielkich liczb (Parzeń, 1961) mówi, że dla dwu dodatnich liczb f i ¿istnieje
n0 takie, że dla n>n0, prawdopodobieństwo zdarzenia, że liczba błędów
przewyższy wartość średnią o co najmniej ne, jest mniejsze od ó. Oznacza
to, że biorąc n wystarczająco duże możemy być pewni, że:
(6.41) P{a0 eS(npc)}<S
dla dowolnie małego d.

6.7. Drugie twierdzenie Shannona dla KBS — etap pierwszy 191
Mamy już w połowie oszacowane prawdopodobieństwo błędu (6.40),

a zatem w połowie udowodnione drugie twierdzenie Shannona. Na pod-
stawie nierówności (6.41) i (6.40) mamy:
(6.42) P E ^ d + £ P{a,eS(np £ )}.
OLI* OLO
Zauważmy, że 5 było niezależne od zbioru M ciągów kodowych przyporząd-
kowanych naszym M wiadomościom. Ostanie wyrażenie wzoru (6.42)
zależy bardzo silnie od wybranego aktualnie kodu. Jak możemy zatem
wykorzystać nierówność (6.42) do określenia kresu górnego prawdopo-
dobieństwa błędu bez wnikania w trudny problem uwzględnienia faktu
stosowania jakiegoś konkretnego kodu?
Znakomite rozwiązanie tego dylematu podał Shannon. Zamiast obliczać
prawą stronę (6.42) dla jakiegoś szczególnego kodu, Shannon pokazał,
że jest możliwe obliczenie prawej strony (6.42) uśrednionej po wszystkich
możliwych kodach. Pierwsze wyrażenie (6.42) nie zależy od stosowanego
kodu, zależy natomiast suma M— 1 składników; jeżeli jednak uśrednimy
sumowanie po wszystkich możliwych kodach, otrzymamy średnie praw-
dopodobieństwo błędu — uśrednione po wszystkich możliwych kodach.
To nie jest dokładnie to, co chcieliśmy obliczyć pierwotnie, ale — jak zo-
baczymy — wystarcza nam to do udowodnienia podstawowego twierdzenia.
6.8. Kodowanie losowe — etap drugi
Pokażemy teraz, na czym polega metoda Shannona, nazywana nie-

kiedy kodowaniem losowym. M wejściowych ciągów kodowych naszego
kodu wybieramy losowo ze zbioru 2" wszystkich możliwych ciągów wej-
ściowych kanału. Wyobraźmy sobie, że mamy 2" wejściowych ciągów wy-
pisanych na 2" oddzielnych kartkach papieru, wymieszanych w,dużym
naczyniu. Na ślepo wybieramy z naczynia M kartek. Po każdorazowym
wyciągnięciu kartki jest ona odczytana i przed następnym wyborem po-
nownie włożona do naczynia. Wybranych M kartek papieru określa M na-
szych ciągów kodowych ( ł ).
(') Opisana procedura może kończyć się pewnym niekorzystnym kodem, tj.
możemy wybrać tę samą kartkę papieru więcej niż jeden raz, a zatem przypisać ten
sam ciąg kodowy więcej niż jednej wiadomości. Dla M < 2 " taki przypadek jest mało
prawdopodobny, ale możliwy. Dla M > 2" taki przypadek jest nieunikniony.
Przy każdym wyborze ciągu kodowego istnieje 2" możliwości. Ponieważ

dokonujemy M oddzielnych wyborów, istnieje 2nM różnych kodów, które
mogą być tą drogą skonstruowane. Prawdopodobieństwo błędu dla jakiegoś
szczególnego kodu możemy oszacować za pomocą nierówności (6.42).
Uśredniamy teraz (6.42) po naszych 2"M możliwych kodach, aby otrzymać
uśrednione prawdopodobieństwo błędu PE. Zaznaczyliśmy wcześniej,
że pierwsze wyrażenie po prawej stronie (6.42) nie zależy od wybranego
kodu. Powinniśmy zatem uśredniać jedynie M— 1 składników postaci
P {«i e S(npe)}, gdzie Oznaczając falistą linią uśrednienie po 2nM
różnych kodach przepisujemy nierówność (6.42) w postaci
(6.43) P£<5+(M-l)P{ai6S(np^}<5 + MP{aieS(«pJ}, «,#o0.
Przy obliczaniu P f e e S f « ; , ) } , o^ a 0 , w (6.43) skorzystamy z tego,

że procedura zastosowana do wyboru ciągu kodowego ot; była tak prosta.
Ciąg af był wybierany losowo spośród 2" możliwych ciągów kodowych,
stąd średnie prawdopodobieństwo zdarzenia, że ciąg kodowy a,-, tóżny
od nadanego ciągu kodowego a 0 , jest zawarty w kuli o promieniu npt
dookoła ciągu odebranego pj, jest równe stosunkowi N(npe) całkowitej
liczby różnych binarnych ciągów w kuli do 2", czyli do całkowitej liczby
różnych ciągów binarnych o długości n. Zatem
wwwwwwwww (l"[ n \
(6.44) p{a.es(np£)} = - ^ ,
Ostatecznie otrzymamy oszacowanie dla N(npc). Ilość binarnych ciągów

o długości n oraz o ustalonej odległości k od ciągu Pj jest równa liczbie
sposobów, w jakie binarny ciąg o długości n może różnić się od ciągu Pj
w dokładnie k pozycjach; ta liczba jest oczywiście współczynnikiem dwu-
mianowym Sumując po wszystkich wartościach k mniejszych lub
równych npe otrzymamy (')
u Pt
(6.45) N(npt)=1 + (?) +•(«) +... + („;) =Eq g) .
(') Oczywiście npc nie musi być liczbą całkowitą. Jeśli npe nie jest liczbą całko-
witą, wówczas zastępujemy npe w ostatnim współczynniku dwumianu (6.45) przez
największą liczbę całkowitą mniejszą od npe. D o w ó d jednak nie zmienia się pod
żadnym względem.
6.8. Kodowanie losowe — etap drugi 193
Możemy szacować tę sumę za pomocą często używanej w teorii informacji

nierówności (Peterson, 1961, str. 246, Wozencraft i Reiffen, 1961, str. 71)('):
•Pt
(6-46) L o (2)<2" h «"> dla Pc<i.
Stąd na podstawie (6.44), (6.45) i (6.46) otrzymujemy:
(6.47) af#a0.
Zastosowanie powyższegowwwyniku do (6.43) daje oszacowanie

(6.48) PE^S + M2~n[l~H(Pc)\
Nierówność (6.48) stanowi drugie twierdzenie Shannona (w szczególnym

przypadku KBS). Parametr ó możemy zmniejszać dowolnie przez wydłu-
żanie bloku n. Stąd cała prawa strona (6.48) może być dowolnie zmniej-
szana, jeżeli tylko spełniona jest nierówność
(6.49) log M < n [1 - H (p £ )] < n [1 - H (p)].
To właśnie jest poszukiwana relacja. Jeśli wziąć e dostatecznie małe, to en-

tropia
(6.50) H(pJ = H(p + e)
może być uczyniona dowolnie bliska H(p), i możemy wybrać ilość wiado-
mości M dowolnie bliską 2n[l~H(p)]. Różnica 1 — H(p) jest przepustowością
C kanału KBS. Stąd możemy wybrać M wiadomości, gdzie M jest pewną
liczbą mniejszą niż 2"c, i średnie prawdopodobieństwo błędu może być
uczynione mniejsze od dowolnej, z góry założonej liczby. Musi istnieć przy-
najmniej jeden kod tak dobry jak średnia; jesteśmy więc pewni, że istnieje
kod z M < 2"c ciągami kodowymi i prawdopodobieństwem błędu dowolnie
małym.
To jest rezultat, który obiecywaliśmy przy końcu paragrafu 6.5. Jeżeli
użyjemy dostatecznie długich bloków o długości n, to możemy wybrać
M<2nC ciągów kodowych i korzystając z kanału KBS będziemy mogli
uzyskać prawdopodobieństwo błędnego odtworzenia ciągu kodowego
(') Patrz też: J. Seidler, Teoria kodów (przyp. tłum.).
13 Teoria Informacji
tak małe, jak tylko będziemy chcieli. Stąd możemy przez kanał KBS o prze-
log 2"c
pustowości C przekazywać, zasadniczo bezbłędnie, do = C wiado-
mości na każdy binit.
6.9. Drugie twierdzenie Shannona — dyskusja
Twierdzenie udowodnione w ostatnich dwu paragrafach ma charakter

bardzo szczególny. Rozważany kanał jest najprostszym nietrywialnym
kanałem; jest to kanał KBS. Niemniej wszystkie podstawowe idee potrzebne
do dowodu bardziej ogólnego twierdzenia i wszystkie ważniejsze konsek-
wencje, które wynikają z bardziej ogólnego twierdzenia, są zilustrowane
w tych paragrafach. Obecny paragraf wykorzystamy do przedyskutowania
tych idei i sugestii zanim udowodnimy ogólne twierdzenie w paragrafie 6.10.
Pierwszą dyskutowaną ideą jest kodowanie losowe wprowadzone przez
Shannona. Aby ocenić krytycznie samo twierdzenie, konieczne jest zro-
zumienie, co mamy na myśli mówiąc o takim kodowaniu. Ze względu
na to, że ciągi kodowe są wybierane losowo, mogliśmy wykorzystać rów-
nanie (6.47) do oszacowania prawdopodobieńs wa przynależności dowol-
nego ciągu kodowego do kuli o promieniu npe i środku pj. Jeżeli ustalili-
byśmy ciągi kodowe w jakiś deterministyczny sposób, nie bylibyśmy zdolni,
postępując jak poprzednio, określić prawdopodobieństwa, że ciąg kodowy
leży w odległości nie większej niż nPc od ciągu odebranego flj. Przyglądając
się tej sprawie dokładniej, można wyrobić sobie pogląd, że opisana pro-
cedura kodowania w rzeczywistości nie jest w ogóle żadną procedurą
kodowania. Kodowanie losowe nie jest praktyczną metodą kodowania lub
wyznaczania właściwego zbioru ciągów kodowych. Jeżeli stosujemy tę pro-
cedurę, średnio możemy uczynić prawdopodobieństwo błędu dowolnie
małe. Niestety jednak średnia ta jest średnią po wszystkich możliwych
kodach. Zatem nie możemy być pewni, że mając do czynienia z jakimś
ustalonym kodem, mamy dobry kod. Jako skrajny przykład zauważmy,
że jest możliwe otrzymanie wysoce osobliwego kodu, w którym wszystkim M
wiadomościom jest przyporządkowany ten sam ciąg kodowy.
Drugie twierdzenie Shannona może zatem być scharakteryzowane
jako coś więcej niż dowód istnienia, ale nieco mniej niż dowód konstruk-
6.9. Drugie twierdzenie Shannona — dyskusja 195
tywny. Twierdzenie to nie określa dokładnie, jak konstruować dobry kod,

i nie daje pełnej metody wyznaczania kodów. Twierdzenie dostarcza nam
metody, która pozwoli wyznaczyć kody dobre w sensie uśredniania; tak
więc jest to coś więcej niż zwykły dowód istnienia.
W bardziej ogólnej wersji drugiego twierdzenia Shannona, udowodnionej
w następnym paragrafie, pokazujemy, że możemy wybrać M=2"<c~'\
E > 0, ciągów kodowych (gdzie C jest przepustowością kanału) i prawdo-
podobieństwo błędnego odtworzenia wiadomości będzie stale dostatecznie
małe. Udowodnimy również twierdzenie częściowo odwrotne do powyższego
a mianowicie udowodnimy, że jeżeli wybierzemy M = 2 " < c + £ > , e > 0 ,
ciągów kodowych, to nie jest możliwe znalezienie reguły decyzyjnej za-
pewniającej dowolnie małe prawdopodobieństwo błędu PE przez wzrost n,
czyli przez wydłużanie ciągów kodowych. Ta postać twierdzenia odwrot-
nego będzie wystarczająca dla naszych celów. Zauważmy jednak, że moż-
na udowodnić kilka innych, bardziej ostrych postaci twierdzenia. Wolfowitz
(1959) wykazał, że jeżeli wybierzemy M=2n(C+') ciągów kodowych (gdzie
C jest przepustowością kanału oraz £>0), wówczas prawdopodobieństwo
błędu zbliża się do jedności, gdy n rośnie!
Teoria kodów stwierdza, że przy stałej zawartości informacyjnej mo-
żemy uczynić dowolnie małym prawdopodobieństwo błędnego odtworzenia
ciągu odpowiadającego jednej z naszych wiadomości, który przekazywany
jest przez kanał z szumem. Ważnym punktem poprzedniego zdania jest to,
że twierdzenie dotyczy prawdopodobieństwa błędu wiadomości lub ciągów
kodowych. Na przykład, w przypadku KBS, twierdzenie mówi, że praw-
dopodobieństwo błędnego odtworzenia ciągu n zer i jedynek jest dowolnie
małe. Jest to coś więcej niż powiedzenie, że prawdopodobieństwo błędnego
odtworzenia zaledwie jednego binitu jest dowolnie małe.
To rozróżnienie prowadziło do nieporozumień w interpretacji rezultatów
różnych postaci odwrotnego drugiego twierdzenia Shannona. Jeżeli, jak
w poprzednim paragrafie, mamy KBS, to twierdzenie odwrotne ustala,
że jeżeli ilość równo prawdopodobnych wiadomości M jest większa niż
2nC (gdzie C jest znowu przepustowością KBS), prawdopodobieństwo
błędu w ciągu zmierza do 1, gdy n wzrasta. Konkluzja powyższa jest praw-
dziwa dla pewnego zbioru ciągów kodowych (a nie dla uśrednienia po
wszystkich kodach) i dla pewnej reguły decyzyjnej. Twierdzenie jest
bardzo interesujące matematycznie, lecz jego przydatność do problemu;
13*
komunikacji jest często przesadzana. Twierdzenie nie ustala, że efektywna

komunikacja jest niemożliwa, gdy M>2"c. Dla wyjaśnienia tej sprawy
przedstawmy graficznie zależność prawdopodobieństwa błędu binitu
w KBS od zawartości informacyjnej, gdy binity 0 lub 1 są wybierane z je-
dnakowymi prawdopodobieństwami. Wiemy, że dla pewnej zawartości infor-
macyjnej R (ilość binarnych wiadomości na binit) mniejszej od przepusto-
wości kanału C, prawdopodobieństwo błędu binitu może również być
uczynione dowolnie małe. Dla zawartości informacyjnej R większej od C,
możemy rozważyć następującą procedurę. Do przekazywania wiadomości
zastosujemy znowu «-te rozszerzenie kanału KBS i założymy, że « wzrasta.
Dla osiągnięcia zawartości informacyjnej R binarnych wiadomości na binit
musimy dysponować 2nR wiadomościami, które są przekazywane przez
«-te rozszerzenie KBS. Alternatywnie możemy przekazywać nR binitów
przez «-te rozszerzenie. Spośród tych binitów, nC binitów możemy prze-
kazywać przez kanał z dowolnie małym prawdopodobieństwem błędu.
Wobec pozostałych nR—nC binitów, które muszą być również przeka-
zywane, będziemy żądali, aby odbiornik podejmował decyzję 0 lub 1 jedynie
na podstawie rzutów monetą: 0 dla reszki i 1 dla orła. Dla tych binitów
prawdopodobieństwo błędu będzie równe Prawdopodobieństwo błędu
uśrednione po wiarogodnych jak i niepewnych binitach będzie nieznacznie
większe niż \(R—C)jR. Wynik ten jest przedstawiony na rysunku 6.14.
Tę część rysunku (6.14), która przedstawia prawdopodobieństwo
błędu dla R>C, otrzymano na podstawie naszkicowanej tu procedury.
Jednakże nie pokazaliśmy dotąd, że procedura ta jest najlepsza spośród
możliwych. W istocie, obliczenie możliwie najmniejszego prawdopodobień-
stwa błędu binitu dla zawartości informacyjnej R>C jest w dalszym ciągu
sprawą otwartą. W dodatku zauważmy, że chociaż ograniczyliśmy od-
ciętą na rysunku 6.14 do i? = l, możemy otrzymać wyższą zawartość infor-
macyjną za pomocą opisanej procedury rzutów monetą. Rozważmy np.
bezszumowy kanał KBS (p = 0). Wówczas nasza procedura rzutów monetą
prowadzi do prawdopodobieństwa błędu binitu 0,25 przy zawartości in-
formacyjnej 2 binarnych wiadomości na binit.
Ostatnim punktem, dyskutowanym poprzednio w związku z ogólnym
dowodem drugiego twierdzenia Shannona, jest to, że prawdopodobieństwo
błędu jest ograniczone. W obydwu dowodach, tj. dla KBS oraz w dowodzie
ogólnym, chcemy jedynie wykazać, że prawdopodobieństwo błędu może
6.9. Drugie twierdzenie Shannona — dyskusja 197
6.14. Zależność pomiędzy prawdopodobieństwem błędnego odtworzenia pojedynczego

binitu a zawartością informacyjną w przypadku kanału KBS
być dowolnie małe, gdy 2" ( C _ e ) . Jednakże szereg otrzymanych przez

różnych autorów rezultatów podaje ściśle, jak szybko prawdopodobieństwo
błędu zbliża się do zera ze wzrostem rozszerzenia kanału n. Odnośnie tej
sprawy ograniczamy się do uwagi, że wielu autorów uzyskało wykładniczą
(lub prawie wykładniczą) zależność prawdopodobieństwa błędu od n.
O niektórych z tych wyników powiemy krótko w uwagach na końcu tego
rozdziału.
> 6.10. Drugie twierdzenie Shannona — przypadek ogólny
Zajmijmy się dowodem drugiego twierdzenia Shannona dla bezpamię-

ciowego kanału dyskretnego. Pod względem koncepcji dowód będzie
bardzo podobny do dowodu przytoczonego dla KBS w paragrafach 6.7 i 6.8.
DRUGIE TWIERDZENIE SHANNONA. Rozważmy kanał z r sygnałami wej-
ściowymi i s sygnałami wyjściowymi oraz przepustowością C. Niech e będzie
dowolnie małą liczbą oraz niech M = 2 " ( C _ c ) . Wówczas dla dostatecznie
dużego n jest możliwe wybranie podzbioru M ciągów kodowych (odpowiada-
jących M jednakowo prawdopodobnym wiadomościom) ze zbioru r" możliwych
ciągów wejściowych kanału n-tego rzędu, takich te prawdopodobieństwo

błędu przy dekodowaniu ciągu wyjściowego kanału będzie dowolnie małe.
A» B"
ai « (oi • • • aiai) /Si = (61 • • • 6ibi)
<*2 = (cti • • • aiOi) (Kanał)" 02 = (bi • • • bib2)
a,„ = (ar • • • arar) 0,n = (fc. • • • b.b.)
6.15. Opis kanału (KBS)"
Na schemacie 6.15 pokazaliśmy r" możliwych ciągów wejściowych i s" cią-

gów wyjściowych naszego kanału. Aby przekazać M wiadomości przez
ten kanał, wybieramy spośród r" możliwych ciągów M ciągów jako ciągi
kodowe. Ponownie wyłania się pytanie: Ile wiadomości można przesyłać,
aby prawdopodobieństwo błędu było dowolnie małe?
Załóżmy znów, że przekazywany jest przez kanał ciąg kodowy oc0 oraz
odebrany jest ciąg fij (schemat 6.16). Ponieważ założyliśmy, że wszystkie M
a0 (Kanał)" — 0,-
6.16. Kanał z «-krotnym powtarzaniem
wiadomości są jednakowo prawdopodobne, regułą decyzyjną minimalizu-

jącą prawdopodobieństwo błędu jest reguła największej wiarogodności
(6-51) d(Pj)=ct*,
gdzie
(6.51') P(/Jj|a*)>P(/?j|a,) dla wszystkich i .
Ponownie stwierdzamy, że do obliczenia prawdopodobieństwa błędu
jest wygodnie posłużyć się, zamiast samą regułą największej wiarogodności,
pewną regułą decyzyjną blisko związaną z regułą największej wiarogod-
ności. Chcemy napisać warunek wyznaczający a*, równoważny warunkowi
6.10. Drugie twierdzenie Shannona — przypadek ogólny 199
(6.51'). Ponieważ logarytm jest funkcją monotoniczną, zamiast (6.51')

mamy
(6.52) log P(Pj\x*)>log P(/?j|a() dla wszystkich i
lub
(6-52'} ^ WSZyStkiCh
Niech P0(J}j) oznacza rozkład prawdopodobieństwa w zbiorze ciągów wyj-

ściowych, który wystąpi wówczas, gdy ciągi wejściowe a, są wybierane
z prawdopodobieństwami odpowiadającymi przepustowości. (Wejścia
oczywiście nie są wybierane zgodnie z tym prawem, dlatego wprowadzi-
liśmy indeks celem odróżnienie rozkładu P0(Pj) od aktualnego rozkładu
P(y5¡)). Możemy dodać logP o 0?,) do obydwu stron (6.52'):
(6.53) log dla wszystkich i.
Wielkość
. Po(^)
będzie grała rolę analogiczną do odległości Hamminga w naszym dowodzie

dla KBS. Dla ustalonego ciągu nadanego oe0 wartość średnia tej nowej „od-
ległości" pomiędzy oe0 a ciągiem odebranym wynosi
,6.54) g P ^ ^ - W .
Jasny jest teraz powód wprowadzenia P0(Pj) do (6.53). Suma (6.54) jest
ze znakiem przeciwnym warunkową ilością informacji /(a 0 ; B"), zdefinio-
waną w paragrafie 5.13. Ponieważ P0(Pj) są prawdopodobieństwami pj
takimi, że I(A."; B")=nC, więc 7(a 0 ; B") nie zależy od a 0 i mamy
(6.55) £ P ( 0 > o ) l o g d l a wszystkich a 0 .
Jeżeli zatem odbieramy na wyjściu naszego kanału ciąg P Jt jest rzeczą natu-
ralną szukać nadanego ciągu kodowego wśród ciągów spełniających warunek
(
"6)
Odwołując się do interpretacji geometrycznej możemy powiedzieć, że budu-

jemy k u l ę d o o k o ł a ciągu odebranego jij. Kula zawiera wszystkie ciągi
kodowe spełniające warunek
Po (fij)
Ciągu przekazywanego a 0 szukamy wewnątrz tej kuli. Jak poprzednio,
6.17. Kulista warstwa zawierająca wszystkie punkty kodowe spełniające nierówności

(6.57) i (6.58)
zwiększamy promień kuli o ne (rys. 6.17) tak, aby zawierał ciągi kodowe
spełniające warunek
Po (Pi)
(6.58) log • < - « C + HE=-ii(C-E).
' Procedura decyzyjna sprowadza się do skonstruowania kuli określonej

przez (6.58) i do stwierdzenia, że jeżeli wewnątrz tej kuli znajdzie się poje-
dynczy punkt kodowy, to podejmiemy decyzję, że nadany został ciąg
kodowy odpowiadający temu punktowi. Jeżeli wewnątrz kuli nie ma po-
jedynczego punktu kodowego (tj. nie ma żadnego punktu lub jest ich
kilka), poddajemy się: popełniamy błąd! Procedura powyższa prowadzi
do pomijalnego prawdopodobieństwa błędu.
Przy posługiwaniu się opisaną procedurą są dwie możliwości powsta-
wania błędu przy dekodowaniu ciągu odebranego. Niech S(e) oznacza
(') Słowo kula jest użyte jedynie do ułatwienia zrozumienia argumentów wy-
korzystanych w przypadku KBS. Promień „kuli" jest ujemny.
6.18. Przykład poprawnego dekodowania Ą
zbiór punktów kodowych spełniających warunek (6.58) (tj. zbiór punktów

większej kuli na rysunku 6.17). Błąd pierwszego rodzaju ma miejsce wtedy,
gdy przekazywany ciąg kodowy a 0 nie znajdzie się w kuli S(e), a drugiego
rodzaju wtedy, gdy w kuli S(e) znajdzie się więcej ciągów kodowych (rys.
6.18). Na podstawie tego możemy prawdopodobieństwo błędu zapisać
w postaci
6.59) P£=P{a0ĆS(e)} +
+ P { a 0 e S ( e ) } P {przynajmniej jeden inny ciąg kodowy e S(e)}.
Używając tych samych argumentów, które posłużyły do wyprowadzenia

wzorów (6.38), (6.39) i (6.40) otrzymujemy
(6.60) P£^P{a0ĆS(e)} +
+ P {przynajmniej jeden inny ciąg kodowy e S ( f ) } ,
(6.61) P{przynajmniej jeden inny ciąg kodowy e S(e)}<

< X P {«|6S(8)},
aiâ o
(6.62) P£^P{a0^S(e)}+ I P{a ( eS(e)}.
Nierówność (6.62) stanowi proste oszacowanie prawdopodobieństwa

błędu dla konkretnego zbioru M ciągów kodowych. Pierwsze wyrażenie
po prawej stronie (6.62) jest prawdopodobieństwem zdarzenia, że prze-
kazywany ciąg kodowy <x0 nie spełnia warunku (6.58); drugie wyrażenie
jest sumą prawdopodobieństwa (każdy ze składników odpowiada ciągowi

kodowemu, który nie jest przekazywany) zdarzeń, że ciąg kodowy aktu-
alnie nie przekazywany spełni (6.58).
Jak poprzednio, pierwsze wyrażenie może być oszacowane przy użyciu
prawa wielkich liczb; do obliczenia drugiego wyrażenia wykorzystujemy
kodowanie losowe Shannona. Jak widzimy, wartość średnia
. W
| 0 8
pW
wynosi — nC. Logarytm ten może być rozłożony na sumę n składników,
z których każdy dotyczy jednego z n elementów tworzących ¡ij i jednego
z n elementów tworzących x 0 . Tak więc, dzięki prawu wielkich liczb, dla dos-
tatecznie dużych n prawdopodobieństwo zdarzenia, że suma będzie większa
od —nC o wartość większą od ne, będzie mniejsze niż d, gdzie ó jest do-
wolnie małe. Nierówność (6.62) przyjmuje postać
(6.63) P £ <«5 + £ P {ot; e S (e)}.
<xi=ta o
Zastosujemy teraz kodowanie losowe. Niech P0(a,) będą wejściowymi
prawdopodobieństwami odpowiadającymi przepustowości. Wybieramy M
ciągów kodowych zgodnie z tymi prawdopodobieństwami (dopuszczając
znowu możliwość kodu osobliwego). Prawdopodobieństwa możliwych
rM" kodów nie koniecznie są jednakowe — prawdopodobieństwo wyboru
jakiegoś ustalonego zbioru M ciągów kodowych jest dane przez iloczyn
odpowiadających M prawdopodobieństw.
Uśredniamy (6.63) po rMn możliwych kodach, aby otrzymać oszacowanie
w*/
średniego prawdopodobieństwa błędu PE. Stosując wężyk do oznaczenia
uśrednienia po rM" kodach mamy
WW AVWWWWVVWMV WWWWWWW
(6.64) P£s$<5+ X P l a . e S i e ^ ^ + i M - l J P f o e S t e ) } « ;
ai&ao
wwwwwww
<5 + MP{afeS(e)}.
Do tego miejsca etapy naszego dowodu odpowiadały ściśle etapom do-
wodu drugiego twierdzenia Shannona dla KBS. Jednakże, aby obliczyć
s*/WWWWWW/V\ wwwwwwww
P{aje5(fi)}, konieczna jest inna metoda postępowania. P {a; e S(s)j jest
średnim prawdopodobieństwem zdarzenia, że a, jest zawarte w S(E). Dla
ustalonego fi, wielkość ta może być zapisana następująco: £ Po (<*;)• Jed-

S(E>
nakże S(E) zależy od P,, tak że szukane wyrażenie ma postać
(6.65) P{aieS(s)}=EPo(/?,)LPo(«,)= I PoOWfo).

B" S (I) B", S(e)
P0(Pj) oznacza prawdopodobieństwa wyjść, gdy dla wejść przyjęliśmy roz-

kład P0(a;). Sumowanie po prawej stronie (6.65) jest rozciągnięte na wszy-
stkie pary a,, P, takie, że
(6.66) log M ^ < - n ( C - s ) .
P (PMt)
Dla każdej takiej pary mamy
(6.67) P0(j3j) P 0 (a ( ) < P (fi, |«,) P0(a,) 2~n (C E)
" .
Sumujemy teraz (6.67) po wszystkich parach spełniających warunek (6.66)
(6.68) X P 0 (^)Po(a i )^2-" ( C - £ ) £ P(/? J }a,.)P 0 (a i )<2"" (C - £) .
B", S(E) B", S(E)
Związki (6.68) i (6.65) zastosowane do (6.64) dają

ww
(6.6% P £ < ^ + M2-"(C-')
Relacja (6.69) zawiera istotę drugiego twierdzenia Shannona. Parametr d
może być uczyniony dowolnie małym przez powiększenie długości bloku n.
Stąd cała prawa strona (6.69) może być uczyniona dowolnie małą, skoro
tylko spełniona jest nierówność
(6.70)* M < 2 " ( c _ 8 ')<2" ( C - £ )
dla dowolnych e ' < e < 0 . To jest szukany przez nas wynik. Możemy wybrać
dowolnie małe dodatnie liczby e i E'. Wówczas, jeżeli M spełnia (6.70),
średnie prawdopodobieństwo błędu PE może być uczynione mniejsze
od dowolnej z góry ustalonej wielkości. Zatem musi istnieć co najmniej
jeden kod tak dobry jak średnia. Jesteśmy pewni, że istnieje kod o ilości
ciągów kodowych nie większej od 2"c, zapewniający dowolnie małe praw-
dopodobieństwo błędu. Wobec tego możemy przekazywać przez kanał
o przepustowości C prawie bezbłędnie do
log 2nC
(6.71) — — =C
n
wiadomości binarnych na każdy sygnał elementarny.
Aby udowodnić twierdzenie odwrotne do drugiego twierdzenia Shan-

nona, posłużymy się nierównością Fano (6.23). Chcemy wykazać, że praw-
dopodobieństwo błędu nie może być dowolnie zmniejszone przez wzrost n,
jeżeli wykorzystujemy M="(C+c> ciągów kodowych odpowiadających M
jednakowo prawdopodobnym wiadomościom. Zakładamy, że stosujemy
M=2n (C+ * ) ciągów kodowych, każdy z prawdopodobieństwem l / M .
Wówczas, ponieważ
(6.72) H(A")-H(An\Bn)^nC,
mamy
(C+e)
\og 2" -H(A"\B")^nC
lub
(6.73) ne^H(An\B").
Z nierówności Fano wynika, że
(6.74) H (A" | B" K H (PE) + PE log M < 1 + PE(nC + ne).
Po zastosowaniu (6.74) do (6.73) znajdujemy
ne —1
(6-75) PE> —
nC + ne
Gdy n wzrasta, prawdopodobieństwo błędu dla każdego kodu jest od dołu

ograniczone wartością dodatnią. Tak więc, nie możemy przekazywać
w zasadzie bezbłędnie wiadomości, gdy zawartość informacyjna przewyższa
przepustowość kanału.
6.11. Epilog
W poprzednim paragrafie pokazaliśmy, że jeżeli wybieramy losowo

ciągi kodowe o długości n, aby przekazywać je przez kanał o przepustowoś-
ci C, to prawdopodobieństwo błędnego odtworzenia wiadomości pozosta-
nie małe tak długo, dopóki ilość wybranych ciągów kodowych jest mniejsza
od 2"c. Naturalnym pytaniem praktycznym jest zatem pytanie: Jak znajdo-
wać kod zapewniający niezawodność wynikającą z drugiego twierdzenia
Shannona?
6.11. Epilog 205
Oczywiście można posłużyć się tablicą liczb losowych i użyć takiej tab-
licy do wybierania ciągów kodowych. Jednakże losowe wybieranie kodu
nie jest zadowalającą metodą konstruowania systemu komunikacyjnego.
Praktycznie system taki byłby niemal niewykonalny. Ponadto istnieje
zawsze możliwość (aczkolwiek mała), że wybrany kod nie zapewni małego
prawdopodobieństwa błędu. Drugie twierdzenie Shannona stwierdza,
że prawie wszystkim kodom odpowiada małe prawdopodobieństwo błędu
(udowodniliśmy twierdzenie przez losowy wybór kodu). Czy nie potra-
fimy zatem podać deterministycznej metody wyznaczania dobrych kodów?
Jest to dylemat, który uparcie szydzi z teoretyków od czasu ukazania
się pierwszej pracy Shannona w 1948 r. Mimo ogromnego wysiłku (Peterson,
1961) włożonego już do tej pory w poszukiwanie świętego Grala teorii
informacji, deteremi ni styczna metoda konstruowania shannonowskich
kodów wciąż jeszcze czeka na odkrycie.
UWAGI
1. Biorąc pod uwagę to, że informacyjne kanały odpowiadają eksperymentom

statystycznym, o czym była mowa w uwadze 1 przy końcu rozdziału 5, drugie twier-
dzenie Shannona może być rozpatrywane jako pewien wynik dotyczący asympto-
tycznych własności statystycznych (Abramson, 1960).
2. Jak wzmiankowano w paragrafie 6.9, opublikowano szereg prac pokazujących,
że dla zawartości informacyjnej mniejszej od przepustowości prawdopodobieństwo
błędu zmierza do zera wykładniczo (lub niekiedy prawie wykładniczo) ze wzrostem
długości ciągów n. Usystematyzowanie tych rozlicznych oszacowań jest zajęciem
niezbyt wdzięcznym, ale wydaje się konieczne. Feinstein (1955) pierwszy wykazał
wykładniczy charakter oszacowania błędu. Oszacowanie Feinsteina odnosiło się do
maksymalnego prawdopodobieństwa błędu, a nie do średniego prawdopodobieństwa
błędu. Najprostsze chyba ograniczenie wykładnicze podali Blackwell, Breiman i Thoma-
sian (1959). Zastosowali oni do równania równoważnego naszemu (6.63) technikę
szacowania Chernofla (1952) i uzyskali
r (C-Rf 1
P£<2exp - n dla 0<C-R<$,
L 16rs J
gdzie C jest przepustowością kanału, R — zawartością informacyjną, r — liczbą

elementarnych sygnałów wejściowych, s — liczbą elementarnych sygnałów wyjścio-
wych, a n — długością ciągów.
3. Przepustowość kanału wyznacza nam górny kres zawartości informacyjnej, przy

której możemy przekazywać informację z prawdopodobieństwem dowolnie bliskim zeru.
W pewnych okolicznościach jest możliwe przekazywanie wiadomości z prawdopo-
dobieństwem błędu równym zeru. Shannon (1956) zdefiniował tzw. bezbłędną prze-
pustowość kanału informacyjnego jako najmniejszą górną granicę zawartości informa-
cyjnej, przy której jest możliwe przekazywanie informacji z zerowym prawdopodo-
bieństwem błędu. Dla przykładu rozważmy kanał, gdzie prawdopodobieństwa odpo-

wiadające każdej ze strzałek na powyższym szkicu są dowolne, z tym że spełniają one
warunek 0 < P 1 } < 1 . Wówczas, ponieważ możemy przekazywać dwa wejściowe sygnały
« i , o 3 z zerowym prawdopodobieństwem błędu, bezbłędna przepustowość wynosi
przynajmniej 1 bit. Ograniczenie to jednakże może być poprawione przez zastoso-
wanie rozszerzenia kanału 2-go rzędu. W tym przypadku możemy przekazywać
a, ay, a2 a3, a3 a5, a 4 a2 i a5 <j4 z zerowym prawdopodobieństwem błędu, tak że
bezbłędna przepustowość wynosi przynajmniej £ log 5 bitów.
ZADANIA
6.1. Jednolity kanał ma r sygnałów wejściowych. Wejścia te są wybierane z jedna-

kowymi prawdopodobieństwami i procedura decyzyjna największej wiarogodności
zapewnia prawdopodobieństwo błędu p. Wyraź dolny kres niejednoznaczności H(A\B)
przez r lub p lub obydwa te parametry. Dolny kres 0 jest nie do przyjęcia.
6.2. Znajdź wszystkie trzy reguły decyzyjne największej wiarogodności dla
kanału (6.2).
DODATEK
TABLICE
Dodatek
TABLICA D . l Logarytmy o podstawie 2
! n log n n log n
1 0.000000 26 4.700439
2 1.000000 27 4.754887
3 1.584962 28 4.807355
•
4 2.000000 29 4.857981
5 2.321928 30 4.906890
6 2.584962 31 4.954196
7 2.807355 32 5.000000
!» 8
10
3.000000
3.169925
3.321928
33
34
35
5.044394
5.087463
5.129283
11 3.459431 36 5.169925
12 3.584962 37 5.209453
13 3.700440 38 5.247927
14 3.807355 39 5.285402
15 3.906890 40 5.321928
16 4.000000 41 5.357552
17 4.087463 42 5.392317
18 4.169925 43 5.426264
» 4.247927 44 5.459431
20 4.321928 45 5.491853
21 4.392317 46 5.523562
22 4.459431 47 5.554589
23 4.523562 48 5.584962
24 4.584962 49 5.614710
25 4.643856 50 5.643856
• 1
Tablice
TABLICA D . l Logarytmy o podstawie 2

(Ciąg dalszy)
n log w n log n
51 5.672425 76 6.247927
52 5.700439 77 6.266786
53 5.727920 78 6.285402
54 5.754887 79 6.303780
55 5.781359 80 6.321928
56 5.807355 81 6.339850
57 5.832890 82 6.357552
58 5.857981 83 6.375039
59 5.882643 84 6.392317
60 5.906890 85 6.409391
61 5.930737 86 6.426264
62 5.954196 87 6.442943
63 5.977280 88 6.459431
64 6.000000 89 6.475733
65 6.022367 90 6.491853
66 6.044394 91 6.507794
67 6.066089 92 6.523562
68 6.087462 93 6.539158
69 6.108524 94 6.554588
70 6.129283 95 6.569855
71 6.149747 96 6.584962
72 6.169925 97 6.599912
73 6.189824 98 6.614709
74 6.209453 99 6.629356
75 6.228818 100 6.643856
T e o r i a i n f o r m a c j i
Dodatek
TABLICA D . 2 Funkcja entropii H(p)

H(p) = -p\ogp-p log p
p H(p) P H(p)
0.005 0.045415 0.130 0.557438
0.010 0.080793 0.135 0.570993
0.015 0.112364 0.140 0.584239
0.020 0.141441 0.145 0.597185
0.025 0.168661 0.150 0.609840
0.030 0.194392 0.155 0.622213
0.035 0.218878 0.160 0.634310
0.040 0.242292 0.165 0.646138
0.045 0.264765 0.170 0.657705
0.050 0.286397 0.175 0.669016
0.055 0.307268 0.180 0.680077
0.060 0.327445 0.185 0.690894
0.065 0.346981 0.190 0.701471
0.070 0.365924 0.195 0.711815
0.075 0.384312 0.200 0.721928
0.080 0.402179 0.205 0.731816
0.085 0.419556 0.210 0.741483
0.090 0.436470 0.215 0.750932
0.095 0.452943 0.220 0.760167
0.100 0.468996 0.225 0.769193
0.105 0.484648 0.230 0.778011
0.110 0.499916 0.235 0.786626
0.115 0.514816 0.240 0.795040
0.120 0.529361 0.245 0.803257
0.125 0.543564 0.250 0.811278

Tablice
TABLICA D.2 Funkcja entropii H(p) (ciąg dalszy)

H(p) = —p log p -p log p
p H(j>) P H(p)
0.255 0.819107 0.380 0.958042
0.260 0.826746 0.385 0.961497
0.265 0.834198 0.390 0.964800
0.270 0.841465 0.395 0.967951
0.275 0.848548 0.400 0.970951
0.280 0.855451 0.405 0.973800
0.285 0.862175 0.410 0.976550
0.290 0.868721 0.415 0.979051
0.295 0.875093 0.420 0.981454
0.300 0.881291 0.425 0.983708
0.305 0.887317 0.430 0.985815
0.310 0.893173 0.435 0.987775
0.315 0.898861 0.440 0.989588
0.320 0.904381 0.445 0.991254
0.325 0.909736 0.450 0.992774
0.330 0.914925 0.455 0.994149
0.335 0.919953 0.460 0.995378
0.340 0.924819 0.465 0.996462
0.345 0.929523 0.470 0.997402
0.350 0.934068 0.475 0.998196
0.355 0.938454 0.480 0.998846
0.360 0.942683 0.485 0.999351
0.365 0.946755 0.490 0.999711
0.370 0.950672 0.495 0.999928
0.375 0.954434 0.500 1.000000

BIBLIOGRAFIA
A b r a m s o n , N., A partial ordering for binary channels, IRE Trans. Inform.

Theory, 6 (5), December (1960), str. 529-539.
B a r - H i l l e l , Y., Carnap, R., Semantic information w: W. J a c k s o n (ed.),
Communication theory, New York 1952.
Basharin, G. P., On a statistical estimate for the entopy of a sequence of inde-
pendent random variables, Theory Probability Appl. 4 (3) (1959), str. 333-336.
Bell, D. A., Information theory and its engineering applications, London 1953.
B e l l m a n , R., Introduction to matrix analysis, New York 1960.
B h a r u c h a - R e i d , A. T., Elements of the theory of Markov processes and their
applications, New York 1960.
B i l l i n g s l e y , P., On the coding theorem for the noisless channel, Ann. Math.
Statist. 32 (2) (1961), str. 576-601.
B i r n b a u m , A., On the foundations of statistical inference: Binary experiments,
Ann. Math. Statist. 32 (2), June (1961), str. 414-435.
B l a c h m a n , N. M., A generalization of mutual information, Proc. IRE 49 (8),
August (1961), str. 1331-1332.
B l a c k w e l l , D., Equivalent comparisons of experiments, Ann. Math. Statist. 24,
June (1953), str. 265-272.
—, Breiman, L., T h o m a s i a n , A. J., Proof of Shannon's transmission theorem
for finite-state indecomposable channels, Ann. Math. Statist. 29 (4), December (1958),
str. 1209-1220.
—, —, —, The capacity of a class of channels, Ann. Math. Statist. 30, December
(1959), str. 1229-1241.
—, —, —, The capacities of certain channel classes under random coding, Ann.
Math. Statist. 31, September (1960), str. 558-567.
BIyth, C. R., Note on estimating information, Tech. Rept. 17, Department of Sta-
tistics, Stanford University, (1958).
Breiman, L., The individual ergodic theorem of information theory, Ann. Math.
Statist. 28(3) (1957), str. 809-811; poprawki do tej pracy opublikowano w: Ann.
Math. Statist. 31 (3), str. 809-810.
B r i l l o u i n , L., Science and information theory, New York 1956.
C h e r n o f f , H., A measure of asymptotic efficiency for tests of a hypothesis based
on the sum of observation, Ann. Math. Statist. 23, (1952), str. 493-507.
214 Bibliografia
Cherry, C., On human communication, New York 1957.

C h i n c z y n , A. J., (XHH HHH, A. Si., K h i n c h i n , A. I.), Mathematical foundations
of information theory, New York 1957.
Csiszar, I., Some remarks on the dimension and entropy of random variables,
Acta Math. Acad. Sci. Hungaricae 12 (1961), str. 399-408.
Elias, P., Optics and communication theory, Journ. Opt. Soc. Amer. 43, April
(1953), str. 229-232.
—, Two famous papers, IRE Trans. Inform. Theory 4 (3), September (1958),
str. 99.
F a n o , R., The transmission of information, I, MIT Res. Lab. Electron. Tech.
Rept. 65 (1949).
—, The transmission of information, II, MIT Res. Lab. Electron. Tech. Rept.
149 (1950).
—, Transmission of information, New York 1961.
F e i n s t e i n , A., Error bounds in noisy channels without memory, IRE Trans.
Inform. Theory IT-1 (2),-September (1955), str. 13-14.
—, Foundations of information theory, New York 1968.
Feller, W., Wstąp do rachunku prawdopodobieństwa, I, Warszawa 1966.
—, Wstęp do rachunku prawdopodobieństwa, II, Warszawa 1969.
G e l f a n d , I. M., J a g ł o m , A. M. ( r e j i b 4 > a H f l , M. M. J l r j i a M , A. M.) O ebi-
Hucjietiuu Ko.iunecmea umJiopMaifuu o c.iynauHou (pyuKnuu codepoKatyeucn e dpyzou
maKOu tfuHKifuu, YMH 12 (1) (1957), str. 3-52.
G o l o m b , S., A new derivation of the entropy expressions, IRE Trans. Inform.
Theory IT-7 (3), July (1961a), str. 166-167.
—, Efficient coding for the desoxyribonucleic channel, Proc. Symp. Appl. Math.
14, Mathematical Problems in the Biological Sciences, American Mathematical So-
ciety (1961b), str. 87-100.
—, Genetic coding, Eng. Sci. Mag., April (1962), California Institute of Tech-
nology.
G r e t t e n b e r g , T. L., The ordering of finite experiments, Trans. Thirt Prague
Conf. Inform. Theory Statist. Decision Functions (1962).
H a m m i n g , R. W., Error detecting and error correcting codes, Bell. System
Tech. Journ. 29 (1950), str. 147-150.
Harm an, W. W., Principles of the statistical theory of communication, New
York 1963.
Hartley, R. V. L., Transmission of information, Bell System Tech. Journ. 7
(1928), str. 535-563.
H u f f m a n , D. A., A method for the construction of minimum redundancy codes,
Proc. IRE 40(10), September (1952), str. 1098-1101.
J a g ł o m , A. M., J a g ł o m , I. M. ( J l r j i o M , A.M. JITJIOM, H. M.) BepoHMnocmb
u uH(/iopMaifun, Mocraa 1960.
Jaynes, E. T., A note on unique decipherability, IRE Trans. Inform. Theory. 5,
September (1959), str. 98-102.
Bibliografia 215
Karp, R. M., Minimum-redundancy coding for the discrete noiseless channel,

IRE Trans. Inform. Theory IT-7, January (1961), str. 27-38.
K a r u s h , J., A simple proof of an inequality of McMillan, IRE Trans. Inform.
Theory IT-7 (2), April (1961), str. 118.
K e l l y , D. H., Information capacity of a single retinal channel, IRE Trans. Inform.
Theory IT-8 (3), April (1962), str. 221-226.
K e l l y , J. L. Jr., A new interpretation of information rate, Bell System Tech.
Journ. 35 (1956), str. -917-927.
K e m p t h o r n e , O., The design and analysis of experiments, New York 1952.
K r a f t , L. G., A device for quantizing, grouping, and coding amplitude modulated
pulses, M. S. Thesis, Electrical Engineering Department Massachusetts Institute
of Technology, March (1949).
Ku 11 back, S., Information theory and statistics, New York 1959.
L i n d l e y , D., On a measure of the information provided by an experiment, Ann.
Math. Statist. 27 (1956), str. 986-1005.
M c G i l l , W. J., Multivariate information transmission, IRE Trans. Inform. Theory
4, September (1954), str. 93-111.
M c M i l l a n , B., The basic theorems of information theory, Ann. Math. Statist.
24 (1953), str. 196-219.
—, Two inequalities implied by unique decipherability, IRE Trans. Inform. Theory
IT-2, December (1956), str. 115-116.
Miller, G. A., M a d o w , W. G., On the maximum lokelihood estimate of the
Shannon-Wiener measure of information, Air Force Cambridge Res. Center Rept.,
Cambridge, Mass. (1954).
Muroga, S., On the capacity of a discrete channel, I, Journ. Phys. Soc. Japan,
8 (1953), str. 484-494.
—, On the capacity of a discrete channel, II, Journ. Phys. Soc. Japan 11 (1956),
str. 1109-1120.
Murphy, R., Adaptive processes in economic systems, Stanford Univ. Appl.
Math. Statist. Lab. Tech. Rept. 119, July (1962).
Parzen, E., Modern probability theory and its application, New York 1960.
—, Stochastic processes, San Francisco 1961.
Perez, A., Information theory with an abstract alphabet, Theory Probability
Appl. 4 (1) (1959), str. 99-102.
P e t e r s o n , W. W., Error-corecting codes, New York 1961.
P i e r c e , J. R., Symbols, signals and noise, New York 1961.
—, Karl in, J. E., Reading rates and the information rate of a human channel,
Bell System Tech. Journ. 36 (1957), str. 467-516.
P i n k e r t o n , R. C., Information theory and melody, Sei. Amer., February (1956),
str. 77-87.
Pinsker, M. S. (IlHHCKep, M. C.) KoMuuecmeo uiirfiopMaijuu o zoyccoecKOM
CAyuaüHOM CMaquouapnou npoqecce, codepoKaufeucn eo emopoM npoqcce, cmaifuonapuo
c HUM cea3aHHOM, DAH CCP (1954), str. 213-216.
216 Bibliografia
P o w e r s , K. H., A unified theory of information, MIT Res. Lab. Electron. Tech.

Rept. 311, February (1956).
Pratt, F., Secret and urgent, Garden City, N. Y. 1942.
Quastler, H., Information theory in psychology, New York 1956.
R e n y i , A., On the dimension and entropy of probability distributions, Acta Math.
Acad. Sci. Hungaricae 10 (1959), str. 193-215.
Reza, F. M., An intoduction to information theory, New York 1961.
Sardinas, A. A., P a t t e r s o n , G. W., A necessary and sufficient condition for
the unique decomposition of coded messages, IRE Conv. Record 8 (1953), str. 104-108.
Seidler, J., Teoria kodow, Wroclaw-Warszawa 1965.
S h a n n on, C. E., Prediction and entropy of printed English, Bell System Tech.
Journ. 30(1), January (1951), str. 50-64.
—, The zero error capacity of a noisy channel, IRE Trans. Inform. Theory IT-2
(3), September (1956), str. 8-16.
—, Certain results in coding theory for noisy channels, Inform. Control, 1 (1)
(1957a), September, str. 6-25.
—, Geometric interpretation of some results of channel capacity calculations,
Nachrichtentechnik 10 (1957b), str. 1-4.
—, A note on a partial ordering for communication channels, Inform. Control 1,
December (1958), str. 390-397.
—, Weaver, W., The mathematical theory of communication, Urbana, 111. 1949.
S i l v e r m a n , R. A., On binary channels and their cascades, IRE Trans. Inform.
Theory IT-1, December (1955), str. 11-27.
Stumpers, F. L. H. M., A bibliography of information theory, IRE Trans. Inform.
Theory PGIT-2, November (1953).
—, A bibliography of information theory, First Supplement, IRE Trans. Inform.
Theory IT-1, September (1955), str. 31-47.
—, A bibliography of information theory, Second Supplement, IRE Trans. Inform.
Theory IT-3, June (1957), str. 150-166.
—, A bibliography of information theory, Third Supplement, IRE Trans. Inform.
Theory IT-6, March (1960), str. 25-51.
T h o m a s i a n , A. J., An elementary proof of the AEP of information theory, Ann.
Math. Statist. 31 (1960), str. 452-456.
W o l f o w i t z , J., Strong converse of the coding theorem for semi-continuous chan-
nels, Illinois Journ. Math. 3 (4) (1959), str. 477-489.
W o o d w a r d , P. M., Probability and information theory with applications to
radar, New York 1955.
W o z e n c r a f t , J. M., R e i f f e n , B., Sequential decoding, New York 1961.
SKOROWIDZ
Bayesa prawo 118, 143 ilość informacji, gęstość 160

binit 17 — —, nieujemność 128
bit 23 — —, symetria 128
— - . w a r u n k o w a 156-159, 199
Ciąg kodowy 14, 60 — —, wypukłość 163
— — nieosobliwy 62 informacja bezbłędna 169
— —, przedrostek 66 —Jednostka 22
— —, średnia długość 81 —, teoria 11
— wzajemna — patrz ilość informacji

Dekodowanie 19
drzewo kodowe 108
Jednostka miary informacji, hartley 23
Kanał (informacyjny) bezpamięciowy 113
Entropia a posteriori 120
— bezszumowy 132
— a priori 120
— binarny multyplikatywny 164
— (/-wymiarowa 54
— — symetryczny (KBS) 113
—.estymator 53
— — —, powtórzenia 147-149
—, etymologiczne znaczenie 53
— — —, prawdopodobieństwo błędu
—, funkcja 26
176-183
— źródła bezpamięciowego 25, 53
— — —.przepustowość 154
— — ciągów Markowa 38
— — —, reguła decyzyjna największej
wiarogodności 186
Funkcja entropii 29 — — wymazujący 166
— partycji 53 — deterministyczny 132
Fano nierówności 174-176 — jednolity 154
, macierz 114
Hamminga odległość 1 8 3 - 1 8 6 - Markowa (stochastyczna) 115
hartley (jednostka miary informacji) 23 miara nieoznaczoności 125, 128, 174
Huflfmana kod 93-99 przepustowość 153
• bezbłędna 266
Ilość informacji 20, 125-131, 149 kanał r-narny symetryczny (KrS) 155
— —, addytywność 144-148 — — —, macierz 155
dla KBS 130 — symetryczny 114
kilku zbiorów 148-152 — zredukowany 139-143
218 Skorowidz
kanał rozszerzony 115 Odległość Hamminga 184

— .związki probabilistyczne 117-119
kanały połączone szeregowo 134 Prawdopodobieństwo a posteriori 120
kod 14, 60-67 — a priori 120
— blokowy 60 — błędu 169, 197, 198, 205, 206
— — jednoznacznie dekodowalny 63 — warunkowe 118
— — nieosobliwy 62 — wsteczne 118
— —, «-krotne rozszerzenie 62 prawo Bayesa 118, 143
— dekodowalny bez opóźnienia 65 — wielkich liczb 190, 202
— — — —, konstrukcja 67-69 przedrostek ciągu kodowego 66
— — z opóźnieniem 66 przepustowość kanału 153
— Huffmana 93-99 — — bezbłędna 266
— nieblokowy 67
—, rozwlekłość 104 Redukcja kanału 140
—, sprawność 104 — — dostateczna 143
— trinarny 87 — — elementarna 140
— z przecinkiem 64 reguła decyzyjna 169-173
— zwięzły 82 — — największego prawdopodobień-
— — binarny 93 stwa 172
— — — konstrukcja 93-99 — — największej wiarogodności 172
— — r-narny 101 — - - - dla KBS 186
kodowanie 13, 81 — — punktowa 170
— bezpośrednie 92 rozkład stacjonarny 36
— genetyczne 78 rozszerzenie kanału 115
— losowe 191-194, 202 — kodu 62
— w KBS 176-179 — źródła 31-33, 42-47
— z korekcją błędów 1 8 0 - 1 8 3 rozwlekłość kodu 104
Krafta nierówność 69-75
Kroneckera kwadrat (tensorowy kwadrat Shannona twierdzenie pierwsze (o kodo-
macierzy) 116 waniu dla kanałów bezszumowych) 90
— — — uogólnione 121-125
Macierz kanału 114 drugie 169, 186-204
Markowa ciągów źródło 33-39 sprawność kodu 104
— macierz (macierz stochastyczna) 115 stan źródła ciągów Markowa 34
miara nieoznaczoności 125, 128, 174 struktura języka 47-52
McMillana nierówność 75-77, 82 sygnały elementarne, zbiór 60
— wejściowe, zbiór 113
Nat 23 — wyjściowe, zbiór 113
nieoznaczoność 125, 128, 174 system kodowy 14
nierówność Fano 174-176
— McMillana 75-77, 82 Twierdzenie Shannona pierwsze (o ko-
— Krafta 69-75 dowaniu dla kanałów bezszumo-
— słaba 27 wych) 90
219 Skorowidz
twierdzenie Shannona uogólnione 121-125 zbiór sygnałów wyjściowych 113

drugie 169, 186-204 — wiadomości elementarnych 24,
dla KBS 186-194 zdarzenia łączne 37
— - - . d y s k u s j a 194-197 zmienna losowa, wymiar 54
— — — odwrotne 204
— — —, przypadek ogólny 197-204 Źródła stowarzyszone 40-42
źródło bezpamięciowe 24, 25
Wiadomość binarna 13 — — binarne 29
— niebinarna 14 — —, entropia 38
— elementarna 14 — —, rozszerzenie 31-33
— —, zbiór 60 — ciągów Markowa 33-39
własność asymptotycznej ekwipartycji — — —, entropia 38
(WAE) 107 — — — ergodyczne 34
wymiar zmiennej losowej 54 — — — nieergodyczne 35
— — —, rozszerzenie 42-47
Zawartość informacyjna 183 — — —, stan 34
zbiór sygnałów elementarnych 60 — wiadomości 24
— — wejściowych 113 — zredukowane 94
SPIS RZECZY
Przedmowa 5
Wykaz oznaczeń i postaci entropii 7
1. Wstęp
1.1. Czym nie jest teoria informacji 11
1.2. Czym jest teoria informacji 12
1.3. Kodowanie wiadomości 13
1.5. Sformułowanie niektórych problemów 19
Uwagi 20
Zadanie 21
2. Ocena ilości informacji dostarczanej przez wiadomość. Źródła wiadomości

2.1. Definicja miary ilości informacji dostarczanej przez wiadomość . . 22
2.2. Bezpamięciowe źródło wiadomości 24
2.3. Niektóre własności entropii 26
2.6. Źródła stowarzyszone 39
Uwagi 53
Zadania 55
3. Niektóre własności kodów

3.1. Wstęp 60
3.2. Kody jednoznacznie dekodowalne 61
3.3. Kody dekodowalne bez opóźnienia 64
3.4. Konstruowanie kodów dekodowalnych bez opóźnienia 67
3.6. Nierówność Krafta — dowód 73
3.7. Nierówność McMillana ' 75
3.8. Przykłady 76
Spis rzeczy 221
Uwagi 78
Zadania 79
4. Kodowanie wiadomości
4.1. Średnia długość ciągu kodowego 81
4.3. Pierwsze twierdzenie Shannona 88
4.4. Pierwsze twierdzenie Shannona dla źródeł ciągów Markowa . . . 90
4.5. Kodowanie bezpośrednie 92
4.6. Znajdowanie binarnych kodów zwięzłych — kody Huffmana . . 93
4.7. Uzupełnienie dowodu 99
4.8. r-narne kody zwięzłe 101
Uwagi 107
Zadania 110
5. Kanały i ilość informacji

5.3. Probabilistyczne związki w kanale 117
5.4. Entropia a priori i entropia a posteriori 120
5.6. Ilość informacji 125
5.8. Kanały bezszumowe i deterministyczne 131
5.9. Kanały połączone szeregowo 134
Uwagi 159
Zadania 162
6. Wierne przekazywanie wiadomości przez zawodne kanały

6.3. Nierówność Fano 174
6.4. Niezawodne przekazywanie wiadomości przez zawodne kanały . . 176
6.6. Odległość Hamminga 183
6.7. Drugie twierdzenie Shannona dla KBS - etap pierwszy . . . . 186
6.8. Kodowanie losowe — etap drugi 191
222 Spis rzeczy
6.9. Drugie twierdzenie Shannona — dyskusja

6.10. Drugie twierdzenie Shannona — przypadek ogólny . .
6.11. Epilog
Uwagi
Zadania
Dodatek: Tablice
Bibliografia . .
Skorowidz . . .

Abramson N. - Teoria Informacji I Kodowania

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Abramson N. - Teoria Informacji I Kodowania

Uploaded by

Copyright:

Available Formats

RMAN ABRAMSON

Praca nad tą książką została zapoczątkowana przez przygotowanie

(') International Bussiness Machines (przyp. tłum.).

kowy nie jest wykorzystywany w tej książce. Jednakże chcemy uprzedzić

r liczba sygnałów elementarnych w zbiorze X (także liczba sygnałów elementar-

A zbiór elementarnych sygnałów wejściowych (na wejściu kanału)

B zbiór elementarnych sygnałów wyjściowych (na wyjściu kanału)

m oznaczenie rzędu źródła ciągów Markowa

/(s,|sj) = log ilość informacji dostarczana przez wiado-

entropia bezpamięciowego źródła S

//(a>)=colog — + ( 1 — to)log —i— funkcja entropii (rys. 2.3)

P(6|a) warunkowa ilość informacji

H(A, B\C)= £ P(a, b, ć) log entropia warunkowa A i B przy ustalo-

H(A\B, C)— Y P ( a , b, c)log entropia A przy ustalonych B i C

1.1 Czym nie jest teoria informacji

Teoria informacji jako nazwa dla oznaczenia dyscypliny naukowej jest

(') Wykaz cytowanej literatury znajduje się na końcu książki.

chologicznych. Nie jest wykluczone, że zdanie „słońce świeci" może spowo-

1.2. Czym jest teoria informacji

Pierwszym krokiem w naszych rozważaniach nad informacją będzie

ilości informacji nie może być uzyskane w oparciu o związki mieszczące

1.3. Kodowanie wiadomości

W celu wprowadzenia podstawowych pojęć teorii informacji, rozpatrzy-

Zasada przyporządkowania cyfrom dziesiętnym ciągów cyfr binarnych

(') Ciągami kodowymi nazywamy sygnały przyporządkowane wiadomościom,

możemy oczywiście zakodować za pomocą cyfr binarnych dowolną wiado-

Na podstawie ciągu ciągów kodowych utworzonego według tego kodu

W tym miejscu czytelnik może zauważyć, że użycie myślnika lub prze-

kodowych utworzonych wedhig kodu opisanego w tablicy 1.3, możemy

1.4. Problem przesyłania wiadomości

Dla zilustrowania podstawowych zasad kodowania i ich powiązania

TABLICA 1.4. Charakterystyka stanu pogody

wych metod kodowania tych wiadomości w ciągi sygnałów binarnych

Tak więc zakodowany za pomocą kodu sć ciąg wiadomości „słonecznie,

O Począwszy od tego miejsca będziemy używali skrótu „binit" (skrót słów

Jeżeli do przekazywania wiadomości z Los Angeles użyjemy kodu

I znowu, każdy ciąg binarny zbudowany według opisanego kodu może

1.5. Sformułowanie niektórych problemów

Przykład podany w poprzednim paragrafie uzmysławia nam szereg

(') Dekodowaniem nazywa się operację przyporządkowywania ciągom kodowym

daleko sięgają nasze możliwości? Inaczej mówiąc, jaka jest minimalna

1. Przystępne matematyczne ujęcie teorii informacji czytelnik może znaleźć

2.1. Definicja miary ilości informacji dostarczanej przez wiadomość

W rozdziale 1 sformułowaliśmy szereg podstawowych problemów do-

DEFINICJA. Niech E będzie pewnym zdarzeniem, które zachodzi z praw-

informacji nazywana jest bitem (skrót angielskich słów binary unit):

(2.3) J(E)=log * bitów.

Przy zastosowaniu logarytmu naturalnego jednostką ilości informacji jest

W przypadku gdy podstawą logarytmu jest 10, jednostka miary informacji

(2.3") J(E) = l o g 1 0 - i - hartleyów.

(2.3"') / ( £ ) = l o g P p ^ jednostek r-narnych.

Ze wzoru (2.2) wynika, że

(2.4') 1 nat = 1,44 bita.

2.2. Bezpamięciowe źródło wiadomości

W dalszych rozważaniach potrzebny będzie matematyczny opis mecha-

Źródło -«¡, «j.

2.1. Źródło wiadomości

Źródło wiadomości będziemy tu traktowali jako obiekt, który z wia-

(') W dalszym ciągu logarytm o podstawie 2 z liczby * będziemy oznaczali symbo-

Jako najprostszy rodzaj źródła wiadomości traktować będziemy źródło,

Średnią ilość informacji dostarczaną przez źródło bezpamięciowe obli-

(2.5') Hr(S) = £ P (s,) log r —— jednostek r-narnych.

( 1 ) Związek pomiędzy entropią w teorii informacji i entropią w statystycznej