Professional Documents
Culture Documents
ინფორმაციისა და კოდირების თეორიის ელემენტები
ინფორმაციისა და კოდირების თეორიის ელემენტები
1
შეტყობინება ხის არსებობის შესახებ. მაგალითად, სურათზე დაფიქსირებულია ხეების
ფორმა, ფერი და შედარებითი ზომაც კი მშვენივრად ჩანს, მაგრამ არის ეს ინფორმაცია
საკმარისად ზუსტი? შედარებით. შეუსაბამობა გამოჩნდება მხოლოდ წერილობით ენაზე
მოწოდებულ დამატებით ინფორმაციასთან შედარებით. შეუზღუდავი ლექსიკური მარაგით,
ენა გვთავაზობს ბევრად უფრო ღრმა აღწერით ინფორმაციას, რომელიც არ ჩანს სურათზე,
მაგალითად, სად გაიზარდა ხე, ვის მიერ და რა ნიადაგზე. კომუნიკაციის სხვადასხვა
მეთოდი გულისხმობს განსხვავებებს გაურკვევლობაში.
2
გრაფიკზე y-ღერძზე ნაჩვენებია H(x), რაც აჩვენებს ორი შესაძლებლობის მქონე (ორობითი)
სიმბოლოს ენტროპიას. ენტროპია, ანუ გაურკვევლობა, არის მისი მაქსიმალური (1-ის ტოლი)
დიაგრამის შუაში. ამის ახსნა ინტუიციურია: როდესაც ჩვენ ავაგდეთ მონეტა, შედეგის
გაურკვევლობა ყველაზე დიდია მაშინ, როცა მონეტა ჰაერშია. შესაბამისად, ენტროპია
მინიმალურია (0-ის ტოლი) x-ღერძის მოპირდაპირე ბოლოებზე, როცა ზუსტად ვიცით ამ
ორობითი სიმბოლოს მნიშვნელობა. ამის გათვალისწინებით, თამამად შეიძლება ითქვას, რომ
მონეტების აგდება, კითხვები დიახ/არა, ბინარული რიცხვები (0 ან 1) მათემატიკურად
ეკვივალენტურია - ისინი ყველა წარმოდგენილია გრაფიკზე ინფორმაციის თეორიის
თვალსაზრისით.
სიმბოლოს ორობითი თვისებით, რომელსაც ეწოდება "ბიტი", არის ენტროპიის ძირითადი,
საბაზო ერთეული, რომელიც გამოიყენება ინფორმაციის თეორიაში.
თუ დავუბრუნდებით მონეტის აგდებას, შეგვიძლია ვთქვათ, რომ შედეგი მიიღება
პირველივე ცდაზე. ამ პრობლემის ენტროპია უდრის ერთს, რადგან პასუხი განისაზღვრება
ერთ ნაბიჯში.
3
მაგალითად, გვინდა ერთი სიმბოლოს გაგზავნა ლათინური ანბანიდან. ეს ნიშნავს, რომ
სიმბოლო შეიძლება იყოს ოცდაექვსი ასოდან რომელიმე (1/26). რა იქნება ენტროპიის
მნიშვნელობა ამჯერად? ანუ რამდენ დიახ/არა კითხვას უნდა ვუპასუხოთ, რომ
განვსაზღვროთ, მაგალითად, ასო M ?
4
აქამდე ჩვენ ვვარაუდობდით, რომ სიმბოლოთა ნაკრების თითოეული მნიშვნელობა
შემთხვევითია, დისკრეტულია, მაგრამ ეს მიზანშეწონილი გამარტივებაა. როგორც ვიცით,
რეალობა არაა ასეთი და სიმბოლოების მნიშვნელობები არ არის ეკვივალენტური.
მაგალითად, გამოვთვალოთ წინა წინადადებაში ასო "ე"-ების რაოდენობა. არის ეს
განაწილება თანაბარი - 1/33?
1948 წელს, თანამედროვე ინფორმაციის თეორიის მამამ, კლოდ შენონმა, თავის ნაშრომში
„კომუნიკაციის მათემატიკური თეორია“, გამოთქვა მოსაზრება, რომ ა კომუნიკაციაში
რსებობს შაბლონები, რომლებიც შეიძლება გამოყენებულ იქნას ერთიდაიგივე შეტყობინების
ან მნიშვნელობის გამოსატანად რამდენიმე საფეხურზე, ანუ ბიტებში. .
სხვა სიტყვებით რომ ვთქვათ, წინა მნიშვნელობა ხდის შემდეგ მნიშვნელობას ნაკლებად
გაურკვეველს, ანუ ამცირებს ენტროპიას. საუკეთესო მაგალითია ასო "U"-ის
პროგნოზირებადობა "Q"-ს შემდეგ წერილობით ინგლისურ ენაში. თუ "Q"-ს მოჰყვება "U"
90%-ში, ეს ნიშნავს, რომ შემდეგი ასოს პოტენციური გამომავალი აღარ არის დაბალანსებული
მთელ სისტემასთან. ეს ქმნის სისტემას, სადაც შემდეგი მნიშვნელობა დამოკიდებულია
წინაზე. რუსმა მათემატიკოსმა ანდრეი მარკოვმა გააკეთა დასკვნა თავის რევოლუციურ
დამტკიცებაში, რომელსაც მისი სახელი ეწოდა, როგორც "მარკოვის ჯაჭვი". ის აცხადებს,
რომ მომავალი მნიშვნელობების ალბათობა, წინა მნიშვნელობების მიხედვით, ფიქსირდება
მათ ალბათობაში. მან დაამტკიცა, რომ სისტემის უწყვეტი მუშაობისას შედეგები მათ
სტატისტიკურ ალბათობას შეესატყვისება.
5
იმის გათვალისწინებით, რომ დამოკიდებულების „Q“-ს მოსდევს „U“ 9/10 ალბათობით,
ენტროპია, ანუ „U“-ს „Q“-ს შემდეგ გამოჩენის გაურკვევლობა არის H(X) = 0.13 ბიტი.
პირველ საფეხურზე ანბანის შუაზე გაყოფის ნაცვლად, კითხვა, რომელიც წყვეტს
საინფორმაციო მდგომარეობებს, ჩამოყალიბდება ასე: „მნიშვნელობა უდრის „U“-ს?“. 90%
შემთხვევაში ეს იქნება მართალი და ენტროპია იქნება მხოლოდ 1 ბიტი, რაც საშუალებას
გაძლევთ ამოიღოთ არასაჭირო კითხვები და შეამციროთ სისტემის საერთო ენტროპია.
მილიონობით ტექსტის კომპიუტერული ანალიზის წყალობით, მიღებული იქნა ინგლისური
ენის თითოეული ასოს სტანდარტული განაწილება. მარკოვის ჯაჭვის გათვალისწინებით,
ასევე დადგინდა ასოების გამეორების სიხშირეები.
შეგახსენებთ, რომ ჩვენ გამოვთვალეთ ენტროპია H(x) = 4.7 ანბანის ერთი სიმბოლოსთვის,
როდესაც თანაბარი განაწილება გვქონდა. მოდით შევადაროთ H(x)-ს, რომელიც
გამოითვლება შენონის ფორმულით:
6
აქ გამოყენებული მარკოვის % არის მნიშვნელობები ზემოთ მოცემული გრაფიკიდან.
როგორც ქვედა მარჯვენა ჯამიდან ვხედავთ, ენტროპიის საბოლოო მნიშვნელობაა H(x) = 4.18.
Shannon-Fano კოდი აგებულია ხის გამოყენებით. ამ ხის აგება ფესვიდან იწყება. დაშიფრული
ელემენტების მთელი ნაკრები შეესაბამება ხის ფესვს. ის იყოფა ორ ქვეჯგუფად, დაახლოებით
იგივე საერთო ალბათობით. ეს ქვესიმრავლეები შეესაბამება ორ მეორე დონის წვეროს,
რომლებიც დაკავშირებულია ფესვთან. გარდა ამისა, თითოეული ეს ქვესიმრავლე იყოფა ორ
ქვეჯგუფად, დაახლოებით იგივე საერთო ალბათობით. ისინი შეესაბამება მესამე დონის
წვეროებს. თუ ქვესიმრავლე შეიცავს ერთ ელემენტს, მაშინ იგი შეესაბამება კოდის ხის ბოლო
წვეროს; ვაგრძელებთ მანამ, სანამ არ მივიღებთ ყველა ბოლო წვეროს. კოდის ხის წიბოებს
აღვნიშნავთ 1 და 0 სიმბოლოებით.
7
მაგალითი.
საწყისი სიმბლოები:
8
სიმბოლო სიხშირე
'b' 3
'e' 4
'p' 2
'' 2
'o' 2
'r' 1
'!' 1
ახლა ჩვენ ვიღებთ პირველ ორ ელემენტს რიგიდან და ვაკავშირებთ მათ, ვქმნით ახალ ხის
კვანძს, რომელშიც ორივე იქნება შვილი და ახალი კვანძის პრიორიტეტი უდრის მათი
პრიორიტეტების ჯამს. ამის შემდეგ, ჩვენ ვამატებთ მიღებულ ახალ კვანძს რიგში.
9
10
ბოლოს დავაკავშიროთ ეს ორი ელემენტი:
11
ამრიგად, მივიღებთ შემდეგ კოდებს:
სიმბოლო კოდი
"b" 00
"e" 11
'p' 101
"" 011
"o" 010
'r' 1000
'!' 1001
12
პრაქტიკაში, ამ ალგორითმის განხორციელებისას, ხის აგებისთანავე, იგება ჰაფმანის ცხრილი.
ეს ცხრილი არსებითად არის დაკავშირებული სია ან მასივი, რომელიც შეიცავს თითოეულ
სიმბოლოს და მის კოდს, რადგან ეს კოდირებას უფრო ეფექტურს ხდის. ყოველ ჯერზე
სიმბოლოს ძებნა და მისი კოდის ერთდროულად გამოთვლა საკმაოდ ძვირი ჯდება, რადგან
არ ვიცით სად არის და მოგვიწევს მთელი ხის გავლა. როგორც წესი, ჰაფმანის ცხრილი
გამოიყენება კოდირებისთვის, ხოლო ჰაფმანის ხე გამოიყენება დეკოდირებისთვის.
13
14
15
16