2 - Kodiranje

KODIRANJE
 Omogućuje čuvanje, obradu i prenos

informacija.
 Pismo nekog jezika
 Bn bi , i 1,2,..,n.
 Am ak , k 1,2,...,m, skup
simbola.
 Pridruživanje kodnih reči iz Am
elementima u Bn i obrnuto
 Jednoznačan
 Ravnomeran
 Potpun
 n, m, q
 n<=mq
 n= mq potpun
Optimalna dužina kodne reči
 n<=mq
 log( n)
q
log( m)
log( n)
q 1
log( m)
 ... prvi manji ceo broj. n=12, m=3
 12>=32 12<=33 , znači q = 3
 Ostatak koda
 Osmobitna kodna reč – 1 bajt.
 broj različitih reči 28 = 256
 kapacitet memorije
 dekadna oznaka za kilobajt KB iznosi
210 =1024 (približno 1000)
 megabajt MB = 220 = 1048576
bajtova, što je približno 1 milion
 gigabajt GB = 230, odnosno oko 1
milijarde bajtova.
KODIRANJE U RAČUNARU
 IBM koristi EBCDIC (Extended Binary
Coded Decimal Interchange Code) do
1981. PC
 na računarima sa bušenim karticama
8-bitni grafički i kontorlni karakteri
 Kod PC ASCII kod (American
Standard Code for Interchange
Information)
 7-bitni, proširen na 8-bitni i standard
od američkog nacionalnog instituta za
standarde,
 međunarodni sistem standarda ISO
646 se razlikovao samo u znaku za
simbol $.
 Svaki simbol niz od 8 bitova.
 broj kodnih reči je 28 = 256, obeležene od
0-255
 Prvih 31 sistemski ne štampaju se (za
terminale, štampače i sl.)
 32 - 127 karakteri (interpunkcijski znaci, pa
48-57 za cifre, velika i mala slova engleske
abecede,
 128-159 kontrolni kodovi,
 160-255 posebna slova kojih nema u
engleskom alfabetu
 kodne stranice - kodiranje tekstova
na različitih jezika
 zajedničko prvih 128 karaktera i oni
se poklapaju sa ASCII
 Kodna tabela dodeljuje numeričke
kodove karakterima (kodna pozicija)
KODNE STRANE
 ISO 8859-1 (Latin1 – zapadna
Evropa)
 ISO 8859-5 (Ćirilična)
 ISO 8859-2 (Latin2 – istočna Evropa)
 Windows 1250 (latinica istočna
Evropa)
 Windows 1251 (Ćirilična)
 .....
 Prve tri su delo medjunarodne
organizacije za standardizaciju ISO
 Microsoft-ovi standardi ostale
 ISO 8859-1 je često podrazumevana
kodna strana - za zapis tekstova na
zapadno evropskim jezicima (Western
European).
UNICODE
 kodne strane se međusobno isključuju,
 jedinstveni zapis za sve jezike – univerzalni
kod – UNICODE
 UNICODE svakom karakteru dodeljuje
dvobajtni kod 216 = 65536
 Prvih 128 se poklapaju sa ASCII
standardom,
 sledećih 128 se poklapaju sa Latin1
standardom
 Znaci se predstavljaju u obliku U+nnnn,
nnnn četvorocifreni broj u heksadekadnom
zapisu
 svakom znaku je dodeljeno ime od velikih
slova engleskog alfabeta
 ćirilično veliko slovo Ж:
U+0416 – CYRILLIC CAPITAL LETTER ZHE
 dokumenti zauzimaju duplo više
mesta
 prenos podataka duži
 ako se ne koristi više pisama u istom
dokumentu samo jedna kodna
stranica
 korišćenje transformacionih šema za
pogodniji zapis i prenos
UTF-8
 Unicode transformaciona šema sa
osnovnom jedinicom od 8 bita (UTF-8).
 Za karakter jedan, dva ili tri bajta, u
zavisnosti od toga o kom je karakteru reč
 korisna za latinicna pisma
 karakter se zapisuje u obliku jednog bajta
ako sadrži samo najnižih 7 bitovaa,
odnosno,
 Ako sadrži samo najnižih 11 bitova, u
obliku dva bajta, a ako karakter sadrži svih
16 bita, zapisuje se u obliku tri bajta.
 Za ćirilični tekst je svejedno da li se koristi
čisti Unicode ili UTF-8, pošto se svaki
ćirilični karakter zapisuje u obliku dva bajta
i u jednom i u drugom formatu
 optimalniji UTF-8 jer postoji mogućnost
pisanja i ćirilicom i latinicom,
 u latinici se skoro svi karakteri zapisuju
samo jednim bajtom (osim šđčćž).

2 - Kodiranje

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2 - Kodiranje

Uploaded by

Copyright:

Available Formats

KODIRANJE

 Omogućuje čuvanje, obradu i prenos

You might also like