Professional Documents
Culture Documents
2 - Kodiranje
2 - Kodiranje
Ostatak koda
Osmobitna kodna reč – 1 bajt.
broj različitih reči 28 = 256
kapacitet memorije
dekadna oznaka za kilobajt KB iznosi
210 =1024 (približno 1000)
megabajt MB = 220 = 1048576
bajtova, što je približno 1 milion
gigabajt GB = 230, odnosno oko 1
milijarde bajtova.
KODIRANJE U RAČUNARU
IBM koristi EBCDIC (Extended Binary
Coded Decimal Interchange Code) do
1981. PC
na računarima sa bušenim karticama
8-bitni grafički i kontorlni karakteri
Kod PC ASCII kod (American
Standard Code for Interchange
Information)
7-bitni, proširen na 8-bitni i standard
od američkog nacionalnog instituta za
standarde,
međunarodni sistem standarda ISO
646 se razlikovao samo u znaku za
simbol $.
Svaki simbol niz od 8 bitova.
broj kodnih reči je 28 = 256, obeležene od
0-255
Prvih 31 sistemski ne štampaju se (za
terminale, štampače i sl.)
32 - 127 karakteri (interpunkcijski znaci, pa
48-57 za cifre, velika i mala slova engleske
abecede,
128-159 kontrolni kodovi,
160-255 posebna slova kojih nema u
engleskom alfabetu
kodne stranice - kodiranje tekstova
na različitih jezika
zajedničko prvih 128 karaktera i oni
se poklapaju sa ASCII
Kodna tabela dodeljuje numeričke
kodove karakterima (kodna pozicija)
KODNE STRANE
ISO 8859-1 (Latin1 – zapadna
Evropa)
ISO 8859-5 (Ćirilična)
ISO 8859-2 (Latin2 – istočna Evropa)
Windows 1250 (latinica istočna
Evropa)
Windows 1251 (Ćirilična)
.....
Prve tri su delo medjunarodne
organizacije za standardizaciju ISO
Microsoft-ovi standardi ostale
ISO 8859-1 je često podrazumevana
kodna strana - za zapis tekstova na
zapadno evropskim jezicima (Western
European).
UNICODE
kodne strane se međusobno isključuju,
jedinstveni zapis za sve jezike – univerzalni
kod – UNICODE
UNICODE svakom karakteru dodeljuje
dvobajtni kod 216 = 65536
Prvih 128 se poklapaju sa ASCII
standardom,
sledećih 128 se poklapaju sa Latin1
standardom
Znaci se predstavljaju u obliku U+nnnn,
nnnn četvorocifreni broj u heksadekadnom
zapisu
svakom znaku je dodeljeno ime od velikih
slova engleskog alfabeta
ćirilično veliko slovo Ж:
U+0416 – CYRILLIC CAPITAL LETTER ZHE
dokumenti zauzimaju duplo više
mesta
prenos podataka duži
ako se ne koristi više pisama u istom
dokumentu samo jedna kodna
stranica
korišćenje transformacionih šema za
pogodniji zapis i prenos
UTF-8
Unicode transformaciona šema sa
osnovnom jedinicom od 8 bita (UTF-8).
Za karakter jedan, dva ili tri bajta, u
zavisnosti od toga o kom je karakteru reč
korisna za latinicna pisma
karakter se zapisuje u obliku jednog bajta
ako sadrži samo najnižih 7 bitovaa,
odnosno,
Ako sadrži samo najnižih 11 bitova, u
obliku dva bajta, a ako karakter sadrži svih
16 bita, zapisuje se u obliku tri bajta.
Za ćirilični tekst je svejedno da li se koristi
čisti Unicode ili UTF-8, pošto se svaki
ćirilični karakter zapisuje u obliku dva bajta
i u jednom i u drugom formatu
optimalniji UTF-8 jer postoji mogućnost
pisanja i ćirilicom i latinicom,
u latinici se skoro svi karakteri zapisuju
samo jednim bajtom (osim šđčćž).