Professional Documents
Culture Documents
h prelaza.
Glavni zadatak dithering-a je da sprijeci greske koje nastaju prilikom zaokruziv
anja koje se desava ako se rezolucija audio zapisa smanjuje sa 24-bitne na 16-bi
tnu ili cak 8-bitnu "rijec". Posto kompjuter sam po sebi ne poznaje osjecaj i to
leranciju, vec samo vrsi "mrtvi" proracun i zaokruzivanje, ovaj proces proizvodi
vrlo nemuzikalan, sirov i hladan zvuk, koji najvise pogadja visoke frekvencije
u snimku. Gubi se toplina i zaokruzenost, a istice se metalni prizvuk i hrapavos
t. Gubi se i ambijent. Ovaj sindrom se medju audio inzenjerima popularno naziva
"digititis". Na primjer, ako je originalni 24-bitni audio zapis imao ove vijedno
sti:
11010110 10011001 01001010
11011001 00101001 00001010
00110010 10101001 11110101
nakon jednostavnog odbacivanja ovog treceg bajta, kompjuter ce jednostavno zanem
ariti treci bajt informacije, pa ce rezultat biti tretiran kao da je vrijednost
ovog bajta bila nula, i onda se dobije ovakav 16-bitni zapis:
11010110 10011001
11011001 00101001
00110010 10101001
odnosno, on je zvucno podudaran ovakvom 24-bitnom:
11010110 10011001 00000000
11011001 00101001 00000000
00110010 10101001 00000000
Dither opravo sprijecava ili ublazuje pojavu "digititisa" ovakvom "slucajnom" pr
omjenom vrijednosti, odnosno generiranjem kontrolisanog suma (to nije bilo kakav
sum, vec je tacno odredjen po algoritmu). On zapravo vrsi "humanizaciju" snimka
i cini ga malo prirodnijim, nesto blizi analognom snimku (inace, zbog kompjuter
ske "brutalnosti", hladne preciznosti a i gresaka kod zaokruzivanja, razni artif
akti i degradacije su cesti).
Malo mi je sada tesko ovo vizualizirati (nemam vremena crtati), ali se ovo moze
uociti ako se nacrta kruznica, najprije na milimetarskom, a zatim na kariranom p
apiru sirine linija 5 mm. Potom treba obojiti sve one kvadratice kroz koje kruzn
ica prolazi (jer tako i kompjuter vrsi kvantizaciju kod semplovanja). Milimetars
ki papir predstavlja zapis vise rezolucije (kao 24-bitni), a karirani papir od 5
mm predstavlja zapis nize rezolucije (kao 16-bitni). Nakon bojenja kvadrata, na
milimetarskom papiru se sa normalne udaljenosti jos uvijek vidi prilicno glatka
kruznica, zbog vece gustoce podataka i vise rezolucije. Medjutim, ona kruznica
na kariranom papiru otkriva mnoge nesimetricnosti i pojedine susjedne obojene kv
adrate koji su "nabacani" jedan do drugog. Prilicno losa prezentacija originala,
zar ne? Dither bi kod tog papira upravo bio kontrolisan proces koji bi omogucio
da se ova kruznica, iako sastavljena od krupnih kvadrata, ucini simetricnijom i
prirodnijom. Valjda ova usporedba malo pomaze?
I kod audio zapisa dither sluzi da se kvantizovana linija ucini vise ravnom, a m
anje stepenastom (a originalna audio informacija u analognom obliku je svakako k
ontinuirana krivulja, a ne stepenasta forma). Dakle, semplovana linija koja bi p
rostom kvantizacijom mogla dobiti ovakav izgled:
##
....####
...........##
.............####
"zvucni vakuum". Ljudsko uho nije naviklo na totalnu tisinu ono je osjeca
kao nesto strano i neprirodno jer u normalnim zivotnim uslovima nigdje
ne postoji totalna tisina. Dakle, da jos jednom uprostimo objasnjenje
zasto ovaj sum dovodi do poboljsanja, on uslovno receno popunjava tu
prazninu nastalu Truncating-om, na koju mi nismo navikli i tako simulira
sasvim prirodnu i normalnu situaciju.
MADD
BIN ::
Kako bi (bar priblizno)
izgledao sledeci niz 24-bitnih vrijednosti posle svodjenja na 16-bitne i
ditheringa?
210
210
210
210
210
210
155
155
155
155
155
155
085
085
085
085
085
085
210
210
210
210
210
210
...
155
155
155
155
155
155
204
204
204
204
204
204
-1
0
itd.
Dakle, dobije se ovakav trokutasti valni oblik (pokusat cu to nacrtati):
....#
..#
#
..#
....#
..#
#
..#
....#
..#
#
Evo jednog moguceg postupka. Sada uzmimo pomenuti niz, kvantizujmo ga na 16 bita
, zaokruzivanjem, a ne odbacivanjem nizeg bajta (sto se zove truncation):
210
210
210
210
210
210
155
155
155
155
155
155
210 156
210 156
210 156
210 156
210 156
210 156
Sada smo dobili 16-bitni signal, ali se i povecao razmak izmedju ove dvije along
acije sa 119 (sto daje 204 - 85) na 256, sto bi bez sumnje proizvelo nepozeljni
artifakt, odnosno "digititis" u zvuku. Sada u ovaj 16-bitni signal ubacimo nas t
rokutasti dither, i dobije se:
210
210
210
210
210
210
156
155
154
155
156
155
210
210
210
210
210
210
157
156
155
156
157
156
ri audio materijala, a na koji nacin - kao sto vec rekoh, to je tajna proizvodja
ca algoritma!
Ubaceni sum se cesto oblikuje tako da zauzima najmanje cujni dio spektra (najces
ce su to ekstremno visoke frekvencije), a najmanje srednji pojas od 3-5kHz, gdje
je uho najosjetljivije. Ovaj postupak se zove "Noise Shaping". To se najcesce r
adi kada je klasicna muzika u pitanju, da bi se izbjegla mogucnost da se sum dit
hera cuje u vrlo tihim "pianissimo" pasazima. Apogee UV22HR i neki drugi imaju "
Auto Black" mogucnost da se dither automatski iskljuci u dijelovima signala gdje
je digitalna tisina, da tu ne bi bilo suma.
Trenutno jedini programi za PC koji imaju ukljucen POW-r algoritam su Sequoia i
Samplitude. Sva ostala rjesenja su za Mac, a originalno "native" rjesenje je Wei
ss POW-r dithering box (koje je ujedno i najkvalitetnije i najskuplje). Posljedn
je verzije Pro Tools softvera za HD sisteme imaju ukljucen POW-r dither, ali nis
am siguran da li je to slucaj sa jeftinijim Pro Tools LE rjesenjima.
BIN ::
Sve sam to primjetio i ranije, ali se pitam zasto je to tako.
Kao sto rece Madd, vrijednost 110 193 050 ce odsijecanjem
postati 16-bitna vrijednost koja je ekvivalentna 24-bitnoj
110 193 000 pa se pitam kako ta vrijednost moze
da predstavlja tisinu kada se zaista malo razlikuje od ove
prethodne. Ako su 110 192 250 i 110 193 050 vrijednosti
koje predstavljaju zvuk koji se cuje, otkud sad da se ova
izmedju njih (110 193 000) ne cuje?
Ne, ne, zabuna je u pitanju. Zlatko je govorio o situacijama kada je signal vrlo
tih (u pitanju su "repovi" reverba i slicno), kada ovaj odsjeceni bajt odredjuj
e razliku izmedju postojeceg signala i potpune digitalne tisine (000 000 000). P
omenuta vrijednost 110 193 000 ne predstavlja tisinu ni u kom slucaju, vec je to
vrijednost sempla nastala zaokruzivanjem na 16 bita (dakle, vrlo blizu original
noj 24-bitnoj vrijednosti). Kod tako visokih vrijednosti sempla (ovaj 110 193 00
0 predstavlja elongaciju od -1 dBFS) nema govora o tisini. Rijeci je bilo o drug
im, "tihim" situacijama gdje se efekat kvantizacije i ditheringa najvise cuje (n
arocito ako se analizirani uzorak pojaca).
Ako nekoga narocito zanima, to granicno podrucje je blizu nule, a njegov amplitu
dni pojas se odredi tako da se broj bita pomnozi sa 6 (jer svaki bit daje 6 dB d
inamike). To je ujedno i teorijski dinamicki opseg konvertera (u praksi je manji
, zbog suma elektronskih komponenti). Dakle, za 16-bitni audio ova granica je na
-96 dBFS, a za 24-bitni audio one je na vrlo necujnih -144dBFS.
Inace, cijela ova prica o dithering-u dio je vec dvodecenijskih napora da se kol
iko je vise moguce ocuva "analognost" audio informacije i u digitalnom domenu.
madd
1. Nuendo svakako sve interne operacije vrsi u 32-bitnoj "floating point" rezolu
ciji. Cak i kada se koriste 16-bitni semplovi, mnogo se profitira ako je sabirni
ca 32-bitna, jer se tako ne akumuliraju greske u zaokruzivanju pri izracunavanju
sume izmedju kanala. Tako se, zapravo, dobiva nepozeljni oblik kvantizacije, ko
ji proizvodi distorziju i dodatni sum. To je bio standardni problem kod ranih DA
W (Digital Audio Workstation) sistema gdje je sabirnica bila 16-bitna, te je nji
hov zvuk cak ponekada za neke namjene proglasavan neupotrebljivim!
Upotreba "floating point" aritmetike ("pokretni decimalni zarez") znaci da se sv
aki sempl predstavlja realnim decimalnim brojem, a ne cijelim brojem kao kod 16bitne i 24-bitne rijeci, i da se brojevi predstavljaju u obliku "eksponent-manti
sa" (npr. 2.345678E+03). To omogucuje mnogo bolju reprezentaciju audio informaci
je i mnogo tacnije rezultate kod sumiranja i procesiranja (samim tim i bolji zvu
k).
Danas svi "native" DAW sistemi rade sa 32-bitnom internom aritmetikom. Interesan
tan podatak je da je postojao jedan moment kada je jeftinija Pro Tools LE verzij
a zvucala bolje od TDM verzije koja je koristila Mix24 DSP karte - iz prostog ra
zloga zato sto su te karte imale 24-bitnu sabirnicu, a "native" verzija (LE) 32bitnu. Onda je ispadalo da deset puta jeftiniji sistem u praksi zvuci bolje! Med
jutim, trenutno aktuelni Pro Tools HTDM sistem je sa svojom 48-bitnom sabirnicom
daleko iznad aktuelnih LE verzija po kvalitetu (i vecine "native" audio sekvenc
era). Medjutim, i dan danas je plugin sabirnica na PT-u 24-bitna, a ne 32-bitna
kao kod Steinberg-a... za nepovjerovati! Dobijes na mostu, izgubis na cupriji.
Dakle, da rezimiram - nakon sto materijal jednom udje u masinu, da li to bio 16bitni sempl ili 24-bitni audio uzet sa A/D konvertera karte, on bi morao cijelo
vrijeme u masini ostati u 32-bitnom domenu, da bi se sprijecile digitalne degrad