Psihoakustika 2009

You might also like

You are on page 1of 81

PSIHOAKUSTIKA 2009

SADRŽAJ

PRAG SLUHA I TONALNA AUDIOMETRIJA

GLASNOĆA

TONSKA VISINA

DIFERENCIJALNI PRAG

MASKIRANJE

KRITIČNI POJAS - CRITICAL BADWIDTH

LOKALIZACIJA IZVORA ZVUKA U PROSTORU

ANALIZA ZVUČNOG OKRUŽENJA

PRAG SLUHA I TONALNA AUDIOMETRIJA

APSOLUTNI PRAG SLUHA


Apsolutna osjetljivost uha određena je minimalnim zvučnim tlakom, dovoljnim da
pobudi osjet sluha u tihoj okolini. Ne može se čuti svaki zvuk. Ne može se čuti
zvuk premalog intenziteta i zvuk previsoke ili preniske frekvencije. Neki ljudi ne
mogu čuti zvukove koje drugi ljudi mogu čuti. Ako se želi odrediti fizičke osobine
zvuka koji je čujan normalnim osobama, mjeri se apsolutni prag sluha. U drugom
slučaju, s obzirom na to da su poznata svojstva zvukova čujnih normalnim
osobama, možemo mjeriti za koliko neki pojedinci odstupaju od tog takozvanog
normalnog praga sluha i na taj način određujemo relativni prag sluha.
Najjednostavniji stimulusi za mjerenje sluha su čisti tonovi jer ih je relativno
jednostavno definirati samo s dvije dimenzije - intenzitetom i frekvencijom.
Određujući prag sluha opisujemo osjetljivosti slušnog mehanizma. Prag sluha i
osjetljivost recipročne su veličine – niži prag sluha znači veću osjetljivost.
Mjeri se zvučni tlak. Izvor zvuka je zvučnik (kad se mjeri u slobodnom polju) ili
slušalice. Ako je izvor zvuka zvučnik, mjeri se takozvano minimalno čujno polje
(MAF - minimum audible field). Na mjestu na kojem je bila glava ispitanika kojem
se određuje prag sluha, postavlja se mjerni mikrofon. Ako su izvor zvuka slušalice,
mjeri se minimalni čujni pritisak (MAP - minimum audible pressure). U tom
slučaju mjerni mikrofon postavlja se istovremeno sa slušalicama kojima se
određuje prag slušanja i to unutar slušalice, unutar slušnog kanala ili sasvim kod
bubnjića. Rezultati koji se dobivaju ovakvim različitim mjerenjima međusobno se
razlikuju. Kod mjerenja minimalnog čujnog zvučnog tlaka (MAP), same slušalice,
njihov tip i način postavljanja značajno djeluju na rezultat mjerenja. S druge
strane, kod mjerenja minimalnog čujnog polja (MAF), značajan faktor koji djeluje
na rezultate jest kut (azimut) pod kojim zvuk dolazi do slušatelja, odnosno položaj
glave.
Najmanji zvučni tlak koji se može čuti iznosi približno 0.00002 Pa. Zapravo, u
frekvencijskoj zoni u kojoj je ljudsko uho najosjetljivije, između 1000 i 5000 Hz
neki “dobro čujući” ljudi mogu čuti zvučni tlak i manji od referentnoga. Podataka o
apsolutnom pragu sluha ima toliko koliko ima različitih mjerenja. Razlike u
rezultatima pojedinih mjerenja imaju različite uzroke. Veliku raznolikost unosi
način mjerenja zvučnog tlaka. Mjerenje zvučnog tlaka može se izvršiti na raznim
mjestima: unutar slušalice, na početku slušnog kanala, unutar slušnog kanala ili kod
bubnjića. Drugačijim postavljanjem mjernog mikrofona dobivaju se različiti
rezultati. Na sljedećem dijagramu prikazani su rezultati ispitivanja praga sluha
grupe od 198 ispitanika, s tim da je za rezultat prikazan punom linijom mjerni
mikrofon bio postavljen 3mm unutar slušnog kanala, a za rezultate prikazane
isprekidanom linijom 7 mm izvan slušnog kanala.
(Fig. 2.1, iz Moore, 1994, str. 48.)
Minimalna čujna razina zvuka predstavljena kao funkcija frekvencije za dva
položaja pri ulasku u slušni kanal (meatus). Puna linija označava razine zvuka
izmjerenu 0,3 cm po ulasku u meatus, a isprekidana linija označava razine zvuka
0,7 cm prije ulaska u slušni kanal. (prenešeno iz Moore, 1994, str. 48)

Uzimajući u obzir rezultate mnogih istraživanja, Inernacionalna Standardizacijska


Organizacija (ISO) preporuča 1963. godine za pojedine audiometrijske frekvencije
razine intenziteta koje se mogu smatrati normalnim sluhom.
frekvencija (Hz) razina intenziteta (dB)
125 46
250 25
500 11
1000 6,5
1500 6,5
2000 8,5
3000 7,5
4000 9,5
6000 8
8000 9,5

PSIHOFIZIČKI POSTUPAK TRAŽENJA PRAGA SLUŠANJA


Mjerenje osjetljivosti jedne konkretne osobe na akustički stimulus nije sasvim
jednostavno jer osjetljivost varira s vremenom. Jedan dan može se naći da je neki
intetzitet zvuka dovoljan da izazove osjet, a drugog dana da taj intenzitet nije
dovoljan da izazove osjet. Isto tako za vrijeme iste seanse mjerenja stimulus neke
određene jačine u jednom trenutku izazove osjet, a u drugom ne. Zbog toga
mjerenje i izražavanje osjetljivosti mora uključiti statističku obradu. To znači da
treba izračunati srednju vrijednost mnogih vremenski razmaknutih mjerenja.
Postavlja se konkretno pitanje: ako neke jačine stimulusa povremeno izazovu osjet
ali ne uvijek, koja se onda veličina stimulusa može smatrati pragom – ona veličina
koju ispitanik zamijeti samo u najpovoljnijim okolnostima ili ona koja je dovoljno
velika da uvijek potakne ostjet? U psihofizici postoji dogovor je da se pragom
smatra ona veličina stimulusa koja u 50 % prezentacija evocira osjet.
Opis odgovora ispitanika
Eksperimentator nikad sa sigurnošću ne zna da li ispitanik zaista čuje ili ne čuje.
Oslanja se na svjestan odgovor ispitanika koji je apriori subjektivan. Ima pokušaja
objektivnih metoda mjerenja sluha pomoću neke nehotične reakcije (sužavanje -
širenje zjenica) ali kod toga nismo sigurni da li mjerimo stvarno slušanje. U
klasičnoj tonalnoj audiometriji ispitanik samo daje znak da li čuje ili ne čuje signal.
On mora reagirati (na pr. dizanjem ruke) odmah čim začuje signal i objaviti
(spuštanjem ruke) kad je signal prestao. Kad se smanjivanjem intenziteta približi
jedva čujnom području, smanjuje se sigurnost ispitanika u signaliziranju početka i
završetka emitiranja stimulusa. Ispitanici ne reagiraju čim je počeo signal i premda
siginal traje, objavlju da je prestao. Oni na tako malim zvučnim razinama ne mogu
više razlučiti što je stvarni signal, a što slušna halucinacija.
Metoda ugađanja
Ispitanik sam ugađa pomoću atenuatora intenzitet zvuka kojeg smatra jedva čujnim
i upisuje se rezultat. Kod toga važna je uputa ispitaniku. On treba tako ugoditi
intenzitet zvuka da bude "jedva čujan". Možemo ispitaniku reći da počne s jasno
čujnim intenzitetom da bi se upoznao sa zvukom kojeg treba čuti pa da postepeno
smanjuje intenzitet do trenutka da nestane zvuka. Tada ga ponovo može pojačati do
trenutka kad postane čujan. Kod toga brzina pojačavanja i stišavanja kao i veličina
skokova ovise sasvim o ispitaniku. Ton kojim ispitanik manipulira može biti
konstantan ili isprekidan. Uz kontinuirani ton prag sluha je viši, naročito na
visokim frekvencijama.
Metoda granica
U ovom slučaju eksperimentator regulira intenzitet stimulusa a ispitanik dizanjem
ruke daje znak čuje li ili ne čuje. Počinje se s tonom koji je znatno iznad praga.
Zatim se postepeno i ravnomjerno smanjuje intenzitet stimulusa do trenutka kad
ispitanik spusti ruku označivši time da više ne čuje. Nastavlja se sa stišavanjem još
10 dB od tog trenutka i tek tada se ponovo pojačava dok ispitanik ne da znak da
ponovo čuje. I opet pojačavši još 10 dB, postupak se ponavlja desetak puta. Treba
imati na umu da brzina promjene signala i veličina pojedinih skokova mogu
utjecati na konačni rezultat mjerenja. Na taj se način dobiva skup mjerenja sličan
onome dobivenom metodom ugađanja. Pola podataka dobiveno je stišavanjem
signala a pola pojačavanjem. S manjim brojem mjerenja sugerira se medijan kao
mjera centralne tendencije, no uz dovoljan broj mjerenja aritmetička sredina neće
znatno odstupati od medijana.
Pregled parametara koji djeluju na prag sluha
- Postoji veća osjetljivost na promjenljive signale nego na kontinuirane. Ta osjetljivost
veća je uz višu frekvenciju signala. Sporo prekidan ton od 4000 Hz ima 15 dB niže
prag nego kontinuirani.
- Utjecaj povećanja, odnosno, smanjenja intenziteta: ovisno o postupku ispitivnja
dobivaju se dva niza podataka - jedan niz koji se dobije povećavanjem intenziteta
stimulusa iz nečujnog područja a drugi stišavanjem intenziteta iz jasno čujnog
područja. Opće je mišljenje da je prag dobiven postupkom stišavnja niži.
Međutim, takva se pretpostavka potvrđuje samo ako se eksperimentira s
isprekidanim tonom. Ako se ispituje kontinuiranim tonom upravo je obrnuto:
ispitivanje silaznim nizom intenziteta s kontinuiranim tonom prag je konzistentno viši.
- Prag se snižava što je razina intenziteta od koje počinje stišavanje niža.
- Uputa ispitanicima vrlo je značajan faktor u konačnim rezultatima: može se inzistirati
da ispitanik javlja da čuje tek kad ima sasvim jasnu predodžbu tona s definiranom
visinom a može se tražiti da reagira čim čuje nešto različito od tišine.

(fig 45. Hirsh (1956) str.122)

Na slici gornja krivulja predstavlja prag prema prvoj, a donja krivulja prag prema
drugoj uputi. U okolini 4000 Hz, razlika između krivulja je oko 7 dB. Autori
napominju da je varijabilitet (nesigurnost) u oba slučaja podjednak.

Zavisnost veličine praga o trajanju stimulusa


- Veličina praga zavisna je i o trajanju tona kojim se eksperimentira. Za kraće tonove od
500 ms prag raste i to zavisno od frekvencije. Za frekvenciju 500 Hz prag se primjetno
diže ako je stimulus kraći od 400 ms. Za frekvencije 2-5 kHz prag se diže ako je trajanje
stimulusa kraće od 200 ms i za svako prepolavljanje trajanja signala prag poraste za 3
dB, to jest prag određuje ukupna zvučna energija (Stevens, 1998).
Varijabilitet u mjerenju praga
Poznato je da u slučaju kad se jednoj istoj osobi mjeri prag sluha bilo uzastopno u
jednoj seansi bilo drugog dana, rezultati nikada nisu identični. Uzroci takvog
varijabiliteta su mnogobrojni i nisu obavezno samo vezani za varijabilitet
fiziološkog praga ispitanika.
- Varijabilitet (standardna devijacija) kojem je uzrok konkretno prianjanje slušalice
može iznositi do 7 dB.
- U vrlo strogo kontroliranim eksperimentalnim uvjetima, u sukcesivnim
mjerenjima s malim vremenskim razmakom, nalazi se varijabilitet od 1 dB.
- U kliničkim mjerenjima varijabilitet pacijenata bez sumnje bit će veći nego u
ovim strogo kontroliranim eksperimentima. U standardnom kliničkom postupku
među rezultatima uzstopnih mjerenja standardnu devijaciju iznosi do 4 dB. Ovaj
varijabilitet pojedinog ispitanika multiplicira se kad se traži prag većih grupa. U
tom je slučaju velik utjecaj takozvanih fizičkih faktora, namještanja slušalica,
razlike u veličini slušnog kanala i kao posljedica toga, razlika u akustičikm
osobinama okoline mjerenja.

Normalni prag
Ima mnogo teorijskih i praktičnih razloga da se definira što se smatra normalnim
pragom sluha. Međutim, unatoč mnogobrojnim laboratorijskim eksperimentima s
malim grupama i istraživanjima na velikim grupama ispitanika nije ustanovljena
jedinstvena vrijednost (krivulja) koja bi se smatrala pragom normalnog sluha.
Klinički dijagnostičari, unatoč ovako nedefiniraj situaciji nisu sasvim bez oslonca.
Važno je da upotrebljavaju istu metodu a proizvođači opreme za audiometriranje
već su ugradili standardizirane vrijednosti u uređaje. Ovim vrijednostima dodaje se
korekcija za konkretne slušalice ili zvučnik.
Slika 2.3 prikazuje prag sluha mladih zdravih osoba. Najniža crtkana linija odnosi
se na 10% najosjetljivijih. To znači da većina neće registrirati zvuk tih razina
intenziteta. Puna linija smatra se pragom zato jer 50% ispitanika može registrirati
intenzitete koje povezuje ta krivulja. Samo mali dio frekvencijskog spektra može se
čuti ispod razine referentnoga zvučnoga intenziteta. Naročita osjetljivost oko 4 kHz
tumači se utjecajem rezonancijske frekvencije slušnoga kanala.
Desna strana dijagrama praga slušanja, prema visokim frekvencijama, strmo se
penje i jako je zavisna o dobi ispitanika. Za osobe od 20 godina, za frekvenciju od
17 kHz, prag sluha je 50 dB iznad referentnog zvučnog tlaka, a za osobe od 65
godina već je frekvenciji od 8 kHz prag sluha 50 dB iznad referentnog zvučnog
tlaka (Stevens, 1998).
Brownovo gibanje molekula zraka kod obične temperature uzrokuje "zvučni tlak"
koji je u području 1000 do 6000 Hz samo 10 dB ispod referentnog zvučnog tlaka.
To znači da bi veća osjetljivost ljudskog uha bila nekorisna. Zbog toga možemo
pretpostaviti da niti životinje u tom frekvencijskom dijapazonu nemaju bolju slušnu
osjetljivost.
Prag boli
Ako se intenzitet čujnog zvuka povećava slušatelj (ispitanik) doživljava zvuk kao
glasniji ali ako se zvučni intenzitet već vrlo jakog zvuka i dalje povećava, počinje
primjećivati neslušni, taktilni osjet. Priroda tog osjeta mnogo ovisi o frekvenciji, a
različiti ispitanici imaju različito iskustvo. Na niskim frekvencijama osjeća se
lagana vibracija superponirana zvuku. U nekim slučajevima pojavljuje se lagana
vrtoglavica zbog pobude polukružnih kanala. Na visokim frekvencijama osjeća se
najprije škakljanje, svrbež u srednjem uhu a potom jak bol. Zbog graničnih uvjeta
(nehumani eksperimenti) prag boli utvrđen je u eksperimentima u kojima su
ispitanici sami pojačavali zvuk dok ne primjete ekstraauditivni osjet. Prag boli
iznosi oko 120 fona razine glasnoće (oko 120 dB razine zvučnog tlaka) i
predstavlja gornju granicu dinamike slušanja.

REFERENCIJE
Zwicker- Fastl .....

Atkinson, R.C., R.J. Herrnstein, G. Lindzey, R.D. Luce, eds. (1988) Stevens'
Handbook of Experimental Psychology, John Wiley & Sons.
Hirsh, I.J. (1952) The Measurement of hearing, Mc Grow-Hill Co. Inc.
Moore, B.C.J. (1994) Psychology of hearing, Academic Press.
Seto, W.W. (1971) Acoustics, McGrow-Hill
Sivian, A.M. & White, S.D. (1933) On minimum audible sound fields, J. Acoust.
Soc.Am. 4, 288-321. (prema Moore, 1994)
Stevens, K. N. (1998) Acoustic Phonetics, MIT Press.
Stevens, S.S. & H. Davis (1960) Hearing (Its Psychology and Physiology), John
Wiley & Sons, Inc.

GLASNOĆA
(Zwicker-Fastl)

Razina glasnoće

Uspoređivanje glasnoća dovodi do konzistentnijih rezultata nego procjena veličine


(comparison/ magnitude estimation). Ideju razine glasnoće uveo je Barkhausen
dvadesetih godina prošlog stoljeća.

Razina glasnoće nekog zvuka (loudness level) jest razina zvučnog tlaka (sound
preassure level, SPL) tona od 1 kHz koji je isto glasan kao taj zvuk. Jedinica takve
dimenzije zove se "fon" (phon). Razina glasnoće može se izmjeriti i izraziti za bilo
koji zvuk. Najčešće se ilustrira za čiste tonove različitih frekvencija. Linije krivulje
koje povezuju mjesta iste razine glasnoće zovu se izofone.

Slika 8.1 Linije iste glasnoće - izovone za čiste tonove. Brojevi kojima su krivulje
označene izraženi su u fonima (jedinica za razinu glasnoće) i u sonima (jedinica za
glasnoće).

Prema definiciji, sve krivulje neke razine glasnoće (parametar označen nad
krivuljom) na mjestu koje označava frekvenciju od 1000 Hz imaju isti broj fona i
decibela. Prag sluha, koji je također krivulja iste glasnoće, označen je crtkanom
linijom. Zbog toga što je razina zvučnog tlaka (SPL) na pragu sluha za 1000 Hz 3
dB, a ne 0 dB, parametar nad crtkanom krivuljom je 3 fona. Za tihe zvukove, oko
20 fona, krivulje iste glasnoće gotovo su paralelne s krivuljom koja označava prag
sluha. Za tonove iznad 200 Hz krivulje su paralelne i na većim intenzitetima. Za
frekvencije ispod 200 Hz, krivulje na većim intenzitetima sve su položenije, među
njima je manji razmak. Ton od 50 Hz 50 dB razine zvučnog tlaka dosiže razinu
glasnoće od 20 fona, dok 50 Hz 110 dB (SPL) doseže 100 fona. Razlika u broju
fona i broju decibela na malim intenzitetima je 30 a na velikim samo 10.
Najosjetljivije mjesto u spektru, između 2 i 5 kHz označeno je na pragu sluha
snižavanjem krivulje. Na velikim intenzitetima taj je udolina još izraženija.

Funkcija glasnoće

Glasnoća je osjet koji odgovara (korelira) s intenzitetom stimulusa. Odnos


veličine stimulusa i veličine osjeta može se mjeriti tako da ispitanici odgovaraju na
pitanje koliko je puta neki zvuk glasniji ili tiši od referentnoga. To se može postići
tako da ispitanik ugađa intenzitet stimulusa tako da osjet glasnoće prema prema
referentnom zvuku ima neki zadani odnos, ili na taj način da se procjenjuje veličina
(odnos) dvaju prezentiranih zvukova. Standardni ton 1000 Hz 40 dB SPL
predstavlja glasnoću jednog sona. Za procjenu glasnoća najjednostavniji je odnos
udvostručavanja, odnosno, prepolovljavanja. Ispitanici traže na koju se razinu
zvučnog intenziteta mora povečati intenzitet da zvuk bude dvostruko glasniji od
početnoga ili koliko treba smanjiti razinu intenziteta da se procjenjuje upola
glasnim od početnoga.

Slika 8.3. Potrebno povećanje (smanjenje) razine intenziteta da bi se postigao osjet


dvostruke (rapolovljene) glasnoće tona od 1 kHz u zavisnosti početnoj razini.

Prosječna vrijednost dobivena na temelju mnogobrojnih mjerenja ovoga tipa jest da


ton od 1000 Hz treba pojačati 10 dB da bi izazvao osjet dvostruke glasnoće. To
znači, ton od 40 dB SPL treba pojačati na 50 dB SPL da bi osjet glasnoće porasao
od 1 na dva sona. Od 40 dB (fona) naviše vodoravna linija označava da oko 10 dB
predstavlja osjet dvostruke glasnoće. Ispod 40 dB smanjuje se potrebna razlika u
razini intenziteta da bi se postigla promjena glasnoće 1:2. Dakle, povećanje razine
intenziteta za 10 fona rezultira povećanjem dvostrukim povećanjem glasnoće, a
povećanje razine od 20 fona rezultira četiri puta glasnijim zvukom, 4 sona.
Međutim, zvukovi koji imaju samo 20 fona, nisu samo 4 puta tiši od zvukova s 40
fona, već su tiši s faktorom 6,6 odnosno imaju samo 0,15 sona (1/6,6), a ne 0,25
sona. Da bi se udvostručila glasnoća tonu razine zvučnog tlaka od 20 dB, potrebno
je samo 5 dB, a na razini 10 dB potrebno je samo 2 dB da se zvuk čini dvostruko
glasnijim. Zvuk od 3 fona, predstavlja prag sluha, pa je to dakle glasnoća od 0 sona.

Glasnoća djelomično maskiranih tonova

Šum razine gustoće (density level) od 30 dB (po hercu) djeluje kao maskirajući
zvuk i podiže prag čujnosti tona od 1 kHz tako da je tek čujan uz razinu zvučnog
tlaka od 50 dB. Dakle, njegova je glasnoća u tom slučaju nula sona. Da nema
maskirajućeg tona, takav zvuk imao bi glasnoću od 2 sona. Međutim, ako se razina
tona od 1 kHz poveća uz prisustvo istog maskirajućeg šuma, do 80 dB, provocirati
će osjet glasnoće sličan kao da nema maske. To znači da je krivulja glasnoće u tom
slučaju strmija.

Slika 8.10. Glasnoća tona od 1 kHz u funkciji njegove razine. Crtkana linija
predstavlja funkciju glasnoće u tihim uvjetima. Druge dvije krivulje predstavljaju
glasnoću tona od 1 kHz uz prisustvo ružičastog šuma razine intenziteta od 40 i 60
dB po 1/3 oktave. Vidimo da su uz višu razinu šuma krivulje strmije i da uz veće
razine tona od 1 kHz konvergiraju sličnim vrijednostima.

Loudness recruitment (iz Moore 1997)

Rekritman glasnoće nalazi se kod pereptivne nagluhosti, odnosno kod oštećenja


kohlee, a primjećuje se po većem porastu glasnoće uz isti porast stimulusa.
Pretpostavimo da netko ima jednostrano oštećenje na 4000 Hz od 60 dB. Ako
zdravom uhu emitiramo 4 kHz sa 100 dB SPL tada će to slušatelju biti isto tako
glasno kao kad mu isti ton (4 kHz, 100 dB) emitiramo u oštećeno uho. Prema tome
ton koji je samo 40 dB iznad praga u oštećenom uhu, čini se isto glasnim kao ton
koji je 100 dB iznad praga u zdravom uhu. Takvo se ponašanje u ovom slučaju
smatra nenormalnim, međutim, treba primijetiti da je to sličan fenomen kao u
slučaju slušanja vrlo niskih i vrlo visokih frekvencija (za normalno uho).

fig.2.12 Primjer rekritmana glasnoće za jednostranih oštećenja. Ton fiksne razine u


oštećenom uhu alternira se s tonom promjenjive (ugodljive) razine glasnoće u
zrdavom uhu. Ispitanici su ugađali razinu intenziteta u zdravom uhu tako da se
izjednači s glasnoćom u oštećenom uhu. Prema tome dijagram (puna linija)
predstavlja razinu intenziteta (SPL) tona u zdravom uhu u funkciji razine
intenziteta u oštećenom uhu u slučaju kad su po glasnoći izjedančeni. Crtkana
linija (nagib 1) predstavlja funkciju za oba zdrava uha.

Za oba zdrava uha funkcija zapravo nije pravac nagiba 1, nego je malo na velikim
intenzitetima krivulja malo blažeg nagiba zbog toga jer ipistanici izbjegavaju jako
glasne zvukove.
Pogledamo li dijagram, ton od 60 dB SPL u oštećenom uhu čini se jednako glasnim
kao ton od 27 dB SPL u zdravom uhu. Tu se vidi razlika u apsolutnom pragu
između oba uha. Međutim, ton od 90 dB SPL u oštećenom uhu čini se jednako
glasnim kao ton od 80 dB u zdravom uhu. Treba pretpostaviti da bi se uz veće
intenzitete eksperimentiranja krivulja susrela s onom za normalno slušanje.

Utjecaj trajanja na glasnoću zvuka

Većina prirodnih zvukova dinamički je modulirana u vremenu. To se posebno


odnosi na govor i glazbu. Pokusima je ustanovljeno da osjet glasnoće ovisi o
trajanju zvuka. Isto tako zavisi o učestalosti ponavljanja kratkotrajnih impulsa.

slika 8.12 Glasnoća isječaka zvuka iz tona od 2 kHz 57 dB SPL u funkciji trajanja
tih isječaka.

Glasnoća u funkciji trajanja mijenja se (smanjuje) samo za kraće zvukove od 100


milisekundi. Za duže zvukove od 100 ms, glasnoća je neovisna o njihovu trajanju.
Na slici 8.12 prikazana je glasnoća (soni na ordinati) isječaka tona od 2 kHz. (Ton
od 2 kHz upotrijebljen je umjesto tona od 1 kHz zato jer dozvoljava veće
skračivanje bez bitnog utjecaja proširenja spektra) Isječci tona oblikovani su
postepenim počecima i zavšecima.
Glasnoća se smanjuja s faktorom 2 za skračivanje zvuka faktorom 10. To znači,
ako ton skratimo od 100 ms na 10 ms, glasnoća mu padne od 4 sona na 2 sona.
Nadalje, ekstrapoliramo li krivulju, skraćenje do 1 milisekude dovest će do
redukcije na glasnoću od 1 son.
slika 8.13 Razina glasnoće isječaka tona od 2 kHz od 57 dB SPL u funkciji njihova
trajanja. Crtkane linije predstavljaju upotrebljivu aproksimaciju.

Usporedimo li podatke slike 8.12 sa slikom 8.13, vidimo prije opisanu zavisnost,
ovdje na drugi način prikazanu. Razina glasnoće (izražena fonima) opada za 10
fona ako se trajanje smanji 10 puta. Slična se zavisnost nalazi ako se
eksperimentira i drugim frekvencijama.

Kako vidimo na dijagramu 8.13, ton 2 kHz trajanja 5 ms ima razinu glasnoće od
47.5 fona. Takav je zvučni isječak upotrijebljen za promatranje zavisnosti o
njegovu ponavljanju (repetition rate).

slika 8.14 Razina glasnoće isječka od 5 ms trajanja tona od 2 kHz 57 dB SPL , u


funkciji o broju ponavljanja (u sekundi) Uz 200 ponavljanja u sekundi postiže se
kontinuriani ton.

Do otprilike 5 ponavljanja u sekundi takav tonski isječak ima približno istu razinu
glasnoće kao i jedan izolirano emitiran, to jest 47.5 fona. Uz veću učestalost
tonskih isječaka razina glasnoće raste postepeno sve do učestalosti od 200 puta u
sekundi, kad se niz impulsa pretvara u kontinuirani ton, a razina glasnoće dosegne
razinu dugotrajnih tonova 60 fona.

TONSKA VISINA
(Zwicker-Fastl)

Izraženost tonske visine - “pitch strentgh”

Osjet tonske visine nije rezerviran za zvukove isključivo harmoničnog (glazbenog)


karaktera. Svi zvukovi provociraju nekakav osjet tonske visine, ali taj osjet nije
jednako izrazit, određen, pouzdan. Odatle ideja da se zvukovi u vezi s tonskom
visinom mogu poredati prema tome koliko siguran, definiran osjet tonske visine
provociraju. Na primjer, čisti ton od 1 kHz pobudi vrlo jasan osjet tonske visine,
dok šum, propušten visoko propusnim filtrom granične frekvencije 1 kHz pobudi
osjet približno jednake tonske visine ali ne tako jak, pouzdan.

“Jačina” osjeta tonske visine može se kvantificirati metodom procjene veličine


(magnitude estimation).

Na slici 5.24 prikazana je shema različitih tipova zvukova, rangiranih prema jačini
osjeta tonske visine koji pobuđuju, od čistog tona, preko različitih kompleksnih
harmoničnih zvukova do šumova na različite načine filtriranih.
Fig. 5.24 Shematski prikaz zvukova upotrebljenih za promatranje jačine tonske
visine.

Slika 5.25 a-c prikazuje relativnu jačinu osjeta tonske visine za različite tipove
zvukova 1 – 11. Svaki dijagram odnosi se na drugu frekvencijsku zonu (125 Hz,
250 Hz i 500 Hz). Vidimo da jačina osjeta tonske visine opada na sva tri dijagrama,
uz veći redni broj (tip zvuka). Najjači osjet tonske visine pobuđuje čisti ton (zvuk
br. 1). Jačina tonske visine kompleksnih tonova prosječno postiže upola slabiji osjet
tonske visine. Različite vrste šumova (zvukovi 7 –11) pobuđuju 5–10 puta slabiji
osjet tonske visine od čistog tona. Zvuk br. 4, uskopojasni šum jedini je izuzetak, i
njegov “pitch strength” može se usporediti s onim kompleksnih tonova.
Širokopojasni šumovi ne pobuđuju nikakav osjet tonske visine, slično kao visoko-
propušteni ako je granična frekvencija relativno nisko (zvuk br. 11).
Slika 5.25 a,bc

Dakle, zvukovi s linijskim spektrom (diskretne frekvencijske komponente)


pobuđuju relativno jasan osjet tonske visine, a zvukovi kontinuiranog spektra
(šumovi) relativno slab osjet tonske visine. Izuzetak je samo uskopojasni šum.
Slika 5.26 Relativna jačina tonske visine u funkciji trajanja čistiog tona 1 kHz, 80
dB SPL.

Uz veće trajanje, tonska visina je izraženija. Do trajanja od 300 milisekundi, jačina


tonske visine linearno raste s logaritmom trajanja.

Slika 5.27 Relativna jačina tonske visine čistog tona od 1 kHz, trajanja 500
milisekundi u funkciji njegove razine.

Povišenjem razine reprodukcije, relativna jačina osjeta tonske visine također se


povećava i to 10% za povećanje razine od 10 dB. U dinamičkom rasponu od 20 do
80 dB SPL, jačina osjeta tonske visine poraste s faktorom 2,5. U istom dinamičkom
rasponu registriramo 100 puta veći osjet glasnoće. Unatoč tome što osjet glasnoće
zavisi od trajanja tona, smanjenu jačinu osjeta tonske visine uz kraće zvukove ne
možemo povezati s manjom glasnoćom.
Slika 5.28 Relativna jačina osjeta tonske visine čistih tonova, s 80 dB SPL i
trajanja 500 ms, u funkciji frekvencije test tona.

Najizraženiji osjet tonske visine pobuđuju tonovi srednjih frekvencija. Prama slici
5.28 vidimo da tonovi niskih frekvenicija (125 Hz) i tonovi viskokoih (8-10 kHz)
pobuđuju tri puta slabiji osjet tonske visine nego tonovi oko 1,5 kHz.

Odnos tonskih visina (pitch ratio)

Osjet tonske visine može se mjeriti (uspoređivati) u odnosu na frekvencijsku skalu


u hercima, na različite načine. Jedna je od mogućnosti ispitanicima emitirati ton
frekvencije f1, i zahtijevati da namjest ton koji će im se činiti po tonskoj visini
upola tako visoko ili dvostruko tako visoko.
Ako se emitira ton niske frekvencije (npr. 440 Hz) i od ispitanika se traži da namjesti drugi
ton tako da bude po tonskoj visini upola niže, oni namještaju oko 220 Hz. To znači da za
niske frekvencije, raspolovljavanje" osjeta tonske visine odgovara frekvencijskom omjeru 2:1.
Međutim, za visoke frekvencije to nije slučaj. Ako se od ispitanika traži da odaberu upola niži
ton od tona koji ima 8 kHz, oni neće namjestiti 4 kHz nego oko 1300 Hz. Unatoč velikim
razlikama među ispitanicima ova se vrijednost potvrdila u različitim eksperimentima. Kad se
promatraju frekvencije iznad 1 kHz, odnos dvostrukosti u tonskoj visini uvijek predstavlja
veći odnos od 1:2 u frekvencijskom smislu. To je prikazano punom linijom na dijagramu na
slici 5.1. Crtkana linija predstavlja odnos 2:1. Puna linija i isprekidana poklapaju se otprilike
do frekvencije od 1 kHz, a odstupanje se odnosi na više frekvencije. Slučaj da se frekvencija
od 1300 Hz čuje kao polovina tonske visine frekvencije od 8 kHz prikazan je na dijagramu
strelicom i isprekidanim linijama.
fig. 5.1 Frekvencija i odnos tonskih visina. Povezanost frekvenicije f1 i frekvencije
koja se po tonskoj visini percipira kao polovica početne.

Eksperimenti s raspolovljavanjem ili udvostručavanjem tonske visine neće dati


apsolutne veličine. Za to je potrebno osnovati referentnu vrijednost. Preporučljivo
je odabrati referentnu vrijednost niske frekvencije u zoni u kojoj je osjet tonske
visine proporcionalan frekvenciji (koeficijent proporcionalnosti 1). Točkasta linija
na dijagramu (sl. 5.1) dobivena je translatiranjem pune linije lijevo faktorom 2.
Referentna točka označena je križićem.
fig. 5.2

Frekvencija od 8 kHz odgovarati će 2100 mela. Kako se upola niži ton od 8 kHz
namješta na oko 1300 Hz, to znači, da 1300 Hz predstavlja 1050 mela.

Pomaci tonske visine

Tonska visina čistih tonova djelomično zavisi i od intenziteta kojim se reproducira.


Tako ton od 200 Hz s 80 dB razine zvučnog tlaka (SPL) zvuči dublje nego ako se
reproducira s 40 dB razine zvučnog tlaka. Međutim, isti eksperiment s 6000 Hz
daje suprotan rezultat – glasniji ton čini se višim.

fig.5.3 Pomak tonske visine čistog tona (parametar, 0,2, 1, 4 i 6 kHz) u zavisnosti o
razini reprodukcije u odnosu na tonsku visinu pri razini od 40 fona.

Prema tome ako se tonska visina čistog tona treba točno precizirati, treba navesti
osim frekvencije i razinu reprodukcije.

Maskirajući zvukovi djeluju na pomak tonske visine


fig. 5.4 Pomak tonske visine test tonova, djelomično maskiranih širokopojasnim
šumom u zavisnosti o frekvenicji test tona. Razina maskirajućeg šuma je 60 dB spl,
a razina tonova 50 dB. Frekvencijska je skala označena u hercima i barkovima.

Pomak (promjena) osjeta tonske visine može se dogoditi ako je uz test ton prisutan
i neki drugi ton, koji ga djelomično maskira. Slika 5.4 prikazuje pomak tonske
visine čistim tonovima u prisustvu širokopojasnog šuma. Tonska visina u prisustvu
maskirajućeg šuma čini se višom i do 3 %. Višim frekvencijama pomak u tonskoj
visini je veći.

Ako je maskirajući zvuk uskopojasan, dobivaju se veći pomaci tonske visine:

fig.5.5 Pomak tonske visine čistog tona koju uzrokuje maskirajući tona niže
frekvencije, u funkciji razlike razina između test tona i maskirajućeg tona.
Parametar je frekvencija test tona.

Maskirajući zvuk je čisti ton upola niže frekvencije od test tona. Dijagram
prikazuje zavisnost veličine pomaka tonske visine od razlike razina maskirajućeg i
test tona. Za ton od 300 Hz može se primijetiti pomak tonske visine do 8 %. Za
tonove od 1-4 kHz samo 1 %. Međutim ako se ton od 4 kHz maskira (ne upola
nižim nego s 3 kHz, dobiava se povišenje tonske visine za 6 %.
fig. 5.6 Pomak tonske visine čistih tonova u prisustvnu maskirajućeg tona više
frekvencije, u funkciji razlike njihovih razina. Parametar je frekvencija test tona.

Tonska visina kompleksnih tonova

Kompleksan ton može se promatrati kao suma nekoliko čistih tonova. Ako su
frekvencije čistih tonova koji su sastavnice kompleksnoga cjelobrojni umnošci
frekvencije osnovnog tona, onda je takav kompleksan ton harmoničan. Zapravo su
kompleksni tonovi daleko češći u svakodnevnoj pojavnosti nego čisti tonovi (npr.
vokalski govora, glazbeni tonovi).
Tonska visina kompleksnim tonovima može se ustanoviti usporedbom s čistim
tonom. Naime, kompleksni tonovi unatoč tome što se sastoje od više sastavnih
komponenata, ne pobuđuju i simultano više tonskih visina nego samo jednu ili
barem jednu koja je najistaknutija. U slučaju harmoničnih tonova, tonska visina
zavisi o frekvencijskom razmaku između sastavnih komponenata, odnosno o
frekvenciji osnovnog tona. Međutim, pogleda li se pažljivije, nije baš tako: čisti
tonovi po tonskoj visini jednaki kompleksnima mogu biti i do 3% niže frekvencije
od frekvencije osnovnog tona. Primjer tomu vidimo na slici 5.8.
fig. 5.8 Relativna frekvencijska razlika između frekvencije osnovnog tona
kompleksnog zvuka i čistog tona koji ima jednaku tonsku visinu, u funkciji
fundamentalne frekvencije. Razina kompleksnog tona je 50 dB a čistog tona 60 dB
(ispod 100 Hz, 70 dB).

Za frekvencije ispod 1000 Hz, ta je razlika sve veća. Na primjer, kompleksan ton
fundamentalne frekvencije 60 Hz pobuđuje jednaku tonsku visinu kao čisti ton od
58,2 Hz. Ili, kompleksan ton fundamentalne frekvencije 400 Hz po tonskoj se visini
izjednačuje s čistim tonom frekvencije 1% niže, odnosno s 396 Hz. Iznad 1000 Hz,
kompleksni tonovi i čisti tonovi pobuđuju jednaku tonsku visinu.

fig.5.9 Pomak tonske visine kompleksnih tonova u funkciji njihove razine.


Fundamentalna frekvencija je 200 Hz, a razina čistog tona s kojim se uspoređuje je
50 dB.

Tonska visina kompleksnih tonova zavisi i od razine reprodukcije. Slika 5.9


prikazuje pomak tonske visine kompleksnog tona fundamentalne frekvencije 200
Hz u funkciji njegove razine. S povećanjem razine (reporodukcije) tona percipira se
sve niža tonska visina. Slično je ponašanje ustanovljeno i kod zavisnosti tonske
visine o razini reprodukcije za čiste tonove niskih frekvencija (fig.5.3). To bi
značilo da se tonska visina kompleksnom tonu temelji na tonskoj visini njegovih
niskih komponenata. To je u skladu i s podacima prikazanim slikom 5.8, to jest,
čisti tonovi imaju nižu tonsku visinu od kompleksnih tonova jednake
fundamentalne frekvencije. Ako se niski harmonici uklone iz kompleksnog tona,
tonska visina jedva se mijenja, odnosno jednaka je tonskoj visini čistih tonova.

Tonska visina koju pobuđuje komplesan ton s uklonjenim niskim harmonicima


naziva se virtualnom tonskom visinom (virtual pitch) ili rezidualnom tonskom
visinom. Međutim, nije svejedno koje su sastavne komponente kompleksnog tona
prisutne (dostupne) i koja je fundamentalna frekvencija da bi se mogla percipirati
virtualna tonska visina.

fig. 5.10 Zona virtualne tonske visine. Fundamentalna frekvencija u funkciji


najniže frekvencijske komponente (visokoporpusni filtar). Zasijenjena površina
predstavlja zonu frekvencijskih komponenata koje pobuđuju virtualnu tonsku
visinu.

Ako je fundamentalna frekvencija kokmpleksnog tona 50 Hz, najniža sastavna


komponenta kompleksnog zvuka mora biti ispod 1000 Hz da bi bilo moguće
osjetiti tonsku visinu. Dakle, najmanje od dvadesetog harmonika naviše. Isto tako,
na dijagramu 5.10 možemo vidjeti da u slučaju kad su prisutne samo komponente
kompleksnog tona iznad 5000 Hz, ne može se osjetiti tonska visina.

Tonska visina inharmoničnog kompleksnog zvuka

iz Houtsma:
Ako sastavne komponente kompleksnog tona nisu harmonično organizirane
(cjelobrojni umnošci) tada do osjeta tonske visine dolazi se različitim strategijama.
«Odvaguje» se što ima na osjet tonske visine jači utjecaj: najsnažnija komponenta,
ili približno harmoničan odnos ili...

Na primjer, kompleksan ton sastavljen od 800 Hz, 1000 i 1200 Hz, pobuđuje osjet
visine koji se uspoređuje s tonom od 200 Hz (nepostojećim fundamentalnim
tonom). Međutim, što se dogodi kad svakoj od sastavnih komponenata povisimo
frekvenciju za 20 Hz? U tom slučaju, frekvencije 820, 1020 i 1220 Hz više nisu
cjelobrojni umnošci niti jedne moguće zajedničke fundamentalne frekvencije.
Slušni sustav u takvom slučaju prihvaća «približnu harmoničnost».
820/4=205
1020/5=204
1220/6=203.3

850/4=212,5
1050/5=210
1250/6=208,27

(212,5+210+208.27)/3=210,93

Ovakvu kombinaciju sastavnih komponenata može se razumijeti kao približno


četvrti, peti i šesti harmonik frekvencije 210 Hz. (demonstracija 21. track 38 i 39
Houtsma et al. 1987)

Tonska visina šuma

Šum koji je frekvencijski strmo omeđen (filtriran) može pobuditi osjet tonske
visine. U tom slučaju tonska visina nisko ili visoko propuštenog šuma odgovara
graničnoj frekvenciji.

fig. 5.14 Tonska visina nisko propuštenog i visoko propuštenog šuma. Frekvencija
po tonskoj visini usporedivog tona u funkciji granične frekvencije (cut-off ).
Kružići se odnose na nisko propušten šum, a trokuti na visokopropušten šum.

Rezultati na dijagramu 5.14 dobiveni su vrlo strimim filtriranjem šuma, 120 dB/oc.
Prema ovome, trebalo bi očekivati da pojasno propušten šum pobuđuje dvostruk
osjet tonske visine: jedan koji proizlazi iz donje granične frekvencije i jedan za koji
je odgovorna gornja granična frekvencija pojasa. Rezultati eksperimenata s pojasno
propusnim filtrima prikazani su na fig. 5.15.

fig. 5.15 a-c Tonska visina pojasno propuštenog šuma. Razlika između frekvencije
čistog tona izjednačene po tonskoj visini u funkciji središnje frekvencije pojasno
propuštenog šuma. Točke predstavljaju pojedine usporedbe tonske visine. pune
linije predstavljaju granične frekvencije pojasa. Širina pojasa šuma na dijagramima
je: a – 3kHz, b - 600 Hz i c – 200 Hz.

U slučaju kad je širina pojasa šuma 3 kHz, većina usporedbi poklapa se s donjom
ili gornjom graničnom frekvencijom pojasa. No, ako je središnja frekvencija pojasa
1700 Hz, samo je gornja granična frekvencija pobudila osjet tonske visine. Što je
središnja frekvencija viša, i što je pojas šuma uži, sve je više izjednačavanja tonske
visine sa središnjom frekvencijom ili nekom unutar pojasa.

Tonska visina vrlo uskog pojasa šuma zavisi o njegovoj središnoj frekvenciji.

fig. 5.16 Tonska visina uskopojasnog šuma. Frekvencijska razlika između


usporedivog tona (matching frequency) i središnje frekvencije pojasa šuma u
funkciji središnje frekvencije pojasa šuma. Crtkane linije predstavljaju veličinu
diferencijalnog praga za čiste tonove.

DIFERENCIJALNI PRAG

prema Zwicker-Fastl

Diferencijalnim pragom u psihofizici naziva se najmanja promjena ili razlika u


veličini signala koja se može primijetiti. Kad se radi o akustičkom signalu, važno je
razlikovati dva načina prezentiranja signala: najmanje primjetljivo variranje nekog
od parametara signala (što se može usporediti s variranjem razine vode), i druge
strane, najmanju primijetljivu razliku između dva signala (kao što dvije jabuke
mogu biti različite). U ovom drugom slučaju, dva se akustička signala prezentiraju
odvojena pauzom.

Promijene amplitude

Čini se da se percepcija razine (amplitude) zvuka temelji na veličini od oko 1 dB.

Prag za amplitudnu varijaciju

Nagla promjena razine zvučnog tlaka sinusoidalnog tona uzrokuje ne samo


percepciju promjene razine nego i čujni "klik", zvuk šireg spektra koji nastaje u
trenutku nagle promjene. Da bi se izbjegao taj klik, jedva primjetljiva razlika u
razini signala često se mjeri amplitudno moduliranim tonom.

Slika 7.1 Jedva primjetljiva amplitudna modulacija (lijeva ordinata) i odgovarajuća


varijacija razine (desna skala) za ton od 1 kHz i za bijeli šum (WN) u zavisnosti od
razine zvučnog tlaka koja varira (modulacija) 4 puta u sekundi.

S dijagrama na slici 7.1 možemo očitati da u slučaju kad se razina čistog tona od 1
kHz (puna linija) varira 4 puta u sekundi (fmod=4 Hz) onda na malim razinama
(tihi zvuk) potrebne su velike varijacije da bi se mogle primijetiti, do 20 % (0,2 na
lijevoj ordinati). Uz razinu od 40 dB stupanj modulacije koji se može primijetiti je
oko 6%. Za veće razine potrebna veličina modulacije da bi se mogla primijetiti i
dalje opada, tako da na razini od 100 dB iznosi oko 1%.

Za bijeli šum (crtkana linija) situacija je drugačija. Za niske razine, slično kao za
čisti ton, potrebna je promjena od 20% da bi se primijetila. Porastom razine šuma
kojim se eksperimentira, prag vrlo brzo opada i na 30 dB može se primijetiti već
promjena od 4%. Ta sa veličina daljnjim porastom razine više ne mijenja sve do
razine od 100 dB.
Ako promatramo čisti ton od 1 kHz, veličina modulacije od 6% , što odgovara
razlici razine od 1 dB ima tendenciju stabiliziranja. Ta se veličina često ponavlja u
psihoakustičkim pokusima. Ipak, za više razine ta je veličina još manja.

Zavisnost primijetljive amplitudne modulacije o frekvenciji modulacije prikazana


je na slici 7.2. Dvije pune linije odnose se na ton od 1 kHz razina od 40 i 80 dB.
Kao što se na slici vidi, uho je najosjetljivije na amplitudne modulacije ako je
njihova učestalost 2 do 5 puta u sekundi. Krivulje dosižu minimum oko 4 Hz.
Nakon toga potrebna veličina modulacije povečava se do otprilike učestalosti
modulacije od 50 puta u sekundi (50 Hz) i nakon toga ponovo naglo opada. To
ponovo smanjenje primjetljive veličine modulacije s obzirom na povišenje
frekvencije (učestalosti) modulacije uzrokovano je pojavom novog čujnog zvuka.

Slika 7.2 Jedva primjetljiv stupanj amplitudne modulacije u funkciji frekvencije


modulacije za ton od 1 kHz (pune linije) i za bijeli šum (crtkana linija).

(Slijedi diskusija i pokus sa uskopojasnim šumom. Postavlja se pitanje odakle ta


razlika između pune i ctkane linije na slici 7.1, odnosno kako to da prag za šum uz
veće razine ne pada dalje kao za ton. )

Just – Noticeable Level Difference


Najmanja primjetljiva razlika u razinama
Unatoč razlikama u veličini diferencijalnog praga ako se radi o percepciji varijacije
(amplitudne modulacije) koje su posljedica različitih eksperimentalnih postupaka,
tako dobivene vrijednosti uvijek su veće nego ako se traži razlika u razini dvaju
zvukova međusobno odvojenih pauzom. Tipičan primjer vidimo na slici 7.4. Lijevi
dijagram odnosi se na promjenu intenziteta a desni na promjenu frekvencije čistog
tona od 1 kHz.
slika 7.4 Jedva primjetljive promjene razine (lijevo) i promjene frekvencije (desno)
za ton od 1 kHz, u funkciji intenziteta tona kojim se eksperimentira. Linije koje
povezuju prazne kružiće odnose se na rezultate dobivena amplitudnom
modulacijom (lijevo) i frekvencijskom modulacijom (desno), a linije povezane
ispunjenim kružićima odnose se na amplitudne odnosno frekvencijske razlike
(tonovi koji s e uspoređuju odvojeni su pauzom od 200 ms)

Ako promotrimo lijevi dijagram: najmanja primjetljiva varijacija amplitude za


razine eksperimentiranja 30 do 70 dB iznosi od 2 do 0,7 dB. U istom dinamičkom
rasponu najmanja primjetljiva razlika među odvojeno emitiranim tonovima iznosi
0,7 do 0,3 dB. Dakle, pokusi s amplitudnim variranjem daju 2,5 puta veće
vrijednosti diferencijalnog praga (izražavamo li se u decibelima) u odnosu na
pokuse s tonovima različitih razina odvojenim pauzom. Krivulje pritom ostaju
paralelne (slična zavisnost o razini eksperimentiranja). Za razliku od toga, veličina
diferencijalnog praga za promjenu frekvencije u prikazanom dinamičkom rasponu
ne zavisi o razini kojom se eksperimentira (vidi desni dijagram). Faktor razlike
između krivulja za frekv. dif. prag je oko 3.

Na slici 7.5 vidimo kako veličina intenzitetskog diferencijalnog praga zavisi od


razine zvučnog tlaka kojom se eksperimentira. U dinamičkom rasponu od 40 do
100 dB SPL veličina jedva primjetljive razlike pada od 0,4 do 0,2 dB. Što se više
približavamo pragu sluha, veličina diferencijalnog praga brže raste. Ovakva
zavisnost ustanovljena je za različite frekvencije, ne samo za 1 kHz.
Slika 7.5 Jedva primjetljiva razlika razine (intenziteta) tona od 1 kHz u funkciji
razine zvučnog tlaka kojom se eksperimetira.

Da bi se mjerila najmanja amplitudna razlika (ne modulacija) umeće se pauza


između signala. Veličina diferencijalnog praga ne zavisi o veličini pauze u rasponu
0,1 do 2 sekunde.
Međutim, rezultati (veličina diferencijalnog praga) zavise o trajanju signala. Slika
7.6 prikazuje tu zavisnost. Kraće trajanje signala povećava diferencijalni prag.

Slika 7.6 Jedva primjetljiva razlika u razini tona od 1 kHz u odnosu na rezultate
dobivene uz trajanje od 200 ms, u zavisnosti od trajanja signala (tone burst)

Prag za detekciju frekvencijske modulacije

Signal u ovom slučaju je čisti ton neke frekvencije koji se onda


(sinusoidalno)modulira do f+df prema višim frekvencijama i do f-df prema nižim.
Prema tome, veličina varijacije je zapravo 2df. (d znači delta). Kao i prije, za
amplitudne modulacije, ustanovljeno je da je naš slušni sustav najosjetljiviji na
učestalost modulacije od 4 puta u sekundi (4 Hz).
Slika 7.8 Jedva primjetljiva frekvencijska modulacija u funkciji frekvencije tona uz
učestalost modulacije 4 puta u sekundi. Dijagram se odnosi na razinu glasnoće 60
fona.

Na slici 7.8 prikazana je veličina jedva primjetne frekvenijcske modulacije u


zavisnosti od frekvencije tona "nositelja" (carrier frequency). Na niskim
frekvencijama, do 500 Hz, veličina jedva primjetljive modulacije
(JND, diferencijalni prag) je oko 3,6 Hz. Iznad 500 Hz veličina 2df raste
proporcionalno frekvenciji i to s 0,007 f. To znači da je u tom dijapazonu veličina
dif. praga oko 0,7% od frekvencije nositelja. Za frekvencije ispod 500 Hz relativna
veličina dif. praga u odnosu na frekvenciju zapravo se povećava, pa za 50 Hz,
veličina od 3,6 Hz predstavlja pola tona glazbene ljestvice. To znači da smo slabo
osjetljivi za promjenu frekvenicije ako se radi o niskim frekvencijama. To međutim
za glazbu nema velikog značenja jer zvuk glazbenih instrumenata nije čisti ton
nego sadrži harmonike viših frekvencija. Za precizno ugađanje žica kontrabasa
koriste se alikvotni tonovi a ne osnovni ton.

Na slici 6.10 vidi se velika podudarnost između veličine kritičnog pojasa i veličine
diferencijalnog praga (vidi diskusiju uz sliku 6.1)
Slika 7.9 Broj "frekvencijskih stepenica" temeljenih na veličini diferencijalnog
praga za frekvencijsku modulaciju, koji su nanizani jedan do drugoga. Svaka točka
na dijagramu predstavlja 25 konsekutivnih veličina dif. praga. Crtkana linija
predstavlja aproksimaciju proporcionalnosti za niske frekvencije.

Na dijagramu nije bilo moguće ucrtati svaki diferencijalni prag, nego je označen
svaki dvadestpeti. Ako promatramo od nule, broj pragova proporcionalan je
frekvenciji (zato je crtkana linija pravac). Nakon 500 Hz, funkcija ocrtana nizom
točaka počinje odstupati od pravca proporcionalnosti i čini se da se ponaša
logaritamski: frekvencijski pomak (dijapazon) od jedne oktave odgovara zbroju
100 diferencijalnih pragova (4 točke). Ukupno je moguće nadovezati 640 stepenica
u dijapazonu do 16 kHz.
S obzirom na to da je od helikotreme do ovalnog prozora s razmakom od po 9
mikrona smješteno 3600 unutarnjih osjetnih stanica, možemo deducirati da razmak
jednog diferencijalnog praga obuhvaća 6 unutarnjih osjetnih stanica. Slična
funkcija dobiva se i u vezi s kritičnim pojasima (vidi poglavlje 6).

Zavisnost veličine diferencijalnog praga o glasnoći (razini prezentacije) relativno je


mala. Smanjenje razine glasnoće od 100 do 30 fona poveća diferencijalni prag s
faktorom od samo 1,5. Bliže pragu sluha, razlika se bitno povećava.

Jedva primjetna frekvencijska razlika (tonovi odvojeni pauzom)

Zavisnost veličine diferencijalnog praga za razlikovanje dvaju tonova (ne


modulacija) o frekvenciji i razini prezentacije slična je kao u dosada opisivanom
slučaju frekvencijske modulacije, ali su apsolutne vrijednosti 3 puta manje. Dakle,
naš je slušni mehanizam osjetljivi ako treba detektirati frekvencijsku razliku dvaju
tonova nego u slučaju da treba detektirati modulaciju. Pauza koja odvaja signale,
paradoksalno, povećava osjetljivost. Realna aproksimacija dobiva se ako krivulju
na slici 7.8 pomaknemo prema dolje za faktor 3. Tada u području ispod 500 Hz
možemo primijetiti frekvencijsku razliku od 1 Hz a prema višim frekvencijama ta
se razlika povećava proporcionalno frekvenciji, približno 0,002f.

Posebno treba naglasiti da se ove dvije vrste podataka, rezultati koji se dobiju
mjerenjem frekvencijske modulacije i rezultati koji se dobiju usporedbom dvaju
pauzom odvojenih tonova, u literaturi se često miješaju.

Veličina jedva primjetljive frekvencijske razlike zavisna je o razini prezentacije


samo za razine glasnoće ispod 25 fona. Na razini 5 fona DL je pet puta veći nego
na razini 25 fona. Sve se ovo odnosi na tonove dužeg trajanja od 200 ms.

//kod Zwickera originalno piše 25 dB, ali to bi onda vrijedilo samo za određeno
frekvencijsko područje, jer za niske frekvencije 25 dB ne mora doprijeti niti do
praga sluha - Bakran//

Slika 7.11 Frekvencijska diskriminacija kratkotrajnih čistih tonova. Jedva


primjetljiva frekvencijska razlika u funkciji trajanja tona.

Ako tonovi kojima se uspoređuje frekvencija traju kraće od 200 ms, diferencijalni
se prag povećava. To je povećanje, međutim, frekvencijski zavisno.
MASKIRANJE

prema Zwicker i Fastl (1999) Psychoacoustics

Maskiranje u svakodnevnom životu ima važnu ulogu. Za razgovor na pločniku u


tihoj ulici, na primjer, dovoljno je malo zvučne energije da bi govornici razumjeli
jedan drugoga. Međutim, ako prođe kamion, a nismo povećali glasnoću (snagu)
govorenja, naš sugovornik nas neće čuti, odnosno, razumjeti. U takvom slučaju
možemo pričekati da kamion prođe, pa onda nastaviti konverzaciju, a možemo
povećati snagu govorenja, odnosno glasnoću. Sličan efekt događa se u glazbi: ako
jedan instrument svira glasno, on može maskirati zvuk drugog instrumenta koji
svira tiho. Ako glasan instrument ima pauzu, ponovno se začuje onaj tihi
instrument. Ovo su tipični primjeri simultanog maskiranja. Efekt maskiranja
kvantitativno se može izraziti određivanjem praga maskiranja. Maskirajući prag
(masked threshold) je razina zvučnog tlaka test tona koja je potrebna da se dosegne
prag slušanja u prisustvu maskirajućeg zvuka. Maskirajući prag (prag uz prisustvo
maskirajućeg tona) gotovo uvijek je viši od praga u tišini, osmi u slučaju kad su test
ton i maskirajući zvuk jako različiti po svojim spektralnim svojstvima.
Efekt maskiranja može se primijetiti i onda kad maska i signal nisu istovremeni.
Ako signal prethodi maski onda se radi o maskiranju unazad (backward masking), a
kad signal nastupa nakon što je maska prestala, onda je to maskiranje unaprijed
(forward masking).

Maskiranje čistog tona šumom

U psihoakustici se koriste različite vrste šuma. Takozvani "bijeli šum" predstavalja


širokopojasni šum kojem je spektralna gustoća (spectral density) neovisna o
frekvenciji, ne provocira osjet tonske visine niti ritma. Za razliku od bijelog šuma,
ružičasti šum ima visoke frekvencije atenuirane. U ovom poglavlju bit će riječi o
još jednoj vrsti šuma: jednoliko maskirajućem šumu (uniform masking noise).

Čisti tonovi maskirani široko pojasnim šumom

Slika 4.1 predstavlja razinu praga (threshold level) u funkciji frekvencije test tona
uz prisustvo bijelog šuma nekoliko različitih razina gustoće (denity level).
slika 4.1 Razina upravo maskiranog test tona (prag) bijelim šumom. Crtkana
krivulja predstavlja prag u tihim uvjetima (bez šuma). Parametar inad uz krivulja je
razina gustoće šuma. Dodamo li tim vrijednostima 40 dB dobijemo razinu zvučnog
tlaka.

Premda se za bijeli šum definira da je spektralno neovisne gustoće, to znači istog


intenziteta u svakom jednko širokom pojasu u cijelom spektru od 20 Hz do 20 kHz,
on do 500 Hz djeluje linearno maskirajuće, a za frekvencije iznad 500 Hz efekt
maskiranja veći je za 10 dB po dekadi (deset puta veća frekvencija). Na dijagramu
je to prikazano točkastom linijom. Za niske frekvencije prag maskiranja je oko 17
dB iznad razine gustoće šuma. Po brojevima koji predstavljaju spektralnu gustoću
šuma (lwn) vidimo da i negativne vrijednosti djeluju maskirajuće. Povećanje razine
gustoće šuma od 10 dB podiže prag test tonovima također za 10 dB. To znači da
široko pojasni šum maskira linearno. Za vrlo niske i vrlo visoke frekvencije,
maskirajući prag isti je kao u tišini, odnosno, gubi se efekt maskiranja.

Za neka mjerenja potrebno je postići prag maskiranja neovisan o frekvenciji test


tona. To se postiže posebnim šumom kojemu je spektralna gustoća ovisna o
frekvenciji. Takav se šum postiže tako da predstavlja zrcalnu sliku efekta
maskiranja, odnosno da se od 500 Hz naviše atenuira 10 dB po dekadi. Takav šum
naziva se jednoliko maskirajućim šumom.
Slika 4.2 Razina upravo maskiranog test tona jednoliko maskirajućim šumom.
Gornji dijagram predstavlja potrebno atenuiranje da bie se od bijelog šuma kreirao
jednoliko maskirajući šum.

Razina maskiranja prikazana na slici 4.2 podudara se za frekvencije do 500 Hz s


onom prikazanom na slici 4.1.

Čisti tonovi maskirani uskopojasnim šumom

U ovom kontekstu, uskopojasnim šumom smatra se šum širine pojasa jednakim ili
manjim od širine kritčnog pojasa za neku frekvenciju. To znači da je za frekvencije
do 500 Hz uži od 100 Hz, a za više frekvencije 0,2 f. Kad se radi o uskopojasnom
šumu, za izražavanje razine šuma bolje je koristiti ukupnu razinu šuma umjesto
razine gustoće. Ako se zna širina pojasa, razina gustoće jednostavno se transformira
u ukupnu razinu.

Slika 4.3 prikazuje prag čistog tona maskirnog bijelim šumom širine kritičnog
pojasa, središnjih frekvencija 0,25, 1 i 4 kHz. Razina maskirajućih šumova je 60 dB
a njihova širina 100, 160 i 700 Hz. Strmina gušenja filtara je više od 200 dB/oc, što
je više nego je frekvencijska selektivnost ljudskog uha. Frekvencijska ovisnost
maskirajućeg praga za uskopojasni šum centriran oko 1 kHz slična je onoj za 4
kHz, dok je za 250 Hz krivulja nešto šira. Osim toga maksimalan efekt maskiranja
se za više središnje frekvencije maskirajućeg šuma smanjuje unatoč tome što je
svaki od tri maskirajuća pojasa šuma iste razine intenziteta od 60 dB. Za 250 Hz
maksimum je 2 dB ispod crtkane linije koja predstavlja razinu intenziteta od 60 dB,
za 1000 Hz 3 dB, a za 4 kHz 5 dB manje. Lijevi bok krivulje maskiranja vrlo je
strm, oko 100 dB po oktavi. Desni bok nešto je manje strm.
Slika 4.3 Razina test tona tek maskiranog šumom širine kritičnog pojasa razine 60
dB, središnjih frekvencija 250 Hz, 1 kHz i 4 kHz. Crtkana linija predstavalja prag
bez prisustva maske.

Slika 4.4 Razina test tona (tek) maskiranog šumom širine kritičnog pojasa središnje
frekvencije 1 kHz i različitih razina intenziteta u zavisnosti o frekvenciji test tona.

Na slici 4.4 prikazana je zavisnost praga maskiranja (masked threshold) o razini


šuma. Sve se krivulje strmo uspinju do maksimalnog efekta maskiranja koje je oko
središnje frekvencije pojasa šuma. Ta strmina (lijevog boka) neovisna je o razini
šuma, a maksimum uvijek doseže 3 dB ispod razine maskirajućeg šuma. Desni bok
krivulje maskiranja za više razine šuma sve je položeniji, dakle efekt maskiranja
nije linearan. Uleknuće na krivuljama za razine šuma od 80 i 100 dB proizlazi od
nelinearnosti našeg slušnog sustava, odnosno, zbog tzv. diferencijalnog tona koji
nastaje interakcijom test tona i uskopojasnog maskirajućeg šuma. Kod većih razina
test tona, ispitanici prag dosižu slušajući bilo što dodatno pa tako i taj diferencijalni
ton koji se čuje sve dok razina test tona ne dosegne točkasti dio krivulje.

Čisti tonovi maskirani šumom filtriranim nisko propusnim i visokopropusnim


filtrom

Maskiranje čistih tonova bijelim šumom kojem je frekvencijski raspon omeđen


niskopropusni i visokopropusnim filtrom prikazano je na slici 4.5. Parametar (0, 20
i 40 dB) je, kao za bijeli šum, razina gustoće intenziteta šuma.

Slika 4.5 Razina test tona upravo maskiranog niskopropusnim (low pass) šumom
(pune linije), i visokopropusnim šumom (točkaste linije) za različite razine gustoće
šuma, u funkciji frekvencije test tona. Granične frekvencije visokopropusno i
niskopropusno filtriranog šuma su 900 Hz i 1100 Hz.

Na graničnoj frekvenciji masiranje se smanjuje ali ne strminom filtra nego slično


kao i kod maskiranja uskopojasnim šumom prikazanim na slici 4.4. Za frekvencije
ispod granične za nispopropusno filtrirani šum, efekt maskiranja isti je kao i za
bijeli šum. Isto vrijedi i za frekvencije iznad granične frekvencije kad je
maskirajući šum filtriran visokopropusnim filtrom. To jest, prag maskiranja izdiže
se za 10 dB po dekadi. Ako se pogleda kombinacija strmina prikazanih lijevi bok
prikazan točkastom a desni punom linijom, oblik efekta maskiranja isti je kao u
slučaju maskiranja uskopojasnim šumom širine kritičnog pojasa.

Maskiranje čistih tonova tonovima

Unatoč tome što su stimulusi u ovom slučuaju relativno jednostavno definirani,


promatranje, eksprimentiranje se susreće s poteškoćama, osobito na srednjim i
višim razinama. Na slici 4.6 prikazan je prag test tona (u funkciji njegove
frekvencije) maskiranog čistim tonom od 1 kHz razine intenziteta 80 dB. Ispitanici
su reagirali čim bi čuli neki efekt pored zvuka maske. U tom slučaju, kad se
frekvenije maske i test tona približe čujni su treptaji. Na primjer, test ton od 990 Hz
razine intenziteta 60 dB s maskom proizvodi treptaje od 10 Hz. Ispitanici u tom
slučaju čuju nešto drugo nego kontinuirani maskirajući ton i reagiraju. Treptaji se
mogu identificirati još oko 2 kHz i oko 3 kHz.
Drugi je problem u situaciji kad je test ton oko 1400 Hz, razine inetnzitena od 40
dB. Pažljivim ispitivanjem može se ustanoviti da na toj razini ispitanici uz masku
ne čuju 1400 Hz nego diferencijalni ton od 600 Hz. Test ton od 1400 Hz s
prepoznatljivom tonskom visinom može se čuti tek na razini od 50 dB.

Slika 4.6 Razina test tona maskiranog čistim tonom (1 kHz, 80 dB SPL) u funkciji
frekvencije test tona. Crtkanu zonu predstavlja područje treptaja a sivu (točkastu)
područje pojave diferencijalnog tona.

Maskiranje čistih tonova kompleksnim tonovima

Čisti tonovi u prirodi su jako rijetki. Najsličniji su čistom tonu zvuk flaute i pijev
nekih ptica. Većina glazbenih instrumenata proizvodi uz osnovni ton i niz
harmonika. Razlika u boji glazbenih instrumenata proizlazi iz različitih
frekvencijskih spektara njihovih harmonika. Za razliku od flaute koja uglavnom
proizvodi osnovni ton bez viših harmonika, truba proizvodi širok spektar
harmonika pa može i maskirajući jače djelovati.
Slika 4.10 Razina test tona maskiranog kompleksnim tonom 200 Hz s deset
harmonika
Razine pojedinih harmonika označene su kao parametar uz krivulje.

Različiti razmaci između maksimuma maskirajućeg efekta pojedinih harmonika


proizlaze iz upotrebljene logaritamske frekvencijske skale (apscisa). U skladu s tim
manjim razmacima su na višim frekvecijama i "dolovi" plići. U frekvencijskom
dijapazonu iznad djelovanja najvišeg harmonika (2 kHz) desni bok krivulje
položeniji je za više razine maske. Oktavu, odnosno dvije oktave iznad frekvencije
najvišeg harmonika maskirajući prag približava se pragu detekcije u tišini.

Psihoakustičke krivulje ugođenosti (tuning curves)

Maskirajuće djelovanje tona na tonove može se prikazati na različite načine. Imamo


četiri varijable: frekvenciju i razinu maske, te frekvenciju i razinu test tona
(signala). Najčešće prikazivali smo prag test tona u prisustvu maske zavisnosti od
frekvencije test tona. Na slici 4.13 a prikazano je tako maskiranje kao i prag u
tišini dobiveno naročitom poluautomatskom metodom – tracking metodom. Taj se
prikaz može usporediti s dijagramom na slici 4.6 koji je detaljno opisan prije.
Psihoakustičke krivulje ugođenosti slijede obrnutu logiku. Prikazuje se razina
maske potrebna da maskira fiksni test ton male razine, u funkciji frekvencije
maske. Taj je princip prikazan (također tracking metodom) na slici 4.13 b. Ispitanik
određuje intenzitet maske kojoj se frekvencija postepeno povisuje, tako da test ton
bude na granici čujnosti. Dakle, namijesti se neka razina test tona koji je bez maske
u čujnom području. Zatim se generira maskirajući ton kojem se i frekvencija
automatski postepeno povisuje. Istovremeno povisuje se automatski razina
intenziteta maske do trenutka kad ispitanik pritiskom na taster "objavi" da više ne
čuje test ton. Od trenutka tog pritiska na taster, razina intenziteta maske automatski
se polagano smanjuje dok ispitanik ponovnim pritiskom na taster ne objavi da
ponovno čuje test ton i tako to traje dok čitav spektar ne bude skaniran takvim
načinom.

Slika 4.13 a, b. Primjeri upotrebe "tracking" metode u mjerenju kontinuiranog


praga u tišini i uz prisustvo maske (a), i psihoakustičke krivulje ugođenosti (b). Na
slici (a) ordinata predstavlja razinu test tona, a na slici (b) razinu maske potrebnu da
se maskira test ton fiksne razine označene zvjezdicom.

Vremenski odnosi kod maskiranja

Dosada je opisano maskiranje dugotrajnih test i maskirajućih zvukova. U glazbi, a


osobito u govoru, protok zvučnih informacija ima vrlo izraženu vremensku
strukturu. Glasni zvukovi slijede tihe i obratno. U govoru, vokali su najglasniji
zvukovi, a okruženi su relativno tihim konsonantima. Okluzivi su često maskirani
okolnim vokalima. //Autori Zwicker i Fastl, ovdje najvjerojatnije misle na čujnost
samog šuma eksplizije, a ne na sposobnost identifikacije okluziva jer, poznato je da
je u okolnim vokalima dio zvučne informacije koji olakšava identifikaciju. op.
Bakran// To maskiranje djelomično je posljedica odjeka prostora a djelomično je
uvjetovano svojstvima slušnog sustava.
Slika 4.17 Shematski prikaz vremenskog djelovanja u maskiranju. Obratite pažnju
na to da je za maskiranje unaprijed (post-masking, forward masking) drugo
ishodište vremenske skale. Ordinata predstavalja razinu osjeta (broj decibela iznad
praga u tihim uvjetima)

Da bi se izmjerili vremenski utjecaji u maskiranju, emitira se maska ograničenog


trajanja i signali u principu vrlo kratkog trajanja. Zatim se signal koji je
zanemarivog trajanja u odnosu na trajanje maske, pomiće bliže i dalje od
vremenskih rubova maskirajućeg zvuka. Na slici 4.17 maska traje 200 ms.
Razlikuju se tri vremenska razmaka. Maskiranje unazad (backward masking,
premasking) događa se u zoni prije početka maskirajućeg zvuka. Tu se primjenjuju
negativne vrijednosti vremenskog razmaka. Slijdi područje simultanog maskiranja,
a nakon njega područje maskiranja unaprijed, (forward, postmasking). U tom
posljednjem vremenskom području maska nije više fizički prisutna a maskirajući
efekt još postoji. Maskiranje unaprijed, odnosno, djelovanje maskirajućeg zvuka i
nakon njegova kraja može se razumijeti kao postepeno "odumiranje" zvuka
(decay), vrijeme potrebno za odmaranje slušnih receptora. Maskiranje unazad s
druge strane, ne znači da možemo čuti unaprijed masku koja će smetati. Može se
pretpostaviti da je svakom zvuku potrebno neko vrijeme da dopre do svijesti, (built-
up time), pa nadalje možemo pretpostaviti da tihom zvuku treba više vremena nego
glasnom. Na taj način glasan zvuk koji slijedi tihoga može smetati percepcije
tihoga zvuka unatoč tome što je prije počeo. Efekt maskiranja unazad može se
primijetiti samo u vrlo kratkom vremenskom razmaku, do 20 ms. S druge strane,
maskiranje unaprijed, uz masku koja traje 200 ms, može se identificirati i do 100
ms nakon prestanka maskirajućeg zvuka. Prema tome, u nesimultanom maskranju,
dominantno je maskiranje unaprijed.

Trajanje signala kod simultanog maskiranja

Prag sluha u tihim uvjetima kao i maskirajući prag zavise o trajanju test tona. To
moramo imati posebno na umu za promatranje nesimultanog maskiranja.
slika 4.18 Razina tek čujnog tona (Lt) u funkciji trajanja, za 3 različite frekvencije
(0,2, 1 i 4 kHz) u tihim uvjetima, prikazano točkastim krivuljama, i uz dvije razine
jednoliko maskirajućeg šuma (40 u 60 dB). Napomena: Lt je razina kontinuiranog
tona iz kojeg su uzeti kraći isječci (tone bursts)

Vidimo da za duže signale od 200 ms, prag je konstantan i u tišini i u uvjetima


maskiranja. Za kraće signale, što je signal kraći, prag je viši oko 10 dB po dekadi.
Ovakav rezultat obajašnjava se time da slušni mehanizam inetegrira zvučni
intenzitet do trajanja 200 ms. Frekvencijska zavisnost praga odnosi se samo na
mjerenje u tišini kao što je prikazano i prije na slici 4.2.

Trajanje signala kod nesimultanog maskiranja

Rezultati pokusa s maskiranjem unazad nisu pouzdani, teško se reproduciraju, čak i


s uvježbanim ispitanicima. Djelovanje trajanja signala ne može se ispitati jer se
ionako eksperimetnira s vrlo kratikim signalima s obzirom na to da se efekt može
primijetiti samo u vremenskom razmako do 20 ms. To ujedno znači da je efekt ima
relativno malu važnost. // Mogli bismo pretpostaviti da upravo maskiranje unazad
djeluje na percepciju šuma eksplozije iza koje slijedi glasan vokalski zvuk. op
Bakran//
Maskiranje unaprijed (postmasking, forward masking) djeluje do 200 ms nakon
prestanka maske.
Slika 4.22 Razina (peak level) šuma od 20 mikrosekundi, tek čujna u prisustvu
šuma trajanja 0,5 s, razine od 40, 60 i 80 dB u zavisnosti od vremena koje je prošlo
od prestanka maskirajućeg šuma. Crtkane krivulje predstavljaju ekponencijalni
model (koji, kao što se vidi, eksperimentalni podaci ne slijede u potpunosti.

Na slici 4.22 vidi se da djelovanje maske na čujnost kratkog impulsa traje do


razmaka od 200 ms, i to neovisno o razini maskirajućeg zvuka. Primijećujemo i to
da prvih 5 ms nakon kraja maske, prag detekcije ostaje isti kao i kod simultanog
maskiranja. Tek nakon toga prag detekcije počinje se smanjivati.
Maskiranje unaprijed zavisi i od trajanja maske. Što duže maska traje, efekt
maskiranja je veći. To vidimo na slici 4.23 s primerom dva trajanja maske, iste
razine.

Slika 4.23 Maskiranje unaprijed zavisi o trajanju maskirajućeg zvuka. Razina test
tona od 2 kHz i trajanja 5 ms označena je u zavisnosti od vremenskog razmaka
nakon prestanka maskirajućeg šuma razine 60 dB i dva trajanja - 5 ms (točkasta
linija) i 200 ms (puna linija)
KRITIČNI POJAS - Critical Badwidth

prema Zwicker – Fastl 1999

Ideju kritičnog pojasa predložio je Fletcher. On je pretpostavio da je u maskiranju


efikasan samo onaj dio (šuma) frekvencijskog spektra koji je neposredno u blizini
frekvencije test tona.

Kao što je pokazano na slici 4.1 maskiranje bijelog šuma zavisno je o frekvenciji,
unatoč tomu što mu je razina gustoće neovisna o frekvenciji. Prag maskiranja
neovisan je o frekvenciji samo do 500 Hz, a za više frekvencije prag maskiranja
povisuje se 10 dB po dekadi (za deset puta veću frekveciju). Slušni sistem procesira
zvukove relativno uskim frekvencijskim pojasima. S obzirom na to da je prag
maskiranja do 500 Hz neovisan o frekvenciji, treba pretpostaviti da su u tom
frekvencijskom dijapazonu frekvencijski pojasevi koji djeluju maskirajuće, iste
širine. Nadalje, s obzirom na to da je bijeli šum iste razine gustoće u čitavom
spektru, a iznad 500 Hz prag maskiranja se povisuje, možemo pretpostaviti da je za
efekt maskiranja odgovoran širi frekvencijski pojas šuma, i to proširenje je
proporcionalno povišenju praga od 10 dB po dekadi.

Za niske frekvencije kritični pojas je konstantne širine od 100 Hz. Iznad 500 Hz
širna kritičnog pojasa iznosi oko 20 % središnje frekvencije pojasa, odnosno, širina
kritičnog pojasa povećava se proporcionalno frekvenciji.

Neke metode određivanja kritičnog pojasa

Ima različitih metoda određivanja širine kritičnog pojasa. Na slici 6.3 prikazana je
jedna od metoda.

Slika 6.3. Prag uskopojasnog šuma smještenog između dva maskirajuća tona iste
razine (50 dB) u funkciji frekvenijskog razmaka između dvaju tonova.
Šum, centriran oko 2 kHz uskog je pojasa, manje od pretpostavljene veličine
kritičnog pojasa. Vidimo da je krivulja maskiranja neovisna o frekvencijskom
razmaku među maskirajućim tonovima do neke frekvencije (oko 300 Hz), a nakon
toga, uz veći razmak između maskirajućih tonova, prag maskiranja se smanjuje.

Slika 6.4. Prag detekcije test tona maskiranog dvama uskopojasnim šumovima
raspoređenim oko test tona, u funkciji razmaka graničnih frekvencija maskirajuših
šumova.

Na slici 6.4 prikazan je obrnut slučaj. Test ton je čisti ton od 2000 Hz, a lijevo i
desno su uskopojasni šumovi koji ga maskiraju. Vidimo da se rezultati podudaraju
s onima prikazanim na slici 6.3 (oko 300 Hz).

Točka, mjesto gdje se ukrštaju horizontalni dio i nagnuti dio krivulje frekvencijski
je razmak koji se naziva kritičnom pojasom. Ta je vrijednost neovisna o razini
maskirajućeg zvuka.

Još jedna metoda određivanja kritičnog pojasa, koja je prikazana na slici 6.7, sastoji
se u procjeni glasnoće pojasa šuma u funkciji širine pojasa. Šum je pojasno
propušten oko središnje frekvencije 2 kHz. Njegova razina (SPL) drži se
konstantnom na 47 dB, tako da se kod šireg pojasa mora smanjivati "intesity
density level" - relativni intenzitet po hercu širine pojasa.
Slika 6.7. Glasnoća (u sonima) pojasno propuštenog šuma oko središnje frekvencije
2 kHz (razine 47 dB) u funkciji širine pojasa šuma.

Rezultati pokazuju da je glasnoća u takvim okolnostima nepromijenjena (oko 2


sona) sve dok je širina pojasa šuma manja od veličine kritičnog pojasa, u ovom
slučaju, za središnju frekvenciju 2 kHz, 300 Hz. Daljnje širenja pojasa, unatoč
tome što se ukupna razina drži konstantnom, dovodi do procjene veće glasnoće i to
čak 3 puta veće za velike širine pojasa šuma, kad se dosegne glasnoća
širokopojasnog šuma.

Critical band rate scale

Na temelju raznih metoda određivanja kritičnog pojasa i s velikim brojem


ispitanika procijenjena je veličina kritičnog pojasa u cijelom čujnom dijapazonu.

Slika 6.8. Širina kritičnog pojasa u funkciji (središnje) frekvencije. Crtkana linija
predstavlja pojednostavljen prikaz za niski i visoki dio spektra.

Kako se na slici 6.8 vidi, do 500 Hz, širina kritičnog pojasa je nepromijenjena i
iznosi 100 Hz. Nakon toga, uz više frekvencije kritični se pojas postepeno
proširuje, najprije nešto sporije, a nakon 3 kHz brže. Crtkanom linijom označeno je
povećanje proporcionalno frekvenciji, i to, 0,2 f. To znači, za središnju frekvenciju
2 kHz, širina kritičnog pojasa je 0,2*2000 = 400 Hz.
Ako se granične frekvencije kritičnih pojasa nadovežu tako da se gornja granica
jednog kritičnog pojasa poklopi s donjom granicom sljedećega, dobiva se Bark
frekvencijska skala (prema Barkhausenu, tvorcu jedinice za razinu glasnoće – fon)
Tablica 6.1 Bark skala tabelarno: z predstavlja redni broj Barka, fl i fu donja i
gornja granična frekvencija, delta fg je širina pojasa a fc središnja frekvencija
pojasa.

Podaci iz tablice 6.1 prikazani su i na dijagramu slika 6.9.


slika 6.9. Redni broj pripadnog slijeda Barka u funkciji frekvencije. Obje su
koordinate linearne.

Prvi Bark odnosi se na frekvencijski dijapazon od 0 - 100 Hz. Drugi je od 100 do


200 Hz i tako dalje.

Skala kritičnih pojasa objašnjava razne druge psihoakustičke fenomene, i u


korelaciji je s veličinom frekvencijskog diferencijalnog praga te s frekvencijskim
rasporedom osjetnih stanica uzduž bazilarne membrane. Vidi sliku 6.10.
Slika 6.10. Kritični pojas, veličina diferencijalnog praga za frekvencijske promjene
i frekvencijski razmak koji odgovara pomaku od 0,2 mm na bazilarnoj membrani.

LOKALIZACIJA IZVORA ZVUKA U PROSTORU

Erasmus Darwin, otac glasovitog Darwina, 1790. godine primijetio je da slijepa


osoba, kad uđe u nepoznatu prostoriju, s velikom točnošću, samo na temelju zvuka
konverzacije, može odrediti veličinu i oblik prostorije te položaj pojedinih
govornika.
Prva istraživanja sposobnosti lokaliziranja izvora zvuka vođena su na otvorenom,
izvan prostorije, da bi se izbjegla reverberacija. Pionir je u tim istraživanjima bio
Lord Rayleigh, koji je 1870. godine okupio na travnjaku Cambridgea svoje
asistente, razmjestio ih u krug i oni su predstavljali različite izvore zvuka. Svoja
opažanja iznio je još 1907. godine. Sve što je tada izrečeno potvrđuje se u
modernim istraživanjima.
Kronološki, prva je teorija lokalizacije na temelju razlike intenziteta u dva uha,
zatim se pojavila teorija fazne razlike i na posljetku teorija razlike u vremenu.
Ključni eksperiment koji je potvrdio sve ove tri teorije proveden je 1934. g. na
Harwardu. U tom eksperimentu ispitanik je sjedio na okretnoj stolici, zavezanih
očiju, tri metra iznad tla (da se izbjegne reverberacija), a na 4 m dugoj okretnoj
motki s centrom okretanja u podnožje stolca, bio je pričvršćen zvučnik koji je
emitirao tonove do 10 kHz. Rezultat tog istraživanja bio je da točnost lokalizacije
(u funkciji frekvencije) iznad 1000 Hz opada i najslabija je na 4000 Hz. Više
frekvencije opet se lokaliziraju dobro kao niske. Uzrok je tome to što se mehanizmi
lokalizacije ne preklapaju. Oko 4000 Hz fazna razlika više ne funkcionira, a razlika
intenziteta još nije dovoljna.
Moderna teorija lokaliziranja zvuka u prostoru temelji se na binauralnom slušanju.
Lokaliziranje samo jednim uhom (monoauralno) također je moguće. međutim ni
izdaleka tako precizno kao s dva uha.
Tri su osnovna mehanizma lokaliziranja: razlika u intenzitetu, razlika u vremenu i
razlika u fazi.
Utjecaj pojedinog od ovih mehanizama provjeravan je u eksperimentima sa
slušalicama, jer u prirodnim uvjetima sve su ove razlike u zvuku simultane i ne
može se odvojeno promatrati utjecaj pojedinog faktora. To zapravo nisu pokusi
lokalizacije, već lateralizacije. Koliko god se čini da su takvi eksperimenti
artificijelni, na temelju njih dobro se može predvidjeti ponašanje ispitanika u
slobodnom polju (Kuhn, 1977; Mills, 1960).
Razlika u intenzitetu
Ako se svakom uhu posebno privede isti zvuk koji se razlikuje samo po intenzitetu,
slušalac ima slušnu sliku pomaknutu (lateralizira) prema uhu u kojem je glasniji.
Takva forma zvuka ne nalazi se u prirodi jer se, kad je prirodni izvor zvuka
pomaknut iz medijalne ravnine (azimut nula) ujedno je i faza različita, ne samo
intenzitet. Razlika u intenzitetu zvuka, kad se izvor pomiče oko glave, nastaje
prvenstveno zbog sjene glave, a ne zbog razlike u udaljenosti. Razlika u udaljenosti
može na razliku u intenzitetu djelovati samo kad je izvor vrlo blizu glave (pad
intenziteta proporcionalan je kvadratu razlike udaljenosti). Sjena glave različito
djeluje na različite frekvencije. Zvukovi frekvencije ispod 300 Hz intenzitetski
gotovo nisu izmijenjeni čak niti uz azimut 90 stupnjeva. Uz višu frekvenciju razlika
u intenzitetu zvuka uzrokovana sjenom glave sve je veća: ton od 10 kHz čak je 30
dB slabiji u suprotnom uhu.
fig. 70. (Stevens i Davis, 1960. str.168)
Iz dijagrama (fig. 70) jasno je da kompleksan zvuk zapravo mijenja oblik spektra.
Govorni signal sa svojim specifičnim sastavom, mijenja intenzitet u raličitim ušima
prema dijagramu na fig. 71 (Stevens i Davis, 1960. str.169)
Uz azimut 42 i 137 stupnjeva razlika u ukupnom intenzitetu ista je ali zvuk nije iste
boje (uha nisu dijametralno suprotno položena nego pod 165 stupnjeva i primjetan
je utjecaj slušne školjke).
U laboratorijskim uvjetima kad se tonovi koji dolaze do ušiju razlikuju samo po
intenzitetu, efekt lateraliziranja javlja se kad se pređe određeni prag.
Slika fig. 72 (Stevens i Davis, 1960. str.170) prikazuje jednu vrstu diferencijalne
osjetljivosti koje se može usporediti s rezultatima istraživanja diferencijalnog praga
osjetljivosti za intenzitet. U ovom je slučaju diferencijalni prag dvostruko veći nego
u eksperimnetima u kojima intenzitetski različit signal dopire simultano u oba uha.
Veličina lateralizacije proporcionalna je veličini razlike intenziteta izraženoj
brojem decibela.
fig. 71 (Stevens i Davis, 1960. str.169)

fig. 72. Stevens i Davis, 1960. str.170.

Utjecaj razlike u fazi


Ako je izvor zvuka izvan medijalne ravnine (izvan azimuta 0 stupnjeva) nastaje
razlika u udaljenosti koju zvuk mora preći od izvora do receptora. Za impulsne
zvukove ta razlika u udaljenosti uzrokuje razliku u vremenu stizanja, a za
kontinuirane razliku u fazi zvučnog vala. Uz pretpostavku da neuralni impulsi koji
prenose informaciju od osjetnih stanica prema mozgu "pale" uvijek u istom faznom
trenutku (phase locked), razlika u fazi ponovno postaje vremenskom razlikom.
Izvor se lokalizira u onu stranu u kojem je uhu "vodeća" faza. Međutim razlika u
fazi zavisi od frekvencije zvuka, odnosno njegove valne duljine. Ako je polovica
valne duljine zvuka manja od maksimalne udaljenosti između dva uha (20 - 23 cm)
informacija o faznoj razlici postaje dvosmislena. To je zbog toga što se veća fazna
razlika od 180 stupnjeva može perceptivno interpretirati i kao ranije stizanje i kao
kašnjenje. Granična frekvencija zvuka u tom je smislu 750 Hz (Moore, 1994, str.
195). Razlika u udaljenosti od izvora ilustrirana je na fig. 6.1.

fig 6.1 moore '94, str 196.

Pokretanjem glave dvosmislenost informacije fazne razlike može se djelomično


razriješiti tako da frekvencijska granica funkcioniranja fazne razlike u lokalizaciji
izvora zvuka u naravi nije stroga, pa Moore (1994) navodi da se fazna razlika za
periodične zvukove može iskoristiti i do 1500 Hz.

Utjecaj razlike u vremenu


Fazna razlika odnosi se na kontinuirane tonove. Većina prirodnih zvukova ima
početke i krajeve, te promjenu spektralnog oblika i intenziteta. Sve se takve
promjene mogu nazvati tranzijentima. Kad izvor zvuka nije jednako udaljen od oba
uha, ovi tranzijenti u njih stižu s vremenskim pomakom.
Najmanja je vremenska razlika koja dovodi do lateraliziranja oko 10 mikrosekundi
a takva vremenska razlika nastaje ako je izvor zvuka pomaknut za 1 stupanj
(Moore, 1994. str199).
Međutim, kritičan je frekvencijski sastav impulsa (klika): Ako je filtriran
visokopropusnim filtrom, tako da sadrži samo komponente iznad 4000 Hz,
interauralno vrijeme mora se produžiti na 100-200 mikrosekundi da bi se održao
isti efekt lateralizacije kao s frekvencijski niskim impulsom s interauralnom
razlikom od 30 mikrosekundi (Yost et al. 1971).
Najveća razlika u interauralnom vremenu stizanja koja djeluje na lateralizaciju
signala iznosi 800 mikrosekunde. Veći vremenski razmak čuje se kao dva odvojena
signala. Između ovih vrijednosti, veličina pomaka (lateralizacije) uglavnom je
proporcionalna veličini razlike.
Određivanje udaljenosti izvora zvuka
Ako je zvuk poznat, udaljenost izvora određuje se prema ukupnom intenzitetu.
Nepoznatim zvukovima može se udaljenost izvora odrediti pomoću kombinacije
razlike u intenzitetu i razlike u fazi.

fig. 73. Stevens i Davis, 1960. str. 174.


Dijagram na fig. 73 prikazuje razlike u intenzitetu i fazi zvuka od 256 Hz uz
različite udaljenosti i azimute izmjerene pomoću lutke s mikrofonima na mjestu
ušiju. Razlika u fazi ovisi o azimutu dok o udaljenosti gotovo ne ovisi. Odnos
intenziteta ovisi i o azimutu i udaljenosti. Teoretski se prema tome može
pretpostaviti da uz poznavanje smjera na temelju fazne razlike, dodatna informacija
o razlici u intenzitetu mogućava određivanje udaljenosti. Čak i bez poznavanja
azimuta u nekoj mjeri se može odrediti udaljenost samo na temelju razlike
intenziteta. Na primjer za ton od 256 Hz odnos zvučnog tlaka od 0.40 znači da
izvor mora biti najviše 50 cm udaljen od glave. Eksperimenti su pokazali da je
ovakva teoretska pretpostavka određivanja udaljenosti na temelju kombinacije faze
i odnosa intenziteta vrlo nesiguran kriterij. Neki su ispitanici sasvim nesposobni
upotrijebiti ovu mogućnost za određivanje udaljenosti.

Lokalizacija stvarnih izvora zvuka


Kod lokalizacije stvarnih izvora zvukova ne može se odvojiti utjecaj razlike u
intenzitetu, fazi i vremenu u dva uha. Svi ovi "znakovi" djeluju simultano. Na
temelju eksperimenata u slobodnom polju ustanovljeno je (Pierce i David, 1958):
- šumovi se lokaliziraju bolje nego tonovi,
- diskriminacija lijevo-desno vrlo je točna,
- točnost lijevo-desno smanjuje se ako je izvor u blizini medijalne ravnine,
- točnost se smanjuje i kad je izvor oko azimuta 90 stupnjeva
Ovo posljednje lako je razumljivo prema dijagramu fig. 73. (Stevens i Davis, 1960.
str. 174) gdje se vidi da uz azimut 90 st. postoji dijapazon od 30 st. u kojem su
razlike u fazi i intenzitetu minimalne.

fig. 74. Stevens i Davis, 1960. str. 177.


Na slici 74. prikazani su rezultati eksperimenata u slobodnom polju u kojima su
ispitanici trebali identificirati iz koje od 15 st. razmaknutih pozicija dolazi zvuk.
Dijagram A predstavlja prosječnu pogrešku identifikacije u funkciji frekvencije
tona kojim se eksperimentira. Na niskim frekvencijama greška je približno
konstantna i naglo se povećava oko 3000 Hz, a smanjuje se opet oko 4000 Hz, dok
je na 10 kHz slična je greški na 1000 Hz. Smanjena točnost lokalizacije za
frekvencije između 2000 i 4000 Hz objašnjava se utjecajem dvaju lokalizirajućih
faktora: intenziteta i faze. Dijagram B pokazuje utjecaj pojedinog od ovih faktora.
Utjecaj faze na lokalizaciju naglo pada iznad 800 Hz. Crtkano-točkasta linija
predstavlja razliku u intenzitu u dva uha ako je izvor sa strane: iznad 4000 Hz
razlika u intenzitetu naglo se povećava. U okolini 3 kHz ni razlika faze niti
intenziteta ne omogućuju precizno lokaliziranje. Dijagram "C" na fig. 74 prikazuje
postotak zamjena ispred/iza glave. Na prvi pogled vidi se da je frekvencijski
spektar podijeljen na dvije zone: ispod i iznad 3000 Hz. Na niskim frekvencijama
na kojima se lokalizira na temelju fazne razlike, diskriminacija ispred/iza samo je
nešto bolja od slučajnosti. Iznad 4000 Hz kad lokalizacija funkcionira na temelju
razlike u intenzitetu tri puta je preciznija diskriminacija ispred/iza. Ako se u
eksperimentu s 10 kHz nepredvidivo mijenja intenzitet zvuka preciznost
diskriminacije ispred/iza padne ispod one koja je deklarirana za niske tonove. To
znači da ispitanici vrlo brzo, na temelju samo nekoliko pokušaja ustanove neki
interni "standard"- referentni intenzitet i tiše tonove lokaliziraju iza, a glasnije
ispred glave. Kod toga, izgleda, znatan utjecaj ima oblik uške.
Nije više iznenađujuće da se kompleksni tonovi i šumovi, koji sadrže i visoke i
niske frekvencije mogu relativno lagano lokalizirati. Kompleksni tonovi (zvukovi)
bolje se lokaliziraju od čistih i u opoziciji naprijed/iza jer im se mijenja spektar
(boja).

Utjecaj pokreta glave


Ako ne postoji relativnog pomaka izvora i slušača, lokalizacija se svodi na
određivanje kuta otklona u odnosu na medijalnu ravninu a određivanje položaja
izvora prema ostalim ravninama vrlo je problematično. Efikasnost pokreta vidi se
kad je ispitaniku dozvoljeno da pomiče glavu lijevo - desno u horizontalnoj ravnini:
ako je izvor ravno ispred ispitanika i on nije siguran dolazi li zvuk sprijeda ili
straga, pomakne li glavu u lijevo, izvor će se pojaviti na desnoj strani, a da je
otraga, uz isti pomak glave pojavio bi se na lijevoj strani. Ako je izvor okomito
iznad glave, pokretanje glave lijevo - desno neće promijeniti niti fazu niti intenzitet
u ušima i to će biti znak da za lokalizaciju.

Okomita ravnina (medial sagital plane)


Unatoč isključivanju osnovnih binauralnih mehanizama (kad je izvor simetrično u
odnosu na uši) lokalizacija je moguća. Sposobnost / lokaliziranja pet puta je slabija
nego u horizontalnoj ravnini. Uvjet je, međutim:
- da zvuk bude kompleksan,
- da sadži spektralne komponente iznad 7 kHz,
- da uška bude slobodna,
- da ispitanik poznaje spektralni sastav
Lokaliziranje se zasniva na efektu filtriranja zbog oblika ušne školje i glave.
(Roffler i Butler, 1968; Searle et al. 1976).
REFERENCIJE
Ebata, M., T. Sone, T. Nimura (1968) Improvement of hearing ability by
directional information. J. Acoust. Soc. Am. 43, 289-297.
Kuhn, G.H. (1977) Model for the interaural time differences in the azimuthal plane.
J. Acoust. Soc. Am. 62, 1457-167.
Mills, A.W. (1960) Lateralization of high-frequency tones J. Acoust. Soc. Am. 32,
132-134.
Moore, B. C. J. (1994) An Introduction to the Psychology of Hearing, (fourth
edition) Academic Press Limited, London.
Perrott, D.R. (1984) Discrimination of the spacial distribution of concurrently
active sound sources. J. Acoust. Soc. Am. 76.
Pierce, J.R. i E.E. David (1958) Mans's World of Sound, Doubleday Co. Inc.
Garden City, New York.
Rayleigh, Lord (1907) On our perception of sound direction, Philosophical
Magazine, 13, 214-232.
Roffler, S.K., R.A. Butler (1968) Factors that influence the localization in vertical
plane. J. Acoust. Soc. Am. 43, 1255-1259.
Searle, C.L., L.D. Braida, M.F. Davis, H.S. Colburn, (1976) Model for auditory
localization. J. Acoust. Soc. Am. 60, 1164-....
Stevens, S. S., i Davis, H. (1960) Hearing: Its Psychology and Physiology, John
Wiley & Sons, Inc.
Yost, W.A., F.L. Wightman, D.M. Green (1971) Lateralization of filtered cliks. J.
Acoust. Soc. Am. 50, 1526-1531.

ANALIZA ZVUČNOG OKRUŽENJA

Sažetak

U članku se raspravlja o doprinosu pojedinih svojstava govornog zvuka procesu


perceptivnog odvajanja mnoštva simultano prisutnih zvukova kojima smo okruženi.
Uz pregled doprinosa pojedinih autora toj relativno malo istraživanoj temi
(posebno kod nas) i komentar na temelju iskustava iz vlastitih
istraživanja, predlaže se nekoliko (za naše govorno područje) novih termina nužnih
za razumijevanje problema.

Uvod
Tema o kojoj se ovdje raspravlja do sada kod nas nije sustavno obrađivana, unatoč
tome što je poznata i stalno prisutna. Neka od kod nas objavljenih temeljnih
istraživanja, pridonijela su ovoj raspravi, ali nisu interpretirana u tom svjetlu.
Neprestano smo izloženi mnoštvu simultanih, pomiješanih zvukova. Da bismo se u
toj mješavini mogli snalaziti, moramo biti u stanju prepoznavati pojedine smislene
cjeline. U tom procesu važnu ulogu ima odluka o tome koji dijelovi osjetilnog
stimulusa pripadaju istom objektu ili događaju iz okoline. O čemu se zapravo radi,
o kojem pojedinom, konkretnom zvuku, može se prepoznati samo u slučaju prave
kombinacije osjetilnih elemenata. Gestalt psiholozi početkom ovog stoljeća otvorili
su pitanje organizacije percepcije, ali u svojim istraživanjima pretežno su se bavili
vizulanim kanalom, dok je problem auditivne organizacije ostao zapostavljen.
Jedan od razloga za to je i relativno zaostajenje tehnike manipuliranja zvukom. Tek
zamahom digitalne tehnologije obrade zvuka posljednjih desetljeća omogućeno je
sustavno laboratorijsko proučavanje auditivne percepcije. Problem o kojem se
ovdje govori ne odnosi se samo na govor, već je to univerzalan auditivni problem.
Ono što Cherry (1953) naziva coctail party efektom, Bregman (1994) na globalnom
auditivnom (akustičkom) planu naziva problemom analize zvučnog okruženja
(auditory scene analysis).

Da bismo pobliže definirali temu koja nas ovdje zanima, potrebno je uvesti jedan
novi pojam (termin). Što mi kao slušatelji zapravo radimo? Mi neprestano iz
mješavine zvukova koji nas okružuju izdvajamo i u cjeline povezujemo akustičke
elemente koji pripadaju istom izvoru. To je posebna vrsta filtriranja koju klasični
(elektro) akustički filtri ne mogu obaviti, osim u sasvim specifičnom slučaju kad
zvukovi koje treba odvojiti iz mješavine zapremaju različite, ne-preklapajuće
dijelove zvučnog spektra. Opisujući kompleksne zvukove kojima smo okruženi, pa
i govorni zvuk, koristimo se nizom termina kao što su: tonovi, šumovi, harmonici,
tranzijenti, formanti itd. Ono što nedostaje za opis zvučnog okruženja ili coctail
party problema jest izraz koji će označiti skup ili niz zvučnih elemenata koji
predstavljaju cjelinu, odnosno, najčešće zvučne elemente koji pripadaju istom
izvoru zvuka. Da bi označio pripadnost zvučnih elemenata jednoj cjelini, Bregman
(1994) predlaže izraz stream, što se najneposrednije može prevesti kao "zvučni
tok". Kriterij po kojem nešto predstavlja jedan (isti) zvučni tok ili cjelinu u smislu
ove rasprave, isključivo je perceptivan, dakle ne radi se o objektivnom akustičkom
nego o psihoakustičkom određenju pojma. Uvedeni pojam, "zvučni tok" ili "zvučna
cjelina", ne može se zamijeniti nekim od postojećih. U glazbi jedan zvučni tok
može biti jedna melodija (tema), jedna ritmička figura ili zvuk istog instrumenta. U
opisu govornog zvuka to može biti jedan vokal, riječ ili rečenica. Načelo se jednako
odnosi na cjelokupno auditivno područje, na cjelokupno zvučno okruženje.
Zajedničko svim ovim primjerima jest to da mora postojati unutarnja kohezija koja
ujedinjuje akustičke elemente.

Proces percepcije, da bi uspješno obavio snalaženje u kompleksnom zvučnom


prostoru, u mješavini zvukova, neprestano mora koristiti dva međusobno
komplementarna mehanizma: razdvajanje (segregation) i spajanje (integration)
zvučnih tokova. Oba ova mehanizma djeluju i na sukcesivnom i na simultanom
planu. Odvajanje i spajanje nazvali smo komplementarnim mehanizmima, a ne
međusobno isključivim, zato što djeluju istovremeno i rezultat nije kategorično
opredjeljenje nego pretpostavka ponderirana vjerojatnošću. Ovu ideju može
ilustrirati ishod bilo kojeg slušnog testa: čak i kada su signali nedvosmisleni, u
velikoj skupini slušatelja nikad odgovori nisu potpuno podudarni. To potvrđuje
navedenu pretpostavku o komplementarnom djelovanju razdvajanja i spajanja u
procesu percepcije jer pokazuje da kod nekih ispitanika prevagne integrirajući
mehanizam, a kod nekih separirajući.

Načelo objedinjavanja zvučnih elemenata u cjeline često se uspoređuje s osjetom


vida. S obzirom na to da je spektrogram zapravo slika zvuka, moglo bi se očekivati
da je upravo to medij u kojem se principi ponašanja osjeta na vizualnom planu
neposredno poklapaju s analizom osjeta na auditivnom planu. Vizualno područje
(kad je o spektrogramu riječ) pokazuje se značajno inferiornim auditivnoj domeni.
Zbog toga pokusi u projektu visible speech opisani u istoimenoj knjizi (Potter et al.
1947) koja niz godina predstavlja početnicu za očitavanje spektrograma, nisu
doveli do željenih rezultata. Da podsjetimo, izum spektrografa omogućio je da se
predloži ideja po kojoj bi se slušno hendikepiranim osobama zvuk (govora)
približio pomoću vizualnoga medija. Projekt nije uspio unotoč tome što su
ispitanicima predočeni samo, u akustičkom smislu, relativno jasni govorni uzorci.
Pravi se problem pojavljuje tek kad govorni uzorci više nisu dostupni u svojem
"čistom" obliku nego su, na jedan od bezbroj načina, izobličeni ili maskirani
drugim zvukom. Takva je, zapravo, normalna svakodnevna govorna situacija.
Govornici ne komuniciraju zatvoreni u laboratorijskim uvjetima bez buke,
prisustva drugih zvukova i ne izgovaraju riječi u takozvanom citatnom obliku.
Unatoč svim tim negativnim ujecajima na prijenos govornog signala, govorna je
komunikacija začuđujuće uspješna.

Govor kao organizirani slijed akustičkih elemenata

Govor je organiziran u vremenu "slijeva nadesno", odnosno u govoru je važan


redoslijed akustičkih elemenata. Brzi slijed različitih vrsta zvukova koji dolaze od
pojedinoga govornika moraju se okupljati u jedan tok i ne smiju se istovremeno
sekvencijalno povezivati sa zvukovima koji dolaze od drugoga govornika.
Redoslijed akustičkih elemenata, sekvencijalno povezivanje važno je i na razini
pojedinih glasnika. Identifikacija onih glasnika govora kod kojih je vremenski
slijed bitan element njihove organizacije (npr. afrikate) ovisi o redoslijedu
relevantnih informacija koje se pripisuju jednom zvučnom toku. Tako se tišina pred
šumom afrikate ne smije interpretirati kao prekid jednog zvučnog toka jer u tom
slučaju ne bi bilo percepcije afrikate. Slušatelj mora tu tišinu inerpretirati kao
događaj unutar istog zvučnog toka (slijed zvučnih elemenata istog izvora,
govornika). Isto tako, ako jedan govornik prestane a drugi započne govoriti,
slučajna tišina koja tako nastane ne smije signalizirati okluziju.
Percepcija redoslijeda akustičkih elemenata za razumijevanje govora ima ključno
značenje. Uz prosječan tempo artikulacije oko 5 slogova u sekundi (Bakran, 1984)
fonemi se izmjenjuju tempom bržim od 10 u sekundi, odnosno prosječno im je
trajanje manje od 100 ms. Međutim, ako se govor umjetno ubrza do 30 fonema u
sekundi (uz zadržavanje iste tonske visine) slušatelji i dalje mogu razumjeti govor
bez vremenske konfuzije, odnosno, percipiraju ispravan slijed glasnika. Nasuprot
tome, ako se niz u kojem se izmjenjuju niski i visoki tonovi ubrza na sličan način,
ono što se u sporom tempu percipira kao jedan zvučni tok, počinje se razdvajati u
pod-tokove (substreams), tonovi se povezuju u tokove koji imaju sličnu tonsku
visinu.

Zanimljivo je da ljudi mogu razumjeti brzu izmjenu glasnika govora unatoč tome
što je govor slijed kvalitativno različitih zvukova (frikativ je različiti tip zvuka od
vokala), a nisu u stanju percipirati redoslijed nepovezanih zvukova (fićuk, šum,
zujanje, vokal). Slijed takvih zvukova mora biti mnogo sporiji od slijeda glasnika
govora da bi se ispravno identificirao. Za razumijevanje govora slušatelj mora
ispravno odrediti redoslijed glasnika jer izmijenjeni redoslijed može predstavljati
drugu riječ ili ne-riječ. Warren (1982) upozorava da se kod slušanja govora ne mora
nužno prepoznati svaki konstitutivni element nego da slušatelji provode vrstu
globalne analize, a rezultat uspoređuju s pohranjenim podacima u memoriji. Djeca
prepoznaju riječi a da ne moraju biti svjesna od kojih su elemenata one sastavljene.
Međutim, ovakvo objašnjenje ne rješava problem odjeljivanja zvučnih tokova u
govoru.

Zanimljiv pokus kojim se pokazuje specifična struktura govornog zvuka proveo je


Bregman (1994). On je pretpostavio da djeca počinju riječi prepoznavati kao cjeline
zato što uočavaju da se isti zvučni tokovi (riječi) pojavljuju u različitim okolinama.
Niz riječi bez stanke izgovarao je monotonim glasom tako da su se one ponavljale
u različitom redoslijedu. Zatim je snimku reproducirao naopako. Na taj je način
dobiven potpuno neprepoznatljiv niz zvukova. Nakon jednog sata, uspio je izdvojiti
sve cjeline koje su se ponavljale. Potom je istim tempom kojim su se izmjenjivali
glasnici govora snimio niz nepovezanih zvukova i isto ih tako grupirao u "riječi".
Takvi se nizovi ni nakon dugog slušanja nisu mogli izdvajiti u prepoznatljive
cjeline. Prema tome, u govornom zvuku mora postojati unutarnja kohezija koja
slušatelju olakšava povezivanje u perceptivne cjeline.

Warren (1982) proučava kako slušatelji određuju redoslijed nizova nepovezanih


glasnika. Vrlo je teško odrediti redoslijed vokalnih segmenata u trajanju od 200 ms
izrezanih iz prirodno izgovorenih vokala. Zadatak je lakši ako vokalni elementi
traju 150 ms, s 50 ms tišine među segmentima. Još je lakše odrediti redoslijed ako
to nisu izrezani elementi nego stvarno izgovoreni vokali s vlastitim prirodnim
početkom i završetkom. Određivanje redoslijeda takvih zvučnih elemenata mnogo
je bolje nego određivanje redoslijeda raznovrsnih zvukova (zvižduk, šum, zujanje,
ton...) u istom tempu, ali je mnogo lošije nego određivanje elemenata brzog
povezanoga govora. Superiornost određivanja redoslijeda vokala u odnosu na
određivanje redoslijeda raznovrsnih zvukova može se djelomično protumačiti
korištenjem jezičnih sposobnosti. Moguće je da se niz doživljava (čuje) kao
višesložni verbalni izričaj. Uspješnost je prema tome bolja što su elementi niza
sličniji prirodnom izgovoru.

S obzirom na to da se u prirodnom govoru izmjenjuju raznovrsni slogovi


sastavljeni od kombinacija konsonanata i vokala, može se pretpostaviti da će
uvođenje konsonantskih elemenata u pokuse identifikacije redoslijeda govornih
elemenata olakšati percepciju. Lackner i Goldstein (1974) pokusom su provjerili da
li postojanje okluziva /b/ ili /p/ koji unose kratku pauzu i brzi tranzijent među
vokalima može olakšati detekciju redoslijeda. Iznenađuje rezultat da je uspjeh u
detekciji najlošiji kada se izmjenjuju slogovi s konsonantom i slogovi bez
konsonanta u nizu CV-V-CV-V. Uspješnost je u takvom slučaju bila ispod razine
slučajnosti. Zbog toga su se slogovi s konsonantima odvojili u poseban zvučni tok
pa su slušatelji umjesto “de-o-be-a-de-o... “ registrirali “de--be--de--...” i “--o--a--
o...” kao odvojene, simultano reproducirane tokove.

Noteboom i sur. (1976) sistematski su istraživali djelovanje fundamentalne


frekvencije sintetskih vokala na odvajanje tokova. Varirali su F0 od 0 do 20
polutonova, a trajanje segmenata od 100 ms razmaknuto je 0 do 400 ms. Rezultati
su pokazali jasan "trade-off" efekt (mijenjanje veličine jedne varijable utječe na
efikasnost druge) između frekvencijske različitosti i trajanja tišine između
sukcesivnih stimulusa. Ako je pauza između sukcesivnih zvučnih elemenata bila
oko 100 ms, razlika njihovih fundamentalnih frekvencija ne smije biti veća od 2-3
polutona kako bi se niz mogao percipirati kao jedan zvučni tok. Uz veći razmak
među susjednim zvučnim elementima, frekvencijska razlika može biti veća. Uz
razmak od 200 ms kao isti zvučni tok mogli su se percipirati vokalni elementi
kojima se frekvencija osnovnog tona razlikovala do 10 polutonova.

Uloga harmoničkih odnosa i F0

Djelovanje tonske visine primijećeno je u istraživanjima selektivne pažnje. Ako se


od ispitanika traži da "pokrivaju" jedan od dva simultana govora ("shadowing" -
eksperimentalni postupak u kojem ispitanici sa što manjim vremenskim pomakom
ponavljaju zadani tekst), oni će tu zadaću jednostavnije obaviti kad su ta dva glasa
različite tonske visine (Norman, 1976). Uspješnosti zasjenjivanja također pomaže
ako su spektri dvaju signala ograničeni na različita frekvencijska područja. U
ovakvim i sličnim istraživanjima selektivne pažnje korišten je prirodni povezani
govor tako da su akustičke okolnosti bile vrlo kompleksne. Istraživanje koje se
opisuje u nastavku mnogo je analitičnije u akustičkom smislu.

Najprije, potrebno je pokazati da je slušni mehanizam u stanju istovremeno


postojanje dviju različitih fundamentalnih frekvencija iskoristiti za odvajanje
zvučnih tokova. U jednom pokusu Brokx i Noteboom (1982) promatrali su kako će
ispitanici ponavljati besmislene rečenice koje su reproducirane simultano s
čitanjem kontinuiranog teksta jedne priče. U jednom dijelu test-materijala muški je
govornik povišenim registrom i normalnim intonacijskim varijacijama izgovarao
besmislene rečenice, a u drugom ih je izgovarao svojim normalnim glasom. Kako
se i očekivalo, mnogo je uspješnije bilo ponavljanje besmislenih rečenica kad je
interferirajući signal bio bitno različite fundamentalne frekvencije.

Djelovanje tonske visine provjereno je i preciznim kontroliranjem tonske visine


digitalnom obradom. Na taj se način isključuje djelovanje intonacije prirodnoga
govora, njezinoga kontinuiteta, kao objedinjavajućeg faktora. Ustanovljeno je da se
broj pogrešaka smanjuje s povećavanjem razlike u fundamentalnim frekvencijama.
Uz razliku frekvencija od tri polutona broj pogrešaka smanji se za 20 %. Međutim,
uz razliku od oktave, ponovno se povećava broj pogrešaka zbog toga što se
frekvencije harmonika jednog i drugoga glasa poklapaju. Disonantan frekvencijski
odnos pogoduje odvajanju tokova.

Korištenje dviju različitih fundamentalnih frekvencija za odvajanje dvaju glasova


za slušni mehanizam ozbiljan je problem. Slušni mehanizam u svakom trenutku
mora detektirati dvije različite fundamentalne frekvencije da bi registrirao dvije
različite tonske visine, usto mora nekako oformiti dva odvojena spektra. Svaki od
njih mora sadržavati ne samo harmonike, nego i njihove relativne intenzitete. To je
potrebno zato što identitet zvučnih glasnika ovisi o relativnim intenzitetima
pojedinih harmonika i o njihovim promjenama u vremenu. Da bi se moglo odlučiti
koja su dva vokala prisutna, kompleksan oblik intenzitetskih odnosa pojedinih
harmonika mora se razložiti u dva odvojena spektralna oblika.

Kontinuirana priroda frekvencije osnovnog tona

Već se iz opisanih primjera i pokusa u kojima se manipuliralo frekvencijom


tonova, može razabrati da tonska visina ima vrlo važnu ulogu za percepciju
zvučnog kontinuiteta. Percepciju tonske visine u govoru omogućuje (kvazi)
periodičan karakter zvučnoga govora (detaljnije o teorijama percepcije tonske
visine vidjeti Moore; 1990). Dijapazon i varijacije tonske visine u govoru nisu
proizvoljne veličine. One djelomice ovise o fiziologiji proizvodnje harmoničnoga
zvuka, a djelomice o paradigmama jezičnog funkcioniranja. Unatoč tome što osjet
tonske visine pobuđuje periodičan, harmoničan zvuk, koji se u govoru vrlo brzo
izmjenjuje s neperiodičnim (zvučni i bezvučni glasnici), osjet tonske visine ne
mijenja se naglo, a pogotovo ne u ritmu izmjene zvučnih i bezvučnih glasnika.
Prema tome postoje tri tipa ograničenja u kretanju tonske visine: jedno je relativna
sporost promjene, drugo je jezična zadanost oblika promjene, i treće je ograničenje
koje predstavljaju individualne karakteristike govornika (dijapazoni varijacija
tonske visine kod različitih se govornika međusobno razlikuju).

Važnost intonativnog kontinuiteta pokazuje jednostavan pokus. Ako se iz


povezanog govora izdvoje pojedine riječi te se one poredaju u jedan drugi, također
smisleni niz, rezultat je teško razumljiv. Slušateljima se čini da zvuk dolazi iz
različitih izvora i imaju poteškoća integrirati ga u smislenu cjelinu. Treisman
(1960) provela je pokus u kojem je ispitanicima u jedno uho (lijeva slušalica)
emitiran jedan tekst, a u drugo uho (desna slušalica) drugi tekst. Imali su zadatak
ponavljati samo tekst koji se čuje u jednom (lijevom) uhu. U jednom trenutku
preklopnikom bi se zamijenile strane, tako da tekst koji je stizao u lijevo uho dođe
u desno, i obratno. Ispitanici bi nakon prebacivanja teksta koji su ponavljali iz
lijevog uha u desno, ponovili još nekoliko riječi koje su nastavak istog teksta, bez
obzira na to što se promijenilo uho, i tek su se onda ponovno vratili na zadatak,
ponavljanju onoga što čuju u lijevom uhu.

Ovom se pokusu može prigovoriti to da se u njemu ne može odvojiti djelovanje


niza čimbenika koji održavaju kontinuitet, npr. prostorna i semantička povezanost.
U ponovljenom pokusu odvaja se djelovanje semantičke povezanosti i inotacijskog
kontinuiteta. U trenutku prebacivanja iz jednoga u drugo uho, jednom je zadržan
intonacijski oblik a promijenjen smisao, drugi puta obrnuto. Obje vrste
“preklopnika” uzrokovale su pogreške u obavljanju zadatka, no greške nisu bile
istoga tipa. Kada je prekinut semantički kontinuum, ispitanici bi zapeli u
ponavljanju jer se nastavak ne očekuje na temelju konteksta, ali ne bi ponovili riječi
u suprotnom uhu. Međutim, kad je prekinut intonativni kontinuum, ispitanici bi
ponovili još koju riječ koja je stigla u suprotno uho jer one riječi koje su stizale u
“zadano” uho nisu pripadale istom intonativnom obliku (kontinuitetu).

U pokusima s prirodnim govorom ne mogu se dobro kontrolirati sve dimenzije koje


simultano djeluju na objedinjavanje i odvajanje zvučnih tokova. Zato su Darwin i
Bethel-Fox (1977) pokusima sa sintetičkim govorom pokazali upravo nevjerojatnu
važnost kontinuiteta fundamentalne frekvencije za percepciju slijeda govornih
elemenata. Oni su sintetizirali slijed formanata za /uau/ s pripadajućim
tranzijentima i nepromijenjenom fundamentalnom frekvencijom (130 Hz). Takav
se slijed čuje kao jedan slog. Međutim, ako se formantski oblik zadrži, a
fundamentalna se frekvencija promijeni na polovici svakog tranzijenta tako da se
dobije slijed: nisko, visoko, nisko, s frekvencijama 110, 170, 110 Hz, potpuno se
gubi prijašnji perceptivni dojam te se čuju dva sloga niskog tona i jedan slog
visokog tona. Na pitanje koji su to slogovi, odnosno koji glasnik čuju prije /a/,
ispitanici su odgovarali /b/, zato jer je promjenom fundamentalne frekvencije na
polovici tranzijenta od /u/ do /a/ prekinut zvučni tok i percipira se skraćeni
tranzijent koji je nalik na tranzijent od /b/. Ovim se pokusom pokazalo da je
diskontinuitet fundamentalne frekvencije odvojio zvučne elemente u različite
tokove unatoč kontinuitetu spektralnog oblika.

Kontinuitet frekvencije osnovnog tona može u jedan zvučni tok objediniti dva
vokala između kojih je interpoliran bezvučni konsonant. Pitanje je po čemu je taj
interpolirani konsonant dio istoga zvučnoga toka, odnosno kako to da spektralni
diskontinuitet koji predstavlja interpolirani konsonant ne signalizira drugi zvučni
tok. Vjerojatan odgovor na to pitanje jest da se radi o kontinuiranosti spektralnih
promjena (vidjeti iduće poglavlje). Prekid zvuka za okluziju, odnosno rubovi toga
prekida sadrže spektralni kontinuum. Međutim, u ovom slučaju simultano djeluje
spektralni kontinuum koji se manifestira adekvatnim tranzijentima i kontinuum
fundamentalne frekvencije. Ekstrapoliramo li rezultate Darwina i Bethell-Foxa,
možemo zamisliti što će se u sintetiziranoj riječi čuti ako se razbije kontinuitet
toka fundamentalne frekvencije prije i poslije bezvučnog okluziva: moguće je da će
se to čuti kao dva različita glasnika, kao što je moguće i da se uopće ne pecipira
okluziv interpoliran između dvaju vokala. To znači da je upravo kontinuitet
fundamentalne frekvencije zaslužan za percepciju bezvučnog okluziva u takvom
okruženju.

Formanti kao faktor objedinjavanja zvučnih tokova

Istraživanja u vezi s grupiranjem simultanih komponenata uglavnom se odnose na


grupiranje formanata jer oni predstavljaju relevantne akustičke znakove za identitet
velikog dijela glasnika. Ima i drugih razloga za odabir formanata za materijal
istraživanja: teorija njihova nastajanja prilično je zaokružena, a osim toga, oni
predstavljaju jednostavne akustičke elemente pomoću kojih se vokali i okluzivi
mogu lako sintetizirati.

Većina znanstvenika koji se bave govorom vjeruju da su formanti smislene


perceptivne činjenice i da auditivni sustav slijedi te spektralne vrhove i njihove
promjene u vremenu tijekom procesa prepoznavanja govora. Na spektrogramu je
relativno lako vizualno razdvojiti formante. S druge strane, nije jednostavno
"začuti" pojedini formant kao zasebnu boju. Ima istraživača koji sumnjaju u to da
formanti imaju središnju ulogu u percepciji govora. Oni misle da su formanti samo
akustička baza za perceptivnu analizu globalnih kvaliteta kao što su kompaktnost,
oblik spektra ili brzina spektralne promjene (Stevens i Blumstein, 1981).

Broadbent i Ladefoged (1957) prvi su postavili pitanje grupiranja formanata u


situaciji simultanog pojavljivanja formanata koji pripadaju različitim glasnicima.
Pitanje je kako slušni sustav zna koju kombinaciju formanata treba odabrati da bi se
oblikovao vokal. Njihovo je objašnjenje u tome da je presudno ritmično pulsiranje
u funkciji frekvencije osnovnog tona. Uho grupira one formante koji imaju
identično pulsiranje. To su autori zaključili na temelju pokusa u kojem su
sintetizirali jednostavnu rečenicu, tako da su prvom i drugom formantu pridružili
jednom identičnu F0, a drugi put različite F0. Rezultat je emitiran ispitanicima tako
da su prvo oba formanta emitirana u isto uho, a potom u različita uha. Ispitanici su
trebali procijeniti čuju li jednog ili dva govornika, i jesu li oni u na istom mjestu u
prostoru. Kad je za sintetiziranje obaju formanata upotrebljena identična F0, bez
obzira na to jesu li oni emitirani u isto ili u različita uha, ispitanici su čuli da se radi
o jednom glasniku. Oni su, isto tako, čuli da je signal bio u onom uhu u koje je
emitiran prvi formant. Nasuprot tome, kad su formanti sintetizirani različitim F0,
bez obzira na to je li intonacija bila prirodno modulirana ili monotona, čuli su dva
govornika. Posebno je važan dio pokusa u kojem su korištena dva posebna
generatora za osnovni ton, svaki za svoj formant, i kad su slijedili isti intonativni
oblik. Zbog neznatnih neslaganja sustava, oni su se povremeno razilazili u fazama.
Unatoč istoj frekvenciji osnovnog tona, povezivanje formanata u tom slučaju bilo
je slabije, a kad bi se oni emitirali u različita uha, čula bi se dva govornika. To
pokazuje da je za povezivanje različitih spektralnih dijelova potrebna velika
vremenska podudarnost (preciznost), i da nije dovoljno da su harmonici povezani
samo s istom F0, frekvencijski, nego F0 mora biti podudarna i u fazi. Ovi su pokusi
posebno važni jer iste rezultate pokazuju s ljudskim glasom u rečenicama kao i s
negovornim zvukom.

Cutting (1976) je pokusima provjeravao djelovanje frekvencije osnovnog tona u


povezivanju formanata emitiranih u različita uha u funkciji fonetske identifikacije.
Radilo se o slogovima okluziv-vokal, koji se uvjerljivo mogu sintetizirati sa samo
dva formanta. U slučaju kad se sintetizirao slog “da” i kad su oba formanta
prezentirana u oba uha, samo je o frekvenciji osnovnog tona pojedinog formanta
ovisilo čuje li se jedan ili dva govornika. Razlika u frekvenciji osnovnog tona od
samo 2 Hz bila je dovoljna da se čuju dva različita glasa (govornika). Pritom je
ispravno identificiran slog "da", a ne nešto drugo. To znači da slušatelji mogu
kombinirati informacije iz lijevog i desnog uha da bi se uobličio identitet govornog
elementa (sloga).

Postoji iznimka u tom općem ponašanju. Naime, kada postoje različite mogućnosti
percepcije ovisno o tome koji se formanti grupiraju zajedno, podudarnost u
frekvenciji osnovnog tona pomaže, priklanja se jednoj od mogućih percepcija. Ima
slučajeva kad F1, F2 i F3 zajedno daju jedan perceptivni rezultat, a F1, F3 i F4
drugačiji. Ishod percepcije (identifikacije) ovisi o tome koja kombinacija formanata
ima zajedničku frekvenciju osnovnog tona. Prema tome, frekvencija osnovnog
tona, koja predstavlja važan čimbenik za mehanizam "primitivnoga" grupiranja, u
problematičnim slučajevima može pomoći prepoznavanju fonema, premda je ono
prvenstveno proces koji se temelji na obrascima (shema-based), dakle na
naučenom.

Korelirane frekvencijske promjene

Fundamentalni ton ljudskoga glasa varira u vremenu. Te varijacije, dakle


intonativni oblik, istodobno mijenjaju frekvencije harmonika. To znači, ako se
osnovnom tonu frekvencija promijeni za 25%, onda se i frekvencije svih harmonika
paralelno promijene za 25%. S druge strane, ako dvije osobe govore istovremeno,
nije vjerojatno da se njihove intonacije mijenjaju paralelno. Paralelno pomicanje
djeluje kao objedinjavajući faktor zvučnog toka, to jest oni harmonici koji se
paralelno pomiču po frekvencijskoj skali, pripadaju istom zvučnom toku (glasu,
govorniku). Pritom nije jasno da li grupiranje prema tom načelu samo odvaja
glasove u tom smislu da su slušatelji svjesni da se radi o različitim glasovima ili
takvo grupiranje akustičkih elemenata olakšava ujedno i fonetsku identifikaciju.
Ovdje se mogu miješati dva efekta. S jedne strane, paralelno pomicanje harmonika
može djelovati tako da ih se grupira u jednu cjelinu. S druge strane, sama činjenica
frekvencijskog pomicanja harmonika pridonosi boljem ocrtavanju spektralnog
oblika. To postaje osobito važno kad je fundamentalna frekvencija relativno visoka,
s razmaknutim harmonicima. Paralelno pomicanje harmonika pojašnjava oblik koji
ne mora biti posve definiran frekvencijski stacionarnim harmonicima. Prema tome,
ne može se razlučiti koliko na odvajanje zvučnih tokova djeluje sama činjenica
paralelnog pomicanja frekvencija harmonika, a koliko to što se zbog pomicanja
frekvencija harmonika jasnije ocrtava spektralni oblik, što omogućava bolju
percepciju vokalne boje.

I kada govornici nastoje tonsku visinu održati stabilnom, frekvencija osnovnog tona
neprestano se mijenja. Ta se pojava naziva mikromodulacijom ili jitter. Pokazalo se
da dodavanje malih frekvencijskih nepravilnosti sintetiziranom glasu djeluje, ne
samo tako da glas zvuči prirodnije, nego i tako da se harmonici bolje integriraju u
jedan zvučni tok. Sintetizirani su različiti vokali, svaki svojim osnovnim tonom.
Jedan skup stimulusa nije sadržavao nikakve frekvencijske nepravilnosti, a drugi
skupovi stimulusa varirali su frekvencijski, pravilno (vibrato) ili nepravilno (jitter).
Rezultati su pokazali da slušatelji jednostavnije prepoznaju, to jest odvajaju, vokale
ako su frekvencijski modulirani, bez obzira na to kakve su vrste bile modulacije,
pravilne ili nepravilne. Osim toga, u slučaju kad F0 nije bila modulirana,
slušateljima je bilo teško procijeniti o kojim se tonskim visinama radi, a kad su
stimulusi bili modulirani, čuli su točno koje su to različite tonske visine. U
ponovljenim pokusima, u jednom slučaju sintetizirani vokal modulira se tako da se
mijenjanjem frekvencije F0 bolje ocrtava spektralni oblik (mijenjaju se amplitude
harmonika tako da uz promjenu frekvencije slijede spektralni oblik), a u drugom
slučaju tako da amplitude harmonika ostaju nepromijenjene s promjenom F0 (pa se
prema tomu mijenja spektralni oblik).
U oba slučaja podjednako je olakšana identifikacija vokala. To znači da modulirani
vokali nisu jasniji samo zbog detaljnije ocrtanog spektralnog oblika. Vjerojatno je
da modulacija snažnije pobuđuje živčani sustav.

Chalikia i Bregman (1989) promatrali su identifikaciju simultano emitiranih parova


sintetičkih vokala kojima je F0 sporo modulirana, slično kao govorna intonacija.
Pritom je promatran utjecaj razlike (razmaknutosti) fundamentalnih frekvencija i
načina njihova mijenjanja. Fundamentalni ton pojedinih vokala za jedan skup
stimulusa bio je nepromijenjen, za drugi se mijenjao paralelno, a za treći u
suprotnom smjeru. Obje vrste pomaka, i paralelni i suprotni, značajno su pomogli
identifikaciji vokala u usporedbi s nepromijenjenom F0. U slučaju kad razmak F0
iznosi upravo jednu oktavu, a to se odnosi na maksimalni razmak koji se kod
suprotnih pomaka ostvaruje samo na početku i na kraju, stimulusi s paralelnim
pomakom značajno se lošije identificiraju. U načelu, veći frekvencijski razmak
između dviju fundamentalnih frekvencija pridonosi boljem odvajanju stimulusa. U
slučaju kad se F0 mijenja u suprotnim smjerovima, zapravo je u većem dijelu
trajanja stimulusa manji frekvencijski razmak nego kod parova kod kojih se F0
nije mijenjala. To nije umanjilo uspješnost identifikacije.
Kontinuitet spektralnih promjena

S obzirom na to da je ustanovljena neobična važnost kontinuiranosti fundamentalne


frekvencije za odjeljivanje i integriranje zvučnih tokova, može se postaviti pitanje
ima li kontinuitet spektralnog oblika (frekvencije formanata) slično djelovanje.
Kontinuiranost promjena spektralnog oblika na spektrogramima najbolje se može
uočiti kad je govorna cjelina sastavljena samo od zvučnih elemenata. U tom je
slučaju izvor zvuka neprestano ispod rezonancijskih šupljina i one sve djeluju na
modifikaciju spektralnog oblika u skladu s artikulacijskim pokretima. Onda kada se
bezvučni glasnici izmjenjuju sa zvučnima, također se može uočiti kontinuiranost
spektralnih promjena (formanata). Međutim, kontinuitet toka formanata između
zvučnih i bezvučnih glasnika, ne vidi se uvijek. Kontinuitet formanata može se
opaziti, samo ako zvučna struja prolazi istim rezonantnim prostorima. S obzirom na
to da je izvor zvuka za zvučne glasnike na razini larinksa, zvuk mora proći cijeli
sustav rezonantnih prostora. Šumni se zvuk, međutim, stvara na različitim mjestima
govornog trakta. Na primjer, šum za /h/ stvara se prije negoli zračna struja uđe u
oralnu šupljinu pa se zbog toga filtrira na sličan način kao vokali tako da su mu i
formanti u kontinuumu sa susjednim vokalima. S druge strane, šum za /f/ stvara se
između zuba i usana, i ne filtrira se više kroz sve oralne prostore pa zato njegova
formantska struktura nije slična (kontinuirana) susjednim glasnicima s kojima je u
kontaktu. Prema tome, spektralni kontinuitet (formantski kontinuitet) “vidljiv” je i
može se pratiti u kontaktu mnogih, ali ipak ne svih glasnika.

Postavlja se pitanje kako mogu govorni segmenti potpuno različitog spektralnog


sastava i oblika (šumovi na primjer) biti objedinjeni u isti zvučni tok (s vokalima)?
Budući da šum (frikativa) zajedno sa svojom okolinom stvara smislenu cjelinu,
jedno od mogućih objašnjenja poziva se na znanje jezika: objedinjavanje u isti
zvučni tok postiže se vježbom tijekom učenja jezika. Ipak, tranzijenti predstavljaju
suptilne osobine akustičkog slijeda koje omogućuju “primitivnu” analizu i
objedinjuju slijed u jedan zvučni tok. Tranzijenti sugeriraju artikulacijski
kontinuum. Da se ne radi samo o naučenim oblicima, potvrđuje Bregmanovo
iskustvo (Bregman, 1994). On je slušao govornika jezika s klikovima i unatoč tome
što nije poznavao jezik, točno je identificirao položaj klika unutar zvučnog slijeda.
To je bilo moguće jer je klik proizveden artikulacijom, a nije mehanički
superponiran govoru na slučajnom mjestu. Izgovoreni klik rezultat je
konsonantskog pokreta koji istovremeno modificira spektralne osobine zvučne
okoline i ta sinkronost može signalizirati slušnom mehanizmu da su te dvije pojave
povezane. Nasuprot tome, Ladefoged i Broadbent (1960) i poslije drugi objavili su
da slušatelji nisu u stanju odrediti mjesto slučajno interpoliranog klika u govornom
toku. Takvo se ponašanje ispitanika primjećuje i u pokusu s restauracijom fonema.
Ako se u govornom toku neki glasnik zamijeni komadićem šuma, slušatelji
nadomještaju (u percepciji) zamijenjeni fonem kao da se ništa nije dogodilo, a
najčešće nisu svjesni da je fonem bio zamijenjen. Osim toga, ispitanici često nisu u
stanju točno odrediti na kojem su mjestu u govornom toku čuli da se pojavio šumni
djelić (Erdeljac, 1997).
Bregman (1994) izvještava o pokusu u kojem je promatrano djelovanje spektralnog
kontinuiteta u sintetiziranom govoru. Željelo se vidjeti kako formantski tranzijenti
pridonose sekvencijalnoj integraciji slogova. Sintetizirani su različiti tipovi niza
vokala /o, a, i, u/, svaki s istom fundamentalnom frekvencijom i stalnim
frekvencijama prvih triju formanata. Jedan tip sastojao se od dugih vokala trajanja
120 ms bez tranzijenata. Drugi tip uključio je sintetizirani /b/ u sekvenciji CVC
(/b/ zbog toga što se u engleskom može jednostavno sintetizirati samo s vokalnim
tranzijentima, jer zvučna okluzija nije obavezan akustički znak zvučnih okluziva u
engleskom). Kod toga stabilni dio formanata trajao je 30 ms, a tranzijenti po 45 ms.
U trećem tipu nizova kratki vokali sintetizirani su tako da je uzet od prethodnog
tipa samo stabilni vokalni dio od 30 ms, a tranzijenti su zamijenjeni tišinom. U
četvrtom tipu, formanti povezanih vokala neposredno se nadovezuju. Peti tip
nizova može se nazvati pseudoslogovima zbog toga što je stabilnom dijelu
formanata dodan pomak tranzijenata na više, što ne može rezultirati
prepoznatljivim slogovima.
Zadatak ispitanika bio je da ispišu redoslijed vokala. Od ponuđenih tipova dva su
niza bila u izrazitoj prednosti: onaj s vokalima neposredno spojenim tranzijentima i
onaj s CVC slogovima. Lošije se identificirao redoslijed vokala u nizovima u
kojima oni nisu bili spojeni tranzijentima, a najlošije je prošao tip stimulusa s
pseudoslogovima. Kod nepovezanih vokala slušatelji su često čuli dva vokala
unutar jednog, a dva unutar drugog zvučnog toka. Pokazalo se također da je
najefikasniji u objedinjavanju niza tranzijent najnižeg (prvog) formanta, a da
najmanje utjecaja ima treći.

Ovakvo načelo odvajanja različitih zvučnih tokova na temelju suprotnog pomaka


frekvencije osnovnog tona ne može se jednostavno primijeniti na frekvencije
formanata. Formanti, u ovisnosti o promjenama oblika vokalnog trakta, mijenjaju
frekvencije i paralelno i u suprotnim smjerovima, na prvi pogled neovisno, tako da
korištenje takva suprotnoga pomaka frekvencija formanata za odvajanje glasova
(zvučnih tokova) ne bi funkcioniralo. To da F1 i F2 unutar jedne riječi imaju
suprotno kretanje redovita je pojava. Postavlja se pitanje: kako to da ih ne
odvojimo i ne čujemo kao posebne zvukove? Jedan od mogućih odgovora na to
pitanje mogao bi biti da ih objedinjuje zajednička harmonička struktura. Treba se
sjetiti da su formanti zapravo skupine harmonika pojačane rezonancijom. Kad
kažemo da se frekvencija formanta kreće prema dolje ili prema gore, mijenja se
samo frekvencijsko područje koje će biti pojačano, a ne frekvencije harmonika.
Zato, ako F0 raste, frekvencije svih harmonika rastu, a istovremeno, moguće je da
frekvencija provoga formanta (F1) raste, a frekvencija drugoga (F2) da pada. Prema
tome, ako se dogodi da dva formanta imaju različitu harmoničku strukturu, oni će
se odvojiti u dva zvuka, ali se neće odvojiti u različite zvučne tokove na temelju
suprotnog frekvencijskog pomaka.

Slušatelji ne slušaju pojedine fomante i nisu ih svjesni kao zasebne boje zvuka,
nego njihova kombinacija predstavlja jednu boju. Takvo je slušanje u skladu s
načinom nastajanja formanata. Formanti ne nastaju neovisno - mijenja se zapravo
oblik rezonancijskog sustava. Pri tome, pojedini dijelovi artikulacijskog trakta,
rezonantne šupljine, nisu neovisno zaslužne za frekvencije pojedinih formanata.
Zbog toga govornici ne mogu svojom voljom mijenjati frekvenciju pojednog
formanta.

Pokazalo se da poteškoće u integriranju zvučnog toka nastaju i kada se nadovezuju


različite širine formanata. Dakle, bez obzira na podudarnost središnjih frekvencija
formanata, ako se naglo poveća širina formanta, to se čuje kao povećanje glasnoće
u jednoj frekvencijskoj zoni. Isto tako glasnoća umetnutog šuma u govorni niz
utječe na to hoće li (šum) biti integriran u zvučni tok ili će biti interpretiran kao
neovisan zvučni događaj. To se primijetilo pri pokušaju sinteze konkatenacijom
prethodno pripremljnih, spremljenih zvučnih elemenata oblika (Bakran i Lazić,
1998).

Važnost lokalizacije izvora zvuka

Vidjeli smo kako je kontinurianost fundamentalne frekvencije i formanata važna za


integriranje govornih nizova. Oba ova kontinuiteta proizlaze iz postupnog
mijenjanja položaja (pokretanja) artikulatora i oblika govornog trakta. Vokalni
trakt ne može se trenutačno prebaciti iz jednoga položaja, primjerenog proizvodnji
nekoga glasnika, u drugi položaj. Jedan drugi oblik kontinuiranosti proizlazi
iz činjenice da su govornici u načelu na jednom određenom mjestu u prostoru ili se
relativno polagano premještaju kroz prostor.

Položaj izvora zvukova u prostoru i binauralno slušanje nepobitno pripadaju


najsnažnijim mehanizmima objedinjavanja i odvajanja zvučnih tokova. Načela
lokalizacije odavno su poznata (vidjeti Stevens i Davis, 1960) i o njima ovdje
nećemo raspravljati. Želimo samo istaknuti da govor, kao vrsta zvuka, maksimalno
koristi sve poznate mehanizme lokalizacije, zato što je širokog spektra, dinamički i
spektralno moduliran, pa se nikada ne događa da svi mehanizmi lokalizacije
simultano zakažu. Onda kad jedan od mehanizama lokalizacije postaje nedovoljno
uspješan zbog vrste zvuka, funkciju prostornog odvajanja preuzima drugi.

Važnost lokaliziranja izvora zvuka za razumljivost govora odavno je uočena u


pokusima s maskiranjem. Maskirajući efekt manji je ako se signal (govor) i buka
mogu prostorno odijeliti. Pokusom smo ustvrdili da razumljivost govora može
porasti do 25% ako se izvori signala i buke razdvoje u prostoru (Bakran,
neobjavljen rad). Dakle, unatoč tome što razine intenziteta signala i buke ostaju
iste, razumljivost je olakšana. Radi se o tome da kod prostornog razdvajanja u oba
uha ne dopire identičan signal. U navedenom pokusu u jednom će uhu signal biti
jači, a u drugom će biti jača buka. S obzirom na to da se zvuk u istom uhu lakše
integrira u jedan zvučni tok, prostorno odvajanje olakšalo je odvajanje zvučnih
tokova.

Kad se sukcesivni elementi kontinuiranoga govora emitiraju pomoću slušalica,


tako da se izmjenjuju lijevo i desno uho, sposobnost prepoznavanja pada.
Prebacivanje signala u drugo uho djeluje kao tišina u prethodnom uhu, kao manjak
signala, i to dovodi do pogrešne segmentacije. Prema tome, ako diskontinuiranost u
prostornom smještaju zvuka predstavlja problem integraciji, zaključujemo da
podudarnost mjesta olakšava integraciju (Huggins, 1964). Otežano prepoznavanje
zbog premještanja (izmjenjivanja) signala od jednog do drugog uha može se
primijetiti i na razini fonema. Ako se CV slog /mi/ prezentira tako da se u jednom
uhu čuje samo /m/ a u drugom /i/, ispitanici će teško identificirati /m/ zbog toga što
je smanjena mogućnost komparacije sukcesivnih spektralnih oblika, pa se ne
registrira akustički znak za identifikaciju /m/ koji se sastoji u naglom proširenju
spektra na prijelazu od /m/ u /i/.

Simultana organizacija govornog zvuka

Dosad smo promatrali grupiranje i odvajanje u govornom zvuku u slučaju kad zvuk
dolazi u različito vrijeme (sukcesivno). Postoje mehanizmi za grupiranje i
odvajanje akustičkih komponenata koje do uha stižu istovremeno. Ti mehanizmi
moraju odvajati akustičke elemente različitih glasova (govornika) kako ne bismo
čuli zvuk koji je slučajna smjesa različitih glasova. Oni također tako moraju
integrirati komponente zvuka koji pripadaju istom glasu (govorniku) tako da se ne
bi dogodilo da se kao odvojeni zvukovi (zvučni tokovi) čuju formanti ili harmonici
istoga glasa. Pretpostavimo li da auditivni mehanizam najprije oformi nešto nalik
neuralnom spektrogramu, kako bi detektirao i prepoznao neki glasnik, on mora
objediniti spektralne komponente koje mu pripadaju. Simultane komponente kod
negovornog zvuka mogu se odvajati na temelju različitih faktora: tonskom visinom,
prostornim smještajem, spektralnim regijama, neovisnošću promjena.

Odnos "primitivnih" mehanizama procesiranja i mehanizama koji su


zasnovni na obrascima (shema-based)

U cijelom ovom radu pažnja je usredotočena na takozvane primitivne procese


grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine
prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se
od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se
zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao
što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Poznavanje zvukova
pohranjeno je u obliku obrazaca, shema (Bregman, 1994). Svaki obrazac
sadrži informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim
razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju
jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine
njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi.
Aktiviran obrazac potom djeluje na daljnji tijek percepcije. Ako se čuje "whisky",
aktiviran je obrazac koji omogućuje slušatelju da u nastavku bude spreman čuti npr.
"s ledom" (Erdeljac, 1997).
Za razliku od obrazaca, primitivni procesi djeluju nezavisno od znanja pa čak i
neovisno o volji slušatelja. Djelovanje primitivnih mehanizama i ovih "top-down"
procesa ne može se uvijek jasno razlikovati. Ima laboratorijskih situacija kojima se
može isključiti djelotvornost primitivnih procesa. Ako se sintetiziraju dva vokala
iste frekvencije osnovnog tona, istog trajanja i emitiraju se s istog mjesta, nema
"primitivnih" elemenata u zvuku koji bi ih razdvojili u odvojene cjeline. Ipak,
slušatelji to mogu. Jedino je objašnjenje da su aktivirani obrasci koji su se u tom
zvuku prepoznaju. Drugi očit primjer odabiranja, odnosno, perceptivnog ishoda
koji se temelji isključivo na aktiviranju obrazaca, nalazimo u pokusima s
restauracijom fonema.

Ima eksperimentalnih iskustava u kojima se primitivni procesi sukobljavaju s


obrascima. Ako se sintetizira vokal s dva formanta, ali tako da ih sačinjavaju
harmonici koji pripadaju različitim fundamentalnim frekvencijama, slušatelji imaju
neobičan slušni dojam: čuju dva odvojena zvuka, ali su u stanju čuti i vokal za koji
je potreban čitav spektar, oba formanta.

Primitivni mehanizmi sortiraju signal u pojedine elemente, a mehanizmi koji se


temelje na obrascima te elemente selektiraju i integriraju. Jedni i drugi procesi nisu
osjetljivi na iste varijable. Npr. fundamentalna frekvencija grupe harmonika za
primitivne je mehanizme vrlo značajna, a manje je važna za procese koji se temelje
na obrascima.

Korelirane amplitudne promjene

U vezi s vremenskom organizacijom zvukova treba spomenuti neke činjenice koje


djeluju na odvajanje zvukova različitih izvora. U načelu, neovisni zvukovi ne
započinju i ne završavaju istovremeno. Osim toga, često jedan zvuk traje kad se
drugi pridodaje mješavini. Prema tome, asinkronija početaka i završetaka relativno
je pouzdan znak za odvajanje zvučnih tokova. U jednoj od psihoakustičkih
demonstracija (Houtsma i sur. 1987) izmjenjuje se harmoničan ton sastavljen od 10
harmonika s tonom koji sadržava sve te harmonike, osim jednog. Slušatelji u toj
izmjeni postanu svjesni zvuka pojedinog harmonika iako njegov zvuk nisu posebno
čuli kao sastavni element harmoničnog tona.

U slučaju izmjene vokala i nazala događa se da viši formanti budu naglo utišani (na
početku nazala), odnosno pojačani (na početku vokala). To bi trebalo potaknuti
odvajanje na taj način da se jedan zvuk čini kontinuiranim, a drugi pridodanim. To
zaista možemo introspekcijom osjetiti ponavljamo li sekvencu /mamamama.../.
Međutim, taj je efekt razdvajanja znatno manji od efekta objedinjavanja koji
uzrokuje harmonički kontinuitet.
Pokusima je ustanovljeno da u slučaju maskiranja jednog vokala drugim, onda kad
onaj maskirani počne nekoliko desetinki sekunde nakon maske, vokal se
identificira kao da maske nema. Dapače, u tom slučaju efikasnost identifikacije ne
ovisi više o razlici fundamentalnih frekvencija dvaju vokala. U prirodnom govoru
nagle promjene energije događaju se na granicama okluziva i to okluzive čini
otpornima na maskiranje.

Darwin (1984) je proučavao djelovanje (čistog) tona ubačenog u sintetizirani


vokalni spektar. Ustanovio je da čak i kad se pridodani ton posve uklapa u
harmoničku strukturu, ako nije sinkron s početkom vokala, čuje se kao odvojen
zvuk i što je kasnije uključen, manje djeluje na percepciju vokalske boje tako da
nakon 250 ms uopće više nema na nju utjecaja.

Ako se sintetiziraju dva odvojena formanata za prijelaz okluziv - vokal, i ako se ti


formanti emitiraju svaki u jedno uho, razumljivost je oko 90 %. Međutim, ako nisu
sinkroni, razumljivost uz vremenski pomak od 160 ms pada na 50 %. Identifikacija
od 50 % i nije tako loša ako ima li se na umu da je konsonant pretežno definiran
vokalnim tranzijentom trajanja otprilike 50 ms. Ako perceptivni proces treba
informaciju o oba formanta (F1 i F2), on ih ne može spojiti u jedan osjet, ali može
"koordinirati" informaciju jednoga i drugoga. Pokazalo se da asinkronija više
otežava koordiniranje informacija pojedinih formanata nego nesklad u frekvenciji
osnovnog tona (Cutting, 1976). Na temelju svih ovih primjera možemo zaključiti
da sinkronizirane amplitudne promjene različitih dijelova spektra mogu pridonijeti
pravilnom pridruživanju pojedinih spektralnih komponenata istom izvoru.

Harmoničnost se u načelu opisuje kao ekvidistantnost frekvencijskih komponenata,


odnosno kao poseban, cjelobrojni odnos između frekvencija pojedinih harmonika i
frekvencije osnovnog tona. Međutim, kad se pogleda tzv. "široki" spektrogram,
harmonici se (u načelu) ne vide, a harmoničan zvuk prepoznaje se prema okomitim
crtama razmaknutim upravo za period osnovnog tona koje sežu do visokog dijela
spektra. Time se ocrtava sinkronija sastavnih komponenata. Ta sinkronija posebno
je važan izvor informacija u visokom dijelu spektra kad se zbog ograničenja
auditivnog sustava (širina kritičnog pojasa) pojedini harmonici teško razlučuju.
Kod glasnika koji sadrže i harmoničan ton i šum, kao kod zvučnih frikativa,
amplitudna modulacija koju uzrokuje periodičnost laringalnih impulsa vidljiva je i
u šumnom dijelu spektra i ta sinkronija pomaže objediniti jake niske harmonične
sastavne komponente sa šumom.

Zaključak

Čini se da slušni mehanizam rješava problem analize zvučnog okruženja na dva


različita načina: upotrebom takozvanih primitivnih procesa auditivnoga grupiranja
i upravljajući slušanje obrazaca koje se temelje na znanju (jezika), poznavanju
zvukova. Ovi se mehanizmi međusobno nadopunjuju.

Integriranje i odvajanje zvukova temelji se na analizi koja smjesu zvukova dijeli na


elemente. Nakon toga uključuje se strategija objedinjavanja elemenata koji
pripadaju istoj cjelini, i to u vremenskom slijedu (sekvencijalno grupiranje), i u
spektralnom smislu (simultano grupiranje). Najočitije je načelo grupiranja po
sličnosti. To se odnosi na fundamentalnu frekvenciju, vremensku bliskost,
spektralnu sličnost, prostornu bliskost i intenzitetsku sličnost. Jedan od važnih
elemenata analize jesu frekvencijski odnosi među sastavnim elementima zvuka. Što
su zvučni elementi frekvencijski udaljeniji, manja je vjerojatnost da pripadaju istom
zvučnom toku. Drugo je od djelotvornih načelo integriranja elemenata analize
harmoničnost frekvencijskih komponenata. Auditivni sustav odvojeno grupira
harmoničke elemente koji pripadaju istom osnovnom tonu, formira odvojene osjete
tonske visine i odvojene spektralne boje. Istovremeno, pojedini harmonici ne čuju
se kao zasebni elementi. Sljedeće značajno načelo objedinjavanja elemenata zvučne
analize jest korelacija promjena pojedinih zvučnih elemenata. Simultana promjena
frekvencijskih i intenzitetskih odnosa signal je za objedinjavanje u istu zvučnu
cjelinu. Način na koji se ponaša harmoničan govorni zvuk, za to je idealan primjer.
Tu treba imati na umu paralelne frekvencijske promjene harmonika u funkciji
govorne intonacije kao i male nehotične, frekvencijske modulacije (jitter).
Simultane amplitudne promjene u različitim dijelovima spektra pomažu njihovu
integriranju. To se opet odnosi na dvije razine: velike spore promjene i one kojima
je izvor u periodičnosti harmoničnog zvuka koja se proteže po čitavom spektru i
uzrokuje sinkronu neuralnu pobudu. Uz sinkronost treba spomenuti i povezivanje
prostorno podudarnih sinkronih elemenata i korelaciju s vizualnim kanalom.
Prostorno povezivanje osim činjenice o različitosti zvuka koji dopire u različita
uha, uključuje svijest o relativno sporim promjenama položaja izvora zvuka.
Kontinuirani zvukovi lakše se povezuju u isti zvučni tok od diskontinuiranih.
Poseban je fenomen koji se povezuje s analize zvučnog okruženja iluzija
kontinuiteta. Ako jedan tihi trajni zvuk mjestimično prekinemo i nadomjestimo
mnogo jačim zvukom posve drugih osobina, slušatelji imaju iluziju da tihi zvuk
nije prekidan nego da traje "ispod" jačega, odnosno da je samo maskiran. Taj se
princip kao istraživalačka metoda obilno koristi u pokusima s takozvanom
"restauracijom fonema".

U cijelom ovom radu pozornost je usredotočena na takozvane primitivne procese


grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine
prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se
od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se
zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao
što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Znanje
sadrži informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim
razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju
jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine
njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi.
Aktivirani obrazac potom djeluje na daljnji tijek percepcije. Primitivni procesi
djeluju neovisno o znanju, pa čak i neovisno o volji slušatelja. Djelovanje
primitivnih mehanizama i top-down procesa ne može se uvijek jasno razdvojiti.

Referencije

Bakran, J. (1984). Vremenska organizacija hrvatskoga standardnog govora.


Disertacija, Filozofski fakultet u Zagrebu.

Bakran, J. i Lazić, N. (1998). Fonetski problemi difonske sinteze hrvatskoga


govora. Govor, XV, br. 2, 103- 116.

Bregman, A. S. (1994). Auditory Scene Analysis. MIT Press.

Broadbent, D. F. i Ladefoged, P. (1957). On the fusion of sounds reaching different


sense organs. Journal of the Acoustical Society of America, 29, 708-710.

Brokx, J. K. L. i Noteboom, S. L. (1982). Intonation and perceptual separation of


sumultaneous voices. Journal of Phonetics, 10, 23-36.

Chalikia, M.H. & Bregman, A.S. (1989). The perceptual segregation of


simultaneous audotory sognals: Pulse train segregation and vowel
segregation. Perception & Psychophysics, 46, 487-497.

Cherry, E. C. (1953). Some experiments on the recognition of speech with one and
with two ears. Journal of the Acoustical Society of America, 25, 975-979.

Cutting, J. E. (1976). Auditory and linguistic processes in speech perception:


Inferences from six fusions in dihotic listening. Psychological Review. 83, 114-140.

Darwin, C. J. (1984). Perceiving vowels in the presence of another sound:


Constraints on formant perception. Journal of the Acoustical Society
of America, 76, 1636-1647.

Darwin, C.J., Bethell.Fox, C.E. (1977). Pitch continuity and speech source
attribution. Journal of Experimental Psychology: Human Perception and
Performance, 3, 665-672.

Erdeljac, V. (1997). Prepoznavanje riječi. SOL, Ibis, Zagreb.

Huggins, A.W.F. (1964). Distortion of temporal patterns of speech: Interruptions


and alternations. Journal of the Acoustical Society of America, 36, 1055-1065.
Houtsma, A.J.M., Rossing, T.D., Wagenaars, W.M. (1987). Auditory
Demonstrations. Institute for Perception Research, Eindhoven,
The Netherlands. (CD s popratnom knjžicom)

Ladefoged, P., Broadbent, D.E. (1960). Perception of sequence in auditory


events. Quarterly Journal of Experimental Psychology, 12, 162-160.

Lackner, J.R., Goldstein, L.M. (1974). Primary audotory stream segregation of


repeated consonant- vowel sequences. Journal of the Acoustical Society
of America, 56, 1651-1652.

Moore, B.C.J. (1990). An Introduction to the Psychology of Hearing. Academic


Press.

Norman, D.A. (1976). Memory and Attention: An Introduction to Human


Information Processing. New York, Viley, (citirano prema Bregman 1994).

Noteboom, S,G., Brokx, J.P.L. De Rooij, J.J. (1976). Contributions of prosody to


speech perception. In W.J.M. Levelt and G.B. Flores d'Arcais (eds.) Studies in the
Perception of Language, Chichester: Wiley, (citirano prema Bregman 1994).

Potter, R.K., Kopp, G.A., i Green, H.C. (1947). Visible Speech. Van Nostrand.

Stevens, K.N., Blumstein, S.E. (1981). The search for invariant acoustic correlates
of phonetic features. In P.D. Eimas and J. L. Miller (eds.) Perspective in the Study
of Speech. Hillsdale, N.J.: Erlbaum.

Stevens, S.S., Davis, H. (1960). Hearing, its Psychology and Physiology, Wiley.

Treisman, A.M. (1960). Contextual cues in selective listening. Quarterly Journal of


Experimental Psychology, 12, 242-248.

Warren, R.M. (1982). Auditory Perception: A New Synthesis. New York,


Pergamon.

Naslov na engleskom:
AUDITORY SCENE ANALYSIS

za summary:

U članku se raspravlja o doprinosu pojedinih svojstava govornog zvuka procesu


perceptivnog odvajanja mnoštva simultano prisutnih zvukova kojima smo okruženi.
Problem predstavlja nastavak istraživanja organizacije percepcije kojim su se
početkom stoljeća na vizulanom planu bavili "gestalt" psiholozi. Uz pregled
doprinosa pojedinih autora o toj relativno malo istraživanoj temi i komentar na
temelju iskustava iz vlastitih istraživanja, predlaže se nekoliko novih termina (na
hrvatskom jeziku) nužnih za razumijevanje problema.

Čini se da slušni mehanizam rješava problem analize zvučnog okruženja na dva


različita načina: upotrebom takozvanih primitivnih procesa auditivnog grupiranja i
upravljajući slušanje obrascima koje se temelje na znanju (jezika), poznavanju
zvukova. Ovi se mehanizmi međusobno nadopunjuju. Integriranje i odvajanje
zvukova temelji se na analizi koja smjesu zvukova dijeli na elemente. Nakon toga
uključuje se strategija objedinjavanja elemenata koji pripadaju istoj cjelini, i to u
vremenskom slijedu (sekvencijalno grupiranje), i u spektralnom smislu (simultano
grupiranje). Najočitiji je princip grupiranja po sličnosti. To se odnosi na
fundamentalnu frekvenciju, vremensku bliskost, spektralnu sličnost, prostornu
bliskost i intenzitetsku sličnost. Jedan od važnih elemenata analize jesu
frekvencijski odnosi među sastavnim elementima zvuka. Što su zvučni elementi
frekvencijski udaljeniji manja je vjerojatnost da pripadaju istom zvučnom toku.
Drugi je od djelotvornih principa integriranja elemenata analize harmoničnost
frekvencijskih komponenata. Auditivni sustav odvojeno grupira harmoničke
elemente koji pripadaju istom osnovnom tonu, formira odvojene osjete tonske
visine i odvojene spektralne boje. Istovremeno, pojedini harmonici ne čuju se kao
zasebni elementi. Sljedeći značajan princip objedinjavanja elemenata zvučne
analize jest korelacija promjena pojedinih zvučnih elemenata. Simultana promjena
frekvencijskih i intenzitetskih odnosa signal je za objedinjavanje u istu zvučnu
cjelinu. Način na koji se ponaša harmoničan govorni zvuk, za to je idealan primjer.
Tu treba imati na umu paralelne frekvencijske promjene harmonika u funkciji
govorne intonacije kao i male nehotične, frekvencijske modulacije (jitter).
Simultane amplitudne promjene u različitim dijelovima spektra pomažu njihovu
integriranju. To se opet odnosi na dvije razine: velike spore promijene i one kojima
je izvor u periodičnosti harmoničnog zvuka koja se proteže po čitavom spektru i
uzrokuje sinkronu neuralnu pobudu. Uz sinkronost treba spomenuti i povezivanje
prostorno podudarnih sinkronih elemenata i korelaciju s vizualnim kanalom.
Prostorno povezivanje osim činjenice o različitosti zvuka koji dopire u različita uha
uključuje svijest o relativno sporim promjenama položaja izvora zvuka.
Kontinuirani zvukovi lakše se povezuju u isti zvučni tok od diskontinuiranih.

U cijelom ovom radu pažnja je usredotočena na takozvane primitivne procese


grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine
prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se
od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se
zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao
što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Znanje
sadrži informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim
razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju
jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine
njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi.
Aktivirani obrazac potom djeluje na daljnji tijek percepcije. Primitivni procesi
djeluju nezavisno od znanja, pa čak i neovisno o volji slušatelja. Djelovanje
primitivnih mehanizama i "top-down" procesa ne može se uvijek jasno razlikovati.

You might also like