You are on page 1of 6
OSNOVI KORPUSNE LINGVISTIKE Pregledni rad DOI10.5870/dfnd.1334.06.se UDK 81°36:81°322.2 Tatjana Ponorac Evropski defendologija centar Banja Luka Language is a process of free creation; its laws and principles are fixed, but the manner in which the principles of generation are used is free and indefinitely varied. Even the interpretation and use of words involves a process of free creation (Noam Chomsky) Apstrakt: U radu se govori o pojmu korpusna lingvistika. Ukazuje se na osnovne fuunkcije, obiljegja, primjenu i kijuéne pojmove koji karakteristiSu ovu relativno mladu disciplinu Istice se da se korpusna lingvistika bazira na tekstovima koji se preuzimaju iz razlicitih Zivotnih konteksta kako bi se proucila paralela izmedu teorija o jeziku i njegovoj realiza- ciji u konkretnim situacijama, Kljucne rijeti: jezik, Korpusna lingvistika, korpus, tekst Korespondent: Tajana Ponorac, Evropski defendologia centar Banja Luka, e-mail: ttjanaponorec@ gmail Jezik je proces slobodnog stvaralastva: jegovi zakont i prineip su Sksn, ali naéin na koji se koristeprincipistwaranja je slobodan i beskrajino razaolik Cak su tumagenje i upoteeba ried rerultat slobodnog swvaralastva, 81 1. UVOD Od svog zateéa pa sve do danas, jezik je prolazio i dalje prolazi kroz razlitite transformacije. Nastojanja lingvista, u tom pogiedu, oduvijek su bila usmjerena da se zabiljeze sve ili neke od tih promjena, te da se objasni geneza jezika, Trenutno u svijetu, prema nekim procjenama, otprilike postoji izmedu 5000 i 6000 jezika,” iako je taj broj u opadanju (Harley, 2008, str. 7). Posmatrajuéi i uporedujuéi ove jezike, lingvisti su primi- jetili da se u mnogim jezicima u upotrebi nalaze rijeti koje su po svojoj etimologiji i or- tografiji veoma sligne. Drugim rijecima, zagovara se ideja 0 postojanju jednog ili zajed- nigkog jezika, odnosno prajezika, od kojeg su nastali svi ostali jezici. Primjera radi, rijeé ‘mama wengleskom jeziku ima oblik mother, unjematkom Mutter, moeder w holandskom, ‘mére u francuskom, makt u ruskom i mata u sanskritu (ibid). Slignost izmedu ovih mor- fema je vise nego otigledna, a razlikuju se u samo nekoliko fonema. No bez obzira na ova ofita preklapanja, usljed nedostatka dokumentovanih i autentitnih izvora, ve¢i dio jezit- kih teorija po ovom pitanju svodi se na Spekulisanje i puke pretpostavke. ako se mozda ne mozemo vratiti toliko daleko u proSlost, odredeni testamenti drustva postoje koji svjedod’e o promjenama koje nastaju u jeziku. Oni pokazuju da jezik nije pojava koja stagnira, nego da se on manifestuje u jednoj kontinualnoj paradigmi evolucije i promjena. Primjera radi, Coserski i elizabetanski jezik u mnogome se razlikuje od danasnjeg modemog engleskog jezika, pa bi éak i viktorijanski govornik danas zvutao pomalo éudno, ako ne i nejasno, modernom engleskom govorniku. Kovanice kao Sto su computer (kompjuter), television (televizija), Internet (Internet) zamijenile su athaitne rijedi kao Sto su thou (ti) ili dhee* (tebi), koje se danas jedino susrecu u analizi knjizevnih tekstova i djela. Pojedine rijeti javljaju se kao varijante svojih izvornih oblika, kao Sto je npr. u engl. jeziku morfema sweetheart (draga) koja predstavlja glasovnu alternaciju mor- feme sweetard. Neke pak rijeti nastaju kao rezultat greSke, kao Sto je slu¢aj s morfemom pea (graSak) koja je nastala od pease (graSak) posto su ljudi mislili da je ovo pluralni oblik morfeme pea. Opet, neke rijeéi se preuzimaju iz drugih jezika, npr. u engleskom Jeziku rije’ café (kafana) preuzeta je iz francuskog jezika, potato (krompir) iz haiéanskog jezika itd. Ova paradigma promjena u jeziku pokazuje da iako je sposobnost jezika uro- dena svakom élanu druStvene zajednice, jezik koji proizvodimo, poruku koju Zelimo pre- nijeti, znacenje koje iskazujemo je gotovo potpuno drustveno uslovijeno. Naime, jezik je druStvena pojava i kao takav predstavlja rezultat zajednitkog djelovanja u kojem Ijudi zajedno saraduju kako bi postigli zajedni¢ki cilj. Shodno tome, promjene koje se javljaju u drustvu uslovijavaju i promjene u jeziékoj kompeteneiji Teorija lingvistike danas, mo%e se slobodno regi, ne moZe da odgovori novim zahtjevima koji postavlja jezik, jer praksa pokazuje da promjene koje nastaju u drustvu imaju posljedice na jezik kao dru8tveni proizvod. Kao rezultat toga, u lingvistici se jav- Jjaju nove lingvistitke discipline koje, za razliku od tradicionalne lingvistike, pristupaju Jeziku sa razlifitih aspekata, O Eemu je ovdje zapravo rijet? + Po nekima, taj broj varira izmedu 2700 i 10000. Prema englesko transkripeji:/3a 1 » Prema engleskojtranskripeiji: 82 2, POJAM KORPUSNA LINGVISTIKA Dolaskom nove ere, tj. kompjuterskog doba, na sceni se javljaju kompjuterizo- vana sredstva koja sve vie pronalaze svoju primjenu u svim sferama Govjekovog djelo- vanja, pa tako i jezitkoj produkeiji, Kompjuter se, izmedu ostalog, koristi za proutavanje i posmatranje jezi¢kih manifestacija, njegovih zakonitosti, idiosinkratiénosti, anomalija, asimetrija itd,, Sto lingvistima omoguéuje da prate eventualne promjene koje se javljaju u jeziku i da istoimene zabiljeze. Ovakva analiza jezika neminovno je uslovila i pojavu nove lingvistiéke discipline koja danas ima svoj ustaljen naziv korpusna lingvistika. Tako se njeni zaéeci vezuju za potetak druge polovine proSlog vijeka, korpusna lingvistika imala je marginalizovan status i ova relativno mlada grana lingvistike pravo priznanje dobija tek osamdesetih i devedesetih godina XX vijeka. S vremenom, kako se korpusna lingvistika sve viSe primjenjivala u lingvistikim istrazivanjima tako je rastao i njen zna &j, Sto je uslovilo da ova disciplina danas preraste u jednu od vodeéih lingvisti¢kih me- todologija. Korpus se definise prema svom obliku i primjeni. Lingvisti, u principu, upotre- bijavaju rijeé korpus kako bi oznatili skupinu tekstova sazdanih od primjera koji se pri- rodno javijaju u jednom jeziku, a koji se mogu sastojati od nekoliko revenica, pa do & vih pisanih tekstova ili audio zapisa prikupljenih u svthu lingvisti¢kih istrazivanja (Hun- ston, 2002, str. 2), Treba napomenuti da se danas ovaj termin sve viSe Koristi za oznata- vanje skupine sabranih tekstova (ili dijelova nekog teksta) koji se elektronski pohranjuju i obraduju. U fokusu korpusne lingvistike nalazi se tekst kao realizovan jezik. Tekstovi, zapravo, predstavijaju reprezentativni uzorak prirodnog jezika na osnovu kojih se iznose pouzdani jezitki podaci. Zadatak koji korpusna lingvistika postavlja pred sebe je da se na empirijski na- Gin utvrdi kako se jezitke zakonitosti i jedinice realizuju u konkretnim jezitkim kontek- stima. Korpus se apriori planira i odreduje za odredene jezitke svrhe. Probranjuje se na takav nagin da se moZe prougavati nelineamo, u kvantitativnom i kvalitativnom smistu, gdje ovakav pristup omoguéuje udaljavanje od strogih gramati¢kih generalizacija, a sa- mim tim i univerzalne gramatike U zavisnosti od svoje svthe i primjene, korpusi se razlikuju po veligini i struktu- ri, Ratunarski korpusi su Kodirani i standardizovani, optimizovani za pretragu i analizu, a nalaze se pobranjeni u ratunarskim bazama, Takvi korpusi su na primjer: The Bank of English (Banka engleskog jezika), sa preko 650 miliona rije¢i; Corpus of Contempo- rary American English (Korpus savremenog ameritkog engleskog jezika, sa 450 milio- na rijedi; Cambridge English Corpus (KembridZov engleski korpus), sa nekoliko mili- jardi rijeti; Russian National Corpus (Ruski nacionalni korpus), sa 350 miliona rijeti; Korpus savremenog srpskog jezika, sa 25 miliona rijeti i mnogi dr. 3. PRIMJENA KORPUSNE LINGVISTIKE, U strogom smistu rijeti, Korpus kao sam korpus ne predstavija niSta vise do obignu kompilaciju tekstova koji dobijaju na znaéaju tek primjenom odgovarajuéih sof- tvera, Softverski paketi omoguéavaju da se podaci iz korpusa prouzavaju u pogledu fre- kventnosti, frazeologije i kolokacija (Hunston, 2002, str. 3). Kada je rijeé o frekventnosti, 83 ‘zmataj korpusne lingvistike ogleda se u tome Sto pokazuje koje su rijeti, gramatitke ili leksitke, u datom korpusu najfrekventnije. Na osnovu uporedivanja tri razligite viste kor= pusa, nauke o materijalima, politiékog i Banke engleskog jezika iz 1998,° Hunston (ibid. sit. 3-5) primjeéuje da je frekventnost gramati¢kih rijeti daleko veéa u odnosu na leksi ke rijeti u engleskom jeziku. Tako, medu Sest najfrekventnijih gramatitkih rijeti u sva tri orpusa javijaju se: the (taj), of (od), to (prema/ka), and (i), a (jedan) i in (u), a od leksi ki rijedi leksema said (reéeno) zauzima tek 36. mjesto u Banci engleskog jezika, surface (povrsina) 34, mjesto u korpusu nauke o materijalima, dok u politi¢kom korpusu leksi rije€ policy (politika) javlja se na 21. mjestu. Sto se tite frazeologije, prednost ovakve obrade podataka je ta Sto posmatraé moze, oslanjajuéi se na tzv. podudarne nizove (concordance lines) ili latentne obrasce (latent patterning), kako ih defini8u Sinclair i Coulthard (1975), analizirati ili posmatrati upotrebu rijeéi i fraza kako bi uotio pravilnosti koje ostaju neuogene kada se date rijedi ili fraze javljaju u svojim uobigajenim kontekstima, Kennedy (1991), na primjer, koristi podudarne nizove kako bi objasnio razliku izmedu dvije engleske prepozicije between (izmedu) i through (kroz). Rezultati uporedivanja pokazuju da se between najéeSée javija poslije imenica kao Sto su difference (razlika), distinction (isticanje), gap (raskorak/me- duprostor), contrast (kontrast), conflict (sukob) i quarrel (svada),’ dok se through javlja poslije Ieksidkih glagola kao Sto su go (ici), pass (pro¢i), come (doti), run (tréati), fall (pasti) i lead (voditi) Svoju treéu primjenu korpusna lingvistika pronalazi u domenu kolokacija, Pre= ma Sinclairu (1991, str. 170), pod pojmom kolokacija podrazumijeva se pojavijivanje dvije ili vige rijeti u tekstu koje stoje jedna pored druge. Drugim rijetima, ove sintagme pokazuju statistigku tendenciju odredenih leksiékih jedinica da se pojavijuju zajedno. Nije sasvim jasno zaSto je to tako, ali je zasigumo izyjesno da takav obrazac utiSe na status i prirodu tih jedinica. Kao tipiéan primjer Hunston (2002, str. 12) navodi leksitki glagol shed (proliti) koji se najée8ée javija u kombinacijama sa imenicama kao Sto su te ars — shed tears (plakati); light (svjetlo) - shed light (rasvijetliti); blood (krv) — shed blood (prolivati krv) itd Korpusni pristup ima rasprostranjenu primjenu, Koristi se u lingvistidkim disci- plinama kao to su: leksikografija, semantika, sintaksa, morfologija, fonologija, analiza diskursa, komparativna lingvistika, metodika nastave, sociolingvistika i kognitivna lin- gvistika. Karakterisu ga sljedeée odlike: a. Empirijskog je karaktera buduéi da se bavi analizom komunikacije u nje- nom prirodnom obliku. b. Analiza se zasniva na velikim skupovima tekstova koji predstavlja jezik, a koji se zovu korpus Koriste se ragunari u istrazivanju, Fokus je na jezitkoj produkeiji umjesto na jezi¢koj kompeteneiji e. Radi se o kvantitativnom i kvalitativnom modelu proutavanja jezika ae (Leech, 1993, str. 106-107) © Sva ti Korpusa su sa engleskog govornog podrutja, ‘Tu su jo i relationship (odnos), agreement (sporazum), comparison (poredenje), meeting (sastanak), con- tact (Kontakt) i correlation (korelacia) 84 4, VRSTE KORPUSA Korpus se uvijek koristi za odredenu namjenu, tako da vrsta korpusa zavisi od njegove svrhe. Medu najéeSée vrste korpusa ubrajaju se (Hunston, 2002, str. 14-16): 1. Struéni korpus koji se sastoji od odredene vrste tekstova, kao Sto su npr. novinski élanci, akademski &lanci iz odredene oblasti, predavanja, student- ski eseji, svakodnevni razgovori, geografski udZbenici itd, Svrha ove vrste korpusa je da se ispita odredeni aspekt jezika. 2. Opti korpus odlikuju tekstovi razlititih vrsta, bilo u pisanom ili govornom obliku bilo kombinacija ova dva, te tekstovi koji su prikupljeni u jednoj ili u vie razliditih dréava. Za razliku od struénog korpusa, opti korpus nema posebnu primjenu, ali se zato sastoji od velike skupine raznovrsnih tekstova. Mote se koristiti kao izvor prilikom uéenja nckog jezika, prevodenja is. 3. Komparativni korpusi sluze za uporedivanje korpusa iz razlititih jezika (npr. engleski i Spanski) ili uporedivanje razlika, odnosno varijacija jednog jezika (npr. indijski engleski i kanadski engleski). Koncipirani su na isti nagin kako bi komparacija bila Sto dosljednija, npr. sadrZe isti broj novin- skib tekstova, romana, svakodnevnih razgovora isl 4. Paraleini korpusi su dva ili viSe korpusa koji se sastoje od tekstova koji su prevedeni sa jednog jezika na drugi, npr. roman koji je sa engleskog preve- den na Spanski i roman koji je sa Spanskog preveden na engleski ili tekstovi koji su istovremeno pisani na dva ili vike jezika, Ovi tekstovi mogu posluzi- ti npr. prevodiocima ili uéenicima kako bi pronaSli odgovarajuce ekvivalen- tne izraze u svakom od jezika i kako bi uovili razlike izmedu istoimenih. 5. Uenicki korpus sastoji se od kolekcije tekstova, npr. eseja, koji su pisali udenici na jeziku koji im nije maternji, Svrha ovog korpusa je da se uote razlike koje se javljaju izmedu uéenika koji uée jezik izvornih govornika i da se vidi koliko se oni razlikuju od njega, za Sta je potreban komparativni korpus autenti¢nih tekstova iz datog jezika. 6. Pedagoski korpus podrazumijeva cjelokupan jezik kojem je utenik bio izlo- en, Ovaj korpus nema tatno odreden oblik, tako da nastavniku ili istraziva &u za korpus mogu posluditi razni udZbenici, lektira koju su uéenici koristi- Ii ili Kasete/CD-ovi koje su sluSali. Njegova primjena moze se ogledati u prikupljanju npr. primjera svih rijeti ili fraza sa kojima se uéenik susretao w razligitim kontekstima, kako bi se razumjela njihova upotreba. Takode, pe- dagoski korpus sluzZi i za poredenje s korpusom jezika koji se prirodno ma- nifestuje, npr. engleskog, kako bi uéenik uvidio da koristi jezik koji je kori= stan i koji zvuti prirodno. 7. Istorijski ili dijahroni korpus karakteri8u tekstovi iz razlititih vremenskih perioda. Cilj ovog korpusa je da se uoge i prate razvojne promjene jednog jezika tokom odredenog vremenskog perioda. 8. Monitorskim korpusom prate se trenutne promjene u jednom jeziku. Ovaj korpus se avurira na godiinjem, mjeseénom ili dnevnom nivou, sto znadi da se brzo poveéava u obimu, Ipak, omjer vrste tekstova u korpusu je konstan- tan, tako da se svake godine (mjeseca ili dana) korpus moze uporedivati sa ostalim korpusima. 85 5. KLJUCNI POJMOVI U literaturi o korpusnoj lingvistici susreée se posebna nomenklatura, koja ubraja sljedege pojmove: ~ token (gnak) je niz slova odvojen razmakom ili interpunkcijskim znakom; - ype (tip) podrazumijeva brojanje odredenih tipova rijeti, npr. odredenih vrsta rijegi, gramatiékih kategorija i sl. - hapax legomena (hapaks legomenon), rijet ili izraz koji se u svim zabiljeze- nim tekstovima odredenog jezika javlja samo jednom; ~ word form (oblik rijeti) je fonoloski ili ortografski oblik rijeti koji oznagava ili opisuje nesto; - lemma (lema) je rietniéki oblik rijeti koja se definise, objainjava, odrednica; ~ tagging (ozmatavanje) se odnosi na odredivanje kojoj visti rijeti svaka rijeé 1 korpusu pripada; = parsing (ra8@lanjivanje) podrazumijeva gramati¢ku analizu korpusnog tek- sta na konstituente, odnosno manje tekstualne dijelove kao Sto su regenice, Klauze, fraze ili grupe rijeti; ~ annotation (anotiranje) podrazumijeva, osim ratlanjivanja i oznatavanja, dodavanje dodatnih informacija, kao Sto je intonacija, anafora, kategorisa- nje rijedi i fraza na osnovu njihovog semanti¢kog polja itd 6. ZAKLJUCAK S pravom se moe re¢i da je korpusna lingvistika revolucionarizirala proutava- nje jezika u posljednih par decenija. Njen zna¢aj ogleda se u tome Sto se ona bavi prouta. vanjem jezika iz razligitih konteksta svakodnevnog Zivota, Sto, nedvojbeno, omoguéi Jingvistima da pristupaju prouéavanju jezika iz razlititih uglova. Korpus, tako, pruza pri- liku istrazivaéu ne samo da prepozna kategorije koje se koriste u tradicionalnim pristupi- ma jeziku, nego i da woéi i posmatra kategorije i pojave koje nisu prethodno identifikova- ne i da jednima i drugima pristupa na jedan nov naéin. LITERATURA Harley, T. A. (2008). The Psychology of Language: From Data to Theory (3 ed.). Hove and New York: Psychology Press. — Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge Univer- sity Press. http://dx.doi.org/10.1017/CBO978 1139524773 — Kennedy, G. (1991). ‘Between and through: the company they keep and the functions they serve’, in Aijmer and Altenberg (eds.), 95-110. — Leech, G. (1993). Corpus annotation schemes. Literary and Linguistic Computing, 8 (4), 275-281. http://dx.doi.org/10.1093/le/8.4.275 — Sinclair, J. M. and Coulthard, M. (1975). Towards the Analysis of Discourse. Oxford: Oxford University Press. — Sinclair, J.M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press. Rad primljen: 7.2.2013. Rad odobren: 29.11.2013. 86

You might also like