Professional Documents
Culture Documents
2-11 Kapetanovic, Amir, Digitalizacija Korpusa Starohrvatskih Tekstova I Kritika Teksta PDF
2-11 Kapetanovic, Amir, Digitalizacija Korpusa Starohrvatskih Tekstova I Kritika Teksta PDF
Summary
Digitalization of Old Croatian texts was initiated within the framework of the
project The Old Croatian Dictionary. The purpose of the initiative was to
make a dictionary that would lexicographically describe the lexis of the oldest
periods of Croatian literacy in the Croatian language (from first records to the
end of the 15th century). Digitalization of Old Croatian texts is more complex
than digitalization of contemporary texts, not only owing to predominantly nonauthored corpus in manuscript form, but also owing to the fact that the collected Old-akavian / Old-tokavian corpus, originally written in three scripts,
first needs to be critically analyzed. The Croatian medieval texts have been
published since the 19th century in different forms (photograph, transcript,
transliteration, transcription), and the publications have varying degree of
quality. In addition, some texts that may become integral parts of the corpus
have not been published yet. The paper will present the corpus structure, and
major issues and principles in corpus analysis and design.
Key words: digitalization, corpus, the Old-Croatian language, Middle Ages,
lexicography, textual criticism
Uvod
Danas, u vremenu sveope digitalizacije, oko nas nastaju razliiti tekstovni arhivi (digitalne biblioteke) i korpusi razliite kvalitete. Pri dohvaanju neke
aproksimativno odreene milijunske brojke u utrci za kolikoom pojavnica odreenoga korpusa kadto se zaboravi na kakvou primarnih korpusnih podataka.
Jamano kvaliteta korpusa, koji se sastavlja s ciljem njegova iskoritavanja u
lingvistike svrhe, ovisi ponajprije o valjanoj digitalizaciji odabrane grae. U
toj prvoj fazi rada u izradi korpusa moraju se primarni podatci (tekstovi) kvalitetno obraditi i pohraniti, a tek potom moe se korpus nadograivati metapodatcima.
Put do oznaenoga (anotiranoga) korpusa ipak je krai i laki ako stvaramo korpus suvremenoga jezika nego jezinopovijesni korpus. Prilikom izrade korpusa
suvremenoga jezika mora se oprezno pristupiti izboru reprezentativnih inaica
173
tekstova (ako je poznato nekoliko autoriziranih izdanja teksta) i vjerno iz izvornika prenijeti primarne podatke u elektroniki oblik (ako je rije o tekstovima iz
neelektronikih medija). Ako kanimo sastaviti jezinopovijesni korpus, priprema je za digitalizaciju veoma zahtjevna. Primarni podatci u takvu korpusu, za
razliku od korpusa suvremenoga jezika, nisu izvorni, nego posredni (prijepis ili
transliteracija ili transkripcija izvornih tekstova). Primjerice, digitalne slike izvornih srednjovjekovnih rukopisnih vrela hrvatske pisane batine mogu posluiti samo za dokumentaciju. OCR-programi do danas nisu tako usavreni da bi
mogli izvriti prepoznavanje rukom pisanih znakova, osobito u hrvatskim srednjovjekovnim tekstovima izvorno pisanim glagoljicom, irilicom i starom latinicom. Nijedan stroj danas ne moe osim prepoznavanja znakova izvriti i filoloku interpretaciju znakova, a bez toga se ne moe izgraditi korpus batinskih tekstova pisanih trima pismima, nenormiranim pravopisom i slovopisom.
Posredni primarni podatci mogu se nai u dosadanjim izdanjima batinskih
tekstova (preslovljeni izvori), ali mnoga izdanja u manjoj ili veoj mjeri nisu
pouzdana. Zato je potrebno vratiti se opet originalima i provjeravati valjanost
preslovljenih izvora. Ako se jezinopovijesni korpus izgrauje sa zadatkom da
omogui izradu kakva povijesnoga rjenika, treba predvidjeti koje informacije
za leksikografsku obradu u konanici mora pruati korpus.
Povijest projekta
U Institutu za hrvatski jezik i jezikoslovlje (IHJJ) u Zagrebu izgrauje se Korpus starohrvatskih tekstova (KST) koji e u prvom redu biti upotrijebljen za izradu Starohrvatskoga rjenika. Hrvatska filologija nema ni pokusni raunalno
itljiv korpus starohrvatskih tekstova ni na suvremenim leksikografskim naelima izraen rjenik koji bi nudio informacije o hrvatskom leksiku starijih razdoblja. Mauranievi Prinosi za hrvatski pravno-povjestni rjenik obuhvatili su
samo pravna vrela, a za Akademijin rjenik (AR) iskoriteni su kao izvori samo
neki starohrvatski tekstovi iz kojih nije ekscerpiran sav leksik. Danas jedino AR
u hrvatskoj filologiji ima ulogu opsenoga papirnoga korpusa (obilno su navoene potvrde), premda je to vrlo varljiva baza podataka, osobito ako se u njemu
trae podatci o prvim ili jedinim potvrdama odreenoga leksema. Tako je,
primjerice, prema Akademijinu rjeniku topomim Evropa/Europa potvren u
hrvatskim tekstovima tek od 17. stoljea1, a prividni hapakslegomenon taran
rezultat je nedovoljno prouene grafije Zoranievih Planina2.
Izradu rjenika najstarijih tekstova otpoeli su neki slavenski narodi u 20. stoljeu (npr. nedovreni dvotomni Gebauerov Slovnk staroesk, nedavno dovreni vietomni Staropolski sownik), a zamisao o starohrvatskom rjeniku po1
174
tjee iz ranih 90-ih godina 20. stoljea, kada se u tadanjem Zavodu za hrvatski
jezik razmiljalo o izradi Rjenika hrvatskoga srednjovjekovlja (Mali 1998:
61). Godine 1998. dr. Dragica Mali ponudila je u jednom lanku skicu za izradu rjenika, a 2001. i nacrt s popisom izvora i pravilima leksikografske obrade u
knjiici Nacrt za Hrvatski rjenik do Marulia i njegovih suvremenika. Od te
godine do 2005. obavljena su u IHJJ-u preliminarna istraivanja pod vodstvom
dr. D. Mali, koja su ponajvie bila usmjerena na prikupljanje i provjeravanje
predvienih izvora za rjenik kako bi se moglo otpoeti s izgradnjom strojno
itljiva korpusa. U tim su se istraivanjima mnogi predvieni izvori (transkripcije i transliteracije starih tekstova) pokazali nepouzdanima i moralo se ulagati
mnogo truda, znanja i vremena u provjeravanje nekih izvora prema originalima.
Taj opseni dio posla nije dovren. Unato tim spoznajama i rezultatima intenzivnoga trogodinjega istraivanja malobrojnih suradnika, projekt je kritiziran
na temelju polaznoga popisa izvora: Hrvatski rjenik do Marulia i njegovih
suvremenika, izraen na korpusu samo objavljene grae, ne bi mogao biti temeljno djelo hrvatske filologije. Jer, kao to je ve istaknuto, objavljen je tek
manji dio grae. K tomu objavljena je graa ponavljam dobrim dijelom nepouzdana i nuno je usporediti je s originalima. Pa kad je tako, uputno bi bilo
grau ekscerpirati iz originala ili njihovih preslika, kako su inili prireivai
Akademijina povijesnoga Rjenika. (Nazor 2005: 453)
Drugim rijeima, time je predloeno da se na poetku 21. stoljea leksik iz originala ili preslika ekscerpira kao to se neko kadto inilo pri izradi AR-a i
uvijek pri izradi Rjenika crkvenoslavenskoga jezika hrvatske redakcije3. Na taj
nain stvarao bi se papirni korpus (ili u modernijoj verziji: raunalna zbirka
potvrda), a ne strojno itljiv korpus starohrvatskih tekstova. Takav korpus ne bi
mogao biti podlogom iscrpne leksikografske obrade, oteano bi bilo provjeravanje i povezivanje podataka prilikom leksikografske obrade i teko bi se taj
korpus mogao u budunosti iskoritavati za druga deficitarna jezinopovijesna
istraivanja hrvatskoga jezika u IHJJ-u i izvan njega. I u skicama i nacrtima za
rjenik njegova se izrada povezivala s izradom raunalno itljiva korpusa: Svi
e se izvori konkordirati, to znai da e sve potvrene rijei ui u obradu. Time
e se izbjei samovoljan odabir rijei, kojim se npr. uvelike odlikuje Akademijin
rjenik. (Mali 1998: 68); Treba nabaviti/napraviti raunalni program za konkordiranje izvora i za optimalno iskoritavanje grae, odnosno za stvaranje korpusa izvora kao osnove za leksikografsku obradu. (Mali 2002: 152)
O ekscerpiranju za Rjenik crkvenoslavenskoga jezika hrvatske redakcije osnovnom i komparativnom metodom v. u uvodu toga rjenika na str. III.
175
SASTAVNICA 2
IME
Pjesnitvo i
drama
Proza I
SASTAVNICA 3
Proza II
SASTAVNICA 4
Pravni tekstovi
SASTAVNICA 5
Povijesni tekstovi
ljetopisi, kronike
SASTAVNICA 6
Kratki napisi
SASTAVNICA 7
Pabirci
SASTAVNICA 1
VRSTE TEKSTOVA
pjesme, plaevi, prikazanja
djelomini prijevodi Biblije, molitvenici, lekcionari
177
materijal za
pisanje
oblik slova i
duktus
izvantekstni
znaci
kontinuirano
pisanje
slovopis
jezik
+/
+
+
+
+
+
+
+
+
glagoljica
irilica
latinica
snimka
prijepis
lat. transliteracija
tvo
tvoa
tvoia
tvoa
TVOIA
tuoa
tuoija
tuoya
TVOIA
tuoa
tuoija
tuoya
tvoja
tvo
tvoa
tvoa
lat. transkripcija
tvoja6
Komentar tablice: Vodoravno su ispisani naini prenoenja izvornoga teksta, okomito su poredana hrvatska pisma. Fingira se zapis rijei tvoja razliitim pismima (uglavnom mlai naini zapisa glagoljicom i irilicom), kao to snimka originala pokazuje. Potom se zapisi prepisuju
178
Na primjer: Latiniku transkripciju ili transliteraciju prihvaali su kasnije i drugi izdavai [poslije I. rnia, op. A. K.], a danas je ve postalo redovitom praksom da se hrvatskoglagoljski
tekstovi izdaju u latinikoj transliteraciji ili transkripciji, ovisno o tome da li se radi o znanstvenom ili popularnom izdanju. (Grabar 1978: 40)
179
Leme u korpusu i u rjeniku takoer e biti transkribirane (normalizira se grafija, a ne jezik) jer je zbog razliitosti idioma, slovopisa i pisama nemogue
stvoriti grafijski i jezino idealnu9 natuknicu (npr. dvojna natuknica meja/mea
predstavljat e zapise meiam, meyu, medji, medyom). Osim interpretacije rad
na korpusu predvia i rad na dokumentaciji, i to e biti dodatne informacije u
raunalno pretraivu korpusu. Planira se izrada opisa svih vrela i povezivanje
digitalnih slika izvornika s transkripcijama. Na taj nain nadoknadila bi se redukcija informacija za filologe koji ele provjeriti valjanost transkribiranoga
zapisa. Osim toga, korpus e u konanici imati i statistike podatke o estotnosti.
U Rjeniku crkvenoslavenskoga jezika hrvatske redakcije natuknice se navode u normaliziranom ('idealnom') liku crkvenoslavenskoga jezika hrvatske redakcije. V. prvi svezak rjenika
(2000), str. VIII. i dalje.
10
Novija hrvatska struna (teorijska) literatura vezana uz probleme izrade korpusa usmjerena je
na izradu korpusa suvremenoga hrvatskoga jezika, npr. Tadi 2003. Mora se rei da je nedovoljno
hrvatskih prirunika s postupnim uvoenjem u probleme korpusne lingvistike, kao to su npr. dva
novija njemaka: Scherer 2006; LemnitzerZinsmeister 2006. U posljednjem navedenom priruniku postoji popis i osnovni opis razliitih njemakih korpusa i arhiva, v. LemnitzerZinsmeister
2006: 113-126.
11
12
Kao to to pokazuje R. Schnell (1998) kritikom neofilolokih stajalita o autoru i o djelu u njemakom srednjovjekovlju.
180
Zakljuak
U lanku je usmjerena pozornost na kritiku teksta prilikom izrade korpusa, i to
u prvoj fazi rada: prikupljanje primarnih podataka za korpus. U izradi KST-a to
je oteano zbog niza faktora (dosadanja nedovoljno dobra izdanja tekstova,
primjena stare kritike teksta, neujednaenost tekstolokih postupaka). Stoga je
potrebno vratiti se izvornicima i kritiki ih transkripcijom prenijeti u elektroniki oblik. Struktura grae omoguuje drugu kvalitetu korpusa (raznovrsnost).
KST treba biti raunalno itljiv, oznaen, jednojezini, nespecijalni statini povijesni korpus pisanoga starohrvatskoga jezika.
13
181
Literatura
AR = Rjenik hrvatskoga ili srpskoga jezika. I-XXIII. Zagreb: JAZU, 1880-1976.
Bratuli, Josip. Ediciona praksa hrvatskih istraivaa i izdavaa srednjovjekovnih tekstova u XIX
i XX stoljeu (Historijski prikaz). // Meunarodni nauni skup Tekstologija srednjovekovnih
junoslovenskih knjievnosti. / Bogdanovi, Dimitrije (ur.). Beograd: SANU, 1981, 137-147.
Cerquiglini, Bernard. Texture Modernitt. // Texte zur Theorie des Textes. / Kammer, Stephan,
Ldeke, Roger (priredili i komentirali). Stuttgart: Philipp Reclam jun., 2005, 116-131.
[Fragmentarni njemaki prijevod francuskoga izvornika loge de la variante, Paris, 1989.]
Damjanovi, Stjepan. to (ne) smijemo mijenjati u pievu tekstu? // Radovi Zavoda za slavensku
filologiju. 32 (1998); 57-65.
Fui, Branko. Glagoljski natpisi. // Djela JAZU. 57 Zagreb: JAZU, 1982.
Grabar, Biserka. O nekim problemima kritikog izdavanja hrvatskoglagoljskih tekstova. // VIII
meunarodni slavistiki kongres: Prilozi. // Kuzmanovi, Mladen; Stama, Ante; ojat, Antun
(ur.). Zagreb: Hrvatsko filoloko drutvo, 39-44.
Hofmeister, Andrea. Textkritik als Erkenntnisproze: sehen verstehen deuten. // Editio. 19
(2005); 1-9.
Ivani, Duan. Osnovi tekstologije. Beograd: Narodna knjigaAlfa, 2001.
Ivi, Stjepan. O tobonoj "najstarijoj sauvanoj hrvatskoj pjesmi prije god. 1920. // Graa za
povijest knjievnosti hrvatske. XIV (1939); 1-10.
Kapetani, Davor. Kako pripremati izdanja djela novijih hrvatskih pisaca. // Croatica. 1 (1970), 1;
237-259.
Kapetanovi, Amir. Toponimi u hrvatskim Lucidarima. // Folia onomastica Croatica. 14
(2005); 1-22.
Kapetanovi, Amir. Leksik Marulieve Suzane. // Colloquia Maruliana. 15 (2006); 15-25.
Lemnitzer, Lothar; Zinsmeister, Heike. Korpuslinguistik: Eine Einfhrung. Tbingen: Gunter
Narr Verlag, 2006.
Mali, Dragica. Skica za Hrvatski rjenik do Marulia i njegovih suvremenika. // Filologija. 3031 (1998); 61-70.
Mali, Dragica. Nacrt za Hrvatski rjenik do Marulia i njegovih suvremenika. Zagreb: Institut za
hrvatski jezik i jezikoslovlje, 2002.
Maurani, Vladimir. Prinosi za hrvatski pravno-povjestni rjenik. I-II. Zagreb: JAZU, 19021922.
Nazor, Anica. Dragica Mali i glagoljski tekstovi. // Rasprave Instituta za hrvatski jezik i
jezikoslovlje. 31 (2005); 449-454.
Rjenik crkvenoslavenskoga jezika hrvatske redakcije. I. svezak. Zagreb: Staroslavenski institut,
2000.
Scherer, Carmen. Korpuslinguistik. Heidelberg: Universittsverlag Winter, 2006.
Schnell, Rdiger. Autor und 'Werk' im deutschen Mittelalter: Forschungskritik und
Forschungsperspektiven. // Neue Wege Mittelalter-Philologie. / Heinzle, Joachim; Johnson, L.
Peter; Vollmann-Profe, Gisela (ur.). Berlin: 1998, 12-73.
Stackmann, Karl. Neue Philologie? //Modernes Mittelalter. Neue Bilder einer populren Epoche.
/ Heinzle, Joachim (ur.). Frankfurt a. M., Leipzig: Insel-Verl., 1994, 398-427.
Tadi, Marko. Jezine tehnologije i hrvatski jezik. Zagreb: Ex Libris, 2003.
Vonina, Josip. Tekstoloka naela za pisanu batinu hrvatskoga jezinog izraza: Posebni prilog
Stoljeima hrvatske knjievnosti. Zagreb: Matica hrvatska, 1999. (22006)
182