You are on page 1of 10

Pregledni lanak

Digitalizacija korpusa starohrvatskih tekstova i


kritika teksta
Amir Kapetanovi
Institut za hrvatski jezik i jezikoslovlje
Ulica Republike Austrije 16, Zagreb, Hrvatska
akapetan@ihjj.hr

Summary
Digitalization of Old Croatian texts was initiated within the framework of the
project The Old Croatian Dictionary. The purpose of the initiative was to
make a dictionary that would lexicographically describe the lexis of the oldest
periods of Croatian literacy in the Croatian language (from first records to the
end of the 15th century). Digitalization of Old Croatian texts is more complex
than digitalization of contemporary texts, not only owing to predominantly nonauthored corpus in manuscript form, but also owing to the fact that the collected Old-akavian / Old-tokavian corpus, originally written in three scripts,
first needs to be critically analyzed. The Croatian medieval texts have been
published since the 19th century in different forms (photograph, transcript,
transliteration, transcription), and the publications have varying degree of
quality. In addition, some texts that may become integral parts of the corpus
have not been published yet. The paper will present the corpus structure, and
major issues and principles in corpus analysis and design.
Key words: digitalization, corpus, the Old-Croatian language, Middle Ages,
lexicography, textual criticism

Uvod
Danas, u vremenu sveope digitalizacije, oko nas nastaju razliiti tekstovni arhivi (digitalne biblioteke) i korpusi razliite kvalitete. Pri dohvaanju neke
aproksimativno odreene milijunske brojke u utrci za kolikoom pojavnica odreenoga korpusa kadto se zaboravi na kakvou primarnih korpusnih podataka.
Jamano kvaliteta korpusa, koji se sastavlja s ciljem njegova iskoritavanja u
lingvistike svrhe, ovisi ponajprije o valjanoj digitalizaciji odabrane grae. U
toj prvoj fazi rada u izradi korpusa moraju se primarni podatci (tekstovi) kvalitetno obraditi i pohraniti, a tek potom moe se korpus nadograivati metapodatcima.
Put do oznaenoga (anotiranoga) korpusa ipak je krai i laki ako stvaramo korpus suvremenoga jezika nego jezinopovijesni korpus. Prilikom izrade korpusa
suvremenoga jezika mora se oprezno pristupiti izboru reprezentativnih inaica
173

INFuture2007: Digital Information and Heritage

tekstova (ako je poznato nekoliko autoriziranih izdanja teksta) i vjerno iz izvornika prenijeti primarne podatke u elektroniki oblik (ako je rije o tekstovima iz
neelektronikih medija). Ako kanimo sastaviti jezinopovijesni korpus, priprema je za digitalizaciju veoma zahtjevna. Primarni podatci u takvu korpusu, za
razliku od korpusa suvremenoga jezika, nisu izvorni, nego posredni (prijepis ili
transliteracija ili transkripcija izvornih tekstova). Primjerice, digitalne slike izvornih srednjovjekovnih rukopisnih vrela hrvatske pisane batine mogu posluiti samo za dokumentaciju. OCR-programi do danas nisu tako usavreni da bi
mogli izvriti prepoznavanje rukom pisanih znakova, osobito u hrvatskim srednjovjekovnim tekstovima izvorno pisanim glagoljicom, irilicom i starom latinicom. Nijedan stroj danas ne moe osim prepoznavanja znakova izvriti i filoloku interpretaciju znakova, a bez toga se ne moe izgraditi korpus batinskih tekstova pisanih trima pismima, nenormiranim pravopisom i slovopisom.
Posredni primarni podatci mogu se nai u dosadanjim izdanjima batinskih
tekstova (preslovljeni izvori), ali mnoga izdanja u manjoj ili veoj mjeri nisu
pouzdana. Zato je potrebno vratiti se opet originalima i provjeravati valjanost
preslovljenih izvora. Ako se jezinopovijesni korpus izgrauje sa zadatkom da
omogui izradu kakva povijesnoga rjenika, treba predvidjeti koje informacije
za leksikografsku obradu u konanici mora pruati korpus.

Povijest projekta
U Institutu za hrvatski jezik i jezikoslovlje (IHJJ) u Zagrebu izgrauje se Korpus starohrvatskih tekstova (KST) koji e u prvom redu biti upotrijebljen za izradu Starohrvatskoga rjenika. Hrvatska filologija nema ni pokusni raunalno
itljiv korpus starohrvatskih tekstova ni na suvremenim leksikografskim naelima izraen rjenik koji bi nudio informacije o hrvatskom leksiku starijih razdoblja. Mauranievi Prinosi za hrvatski pravno-povjestni rjenik obuhvatili su
samo pravna vrela, a za Akademijin rjenik (AR) iskoriteni su kao izvori samo
neki starohrvatski tekstovi iz kojih nije ekscerpiran sav leksik. Danas jedino AR
u hrvatskoj filologiji ima ulogu opsenoga papirnoga korpusa (obilno su navoene potvrde), premda je to vrlo varljiva baza podataka, osobito ako se u njemu
trae podatci o prvim ili jedinim potvrdama odreenoga leksema. Tako je,
primjerice, prema Akademijinu rjeniku topomim Evropa/Europa potvren u
hrvatskim tekstovima tek od 17. stoljea1, a prividni hapakslegomenon taran
rezultat je nedovoljno prouene grafije Zoranievih Planina2.
Izradu rjenika najstarijih tekstova otpoeli su neki slavenski narodi u 20. stoljeu (npr. nedovreni dvotomni Gebauerov Slovnk staroesk, nedavno dovreni vietomni Staropolski sownik), a zamisao o starohrvatskom rjeniku po1

Uvid u starohrvatske tekstove, kao to su razliiti hrvatski prijevodi Lucidara, pokazuju da se


potvrenost toga toponima moe pomaknuti barem u 15. stoljee; o tome v. Kapetanovi 2005: 3.

O tome v. Kapetanovi 2006: 23.

174

Kapetanovi, Digitalizacija korpusa starohrvatskih tekstova i kritika teksta

tjee iz ranih 90-ih godina 20. stoljea, kada se u tadanjem Zavodu za hrvatski
jezik razmiljalo o izradi Rjenika hrvatskoga srednjovjekovlja (Mali 1998:
61). Godine 1998. dr. Dragica Mali ponudila je u jednom lanku skicu za izradu rjenika, a 2001. i nacrt s popisom izvora i pravilima leksikografske obrade u
knjiici Nacrt za Hrvatski rjenik do Marulia i njegovih suvremenika. Od te
godine do 2005. obavljena su u IHJJ-u preliminarna istraivanja pod vodstvom
dr. D. Mali, koja su ponajvie bila usmjerena na prikupljanje i provjeravanje
predvienih izvora za rjenik kako bi se moglo otpoeti s izgradnjom strojno
itljiva korpusa. U tim su se istraivanjima mnogi predvieni izvori (transkripcije i transliteracije starih tekstova) pokazali nepouzdanima i moralo se ulagati
mnogo truda, znanja i vremena u provjeravanje nekih izvora prema originalima.
Taj opseni dio posla nije dovren. Unato tim spoznajama i rezultatima intenzivnoga trogodinjega istraivanja malobrojnih suradnika, projekt je kritiziran
na temelju polaznoga popisa izvora: Hrvatski rjenik do Marulia i njegovih
suvremenika, izraen na korpusu samo objavljene grae, ne bi mogao biti temeljno djelo hrvatske filologije. Jer, kao to je ve istaknuto, objavljen je tek
manji dio grae. K tomu objavljena je graa ponavljam dobrim dijelom nepouzdana i nuno je usporediti je s originalima. Pa kad je tako, uputno bi bilo
grau ekscerpirati iz originala ili njihovih preslika, kako su inili prireivai
Akademijina povijesnoga Rjenika. (Nazor 2005: 453)
Drugim rijeima, time je predloeno da se na poetku 21. stoljea leksik iz originala ili preslika ekscerpira kao to se neko kadto inilo pri izradi AR-a i
uvijek pri izradi Rjenika crkvenoslavenskoga jezika hrvatske redakcije3. Na taj
nain stvarao bi se papirni korpus (ili u modernijoj verziji: raunalna zbirka
potvrda), a ne strojno itljiv korpus starohrvatskih tekstova. Takav korpus ne bi
mogao biti podlogom iscrpne leksikografske obrade, oteano bi bilo provjeravanje i povezivanje podataka prilikom leksikografske obrade i teko bi se taj
korpus mogao u budunosti iskoritavati za druga deficitarna jezinopovijesna
istraivanja hrvatskoga jezika u IHJJ-u i izvan njega. I u skicama i nacrtima za
rjenik njegova se izrada povezivala s izradom raunalno itljiva korpusa: Svi
e se izvori konkordirati, to znai da e sve potvrene rijei ui u obradu. Time
e se izbjei samovoljan odabir rijei, kojim se npr. uvelike odlikuje Akademijin
rjenik. (Mali 1998: 68); Treba nabaviti/napraviti raunalni program za konkordiranje izvora i za optimalno iskoritavanje grae, odnosno za stvaranje korpusa izvora kao osnove za leksikografsku obradu. (Mali 2002: 152)

O ekscerpiranju za Rjenik crkvenoslavenskoga jezika hrvatske redakcije osnovnom i komparativnom metodom v. u uvodu toga rjenika na str. III.

175

INFuture2007: Digital Information and Heritage

Planovi i opis korpusa


Rad na izradi korpusa nastavljen je 2007. u IHJJ-u u sklopu projekta Starohrvatski rjenik (voditelj A. Kapetanovi), koji je dio institutskoga programa Hrvatska jezina riznica (voditelj Dunja Brozovi Ronevi), uz potporu Ministarstva znanosti, obrazovanja i porta Republike Hrvatske. Polazni popis vrela koji
je izradila dr. Mali reduciran je s obzirom na gornju granicu starohrvatskoga
jezika (u korpus ulaze izvori do 1500, uz neke iznimke mlaih prijepisa). Sustavno se pristupilo izradi kritikih izdanja hrvatskih srednjovjekovnih tekstova i
njihovoj digitalizaciji. Odlueno je da se pri izgradnji KST-a primijene isti ali
korpusu prilagoeni raunalni standardi i sustavi kao i u izradi ostalih korpusa u
okviru dananje Hrvatske jezine riznice IHJJ-a, kako bi u budunosti KST mogao postati potkorpusom krovnoga hrvatskoga jezinoga korpusa u IHJJ-u. Do
tada e KST funkcionirati kao samostalan korpus, razdijeljen na sastavnice
prema vrstama tekstova, u emu se ogleda i struktura grae buduega rjenika:
SASTAVNICE

SASTAVNICA 2

IME
Pjesnitvo i
drama
Proza I

SASTAVNICA 3

Proza II

SASTAVNICA 4

Pravni tekstovi

apokrifi, vizije, udesa Marijina, svetake legende,


romani, prie, pouna proza...
isprave, statuti, zakoni, urbari, regule

SASTAVNICA 5

Povijesni tekstovi

ljetopisi, kronike

SASTAVNICA 6

Kratki napisi

natpisi, grafiti, razliiti zapisi i biljeke

SASTAVNICA 7

Pabirci

glose, izbor tipinoga hrvatskoga opega leksika iz


crkvenoslavenskih vrela i starohrvatskih imena i
titula iz hrvatskih latinskih isprava

SASTAVNICA 1

VRSTE TEKSTOVA
pjesme, plaevi, prikazanja
djelomini prijevodi Biblije, molitvenici, lekcionari

Raznolikost tekstova razvrstanih u sedam sastavnica osigurava jednu drugu ne


manje vanu kvalitetu korpusa (uzorkovanje razliitih tipova i vrsta pisanih
vrela). Korpus e u konanici biti tako oznaen da se moe pretraivati itav
korpus ili samo dijelovi korpusa (po odreenim sastavnicama, po stoljeima:
11-15, po starohrvatskim knjievnim idiomima: akavski/tokavski). U pretposljednjoj navedenoj sastavnici bit e dosta zapisa koji nisu vei od sintagme i
jedne reenice. Budui da su sintagma i jedna reenica premaleni korpusni
uzorci, morat e se odluiti kako e takva graa, nastala u rasponu od pet stoljea, biti organizirana. Posljednja navedena sastavnica razlikovat e se od svih
ostalih jer nee biti sastavljena od cjelovitih tekstova. To e biti pomona sastavnica koja e se iskoritavati u leksikografskoj obradi ako ne bude (dovoljno)
potvrda iz hrvatskih vrela. Istina je da u hrvatskom srednjovjekovlju nije postojao vrst zid izmeu hrvatskih narodnih idioma i crkvenoslavenskoga jezika, a to se odnosi ponajvie na proznu beletristiku. Tekstovi koji su pisani preteno crkvenoslavenskim jezikom, nee se uzimati kao vrela, a crkvenoslavizmi
176

Kapetanovi, Digitalizacija korpusa starohrvatskih tekstova i kritika teksta

u tekstovima pisanim preteno hrvatskim obraivat e se u Starohrvatskom


rjeniku ravnopravno kao i drugi izmi (talijanizmi, germanizmi, bohemizmi).
Tako e u korpusu i u rjeniku biti zastupljen neizbrisiv trag utjecaja crkvenoslavenskoga jezika na hrvatske knjievne idiome srednjovjekovlja. Zapisi starohrvatskih imena i titula u hrvatskim latinskim ispravama navodit e se u rjeniku kao rekonstrukcije s izvornim zapisom, npr. *Budc (Bude, Budicius,
Budio, Budiz, Budizo).
Korpus starohrvatskih tekstova mogao bi se ovako definirati: raunalno itljiv,
oznaen, jednojezini, nespecijalni statini povijesni korpus pisanoga jezika sastavljen od cjelovitih tekstova (osim pomone sastavnice br. 7). to se raspona
korpusa tie (od prvih zapisa do 1500), i tu postoji problem s gornjom vremenskom odrednicom. Bit e iznimaka u vezi s nekim tekstovima, pa e tako ui u
korpus neki srednjovjekovni tekstovi sauvani samo u prijepisima iz 16. stoljea. Nezamislivo je, primjerice, da Vinodolski zakon sastavljen 1288. (sauvan u
najstarijem prijepisu iz 16. stoljea) ne bude dio korpusa jer on predstavlja vano vrelo starohrvatske pravne terminologije. Opseg korpusa (broj pojavnica)
teko je za sada predvidjeti, ali se prema grubim procjenama moe pretpostaviti
da bi Starohrvatski rjenik mogao sadrati oko 50 000 natuknica.

Prijenos informacija i izbor naina transponiranja primarnih


podataka
Andrea Hofmeister analizirala je u jednom teorijski usmjerenom tekstolokom
prilogu (2005) odnos nalaza (Befund) i tumaenja (Deutung) s obzirom na
polja informacija i stupnjeve (vrste) izdanja. Na primjer, ona posve tono zakljuuje kada kae da bazina transliteracija kumulativno sadri informacije o
pisanom tekstu svih polja (od paleografskoga do semantikoga), ali upravo zbog
toga prijeti nepreglednost i manja pristupanost korisniku (benutzerfreundlich).4
Ipak se ne moemo sloiti s njezinom tvrdnjom da originalni sadraj informacija moe ponuditi jedino rukopis sam ili visokokvalitetni faksimil rukopisa jer
faksimil ne moe za razliku od originala pruiti paleografima podatke o vodenim igovima, to nije nevana informacija istraivau koji eli datirati rukopis.
A. Hofmeister u svojem radu nudi shemu odnosa polja informacija i stupnjeva
(vrsta) izdanja, a mi emo ovdje ponuditi slinu, prilagoenu naim potrebama i
terminologiji (umjesto polja informacija navest emo izbor nekih konkretnih informacija koje se posreduju razliitim nainima transponiranja teksta):

4 V. A. Hofmeister 2005: 5-6.

177

INFuture2007: Digital Information and Heritage

POSREDOVANJE INFORMACIJA U RAZLIITO TRANSPONIRANOM TEKSTU


original
snimka
prijepis
transliteracija
transkripcija

materijal za
pisanje
oblik slova i
duktus
izvantekstni
znaci
kontinuirano
pisanje
slovopis
jezik

+/

+
+

+
+

+
+

+
+

Takva editorika pitanja nisu nevana za korpusnu lingvistiku. Osiguravanje


zalihosnih informacija ne samo da je neekonomino u ciljanim istraivanjima
(nepotreban utroak vremena i novca) nego moe pomutiti i transparentnost podataka te tako smanjiti razinu primanja vanih informacija. Stoga, nije nevano
hoemo li primarne podatke u korpus prenositi transliteracijom, fonolokom
transkripcijom, prijepisom5.

glagoljica

irilica

latinica

snimka

prijepis

lat. transliteracija

tvo
tvoa
tvoia
tvoa

TVOIA
tuoa
tuoija
tuoya

TVOIA
tuoa
tuoija
tuoya

tvoja
tvo
tvoa
tvoa

lat. transkripcija

tvoja6

Transliteracija (lat. translitteratio) oznauje postupak prenoenja znakova jednoga pisma


adekvatnim znakovima drugoga pisma, npr. > kral. Fonoloka transkripcija (lat. transcriptio) oznauje postupak kojim se grafemi za odreene foneme iz jednoga slovopisa jednoga
pisma prenose u slovopis istoga ili drugoga pisma, npr. iz 13. stoljea > kralj. Prijepis
oznauje vjerno i dosljedno prenoenje znakova originalnoga slovopisa jednoga pisma bez konverzija i interpretacije znakova, npr. > .
6

Komentar tablice: Vodoravno su ispisani naini prenoenja izvornoga teksta, okomito su poredana hrvatska pisma. Fingira se zapis rijei tvoja razliitim pismima (uglavnom mlai naini zapisa glagoljicom i irilicom), kao to snimka originala pokazuje. Potom se zapisi prepisuju

178

Kapetanovi, Digitalizacija korpusa starohrvatskih tekstova i kritika teksta

Odluka o tome mora se donijeti prije otpoinjanja digitalizacije jer su posljedice


te odluke dalekosene. Mora nam biti jasno koje informacije elimo prenijeti i
kojem krugu korisnika (uem/irem). Budui da se KST izrauje s ciljem istraivanja jezika (najprije leksika, potom gramatike), a ne razliitih slovopisa hrvatskih triju pisama, sve potrebne informacije moe ponuditi fonoloka transkripcija. Osmiljena su unutar projekta pravila transkripcije za izradu KST-a
jer ih za srednjovjekovne tekstove nijedan hrvatski tekstoloki prirunik do danas nije ponudio.7 Odbacivanjem zalihosnih informacija olakava se raunalna
obrada podataka i ne ugroava se transparentnost jezinih podataka u korpusu i
u rjeniku. Na primjer, zbog vienamjenskoga s u staroj hrvatskoj latinici zapis
kosa mogao bi se ovisno o kontekstu transkribirati kao koa / koza / kosa (posljednja mogunost moe odraavati tri homonima). Ako se primjer ne bi transkribirao, korisnik korpusa i rjenika morao bi se samostalno upustiti u filoloku interpretaciju potvrda kosa bez uvida u grafijski sustav itava teksta iz kojega je zapis. Promjena originalnoga slovopisa i pisma nije krivotvorenje jezika.
Obino se u tradicionalnoj filologiji transliteracija povezuje sa znanstvenim, a
transkripcija s popularnim izdanjima tekstova8, ali se pritom zaboravlja da su za
znanstvena istraivanja neiskoristive one transliteracije koje sadre puno pogreaka i krivih interpretacija znakova, a one transkripcije koje maksimalno uvaju
izvorni jezik teksta i koje prati kritiki aparat, mogu biti korisne za znanstvena
istraivanja, kao npr. neka izdanja u Starim piscima hrvatskim. Loa su ona izdanja starih tekstova u kojima se mijeaju dva postupka: transliteracije s primjenom nekih transkripcijskih naela (npr. transliterira se kral > kral, ali Maria >
Marija) i transkripcije s nekim transliteracijskim naelima (npr. transkribiranje:
moji oi = posebno markiranje grafema s obzirom na to kako je fonem zapisan
u izvorniku i uvanje ortografskih geminata).
(prijepis) i pritom tip pisma ne mora biti isti kao na snimci. Nadalje se izvodi latinika transliteracija svih zapisa osim latinikih, jer transliteracija iz latinice u latinicu nije mogua, tj. ona
bi bila isti preslik originala u grafemskom smislu (Damjanovi 1998: 61; Vonina 1999: 25).
Teorijski bi bilo mogue irilicom i latinicom transliterirati glagoljiki tekst i iriliki tekst glagoljicom i latinicom, ali danas to vie nije uobiajeno (o tome v. Bratuli 1981). Razliito zapisana rije tvoja (ovdje na 12 naina, i to nisu svi mogui) svedena je latinikom transkripcijom na
samo jedan zapis, i to tako da jezik ni u jednoj pojedinosti nije promijenjen.
7

U jedinom hrvatskom tekstolokom priruniku (Vonina 1999) ne daju se pravila transkripcije


srednjovjekovnih tekstova, premda primjeri iz nekoliko rukopisa pokazuju to bi mogla biti
uzorna transkripcija. D. Kapetani ne bavi se u svojem lanku (1970) editorikim problemima
srednjovjekovnih rukopisa. Pomo se ne moe nai ni u drugim junoslavenskim prirunicima, na
primjer, knjiga srpskoga tekstologa D. Ivania (2001) nema pravila transkripcije i ne bavi se starosrpskim tekstovima.

Na primjer: Latiniku transkripciju ili transliteraciju prihvaali su kasnije i drugi izdavai [poslije I. rnia, op. A. K.], a danas je ve postalo redovitom praksom da se hrvatskoglagoljski
tekstovi izdaju u latinikoj transliteraciji ili transkripciji, ovisno o tome da li se radi o znanstvenom ili popularnom izdanju. (Grabar 1978: 40)

179

INFuture2007: Digital Information and Heritage

Leme u korpusu i u rjeniku takoer e biti transkribirane (normalizira se grafija, a ne jezik) jer je zbog razliitosti idioma, slovopisa i pisama nemogue
stvoriti grafijski i jezino idealnu9 natuknicu (npr. dvojna natuknica meja/mea
predstavljat e zapise meiam, meyu, medji, medyom). Osim interpretacije rad
na korpusu predvia i rad na dokumentaciji, i to e biti dodatne informacije u
raunalno pretraivu korpusu. Planira se izrada opisa svih vrela i povezivanje
digitalnih slika izvornika s transkripcijama. Na taj nain nadoknadila bi se redukcija informacija za filologe koji ele provjeriti valjanost transkribiranoga
zapisa. Osim toga, korpus e u konanici imati i statistike podatke o estotnosti.

Srednjovjekovni tekst i nova kritika teksta


Izrada KST-a i Starohrvatskoga rjenika treba se suoiti ne samo s primjenom
novih raunalnih tehnologija10 nego i s novim odnosom prema srednjovjekovnom tekstu i novom kritikom teksta koju je razvila tekstologija/editorika 20.
stoljea.
KST temelji se uglavnom na rukopisnoj srednjovjekovnoj batini (iznimka su
inkunabule). Srednjovjekovni tekst nema autora (s biografijom) i sve su njegove
inaice ravnopravne.11 Autorstvo u modernom smislu nije starije od konca 18.
stoljea, stoga tekstovi korpusa nisu autorizirani i nema autografa. U srednjovjekovnim anonimnim tekstovima autorska bi se svijest dodue mogla traiti u
odreenim slojevima tekstova12, ali, dakako, ne autorstvo kako ga shvaamo od
poetka 19. stoljea. Ne moe se ipak rei da su srednjovjekovni ljudi zazirali
od isticanja vlastitih imena; pokazuju to brojni hrvatski srednjovjekovni glagoljiki natpisi i grafiti od Istre do Dubrovnika (v. Fui 1982).
Srednjovjekovni je tekst, pisan narodnim jezicima, nestabilan i otvoren, javlja
se u brojnim varijantama i verzijama jer se prevodi, kompilira, prepisuje, prerauje i iri bez kontrole prvotnoga sastavljaa. Egzistira u svojim mijenama sve
dok se iri prepisivanjem ili usmenim prenoenjem. Jedina iznimka je biblijski
tekst. U srednjem vijeku vanije je bilo to vie umnoiti tekst prepisivanjem,
manje se u to doba pazilo na kritiku teksta, kao u antici ili u renesansi. Otkrie
9

U Rjeniku crkvenoslavenskoga jezika hrvatske redakcije natuknice se navode u normaliziranom ('idealnom') liku crkvenoslavenskoga jezika hrvatske redakcije. V. prvi svezak rjenika
(2000), str. VIII. i dalje.
10

Novija hrvatska struna (teorijska) literatura vezana uz probleme izrade korpusa usmjerena je
na izradu korpusa suvremenoga hrvatskoga jezika, npr. Tadi 2003. Mora se rei da je nedovoljno
hrvatskih prirunika s postupnim uvoenjem u probleme korpusne lingvistike, kao to su npr. dva
novija njemaka: Scherer 2006; LemnitzerZinsmeister 2006. U posljednjem navedenom priruniku postoji popis i osnovni opis razliitih njemakih korpusa i arhiva, v. LemnitzerZinsmeister
2006: 113-126.

11

Diskusiju o tome v. npr. u Stackmann 1994: 412 i dalje.

12

Kao to to pokazuje R. Schnell (1998) kritikom neofilolokih stajalita o autoru i o djelu u njemakom srednjovjekovlju.

180

Kapetanovi, Digitalizacija korpusa starohrvatskih tekstova i kritika teksta

tiska uvelike je promijenilo odnos prema tekstu. Rijeima B. Cerquiglinia:


Izum knjigotiska je puno vie mentalna nego tehnika revolucija. (Cerquiglini
2005: 125; prev. A. K.)
Varijantni srednjovjekovni tekstovi neko su se promatrali kao i novovjekovni
autorski tekstovi. Danas je realno prikazivanje teksta (izvora) zamijenilo nekadanje rekonstruiranje arhetipa teksta (na temelju svih rukopisa sastavljao se
jedan koji bi mogao biti najblii originalu) ili konstruiranje idealnoga teksta. U
novijoj tekstologiji smatra se da su svi sauvani oblici nekoga teksta (od njegova nacrta do tiskanoga izdanja) ravnopravne inaice jer svaka pokazuje odreeni
stupanj razvoja teksta. Zato e razliite varijante i verzije srednjovjekovnih
tekstova ravnopravno ui kao izvori u KST.
Mnoga dosadanja izdanja srednjovjekovnih tekstova nisu loi izvori za KST
samo zato to su dosadanji njihovi itai inili omake i prezentirali ih u
svojim izdanjima bez ujednaenih tekstolokih naela nego i zato to su i neka
pouzdana izdanja izraena starom kritikom teksta. Rije je o izdanjima u kojima se, primjerice, rukopis iz 15. stoljea ispravljao prema prijepisu iz 17. stoljea ili su se lakune srednjovjekovnih rukopisa popunjavale prema vrlo mladim
prijepisima.
U KST-u e dakle ravnopravno biti zastupljene sve poznate inaice jednoga hrvatskoga srednjovjekovnoga teksta nastale do konca 15. (ili poetka 16. stoljea). Na primjer, srednjovjekovna pjesma Bog se rodi v Vitliomi bit e u korpusu
predstavljena ravnopravno dvjema inaicama (jedna iz Parike pjesmarice,
druga iz Zbornika duhovnoga tiva IV a 92)13: nee se od dvije inaice izraivati jedan kontaminiran tekst s namjerom da se rekonstruira arhetip te pjesme i
nee se pristupiti popravljanju tih dviju najstarijih inaica na temelju njihovih
mlaih prijepisa iz 17. i 18. stoljea. Ako se budu inile nune emendacije i konjekture, svaka od njih morat e biti dobro argumentirana i dokumentirana.
Sve nam to govori da e kvaliteta KST-a i Starohrvatskoga rjenika ovisiti o
koordiniranoj suradnji raunalne lingvistike, tekstologije/editorike i leksikografije.

Zakljuak
U lanku je usmjerena pozornost na kritiku teksta prilikom izrade korpusa, i to
u prvoj fazi rada: prikupljanje primarnih podataka za korpus. U izradi KST-a to
je oteano zbog niza faktora (dosadanja nedovoljno dobra izdanja tekstova,
primjena stare kritike teksta, neujednaenost tekstolokih postupaka). Stoga je
potrebno vratiti se izvornicima i kritiki ih transkripcijom prenijeti u elektroniki oblik. Struktura grae omoguuje drugu kvalitetu korpusa (raznovrsnost).
KST treba biti raunalno itljiv, oznaen, jednojezini, nespecijalni statini povijesni korpus pisanoga starohrvatskoga jezika.
13

O izvorima i itanju te pjesme v. Ivi 1939.

181

INFuture2007: Digital Information and Heritage

Literatura
AR = Rjenik hrvatskoga ili srpskoga jezika. I-XXIII. Zagreb: JAZU, 1880-1976.
Bratuli, Josip. Ediciona praksa hrvatskih istraivaa i izdavaa srednjovjekovnih tekstova u XIX
i XX stoljeu (Historijski prikaz). // Meunarodni nauni skup Tekstologija srednjovekovnih
junoslovenskih knjievnosti. / Bogdanovi, Dimitrije (ur.). Beograd: SANU, 1981, 137-147.
Cerquiglini, Bernard. Texture Modernitt. // Texte zur Theorie des Textes. / Kammer, Stephan,
Ldeke, Roger (priredili i komentirali). Stuttgart: Philipp Reclam jun., 2005, 116-131.
[Fragmentarni njemaki prijevod francuskoga izvornika loge de la variante, Paris, 1989.]
Damjanovi, Stjepan. to (ne) smijemo mijenjati u pievu tekstu? // Radovi Zavoda za slavensku
filologiju. 32 (1998); 57-65.
Fui, Branko. Glagoljski natpisi. // Djela JAZU. 57 Zagreb: JAZU, 1982.
Grabar, Biserka. O nekim problemima kritikog izdavanja hrvatskoglagoljskih tekstova. // VIII
meunarodni slavistiki kongres: Prilozi. // Kuzmanovi, Mladen; Stama, Ante; ojat, Antun
(ur.). Zagreb: Hrvatsko filoloko drutvo, 39-44.
Hofmeister, Andrea. Textkritik als Erkenntnisproze: sehen verstehen deuten. // Editio. 19
(2005); 1-9.
Ivani, Duan. Osnovi tekstologije. Beograd: Narodna knjigaAlfa, 2001.
Ivi, Stjepan. O tobonoj "najstarijoj sauvanoj hrvatskoj pjesmi prije god. 1920. // Graa za
povijest knjievnosti hrvatske. XIV (1939); 1-10.
Kapetani, Davor. Kako pripremati izdanja djela novijih hrvatskih pisaca. // Croatica. 1 (1970), 1;
237-259.
Kapetanovi, Amir. Toponimi u hrvatskim Lucidarima. // Folia onomastica Croatica. 14
(2005); 1-22.
Kapetanovi, Amir. Leksik Marulieve Suzane. // Colloquia Maruliana. 15 (2006); 15-25.
Lemnitzer, Lothar; Zinsmeister, Heike. Korpuslinguistik: Eine Einfhrung. Tbingen: Gunter
Narr Verlag, 2006.
Mali, Dragica. Skica za Hrvatski rjenik do Marulia i njegovih suvremenika. // Filologija. 3031 (1998); 61-70.
Mali, Dragica. Nacrt za Hrvatski rjenik do Marulia i njegovih suvremenika. Zagreb: Institut za
hrvatski jezik i jezikoslovlje, 2002.
Maurani, Vladimir. Prinosi za hrvatski pravno-povjestni rjenik. I-II. Zagreb: JAZU, 19021922.
Nazor, Anica. Dragica Mali i glagoljski tekstovi. // Rasprave Instituta za hrvatski jezik i
jezikoslovlje. 31 (2005); 449-454.
Rjenik crkvenoslavenskoga jezika hrvatske redakcije. I. svezak. Zagreb: Staroslavenski institut,
2000.
Scherer, Carmen. Korpuslinguistik. Heidelberg: Universittsverlag Winter, 2006.
Schnell, Rdiger. Autor und 'Werk' im deutschen Mittelalter: Forschungskritik und
Forschungsperspektiven. // Neue Wege Mittelalter-Philologie. / Heinzle, Joachim; Johnson, L.
Peter; Vollmann-Profe, Gisela (ur.). Berlin: 1998, 12-73.
Stackmann, Karl. Neue Philologie? //Modernes Mittelalter. Neue Bilder einer populren Epoche.
/ Heinzle, Joachim (ur.). Frankfurt a. M., Leipzig: Insel-Verl., 1994, 398-427.
Tadi, Marko. Jezine tehnologije i hrvatski jezik. Zagreb: Ex Libris, 2003.
Vonina, Josip. Tekstoloka naela za pisanu batinu hrvatskoga jezinog izraza: Posebni prilog
Stoljeima hrvatske knjievnosti. Zagreb: Matica hrvatska, 1999. (22006)

182

You might also like