Izveštaj Nevena Radosavljević 20150565

Nevena Radosavljević 2015/0565
Korpus fanfikcija i njegova kratka analiza
1. Opis korpusa
Ovaj korpus je namenjen istraživanju stila pisanja tzv. „fanfikcija“, tj. priča
objavljenih na Internetu koje se zasnivaju na drugim, već postojećim pričama bilo kakvog
medijuma. Korpus, koji broji ukupno oko 100.000 reči, sastoji se od dvadeset tekstova
napisanih između 2008. i 2018. godine, od kojih svaki ima između 4500 i 5500 reči. Ovi
tekstovi preuzeti su isključivo sa sajta Archive of Our Own1, tako što je baza sajta prvo
filtrirana na osnovu datuma objavljivanja, broja reči i jezika (engleskog), nakon čega su
tekstovi direktno sa sajta preneti u Notepad pomoću opcija copy i paste, i sačuvani u .txt
formatu u karakterskom kodu UTF-8. Za analizu korpusa korišćen je program AntConc
3.5.7.
2. Analiza korpusa
Analiza korpusa sastojala se od sledećih koraka: (1) izrade frekvencijskog rečnika
50 najčešćih reči (oblika) u korpusu; (2) izrade lematizovanog frekvencijskog rečnika
zasnovanog na 50 najčešćih reči u korpusu; (3) poređenja liste pod (2) sa listom pod (1); (4)
sastavljanja pet regularnih izraza za izvlačenje primera leksičkih ili gramatičkih pojava po
izboru i (5) analize po izboru.
2.1. Izrada frekvencijskog rečnika

U prvom koraku frekvencijski rečnik je dobijen pomoću opcije Word List u
programu AntConc, koja nam daje listu svih reči, tj. svih oblika u korpusu poređanih po
učestalosti pojavljivanja. Za ovu analizu odabrano je prvih 50 oblika, među kojima su
uglavnom funkcionalne reči. Na prvom mestu je član the i javlja se čak 4733 puta, a zatim
broj pojavljivanja znatno opada na 2829 već kod druge reči to, koja može biti rečca,
1
https://archiveofourown.org/
predlog ili prilog u zavisnosti od konteksta. Na trećem mestu imamo veznik and sa 2653
pojavljivanja, a u ostatku liste nalaze se brojni drugi prilozi i predlozi, kao i značajan broj
zamenica, zatim još neki veznici itd. Važno je napomenuti da program AntConc nizove
karaktera odvojene apostrofom tretira kao zasebne reči, zbog čega se među ovih 50
najučestalijih oblika mogu naći i slova s i t, gde s predstavlja enklitički oblik glagola to be
ili pomoćnog glagola has u trećem licu jednine prezenta, dok t predstavlja skraćeni oblik
odričnog oblika modalnih glagola. Ukoliko se ovi rezultati izbace iz liste, na 49. i 50. mesto
mesto dolaze reči into i your.
2.2. Izrada lematizovanog frekvencijskog rečnika

U drugom koraku ručno je sastavljen lematizovani frekvencijski rečnik na osnovu
već pomenute frekvencijske liste od 50 najučestalijih oblika. Za svaki oblik prvo je
određena njegova lema, nakon čega su svi oblici koji dele istu lemu grupisani zajedno.
Zatim su za svaku reč u lematizovanom rečniku određeni drugi njeni mogući oblici, koji su
dalje pretraženi u korpusu kako bi se dobila i njihova učestalost pojavljivanja. Na kraju su
svi oblici jedne reči grupisani zajedno a njihovi brojevi pojavljivanja u korpusu sabrani, i
na osnovu tih cifara sastavljen je konačni lematizovani frekvencijski rečnik.
Na primer, u frekvencijskom rečniku javili su se oblici he (2117 pojavljivanja), his
(1328) i him (703). Oni svi dele lemu he, a ova zamenica ima još i oblik himself (107).
Kada se sve ovo sabere dobija se ukupno 4255 pojavljivanja, što u lematizovanom
frekvencijskom rečniku zamenicu he stavlja na čak drugo mesto, odmah iza člana the.
2.3. Poređenje rečnika

Kada su u trećem koraku upoređena navedena dva frekvencijska rečnika, uočeno je
da su se na isti način i ostale zamenice popele na više pozicije: zamenica I sa 6. na 3. mesto,
zamenica she sa 19. na 10, zamenica they sa 32. na 15, a zamenica we sa 38. na 22. Kod
nekih reči, međutim, bilo je problematično odlučiti koje sve oblike uključiti u analizu. Kao
primer služi reč one, koja može biti broj, zamenica, imenica ili pridev, a koja samo kao
zamenica ima druge oblike oneself, one’s i ones (doduše, oblik ones ima i kao imenica).
Pošto korpus nije anotiran bilo je teško proceniti u kojoj se vrsti reči one najčešće javlja, ali
su na kraju oblici oneself, one’s i ones ipak dodati celokupnom rezultatu, i lema one se
popela sa 42. na 31. mesto. Interesantno je da su preostale zamenice, you i it, spale u rang
listi iako im je broj pojavljivanja značajno porastao, jer su pogurane nadole od strane
daleko frekventnijih reči.
Od glagola, pod lemu be su svrstani oblici am, are, is, was i were, čime se ona
popela sa 29. na čak 6. mesto. Glagol have se na sličan način sa 22. mesta popeo na 13,
glagol say sa 48. na 24, a glagol will sa poslednjeg, 50, na 28. Naravno, treba uzeti u obzir
da je značajan broj oblika iz frekvencijske liste uklonjen u lematizovanoj listi, što delom
objašnjava ove drastične skokove u rangu—28. mesto od ukupno 50 nije isto što i 28. od
ukupno 38.
Za kraj, pod lemu this svrstan je i oblik množine these, a pod lemu that oblik
množine those, ali im broj pojavljivanja nije značajno porastao, iako se lema this popela sa
34. na 27. mesto.
2.4. Sastavljanje regularnih izraza

U četvrtom koraku sastavljeni su regularni izrazi koji bi izvlačili primere koji se
smatraju čestim u fanfikcijama. Na ovaj način se može analizirati jezik fanfikcije, za koji se
opšte veruje da se u nekim crtama jasno razlikuje od samog književnog jezika. Za početak,
veruje se da pisci fanfikcija, možda ne poznavajući dobro pravopis engleskog jezika, imaju
tendenciju da koriste dugu crtu (znak „–“, „—“, ili ponekad „--“) više nego što je potrebno.
Regularnim izrazom [A-z]*(--|—|–)[A-z]* izdvojeni su delovi rečenica u kojima je
upotrebljena duga crta. Dobijeno je 278 rezultata, što je manje od očekivanog. Duga crta je
upotrebljavana umesto zapete za duže pauze, umesto zagrada, umesto dvotačke za
nabrajanje, ali i za naglo odsečen govor kao u primeru: „We should take off before—“ A
hideous screech cut the air in half. Dalje, takođe se veruje da pisci fanfikcija preterano
koriste kombinaciju predlog + glagol odnosno glagol + predlog. Regularnim izrazima [A-
z]*ly_[A-z]*(ing|ed|[^(an)]d) odnosno [A-z]*(ing|ed|[^(an)]d)_[A-z]*ly dobijeno je 313
odnosno 122 rezultata, čineći ukupno 435 rezultata. Pritom treba imati na umu da su izrazi
ograničeni na glagole u -ing i -ed/d obliku, jer je njih najlakše izvući iz teksta ovom
metodom. Pored toga, reč and namerno je isključena iz rezultata jer predstavlja jednu od
najfrekventnijih reči u datom korpusu i time ometa analizu. Ovako dobijeni rezultati dali su
brojne kombinacije: reacted accordingly, roared angrily, realised belatedly, pausing
briefly, glancing cautiously itd. Zatim, s obzirom da je reč like među 50 najučestalijih reči u
korpusu, regularnim izrazom like_(a|an|the)_[A-z]* možemo dobiti rezultate u kojima se
ona koristi za poređenje. Dobijeno je 77 rezultata, među kojima su: like a blonde [veil], like
a children’s [pop-up book], like a demon, like a flock of birds, like a fool, itd. Za izdvajanje
delova korpusa u kojima specifični likovi vrše nekakvu radnju pogodan je regularni izraz
(Frodo|Sam|Gandalf)_[a-z]*(ed|[^(an)]d)\b, gde se imena Frodo, Sam i Gandalf mogu
zameniti bilo kojim drugim željenim imenima. Reč and je ponovo namerno izostavljena.
Ovim konkretnim izrazom dobijeno je 68 rezultata, unutar kojih je određeni broj glagola
predstavljao alternative za glagol say, kao što su explain, huff, interject, offer, pipe up i sl.
Nedostatak ovog izraza je takođe to što izdvaja uglavnom samo pravilne glagole u prošlom
vremenu, izostavljajući vežinu nepravilnih u prošlom vremenu kao i sve druge vrste glagola
u sadašnjem vremenu. Za kraj, radi izdvajanja upravnog govora iz korpusa upotrebljen je
izraz ("|“).*?(\.|\?|\!|,|...)("|”) koji je dao čak 2163 rezultata. Ovaj izraz, međutim, izdvaja
samo upravni govor obeležen navodnicima, dok bi za onaj obeležen dugim crtama trebalo
pronaći drugo rešenje.
2.5. Analiza po izboru – traženje kolokacija

U petom i poslednjem koraku izdvojeni su kolokati reči eyes, lips, face, hair i
hands, koristeći raspon od jedne reči s leve strane i nijedne s desne. Ovo je urađeno s
namerom da se dobiju pridevi kojima se mogu opisati navedeni delovi tela. Dobijen je mali
broj rezultata: 38 za eyes (watering eyes, tired eyes, prying eyes i sl.), 13 za lips (pursed
lips, parted lips, lush lips i sl.), 39 za face (familiar face, white face, patient face i sl.), 28
za hair (long hair, wild hair, wet hair i sl.) i 24 za hands (sweaty hands, strong hands, nice
hands i sl.). Često su se javljale i prisvojne zamenice. Svi rezultati su imali jako nizak broj
pojavljivanja.

Izveštaj Nevena Radosavljević 20150565

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Izveštaj Nevena Radosavljević 20150565

Uploaded by

Copyright:

Available Formats

Nevena Radosavljević 2015/0565

Korpus fanfikcija i njegova kratka analiza

2.1. Izrada frekvencijskog rečnika

2.2. Izrada lematizovanog frekvencijskog rečnika

2.3. Poređenje rečnika

2.4. Sastavljanje regularnih izraza

2.5. Analiza po izboru – traženje kolokacija

You might also like