Professional Documents
Culture Documents
1. Opis korpusa
Ovaj korpus je namenjen istraživanju stila pisanja tzv. „fanfikcija“, tj. priča
objavljenih na Internetu koje se zasnivaju na drugim, već postojećim pričama bilo kakvog
medijuma. Korpus, koji broji ukupno oko 100.000 reči, sastoji se od dvadeset tekstova
napisanih između 2008. i 2018. godine, od kojih svaki ima između 4500 i 5500 reči. Ovi
tekstovi preuzeti su isključivo sa sajta Archive of Our Own1, tako što je baza sajta prvo
filtrirana na osnovu datuma objavljivanja, broja reči i jezika (engleskog), nakon čega su
tekstovi direktno sa sajta preneti u Notepad pomoću opcija copy i paste, i sačuvani u .txt
formatu u karakterskom kodu UTF-8. Za analizu korpusa korišćen je program AntConc
3.5.7.
2. Analiza korpusa
Analiza korpusa sastojala se od sledećih koraka: (1) izrade frekvencijskog rečnika
50 najčešćih reči (oblika) u korpusu; (2) izrade lematizovanog frekvencijskog rečnika
zasnovanog na 50 najčešćih reči u korpusu; (3) poređenja liste pod (2) sa listom pod (1); (4)
sastavljanja pet regularnih izraza za izvlačenje primera leksičkih ili gramatičkih pojava po
izboru i (5) analize po izboru.
1
https://archiveofourown.org/
predlog ili prilog u zavisnosti od konteksta. Na trećem mestu imamo veznik and sa 2653
pojavljivanja, a u ostatku liste nalaze se brojni drugi prilozi i predlozi, kao i značajan broj
zamenica, zatim još neki veznici itd. Važno je napomenuti da program AntConc nizove
karaktera odvojene apostrofom tretira kao zasebne reči, zbog čega se među ovih 50
najučestalijih oblika mogu naći i slova s i t, gde s predstavlja enklitički oblik glagola to be
ili pomoćnog glagola has u trećem licu jednine prezenta, dok t predstavlja skraćeni oblik
odričnog oblika modalnih glagola. Ukoliko se ovi rezultati izbace iz liste, na 49. i 50. mesto
mesto dolaze reči into i your.