You are on page 1of 2

KOVAŘÍKOVÁ, D.; KOVAŘÍK, O.; LUKEŠOVÁ, L. (2021).

Víceslovné jednotky typické pro české


akademické texty. Časopis pro moderní lologii, 103/2, s. 228-243

Cíl studie:
- Sestavit seznam akademických slov a frází pro češtinu

- Tím napomoci plynulému vyjadřování ve studentských pracích, v odborných textech

- Vytvoření aplikace Akalex (www. korpus.cz/akalex, Kov kov — Kov k, 2021) pro výzkum
akademické slovní zásoby pomocí SYN2015

Hypotézy, problémy:
- Otázka, zda pro práci s n-gramy používat lemmata (= základní slovníkové tvary), nebo konkrétní
slovní tvary a zda brát v úvahu interpunkci

- Slovosled může ztížit interpretaci výsledků při tvorbě aplikace

Metodologie:
- vytvořit vhodné subkorpusy z aktuálního korpusu SYN2015

- Vytvořit seznam n-gramů (=slov jdouc ch za sebou v r zn m po tu n)

Korpus SYN2015:
- Synchronní reprezentativní korpus současné psané češtiny

- Obsahuje 100 milionů tokenů

Data z korpusu SYN2015:


- vytvořeny dva subkorpusy:

• Subkorpus SCI - 13 milionů tokenů

• Subkorpus REF - 81 milionů tokenů

N-Gramy pro AKALEX


- brát v úvahu unigramy (jednotlivá slova) i n-gramy (2 a více slov)

- Používání lemmat (základních slovníkových tvarů)

- Slovosled může ztížit interpretaci výsledků - zanedbání

Rysy využívané v databázi Akalex:

- Poměr frekvencí

- Distribuce

- Disperze

- Asociační míra PMI (pointwise mutual information)

- Nejčastější tvar


fi










- POS

Problémy:
- Nastavení prahových hodnot

=> rozhodnutí, zda se soustředit na ,,vyšší precision nebo recall”

Vyhledávání podle lemmatu nebo slovního druhu:


• Slovo odvodit podle lemmatu:

- odvodit z, odvozen od, odvodit že, odvodit i

- je odvozen, lze odvodit, (je) možné odvodit, můžeme odvodit

• Spojení slovesa se spojkou:

- de nována jako, označuje jako, charakterizovat jako, chápat jako, jeví jako, je tudíž, vyplývá že,
ukazuje že

Případová studie pro ověření databáze Akalex:

Kombinace slovních druhů:

Závěr:
- vznik aplikace Akalex určené k výzkumům slovní zásoby typické pro akademické texty

- Položky v seznamu obsahují množství informací sloužící ke třídění - například podle slovního
druhu lze vyhledávat kolokace konkrétního slova

- Díky hodnotě distribuce lze zkoumat univerzálnost n-gramu v akademických textech

- Hodnota disperze nám umožní zjistit rozměrnost rozložení v jednotlivých oborech

Úkol do budoucna:

- provést rozsáhlejší výzkum n-gramů typických pro akademické texty a zaměřit se na jednotky,
které se vyskytují i v nižším počtu oborů
fi

You might also like