You are on page 1of 2

Korpusz

A modern, szekulris nyelvszet egyik jellemzje az adatorientltsg. A nyelvszeti kutatsok eredmnyei csak gy hitelesek, ha azok elegend mennyisg adattal vannak altmasztva. A kutatsok egyik forrsa lehet egy mr lejegyzett, klnbz szempontok alapjn strukturlt beszlt s rott szvegek gyjtemnye. A korpuszok ppen ezt a clt hivatottak betlteni, hiszen a korpuszok szmtgppel feldolgozott, klnfle mdszerek alapjn gyjttt szvegek sszesei (egyik f tulajdonsguk a szmtgpes feldolgozottsg). A modern korpusznyelvszet alapjai az 1960-as vekig nylnak vissza, s fejldse prhuzamos a szmtgpes nyelvszetvel. Ennek oka a szmtgpes feldolgozottsgban rejlik, mivel az adatok lekrdezse, illetve a klnfle vizsglatok a szmtgpes programoktl fggenek (azt is mondhatnnk, hogy a szvegeken elvgzend vizsglatok milyensge a szmtgpes feldolgozottsg mrtktl s a szmtgpes programoktl fgg). Az egyes (nyelvszeti s nem nyelvszeti) vizsglatok eredmnyessgi foknak msik tnyezje az adatmennyisg. Minl nagyobb egy korpusz, annl megbzhatbbak a benne vgzett kutatsi eredmnyek. Szinkrn szempontbl egy modern, megbzhat korpusz legalbb 100 milli szvegszt tartalmaz. A korpuszok gyakorlati jelentsgt felismerve az 1990-es vek elejn, kzepn a szlovk, cseh s magyar nyelv nemzeti korpusznak sszelltsa is megkezddtt (nemzeti, mert az emltett nyelveknek tbb, klnbz kutatsi clokra kidolgozott korpusza is van). A Magyar Nemzeti Szvegtr munklatai 1998 elejn kezddtek el a Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzetnek Korpusznyelvszeti Osztlyn. Az MNSz nemcsak a Magyarorszgon beszlt magyar nyelvet, hanem a Szlovkiban, Ukrajnban, Romniban, illetve Szerbiban beszlt magyar nyelvvltozatokat is feldolgozza. A jelenleg kb. 154 milli szvegszt tartalmaz MNSz elrelthatlag 2005 vgig 15 milli, a kisebbsgi helyzetben hasznlt magyar nyelvvltozat szavval bvl (az MNSz Magyarorszgon kvli anyaga jelenleg csupn elenysz mennyisg mintegy 1,5 milli sz, gy a jelenlegi korpusz "nemzeti" megnevezse nem teljesen adekvt). A 15 milli szvegsz az egyes llamok kztt a kvetkezkppen oszlik meg: Romnia: 6 milli szvegsz, Szlovkia: 4 milli szvegsz, Ukrajna: 3 milli szvegsz, Szerbia s Horvtorszg: 2 milli szvegsz. A kisebbsgi nyelvszek feladata az MNSz hatron tli anyagnak sszegyjtse s a szvegek szmtgpes elfeldolgozsa. Az elfeldolgozs a klnbz formtum szmtgpes szvegek SGML-formtum szvegg alaktst jelenti. Az ltalunk elksztett szvegek feldolgozst a Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzetnek Korpusznyelvszeti Osztlyn vglegestik morfolgiai s szintaktikai elemzseket vgeznek rajta.

A korpusz ksztsnek folyamata a kvetkez vzlattal brzolhat: nyers HTML nyers SGML validlt SGML szegmentls egyrtelmsts annotlt rszkorpusz egyests, TEI header bels referenciamutatk vgs validls MNSz lekrdez szoftver.

Fontosabb korpuszok: Magyar Nemzeti Szvegtr Hatron Tli Magyar Korpusz A Magyar irodalmi s Kznyelv Nagysztri korpusza Slovak National Corpus Czech National Corpus British National Corpus Oxford English Dictionary Collins Cobuild Brown Corpus

You might also like