Professional Documents
Culture Documents
Magyar Szmtgpes
Nyelvszeti Konferencia
MSZNY 2011
Szerkesztette:
Tancs Attila
Vincze Veronika
ISBN:9789633061213
Szerkesztette:TancsAttilasVinczeVeronika
{tanacs,vinczev}@inf.uszeged.hu
Felelskiad:SzegediTudomnyegyetem,InformatikaiTanszkcsoport
6720Szeged,rpdtr2.
Nyomtatta:JATEPress
6722Szeged,PetfiSndorsugrt3034.
Szeged,2011.november
Elsz
2011. december 12n nyolcadik alkalommal rendezzk meg Szegeden a Magyar
SzmtgpesNyelvszetiKonferencit.Nagyrmetjelentszmomra,hogyaren
dezvnyfokozottrdekldstvltottkiazorszgnyelvsbeszdtechnolgiaiszak
embereinekkrben.Akonferenciafcljaahagyomnyokhozhenanyelvs
beszdtechnolgia terletn vgzett legjabb, illetve folyamatban lev kutatsok
eredmnyeinekismertetsesmegvitatsa,mindemellettlehetsgnylikklnfle
hallgatiprojektek,illetveiparialkalmazsokbemutatsrais.
A konferenciafelhvsra szp szmban berkezett tudomnyos eladsok kzl a
programbizottsg40etfogadottelazideivben,gy28eladss12poszter,illet
velaptoposbemutatgazdagtjaakonferenciaprogramjt.Aprogrambanamagyar
szmtgpesnyelvszetteljespalettjrltallhatunkeladsokatabeszdtechno
lgitlkezdveaszmtgpesszemantikaspragmatikaterletntazinformci
kinyersigsgpifordtsig.
AkorbbivekhezhasonlanidnistervezzkaLegjobbIfjKutatiDjodatl
st, mellyel a fiatal korosztly tagjait kvnjuk sztnzni arra, hogy kiemelked
eredmnyekkeljruljanakhozzamagyarorszginyelvsbeszdtechnolgiaikuta
tsokhoz.AdjfelajnlsrtazMTASzmtstechnikaisAutomatizlsiKutatin
tzetnektartozunkksznettel.
Szeretnkksznetetmondaniaprogrambizottsgnak:VmosTiborprogrambizott
sgielnknek,valamintAlbertiGbor,GordosGza,LszlJnos,PrszkyGbors
Vradi Tams programbizottsgi tagoknak. Szeretnm tovbb megksznni a ren
dezbizottsg (Alexin Zoltn, Almsi Attila, Vincze Veronika) s a ktetszerkesztk
(TancsAttila,VinczeVeronika)munkjtis.
CsirikJnos,arendezbizottsgelnke
Szeged,2011.november
Tartalomjegyzk
I.Tbbnyelvsg
Tbbnyelvdokumentumnyelvnekmegllaptsa....................................................3
PatakiMt,VajnaMikls
Statisztikaigpifordtsimdszerekenalapulegynyelvszvegelemz
rendszerssztvest..............................................................................................12
LakiLszlJnos
Fordtsiplgiumokkeresse.....................................................................................24
PatakiMt
Soknyelvprosgpifordtshatkonysmegbzhatkirtkelse...........................35
OraveczCsaba,SassBlint,TihanyiLszl
Igeibvtmnykeretekfordtsiekvivalenseinekkinyersemlyenelemzett
prhuzamoskorpuszbl..............................................................................................47
HjaEnik,TakcsDvid,SassBlint
Fligkompozicionlisszerkezetekautomatikusazonostsamagyarsangol
nyelven.......................................................................................................................59
VinczeVeronika,NagyT.Istvn,ZsibritaJnos
II.Korpusz,ontolgia
Jelentsegyrtelmstettszabadalmikorpusz..........................................................73
Nagygoston,AlmsiAttila,VinczeVeronika
Korpuszptsmagyarkdexekbl...........................................................................81
SimonEszter,SassBlint,MittelholczIvn
NemlexikalizltfogalmakaMagyarWordNetben.....................................................90
VinczeVeronika,AlmsiAttila
AMagyarszelemtrmegalkotsasaMagyargyksztrelkszt
munklatai................................................................................................................102
KissGbor,KissMrton,SfrnyKovalikBalzs,TthDorottya
III.Szintaxis,morfolgia,nvelemfelismers
Aseklymondattanielemzstovbbilpsei..........................................................113
RecskiGbor
vi
Kzssgkeressalapfelgyeletnlkliszfajiegyrtelmsts...........................119
BerendGbor,VinczeVeronika
Szfajikdoksnvelemekegyttesosztlyozsa..................................................131
MraGyrgy,VinczeVeronika,ZsibritaJnos
Magyarnyelvklinikaidokumentumokelfeldolgozsa.........................................143
SiklsiBorbla,OroszGyrgy,NovkAttila
IV.Beszdtechnolgia
Nyelvimodelladaptcigyflszolglatibeszlgetsekgpileiratozshoz...........155
TarjnBalzs,MihajlikPter,FegyTibor
ProzdiaivltozatossgrejtettMarkovmodellalapszvegfelolvasval...............167
CsapTamsGbor,NmethGza
Aszintaktikaiszerkezetautomatikusfeltrkpezseabeszdjelprozdiai
elemzsealapjn......................................................................................................178
SzaszkGyrgy,BekeAndrs
AHuComTechkorpuszsadatbzisszmtgpesfeldolgozsilehetsgei.
Automatikusprozdiaiannotci.............................................................................190
SzekrnyesIstvn,CsipksLszl,OraveczCsaba
AHuComTechaudioadatbzisszintaktikaiszintjnekelveis
szablyrendszernekjdonsgai..............................................................................199
KissHermina
V.Pszicholgia,pragmatika,kognitvnyelvszet
Acsoportkzirtkelsmintacsoporttraumarzelmifeldolgozsnak
indiktoraanemzetitrtnelemelbeszlseiben...................................................211
CsertIstvn,LszlJnos
Szemantikusszerepekvizsglatamagyarnyelvszvegeknarratvpszicholgiai
elemzsben.............................................................................................................223
EhmannBea,LendvaiPiroska,FritzAdorjn,MihltzMrton,TihanyiLszl
Paralingvisztikaijegyekanarratvpszicholgiaitartalomelemzsben:a
magabiztossgkrzisskla........................................................................................231
PusksLszl
Amultimodlispragmatikaiannotcijelentsgeaszmtgpes
nyelvszetben...........................................................................................................240
BdogAlexa,Abuczkignes,NmethT.Enik
vii
Metaforikuskifejezsekszerkezetijellemzi...........................................................252
BabarczyAnna
VI.Szemantika
AzintenzionalitsszmtgpesnyelvszetikezelseavagyaeALISO
szintfggvnye..........................................................................................................263
AlbertiGbor
TrgymodellvltozatokaeALISnyelvielemzshez................................................276
KilinImre
Interpretci,intenzionalits,modalitsavagyaeALISOfggvnynek
implementcijafel................................................................................................284
KrolyMrton
Kvantifikltkifejezsekhatkritbbrtelmsgnekszablyalapkezelse........297
SzcsnyiTibor
VII.Poszterekslaptoposbemutatk
Interaktvformnsrtkmdostfejlesztse.........................................................309
AbariKlmn,OlaszyGbor
Korpuszalapentrpiamrtkekgatingslexikaidntsiksrletekben...............316
FazekasJudit,NmethKornl,PlhCsaba,VargaDniel
Automatikusanellltottprotosztrakkzzttele..............................................319
HjaEnik,TakcsDvid
MASZEKER:szemantikuskeresprogram.................................................................321
HussamiPter
Interaktvfonetikaieszkzazartikulciscsatornakeresztmetszet
fggvnynekmeghatrozsra...............................................................................323
JaniMtys,BjrnLindblom,StenTernstrm
Szabadalmakignypontgrfjnakautomatikusellltsashibaelemzse...........329
KissMrton,VinczeVeronika,Nagygoston,AlexinZoltn
MagyarNPfelismerksszehasonltsa..................................................................333
MihltzMrton
Javbantaggelnk....................................................................................................336
NovkAttila,OroszGyrgy,IndigBalzs
AHunOrmagyaroroszprhuzamoskorpusz...........................................................341
SzabMartinaKatalin,SchmalczAndrs,NagyT.Istvn,VinczeVeronika
viii
Magyarszalaksmorfolgiaielemzsadatbzis..................................................348
SzidarovszkyFerencP.,TthGbor,TikkDomonkos
Lemmaasszocicismorfolgiaijegyekmestersgesneurlishlzatokban........354
Tthgoston,CsernyiGbor
Fonolgiaijegyekfelgyeletnlklitanulsafonemikuskorpuszbl......................359
VsrhelyiDniel
Szerziindex,nvmutat...............................................................362
I.Tbbnyelvsg
1 Bevezets
Egy digitlis, termszetes nyelven rdott dokumentum nyelvnek megllaptsra
szmos lehetsg van, s a szakma ezt a problmt nagyrszt megoldottnak tekinti
[1][2][3], ugyanakkor a dokumentum nyelvnek megllaptsa nem mindig egyrtelm feladat.
A leggyakrabban hasznlt algoritmusok igen jl mkdnek tesztdokumentumokon
vagy j minsg, gondosan elksztett gyjtemnyeken, ha lehet rluk tudni, hogy
egy nyelven rdtak. Neknk azonban szksgnk volt egy olyan algoritmusra, amely
internetrl letlttt dokumentumokon is jl gyorsan s megbzhatan mkdik. A
KOPI plgiumkeres programunk interneten tallt, megbzhatatlan eredet, gyakran
hibs dokumentumokat dolgoz fel, s ennek sorn lnyeges, hogy a dokumentum
nyelvt, illetve fbb nyelveit megfelelen ismerje fel, azaz tbbnyelv dokumentumok esetben is megbzhatan mkdjn.
A jelenleg nyelvfelismersre hasznlt algoritmusok erre nem voltak kpesek magukban, gy az egyik algoritmust gy mdostottuk, hogy amennyiben egy dokumentumban nagyobb mennyisgben tallhat ms nyelv szveg, akkor azt jelezze, s gy
a plgiumkeres rendszer ezt mint tbbnyelv dokumentumot tudja kezelni.
Az algoritmussal szemben az albbi elvrsokat tmasztottuk:
1.
2.
3.
4.
A legegyszerbb megoldsnak az n-gram algoritmus tnt [1][4], mivel ezen algoritmust hasznlva csak egyszer kell vgigolvasni a dokumentumot s az n-gram sta-
2 Az eredeti algoritmus
Az n-gram algoritmus mkdse igen egyszer, legenerlja egy nyelvnek a leggyakoribb bet n-gramjait, azaz a pldul 1, 2, 3 bet hossz rszeit a szvegnek, majd
ezeket az elfordulsi gyakorisguk szerint teszi sorba. A magyar nyelvben ez a 100
leggyakoribb n-gram az ltalunk hasznlt tesztszvegben ( _ a szkz jele):
1. _
33. s_
17. y
49. er
2. e
34. _m
18. _a
50. f
3. a
35. _a_
19. b
51. ek
4. t
36. en
20. d
52. te
5. s
37.
21. a_
53. s
6. l
22. v
38. n_
54. _s
7. n
23. t_
39. _k
55. al
8. k
24. sz
40. j
56. ta
9. i
25. el
41. ._
57.
10. r
26. ,
42. i_
58. _h
11. z
27. ,_
43. eg
59. _t
12. o
28. h
44. p
60. an
13.
29. k_
45. _e
61. ze
14.
30. .
46. u
62. me
15. g
31. et
47. le
63. at
16. m
32. gy
48.
64. l_
es
y_
z_
tt
ke
_v
s
ak
74.
75.
76.
77.
78.
79.
80.
81.
82.
5
_
ny
t
c
re
to
A
e_
83.
84.
85.
86.
87.
88.
89.
90.
91.
ne
os
l
_f
az
zt
r
_n
ko
92. _A
93. _sz
94. is
95. ve
96. gy_
97. t
98. _b
99. ra
100.or
_ (1-1)
e (2-2)
t (3-4)
o (4-12)
n (5-7)
i (6-9)
a (7-3)
s (8-5)
r (9-10)
h (10-28)
sszefggssel kapjuk.
Pldnak nzzk meg, hogy mekkora hasonlsgot mutatnak klnbz nyelv
dokumentumok a mintadokumentumainkhoz kpest. Az egyszerbb olvashatsg
rdekben hszzalhos rtkekkel szmolva a klnbz nyelv Szeged Wikipdiaszcikkekre [5][6][7][8][9].
7. magyar: 33.2
Egy angol-nmet nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. nmet: 53.47
2. angol: 44.14
3. frz: 40.98
4. kzp-frz: 40.61
5. holland: 40.08
Lthat, hogy a magyar-olasz, ill. magyar-francia kevert szvegben a magyar
nyelv bele se kerlt az els 5 tallatba.
Vgl nzzk meg, hogy egy hromnyelv, harmadolt arnyban kevert dokumentumra mit kapunk.
Egy magyar-angol-olasz nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. angol: 46.55
2. olasz: 44.55
3. romans: 43.58
4. kataln: 42.41
5. romn: 41.11
3 Az j algoritmus
Mint lttuk, bizonyos nyelvek hasonltanak egymsra az n-gram algoritmus szempontjbl, gy egy tbbnyelv dokumentum esetn a msodik helyen nem minden
esetben a dokumentum msodik nyelvt talljuk, radsul az se derl ki, hogy a msodik nyelv azrt kerlt oda, mert valban szerepel a dokumentumban, vagy azrt,
mert hasonlt az els nyelvre. Ezrt az j algoritmusunkban elkezdtk kiszmolni a
nyelvek kztti hasonlsgot, mghozz a nyelvfelismershez hasznlt n-gram mintk kztti hasonlsgot. A tvolsgok tipikus rtkeire nzznk nhny esetet.
A magyar nyelvhez legkzelebb ll nyelvek tvolsg-rtkei:
1. breton: 104 541
2. kzp-frz: 104 751
3. svd: 106 068
hi ' hi
i 1
hi ' hi
ha i 1
u hLiLk
k 1
i 1
ha i ! 1
k 1
10
frz: 1.48
nepli: 1.44
11
5 Konklzi
Ahhoz, hogy megllaptsuk, egy dokumentum egy vagy tbb nyelven rdott-e, kell
vlasztanunk egy olyan rtket, ami felett azt mondjuk, hogy a msodik nyelv is relevns, azaz a dokumentum tbbnyelv. Ezt az rtket a tesztek alapjn 4-nek vlasztottuk, azaz 4-es rtk felett jelezzk csak ki a nyelveket. Ez az rtk a felhasznlsi
ignyeknek megfelelen vlaszthat. Akkor rdemes valamivel alacsonyabbra lltani, ha mindenkpp szre szeretnnk venni, ha a dokumentum ktnyelv, ha pedig
csak igazn nagy idegen nyelv rszek rdekelnek, s nem okoz gondot a hibsan
egynyelvnek tallt dokumentum, akkor llthatjuk akr magasabbra is.
Ezzel a paramterrel az algoritmust rszletesen teszteltk a plgiumkeresnkbe feltlttt dokumentumokon, s a vele szemben tmasztott ignyeknek messzemenkig
megfelelnek talltuk. Ki tudtuk szrni vele a rosszul konvertlt s tbbnyelv dokumentumok tbb mint 90%-t. A tesztek befejezse utn az j algoritmust beptettk a KOPI Plgiumkeres rendszerbe, ahol a korbbi, kevsb pontos eredmnyt ad
algoritmust vltotta ki.
Bibliogrfia
1. Cavnar, W. B.; Trenkle, J. M.: N-Gram-Based Text Categorization. Proceedings of Third
Annual Symposium on Document Analysis and Information Retrieval. UNLV
Publications/Reprographics, Las Vegas, NV, (1994) 161-175
2. ehek, R.; Kolkus, M.: Language Identification on the Web: Extending the Dictionary
Method. In: 10th International Conference on Intelligent Text Processing and
Computational Linguistics (2009)
3. Benedetto, D.; Caglioti, E.; Loreto. V.: Language trees and zipping. Physical Review Letters
Vol. 88, No. 4 (2002)
4. Dunning, T.: Statistical Identification of Language. Technical Report MCCS 94-273, New
Mexico State University (1994)
5. Wikipedia: Szeged szcikk magyar nyelven, http://hu.wikipedia.org/wiki/Szeged (2011)
6. Wikipedia: Szeged szcikk angol nyelven, http://en.wikipedia.org/wiki/Szeged (2011)
7. Wikipedia: Szeged szcikk nmet nyelven, http://de.wikipedia.org/wiki/Szeged (2011)
8. Wikipedia: Szeged szcikk olasz nyelven, http://it.wikipedia.org/wiki/Seghedino (2011)
9. Wikipedia: Szeged szcikk francia nyelven, http://fr.wikipedia.org/wiki/Szeged (2011)
12
1.
Bevezets
2.
A szfaji egyrtelmsts
Szfaji egyrtelmsts az a folyamat, amely a szvegben tallhat szavakat ltalnos lexikai jelentsk s kontextusuk alapjn megjelli a megfelel POS cm-
13
kvel. Egy helyesen cmkzett mondatban minden szhoz pontosan egy cmke
van rendelve. Ennek ellenre a szfaji egyrtelmsts sokkal komplexebb feladat
egy sz s cmkjnek listjbl val kikeresshez kpest, mivel egy sznak tbb
szfaji alakja is lehet.
Erre a feladatra ltrehozott els megoldsok elre megrt szablyrendszerek
segtsgvel elemezik a szveget. A problma ezekkel a rendszerekkel a szablyok
ltrehozsnak magas kltsge volt. Napjaink elterjedt rendszerei gpi tanulson
alapul mdszereket hasznlnak, amelyek klnbz nyelvi jellemzk segtsgvel
maguk ismeri fel a szablyokat, m a megfelel jellemzk meghatrozsa szintn
nehz feladat. A klnbz nyelvi sajtossgok nehezen fogalmazhatk meg s
llthatk ssze olyan teljes, mindent magba foglal szablyrendszerr, mely a
szmtgp szmra feldolgozhat. Ilyen nyelvi sajtossgok lehetnek pldul a
nyelvek kztti fordts szablyai, valamint a morfolgiai elemzs.
A szfaji egyrtelmstk teljestmnynek egyik nagyon fontos tnyezje a
tanthalmazban nem szerepl szavak (OOV: out-of-vocabulary) elemzse. Az
OOV szavak elemzse nagyban fgg az elemzend nyelvtl. Pldul az angol
nyelv esetben nagy valsznsggel az OOV szavak tulajdonnevek lesznek. Ezzel
szemben ms nyelvek esetben mint a magyar vagy a mandarin knai az OOV
szavak fnevek s igk is lehetnek.[1]
2.1.
A sztvests
Lemmatizls szmtgpes nyelvszeti szempontbl az az algoritmikus folyamat, amelyik meghatrozza egy sz sztri alakjt. Napjainkban tbb megvalsts is ltezik ezen feladat megoldsra (pldul: HUMOR [2]), de ezek ltalban
bonyolult mdszereket alkalmaznak. Ezzel szemben az SMT rendszeren alapul
sztvests elzetes nyelvtani ismeret nlkl vgzi el ezt a feladatot.
2.2.
Ltez megvalstsok
3.
A statisztikai nyelvfeldolgozs elterjedt alkalmazsa a gpi fordts. A statisztikai gpi fordt (SMT) mdszer nagy elnye a szablyalap fordtssal szemben,
hogy az architektra ltrehozshoz nem szksges a nyelvek grammatikjnak
ismerete. A rendszer tantshoz csupn egy ktnyelv korpuszra van szksg,
amelybl statisztikai meggyelsekkel nyerjk ki a szablyokat. A fordts sorn
14
az egyetlen, amit biztosan tudunk, az a mondat, amit le szeretnnk fordtani (forrsnyelvi mondat). Ezrt a fordtst gy vgezzk, mintha a clnyelvi mondatok
halmazt egy zajos csatornn tengednnk, s a csatorna kimenetn sszehasonltannk a forrsnyelvi mondattal.
= argmax p(E|F ) = argmax p(F |E) p(E)
E
E
(1)
4.
Amint a bevezetben mr emltettem, a szvegelemzs is megfogalmazhat ford megfogalmaztsi feladatknt. Egy tetszleges mondat (F ) szfaji elemzse (E)
hat a kvetkez egyenlettel:
= argmax p(E|F ) = argmax p(F |E) p(E)
E
E
(2)
5.
MOSES
Tbb mdszert is megvizsgltam, melyek kpesek prhuzamos korpuszbl informcit kinyerni. Vgl az IBM modellek mellett dntttem, mivel hatkony,
viszonylag pontos, s a feladatnak nagyon jl megfelel algoritmusnak bizonyultak. Ezrt kezdtem hasznlni a Moses keretrendszert [6,7,8], amely implementlja
ezeket a modelleket. Ebben a rendszerben megtallhat a prhuzamos korpusz
elfeldolgozsa, a fordtsi s nyelvi modellek ltrehozsa, a dekdols, valamint
a BLEU-metrikra val optimalizls.
15
Joshua
Msfell a Joshua keretrendszert [9] hasznltam, mely nem pusztn sz- vagy
frzisszint statisztikai valsznsgi modelleket hasznl, hanem bizonyos nyelvtani jellemzk elfordulst is gyelembe veszi. A Joshua rendszer tovbbi nagy
elnye, hogy kpes ezen generatv szablyok kzti fordtsra oly mdon, hogy
megadhatak a szablyok mind a forrsnyelvre, mind a clnyelvre, valamint az
is denilhat, hogy mekkora valsznsggel transzformlhatk t a szablyok
egymsba.
5.3.
Korpusz
Az SMT-rendszer tantshoz szksges ktnyelv prhuzamos korpuszt, a Szeged Korpusz 2.0-t hasznltam. A korpusz elnyei, hogy a szavak MSD-kdols
POS-cmki mellett azok sztvei is szerepelnek benne, ltalnos tmj, valamint kszti kzzel ellenriztk annak helyessgt. Htrnya, hogy viszonylag
kis mret. Mivel a szfaji cmkk elemszma korltozott, ezrt elvben kisebb
mret korpuszban is elg nagy gyakorisggal szerepelhetnek. [10,11]
5.4.
Kirtkel mdszerek
6.
6.1.
Eredmnyek
Az alaprendszer ltrehozsa
Az els betants. Mint mr korbban emltettem, az SMT-rendszer betantshoz egy prhuzamos korpusz szksges. A Szeged Korpusz 2.0-bl lltottam
el az ltalam hasznlt forrsnyelvi s clnyelvi korpuszokat. Az elbbibe az
eredeti, elemzetlen s tokenizlt mondatokat tettem, mg az utbbiba a mondatban szerepl szavak sztvei, valamint azok POS-cmki kerltek. Az gy kapott
rendszer eredmnyei az 1. tblzatban szerepelnek.
A kirtkelsnl szembetnt a rendszer egy slyos hibja, miszerint az elemzett korpuszban egyms utn szerepelnek a szavak sztvei, amikhez hozzkapcsoldnak az elemzst tartalmaz cmkk, de a tbb tagbl ll kifejezsek esetben (pl.: tbbtag tulajdonnevek, igei szerkezetek) a cmke csak a kifejezs utols
szavn, vagy utna helyezkedik el. Az egy szfaji egysgbe tartoz kifejezsek
16
jellsnek hinya a statisztikai mdszerben flrevezet fordtsi modellt eredmnyez. Ennek ksznheten a rendszer az elemzett szveghez vletlenszeren
hozzad cmkket, ezrt gyengbb eredmnyt rt el.
Az nll POS-cmkk eltvoltsa. Az eredmny javtsa rdekben minden nll cmkt hozzcsatoltunk az eltte ll szhoz, gy kaptuk a 2. tblzatban lthat eredmnyeket.
2. tblzat. A 6.1. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
90.97% 90.80%
9.20%
JOSHUA
90.96% 90.72%
9.28%
17
SMT
elemz:
Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
ez_[pd3-sa] a_[tf] lobbyert_[x] s_[ccsw] kpessg_[nc-sa]
a_[tf] diplomciai_[afp-sn] erfeszts_[nc-pp] kvl_[st] mindenekeltt_[rx] a_[tf] magyarorszgi_[afp-sn] multinacionlis_[afppn] adhat_[vmcp3py] ._[punct]
ez_[pd3-sa] a_[tf] lobbyert s_[ccsw] kpessg_[nc-sa] a_[tf]
diplomciai_[afp-sn]
erfesztseken
kvl_[st]
mindenekeltt_[rx] a_[tf] magyarorszgi_[afp-sn] multinacionlis_[afp-pn]
adhat_[vmcp3py] ._[punct]
Tovbbiakban ezt a rendszert fogom alaprendszernek tekinteni. A tovbbiakban vizsglt rendszereknl kikts lesz, hogy a fent emltett hibkat elhagyjam,
vagyis ne lljanak nmagukban cmkk, illetve a tbbtag kifejezsek ssze legyenek ktve.
6.2.
18
Ezt munkm sorn gy valstottam meg, hogy az elemz rendszerembl elhagytam a sztvestst, s csak a szfaji egyrtelmstst alkalmaztam. Mivel
ezltal csak a szavak POS-tag-jeire fordtok, a clnyelvi oldal sztri elemeinek
szma nagy mrtkben cskken. Az alaprendszer esetben 152694 elembl llt a
clnyelvi sztram, ezt cskkentettem le 1128 elemre. gy a fordtsi feladat bonyolultsgt cskkentve egy relatve pontos rendszer hozhat ltre kis korpuszbl
is. Msrszrl a sztvek elhagysval csak cmkk halmazra fordtok, ezltal az
egyes cmkk nagyobb sllyal szerepelnek, mind a fordtsi, mind pedig a nyelvi
modellben. A tants utn az 5. tblzatban lthat eredmnyt kaptam.
5. tblzat. A 6.2. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
89.01% 91.46%
8.54%
JOSHUA
88.57% 91.09%
8.91%
A rendszer eredmnyeit vizsglva kiderlt, hogy a BLEU-rtk tovbbi cskkensnek ellenre a rendszer pontossga jobb lett. Itt mr az 518 teljesen helyes
mondat mellett 982 mondat volt helytelen (0.8%-os javuls az alaprendszerhez
kpest). Tokenek szintjn 24603 volt helyes s 2297 volt helytelen (0.17%-os javuls). Ebbl a rendszer ltal nem elemzett szavak szma 1699, amely vltozatlan
az alaprendszerhez kpest. Ezekbl az eredmnyekbl vilgosan ltszik, hogy a
rendszer minsgnek javulsa abbl addik, hogy az alaprendszer ltal elrontott 646 elemzs az j rendszerben 598-ra cskkent. Az eredmnyek mlyebb
vizsglata sorn szembetnt, hogy e mgtt a 48 darabos javuls mellett tbb
eddig helyes elemzs romlott el. Ilyen hiba pldul a hatrozszk s a ktszk
keverse, valamint a ktszk s a mutat nvmsok tvesztse. A 6. tblzatban
egy pldamondat olvashat a 6.2. rendszer kimenetbl.
6. tblzat. Pldamondat a 6.2 . rendszer eredmnybl
Rendszer
Sima
szveg:
Referencia
elemzs:
SMT
elemz:
Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] lobbyert [ccsw] [nc-sa] [tf] [afp-sn] erfesztseken [st]
[rx] [tf] [afp-sn] [afp-pn] [vmcp3py] [punct]
19
A POS cmkk egyszerstse. Az elz (6.2) fejezet eredmnyeibl kiindulva megvizsgltam, hogy a clnyelvi sztr tovbbi cskkentse milyen hatst
gyakorol a rendszer minsgre. Annak rdekben, hogy megvizsgljam a rendszer mkdst a lehet legegyszerbb krlmnyek kztt, hogy az elemzsi
mlysget nagy mrtkben cskkentettem.
Ezt a kvetkez rendszer segtsgvel tanulmnyoztam oly mdon, hogy csak
a f szfaji cmkket (az MSD-kd els karaktereit) hagytam meg a clnyelvi
sztrban. Ebben az esetben a clnyelvi sztr 14 elembl ll. A tants utn
a 7. tblzatban lthat eredmnyt kaptam.
7. tblzat. A 6.2. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
79.57% 92.20%
7.80%
A rendszer kirtkelsbl kiderlt, hogy az eddig meggyelt tendencia folytatdik. Teht amg a BLEU-rtk cskkent, a rendszer pontossga nvekedett.
Ebben az esetben a rendszer 553 mondatot elemzett helyesen, mikzben 947-et
rontott el. Ez a 6.2. rendszerhez kpest 2.3%-os, mg az alaprendszer (6.1) esetben 3.1%-os nvekedst jelent mondatok szintjn. Tokenek tekintetben 24803
volt helyes s 2097 volt helytelen elemzs, ami 0.74%-os javuls a 6.2. rendszerhez kpest, illetve 0.88% az alaprendszerhez kpest. A 8. tblzatban egy
pldamondat olvashat a 6.2. rendszer kimenetbl.
8. tblzat. Pldamondat a 6.2. rendszer eredmnybl
Rendszer
Sima szveg:
Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
Referencia elemzs: p t x c n t a n s r t a a v p
SMT elemz:
p t lobbyert c n t a erfesztseken s r t a a v p
20
21
Fordtsok
ezt a unk s unk a diplomciai unk kvl mindenekeltt a magyarorszgi unk unk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct] [pd3-sa] [tf] [nc-sa] [ccsp] [vmis3py]
[tf] [afp-sn] [nc-pn] [st] [rx] [tf] [afp-sn] [nc-pn] [nc-sas3] [punct]
22
7.
Fordtsok
ezt a unk s kpessget a unk erfesztseken kvl mindenekeltt a
magyarorszgi multinacionlisok adhatnk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] [nc-sa] [ccsw] [nc-sa] [tf] [afp-sn] erfesztseken [st] [rx]
[tf] [afp-sn] [afp-pn] [vmcp3py] [punct]
sszefoglals
Kutatsom sorn az SMT-rendszer lehetsgeit vizsgltam a szfaji egyrtelmsts s a lemmatizls feladatainak megvalstsra. Meggyelsem szerint ezek
a problmk megfogalmazhatk a sima szvegrl elemzett szvegre val fordtsknt is. Az erre a clra hasznlt rendszerek pontossga elrheti akr a 92%-ot is.
Annak ellenre, hogy ez az eredmny nem ri el a napjaink legjobb POS-tagger
rendszernek szintjt, az ltalam felptett rendszer teljesen automatikusan ismeri fel a szablyokat, s nincs szksg elzetes szvegfeldolgozsra. Msrszt ez
a rendszer prhuzamosan vgzi az annotls s a lemmatizls feladatt. Az itt
elvgzett ksrletekkel bebizonytottam, hogy a clnyelvi sztr mretnek cskkentse csak minimlis javulst okoz a rendszer pontossgban, viszont risi
informcivesztesget eredmnyez.
Az eredmnyek azt is megmutatjk, hogy tisztn statisztikai alap mdszerek nem elegek ezen feladatok megvalstsra, hanem szksg lenne valamifle
hibridizcira is. Az eredmnyek a jvre nzve biztatak, clom a tovbbi lehetsgek vizsglata.
23
Hivatkozsok
1. Gasc I Mora, G., Snchez Peir, J.A.: Part-of-speech tagging based on machine
translation techniques. In: Proceedings of the 3rd Iberian conference on Pattern
Recognition and Image Analysis, Part I. IbPRIA 07, Berlin, Heidelberg, SpringerVerlag (2007) 257264
2. Prszky, G., Kis, B.: A unication-based approach to morpho-syntactic parsing of
agglutinative and other (highly) inectional languages. In: Proceedings of the 37th
annual meeting of the Association for Computational Linguistics on Computational Linguistics. ACL 99, Stroudsburg, PA, USA, Association for Computational
Linguistics (1999) 261268
3. Oravecz, C., Dienes, P.: Ecient Stochastic Part-of-Speech Tagging for Hungarian.
In: Proc. of the Third LREC, pages 710717, Las Palmas, Espanha. (2002) ELRA.
4. Halcsy, P., Kornai, A., Oravecz, C., Trn, V., Varga, D.: Using a morphological
analyzer in high precision POS tagging of Hungarian. In: Proceedings of LREC
2006. (2006) 22452248
5. Laki, L.J., Prszky, G.: Statisztikai s hibrid mdszerek prhuzamos korpuszok
feldolgozsra. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia, Szeged,
Szegedi Egyetem (2010) 6979
6. Koehn, P.: Statistical Machine Translation. Cambridge University Press (2010)
7. Koehn, P.: Moses - A Beam-Search Decoder for Factored Phrase-Based Statistical
Machine Translation Models. (2009)
8. Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N.,
Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A.,
Herbst, E.: Moses: Open Source Toolkit for Statistical Machine Translation. In:
Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, Association for
Computational Linguistics (2007) 177180
9. Li, Z., Callison-Burch, C., Dyer, C., Ganitkevitch, J., Khudanpur, S., Schwartz,
L., Thornton, W.N.G., Weese, J., Zaidan, O.F.: Joshua: an open source toolkit
for parsing-based machine translation. In: Proceedings of the Fourth Workshop on
Statistical Machine Translation. StatMT 09, Stroudsburg, PA, USA, Association
for Computational Linguistics (2009) 135139
10. Csendes, D., Hatvani, C., Alexin, Z., Csirik, J., Gyimthy, T., Prszky, G., Vradi,
T.: Kzzel annotlt magyar nyelvi korpusz: a Szeged Korpusz. In: I. Magyar
Szmtgpes Nyelvszeti Konferencia, Szegedi Egyetem (2003) 238247
11. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizci a Szeged
Treebank 2.5-ben. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia, Szeged,
Szegedi Egyetem (2010) 349353
12. Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic
evaluation of machine translation. In: Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics. ACL 02, Stroudsburg, PA, USA,
Association for Computational Linguistics (2002) 311318
24
Kivonat: Napjainkban egyre tbb dik beszl idegen nyelveken, ami elny, hiszen fel tudjk dolgozni az idegen nyelv szakirodalmat s tudomnyos eredmnyeket, htrny azonban, ha ezt hivatkozs nlkl teszik, azaz plagizlnak.
Az elmlt egy v alatt egy kutats keretben arra kerestk a vlaszt, hogy meg
lehet-e tallni, fel lehet-e ismerni a fordtsi plgiumokat. Ennek sorn egy
olyan algoritmust fejlesztettnk ki, amely kpes egy nagymret, idegennyelv
adatbzisbl kikeresni egy magyar nyelv dokumentumban idzett, lefordtott
szvegrszeket.
1 Bevezets
Termszetes nyelv szvegek fordtsnak megtallsa nemzetkzi szinten is megoldatlan, mg a sokak ltal beszlt angol s nmet nyelvek kztt is, ugyanakkor megoldsa szmos terleten jelentene nagy elrelpst. A kutatsi eredmnyek nemcsak
plgiumok felkutatsban, hanem a prhuzamos korpuszok ptsben, a hrek, cikkek, szvegek terjedsnek a vizsglatban, hasonl tmkkal dolgoz emberek,
kutatcsoportok megkeressben is alkalmazhatk.
A prhuzamos korpuszok nagy jelentsge nemcsak az oktatsban rejlik, e korpuszok szmos kutats alapjaknt, algoritmusok tant adatbzisaknt is szolglnak.
Hasznljk ket az alkalmazott nyelvszetben: sztrksztk, gpi fordtk szmra,
valamint kontrasztv nyelvszeti kutatsokhoz is elengedhetetlenek.
Eurpban fontos tma a plgiumkeress, de mg nemzetkzi szinten is csak kutatsi terlet a fordtsi plgiumok keresse. [1] Az irodalomban ismertetett legtbb
algoritmus nyelvprfgg, azaz egymshoz nyelvtanban hasonl nyelvek esetn
bartsgos nyelvprok jl mkdik, de jelentsen eltr nyelvtan nyelvek esetn
rossz eredmnyt mutat. Angol-nmet nyelvprra pldul egsz szp eredmnyeket
rtek mr el, mg az angol-lengyel nyelvprra ugyanaz az algoritmus hasznlhatatlannak bizonyult. A magyar nyelvben hrom f akadly van: a) nem kttt szrend, b)
ragozs, c) jelents nyelvtani klnbzsg az angol nyelvtl.
Dr. Debora Weber-Wulff ktvente teszteli az sszes elrhet plgiumkerest,
2010-ben 48 plgiumkerest tesztelt, s azt llaptotta meg, hogy:
The biggest gap in all the plagiarism checkers was
the inability to locate translated plagiarism. [2]
25
2 Az algoritmus
A legtbb szakirodalomban s kezdeti kutatsokban olyan algoritmusokat lthatunk a
fordtsi plgiumok keressre, amelyek a jelenlegi egynyelv keressek adaptlsai
egy adott nyelvprra. A legjobb plgiumkeresk tlapold szavas darabolst (ngramokat) hasznlnak a szvegek sszehasonltsra, a plgiumkeressre. [4] Ez az
algoritmus sz szerinti egyezst keres, amelyet szmos ms algoritmussal igyekeznek
javtani, hogy kisebb trsokat, eltrseket ne vegyen figyelembe, ezek kzl a legygyakrabbak az albbiak: a) stopszavak szrse, b) sztvezs, c) bizonyos szavak
kicserlse egy szinonimra, d) szavak sorrendezse az n-gramon bell. Ezek a vltoztatsok sokkal nehezebb teszik a plgiumok elrejtst, s jelentsen megnvelik a
lebuks kockzatt, ugyanakkor klnbz nyelven rt szvegek kztt mg mindig
nem teszik lehetv az sszehasonltst.
Tbben is prblkoztak automatikus, gpi fordtk alkalmazsval, hogy kt szveget azonos nyelvre hozzanak, ugyanakkor ezen fordtk eredmnyei ma mg nagyon megbzhatatlanok, nagyban fggnek az adott nyelvprtl, a szveg tmjtl, a
mondatok sszetettsgtl. sszefoglalva elmondhatjuk, s ez nem csak a gpi fordtkra igaz habr azokra kiemelten az , hogy egy fordts komoly vltoztatst
eredmnyez a szvegen, hibkat visz be, s a szavak mondaton belli sorrendjn is
nagymrtkben vltoztat, fleg az olyan nem kttt szrend nyelvek esetben, mint
amilyen a magyar.
A gpi fordtkat alkalmaz algoritmus tulajdonkppen kt klnbz algoritmussal trtn fordtsi lpsnek veti al a szveget (egy kzi a plagizl ltal s
egy gpi az ellenrzskor), majd az ezek utn kapott, visszafordtott szveget hasonltja ssze az eredeti szveggel. Esetleg egy adott szveget ktszer fordt le egy msik
nyelvre (egyszer kzzel, egyszer gppel), majd ezeket hasonltja ssze. Mivel a legtbb mondatnak nincsen egy adott j fordtsa, hanem szmos lehetsges fordtsa
van, gy majdnem teljesen biztosak lehetnk benne, hogy komoly klnbsgek lesznek a mondatok kztt, nemcsak a szrendben, hanem a hasznlt szavakban, kifejezsekben is. Fischer Mrta ezt gy fogalmazza meg:
26
27
Ragozs: a magyar nyelv (akrcsak pldul a trk) szmos dolgot ragokkal, a szval egybe rva fejez ki, mg ms nyelvek erre elljrt hasznlnak.
Ami magyarul az lmomban, az angolul in my dream trtnt.
Antonma: gyakran egy kifejezst jobb antonmval fordtani, nem nmagval. Mg magyarul valami nem felel meg a clnak, addig ugyanez angolul
inadequate.
Azaz szmos eset kpzelhet el, amikor egy adott sz nem felel meg egyrtelmen
a msik nyelv egy szavnak, ugyanakkor a szavak jelents rsze megtallhat lesz
mindkt nyelvben. Ugyan a szavakat jl fel lehet hasznlni arra, hogy fordtsokat
keressnk, de nmagban kt szveg mg nem lesz azonos pusztn azrt, mert sok
kzs szavuk van.
Ha eggyel magasabb szintre lpnk, a tagmondatok szintjre, akkor azt ltjuk,
hogy br gyakran elfordul a tagmondatok egyezse, de mg a magyarban igen sok
vesszt hasznlunk, s legtbbszr egyrtelmen jelljk a tagmondatok hatrt,
addig az angol nyelvben alig vannak vesszk, s kimondottan nehz feladat a tagmondatok hatrnak megkeresse. Emiatt ezzel a lehetsggel most itt nem is foglalkozunk.
A kvetkez szint a mondatok szintje. Ha valaki nekill egy szveg fordtsnak,
akkor azt az esetek tlnyom rszben mondatonknt fordtja le. Egy irodalmi fordts esetn gyakrabban tallkozunk azzal, hogy egy mondatot kettbe szed a fordt,
vagy kt mondatot sszevon, de mg itt is viszonylag ritkn fordul el ez a gyakorlat.
Az ennl magasabb szintekkel, bekezdsekkel, fejezetekkel ugyanaz a legnagyobb
gond, mint a tagmondatokkal: nem egyrtelm a jellsk, elhagyhatak, sszevonhatak, gy ezek egyezsnek a vizsglatra gyszintn nem trnk most ki.
Mint lttuk, fordtsok esetben a legrtelmesebb szint a szavak vagy a mondatok
szintje. A szavak esetben viszont lnyeges a sz tbbi szhoz viszonytott pozcija,
a szvegkrnyezet, hiszen brmely kt azonos nyelven rdott szvegben vannak
azonos szavak, mg akr ezek mrtke is magas lehet, azonban ekkor sem biztos,
hogy a kt szvegnek ugyanaz a jelentse, vagy esetleg csak a tmja egyezik. Mint
azt a webes keresk esetben ltjuk ahol adott szavakat tartalmaz szvegekre keresnk nagyon nagy az olyan tallatok szma, amelyek ugyan megfelelnek a kereskrdsnek, de semmi kzk sincs ahhoz, amit kerestnk. Azaz nmagban a szavak
egyezsge nem tesz kt szveget egyms msolatv, nem lehet ltala megllaptani
a plagizls tnyt. Ez kt klnbz nyelv esetben mg inkbb gy lesz, hiszen egy
adott sznak a msik nyelvben szmos msik felel, vagy felelhet meg, gy mg ez is
komoly bizonytalansgot eredmnyez.
28
Termszetesen ez nem azt jelenti, hogy a szavak nem hasznlhatk kt szveg kzti egyezs megtallsra, de nmagban ez nem elg: hiszen ha valaki lefordt egy
egyoldalas szveget angolrl, s beteszi a 120 oldalas magyar diplomjba, akkor
ennek a megtallsa csak a szavak hasznlatval lehetetlen. Mindenkppen definilnunk kell egy szvegkrnyezetet, ahol a szavakat keressk. Ezrt a kutatshoz a legjobb kiindulsi pontnak a mondatalap keress tnt, ahol a szavaknak van szvegkrnyezetk (egy mondat), radsul a mondat mr elg egyedi ahhoz, hogy kt dokumentumban mg ha azonos tmban rdtak is nagyon kicsi annak az eslye, hogy
kt azonos mondat lesz (rvid, egy-, kt-, hromszavas mondatokat s kzs idzeteket nem szmtva). Knnyen belthatjuk ezt, ha belegondolunk, hogy a legtbb
nyelvnek tbb szzezer szava van [7], a nyelvtani szablyokat most figyelmen kvl
hagyva, szzezer szval szmolva az adott nyelven egy n szbl ll mondat (Sn)
sszes lehetsges vltozata:
|Sn| = (2 105)n
Ez egy mg hossznak sem mondhat 10 szavas mondat esetben:
|S10| 1053
Termszetesen ennek a jelents rsze rtelmetlen mondatot eredmnyezne, de ennek a hatalmas szmnak mg az egy tzezrelke is hatalmas. Ha hozzvesszk, hogy
pldul a magyar nyelvben a legtbb sznak szmos alakja van, akkor ez a szm mg
jelentsen nvekedne, de az angol nyelv esetben is a tbbesszm s egyb alakok
miatt az alapszkincs tbbszrse a tnylegesen elfordul szalakok szma. Ezrt
tekinthetnk gy egy mondatra, mint egyedi alkotsra. Sokak szerint egy mondatnl
kezddik a plagizls, azaz egy (tartalmas, hosszabb) mondat mr rendelkezik annyi
egyedi tulajdonsggal, hogy lemsolsa esetn lehet plagizlsrl beszlni.
rdemes megnzni a Wikipdia ide vonatkoz oldaln tallhat sszefoglal tblzatot, amelybl itt csak egy kivonatot mutatunk be. [8]
Dokumentum, bemeneti adat, szvegkrnyezet
Egy szveg leggyakoribb szavai kzl ennyi adja ki annak
25%-t.
Egy szveg leggyakoribb szavai kzl ennyi adja ki annak
60%-t.
Kb. egy 2 ves gyerek szkincse
Az Ogden-fle egyszer angol nyelv (Basic English) szkincse
Ennyi szt hasznlnak az els osztlyosok olvasstantsban.
Kb. egy 6 ves gyerek szkincse
Arany Jnos Toldi c. mvben felhasznlt szkincse
Az tlagember aktv szkincse (l-aktv s szunnyadaktv)
Szavak szma
15
|S10|
100
1,0E+20
5,8E+11
300 5,9E+24
850 2,0E+29
1000
1,0E+30
2500 9,5E+33
3000 5,9E+34
3 000-5 000 5,9E+34
29
3 500-3 900 2,8E+35
5 000 9,8E+36
5 000-10 000 5,6E+38
6 000 6,0E+37
8-9 000 1,1E+39
10-12 000 1,0E+40
10-30 000 1,0E+43
18-25 000 1,7E+43
22 719 3,7E+43
25-30 000 3,0E+44
50-60 000 2,5E+47
60-100 000 1,1E+49
120 000 6,2E+50
171 476 2,2E+52
291 500
4,4E+54
350 000
2,8E+55
>450 000
3,4E+56
1 000 000
1,0E+60
7 200 000
3,7E+68
Jl lthat a tblzatbl, hogy mr egy ktves gyerek is tbb szz szt ismer, s
ha csak a rvidebb mondatokat vesszk, akkor is tbb tzezer mondatot tud elmletileg sszetenni.
sszefoglalva az elzeket, lthatlag a mondat egy rtelmes egysgnek tnik ahhoz, hogy plgiumot, illetve szvegek kztti egyezseket keressnk. Ennek az albbi
elnyei vannak:
x Egy rtelmes gondolati egysget kpvisel
x
A mondat elg egyedi ahhoz, hogy kt szveg kztt tbb mondat egyezsekor mr valami kzs forrst felttelezznk
Fordtsok esetn a mondat a fordts egysge, amely mint egysg legtbbszr megmarad a klnbz nyelvek kztt [9]
30
wx
Sx s wy
Sy
Sim(x,y) = | Sy Sz |
Ez mr egy j megkzelts, de szmos dolgot nem vesz figyelembe. Pldul egy
hossz s egy rvid mondat hasonlsga gy maximum akkora lehet, amekkora a
rvid mondat hossza. Ez helyes is, ugyanakkor pldul ha a hossz mondatban megtallhat a rvid mondat sszes szava, akkor ez a kt mondat ugyanannyira hasonl
lesz, mintha a rvid mondatot nmagval hasonltottam volna ssze, ami viszont
egyrtelmen rossz: ezrt figyelembe kell venni nemcsak a kzs szavakat, hanem a
hinyz szavakat is. Ezeket rdemes slyozni is, most legyen a megtallt szavak slya
, a nem megtalltak .
Sim(x,y) = | Sx Sy | -
| Sx \ Sy |
31
Sim(x,y) = min ( | Sx Sy | -
| Sx \ Sy | ,
| Sy Sx | -
| Sy \ Sx | )
Ez a definci mr eleget tesz a szimmetria (ekvivalencia) kvetelmnynek, azaz
most mr
Sim(x,y) = Sim(y,x)
A tovbbiakban mg nhny lnyeges dolgot figyelembe kell vennnk ahhoz,
hogy a szzsk algoritmus fordtsok esetben is jl mkdjn. Mivel Sx s Sy nyelve
nem azonos, ezrt definilnunk kell, hogy mit jelent kt sz azonossga, illetve klnbzsge: azaz mikor mondjuk, hogy wx wy s mikor mondjuk, hogy wx wy
Ahhoz, hogy ezt meghatrozzuk, definilnunk kell mg egy mveletet, a fordts
mvelett, azaz egy fordtsi fggvnyt, amely egy sznak, illetve annak sszes sztvnek az sszes fordtst adja vissza a msik nyelven.
trans(wx) = Wy ahol wy
Wy
trans(wy) = Wx ahol wx
Wx
wx
trans(wy) akkor wy
trans(wx)
wy
trans(wx) akkor wx wy
32
wx
trans(wy) akkor wx wy
hasonl mdon ha
wy
trans(wx) akkor wx wy
wx
trans(wy) akkor wx wy
illetve ha
A fent lert algoritmusnak szmos elnye van: elszr is nem kell szegyrtelmstst hasznlni, hiszen az azonossgi fggvnynk amelynek pontos mkdsnek
lerstl eltekintnk, csak a defincijt adtuk meg ezt feleslegess teszi azzal,
hogy minden lehetsges jelentst figyelembe vesz. Az egynyelv plgiumkeressekben hasznlt szinonima-egyrtelmstst, illetve -szrst sem kell alkalmazni, hiszen
egy sznak a lehetsges fordtsai a msik nyelven egy vagy tbb szinonimahalmazba
rendezhetek, s ezeket az algoritmus transzparensen kezeli. Az algoritmus nem rzkeny a szavak sorrendjre, mint az n-gram algoritmus, azaz nem fgg a fordtstl
s nem mkdik nagyon eltren bartsgos s nem bartsgos nyelvprok esetben.
Az algoritmus htrnya viszont a hatalmas keressi tr s a lineris keressi id, azaz
a keress ideje linerisan fgg az adatbzis mrettl. Nagy adatbzisok esetn ez
gyorsan elfogadhatatlan keressi idket eredmnyez. Ez utbbi problmt az implementcis fzisban egy indexlt keresssel meg tudtuk oldani, de most a rszletek
ismertetstl helyszke miatt eltekintnk.
33
3 Konklzi
Az algoritmus tesztelshez a teljes feldolgozott angol Wikipdit feltltttk egy
adatbzisba, s ebben kerestnk, mind a kzzel magyarra fordtott, mind a gppel
fordtott Wikipdia cikkeket. A kt keress kztt statisztikai klnbsget nem talltunk, gy most a sokkal nagyobb mennyisg, gppel fordtott korpuszon elrt eredmnyeket ismertetjk.
A magyar mondatokra keresve 0,67 recall rtket kaptunk, azaz ennyi volt az arnya azon mondatoknak, ahol a teljes Wikipdibl sikerlt kivlasztanunk azt a mondatot, amelyiknek ez a magyar mondat a fordtsa. Ez annyit jelent, hogy egyenletes
valsznsget felttelezve a mondatoknl annak az eslye, hogy egy 10 mondatbl
ll szakaszbl egy hasonlt se tallunk meg, 0,000016; s csak az esetek 2%-ban
fogunk kevesebb mint 4 mondatot hasonlnak tallni.
A recall rtke knnyedn mrhet, amennyiben tudjuk, hogy mit fordtottunk le a
msik nyelvre. Ugyanakkor a pontossg meghatrozsa sokkal krlmnyesebb,
hiszen kzzel kell ellenrizni, hogy a visszaadott tallatok kzl melyek tnyleges
lehetsges fordtsok, s melyek nem. Egy vletlen kivlasztott, kzzel fordtott, s
kzzel ellenrztt korpusz esetben, ahol rtkt 2-nek,
-t pedig 1-nek vlasztottuk, a hasonlsgi metrika (Sim) minimumt pedig 8-nak, a pontossgra 0,92-t kaptunk, a recall rtke pedig 0,85 lett. Ebbl F1=0,88 addik.
Az algoritmus kutatsa mr befejezdtt, jelenleg az algoritmus finomhangolsn
s a KOPI Plgiumkeres Portlba val integrlsn dolgozunk. A konferencira mr
mindkett elkszl s remnyeink szerint be tudunk szmolni az els publikus tesztek
eredmnyrl is.
34
4 Tovbbi tervek
Az algoritmust kzzel ellenriztk ms nyelvprok esetben is, s az eredmnyek
bztatak, de clunk, hogy pontosan kiszmoljuk a recall s pontossg rtkeket legalbb 10 tovbbi nyelvpr esetben is.
A szszedet mrete lineris sszefggst mutat a futsi idvel, azaz minl tbb lehetsges fordtsa van egy sznak, annl nagyobb a keressi tr, s annl lassabb lesz
a keress. A pontossgot ugyanakkor sokkal kisebb mrtkben javtja egy adott mrethatr felett, gy meg kell hatrozni, hogy mi az idelis szszedet mrete, amely
mg gyors algoritmust eredmnyez, de mr a tallati pontossga is megfelel egy adott
alkalmazshoz. Ez a mret valsznleg nyelvprfgg lesz.
Az algoritmus mkdik egynyelv keressek esetben is, amennyiben a fordtsi
azonossg (trans) helyett szinonimkat, antonimkat, hiper- s hiponimkat hasznlunk. ssze szeretnnk hasonltani az egynyelv keresst a jelenleg legtbb plgiumkeres ltal hasznlt n-gram algoritmus eredmnyvel is.
Bibliogrfia
1.
Bailey,
J:
The
Problem
with
Detecting
Translated
Plagiarism,
http://www.plagiarismtoday.com/2011/02/24/the-problem-with-detecting-translatedplagiarism/ (2011)
2. Dr. Weber-Wulff, D.: Results of the Plagiarism Detection System Test 2010,
http://plagiat.htw-berlin.de/software-en/2010-2/ (2010)
3. PAN 2010 Lab: Uncovering Plagiarism, Authorship, and Social Software Misuse
http://www.uni-weimar.de/medien/webis/research/events/pan-10/ (2010)
4. Potthast, M.; Barrn-Cedeo, A.; Eiselt, A.; Stein, B.; Rosso, P.: Overview of the 2nd International
Competition
on
Plagiarism
Detection,
http://www.clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf (2010)
5. Fischer, M.: Fordts s kzvetts a nyelvoktatsban mit nyjthat a nyelvoktatsnak a
fordtstudomny? , http://ecml.opkm.hu/files/FischerM.doc (2008)
6. Tth, P.: Fordtselmlet, http://dettk.ucoz.com/load/0-0-0-93-20 (2005)
7. How many words are there in the English language?, Oxford University Press,
http://oxforddictionaries.com/page/93 (2011)
8.
Wikipedia,
Szkincsmretek
sszehasonlt
listja,
http://hu.wikipedia.org/wiki/Szkincsmretek_sszehasonlt_listja (2011)
9. Nida, E. A.: Toward a Science of Translating. E. J. Brill, Leiden (1964)
10. Wikipedia: Bag of words model, http://en.wikipedia.org/wiki/Bag_of_words_model (2011)
11. Mihltz, M.: OpinHu: online szvegek tbbnyelv vlemnyelemzse. In: VII. Magyar
Szmtgpes Nyelvszeti Konferencia. Szeged (2010)
12. Wikipedia the free encyclopedia, http://en.wikipedia.org/ (2011)
13. BME MOKK: Hunspell sztvez, helyesrs ellenrz, morfolgiai elemz,
http://hunspell.sourceforge.net/ (2011)
14. Google: Google Translate, http://translate.google.com/ (2011)
15. MTA SZTAKI: SZTAKI Sztr, http://szotar.sztaki.hu/ (2011)
35
1.
Bevezets
A kutats httert az iTranslate4.eu nemzetkzi projektum adja, melynek keretben elkszlt egy 63 nyelvpr kztti automatikus gpi fordtst s egyb fordtson alapul szolgltatst knl webportl. A weboldalon a fordtst 14 szolgltat ltal kifejlesztett szablyalap, illetve statisztikus fordtmotorok vgzik. A
63 nyelvpr sszesen 6362 = 3906 nyelvpr kztti fordtst tenne szksgess.
Br a portl szmra valjban csak 233 nyelvi motor ll rendelkezsre, megfelel kzvett nyelvek megvlasztsval a portl kiszolglja valamennyi nyelvi
irnyt, gy tetszleges nyelvrl tetszleges msikra fordt.
A portl egyedi sajtossga hasonl online fordtkkal szemben, hogy egy-egy
krsre tbb megoldssal is tud szolglni. Mind a klnbz programok gyrtinak, mind a felhasznlknak termszetes ignye, hogy ezek az alternatvk minsgi sorrendben jelenjenek meg. Ehhez szksg van az egyes fordtk krdses
nyelvprok szerinti teljestmnynek a kirtkelsre, hatkony s megismtelhet, a fordtmotorok minsgi vltozst kvetni kpes mdon. A feladat volumennek kvetkeztben a szakrti emberi kirtkels nem vehet szmtsba,
ms mdszereket kell kidolgozni. A kirtkelsi feladat clja teht alapveten bekezds hosszsg szvegek sorrendbe rendezse, amelynl gyelembe kell venni,
hogy
36
2.
3.
3.1.
Mdszerek s vizsglatok
A kirtkelend nyelvek, nyelvprok s fordtmotorok
37
Automatikus kirtkels
Az automatikus kirtkels (a tovbbiakban au) sorn az IQMT [12] keretrendszer ltal szolgltatott 5 fle sztenderd mrtk normalizlt tlagt hasznltuk:
BLEU [17], NIST [9], GTM [16], METEOR [1] s ROUGE [13]. Idelis esetben
3 humn referenciafordts szksges a kirtkelshez, tekintve azonban a projektben szerepl nyelvek szles skljt, ilyen mennyisg fordts beszerzse,
38
ellltsa remnytelen, gy egy referenciafordtst alkalmaztunk, s a felhasznlt szvegek mfajnak s forrsnak varibilitsval prbltuk kiegyenslyozottabb tenni az automatikus kirtkelst. A kvnt nyelvi erforrsok az EU
prhuzamos hrkorpuszbl szrmaznak, 13 klnbz tmakategribl, mintegy 80 ezer szvegsz mretben. Termszetesen, hiba sajt gyjtsrl van sz,
itt is felmerl a forrsok fggetlensgnek krdse: vajon ezek a szvegek nem
alkottk-e a rszt a statisztikus fordtprogramok tantkorpusznak.
3.3.
A nagyobb volumen emberi, nem szakrti fordtsrtkels megvalstsra lehetsget adnak az utbbi vekben ltrejtt, online elrhet crowdsourcing rendszerek. Ezekben a rendszerekben internetes rlap formjban megfogalmazhat,
emberi intelligencit ignyl feladatok (HIT, human intelligence task) tehetk
kzz. A feladatokat a regisztrlt dolgozk (worker) meghatrozott zetsg ellenben vgzik el. Lehetsg van a dolgozk elzetes szrsre, pldul megtehetjk, hogy csak olyan dolgozk jelentkezst fogadjuk, akik mr korbban adott
szm HIT-et sikeresen megoldottak. A nem megfelel minsgnek tlt munkavgzs esetn a zetsg visszatarthat. Ezek az eszkzk segtenek a munkavgzs
ltalnos minsgi szintjt magasan tartani. A crowdsourcing rendszerekkel teht olcsn s gyorsan lehet megbzhat minsg megoldst tallni emberi intelligencit ignyl feladatokra [3], ugyanakkor legjabban mr az ilyen rendszerek
esetleges kockzataira is felhvjk a gyelmet [11].
Eljrsunk. A gpi fordtsok emberi, nem szakrti kirtkelsre (a tovbbiakban mt) a Mechanical Turk (http://www.mturk.com) internetes rendszert
alkalmaztuk.
Forrsnyelvenknt 30 darab, tma szerint minl vltozatosabb kzepes hosszsg (legnagyobbrszt 1030 szavas) mondatot gyjtttnk. Ezeket a mondatokat a rendelkezsre ll fordtprogramok mindegyikvel lefordtottuk. Hogy egy
kirtkelsi feladat ne legyen tl idignyes, egy feladatba (HIT-be) 5 mondatot
tettnk, azaz a 30 mondatot 6 db 5-s csoportra osztottuk. Egy kirtkelnek
teht egy feladat keretben 5 db mondat fordtsait kellett rtkelnie.
A kirtkelknek az a feladata, hogy 1-tl 5-ig terjed skln minsg szerint
pontozzk a fordtsokat. Az instrukcik s egy mintafeladat svdangol nyelvprra, ahol 4 klnbz automatikus fordt van a 1. brn lthat. A feladat a
fordtsok sorba rendezse, 1-tl (legjobb) 5-ig (legrosszabb) skln adott pontszm segtsgvel. Tbb mondatnak adhat azonos pontszm, s a fordtsok
szmtl fggetlenl 1-tl 5-ig terjed sklt hasznlunk.
A rendszer mkdsbl addan egy kirtkel tetszleges szm mondat
kirtkelst elvgezhette (azaz akr az sszes 30 mondatt is). Ezrt hogy
semmikpp se csak egy dolgoz vlemnyre tmaszkodjunk minden mondatot 3 klnbz kirtkelvel rtkeltettnk ki. Itt a klnbzsget szintn a
rendszer biztostja. Vgeredmnyben teht fordtnknt 3 30 = 90 kirtkelsi
pontszmot kaptunk, ami minimum hrom klnbz kirtkeltl szrmazott.
39
40
2. bra. Fordtknti tlagos pontszmok. Itt a 7 angol fordts mindig a fordtk neve szerinti betrendben kvetkezett az eredeti nmet mondat utn. (Az
osztlyzs itt eredetileg 1-tl 7-ig trtnt, utlag normltuk ezt az sszehasonlthatsg kedvrt az 1..5 sklra a kvetkez mdon: normlt = eredeti 23 + 13 .)
41
Felhasznli visszajelzsek
42
kiderlt, hogy a kzvettnyelves megoldsok is hasznlatban vannak, s szavazatokat tudnak gyjteni. Ezekre sem az automatikus, sem az mt kirtkelsek
erforrs hinyban nem tudtak adatokkal szolglni. A partnerek kztt elvi
egyetrts alakult ki arrl, hogy a jvben, megfelel mennyisg adat birtokban az fv kirtkels legyen elsdleges, hiszen ez elvileg valdi fordtsi krdsekre valdi felhasznlk ltal adott rtkelst kpvisel. Vizsglni kell azonban
ennek a kirtkelsi mdszernek a megbzhatsgt is.
4.
4.1.
Eredmnyek
A kirtkelsek sszevetse
Fontos krds, hogy a 3.3. rszben lert mdszer segtsgvel a Mechanical Turk
rendszerrel valban lehetsges-e magas megbzhatsg kirtkelst vgezni. Ezt
gy vizsglhatjuk meg, hogy a szakrt vlemnyt vetjk ssze a nem szakrt
dolgozk vlemnyvel. Ennek rdekben kirtkeltettk a mr emltett nmet
angol nyelvprt egy szakrtvel. A szakrt ltal adott 30 darab pontszm tlagos
rtke a 5. brn lthat.
Annak ellenre, hogy a kis eltrsek miatt a fordtk sorrendjben lnyeges
klnbsgek vannak, meggyelhet, hogy a nem szakrti kirtkelk (3) s a
szakrt (5) meglehetsen hasonlan rtkelte a fordtsokat, ahogy a kt brn
lthat grakon lefutsn is lthat. Clszer ezrt a rangsorok sszehasonltsra szoksosan hasznlt Spearman-fle rangkorrelcis egytthat helyett ms
43
A B C D E F G
4,03 3,83 3,83 4,13 2,07 3,87 2,57
5. bra. A szakrt tlagos pontszmai nmetangol nyelvprra. A grakon lefutsa lnyegben megegyezik a 3. brn lthatval.
megkzeltst alkalmazni a hasonlsg mrtkre. KolmogorovSzmirnov prbval vizsgltuk meg, hogy mennyire valszn, hogy a kt grakon ugyanazt
rja le. A p rtkre 0,05-nek addott, azaz 5% hiba mellett mondhatjuk, hogy
igaz az, hogy a nem szakrtk s a szakrt gyakorlatilag ugyangy rtkelte
a fordtsokat. Emiatt a Mechanical Turk rendszerben kapott kirtkelseket is
megbzhatnak tarthatjuk, azaz ltalnossgban tmaszkodhatunk erre a sokkal
olcsbb s egyszerbben kivitelezhet emberi kirtkelsi metdusra. Korbban
gy gondoltk [3], hogy a crowdsourcing megbzhat kirtkelsi eredmnyeket
ad, ez ksbb megkrdjelezdtt [4], jelen eredmnyeink azt mutatjk, hogy ha
az alkalmas dolgozkat a 3.3. rszben bemutatott eljrs segtsgvel vlasztjuk
ki, a megbzhatsg megfelel szint lesz.
A tovbbi komponensek sszehasonltsa sorn beigazoldott, hogy a szakrti kirtkelshez legkzelebb ll MT mdszer utn a felhasznli visszajelzsek
a legmegbzhatbbak, az automatikus kirtkels pedig, klnsen a statisztikai
fordtkkal szembeni elfogultsg miatt a legkevsb megbzhat. Azokon a nyelvprokon, ahol kzvetett s kzvetlen fordtsok is elrhetk voltak, egyrtelmen
megmutatkozott az utbbiak minsgi flnye.
4.2.
A gyakorlati alkalmazsban nehezen vdhet egy, a kirtkelsek alapjn rgztett rangsorba rendezs a fordtmotorok kztt, s a fordtsok e szerinti megjelentse. A 6. bra illusztrl egy olyan sszevont rangsort, ahol az egyes fordtmotorokhoz rendelt mrtk (score) a hrom komponens (s) slyozott tlaga
(w1 = 0.1, w2 = 0.3, w3 = 0.6):
score =
(1)
44
45
5.
A tanulmnyban megvizsgltuk, hogy egy konkrt alkalmazsban hogyan valsthat meg gpi fordtsok kirtkelse olyan krnyezetben, ahol szmos gyakorlati paramtert kell gyelembe venni. Javaslatot tettnk olyan kirtkelsi mdszerre, amely vlaszt ad a felmerl problmkra: megbzhat, fenntarthat s
soknyelvpras fordts esetn is alkalmazhat, ezzel egytt vdhet s igazsgos
minstst eredmnyez. A portl mkdse sorn gyjttt adatok mennyisgnek
nvekedse tovbbi rszletes vizsglatok elvgzsre ad lehetsget, melyek kirtkelse mg megalapozottabban kimutathatja az egyes fordtk kztti minsgi
klnbsgeket.
Hivatkozsok
1. Banerjee, Satanjeev s Lavie, Alon. METEOR: An Automatic Metric for MT
Evaluation with Improved Correlation with Human Judgments. In: Proceedings
of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or
Summarization, 2005, 6572.
2. Bojar, Ondej, Ercegovevi, Milo, Popel, Martin s Zaidan, Omar. A Grain of
Salt for the WMT Manual Evaluation. In: Proceedings of the Sixth Workshop on
Statistical Machine Translation, Edinburgh, Scotland. Association for Computational Linguistics, July, 2011, 111.
3. Callison-Burch, Chris. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazons Mechanical Turk. In: Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing, Singapore. Association for
Computational Linguistics, 2009, 286295.
4. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof, Peterson, Kay, Przybocki, Mark s Zaidan, Omar. Findings of the 2010 Joint Workshop on Statistical
Machine Translation and Metrics for Machine Translation. In: Proceedings of the
Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, Uppsala, Sweden. Association for Computational Linguistics, July, 2010, 1753.
5. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof s Schroeder, Josh. Findings
of the 2009 Workshop on Statistical Machine Translation. In: Proceedings of the
EACL Workshop on Statistical Machine Translation, 2009, 128.
6. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof s Zaidan, Omar. Findings of the 2011 Workshop on Statistical Machine Translation. In: Proceedings
of the Sixth Workshop on Statistical Machine Translation, Edinburgh, Scotland.
Association for Computational Linguistics, July, 2011, 2264.
46
47
Kivonat: Jelen cikk clja annak vizsglata, hogy a mly szintaktikai elemzs
nveli-e a fedst s a pontossgot igei szerkezetek fordtsi megfelelinek teljesen automatikus kinyerse sorn. Els lpsknt a prhuzamos korpusz forrsnyelvi s clnyelvi oldalt kln-kln elemeztk, majd ebbl nyertk ki az
igei szerkezeteket egy felgyelet nlkli tanul algoritmussal. Az gy elllt
igeiszerkezet-listt gyakorisgi alapon szrtk. A kvetkez lpsben az igei
szerkezeteket egytag kifejezsekk vontuk ssze a prhuzamos korpuszban,
hogy az egytokenes igei szerkezetek az illesztsi algoritmus bemeneteknt
szolglhassanak. Eredmnyeink azt mutatjk, hogy az alkalmazott mdszer jl
hasznlhat igei szerkezetek fordtsi ekvivalenseinek detekcijra.
1 Bevezets
Jelen cikkben ismertetett munka az EFNIL ltal finanszrozott EFNILEX projekt
rsze. A projekt azt vizsglja, hogy a nyelvtechnolgiai mdszerek s eszkzk
klns tekintettel a prhuzamos korpuszokra mennyiben jrulhatnak hozz a sztrksztsi folyamathoz. A sztrkszts automatikus tmogatsa elssorban a kevss hasznlt nyelvek esetben br jelentsggel, hiszen az ilyen nyelvprokra kszlt sztrak irnti kereslet alacsony, gy a szksges munklatok finanszrozsa is
korltozott. A projekt clkitzse kzpmret (min. 15,000 szcikk), ltalnos cl
sztrak ltrehozsa volt a magyar-litvn, illetve a francia-holland nyelvprokra.
A statisztikai gpi fordts trhdtsval jelentsen megntt a prhuzamos korpuszok szerepe a nyelvtechnolgiban. rdekes mdon a lexikogrfusok kztt nem
eldnttt krds, hogy hasznlhatak-e a prhuzamos korpuszok emberi felhasznlsra kszl sztrak ellltsra (l. pl. [1]). Eddigi kisrleteink azt mutattk, hogy ha
elfeldolgozsknt szillesztst vgznk, akkor az ltalunk javasolt mdszer szmos
elnnyel rendelkezik a hagyomnyos lexikogrfiai mdszertannal szemben [5]. A
javasolt mdszer htrnya, hogy nem kezeli a tbbszavas kifejezseket, gy nmagban alkalmatlan a tbb szbl ll fordtsi ekvivalensek kiszrsre. Ennek a feladatnak a megoldsa kiemelten fontos, hiszen egy sztrnak tartalmaznia kell azokat
a tbbszavas kifejezseket is, amelyek fordtsa nem kompozicionlis.
[6], illetve [9] altmasztottk, hogy egy elfeldolgoz modul hozzadsa elvileg
lehetv teszi a tbbszavas ige + bvtmny szerkezetek fordtsi megfelelinek automatikus kinyerst. Eredmnyknt olyan sszetett igei szerkezeteket kapunk, mint a
48
francia faire partie de... vagy holland megfelelje, a deel uitmaken van... (rszt kpezi vminek).
Feladatunk a mdszert tovbbfejleszteni gy, hogy a kinyert prhuzamos igei szerkezetek felvehetek legyenek a sztrba: vagyis a pontossg s a feds nvelsre
egyarnt szksg van. Ennek rdekben a kutats jelen szakaszban a [6]-ban, illetve
[9]-ben lertakat az albbiak szerint mdostottuk. (1) Elre meghatrozott igk helyett minden elegenden gyakori igt figyelembe vettnk, (2) minden igei szerkezet a
vizsglat trgyt kpezi, nemcsak azok a szerkezetek, amelyek fnvi lemmt is tartalmaznak, (3) rszlegesen elemzett prhuzamos korpusz helyett mly szintaktikai
annotcival rendelkez prhuzamos korpuszt hasznltunk az igei szerkezetek kinyershez.
Azt vrjuk, hogy a javasolt mdszer az ige+bvtmny szerkezetek fordtsi ekvivalenseinek teljesen automatikus meghatrozsval hozzjrul a sztri ttelek
mikrostrukttjnak kialaktshoz.
A kvetkez szakaszban vzoljuk a munkafolyamatot (2), amely hrom f lpsbl
ll: a prhuzamos korpusz szintaktikai elemzse (2.1), az igei szerkezetek automatikus kinyerse (2.2), valamint a protosztr ltrehozsa (2.3). Majd eredmnyeinket
mutatjuk be (3), vgl pedig a konklzikat s a tovbbi teendket (4).
2 A munkafolyamat
A munkafolyamat hrom f szakaszbl ll. Az els lpsben elvgezzk a prhuzamos korpusz francia s holland rsznek mly szintaktikai elemzst, majd az gy
elllt frzisstruktra-szerkezeteket az igei szerkezet kinyer algoritmus ltal megkvetelt rszleges fggsgi elemzsekk konvertljuk (2.1). A msodik lpsben a
francia s holland igei szerkezetek egymstl fggetlen automatikus kinyersvel
ltrehozzuk a vizsgland igei szerkezetek listjt (2.2). A harmadik lpsben a kivlasztott tbbszavas igei szerkezeteket egytokenes kifejezsekk vonjuk ssze, gy
ezek az illeszts bemenetl szolglhatnak. Eredmnyl egy tbbszavas igei szerkezeteket tartalmaz protosztrat kapunk (2.3).
49
s a fejhez tartoz dependenseket. Az Alpino szmunkra kiemelten fontos tulajdonsga, hogy felismeri a tagmondathatrokat, s megadja a tagmondatok egymshoz val
viszonyt (fmondat, mellkmondat, koordinci).
Az FRMG hasonl mlysg elemzst vgez, mint az Alpino. Egy fontos klnbsg azonban, hogy az elemzs nem tartalmazott tagmondathatrra vonatkoz informcit, ezrt a tagmondathatr-felismerst sajt szablyokkal vgeztk el, amelyeket
ksbb rszleteznk.
1.
bra: A munkafolyamat.
A kvetkez lpsben az Alpino s az FRMG parszer kimenett kln-kln rszleges fggsgi elemzss alaktottuk, hogy az elemzett korpuszok az igekinyer
algoritmus bemenetl szolglhassanak.
50
Az igei szerkezeteket kinyer algoritmus abbl az elfeltevsbl indul ki, hogy (1)
az ige jellemz bvtmnykerett mindig az a tagmondat tartalmazza, amelyben az ige
elfordul, (2) egy tagmondat csak egy ighez tartoz bvtmnyeket tartalmaz. Ebbl
kvetkezen a konverzi sorn meg kellett oldani a tagmondathatr-felismerst a
francia esetben, valamint visszalltani a teljes vagy eredeti bvtmnykeretet azokban az esetekben, amikor erre szksg volt (pl. passzv igk, hatrozi s mellknvi
igeneves szerkezetek). Ezeket utlagos talakt szablyok hozzadsval valstottuk meg. A szablyok a rszletes szintaktikai annotcin alapulnak, amely azt is jelli, ha az ige valamilyen kpzett formban szerepel (passzv, illetve klnfle igeneves
szerkezetek).
A holland esetben az albbi talaktsokat vgeztk el:
(1) Passzv szerkezetek aktvv alaktsa
(2) Segdigk trlse az sszetett igeidk esetben
(3) Mellknvi igeneves szerkezetek konverzija tagmondatt
A francia elemzs esetben a fentieken tl a tagmondathatrok bejellsre is
szksg volt, gy a fenti szablyokhoz tovbbiakat adtunk hozz:
(4) Mellknvi igeneves szerkezetek nll tagmondatot alkotnak
(5) A vonatkoz nvmsok eltt legyen tagmondathatr
(6) A fnvi igenv eltt is van tagmondathatr, ha a fnvi igenv eltt valamilyen prepozci ll (de, pour, sans, en vue de, stb.)
(7) Legyen tagmondathatr koordinlt tagmondatokat sszekt ktszavak helyn
(et - s, puis - aztn, ou - vagy, stb.)
(8) Legyen tagmondathatr az alrendelt mondatokat bevezet ktszavak helyn
(que - hogy, quand, pendant que - amikor, stb)
(9) Ha kt ige kztt nincs tagmondathatr, akkor szrjon be tagmondathatrt
vessz, pontos vessz vagy kettspont esetn.
Vgl el kellett dntennk, hogy a rszletes szintaktikai annotci mely jegyeit kvnjuk figyelembe venni az igei bvtmnykeretek kinyershez. Itt kt ellentmond
kvetelmnynek kell eleget tenni: egyfell, minl tbb jegyet tartunk meg az eredeti
elemzsbl, annl rszletesebben karakterizlhatjuk az igei bvtmnykereteket. Msfell, tl sok jegy alkalmazsa jelentsen ronthatja az eredmnyeket, hiszen az irrelevns cmkk nvelik az adatok diverzitst. A tpusok szmnak nvekedsvel prhuzamosan cskken a tpusok elfordulsi gyakorisga, ez pedig rontja a generlt
sztr minsgt.
Els megkzeltsben megtartottuk az igt, az igvel kzvetlenl fggsgi viszonyban lev sszetev fejt, valamint a fej dependensei kzl az esetleges mellkneveket, illetve egyb mdostkat a vonzatos fnevek esetben, mg a nvelket
elhagytuk. A koordinlt szerkezetekbl (ha nem koordinlt tagmondatokrl volt sz)
mindig csak az els sszetevt riztk meg. A kvetkez rszben ltni fogjuk, hogy
bizonyos esetekben ez is tl rszletes elemzsnek bizonyult, gy tovbbi empirikus
vizsglatot ignyel, hogy pontosan milyen mlysg elemzst rdemes vgezni.
51
Szerkezet
gebruik obj1
gebruik niet=mod:ADV obj1
gebruik obj1 obj1_ADJ
gebruik obj1 als=predc:CP
Gyakorisg
470
159
104
95
Magyar megfelel
hasznl vmit
nem hasznl vmit
hasznl vmilyen vmit
gy hasznl valamit, hogy ...
52
2.
Szerkezet
geef obj1
geef obj1 obj1_ADJ
geef aan:obj2 obj1
geef obj1 obj2
Gyakorisg
170
80
78
72
Magyar megfelel
ad vmit
ad vmilyen vmit
ad vkinek vmit (indirekt)
ad vkinek vmit (direkt)
Szerkezet
doe beroep=obj1 obj1_op
doe beroep=obj1 op:mod
Gyakorisg
72
39
Magyar megfelel
felhvst tenni vmire
felhvst tenni vmire
Az els esetben a holland op (-rA) az ige trgynak, a beroep-nak, mg a msodik esetben magnak az ignek a bvtmnye. Tovbbi problma, hogy ennek a szerkezetnek a nvel (een) ktelezen rsze, de ez mindkt keretbl hinyzik.
A kvetkez lpsben automatikusan vlasztottuk ki azokat az igei szerkezeteket,
amelyeket akr forrsnyelvi, akr clnyelvi oldalon a sztrban szerepeltetni akartunk. Egy lehetsges megkzelts, hogy heurisztikt dolgozunk ki a lexikogrfiai
szempontbl rdekes bvtmnykeretek automatikus szrsre. Mivel fordtsi feladatrl van sz, a kompozicionalits ebben az esetben nem nmagban, hanem egy
msik nyelv fggvnyben rtelmezhet. A javasolt mdszer egyik kiemelten fontos
tulajdonsga a nyelvfggetlensg. gy elkpzelhet, hogy A nyelv egy igei szerkezete
kompozicionlisan fordul le B nyelvre, de nem kompozicionlis C nyelven. Ebben az
esetben teht azt kell mondanunk, hogy A nyelv adott kifejezse lexikogrfiailag
rdekes az els esetben, s rdektelen a msodikban. A nyelvfggetlensg miatt jrhatbb megkzeltsi mdnak tnik az igei szerkezeteket gyakorisgi alapon szrni.
Ebben az esetben felttelezzk, hogy egy sztrban a gyakran elfordul jelensgeket
clszer rgzteni, fggetlenl attl, hogy ezek fordtsa transzparens-e vagy sem egy
msik nyelven.
53
gy teht az automatikusan kinyert igei szerkezetek kzl azokat vettk fel a listnkba, amelyek legalbb tszr elfordultak a prhuzamos korpusz megfelel oldaln. Ennek a kritriumnak a holland oldalon 289 ige felelt meg, sszesen 5804 kerettel, mg a francia igelista 391 igt tartalmazott 5987 klnbz kerettel.
54
Kifejezsforrs
prendre
mdicament=obj1
Kifejezscl
neem_in
genees_middel=obj1
gebruik
genees_middel=obj1
start gebruik=met:cmp
met:cmp_van
sta onder_invloed=particle
drug=van:cmp
P(szcl|szforrs)
0.377261
Gyakf
53
Gyakc
32
0.102349
53
21
0.0971227
53
28
0.050697
53
11
A 4. tblzatban lthat, hogy a francia prendre mdicament (gygyszert bevenni) szerkezetnek a legvalsznbb holland megfelelje az geneesmiddel innemen.
Ezt kveti a geneesmiddel gebruiken (gygyszert hasznlni). A start met gebruik
van nem teljes keret (elkezdeni a hasznlatt valaminek) szintn relevns fordtsnak
tekinthet. A legkevsb valszn, m lexikogrfiai szempontbl mg rdekes fordts a staan onder invloed van drug (drog hatsa alatt llni).
A mr elvgzett kirtkelsek alapjn (magyar-litvn, magyar-szlovn, franciaholland) az albbi ltalnos feltteleket fogalmazhatjuk meg a protosztrban szerepl ttelekkel szemben:
(1) A forrsnyelvi s a clnyelvi sznak is legalbb 5-szr el kell fordulnia a prhuzamos korpuszban. Ez a felttel szksges ahhoz, hogy elegend adat lljon rendelkezsre a fordtsi valsznsg becslshez.
(2) Hasonl gyakorisg szavak esetn magasabb fordtsi valsznsgi kszb
alkalmazsa esetn magasabb lesz a j vagy hasznos fordtsi jelltek arnya.
(3) A paramterek bellthatak gy, hogy gyakoribb forrsnyelvi szavak esetn
alacsonyabb fordtsi valsznsgi kszb krlbell ugyanolyan arnyban eredmnyezzen j vagy hasznos fordtsi jellteket, mint a ritkbb szavak esetben egy magasabb fordtsi valsznsgi kszb.
3 Kirtkels
Els lpsben olyan paramterbelltst vlasztottunk, amely mellett felttelezheten
magas a j vagy hasznos fordtsjelltek arnya. gy megmutathatjuk, hogy van olyan
paramterbellts, amely magas pontossgot eredmnyez, amelybl kiindulva a feds
legalbbis rszben nvelhet a paramterbelltsok finomtsval. A 2. brn
lthat a francia-holland igekeret-jelltprok eloszlsa a forrsnyelvi kifejezs logaritmikus gyakorisga s a megfelel fordtsi valsznsg szerint. A fekete tglalap
terletre es fordtsjellteket rtkeltk ki. A legalbb 100-szor elfordul forrsnyelvi s a clnyelvi lemmk kzl azokat a fordtsi jelltprokat vlasztottuk ki,
amelyek legalbb 0,44 fordtsi valsznsggel rendelkeznek. Ezek kzl 100 megfelel keretet rtkeltnk ki.
2.
55
bra: A francia-holland igekeret-jelltprok eloszlsa a forrsnyelvi kifejezs logaritmikus gyakorisga s a megfelel fordtsi valsznsg szerint. A kirtkelsi tartomny.
56
keretek illesztsvel a rvidebb, ltalnosabb kereteket kizrjuk. A leghosszabb francia keret 24 egysg hossz2 s 14-szer fordul el orvosi szvegekben.
A 3. bra a francia esetben azt mutatja, hogy az egyes kerethossz alapjn csoportostott kerettpusokbl hny van, s az egyes keretek hnyszor fordulnak el a francia rszkorpuszban.
3. bra: A kerethossz alapjn csoportostott kerettpusok szma s az egyes keretek gyakorisga a prhuzamos korpusz francia rszkorpuszban.
57
Bibliogrfia
1. Atkins, B. T. S., Rundell, M.: The Oxford Guide to Practical Lexicography. Oxford University Press, Oxford (2008)
2. Bouma, G., Noord, van G., Malouf, R.: Alpino: Wide coverage computational analysis of
Dutch. In: Daelemans, W., Sima'an, K., Veenstra, J., Zavrel, J. (eds): Computational Linguistics in the Netherlands 2000. Rodolpi, Amsterdam (2001) 4559
3. Dempster, A. P., Laird, N. M., Rubin. D. B.: Maximum likelihood from incomplete data via
the EM algorithm. Journal of the Royal Statistical Society, Series B Vol. 39, No.1 (1977) 1
22
58
4. . Kiss, K.: Mondattan. In: . Kiss, K., Kiefer, F., Siptr, P. (eds.): j magyar nyelvtan.
Osiris Kiad, Budapest (2003) 15184
5. Hja, E.: The Role of Parallel Corpora in Bilingual Lexicography. In: Proceedings of the
LREC2010 Conference. La Valletta, Malta (2010) 27982805
6. Hja E., Sass B.: Tbbszavas kifejezsek kezelse a prhuzamos korpuszokra pl
sztrksztsi mdszertanban. In: MSZNY2010, VII. Magyar Szmtgpes Nyelvszeti
Konferencia. SZTE, Szeged (2010) 8090
7. Macken, L., Trushkina, J., Paulussen, H., Rura, L., Desmet, P., Vandeweghe, W.: Dutch
Parallel Corpus. A multilingual annotated corpus. In: Proceedings of Corpus Linguistics
2007. Birmingham, United Kingdom (2007)
8. Och, F. J., Ney, H.: A Systematic Comparison of Various Statistical Alignment Models.
Computational Linguistics Vol. 29, No. 1 (2003) 1951
9. Sass, B.: A Unified Method for Extracting Simple and Multiword Verbs with Valence Information. In: Angelova G. et al. (eds.): Proceedings of RANLP 2009. Borovec, Bulgria
(2009) 399403
10. Sass, B.: Prhuzamos igei szerkezetek kzvetlen kinyerse prhuzamos korpuszbl. In:
MSZNY2010, VII. Magyar Szmtgpes Nyelvszeti Konferencia. SZTE, Szeged (2010)
102-110
11. Villemonte de la Clergerie: Convertir des drivations TAG en dpendances. In: Atala,
(ed.):17e Confrence sur le Traitement Automatique des Langues Naturelles - TALN 2010
(2010)
59
F
elig kompozicion
alis szerkezetek automatikus
azonost
asa magyar
es angol nyelven
Vincze Veronika1 , Nagy T. Istvan2 , Zsibrita Janos2
1
Magyar Tudom
anyos Akademia, Mesterseges Intelligencia Kutat
ocsoport
Szeged, Tisza Lajos k
or
ut 103., e-mail:vinczev@inf.u-szeged.hu
2
Szegedi Tudom
anyegyetem, TTIK, Informatikai Tanszekcsoport
ad ter 2., e-mail:{nistvan,zsibrita}@inf.u-szeged.hu
Szeged, Arp
1.
Bevezet
es
60
A fenti okokb
ol kifolyolag a felig kompozicion
alis szerkezetek kezelese k
ulonleges gyelmet erdemel a termeszetes nyelvi alkalmaz
asokban. Ennek els
o lepesekent azonostani kell oket, mely celhoz k
ulonfele algoritmusok fejlesztese segthet
hozz
a. Ennek megfelel
oen el
osz
or szab
alyalap
u megk
ozelteseket denialunk,
majd ezek eredmenyeire alapozva gepi tanulo modszerek segtsegevel is azonostjuk a felig kompozicionalis szerkezeteket.
2.
Kapcsol
od
o munk
ak
A felig kompozicion
alis szerkezetek automatikus azonost
asara, illetve a fonev +
ige szerkezetek oszt
alyokba sorol
asara m
ar t
obb szerzo is kserletet tett.
Van de Cruys es Moiron [2] szemantikai alapokon nyugv
o rendszere igeprepozci
o-f
onev kombin
aci
okat azonost holland sz
ovegekben. Modszer
uk az ige
es a f
onev szelekci
os megk
oteseire ep
ul, illetve az igevel egy
utt el
ofordul
o f
onevek
szemantikai osztaly
at is gyelembe veszik.
Cook es munkat
arsai [3] angol ige + fonev szerkezetek szo szerinti es idiomatikus haszn
alatat k
ul
ontik el egym
ast
ol. Felteves
uk szerint idiomatikus haszn
alatban fokent a szerkezet szot
ari alakja fordul elo, mg sz
o szerinti haszn
alatban
a szerkezet nagyobb szintaktikai valtozatoss
agot mutat. A szerkezet szintaktikai r
ogztettseget kihaszn
al
o fel
ugyelet nelk
uli osztalyoz
o modszer
uk 72%-os
eredmenyt er el.
Bannard [4] szinten angol nyelv
u ige + f
onev szerkezeteket oszt
alyoz szintaktikai r
ogztettseg
uk alapj
an. Az altala haszn
alt jellemz
ok k
oze tartozik a
fonev nevelozhet
osege, m
odosthat
osaga, a szerkezet szenved
o szerkezetben val
o
elofordul
asa stb.
Samardzic es Merlo [5] angol-nemet p
arhuzamos korpuszokban el
ofordul
o
felig kompozicion
alis szerkezeteket vizsg
alnak. Eredmenyeik szerint a szerkezetek p
arhuzamost
asan
al k
ulon
osen nagy szerepet jatszanak a gyakorisagi adatok
mellett a szerkezetek nyelvi jellemz
oi is, peldaul a kompozicionalit
as foka.
Gurrutxaga es Alegria [6] baszk nyelv
u szovegekbol nyernek ki idiomatikus es felig kompozicion
alis f
onev + ige szerkezeteket statisztikai modszerek
segtsegevel. Mivel a baszk szabad sz
orend
u nyelv, azzal az el
ozetes feltetelezessel
eltek, hogy az ige tagabb k
ornyezetet nezve javulni fognak az eredmenyek, azonban kserleteik ezt nem t
amasztott
ak ala.
Tu es Roth [7] ige + f
onev p
arokat osztalyoznak aszerint, hogy felig kompozicion
alis szerkezetek-e vagy sem. Mind kornyezeti, mind statisztikai jellemzokkel
dolgoznak, es meg
allapt
asuk szerint a t
obbertelm
u peld
akon a lokalis k
ornyezeti
jellemzok hasznalata vezet a legjobb eredmenyhez.
Sass Balint [8] beszamol egy igei szerkezetek parhuzamos korpuszbol valo
kinyeresere szolg
al
o elj
ar
asr
ol, mely egy korabbi, igeket es azok b
ovtmenyeit
kinyer
o algoritmusra ep
ul. A modszer lenyege, hogy a tagmondatok igeit egymas
melle rendelve egy komplex ige jon letre, melyhez a b
ovtmenyeket halmazkent
rendelj
uk hozz
a, felcmkezve oket aszerint, hogy melyik nyelv
u reszkorpuszbol
szarmaznak. Az gy kapott reprezent
aci
obol az eredeti algoritmus segtsegevel
lehet kigy
ujteni az egyes nyelvekre jellemzo igei szerkezeteket.
61
A felig kompozicion
alis szerkezetek automatikus azonost
asat celzo modszerek
nagy resze kiindulasi alapnak tekinti a szintaxist, azaz altal
aban ige-t
argy p
arokat
osztalyoznak [3,4,9,7]. Ezzel szemben mi nem a szintaktikai mint
azatok alapjan
megsz
urt FX-jel
olteket szeretnenk osztalyozni, hanem foly
o szovegben szeretnenk
azonostani oket, nem feltetlen
ul szintaktikai informaci
ok segtsegevel. Kserleteink kozben azonban kiemelt gyelmet szentel
unk a szintaktikai informaci
ok
hozz
aadott ertekenek.
3.
A f
elig kompozicion
alis szerkezetek automatikus
felismer
ese
A felig kompozicion
alis szerkezetek automatikus azonost
as
ara szab
alyalap
u es
gepi tanulasi modszereket is denialtunk. Angol es magyar nyelvre alapj
aban
veve ugyanazokat az eljar
asokat alkalmaztuk, termeszetesen gyelembe veve az
adott nyelv saj
atoss
agait.
M
odszereink kiertekelesehez h
arom korpuszt hasznaltunk. A SzegedParalellFX p
arhuzamos korpusz [10] angol es magyar nyelven ugyanazokat a szovegeket tartalmazza, melyekben osszesen 1100 angol nyelv
u es 1112 magyar nyelv
u
FX tal
alhat
o. A Szeged Korpuszban szinten be vannak jel
olve a felig kompozicion
alis szerkezetek [11]. Kserleteinkhez a sajtonyelvi reszkorpuszokat haszn
altuk. Az angol nyelv
u Wiki50 korpuszban [1] t
obbszavas kifejezesek es nevelemek
vannak annot
alva, gy a felig kompozicion
alis szerkezetek is be vannak jel
olve.
Noha a korpuszokban a felig kompozicion
alis szerkezetek melleknevi igenevi es
f
onevi alakjai is be vannak jelolve, jelen munkankban csak az igei alakok felismeresere koncentralunk. A felhasznalt korpuszok adatait az 1. t
abl
azat mutatja.
1. t
abl
azat. A felhasznalt korpuszok adatai
Korpusz
Wiki50 (angol)
SzegedParallelFX (angol)
SzegedParallelFX (magyar)
Szeged Treebank (
ujs
agcikkek - magyar)
3.1.
Mondat
4.350
14.262
14.262
10.210
Token Igei FX
114.570
368
298.948
745
240.399
753
182.172
458
Szab
alyalap
u m
odszerek
Sz
amos szab
alyt fogalmaztunk meg a felig kompozicion
alis szerkezetek automatikus azonost
asara. Az angol nyelv
u szovegeket a Stanford elemzesi l
anc
segtsegevel tokeniz
altuk, majd elemezt
uk sz
ofajilag [12] es szintaktikailag [13].
A SzegedParalellFX magyar nyelv
u sz
ovegeit a magyarlanc [14] csomaggal tokenizaltuk es elemezt
uk sz
ofajilag. A Szeged Korpuszbol szarmaz
o szovegek eseten
az etalon szofaji es dependenciaelemzesekre hagyatkoztunk, illetve az osszevethet
oseg kedveert a magyarlanc
altal ny
ujtott szofaji elemzesekkel is vegezt
unk
kserleteket.
62
A POS-szab
alyok ( POS) m
odszer eseteben k
ulonfele szofaji mint
akat
legtobbszor igeb
ol kepzett fonev. Ebben az esetben azokat az FX-jelolteket fogadtuk el, amelyekre illeszkedett egy szofaji minta, es a fonev az elore denialt
n-gramok (kepz
ok) egyikeben vegz
od
ott.
A leggyakoribb ige ( ige) modszer azon meggyelesen alapszik, hogy al
tal
aban a leggyakoribb igek szerepelnek funkci
oigekent (az angolban a do, make,
take stb., mg a magyarban ad, vesz, hoz stb.). gy azokat az FX-jel
olteket fogadtuk el, amelyek illeszkedtek a sz
ofaji mintakra, es az igei komponens lemm
aja
megegyezett az el
ore megadott leggyakoribb igek egyikevel.
A sz
ot
o ( t
o) m
odszer a f
onev sz
ot
ovet vizsg
alja. Mint fentebb emltett
uk,
a f
onevi komponens igen gyakran igeb
ol szarmazik, gy az angolban azt nezt
uk
meg a Porter stemmert haszn
alva [15], hogy a fonev szot
ove egybeesik-e egy igei
szot
ovel (to make a decision - to decide) vagy maga a f
onev egybeesik-e egy
igevel (to have a walk - to walk ). A magyarban pedig a hunmorph elemz
o [16]
segtsegevel
allaptottuk meg a fonev szot
ovet, es vizsg
altuk meg, hogy annak
van-e igei elemzese.
A felig kompozicion
alis szerkezetek azonost
asaban a szintaktikai inform
aci
ok
is hasznosak lehetnek. Az angolban a szerkezet ket tagja kozott altal
aban dobj
vagy prep viszony szerepel (t
argyi vagy prepozci
os vonzat eseteben), mg a
magyarban obj vagy obl (t
argy vagy egyeb argumentum). A szintaxis m
odszert
alkalmazva azokat az FX-jel
olteket fogadtuk el, amelyek tagjai a fenti relaci
ok
egyikeben alltak egymassal.
A fenti m
odszereket kombin
altuk is egym
assal: vagyis vett
uk a k
ulonfele
m
odszerek uni
oj
at (egy potencialis FX jel
olt abban az esetben ker
ult elfogad
asra, amennyiben legal
abb az egyik m
odszer elfogadta azt), es a metszet
uket
(csak akkor jel
olt
unk sz
oosszetetelt FX-nek, amennyiben minden szab
aly elfogadta azt). Eredmenyeinket a 2. t
abl
azat szemlelteti.
3.2.
A szab
alyalap
u m
odszerek eredm
enyei
A 3. t
abl
azat mutatja a szab
alyalap
u m
odszereink eredmenyet a negy felhasznalt
korpuszon. J
ol l
atszik, hogy h
arom korpusz eseteben a leggyakoribb ige modszer
bizonyul a legsikeresebbnek, j
oval magasabb F-merteket er el, mint a t
obbi
m
odszer vagy azok kombinaci
oi. Az egyetlen kivetelt a SzegedParalellFX angol
allom
63
2. t
abl
azat. Szab
alyalap
u megkozeltesek eredmenyei, fedes/pontoss
ag/Fmertek.
Megk
ozel
t
es
POS
V
eg
Ige
T
o
V
eg Ige
V
eg Ige
V
eg T
o
V
eg T
o
Ige T
o
Ige T
o
V
eg Ige T
o
V
eg Ige T
o
Wiki50
77,14 6,32 11,68
17,14 9,47 12,20
55,24 34,32 42,34
54,29 7,72 14,64
9,52 43,48 15,64
62,86 19,64 29,93
14,29 10,79 12,30
57,14 7,60 13,42
40,95 42,57 41,75
68,57 8,93 15,81
8,57 52,94 14,75
70,48 8,70 15,48
ParalellFX
79,40 5,07
15,24 10,5
54,56 28,81
61,55 7,66
10,24 48,31
59,64 19,02
11,07 11,14
65,71 7,74
43,45 38,87
72,74 8,25
7,62 47,41
74,29 8,05
angol
9,52
12,43
37,73
13,62
16,90
28,84
11,10
13,84
41,03
14,82
13,13
14,53
ParalellFX
65,55 7,67
21,45 12,79
43,83 30,19
21,05 16,14
15,15 40,36
50,13 18,21
19,30 16,31
23,19 12,90
15,01 46,09
49,87 20,52
13,67 46,36
50,54 17,77
magyar
13,74
16,02
35,76
18,27
22,03
26,71
17,68
16,58
22,65
29,07
21,12
26,30
Szeged Treebank
74,56 5,75 10,69
19,30 6,53 9,76
58,77 24,28 34,36
16,67 7,85 10,67
18,42 32,81 23,60
59,65 12,39 20,51
15,79 8,37 10,94
20,18 6,32 9,62
16,67 35,19 22,62
58,77 14,44 23,18
15,79 39,13 22,50
59,65 11,97 19,94
pred. POS
74,56 5,75 10,69
19,30 6,53 9,76
58,77 24,28 34,36
16,67 7,85 10,67
18,42 32,81 23,60
59,65 12,39 20,51
15,79 8,37 10,94
20,18 6,32 9,62
16,67 35,19 22,62
58,77 14,44 23,18
15,79 39,13 22,50
59,65 11,97 19,94
etalon POS
84,21 6,70 12,41
21,93 7,35 11,01
69,30 28,11 40,00
20,18 9,35 12,78
20,18 35,38 25,70
71,05 14,57 24,18
18,42 9,55 12,57
23,68 7,38 11,25
19,30 38,60 25,73
70,18 17,02 27,40
17,54 41,67 24,69
71,05 14,14 23,58
etalon POS
85,09 7,77
21,93 8,56
70,18 29,20
20,18 10,80
20,18 35,94
71,93 16,33
18,42 11,11
23,68 8,54
19,30 40,00
71,05 18,75
17,54 42,55
71,93 15,83
+ szint.
14,23
12,32
41,24
14,07
25,84
26,62
13,86
12,56
26,04
29,67
24,84
25,95
64
Wiki50
73,33 8,85 15,79
15,24 11,03 12,80
53,33 42,11 47,06
51,43 10,87 17,94
7,62 38,10 12,70
60,95 24,90 35,36
13,33 12,73 13,02
53,33 10,53 17,58
40,00 50,00 44,44
64,76 12,45 20,89
7,62 50,00 13,22
66,67 12,15 20,56
ParalellFX angol
72,98 6,89 12,59
14,52 12,82 13,62
51,19 34,82 41,45
56,19 10,16 17,21
9,76 55,03 16,58
55,95 23,06 32,66
10,60 14,02 12,07
60,12 10,18 17,40
40,48 44,04 42,18
66,90 10,99 18,88
7,26 53,98 12,80
68,33 10,64 18,42
Szeged Treebank
76,32 6,92 12,69
19,30 7,64 10,95
60,53 26,44 36,80
16,67 9,00 11,69
18,42 35,00 24,14
61,40 14,31 23,22
15,79 9,68 12,00
20,18 7,35 10,77
16,67 38,00 23,17
60,53 16,35 25,75
15,79 41,86 22,93
61,40 13,81 22,54
65
G
epi tanul
asi m
odszerek
Sz
ot
arilleszteses megk
ozelteseket haszn
altunk baseline megold
asnak a gepi tanulasi m
odszerek eseteben. Mivel mindket nyelven rendelkezes
unkre allt ket annot
alt korpusz, ezert az ezeken el
ofordul
o FX-ekb
ol lemmatizalt list
akat hoztunk letre. Az azonos nyelv
u korpuszokra a masikrol gy
ujtott list
at jelolt
uk
ra. Igy peld
aul a Wiki50 eseteben az angol SzegedParallelFX-r
ol gy
ujtott lista
ker
ult illesztesre. A k
ulonb
oz
o korpuszokon gy elert eredmenyek a 5. tabl
azatban
l
athat
ok.
5. t
abl
azat. A sz
ot
aralap
u megkozeltes eredmenyei.
Korpusz
Wiki50
SzegedParalellFX angol
SzegedParalellFX magyar
Szeged Treebank
Fed
es Pontoss
ag F-m
ert
ek Sz
ot
arm
eret
8,57
81,81
15,51
587
9,01
73,07
16,04
287
29,5
40,14
34,01
1215
30,7
39,77
34,65
578
66
3.4.
Fed
es Pontoss
ag F-m
ert
ek
42,86
56,96
48,91
37,91
55,55
45,07
61,0
67,78
64,21
44,73
62,96
52,03
43,86
56,82
49,51
A g
epi tanul
asi m
odszerek eredm
enyei
A szot
aralap
u megkozeltesek eredmenyeiben igen nagy kontraszt mutatkozott
a ket vizsg
alt nyelvben. Ez a modszer magyar nyelv
u korpuszokon ketszer jobb
F-merteket ert el, mint az angol nyelv
ueken. Ugyanakkor az angol nyelv
u korpuszokon a megk
ozeltes pontossaga joval magasabb volt, mint a magyaroken.
A fedesben mutatkoz
o k
ul
onbsegeket az magyarazhatja, hogy a magyar nyelv
u
korpuszok j
oval homogenebbek voltak az angolokenal. Az enciklopedia domen
(Wiki50), mely tobb k
ul
onboz
o tem
at olel fel, egeszen m
as jelleg
u, mint a homogenebb SzegedParallelFX, nagyreszt u
jsagcikbol es regenyekb
ol all
o domen,
mely hat
assal lehet az FX-ek eloszlasara is. Mivel a ket magyar nyelv
u korpusz mindegyikeben tal
alhat
ok u
jsagcikkek, ezert a bel
ol
uk kinyert FX-list
ak
kevesbe voltak elter
oek. A SzegedParalellFX korpuszon mert eredmenyek kozti
k
ul
onbsegeket magyar
azhatja az alkalmazott list
ak merete. Mivel a Szeged Treebank j
oval nagyobb, mint a Wiki50, ezert az ezekb
ol a korpuszokbol osszealltott
list
ak merete is nagyon elter
o. Ugyanakkor ezen baseline megk
ozeltes pontossagi
ertekei szerint a felig kompozicion
alis szerkezetek kevesbe tobbertelm
uek angolban, mint a magyar nyelvben, azaz a list
akban el
ofordulo FX-jelolt nagyobb
val
oszn
useggel lesz a valosagban is FX.
Az 5. tabl
azat pontossagi ertekei is igazolj
ak, hogy a felig kompozicionalis
szerkezetek automatikus azonost
asa sor
an hasznos informaci
o lehet a kontextus
is. Igy peld
aul a titokban tartja a kapcsolatot Imrevel szovegreszletben a titokban
tarja es a tartja a kapcsolatot is lehetseges FX. Ebben az esetben a sz
ovegkontextus segthet eldonteni, hogy melyik szekvencia az adott szovegben az FX.
A foly
o sz
ovegekben el
ofordul
o felig kompozicion
alis szerkezetek automatikus
azonost
asa gy nagyban segtheti az olyan alkalmaz
asokat, mint a gepi fordt
as
vagy az informaci
okinyeres. Ugyanakkor el
ofordulhat olyan eset is, amikor a feloen a sz
ovegb
ol kigy
ujthet
o FX-ek listaja erdekli alapvetoen.
hasznal
ot alapvet
Ebben az esetben elegend
o minden potenci
alis FX azonost
asa a szovegben, nem
67
sz
ukseges annak eld
ontese, hogy az adott szekvencia FX-kent viselkedett-e az
adott kontexusban.
Az FXtaggerrel elert eredmenyek az 6. t
abl
azatban lathat
oak. A gepi tanul
o megk
ozeltessel elert eredmenyek minden korpuszon meghaladtak mind
a szot
aralap
u baseline m
odszer, mind a szab
alyalap
u rendszerek eredmenyeit.
Vagyis a felig kompozicion
alis szerkezetek automatikus azonost
as
ara hatekony
reprezent
aci
ot voltunk kepesek adni a CRF line
aris tanul
o szam
ara kib
ovtett
jellemzoter segtsegevel. Mint ahogy meggyelhett
uk, a korpuszokr
ol gy
ujtott
sz
ot
arak kedvezo hat
assal voltak a pontoss
agra, mg a POS-szab
alyok a fedest
4.
Eredm
enyek
Az altalunk deni
alt szab
alyalap
u megkozeltesek eredmenyei azt igazolj
ak, hogy
m
ar sekely morfol
ogiai elemzesek segtsegevel is versenykepes eredmenyeket lehet
elerni felig kompozicion
alis szerkezetek automatikus azonost
asa soran. Hatekony
jellemzonek bizonyult a lemmatiz
al
as, sz
ot
ovestes, szofaji egyertelm
ustesen kv
ul egy funkci
oige-lista is. Ugyanakkor a szintaktikai inform
aci
ok integr
alasa
tov
abb javtja a rendszer teljestmenyet. A felig kompozicion
alis szerkezetek
felismerese ennelfogva leghatekonyabban a szintaktikai elemzest k
ovetoen, egy
ut
ofeldolgoz
o lepesben val
osulhat meg, annak vegeredmenyet pedig j
ol tudjak
hasznostani a magasabb rend
u alkalmazasok, peld
aul az informaci
okinyeres es
a gepi fordt
as.
aval
A k
ul
onboz
o szab
alyalap
u m
odszerek jellemz
okre val
o transzformalas
megvizsg
altuk a gepi tanulo algoritmusok hatekonys
agat is. Altal
anosan elmondhat
o, hogy a gepi tanulo m
odszerekkel magasabb F-merteket tudtunk elerni, mint
a szab
alyalap
u megk
ozeltesekkel. Ugyanakkor az eredmenyekb
ol kit
unik, hogy a
szab
alyalap
u modszerek jobb fedest tudnak elerni, mg a gepi tanulo megkozeltes
joreszt j
o pontossag
anak k
osz
onheti sikeret. Ahogy a 6. tabl
azatban is latszik,
a gepi tanulo megk
ozeltes mind a negy vizsgalt korpuszon 50% folotti pontossagot volt kepes elerni, mg a szab
alyalap
u megkozeltesek vagy egyaltal
an
nem kepesek ilyen magas pontoss
agra, vagy csak igen alacsony fedes mellett.
68
1. abra. Szab
alyalap
u eredmenyek a korpuszokon.
5.
Az angol
es magyar eredm
enyek
osszevet
ese
69
6.
Osszegz
es
K
osz
onetnyilv
ant
as
A kutatas reszben a MASZEKER es BELAMI k
odnev
u projektek kereteben
Hivatkoz
asok
1. Vincze, V., Nagy T., I., Berend, G.: Multiword expressions and named entities in
the Wiki50 corpus. In: Proceedings of RANLP 2011, Hissar, Bulgaria (2011)
2. Van de Cruys, T., Moir
on, B.n.V.: Semantics-based multiword expression extraction. In: Proceedings of the Workshop on a Broader Perspective on Multiword
Expressions. MWE 07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 2532
3. Cook, P., Fazly, A., Stevenson, S.: Pulling their weight: exploiting syntactic forms
for the automatic identication of idiomatic expressions in context. In: Proceedings
of the Workshop on a Broader Perspective on Multiword Expressions. MWE 07,
Morristown, NJ, USA, Association for Computational Linguistics (2007) 4148
4. Bannard, C.: A measure of syntactic exibility for automatically identifying multiword expressions in corpora. In: Proceedings of the Workshop on a Broader
Perspective on Multiword Expressions. MWE 07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 18
70
5. Samardzic, T., Merlo, P.: Cross-lingual variation of light verb constructions: Using
parallel corpora and automatic alignment for linguistic research. In: Proceedings
of the 2010 Workshop on NLP and Linguistics: Finding the Common Ground,
Uppsala, Sweden, Association for Computational Linguistics (2010) 5260
6. Gurrutxaga, A., Alegria, I.n.: Automatic Extraction of NV Expressions in Basque:
Basic Issues on Cooccurrence Techniques. In: Proceedings of the Workshop on
Multiword Expressions: from Parsing and Generation to the Real World, Portland,
Oregon, USA, Association for Computational Linguistics (2011) 27
7. Tu, Y., Roth, D.: Learning English Light Verb Constructions: Contextual or Statistical. In: Proceedings of the Workshop on Multiword Expressions: from Parsing
and Generation to the Real World, Portland, Oregon, USA, Association for Computational Linguistics (2011) 3139
8. Sass, B.: P
arhuzamos igei szerkezetek k
ozvetlen kinyerese p
arhuzamos korpuszb
ol.
In Tan
acs, A., Vincze, V., eds.: VII. Magyar Sz
amt
ogepes Nyelveszeti Konferencia,
Szeged, Szegedi Tudom
anyegyetem (2010) 102110
9. Tan, Y.F., Kan, M.Y., Cui, H.: Extending corpus-based identication of light verb
constructions using a supervised learning framework. In: Proceedings of the EACL
Workshop on Multi-Word Expressions in a Multilingual Contexts, Trento, Italy,
Association for Computational Linguistics (2006) 4956
10. Vincze, V., Felvegi, Z., R. T
oth, K.: Felig kompozicion
alis szerkezetek a SzegedParalell angolmagyar p
arhuzamos korpuszban. In Tan
acs, A., Vincze, V., eds.:
MSzNy 2010 VII. Magyar Sz
amt
ogepes Nyelveszeti Konferencia, Szeged, Hungary, University of Szeged (2010) 91101
11. Vincze, V.: Felig kompozicion
alis szerkezetek a Szeged Korpuszban. In Tan
acs, A.,
Szauter, D., Vincze, V., eds.: VI. Magyar Sz
amt
ogepes Nyelveszeti Konferencia,
Szeged, Szegedi Tudom
anyegyetem (2009) 390393
12. Toutanova, K., Manning, C.D.: Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In: Proceedings of EMNLP 2000, Stroudsburg,
PA, USA, Association for Computational Linguistics (2000) 6370
13. Klein, D., Manning, C.D.: Accurate unlexicalized parsing. In: Annual Meeting of
the ACL. Volume 41. (2003) 423430
14. Zsibrita, J., Vincze, V., Farkas, R.:
Ismeretlen kifejezesek es a sz
ofaji
egyertelm
ustes. In Tan
acs, A., Vincze, V., eds.: MSzNy 2010 VII. Magyar
Sz
amt
ogepes Nyelveszeti Konferencia, Szeged, Hungary, University of Szeged
(2010) 275283
15. Porter, M.F.: An algorithm for sux stripping. In Sparck Jones, K., Willett, P.,
eds.: Readings in information retrieval. Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA (1997) 313316
16. Tr
on, V., Gyepesi, G., Hal
acsy, P., Kornai, A., Nemeth, L., Varga, D.: hunmorph:
Open Source Word Analysis. In: Proceedings of the ACL Workshop on Software,
Ann Arbor, Michigan, Association for Computational Linguistics (2005) 7785
17. Laerty, J.D., McCallum, A., Pereira, F.C.N.: Conditional random elds: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of the
Eighteenth International Conference on Machine Learning. ICML 01, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. (2001) 282289
18. McCallum, A.K.:
MALLET: A Machine Learning for Language Toolkit.
http://mallet.cs.umass.edu (2002)
19. Szarvas, G., Farkas, R., Kocsor, A.: A Multilingual Named Entity Recognition
System Using Boosting and C4.5 Decision Tree Learning Algorithms. In: Discovery
Science. (2006) 267278
II.Korpusz,ontolgia
73
Kivonat: A tanulmny clja, hogy megllaptsuk, hogy az angol nyelv szabadalmakban milyen arnyban fordulnak el tbbjelents szavak, valamint azt,
hogy ezek a valsgban hny klnbz jelentssel fordulnak el e szvegekben. Kutatsaink sorn az A23K osztlyba tartoz 60 szabadalmat tartalmaz
korpuszunkban tallhat szvegekre sszpontostunk. Elfelttelezseink szerint a szakkifejezsek s terminusok nagy rsze a fnv osztlyba sorolhat,
ezek pedig adott domnen bell ltalban egyflekppen hasznlatosak. Az
eredmnyek is azt igazoljk, hogy a szabadalmakban kevesebb jelents jelenik
meg a gyakorlatban, mint amennyi a sztrakban tallhat.
1 Bevezets
Az ALL s a Szegedi Tudomnyegyetem egy kzs projekt keretben vllalta egy
szemantikus keresrendszer kifejlesztst, amely elsdlegesen az angol s magyar
nyelv szabadalmakban val keresst clozza meg. A keresrendszer hatkony mkdshez a szabadalmak morfolgiai s szintaktikai elemzsn tl szksges azok
szemantikai feldolgozsa is, melynek elfelttele a szavak jelentsnek elzetes meghatrozsa, azaz a jelents-egyrtelmsts.
A tanulmny clja, hogy megllaptsuk, hogy az angol nyelv szabadalmakban milyen arnyban fordulnak el tbbjelents szavak, valamint azt, hogy ezek a valsgban hny klnbz jelentssel fordulnak el e szvegekben.
Cabr [1] alapjn az az elfelttelezsnk, hogy a fnevek s igk a szabadalmakban ltalban csak egy jelentsben fordulnak el, mivel ezek fleg terminusok, amelyeknek alapfelttele, hogy lehetleg csak egy fogalmat denotljanak. Ettl fggetlenl elfordulhat, hogy egy terminus tbb fogalmat jell, de egy domnen bell csak
egyet, gy idelis esetben a terminusok nem lehetnek poliszmek, csak homonmek.
2 A jelents-egyrtelmstsi feladat
A jelents-egyrtelmsts egy szveg adott szavnak egy olyan meghatrozssal
vagy jelentssel trtn prostst jelenti, amely az adott szhoz trsthat ms lehetsges jelentsektl lesen elklnl. gy a feladat szksgszeren kt lpsbl tevdik ssze: (1) a vizsglt szveg minden relevns szavnak meg kell hatrozni a lehet-
74
sges jelentseit, illetve (2) az adott sz minden egyes elfordulshoz trstani kell a
megfelel
jelentst.
Az
els
lpsben
leginkbb
elre
megadott
jelentsmeghatrozsokat alkalmaznak, amelyek pldul a kvetkezkbl llhatnak:
A
jelents-egyrtelmst
eljrsok
hatkrk
alapjn
s
a
jelentsmegklnbztets foka szerint kt-kt fbb csoportra oszthatk. Hatkr
tekintetben a teljes szkincsre alkalmazhat (all-words WSD) s elre megadott
szalakokon mkd (lexical sample WSD) mdszereket klnbztethetnk meg,
mg a jelentsmegklnbztets rszletessge szerint aprlkos vagy finom (fine
grained), illetve durva (coarse grained) szinteket klnbztethetnk meg.
A lexical sample alap mdszer sokkal kevesebb elzetes munkt (pl.
jelentsmeghatrozsok megalkotsa) s idrfordtst ignyel, mivel nem szksges
az adott korpusz sszes tbbjelents elemnek elzetes definilsa. Ezzel szemben
az all-words mdszer egy jval nagyobb mrtk vllalkozs, amely akkor lehet
hasznos, ha egy ltalnos korpuszt kvnunk ltrehozni, mert ebben az esetben jobban
meg lehet figyelni, hogy milyen jelents milyen szvegkrnyezetben fordul el.
Durva jelentsmegklnbztets esetn nagyobb jelentsmezk, jelentsklaszterek
jelennek meg. Ezek feldolgozhatsga egyszerbb, s az egyrtelmsts a gpi tanul szmra s egyben az emberi annottor szmra is knnyebb. Finom
jelentsmegklnbztets esetn viszont sokkal aprlkosabb klnbsgeket lehet
kdolni, ami mindenkppen hasznos lehet bizonyos alkalmazsokban, mert specifikusabb dolgokra lehet rkeresni, de a korpusz elksztse sokkal id- s munkaerignyesebb feladat. A tlzott jelentsmegklnbztets bizonyos esetekben mg az
emberi annottorok szmra is indokolatlannak tnik, gyakoriak az eltr annotcik,
hiszen minl tbb a jelents, annl nagyobb a tveszts valsznsge. gy, mind
informatikai, mind pedig nyelvszeti szempontbl 3-5 egymstl pontosan elklnthet jelents felvtele tnik a legmegfelelbbnek, mert ezt mind az emberi
annottorok, mind pedig a klnfle szmtgpes algoritmusok szmra is idelis
mkdsi hatkonysgot tesz lehetv (lsd [6]).
75
3 Korpusz s mdszer
Kutatsaink sorn az A23K osztlyba tartoz 60 gygyszerszeti s gygyszati segdeszkzket ler szabadalmakat tartalmaz korpuszunkban tallhat szvegekre
[7] sszpontostunk. Annak eldntsre, hogy mely sznak hny jelentse van, a
legjabb, 3.0-s Princeton WordNetet (PWN) hasznltuk [8]. Ebbl addan az egyrtelmstst csak azokra a szavakra tudjuk elvgezni, amelyek ebben az ontolgiban
is szerepelnek, azaz fnevekre, igkre s mellknevekre. Noha a WordNet hatrozszavakat is tartalmaz, ezekkel nem foglalkoztunk, mert a hatrozszavak elfordulsi
arnya igen csekly a szvegekben, tovbb a szemantikus keress szempontjbl kis
jelentsggel brnak. Mivel a PWN finom jelentsmegklnbztetst alkalmaz, gy a
lehetsges jelentsek szma szalakonknt magasnak mondhat.
A tbbrtelm kifejezsek kigyjtst 60 szabadalmi fignyponton vgeztk el.
Ezeket a fignypontokat az Apache UIMA keretrendszerben az OpenNLP modullal
mondatokra bontottuk s tokenizltuk. Ezt kveten a Stanford POS-tagger segtsgvel minden tokenhez hozzrendeltk annak sztvt s Penn Treebank szerinti
szfaji kdjt (pl. NNS tbbes szm fnv) [5]. Eztn kigyjtttk a korpuszban
elfordul sszes fnevet, igt s mellknevet, majd megnztk, hogy a WordNetben
ezen szavak tbbrtelmek-e vagy sem. Ehhez a Javba is beilleszthet JAWS (Java
API for WordNet Searching) alkalmazst [3] hasznltuk. Ezutn a tbbrtelm szavakat a szvegkrnyezetkkel egytt elmentettk a SemEval s SensEval
workshopokon [2] is hasznlatos XML formtumba.
A korpusz annotlst kt fggetlen nyelvsz vgezte a Sensetagger program segtsgvel. Azokat a szavakat egyrtelmstettk, amelyek legalbb hromszor elfordultak a korpuszban, a ksbbiekben azonban hasonl elvek alapjn bvthet
az annotci. 15 sz elfordulsait mindkt annottor bejellte, ezltal lehetv vlt a
korpusz konzisztenciaszintjnek mrse. A szavakat szfajuk szerint annotltuk, teht
pldul a form sz igei s fnvi jelentseit egymstl teljesen elklntve kezeltk, a
szfaji egyrtelmst modul elemzsnek megfelelen.
4 Eredmnyek
Ebben a fejezetben az elkszlt korpusz statisztikit s az elrt eredmnyeket ismertetjk.
76
Fnv
Mellknv
Ige
sszes
sszes
744
310
162
1216
Tbbrtelm
284
115
135
534
38,17%
37,1%
83,33%
43,91%
Annotltak
szma
Fnv
Mellknv
Ige
sszes
164
52
69
285
Annotltak
Annotlt s
arnya az sszes
legalbb
elfordul tbb- ktrtelm
rtelm szhoz szavak szma
kpest
57,74%
15
45,22%
2
51,11%
12
53,37%
29
Legalbb
ktrtelm
szavak arnya
az annotltak
kzl
9,14%
3,84%
17,39%
10,17%
77
Jelentsek tlagos
gyakorisga a WordNetben
Fnv
Mellknv
Ige
tlag
4,7115
4,9817
7,5362
5,5509
Jelentsek tlagos
gyakorisga a
szabadalmakban
1,0385
1,0976
1,2319
1,1193
A 3. tblzatbl jl lthat, hogy a tnylegesen vizsglt s kzzel is annotlt szavak esetben is az igk rendelkeznek a legtbb jelentssel a WordNetben, tlagban
7,5-del, mg a fnevek s a mellknevek jelentsnek tlagos szma 5. A szabadalmak esetn azonban azt vehetjk szre, hogy a jelentsek tlagos szma szfaji kategritl fggetlenl 1 krl van, s ez a szm az igknl a legnagyobb, egszen pontosan 1,2319. Ez megersti azt a felttelezsnket, hogy a szabadalmakban nagyrszt
terminusknt fordulnak el a kifejezsek.
Az 1. bra mutatja szfaji kategrikra lebontva, hogy az adott szfaj esetn menynyi az tlagos jelentsszm a WordNetben (bal oszlop), illetve a szabadalmakban
(jobb oldali oszlop).
8
7
6
Jelentsek tlagos
gyakorisga a
WordNetben
5
4
Jelentsek tlagos
gyakorisga a
szabadalmakban
3
2
1
0
Fnv
Mellknv
Ige
tlag
Szfaj
Az igk kztt 4 darab hromrtelm (form, reduce, make, have) s 8 darab ktrtelm sz tallhat. A form ige esetben az albbi hrom jelents figyelhet meg a
WordNetben elfordul 7 jelents kzl a szabadalmakban:
78
Jelents
szma
1
2
to compose or represent
create (as an entity)
4
5
WordNetbeli jelents
Plda a szabadalmakban
A wordnetbeli jelentsek kzl gy kevesebb, mint fele hasznlatos a szabadalmakban. Az ts szmmal elltott jelents pldul nagyon kis valsznsggel fordulhatna el akrmilyen szabadalomban.
A szabadalmakban kt jelentssel rendelkez igk a kvetkezk: provide,
determine, combine, contain, comprise, treat, mix s produce. A tbbi mind egy jelentssel rendelkezik.
A mellknevek esetben kizrlag az oral s lower sz rendelkezett kett jelentssel a szabadalmakban, a tbbi mind egyjelents volt. Az els sz szabadalmakban
elfordul kt jelentst s a wordnetbli jelentseket az albbi tblzat tartalmazza:
5. tblzat: Az oral sz jelentsei.
Jelents
szma
1
WordNetbeli jelents
Plda a szabadalmakban
of or relating to or affecting or
for use in the mouth
79
A fnevek kzl egyedl a system sznak volt kettnl tbb jelentse a szabadalmakban, sszesen 3 a wordnetbeli 9 helyett. Ez a hrom jelents a kvetkez volt: (1)
instrumentality that combines interrelated interacting artifacts designed to work as a
coherent entity, (2) a group of independent but interrelated elements comprising a
unified whole s (3) a procedure or process for obtaining an objective. Ezen kvl 14
darab fnvnek volt legalbb kt jelentse a szabadalmakban.
A szabadalmakban elfordul jelentsek arnya arra mutat r, hogy noha a jelents-egyrtelmstsi feladatot finom megklnbztetsknt fogtuk fel, hiszen a
WordNet alapjn hatroztuk meg a jelentseket, a valsgban elgsgesnek bizonyul
a durva jelentsmegklnbztets, azaz ltalban 2-3 jelentssel rendelkeznek a tbbrtelm szavak a szabadalmakban. Tapasztalataink azt is igazoljk, hogy a gygyszerszeti szabadalmak jelents-egyrtelmstse nem ignyli specilis gygyszerszeti
jelentstr ltrehozst, mivel egy ltalnos cl jelentstr (WordNet) is alkalmasnak
bizonyult a feladatra.
Fnv
Ige
Mellknv
sszesen
Elforduls
211
179
62
452
Egyetrts
96,68%
93,85%
100%
96,08%
80
rehoz s valamilyen clra ltrehoz) egymshoz kzel llnak, gy nehezen megklnbztethetnek tltek az annottorok. Az eltren annotlt esetek nagy rsze e kt
jelentst rintette.
Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti
Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel
projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi
Alap s az Eurpai Szocilis Alap trsfinanszrozsval valsult meg.
Bibliogrfia
1. Cabr, M. T.: Terminology. Theory, methods and applications. John Benjamins, Philadelphia PA (1998)
2. Erk, K., Strapparava, C. (eds.): Proceedings of the 5th International Workshop on Semantic
Evaluation. Association for Computational Linguistics, Uppsala, Sweden, July (2010)
3. Java API for WordNet Searching (JAWS), http://lyle.smu.edu/~tspell/jaws/index.html
4. Osenga, K.: Linguistics and patent claim construction. Rutgers Law Journal Vol. 38, No. 61
(2006) 61108
5. Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml
6. Vincze, V., Szarvas, Gy., Almsi, A., Szauter, D., Ormndi, R., Farkas, R., Hatvani, Cs.,
Csirik, J.: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation. LREC 2008, Marrakech, Morocco (2008) 33443349
7. Vincze, V., Nagy ., Klausz, ., Almsi, A., Kiss, M., 2010: Nyelvszeti problmk a
szabadalmak feldolgozsban. In: Tancs, A., Vincze, V. (szerk.): VII. Magyar
Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 168
179
8. WordNet A lexical database for English, http://wordnet.princeton.edu/
81
Korpusz
ept
es
omagyar k
odexekb
ol
Simon Eszter, Sass Balint, Mittelholcz Iv
an
MTA Nyelvtudom
anyi Intezet
{eszter,sass.balint,mittelholcz}@nytud.hu
Kivonat Az annot
alt nyelvi er
oforr
asok elerhet
osege egyre fontosabb
szerepet kap a nyelveszet t
obb ter
uleten: a nyelvtechnol
ogiai fejleszteseken kv
ul az elmeleti kutat
asoknak is kiv
al
o alapanyagot szolg
altatnak
a korpuszok. A Magyar Generatv T
orteneti Szintaxis cm
u projekt kereteben felept
unk egy olyan korpuszt, amely tartalmazza az o
sszes fennmaradt o
magyar sz
ovegemleket. A cikkben a teljes korpuszeptesi munkafolyamatot bemutatjuk a szkennelest
ol az online lekerdez
o fel
uletig.
1.
Bevezet
es
Az annot
alt nyelvi er
oforrasok elerhet
osege egyre fontosabb szerepet kap a nyelveszet t
obb ter
uleten: a nyelvtechnol
ogiai fejleszteseken kv
ul az elmeleti kutatasoknak is kiv
al
o alapanyagot szolgaltatnak a korpuszok. A t
orteneti korpuszok az adatok es a nyelvi jelensegek gazdag tarh
azat adj
ak de csak akkor, ha
a relevans inform
aci
o elektronikusan interpret
alhat
o es elohvhato modon van
tarolva benn
uk. A Magyar Generatv Torteneti Szintaxis cm
u projekt celja,
hogy diakron szintaktikai vizsgalatokat vegezzen magyar nyelv
u szovegeken,
melyhez elsodleges fontossag
u egy elektronikus nyelvtorteneti adatb
azis letrehoz
asa. A projekt id
otartama alatt (2009-2013) felept
unk egy olyan korpuszt,
amely tartalmazza az osszes fennmaradt omagyar kori (8961526) szovegemleket,
a k
ozepmagyar korbol (15261772) pedig k
ulonfele szempontok szerinti aranyos
v
alogat
ast u
gy, hogy minden nyelvj
ar
as, m
ufaj, regiszter s
uly
anak megfelel
oen
kepviselve legyen benne.
an els
osorban m
ar digitalizalt
Napjainkban a korpuszeptesi munkalatok sor
szovegekb
ol indulnak ki; de nem ez a helyzet a torteneti dokumentumokkal. Az
elektronikus formatumok (sot az elektromoss
ag) elotti korb
ol szarmaz
o szovegekb
ol val
o korpuszeptes sokkal ido- es munkaigenyesebb folyamat, es bizonyos
esetekben m
as m
odszereket is igenyel, mint a mai szovegek eseteben. A teny,
hogy az omagyar kor tobb mint 6 evszazadot fog at, amelynek soran nem volt
egyseges hangjel
olesi rendszer, vagyis az egyes szovegekben levo specialis karakterek halmaza k
ul
onboz
o, tov
abb nehezti a helyzetet. A helyesr
as ezekben a
szazadokban t
avolr
ol sem volt egyseges, r
aadasul egy k
odexet altal
aban t
obb
kez jegyez, ami meg tovabb n
oveli a heterogenit
ast a sz
ovegekben. Ezek es m
as,
kes
obb reszletezett okok miatt a sztenderd elofeldolgoz
o lepesek (tokenizalas,
mondatra bontas, morfol
ogiai elemzes es egyertelm
ustes) nem vegezhetok teljesen automatikusan, es nagyon sok kezi ellenorzest igenyelnek.
82
2.
A korpusz anyag
anak o
sszegy
ujt
ese
A reprezentativit
as a korpuszok egyik lenyegi tulajdons
aga, kiveve abban az
esetben, ha egy holt nyelvet vagy egy nagyon specialis nyelvi reteget vizsgalunk.
Ez a helyzet az omagyar korpusz eseteben is, amely terveink szerint az osszes
omagyar korbol fennmaradt sz
3.
83
Az annot
aci
o kidolgoz
asa
3.1.
Szkennel
es
Neh
any k
odex beszkennelt verzi
oja megtal
alhat
o a Magyar Elektronikus Konyvt
arban, s
ot ezek egy resze u
n. ,,szendvics PDF, vagyis a kep m
ogott megtal
alhat
o az OCR-ezett sz
oveg is. Ennek ellenere ezeket nem tudtuk haszn
alni:
a kepek felbont
asa nem eleg j
o az OCR-ezeshez, a mogottes szoveg pedig nem
esett at kezi ellenorzesen, vagyis meglehet
osen sok benne a hiba. Igy minden
k
odexet, amit nem tudtunk szoveges formaban megszerezni, minimum 300 dpi
felbont
asban be kellett szkenneln
unk.
3.2.
OCR
Az omagyar k
odexekben tal
alhat
o nagysz
am
u k
ulonleges karakter kezelese miatt az OCR programmal szemben alapvet
o elvar
asunk volt a tanthat
osag. A
84
sz
oba j
ohet
o nylt forr
ask
od
u szoftverek (pl. Tesseract) tant
asa t
ul id
oigenyes
lett volna, ezert veg
ul az Abby FineReader mellett d
ont
ott
unk. Ez ugyan nem
nylt forrask
od
u, de meglehet
osen k
onnyen tanthat
o, es eleg jo minoseg
u kimenetet ad.
Az OCR program teljestmenyet m
asokhoz hasonl
oan (pl. [1]) nem karakterszinten, hanem szopontossaggal (word accuracy, WAcc) mert
uk (az r
asjelek felismereset
ol eltekintett
unk). Az el
ozetes elvar
asoknak megfelel
oen az eredmenyek
azt mutatj
ak, hogy a pontossag nagyban f
ugg a k
odexekben alkalmazott helyesr
ast
ol. Kniezsa [2] az omagyar kori k
odexek kezeinek helyesr
as
at h
arom
nagy tpusba sorolja; a kiertekelesnel ezt a kategorizal
ast kovett
uk. A mellekjel
nelk
uli helyesr
as a latinban nem szerepl
o magyar hangokat tobb bet
u komas egy rokonhang bet
ujenek mellekjeles
bin
aci
oj
aval rja le; a mellekjeles helyesr
v
altozat
aval jeloli ezeket; a harmadik tpus pedig ezek kevereke. A kiertekeleshez
h
arom k
odexet v
alasztottunk a h
arom k
ulonbozo tpusb
ol, tov
abb
a osszehasonlt
asi alapkent egy r
ovidebb mai magyar sz
ovegen is kiertekelt
uk a szoftver
teljesmenyet.
A legjobban a mellekjel nelk
uli helyesr
assal boldogult a program: ez nagyj
abol
megegyezik a mai magyar szovegek felismereseben ny
ujtott pontossaggal. A
mellekjeles es keverek helyesr
as
u k
odexekben hasznalt speci
alis karakterek nagy
sz
ama a tant
as ellenere is kb. 30%-kal rontotta a pontoss
agot.
2. t
abl
azat. Az OCR szopontossaga helyesr
asi tpusok szerint.
k
odex
Kulcs
ar
M
uncheni
Czech
3.3.
helyesr
as
mellekjel nelk
uli
mellekjeles
keverek
mai magyar
tokensz
am
36.321
74.657
11.478
5.121
felismert
35.258
50.790
7.910
5.068
WAcc (%)
97,07
68,03
68,91
98,97
A bet
uh
u sz
oveg
A bet
uh
u sz
oveg elkesztesekor nem a kodexek kezzel rott v
altozat
at, hanem
az
altalunk haszn
alt atirat szerkeszt
ojenek konvencioit kovetj
uk, vagyis nem
t
oreksz
unk t
okeletes paleograai pontossagra. A szabvanyossag elonyei miatt
a teljes korpuszt sztenderd UTF-8 k
odol
as
u Unicode karakterekkel t
aroljuk es
jelentj
uk meg. Mindenkeppen sz
ukseges egy, az egesz korpuszra kiterjed
o szigor
uan egyseges form
atum, ez teszi lehetove, hogy a lekerdezeseket az egesz
anyagra vonatkoztathassuk. Ugyanakkor viszonylag nagy er
ofesztest kv
an ennek az egysegessegnek a megvalost
asa, mivel az egyes nyelvemlekek r
asm
odja, a
benn
uk el
ofordulo specialis omagyar karakterek halmaza meglehet
osen k
ul
onbozik egymast
ol. A k
ulonfele ekezetes es t
obbszor
osen ekezetes karaktereket a Unicode megfelel
oen kezeli, de el
ofordulnak olyan regi magyar karakterek is, melyek
a Unicode-ban nincsenek reprezentalva. Ezeket a karaktereket egy kivalasztott
85
Normaliz
al
as
A magyar r
asoss
agot a latin nyelv
u es vallasos t
argy
u irodalom fordt
asanak
igenye hvta eletre, de a latin abece magyarra alkalmaz
asa sz
amos problem
at
vetett fel. A legf
obb gond abb
ol fakadt, hogy nyelv
unk hangrendszerenek t
obb
eleme a latinban ismeretlen, gy ezek jelolesere u
j jeleket kellett bevezetni. Az
omagyar korban a helyesr
as meg egy
altal
an nem volt egysegestve, s
ot egy
k
odexet akar t
obb kez is jegyezhetett, ami tov
abbi egyenetlensegeket okoz a
sz
ovegekben. A k
ul
onb
ozo helyesr
asi rendszerekben is ritka az egy hangegy
bet
u megfeleles (vagyis amikor egy hang jel
olesere mindig ugyanaz a bet
u haszn
alatos, es az adott bet
unek mindig egy hangerteke van), de egy alakul
oban
lev
o helyesr
asi rendszerben ilyenfajta k
ovetkezetesseg meg annyira sem varhat
o
ot inkabb az a tipikus, hogy egy emleken bel
ul is ingadozik egy-egy hang
el. S
ag vilaga])), vagy kett
os hangerteke van egyjel
olesm
odja (pl. Vylag uilaga [vil
egy bet
unek (pl. zerzete zerent [szerzete szerint]). Tovabb bonyoltja a helyzetet,
hogy neh
any bet
u egyarant utalhat maganhangzora es massalhangzora is (pl. az
u,v,w t
obb evszazadon at jelolhette az u,
u,
u,
u,v hangok barmelyiket).
Ezert sz
ukseg van egy u
n. normaliz
al
asi lepesre, amelynek sor
an az eredeti
bet
uh
u sz
oalakokat mai magyar helyesr
as
u szavakra alaktjuk at. A t
obbfele,
k
ul
onboz
o nyelvtorteneti szakmai ervekkel al
at
amaszthat
o lehetseges feldolgoz
asi
forgat
ok
onyvek egyik gyakori k
ozos
atalakt
o lepese ez a fajta normaliz
alas (pl.
[3]). A szovegfeldolgozasnak ez a lepese kritikus fontoss
ag
u, enelk
ul ugyanis a
(felig) automatikus annot
aci
o hatekonysaga a k
ovetkezo lepesekben dramaian
visszaesik [4].
ul id
oigenyes
Mivel a normalizal
as nyelvtorteneti szakertelmet kvano, rendkv
manu
alis munka, megpr
ob
altuk kiv
altani gepi elj
ar
assal. Az altalunk eptett
gepi normalizal
o az
omagyar tokenekhez atr
asi lehet
osegeket rendel, melyek
k
oz
ul a normaliz
al
ast vegz
o nyelvesz ki tudja valasztani a megfelelo kimenetet
(reszletesen lasd [5]).
A normalizal
as sor
an ket alapelvet tartunk szem el
ott. Egyreszt a ma nem
letezo
osszes sz
ot, toldalekot, morfol
ogiai konstrukciot megtartjuk, vagyis morfem
at nem toldunk be, es nem hagyunk el. M
asreszt viszont elhagyunk minden
fonol
ogiai es helyesr
asi esetlegesseget, vagyis egyseges, amennyire lehet, a mainak megfelelo helyesr
asra t
oreksz
unk. Ez ut
obbi azt is jelenti, hogy egy adott
sz
ot mindig ugyan
ugy runk le ezt nevezz
uk az egysegesseg elvenek.
A normalizal
asi lepes sor
an t
ortenik meg a sz
oveg tokenekre es mondatokra
ason jelen esetben azt ertj
uk, amikor
valo bont
asa is mindkett
o kezzel. Tokenizal
az omagyar sz
ovegben a szavakat a mai helyesr
asnak megfeleloen osszevonjuk,
illetve szetv
alasztjuk, termeszetesen a megfelelo modon jelolve a v
altoztat
asokat.
Mivel ebben a korban a mai r
asjelek nagy resze meg ismeretlen volt, tovabb
a
amit haszn
altak, azt se k
ovetkezetesen tettek, a mai ertelemben vett automatikus
86
Morfol
ogiai elemz
es
es egy
ertelm
ust
es
A normalizalt sz
ovegv
altozat kepezi a morfol
ogiai elemz
o bemenetet. Mivel a
normaliz
al
as sor
an az omagyar sz
oveget mai magyarra rjuk at, az ez ut
obbira
kifejlesztett automatikus morfol
ogiai elemzot viszonylag konnyen tudjuk alkalmazni a nyelvemlekek feldolgozasara. Jelen projektben a Humor elemz
ot haszn
altuk [6]. Az egyik normaliz
al
asi alapelv
unk, hogy minden morfologiai konstrukci
ot megtartunk, ezert termeszetesen ki kellett b
ovten
unk a lexikont es a
szab
alyhalmazt bizonyos ma m
ar nem letezo, de az omagyarban meg hasznalt
nyelvi jelensegek ler
asaval. A morfologiai elemzo kimenetenek egyertelm
usteset
viszont a gepi normalizal
o kimenetenek kezelesehez hasonloan kezzel vegezz
uk.
4.
Korpuszlek
erdez
o eszk
oz
A korpusszal p
arhuzamosan kesz
ul a hozz
a tartoz
o korpuszlekerdezo rendszer,
amelynek segtsegevel a teljes
omagyar korpuszt kutathatjuk. A jo korpuszlekerdez
o eszk
oz
ok lehetove teszik azt, hogy kinomult, nyelveszetileg relev
ans
lekerdezeseket fogalmazzunk meg altaluk. Az ilyen lekerdezesek sok esetben
k
ul
onfele nyelvi szinteken megjeleno informaci
ora hivatkoznak. Hogy ez megval
osulhasson, adatb
azisunk p
arhuzamosan tartalmazza az 1. t
abl
azatban lathat
o
hat sz
ovegfeldolgozotts
agi szintnek megfelelo nyelvi adatokat. Ezenfel
ul lehet
ove
tessz
uk a t
obb szintre val
o egyidej
u hivatkoz
ast ak
ar egy kerdesen bel
ul is. Ha
peld
aul az a kerdes
unk, hogy milyen szavak szerepelnek egy igealak es egy igek
ot
o
k
oz
ott, akkor az elemzesek szintjen (6) kell megfogalmazni a kerdest. Ha gyakorisagi list
at keszt
unk a korpusz egy reszebol, akkor ezt megtehetj
uk peldaul a
u szavakra is,
szot
ovekbol kiindulva, de ra lehet kerdezni kozvetlen
ul az nc. veg
ekkor a (3) szinthez fordulunk.
A korpusztal
alatok megjelentese f
uggetlen a lekerdezest
ol, abban az ertelemben, hogy igeny szerint barmilyen ak
ar a lekerdezesben nem is szerepl
o
szovegfeldolgozotts
agi szintet is megjelenthet
unk.
A korpusz anyaga vertik
alis f
ajlok formajaban kesz
ul el. Ezek .csv form
atum
u
tabl
azatok, melyek soronkent egy sz
ovegszot tartalmaznak, az egyes sz
ovegfeldolgozotts
agi szintekhez tartozo informaci
ot pedig a megfelel
o oszlopban, kiegesztve
egy ,,Ertelmez
es es egy ,,Megjegyzes oszloppal. Ezt a format XML-le alaktjuk,
gy vegezz
uk el a valid
aci
os lepeseket, melyek az adatbazis konzisztenci
ajat ellen
orzik. Egy k
ovetkezo atalakt
o lepes sor
an alakul ki az alkalmas bemenet az
Emdros [7] korpuszkezel
o rendszer sz
am
ara, melyre a lekerdezofel
ulet ep
ul.
A lekerdez
o fel
ulet az 1. abran l
athat
o. A fel
ulet kozeps
o reszen hivatkozhatunk az egyes sz
ovegfeldolgozottsagi szintekre. Az itt megadott adatokbol az
OK gomb megnyomasara all el
o maga a lekerdezes a bal oldali sz
ovegmezoben
az Emdros lekerdez
onyelven, ez szerkeszthet
o, es a Mehet gombbal futtathat
o.
87
1. abra. A korpuszlekerdez
o fel
ulete. A felt
untetett peldaban azokra a tokenekre
keres
unk, melyeknel a normalizalt alak kezdete a jonh sztring.
2. abra. Az 1. abr
an l
athat
o lekerdezes eredmenyenek reszlete: korpuszpozci
ok,
ahol a normaliz
alt alak kezdete a jonh sztring.
88
Az 1. abr
an bemutatott lekerdezes eredmenye a 2. abr
an lathat
o. A talalatok
felett a l
okuszjel
ol
o tal
alhat
o, mely a k
odex azonost
ojabol, az oldalsz
ambol es
az adott sz
o egyedi azonost
oj
ab
ol all. Az egyes tal
alatokat t
abl
azatos formaban
jelentj
uk meg: a bet
uh
u alak z
olddel, a normaliz
alt alak feketevel, az ertelmezes
az omagyar jonh mai magyar megfeleloje a szv szo pedig kekkel.
Veg
ul l
assunk egy val
odi omagyar szintaxisra vonatkozo elmeleti nyelveszeti
kutat
asi kerdest, melynek megv
alaszol
asahoz segtseget ny
ujthat a korpusz. A
mai magyarban tagad
as eseten az igekot
o koveti az iget (vo: nem j
on be), az
omagyar viszont az igekot
o + tagadosz
o + ige (v
o: be nem j
on) sorrendet
ara vonatkoz
o megfelel
o lekerdezesek
hasznalja legt
obbsz
or. A sz
ofajok sorozat
a 3. abr
an l
athat
ok. Ezt a jelenseget mutatja a J
okai-kodexb
ol szarmaz
o alabbi
peldamondat is: ,,Ver touaba k
y nem futott (Ver tovabb
a ki nem futott.).
Mai magyar sz
orend:
[W FOCUS w_6e ~ Mod]
[W FOCUS w_6e ~ V\.]
[W FOCUS w_6e ~ Vpfx]
Omagyar
sz
orend:
[W FOCUS w_6e ~ Vpfx]
[W FOCUS w_6e ~ Mod]
[W FOCUS w_6e ~ V\.]
5.
Tov
abbi feladatok
Els
odleges feladatunk a teljes omagyar anyag bet
uh
u szoveges formaban valo
el
o
allt
asa es kereshetove tetele. A normaliz
alast, valamint a morfol
ogiai elemzest
es egyertelm
ustest csak a korpusz egy reszen fogjuk vegrehajtani.
Az omagyar sz
ovegek eleve adott heterogenit
asa mellett tov
abbi problem
akat
okoz az is, hogy a k
ulonb
ozo korokban kiadott nyomtatott k
odex
atiratok tipograai kenyszer
usegek miatt azonos karaktereket elter
oen jelentenek meg.
Terveink k
ozott szerepel ezen esetlegessegek kik
usz
obolese, vagyis a k
ul
onb
ozokeppen jel
olt karakterek azonos sztenderd Unicode-karakterrel val
o lecserelese.
A k
ozepmagyar anyagok eseteben m
ar fontos szerepet jatszik a reprezentativitas kerdese, ugyanis ebb
ol a korbol lenyegesen t
obb nyelvemlek
unk szarmazik,
vagyis a teljes anyag feldolgozasara ebben a projektben nem v
allalkozhatunk.
89
A k
ozepmagyar szovegemlekek kivalogat
asan
al ket fo szempontot tartunk szem
el
ott: csak a m
ar szoveges form
atumban elerhet
o dokumentumokkal foglalkozunk, es ezeket D
om
otor [8] m
ufaji beosztasat k
ovetve kategorizaljuk u
gy, hogy
minden regiszter megfelel
oen kepviselve legyen a korpuszban.
K
osz
onetnyilv
ant
as
Az omagyar korpusz eptese a Magyar Generatv Torteneti Szintaxis projekt
kereteben valosul meg. A projektet az OTKA NK 78074. sz
am
u p
aly
azata tamogatja. K
osz
onetet mondunk Novak Attilanak, aki a morfol
ogiai elemzest es a
Jakab L
aszl
o-fele t
abl
azatok atalakt
asat vegzi.
Hivatkoz
asok
1. Volk, M., Marek, T., Sennrich, R.: Reducing OCR Errors by Combining Two OCR
Systems. In: Proceedings of the ECAI 2010 Workshop on Language Technology
for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon,
Portugal, Faculty of Science, University of Lisbon (2010)
2. Kniezsa, I.: Helyesr
asunk t
ortenete a k
onyvnyomtat
as kor
aig. Akademiai Kiad
o,
Budapest (1952)
3. McEnery, T., Hardie, A.: Lancester Newsbooks Corpus. (2003)
4. Rayson, P., Archer, D., Baron, A., Culpeper, J., Smith, N.: Tagging the bard:
Evaluating the accuracy of a modern POS tagger on Early Modern English corpora.
In: Proceedings of Corpus Linguistics, University of Birmingham (2007)
5. Oravecz, C., Sass, B., Simon, E.: Semi-automatic normalization of Old Hungarian
codices. In: Proceedings of the ECAI 2010 Workshop on Language Technology
for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon,
Portugal, Faculty of Science, University of Lisbon (2010)
6. Pr
oszeky, G., Kis, B.: A unication-based approach to morpho-syntactic parsing of
agglutinative and other (highly) inectional languages. In: Proceedings of the 37th
Annual Meeting of the Association for Computational Linguistics, College Park,
Maryland, USA (1999) 261268
7. Petersen, U.: Emdros a text database engine for analyzed or annotated text. In:
COLING 2004. (2004) 11901193
8. D
om
ot
or, A.: Regi magyar nyelvemlekek. Akademiai Kiad
o, Budapest (2006)
90
1 Bevezets
A wordnetek olyan lexikai adatbzisok, amelyek jelentsk alapjn klaszterekbe
rendezdnek s klnfle szemantikus s lexikai relcik segtsgvel kapcsoldnak
ssze egy konceptulis hierarchiba (lexikai ontolgiba). Eredetileg azrt alkottk
meg ezeket, hogy bemutassk, hogyan szervezdnek a nyelvi ismeretek az emberi
elmben [6].
A wordnetek mretket tekintve ugyan eltrseket mutatnak, de ezeket klnsen a Princeton WordNetet (PWN) tekintik egy adott nyelv legnagyobb nyelvi informcit tartalmaz adatbzisainak.
A wordnetek ltrehozsnl a tbbnyelvsg is fontos szempont: az ptk rendszerint a PWN-hez igaztjk j adatbzisaikat, gy azokat olyan mind egy-, mind
pedig tbbnyelv alkalmazsokban lehet felhasznlni a szmtgpes nyelvszetben
mint pl. a jelents-egyrtelmsts, a gpileg tmogatott fordts, dokumentumklaszterezs stb.
Azonban kt nyelv sosem fedi egymst teljesen sem a konceptulis, sem pedig lexikai szinten. Dolgozatunkban fogalmak megfeleltetse szempontjbl vetjk ssze a
magyar s angol wordnetet, ismertetjk a felmerlt problmkat s megoldsi javaslatokat is tesznk. Elszr rviden bemutatjuk a magyar s angol wordnetet, majd pldkkal vilgtjuk meg a nem lexikalizlt (non-lex) s technikailag nem lexikalizlt (t
non-lex) synseteket. Ezt kveten arra tesznk javaslatot, hogy hogyan kerlhetjk el
a non-lex cmke alkalmazst, vgl pedig rmutatunk arra, hogy noha idelis esetben
egy, a nyelv konceptulis hierarchijt brzol wordnetnek nem kellene non-lex
elemeket tartalmaznia, mgis hasznosnak bizonyulhatnak olyan kutatsi terletek
szmra, mint a pszicholingvisztika, nprajz s kontrasztv nyelvszet.
91
2 Wordnetek a nagyvilgban
Az els wordnetet a Princeton Egyetemen hoztk ltre angol nyelvre. A 90-es vek
ta folyamatosan fejlesztik s mostanra a legnagyobb angol nyelven hozzfrhet
lexikai adatbziss vlt, mely knnyen illeszthet klnfle szmtgpes alkalmazsokhoz. A Princeton WordNet 3.0 hozzvetleg 155 000 szt s mintegy 117 000
synsetet tartalmaz.
Azta egyb wordneteket is ltrehoztak, gy pl. a EuroWordNetet, holland, olasz,
spanyol, nmet, francia, cseh s szt nyelvekre [2]; a BalkaNetet, az EuroWordNet
kiterjesztseknt bolgr, grg, trk, szerb s romn nyelvekre [9,10]. Ezeken kvl
wordneteket fejlesztettek mg arab, horvt, knai, dn, szlovn, lengyel, orosz, perzsa,
hindi, tulu, dravida, tamil, telegu, szanszkrit, bodo, asszmi s filippn nyelvekre
[3,8].
A Magyar WordNetet (HuWN) a Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzete, a Szegedi Tudomnyegyetem Informatikai Tanszkcsoportja s a MorphoLogic Kft. Fejlesztette ki egy hromves projekt keretben [1,5]. A HuWN jelenleg tbb mint 40 000 synsetet tartalmaz, melybl 2 000 synset a gazdasgi, 650 synset
pedig a jogi szakontolgia rszt kpezi.
A HuWN alapjul a Princeton WordNet 2.0 szolglt, pontosabban a BalkaNet
Concept Setbe (BCS) tartoz synsetek lettek kivlogatva s magyarra fordtva. A
wordnet kszti ezt kveten szerkesztettk, javtottk s kiterjesztettk ket szinonimkkal a VisDic szerkesztprogram segtsgvel. Ksbb a fogalmak krt koncentrikusan terjesztettk ki, azaz a mr meglv synsetek utdait synsetjelltekknt
kezeltk. A vgs dntst, arrl, hogy felvegyk ket vagy sem, tbb tnyez is befolysolta, mint pl. a fogalom gyakorisga vagy jelenlte ms wordnetekben [5].
Kiterjesztses modell
92
trtn tltetse tovbbi nehzsgeket okozott volna, klnsen a tbbnyelv alkalmazsokra tekintettel [7].
Azrt, hogy ne legyenek lyukak a fban, azaz a magyar s angol wordnet a lehet legnagyobb mrtkben tfedjen, meg kellett tallni az ilyen synsetek megfelel
kezelsnek mdjt. Bevezettk a non-lex cmkt olyan synsetek jellsre, melyek
(sz szintjn) nem lteznek az adott nyelv lexikonjban. Ezek a synsetek krlrs
formjban tartalmazzk az angol synsetnek megfelel fogalmat, de defincit s
pldt nem.
POS: n NL: yes
ID: ENG20-04138222-n BCS: 3
Synonyms: (haj jobb oldala):0
Domain: aeronautic
NL jelli a non-lex-t; a synsetnek nincs defincija, pldja, rtelmez sztrbeli
linkje s literlja.
Albb statisztikkat kzlnk a HuWN nem lexikalizlt synsetjeit illeten. Lthat,
hogy a HuWN egszt tekintve minden huszadik, a BCS rszt tekintve pedig minden
tizenkettedik synset nem lexikalizlt.
1.tblzat: (Technikai) nem lexikalizlt synsetek a HuWN-ben
Synsetek
Nem lexikalizlt
Technikai nem lexikalizlt
Nem lexikalizlt synsetek % -a
HuWN
42 292
1 999
454
5,799
BCSHu
8 446
463
271
8,69
Most pedig megadjuk azokat a kritriumokat, amelyek alapjn egy synset a nonlex synset kategriba sorolhat. Elszr, lehetsges, hogy a fogalom az adott nyelvben nem fordul el (klnsen kulturlis klnbsgeknek ksznheten). Msodszor,
a fogalom kifejezhet produktv vagy kompozicionlis szerkezetekkel (pl. mellknv
+ fnv szerkezetekkel), azaz nincs md arra, hogy egyetlen szval fejezzk ki ket.
Harmadszor, a fogalom tbb ms, egyetlen szval kifejezhet fogalmat foglal magban, gy a msik nyelvben csupn egy listval fejezhet ki. Negyedszer, gy tnik,
hogy a PWN tbb kvetkezetlensget vagy hibs defincit, hipernima relcit tartalmaz, melyeket a HuWN pti nem kvntak kvetni s ehelyett a problms
synseteket non-lex cmkvel lttk el.
93
94
95
fggny:2
(fggny) t non-lex
96
Pldul a {wide:1; broad:1}s szatellit synsetje a {heavy:5; thick:5}, de a magyarban a szles mindkettt lefedi, ezrt a kzponti synset a {szles:2}, a szatellit
synset pedig a {szles:0}.
A t non-lex cmkvel elltott synseteknek szemben a non-lex synsetekkel van
defincija, pldja s, a legtbb esetben, KSz-linkje is. Azrt vlasztottuk ezt a
megoldst, mert ezek a synsetek ltez fogalmak a magyarban, szavakkal kifejezhetk, s csak a wordnet szerkezetnek ksznhet, hogy a t non-lex cmkt kell alkalmaznunk.
97
szabadsg:1
(szabadsg)
98
5.2 Gyjtfogalmak
Azokat az gyjtfogalmakat, amelyeket vissza lehet adni egy lista megadsval, egyszeren trlni kell a fbl s sszes hiponimit a hipernimjhoz kell csatolni. Pldul:
cycling:1
(kerkprozs, motorozs)
5.3 A fa jraptse
Bizonyos esetekben a fa jraptse tnik a legmegfelelbb megoldsnak. Legelszr
is, hadd mutassuk be a problmt az albbi PWN-bl s HuWN-bl vett farszlettel
(a magyar trsok megfelelnek a PWN definciinak):
1 building:1
2 place of worship:1
3 church
temple:1
plet:1
(istentisztelet helye) non-lex
(keresztny templom) non-lex
(nem keresztny templom) non-lex
1 templom:1
(-)
(-)
99
lehzhatja a WC-n,
Az idima felvtele mint nyelvi egysg sokkal hasznosabb a tbbnyelvsg szempontjbl, mert gy knnyebb azok megfelelit megtallni a msik nyelvben mint
egyes rszeit, msrszt pedig az egsz idima felvtelre kerl, s nemcsak fnvi, igei
vagy mellknvi rszei2. Egyttal az idimk rszeihez kapcsold non-lex
synseteket is fel lehet szmolni.
7 Az eredmnyek rtkelse
A non-lex elemek kulturlis vagy konceptulis klnbsgeket tkrznek s gy nyelvek kzti hasonlsg megllaptsra szolglhatnak. A magyar wordnet jelen formjban tartalmaz non-lex elemeket, de amennyiben valamikor sor kerl a fellvizsglatra, rdemes lenne bizonyos elemeket trlni vagy lexikalizlt elemknt felvenni
(ha hibsan non-lex synsetknt lettek jellve), gy a HuWN igazn tkrzni tudn a
magyar nyelv konceptulis hierarchijt.
Azonban a non-lex jells tbb szakterleten is hasznos lehet, pl. a
pszicholingvisztikban, ahol klnbz nyelvek beszli mentlis fogalmainak hierarchijt vetik ssze a non-lex synsetek expliciten jelzik ezeket a klnbsgeket. A
kultraspecifikus synseteknek a nprajz vehetn hasznt. A nyelvi klnbsgekbl
add non-lex synsetek (pl. fosztkpzs mellknevek) pedig hozzjrulhatnnak az
elmleti s kontrasztv nyelvszet kutatsaihoz.
A fentiekre alapozva teht azt javasoljuk, hogy a magyar wordnetet kt vltozatban
kellene ltrehozni: az egyiket, amennyire csak lehetsges, a PWN-hez kellene ktni,
gy megrizve annak hierarchijt (non-lex synsetekkel); a msiknak nem kellene
non-lex elemeket tartalmaznia, hogy a magyar nyelv hierarchijt tkrzze. A kt
verzit gy a kutatsi cloknak megfelelen lehetne felhasznlni.
2
100
8 sszegzs
Ebben a dolgozatban bemutattuk a kt, HuWN-be bevezetett non-lex cmkt (non-lex
s t non-lex) s megvizsgltuk, hogy mi ll a non-lex jelensg mgtt: elssorban
kulturlis s/vagy nyelvi klnbsgekre vezethetk vissza. Megprbltunk megoldsokkal is szolglni a szksgtelen synsetek trlsvel vagy a fa jrarendezsvel.
Br az adott nyelv hierarchijt brzol wordnetnek nem volna szabad non-lex
elemeket tartalmaznia, mgis hasznosnak bizonyulhatnak klnfle kutatsi terletek
(pszicholingvisztika, nprajz stb.) szempontjbl. gy azt javasoljuk, hogy amennyiben sor kerl a magyar wordnet revzijra, a non-lex elemeket trlni kellene s gy
a magyar konceptulis hierarchit tkrz wordnetet kapnnk, melyet elssorban
magyar nyelv kutatsokra lehetne felhasznlni, az eredetileg kiadott verzi pedig
tbbnyelv kutatsok referencia-adatbzisaknt szolglhatna.
Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg.
Bibliogrfia
1.
2.
3.
4.
5.
6.
Alexin, Z., Csirik, J., Kocsor, A., Mihltz, M., Szarvas, Gy.: Construction of the
Hungarian EuroWordNet Ontology and its Application to Information Extraction. In:
Proceedings of the Third International WordNet Conference. South Jeju Island, Korea (2006) 291292
Alonge, A., Bloksma, L., Calzolari, N., Castellon, I., Marti, T., Peters, W., Vossen
P.: The Linguistic Design of the EuroWordNet Database. Computers and the Humanities. Special Issue on EuroWordNet Vol.32, No. 23 (1998) 91115
Bhattacharyya, P., Fellbaum, C., Vossen, P. (eds.): Principles, Construction and Application of Multilingual Wordnets. Proceedings of the Fourth Global WordNet Conference. Narosa Publishing House, Mumbai, India (2010)
Derwojedowa, M., Piasecki, M., Szpakowicz, S., Zawisavska, M., Broda, B.: Words,
Concepts and Relations in the Construction of Polish WordNet. In: Proceedings of
the Fourth Global WordNet Conference (2008) 16768
Mihltz, M., Hatvani, Cs., Kuti, J., Szarvas, Gy., Csirik, J., Prszky, G., Vradi, T.:
Methods and Results of the Hungarian WordNet Project. In: Tancs, A., Csendes, D.,
Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of the Fourth Global
WordNet Conference. University of Szeged, Szeged (2008) 311320
Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K.: Introduction to
WordNet: an On-line Lexical Database. International Journal of Lexicography Vol.3,
No.4 (1990) 235244
101
Raffaelli, I., Tadi, M., Bekavac, B., Agi, .: Building Croatian WordNet. In:
Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008) 349
359
8. Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008)
9. Tufi, D. (ed.): Romanian Journal of Information Science and Technology. Special
Issue on BalkaNet Vol.7, No.12 (2004)
10. Tufi, D., Cristea, D., Stamou, S.: BalkaNet: Aims, Methods, Results and Perspectives. A General Overview. Romanian Journal of Information Science and Technology. Special Issue on BalkaNet Vol.7, No.12 (2004) 943
11. Zidoum, H.: Towards the Construction of a Comprehensive Arabic WordNet. In:
Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008) 531
544
102
Antal Lszl a morfma fogalmt tisztz 1959-es cikke [1] utn 1964-ben Egy
magyar morfmatr gyben cm cikkben [2] ezt rja: A modern nyelvszeti
felfogs a nyelvet jelrendszernek, kdnak tekinti. [] A nyelv teljes lershoz
[] minden, az adott idpontban l kdtag, jel listba vtele is hozztartozik.
[] Amennyiben a nyelv alapvet eleme a morfma, gy jogosult s szksges
olyan sztr ksztse, amely morfmkat tartalmaz, pontosabban anyagt a
morfma kategrijban mutatja be. [] Persze az ilyen sztr valjban
morfmatr lesz, br nevezhetnnk morfmasztrnak is. Antal Lszl tletbl s Kiss Gbor egy korbbi tanulmnybl [10] kiindulva ksztettk el a
magyar morfmasztrt, azaz a Magyar szelemtrat. Kiindulsunk a Magyar
rtelmez kzisztr (KSz2) [16] 73.542 cmszava volt. Munknk eredmnyekppen sszeszmolhatv vlt, hogy 16.272 tmorfma, 518 tvltozat, 705
fiktv t, 54 igekt, 949 toldalk, illetve eltag s 82 idegen szt pti fel a
sztr cmszavait. tlagosan 2,46 morfma alkot egy-egy cmszt. A Magyar
szelemtr j kiindulsi alap a Magyar gyksztr elksztshez.
1 Bevezets
Brczi Gza is felhvja a figyelmet arra, hogy a nyelvi jelensgek ltalban nehezen
hatrolhatk el pontosan sztvl kategrikba [3]. Ez klnsen rvnyes a magyar
sszetett s tovbbkpzett szavak morfolgiai felbontsa sorn, hiszen a szinkrn s a
diakrn nyelvi skok kztt nincs les hatrvonal. Termszetesen sok esetben a szkpzs, illetve a szsszettel elhomlyosulhat, eltnhet a nyelvhasznl eltt. Nyelvtrtnetileg a folt, jobbgy, jszg, kend, kopr, kopasz, mond, orom, orszg szavak
kpzett szavak; a szsszettel tnye pedig a kvetkez szavakban felismerhetetlen a
mai nyelvhasznl eltt: ifj, frj, ezst, arc, kengyel, nnep, lny, srmny, keszty,
nyolc. Kln csoportot kpeznek azok a szsszettelek, melyek a nyelvhasznl
szmra bizonytalanul homlyosak: holnap, tegnap, testvr. A krdsrl legutbb
alapos tanulmnyt T. Somogyi Magda [19] tett kzz.
103
kp[1]
kp[2]l[5]
kp[2]l[5][5]
kr[1]
kr[1]
k[1]rcs[1]
k[1]rajz[1]
k[1]rak[1]s[5]
kr[1]bstya[1]
kr[1]be[5]
104
le[4]ad[1]
le[4]ad[1]s[5]
le[4]ad[1][5]
le[4]akaszt[5]
le[4]alacsony[1]t[5]
le[4]alacsony[1]t[5][5]
le[4]alacsony[1]odik[5]
le[4]alz[1]
le[4]alz[1]kodik[5]
le[4]alz[1][5]
madm[1]
madr[1]
madr[1]berkenye[1]
madr[1]kp[1][5]
madar[3]sz[5]
madar[3]sz[5]ik[5]
madr[1]birs[1]
madr[1]cseresznye[1]
madr[1]csicserg[2]s[5]
madr[1]dal[1]
mamut[1]
mamut[1]birtok[1]
mamut[1]cg[1]
mamut[1]feny[1]
mamut[1]jv[2]edelem[5]
3 Eredmnyek
A munklat sorn ltrehoztuk a Magyar szelemtrat, amelyet a kvetkez elemek
ptenek fel:
16.272 egyedi tmorfma 96.645 elfordulssal,
518 egyedi tvltozat 4616 elfordulssal,
705 egyedi fiktv t 5988 elfordulssal,
54 egyedi igekt 11.275 elfordulssal,
949 toldalk, ill. eltag 62.282 elfordulssal,
82 idegen szt 108 elfordulssal.
105
szt
elem
1.
2.
ik
3.
mdosult
[konkordancia]
fiktv t
toldalk,
t
igekt
eltag
idegen
sz
szumma
49
3988
3845
3845
31
3473
3504
4.
13
3107
3120
5.
2456
2458
6.
el
20
7.
8.
9.
es
10.
11.
meg
27
1748
1775
12.
ki
11
1669
1680
13.
os
1646
1646
14.
et
1428
1429
15.
1339
1346
16.
1209
1211
17.
ol
1210
1250
18.
at
1150
1150
19.
sg
1139
1139
20.
be
57
988
1394
2402
2074
2074
1832
1891
118
1668
1786
4037
1774
70
1781
1057
1128
106
Lehetv vlt a magyar nyelv szmos szalap (rtelmez s egyb tpus) sztra
utn egy morfmaalap sztrnak az elksztse.
107
mos|oda, ok|mny|ir|oda, v|oda, v|oda|pedaggus, panasz|ir|oda, prt|ir|oda, sajt|ir|oda, sport|usz|oda, szll|oda, szll|oda|i, szll|oda|ipar, szll|oda|lnc,
szll|oda|port|s, szll|oda|tolvaj, szll|oda|tz, szll|oda|vll|al|at, szn|i|tan|oda,
tan|oda, terv|ez||ir|oda, tud|akoz||ir|oda, usz|oda, varr|oda, verseny|ir|oda, verseny|usz|oda
iskola, iskol- fnv (97 db)
alap|iskola, balett|iskola, be|iskol|z, el|iskola, fa|iskola, fest||iskola, fi|iskola,
f|iskola, f|iskola|i, f|iskol|s, gyakor|l||iskola, had|apr|d|iskola, heged|iskola,
inas|iskola, ipar|iskola, iskola, iskola|beteg|sg, iskola|busz, iskola|drma, iskola|p|l|et, iskola|r|ett, iskola|v, iskola|fenn|tart|, iskola|gp, iskola|gyakor|l|at, iskola|hagy|ott, iskola|haj, iskola|i, iskola|igaz|gat|, iskola|jtk, iskola|ker|l|, iskola|knyv, iskola|kpeny, iskola|ktel|es, iskola|ktel|ez|ett|sg, iskola|lt|ogat|s, iskola|lov|ag|l|s, iskola|mester, iskola|mul|aszt|s, iskola|orvos, iskola|pad, iskola|parancs|nok, iskola|plda, iskola|pnz, iskola|rdi, iskola|rend|szer, iskola|rep|l|s,
iskola|ruha, iskol|s, iskol|s|kor, iskol|s|kor|, iskola|szk, iskola|szer, iskola|szolga,
iskola|trs, iskola|tska, iskola|tej, iskola|televzi, iskola|tv, iskola|tpus, iskola|titkr, iskola|udvar, iskola|gy, iskola|vros, iskol|z, iskol|z|s, iskol|z|atlan,
iskol|z|ik, iskol|z|ott, iskol|z|tat, ismt|l||iskola, kadt|iskola, kis|iskol|s, kzp|iskola, kzp|iskol|s, leny|iskola, l|iskola, magn|iskola, magas|iskola, minta|rajz|iskola, munka|iskola, np|f|iskola, np|iskola, nyelv|iskola, prt|f|iskola,
prt|iskola, rel|iskola, szak|iskola, szak|kzp|iskola, szn|i|iskola, tan|onc|iskola,
tnc|iskola, ugr||iskola, vv||iskola, zene|iskola, zongora|iskola, zug|iskola
for- ige (86 db)
al|for|dt, al|for|dul, t|for|dt, t|for|dul, be|for|dt, be|for|dul, bele|for|dt, bele|for|dul, egy|for|dul||s, el|ford|t, el|ford|ul, el|for|dul, v|for|dul|, ezr|ed|for|dul|,
fel|for|dt, fel|for|dul, fel|for|dul|s, fl|for|dul|at, fel|for|dul|t, flre|for|dt, flre|for|dul,
for|dt, for|dt|s, for|dt|, for|dt||gp, for|dt||i, for|dt||ir|oda, for|dt||korong,
for|dt||program, for|dt||s, for|dt||sz|tr, for|dt|ott, for|dt|va, for|dul, for|dul|s,
for|dul|at, for|dul|at|os, for|dul|at|szm, for|dul|at|szm|ll|, for|dul|, for|dul||pont,
htra|for|dt, htra|for|dul, hova|for|dt|s, ker|l|-for|dul, kt|for|dul||s, ki|for|dt,
ki|for|dul, kocsi|for|dul|, kor|for|dul|, kor|szak|for|dul|, kr|for|dul|at, krl|for|dul,
le|for|dt, le|for|dt|hatatlan, le|for|dul, lpcs|for|dul|, meg|for|dt, meg|for|dul,
moz|d|ony|for|dt|, m|for|dt, m|for|dt|s, m|for|dt|, nap|for|dul|, nyers|for|dt|s,
oda|for|dul, pl|for|dul|s, posta|for|dul|ta, prba|for|dt|s, r|for|dt, r|for|dt|s,
sors|for|dt|, sors|for|dul|at, sors|for|dul|, szak|for|dt|, szz|ad|for|dul|,
szz|ad|for|dul||s, szembe|for|dul, tr|l|-for|dul, test|for|dul|at, trzs|for|dt|s, tkr|for|dt|s, t|for|dul|, vilg|fel|for|dul|s, vissza|for|dt, vissza|for|dt|hatatlan,
vissza|for|dul
olvas ige (61 db)
t|olvas, bele|olvas, be|olvas, el|olvas, el|olvas, fel|olvas, fel|olvas|s,
fel|olvas||l|s, gz|le|olvas|, gond|ol|at|olvas|s, gond|ol|at|olvas|, gyors|olvas|s,
hr|olvas|, hozz|olvas, krtya|le|olvas|, ki|olvas, ki|olvas|, kotta|olvas|s,
lap|olvas|, le|olvas, le|olvas|, meg|olvas, nv|sor|olvas|s, olvas, olvas|s, ol-
108
Bibliogrfia
1. Antal, L.: A morfmrl. Magyar Nyelv Vol. LV. (1959) 1622
2. Antal, L.: Egy magyar morfmatr gyben. In.: Tanulmnyok a magyar nyelv letrajza
krbl. Nyelvtudomnyi rtekezsek 40. sz. Akadmiai Kiad, Budapest (1964) 2227
3. Brczi, G.: Magyar trtneti szalaktan I. A sztvek. (Egyetemi Magyar Nyelvszeti Fzetek.) Tanknyvkiad, Budapest (1958)
4. D Bartha, K.: Magyar trtneti szalaktan II. A magyar szkpzs trtnete. (Egyetemi
Magyar Nyelvszeti Fzetek.) Tanknyvkiad, Budapest (1958)
5. Benk, L. (fszerk.): A magyar nyelv trtneti-etimolgiai sztra IIII. Akadmiai Kiad,
Budapest (19671976)
6. Benk, L.: Magyar fiktv (passzv) tv igk. Akadmiai Kiad, Budapest (1984)
7. Czuczor, G., Fogarasi, J. (szerk.): A magyar nyelv sztra IVI. Pest (18621874) [Reprint
kiadsa: Pytheas Kiad, 2010.]
8. Hegeds, R.: Magyar nyelvtan. Formk, funkcik, sszefggsek. Tinta Knyvkiad, Budapest (2005)
9. Keszler, B.: A szkpzs. In: Keszler, B. (szerk.): Magyar grammatika. Nemzeti Tanknyvkiad, Budapest (2000) 307346
10. Kiss, G.: A Magyar Nyelv rtelmez Sztra cmszavainak sszetettsge. In: Horvth, K.,
Ladnyi, M.: Elemszerkezetek s linearits. A jelents s szerkezet sszefggse. Bessenyei
Gyrgy Knyvkiad, Nyregyhza (1998)
11. Kiss, G.: A CzuczorFogarasi-sztr helye a magyar sztrirodalomban. letnk. Vol.
XLIX. No. 34 (2011) 8491
12. Kresznerics, F.: Magyar sztr gykrrenddel s dekozattal, III. Buda (18311832)
[Hasonms kiadsa: Tinta Knyvkiad, 2010.]
13. Ladnyi, M.: Produktivits s analgia a szkpzsben: elvek s esetek. (Segdknyvek a
nyelvszet tanulmnyozshoz 76.) Tinta Knyvkiad, Budapest (2007)
109
14. Papp, F.: A magyar nyelv szvgmutat sztra. Akadmiai Kiad, Budapest (1969)
15. Papp, F.: A debreceni thszaurusz. Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzete, Budapest (2000)
16. Pusztai, F. (fszerk.): Magyar rtelmez kzisztr (KSz2). Akadmiai Kiad, Budapest
(2007)
17. Simonyi, Zs.: Tzetes magyar nyelvtan. Magyar hangtan s alaktan. Magyar Tudomnyos
Akadmia, Budapest (1885)
18. T. Somogyi, M.: Toldalkrendszerezsnk vits krdsei. (Segdknyvek a nyelvszet
tanulmnyozshoz 3.) TINTA Knyvkiad, Budapest (2000)
19. T. Somogyi, M: A feljtott s megjtott kpzk. A nyelvjts hatsa a kpzrendszerre.
In: Bakr-Nagy, M., Forgcs, T. (szerk.): A nyelvtrtneti kutatsok jabb eredmnyei. VI.
Szegedi Tudomnyegyetem Magyar Nyelvszeti Tanszk, Szeged (2011) 229247
20. Tompa, J. (szerk.): A mai magyar nyelv rendszere. Ler nyelvtan, III. Akadmiai Kiad,
Budapest (1961)
21. H. Varga, M.: Egyszer vagy sszetett kpzk? Magyar Nyelvr Vol. 124 (2000) 514519
22. Veenker, W.: Mitteilungen der Societas Uralo-Altaica. Heft 3. Verzeichnis der Ungarischen
Suffixe und Suffixkombinationen. Hamburg, kzirat (1968)
III.Szintaxis,morfolgia,nvelemfelismers
113
A sek
ely mondattani elemz
es tov
abbi l
ep
esei
Recski Gabor
MTA SZTAKI
Nyelvtechnol
ogiai Kutat
ocsoport
e-mail: recski@sztaki.hu
1.
Bevezet
es
2.
Mondattani egys
egek azonost
asa
Tant
as
114
CP
PP
AdvP
AdvP
Prev
Kes nelk
ul
megsem
mehetek
ejjel
haza
1. t
abl
azat. Cmkezes
Kes nelk
ul megsem mehetek ejjel haza .
B-PP E-PP 1-ADVP
O
1-ADVP O O
115
2. t
abl
azat. Kategori
ak megoszl
asa a korpuszban
NP
ADVP
PP
ADJP
Osszesen
2.2.
268726
79536
16925
34
365221
73.58%
21.78%
4.63%
0.00%
100%
A hunchunk rendszer
Ki
ert
ekel
es
azis ar
any
aban, ut
obbi a tenyleges frazisok ar
anyaban mutatja. A szakirodalomban megszokott modon a ket ertek harmonikus k
ozepekent
el
o
all
o u
n. F-pontszammal jellemezz
uk a rendszer altal
anos teljestmenyet. A
hunchunk eredmenyei az egyes mondattani kateg
ori
akon, valamint osszestve,
a 3. t
abl
azatban lathat
ok. Az AdjP kategori
at, mivel a tanuloadatban is nagyon ritkan es szab
alytalanul voltak jelen, a cmkezo is csak elvetve es l
atszolag
ok nek
ul v
alasztotta, ennek hat
asa azonban elhanyagolhato a rendszer ossz
teljestmenye szempontjab
ol.
3. t
abl
azat.
NP
ADVP
PP
ADJP
osszesen
Pontoss
ag
89.36%
92.68%
88.70%
0.00%
90.06%
Fedes
88.80%
92.99%
88.02%
0.00%
89.68%
F1
89.08
92.83
88.36
0.00
89.87
116
3.
Ig
ek
Igek
ot
ok
o igek
ot
ok. Celunk, hogy minel pontosabban tudjuk azonostani,
mely igehez tartoznak. A kezdeti legegyszer
ubb elj
ar
asunk minden igek
ot
oh
oz a
hozz
a a mondatban legkozelebb all
o iget parostja; ez a modszer az igek
ot
oige parokat csup
an 82% kor
uli F-pontszammal azonostja. A pontossagot kis
mertekben javtja, ha az iget csak az igek
ot
ohoz legkozelebb all
o r
asjelek koz
ott
keress
uk.
A legjelent
osebb hibaosztalyt az innitvuszi konstrukci
ok okozz
ak (vo. fel
akar m
aszni ) ha az innitvusz mellett all
o segedige kiv
altja az igekot
o
elv
al
as
at, akkor a segedige k
ozelebb ker
ul az igekot
ohoz, mint az innitvusz
alakban all
o ige. Kalm
an C. es mtsai [10] felsorolj
ak azon segedigeket, melyek
leggyakrabban az igek
ot
o es ige k
oze ker
ulnek: akar, br, fog, kell, kezd, kv
an,
lehet, mer, o
hajt, pr
ob
al, szabad, sz
andekozik, szeret, szokik, tal
al, tetszik, tud
unk el, ha ezen igeket kizarjuk a keresesb
ol.
(pp. 81-82)1 ; jelentos javulast er
Celszer
u volt tov
abb
a kiz
arni a letiget, mivel k
ulonbozo alakjaiban ugyancsak
gyakran ker
ul egy ige es annak igekot
oje k
oze (vo. meg lehet szokni, meg van
csin
alva). A k
ulonb
ozo elj
ar
asokkal elert eredmenyeket a 4. tabl
azat osszesti.
4. t
abl
azat. Igek
ot
o-ige p
arok azonost
asa
baseline
+r
asjelek k
oz
ott
+segedige sz
ures
+letige sz
ures
Pontoss
ag
82.81%
84.41%
97.06%
97.52%
Fedes
82.37%
82.55%
93.41%
95.32%
F1
82.59
83.47
95.20
96.41
A hibak szemrevetelezeseb
ol kider
ul, hogy azok t
ulnyomo tobbseget m
ar a
korpusz valamilyen apr
o hib
aja okozza. Igy peld
aul nem jarhat sikerrel az eljar
as,
ha barhol is teves vagy hianyos az igek es igek
ot
ok morfologiai elemzese, vagy
eppen a kiertekeles alapj
aul szolg
al
o mondattani annot
aci
oba cs
uszik apr
obb
hiba. Veg
ul a hibaforras sok esetben a korpuszban szereplo ketfele annot
aci
o
1
A segedigek beferk
ozesi hajland
os
ag
ar
ol tett meg
allapt
asokat [11] korpuszalap
u
vizsg
alattal is meger
ostette.
117
k
ovetkezetlensege egyes nem egyertelm
u esetekben. Pl. az alabbi mondatban:
Vaks
otet volt a fenekben, csak tapogatva jutott el
ore az el
ore sz
o morfologiai
elemzese szerint igek
ot
o, a szintaktikai annotaci
o alapj
an azonban bovtmeny. A
jelenseg fordtottja is elofordul: az ide gyeljen mondatban hiaba jelez igek
ot
oige viszonyt a korpusz, az algoritmusunk nem tudja azonostani, mivel az ide
sz
o a morfol
ogiai elemzes szerint nem igekot
o, hanem hataroz
o. Ezen szavak
grammatikai st
atusz
anak vizsgalata nyilvanval
oan t
ulmutat jelen cikk hat
arain,
az azonban kijelentheto, hogy az altalunk eltevesztett parost
asok jelentos resze
olyan szerkezeteket erint, amelyekr
ol a kezi annot
atorok sem hoztak k
ovetkezetes
d
onteseket.
3.2.
Komplex ig
ek
A t
obb sz
ob
ol all
o igei szerkezetek egy masik gyakori, amde k
onnyen azonosthat
o
tpusat adjak a m
ar emltett, egy nit es egy -ni veg
u igeb
ol all
o szerkezetek.
Magas pontossag erhet
o el a fentihez hasonl
o baseline modszer neh
any trivialis
javt
as
aval. A modszer itt is csup
an annyi, hogy a morfol
ogia elemzes szerint
innitvuszi jeggyel br
o igeket a hozz
ajuk legk
ozelebbi nit igehez kapcsoljuk,
nem lepve
at k
ozben r
asjelet. A m
odszer pontossagat az 5. tabl
azat mutatja.
5. t
abl
azat. Innitvuszok es nit igek parost
asa
Pontoss
ag Fedes
F1
97.02% 96.35% 96.69
o f
uggoseget, akkor ez sz
amos teves p
arost
ashoz es gy a pontossag jelentos
roml
as
ahoz vezet a fedes kismertek
u novekedese mellett.
Mindket problem
ara legal
abb reszben megold
ast jelentene, ha egy
elofeldolgoz
asi lepesben felismernenk a koordinalt szerkezeteket. Ez egy
uttal
u
jabb hasznos eljar
as lenne az alapveto mondatszerkezet felterkepezesere, gy
remelhetoleg a j
ov
oben erre is sort kerthet
unk.
118
4.
Osszefoglal
as
Cikk
unkben h
arom, a magyar mondatok sekely szerkezetenek felterkepezeset
szolg
al
o elj
ar
ast mutattunk be, melyeket a Szeged Treebank korpusz segtsegevel
ertekel
unk ki. Megmutattuk, hogy a tagmondatok k
ozvetlen osszetev
oit alkot
o
maximalis fr
azisok a fonevi csoportokhoz hasonlo hatekonysaggal azonosthat
oak
a fel
ugyelt tanul
asra alapul
o hunchunk eszk
ozzel. A cikk m
asodik feleben ket
egyszer
u elj
ar
ast rtunk le, melyek kepesek morfol
ogiailag elemzett sz
ovegbol kinyerni az elvalt igek
ot
oj
u igeket es az ige+innitvusz szerkezeteket. Mindket
elj
ar
as 96 sz
azalek feletti F-pontsz
amot er el. Az igek
ot
ok es igek p
arost
asakor
a hib
ak legnagyobb reszeert a korpuszban fellelheto ellentmondasok felelnek,
mg az innitvuszok eseteben a pontossag valoszn
uleg jelent
osen javthat
o,
amennyiben a t
obb egymast koveto innitvuszi alakot tartalmazo mondatok
szerkezeter
ol elozetesen t
obb inform
aci
ot nyernenk ki.
Hivatkoz
asok
1. Recski, G., Varga, D., Zseder, A., Kornai, A.: F
onevi csoportok azonost
asa
magyar-angol p
arhuzamos korpuszban [Identifying noun phrases in a parallel corpus of English and Hungarian]. VI. Magyar Sz
amit
ogepes Nyelveszeti Konferencia
[6th Hungarian Conference on Computational Linguistics] (2009)
2. Csendes, D., Csirik, J., Gyim
othy, T., Kocsor, A.: The Szeged Treebank. In:
Lecture Notes in Computer Science: Text, Speech and Dialogue. (2005) 123131
rendszere. Altal
anos Nyelveszeti Tanulm
anyok (1989) 49103
11. Modri
an-Horv
ath, B.: Gesichtspunkte zu einer funktionalen Typologie der Ungarischen Innitiv regierenden Hilfsverben. Acta Linguistica Hungarica 56(4) (2009)
405439
119
K
oz
oss
egkeres
es alap
u fel
ugyelet n
elk
uli
sz
ofaji egy
ertelm
ust
es
Berend G
abor1 , Vincze Veronika2
1
Szegedi Tudom
anyegyetem, TTIK, Informatikai Tanszekcsoport,
ad ter 2., e-mail:berendg@inf.u-szeged.hu
Szeged, Arp
2
Magyar Tudom
anyos Akademia, Mesterseges Intelligencia Kutat
ocsoport,
Szeged, Tisza Lajos k
or
ut 103., e-mail:vinczev@inf.u-szeged.hu
Kivonat Az el
oad
asban bemutatjuk fel
ugyelet nelk
uli sz
ofaji egyertelm
ust
o m
odszer
unket, mely k
oz
ossegkeresesre ep
ul. A k
oz
ossegkeres
o elj
ar
as bemeneteu
l szolg
al
o, a sz
oalakok f
ol
ott ertelmezett hasonl
os
agi gr
af
k
oltseges sz
amt
as
ara val
o tekintettel az elosztott rendszerek ter
uleten az
u
n. overlay topol
ogi
ak k
ozeltesere kor
abban m
ar sikeresen alkalmazott
T-MAN algoritmust alkalmaztuk. Eredmenyeink azt igazolj
ak, hogy siker
ult a
t
ultetn
unk a ket k
ul
onb
oz
o tudom
anyos k
oz
osseg a
ltal haszn
alt
m
odszerek el
onyeit a sz
ofaji egyertelm
ustes ter
uletere, azaz egy olyan
feladatra ny
ujtottunk gy megold
ast, amelyet egy harmadik tudom
anyos
k
oz
osseg t
uz
ott ki celj
aul.
Kulcsszavak: sz
ofaji egyertelm
ustes, k
oz
ossegkereses, fel
ugyelet nelk
uli
tanul
as, modularit
as
1.
Bevezet
es
A sz
ofaji egyertelm
ustes a termeszetes nyelvi feldolgoz
as egyik alapveto lepese:
sz
amos magasabb rend
u alkalmaz
as hasznostja jellemz
okent a szofaji k
odokat,
azaz igen fontos, hogy a szovegszavakhoz hozzarendelj
uk azok szofaji elemzeset.
A fel
ugyelt sz
ofaji egyertelm
ustesi m
odszerek nagymeret
u, kezzel annot
alt adatb
azisokra ep
ulnek. Az annot
alt adatb
azis letrehoz
asahoz azonban sz
ukseges egy,
az adott nyelvre kidolgozott morfologiai kodrendszer is, melynek segtsegevel
morfol
ogiailag elemezni es egyertelm
usteni lehet az adott nyelv
u szovegeket.
Bizonyos nyelvekre azonban nem all rendelkezesre ilyen kodrendszer es/vagy
nagymeret
u annot
alt adatb
azis. Ez esetekben a megoldast a felig fel
ugyelt vagy
fel
ugyelet nelk
uli szofaji egyertelm
ustesi m
odszerek jelenthetik, melyek segtsegevel az ilyen nyelvekre is lehetseges hatekony szofaji egyertelm
ust
ot epteni.
ugyelt sz
ofaji egyertelm
ustesi m
odszerek a szovegszavakat el
ore megA fel
hat
arozott (a tant
o adatb
azisban szerepl
o) szoosztalyokba sorolj
ak. Azonban
el
ofordulhat, hogy egy nyelvre t
obbfele annot
aci
os rendszer is letezik, mas-m
as
mennyiseg
u elerhet
o annot
alt adattal, ami megnehezti a k
ulonfele szofaji egyertelm
ust
o m
odszerek hatekonys
ag
anak osszeveteset. Peld
aul a hunpos tagger [1]
120
a KR morfol
ogiai kodrendszerre ep
ul, am jelenleg nem tudunk olyan kezzel annot
alt adatb
azisr
ol, amely a KR-k
odokat hasznaln
a. Igy a hunpos hatekonysagat
csak u
gy lehetseges merni, ha a KR-k
odokat megfeleltetj
uk egy kezzel annotalt
korpuszban szerepl
o k
odoknak, ami szinten id
o- es munkaigenyes feladat.
A fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszerek k
ul
onfele csoportokba
(klaszterekbe) soroljak a szavakat, gy kepesek kik
usz
ob
olni a fenti h
atr
anyokat,
mivel a klaszterek osszevethet
ok b
armely morfol
ogiai kodrendszer altal alkalmazott csoportokkal. A m
odszer tov
abb el
onye, hogy a sz
ofaji egyertelm
ustes
reszletesseget k
ulonb
ozo technik
akkal lehetseges szab
alyozni. Mg egyes k
odrendszerek t
uls
agosan reszletes k
odokat tartalmaznak (peld
aul kepzessel kapcsolaukseges a k
odok
tos informaci
okat), addig a legt
obb alkalmaz
as szam
ara nem sz
ilyen mertek
u reszletezese: a f
o sz
ofaj megad
asa altal
aban elegsegesnek bizonyul a legtobb alkalmaz
as szam
ara (peld
aul informaci
o-visszakereses, nevelemfelismeres vagy kulcsszokinyeres). Ezzel szemben mas esetekben fontos lehet a
minel reszletesebb morfol
ogiai informaci
o, peld
aul a gepi fordt
asban vagy a
szemantikai szerepek meghataroz
asaban a fonevi esetragok igen nagy szereppel
brnak. A sz
ukseges reszletesseget a klaszterek mennyisegenek befolyasolasaval
tudjuk biztostani. Az aktualis feladat sz
am
ara indokolt klasztersz
am befolyasol
asara a T-MAN [2] hal
ozati topologiaept
o pletykaalgoritmus sz
am
ara bemenetkent adott gr
af elter
o m
odokon t
orteno feleptesevel nylik lehet
oseg.
ar
as [3] a sz
oalakok kontextu
alis tulajAz altalunk haszn
alt k
ozossegkeres
o elj
donsagaib
ol eptett h
al
ozat particional
asaval alltja el
o az egyes lexikai csoportokat. A gr
afelmeleti alapokon nyugv
o algoritmus a particionalando grafok legjobb
modularit
assal jar
o felbont
asara ad kielegt
o es gyors k
ozeltest. Az eljar
as egy
tov
abbi tulajdonsaga, hogy mivel a k
ul
onbozo particionalasokat jellemz
o modularitas mer
osz
am
anak t
obb lepesben vegrehajtott maximaliz
alasaval tortenik,
gy lehetoseg van hierarchikus k
ozossegek kialakt
asara, amelyek a felhaszn
alasi
ter
ulett
ol f
uggoen elter
o hasznossaggal brhatnak, hiszen a szoalakok durv
abb es
reszletezettebb lexikai csoportokba sorol
asa is lehetseges.
Eredmenyeink azt igazoljak, hogy megkozeltes
unk felveszi a versenyt az anuli modszerekkel, mindemellett a modszer magolra alkalmazott fel
ugyelet nelk
gyarra val
o alkalmazhat
osag
at is sz
amszer
ustett
uk.
2.
Kapcsol
od
o munk
ak
A fel
ugyelet nelk
uli es felig fel
ugyelt sz
ofaji egyertelm
ustes ter
uleten m
ar szamos
kor
abbi munka sz
uletett az utobbi evtizedekben, melyek tobb csoportba sorolhat
ok. Az egyik megk
ozeltes szerint a kvant szofaji klaszterek sz
am
at elore meg
kell adni [4,5], ugyanakkor m
as rendszerek a klaszterek sz
am
at az adott feladathoz igaztva hat
arozz
ak meg. Mg egyes m
odszerek rejtett Markov-modellekre
ep
ul
o fel
ugyelet nelk
uli tanulaskent tekintenek a problem
ara [6,7], addig m
asok
magasabb dimenzios terekben vegeznek sz
amt
asokat, illetve megint m
asok grafkent k
ozeltenek a problem
ahoz. Tov
abb
a, bizonyos modszerek m
ukodesehez
sz
ukseg van egy elore megadott reszleges szot
arra vagy neh
any mintapeldara
is, azonban ezek nem minden esetben allnak rendelkezesre.
121
Sz
amos kiertekelesi metrika haszn
alatos a szakirodalomban, melyek gyakran a t
obb sz
ofaji klasztert el
oallt
o modszereket reszestik el
onyben. A legt
obb
szerz
o azonban az informaci
oelmeletbol kolcsonz
ott V-mertek mellett teszi le
a voks
at [8]. A fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszerek kiertekelese
megfeleltetes alapj
an is t
ortenhet, amikor is a rendszer teljestmenyet a letrejott
klaszterek (vagy ezek egy reszhalmaza) es az etalon klaszterek kozti megfeleltethetoseg alapj
an hat
arozz
ak meg. A kiertekelesi metrik
akr
ol [9] r bovebben.
A h
alozatelemzes kulcsfontossag
u szereppel br a fel
ugyelet nelk
uli megk
ozeltesekben, ahol a magasabb dimenzi
os terekben t
orteno klaszterezes helyett
gr
afalapon hajt
odik vegre a m
uvelet, gyelmen kv
ul hagyva a dimenzionalit
ast.
oz
ul k
ulonosen a k
ozossegkereses kapott nagy A halozatelemzesi m
odszerek k
gyelmet t
obb tudom
anyter
uleten is a biologi
at
ol kezdve a szociologi
an at az
informatik
aig. A gr
afok particion
al
asa kapcsan a modularitas valt meghat
aroz
o
fogalomm
a a kor
abbi metrik
ak k
oz
ul [10]. A modularitas eredetileg a graf particion
alas
anak hatekonysag
at hivatott merni, es kesobb sz
amos gr
afparticion
al
o
algoritmus mint peld
aul a spektralis optimalizaci
o, moh
o algoritmusok es szimul
alt h
utes celf
uggvenyeve v
alt.
3.
M
odszertan
A k
oz
ossegkeres
o elj
ar
asra ep
ul
o sz
ofaji egyertelm
ustes az elter
o sz
oalakok folott
ertelmezett hasonl
osagi graf particion
alasan alapul, amely hasonlosagi graf eptesenek es jellemzo csoportokra bont
as
anak reszletes bemutat
as
ara a kovetkezokben ker
ul sor.
3.1.
Hasonl
os
agi gr
af
Mivel a hasonl
o kontextusban szereplo szoalakokr
ol feltetelezhet
o, hogy hasonlo
mondatbeli funkci
oval is brnak [11], ezert eljar
asunkban a szoalakok szofaji kategori
ainak fel
ugyelet nelk
uli meghat
aroz
asara egy olyan eljar
ast val
ostottunk
meg, mely a sz
oalakok fol
ott ertelmezett hasonl
os
agi graf particion
alasan alapul. Algoritmusunk a szoalakokat a hozz
ajuk meghat
arozott kontextusvektorok
ofaj
ukent inalapj
an sorolja be a hasonl
o szerepet betolt
o es altalunk azonos sz
terpret
alt szavak halmazaiba. Elso lepeskent teh
at a szoalakok folott ertelmezett,
s
ulyozott hasonl
osagi grafunkat deni
aljuk.
Munkank soran a szofajuk szempontj
abol csoportostand
o szavak alkott
ak
azt a V sz
ot
arat, amely elemeit elter
o meret
u (1 W 3) ablakok mellett
vett sz
ok
ornyezet-eloszl
asokkal jellemezt
uk. (Mind a csoportostand
o szoalakok
meghat
aroz
asa sor
an, mind pedig a kornyezet
uk vizsgalata soran egy egyszer
u
regul
aris kifejezes segtsegevel a numerikus kifejezeseket egysegesen kezelt
uk.) A
k
ul
onbozo meret
u es nyelv
u korpuszok feldolgoz
asa sor
an egy-egy sz
oalakot, a
u
bal es jobb oldalukon, elter
o w W pozci
okon szamtott 2(|V |+1)W meret
eloszl
asvektorral jellemezt
unk. A kes
obbiekben particionalando hasonl
osagi graf
cs
ucsait a |V | meret
u sz
ot
ar egy-egy eleme kepezte, a cs
ucsok k
ozotti els
ulyok
122
meghat
aroz
as
aban pedig a szoalakokhoz tarstott eloszl
asvektorok jatszottak szerepet.
A gr
afalap
u megk
ozeltesek el
onye t
obbek k
ozott az, hogy a kiugro ertekek
(outliers) kezelese viszonylag termeszetes modon kezelhet
o szemben peld
aul a
k-k
ozep klaszterezessel. A nem relevans es gy nem kvant hasonl
os
agok kisz
uresenek egy lehetseges m
odja a teljes grafokr
ol a k-legk
ozelebbi gr
afokra valo
atteres lehet. Azon t
Eppen
ezert a szoalakok egymashoz valo viszony
anak reprezent
alasa sor
an a
teljes grafokb
ol Gk = (V, Ek , w) k-legk
ozelebbi szomszeds
agon alapulo grafokat
konstrualtunk, melyekre Ek = {(u, v) : n(u, k) v n(v, k) u}, ahol az
n(u, k) es n(v, k) f
uggvenyek rendre az u es v cs
ucsokhoz tartozo k legkozelebbi
szomszedot adjak vissza, w(u, v) pedig az u es v cs
ucsok k
ozotti szimmetrikus
tavols
agot hat
arozza meg. A cs
ucsok kozotti t
avolsagot a koszinusz t
avols
ag (1),
Jensen-Shannon divergencia (2), illetve Jaccard-egy
utthat
o (3) segtsegevel is
vizsg
altuk, melyek kisz
amt
asa a k
ovetkezo kepletek alapjan t
ortent:
cos(q, r) = 1
JS(q, r) =
q(v)r(v)
2
2
v q(v)
v r(v)
v
(1)
1
[D(q
avgq,r ) + D(r
avgq,r )]
2
(2)
(3)
jacc(q, r) = 1
Az eloz
oekben bemutatott metrik
ak valamelyikevel a cs
ucsokhoz t
orteno k
legk
ozelebbi szomszed meghat
aroz
asat k
ovetoen az eddig t
avolsagokkent ertelmezhet
o els
ulyokat hasonl
osagi ertekekke alaktottuk at. A hasonlosagi mertekre
val
o atteres erdekeben minden (u, v) cs
ucs koz
otti s
ulyt a sim(f (u, v)) = 1+f1(u,v)
kepletnek megfelel
oen alaktottuk at, ahol f (u, v) az el
ozoekben denialt t
avols
agf
uggvenyek erteke u es v cs
ucsokra nezve. A tavols
ag helyett a hasonl
os
agi
ertekekre valo
atteresnek a koz
ossegkeres
o elj
ar
as s
ulyozott gr
afon ertelmezett
m
uk
odese kapcs
an volt fontos.
3.2.
Modularit
asalap
u k
oz
oss
egkeres
es
Az altalunk haszn
alt, modularit
as maximalizal
asara ept
o elj
ar
as el
onye, hogy a
kialakul
o k
ozossegek szama a particion
aland
o graf topologi
aja alapj
an ker
ul meghat
aroz
asra, szemben egyeb eljar
asokkal (pl. k-k
ozep klaszterezes). Egy adott
asaval egy j
osagi erteket rendelgr
afparticion
al
ast jellemzo modularit
as kiszamt
het
unk a felbontas minosegere nezve, mely gyelembe veszi a gr
af topologi
aj
ab
ol
ad
od
oan az egyes cs
ucsp
arok k
ozott elv
arhat
o elek sz
am
at, valamint egy tenyleges
felbont
as sor
an az egyes csoportokon bel
ul vezet
o elek tapasztalt sz
am
at. Az
123
el
oz
oekben elmondottak a k
ovetkezo keplettel sz
amolhat
ok:
Q=
1
ki kj
)(Ci , Cj )
(Aij
2m ij
2m
(4)
+ki,in
2m
in
+ki
2m
tot
2
in
2m
2
tot
2m
ki
2m
2
(5)
ul, illetve a C kozosseget
, ahol in es tot ertekek rendre a C kozossegen bel
ucsot tartalmaz
o,
erint
o elek s
ulyainak osszege, ki es ki,in pedig rendre az i cs
illetve az i cs
ucsot a C k
ozosseggel osszekot
o elek s
ulyainak osszege, m pedig a
particionaland
o gr
afban talalhat
o elek osszs
ulya. Miut
an minden cs
ucs besorol
ast
124
A legk
ozelebbi szomsz
ed gr
af pletykaalgoritmussal t
ort
en
o
k
ozelt
ese
Mas fel
ugyelet nelk
uli modszerhez hasonloan az altalunk javasolt elj
ar
as is nagy
elemszam
u minta alapjan prob
alja a szoalakok k
ozt fennall
o szab
alyszer
usegeket
megragadni, ami azzal jar, hogy a sz
ot
ar meretenek novekedesevel egy
utt a hasonl
os
agi graf cs
ucsainak sz
ama t
obb sz
azezres nagys
agrendben is mozoghat, ami
pedig nagyobb W kontextusablak valasztasa eseten ak
ar az egyes szoalakokat
o sz
okornyezeteloszl
as-vektorok millios hosszat is eredmenyezheti. J
ollehet
ler
a sz
okornyezeteloszl
as-vektorok jellemzoen igen ritk
ak, egy adott esetben tobb
szazezer cs
ucsot tartalmazo hasonlosagi grafra meg gy sem hat
arozhat
o meg
igaz
an hatekonyan minden sz
ogponthoz annak k legkozelebbi szomszedja.
A szot
armeret novekedesevel egy
utt jelentkez
o hatekonysagi problema megold
as
ara a T-Man [2] pletykaalap
u peer-to-peer protokollt hvtuk segtseg
ul,
melynek eredeti celja specialis, dinamikusan v
altozo, nagymeret
u u
n. overlay
h
alozatok topol
ogi
aj
anak felterkepezese. Az overlay halozatok dinamikuss
agab
ol
ad
od
oan az algoritmus a halozati topologia egy kozelteset hat
arozza csup
an meg,
amire eset
unkben a szoalakok hasonlos
agi grafj
anak statikussagabol ad
od
oan
ukseg, ugyanakkor a sz
ot
ar meretenek novekedesebol ad
odo
ugyan nem lenne sz
problem
akra megold
ast ny
ujthat sebessegevel. A protokoll a k
ovetkezok szerint
j
ar el: minden cs
ucs (peer) inicializal
asra ker
ul egy x meret
u random szomszedos
cs
ucsokat (peereket) tartalmazo buerrel, majd az egyes iter
aci
ok sor
an a cs
ucsok
(peerek) kommunikalnak egym
assal, amely sor
an lehetoseg
uk nylik a hozz
ajuk
tartoz
o buerek tartalmanak frisstesere, amennyiben azzal javtani tudnak annak tartalman. (Eset
unkben az overlay h
alozatok azon speci
alis tulajdons
agaval,
hogy a cs
ucsok folyamatosan be,- illetve kilephetnek a halozatb
ol, nem kellett
sz
amoljunk.)
A szerz
ok algoritmusuk gyors konvergenciajar
ol szamoltak be, vizsgalataik
alapj
an 10-15 iter
aci
o elegsegesnek bizonyult az eredeti halozatok topologi
ajanak
ozelebbi
k
ozel t
okeletes kozeltesere. A szoalakok folotti hasonl
osagi graf k-legk
szomszeds
ag
anak felterkepezese kapcs
an tapasztalhato konvergenciaval kapcsolatos eredmenyeinket a 4. fejezet tartalmazza.
4.
125
Eredm
enyek
Az eloz
oekben bemutatottak szerint m
ukod
o k
ozossegkeresesen alapulo sz
ofaji
egyertelm
ust
ot annak fel
ugyelet nelk
uli voltab
ol adodoan modost
asok nelk
ul
alkalmazhattuk magyar, illet
oleg angol nyelv
u szovegekre. Angol nyelv
u vizsg
al
od
asaink t
argy
at az ACL/DCI korpuszban tal
alhat
o Wall Street Journal 1987.
evad
anak 1-5. fejezetei kepeztek, a magyar nyelv
u szovegek eseteben pedig hasonl
o stlus
u es nyelvhaszn
alat
u korpuszt keresven a Magyar Nemzeti Szovegtar
Heti Vil
aggazdas
agot erint
o reszeit vizsg
altuk. Kserleteink kitertek a szoalakok
hasonl
os
ag
anak meghataroz
as
anak k
ulonfele parameterek melletti vizsgalatara:
a kontextusablak merete, akarcsak a hasonl
osagi graf eseteben a k legkozeott mozogtak, tovabb
a megvizsgaltuk azt
lebbi szomszeds
ag ertekei 1 es 3 k
oz
is, mikepp befoly
asolja a sz
oalakok csoportost
as
anak eredmenyesseget, ha elter
o
nagys
agrend
u sz
oveg alapj
an hajtjuk vegre mindazt. A ket nyelvre elkesztett
elter
o nagys
agrend
u korpuszokkal kapcsolatos statsztik
akat a 1. tabl
azat tartalmazza. (Mivel a Magyar Nemzeti Sz
ovegt
ar eseteben nem allt rendelkezesre az
az informaci
o, hogy egy szoalakra nezve melyek a sz
oba johet
o szofaji k
odok, gy
ott a szoalakonkenti atlagos szofajszamot/tobbertelm
useget nem allt m
odunkban
kiszamolni.)
1. t
abl
azat. Az angol es magyar nyelv
u korpuszok statisztik
ai.
WSJ
Szint1 Szint2
Mondatok sz
ama
7053 34486
Tokenek sz
ama
145002 723415
Sz
oalakok sz
ama
13750 31686
Atlagos tokengyakoris
ag
10,55 22,83
Sz
oalakonkenti a
tlagos sz
ofaj 2.26 1,38
MNSZ
Szint1 Szint2
6069 30524
145006 723416
36224 110133
4,00
6,57
-
A nagyobb gr
afok (Szint2 ) eseteben megvizsg
altuk a T-Man h
al
ozatitopologia-k
ozelt
o algoritmus konvergenciaj
anak sebesseget az iter
aci
ok t
ukreben, ami
az 1.
abr
an l
athat
o. Az egyes iteraci
okhoz tartoz
o szaggatott vonalok alapj
an
leolvashat
o, hogy atlagosan h
any szazalekkal haladta meg a k
ozeltett grafokban
szerepl
o elek osszs
ulya az etalon k-legkozelebbi gr
afok alapjan elvarhat
o osszs
ulyokat. A folytonos vonalak menten az lathat
o, hogy az egyes iteraci
ok utan a
gr
af cs
ucsaihoz valasztott legk
ozelebbi szomszedok mekkora h
anyada volt megtal
alhat
o a tenyleges de csak joval t
obb sz
amt
as ar
an megkaphat
o k-legkozelebbi szomszeds
agban szerepl
o elekhez kepest. A k
orrel jelzett ertekek a magyarra, a csillaggal jelzettek pedig az angol eredmenyekre vonatkoznak.
A fel
ugyelet nelk
uli szofaji k
odol
as hatekonysagat jellemzoen a kialakult
arendelhetosege, valamint inklaszterek tenyleges szofaji csoportokhoz val
o hozz
formaci
oelmeleti szempontok szerint szokas vizsgalni. Eredmenyeink a megszo-
126
kott V1-m
ert
ek, illetve egy-az-egyhez (1-1) es t
obb-az-egyhez (t-1) ertekek
szerint ker
ulnek k
ozlesre.
2. t
abl
azat. A harom fo parameter (tavolsagsz
amt
as m
odja, gyelembe veend
o
legk
ozelebbi szomszedok sz
ama, kontextusablak merete) k
oz
ul pontosan egy lex
al
asa mellett elert atlagos eredmenyek az elter
o meret
u es nyelv
u szovegeken.
MNSZ
COS
JS
JACC
k=1
k=2
k=3
w=1
w=2
w=3
Szint1
V1
1-1
0.3336 0.2646
0.3096 0.2260
0.2558 0.1880
0.4138 0.2510
0.2474 0.2164
0.2378 0.2111
0.3270 0.2316
0.2956 0.2342
0.2764 0.2127
t-1
0.3929
0.3581
0.2924
0.4715
0.2943
0.2777
0.3768
0.3475
0.3191
V1
0.3493
0.3345
0.2799
0.4322
0.2726
0.2589
0.3281
0.3275
0.3083
WSJ
Szint2
1-1
t-1
0.2793 0.4266
0.2415 0.3800
0.2049 0.3142
0.2569 0.5212
0.2295 0.3013
0.2393 0.2982
0.2308 0.3838
0.2531 0.3820
0.2417 0.3549
Szint1
V1
1-1
0.4466 0.3054
0.4011 0.3034
0.3184 0.2446
0.4747 0.3115
0.3385 0.2640
0.3529 0.2778
0.3894 0.2702
0.3860 0.2964
0.3111 0.2498
t-1
0.5501
0.4681
0.3993
0.6283
0.3950
0.3942
0.4506
0.4531
0.3887
V1
0.4711
0.4631
0.3204
0.4932
0.3875
0.3740
0.4258
0.4380
0.3909
Szint2
1-1
0.3150
0.3425
0.2323
0.3053
0.3025
0.2819
0.2857
0.3341
0.26700
t-1
0.5907
0.5343
0.3960
0.6803
0.4339
0.4068
0.5137
0.5317
0.4755
3. t
abl
azat. A nagyobb mennyiseg
u szovegekb
ol kesztett k-legk
ozelebbi
szomszeds
agi graf k
ozelt
o meghat
aroz
asa segtsegevel elert atlagos eredmenyek
pontosan egy parameter lexal
asa mellett.
V1
COSINE 0.3167
JS
0.2562
JACC 0.2135
k=1 0,3923
k=2 0,2049
k=3 0,1883
w=1 0,2645
w=2 0,2645
w=3 0,2564
MNSZ
1-1
t-1
0.2645 0.3896
0.2052 0.3083
0.1756 0.2665
0,2494 0,4770
0,2009 0,2512
0,1950 0,2363
0,2087 0,3264
0,2226 0,3248
0,2140 0,3132
V1
0.4724
0.4029
0.2662
0,485
0,3399
0,3167
0,3649
0,4009
0,3758
WSJ
1-1
0.3364
0.2924
0.2090
0,3073
0,2775
0,2530
0,2593
0,3038
0,2747
t-1
0.5859
0.4720
0.3575
0,6532
0,3946
0,3675
0,4632
0,4916
0,4605
A t
obb-az-egyhez kiertekeles olyan megenged
o erteket hat
aroz meg a sz
oalakok csoportost
asahoz, amely a megtal
alt kozossegeket olyan m
odon rendeli
az etalon sz
ofaji cmkek altal alkotott sz
oalakok csoportjaihoz, hogy a pontossag
maximaliz
alva legyen. Ezzel szemben az egy-az-egyhez kiertekeles megk
oveteli
azt a feltetelt, hogy a megtal
alt csoportok hozz
arendelese az etalon csoportokhoz kizar
olag olyan m
odon t
ortenhet, hogy egy etalon csoporthoz egy k
ozosseget
rendelhet
unk. Jelen eredmenyek az egy-az-egyhez hozz
arendeles moh
o m
odon
127
45
40
35
30
25
20
15
10
5
0
10
15
itercik szma
1. abra. A k-szomszeds
agi grafok pletykaalgoritmussal t
orteno kozeltesenek konvergenci
aja a vegrehajtott iter
aci
ok szam
anak f
uggvenyeben.
t
orten
o meghat
aroz
asa mellett ertend
ok (amely nem feltetlen egyezik meg a
glob
alisan legjobb hozz
arendeles ertekevel). Termeszetesen ez ut
obbi kiertekeles
jobban b
unteti azokat a felbontasokat, amelyek az etalon szerint elvartn
al joval
nagyobb sz
am
u csoportot eredmenyeznek.
Az informaci
oelmeleti alapokon nyugv
o V1-mertek [8] az egy klaszterezeshez
tartoz
o homogenit
as es teljesseg ertekekbol szamtott s
ulyozott harmonikus atlagakent all el
o, hasonloan az osztalyozasok j
os
agat jellemzo F-mertekhez, ami
at hasza pontoss
ag es a fedes ertekeket otv
ozi. A homogenit
as felteteles entropi
nalva szamszer
usti, hogy a kialakulo egyes csoportok mennyire diverzek az
etalon csoportokhoz kepest. A teljesseg szamt
asa anal
og m
odon t
ortenik, a
k
ul
onbseg mindossze annyi, hogy ennek eseteben az etalon cmkek diverzitasa
ker
ul sz
amszer
ustesre a megtalalt klaszterek fenyeben. Egy t
okeletes klaszterezes eseteben az osszes egy etalon csoportba tartozo elemet ugyanabban a megtal
alt klaszterben kell tal
aljunk. Hasonl
oan az F-mertek altal
anost
asahoz, a Vmertek eseteben is lehet
oseg nylik annak ket osszetev
ojenek egymashoz mert
fontoss
aga alapjan meghatarozni = 1 v
alasztast
ol k
ulonboz
o modokon is
akar egyeb V ertekeket.
5.
Diszkusszi
o
A hasonl
os
agi grafok segtsegevel leghatekonyabban a f
onevek, igek, segedigek
es sz
amnevek csoportjait siker
ult azonostani: minden altalunk haszn
alt m
odszer
elfogadhat
o mertekben azonostotta oket. Ez k
ulonosen igaz a h
onapnevekre
es a k
ul
onfele cegformak rovidtett alakjaira (peld
aul Co. vagy Ltd.), hiszen
ezekben az esetekben szemantikailag hasonl
o szavak ker
ultek egy csoportba. A
128
altal
anoss
agban a szamnevek felismerese erte el a legjobb eredmenyt. Erdekes
129
m
odon a f
onevek es melleknevek gyakran ker
ultek egy csoportba, amit valoszn
uleg az magyarazhat, hogy a magyarban mindket szoosztaly hasonlo toldalekokat
vehet fel (tobbes sz
am jele, birtokos jel, esetragok).
Ha
osszevetj
uk az angolra es magyarra kapott eredmenyeinket, azt lathatjuk,
hogy a fel
ugyelet nelk
uli szofaji egyertelm
ustes k
onnyebb feladat angolon, mint
magyaron. Ezt termeszetesen a nyelvek kozti elteresekre vezethet
o vissza. Egyreszt az angolban nagys
agrendekkel kevesebb szoalak tartozik egy lemmahoz,
mint a magyarban (erre utal a lehetseges szofaji kodok szama is). Masreszt a
magyarban joval kisebb a tobbertelm
u szoalakok (homonim
ak) szama, az angol ezzel szemben bovelkedik az ige/fonev/melleknev stb. szerepben egyarant
el
ofordul
o szavakban (pl. present). Mindebb
ol az k
ovetkezik, hogy a magyarban t
obb szoalak fordul elo, gy ezek csoportost
asa is nehezebb feladat. Harmadreszt az angol sz
orendje k
ot
ott, mg a magyar szorend a mondat inform
aci
os
szerkezetet t
ukr
ozi, ami azt jelenti, hogy az oszt
alyozand
o szo kornyezete sokkal v
altozatosabb lehet, mint az angolban, vagyis nehezebb a kontextus felett
altal
anostani.
6.
Osszegz
es
Ebben a munk
aban bemutattuk fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszer
unket, mely koz
ossegkeresesre ep
ul. A szoalakok folott ertelmezett hasonl
os
agi
gr
af koltseges szamt
asara val
o tekintettel az elosztott rendszerek ter
uleten az
u
n. overlay topol
ogi
ak kozeltesere kor
abban m
ar sikeresen alkalmazott T-MAN
algoritmust alkalmaztuk. Angol es magyar nyelv
u eredmenyeink egyarant azt
igazolj
ak, hogy siker
ult at
ultetn
unk a ket k
ulonbozo tudom
anyos kozosseg altal
haszn
alt m
odszerek el
onyeit a sz
ofaji egyertelm
ustes ter
uletere, azaz egy olyan
feladatra ny
ujtottunk gy megold
ast, amelyet egy harmadik tudom
anyos kozosseg
t
uz
ott ki celj
aul.
K
osz
onetnyilv
ant
as
A kutatas reszben a MASZEKER es BELAMI k
odnev
u projektek kereteben
Hivatkoz
asok
1. Hal
acsy, P., Kornai, A., Oravecz, C.: HunPos - an open source trigram tagger. In:
Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, Prague,
Czech Republic, Association for Computational Linguistics (2007) 209212
2. Jelasity, M., Montresor, A., Babaoglu, O.: T-man: Gossip-based fast overlay topology construction. Comput. Netw. 53 (2009) 23212339
130
3. Blondel, V.D., Guillaume, J.L., Lambiotte, R., Lefebvre, E.: Fast unfolding of
communities in large networks. Journal of Statistical Mechanics: Theory and Experiment 2008(10) (2008) P10008+
4. Biemann, C.: Chinese whispers: an ecient graph clustering algorithm and its
application to natural language processing problems. In: Proceedings of the First
Workshop on Graph Based Methods for Natural Language Processing. TextGraphs1, Stroudsburg, PA, USA, Association for Computational Linguistics (2006) 7380
5. Lamar, M., Maron, Y., Johnson, M., Bienenstock, E.: Svd and clustering for unsupervised pos tagging. In: Proceedings of the ACL 2010 Conference Short Papers.
ACLShort 10, Stroudsburg, PA, USA, Association for Computational Linguistics
(2010) 215219
6. Gao, J., Johnson, M.: A comparison of Bayesian estimators for unsupervised Hidden Markov Model POS taggers. In: EMNLP 08: Proceedings of the Conference
on Empirical Methods in Natural Language Processing, Morristown, NJ, USA,
Association for Computational Linguistics (2008) 344352
7. Van Gael, J., Vlachos, A., Ghahramani, Z.: The innite HMM for unsupervised PoS
tagging. In: Proceedings of the 2009 Conference on Empirical Methods in Natural
Language Processing, Singapore, Association for Computational Linguistics (2009)
678687
8. Rosenberg, A., Hirschberg, J.: V-measure: A conditional entropy-based external
cluster evaluation measure. In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). (2007) 410420
9. Christodoulopoulos, C., Goldwater, S., Steedman, M.: Two decades of unsupervised POS induction: How far have we come? In: Proceedings of the 2010 Conference
on Empirical Methods in Natural Language Processing, Cambridge, MA, Association for Computational Linguistics (2010) 575584
10. Newman, M.E.J., Girvan, M.: Finding and evaluating community structure in
networks. Physical Review E 69(2) (2004) 026113+
11. Biemann, C.: Unsupervised part-of-speech tagging employing ecient graph clustering. In: Proceedings of the 21st International Conference on computational
Linguistics and 44th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. COLING ACL 06, Stroudsburg, PA, USA,
Association for Computational Linguistics (2006) 712
12. Brandes, U., Delling, D., Gaertler, M., Goerke, R., Hoefer, M., Nikoloski, Z., Wagner, D.: Maximizing modularity is hard. (2006)
13. Santorini, B.: Part-of-speech tagging guidelines for the penn treebank project.
Technical report, Department of Computer and Information Science, University of
Pennsylvania (1990)
131
Szegedi Tudomnyegyetem,
Szmtgpes Algoritmusok s Mestersges Intelligencia Tanszk
6720 Szeged, rpd tr 2.
{gymora, vinczev, zsibrita}@inf.u-szeged.hu
Kivonat: Jelen munknkban egy, a szfaji kdok s a nvelemek meghatrozsra szolgl gpi tanulsi modellt mutatunk be. Az ltalnos vletlen mezkn
alapul mdszer segtsgvel tbb cmkesorozat egyttesen tanulhat, valamint
az osztlyozs sorn a cmkesorozatok legjobb kombincijt egyttesen keressk. A magyarlanc szfaji elemz s az SZTENER nvelem-felismer jellemzkszlett hasznlva olyan rendszert ptettnk, amely a cmkk egyttes
osztlyozsnak segtsgvel fellmlta a kiindulsi rendszereket az ltalunk
hasznlt teszthalmazon. A nvelem-felismer F-mrtkben mrt teljestmnye
87,75-rl 89,87-re, a szfaji cmkz pontossga 97,11%-rl 97,99%-ra ntt,
gy, hogy a kdok meghatrozsnak ms minsgi tnyezi is javultak.
1 Bevezets
Szintaktikai szempontbl a tulajdonnevek fnvknt viselkednek: a Lttad az Interj
a vmprral-t? mondatban a film cme ugyangy ragozhat, mint brmely ms magyar fnv (v. Lttad a filmet?). Emiatt a tulajdonneveket gyakran a fnevek egyik
alosztlynak tekintik: bizonyos morfolgiai kdrendszerek kln tulajdonnvi kdot
tulajdontanak nekik (pldul az MSD-kdrendszerben Np-s*, a PENN Treebankben
pedig NNP az egyes szm tulajdonnevek kdja).
Azonban valjban nemcsak fnevek, hanem brmelyik szfajhoz tartoz elemek
is lehetnek tulajdonnevek (vagy azok rszei), pldul Tesz-Vesz Kft. A fenti kdrendszerek hasznlatval a Tesz-Vesz-t is tulajdonnvnek kellene kdolni, ami azonban a
kdok megsokszorozdsval jr, hiszen voltakppen brmely sznak lehet tulajdonnvi kdja is. Ez egyrszt megnveli a szfaji egyrtelmsts kltsgeit (sokkal tbb
sz vlik morfolgiailag tbbrtelmv), tovbb megkvnja azt is, hogy a morfolgiai elemzbe bepljn egy tulajdonnv-felismer rendszer. gy vljk azonban,
hogy a tulajdonnv-felismers nem a morfolgiai elemz feladata, gy az ltalunk
alkalmazott megoldsban a kt feladatot prhuzamosan hajtjuk vgre. Megkzeltsnkben a tulajdonnvi jells teht nem a morfolgiai kd rsze, hanem kln tulajdonnvi cmkkkel ltjuk el a tulajdonnv-felismer ltal NE-nek tlt elemeket, fggetlenl attl, hogy milyen szfaj az adott elem.
Munknkban megmutatjuk, hogy a szfaji cmkzs s a nvelem-felismers teljestmnye klcsnsen javthat a tanuls sorn a msik feladat ltal szolgltatott jel-
132
2 Morfolgia s tulajdonnevek
A tulajdonnevek nylt szosztlyt alkotnak, azaz nem alkotnak vges elem halmazt,
szmuk llandan bvl a nyelvben. Ez maga utn vonja, hogy nem is sorolhatk fel
maradktalanul egy sztrban sem. A nyelvfeldolgozs szmra azonban kiemelkeden fontos a tulajdonnevek megfelel kezelse, gy pldul a morfolgiai elemzkbe
nagymret tulajdonnvsztrak plnek be azok elemzsnek megknnytsre.
Azonban a fenti okok miatt egy morfolgiai elemz sem ismerhet fel minden szalakot, gy az ismeretlen szavak (melyek nagy rsze tulajdonnv vagy annak szrmazka) kezelsre klnfle, gynevezett guessing mdszereket rdemes kidolgozni [20].
A tulajdonneveket a nyelvszeti szakirodalom tbbnyire merev jellnek tekinti,
mely konstans mdon ugyanazt az egyedet azonostja [7]. A fenti definciban a merevsg arra vonatkozik, hogy nem vltozik a jell s jellt kzti kapcsolat, azonban
elgondolsunk szerint a merevsg fogalma a tulajdonnevek morfolgijban is rtelmezhet. A tulajdonnevek ugyan ragozhatk, st alkalmanknt kpzk is csatlakozhatnak hozzjuk (New York New York-i), azonban a lemmjuk vltozatlan formban fordul el a toldalk eltt (Fodor fodoros). (A kisbet-nagybet vltozsoktl most eltekintnk.) Ez klnsen akkor nyilvnval, amikor egy morfolgiailag
sajtos viselkeds fnv fordul el tulajdonnvi hasznlatban. Vegyk az albbi
pldkat.
Fodort Kovcs, mg Bokort Szab vltotta az elnki szkben.
Panni tugrotta a bokrot, s egy kill g elszaktotta a szoknyja aljn lev fodrot.
A fodor s bokor hangkivet fnevek, vagyis bizonyos toldalkok eltt kiesik a
lemma utols magnhangzja. Ez a jelensg azonban nem figyelhet meg akkor,
amikor szemlynvknt hasznlatos a kt sz. E tulajdonsg kihasznlhat a nvelem-felismersben: a morfolgiai elemz a fodrot s bokrot alakokat vrn fodr+ot
s bokr+ot morfmkkal, m a fenti szalakokat csak a guesser segtsgvel lehet
elemezni a beptett toldalklista segtsgvel fodor+t, illetve bokor+t morfmkra
val felbontssal. Amennyiben az gy kapott lemma megtallhat a morfolgiai adatbzisban, viszont eltrst tapasztalunk az ott tallhat s a guesser ltal adott elemzs
kztt (vagyis jelen esetben a fodor s bokor trgyeset alakja nem fodrot s bokrot,
hanem fodort s bokort), valsznsthetjk, hogy tulajdonnvrl van sz.
133
Bizonyos tulajdonnvtpusok mcmek, intzmnynevek (klnsen ha tbbtagak) gyakran tartalmaznak mr eleve ragozott alakokat, pldul Interj a vmprral, Bolyai Farkas Alaptvny a Magyarul Tanul Tehetsgekrt. Azonban ezek is
ragozhatk:
Megnztem az Interj a vmprral-t.
Ksznetet mondott a Bolyai Farkas Alaptvny a Magyarul Tanul Tehetsgekrt-nek.
A helyesrsi szablyok szerint ilyenkor ktjellel kell kapcsolni az jabb toldalkot a tulajdonnvhez. Utbbi sajtossg is kihasznlhat a nvelem-felismersben: a
ktjelet tartalmaz szalakot a guesser segtsgvel elemezzk, majd az gy kapott
lemmt ismt elemezzk. Amennyiben a szalak a msodik elemzs sorn is toldalkoltnak bizonyul, ismt valsznsthet, hogy tulajdonnvvel tallkoztunk.
A gyakorlatban sokszor elfordul, hogy a toldalk nem ktjellel kapcsoldik a tulajdonnvhez (akr a helyesrsi szablyok ellenben). Ezekben az esetekben is a
guesser nyjthat segtsget: a lehetsges vgzdseket le kell vgni a sz vgrl,
majd a maradkot lemmaknt visszaadni, s a toldalknak megfelel fnvi elemzst
trstani a szhoz (pl. Agrobankhoz Agrobank illativusi eset fnv).
A morfolgiai elemz oldalrl nzve a vele prhuzamosan zajl tulajdonnvfelismers abban segthet, hogy a NER-rendszer ltal tulajdonnvnek minstett elemeket nem felttlenl prblja meg hagyomnyos mdon elemezni, hanem egybl a
beptett guessert hvja segtsgl, ezzel gyorstva a folyamatot.
134
4 Nvelem-felismers
A nvelem-felismers alapvet fontossg az informcikinyer rendszerek mkdse szempontjbl. A felismert s klnbz tpusokba sorolt nvelemek nem csak
nmagukban rdekesek, de sok rendszerben a nvelemek jelentik azokat az alapegysgeket, amelyekbl esemnyek plnek fel, illetve amelyek kztt relcikat azonostanak. A nvelemek azonostsnl ltalban sokkal nagyobb kihvst jelent azok
megfelel osztlyba sorolsa. Az osztlyozs ltalban krnyezeti jellemzk alapjn
lehetsges.
135
zi1
zi
zi+1
wi1
wi
wi+1
1. bra: A nvelemek felismershez hasznlt elsrend modell. A fehr krk a cmkk rejtett vltozit, a szrkk a jellemzk megfigyelhet vltozit, a fekete ngyzetek a vltozk
kztti faktorokat jellik.
136
1 http://www.morphologic.hu/Morfologiai-elemzes.html
2 http://www.morphologic.hu/MetaMorpho-technologia/menuazonosito-256.html
3 http://corpus.nytud.hu/nooj/
137
fontos, mert a szfaji kdok ersen fggenek nem csak az ket kzvetlenl megelz,
hanem az azt megelz cmktl is.
yi1
yi
yi+1
xi1
xi
xi+1
wi
wi+1
zi1
zi
zi+1
yi1
yi
yi+1
xi1
xi
xi+1
138
7 Eredmnyek
Mdszernket a Szeged Korpusz zleti hreket tartalmaz alkorpuszn rtkeltk ki,
melyben be vannak jellve az etalon tulajdonnevek [2][16]. Az eredeti MSDannotciban a tulajdonnevek Np-s* kddal rendelkeztek, tovbb a tbbtag tulajdonnevek ssze voltak vonva. A kirtkelst megelzen sztdaraboltuk a tbbtag
tulajdonneveket, s tagjaikat jraannotltuk, a fnevek esetben pedig nem tettnk
klnbsget a kznvi s tulajdonnvi hasznlat kztt (azaz a kznv s tulajdonnv
kdokat felvltotta a fnv kd). gy teht a Magyar Nemzeti Bank j kdja A A N
lett. A magyar nyelven vgzett ksrleteink azt mutatjk, hogy az angolhoz hasonlan eredmnyeink meghaladjk a szekvencilisan tantott modellek hatkonysgt.
A tantshoz s a kirtkelshez a rendelkezsre ll tbb mint 221 ezer tokent s
9400 mondatot tartalmaz korpuszt kt rszre osztottuk a mondatok vletlenszer
halmazba sorolsval. A tant halmazba gy a mondatok megkzeltleg 60%-a kerlt, a maradkot kirtkelsre hasznltuk.
It.
2
5
139
F=1
87,75
83,86
88,93
83,13
89,87
140
It.
2
5
F 1 macro
1
ci
, vci {C
(1)
A szfaji egyrtelmsts tern azt tapasztaltuk, hogy eredmnyeink javulsa elssorban a nagybetvel kezdd alakok helyes elemzsnek ksznhet. Ez nem meglep, hiszen a magyarban ltalban a tulajdonnevek s a mondatkezd szavak kezddnek nagybetvel. A tulajdonnevek s szfaji kdok egyttes jellsvel a mondatkezd tulajdonneveket knnyebb volt azonostani, gy a maradk mondatkezd
elemek szfajt is nagyobb hatkonysggal lehetett megllaptani: pldul a Szerinte
mondatkezd elem fnvi kdot kapott a szekvencilis jellsben, azonban az egyttes jells sorn mr a helyes hatrozszi kdot kapta.
Kiemelked javulst figyelhettnk meg a rvidtsek esetben is. Noha ez a szosztly kevs elemet tartalmaz, felismersk 17,86%-kal javult, ami fleg a tulajdonnv rszt kpez Jr. s Dr. el-, illetve uttagoknak pontosabb azonostsnak volt
ksznhet. Az indulatszavak kategrijba lettek sorolva olyan tulajdonnevek is,
amelyeket a morfolgiai elemz helytelenl olyan sszettelknt rtelmezett,
amelynek uttagja indulatsz, pldul Palotain. Ezek tulajdonnvknt val felismerse javtott a rendszer teljestmnyn.
sszessgben azt figyelhettk meg, hogy a rendszer klnsen a ritkn elfordul szfajok felismersben volt kpes javulni, mg a nagyobb szosztlyok esetben
minimlis klnbsgeket vehettnk szre. Utbbiak felismersi pontossga azonban
mr a szekvencilis modell esetben is kiemelked volt (97% feletti), gy a tulajdonnevek hozzadott rtke nem befolysolta rdemben az eredmnyeket.
Az elhanyagolhat pontossgbeli eltrs ellenre a jells minsge javult az
egyttes osztlyozstl. A 2. tblzatban tallhat makrotlagok azt mutatjk, hogy
kzel azonos pontossg mellett az egyttesen tantott rendszer a kis elemszm szfaji kdok osztlyozsban jobb, ezzel sszessgben kiegyenslyozottabb teljestmnyt nyjt. A hibaelemzshez alkalmazott, csak a szfajt figyelembe vev kirtkels pedig azt mutatja, hogy az egyttesen tantott rendszer hibs cmkzskor tbb
esetben rendel olyan szfaji kdot a szavakhoz, amelyek szfaja megegyezik a helyes
szfajjal, azaz az elkvetett hibinak kisebb hnyada slyos tveszts, mint a fggetlenl tantott szfaji kdcmkznek.
141
8 Konklzi
Cikknkben a szfaji kdok s a nvelemek egyttes cmkzshez hasznlhat rendszert mutattunk be. Megmutattuk, hogy a hagyomnyos, szeparltan tanul mdszerekhez kpest mindkt cmkzsi feladat teljestmnye ntt. Br a szfaji cmkzs
esetben a vltozs nem olyan jelents, de javultak az egyb minsgi tulajdonsgai.
Ksznetnyilvnts
A kutats rszben a MASZEKER s BELAMI kdnev projektek keretben a
Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005
jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az Eurpai Szocilis Alap trsfinanszrozsval valsult meg.
Bibliogrfia
1. Borthwick, A.: Maximum Entropy Approach to Named Entity Recognition. PhD thesis,
New York University (1999)
2. Csendes D., Hatvani Cs., Alexin Z., Csirik J., Gyimthy T., Prszky G., Vradi T.: Kzzel
annotlt magyar nyelvi korpusz : a Szeged Korpusz. In: Magyar Szmtgpes Nyelvszeti
Konferencia (MSZNY 2003). Szeged (2003) 238247
3. Farkas R., Szarvas Gy.: Nyelvfggetlen tulajdonnv-felismer rendszer, s alkalmazsa
klnbz domainekre. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2006) 2231
4. Halcsy P., Kornai A., Oravecz Cs.: HunPos an open source trigram tagger. In:
Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics
(2007)
5. Chieu, H. L., Ng, H.T.: Named Entity Recognition with a Maximum Entropy Approach. In:
Proceedings of CoNLL-2003 (2003)
6. Kuba A., Bakota T., Hcza A., Oravecz Cs.: A magyar nyelv nhny szfaji elemzjnek
sszevetse. In: Alexin Z., Csendes D. (szerk.): I. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2003) 1622
7. Kripke, S.: Naming and necessity. Blackwell, Oxford (1980)
8. Mayeld, J., McNamee, P., Piatko, C.: Named Entity Recognition using Hundreds of
Thousands of Features. In: Proceedings of CoNLL-2003 (2003).
9. McCallum, A,. "MALLET: A Machine Learning for Language Toolkit."
http://mallet.cs.umass.edu. (2002).
10. McCallum, A., Rohanimanesh, K., Sutton,C.: Dynamic Conditional Random Fields for
Jointly Labeling Multiple Sequences. In: NIPS Workshop on Syntax, Semantics and
Statistics (2003)
11. McCallum, A., Schultz, K., Singh, S.: FACTORIE: Probabilistic Programming via
Imperatively Dened Factor Graphs. In: Advances on Neural Information Processing
Systems (NIPS) (2009)
12. Novk A., Nagy V., Oravecz Cs.: Magyar ismeretlensz-elemz program fejlesztse. In:
Alexin Z., Csendes D. (szerk.): I. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi
Tudomnyegyetem, Szeged (2003) 4554
142
13. Radu, F., Ittycheriah, A., Jing, H., Zhang, T.: Named Entity Recognition through Classier
Combination. In: Proceedings of CoNLL-2003 (2003)
14. Miller, S., Crystal, M., Fox, H., Ramshaw, L., Schawartz, R., Stone, R., Weischedel, R. and
the Annotation Group: BBN: Description of the SIFT System as Used for MUC-7. In:
MUC-7. Fairfax, Virginia (1998)
15. Sutton, C.: GRMM: GRaphical Models in Mallet..http://mallet.cs.umass.edu/grmm/.
16. Szarvas, Gy., Farkas, R., Felfldi, L., Kocsor, A., Csirik, J.: A highly accurate Named
Entity corpus for Hungarian. In: Proceedings of International Conference on Language
Resources and Evaluation (2006)
17. Tjong Kim Sang, E. F.: Introduction to the CoNLL-2002 shared task: language-independent
named entity recognition. In: Proceedings of the 6th conference on Natural language
learning - Volume 20 (2002)
18. Tjong Kim Sang, E.F., De Meulder, F.: Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition. In: CONLL '03 Proceedings of the
seventh conference on Natural language learning at HLT-NAACL 2003 - Volume 4 (2003)
19. Toutanova, K., Klein, D., Manning, C., Singer, Y.: Feature-Rich Part-of-Speech Tagging
with a Cyclic Dependency Network. In: Proceedings of HLT-NAACL 2003 (2003) 252259
20. Zsibrita, J., Vincze, V., Farkas, R.: Ismeretlen kifejezsek s a szfaji egyrtelmsts. In:
Tancs, A., Vincze, V. (szerk.): MSzNy 2010 VII. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 275283
143
1.
Bevezets
144
magyar nyelv nyelvtani sajtossgait kell gyelembe venni, hanem az orvosi szvegekre klnsen jellemz nehz, olykor hinyos szintaktikai szerkezeteket, rvidtseket, idegen kifejezseket is kezelni kell.
Ezen tapasztalatok alapjn fogalmazdott meg az igny, hogy a magyar
nyelv klinikai dokumentumok feldolgozst a ms nyelveken mr ltez alkalmazsok adaptlsa, tovbbfejlesztse s alkalmazhatv ttele rvn aktvan
kutatott terlett tegyk, tekintettel a kutats vrhat hasznra.
Hossztv clunk egy olyan keretrendszer ksztse, amely orvosi dokumentumokat feldolgozva segthet a klinikai szakembereknek j sszefggsek feltrsban. Cikknkben egy ilyen rendszer megvalstsnak kezdeti lpseit mutatjuk be. Az els problma a rendelkezsnkre ll nyers orvosi szvegek egysges reprezentcijnak kialaktsa. Br a meglv klinikai dokumentumok lthatan rendelkeznek struktrval, de ezekre csak a formzs, illetve a tartalom
rtelmezse alapjn lehet kvetkeztetni. Jelents nehzsg mg a dokumentumokkal kapcsolatban, hogy ksztik nem fordtanak hangslyt a helyes s konzisztens fogalmazsra, tagolsra, helyesrsra. gy szksgesnek lttuk a dokumentumokban meglv zaj (helyesrsi hibk) cskkentst, ami akr orvosonknt/asszisztensenknt, illetve osztlyonknt is vltoz lehet.
Cikknkben bemutatjuk a nyers orvosi dokumentumok feldolgozsakor alkalmazott algoritmusainkat, amelyekkel strukturlis egysgekre bontottuk a krlapokat, s ezzel egytt a felszni jegyekbl knnyen meghatrozhat metainformcikat is kinyertnk, tovbb meghatroztuk az tfed dokumentumrszeket.
Ezek utn bemutatjuk a szveges s a nem szveges rszek elvlasztsra alkalmazott megoldsunkat, majd az automatikus helyesrs-javt rendszer els
eredmnyeit ismertetjk.
2.
145
2.1.
XML-struktra
A feldolgozs els lpseknt teht szksges volt a dokumentumok struktrjnak azonostsa s annak szabvnyos brzolsa. Az egysgek meghatrozsa
egy egyszer szablyalap mintailleszt eljrssal trtnt, mely a rekordok szemmel is lthat tagolsra pl. gy a foly szvegekben meglv formzsi elemeket transzformltuk a szerkezetet meghatroz jellemzkk. A kinyert struktrk
s metainformcik XML-struktrban val trolsa sorn a dokumentumok felptse a kvetkezkppen alakult:
Teljes eredeti: a teljes dokumentum szvegt eredeti formban is megtartottuk a ksbbi megjelents egyszerstse cljbl
Tartalom: a dokumentumok szabad formj szveges rszeit is tovbb tagoltuk fejlc, diagnzisok, beavatkozsok, javaslat, sttusz, mtt, panasz, stb.
rszek megjellsvel.
Metaadatok: a dokumentumok egyes rszein alapvet automatikus mdszerekkel jl felismerhet, a foly szveges rszektl elklnl, adatokat tartalmaz egysgeket nyertnk ki, elltva ket az adatok tpusra vonatkoz
cmkkkel. A kvetkez metaadatokat nyertk ki: az adott dokumentum tpusa (zrjelents, kezellap stb); a dokumentumot kibocst osztly azonostja; a tblzatos formban explicit mdon megjellt diagnzisok, illetve
beavatkozsok megnevezse s kdja.
146
Egyszer nvelemek: a munknk jelenlegi fzisban az egyszer mintaillesztssel kinyerhet nvelemek (dtumok, orvosok, mttek) megjellse is megtrtnt, azonban az erre alkalmazott mdszerek nomtsa s pontostsa
mg felttlenl szksges.
Krtrtnet: az egyes betegek krlefolysnak trolsa a klinikai adminisztrcis rendszer hinyossgai miatt jelenleg tbbflekppen trtnik. Gyakori
eset, hogy a krelzmny teljes szvege hozzaddik az jabban keletkez
dokumentumhoz, gy folyamatosan egyre nagyobb dokumentumok kapcsoldnak egy pcienshez, melyek egymst tartalmazzk. Nincs egysges rendszer arra vonatkozan sem, hogy a korbbi vizsglatok lersa a dokumentumban elrbb vagy htrbb esetleg vegyesen kerl be. Ennek ellenre
megvalsult egy automatikus sorbarendezs, amelynek sorn minden dokumentumhoz eltroljuk az t kvet, s t megelz dokumentumokat ha
vannak ilyenek.
2.2.
147
3.
Helyesrs-javts
A dokumentumok alapvet strukturlsa s a szveges tartalmak meghatrozsa utn a kvetkez feladat a dokumentumok normalizlsa volt, amelynek els
lpse a helyesrsi hibk javtsa. Esetnkben ez nem csupn a magyar nyelv nehzsgeibl ered problmk megoldsra korltozdott, hanem sok olyan hiba
is felmerlt a szvegekben, melyek a szakterlet sajtossgaibl erednek. A legjellemzbb hibk az albbiak voltak:
elgpels, flrets, betcserk,
kzpontozs hinyossga (pl mondathatrok jelletlensge) s rossz hasznlata (pl. betkzk elhagysa az rsjelek krl, illetve a szavak kztt),
nyelvtani hibk,
mondattredkek,
a szakkifejezsek latin s magyar helyesrssal is, de gyakran a kett valamilyen keverkeknt fordulnak el a szvegekben (pl. tensio/tenzio/
tensi/tenzi); kln nehzsget jelent, hogy br egy elvi szabvny ltezik
ezek helyesrsra vonatkozan, az orvosi szoksok vltozatosak, s mg a
szakrtknek is problmt jelent az ilyen szavak helyessgnek megtlse,
hinyos megfogalmazsok gyakori elfordulsa, melyek nem tekinthetk a
hagyomnyos rtelemben vett rvidtseknek, azonban teljes szavaknak, kifejezseknek sem,
szakterletre jellemz rvidtsek, melyeknek sem a jells mdja, sem a
jelentse nem ltalnosthat.
A fenti hibajelensgek mindegyikre jellemz tovbb, hogy orvosonknt, vagy
akr a szvegeket lejegyz asszisztensenknt is vltozak a jellemz hibk. gy
elkpzelhet olyan helyzet, hogy egy adott szt az egyik dokumentum esetn javtani kell annak hibs volta miatt, egy msik dokumentumban azonban ugyanaz
a szalak egy sajtos rvidts, melynek rtelmezse nem egyezik meg a csupn
elrt sz javtsval.
A feladat msik nehzsgt az jelentette, hogy egyltaln nem llt rendelkezsnkre nagy mret helyesen rt klinikai korpusz, ami alapjn el tudtunk
volna lltani a javtshoz hasznlhat nyelvi s hibamodelleket.
Mivel munknk jelen fzisban clunk egy kismret helyesen rt korpusz
ellltsa, gy a javtsi feladatot egy egyszer lineris modellel valstottuk
meg. Ehhez klnbz nyelvi modelleket kombinltunk, melyeket rszben a hibs
korpusz alapjn ptettnk, rszben kls erforrsok bevonsval jttek ltre.
Az els kettt a javts eltti szrknt alkalmaztuk, a tbbit pedig a helyes
alakok ellltshoz.
Stopword lista: az ltalnos stopwordket kiegsztettk a korpuszra jellemz
hasonlan viselked tokenekkel, a leggyakrabban elfordul szalakok kzl
kzzel vlogatva ki ezeket. Ez elssorban az rsjel-karaktereket, szmokat s
egyb nem szknt vagy rvidtsknt kezelend tokeneket tartalmaz.
148
Rvidtslista: egyszer mintaillesztssel kivlasztottuk a potencilis rvidtseket, majd ezt manulisan szrve jtt ltre a rendszerben hasznlt szhalmaz. Lehetsges rvidtsnek tekintettk azokat a tokeneket, amik nem
mondatvgi szavak, rendelkeznek sz vgi ponttal (s esetleg ms punktucival), morfolgiai elemz szmra ismeretlenek s nem hosszabbak egy elre
megadott korltnl (6 karakter).
Morfolgia ltal elfogadott szavak listja: kivlogattuk a korpuszbl azokat
a szalakokat, amiket a HUMOR morfolgiai elemz elfogadott, azaz helyesnek tekinthetek. Ehhez a morfolgit clszer volt kiegsztennk a szakterletre jellemz szavakkal (gygyszernevek, hatanyagok, orvosi helyesrsi
sztr). Az gy elfogadott szavak listjbl unigram nyelvmodellt ptettnk.
Morfolgia ltal el nem fogadott szavak listja: a fel nem ismert szalakokbl
szintn ptettnk egy gyakorisgi modellt, melyet ktfle mdon vettnk gyelembe a javtott alakok ajnlsa sorn. Amik kis gyakorisggal fordultak
el ebben a listban, azokat tovbbra is rossznak tartottuk, amik azonban
nagyon sokszor rossz alakban jelennek meg, azokat a morfolginak ellentmondan, j alakoknak tekintettk. gy azok a specilis hasznlat kifejezsek, szakszavak, melyeket a morfolgia alapjn nem ismernk fel, elfogadott vlhatnak, hiszen a hasznlatuk elg gyakori ahhoz, hogy elfogadottnak
tekintsk. A korpuszbl generlt kumullt elfordulsi gyakorisgot reprezentl grbe gradiensnek vltozsa alapjn meghatrozott kszbrtknl
(2. bra) nagyobb gyakorisg szavakat tekintjk helyesnek. A kszbrtk
alatti frekvencij szavakat pedig 1 f mdostott gyakorisggal vettk gyelembe. (Abbl a felttelezsbl indultunk ki, hogy a legalbb n-szer ltott
tokenek kzt fellelhet a szalakok legnagyobb hnyada.)
ltalnos s tovbbi szakszvegekbl ll korpuszok: helyes alakok listjhoz
hasonl gyakorisgi modellt ptettnk mg a Szeged Korpusz alapjn, illetve
a BNO3 betegsgek listja s lersa alapjn is. Itt feltteleztk, hogy csak
helyes szalakokat tartalmaznak.
A modellek ltrehozsa utn a javtand szveget egy olyan nyelvfggetlen
tokenizlval szegmentltuk, amely kpes rvidtsek kezelsre a szalakok s
az rsjelek megtartsval egy tokenknt, illetve hibatr. rzketlen a kzpontozsi hibkra, hiszen minden nem alfanumerikus karakter mentn ami nem
rvidts rsze j tokent hoz ltre. Az fenti eszkz ltrehozst az orvosi rekordok klnleges nyelvezete (tredkes szerkezetek) s a kzpontozsi hibk sr
meglte indokolta. A szegmentl egy ltalnos rvidtslistt s a korbban
emltett szakterleti rvidtslistt hasznlja.
A tokenizls utn a stopword-lista s a rvidtslista alapjn kiszrtk azokat a szavakat, amelyekre nem hajtunk vgre javtst. A tbbi szalak mindegyikhez ltrejn egy javaslathalmaz, mely az egy Levenshtein tvolsgra lv
szalakokat, illetve a morfolgia ltal generlt lehetsges javaslatokat rangsorolva tartalmazza. A rangsorols alapjt a fenti modellek s a morfolgia ltal
egyttesen meghatrozott tnyez kpezi. Mivel minden szalakra generlunk
3
149
javaslatokat, nem csak azokra, amiket a morfolgia rossznak tl, ezrt azt az
informcit, hogy az eredeti alakot a morfolgia elfogadja-e, a javaslatok rangsorolsnl kell gyelembe venni.
A rangsorols vgn a lehetsgek kzl az els t javaslatot tekintettnk
lehetsges javtsnak. Amennyiben az els s a msodik helyezett kztt elg
nagy klnbsg volt, akkor az els javaslatot automatikusan elfogadtuk helyes
javtsnak, egybknt pedig felhasznli megerstssel trtnt meg a legjobb
javaslat kivlasztsa az els t kzl.
4.
Eredmnyek
150
VOC
0,25
0,277
0,312
SZEGED
0,15
0
0
BNO
0,2
0,166
0.187
ISORIG
0,2
0,166
0.187
HUMOR
0,15
0,111
0
Pontossg
0,5555
0,5417
0.5385
Feds
0,8769
0,8769
0,8462
F0.5
0,5994
0,5865
0,5807
MAP
0,9863
0,9859
0,9853
151
szablyknt. A kirtkels sorn minden sznl a gyakrabban elfordul nhny alakjt tekintettk helyesnek, ez azonban enyhthet lenne brmely
alak engedlyezsvel. Mivel mind az emberi olvas szmra, mind a tovbbi
alkalmazs cljra alkalmas a jelenlegi mdszerrel elrhet valamely forma,
gy csupn a szmrtkek nvekedse lenne vrhat ettl, a tnyleges minsg
javulsa nem.
5.
sszefoglals
A jelenlegi algoritmus clja egy olyan helyesrs-javt alapalgoritmus megvalstsa volt, mellyel egy helyesnek tekinthet orvosi korpusz ellltst tudjuk
tmogatni. Ezltal ltrehozunk egy olyan szveget, ami alapjn pontosabb hibamodell pthet egy tovbbfejlesztett rendszer betantshoz.
152
Hivatkozsok
1. Levenshtein, V.: Binary codes capable of correcting spurious insertions and deletions
of ones. Problems of Information Transmission 1(1) (1965) 817.
2. Contractor, D., Faruquie, T., Subramaniam, L.: Unsupervised cleansing of noisy
text. In: Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Association for Computational Linguistics (2010) 189196
3. Prszky, G., Novk, A.: Computational Morphologies for Small Uralic Languages.
In: Inquiries into Words, Constraints and Contexts., Stanford, California (2005)
150157.
4. Pirinen, T.A., Lindn, K.: Finite-State Spell-Checking with Weighted Language and
Error Models Building and Evaluating Spell-Checkers with Wikipedia as Corpus.
In: Xth SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for
Less-Resourced Languages, LREC 2010. (2010) 1318.
5. Patrick, J., Sabbagh, M., Jain, S., Zheng, H.: Spelling correction in Clinical Notes
with Emphasis on First Suggestion Accuracy. In: 2nd Workshop on Building and
Evaluating Resources for Biomedical Text Mining. (2010) 28.
6. Farkas, R., Szarvas, G.: Automatic construction of rule-based ICD-9-CM coding
systems. BMC Bioinformatics 9 (2008)
IV.Beszdtechnolgia
155
Nyelvimodell-adaptci gyflszolglati
beszlgetsek gpi leiratozshoz
Tarjn Balzs1, Mihajlik Pter1,2, Fegy Tibor1,3
1
1 Bevezets
A jelenleg elterjedt nagysztras beszdfelismerk statisztikai ton tantott nyelvi
modellt hasznlnak, gy a modell pontossgt dnten befolysolja, hogy milyen
mennyisg s minsg tantszveg ll rendelkezsnkre. J minsg
tantszveg ltalban a felismersi feladathoz illeszked hanganyagok kzi
leirataibl llthat el (in-domain tantszveg). A gyakorlatban azonban a
begyjthet hanganyagok mennyisge s a kzi leiratozs kltsgei hatrt szabnak az
ilyen ton nyerhet tantszveg mretnek. ppen ezrt a tudomnyos kzssget
rgta foglalkoztatja, hogyan lehet az akusztikus modellek adaptcijhoz hasonlan
egy feladattl fggetlen (out-of-domain), de robosztus nyelvi modellt egy in-domain,
de elgtelen mennyisg adaton tantott modellhez adaptlni.
Cikknkben klnbz mret s feladatunkhoz klnbz mrtkben illeszked
tantszvegek alapjn kszlt nyelvi modelleket ksrelnk meg adaptlni
gyflszolglati beszlgetsek felismersre ksztett rendszernkhz. Megmutatjuk,
hogy milyen mdon clszer eljrni, ha kismret, de a feladathoz jl illeszked
kiegszt szveghez jutunk, illetve ha egy tbb tzmilli szt tartalmaz webkorpuszt
szeretnnk felhasznlni az in-domain modell javtsra. Felgyelt adaptci mellett
felgyelet nlkli adaptcis ksrleteket is vgznk, azaz megvizsgljuk, hogyan
156
2 Tant s tesztadatbzisok
2.1 Tant adatbzisok
Kt gyflszolglati rendszer in-domain nyelvi modelljnek javtst tztk ki
ksrleteink cljaknt, melyekre a tovbbiakban MTUBA (Magyar Telefonos
gyflszolglati Beszdadatbzis) I., illetve II. nven fogunk hivatkozni. Az
MTUBA I. rendszernl az in-domain modell tantshoz egy sszesen 380 ezer
szavas, kzi leiratokat tartalmaz tantszveg llt rendelkezsnkre. Az MTUBA II.
feladatnl valamivel kisebb, sszesen 280 ezer szavas kzi leiratot hasznlhattunk. A
felgyelet nlkli adaptcis ksrletekhez tovbbi kt korpuszt gyjtttnk, melyek
az egyes rendszerek felismersi kimeneteit tartalmazzk.
Az adaptcis ksrletekhez szksgnk volt egy a feladatokhoz semmilyen mdon
nem ktd, out-of-domain korpuszra is. Idelis vlasztsnak tnt erre a clra a
Magyar Webkorpusz [6]. risi mrete miatt csak a webkorpusz egy tizedt
hasznltuk, mely nmagban 100 milli szt jelent, gy elegenden nagynak
bizonyult vizsglatainkhoz. Az eredmnyek knnyebb rtelmezhetsge rdekben
egy mind mretben, mind illeszkedsben az in-domain s az out-of-domain
korpuszok kztt elhelyezked kiegszt tantszveget is szerettnk volna tallni.
Erre a megoldst egy gyflszolglati levelezseket tartalmaz, sszesen 1,8 milli
szavas korpusz jelentette. Ez az e-mail korpusz az in-domain szvegekhez hasonlan
gyflszolglati tmj, gy a webkorpusznl jobban illeszkedik a feladathoz,
azonban szigoran vve nem tekinthet in-domain tantanyagnak sem, ugyanis a
157
In-domain
Mret
[milli sz]
Felismersi kimenet
Kiegszt korpusz
MTUBA
I.
MTUBA
II.
MTUBA
I.
MTUBA
II.
E-mail
korpusz
Webkorpusz
0,38
0,28
32
5,3
1,8
100
2.2 Tesztadatbzisok
A vltozatos nyelvimodell-konfigurcik kirtkelshez minden esetben a
tantanyagoktl fggetlen tesztfelvteleket hasznltunk. Az MTUBA II. adatbzison
tbb mint 5 rnyi felvtelt tudtunk tesztelsi clokra elklnteni, mely megbzhat
kirtkelst tesz lehetv, gy tesztjeink tbbsgt ezen vgeztk. Annak rdekben,
hogy minden esetben garantljuk a fggetlen tantst s tesztelst, egy msik,
sszesen 2 rs tesztanyagot is definilnunk kellett az MTUBA II. adatbzison,
melynek rszletes okaira az 4.2.1 fejezetben trnk ki. Az MTUBA I. adatbzison egy
kb. 1 rs tesztanyagot jelltnk ki, melyen felgyelet nlkli adaptcival
kapcsolatos ksrletet vgeztnk.
2. tblzat: A teszt adatbzisok jellemzi
MTUBA I.
MTUBA II.-5h
MTUBA II.-2h
Hossz
[min]
56
300
120
Szavak szma
[ezer sz]
5,7
35
14
3 Mdszertan
3.1 Nyelvimodell-adaptci
Ksrleteinkben a MAP becslsen alapul nyelvimodell-adaptci egy-egy specilis
esett jelent korpuszegyestses (count merging) s nyelvimodell-interpolcis
eljrsokat alkalmaztuk [1]. Kt szveges tudsforrs egyestsnek legegyszerbb
mdja, ha n-gram statisztikjukat egyestjk, s ez alapjn ksztjk el az n-gram
nyelvi modellt. Gyakorlatban ez a kt tantszveg sszemsolsval vitelezhet ki a
legegyszerbben. Ez az eljrs jl mkdhet, ha hasonl mrtkben illeszked
tantszvegeket egyestnk. Abban az esetben azonban, ha egy out-of-domain
tantszveget szeretnnk egy in-domain tantszveghez adaptlni, a
korpuszegyestssel arnytalanul nagy sllyal kerlhetnek az egyestett modellbe a
feladathoz rosszul illeszked tantszveg n-gram becslsei [11]. Ilyenkor
158
K 1
P w
| w K 1 ,..., w K ( N 1)
(1)
i 0
P w
K
| w K 1 ,..., w K ( N 1)
(2)
i 1
159
In-domain modell
x MTUBA I.
x MTUBA II.
Kiegszt korpusz
x E-mail korpusz
x Webkorpusz
x Felismersi kimenetek
Perplexits-alap
korpusz
elvlogats
Adaptci
x Korpuszegyests
x Interpolci
Tesztels
x MTUBA I.
x MTUBA II.-5h
x MTUBA II.-2h
4 Ksrleti eredmnyek
Ebben a fejezetben a mr bemutatott tant- s tesztadatok felhasznlsval, az elz
fejezetben ismertetett mdszerekkel elrt eredmnyeinket mutatjuk be. Vizsglataink
els felben az MTUBA II. feladat nyelvi modelljhez ksreljk meg adaptlni a
kls tudsforrsokat, majd a fejezet msodik felben a felismersi kimenetekkel
visszacsatolt felgyelet nlkli adaptciban rejl lehetsgeket mutatjuk be.
Ksrleteink ltalnos mdszertani lpseit az 1. bra foglalja ssze.
160
3. tblzat: MTUBA II. in-domain modell s a PPL, valamint PPL1 alapjn elvlogatott
webkorpusz korpuszegyestses adaptcijval kapott eredmnyek az MTUBA II.-5h
teszthalmazon kirtkelve.
Vlogatsi
mdszer / hatr
PLL-400
PLL1-750
PPL-200
PLL1-400
PPL-100
PPL1-260
PPL-50
PPL1-200
MTUBA II.
tantszveg
Kiegszt
webkorpusz
[milli sz]
[+milli sz]
0,28
22
0,28
7,5
0,28
0,28
1,5
OOV arny
PPL
1,7
1,7
2,1
2,1
2,5
2,6
2,9
2,9
580
550
501
454
423
373
357
320
161
2 bra. A webkorpusz sorainak PPL1 eloszlsa az MTUBA II. in-domain modell alapjn,
[0;20000] tartomnyon brzolva.
3. bra. Az e-mail korpusz sorainak PPL1 eloszlsa az MTUBA II. in-domain modell
alapjn, [0;6000] tartomnyon brzolva.
162
Sztrmret
[ezer sz]
21
386
228
70
55
40
37
37
OOV
arny
[%]
4,3
2,1
2,6
3,3
3,4
3,7
3,1
3,1
PPL
[-]
WER
[%]
LER
[%]
167
208
201
181
178
176
189
176
46,4
45,2
45,5
45,4
45,3
45,6
45,4
45,2
25,0
24,6
24,7
24,6
24,6
24,7
24,6
24,5
163
164
Nyelvi modell
MTUBA I. in-domain
+ 0,9 MTUBA I. felism. PPL1-300
+ 0,9 MTUBA I. felism.
MTUBA II. in-domain
+ 0,8 MTUBA II. felism.
OOV arny
[%]
5,7
5,7
5,7
5,6
5,6
PPL
[-]
310
207
192
255
173
WER
[%]
48,0
47,5
46,8
50,9
49,7
LER
[%]
25,9
25,5
25,1
27,5
26,9
5 sszefoglals
Cikknkben azt vizsgltuk, hogy milyen mdszerekkel s milyen mrtkben lehet
felgyelt s felgyelet nlkli adaptcis technikkkal telefonos gyflszolglati
hanganyagok felismersre ksztett rendszerek in-domain nyelvi modelljeinek
pontossgt javtani. Eredmnyeink alapjn azt a kvetkeztetst vonhatjuk le, hogy
amennyiben a nyelvi modell mretnek az alacsonyan tartst tzzk ki clul, akkor a
legjobb eredmnyt a felismersi feladathoz jl illeszked nyelvi modellek
165
felhasznlsval rhetjk el. Ilyen tantadatok azonban nem minden esetben llnak
rendelkezsre korltlan mennyisgben, illetve ellltsuk a kltsgek miatt
esetenknt mr nem gazdasgos. Ebben az esetben tovbbi pontossgnvekeds
rhet el out-of-domain tantkorpusz felhasznlsval is, ha a cikknkben ismertetett
mdon kinyerjk a feladathoz jl illeszked rszeket a korpuszbl. El kell azonban
fogadni, hogy a nem feladatspecifikus tantadatok felhasznlsa hatatlanul a modell
mretnek nvekedsvel jr.
Klnsen rtkes s a gyakorlatban jl hasznosthat eredmny tovbb, hogy kt
mr mkd gyflszolglati felismer rendszerben tlagosan 2,4%-os relatv WERcskkenst sikerlt elrni a felismersi kimenetek felgyelet nlkli adaptlsval.
Felgyelet nlkli adaptcinl az OOV arny nem cskken, hiszen felismer
rendszer sztra nem bvl, gy a javuls egyedl a nyelvi modell jobb elrejelz
kpessgre vezethet vissza, mely a nagy mennyisg in-domain hanganyag gpi
leiratban rejl tuds felhasznlsnak ksznhet.
Ksznetnyilvnts
Kutatsunkat a TMOP-4.2.1/B-09/1/KMR-2010-0002-es, a KMOP-1.1.1-07/12008-0034-es, a GOP-1.1.1-09/1-2009-0068-as, a KMOP-1.1.3-08/A-2009-0006-os
s a NAP-1-2005-0010-es projektek keretben az NF s az NIH tmogatta.
Bibliogrfia
1.
2.
3.
4.
5.
6.
7.
8.
9.
Bacchiani, M., Roark, B.: Unsupervised language model adaptation. In: Proc. of
Acoustics, Speech, and Signal Processing (ICASSP 03) (2003) 224227
Bacchiani, M., Roark, B., Saraclar,M.: Language model adaptation with MAP
estimation and the perceptron algorithm. In: Proc. of HLT-NAACL 2004 (2004) 21
24
Chen, S. F., Goodman, J.: An Empirical Study of Smooting Techniques for Language
Modeling. Technical Report TR-10-98, Computer Science Group, Harvard University
(1998)
Gauvain, J.-L., Lee, C.-H.: Maximum a posteriori estimation for multivariate
Gaussian mixture observations of Markov chains. In: IEEE Transactions on Speech
and Audio Processing Vol.2, No.2 (1994) 291298
Gretter, R., Riccardi, G.: On-line learning of language models with word error
probability distributions. In: Proc. of the International Conference on Acoustics,
Speech, and Signal Processing (ICASSP 01) (2001) 557560
Halcsy, P., Kornai, A., Nmeth, L., Rung, A., Szakadt, I., Trn, V.: Creating open
language resources for Hungarian. In: Proc. of the 4th international conference on
Language Resources and Evaluation (LREC2004) (2004)
Jelinek, F., Mercer, R. L.: Interpolated estimation of Markov source parameters from
sparse data. In: Proc.Workshop on Pattern Recognition in Practice (1980)
Mauuary, L.: Blind Equalization in the Cepstral Domain for robust Telephone based
Speech Recognition. In: Proc. of EUSPICO98, Vol.1 (1998) 359363
Mohri, M., Pereira, F., Riley, M.: Weighted Finite-State Transducers in Speech
Recognition. Computer Speech and Language Vol.16, No.1 (2002) 6988
166
167
1 Bevezets
A szvegfelolvas rendszerek rthetsge elrte a megfelel szintet, viszont ms
tulajdonsgokban mg hinyossgok fedezhetek fel. Ezek kz tartozik az emberi
beszd vltozatossga, amelyet ritkn modelleznek beszdszintetiztor rendszerekben. Az emberi beszdben a prozdia (dallam, hangsly, ritmus) rendkvl vltozkony jellemz. Egy-egy mondatot mg akarattal sem tudunk tbbszr ugyangy elmondani, a mindennapi beszdben pedig nagy klnbsgek tapasztalhatak mindegyik fenti jellemzben. A legtbb szvegfelolvas rendszer ezzel szemben
determinisztikusan lltja el a prozdit, azaz egy-egy bemeneti szveghez ismtelt
szintziskor mindig ugyanaz a prozdia tartozik. Ez sokszor ismtld, monoton
mintk tlzott elfordulshoz vezet, ami zavar lehet a szintetizlt beszdben. A
prozdiai mintk ismtldse azrt fordulhat el a szvegfelolvas rendszerekben,
mert a beszdszintetiztor mindig a legjobb prozdit prblja egy-egy mondathoz
rendelni. gy az emberi beszd vltozatossga lecserldik a legjobb, leggyakoribb
mintra. Ez viszont az emberi fl szmra, ami a vltozkonysghoz szokott, knnyen
felismerhet, s hosszabb szintetizlt beszdrszlet hallgatsa sorn zavar lehet.
168
169
2 Mdszerek
Amennyiben a HMM-alap beszdszintzisben az eredeti tant adatbzist tbb rszre bontjuk, s ezekre kln-kln elvgezzk a statisztikai alap tantst, akkor ez
alapjn klnbz paramterrtkeket tanul be a rendszer. A klnbz rsztantadatbzisok paramtereit egy beszdszintzisre pl alkalmazsban prhuzamosan felhasznlva (azaz felvltva hasznlva az eltr paramterhalmazokat) elrhet, hogy egy adott mondathoz ne mindig ugyanaz a prozdia tartozzon. Ha a rsztantadatbzisok mondatai elg klnbzek voltak, akkor a generlt ismtld
mondat tulajdonsgai is eltrek lesznek ismtelt szintzis sorn, illetve azt vrjuk,
hogy hasonl szerkezet mondatok is lnyegesen eltr prozdival fognak rendelkezni. A HTS rendszerrel vgzett betantsi s szintetizlsi, valamint adatbzis feldarabolsi lpseket az 1. bra mutatja be.
1. bra: A beszdkorpusz feldarabolsa, majd HMM tantsi fzis (fels rsz). A bemeneti szveghez HMM adatbzis kivlasztsa, majd szintzis fzis (als rsz).
170
F0 (Hz)
330
200
100
50
pau a b o2 l cs e1 sz e gy a1 l t a l a1 n n e m b o2 l cs
bb pau m i n t m a1
e mb e
0.4499
pau
3.537
Ido (s)
300
250
F0 (Hz)
200
150
100
50
pau a b o2 l cs e1 sz e gy a1 l t a l a1 n n e m b o2 l cs
0.4499
bb pau m i n t m a1
e mb e
pau
3.537
Ido (s)
171
172
1.5
1
328
395
0.5
473
744
-0.5
-1
-1
-0.5
0.5
1.5
2.5
3. bra: A SOFM alap klaszterezs eredmnyeknt felbonts utn kapott ngy tantadatbzis
mondatainak elemszma.
SOM szomszdok sly tvolsga
1.5
0.5
-0.5
-1
-1
-0.5
0.5
1.5
2.5
4. bra: A SOFM alap klaszterezs eredmnyeknt felbonts utn kapott ngy tant adatbzis egymstl mrt tvolsga. A vilgosabb szn kisebb, a sttebb szn nagyobb tvolsgot
jell.
173
3 Eredmnyek
A SOFM alap klaszterezs eredmnyessgt objektv s szubjektv vizsglatokkal is
ellenriztk. 2000 kivlasztott mondatot leszintetizltunk a 4 tant adatbzisbl
szrmaz F0-modellel kln-kln (a gerjesztsi s idtartam paramtereket a teljes
tant adatbzisbl szrmaz modellbl felhasznlva).
250
200
150
100
0.6
0.8
1.2
1.4
1.6
1.8
2.2
2.4
2.6
300
cluster2
F0 (Hz)
250
200
150
100
0.6
0.8
1.2
1.4
1.6
1.8
2.2
2.4
2.6
300
cluster3
250
200
150
100
0.6
0.8
1.2
1.4
1.6
1.8
2.2
2.4
2.6
300
cluster4
250
200
150
100
0.6
0.8
1.2
1.4
1.6
1.8
Ido (Hz)
2.2
2.4
2.6
5. bra: A #1625 mondat (Zsigmond nem tagadja, hogy zsid.) ngy szintetizlt vltozata,
klnbz tant adatbzisokbl kiindulva. Az alapfrekvencia-menet (s gy a mondatdallam,
illetve a hangslyok helye s erssge) eltr a klnbz vltozatokban.
174
Ezutn a 2000 mondatbl kivlasztottunk 10 mondatot, melyeknl a vltozatok kztti F0 szerinti Hermes-korrelci a legalacsonyabb volt (gy vrhatan ezek kztt
szlelhet a legnagyobb klnbsg a mondatdallamban).
175
Mondat
Hermeskorrelv1 v2 ci
Szubjektv
Igen
Mondat
Hermeskorrelv1 v2 ci
Szubjektv
Igen
#0044
0,7833
88,89%
#0186
0,8515
44,44%
#0044
0,7416
66,67%
#0186
0,7416
77,78%
#0044
0,8271
55,56%
#0186
0,7650
66,67%
#0044
0,9408
55,56%
#0186
0,8877
66,67%
#0044
0,9071
33,33%
#0186
0,9575
33,33%
#0044
0,9385
33,33%
#0186
0,9108
66,67%
#0046
0,7697
44,44%
#0849
0,6929
77,78%
#0046
0,7410
44,44%
#0849
0,7921
44,44%
#0046
0,7185
77,78%
#0849
0,8694
55,56%
#0046
0,9356
22,22%
#0849
0,9327
55,56%
#0046
0,9158
66,67%
#0849
0,8991
22,22%
#0046
0,9644
88,89%
#0849
0,9406
66,67%
#0069
0,7663
77,78%
#1342
0,9205
55,56%
#0069
0,8016
66,67%
#1342
0,7346
77,78%
#0069
0,8260
77,78%
#1342
0,9032
55,56%
#0069
0,9273
22,22%
#1342
0,8172
55,56%
#0069
0,8608
55,56%
#1342
0,9127
77,78%
#0069
0,9381
77,78%
#1342
0,7591
66,67%
#0074
0,6337
88,89%
#1425
0,8240
66,67%
#0074
0,8452
77,78%
#1425
0,8310
66,67%
#0074
0,8101
77,78%
#1425
0,7815
77,78%
#0074
0,7819
44,44%
#1425
0,9546
11,11%
#0074
0,7759
66,67%
#1425
0,8546
88,89%
#0074
0,8971
77,78%
#1425
0,9040
66,67%
#0091
0,9034
66,67%
#1625
0,7812
44,44%
#0091
0,6437
66,67%
#1625
0,8299
44,44%
#0091
0,9006
66,67%
#1625
0,8523
77,78%
#0091
0,8481
44,44%
#1625
0,6547
77,78%
#0091
0,9777
0,00%
#1625
0,9233
66,67%
#0091
0,8189
55,56%
#1625
0,8081
66,67%
176
4 sszefoglals
A kutats sorn bemutattunk egy egyszer mdszert, amivel egy adott szveghez
klnbz dallammal rendelkez mondatokat lehet szintetizlni. Ehhez egy statisztikai F0-modellt hasznltunk fel HMM-alap beszdszintetiztorban. Az eredeti beszdkorpuszt az SOFM mdszerrel bontottuk fel ngy rszre. A klnbz beszdkorpuszokbl betanult modellekkel eltr dallam mondatvltozatokat szintetizltunk
(azonos szveghez). Ezutn megvizsgltuk a mondatvltozatok kztti klnbsgeket. A szubjektv ksrletek azt mutatjk, hogy az alapfrekvencia eltrse a vizsglt
mondatprok felben annyira jelents volt, hogy ez az emberi fl szmra is szlelhet (azonban ez nem ll szoros sszefggsben az objektv tvolsgmrtkkel). Ahhoz,
hogy percepcis szempontbl eltr prozdij mondatokat tudjunk ltrehozni, az
szksges, hogy az eredeti beszdkorpusz felbontsa minl jobban eltr rszekre
trtnjen, melyre a SOFM mdszer alkalmasnak ltszik.
A vltozatosabb prozdival kiegsztett beszdszintzis azokban a rendszerekben
jelenthet javulst a felhasznlk szmra, ahol hosszabb szvegek felolvassa trtnik, illetve gyakran elfordulnak ismtld, hasonl szerkezet mondatok. Ezek kz
tartozik a knyv s az e-levl felolvass.
A kutatst rszben a TMOP-4.2.1/B-09/1/KMR-2010-0002 projekt tmogatta.
Bibliogrfia
1. Bealen, M.H., Hagan, M.T., Demuth, H.B.: Neural Network Toolbox, Revised for Version
7.0, Release 2010b, http://www.mathworks.com/help/toolbox/nnet/ (2010)
2. Csap, T.G., Zaink, Cs., Nmeth, G.: A Study of Prosodic Variability Methods in a Corpus-Based Unit Selection Text-To-Speech System. Infocommunications Journal, Vol. LXV,
No.1 (2010) 3237
3. Campillo Daz, F., Rodrguez Banga, E.: A method for combining intonation modelling and
speech unit selection in corpus-based speech synthesis systems. Speech Communication
Vol. 48 (2006) 941956
4. Campillo Daz, F., van Santen, J., Rodrguez Banga, E.: Integrating phrasing and intonation
modelling using syntactic and morphosyntactic information. Speech Communication, Vol.
51, No.5 (2009) 452-465
5. Hermes, D.J.: Measuring the perceptual similarity of pitch contours. Journal of Speech Language Hearing Research Vol. 41 (1998) 7382
6. Klabbers, E., van Santen, J., Wouters, J.: Prosodic factors for predicting local pitch shape. In
Proceedings 2002 IEEE Workshop on Speech Synthesis. Santa Monica, CA (2002)
177
7. Kohonen, T., Kaski, S., Lappalainen, H.: Self-organized formation of various invariantfeature filters in the adaptive-subspace SOM. Neural Computation Vol. 9, No. 6 (1997)
13211344
8. Nmeth, G., Fk, M., Csap, T.G.: Increasing Prosodic Variability of Text-To-Speech Synthesizers. In: Proc. of Interspeech (2007) 474477
9. Reichel, U.D., Kleber, F., Winkelmann, R.: Modelling similarity perception of intonation.
In: Proc. of Interspeech (2009) 17111714
10. Rilliard, A., Allauzen, A., Boula de Mareil, P.: Using Dynamic Time Warping to compute
prosodic similarity measures. In: Proc. of Interspeech (2011) 20212024
11. Szkely, E., Cabral, J. P., Cahill, P., Carson-Berndsen, J.: Clustering expressive speech
styles in audiobooks using glottal source parameters. In: Proc. of Interspeech, (2011) 2409
2412
12. Tth B.P., Nmeth G.: Rejtett Markov-modell alap szvegfelolvas adaptcija flig
spontn magyar beszddel. In: Tancs A., Szauter D., Vincze V. (szerk.): VI. Magyar
Szmtgpes Nyelvszeti Konferencia (2009) 246256
13. Zen, H., Nose, T., Yamagishi, J., Sako, S., Masuko, T., Black, A.W., Tokuda, K.: The
HMM-based speech synthesis system version 2.0. In: Proc. of ISCA SSW6 (2007)
178
1.
Bevezets
A prozdia s a szintaktikai szerkezet kztti sszefggst szmos megkzeltsben vizsgltk mr, a szintaktikai s a fonolgiai reprezentci kztti interfszt
179
azonban eddig nem sikerlt egysgesen lerni. Ez nem meglep, hiszen sszetett
jelensggel llunk szemben, gy az egysges modell megalkotsa nem is felttlenl volna megvalsthat elkpzels. Mindenesetre az eddigi kutatsok nhny
fbb ponton sszecsengenek, gy a szintaktikai s prozdiai szerkezetek kztti
sszefggs ltalnosan elfogadott, termszett tekintve azonban nem teljesen
feltrt. Az egyik legismertebb hipotzis Selkirk nevhez fzdik (prosodic structure hypothesis), mely szerint egy-egy mondat prozdiai szerkezete nagyban - de
nem teljes mrtkben - fgg a felszni szintaktikai szerkezettl [11]. Ms szerzk
viszont amellett rvelnek, hogy a prozdit kzvetlenl s tbbnyire egyrtelmen a szintaktikai szerkezet hatrozza meg [5]. A szerzk tapasztalatai alapjn
ez utbbi megllapts tlzottnak tnik, ugyanakkor az idzett elmletek nem
trnek ki arra, hogy a prozdiai, illetve szintaktikai hierarchiban magasabban
elhelyezked szintek sokkal biztosabban, mg a mlyebbek esetlegesebben feleltethetk meg egymsnak.
A prozdiai szerkezet az ltalnosan elfogadott hipotzisek szerint ([11], [4])
fellrl lefel haladva az albbiak szerint alakul: a megnyilatkozs (utterance)
intoncis frzisokbl ll (IF), amelyek tovbb bonthatk az n. fonolgiai frzisokra (FF). A fonolgiai frzisokat pedig fonolgiai szavak (FSz) ptik fel,
ezeket gyakran prozdiai sznak is hvjk [11]. A hierarchia tovbb nomthat
egszen a sztag szintig, de a fonolgiai frzisnl mlyebb egysgeket a cikkben nem fogjuk hasznlni, gy a tovbbi ismertetstl eltekintnk. A prozdiai
szerkezet jl szemlltethet fval vagy a hierarchit tkrz zrjelezssel.
A mondatok szintaktikai elemzsekor hasonl hierarchiban gondolkodunk,
amely az alapvet ptelemeket (pl. szavak) kapcsolja ssze mondatokk: az
egyes szavak szszerkezeteket alkotnak, ezek a szintaktikai frzisok (SzF). Az
egyes frzisokba tovbbi frzisok keldhetnek (embedding), ltrehozva a szintenknt reprezentlhat hierarchit. A szintaktikai frzist ltalban dominns
eleme (n. fej) utn nevezik el. A dominns elem az az elem, amely a frzis
viselkedst az eggyel magasabb szintaktikai szinten meghatrozza. Ily mdon
beszlhetnk nvszi frzisokrl (a fej nvsz), igei s hatrozi stb. frzisokrl.
A szintaktikai elemzs sorn elterjedt a fareprezentci.
A beszdtechnolgiban az rott mondatok szintaktikai elemzse beszdszintzis eltt elterjedt technolgia [6]. Az els ilyen irny prblkozsok egszen
az 1980-as vekig nylnak vissza. A mdszer alapja az a felttelezs, hogy a szintaktikai elemzs alapjn az ellltand beszd prozdiai jellegzetessgei igen jl
elrejelezhetk. Ez teht azt jelenti, hogy a felszni szintaktikai szerkezet lekpezhet a prozdiai szerkezetre, radsul a gyakorlati tapasztalatok alapjn igen
biztosan. Teljes lekpezhetsgrl azonban a beszdszintzis esetn sem beszlhetnk, rszben ppen ezzel magyarzhat, hogy a beszdszintzis alkalmazsokat
mirt rdemes egy-egy behatrolt tmaterletre szkteni a minsg javtsa rdekben [12].
A fordtott irny lekpezs, azaz a prozdia alapjn a szintaktikai viszonyokra val kvetkeztets jval kevsb elterjedt, nhny igaz, leginkbb kutatsi, ksrleti, de kevsb gyakorlati alkalmazsban azonban tallkozhatunk
vele. Tbb kutatsban is vizsgltk pldul egymstl jelentsben s/vagy ta-
180
2.
A prozdiai szerkezet feltrkpezsre a beszdjelen prozdiai szegmentlst vgznk. Az eljrst rszletesen bemutattuk mr [14], [13], gy itt csak a lnyegesebb
jellemzit foglaljuk ssze. A prozdiai szegmentl feladata fonolgiai frzisok
(FF) illesztse a beszdjelhez. Ehhez a szegmentl 7 beptett fonolgiai frzismodellt trol rejtett Markov-modell formjban (lsd 1. tblzat). Az illeszts a
hangslyok s a dallammenetek egyttes gyelembevtelvel trtnik. A felhasznlt akusztikai jellemzk az alapfrekvencia- s az energiamenet, kinyersket a
kvetkez, 2.1 alfejezetben rviden ttekintjk. A fonolgiai frzisokra gy tekintnk, mint a legkisebb, nll hangsllyal s dallammenettel jellemezhet
egysgre [4]. A magyar nyelvben kijelent mdban a tipikus FF elejn a hangslynak megfelel kiemelst tapasztalunk, amelyet lassan ereszked dallammenet
kvet a kvetkez hangslyos egysgig. Ezt tekintjk a FF prototpusnak (fs).
Mivel azonban a fonolgiai frzisok intoncis frzisokba, illetve megnyilatkozsegysgekbe - olvasott beszdben mondatokba, spontn beszdben virtulis mondatokba - szervezdnek, magasabb szint tnyezk is befolysoljk a hangslyozst s a dallammenetek alakulst. Emiatt az osztlyozshoz/illesztshez
181
FF tpus
Tagmondat eleje
Ers hangsly
Prototpus
Tagmondat vge
Folytatst jelz
Inverz hangsly
Csend
A prozdiai szegmentls sorn a fonolgiai frzisok egymshoz kapcsoldsi szablyszersgeit ler, prozdiai-nyelvi jelleg modellt is hasznlunk. Ez
a modell teszi lehetv egyrszt az illesztst (milyen FF milyen FF utn milyen valsznsggel kvetkezhet), msrszt elkszti a szintaktikai szerkezetre
val lekpezst, hiszen a prozdiai szegmentl FF-modelljei a mondatokban,
tagmondatokban elfoglalt helyk, szerepk szerint lettek kialaktva. A hasznlt
modell ppen a mondatok, virtulis mondatok (idealizlt) felptst adja meg:
minden mondat tagmondat eleje frzissal (me) indt s tagmondat vge frzissal
(mv) zr. Kzben ersen (fe) s kzepesen hangslyos (fs, prototpus) fonolgiai
frzisok tetszleges sorrendben vltakoznak, esetleges folytatst jelz frzisokkal
(fv). Ez utbbit tagmondat eleje frzis (me) vagy inverz hangslyt tartalmaz
frzis (s) kvetheti. Kivteles esetben mondat vge is lehet (pl. krds esetn). A
mondatok kztt sznetet feltteleznk (sil). Fontosnak tartjuk megvilgtani,
hogy az alkalmazott illesztsi eljrs nem pusztn egyes prozdiaesemnyhez kthet jellk (pl. sznetjellk, hangslyjellk) detektlsn alapul (v. ToBI,
[12]), hanem a prozdiai, illetve a hozz trstott akusztikai jellemzk folyamatos
kvetst biztostja, ily mdon vlemnynk szerint rugalmasabb s egysgesebb
prozdiai szegmentlst tesz lehetv, lnyegben az egyes detektland esemnyeket a fonolgiai frzisok modelljei inkorporljk.
2.1.
Akusztikai-prozdiai elfeldolgozs
Az akusztikai-prozdiai elfeldolgozs a [13] irodalomban ismertetettek alapjn trtnik, de az egyes jellemzk kinyersnl hasznlt konstansok rtkeit
az albbiak szerint lltottuk be: az alapfrekvencia (F0 ) kinyerse ESPS algoritmussal trtnik 25 ms hosszsg, cssztatott ablakolssal. Az energia kinyershez hasznlt ablak is 25 ms. A keretid mindkt jellemzre 10 ms. A nyert
182
2.2.
3.
A szintaktikai elemzshez a szabadon elrhet HunPars eszkz llt rendelkezsnkre [1]. Ez a szintaktikai elemz bels erforrsokknt n. frzisstruktra
nyelvtant s lexikai adatbzisokat s a HunMorph morfolgiai elemzt hasznlja
fel. A morfolgiai elemz hasznlata nagyban emeli a komplexitst, de a magyar
nyelv sajtossgai miatt aligha megkerlhet. A szintaktikai elemz kimenetn
az elemzett mondat tagekkel elltva s a szintaktikai hierarchiban elfoglalt helyzetet tkrz zrjelezssel jelenik meg, amelybl fastruktrj reprezentci is
generlhat. Az elemz minden lehetsges hipotzist megad, ez hosszabb mondatokra tbb tz, kirv esetben nhny szz lehetsges elemzs is lehet. Miutn
a prozdit ezttal nem egyrtelmstsre kvnjuk felhasznlni, az elemzseket
szakrt kzzel egyrtelmstette. Az egyrtelmsts egybknt leginkbb egyes
lexikai elemek tbb jelentsbl addan vlt szksgess (pl. az egy szt mindig hromfle elemzsben kapjuk meg (hatroz, nvel, szmnv), ha tbb nem
egyrtelm elem is van a mondatban, akkor a hipotzisek szma sszeszorzdik).
4.
183
Anyag s mdszer
184
5.
5.1.
Eredmnyek s rtkels
Szintaktikai frzisok behatrolsa
Kezdet
1B/W MB/W
0,85
0,85
0,45
0,70
0,42
0,70
0,44
0,74
0,48
0,70
0,54
0,72
Vg
Elf. szma
1B/W MB/W (MB/W)
0,79
0,79
3124
0,48
0,68
10339
0,48
0,69
5763
0,45
0,65
814
0,50
0,67
187
0,55
0,69
20227
Az tlagos recall rtk 71% (MB/W), illetve 55% (1B/W), amely a tagmondatok szintjn jelentsen magasabb: 85% (frziskezdet) s 79% (frzisvg). Az
eredmnyek statisztikai altmasztsra Kruskal-Wallis prbt vgeztnk, amely
igazolta, hogy a fonolgiai s a szintaktikai frzisok kztt szignikns sszefggs van (2 = 6430, 606; p < 0, 000).
185
A megfelel SzF kezd- s vgidpontokat prba lltva s a recall rtkeit vizsglva Mann-Whitney s Wilcoxon W tesztekkel a tagmondatok esetn a tagmondat kezdett szigniknsan jobban lehet detektlni, mint a vgt (Z = 7, 807; p < 0, 000). Mlyebb szintaktikai szinteken azonban megsznik a szignikns klnbsg a kezd s vgidpontok tekintetben (1. szint:
Z = 0, 407; p > 0, 1; 2. szint: Z = 0, 016; p > 0, 1; hasonlan a mlyebb
szintekre is).
A tagmondat szintnl mlyebb szinteken a recall rtkek szinte azonosak, ebbl arra kvetkeztethetnk, hogy a prozdia a szintaktikai hierarchiban elfoglalt
helyzettl fggetlenl jelez szintaktikai frzishatr-informcit: nincs szignikns
klnbsg a recall rtkek kztt a szintaktikai szint fggvnyben a tagmondatnl mlyebben: (2 = 0, 224; p > 0, 1). Teht minden SzF nll entitsknt
viselkedik, fggetlenl a szintaktikai hierarchiban elfoglalt helytl.
5.2.
A kvetkez lpsben azt vizsgltuk, mennyire klnthetk el az egyes szintaktikai szintek a fonolgiai frzisokra trtn szegmentls alapjn, illetve van-e
olyan FF, amely valamely szintaktikai szinthez trsthat (a frzistpusok elklntsnl hasznlt metodika alapjn hipotzisnk, hogy kell lennie). Ha a
FF tpusa alapjn klnbsget tudunk tenni a szintaktikai szintek kztt, az
nagyban emeln a prozdiai szegmentls rtkt az elemzsben. Azt is j lenne
tudnunk, mennyire megbzhat a detektls az egyes fonolgiai frzisok tpustl
fggen (ha van kzttk klnbsg). A vlasztott mrtknk a precision:
P recision =
tp
,
tp + f p
(2)
ahol tp ismt a FF-ok ltal helyesen (150 ms-on bell) jelzett SzF hatr, mg
f p a beszrt FF hatrok szma (amelyek teht nem esnek egybe SzF-sal). A
precision mrszm mellett specicits jelleggel azt is vizsgljuk, hogy fonolgiai frzistpusokra bontva hogyan alakulnak a szintenknti relatv gyakorisgok
(milyen tpus FF milyen szint SzF-nak felel meg leggyakrabban/tipikusan).
Az eredmnyeket a 3. s a 4. tblzatokban mutatjuk be, kln frzisok elejnek
s vgnek sszehasonltsra. A relatv gyakorisgok mellett az utols oszlopban
a FF-hoz tartoz precision rtke is megtallhat.
A 3. tblzat eredmnyei szerint a me FF 86% relatv gyakorisggal tagmondat kezdett jelli. A 1. szint szintaktikai frzis kezdetre a fe, fs, mv, illetve
kisebb mrtkben a fv fonolgiai frzisok utalnak. Az s tpus frzis kezdete
nem egyrtelm szintaktikai utals szempontjbl. A 2. szintaktikai szinttl
mlyebben a FF-ok eloszlsa lnyegben egyenletes az egyes szintek kztt, gy
a FF tpusa nem utal a szintaktikai szintre. Az eredmnyek sszessgben teht azt jelentik, hogy a tagmondatok kezdete igen biztosan elrejelezhet a FF
tpusa alapjn (0. szint), illetve hogy a 1. szint ettl s a mlyebben fekv
szintektl mg jl elklnthet. Teht a szintaktikai hierarchia prozdiai szemszgbl 3 szintre tagoldik, a 0. szintaktikai szintre, a 1. szintaktikai szintre s
186
187
5.3.
Vgezetl azt is vizsgltuk, hogy felfedezhet-e valamifle sszefggs a fonolgiai frzis tpusa (me, fe, fs, mv, fv, s), illetve a szintaktikai frzis tpusa kztt
(NP, AdjP, AdvP, NumP, VV, VV-Inf, PostpP). Az eredmnyek tansga szerint
ilyen sszefggs a magyar nyelvben nem mutathat ki (2 = 0, 349; p > 0, 1),
188
6.
sszefoglals s kitekints
Cikknkben a szintaktikai szerkezet feltrkpezhetsgt vizsgltuk olvasott beszdben. Egy prozdiai szegmentl kimenete alapjn a szintaktikai frzisok hatrait azonostottuk, s vizsgltuk a szintaktikai hierarchihoz rendelt szintek
visszakvethetsgt is pusztn a beszdjel prozdija alapjn. A tagmondathatrok akr 92%-a, a tagmondatban elhelyezked, akr egymsba is gyazott
szintaktikai frzisok hatrainak 50-70%-a volt automatikusan meghatrozhat.
A tagmondathatrok detektlsban a pontossgot jellemz precision mrszm
maximlis rtke 84% volt, a begyazott szintaktikai frzisokra 46 s 58% kztt
alakult. Vgkvetkeztetseink az albbiak: a prozdia olvasott beszdben (i) a
szintaktikai hatrokat jl jelzi, (ii) tbbnyire vilgosan elklnti a tagmondathatrokat a szszerkezetek hatraitl, (iii) a FF-ok/SzF-ok elejt sszevetve az
egyszeres begyazdsok mg esetenknt megklnbztethetk (1. s 2. szintek elklntse), a mlyebb szintaktikai szintek viszont egybeolvadnak, hatraik
azonban esetenknt tovbbra is detektlhatk. Ezek alapjn a prozdia temez,
szinkronizl szerepe felttelezhet a humn beszdpercepciban, amelyet szernyebb rtegz szerep egszt ki (0., 1. s 2. s mlyebb szintek elklntse).
A prozdiai s szintaktikai szerkezet sszefggseit spontn beszdben is vizsgljuk, ezek a ksrletek azonban mg folyamatban vannak remnyeink szerint
eladsunkban mr az eredmnyekbl is zeltt adhatunk. Spontn beszd esetben a prozdiai szegmentls nagyjbl elvgezhet, ugyanakkor szmolni kell
az elemzst megnehezt elemek megjelensvel: rzelmi tltet, amely a prozdit
is befolysolja; nagyobb dinamikatartomny (ez az elfeldolgozsban - oktvugrs elleni szrsben s interpollsban - okozhat nehzsgeket; a hangslyozsihanglejtsi "szoksjog" gyakori megszegse, dinamikus vltozsa). A spontn beszd szintaktikai elemzse igen nehz feladatnak bizonyul, mivel nem tartalmaz
jl krlhatrolhat, egyrtelmen meghatrozhat mondatokat. thidal megoldsknt n. virtulis mondatok elemzst fogjuk elvgezni (ez alatt a spontn
beszdbeli megnyilatkozsok olvasott beszdhez hasonl mondatszer formra
konvertlt alakjt rtjk - v. [3], [7]). Tovbbra is problmt jelentenek azonban a megakadsjelensgek, befejezetlen gondolatok stb., amelyek a prozdiai s
virtualizlt szintaktikai szerkezet egymsra kpezst jelentsen nehezthetik.
Ksznetnyilvnts
A szerzk ksznetket fejezik ki Nagy Katalinnak, a BME villamosmrnk hallgatjnak a bemutatott munkban nyjtott segtsgrt.
189
Hivatkozsok
1. Babarczy A., Blint G., Hamp G., Krpti A., Rung A., Szakadt I.: Hunpars:
mondattani elemz alkalmazs, III. Magyar Szmtgpes Nyelvszeti Konferencia.
Szeged, Magyarorszg, 2005. pp. 20-28.
2. Beke Andrs, Szaszk Gyrgy: Sztagok automatikus osztlyozsa spontn beszdben spektrlis s prozdiai jellemzk alapjn, VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg, 2010. pp. 236-248.
3. Gsy Mria: Virtulis mondatok a spontn beszdben, Beszdkutats 2003, MTA
Nyelvtudomnyi Intzet, Budapest, 2003. pp. 19-43.
4. Hunyadi Lszl: Hungarian Sentence Prosody and Universal Grammar, Peter Lang,
2002.
5. Kaisse, Ellen M.: Connected Speech: The Interaction of Syntax and Phonology,
Academic Press, San Diego, 1985.
6. Koutny Ilona: Parsing Hungarian Sentences in order to Determine their Prosodic
Structures in a Multilingual TTS system, Proc. of the Eurospeech99 International
Conference on Speech Communication and Technology, pp. 2091-2094, Budapest,
Hungary, 1999.
7. Mark Alexandra: A spontn beszd nhny szupraszegmentlis jellegzetessge:
Monologikus s dialogikus szvegek sszevetse, valamint a hmmgs vizsglata,
PhD rtekezs, ELTE, Budapest, 2005.
8. Olaszy Gbor, Nmeth Gza, Olaszi Pter: Automatic Prosody Generation - a
Model for Hungarian, In: European Conference on Speech Communication and
Technology (Eurospeech 2001). Aalborg, Dnia, 2001. pp. 525-528.
9. Price, P.J., Ostendorf, M., Shattuck-Hufnagel, S., Fong. C.: The use of prosody for
syntactic disambiguation, Journal of the Acoustical Society of America 90(6):29562970, 1991.
10. Roach, P. et al.: BABEL: An Eastern European multi-language database, Proc. of
the 4th International Conference on Speech and Language Processing, Philadelphia,
USA, Vol 3. pp. 1892-1893, 1996.
11. Selkirk, Elisabeth: The Syntax-Phonology Interface, in Smelser, N.J. and Baltes,
Paul B. [Eds], International Encyclopaedia of the Social and Behavioural Sciences,
15407-15412, Oxford: Pergamon, 2001.
12. Silverman, K.: On costumizing prosody in speech synthesis: names and addresses
as a case in point, in Proc. ARPA Workshop on Human Language Technology, pp.
317-322, 1993.
13. Szaszk Gyrgy: A szupraszegmentlis jellemzk szerepe s felhasznlsa a gpi
beszdfelismersben, PhD rtekezs. Budapesti Mszaki s Gazdasgtudomnyi
Egyetem, 2008.
14. Vicsi Klra, Szaszk Gyrgy: Folyamatos beszd sz- s frzisszint automatikus
szegmentlsa szupraszegmentlis jegyek alapjn, II. rsz: Statisztikai eljrs, nnmagyar nyelv sszehasonlt vizsglat, III. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg, 2005. pp. 360-370.
190
Kivonat: A klnbz kommunikcis esemnyek szmtgpes elemzse sorn nlklzhetetlen tmpontot jelent, hogy gpileg feldolgozhat formban elrhetk legyenek az azokat ksr s ltalnossgban jellemz fizikai jegyek,
mint amilyen a gyorsul beszdtemp vagy az eltr hanghordozs. A jelen tanulmnyban bemutatsra kerl, a HuComTech-korpusz s -adatbzis bvtseknt tervezett automatikus prozdiai annotci ezeknek az informciknak a
feltrkpezst szolglja abbl a clbl, hogy a lehetv tegye a korpusz annotciiban rgztsre kerlt kommunikcis jelensgek akusztikai jellemzst. A
tanulmny a korpusz ltalnos bemutatsa utn ennek cljait, mdszereit s lehetsgeit kvnja rszletezni.
1 Bevezets
A HuComTech projekt1 keretben ltrehozott multimodlis lnyelvi korpusz s
adatbzis szmtalan feldolgozsi s kutatsi lehetsget rejt magban. A kommunikcielmleti szakemberek, digitlis kpfeldolgozk s szmtgpes nyelvszek kzremkdsvel, 113 beszl rszvtelvel gyjttt, 50 rnyi annotlt anyag azzal a
cllal kszlt, hogy egy egysges elmleti kerethez igazodva ltrejjjn egy olyan
empirikus erforrs, amely klnfle kutatsokra, adatbnyszatra, gpi betantsra
alkalmas alapanyagot jelent a projektben egyttmkd, illetve kls kutatk szmra [4]. Jelen tanulmny a jelenlegi specifikcik rvid ismertetse utn az adatbzis
bvtseknt tervezett automatikus prozdiai annotcit, annak mdszereit s lehetsgeit kvnja bemutatni.
A kutats alapjait Az embergp kommunikci technolgijnak elmleti alapjai. cm, TMOP-4.2.208/1/2008-0009 projekt azonostj program keretei kztt teremtettk meg. Jelen tanulmny A
felsoktats minsgnek javtsa a kutats-fejleszts-innovci-oktats fejlesztsn keresztl a
Debreceni Egyetemen cm, TMOP-4.2.1/B-09/1/KONV-2010-0007 projektazonostj program
keretein bell jtt ltre.
191
192
Az SQL lekrdezseken kvl, a nyers adatokon (felvtelek s annotcik) folytatott munka a feldolgozs azon rszt kpezi, amely egyttal a korpusz bvtst is
magval vonja az automatikusan generlt j annotcik vagy metaadatok formjban.
Az automatizlt adatgyjts s cmkzs ilyen szmtgpes nyelvszeti irny rszt
kpezi a klnfle akusztikai informcik kinyerse s annotlsa a mr meglv
manulis annotcik felhasznlsval.
193
194
A beszd sebessgnek ingadozsa gy a sztagmagok helyt reprezentl intenzitscscsok kztti tvolsg vltozsain keresztl vlik megragadhatv.3 Ehhez termszetesen figyelembe kell vennnk a beszd sebessgnek az adott beszl egyedi
beszdtempjbl kvetkez relatv viszonyait, amely a teljes beszdfolyamra szmolt elzetes statisztikk segtsgvel valsthat meg. A hangzs rszekre szmolt
cscsok kztti tvolsg tlagrtknek megadsval meghatrozhatjuk az adott beszl norml beszdtempjt. Az eljrs sorn az tlagolst elszr minden hangzs
szakaszra kln-kln vgezznk el, majd ezeket az eredmnyeket tlagoljuk jra. A
norml beszdtemp meghatrozsa utn relatv kszbrtkek kiszmtsval tovbbi kategrikat llthatunk fel, amelyek mr az adott szakaszokra trtn cmkzsi
eljrs sorn kerlnek felhasznlsra (3. bra).
195
A beszd aktulis tempjt teht az adott szegmensen bell fellelt sztagmagok tlagsrsgnek az adott beszlre jellemz norml tlagsrsghez viszonytott klnbsge fogja meghatrozni a beszd aktulis tempjt. A eljrs lpseit sszefoglalva:
sztagmagok detektlsa (de Jong s Wempe munkja [3] nyomn)
norml beszdtemp meghatrozsa a sztagmagok hangzs rszekre
szmolt tlagsrsge alapjn (beszlspecifikus tulajdonsg)
az adott beszdszegmens tlagsrsgnek kiszmtsa
az adott beszdszegmens tempjnak kategorizlsa a norml
beszdtemptl val eltrs foka alapjn
A cmkzs esetben problematikus krds, hogy milyen egysgekre, a
beszdfolyam mely szakaszaira trtnjen az aktulis beszdtemp kategorizlsa.
Lehetsges utat jelent a korbban mr manlisan annotlt szegmentumok, illetve a
sznettl sznetig tart hangzs rszek tempjnak cmkzse. Az eljrsnl
problmt jelent, hogy egy folytonos (sznettl sznetig tart) beszdszakaszon, vagy
akr egy szintaktikai egysget reprezentl annotlt szegmentumon bell is
szmtanunk kell a temp ingadozsra. Hogy ezeket az informcikat ne vesztsk
el, az adott egysgen bell is vizsglnunk a beszdtemp alakulst, a beszlt s az
egysget jellemz adatokbl szmolt kszbrtkek felhasznlsval.
196
http://bach.arts.kuleuven.be/pmertens/prosogram/
197
5
6
7
198
3 sszegzs
A HuComTech-korpusz s -adatbzis jelenlegi llapotban szmos vizsglati
lehetsget biztost kommunikcielmleti kutatsok folytatsra. Az automatikus
prozdiai annotci sikeres implementcija jelents mrtkben kitgtja ezeket a
vizsglati lehetsgeket az akusztikai informcik feldolgozhat formban trtn
bekapcsolsval, olyan tovbbi kutatsokat alapozva meg, melyek egy adott
kommunikcis esemny vals idben trtn detektlsnak vagy predikcijnak
algoritmizlhatsgt clozzk.
Bibliogrfia
1. Alessandro, P., Mertens., P.: Automatic pitch contour stylization using a model of tonal
perception. Computer Speech & Language Vol. 9, No. 3 (1995) 257-288
2. Boersma, P., Weenink, D. (2010): Praat: doing phonetics by computer 5.1.43. Institute of
Phonetic Sciences, University of Amsterdam. http://www.praat.org
3. de Jong, N. H., Wempe, T.: Praat script to detect syllable nuclei and measure speech rate
automatically. Behavior Research Methods Vol. 41, No. 2 (2009) 385-390.
4. Hunyadi, L.: Multimodal human computer interaction technologies. Theoretical modeling
and application in speech processing. Argumentum. Megjelens alatt (2011)
5. Mertens, P.: The Prosogram: Semi-Automatic Transcription of Prosody Based on a Tonal
Perception Model. In: Bel, B., Marlien, I. (eds.): Proceedings of Speech Prosody 2004i, Nara (Japan), 23-26 March (ISBN 2-9518233-1-2) (2004)
6. Ppay, K., Szeghalmy, Sz., Szekrnyes, I.: HuComTech Multimodal Corpus Annotation.
Argumentum. Megjelens alatt (2011)
199
1 Bevezets
A munknk alapjt a HuComTech spontnbeszd-korpusz s adatbzis kpezi. Az
adatbzis a kommunikci szmos multimodlis jegye mellett nyelvi, ezen bell a
beszdre is vonatkoz adatot tartalmaz. Kln kihvs a folyamatban megszlet, a
kommunikci sorn kialakul spontnbeszd mondattani elemzse, hiszen az
gyakran ellenll a hagyomnyos mondatelemzsnek. Elemzse s annotlsa szmos
problmt vet fl egyrszt azrt, mert a beszl mg nem tudja, hogy az ltala
kifejezend informci milyen szerkezetben fog megjelenni, msrszt pedig az lsz
spontaneitsnak gyakori kvetkezmnye a pongyola nyelvhasznlat, ami egy nem
kellkppen tgondolt s nem megfelelen ltrehozott szintaxist hoz ltre. Els s
legfontosabb dolog a spontn beszd annotcis szablyainak kialaktshoz, hogy
meghatrozzuk a hasznland alapfogalmakat. Mivel jelen esetben kt szemly
kztti kommunikci szintaktikai elemzsrl van sz, minden esetben az egyes
beszlk ltal megvalstott egyes fordulkat tekintjk az elemzs trgynak. Az
egyes fordulkon bell azonostjuk a szintaktikai struktrt. A szintaktikai struktra
alapjnak a tagmondatot tekintjk (mlyebb bontsra mr csak azrt sem
vllalkozunk, mert ezt a beszlt nyelvi produkci gyakran nem is teszi lehetv) s
ezt szerkezeti sajtossgai alapjn hatrozzuk meg. Az elemzs s az annotci
1
A jelen tanulmny alapjul szolgl kutatsban a szerzt A felsoktats minsgnek javtsa
a kutats-fejleszts-innovci-oktats fejlesztsn keresztl a Debreceni Egyetemen cm,
TMOP-4.2.1/B-09/1/KONV-2010-0007 projektazonostj program tmogatta.
200
201
4 Minimlis mondat
A beszlt nyelv lazbb szerkesztettsgnek fentebb bemutatott grammatikai
kvetkezmnye az implicit nyelvi elemek gyakori elfordulsa mellett egy msik
fontos grammatikai kvetkezmnye az, hogy egy-egy fordul [3] llhat klnll
szavak olyan egymsutnisgbl, amelyek kztt semmilyen grammatikai
sszerendezds nincs. A tagmondat fentebbi meghatrozsa alapjn ilyen esetekben
ezen szavak kln-kln egyetlen tagmondatbl ll mondatokat kpeznek. Ezek a
minimlis mondat esetei. Kln figyelmet kell fordtanunk a lexiklis tartalom nlkli
hangz megnyilvnulsokra. Ezek a lexiklis tartalom nlkli minimlis mondat
esetei. Csak azokat az eseteket vesszk figyelembe, amelyek a fordulk elejn vagy
vgn jelennek meg. (A tagmondat szavai kztt megfigyelhet, gyakran
bizonytalansgot vagy a kifejezend gondolat mdostst jelz hangz
megnyilvnulsokat, mint amik nem befolysoljk a mondatszerkezetet, nem
jelljk.) A minimlis tagmondatra a pldk a kvetkez alfejezetek:
4.1 A befejezetlen tagmondatok
pldul: De s Hm
4.2 A mondatszk
pldul: ksznsek, megszltsok, indulatszavak, tltelkszavak, stb.
4. 3 Egyszavas vlaszok
pldul: Igen. Nem. Taln.
202
5 Teljes tagmondat
Fentebb a beszlt nyelvre klnsen jellemz, valamilyen szempontbl hinyos
szerkezetekrl szltunk. Termszetesen a beszlt nyelvben is tallkozunk az ettl
klnbz szerkesztssel, azaz a strukturlis szempontbl teljes mondatokkal. Ezek
funkcionlisan tartalmazzk a rgenst (lltmnyt) annak ktelez vonzataival s az
alanyt. Ezt a ler nyelvtan egyszer mondatnak nevezhetjk, illetve sszetett
mondat esetn az sszetteleket.
6 A tagmondatok kdolsa
A tagmondatok lncolata linerisan s hierarchikusan is szervezi a beszdet. Ennek
feltrsa alapvet clunk. Ennek megfelelen meghatrozunk az al- s mellrendel
tagmondatokat, illetve a tagmondatok kztti grammatikai kapcsolat hinyt
(begyazst, bekelst).
6.1 Szegmentcis szakaszok
Alrendel tagmondatok esetn egyrtelm a szegmentcis hatrhelyzet, azaz a
tagmondat hatra. Mellrendel tagmondatok esetn vagy j mondat indul ktszval,
illetve anlkl kezdve, vagy az eltte lv tagmondathoz kapcsoldik, s gy mg
ugyanannak a tagmondatfzrnek a tagja, amihez az elz kapcsoldik.
203
6.2 A szmozs
A szmozs a tagmondatok kztti sorrendisget s a tagmondatok kztti viszonyt
fejezi ki. A szmozs kezdete a hagyomnyos mondat kezdett jelli. A szmozs ott
fejezdik be, ahol a hagyomnyos mondat vgt lehet rzkelni. A hagyomnyos
mondat vgt nem az intonci s elsdlegesen nem a szemantika, illetve
interpretci hatrozza meg, hanem a szintaktika.
204
7 A hiny kategrii
7.1. Nem hinyzik semmi
Nem hinyzik semmi abban az esetben, ha rvnyesl a teljes tagmondat fent lert
defincija.
7.2 Hinyzik a fmondat
Mert szeretnk munkt.
Ha gy lesz.
Mikor mg kicsi voltam.
7.3
205
206
207
7.14.1.5 Ksznsek:
Viszlt! Viszontltsra! J napot! De a J napot kvnok! ksznsforma nem
tartozik ehhez a kategrihoz, mert egyrtelmen meg tudjuk hatrozni a mondatban
az alanyt, az lltmnyt s a vonzatot.
7.14.1.6 Udvariassgi formulk:
Szvesen! Nagyon szvesen! stb.
7.14.1.7 Tltelkszavak
Ht, ugye, gy, gy, stb.
7.14.1.8 Megszltsok
Andrs! Kinga! stb.
7.14.2 Egymondatos visszakrdezsek
pldul: ugye? (akr visszakrdezs, akr tltelksz), Legjobb fnk? Legszebb
lmny? De az gy/gy tltelkszavakat nem soroljuk ide, mivel grammatikailag
(hatrozknt) grammatikailag kapcsoldnak a tagmondathoz.
7.14.3 Mint-tel kezdd hasonlt hatrozi alrendelt tagmondat esetn
Szebb, mint az.
Sokkal jobb lesz gy, mint gy. stb.
7.14.4 Valamilyen okbl (pldul a pongyola nyelvhasznlat mrtke miatt)
kikvetkeztethetetlen tagmondatok esetn
Ha vletlenl tallkozunk egy szit, de tbb nem.
8 sszegzs
A Praat szoftver felhasznlsval olyan annotcis szablyrendszert dolgoztunk ki,
amely lehetv teszi a spontn beszd szintaxisnak kutatst. Klns hangslyt
fektettnk arra, hogy a spontn beszd jellegzetessgeit kezelhetv tegyk a magyar
208
nyelv mondattana keretei kztt, mint ami rendszerben nem, csak megvalsulsban
klnbzik attl. Nem tettnk emltst szmos problmakrrl, amelyek az adott
kategrik tgondolst segtettk. Pldul az egyedi sz- s nyelvhasznlatbl add
jelensgekrl, sajtossgokrl, vagy a tltelkszavak, indulatszavak spontn beszdbe
illeszked rendszerrl, illetve a pongyola nyelvhasznlat kvetkezmnyeknt
ltrejv szintaktikai problmkrl. (Mint pldul az abszolt s relatv fnv
elhelyezkedse a mondat hierarchijban, a ktszval kezdd mondatok krdsrl,
a fneveslt jelz mondattani szerepkrrl, a fgg beszdben jelen lv implicit
elemekrl, az ellipszis szmos krdskrrl, illetleg a dialgus msik szerepljnek
a vizsglt szemly grammatikjra tett hatsrl.) Itt ismertetett kdrendszernk
lehetv teszi azt, hogy az adatbzist vizsgl kutatk tovbbi szintaktikai
elemzseket folytassanak, kiegsztve, rszletezve az ltalunk ltrejtt rendszert.
Bibliogrfia
1. Keszler B.: Szintagmatan. In: Keszler B. (szerk.): Magyar Grammatika. Nemzeti
Tanknyvkiad, Budapest (2000) 355
2. Komlsy A.: Rgensek s vonzatok. In: Kiefer F. (szerk.): Strukturlis Magyar Nyelvtan I.
Akadmiai Kiad, Budapest (1992) 308316
3. Ivnyi Zs.: A nyelvszeti konverzcielemzs. Magyar Nyelvr Vol. 125 (2001) 74-93
[http://www.c3.hu/~nyelvor/period/1251/125106.htm]
V.Pszicholgia,pragmatika,
kognitvnyelvszet
211
Kivonat: Egy hosszmetszeti tartalomelemzses vizsglatban a csoportkzi rtkels mintzatait trtuk fel 1920 s 2000 kztt kiadott magyar kzpiskolai
trtnelemtanknyvek trianoni bkeszerzdsrl szl narratviban. A trtnelmi id elrehaladtval vltoz narratv konstrukcikban a kls s a sajt
csoportra vonatkoz rtkelsek olyan eloszlsi mintzatait trtuk fel hrom
szemantikai dimenziban, amelyek a pozitv csoportidentitst fenyeget traumatikus esemny rzelmi feldolgozsra jellemzek. A szvegelemzst a
NARRCAT (Narrative Psychological Content Analytical Tool) szmtgpes
tartalomelemz eszkz csoportkzi rtkels moduljval vgeztk, melyet a
PTE Pszicholgiai Intzet s az MTA Pszicholgiai Kutatintzet kzs narratv pszicholgiai kutatcsoportja fejlesztett ki. A komplex elemzeszkz a
NooJ nyelvtechnolgiai rendszerben mkdik, amely lehetv teszi meghatrozott, szszint feletti nyelvi alakzatok azonostst nagy terjedelm szvegbzisokban.
212
213
megklnbztetettsge adja. A pozitv szocilis identits ignye csoportkzi sszehasonltshoz s elfogultsghoz vezet, azaz a sajt csoport fel- s a kls csoport lertkelshez, amely megjelenhet sztereotipizlsban, diszkriminatv viselkedsben vagy
agresszv versengsben [9, 8, 7]. Az rtkelsbeli elfogultsg a csoport jltt fenyeget, kilezett konfliktushelyzetekben felersdik, megerstve a csoportkohzit s a
kollektv azonossgtudatot. Ksrletek demonstrltk, hogy az elfogultsg a verblis
viselkedst is befolysolja [11].
214
215
4.2 Hipotzisek
A csoportkzi rtkels s a feldolgozsi folyamat sszefggsre vonatkozan egyfajta nullhipotzist lltottunk fel alapfeltevsknt. Azt feltteleztk, hogy a traumatikus vesztesg elfogadsnak folyamatt az idtnyezn kvl semmi egyb nem befolysolja, mintha lgres trben, trsadalmi vkuumban zajlana. Ennek elnye, hogy
az rtkels mutatira vonatkozan egyrtelm predikcikat lehet tenni, s minden,
ettl val jelents eltrs az eredmnyekben olyan mozzanat hatsaknt rtelmezhet,
amely a feldolgozs akadlyaknt jelenik meg.
A csoportkzi rtkels hrom tartalmi dimenzijra vonatkozan a 3.3 fejezetben
lert ltalnos feltevsek alapjn a kvetkez predikcikat tettk. Az (1) rtkels
csoportkzi aszimmetrijval mrtke az id mlsval prhuzamosan cskken, azaz
a sajt csoport pozitv rtkelse s a konfliktusos kls csoportok negatv rtkelse
egyarnt cskken tendencit mutat. Az (2) rtkeli perspektvra a narrtori rtkelsek arnya idben cskkenni fog, gy a pszicholgiai tvolsg jelen s mlt kztt
fokozd hangslyt kap a szvegekben. A (3) narrtori rtkelsek tartalmra az
rzelmi rtkelsek arnya fokozatosan cskken tendencit kvet, az rzelmi fkusz
dominancija gy cskken, mg a racionlis belts n.
216
4.3 Minta
Az Orszgos Szchnyi Knyvtrban elrhet kzpiskolai tanknyvek adtk a mintavtel bzist. A hosszmetszeti elemzst szolgl korpuszt 1920 s 2000 kztt kiadott kzpiskolai trtnelem tanknyvek Trianonrl szl fejezetei alkottk. A jellt
idszakon bell 10 ves felbonts mintavtelt vgeztnk: mindazon Trianonfejezetek bekerltek a mintba, amelyek kerek esztendkben (1920, 1930 stb.) kiadott
tanknyvekben szerepeltek. Ily mdon 1920 s 2000 kztt 10 alkorpuszt kaptunk,
melyek szmszer rtkelsmutatibl ksreltnk meg kvetkeztetseket levonni a
feldolgozsi folyamatra vonatkozan.
4.4 Eljrs
A szvegek elsdleges elemzse a NARRCAT szmtgpes nyelvi elemzeszkz
rtkels moduljval trtnt. A NARRCAT moduljai a NooJ nyelvtechnolgiai rendszerben mkdnek [10], amely tbb nyelvben lehetv teszi nagy terjedelm digitalizlt szvegkorpuszok morfolgiai s szintaktikai elemzst, s erre pl algoritmusok rvn meghatrozott nyelvi alakzatok azonostst. Az rtkels modul az elemzst szolgl, szfaj s valencia szerinti annotcis jegyekkel jelli meg az rtkelst
hordoz kulcsszavakat, amelyek e szempontok szerint kln sztrakba kerltek. Az
1. tblzat rendszerezi a modul sztrait, az egyes sztrakra vonatkoz pldkkal s
elemszmokkal. Az rtkel kulcsszavak szfaj szerint lehetnek mellknevek, igk,
fnevek s hatrozk. A mellknv- s igesztrakat az MTA Nyelvtudomnyi Intzetnek hasznlati gyakorisg szerint sszelltott digitlis sztraibl lltottuk ssze,
kt fggetlen brl vlasztsai alapjn. A valencia szerint pozitv s negatv rtkelsek kln sztrakba kerltek. Mivel az rtkelsek elssorban tulajdonsgokban,
valamint cselekvsekben realizldnak, melyeket mellknevekkel, illetve igkkel
fejez ki a nyelv, gy a fnv- s hatrozsztrakat az rtkel mellknevekbl s
igkbl kpzett fnevekbl, illetve hatrozkbl hoztuk ltre. Ez az oka annak, hogy
a sztrak elemszmai ismtldst mutatnak. Az rtkel jelleg rzelmi, illetve mentlis llapotokat a NARRCAT nll rzelem modulja kezeli.
1. tblzat: Az rtkels modul szfaj s valencia szerint osztlyozott sztrai, pldkkal s az
egyes sztrak elemszmval.
Szfaj
Mellknv
Ige
Fnv
Hatroz
Mellknvbl
Igbl
Mellknvbl
Igbl
Pozitv
blcs
vitzkedik
ljenez
db
317
122
Negatv
jogtalan
kizskmnyol
tiltakozik
db
582
317
blcsessg
ljenzs
blcsen
ljenezve
317
122
317
122
jogtalansg
tiltakozs
jogtalanul
tiltakozva
582
317
582
317
217
4.5 Eredmnyek
4.5.1 Az rtkels csoportkzi aszimmetrija (trgy s valencia)
Az adatelemzs els lpseknt az egyes csoportokra (magyarok, Antant, Kisantant)
vonatkoz pozitv s negatv rtkelsek gyakorisgait vizsgltuk. Mind a 10
alkorpusz esetben kln kimutatst ksztettnk, ezek adtk az adatrtelmezs alapjt. A csoportkzi rtkels hasonlsgai szerint a 10 alkorpusz ngy nagyobb szegmensre oszthat: 1920-1940, 1950, 1960-1980, 1990-2000 (2. tblzat). Az adatok
rszletes elemzsre lentebb kerl sor (4.5.3 fejezet), de annyit szksges itt megllaptani, hogy a ngy szegmens ltal lefedett idszakok megkzeltleg megfeleltethetk ngy egymst kvet politikai rnak: Horthy-korszak (1920-1940), Rkosikorszak (1950), Kdr-korszak (1960-1980), Rendszervlts utni idszak (19902000). Ez azt sugallja, hogy a mindenkori uralkod politikai ideolgia rnyomta blyegt a Trianon-reprezentcikra. Az egyes politikai rknak az eredmnyek rtelmezse szempontjbl relevns jellemzit szintn lentebb ismertetjk (4.5.3 fejezet).1
218
1920-1940
Horthy
1950
Rkosi
1960-1980
Kdr
1990-2000
Rdszvlts
Sz/
vtized
rtkels
%
2951
1,5
3138
1,5
464
0,9
5419
0,6
Trgy / Valencia
Kls
Magyarok
csoportok
Poz.
Neg.
Poz.
Neg.
1
(1)
3
(1)
0
(0)
2
(2)
66
(58)
29
(9)
7
(1)
41
(44)
49
(43)
25
(8)
14
(2)
8
(9)
16
(14)
83
(26)
50
(7)
7
(8)
rtkeli
perspektva
Narrtor
104
(92)
Szerepl
12
(11)
Narrtori
rtkelsek
tartalma
rKogzelmi
nitv
71
33
(63)
(29)
30
(32)
24
(26)
17
(18)
13
(14)
219
1) 1920-1940 (Horthy-korszak)
A bkeszerzdst kzvetlenl kvet idszakban tisztn megmutatkozik a csoportkzi elfogultsg tendencija az rtkelsek eloszlsban. A kls csoportoknl a negatv
rtkelsek dominlnak a pozitvakkal szemben: 1 pozitv, 58 negatv rtkels.
Ugyanakkor a magyarokra vonatkoz rtkelsek ezzel ellenttes tendencit mutatnak: 43 pozitv, 14 negatv rtkels. A kls csoportokra vonatkoz, sszestett
rtkelsek s a magyarokra vonatkoz rtkelsek valencia szerinti eloszlsai szignifiknsan klnbznek egymstl (Pearson 2 = 76,555; p = ,000).
2) 1950 (Rkosi-korszak)
Az 1950-es szvegekben az elz korszakhoz kpest egy teljesen ms mintzat jelenik meg. Egyrszt itt lnyegesen kevesebb a kls csoportokra, mint a magyarokra
vonatkoz rtkels: kls csoportok sszesen: 10; magyarok: 34 rtkels. Msrszt
nem csak a kls csoportok, hanem a magyarok esetben is lnyegesen tbb a negatv, mint a pozitv rtkels: kls csoportok: 1 pozitv, 9 negatv; magyarok: 8 pozitv, 26 negatv rtkels. A kt eloszls kztt nincs szignifikns klnbsg (Pearson
2 = 2,927; p = ,087). A mintzat htterben az ll, hogy e korszak szvegeiben Trianon trtnete bizonyos rtelemben tkeretezdik, mgpedig az ekkor uralkod szovjet
szocialista ideolginak megfelelen. Az esemnyben rintett csoportok mr nem
Magyarorszg s a gyztes hatalmak, hanem a nyugati imperialistk s a szovjet forradalmrok, tovbb ezen a felosztson bell a szvegek elssorban a nyugatbart s
a szovjetbart magyarok szerepre koncentrlnak, melyet azok a bkhez vezet
esemnyekben betltttek.
3) 1960-1980 (Kdr-korszak)
Az 1960-1980 kztti idszak szvegei hasonl mintt mutatnak az elz korszak
szvegeihez, ugyanakkor lnyegesen kevesebb az rtkelsek gyakorisga: kls
csoportok: 0 pozitv, 1 negatv; magyarok: 2 pozitv, 7 negatv rtkels. A kls
csoportokra s a magyarokra vonatkoz rtkelsek eloszlsai kztti klnbsg az
elz korszakhoz hasonlan itt sem szignifikns (Fishers Exact Test: p = ,331). Az
rtkelsek kis szma rszben annak ksznhet, hogy ebben a korszakban sokkal
kevesebb s rvidebb szveg kerlt kiadsra (0,8 szveg ill. 464 sz / vtized), mint
az elzben (3 szveg, ill. 3138 sz / vtized). Msfell az 1960-1980 alkorpuszban a
szvegterjedelemhez mrt arnyokat tekintve is sokkal kevesebb, feleannyi rtkels
van, mint az 1950-es alkorpuszban (71 s 140 a kt arnyszm).
4) 1990-2000 (rendszervlts utni idszak)
A rendszervlts utni, egyben a szovjet uralom lezrulsa utni idszakban Trianon
jra nemzeti keretben tematizldik, ahogyan a Horthy-korszakban. Egyrszt visszatr a Magyarorszg gyztes hatalmak relci, msrszt jra nagyobb hangslyt kap
220
az esemny, amely a szvegterjedelem elz korszakhoz viszonytott jelents nvekedsben mutatkozik meg (vtizedenknt 5419 sz szemben a 464 szval). Rszben
visszatr a Horthy-korszakban feltrt rtkelsi mintzat is. A kls csoportokra vonatkoz rtkelsek jra ers negatv tlslyt mutatnak: Antant: 2 pozitv, 35 negatv;
Kisantant: 0 pozitv, 9 negatv rtkels. Ugyanakkor a magyarokra vonatkoz rtkelsek eloszlsban nem jelenik meg a Horthy-korszak szvegeiben tallt, csoportkzi elfogultsgra jellemz pozitv dominancia, az eloszls ehelyett kiegyenltett: 9
pozitv, 8 negatv rtkels. (A kls csoportokra s a magyarokra vonatkoz rtkelsek eloszlsai kzti klnbsg ezzel egytt szignifikns: Fishers Exact Test: p =
,000) Tovbbi fontos klnbsg a kt korszak szvegei kztt, hogy az rtkelsek
szvegterjedelemhez viszonytott arnya lnyegesen kisebb a jelenkorban, mint a
Horthy-korszakban (0,6% szemben az 1,5%-kal).
4.5.4 rtkeli perspektva s narrtori rtkelsek tartalma
Amint fentebb (4.5.3) kifejtettk, a szocializmus idejre es kt alkorpusz szvegeiben Trianon a nyugatellenes szovjet ideolgia rtelmezsi keretben reprezentldik,
amely a ktplus vilg harcnak rszv teszi a bkeszerzds trtnett, ezzel httrbe szortva a nemzeti identitst rt vesztesget. Ebbl fakadan a trauma rzelmi
feldolgozottsgnak llapotra vonatkozan csak a Horthy-korszak s a rendszervlts utni idszak alkorpuszai informatvak, gy a narrtori s szerepli rtkeli perspektva relatv arnyt, valamint a narrtori rtkelseken bell az rzelmi s kognitv
rtkelsek arnyt e kt alkorpuszban vizsgltuk (lsd 2. tblzat).
A ktfle rtkeli perspektva relatv hangslyt tekintve, mg a Horthy-korszak
szvegeiben sszestve tbb mint nyolcszor annyi a narrtori, mint a szerepli rtkels (92 s 11), addig a rendszervlts utni alkorpuszban a kt gyakorisg csaknem
azonos (32 s 26). Az arnyszmokban kifejezett eloszlsok szignifiknsan klnbznek egymstl (Pearson 2 = 25,668; p = ,000).
A narrtori rtkelsek tartalmt vizsglva hasonl irnyba mutat vltozs figyelhet meg. Mg a Horthy-korszak szvegeiben tbb mint ktszer annyi az rzelmi,
mint a kognitv rtkels (63 s 29), addig a rendszervlts utni szvegekben a kt
gyakorisg jval kiegyenltettebb eloszlst mutat (18 s 14). A kt eloszls kzti
klnbsg azonban nem szignifikns (Pearson 2 = 1,390; p = ,238), az rzelmikognitv arny vltozsa teht csak tendenciaknt rtelmezhet.
5 Megvitats
A kollektv trauma feldolgozsra vonatkoz f hipotzisnk azt jsolta, hogy mind a
csoportkzi megklnbztets mrtke, mind a narrtori rtkelsek arnya, mind
pedig ezen bell az rzelmi rtkelsek arnya az id mlsval prhuzamosan cskken tendencit mutat, az ettl eltr irny tendencik pedig a feldolgozst akadlyoz tnyez hatsaknt rtelmezhetk. Lttuk, hogy a mindenkori uralkod politikai ideolgia jelentsen befolysolja a reprezentcis folyamatot, hiszen az vtizedenknti adateloszlsok alapjn ngy olyan, egymstl eltr rtkelsi mintzatot
sikerlt azonostani, amelyek a trtnelmi idben val elhelyezkedsk alapjn ngy
221
politikai ra hatsnak feleltethetk meg. A ngy eloszlsi mintzatot idbeli linearitsban vizsglva az rzelmi feldolgozs szempontjbl, azt ltjuk, hogy a
traumatizci s retraumatizci idszaka utn beksznt szovjet szocialista diktatra a nemzeti szuverenits elnyomsa rvn kzel t vtizeden keresztl megakadlyozta a nemzeti identitst rt trauma tematizcijt, ezltal ksleltette az rzelmi
feldolgozs folyamatt. A Kdr-korszakban a represszi az alacsony szvegterjedelemben jelenik meg. A rendszervlts utn jra az nll nemzet sszefggsben
trgyalt trianoni bke narratvi a konfliktusban ll csoportok rtkelse szempontjbl inkbb hasonltanak a revizionista Horthy-korszak narratvira, mint a megelz
szocialista ra trtneteire. A Horthy-korszak s a rendszervlts utni kor konstrukciinak kzs pontja a kls csoportok rtkelst jellemz erteljes negatv tlsly,
ami azt mutatja, hogy a jelenkori Trianon-konstrukci megrzi az ldozat-elkvet
viszonyt: a nemzet tovbbra is ldozatknt jelenik meg, a vilghbor gyztes hatalmaira pedig olyan felelssget ruhz, amely mig nem vlt el. Hatkony rzelmi
feldolgozsrl teht nem beszlhetnk a vizsglt nyolcvan vet tekintve.
Ms mutatk ugyanakkor azt tkrzik, hogy a feldolgozs a Horthy-korszakhoz
mint zrponthoz kpest jelents elmozdulst mutat. Egyfell a jelenkor lnyegesen
kevesebb rtkelssel, alacsonyabb rzelmi hfokon beszli el a traumt, mint Horthy kora, illetve hinyzik a nemzet glorifikcija is. Mindez arra utal, hogy a vesztesg vglegesknt jelenik meg, a jelenkori szvegek ennek elfogadst kzvettik, sem
explicit, sem implicit mdon az rtkels eszkzei rvn nem utalnak a vesztesg
eltti llapothoz val visszatrs lehetsgre avagy ignyre. A mlt teht ebben az
rtelemben lezrul a narratvkban. Msfell a jelenkori narratvk a Horthykorszakhoz viszonytva pszicholgiai tvolsgot teremtenek a traumatikus mlt s a
jelen kztt. Egyrszt jelents mrtkben cskken a narrtori rtkelsek arnya, ami
az esemnyhez val jelenbeli viszonyuls dimenzijt kpviseli a narratv konstrukciban, s e perspektva hangslynak cskkensvel a jelen s a mlt kapcsolata
gyengl, a mlt jelenre vonatkoz relevancija httrbe szorul. Msrszt a fennmarad narrtori rtkelseken bell tendencia mutatkozik az rzelmi rtkelsek cskkensre, teht a jelenkori narratvk egy racionlisabb szempont viszonyt rvnyestenek a Horthy-korszakhoz kpest. Ez a mozzanat szintn tvolsgot teremt mlt s
jelen kztt, azltal, hogy a vesztesg rzelmi aspektust tvoltja a befogadtl.
A feldolgozottsg jelen llapotra vonatkoz kvetkeztetseket sszegezve gy tnik, hogy br Trianon narratvi a bke ltal szentestett gazdasgi, trsadalmi s
politikai vesztesg vglegessgnek elfogadst kzvettik, illetve a vesztesg lmnyt tvoltjk a jelentl, ugyanakkor nem rjk fell az ldozat-elkvet viszonyt, a
nemzet ldozat szerept. Ez a perspektva kvlre helyezi a felelssget s az esemnyek feletti kontrollt, tovbb llandstja a jv nem tett vesztesgbl fakad deprimlt s ellensges rzelmi viszonyulst. Ezek a konstrukcis mozzanatok ltalnos
mintaknt megjelennek a nemzeti mlt ms esemnyeinek jelenkori narratviban is
[1, 12], s felttelezhet, hogy a nemzeti identitst megszlt jelenbeli esemnyek s
jvkpek kapcsn szintn konstrukcis elvekknt mkdnek, amelyek azonban
maladaptv megkzdsi mdokat facilitlnak.
222
Hivatkozsok
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
Flp .: A trtnelmi plya s a nemzeti identits rzelmi szervezdse. PhD rtekezs. (2010) Letltve: http://pszichologia.pte.hu/files/tiny_mce/D-2010-Fulop%
20Eva.pdf
Lszl J.: A trtnetek tudomnya. Bevezets a narratv pszicholgiba. MK, Bp.
(2005)
Lszl J.: Narratv Pszicholgia. Pszicholgia, Vol. 28., No. 4 (2008) 301317
Muhr,
T.:
User's
Manual
for
ATLAS.ti
5.0
(2004)
Letltve:
http://www.atlasti.com/up loads/media/atlman_01.pdf
Oktatskutat s Fejleszt Intzet: A nemzeti sszetartozs napja. Pedaggiai httranyag.
(2011)
Letltve:
http://www.kormany.hu/download/0/cd/30000/A%20nemzeti%20%C3%
B6sszetartoz%C3%A1s%20napja.pdf#!DocumentBrowse
Pennebaker, J. W.: Putting stress into words: Health, linguistic, and therapeutic
implications. Behaviour Research and Therapy, Vol. 31(6). (1993) 539-548
Pettigrew, F. T.: The Ultimate Attribution Error: Extending Allport's Cognitive
Analysis of Prejudice. Personality and Social Psychology Bulletin Vol. 5, No. 4
(1979) 461476
Sherif, M.: In Common Predicament: Social Psychology of Intergroup Conflict and
Cooperation. Boston: Houghton Mifflin (1966)
Sherif, M., Harvey, O. J., White, J., Hood, W., Sherif, C.: Intergroup Conflict and
Cooperation: The Robbers Cave Experiment. Norman: University of Oklahoma, Institute of Social Relations (1961)
Silberztein,
M.:
NooJ
manual.
(2003)
Letltve:
http://www.nooj4nlp.net/NooJManual. pdf
Szab Zs. P., Banga Cs., Ferenczhalmy R., Flp ., Szalai K., Lszl J.: A nyelvbe
kdolt trsas viszonyok. Az implicit szemantika szocilpszicholgiai kutatsa. Pszicholgia Vol. 30, No. 1 (2010) 116
Szalai K.: Az gencia nyelvi jegyei. Az aktv s passzv igk szerepe a
narratvumokban. PhD rtekezs. (2011) Letltve: http://pszichologia.pte.hu/files/
tiny_mce/doktori/D-2011-Szalai%20Katalin.pdf
Tajfel, H.: Differentiation Between Social Groups: Studies in the Social Psychology
of Intergroup Relations. Academic Press, New York, NY (1978)
Tajfel, H.: Human groups and social categories: Studies in social psychology. Cambridge University Press, Cambridge (1981)
Tajfel, H., & Turner, J. C.: The social identity theory of intergroup behavior. In:
Worchel, S., Austin, W. (Eds.) The Psychology of Intergroup Relations (2nd ed.).
Chicago Nelson-Hall. (1986)
Tausczik, Y., Pennebaker, J. W.: The psychological meaning of words: LIWC and
computerized text analysis methods. Journal of Language and Social Psychology,
Vol. 29 (2010) 2454
Vincze O., Gbor K., Ehmann B., Lszl J.: Technolgiai fejlesztsek a Nooj pszicholgiai alkalmazsban. In: Tancs A., Szauter D., Vincze V. (szerk.): VI. Magyar
Szmtgpes Nyelvszeti Konferencia. JATE Press, Szeged (2009) 285294
223
224
Az eddig kifejlesztett NPTA-algoritmusok, TNP-modulok a kvetkezk: AktivitsPasszivits [17], rzelem [7], Kognitv folyamatok [21,20], rtkels [1,2],
Intencionalits [6], Tagads; n- s Mi Referencia [8], Perspektva [13], valamint a
Szubjektv Idlmny [5].
E fejlesztsekrl s a velk kapott empirikus eredmnyekrl az elmlt vek sorn a
Munkacsoport a Szmtgpes Nyelvszeti Konferencikon s nemzetkzi
kzlemnyekben is szleskren beszmolt2.
A Narratv Pszicholgiai Tartalomelemz NooJ algoritmusok (modulok) a TNP kt
f terletn hasznlatosak. A strukturlis megkzelts azt vizsglja, hogy a vizsglt
kategrik elssorban az elbeszli perspektva, az idlmny s az rtkels
mikppen vltoznak az nelbeszlsek s a csoportelbeszlsek egsznek bels szerkezetben [4,14,13].
A msik vizsgldsi kr a mintzatelemzs, ami az egyes szgyakorisgok
egyttjrsbl von le pszicholgiai kvetkeztetseket: ennek egyik pldja, hogy
kiscsoportok beszmoliban a negatv rzelemmarkerek s a szelfreferencia magas
egyttes arnya csoporton belli konfliktust jelez; a negatv rzelemmarkerek s a mireferencia magas arnya viszont egyttesen a csoport fenyegetettsgre utal [3].
A tudomnyos narratv pszicholgia annyiban lp tl a hagyomnyos pszicholgiai
tartalomelemzsi koncepcin, hogy nem elgszik meg a pszicholgiai tartalmak puszta szmllsval s strukturlis vagy mintzatelemzsvel, hanem azt is vizsglja,
hogy az adott rzelem, kognci vagy cselekvs milyen cselekvhz, illetve milyen
elszenvedhz tartozik. Minthogy a Narratv Pszicholgiai Munkacsoport kiemelt
kutatsi terlete a nemzeti s eurpai identits vizsglata, sarkalatos krds, hogy
valamely trtnelmi esemny vagy korszak beszmoliban a TNP ltal vizsglt kategrik a sajt csoporthoz vagy a kls csoporthoz tartoznak.
A cselekv s az elszenved krdskre a pszicholgiban hagyomnyosan az
genciakutats terlethez kapcsoldik. A szemlyisg- s a klinikai pszicholgiban
ez fknt az nhatkonysg megtlsben fontos, a szocilpszicholgiban pedig a
humn gens s a humn elszenved egyn vagy csoport nyelvi megjelentse vagy
ennek hinya a trsas-trsadalmi-hatalmi felelssg felvllalst, hrtst vagy elkendzst teszi vizsglhatv.
Ezrt fontos a TNP szmra a szemantikus szerepek (Semantic Role Labeling)
vizsglatra szolgl elemzeszkz kifejlesztse.
2
A magyar s eurpai trtnelem narratv pszicholgiai
korpuszai
Az MTA Pszicholgiai Intzetnek Oral History Archvumban a kvetkez
elektronikus korpuszok llnak rendelkezsre:
x Trtnelemknyv korpusz: a magyar trtnelemrl szl knyvek rszletei
a 10 legfontosabb esemnyrl, 1900-tl 2000-ig, 10 ves bontsban (kb.
200000 sz);
Cf. http://narrativpszichologia.pte.hu
225
226
227
228
1.
2.
Az Aktivits NPTA grfot a NooJ elemzfolyamatban kiemelt szintaktikai elemzknt belltva a +AKTIV cmkt kapott igkre szortjuk a keresst. gy automatikusan kiszrjk a tallatok kzl az olyan tartalm
mondatokat, ahol az alany nem cselekv, pl. Lszl kirly a kunok kztt
rezte jl magt., A furak kzl sokan rltek a kirly bajnak. Br
megjegyezzk, hogy a trtnelmi szvegekben elfordul entitsok fkpp cselekvknt vagy szenvedknt szerepelnek, s a nem aktv igk
viszonylag ritkn, illetve nem az ltalunk vizsglt etnikai entitsokkal
fordulnak el, pl. A pnclos katonasg mellett ntt a knnylovassg
szma is., A mongol sereget nem egszen helyesen, ltalnostva nevezzk - elcsapataikrl - tatr seregnek.
A fent elksztett Group sztr alapjn lehetv tesszk a keresst
In/Outgroup entitsokra lebontva, anlkl, hogy ezek lexikai alakjait a
grfba kdolnnk, illetve a sztr j korpuszokon trtn iteratv bvtse
alapjn egy nvekv fnvi lemma- s NP lista, s a szvegek kzzel
egyrtelmstett annotlsa alapjn.
229
Hivatkozsok
1. Bigazzi S., Csert I., Nencini, A.: A szemly- s csoportkzi rtkels pszicholingvisztikja.
In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti Konferencia.
Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006) 267276
2. Csert I.: A szemly- s csoportkzi rtkels pszicholgiai szempont elemzse elbeszl
szvegekben. In: Alexin Z., Csendes D. (szerk.): VI. Magyar Szmtgpes Nyelvszeti
Konferencia, Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2009) 272284
3. Ehmann, B., Balzs, L., Flp, ., Hargitai, R., Kabai, P., Pley, B., Plya, T., Vargha, A.,
Vincze, O., Lszl, J.: Narrative Psychological Content Analysis as a Tool for Psychological
Status Monitoring of Crews in Isolated, Confined and Extreme Settings. Acta Astronautica,
Vol. 68, No. 9-1) (2011) 15601566
4. Ehmann, B., Garami, V.: Narrative Psychological Content Analysis with NooJ: Linguistic
markers of time experience in Self reports. In: Proceedings of the 2008 International NooJ
Conference. Cambridge Scholar Publishing (2010) 180190
5. Ehmann, B., Garami, V., Naszdi, M., Kis, B., Lszl, J.: Subjective Time Experience:
Identifying Psychological Correlates by Narrative Psychological Content Analysis. Empirical Text and Cultural Research Vol. 3 (2007) 1425
6. Ferenczhalmy R., Lszl J.: Az intencionalits modul kidolgozsa NooJ tartalomelemz
programmal. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006) 285295
7. Flp ., Lszl J.: Az elbeszlsek rzelmi aspektusnak vizsglata tartalomelemz program segtsgvel. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006)
296304
8. Hargitai, R., Naszdi, M., Kis, B., Nagy, L., Bna, A., Lszl, J.: Linguistic Markers of
Depressive Dynamics in Self Narratives: Negation and self reference. Empirical Text and
Cultural Research Vol. 3 (2007) 2638
9. Lszl, J.: The Science of Stories: An introduction to Narrative Psychology. Routledge,
London, New York (2008)
10. Lszl, J., Ehmann, B., Pley, B., Plya, T.: Narrative psychology and narrative psychological content analysis. In: Lszl, J., Stainton Rogers, W. (eds.): Narrative Approaches in Social Psychology. New Mandate, Budapest (2002) 925
11. Mrquez, L., Carreras, X., Litkowsky, K. C., Stevenson, S.: Semantic Role Labeling: An
Introduction to the Special Issue. Computational Linguistics Vol. 34, No. 2 (2008) 145-159
12. Mihltz, M.: Knowledge-based Coreference Resolution for Hungarian. In: Proceedings of
The Sixth International Conference on Language Resources and Evaluation. Marrakesh,
Morocco (2008)
230
13. Plya, T., Kis, B., Naszdi, M., Lszl, L.: Narrative perspective and the emotion regulation of a narrating person. Empirical Text and Cultural Research Vol. 3 (2007) 5061
14. Plya, T., Lszl, J. and Forgas, J. P.: Making sense of life stories: The role of narrative
perspective in communicating hidden information about social identity. European Journal of
Social Psychology Vol. 35, No. 6 (2005) 785796
15. Prszky, G., Tihanyi, L.: MetaMorpho: A Pattern-Based Machine Translation System. In:
Proceedings of the 24th Translating and the Computer Conference. ASLIB, London, United Kingdom (2002) 1924
16. Silberztein, M.: NooJ Manual (2003) Elrhetsg: www.nooj4nlp.net
17. Szalai, K., Lszl, J.: Activity as a Linguistic Marker of Agency: Measuring inGroupversus Out-group Activity in Hungarian Historical Narratives. Empirical Text and
Culture Research RAM-Verlag: 4 (2010) 5058
18. Vradi, T.: The Hungarian National Corpus. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria
(2002) 385389
19. Vincze O., Gbor K., Ehmann B., Lszl J.: Technolgiai fejlesztsek a NooJ pszicholgiai
alkalmazsban. In: VI. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Egyetemi
Kiad (2009) 285294
20. Vincze, O., Lszl, J.: Narrative Means of Intergroup Relations: Cognitive States and their
role in reducing or increasing intergroup conflict. In: General Meeting of the European Association of Social Psychology (EASP). Stockholm (2011) 30
21. Vincze, O., Tth, J., Lszl, J.: Representations of the Austro-Hungarian Monarchy in the
history books of the two nations. Empirical Text and Cultural Research Vol. 3 (2007) 6271
231
1 Bevezets
A narratv pszicholgia szerint az elbeszlsben jut kifejezsre az a md, ahogy az
emberek lmnyeiket, a trsas vilghoz val viszonyukat megszervezik, identitsukat
megalkotjk. Ha elfogadjuk azt, hogy az emberek a trtnetekben s azok rvn
konstruljk meg nmagukat, s sajt pszicholgiai valsgukat, el kell fogadnunk
azt is, hogy e trtnetek lmnyanyaga informcival szolglhat a trtnetmond
ember alkalmazkodsra s megkzdsi stratgiira vonatkozan is. A narratolgia az
elbeszlsek vges szm alkotelemt s a vges szm alkotelemek vges szm
variciit rta le, mikzben a szveg vgtelenl vltozatos lehet. A narratv pszicholgiai tartalomelemzs ezeket a narratv alkotelemeket alaktja olyan tartalmi kategrikk, amelyekhez lmnyszint pszicholgiai jelentsek trsthatk, tartalmakat
keres a szvegben, amelyek valamilyen pszicholgiai folyamatnak megfeleltethetk.
Az alkotelemek, illetve ezek vltozatai a szvegben megbzhatan azonosthatk, s
az elbeszls gy meghatrozott elemeihez lmnyszint pszicholgiai jelentsek tr-
232
3 A vizsglat
3.1 A vizsglati anyag
Tanulmnyunk nem pusztn a lert szveget, hanem annak sznszi megfogalmazsnak tulajdonsgait igyekszik vizsglni az elhangzott szveg fonetikai sajtossgai s a
szveg tartalma alapjn. Lear els s utols monolgjnak szvegt s sznszi megjelentst ksreljk meg sszehasonltani a Pennebaker s Ireland [6] ltal elemzett
szvegrszletek alapjn. Azrt szksges hangslyozni, hogy ezen szveg alapjn
dolgozunk, mert a tanulmny mindkt monolgot rvidtett formban kzli, s az
sszehasonlthatsg miatt szksges a lehet legteljesebb egyezs. A hanganyagot a
Magyar Televzi 1978-ban kszlt Lear kirly cm tvjtknak felhasznlsval
vizsgltuk meg. A vizsglt monolgok szvege magyarul a kvetkez:
Tudnotok kell, hogy orszgunkat hrom rszre osztjuk, ers szndkunk minden gondot s bajt lerzni agg korunkrl, tadvn ifjabb erknek, mg magunk tehertl menten mszunk a sr fel. Fink Cornwall, s nem kevsb szeretett fink Alban, ez
rban szilrd akaratunk lnyaink hozomnyt kln kiszabni, hogy jv viszlynak
mr most elejt vegyk. () Szljatok lenyok (minthogy mi le akarunk mondani az
233
Id:
rk
id
Tagads
Szelfreferencia
Mireferencia
rtkels
Els
monolg
16
2 pozitv
2
pozitv
Utols
monolg
4 pozitv
3 negatv
Vltozs
irnya
Tagads
Szelfrefer
ecia
N/
stagnl
N
Mireferenci
a
Cskken
rtkels
Negatv
, n
Aktv/
paszszv
Paszszv
n/
stagnl
Kog
nitv
Intenci
Id
rzelem
Stag
nl/
csk
ken
Csk
ken
Idi
tvolods
jegyek
nnek
Pozitv
cskken,
negatv
n
234
Hanger
Hangerintervallum
Beszdszakasz
hossza
Sznet
hossza
cskken
cskken
cskken/=
n
cskken/n
n
rvid
rvid
Nemtetszs/undor
n
Megvets/lenzs
n
Szomorsg/levertsg
n
cskken/n
cskken
Bnat/ktsgbeess
n
n
rvid
rvid
n
n!
n!
n
rvid
rvid
n!
n
cskken
n!
n
rvid
rvid
Unalom/kzmbssg
cskken/n
Szgyen/bntudat
n
lvezet/boldogsg
Jkedv/rm
Szorongs/aggodalom
Flelem/rettegs
Ingerltsg/hideg dh
rjngs/forr dh
235
van. Nyolc esetben egyrtelmen n a hanger. Ezek kzl hromban fokozottan n.
Egy esetben cskken a hanger, mg hrom esetben nem a vltozs irnya, hanem
maga a vltozs a meghatroz. A hanger-intervallumoknl ngy esetben nvekedst, egy esetben cskkenst, egy esetben cskkenst vagy vltozatlan hangert vrunk. A beszdszakaszok s a sznetek hossznl rvidlst vrunk ngy lelkillapotvltozsnl. Mindkt vltoz esetn a jkedv/rm, a bnat/ktsgbeess, a flelem/rettegs, valamint az rjngs/forr dh esetn ll be a cskkens. A beszdszakaszok hosszt, az artikulcis temp, a hanger s a hanger-intervallumok mellett,
a magabiztossg-krzis sklzsra ltrehozott index kialaktsnl is felhasznltuk.
3.3.2 A magabiztossg-dominancia s a krzishelyzet pszicholgiai sklzsnak
lehetsgei, a magabiztossg-krzis index
A magabiztossg-dominancia jegyeinek mintzatba rendezdst Lear krzishelyzet
eltti megnyilatkozsban a tartalmi elemek vizsglatnl s a szveg fonetikai elemzsnl egyarnt megtalltuk. Ugyanez igaz a krzishelyzetet kvet megnyilatkozs
mintzatba rendezdsre is. A tartalomelemzs s a voklis jegyek mintzatnak
vizsglata nem feleltethet meg egymsnak kzvetlenl, mg ha ktsgkvl egyms
hatsait erstik is, s a megnyilatkoz lelkillapotnak intenzitsrl tudstanak. A
vizsglt jegyek mintzatba rendezdst vizsglva, igyekeztnk olyan sszetett sklzsi mdszert kialaktani, mellyel a krzishelyzet jellemezhet.
gy gondoljuk, hogy nemcsak arrl van sz, hogy a voklis jelzsek mrsvel is
lerhatjuk ugyanazt a lelkillapotot, sokkal inkbb arrl, hogy a voklis paramterek
s a nyelvi markerek egyttesen jelzik a megnyilatkoz lelkillapott, s ennek a lelkillapotnak az intenzitst, amit az is valsznst, hogy a voklis paramterek s a
nyelvi markerek nem feleltethetk meg kzvetlenl egymsnak. Ebbl addik, hogy
eljrsunk kt sszetevre oszlott: egyrszt a vizsglt szveg tartalomelemzsre,
msrszt az elhangzott szveg akusztikai paramtereinek vizsglatra. Kt egymstl
teljesen klnbz eljrst folytattunk le prhuzamosan, melyekben a vizsglati egysgeink is eltrtek egymstl. A szveg tartalomelemzsnl az elemzsi egysgnk a
sz volt, s a keresett szavak relatv elfordulsi gyakorisgt vizsgltuk. A fonetikai
vizsglatnl a beszdszakaszokat tekintettk elemzsi egysgnek, amelyek nem felttlenl feleltethetk meg minden esetben teljes rtk mellkmondatoknak, nyelvtani
rtelemben. Az akusztikai vizsglatnl a kiugr rtkek gyakorisgt s intenzitst
vizsgltuk.
A magabiztossg-dominancia s a krzishelyzet jelzsre, valamint ezek mrtknek meghatrozsra ltrehoztunk egy sszetett jelzszmot, amelynek rtke a nyelvi markereket s a voklis jelzseket egyarnt figyelembe veszi. Ezt a jelzszmot
magabiztossg-krzis indexnek neveztk el. Az index kiszmtsnl a nyelvi markerek relatv elfordulsi gyakorisgbl kpzett arnyszmokat sszegezzk, melyekhez hozzadjuk a voklis paramterekre kiszmolt mrszmokat. A kapott eredmny
tartalmaz egy negatv eljel korrekcis mrszmot is. Minl alacsonyabb az index
rtke, annl kiegyenslyozottabb, magabiztosabb a ksrleti szemly (a nullhoz
kzeli, illetve a negatv rtk egyrtelmen a dominancia s a magabiztossg jele).
Minl magasabb rtket kapunk az indexre, annl erteljesebb krzishelyzetre utal a
236
Mrszmok
sszesen
Lear els
monolgja
-0,2162
-0,1082
Lear utols
monolgja
0,0000
0,8399
237
bl is llhatnak, s ha az egsz beszdszakaszt kivlasztannk, akkor ezzel valamenynyi szt kiemelnnk, ami arnytalansgokhoz vezetne, ezrt gy tekintettk, mintha a
beszdszakasznak egyetlen szava kerlne megjellsre, s gy a megjellt szavak
szmt osztannk el a teljes szszmmal. A msik krds az volt, hogy ha egy beszdszakasz tbb ltalunk vizsglt fonetikai paramternek is megfelel, akkor hnyszor
vegyk figyelembe. Amellett dntttnk, hogy valamennyi fonetikai paramternl
kln szmtjuk be, mintha annyi megjellt sz lenne az adott beszdszakaszban,
ahny az ltalunk vizsglt fonetikai paramternek megfelel, ha gy tetszik, ezzel slyoztuk az index fonetikai mrszmainak sszetevit. Ezt azrt tartottuk fontosnak,
mert gy gondoljuk, minl tbb kiugr rtket tartalmaz egy beszdszakasz, annl
intenzvebb a megnyilatkoz lelkillapota.
A kett msodperc alatti beszdszakaszok relatv gyakorisgt azrt hasznltuk fel
az index kialaktsnl, mert gy vljk, hogy a beszdszakaszok hosszbl kvetkeztethetnk a beszl gondolatainak sszeszedettsgre, az illet fjdalmra, s arra,
hogy az adott helyzetre milyen korbban konstrult smval rendelkezik. Termszetesen a kiegyenslyozott megnyilatkozsban is lehetnek s vannak rvidebb beszdszakaszok, megszltsok, csodlkozsok, de a krzishelyzetben, felttelezsnk szerint,
jval nagyobb lehet a relatv elfordulsi gyakorisguk, mivel a vlaszreakci, a
helyzet jdonsgrtkbl addan, kevsb automatikus.
A hangercscsokat tartalmaz beszdszakaszok fontos szerepet tltttek be az index kialaktsnl, hiszen, ahogy azt a 3. tblzatban mr korbban ismertettk, bnat/ktsgbeess, szorongs/aggodalom s szgyen/bntudat esetn nvekszik a
hanger, flelem/rettegs, ingerltsg/hideg dh s rjngs/forr dh esetn pedig
fokozottan nvekszik a hanger.
Az alacsony hanger-intervallumok gyakorisga, felttelezsnk szerint, egyfajta
olyan monotonitst klcsnz a megnyilatkozsnak, amely az er s a magabiztossg
hinyra utal, rossz lelkillapotra.
A szelf-referencia s a tagads elfordulsi gyakorisgt vizsglta Pennebaker s
Ireland [6], valamint Lszl s munkatrsai [4] is, akik ezek relatv gyakorisgt nztk meg a szvegben. Az nre val tlzott utals a befel forduls jele, mg a mi-re
trtn utals a msok irnyba val nyitst fejezi ki. Patolgis esetben a magas nreferencia sszefggst mutat a depresszival, a szuicid tendencikkal. A tagadst
pszichodinamikai szempontbl az egszsges emberi krnyezethez s morlis mrckhez val alkalmazkodsra, illetve a vilg rtktelentsre, a destrukcira s ndestrukcira val hajlamra vonatkozan vizsgltk [1]. Krzishelyzetben a megvltozott krnyezethez val alkalmazkods problms, fokozottan fordulhat el tagads az
elbeszlsben.
A mi-referencit a magabiztossg-krzis indexnl negatv korrekcis mrszmknt hasznltunk fel. Erre egyrszt azrt volt szksg, mert az indexet alkot sszetevk gy llnak ssze egssz, hogy minl nagyobb az index rtke, annl erteljesebb
a krzis, s a mi-referencia rtke pont a kiegyenslyozott megnyilatkozsoknl a
legmagasabb, gy ott ellenttes hatst rne el. Msrszt a magabiztos megnyilatkozsnl ennek a vltoznak a negatv rtke jelentsen cskkenti a vletlenszeren, a
megnyilatkozsba kerlt, ltalunk vizsglt paramterek relatv elfordulsi gyakorisgnak rtkt, viszont az erteljes krzishelyzeteknl kapott indexet kevsb vagy
egyltaln nem befolysolja.
238
sszessgben elmondhatjuk, hogy ha csak a megnyilatkozshoz tartoz magabiztossg-krzis indexet ismerjk, j esllyel kvetkeztethetnk a beszl lelkillapotra
is.
4 Megvitats
sszefoglalan azt mondhatjuk, hogy az lszban is elhangz megnyilatkozsoknl,
a szveg tartalmi elemein tl, clszer a fonetikai szerkezet vizsglata, amely sok
esetben rnyalhatja, kiegsztheti, illetve pontosthatja a hagyomnyos tartalomelemzs mdszereit. Lear kt monolgjban azt a krzis okozta lelkillapot-vltozst vizsgltuk, amelyet vesztesgtrtnetknt jellemezhetnk.
A tudomnyos narratv pszicholgiai megkzelts az elbeszlsek pszicholgiai
jelentseit mr nemcsak a szavak s tmk szintjn vizsglja, hanem a narratvum
szintjn is. Az olyan narratv minsgek mentn trekszik a pszicholgiai jelentsek
vizsglatra, mint amilyen a struktra, a szervezettsg, a perspektva, az idviszonyok
s a koherencia [5]. Ezzel a vizsglt trtnetek nyelv feletti tartalmait is vizsgljk.
Tanulmnyunkban egy j narratv pszicholgiai eljrs meghonostsra tesznk
ksrletet, mely sszekapcsolja a tudomnyos narratv pszicholgiai tartalomelemzsnek a narratv tartalmakra irnyul megkzeltst az elhangzott szveg fonetikai
struktrjnak elemzsvel. Vizsglatunk alapjn megllapthatjuk, hogy a szveg
tartalmi elemei s a fonetikai paramterek egymssal nem megfeleltethet, mg ha
ssze is fgg, prhuzamos struktrt alkotnak, gy azok egyttes vizsglatt indokoljk. E kt prhuzamos struktra egyttes vizsglata az eredmnyek minsgi javulst, rnyalst s pontostst is lehetv teszi. A verblis s non-verblis kd elemzst a magabiztossg-krzis indexszel kapcsoltuk ssze, mely mindkt struktra elemeit felhasznlja.
Vizsglatunk arrl tesz tanbizonysgot, hogy az akusztikai paramterek sszekapcsolsa a lelkillapot-vltozsokkal eredmnyesen alkalmazhat technika. Megllapthatjuk, hogy krzis hatsra a megnyilatkoz lelkillapot-vltozsa mind a megnyilatkozs tartalmi elemeiben, mind pedig annak fonetikai struktrjban kimutathat, s adatokkal altmaszthat. Meggyzdsnk, hogy a sznszi jtk modelllta
helyzet vizsglata a spontn megnyilatkozsoknl is alkalmazhat, s, a szveg tartalmi elemeinek vizsglatval prhuzamosan, alapja lehet egy, a fonetikai struktrt is
vizsgl, sszetett tudomnyos narratv pszicholgiai eljrs alkalmazsnak.
Irodalom
1. Hargitai, R. Naszdi, M., Kis, B., Nagy, L., Bna, A., Lszl, J.: A depresszv dinamika
nyelvi markerei az n-elbeszlsekben. A LAS VERTIKUM tagads s szelfreferencia modulja. Pszicholgia No. 2 (2005) 181199
2. Lszl J.: Elsz. In: Lszl J., Thomka B. (szerk.): Narratv pszicholgia. Narratvk 5.
Kijrat Kiad, Budapest (2001) 715
3. Lszl, J.: Narratv pszicholgia. Pszicholgia Vol. 28, No. 4 (2008) 301317
239
4. Lszl, J.: The science of stories.: An introduction to narrative psychology. Routledge, London; New York (2008)
5. Lszl, J., Ehmann, B., Pley, B., Plya, T.: A narratv pszicholgiai tartalomelemzs: elmleti alapvets s els eredmnyek. Pszicholgia Vol. 20, No. 4 (2000) 367390
6. Pennebaker, J. W., Ireland, M.: Analyzing Words to Understanding. In: Jan Auracher, William van Peer (eds.): New Beginnings to Literary Studies. Cambridge Scholar Publishing
(2008) 2448
7. Praat: http://www.fon.hum.uva.nl/praat/
8. Scherer, K. R.: Vocal affect expression: A review and a model for future research.
Psychological Bulletin Vol. 99 (1986) 143165. Magyarul: Voklis rzelemkifejezs. ttekints s egy modell az eljvend kutatsokhoz. Fordtotta: Bodor Pter. In: Barkczi Ilona
Sra Lszl (szerk.): rzelmek s rzelemelmletek. Tanknyvkiad, Budapest (1989)
240
241
242
notcis rendszert ptett ki, amely figyelembe veszi a kommunikci verblis akusztikus, nem verblis akusztikus s vizulis jellemzit is, gy klnfle multimodlis
termszet lekrdezsekre s modellptsre is alkalmas.
Ugyanakkor nem szabad elfelejtkeznnk arrl, hogy a korpusz s adatbzis hasznlata egy elmleti dnts, ahogyan az is, hogy milyen annotcit ksztnk, szintaktikait, morfolgiait vagy pragmatikait, tovbb, hogy a vlasztott tpus annotcis
rendszernk milyen alapegysgekkel s szintekkel dolgozik. A HuComTechkorpuszon alkalmazott multimodlis pragmatikai annotci mgtt az az elmleti
megfontols hzdik, hogy a kommunikci sorn a kommunikcis partnerek egyszerre, szimultn mdon veszik figyelembe a klnbz elrhet modalitsokbl
szrmaz stimulusokat. Ezen elmleti dnts rtelmben vlhatott a multimodlis
pragmatikai annotci alapegysgv a kommunikatv aktus.
Jelen tanulmny a kommunikatv aktusok generlsra s interpretcijra sszpontost a HuComTech-korpusz vizsglata s multimodlis pragmatikai annotcija
alapjn. Clunk ketts: egyrszrl szeretnnk bemutatni egy olyan, sajt fejleszts
multimodlis pragmatikai annotcis rendszert, mely segtsgvel oly mdon tudjuk
lerni s rtelmezni a szemlykzi kommunikatv viselkedseket, hogy az tevkenyen
hozzjrulhasson a beszlt ember-gp interakcit lehetv tv dialgusrendszerek
modelllshoz s kivitelezshez. Kzvetett clunk pedig az, hogy rvilgtsunk
arra, hogy a hagyomnyosan nem formlis termszet nyelvszeti pragmatika aktvan
kpes hozzjrulni a szmtgpes nyelvszethez (s viszont), valamint hogy ez a
hozzjruls nem ncl. Fontos kiemelni azt, hogy kutatsunk e tanulmny elksztsekor mg nem zrult le az annotci jelenleg is folyik, gy vgleges elmleti ltalnostsok levonsra, valamint eredmnyeink dialgusrendszerbe trtn integrlsra egyelre mg nem volt mdunk. Ennek ellenre annotcis rendszernk elnyei
mr most kzzelfoghatk.
Cljainknak megfelelen elsknt rviden bemutatjuk a HuComTech-csoport ltal
ptett korpuszt, annotlsunk terept, majd pedig a QANNOT-annotcis eszkzt.
Eladsunk legfontosabb rszben sajt multimodlis pragmatikai annotcis rendszernk szintjeit mutatjuk be pldk segtsgvel, valamint az annotls eszkzt, az
annotcis folyamatot s tovbbi kutatsi terveinket. Zrsknt ksrletet tesznk
tanulmnyunk metaelmleti reflexijra is, hogy kimutassuk a nyelvszeti pragmatika
s a szmtgpes nyelvszet egymsra gyakorolt hatst.
243
lis kommunikatv viselkedst is szegmentljuk s cmkzzk. A pragmatikai annotci elssorban a beszl szndknak megfelel, s nem csupn a formban (a felszni szerkezetben) tkrzd kommunikatv funkcikat jelli meg, hiszen a sikeres
kommunikci felttele az, hogy a hallgat/cmzett ugyangy rtelmezze a beszl/felad megnyilatkozst s szndkait, ahogyan (a beszl) is kvnta [6].
Multimodlis pragmatikai annotcis rendszernk alapjt a kommunikatv aktusok
kpezik. A kommunikatv nyelvhasznlat e minimlis alapegysgei nyelvi szempontbl megnyilatkozsok [7], amelyek trsalgsi fordulkba, a fordulk szomszdsgi
prokba, a prok pedig koherens diskurzusokba szervezdnek. A beszlt nyelvi dialgusokat a trsalgselemzsben ltalban fordulkra szoks szegmentlni, m mivel
ezek a szegmensek nagyon hosszak is lehetnek, ezrt elnysebb ket tovbbi funkcionlis egysgekre, kommunikatv aktusokra tagolni. A kommunikci sorn minden
szint sajtos elvek s megszortsok alapjn szervezdik. A nyelvszeti pragmatika
oldalrl nzve a kommunikatv aktusok multimodlis illokcis aktusok. Illokcis
aktusok, mivel a bennk kifejezett beszli s szndkolt hallgati attitdk alapjn
szervezdnek, gy eltrbe kerlnek a kommunikciban jelen lev intencik, s
multimodlisak, mivel a verblis kzls mellett figyelembe vesszk a vizulis (a gesztusokkal, valamint a klnbz arckifejezsekkel tmogatott) s a nem verblis
akusztikus (prozdiai) informcikat is. Az illokcis aktusok nyelvszeti pragmatikai kutatsai rmutatnak arra, hogy a partikulris illokcis aktusok szma igen magas, gy ezek vizsglata parttalann vlhat mind a kategorizci, mind a csoportosts
tekintetben. Pldul a krsnek mint illokcis aktus fajtnak rengeteg alfaja klnbztethet meg (krs, parancs, knyrgs, utasts, kvnalom stb.), s ezek az
aktusok radsul mg nyelvfgg termszetek is (az egyik nyelvben megvannak, a
msikbl pedig hinyoznak). Amennyiben magas szinten ltalnost modellt kvnunk ltrehozni, gy ki kell kszblnnk a nyelvfgg, partikulris kategrikat
tl kell lpni az egy jelensg = egy szably tpus lersokon. Multimodlis pragmatikai annotcis rendszernkben ezt a problmt gy oldottuk meg, hogy nem partikulris aktusokat, hanem aktustpusokat klnbztettnk meg egymstl a Bach s
Harnish ltal kidolgozott illokcis aktustipolgia alapjn [8]. A tpusos megkzelts
egyik pozitvuma az teht, hogy valamilyen szempont alapjn (jelen esetben az aktusban kifejezett beszli s a szndkolt hallgati attitdk alapjn) osztlyokba, tpusokba sorolja a pldnyszint (token) jelensgeket, gy a rendszer alkalmas lesz ltalnos szablyszersgek megllaptsra, s ebbl ereden predikcik megttelre.
Rendszernkben pldul a krsek, parancsok, kvnalmak stb. egysgesen a direktv aktusok tpusba tartoznak. A direktv aktusok olyan aktusokat tartalmaznak,
melyek propozicionlis tartalma a hallgat egy elvrt/preferlt jvbeli cselekedetre
vonatkozik, s amelyek kifejezik a beszl azon szndkt, hogy a hallgat a szban
forg aktus hatsra hajtsa vgre a jvbeli cselekedetet [6]. A direktvek mellett
megklnbztetnk konstatvokat (melyek a beszlnek egy propozicionlis tartalomhoz fzd hiedelmt fejezik ki gy, hogy a beszl mindekzben szndkozza
azt is, hogy az aktus propozicionlis tartalmt feldolgozza s higgye a hallgat is),
komisszvokat (amelyek a beszl azon szndkt fejezik ki, amellyel elktelezi magt egy jvbeli aktus megttelre) s n. viselked aktusokat is (acknowledgement, a
beszl valamilyen affektv, rzelmi, attitdbeli viszonyulst fejezik ki a hallgat
fel). A trsalgsban elfordulnak olyan esetek is, amikor a megnyilatkozs semmif-
244
6
7
245
246
Az 1. brn lthat dntsfa a fordulzrs ('end-of-turn', rvidtse: EOT) s a fordul tartsnak ('turn-keep', rvidtse: TK) megklnbztetsre vllalkozik. A dntsfn lthat t lps kzl az els hrom akusztikai tnyezket, az utols kt lps
pedig vizulis tnyezket tartalmaz. A beszlvlts predikcijval egyidejleg a
szomszdsgi prok tipikus mintzatnak megfelelen, az egyes kommunikatv aktustpusok lekrdezsek utn kapott megklnbztet jegyeire tmaszkodva, a jegyeket
a fenti pldhoz hasonlan dntsi fba rendezve a kvetkez kommunikatv aktust
megjsl modellt hozhatunk ltre. A pragmatikai annotci mellett az audio- s
videoszinten is annotlt HuComTech-korpusz megbzhat kiindul bzisa lehet az
egyes kommunikatv aktusok egytt jr jellemzi sszegyjtsnek, ami hozzjrulhat az emberi beszl ltal vgrehajtott aktusok automatikus felismershez. Az egyelre mg csak vzlatosan modelllt dialgusrendszer feladata elssorban csupn a
fordulk vgnek detektlsa lesz a tipikus fordulvgi jellemzk (audio- s vizulis
markerek) egyttes elfordulsa s bizonyos idtartam esemnyek egymst kvet
sorrendje alapjn. A megnyilatkozs vgnek detektlsa utn pedig a gpi gens
felteheti a beptett forgatknyvnek (scenario) megfelel kvetkez krdst. gy a
krdsek s vlaszok lncbl felpl a dialgus. A szomszdsgi prok sorozatbl
pl ki a trsalgs egsze, melynek sorn akr tbb tmt is egymsba fzhetnk.
Ezrt annotcinkba a tematikus kontroll szintjt is bevezettk, mellyel clunk az
volt, hogy korrelcikat tudjunk megllaptani az egyes kommunikatv aktusok szekvencilis szervezdse, a fordulkezels, valamint a globlis diskurzusszervezds
mozzanatai kztt. Annotcis rendszernkben megklnbztetjk a tmakidolgozs,
az egyes trsalgsi tmk motivlt egymsba fzse, illetve a motivlatlan tmavlts
mozzanatait.
A pragmatikai annotci utols szintjn a trsalgs univerzumba kerl j lexikai
informcikat jelltk. Erre azrt volt szksg, hogy a ksbbiekben megvizsglhassuk azon hipotzisnket, amely szerint az j informci bevezetse lnkebb, erteljesebb gesztikulcival s nagyobb intenzitssal jr egytt. [13] kvalitatv elvizsglata a szemantikailag j lexiklis informci kzi bejellse utn azt az eredmnyt
hozta, hogy a gesztus cscspontja (n. stroke) s a szemantikailag legfontosabb verblis egysg gyakran egybeesik. Ezt a felttelezst kvantitatv mdszerekkel, vagyis a
tervezett lekrdezsek statisztikai elemzsvel is kvnjuk igazolni a HuComTechkorpuszban.
247
Ez nemcsak a multimodlis pragmatikai annotcin bell fontos, hanem akkor is, amikor a
klnbz annotcikat egybe kvnjuk vetni, s korrelcikat megllaptani pldul a
Praatban zajl prozdiai s a QANNOT-ban zajl multimodlis pragmatikai annotci cmki kztt.
248
4.
A kutats kvetkez szakaszban (a 2011-es MSzNy konferencia idpontjig) kvantitatv elemzst kvnunk vgezni adatbzis alap cmkelekrdezsek segtsgvel,
melyekrl eladsunkban rszletesen be fogunk szmolni. Multidimenzis vizsglatot
fogunk vgezni, vagyis a dialgusok horizontlis s vertiklis szerkezett egyarnt
elemezni fogjuk a klnbz tpus (audio, video, szintaktikai s pragmatikai) annotcik bizonyos szintjeinek (a diskurzus, a tekintetirny, a kommunikatv s tmogat
aktusok, valamint a tematikus kontroll szintjnek) szimultn tbbszint megjelentse
s egyttes elfordulsukra vonatkoz cmkelekrdezsek segtsgvel.
A horizontlis (szekvencilis) elemzs rszeknt az annotci horizontlis vetlett fogjuk vizsglni, vagyis ennek segtsgvel az idben egymst kvet jelensgek
(elssorban kommunikatv aktusok) mintzatt prbljuk feltrni.
A vertiklis cmkeelemzs keretben pedig audio-, video- s pragmatikai cmkk
egyttjrst keressk: els lekrdezseink sorn azt vizsgljuk meg, hogy az egyes
kommunikatvaktus-tpusok (konstatv, direktv, komisszv, viselked, indirekt) jellemzen milyen emblma tpus gesztusokkal (figyelem, egyetrts, nem egyetrts,
249
visszautasts, ktelkeds, szmok s alak, valamint mret mutatsa9) s milyen arckifejezsekkel (semleges, boldog, meglepett, szomor, elgondolkod, feszlt10) (a kategrik rszletes bemutatsrt l. [15]) jrnak vagy kezddnek egytt (vagyis melyik
kommunikatv aktusba esik bele egy gesztus vagy arckifejezs kezdpontja). Ezeket
az eredmnyeket olyan formban szeretnnk megkapni, hogy hny-hny darab emblmatpus jelenik meg az egyes kommunikatv aktus-tpusok vgrehajtsa kzben.
Vagyis a fenti vertiklis termszet lekrdezsek f clja az egyes aktus-tpusokat
ksr nem verblis-vizulis, nem verblis-akusztikus s verblis jegyek felfedse,
amelyek szisztematikus rendszerbe foglalsa s explicitt ttele elvezethet minket a
kommunikatv aktusok automatikus felismershez.
Kvetkez lpsknt, a szekvencilis (horizontlis) elemzs sorn a kommunikatv
aktusok egymst kvet tipikus sorrendjeit szeretnnk megllaptani. Ezzel validlni
szeretnnk a szomszdsgi prok [11] ltal fellltott tipikus lncolat alkalmazhatsgt magyar spontnbeszdkorpuszon is. Ezt a lekrdezst gy fogjuk elvgezni, hogy
diskurzusszinten11 a zr (turn give kzben vgrehajtott) s a nyit (turn take kzben
vgrehajtott) kommunikatv aktusokat prostjuk, majd a kapott aktusprokat csoportostjuk s megszmoljuk. Mivel a prszekvencia els fele elrejelzi a msodik felt klnsen formlis, kanonikus szitucikban -, gy ez a megkzelts grafikus s
multimodlis felhasznli felletek mkdtetshez egyarnt megfelel feltteleket
biztost. Eredmnyeinkkel ezltal nemcsak a kommunikatvaktus-tpusok felismershez, hanem azok automatikus generlshoz s sszefonshoz, diskurzusba kapcsolshoz is clunk hozzjrulni.
Kvetkez lekrdezsnk arra a krdsre keresi a vlaszt, hogy az egyik beszl
ltal vgrehajtott visszajelzs (backchannel) a msik beszl ltal vgrehajtott mely
kommunikatvaktus-tpusba s hny alkalommal esik bele.12 Ezzel azt kvnjuk feltrni, hogy leggyakrabban milyen aktustpusra kvetkezik reakciknt a visszajelzs,
vagyis mi a visszajelzs leggyakoribb funkcija.
A kommunikatv aktusok akusztikai markereinek feltrshoz a Praat-program
[16] ll rendelkezsnkre. A Praat-programban melyben a HuComTech-korpusz
audioannotcija zajlik - a spektogram horizontlis irnyban mutatja az idtartamot,
vertiklis irnyban pedig a frekvencia (hangmagassg) sklzst (Hz mrtkegysgben). A fenti adatok millisecundumonknti rtkeinek feltltse lehetv teszi a felvtelek fonetikai elemzst s fonetikai jelleg (pldul intenzitsra s alapfrekvenciSmnkban a cmkk angolul szerepelnek: attention, agree, disagree, refusal, doubt, numbers, size.
10 Smnkban a cmkk angolul szerepelnek: natural, happy, surprised, sad, recalling, tensed.
11 A HuComTech-korpusz audioannotcija tartalmaz egy diskurzusszintet, ahol a trsalgs
fordulkra van bontva [13]. A fordulkat a kvetkez cmkk jellik: T (turn taking: a
fordul tvtele/kezdete), K (turn keeping: 'a fordul megtartsa'), G (turn giving: 'fordul
tadsa') s BC (backchannel: 'a hallgat fl rvid, figyelmet jelz visszajelzse'). Egy
beszl forduljn bell akr tbb kommunikatv aktus is elfordulhat, teht az
audioannotci tovbbi informcikkal bvl a pragmatikai szinten.
12 Olyan visszajelzseket (BC) vizsglunk, amelyek kezdpontja beleesik a msik beszl ltal
vgrehajtott kommunikatv aktus idtartamba. Aktustpusonknt egyesvel szksges
lekrdezni a kommunikatv aktusok darabszmt s idtartamt, illetve a bennk vgrehajtott
visszajelzsek darabszmt.
9
250
5 sszegzs
A jelen tanulmnyban bemutatott pragmatikai annotcis rendszer f elnye abban
rejlik, hogy univerzlis kategrikkal dolgozik, vagyis a felvtelek nyelvtl fggetlenl univerzlisan alkalmazhat, hiszen a kommunikatv s a tmogat aktusok tpusai, valamint a tematikus kontroll tulajdonsgai egyarnt univerzlis jellemzi a trsalgsnak. A rendszer interoperbilis XML-smja lehetv teszi az annotcis
szempontok, annotland kommunikatv jelensgek bvtst jabb szintek s cmkk
bevezetsvel. Ugyanakkor a flslegess vlt szintek s cmkk is trlhetk (pldul a none cmkt bevezetst kveten hamarosan trltk). A fordulk mint strukturlis elemek s a kommunikatv aktusok tpusai mint funkcionlis elemek egyttes
szerepeltetse lehetv teszi, hogy a fordulkbl kibontakoz szomszdsgi prokhoz
megfelel kommunikatvaktus-tpusokat tudjunk rendelni. Mivel a QANNOTprogram kpes egyszerre megjelenteni az sszes annotcis szintet, gy lehetv vlik az egyes szintek cmkinek szimultn sszehasonltsa (pldul a kommunikatv
aktusok sszevetse az audio- s videoannotci cmkivel), illetve a cmkestatisztikai adatbzisba val feltlts utn bizonyos kommunikatv jelensgekre jellemz
multimodlis jegyhalmazok explicit formban trtn felfedse. Ez kzelebb vihet
minket olyan multimodlis jegyhalmazok meghatrozshoz s finomtshoz, amelyek segtsgvel nagy biztonsggal meg tudjuk jsolni a kvetkez fordul kommunikatv aktust/aktusait a trsalgsban.
Mindezen megfontolsokat figyelembe vve a HuComTech-korpusz pragmatikai
annotcija tevkenyen hozzjrul az ember-gp kommunikcis technolgik nyelvszeti aspektusainak modellezsi lehetsgeihez. Ha a szmtgpes nyelvszet
adatbzisokra alapozva kvnja a kommunikcit modelllni, akkor annak szksge
van a pragmatikra, hiszen jl megalapozott pragmatikaelmleti dntseket ignyel
annak meghatrozsa, hogy milyen legyen a trsalgsok pragmatikai annotcija.
Ugyanakkor a pragmatika szmra is nyeresggel jr a komputcis nzpont, mert
rknyszerti a pragmatikusokat, hogy a kommunikatv nyelvhasznlatra vonatkoz
megllaptsaikat explicit formban fogalmazzk meg, gy, hogy azok formalizlsra
alkalmasak legyenek s ezltal algoritmizlhatakk vljanak.
251
Bibliogrfia
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Bunt, H., Black, W.: The ABC of computational pragmatics. In: Bunt, H., Black, W.
(eds.): Abduction, belief and context dialogue: Studies in computational pragmatics.
John Benjamins, Amsterdam (2000) 146
Jurafsky, D.: Pragmatics and computational linguistics. In: Horn, L. R., Ward, G.
(eds.): The handbook of pragmatics. Blackwell, Oxford (2002) 578604
Nmeth T. E: Pragmatika. In: Kiefer F. (szerk.): A magyar nyelv. Akadmiai Kiad,
Budapest (2006) 222261
Jurafsky, D., Bates, R., Coccaro, N., Martin, R., Meteer, M., Ries, K., Shriberg, E.,
Stolcke, A., Taylor, P., Van Ess-Dykema, C.: Automatic detection of discourse structure for speech recognition and understanding. In: Proceedings of the 1997 IEEE
Workshop on Speech Recognition and Understanding, Santa Barbara (1997) 8895
Ropolyi L.: Technika s etika. In: Fekete L. (szerk.): Kortrs etika. Nemzeti
Tanknyvkiad, Budapest (2004) 245292
Abuczki ., Bdog A., Nmeth T. E.: A multimodlis pragmatikai annotci elmleti
alapjai az embergp kommunikci modelllsban. In: Nmeth T. E. (szerk.) Ember-gp kapcsolat. A multimodlis embergp kommunikci modellezsnek
alapjai. Tinta Knyvkiad, Budapest (2011, megjelens alatt)
Nmeth T. E.: Megnyilatkozs: tpus - pldny. Nprajz s Nyelvtudomny Vol. 35
(1994) 69101
Bach, K., Harnish, R. M.: Linguistic communication and speech acts. MIT Press,
Cambridge (1979)
Verschueren, J.: Understanding pragmatics. Arnold, London (1999)
Bogdan, C., Kaindl, H., Falb, J., Popp, R.: Modeling of interaction design by end users through discourse modeling. In: Proceedings of the 13th international conference
on Intelligent user interfaces. ACM, New York (2008)
Levinson, S. C.: Pragmatics. Cambridge University Press, Cambridge (1983)
Schlegoff, E. A.: Sequence organization in interaction: A primer in conversation
analysis. Cambridge University Press, Cambridge (2006)
Abuczki, .: A multimodlis interakci szekvencilis elemzse. In: Nmeth T. E.
(szerk.) Ember-gp kapcsolat. A multimodlis embergp kommunikci
modellezsnek alapjai. Tinta Knyvkiad, Budapest (2011, megjelens alatt)
Troung, K. P., Poppe, R., Heylen, D.: A rule-based backchannel prediction model using pitch and pause information. In: Proceedings of Interspeech (2010) 30583061
Fldesi, A.: Unimodlis funkcionlis annotci a HuComTech-korpuszban. In:
Bdog, A. (szerk.): Az embergp kommunikci technolgijnak elmleti alapjai.
IKUT zrktet. (elkszletben)
Boersma, P., Weenink, D.: Praat: doing phonetics by computer 5.0.02. Institute of
Phonetic Sciences, University of Amsterdam (2007) http://www.praat.org
252
Kivonat: A tanulmny a tg rtelemben vett metaforikus kifejezsek elfordulsi jellemzit vizsglja magyar rott s kvzi beszlt nyelvi korpuszban. Az
elemzs clja olyan lexiklis kifejezsek vagy morfoszintaktikai konstrukcik
kzi azonostsa, melyek a korpuszban elfordul szavak alapjelentstl eltr
jelentsre utalnak. A f krdsek, melyekre vlaszt keresnk a kvetkezk: (a)
Javthat-e szmotteven a gpi metaforaazonosts teljestmnye, ha a metaforikus jelentst jelz kifejezst nem csak egymondatos ablakon bell, hanem annl tvolabb is keressk? (b) Tallhat-e olyan nyelvtani szerkezet vagy konstrukci, amely jellemz a metaforikus kifejezsekre, s amely figyelembe vtele
megknnytheti a metafork gpi azonostst? s (c) Megfigyelhetk-e tipikus
eltrsek a fenti kt tekintetben klnbz szvegfajtk kztt?
1 Bevezets
1.1 Metafork a kognitv nyelvszetben s a nyelvtechnolgiban
Az elvont nyelv krdse egy klasszikus nyelvfilozfiai problmra vezethet vissza,
ami magyarzatot keres arra a krdsre, hogy honnan szrmazhat az a tuds, amirl
nem lehet kzvetlen tapasztalatunk. Kt egymssal ellenttes, br egymst nem teljes
mrtkben kizr hipotzis terjedt el a szakirodalomban ennek magyarzatra: a fogalmi metafora elmlet [13], [14] s a nyelvi elvonatkoztats elmlete [25].
A fogalmi metafora elmlet arra az empirikus megllaptsra pl, hogy az emberi
nyelvben (tbb-kevsb) szisztematikus kapcsolat ltezik adott konkrt tartomnyok
s adott elvont tartomnyok kztt: hideget s meleget kifejez szavak pldul viszonylag konzisztensen rnak le rzelmi llapotokat, mint ahogy tri relcikat meghatroz kifejezseket szisztematikusan alkalmazunk idi relcik lersra. Az elmlet szerint teht az elvont fogalmak elsajttsa s mentlis reprezentcija a konkrt
tudsbl szrmazik, ami pedig az embert krlvev vilg testi tapasztalatban gykeredzik.
Az elvont nyelv krdsnek msik megkzeltse a nyelvi elvonatkoztats elmlete
[25], ami pszicholingvisztikai ksrletek eredmnyein s a gpi nyelvtanuls tapasztalatain alapul. Az elmlet szerint mind a konkrt, mind pedig az elvont fogalmak elsajttst a nyelvi inputbl kivont statisztikai mintk segtik. A feladat kivitelezhetsgt a nyelvnek az az empirikusan bizonytott tulajdonsga biztostan, hogy egy-egy
nyelven bell a hasonl disztribcij szavak tbbnyire azonos fogalmi tartomnyba
253
254
255
amelyek szintn korpuszelemzsek szerint gyenge szelekcis preferencikat mutatnak. A szerzk hipotzise szerint az olyan kifejezsek, ahol ers szelekcis preferencij forrstartomnyi igk cltartomnyi vonzatokkal fordulnak el, metaforikusnak tekinthetk. A mdszer eredmnyeknt 79 szzalkos pontossgot rtek el. Az
rtkels azonban nem egy gold standard minthoz kpest trtnt, hanem a gpi
elemzs eredmnynek utlagos kzi ellenrzsvel. Ebbl kvetkezen a rendszer
fedsi arnyrl nincs informcink, s az eredmnyek nem vethetk ssze ms mdszerek eremnyeivel.
Vgl Baumer s munkatrsai egy hasonl klaszteralap megoldst egsztenek ki
szemantikaiszerep-cmkzssel (Semantic Role Labelling, SRL) [2]. Az SRL segtsgvel a szintaktikai elemzssel elltott korpuszban klnbz szintaktikai szerkezetekbl is ki tudjk vonni a tematikai szerepeket (pl. az angol passzv szerkezet alanyrl megllapthat, hogy az ige pciens argumentuma). A rendszer jelenleg ksrleti
stdiumban van.
(5)
256
Regny
19 544
National
Geographic
7 252
Filmfelirat
sszes
9 559
36 355
Az elemzs a nemzetkzi gyereknyelvikorpusz-kutatsokban ismert CHAT formtumban a CLAN annotcis s statisztikai elemzprogramok hasznlatval kszlt. A
formtum s az eszkzk elnye, hogy lehetv teszik a szveg rugalmas tagolst s
hosszabb tv, akr mondatokon tvel fggsgek kezelst.
Az annotcis rendszer a metaforikus kifejezs s az azt jelz elem egymstl val
tvolsgt, mindkett tagmondatbeli, illetve egymshoz viszonytott grammatikai
funkcijt s lexiklis azonossgt jelli. A rendszer felptst az 1. bra mutatja
nmi egyszerstssel. Az els szint az jelli, hogy a metafora s az azt jelz elem egy
mondaton bell, vagy kt klnbz mondatban jelenik-e meg. Az brn egyb
cmkvel jellt kategriba olyan esetek tartoznak, ahol nem lehet metaforicitst jelz
elemet azonostani (mint pldul a fenti (5) mondat esetn), vagy a metaforikus sz
morfolgiai alakja jelzi a metaforicitst (pl. mlysgesen). Mind a metafora, mind
pedig a metaforicitsra utal elem szintaktikai szerept (ige, alany, trgy, egyb vonzat vagy hatroz) valamint egymshoz viszonytott nyelvtani funkcijt (fejdependens) jelli az annotci.
2.2 Eredmnyek
A f krdsek, melyekre vlaszt keresnk a kvetkezk: (a) Javthat-e szmotteven
a gpi metaforaazonosts teljestmnye, ha a metaforikus jelentst jelz kifejezst
nem csak egy-mondatos ablakon bell, hanem annl tvolabb is keressk? (b) Tall-
257
(6)
Metaforicits jelz
Nem azonosthat (%)
Mondaton kvl (%)
Mondaton bell (%)
sszes N (100%)
Regny
1%
6%
93%
147
National
Geographic
2%
8%
90%
62
Filmfelirat
9%
17%
75%
60
sszes
(tlag)
2%
10%
86%
269
sszesen 237 olyan metaforikus kifejezs fordul el a korpuszban, ahol a metafora
s a metaforicitsra utal elem egy mondatban jelenik meg. Az ilyen esetek tlnyom
tbbsgben (223 metafora), a kt elem egy tagmondaton bell tallhat. A 3. tblzat az egy tagmondaton bell elfordul metaforikus kifejezs s metaforajelz elem
egymshoz val nyelvtani viszonynak valsznsgeit mutatja. A fej-mdost viszony jelzs (7a), nvuts (7c), birtokos (7b), stb. szerkezetekre utal, az ige-vonzat
viszony pedig olyan tagmondatokra, ahol a metaforikus kifejezs az ige, a
metaforicitst jelz sz pedig az ige nyelvtani alanya (8a), trgya (8b) vagy ms eset
vonzata (8c). Az egyb kategriba azok a tagmondatok tartoznak, ahol a metafora s
a metaforicitsra utal kifejezs is valamilyen bvtmny.
258
(7a)
(7b)
(7c)
(8a)
(8b)
(8c)
Metafora -- Jelz
Fej -- Mdost (%)
Mdost -- Fej (%)
Ige Vonzat (%)
Egyb (%)
sszes egy tagmondaton bell N
Regny
Filmfelirat
23%
15%
58%
4%
National
Geographic
9%
9%
80%
2%
4%
4%
89%
2%
sszes
(tlag)
12%
10%
76%
3%
124
54
45
223
259
Bibliogrfia
1. Babarczy, A., Simon, E., Bencze, I., Fekete, I.: A metaforikus nyelvhasznlat korpuszalap
elemzse. In: Tancs,A., Vincze, V. (szerk): VII Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged. (2010)
2. Baumer, E.P.S., White, J.P., Tomlinson, B.: Comparing Semantic Role Labeling with Typed
Dependency Parsing in Computational Metaphor Identification. Workshop on
Computational Approaches to Linguistic Creativity (CALC-10) at HLT/NAACL (Los Angeles, CA) (2010)
3. Burgess, C., Lund, K.: Modelling parsing constraints with high-dimensional context space.
Language and Cognitive Processes Vol. 12 (1997) 177210
4. Deignan, A.: Metaphor and corpus linguistics. John Benjamins, Amsterdam/Philadelphia
(2005)
5. Deignan, A.: Corpus linguistics and metaphor. In: Gibbs Jr., Raymond W. (szerk.): The
Cambridge Handbook of Metaphor and Thought. Cambridge University Press, Cambridge
(2008) 280294
6. Fass, D.: met*: A method for discriminating metonymy and metaphor by computer.
Computational Linguistics Vol. 17, No. 1 (1991) 4990
7. Gentner, D., Holyoak, K. J., Kokinov, B. N. (eds): The analogical mind: perspectives from
cognitive science. MIT Press, Boston (2001)
8. Gleitman, L., Cassidy, K., Nappa, R., Papafragou, A., Trueswell, J.: Hard words. Language
Learning and Development Vol. 1 (2005) 2364
9. Heywood, J., Semino, E., Short, M.: Linguistic metaphor identification in two extracts from
novels. Language and Literature Vol. 11 (2002) 3547
10. Kintch, W.: Predication. University of Colorado Technical Report 99-02 (1999)
11. Kintsch, W.: Metaphor comprehension: a computational theory. Psychonomic Bulletin and
Review Vol. 7, No. 4 (2000) 257266
12. Kvecses, Z.: Metaphor: A Practical Introduction. Oxford University Press, Oxford (2002)
13. Lakoff, G.: The contemporary theory of metaphor. In: Ortony, A. (ed.): Metaphor and
Thought (2nd ed.). Cambridge University Press, Cambridge (1992)
14. Lakoff, G., Johnson, M.: Metaphors we live by. University of Chicago Press, Chicago, IL.
(1980)
15. Landauer, T. K., Dumais, S. T.: A solution to Plato's problem: the Latent Semantic
Analysis theory of acquisition, induction, and representation of knowledge. Psychological
Review Vol. 104, No.2 (1997) 211240
16. Martin, J.H.: A corpus-based analysis of context effects on metaphor comprehension. In:
Stefanowitsch, A., Gries, S.Th. (eds): Corpus-Based Approaches to Metaphor and
Metonymy. de Gruyter, Berlin (2006) 214236
17. Pradhan, S., Hacioglu, K., Ward, W., Jurafsky, D., Martin, J. H.: Support Vector Learning
for Semantic Argument Classification. Machine Learning Journal Vol. 60, No. 1 (2005)
18. Saffran, J. R. , Aslin, R. N., Newport, E. L.: Statistical learning of 8-month-olds. Science
Vol. 274 (1996) 19261928
19. Schutze, H.: Dimensions of meaning. In: Proceedings of Supercomputing Vol. 92 (1992)
787796
20. Schwaneflugel, P.J. (ed.): The psychology of word meanings. Lawrence Erlbaum
Associates, Hillsdale, NJ (1991)
21. Shutova, E, Sun, L., Korhonen, A.: Metaphor Identification Using Verb and Noun
Clustering. In: Coling 2010 (2010)
22. Shutova, E., Teufel, S.: Metaphor corpus annotated for source - target domain mappings.
In: Proceedings of LREC 2010. Malta (2010)
260
23. Simon, E., Szamarasz, V.: Preparations for a multilingual corpus analysis of metaphor.
Doktorandusz konferenciaelads. Budapest (2008)
24. Steen, G.: Towards a procedure for metaphor identification. Language and Literature Vol.
11 (2002) 1734
25. Vinson, D. P., Vigliocco, G.: Semantic feature production norms for a large set of objects
and events. Behavior Research Methods Vol. 40, No. 1 (2008) 183190
26. Wilks, Y.: Making preferences more active. Articial Intelligence Vol. 11, No. 3 (1978)
197223
VI.Szemantika
263
1 Bevezets
Minthogy kzptvon kifinomult gpi fordtsra s megbzhat informcikivonatolsra treksznk, ezttal egy olyan rvid tv projektet indtottunk, ami a poszt-montagovinus [11], (S)DRT-re alapozott [15] [9], eALIS nev [1] [2] reprezentacionalista dinamikus diskurzusszemantika megkzeltsben (2. szakasz) a diskurzusreferensek intenzionlis szintjeinek [8] a gyakorlati kidolgozsra irnyul, majd a
1 A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje tmogatta, a
konferencia-rszvtelt pedig a TMOP-4.2.1.B-10/2/KONV/2010/ KONV-2010-0002 (A Dl-
264
kapott reprezentcik implementlsra az egymssal kommunikl interpretli elmk komplex modelljben ahogyan azt a eALIS formlisan megragadja [4] ngy
bels fggvnye segtsgvel: a formulapt V-rl [6] [18], a horgonyz/azonost Drl [7], a dobozszint-kijell O-rl [8], [16] illetve a kurzor szerep N-rl van sz.
A projekt els felben teht megalapozand az implementcit a eALIS elmleti konstrukciit bizonyos nyelvi elemek csoportjaira alkalmaztuk, dnten magyar lexikai elemekre (3-4. szakasz). Olyan specifiklt formlis reprezentcikat dolgoztunk ki, amelyek pontosan megragadjk az rintett morfmk s szavak sszetett
intenzionlis karaktert, a md s modalits toldalkaira, az aspektusjell elemekre,
klnfle modlis (segd-) igkre, adverbiumokra, mellknevekre s partikulkra (pl.
bevesz, fog, valsznleg, lltlagos, is). A msodik projektszakaszban belefogtunk e
reprezentcik implementlsba a kommunikl interpretli elmk eALIS-modelljben [16]. A nyelvi elemek komplex intenzionlis karakterizlsnak a feladata, a
O szintfggvnynek ksznheten, vgs soron arra redukldik, hogy a DRS stlus
dobozstruktrrban minden egyes referenshez hozzrendeljnk egy J=P1,W1,i1,S1,
P2,W2,i2,S2, ..., Pk,Wk,ik,Sk vilgocska-indexet vagy mg inkbb egy *={J1, J2,...,
JN} indexhalmazt e dobozstruktrban elfoglalt pozcijuk (pozciik) / szintjk
(szintjeik) kifejezse vgett. Hamarosan kiderl, hogy a rendezettngyes-sorozatok e
* halmaza mibl is ll ssze, s hogy ez a matematikai konstrukci hogyan kpes
egysgesen megragadni a legklnflbb nyelvi kifejezsekben rejl intenzionalitst,
illetve a szvegkrnyezet s a kontextus adta intenzionlis hatsokat (5. szakasz).
2 A eALIS alapjai
Mindenekeltt felvzolom a jelen trgyalsunk szempontjbl relevns vonsait
annak a httrelmletnek, amelyen a szemantikai elemzsek, a DRS stlus
reprezentcik s a szmtgpes implementci lpsei nyugszanak.
A eALIS (REciprocal And Lifelong Interpretation System, azaz Klcsns s
lethossziglani Interpretcis Rendszer) olyan j poszt-montagovinus [11] elmletknt mutathat be, amely a koherens (kis-)diskurzusokk sszell mondatok
formlis jelentselemzst nyjtja [15] [9], kzppontjban az interpretlk lexikai,
szemlykzi s kulturlis / enciklopdikus tudsnak egy lethossziglani modelljvel,
mely az interpretlk egymsrl val klcsns tudst is megragadni hivatott. A
teljes (40 oldalas) defincis rendszer elrhet angolul az interneten ([1] http://
lingua.btk.pte.hu/realispapers), magyarul pedig egy idn megjelent knyvben [2]; az
elmlet klnfle aspektusairl s alkalmazsairl pedig mostanban szmos publikci ltott napvilgot [3]-[8] [16] [18].
Ami most igazn relevns, az a Kamp-fle DRS-ek jfajta felhasznlsa: az
interpretli informcillapotok lethossziglani reprezentcii gyannt lehet ket
alkalmazni. Nyilvn gigantikus dobozstruktrk addnak gy, de matematikai tartalmuk alig bonyolultabb, mint az eredeti DRS-ek; a begyazott dobozrendszerek viszont ezek a logikai mveletekre nzve nem zrt, vges informcitrak kszen
knlkoznak a Montague-fle formlis diskurzus-szemantikban hasznlatos (vgtelen) lehetsges vilgok [11] helyettestsre [8]; melyek megalapozottsga korntsem megfelel [19]. A korltlanul egymsba gyazhat dobozok segtsgvel
265
266
Az (1a) pontbeli els mondat egy r referens bevezetsvel jrul hozz a diskurzusjelentshez, amelyhez az az informci kapcsoldik, hogy Mari vrkastlynak vlte
ltni az r dolgot (a W pillanatban). A msodik mondat egy lltst tesz valamirl,
ami minden bizonnyal a beszl vizulis megfigyelsn alapul.2
A DRT jl ismert dobozstruktrjnak [15] a eALIS formalizmusban a
vilgocskk felcmkzett rszbenrendezse felel meg [1, 1.2.4.] [2, 3.2.4.]. Az (1e)
reprezentcin fogom bemutatni e cmkket. Olyan rendezett ngyesek, amelyek a
kvetkez tnyezket adjk meg: a cmke modalitst (pl. hiedelem / vgy / szndk /
feltevs / megfigyelsi md), kzvetlen gazdjt, idpillanatt s polaritst (pozitv
2
267
268
a. Egy frfi rkezik egy motelbe egy lny trsasgban, aki korntsem a
felesge, egy olyan orszgban, ahol a portsnak a jogszablyok rtelmben
nem lenne szabad egy szobban elszllsolni ket. Az persze nem ll a
ports anyagi rdekben, hogy ajtt mutasson nekik. Inkbb mindketten gy
269
rports gyvilgocskja
BEL,rports,W,+
DES,rvendg,W,+
BEL,rports,W,+
e: pfelesgeirlny rvendg
BEL,rvendg,W,-
e: pfelesgeirlny rvendg
DES,rvendg,W,+
ulny
BEL,rports,W,+
e: pfelesgeirlny rvendg
BEL,rports,W,-
e: pfelesgeirlny rvendg
270
a-b. Peter soll / will krank gewesen sein. Peter beteg volt. (de ld. (5c-d))
Peter soll / will
271
a.
b.
c.
d.
272
hazamegy + -(Vt)t
hazamehetett
b. BELmed,s,+
a. INT,r*,0
BELMAX,s,+
BEL-PARTgreat,s,+
haza kellett menni(e) / menni
kell
c.
INTMAX,r*,+
BELMAX,s,+
d. BELamax,s,+
BEL-PARTMAX,s,+
273
preferltan az alany szndka is megvan (9d). A progresszv teht vgs soron nem
ms, mint jv a mltban.
9. plda. A MAGYAR PROGRESSZV ASPEKTUS S A JV ID
a. (Mit csinlt Pter 2003. mjus 4-n 1810-kor?) Utazott (ppen) haza.
b. *e:hazautazik ={ BELMAX, s,W,0, BELgreat, s,W,+,
BEL-PARTMAX, s,W,+
c.
INT,rPeter,W,+ }
d.
e. Pter haza fog utazni.
274
arra fogja ksztetni a hallgatt, hogy a p* prediktumreferenst a lehet leghatkonyabban horgonyozza le. A vlasz hatkonysgt nyilvn a krdez informcillapotnak nvekmnyre alapozva hatrozhatjuk meg. A (10e.1) vlasz pldul
nyilvn a legkedveztlenebb, mert aligha nyjt informcinvekmnyt a krdez
meglv enciklopdikus tudshoz kpest. A 3. vlasz pedig hatkonyabb a 2.
vlasznl, akkor s csakis akkor , ha a krdez ismeri a megnevezett szemlyt; egy
azonostott entits referensnek a megtallsa ugyanis elrhetv teszi mindazt a
roppant informcitmeget, ami e referenshez kapcsoldott lethossziglan.
10. plda. A KRDS KRDSE
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
k.
A fenti (10f) plda jabb csodlatos megnyilvnulsa egy piciny nyelvi elem
sokrt intenzionlis hatsnak. Lelkesedsem trgya ezttal az is szcska diskurzuspartikulaszer szerepben. A (10g)-ben foglaltakat teszi hozz a krdsz
szemantikai-pragmatikai kontribcijhoz (10d): a beszl biztos benne, hogy egykor
birtokban llott az e* tuds (W<W), s majdnem biztosra veszi, hogy a hallgatja
most is tudja; preferltnak rzem tovbb azt az rtelmezst, hogy a krdez gy vli,
hogy hallgatja tudja rla, hogy egykor birtokban llott neki is az e* informci (az
egytt tlttt rgi szp idkben...).
Az eldntend krds annak jelzse, hogy a beszl sem abban nem biztos, hogy
egy bizonyos e eventualits igaz, sem abban, hogy hamis, s szeretne biztosat tudni. A
(10h) finn plda annyiban klnleges, hogy a trgy esetjellse (Akkuzatvusz /
Partitvusz) arrl is informcit ad (10i), hogy a krdez pozitv vagy negatv vlaszt
vr-e (el).
Az is szcska egy msik sajtos jelentshozadkval zrom az intenzionlis
mintzatok elemzst. A fenti (10j) fkuszos mondat csak olyan diskurzusban
hangozhat el, ahol eltte ugyanaz a tartalom ugyanolyan fkuszkonstrukcival mint
szndk (10k) fogalmazdott meg.
275
Hivatkozsok
1. Alberti, G.: eALIS: An Interpretation System which is Reciprocal and Lifelong. Workshop
Focus on Discourse and Context-Dependence (16.09.2009, 13.30-14.30 UvA, Amsterdam
Center for Language and Comm.). http://www.hum.uva.nl/aclc/ events.cfm/C2B8E596-1321B0BE-6825998CFA642DB2, http://lingua.btk.pte.hu/realispapers (2009)
2. Alberti, G.: eALIS: Interpretlk a vilgban, vilgok az interpretlban. Akadmiai Kiad,
Budapest (2011)
3. Alberti, G.: eALIS, avagy a szintaxis dekompozcija. ltalnos Nyelvszeti
Tanulmnyok Vol. 23. (szerk. Bartos H.) (2011) 5198
4. Alberti, G., Kroly, M., Kleiber, J.: The eALIS Model of Human Interpreters and Its
Application in Computational Linguistics. In: Cordeiro, J., Virvou, M., Shiskov, B. (eds.):
Proceedings of ICSOFT 2010, 5th International Conference on Software and Data
Technologies, Athens, Greece. Vol. 2. SciTePress Portugal (2010) 468474.
5. Alberti, G., Kroly, M., Kleiber, J.: From Sentences to Scope Relations and Backward. In:
Sharp, B., Zock, M. (eds.): Natural Language Processing and Cognitive Science.
Proceedings of NLPCS 2010. SciTePress, Funchal, Madeira, Portuglia (2010) 100111
6. Alberti G., Kilin I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok avagy a
eALIS V fggvnye. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes
Nyelvszeti Konferencia, MSZNY 2010. SzTE Informatikai Tanszkcsoport.
http://www.inf.u-szeged.hu/mszny2010 (2010) 113126
7. Alberti, G.: The Grammar of ReALIS and the Implementation of its Dynamic Interpretation.
Informatica Vol. 34, No.1 (2010) 103110
8. Alberti, G., Kleiber, J.: Where are Possible Worlds? (Arguments for eALIS). SinFonIJa4,
Budapest (2011)
9. Asher, N., Lascarides, A.: Logics of Conversation. Cambridge Univ. Press (2003)
10.Dowty, D. R.: Word Meaning and Montague Grammar. D. Reidel Publishing Company,
Dordrecht (1979)
11.Dowty, D. R., Wall, R. E., Peters, S.: Introduction to Montague Semantics. D. Reidel
Publishing Company, Dordrecht (1981)
12.Farkas, J.: A produktv finn kpzsek. Alberti, G. (szerk.): Vonzatok vonzsban. PTE BTK
Nyelvtudomnyi Doktori Iskola (2012)
13.Grice, H. P.: Logic and Conversation In: Cole, P., Morgan, J.L. (eds.): Syntax and
Semantics Vol. 3: Speech Acts. Academic Press, New York (1975) 4158
14.Klmn, L.: Deferred Information: The Semantics of Commitment. Klmn, L., Plos, L.
(eds.): Papers from the Second Symposium on Logic and Language. Akadmiai, Budapest
(1990) 125157
15.Kamp, H., van Genabith, J., Reyle, U.: Discourse Representation Theory. In: Gabbay, D.,
Guenthner, F. (eds.): Handbook of Philosophical Logic, Vol. 15.Springer-Verlag, Berlin
(2011) 125394.
16.Kroly, M.: Interpretci s modalits avagy a eALIS O-fggvnynek implementcija
fel. In: Tancs A., Vincze V. (szerk.): VIII. Magyar Szmtgpes Nyelvszeti Konferencia,
MSZNY
2011.
SzTE
Informatikai
Tanszkcsoport.
http://www.inf.uszeged.hu/mszny2011 (2011) 284296
17.Kiefer, F.: Jelentselmlet. Corvina, Budapest (2000)
18.Kilin, I.: Trgymodell vltozatok a eALIS nyelvi elemzshez. In: Tancs A., Vincze V.
(szerk.): VIII. Magyar Szmtgpes Nyelvszeti Konferencia, MSZNY 2011. SzTE
Informatikai Tanszkcsoport. http://www.inf.u-szeged.hu/mszny2011 (2011) 276283
19.Pollard, C.: Hyperintensions. ESSLLI 2007, http://www.cs.tcd.ie/esslli2007 (2007)
20.Roberts, C.: Anaphora in Intensional Contexts. In: Lappin, Sh. (ed.): The Handbook of
Contemporary Semantic Theory. Blackwell, Oxford (1996) 215246
276
277
2 Trgymodell: Horn-klzok
A trgymodellek lershoz rdemes rgtn az talaktsi szablyrendszert is hozzkapcsolni. Ha a szigor objektumorientltsg elvei mellett maradunk, akkor ez gy
trtnik, hogy a forrs- s a clkrnyezet metamodelljt kapcsolatnyalbbal kapcsoljuk ssze, melyet az talaktsok szablyait rgzt OCL-megszortsokkal ltunk el.
Br most nem kvnjuk az UML modelleket bemutatni, a metamodellek s az talakt relcik fogalma a modellez eszkztl fggetlen, s a Prologhoz ktd krnyezetben is alkalmazhat gy, hogy a forrs- s clkrnyezet fogalmait, valamint a
kzttk megvalstand talaktsi relcit adjuk meg.
A clkrnyezet a Horn-klzok osztlya. Ez az elsrend logika azon rszosztlya,
amelyekben a klzok kvetkezmnyoldaln tbb literl diszjunkcija helyett legfeljebb egyetlen literl llhat.
p1; p2; pk:- n1, n2,, nl.
A rszosztly azrt figyelemre mlt, mert a Prolog programozsi nyelv is ezt
hasznlja gy, hogy a kvetkeztetseket a httrben egy rgztett stratgij, rezolcis ttelbizonyt vgzi. A visszafel halad, lineris-, egysg- s alaprezolcis
stratgia ttelbizonytsra gyengcsknek tnik, de cserbe a nyelv nem logikai eszkzeivel meglehetsen rugalmas s magasszint mkds rhat el.
A eALIS cljaira a Horn-klzokra alapul relcis s kvetkeztetses trgymodellt is, ez utbbira pedig a Prolog eredeti, visszafel halad, ill. a Horn-klzok jonnan kifejlesztett, elre halad rtelmezsre alapul trgymodellt is kidolgoztuk.
278
279
amely az adott logikai rendszerben s az interpretl bels tudatllapott ler tudsbzisban (ontolgiban) kirtkelhet, bizonythat, vagy hozzvehet a tudsbzishoz. Az ellenkez irnyban: ha a tudskezel sszetev ltal (pl. egy krdsre adott
vlaszknt) egy logikai kifejezst kapunk, akkor a relci a szveg kpt lltja el.
A megolds msik htrnya, hogy a szveg legalbb egy bekezdsnyi, de esetleg
akr tbb oldalnyi hossz is lehet. Ez egyrszt a feldolgozs idignyt behatrolja,
msrszt a hossz bemen adatokon az igen mly visszalpsek cskkenthetik az
elemzs hatkonysgt. Harmadrszt a szlssgesen sszetett adatszerkezetek sok
Prolog-megvalsts fizikai hatrait is feszegethetik (pl. veremtlcsordulst okozhatnak).
280
A fenti llts eredmnyekppen a mondat logikai alakjaknt a kvetkezket kapjuk. (A ketts implikci egy egyszer norml program segtsgvel talakthat
felttelek konjuncijv.)
CLAUSE=((similar(pres(T),SUB,OB):run(T, OB),ukrain(T, OB),
red(T, OB),champion(T, OB)):name(T,SUB,Peter))
281
282
a:-b, c.
Ha a b vagy a c felttelek kielgltek, akkor az eredmnyknt kapott tnyek a
megfelel b/0, ill. c/0 dinamikus lltsokban tallhatk. Mindegyik felttelhez
ltrehozunk egy fire_NAME tzel, s egy test_NAME ellenrz Prolog prediktumot. Az elbbi trolja a kikvetkeztetett tnyt, majd meghvja az utbbit. Az utbbi
pedig ellenrzi, hogy a tbbi Contralog-felttel teljesl-e, s ha igen, akkor meghvja
a kvetkezmnyhez tartoz tzel eljrst.
A fenti esetben ez a kvetkez Prolog-kd ltrehozst jelenti:
fire_b:- assert(b), test_b.
fire_c:- assert(c), test_c.
test_b:- c, fire_a.
test_c:- b, fire_a.
A fenti trgymodellben tovbbra is a Prologhoz hasonl visszalpses keress trtnik. Vlasztsi pontok tbbflekppen is keletkezhetnek.
- Ha egy felttel tbb Contralog-szablyban is szerepel, akkor annyi Prologalternatva jn ltre belle, ahny szablyban a felttel szerepel.
- Ha egy felttel tbbszr is teljesl, akkor ugyanannyi dinamikus tny jn ltre belle feltve, hogy az adott felttelre nem teljeslnek a kvetkeztetsi
gak megnyirblst clz deklarcik.
- A modul sszes statikus tnylltsnak a trolsa gy trtnik, hogy a
Prolog modul cllltsa visszalpsesen meghvja az sszes statikus tny tzel eljrst. Vagyis, ha valamilyen felttel nem teljesl, akkor vgs soron
akr egszen a Prolog-cllltsig is trtnhet egy visszalps.
A nyitott vlasztsi pontokra a visszalpsek sorn kerl a vezrls. Visszalps
szintn tbbflekppen bekvetkezhet
- Ha valamelyik felttel az adott pillanatban nem teljesl. Ez lehet Contralogfelttel, de a felttelek kz beszrt Prolog-felttel meghisulsa is.
- Ha egy Contralog-clllts elrsekor (a Prologhoz hasonlan) jabb megoldsok krsvel visszalpsre knyszertjk a rendszert.
283
Sajnos az elrehalad modell abduktv mdon szveggenerlsra trtn hasznlata nem ltszik kzenfekvnek.
3 rtkels
A tesztmondatok elemzse a bemutatott modellvltozatok alapjn elegend tapasztalatot szolgltatott. A kvetkez lps a eALLAN-Horn-klz fordtprogram megrsa lehet. Kroly Mrton munkjban az elemzsi modellt modalitsok beptsvel
egszti ki. A modalitsok kezelse pedig kijelli az utat a httrben alkalmazott tudstr sszetev megtervezshez egy multimodlis tbbszerepls logikai kvetkeztet rendszer kpben.
A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje tmogatta, a konferencia-rszvtelt pedig a TMOP-4.2.1.B-10/2/KONV/2010/ KONV2010-0002 (A Dl-dunntli rgi egyetemi versenykpessgnek fejlesztse).
Itt szeretnk ksznetet mondani a eALIS projektbli munkatrsaimnak, Alberti
Gbornak, Kleiber Juditnak s Kroly Mrtonnak a nyelvszeti informcik nzetlen
tadsrt s a jl clzott, s egyben megfelelen adagolt, a cikk vgs pldnyra is
kihat megjegyzseikrt.
Hivatkozsok
1. Clockshin-Mellish: Programming in Prolog. Springer Verlag, Berlin, Heidelberg, New York
(1994)
2. Alberti, G.: eALIS. Interpretlk a vilgban, vilgok az interpretlban. Akadmiai
Kiad, Budapest (2011)
3. Alberti, G., Kilin, I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok - avagy a
eALIS V fggvnye. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi
Tudomnyegyetem, Informatikai Tanszkcsoport, Szeged (2010) 113127
4. Kilin, I.:: Contralog: egy elre halad, Prolog-konform kvetkeztet motor, s alkalmazsa
eALIS nyelvi elemzsre. In: SzmOkt 2011. konferencia kiadvnya. Erdlyi Magyar
Mszaki Tudomnyos Trsasg, Kolozsvr (2011) 199205
5 Nakashima, H.: Term Description: A Simple Powerful Extension to Prolog Data Structures
Electrotechnical Laboratory, Umezono, 1-1-4, Ibaraki, Japan (1985)
284
1 Bevezets
A ReALIS projekt hossz tv gyakorlati clja egy (ksbb lehetleg gpi fordtsra
is alkalmass tehet) interpretl rendszer implementlsa. Kutatsunk az elmleti s
szmtgpes nyelvszet hatrterletn helyezkedik el, gy rsze az elmleti modell
fellltsa, majd pedig annak implementlsa.
Modellnk logikai s diskurzuselmleti alapokon nyugv, totlisan lexikalista,
kampinus reprezentacionalista modell, melynek implementcijhoz egy szintn
szablyalap eszkzt, a Prologot s kiterjesztseit hasznljuk. Megkzeltsnk
azonban klnbzik a klasszikus reprezentacionalizmustl annyiban, hogy az
interpretl elmt (benne a nyelvvel) is a vilg rsznek tekintjk, ugyanazon
eszkzket hasznlva magnak a vilgnak s az azt interpretl elmknek a
modellezsre. Ily mdon vagyis azltal, hogy a reprezentci kztes jellegt
megszntetjk s az egsz vilg lersnak egysges keretet adunk teht a
legszigorbb antireprezentacionalistk kvnalmainak is igyeksznk eleget tenni.
Szablyaink lexikai szablyok, magt az elemzett nyelv nyelvtant is a lexikonban
troljuk, eltntetve ezltal a klnbsget lexika s grammatika kztt. A [2]-ben
definilt s hasonl genertorfggvnyek a maglexikonbl j lexikai egysgeket
lltanak el. gy kezeljk pl. a magyar szrendet vagy a mondatban szerepl szabad
hatrozkat: a genertorfggvnyek ellltjk az ige sszes, szintaktikailag
285
Utbb Kilin [8] morfolgiailag elzetesen elemzett szveget vett ugyan alapul, az elmleti
kvetkezetessg ugyanakkor megkvnja a morfolgiai elemzs analg mdon trtn implementlst. A projekt keretben morfolgiai elemz is kszlt ugyan, m, mint emltettk,
az adatstruktrnak az akkor mg nem kellen kidolgozott szintaktikai s szemantikai adatszerkezettel val sszefslse mr komoly gondot jelentett.
286
2 A ReALIS fggvnye
A feladata egyes hatkri viszonyok, valamint a propozicionlis attitdk s
retorikai relcik megragadsa. A szveg elemzsekor a referenseket a fggvnnyel
konstruljuk meg. Az feladata az azonossgi vlelmek meghatrozsa, m
alkalmazsa eltt a referensekhez hozz kell rendelni a szintcmkket, mert csak gy
tudjuk az alkalmazsi feltteleit vizsglni. Vagyis a szempontjbl relevns
nyelvi elemekhez hozz kell rendelnnk azok szintmdost tulajdonsgt is.
Elfordulhat persze, hogy a mkdst nyelvileg kzvetlenl csak nehezen vagy
egyltaln nem megragadhat tnyezk vezrlik. Ekkor ltalban tbb pragmatikai
rtelmezs is lehetsges. A Prolog visszalpsi mechanizmusa segtsgvel mg ez is
kezelhet (br rsegtsek nlkl nem tl hatkonyan). Szksgnk is lehet erre, mert
a diskurzus tovbbi elemzse sorn kiderlhet, hogy az addig lehetsgesnek tn
elemzsek kzl nhny hibs.
A [i,t] : uU[i] o U[i] szintfggvnyt az i interpretl belvilgban
rtelmezzk. U[i] elemei a referensek, ezek csakis valamely interpretl
belvilgban ltezhetnek (mg a klvilgban infonokrl, magrelcikrl s
entitsokrl beszlnk). Csak az n. fiktv referenseknek lehet kpk, ezek pontosan
egy szintcmke mellett kpezdnek le egy msik referensre (, amire ismt
alkalmazhat stb.). A itercija rvn kapott (vges) cmkesorozatot nevezzk a
referens vilgocskaindexnek. Az n. gykrreferensekre a soha nincs rtelmezve,
ezek vilgocskaindext resnek tekintjk. Viszont csak ezek horgonyzdhatnak ki a
kls vilgba az fggvnnyel. (Ugyanakkor egy referens lehet kls kpvisel
nlkli is, pl. egy vgy trgya.)G
A szintcmkk halmaza egy rendezett ngyesekbl ll halmaz: modal (
[][.?!][supp|cons|bel|des|int|], modlis cmke) u Tm ( idpillanat) u U[i] (j
kzvetlen gazda, kihorgonyozva egy interpretl-entitshoz) u P (={+,0,}, pozitv,
semleges vagy negatv polarits). Modlis cmkvel jelljk pl. a felttelezst (supp),
kvetkeztetst (cons), a hiedelmet (beln), vgyat (desn), szndkot (intn, utbbi
hromnl n ranggal vagy egyb mdon jelezhetjk az erssget), az t rzkszervtl
szrmaz informcit (hear, see, smell, taste, touch), a pragmatikai kifejtst (elab),
narrcit (narr), valamint az utbbi kettre vonatkoz krdst is (?elab, ?narr).
Ezeken fell cmkt kaphat magyarzat (exp), httr-informci (back) vagy arra
vonatkoz krds (?back), ellentt (contr), prhuzam (par), logikai mvelet (disj,
conj stb.). A felszlts mint a szndk explicit kifejezeszkze ugyancsak kln
cmkt (!intn) kap. Ebbl vilgos az olvas szmra az is, hogy a modlis cmke
hrom elembl ll: a nyl lnyegben a klasszikus mell- s alrendelsnek
(szintemel s szinttart jegy), a ponttl klnbz rsjel a krdsnek, ill.
felszltsnak felel meg (mdjegy), mg a harmadik elem a tulajdonkppeni modlis
tartalom.2
A rtelmezsben a idpillanat is rgztett, de fontos, hogy a -k s i-k
egymsba gyazott vilgocskk esetn is klnbzhetnek (pl. egy vlekeds esetn).
287
288
3 Adatok, adattrols
3.1 A vilgocskk s referensek lershoz hasznlt adatszerkezetrl
A ReALIS implementcijnak sikere vagy kudarca mlhat azon, hogyan brzoljuk
a lexikon adatait, idertve a feldolgozs sorn jelentkez, az assert prediktummal
ltrehozott tnyeket is. A fggvny esetn sincs ez mskpp, st a modalitst s
intenzionalitst kifejez szavak esetn meg kell tallnunk annak a mdjt is, hogy a
-szintcmkket rint lexikai szablyokat is egysges keretek kztt troljuk.
A hazamens s a kocsmzs persze nem zrjk ki egymst teljesen: ha Pter a szlfalujba utazott, majd belt a helyi csapszkbe, akkor a kt eventualits egyszerre is fennllhat.
Mi azonban a fenti okfejts sorn vgig egymst kizrnak tteleztk fel e kt eventualitst,
egyszerstsi okokbl leszktve a hazamegy jelentst.
289
s gykrvilga
vgymed,s,W,
emegy: pmegy i sel
szndkmin,s,W,+
emegy: pmegy i sel
290
291
292
4 Plda a implementcijra
Az emltett Contralog trgymodell segtsgvel megksrelhet pl. a vgyik ige
(rszleges) implementlsa is. Ha valaki vgyik valamire, akkor ez az elz fejezet s
[8] alapjn kt lpsben rhat le. Az els:
sigma3(ID,S,X,TIME,SUB,OB,CLAUSE):regArg2(ID,S,XV,verb(vgy,[],_MODE,VTIME,_AGR),XS,
SUBJ,_PRS,XO,OBJ,_PRO),{TIME= .. [VTIME,_]},
sigma3(ID,S,XS,TIME,SUB,CLAUSE,(desire(TIME,SUB,OB):CONS)),sigma3(ID,S,XO,TIME,OB,CONS),
{newref(X,e,CLAUSE)}. %%newref: referenskonstruktor.
A
[8]-ban
szerepl
kdot
mi
kiegsztettk
egy
provizrikus
referenskonstruktorral. Ebben a rendszerben teht a CLAUSE kimen vltoz rtke
egy ilyesfajta Prolog-klz lesz: desire(SUB,OB):-car(TIME,OB)
amennyiben a vgy trgya egy aut, s az aut lexikai egysgbl kinyerjk a
valaminek egy bizonyos idpontbeli aut voltra vonatkoz car(TIME,OB)
prediktumot. Meg kell jegyeznnk tovbb, hogy mg Kilin kvetkezetesen
SUB,OB stb. (az angol nyelvre specifikusan alany, trgy) vltozkat alkalmaz, addig
magam azt az irnyvonalat kpviselem, hogy az argumentumokat thematikusszerepcmkkkel kell elltni (szlssges esetben akr ignknt kln definilva!),
fenntartva ezzel a nyelvfggetlensget. Termszetesen szksgnk van a GeLexi-hez
hasonlan kopredikcis szimblumokra, ha ksbb a ReALIS-t gpi fordtsra
szeretnnk hasznlni, ahogy arra a 2. fejezet vgn is mr cloztunk. Mi tbbletknt
egyelre azt ktjk ki, hogy a mellett a -ra, tvlatban esetleg a megmarad kt
fggvnyre ( s ) vonatkoz lexikai szablyok nyelvfggetlen rsznek pontos
vagy kzel pontos, oda-vissza trtn alkalmazsa szksges a fordtsi
adekvtsghoz. Mindez persze a fordtstudomnnyal foglalkozk szmra tl
szigornak tnhet, de az esetleges enyhts lehetsgeinek vizsglata nmagban is
megrne egy msik cikket. Ha a nyelvi inputbl el tudjuk lltani az interpretcis
struktrt, akkor abbl mirt ne tudnnk az input szveget egy msik nyelven
293
294
Ami biztos: ha mindezt implementlni akarjuk, akkor egy komplett ontolgit kell
a ReALIS mg kpzelni. Ez mg megtehet ugyan, ha vlasztunk egy kellen
formalizlt s knnyen implementlhat modellt, s azt tfordtjuk a ReALIS
nyelvezetre, viszont addik az jabb krds: magukat az akkomodcis szablyokat
hogyan rjuk le?
295
6 sszegezs
Br a ltalunk felvzolt adatszerkezete meglehetsen egyszernek tnik, nyelvi s
nem nyelvi pillrei igen szertegazak. Cseppet sem magtl rtetd teht az az
elmleti jelleg, de a gyakorlati megvalsts szempontjbl kulcsfontossg krds,
hogy mikor van mindenkppen szksg egy-egy j vilgocska ltrehozsra s mikor
nincs. Fkpp az elz fejezetben mutattunk r nhny elmleti szempontbl is
alapos tgondolst ignyl krdsre.
Lttuk azt is, hogy httrtuds ugyanazon eszkzkkel ragadhat meg, mint maga
a nyelv. Erre elssorban a back (httrtuds), supp (felttelezs) s cons
(kvetkezmny) vilgocskk rvn nylhat md. Lehetsges akr az n. default
kvetkeztets mint opertor hasznlata is.
gy hisszk, hogy egyes vilgocskk hasznlatnak, valamint az akkomodcinak
a szablyai mg nincsenek teljes kren formalizlva. De mikzben grcs al
vesszk a fggvnyt s megksreljk annak implementlst, efel haladunk. A
gyakorlati implementci ksrletei teht a ReALIS esetn mg sokkal inkbb
visszahatnak a httrelmletre, mint egy tlagos szoftver esetn, idertve a
termszetesnyelv-feldolgoz szoftvereket is.
Ksznetnyilvnts
A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje, a
konferencia-rszvtelt a TMOP-4.2.1.B-10/2/KONV/2010/KONV-2010-0002 (A
dl-dunntli rgi egyetemi versenykpessgnek fejlesztse), a nmet nyelvvel
kapcsolatban folyamatban lv ausztriai terepmunkt pedig (mely ksbb szintn
tbb publikci alapjul szolglhat) sztndj formjban az Osztrk-Magyar
Akci Alaptvny tmogatta.
Bibliogrfia
1. Alberti G., Kroly M.: The Implemented Human Interpreter as a Database. In: Cordeiro, J.,
Virvou, M. (eds.): Proceedings of IC3K the 5th International Conference on Software and
Data Technologies Vol. 2. SciTePress, Funchal, Madeira (2011) 468474
2. Alberti G., Kroly M., Kleiber J.: From Sentences to Scope Relations and Backward. In:
Sharp, B., Zock, M. (eds.): Natural Language Processing and Cognitive Science. Proc. 7th
Int. Workshop on NLPCS. SciTePress, Funchal, Madeira (2010) 100111
296
3. Alberti G., Kroly M., Kleiber J.: The ReALIS Model of Human Interpreters and Its
Application in Computational Linguistics. In: Cordeiro, J., Virvou, M. (eds.): Proceedings
of the 5th International Conference on Software and Data Technologies Vol. 2. SciTePress,
Funchal, Madeira (2010) 468474
4. Alberti G., Kilin I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok avagy a
ReALIS fggvnye. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport, Szeged
(2010) 113126
5. Alberti G.: ReALIS. Akadmiai Kiad, Budapest (2011)
6. Farkas Judit: A finn nyelv indexelt generatv szintaxisa. Doktori disszertci. Pcsi
Tudomnyegyetem, Nyelvtudomnyi Doktori Iskola, Pcs (2011)
7. Kamp, H., van Genabith, J., Reyle, U.: Discourse Representation Theory. In: Handbook of
Philosophical Logic Vol. 15. Springer-Verlag, Heidelberg (2011) 125394
8. Kilin I.: Contralog: egy elre halad, Prolog-konform kvetkeztet motor s alkalmazsa a
ReALIS nyelvi elemzsre. In: SzmOkt 2011. konferencia kiadvnya, Erdlyi Magyar
Mszaki Tudomnyos Trsasg, Kolozsvr (2011) 199205
9. Seligman, J., Moss, L. S.: Situation Theory. In: van Benthem, J., ter Meulen, A. (eds.):
Handbook of Logic and Language. Elsevier, Amsterdam / MIT Press, Cambridge (1997)
239309
297
A magyar nyelvben az ige eltti kvantifiklt kifejezsek hatkre kveti a szrendet, az ige utniakra azonban jellemz a hatkri tbbrtelmsg. Ezt a jelensget a HPSG-ben a kvantortrols segtsgvel lehet megmagyarzni. A
cikk az elmleti megolds gyakorlati megvalstst vgzi el. A Prolog-alap,
DCG nyelvtan kpes kezelni a szabad szrend magyar mondatokat, s helyes
szk s tg hatkr olvasatokat rendeli a mondatokhoz.
1 A problma
A termszetes nyelvi kifejezsek szemantikai homlyossgnak az egyik oka a
kvantifiklt kifejezseket (minden kalz, hromnl tbb indin stb.) tartalmaz mondatok hatkri tbbrtelmsge. A kttt szrend nyelvekben, mint az angol, ezeknek a kifejezseknek a mondatbeli pozcija nem nyjt segtsget a kifejezsek ltal
bevezetett logikai kvantorok hatkri viszonyainak a meghatrozshoz.
A magyar mint rszben kttt szrend, azaz diskurzuskonfigurcis nyelv [4],
rszben egyrtelmsti a kvantifiklt kifejezsek hatkri viszonyait, ugyanis az ige
eltti kifejezsek sorrendje megegyezik a hatkrk sorrendjvel (a > a nagyobb
hatkrt jelenti):
(1a) Minden kalz tbb indinnal is megkzdtt.
minden kalz > tbb indin
(1b) Tbb indinnal is minden kalz megkzdtt.
tbb indin > minden kalz
Az igt kvet kvantifiklt kifejezsek hatkre azonban nem meghatrozott, azok
hatkre lehet kisebb is (2a: szk hatkr olvasat) vagy nagyobb is (2b: tg hatkr olvasat), mint az t megelz kvantifiklt kifejezs:
(2a) Minden kalz kibklt nhny indinnal.
(2b)
minden kalz > nhny indin, azaz
x y (indin(y) (kalz(x)
kibkl(x,y))
(2c)
nhny indin > minden kalz, azaz
y x (indin(y) (kalz(x)
kibkl(x,y))
298
2 Az elemzs
Korbbi [7], [8] s [9] tanulmnyaimban ezt a termszetes nyelvi jelensget prbltam lerni HPSG ([6]) elmleti keretben. Ezekben a tanulmnyokban a klasszikus .
Kiss-fle ([4]) elemzs felszni szerkezett tulajdontottam a magyar mondatoknak,
elhagyva ugyanakkor a nla meglev tbbi elemzsi szintet. A mondat sszetevs
szerkezete teht egy igvel kezdd, lapos frzisbl s ehhez balrl kapcsold, hierarchikus bal perifribl ll:
S1
S2
NP1
S3
NP2
V
Minden kalz tbb indinnal is megkzdtt
NP3
NP4
egy szigeten
a kincsrt
299
A logikai kifejezs magja az igei fejbl szrmazik, valamint az ign s az t dominl kifejezseken jelljk, hogy a kifejezsekben szerepl kvantorok milyen sorrendben alkalmazandak a magra. Ez az igei fej frzisok QUANTS listjn van megadva, teht:
(3)
Ha egy igei fej S frzisnak van ige eltti, azaz filler-sszetevje, akkor annak a QSTORE-jban megtallhat kvantorok nem jelenhetnek meg az S
QSTORE-jban.
Az 1. brn lthat szerkezetben gy az ige eltti NP1 s NP2 sszetevkbl szrmaz Q1, illetve Q2 kvantorok nem az ket dominl S1, illetve S2 frzisok QSTORE
halmazban jelennek meg (4 szably), hanem a megfelel QUANTS listk ln (3 szably). Mivel azonban S1 QUANTS listjnak a tovbbi rsze S2 QUANTS listjval
egyezik meg, amelynek viszont Q2 volt az els eleme, a Q1 kvantor mindig nagyobb
hatkr lesz, mint a Q2 kvantor, vagyis az ige eltti kvantifiklt sszetevk sorrendje megegyezik a hatkri sorrenddel. Az ige utni kifejezsekbl szrmaz Q3 s Q4
kvantorokra viszont nem vonatkozik a (4) kiegszt szably, azok brmely S kifejezsnl tkerlhetnek a QUANTS listra, vagy tovbb msoldhatnak a QSTORE kvantortrolba.
3 Az implementci
Az elz fejezetben ismertetett elmleti elemzs ellenrzseknt szksges a gyakorlatba is tltetni a megoldsi javaslatot. Az elemzs nagyban pt a HPSG elmleti
keretre. Ltezik ugyan, s el is rhet a HPSG-nek szmtgpes implementcija
([5]), azonban az egy fontos szempontbl nem bizonyul kielgtnek: nem tudja kezelni a magyar nyelvre jellemz szabad szrendsget. Ezrt arra vllalkoztam, hogy
egy alapjaitl jra felptett elemz megalkotsra teszek ksrletet. Ez, br nem telje-
300
301
302
za. Ez a lista res az igk lexikai lersnl, csakgy, mint a qStore s a slash
lista is.
303
304
sign(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsVP), Nucleus)),
qStore(QStoreVP),
slash(SlashVP))
-->
sign2(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsV), Nucleus)),
qStore(QStoreV),
slash(SlashVP)),
{quantorRule(QStoreVP,QStoreV,[],QuantsVP,QuantsV)}.
Ezen a ponton trtnhet meg elszr az eltrolt kvantorok brmelyiknek a hatkrnek a meghatrozsa, azaz itt kerlhetnek t elemek a qStore halmazbl a
quants listra. Ezt a (3) szablyban lertaknak megfelelen a quantorRule prediktum vgzi el:
quantorRule(QStoreMother, QStoreHead, QStoreSister,
QuantsMother, QuantsHead):append(QStoreSister,QStoreHead,Temp1),
deleteSubList(Temp2,Temp1,QStoreMother),
append(Temp2,QuantsHead,QuantsMother).
A definciban szerepl deleteSubList az els argumentum elemeit trli a
msodik argumentumrl, s a maradkot a harmadik argumentumba teszi.
A magyar mondatszerkezet msik f rszben az igt megelz sszetevk egyenknt csatlakoznak az elzekben kialaktott, komplementumaival mr teljes mrtkben kiegsztett kifejezshez:
sign(
synsem(
cat(head(v(fin)), comps([]),),
content(Agr, quants(QuantsS), Nucleus)),
qStore(QStoreS),
slash(SlashMother))
-->
{shuffle([SynsemFiller],SlashMother,SlashHead)},
sign(SynsemFiller,qStore(QStoreFiller),_SlashFiller),
sign(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsVP), Nucleus)),
qStore(QStoreVP),
slash(SlashHead)),
{quantorRule(QStoreS,QStoreVP,QStoreFiller,
QuantsS,QuantsVP),
subSet(QStoreFiller,QuantsS)}.
305
306
(6)
(6) logikailag ekvivalens (2c)-vel. A Prolog-implementci megadja a szk hatkr olvasatot is, amely a szksges konverzikkal (2b)-vel ekvivalens formulv
alakthat. Az elmleti megolds szmtgpes implementcija teht helyesen mkdik, kpes megadni az elvrt hatkri tbbrtelmsget.
4 Tovbbi lehetsgek
Az implementci, mivel egy kidolgozott elmletre, a HPSG-re alapul, kibvthet
tovbbi grammatikai szablyokkal, amelyek pldul szablyozhatjk, hogy az ige
eltt pontosan milyen elemek s hol jelenhetnek meg, gondolva itt a fkuszrtelmezsre s a topikalizcira. A mr meglev implementcirszek azonban ebben a
kibvtett elemzben is megfelelen mkdnek.
Tovbbi bvthetsge az implementcinak, hogy a rendszer az [1]-ben bemutatott elemekkel kiegsztve az elsrend logikai kifejezsek alapjn kpes egy mondatot interpretlni egy megadott vilgmodellben, vagyis egy olyan lekrdez rendszert
kszthetnk, amelyben a krdsek termszetes nyelven vannak megfogalmazva.
Bibliogrfia
1. Blackburn, P., Bos, J.: Representation and Inference for Natural Language: A First Course in
Computational Semantics. CSLI Press (2005)
2. Blackburn, P., Bos, J.: Representation and Inference for Natural Language: Software Requirements and Downloads: http://homepages.inf.ed.ac.uk/jbos/comsem/software1.html
3. Cooper, R.: Quantification and Syntactic Theory. Reidel, Dordrecht (1983)
4. . Kiss, K.: Configurationality in Hungarian. Akadmiai Kiad, Budapest (1987)
5. Penn, G.: The ALE Homepage: http://www.cs.toronto.edu/~gpenn/ale.html
6. Pollard, C., Sag, I A.: Head-Driven Phrase Structure Grammar. CSLI University of Chicago Press, Stanford Chicago (1994)
7. Szcsnyi T.: Sorrend s hatkr a magyarban: HPSG elemzs. Nyelvtudomny Vol.1
(2005) 171205
8. Szcsnyi T.: Lokalits s argumentumrkls. A magyar infinitvuszi szerkezetek lersa
HPSG keretben. Doktori rtekezs. Szeged, SZTE (2009)
9. Szcsnyi T.: Magyar mondatszerkezeti jelensgek elemzse HPSG-ben. In: Bartos Huba
(szerk.): ltalnos Nyelvszeti Tanulmnyok XXIII (2011) 99138
VII.Poszterekslaptoposbemutatk
309
Kivonat: A cikkben bemutatjuk egy webalap interaktv formnsrtkmdost program felptst s hasznlatt. Az alkalmazs kttt szerkezetben
vrja a kiindul formnsrtkeket, melyeket egy Flash-ben kszlt program segtsgvel tudunk knyelmesen mdostani, azaz hozzigaztani a hangsznkphez. A kiindulsi s mdostott rtkeket is MySQL adatbzisban troljuk, melyek fel- s letltsrl kln funkci gondoskodik. A formnsmdosts sorn
hasznlt hangsznkp megjelentshez a WAV formtum hangfjlok feltltse is szksges. A fejlesztst a magyar formnsadatbzis ksztse s tovbbfejlesztse ihlette.
1 Bevezets
Az elmlt 2 vben mr bemutattuk az els magyar formns adatbzist, amely a BME
Tvkzlsi s Mdiainformatikai tanszkn kezdemnyezett flautomatikus formnselemz eljrson alapul [1,2,3]. A formnsmeghatrozshoz hasznlt szadatbzis a
kvetkez adatokat tartalmazza minden szra: ortografikus szveg, fonetikai tirat, a
sz hullmformja (frfi s ni ejtsben), hanghatr-jellsek a hullmformban s a
mrt formnsok. Az adatbzis szabadon hozzfrhet, webalap keresfellettel
rendelkezik (http://magyarbeszed.tmit.bme.hu/formans). A teljes formnsadatbzisban kzel 3000 sz s sszesen 10 391 magnhangz szerepel. Egy magnhangzn
bell 3 mrsi pontot jelltnk ki: a teljes hang idtartamnak 25, 50 s 75%-os pontjt. Kivtelt kpeztek a kezd s befejez magnhangzk, ahol csak kt mrsi pontot
vettnk fel: kezdhz 50% s 75%, befejezhz 25% s 50%.
A formnsadatbzis ltrehozsa sorn hozzvetleg a magnhangzk negyedben
volt szksg a formnsrtkek kzi korrekcijra. Mr ekkor felmerlt, hogy szksg
lenne egy interaktv formnsrtk-mdost eszkzre, amely a grafikus felhasznli
fellet elnyeit kihasznlva, knyelmes formnsrtk-leolvasst tesz lehetv a sz
sznkpe alapjn, s gy az esetleges korrekcik is rugalmasabban megoldhatk. Jelen
cikkben ennek az eszkznek egy tovbbgondolsrl szmolunk be, amely megnyitja
az utat tovbbi formnsadatbzisok ksztse eltt azzal, hogy lehetv teszi tetszleges beszdadatbzisbl szrmaz tbbnyire automatikus mdszerekkel meghatrozott formnsrtkek egyszer, vizulis alap kzi javtst.
310
HANGSORSZAM
FORMANS
HANGHATAROK
BETUSOR
HANGSOR
BESZELO
ID_2
311
312
313
3.
4.
5.
Egrrel kattintunk Flash alkalmazs terletn, pl. a hangsznkpen. Ezzel aktivljuk a programot, amely most mr fogadja billentyparancsainkat.
Eldntjk, hogy a sz mely beszdhangjt szeretnnk vizsglni, mdostani.
A hangok kztti vlasztst a Ctrl+JOBBRA NYL s a Ctrl+BALRA NYL
segti. A hangok kztti mozgs a hangsznkp grgetst is maga utn vonhatja, amit a fels grgetsvon kvethetnk nyomon. A hangok kztti vltsnl a program biztostja, hogy a vizsglt hang krnyezett is lthassuk.
A magnhangzn bell a mdostand formns kivlasztsra a kurzormozgat nyilakat hasznlhatjuk (LE NYL, FEL NYL, BALRA NYL,
JOBBRA NYL). Az aktulis pontot eltr sznezs klnbzteti meg a tbbi ponttl. A pontok kztti mozgs hatsa az als informcis mezkben is
nyomon kvethet.
Az aktulis pont s gy a formnsrtk mozgatsra a Q s A billentyket
hasznlhatjuk. A Q-val nveljk az A-val cskkentjk a formnsrtket. Az
informcis mezben ezt is kvethetjk.
A mdostsok mentsre az ENTER billentyt hasznljuk. Ez azonnal az
adatbzisba rgzti a mdostsokat.
314
3 sszefoglals
Jelen cikkben egy webalap formnsrtk-mdost program felptst mutattuk be.
Az automatikusan meghatrozott formnsfrekvencia rtkek kzi mdostsa a bemonds hangsznkpe alapjn trtnik, amelyet szintn az alkalmazs llt el. Erre a
hangsznkpre vetti r a program az automatikus mrsbl szrmaztatott Hz rtkeket (kis pontok formjban). Ez adja a vizulis tlkezs alapjt. Amennyiben az
automatikusan meghatrozott formnsrtk kiugran eltr a hangsznkpen leolvashattl, akkor a mrt rtket a hangspektrogram alapjn mdostjuk, s ezt eltroljuk a
315
formnsadatbzisunkban. A Flash alkalmazsban billentyparancsokkal hatrozhatjuk meg a mdosts helyt (hang), a hangon bell a formnst s vgl a formns
fggleges pozcijt, azaz a formnsfrekvencia rtket. Tetszleges hosszsg
bemonds (hang, sz, mondat) formnsait tudjuk kezelni, a hangsznkp vzszintesen
grgethet. A megjelents ennek ellenre rendelkezik korltokkal, ezeket a mrsek
megkezdse eltt figyelembe kell venni. Az alkalmazs segti a nagy pontossg
formnsadatbzisok ltrehozst.
Bibliogrfia
1. Abari K., Olaszy G.: Magyar formnsadatbzis az interneten. In: Gsy, M. (szerk.): Beszdkutats. MTA Nyelvtudomnyi Intzet, Budapest (2011) 7382
2 Olaszy G., Rcz Zs. Zs., Bartalis M.: Formnsmrsek automatizlsa, formnsadatbzisok
ltrehozsa. In: Gsy M. (szerk.): Beszdkutats 2009. MTA Nyelvtudomnyi .Intzet, Budapest (2009) 134147
3. Rcz Zs., Abari K. , Olaszy G.: A formant trajectory database of Hungarian vowels. In:
Nmeth G., Olaszy G. (eds.) The Phonetician 97 (2011) 613 (http://www. isphs.org)
4. R Development Core Team: R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org/.
5. Sueur, J., Aubin, T., Simonis, C. Seewave: a free modular tool for sound analysis and
synthesis. Bioacoustics Vol. 18 (2008) 213226
316
Korpuszalap
u entr
opiam
ert
ekek gating-
es
lexikai d
ont
esi ks
erletekben
Fazekas Judit1 , Nemeth Kornel1 , Pleh Csaba1 , Varga Daniel2
1
Nagymeret
u gyakoris
agi sz
ot
ar birtokaban lehet
oseg
unk nylik informaci
oelmeleti mertekeket denialni, amelyek olyan kerdeseket formalizalnak, mint
peld
aul hogy egy adott sz
o-prex a korpuszon bel
ul milyen mertekben korl
atozza
a sz
o lehetseges befejezeseinek halmaz
at.
Cikk
unkben ezen mertekek felhaszn
alasaval megkserelj
uk, hogy osszef
uggest
t
arjunk fel az emberi morfol
ogiai feldolgozas es szofelismeres teljestmenye, valamit a szoalakok inform
aci
oelmeleti strukt
ur
aja kozott.
Cikk
unk b
ovtett v
altozat
aban harom olyan kserlet eredmenyeit mutatjuk
meg, melyek a fenti kerdeseket j
arj
ak kor
ul szisztematikus m
odon.
Az elso ket, gating feladaton [5] alapul
o vizsg
alat anyagat 60 darab ketszotag
u
fonev kepezte. A 30 gyakori es a 30 ritka szo koz
ul 15-15 korai egyedisegi ponttal
rendelkezett (jap
an), 15-15 pedig kes
oivel (cinke). A varianciaanalzis egyed
ul a
gyakorisagrol mutatta ki, hogy szignikans hat
asa van a felismeres hatasfokara.
A m
asodik vizsg
alatban bevezett
unk egy megszort
ast, a sz
ofelismerest befoly
asol
o top-down hatasok vizsgalatanak celj
abol. A resztvevok fele a kovetkezo
instrukci
ot kapta: Csak ketszotag
u f
oneveket fog hallani toldalekok nelk
ul.,
a t
obbi kserleti szemely nem kapott semmilyen inform
aci
ot. Mind a gyakorisag, mind pedig a megszort
asok hat
asa kimutathat
o volt. Az egyedisegi pontok
hat
asa csak a gyakori szavaknal volt egyertelm
u.
A meresi adatok birtokaban az egyertelm
usegi pont fogalm
anak korpuszalap
u nomt
asa celjab
ol a Magyar Webkorpuszra ep
ulo morfologiailag elemzett
Sz
oszablya Gyakoris
agi Szot
arhoz [3] fordultunk, es a szot
ar prex-faj
anak inuk el. Ennek soran entropiamerteket vezett
unk
form
aci
oelmeleti analziset vegezt
be a sz
oalakok prexein, az alabbi m
odon: A gyakoris
agi sz
ot
ar a magyar nyelv
sz
oalakjain ertelmezett valoszn
usegeloszlast deni
al. Egy szo-prex entr
opi
ajat
ezut
an u
gy denialtuk, mint e val
oszn
usegeloszlasnak a felteteles entropi
ajat
azon feltetel mellett, hogy a meggyelt szo az adott prexszel kezdodik. A
felteteles entropia teh
at a fennmarado bizonytalansagunk merteke az adott sz
or
ol,
miut
an a prexet a tudom
asunkra hoztak. Intuitve, a mertek azt szamszer
usti,
hogy mennyire v
altozatos m
odon fejez
odhet be az adott prex a korpuszunkban.
Megemltj
uk, hogy Antal Laszlo [2] mar 1964-ben felvetette azt a hipotezist,
hogy a morfol
ogiailag osszetett szavak morfemahatarai statisztikai ertelemben
osszef
317
Hivatkoz
asok
1. Aitchison, J.: Words in the mind. London, Blackwell (1987)
2. Antal, L.: A form
alis nyelvi elemzes, Budapest, Gondolat (1964)
3. Kornai, A., Hal
acsy. P., Nagy. V., Oravecz, Cs., Tr
on, V., Varga, D.: Web-based
frequency dictionaries for medium density languages. In: Proceedings of the EACL
2006 Workshop on Web as a Corpus (2006)
318
4. Moscoso, F., Kostic, A., and Baayen, R. H.: Putting the bits together: an information theoretical perspective on morphological processing. Cognition, 94, pp. 1-18
(2004)
5. Grosjean, F.: Spoken word recognition processes and the gating paradigm. In:
Attention, Perception, & Psychophysics, Springer (1980)
6. Pleh, Cs., Juh
asz, L. Processing of multimorphemic words in Hungarian. Acta
Linguistica Hungarica, 43, pp. 211-230. (1995)
319
A hrom ve foly EFNILEX projekt clja (l. [1]) annak vizsglata, hogy a modern
nyelvtechnolgiai eszkzk mennyiben alkalmasak a sztrkszts tmogatsra.
Jelen demonstrci clja, hogy bemutassa az automatikusan ellltott prototpussztrak (a tovbbiakban protosztrak) lekrdezhet vltozatt.
A protosztrak jdonsgt az adja, hogy prhuzamos korpuszokon automatikusan, szillesztssel lltjuk el ket. Br mr majdnem kt vtizede hasznlnak klnfle statisztikai algoritmusokat forrsnyelvi s clnyelvi szprok kinyersre, hogy
gy bvtsk a gpi fordts bemenetl szolgl sztrakat (pl. [2]), rdekes mdon a
lexikogrfusok kztt a mai napig sem eldnttt krds, hogy hasznlhatak-e a prhuzamos korpuszok emberi felhasznlsra kszl sztrak ellltsra.
Az gy ltrejv sztrak termszetesen tbb ponton is lnyegesen klnbznek a
hagyomnyos, lexikogrfusok ltal ltrehozott sztraktl. A legfontosabb klnbsg,
hogy a protosztrak alapstruktrjban ms tpus adatokkal tallkozunk: a protosztrak mikrostruktrja kevsb kidolgozott, de a fordtsi jellteken kvl korpuszgyakorisgi adatokat, valamint az illeszt algoritmus ltal kalkullt fordtsi valsznsget (P(szcl|szforrs)) is tartalmazza. Nagy mennyisg termszetes nyelvi
kontextus ll rendelkezsre, valamint knnyen kiszmthatak a fordtott irny
protosztr fordtsi valsznsgei is (P(szforrs|szcl)) is. A protosztr htrnya,
hogy utszerkesztsi munklatok hinyban szksgszeren tartalmaz hibs jelentsmegfeleltetseket is. ltalnosan elmondhat, hogy a protosztr fedse s pontossga fordtottan arnyosak: a fent emltett paramtereken alapul szrssel nvelhet
a j fordtsi jelltek arnya, ennek az ra viszont a sztr fedsnek a cskkense.
Clunk egy olyan online fellet fejlesztse, amely kiaknzza a mdszer elnyeit s
minimlisra cskkenti a htrnyait. Feds s pontossg vonatkozsban ez azt jelenti,
hogy a lekrdez fellettel a protosztrak szemlyre szabhatak lesznek: a fedspontossg grbe klnbz pontjai eltr felhasznli ignyeknek feleltethetek meg.
Pldul egy kezd nyelvtanul esetben az alapszkincsre van szksg, s az is elvrs, hogy a clnyelvi megfelel a legjobb (legtbbet hasznlt) fordts legyen. Ebben
az esetben teht a protosztrat gy vgjuk, hogy a gyakoribb szavakat vesszk csak
figyelembe mind a forrsnyelvi, mind a clnyelvi oldalon, s a fordtsi prok kzl
is csak azokat, amelyeknek magas a fordtsi valsznsge. Ezzel szemben egy fordt kpes a rossz fordtsok kzl a jt kiszrni, klnsen, ha rendelkezsre llnak
a javasolt fordtsokat tmogat prhuzamos szvegrszletek. gy az esetben egy
nagyobb lefedettsg, m alacsonyabb pontossg protosztr megfelel. Ezrt kvetelmny, hogy az online felleten a felhasznl hatrozhassa meg, hogy a protosztr
melyik szeletvel kvn dolgozni.
A protosztr paramtereinek belltsval hatrozhat meg a sztr mrete. Eddigi kirtkelsi eredmnyeink szolglhatnak ugyan nmi fogdzul arra nzve, hogy
320
Bibliogrfia
1.
2.
Hja, E.: The Role of Parallel Corpora in Bilingual Lexicography. In: Proceedings
of the LREC2010 Conference, La Valletta, Malta, May (2010) 27982805
Wu, D.: Learning an English-Chinese Lexicon from a Parallel Corpus. In:
Proceedings of AMTA'94 (1994) 206213
321
1.
322
Bibliogrfia
1.
Szts M., Csirik J., Gergely T., Karvalics L:: MASZEKER: projekt szemantikus keres technolgia kidolgozsra. In: Tancs A., Vincze V. (szerk.): MSzNy 2010
VII Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem,
Szeged (2010) 159167
A projekt egyik kiemelt felhasznlsi terlete a szabadalmi keress, s a demban gygyhats ksztmnyek s kozmetikai szerek tmakrbl szrmaz szabadalmakat hasznlunk.
Mind a szintaktikus, mind a szemantikus elemzst, mind a hasonlsg megllaptst nagyban befolysolja, hogy milyen tmakrben, milyen tpus dokumentumok kzt keresnk.
323
1.
Bevezets
Manapsg a konkatenatv beszdszintetizlsra hasznlt mdszer a legelterjedtebb, annak ellenre, hogy az sszefzssel ksztett beszdhang minsge elmarad az artikulcis mdszer ltal elmletileg elllthat beszdhang minsgtl.
Emiatt jabban egyre nagyobb gyelmet kap az artikulcis beszdszintetizls s egyre tbb artikulcis modell jn ltre [1]. Ezen modellek feladata nem
mindig a beszdszintetizls, hasznlhatk kutat s pedaggiai eszkzknek is.
Segtsgkkel tbbek kztt meg lehet gyelni a formns frekvencik s az artikulcis csatorna alakja kztti sszefggst. Jelen munka f clkitzse egy
meglv ktdimenzis artikulcis modell implementlsa, valamint a SuperCollider krnyezet ilyen jelleg feladatra val hasznlhatsgnak kidertse.
2.
APEX modell
324
az ajkak, a nyelvcscs s nyelv trzs llapotaibl, az llkapocs s a ggef helyzetbl egy artikulcis prol kszl egy mestersges kzpvonallal, ami az artikulcis csatorna els s hts oldala kztt flton helyezkedik el. Ezutn le
lehet mrni a kzpvonal mentn tetszleges pontokban az artikulcis csatorna
keresztmetszett. A keresztmetszetek hosszt egy adott szably felhasznlsval
keresztmetszeti terletekk kell konvertlni, ez mr lnyegben az artikulcis
csatorna csmodelljnek felel meg. Hangszintzis megvalstsnak egyik mdja
a formnsszintzis, ehhez a csmodellbl ki kell nyerni a formnsparamtereket.
Az APEX modell az orrreget nem modellezi, gy a nazlis hangokat nem tudja
megfelelen szintetizlni.
2.1.
Adatok kinyerse
325
ezeket a krvonalakat 25 pontban mintavtelezve troltk [6]. A fkomponensanalzis eredmnye nhny bzisfggvny slyozott lineris kombincija:
V (x) = N (x) + c1 (v) P C1 (x) + c1 (v) P C1 (x) + ...
ahol x a kontr mintavtelezett pontjnak indexe, V (x) a kiszmolt nyelvalakzat, N (x) egy semleges nyelvkontr (a meggyelt krvonalak tlaga) s P Ci (x)
az i. bzisfggvny. Az egyes ci egytthatk a bzisfggvnyek slyai. ci egy ktdimenzis vektor, rtke a megszlaltatott magnhangztl fgg, amit bemeneti
paramterknt hasznl a modell.
Pontossg: egyetlen P C bzisfggvnnyel 85,7% pontossgot lehetett elrni,
kt bzisfggvnnyel mr 96,3%-ot [6].
2.4.
Artikulci
A modellben hasznlt artikulci egyszerstett vltozata a tnyleges artikulcinak. Csak a programban megvalstott rszeket mutatjuk be. A hangkpz
szervek kzl nhnyat rgztett alakzatknt kezeltnk, ilyen pldul az artikulcis csatorna htuls fala s a szjpadls. A mozgathat alakzatok kz tartozik
a gge a hangszalagokkal, a nyelv s az egsz als llkapocs.
A gge x kontrral rendelkezik, azonban fggleges irnyban mozgathat,
ezzel lehet rvidteni, illetve hosszabbtani az artikulcis csatornt.
326
3.
Megvalsts
327
szerver architektrj a felptse, a kliensben tallhat interpretlt, objektumorientlt small-talk-szer programozsi nyelv felel a szerver vezrlsrt. A szerver feladata a gyors jelfeldolgozs, valamint a hang be- s kimenet kezelse, natv
bvtmnyek segtsgvel [7].
4.
Eredmnyek
Az APEX modellnek ltezik egy korbbi implementcija is, de annak fejlesztse flbemaradt, s a program elavult. Az j program mg tovbbi fejlesztsre
szorul, mivel hinyzik a szjregi rsz helyes kezelse (ajkak, fogak, nyelv alatti
terlet). Ezt leszmtva a modell megvalstsa sikeresnek mondhat. Elrelps a korbbi vltozathoz kpest, hogy a hasznlt krnyezetnek ksznheten
knnyebb a programot trni ms platformokra (Linux rendszeren kszlt, Macen is sikerlt futtatni).
A hangszintzis az elkszlt j verziban interaktv, a bemenetet vltoztatva
azonnal hallhat a vltozs eredmnye. A bemen paramterekbl listt ksztve
lehet tbb hangot is sszefzni. A tbbi artikulcis modellhez hasonlan az
APEX-ben is meggyelhetek a hangok kztti tmenetek, a koartikulci. Az
artikulcis modell alkalmas a hangtmenetek beszdszervek tnyleges zikai
jellemzin alapul interpolcijra.
328
5.
Tovbblpsi lehetsgek
A munka Erasmus sztndj keretben, MSc diplomaterv formjban lett elfogadva a Kungliga Tekniska Hgskolan Stockholm Speech, Music and Hearing
tanszkn.
Hivatkozsok
1. Shadle, C.H., Damper, R.I.: Prospects for articulatory synthesis: A position paper.
In: 4th ISCA workshop, Pitlochry, Scotland. (2001)
2. Stark, J., Ericsdotter, C., Branderud, P., Sundberg, J., Lundberg, H.J., Lander,
J.: The apex model as a tool in the specication of speaker-specic articulatory
behavior. In: Proc XIVth Intl Congr Phonetic Sci (ICPhS 99), San Francisco.
(1999)
3. Branderud, P., Lundberg, H.J., Lander, J., Djamshidpey, H., Wneland, I., Krull,
D., Lindblom, B.: X-ray analyses of speech: Methodological aspects. In: FONETIK
98. (1998)
4. Ericsdotter, C.: Articulatory-Acoustic Relationships in Swedish Vowel Sounds. PhD
thesis, Stockholm University (2005)
5. Soquet, A., Lecuit, V., Metens, T., Demolin, D.: Mid-sagittal cut to area function
transformations: Direct measurements of mid-sagittal distance and area with mri.
Speech Communication 36(3-4) (2002) 169180
6. Lindblom, B.: A numerical model of coarticulation based on a principal components
analysis of tongue shapes. In: 15th Intl Congr Phonetic Sci, Barcelona. (2003)
7. Wilson, S., Cottle, D., Collins, N.: The SuperCollider Book. The MIT Press (2011)
329
1 A szabadalmak felptse
A szabadalmak egysges szerkezettel brnak [1]. A fignypont mindig azzal kezddik, hogy milyen kategriba tartzik a levdetni kvnt szabadalom, pldul mdszer, eljrs, eszkz, sszettel. Eztn kvetkezik ezek kifejtse: milyen lpsbl/anyagokbl ll a fignypont elejn emltett dolog, s ezeket az alpontokat rekurzvan tovbbfejtik az gynevezett alignypontokban. Fontos megjegyezni, hogy egy
szabadalomnak specilis esetben tbb fignypontja is lehet. A mi kutatsaink csak a
fignypont szerkezetre s az egymsra val hivatkozsaikra korltozdtak.
330
2 Az ignypontgrf ellltsa
Mirt volt szksgnk az ignypontgrf ellltsra, hiszen mr van mkd rendszer [2, 3], mely ezt a problmt megoldja? - tehetnnk fel joggal a krdst. Sajnos az
a rendszer, melyet mi talltunk (pattools.com/claim_tree.html) csak a grfot lltja
el, a hivatkozsok tpust viszont nem adja meg. Neknk pedig szksgnk volt erre
az informcira is a tovbbi kutatshoz.
Az ignypontok kztti kapcsolatot az ignypontokban lv, regulris kifejezsekkel felismerhet, hivatkozsok/utalsok segtsgvel hatroztuk meg. Ezen hivatkozsok felhasznlsval ptettk fel az ignypontgrfokat. A kutatshoz rt programokat
az UIMA keretrendszerben [4, 5] rtuk.
2.1 Az ignypontgrf ellltsakor hasznlt hivatkozstpusok
Kutatsunk sorn 997 db A24F alosztlyba tartoz szabadalmat vizsgltunk. A szabadalmak ignypontszekcii sszesen 16812 darab ignypontot tartalmaztak. Az
albbi tblzat tartalmazza, hogy milyen hivatkozstpusokat klnbztettnk meg s
ezeknek milyen volt az eloszlsuk az ltalunk vizsglt 997 szabadalomban.
1. tblzat:A hivatkozstpusok megoszlsa az ltalunk vizsglt 997 szabadalom esetben.
Hivatkozstpus
Elforduls
root/nem hivatkozik
2 787
in claim #
3 277
of claim #
9 102
according to #
2 833
sszes hivatkozs 17 999
2.2 A ellltott ignypontgrfok ellenrzse
Nem llt rendelkezsnkre referenciakorpusz, gy egy meglv rendszerrel hasonltottuk ssze eredmnyeinket. A pattools.com/claim_tree.html cmen elrhet rendszer
ltal generlt grfokkal vetettk ssze a mi kimeneteinket. gy kzi ellenrzsre csak
akkor volt szksg, amikor klnbsget fedeztnk fl a kt kimenet kztt.
331
Hibatpus
Sajt magra hivatkozik az ignypont
A hivatkozott ignypont nem ltezik
Ugyanaz kt ignypont szma
sszes detektlt hiba
Elforduls
6
2
4
12
5 sszefoglals
Mdszernk ms rendszerrel val sszehasonltsa s a feldertett hibk elemzse azt
mutatja, hogy indirekt mdon bizonythat, hogy a rendszer kis hibval mkdik,
ezrt a ksbbiekben jl hasznlhat szabadalmak ignypontgrfjainak ellltsra.
Az ignypontgrfot felhasznlva tbb hibatpus kiszrhet s megllapthatak a
fignypontok is.
Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg.
Bibliogrfia
1. Vincze V., Nagy ., Klausz ., Almsi A., Kiss M.: Nyelvszeti problmk a szabadalmak
feldolgozsban. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 168179
2. Milton, H. W.: Method for preparing a claim tree in the preparation of a patent application.
In: Patent. Bloomfield Hills, MI, US (2008)
332
3. Kahn, M. R.: Patent claim visualization system and method. In: Patent, Westampton, NJ,
US (2009)
4. Osenga, K.: Linguistics and patent claim construction. Rutgers Law Journal Vol. 38, No.
61 (2006) 61108
5. D. Ferrucci, A. Lally: UIMA by Example. IBM Systems Journal 43, No. 3 (2004) 455475
6. D. Ferrucci, A. Lally: UIMA: An Architectural Approach to Unstructured Information
Processing in the Corporate Research Environment. In: Journal of Natural Language
Engineering. (2004) 327348
333
Kivonat
Az eladsban szeretnnk bemutatni egy vizsglat eredmnyt, melynek clja a cikk
rsakor elrhet magyar nyelv szintaktikai elemzprogramok kirtkelse s sszehasonltsa. Az elemzst a mondatokban tallhat maximlis fnvi csoportok hatrainak felismersre korltoztuk, sszehasonltsi alapknt a Szeged Treebank 2.0 [1]
anyagt hasznltuk fel. A kvetkez NP-felismerket vetettk vizsglat al:
MetaMorpho fordtprogram szintaktikai elemzje [3]
NooJ [5] magyar NP-nyelvtan
Hunchunk gpi tanulsos NP-felismer [4]
A MetaMorpho magyar-angol fordtprogram forrsnyelvi szintaktikai elemz
komponense kzzel rt szablyokkal mkd jegystruktrs krnyezetfggetlen
nyelvtant hasznl. A Nyelvtudomnyi Intzetben fejlesztett NP-nyelvtan a NooJ keretrendszerben kszlt vges llapot automatk kaszkdja. A lexikai (morfolgiai)
elemzsi szinthez tbb klnbz megoldssal is teszteltk. A Hunchunk rendszer a
Szeged Treebanken tantott, maximum entrpis Markov-modell NP-felismershez.
A Szeged Treebank 6 klnbz tmakrbl (szpirodalom, iskolai fogalmazsok,
jsgcikkek, szmtstechnikai szvegek, jogi szvegek, gazdasgi s pnzgyi rvidhrek) 1,2 milli szvegszt tartalmaz 82 ezer mondatban, rszletes morfolgiai s
szintaktikai annotcival. A vizsglathoz egyestettk a mondatok halmazt, majd az
ismtldseket kiszrve 80,877 klnbz mondathoz jutottunk. Minden mondatot
kln, az eredeti szvegkrnyezete nlkl elemeztnk a vizsglt elemzprogramokkal, a tbbszr szerepl mondatokhoz az els elfordulsukhoz megadott annotcit
hasznltuk fel (anlkl, hogy megvizsgltuk volna, hogy a klnbz elfordulsok
elemzsei klnbznek-e egymstl.)
A kirtkels sorn minden mondatban megvizsgltuk, hogy az egyes elemzk ltal megadott maximlis NP-k kzl hny szerepelt a treebankben (pontossg), illetve
a treebank maximlis NP-i kzl hny tallhat az elemz kimenetben (feds), valamint megadtuk a kt rtk szoksos kombincijt is (F1-mrtk). Egyezsnek csupn a teljesen megegyez kezd- s zr terminlissal rendelkez NP-ket fogadtuk el,
a rszleges egyezseket ebben a vizsglatban ugyangy hibaknt kezeltk, mint a
teljesen rossz tallatokat. A mrseket minden elemzvel elvgeztk kln-kln a 6
korpusz-tmakr, illetve a 15 klnbz forrs mindegyikre is.
Az 1. tblzatban kzljk a NooJ keretrendszerben rt szintaktikai elemz kt klnbz morfolgiai elemzt hasznl vltozatnak sszehasonltst. Az 1. vltozat
a Magyar Nemzeti Szvegtr [7] s a morphdb.hu [6] anyaga alapjn kszlt morfo-
334
lgiai lexikont hasznlja, mg a 2. vltozat egy, a NooJ rendszerben kzzel rt morfolgiai elemz automatt. A 2. tblzatban a MetaMorpho s a NooJ elemz MNSZmorphdb.hu-s vltozatnak sszehasonltsa lthat.
1. tblzat: A NooJ elemz kt vltozatnak sszehasonltsa a teljes treebank anyagn.
Tmakr
Iskolai
Szm.tech.
Gazdasgi
Szpirodalom
Hrek
Jogi
Teljes korpusz:
P
43.61%
34.19%
28.85%
45.93%
35.16%
28.20%
36.51%
NooJ 1.
R
68.31%
52.25%
48.80%
68.19%
56.19%
51.34%
58.72%
F
53.23%
41.34%
36.26%
54.89%
43.25%
36.40%
45.02%
P
47.09%
27.86%
23.92%
43.87%
31.83%
22.58%
33.34%
NooJ 2.
R
67.52%
43.18%
41.32%
62.52%
50.43%
45.82%
53.47%
F
55.48%
33.87%
30.30%
51.56%
39.03%
30.25%
41.07%
Tmakr
Iskolai
Szm.tech.
Gazdasgi
Szpirodalom
Hrek
Jogi
Teljes korpusz:
MetaMorpho
P
R
F
65.50% 71.92% 68.56%
46.45% 56.72% 51.07%
43.78% 53.59% 48.19%
63.91% 67.27% 65.55%
53.03% 58.43% 55.60%
35.21% 45.37% 39.65%
52.14% 60.25% 55.90%
P
43.61%
34.19%
28.85%
45.93%
35.16%
28.20%
36.51%
NooJ 1.
R
68.31%
52.25%
48.80%
68.19%
56.19%
51.34%
58.72%
F
53.23%
41.34%
36.26%
54.89%
43.25%
36.40%
45.02%
HunChunk
MetaMorpho
NooJ 1.
P
R
F
P
R
F
P
R
F
78.67% 84.99% 81.71% 54.39% 61.52% 57.73% 37.57% 59.28% 45.99%
335
zat). A MetaMorpho elemz ennl a vltozatnl szignifiknsan jobban teljest (2. tblzat). A Treebank szempontjbl tovbbi rdekessg, hogy mindkt rendszer az iskolai fogalmazsok s a szpirodalmi alkotsok szvegein teljest a legjobban s a
jogi szvegeken a legrosszabbul.
A gpi tanulsos rendszer kirtkel halmazn vgzett mrsek (3. tblzat)
ugyanezt a sorrendet mutatjk a kt szablyalap rendszer kztt, az lre viszont a
Hunchunk rendszer kerl szignifikns elnnyel. Mindenkppen szksges azonban
megemlteni, hogy a gpi tanulsos rendszer teljestmnye szempontjbl az alkalmazott technolgin tl nem elhanyagolhat szempont, hogy ez a rendszer a Szeged
Treebank a kirtkel halmaz mondataihoz hasonl mondatain tanulva a kirtkel korpusz inherens sajtossgaira jobban r volt hangoldva, mint a msik kt, a
korpusz anyagtl fggetlenl fejlesztett rendszer.
A bemutatott NP-felismerk kirtkelsben tovbbi lehetsges munka, ha a korrektebb sszehasonlts rdekben az elemzk s a Treebank klnbz koncepcikkal kszlt nyelvtanai kztt megtalljuk a legnagyobb kzs rszhalmazt, s az ezzel
megadhat elemzsekre reduklva ismteljk meg a kirtkelst. Nhny plda ilyen
nyelvtani klnbsgekre: a MetaMorphoban a fnvi igeneves szerkezetek NP-knek
szmtanak, a Szeged Treebankben nem; a nvutk a MetaMorphoban rszei az NPknek, a Treebankben nem; az olyan birtokos szerkezetek, ahol a birtok kzvetlenl
kveti a birtokot, a Treebankben kt NP-nek szmtanak, a MetaMorpho s a NooJ
nyelvtanban viszont van a kettt egyest NP; a MetaMorphoban a fnvi fejhez
kapcsold vonatkoz mellkmondat rsze a maximlis NP-nek, a Treebankben nem
stb. A rszleges tallatok slyozott figyelembevtele s a hibatpusok vizsglata szintn tovbbi lehetsgek.
Bibliogrfia
1. Csendes D., Alexin Z., Csirik J., Kocsor A.: A Szeged Korpusz s Treebank verziinak trtnete. III. Magyar Szmtgpes Nyelvszeti Konferencia (MSZNY 2005) kiadvnya, Szeged, december 8-9. (2005) 409412
2. Oravecz, Cs., Dienes, P.: Efficient Stochastic Part-of-Speech tagging for Hungarian. In:
Proceedings of the Third International Conference on Language Resources and Evaluation.
Las Palmas (2002) 710717
3. Prszky, G., Tihanyi; L., Ugray, G.: Moose: a robust high-performance parser and
generator. In: Proceedings of the 9th Workshop of the European Association for Machine
Translation, Foundation for International Studies. La Valletta, Malta (2004) 138142
4. Recski G., Varga A., Zsder A., Kornai A.: Fnvi csoportok azonostsa magyar-angol
prhuzamos korpuszban. In: VI. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged
(2009)
5. Silberztein, M.: NooJ : an Object-Oriented Approach. In: Muller, C., Royaut, J., Silberztein
M. (Eds): INTEX pour la Linguistique et le Traitement Automatique des Langues, Cahiers
de la MSH. Presses Universitaires de Franche-Comt, Ledoux (2004) 359369
6. Trn, V., Halcsy, P., Rebrus, P., Rung, A., Simon, E., Vajda, P.: morphdb.hu: magyar morfolgiai nyelvtan s sztri adatbzis. In: III. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged (2005)
7. Vradi, T.: The Hungarian National Corpus. In: Proceedings of the Second International
Conference on Language Resources and Evaluation. Las Palmas (2002) 385389
336
Javban taggelnk
Novk Attila1, Orosz Gyrgy2, Indig Balzs2
1
Kivonat: A szfaji egyrtelmsts (POS tagging) a szmtgpes nyelvfeldolgozs egyik alapfeladata. A feladat megoldsra szmtalan algoritmus sok klnbz programozsi nyelven megrt implementcija ltezik. Az egyes szvegszavakhoz rendelend morfolgiai cmkk megllaptsa azonban csak az
egyik rszfeladat, amelyet a szveg morfolgiai annotcijakor el kell vgezni:
a cmkn kvl a sztvet is azonostani kell. A nem tl gazdag morfolgij
analitikus angol nyelv esetben egy szfaji egyrtelmst s egy egyszer tvest egyms utn kapcsolsa elfogadhat eredmnyt ad. A magyarhoz hasonl ragoz nyelvek esetben azonban sokkal jobb eredmnyt kapunk, ha a szfaji egyrtelmstst s a szt megllaptst egyarnt elvgz morfolgiai
elemzt tartalmaz integrlt eszkzt hasznlunk.
1 Bevezets
Cikknkben egy olyan j nylt forrskd eszkzt mutatunk be, amely egyszerre
vgzi el a szfaji egyrtelmstst s a szt megllaptst, teht teljes egyrtelmstett morfolgiai annotcit ad. Az eszkz szfaji egyrtelmst algoritmusa a TnT s
HunPoS taggerekben implementlt rejtett Markov-modell (HMM) algoritmuson alapul. Emellett tartalmaz egy olyan felletet, amelynek hasznlatval morfolgiai elemz illeszthet hozz, amely nemcsak a tantanyagban nem ltott szavak morfolgiai
cmkjnek egyrtelmstst teszi sokkal pontosabb, hanem a szavak sztvt is
megadja. Az eszkzt Java nyelven implementltuk.
2 A korpusz reprezentativitsa
Ha a magyarhoz hasonl agglutinl nyelveket az angollal hasonltjuk ssze abbl a
szempontbl, hogy egy adott mret korpusz milyen arnyban tartalmazza az adott
nyelv lehetsges szalakjait, akkor azt tapasztaljuk, hogy mg egy azonos mret
korpuszban sokkal tbb klnbz szalak szerepel az agglutinl nyelvek esetben,
mint az angolban, ezek ugyanakkor mgis sokkal kisebb rszt fedik a korpuszban
szerepl sztvek lehetsges alakjainak. A korpusz teht sokkal kevsb reprezenta-
337
338
lgiai guesser (toldalkelemz) beptsvel oldhat meg. Ezrt az eszkz kt csatolfelletet tartalmaz: egyet a morfolgiai elemz, egyet pedig a guesser illesztsre.
4 Az optimlis t kivlasztsa
A morfolgia s fleg a sokkal lazbb megszortsokkal dolgoz guesser gyakran
tbb olyan lehetsges tjelltet is visszaad, amely a tagger ltal vlasztott cmkvel
kompatibilis. Sokszor teht nem trivilis a helyes szt kivlasztsa. A magyarban az
egyik ilyen tbbrtelmsgi osztly az az azonos tv ikesiktelen igeprok. A lexiklis tr/trik, (fel)dolgoz/dolgozik tpus prok mellett a produktv -z/-zik kpzpr
szinte korltlan mennyisgben hozza ltre az ilyen tpus tbbrtelmsgeket. Emellett a kt ragozsi paradigma lnyegben csak abban az egyetlen E/3 jelen idej kijelent md alakban tr el, amely a lemmt adja, az sszes tbbi igealak tbbrtelm a
t szempontjbl, ezrt egyben ez a leggyakoribb olyan ttbbrtelmsg-tpus,
amely a morfolgiai elemz ltal felismert szalakok krben fellp.
A t egyrtelmstsre legegyszerbb alapmodellknt egy egyszer unigram modellt hasznltunk. Ebben a modellben a szalakknt leggyakrabban elfordul alakot
vlasztjuk a lehetsges tvek kzl. Ennek az egyszer modellnek elnye, hogy nincs
szksg a statisztika alapjt kpez korpusz semmifle annotcijra. Ezrt nem kell
a rendelkezsnkre ll annotlt korpuszra szortkoznunk, hanem tetszleges mret
anyagot hasznlhatunk, mg maga az annotland szveg is hozzadhat a statisztika
alapjt kpez anyaghoz. Ez a modell magyarra elg j teljestmnyt ad az ismeretlen
szavak tlnyom rszt ad nvszk esetben, mert ezeknek a leggyakoribb alakja a
toldalkolatlan alanyeset.
Az egyik leggyakoribb tbbrtelmsgi osztly, ahol az egyszer tvlasztsi algoritmus hibzik, a magas hangrend ikesiktelen igeprok esete (ahol az ik nlkli ige
trgyas). Ezeknek az ik vg alakja is tbbrtelm: T/3 alany hatrozott trgyas
alak is lehet, s az ennl az igeosztlynl sokszor gyakoribb az ik nlkli lemmnl
(pl. a nevezik alak 4-szer olyan gyakori, mint a nevez). Ezt a problmt rszben lehet
kezelni egyrszt gy, hogy a morfolgiai elemzben letiltjuk a nevez-hez hasonl
gyakori igk produktv kpzssel ellltott felbontst (ezzel a nv+ezik = nevezik
kpzett alakot). Emellett az egyszer unigram szalak-gyakorisgi modell annotlt
korpuszbl vett adatokkal nyelvspecifikus mdon kombinlva, illetve a tvek megelemzse utn a tagger ltal vlasztott elemzssel inkompatibilis tvek kiszrsvel a
tmeghatrozs pontossga nvelhet.
339
6 Az j eszkz
Az elrhet HMM-alap megoldsok nem tartalmaznak beptett morfolgiai elemzt. A npszer s megenged licensz HunPos tagger kiegszthet lenne a kvnt
funkcionalitssal, de az implementcijhoz hasznlt programozsi nyelv csekly
ismertsge ennek (s a tagger integrlsnak) korltjt jelenti. Egy, az iparban elterjedtebb nyelv hasznlata knnyebb szerves integrcit tesz lehetv olyan
nyelvfggetlen keretrendszerekhez, mint az UIMA vagy a GATE. Ezrt dntttnk
egy j, a tantsi sebessgt tekintve jl hasznlhat, nyelvfggetlen, morfolgiai
elemzvel knnyen integrlhat szfaji egyrtelmst implementcija mellett. Az
j, nylt forrskd, Java nyelven implementlt, rejtett Markov modellen alapul
POS-tagger, melynek alapjul a TnT [1] s a HunPos rendszerek szolglnak, a korbban emltett problmk kikszblse rdekben a szfaji egyrtelmsts s a sztvezs problmjt egy feladatknt kezeli. A rendszer kpes morfolgiai elemz s
guesser aktv hasznlatra a szfaji egyrtelmsts kzben, tovbb az elemzs kimenett a szt meghatrozsra is felhasznlja. Az eszkzt olyan alkalmazsprogramozsi fellettel lttuk el, amelyen keresztl egyszeren illeszthet hozz tetszleges morfolgiai elemz. Mivel gyakran az egyrtelmstett taghez tartoz t sem
egyrtelm (klnsen nem az azoknak a szalakoknak az esetben, amiket a morfolgiai elemz nem ismer, hanem a lehetsges tveiket a guesser lltja el), olyan
340
Bibliogrfia
1. Brants, T.: TnT A Statistical Part-of-Speech Tagger. In: Proceedings of the sixth conference on Applied natural language processing (2000)
2. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizci a Szeged Treebank
2.5-ben. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia (2010) 349353
3. Halcsy, P., Kornai, A., Oravecz, Cs., Trn, V., Varga, D.: Using a morphological analyzer
in high precision POS tagging of Hungarian. In: Proceedings of LREC (2006) 22452248
4. Halcsy, P., Kornai, A., Oravecz, Cs.: HunPos: an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions (2007) 209212
5. Oravecz, Cs., Dienes, P.: Efficient Stochastic Part-of-Speech Tagging for Hungarian. In:
Third International Conference on Language Resources and Evaluation (2002) 710717
6. Vincze, V., Szauter, D., Almsi, A., Mra, Gy., Alexin, Z., Csirik, J.: Hungarian Dependency Treebank. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation (2010)
7. Zsibrita, J., Nagy, I., Farkas, R.: Magyar nyelvi elemz modulok az UIMA keretrendszerhez.
In: VI. Magyar Szmtgpes Nyelvszeti Konferencia (2009) 394395
341
Kivonat: A jelen dolgozatban a HunOr, egy eleddig hinyz digitalizlt magyarorosz prhuzamos korpusz ltrehozsrl szmolunk be. A dolgozat a
korpuszptsi munka cljrl, jelenlegi llsrl, az eddigi munka sorn szerzett tapasztalatokrl, a munka folyamatrl s eszkzeirl, valamint a HunOr
korpusz adatairl igyekszik tfog kpet adni. Az ismertets sorn rszletesen
szlunk azokrl az elmleti s gyakorlati jelleg problmkrl, amelyek az eddig elvgzett s a jelenleg foly feldolgozsi munkk (mondatra bonts, mondatszint prhuzamosts, NE-annotls) sorn elmleti vagy gyakorlati szempontbl megoldsra vr feladatknt lptek fel.
1 Bevezets
A HunOr korpusz autentikus magyar nyelv szvegeket, valamint azok orosz fordtsait, illetve autentikus orosz nyelv szvegeket, valamint azok magyar fordtsait
tartalmazza. A korpusz ltrehozsnak elsdleges clja, hogy vizsglati anyagot teremtsnk a magyarorosz, illetve az oroszmagyar fordtskutats szmra. Ugyanakkor, mivel a korpusz nem csupn fordtott, hanem autentikus szvegeket is tartalmaz mindkt nyelven, szmos, egyb tudomnyterlet krdskrbe tartoz nyelvszeti problma szmtgppel tmogatott vizsglatt is lehetv fogja tenni. A korpusz mindemellett klnfle szmtgpes nyelvszeti alkalmazsokhoz, pldul a
gpi fordtshoz is kitn segdletet biztosthat.
342
szerint sajtnyelvi, a Russzisztika Kzpont Orosz Negyed cm kiadvnyainak szvegeivel is bvl a korpusz.
A szpirodalmi alkotsok kzl a korpusz jelenleg a Kladbi
enskie istorii cm
mvet tartalmazza, amelynek szerzje a Magyarorszgon egyelre csak lnven,
Borisz Akunyinknt ismert Grigorij Cshartisvili. A novellkat s esszket tartalmaz
knyv 2005-ben jelent meg. A mvet 2008-ban Temeti trtnetek cmmel Bagi Ibolya s Sarnyai Csaba ltettk magyar nyelvre. A korpuszban tallhat tudomnyos
szvegek a szpirodalomhoz kapcsold, orosz forrsnyelv elemz tanulmnyok:
Nyikolaj Bergyaev egy hosszabb llegzet, 1990-ben, O ve
no-babjom v russkoj
duse cmen publiklt mvnek egy rszlete, valamint Vitalij Orlov Hranitel
nenunih ve
ej cm, 1999-es tanulmnya. A fordtsokat 2007-ben Rgczi Ildik, valamint 2009-ben Jzsa Gyrgy Zoltn ksztettk. A hivatalos alkorpusz a Magyar Klgyminisztrium honlapjn kzztett, Tnyek Magyarorszgrl cm kiadvny kvetkez szvegeibl ll: A magyar kultra ezer esztendeje; Nemzeti jelkpek,
nemzeti nnepek; Magyar Nobel-djasok egy jobb vilgrt.
Az albbi tblzat bemutatja a HunOr jelenlegi feldolgozott llomnynak sszefoglal adatait:
1. tblzat: A HunOr korpusz adatai.
Szvegtpus
Szpirodalom
Tudomnyos
Hivatalos
sszesen
Szvegszavak
orosz magyar
52 798 57 980
7 014
7 483
15 924 14 412
75 736 79 875
Mondatok
Fordtsi irny
orosz
magyar
3 255
3 313orosz
magyar
360
348orosz
magyar
710
561magyar
orosz
4 325
4 222
3 A korpusz feldolgozsa
A korpusz ksbbi hasznosthatsga rdekben szksgesnek bizonyult a szvegek
mondatokra bontsa, mondatszint prhuzamostsa, illetve ez utbbival sszefggsben a szvegek tulajdonnvi annotlsa.
343
344
Az (a) s a (b) megoldst tmogatja a magyar s az orosz korpuszannotlsi gyakorlat [4, 7, 12, 15], amely szerint minden kettspontot tagmondatok kztti rsjelknt annotlnak a ksztk. A mdszer azonban ellentmondsosnak tnik, amennyiben szem eltt tartjuk Rozental [13] megjegyzst, miszerint az egyenes beszd megfelel az nll mondat szintaktikai kritriumainak, illetve azt, hogy mind a magyar,
mind az orosz szerzk [3, 11, 14] klnbsget tesznek az nll mondatokbl, valamint a nem nll mondatokbl ll felsorolsok kztt. Amennyiben a korpuszannotlsi gyakorlatot kvetnnk teht, gy kett vagy tbb, szintaktikai szempontbl
nll mondatot egyetlen mondatknt jellnnk be a korpuszban.
Az (a) megoldst tmogatja tovbb az orosz helyesrsi gyakorlat; az orosz szerzk ugyanis a magyar gyakorlattal ellenttben [3] nem ismerik el a kettspontot
mondatvgi rsjelknt: a mondatzrk kztt rendre a pontot, a felkiltjelet, a krdjelet, valamint a hrom pontot soroljk fel [11, 13, 14]. Amennyiben teht az orosz
helyesrsi gyakorlathoz ragaszkodnnk, gy a pontokat mondatvgi, a kettspontokat pedig tagmondatok kztti rsjelknt kezelnnk, azaz az (a) megoldst alkalmaznnk a korpuszban. Az eljrsmd vitathat volta azonban kitkzni ltszik azokban
az esetekben, ahol a szerz szavai tbb mondat vezetnek be. Vlemnynk szerint
ugyanis semmifle klnbsg nem mutatkozik a szerz szavai s az azokat kzvetlenl kvet mondat, valamint a szerz szavai s az azokat nem kzvetlenl kvet
mondat (vagy mondatok) kztt, ami alapul szolglhatna ehhez a sajtos annotlsi
mdhoz.
A (c) megoldst tmogatjk az (a) s a (b) megoldssal szemben tett kritikai szrevtelek, ugyanakkor a (c) annotlsi md ellen szl az emltetteknek megfelelen a
korpuszannotlsi gyakorlat, valamint az, hogy az orosz nyelvben nem ismerik el a
kettspont esetleges mondatvgi sttust. Ugyanakkor grammatikinkban nem tallni
olyan kritriumot, amely lehetetlenn tenn a kettsponttal vgzd mondat feltevst, pl: [A mondatot] a szerkeszts klnfle nyelvtani eszkzeinek viszonylagos
lezrtsga jellemez [8]; formai szempontbl elssorban az intonci egysge, lezrtsga jellemzi a magyar mondatot [6]; A mondat egy vagy tbb szbl ll, zrt
intoncis szerkezet jellemzi [2].
Az ismertetett rveket s ellenrveket megfontolva a HunOr korpuszban vgl a
(c) megolds alkalmazsa mellett dntttnk. Az ltalunk vlasztott eljrsmd teht
a kvetkez: azokat a kettspontokat, amelyek nagy kezdbetvel kezdd, egy vagy
tbb mondatbl ll szvegrszt vezetnek be, mondatvgi rsjelekknt kezeljk a
korpuszban, s a kettsponttal vgzd szerzi bevezet utni mondatot vagy mondatokat nll egysgekknt annotljuk.
Az annotci az elmondottak alapjn teht szakt a hazai s az orosz korpuszannotlsi gyakorlattal. Ugyanakkor, mivel elmleti megfontolsokon alapszik, teoretikus
szempontbl a tbbi lehetsges megoldsnl helytllbbnak tekinthet. Mindemellett
rdemes kiemelni azt is, hogy a mdszer az egysgessge folytn nem teremt krdses eseteket, amelynek ksznheten annak korpuszbeli alkalmazsa mind az
annottori dntshozatal, mind az automatikus munka szempontjbl problmamentesen megoldhat.
A mondatok prhuzamostsban a fordtsi egysg hatfle megfelelstpust szoks megklnbztetni [1, 5, 10], a HunOr korpusz ptse sorn azonban egy hetedik
tpust is detektltunk ((g)-vel jellve). A ht megfelelstpus teht a kvetkez:
345
a) 1-1 megfelels: egy forrsnyelvi mondat egy clnyelvi mondatnak felel meg;
b) 0-1 megfelels, azaz a beszrs;
c) 1-0 megfelels, azaz a kihagys;
d) 1-N megfelels, azaz a rszekre bonts;
e) N-1 megfelels, azaz az sszevons;
f) N-M megfelels, amely a mondathatr eltoldsbl fakad;
g) N=M megfelels, amely a mondatok sorrendjnek a cserjbl fakad: a forrsnyelvi szveg kt, (a) (b) sorrend mondatnak megfelelje a clnyelv szvegben
(b) (a) sorrendben tallhat meg.
A hetedik megfelelstpust az albbi, a HunOr korpuszbl szrmaz plda szemllteti:
Dombrovszkij ezt a verset igen szerette.
Kit vulkn edzett j elre
S a Nemezis kezbe tett:
A bossz kse vagy szabadsg titkos re,
Brk brja bn s jogtiprs felett!
"#,
$"# # %, &' %,
*" " * 6"#.
7 9
@X &.
346
Szemly
Hely
Szervezet
Egyb
sszesen
orosz
1535
608
137
291
2571
magyar
1487
479
105
224
2295
A HunOr korpusz esetben a horgonykeresst illeten tbb jelents nyelvi tnyezt kell szem eltt tartanunk: Elszr is, az ltalunk feldolgozni kvnt szvegek nem
azonos karakterkszlet nyelvekbl szrmaznak, hiszen a magyar nyelv a latin, az
orosz nyelv a cirill bct hasznlja. A tulajdonnevek teht nem azonos rsmdban
fordulnak el, ami jelents nehezt krlmny pldul egy magyarangol prhuzamos korpusz ltrehozshoz kpest. Tovbbi jelents nehezt krlmny, hogy az
orosz nyelvben az idegen tulajdonneveket nem azok forrsnyelvi betzse, hanem
rszben azok kiejtse alapjn rjk t cirill betkre, pl. New York Times (angol)
X&-\ ^
[Nju Jork Tajms]; Franois de la Chaise (francia)
` "
{ [Fransua de la ez]. E problmkra teht fokozott figyelmet kell fordtanunk
az automatikus prhuzamosts sorn.
Ugyanakkor jelents knnyebbsg, hogy a kz- s a tulajdonnevekben a kezdbetk nagysgt illeten a kt nyelvben nincs alapvet eltrs, illetve, hogy a kt nyelv
kzpontozsi kszlete s annak hasznlati sajtsgai alapveten azonosak.
Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg. Szab Martina Katalin
konferencin val rszvtele a Szegedi Tudomnyegyetem Hallgati nkormnyzata
segtsgvel vlt lehetsgess.
347
Bibliogrfia
1. Klaudy K.: A fordts elmlete s gyakorlata. Angol / francia / nmet / orosz fordtstechnikai pldatrral. Scholastica Kiad, Budapest (1997)
2. Kugler N.: A mondattan ltalnos krdsei. In: Keszler B. (szerk.): Magyar Grammatika.
Nemzeti Tanknyvkiad, Budapest (2000) 369393
3. Laczk K., Mrtonfi A.: Helyesrs. Osiris Kiad, Budapest (2006)
4. Magyar Nemzeti Szvegtr [http://corpus.nytud.hu/mnsz/]
5. Pohl G.: Szvegszinkronizcis mdszerek, hibrid bekezds- s mondatszinkronizcis
megolds. In: Alexin Z., Csendes D. (szerk.): MSzNy 2003 I. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2003) 254259
6. Rcz E.: Mondattan. In: Rcz E. (szerk.): A mai magyar nyelv. Nemzeti Tanknyvkiad,
Budapest (1968) 205458
7. Szeged Korpusz [http://www.inf.u-szeged.hu/projectdirs/hlt/]
8. Tompa J.: A mondat s a mondattan ltalnos krdsei. In: Tompa J. (szerk.): A mai magyar nyelv rendszere. Ler nyelvtan II. Akadmiai Kiad, Budapest (1962) 722
9. Tth, K., Farkas, R., Kocsor, A.: Hybrid algorithm for sentence alignment of HungarianEnglish parallel corpora. Acta Cybernetica Vol. 18, No. 3 (2008) 463478
10. Vincze V., Felvgi Zs., R. Tth K.: Flig kompozicionlis szerkezetek a SzegedParalell
angolmagyar prhuzamos korpuszban. In: Tancs A., Vincze V. (szerk.): MSzNy 2010
VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged
(2010) 91101
11. $^`, .. .: ^ ^^ ^ `$^^. `
^^ `^. $$ , (2007)
12. ^`` [http://www.ruscorpora.ru/]
13. `$, ..: ^ . ^ $^ . `^ $,
``` ^ $``. ^ `^^$$, (1988)
14. , ..: ^^ . `$^. ^. 3- ^`^.
$$ ^`$, $-$ (2000)
15. [http://www.ling.helsinki.fi/projects/hanco/]
348
Kivonat: Clunk egy olyan morfolgiai elemz megolds ltrehozsa, mely tlagos felhasznls mellett a szavak nagy arnyt tudja elemezni, megengedve a
helytelen szavak kzeli rtelmezst is. Ennek a megoldsnak mszakilag
platformfggetlennek s kevs sz elemzse esetn is hatkonynak kell lennie.
Ennek rdekben egy olyan statikus MySQL adatbzist ptnk, mely tartalmazza a szalakokat s azok elemzst, gy a szavak elemzse adatbzislekrdezssel trtnhet. Kell feltltttsggel ez az adatbzis megvalsthatja
clunkat.
1 Bevezets
Az elmlt vekben sikerrel s nagy megelgedsnkre hasznltuk az OcaMorph morfolgiai elemzprogramot [1]. Funkcionalitsi szempontbl magyar szavak morfolgiai elemzsre a legjobb megoldsok egyike. Technikai szempontbl azonban vannak htrnyai:
x Csak kln folyamatknt lehet elindtani, nehezen s/vagy nem hatkonyan integrlhat ms rendszerekbe.
x Magas a kezdeti inicializls idignye, gyakori, de kevs szt tartalmaz elemzsi
feladatokra nem hatkony. (Ilyen hasznlat merl fel pl. ajnlrendszerek esetben.)
Clunk egy olyan morfolgiai elemz megolds ltrehozsa, mely a fenti technikai
problmkat kikszbli. Ezt egy olyan statikus adatbzis ltrehozsval igyeksznk
elrni, mely trolja a szalakokat s azok morfolgiai elemzseit.
A megoldssal kapcsolatos elvrsainkrl fontos megjegyezni:
x A megoldstl nem vrjuk, hogy teljes legyen, de trekvsnk, hogy tlagos felhasznls esetn a szalakok minl nagyobb arnyt tartalmazza.
x A megoldstl elvrjuk, hogy egy helyes szalakra j elemzseket adjon, de helytelen szalakok esetn csak annyit vrunk el, hogy ha ad elemzst, akkor az alakhoz kzeli elemzseket adjon.
x A megoldstl nem vrjuk, hogy tartalmazza az sszetett szavakat. (Ezek elemzse
jl visszavezethet tbb nem sszetett sz elemzsre.)
349
2 Az adatbzis ltrehozsa
2.1 Adatstruktra
Az adatbzis adatmodelljt az 1. bra szemllteti:
Szfaj
Azonost
Elemzs sztve
Sorrend
Sz
Elemzs
Alak
Szt
Alak
Elemzs affixuma
Sorrend
Korpusz
Lers
Elemz
Lers
Affixum
Azonost
A Szfaj tbla tartalmazza a szfajok listjt (jelenleg 18 sor), kulcsa a szfaj azonostja. Az Affixum tbla tartalmazza az affixum fajtk listjt (jelenleg 137 sor),
kulcsa az affixum azonostja.
A Korpusz tbla tartalmazza a korpuszok listjt (jelenleg 3 sor), kulcsa a korpusz
lersa. A Sz tbla tartalmazza az eddig tallt elemezhet szalakokat (jelenleg
2 300 717 sor), kulcsa az alak. A korpuszokat s a bennk megtallhat szavakat
sszekapcsoljuk.
A Szt tbla tartalmazza az eddig tallt sztvek listjt (jelenleg 199 822 sor),
kulcsa a kapcsold szfaj s az alak prosa.
Az Elemz tbla tartalmazza a morfolgiai elemzk listjt (jelenleg 1 sor), kulcsa
az elemz lersa. Az Elemzs tbla tartalmazza a trolt elemzsek listjt (jelenleg
3 881 689 sor), kapcsoldik hozz az elemz, s az elemzett sz.
Az Elemzs sztve tbla (jelenleg 4 671 757 sor) tartalmazza a kapcsold elemzs ltal megadott sztveket sorrendben. Az Elemzs affixuma tbla (jelenleg
9 543 740 sor) tartalmazza a kapcsold elemzs ltal megadott affixumokat sorrendben.
Mint lthat, az adatmodellt felksztettk a korpuszok sztvlasztsra s a jvbeli esetlegesen elfordul tbbfle morfolgiai elemz egyttes kezelsre.
350
2.2 Feltlts
Az adatbzis feltltse az OcaMorph [1] felhasznlsval trtnt gy, hogy klnbz
korpuszok szavait leelemeztettk az OcaMorph-fal, s a kapott elemzseket betltttk az adatbzisba.
Az albbi korpuszok kerltek feldolgozsra:
x Web korpusz 2.0 [2, 3]
x Magyar wiki korpusz [4]
x Sajt, 368 knyvbl/regnybl ll, az internetrl letlttt korpuszunk.
3 Eredmnyek
3.1 Az adatbzis
Ltrejtt egy statikus (MySQL) adatbzis, mely:
x platformfggetlen;
x jl integrlhat meglv rendszerekbe;
x gyakran vgrehajtsra kerl, de kevs sz elemzst ignyl feladatokra is hatkony.
Tovbbi elnye, hogy az elemzsek egyszerre, hatkonyan llnak rendelkezsre,
gy alkalmass vltak statisztikai elemzsek elvgzsre, pl. szociolingvisztikai elemzsekhez.
3.2 Statisztikk
A fenti hrom korpusz feldolgozsval kb. 2,3 milli szalak sszesen kb. 3,8 milli
elemzst troltuk le. Ezek az elemzsek kzel 260 ezer sztre hivatkoznak.
Az albbi bra szemllteti a szalakok korpuszokon belli elfordulst:
351
352
3. bra. Sztvek, illetve szalakok szma az egy szthz tallt klnbz szalakok szmnak fggvnyben.
4 Jvbeli tervek
4.1 Tovbbi korpuszok bedolgozsa
Tervezzk az adatbzis bvtst tovbbi korpuszok 1.2 pontban lertak szerinti feldolgozsval.
Ennek els lpseknt learattuk az Orszgos Szchenyi Knyvtr online elrhet
anyagait, ezek feldolgozsnak elkszletei jelenleg folynak.
4.2 Szalakok generlsa
Vizsgljuk egy ragozmotor kialaktsnak lehetsgt, mely egy sztbl s egy
affixumsorozatbl szalakot kpezne. Egy ilyen motorral korpusz nlkl lehetne
clzottan bvteni az adatbzist. A ragozmotor kialaktst segti, hogy amint a
Bevezetben is emltettk nem teljessgre treksznk, hanem a gyakorlati felhasznlhatsg tmogatsra.
Az eddigi statisztikk alapjn az adatbzis bvtse az eddig tallt sszes sztvel
s alkalmazhat affixumsorozattal jelents, de megfelel informatikai httrrel kezelhet feladatnak tnik.
4.3 Performancia mrse
Az Orszgos Szchenyi Knyvtr letlttt anyagainak bedolgozsa utn meg kvnjuk
mrni az adatbzis teljessgi mutatit, tovbb mkdsi sebessgt. A jelenlegi m-
353
5 Konklzi
Az elzekben ismertetett statikus MySQL adatbzisra pl megolds kell feltltttsg esetn megvalstja a kitztt clokat. J kiltsok vannak arra, hogy nagy
tallati arnyt ad adatbzist tudjunk pteni.
Bibliogrfia
1.
2.
3.
4.
Trn, V., Nmeth, L., Halcsy, P., Kornai, A., Gyepesi, G., Varga, D.: Hunmorph:
open source word analysis. In: Proceedings of the ACL 2005 Workshop on Software.
(2005) 7785
Halcsy P., Kornai A., Nmeth L., Rung A., Szakadt I., Trn V.: Creating open
language resources for Hungarian. In: Proceedings of the 4th International
Conference on Language Resources and Evaluation (LREC 2004) (2004)
Kornai, A., Halcsy, P., Nagy, V., Oravecz, Cs., Trn, V., Varga, D.:. Web-based
frequency dictionaries for medium density languages. In: Proceedings of the 2nd International Workshop on Web as Corpus (ACL-06) (2006) 19
Hder, M., Farkas, M., Olh, T., Solt, I.: Sztakipedia Mashing Up Natural Language
Processing, Recommender Systems and Search Engines to Support Wiki Article
Editing. In: Proceedings of the AI Mashup Challenge 2011 at Extended Semantic
Web Conference (ESWC). Iraklion, Greece (2011)
354
1 Bevezets
Kutatsunk clja egy lemmatizlst s korltozott morfolgiai elemzst mintaasszocici segtsgvel megvalst mestersges neurlis hlzat implementlsa,
tovbb a neurlis modellezs erssgeinek s nehzsgeinek dokumentlsa.
2 A ksrleteink
A ksrletekhez hasznlt tant adatokat a Magyar Webkorpusz [1] 100000 leggyakoribb szalakjt tartalmaz listrl nyertk, melyet feldolgozs eltt szrtnk. Az gy
elllt, krlbell 82 ezer szavas szlista 63531 elemre adott a Hunmorph [4] legalbb egy elemzst. A szalakokhoz az elemzs sorn kapott lemmt, valamint kivlasztott (egyelre korltozott szm) morfolgiai jegyet tantottunk be.
A ksrleteket neurlis hlzatokkal vgeztk. A bemeneti rtegen (70 neuron)
szalakokat helyeztnk el egy els alkalommal felhasznlt szreprezentcis technikt hasznlva. Az aktivcik innen egy rejtett rtegbe (80 neuron) haladtak tovbb
tanthat, slyozott kapcsolatokat hasznlva, 1:N projekcival. A rejtett rtegbl
hasonlan kialaktott kapcsolatok vezettek a kimeneti rteghez, ahol egyrszt 70 neuron vgezte a szalakkal asszocilt lemma reprezentcijt ugyanazzal a mdszerrel,
amivel a bemenetet kezeltk (elmletileg vgtelen szm sz brzolst lehetv
tve), msrszt bizonyos mennyisg, alapvet morfolgiai informcikat brzol
neuronokat is betantottunk, az adott ksrlet fggvnyben. A tants a visszafel
terjeszts mdszervel trtnt (minden bemenetre kpeztk az aktulis slyokat
hasznlva a kimeneteket, kiszmtottuk a teljes hibt, majd a hibt visszafel terjesztve mdostottuk a slyokat).
Minden minta (szalak-lemma pr) legalbb 650 alkalommal kerlt betantsra. A
bemeneteken s a kimeneteken [0;1] intervallumba es vals rtkek jelentek meg. A
kimeneten mind a lemmt, mind a morfolgiai jegyeket osztlyoztuk a kvetkez
mdon: a 70 vals rtkbl ll lemma-kimenetet a legkzelebbi ismert lemma clvektornak feleltettk meg, a morfolgiai jegyeket pedig 0,4 kimeneti rtk alatt 0-nak
(jegy hinya), 0,4-tl pedig 1-nek (jegy meglte) osztlyoztuk.
A betantst s a tesztelst a LENS neurlis hlzat szimultorban vgeztk [2]. Az
1. brn pldaknt egy hlzat betantsnak szimulcis eredmnyt mutatjuk be,
amelyen alul, balra megfigyelhet a hibadiagram, a jobb als sarokban pedig a betan-
355
Fontos kiemelni, hogy az itt bemutatott ksrleteinkben a tbbrtelmsg (az alternatv alaktani elemzsek) kezelse komoly problmt okozott mr a tervezs fzistl
kezdve. Adott keretek kzt alternatvk betantsa nem lehetsges, hiszen egy alternatva jelenlte (azonos inputra klnbz kimeneti clok) a betantst elrontja. Termszetesen a valsgban a krnyezet klnbzsge jelenti azt az informcit, ami alapjn az egyrtelmsts elvgezhet. A morfolgiai elemzs szoksos, vges llapot
automatkat hasznl vltozata olyan kimenetet ad, amiben az alternatvk mind
megjelennek, s egy ksbbi mondattani elemzs sorn ez vagy egyrtelmsthet,
vagy tovbbi elemzsek bevezetshez vezet (s ekkor a problmt tovbb delegljuk
a szemantikai szintre). A tbbrtelmsg kezelsben azonban nem felttlenl jelent
megoldst az sszes elemzs visszaadsa egy ksbbi egyrtelmsts remnyben
(ahogyan azt a lexikai szemantika vonatkozsban a SenseEval/SemEval versenyekben lthattuk). ppen ezrt a ksbbiekben sem az alternatvk enumercija, hanem
a figyelembe vehet paramterek bvtse (pl. a mondatban szerepl tovbbi szavak,
morfmk figyelembevtele) s ezek alapjn egyrtelm kimenet ellltsa a hossz
tv clunk. Jelen rendszernket gy terveztk, hogy szfajonknt egy elemzst tudunk kezelni; ha egy sz Hunmorph-os elemzse ennek nem felelt meg, akkor kizrtuk a ksrletbl. Ezen a szrn 42625 szalak ment t, ami a Hunmorph ltal sszesen elemzett 63531 alak 67%-a (ez egyben a felidzsi rtk, amely mellett rendszernk Hunmorph-hoz viszonytott pontossga rtend).
A bemeneten megjelen szalakok s a kimeneten elvrt lemmk reprezentlsra
olyan vektorokat kpznk, amelyben az ABC minden betjnek kt vektorelem felel
356
meg. Az egyik azt mutatja meg, hogy az adott bet a sz hnyadik karakterpozcijn
fordul el elszr, a msik pedig azt, hogy az adott bet a sz (sz vgtl szmtva)
hnyadik karakterpozcin fordul el utoljra. Ha egy szban egy bet kettnl tbbszr szerepel, ami nem ritka jelensg, akkor az adott bet els s utols elfordulsnak helye lesz rgztve, a tbbirl nem trolunk informcit. A mdszert Tth [3]
javasolta, ahol tbb reprezentcis eljrs is szerepel, s a mdszerek elzetes tesztelst angol rott, angol fonetikusan trt s magyar szavakon vgezte el. Az ottani
ksrletekbl ltszik, hogy a betk utols elfordulsnak jegyzse nmagban is
nagyon hatsos eszkz egy sz felismersben, de egy tovbbi adat (itt: az els elfordulsok felhasznlsa) fokozza az eljrs pontossgt. Ezek a mdszerek nem
klcsnsen egyrtelm lekpezseket valstanak meg, de ha ez az adott felhasznlshoz szksges, akkor is rendkvl alacsony a hiba. Mostani ksrletnkben 23
olyan szpr volt, melyek olyan szavakbl lltak, amelyeknek reprezentcija azonos
volt. Ez a jelensg a vizsglt 42625 sznak kevesebb mint 1 ezrelkt rintette, ezrt
nem tekintettk jelents hibaforrsnak, s ezeket a szavakat is megtartottuk.
Els ksrletnkben a szfaji felismerst mrtk, mikzben a kimeneten a lemmt
ler egysgek teljestmnyt nem figyeltk. A fnv jegyet 82%, az igt 90%, a mellknevet 84%, a hatrozszt 96%, az egyb kategrit (nvel, ktsz, szmnv,
stb.) 97% pontossggal jelezte a rendszer a 42625 szavas szlistn mrve.
Msodik ksrletnkben t hlzatot tantottunk be, ezek sorrendben a fneveket,
igket, mellkneveket, hatrozkat s vgl az egyb morfolgiai kategrikat kezeltk, s alaklemma, valamint alakmorfolgiai jegy asszocicit vgeztek gy, hogy
bemenetkn a szalakok, a kimenetkn pedig a lemmk s morfolgiai jegyek
voltak brzolva. A fnvi hlzat esetben a figyelt jegyek (gyakorisguk alapjn
kivlasztva) a tbbes szm, a birtokos eset s a trgyeset, az igei hlzatban a tbbes
szm, a mlt id, az 1. s 2. szemly, valamint a trgyas ragozs voltak; a mellkneveknl a tbbes szmot vizsgltuk, a hatrozszknl nem volt megfigyelt jegy. Az
egyb kategriban (5. hlzat) a Hunmorph tovbbi fkategriit (nvel, ktsz,
szmnv stb., sszesen 9 db) azonostottuk 1-1 neuronnal. Amennyiben a bemeneten
megjelent szalaknak nem volt az adott hlzatnak megfelel kategrij elemzse, a
kimeneten a lemmahiny lemma megjelenst vrtuk, a lemma neuronok egyedi
mintzatt figyelve (teht szintn lemmaasszocicis feladatknt); a morfolgiai kimenetek ekkor inaktvak voltak. A hlzatokon mrt pontossgot az 1-5. tblzatokban foglaltuk ssze.
1. tblzat: A fnvi hlzat pontossga a 2. ksrletben.
Cl (db)
15528
27097
Elrt (db)
12667
18818
Pontossg
82%
69%
42625
31486
74%
87%-97%
357
Cl (db)
32393
10232
Elrt (db)
31716
5204
Pontossg
98%
51%
42625
36920
87%
94%-97%
Cl (db)
32533
10092
Elrt (db)
31830
3675
Pontossg
98%
36%
42625
35505
83%
91%
Cl (db)
40448
2177
Elrt (db)
40380
233
Pontossg
99%
11%
42625
40613
95%
Cl (db)
41554
1071
Elrt (db)
41554
8
Pontossg
100%
1%
42625
41562
98%
80%-99%
A hlzatok a nem kompatibilis kategrit, lemmahiny lemmt visszaadva, 82100% pontossggal jeleztk. Helyes kategrij alak esetn a legkzelebbi lemmt 169% kztti pontossggal adtk vissza. A gyakoribb kategrik esetn a (ltez szavakra utal) lemmaasszocici pontossga magasabb volt, lsd a fnvi hlzat adatait. Az adatokbl az is lthat, hogy a baseline rtket (ami az adott hlzat lemma
kimenetn vrt sszes klnbz lemmareprezentci mennyisgvel fordtottan
arnyos) mindegyik hlzat esetben sikerlt jelentsen meghaladni. A hatrozsz
s egyb kategrik nagyon kevs alakkal voltak kpviselve, az elrt alacsony pontossg ennek is ksznhet, ilyenkor azonban a morfolgiai inkompatibilist jelz
lemmahiny llapot visszaadsa igen pontos volt. A figyelt morfolgiai jegyeket
(pl. tbbes szm, birtokos eset, trgyeset stb.) meglehetsen j eredmnnyel jeleztk a
hlzatok, adott jegytl fggen tartalmi szavaknl 87-97%, funkciszavaknl 80-
358
Ksznetnyilvnts
A publikci elksztst rszben az OTKA (K 72983), rszben a TMOP 4.2.1./B09/1/KONV-2010-0007 szm projekt tmogatta az j Magyarorszg Fejlesztsi
Terven keresztl az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi
Alap s az Eurpai Szocilis Alap trsfinanszrozsval, tovbb tmogatta a
TMOP-4.2.2/B-10/1-2010-0024 projekt az Eurpai Uni s az Eurpai Szocilis
Alap trsfinanszrozsval.
Bibliogrfia
1. Kornai, A., Halcsy, P., Nagy, V., Oravecz, Cs., Trn, V., Varga, D.: Web-based frequency
dictionaries for medium density languages. In: Kilgarriff, A., Baroni M. (eds.): Proceedings
of the 2nd International Workshop on Web as Corpus (2006)
2. Rohde, D. L. T.: LENS: The light, efficient network simulator. Technical Report CMU-CS99-164. Carnegie Mellon University, Department of Computer Science, Pittsburgh, PA
(1999)
3. Tth, .: Perspectives on the Lexicon. Akadmiai Kiad, Budapest (2008)
4. Trn, V., Nmeth, L., Halcsy, P., Kornai, A., Gyepesi, G., Varga, D.: Hunmorph: open
source word analysis. In: Proceedings of the ACL 2005 Workshop on Software (2005)
359
Kivonat A modern fonolgiai brzols kzponti eleme a szegmentumok megklnbztet fonolgiai jegyek re trtn felbontsa, ami lehetv teszi a fonolgiai szablyok tmrebb s plauzibilisebb megfogalmazst. Az utbbi idben tbben prbltak rvelni ezeknek a jegyeknek s
kombinatorikus viszonyaiknak, a jegygeometrinak a veleszletett volta
mellett, mikzben msok a fonolginak a lexikonbl val elsajtthatsga mellett trnek lndzst.
Az ismertetend kutats clja, hogy a konvex kombinatorikus geometrik algoritmikus jellemzsnek legfrissebb eredmnyeit felhasznlva egy
memriaalap felgyelet nlkli algoritmust adjon a jegygeometria megtanulsra, ezzel letve a garast a lexikalista llspont mellett ltalnossgban a nyelvi elemek s specilisan a fonolgiai szegmentumok bels
struktrjnak elsajttsban.
Kulcsszavak: korpusznyelvszet, termszetesnyelv-feldolgozs, jegygeometria, felgyelet nlkli tanuls
1.
Bevezets
A fonolgiai jegyek eloszlsalap elsajttsa klnsen rdekes lehet annak fnyben, hogy bizonyos jelensgek, mint pldul a szonoritsprojekci memriaalap magyarzathoz a fonmk szubszegmentlis brzolsra van szksg
(lsd [2]). Amennyiben a szegmentls szintn elvgezhet kizrlag a fonolgiai input alapjn, akkor nincs szksg veleszletett specikus fonolgiai tuds
felttelezsre.
2.
Jegygeometria
360
3.
Antimatroidok
A hierarchikus kapcsolatok egyik legltalnosabb modellje a konvex kombinatorikus geometria vagy a vele ekvivalens antimatroid, egy olyan halmazrendszer,
amely az alaphalmaz elemeinek egyesvel val hozzadsval (vagy elvtelvel)
megkaphat halmazokbl ll.
Belthat, hogy a megklnbztet jegyek rendszere egy antimatroidokbl
ll rendszert alkot, amelyben a fonmk s azok termszetes osztlyai mind
konvex halmazok.
4.
Algoritmusok
5.
Eredmnyek
A kutats jelenlegi szakaszban a paramterek belltsa s a kapott antimatroid vizsglata folyik, ami a teljes halmazrendszer mrete miatt nem egyszer
feladat, ezrt a teljes halmazrendszer helyett annak kisebb fonmahalmazokra
val megszortst rtkeltk.
361
Hivatkozsok
1. Ball, Keith.: An Elementary Introduction to Modern Convex Geometry, Flavors of
Geometry, MSRI Publications Volume 31, Cambridge, Massachusetts, (1997)
2. Daland, Robert, et al..: Explaining sonority projection eects, Phonology 28,
Cambridge University Press, 197234, (2011)
3. Dresher, B. Elan: The contrastive hierarchy in phonology, Toronto Working Papers
in Linguistics, Vol 20, Toronto, 4762, (2003)
4. Kempner, Yulia, et al.: Correspondance between two antimatroid algorithmic characterizations, The Electronic Journal of Combinatorics (www.combinatorics.org),
Vol 10, RR44, (2003)
362
Szerziindex,nvmutat
AbariKlmn,309
Abuczkignes,240
AlbertiGbor,263
AlexinZoltn,329
AlmsiAttila,73,90
BabarczyAnna,252
BekeAndrs,178
BerendGbor,119
BdogAlexa,240
CsapTamsGbor,167
CsernyiGbor,354
CsertIstvn,211
CsipksLszl,190
EhmannBea,223
FazekasJudit,316
FegyTibor,155
FritzAdorjn,223
HjaEnik,47,319
HussamiPter,321
IndigBalzs,336
JaniMtys,323
KrolyMrton,284
KilinImre,276
KissGbor,102
KissHermina,199
KissMrton,102,329
LakiLszlJnos,12
LszlJnos,211
LendvaiPiroska,223
Lindblom,Bjrn,323
MihajlikPter,155
MihltzMrton,223,333
MittelholczIvn,81
MraGyrgy,131
Nagygoston,73,329
NagyT.Istvn,59,341
NmethGza,167
NmethKornl,316
NmethT.Enik,240
NovkAttila,143,336
OlaszyGbor,309
OraveczCsaba,35,190
OroszGyrgy,143,336
PatakiMt,3,24
PlhCsaba,316
PusksLszl,231
RecskiGbor,113
SfrnyKovalikBalzs,102
SassBlint,35,47,81
SchmalczAndrs,341
SiklsiBorbla,143
SimonEszter,81
SzabMartinaKatalin,341
SzaszkGyrgy,178
SzcsnyiTibor,297
SzekrnyesIstvn,190
SzidarovszkyFerencP.,348
TakcsDvid,47,319
TarjnBalzs,155
Ternstrm,Sten,323
TihanyiLszl,35,223
TikkDomonkos,348
363
VsrhelyiDniel,359
VinczeVeronika,59,73,90,119,131,
329,341
ZsibritaJnos,59,131