You are on page 1of 371

VIII.

Magyar Szmtgpes
Nyelvszeti Konferencia

MSZNY 2011
Szerkesztette:
Tancs Attila
Vincze Veronika

Szeged, 2011. december 1-2.


http://www.inf.u-szeged.hu/mszny2011

ISBN:9789633061213

Szerkesztette:TancsAttilasVinczeVeronika
{tanacs,vinczev}@inf.uszeged.hu

Felelskiad:SzegediTudomnyegyetem,InformatikaiTanszkcsoport
6720Szeged,rpdtr2.

Nyomtatta:JATEPress
6722Szeged,PetfiSndorsugrt3034.

Szeged,2011.november

Elsz
2011. december 12n nyolcadik alkalommal rendezzk meg Szegeden a Magyar
SzmtgpesNyelvszetiKonferencit.Nagyrmetjelentszmomra,hogyaren
dezvnyfokozottrdekldstvltottkiazorszgnyelvsbeszdtechnolgiaiszak
embereinekkrben.Akonferenciafcljaahagyomnyokhozhenanyelvs
beszdtechnolgia terletn vgzett legjabb, illetve folyamatban lev kutatsok
eredmnyeinekismertetsesmegvitatsa,mindemellettlehetsgnylikklnfle
hallgatiprojektek,illetveiparialkalmazsokbemutatsrais.

A konferenciafelhvsra szp szmban berkezett tudomnyos eladsok kzl a
programbizottsg40etfogadottelazideivben,gy28eladss12poszter,illet
velaptoposbemutatgazdagtjaakonferenciaprogramjt.Aprogrambanamagyar
szmtgpesnyelvszetteljespalettjrltallhatunkeladsokatabeszdtechno
lgitlkezdveaszmtgpesszemantikaspragmatikaterletntazinformci
kinyersigsgpifordtsig.

AkorbbivekhezhasonlanidnistervezzkaLegjobbIfjKutatiDjodatl
st, mellyel a fiatal korosztly tagjait kvnjuk sztnzni arra, hogy kiemelked
eredmnyekkeljruljanakhozzamagyarorszginyelvsbeszdtechnolgiaikuta
tsokhoz.AdjfelajnlsrtazMTASzmtstechnikaisAutomatizlsiKutatin
tzetnektartozunkksznettel.

Szeretnkksznetetmondaniaprogrambizottsgnak:VmosTiborprogrambizott
sgielnknek,valamintAlbertiGbor,GordosGza,LszlJnos,PrszkyGbors
Vradi Tams programbizottsgi tagoknak. Szeretnm tovbb megksznni a ren
dezbizottsg (Alexin Zoltn, Almsi Attila, Vincze Veronika) s a ktetszerkesztk
(TancsAttila,VinczeVeronika)munkjtis.

CsirikJnos,arendezbizottsgelnke

Szeged,2011.november

Tartalomjegyzk
I.Tbbnyelvsg
Tbbnyelvdokumentumnyelvnekmegllaptsa....................................................3
PatakiMt,VajnaMikls
Statisztikaigpifordtsimdszerekenalapulegynyelvszvegelemz
rendszerssztvest..............................................................................................12
LakiLszlJnos
Fordtsiplgiumokkeresse.....................................................................................24
PatakiMt
Soknyelvprosgpifordtshatkonysmegbzhatkirtkelse...........................35
OraveczCsaba,SassBlint,TihanyiLszl
Igeibvtmnykeretekfordtsiekvivalenseinekkinyersemlyenelemzett
prhuzamoskorpuszbl..............................................................................................47
HjaEnik,TakcsDvid,SassBlint
Fligkompozicionlisszerkezetekautomatikusazonostsamagyarsangol
nyelven.......................................................................................................................59
VinczeVeronika,NagyT.Istvn,ZsibritaJnos

II.Korpusz,ontolgia
Jelentsegyrtelmstettszabadalmikorpusz..........................................................73
Nagygoston,AlmsiAttila,VinczeVeronika
Korpuszptsmagyarkdexekbl...........................................................................81
SimonEszter,SassBlint,MittelholczIvn
NemlexikalizltfogalmakaMagyarWordNetben.....................................................90
VinczeVeronika,AlmsiAttila
AMagyarszelemtrmegalkotsasaMagyargyksztrelkszt
munklatai................................................................................................................102
KissGbor,KissMrton,SfrnyKovalikBalzs,TthDorottya

III.Szintaxis,morfolgia,nvelemfelismers
Aseklymondattanielemzstovbbilpsei..........................................................113
RecskiGbor

vi
Kzssgkeressalapfelgyeletnlkliszfajiegyrtelmsts...........................119
BerendGbor,VinczeVeronika
Szfajikdoksnvelemekegyttesosztlyozsa..................................................131
MraGyrgy,VinczeVeronika,ZsibritaJnos
Magyarnyelvklinikaidokumentumokelfeldolgozsa.........................................143
SiklsiBorbla,OroszGyrgy,NovkAttila

IV.Beszdtechnolgia
Nyelvimodelladaptcigyflszolglatibeszlgetsekgpileiratozshoz...........155
TarjnBalzs,MihajlikPter,FegyTibor
ProzdiaivltozatossgrejtettMarkovmodellalapszvegfelolvasval...............167
CsapTamsGbor,NmethGza
Aszintaktikaiszerkezetautomatikusfeltrkpezseabeszdjelprozdiai
elemzsealapjn......................................................................................................178
SzaszkGyrgy,BekeAndrs
AHuComTechkorpuszsadatbzisszmtgpesfeldolgozsilehetsgei.
Automatikusprozdiaiannotci.............................................................................190
SzekrnyesIstvn,CsipksLszl,OraveczCsaba
AHuComTechaudioadatbzisszintaktikaiszintjnekelveis
szablyrendszernekjdonsgai..............................................................................199
KissHermina

V.Pszicholgia,pragmatika,kognitvnyelvszet
Acsoportkzirtkelsmintacsoporttraumarzelmifeldolgozsnak
indiktoraanemzetitrtnelemelbeszlseiben...................................................211
CsertIstvn,LszlJnos
Szemantikusszerepekvizsglatamagyarnyelvszvegeknarratvpszicholgiai
elemzsben.............................................................................................................223
EhmannBea,LendvaiPiroska,FritzAdorjn,MihltzMrton,TihanyiLszl
Paralingvisztikaijegyekanarratvpszicholgiaitartalomelemzsben:a
magabiztossgkrzisskla........................................................................................231
PusksLszl
Amultimodlispragmatikaiannotcijelentsgeaszmtgpes
nyelvszetben...........................................................................................................240
BdogAlexa,Abuczkignes,NmethT.Enik

vii
Metaforikuskifejezsekszerkezetijellemzi...........................................................252
BabarczyAnna

VI.Szemantika
AzintenzionalitsszmtgpesnyelvszetikezelseavagyaeALISO
szintfggvnye..........................................................................................................263
AlbertiGbor
TrgymodellvltozatokaeALISnyelvielemzshez................................................276
KilinImre
Interpretci,intenzionalits,modalitsavagyaeALISOfggvnynek
implementcijafel................................................................................................284
KrolyMrton
Kvantifikltkifejezsekhatkritbbrtelmsgnekszablyalapkezelse........297
SzcsnyiTibor

VII.Poszterekslaptoposbemutatk
Interaktvformnsrtkmdostfejlesztse.........................................................309
AbariKlmn,OlaszyGbor
Korpuszalapentrpiamrtkekgatingslexikaidntsiksrletekben...............316
FazekasJudit,NmethKornl,PlhCsaba,VargaDniel
Automatikusanellltottprotosztrakkzzttele..............................................319
HjaEnik,TakcsDvid
MASZEKER:szemantikuskeresprogram.................................................................321
HussamiPter
Interaktvfonetikaieszkzazartikulciscsatornakeresztmetszet
fggvnynekmeghatrozsra...............................................................................323
JaniMtys,BjrnLindblom,StenTernstrm
Szabadalmakignypontgrfjnakautomatikusellltsashibaelemzse...........329
KissMrton,VinczeVeronika,Nagygoston,AlexinZoltn
MagyarNPfelismerksszehasonltsa..................................................................333
MihltzMrton
Javbantaggelnk....................................................................................................336
NovkAttila,OroszGyrgy,IndigBalzs
AHunOrmagyaroroszprhuzamoskorpusz...........................................................341
SzabMartinaKatalin,SchmalczAndrs,NagyT.Istvn,VinczeVeronika

viii
Magyarszalaksmorfolgiaielemzsadatbzis..................................................348
SzidarovszkyFerencP.,TthGbor,TikkDomonkos
Lemmaasszocicismorfolgiaijegyekmestersgesneurlishlzatokban........354
Tthgoston,CsernyiGbor
Fonolgiaijegyekfelgyeletnlklitanulsafonemikuskorpuszbl......................359
VsrhelyiDniel

Szerziindex,nvmutat...............................................................362

I.Tbbnyelvsg

Szeged, 2011. december 12.

Tbbnyelv dokumentum nyelvnek megllaptsa


Pataki Mt1, Vajna Mikls1
1

MTA SZTAKI Elosztott Rendszerek Osztly


1111 Budapest, Lgymnyosi utca 11.
{pataki.mate, vajna.miklos}@sztaki.hu

Kivonat: A cikkben egy olyan algoritmust ismertetnk, amely alkalmas arra,


hogy gyorsan s hatkonyan megllaptsa egy szvegrl nemcsak annak elsdleges termszetes nyelvt, de tbbnyelv szveg esetn a msodik nyelvet is
mindezt sztr nlkl egy mdostott n-gram algoritmus segtsgvel. Az algoritmus jl mkdik vegyes nyelv, akr sztrknt felptett, szavanknt vltoz nyelv dokumentumokon is.

1 Bevezets
Egy digitlis, termszetes nyelven rdott dokumentum nyelvnek megllaptsra
szmos lehetsg van, s a szakma ezt a problmt nagyrszt megoldottnak tekinti
[1][2][3], ugyanakkor a dokumentum nyelvnek megllaptsa nem mindig egyrtelm feladat.
A leggyakrabban hasznlt algoritmusok igen jl mkdnek tesztdokumentumokon
vagy j minsg, gondosan elksztett gyjtemnyeken, ha lehet rluk tudni, hogy
egy nyelven rdtak. Neknk azonban szksgnk volt egy olyan algoritmusra, amely
internetrl letlttt dokumentumokon is jl gyorsan s megbzhatan mkdik. A
KOPI plgiumkeres programunk interneten tallt, megbzhatatlan eredet, gyakran
hibs dokumentumokat dolgoz fel, s ennek sorn lnyeges, hogy a dokumentum
nyelvt, illetve fbb nyelveit megfelelen ismerje fel, azaz tbbnyelv dokumentumok esetben is megbzhatan mkdjn.
A jelenleg nyelvfelismersre hasznlt algoritmusok erre nem voltak kpesek magukban, gy az egyik algoritmust gy mdostottuk, hogy amennyiben egy dokumentumban nagyobb mennyisgben tallhat ms nyelv szveg, akkor azt jelezze, s gy
a plgiumkeres rendszer ezt mint tbbnyelv dokumentumot tudja kezelni.
Az algoritmussal szemben az albbi elvrsokat tmasztottuk:
1.
2.
3.
4.

Jelezze, ha a dokumentum tbb nyelven rdott, s nevezze meg a nyelveket


Az algoritmus gyors legyen
A szveget csak egyszer kelljen vgigolvasni
Ne sztr alap legyen (kdolsi s betantsi problmk miatt)

A legegyszerbb megoldsnak az n-gram algoritmus tnt [1][4], mivel ezen algoritmust hasznlva csak egyszer kell vgigolvasni a dokumentumot s az n-gram sta-

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

tisztikkbl meg lehet llaptani, hogy a dokumentum milyen nyelven rdott, s ha


vannak megfelel mintink mg a kdolst is meg tudja hatrozni.
Az n-gram viszont nem teljesti az els felttelt, miszerint a tbb nyelven rdott
dokumentumokat is fel kell ismernie. Ugyan elmletileg elkpzelhet lenne, hogy a
dokumentumot szakaszokra osztjuk, s szakaszonknt llaptjuk meg a dokumentum
nyelvt, de ez a megolds sajnos kt esetben is hibs eredmnyre vezet. Gyakran tallkoztunk olyan dokumentummal, amelyik gy volt felptve, mint egy sztr, azaz a
kt nyelv nem szakaszonknt, hanem mondatonknt st egyes esetekben szavanknt
vltakozott. A msik problma akkor jelentkezett, amikor a dokumentum pldul
egy korbbi hibs konverzi miatt tartalmazott HTML- vagy XML-elemeket, amelyek miatt rvid dokumentumok esetben hibsan angol nyelvnek tallta az algoritmus azokat.
Ezek kikszblsre kezdtk el tovbbfejleszteni az n-gram algoritmust, amely
alapbl csak arra alkalmas, hogy a dokumentumban leggyakrabban hasznlt nyelvet
megllaptsa, de a msodik leggyakoribb nyelv mr nem a msodik a listban. Ennek
oka, hogy a nyelvek hasonltanak egymsra, s pldul egy nagyrszt olasz nyelv
dokumentum esetben a spanyol nyelv akkor is nagyobb rtket kap, mint a magyar,
ha a dokumentum egy rsze magyar nyelven rdott.
Az j algoritmusunkba ezrt beptettnk egy nyelvek kztti hasonlsgi metrikt, amelyet a hamis tallatok rtknek a cskkentsre hasznlunk. A metrika segtsgvel meg lehet llaptani, hogy a msodik, harmadik... tallatok valdiak-e, vagy
csak kt nyelv hasonlsgbl fakadnak.

2 Az eredeti algoritmus
Az n-gram algoritmus mkdse igen egyszer, legenerlja egy nyelvnek a leggyakoribb bet n-gramjait, azaz a pldul 1, 2, 3 bet hossz rszeit a szvegnek, majd
ezeket az elfordulsi gyakorisguk szerint teszi sorba. A magyar nyelvben ez a 100
leggyakoribb n-gram az ltalunk hasznlt tesztszvegben ( _ a szkz jele):
1. _
33. s_
17. y
49. er
2. e
34. _m
18. _a
50. f
3. a
35. _a_
19. b
51. ek
4. t
36. en
20. d
52. te
5. s
37.
21. a_
53. s
6. l
22. v
38. n_
54. _s
7. n
23. t_
39. _k
55. al
8. k
24. sz
40. j
56. ta
9. i
25. el
41. ._
57.
10. r
26. ,
42. i_
58. _h
11. z
27. ,_
43. eg
59. _t
12. o
28. h
44. p
60. an
13.
29. k_
45. _e
61. ze
14.
30. .
46. u
62. me
15. g
31. et
47. le
63. at
16. m
32. gy
48.
64. l_

Szeged, 2011. december 12.


65.
66.
67.
68.
69.
70.
71.
72.
73.

es

y_
z_
tt
ke
_v
s
ak

74.
75.
76.
77.
78.
79.
80.
81.
82.

5
_
ny
t
c
re
to
A
e_

83.
84.
85.
86.
87.
88.
89.
90.
91.

ne
os
l
_f
az
zt
r
_n
ko

92. _A
93. _sz
94. is
95. ve
96. gy_
97. t
98. _b
99. ra
100.or

Kt szveg sszehasonltsa gy trtnik, hogy a kt n-gram listn sszeadjuk az


azonos n-gramok helyezseinek a klnbsgt, s ez adja a kt dokumentum kztti
hasonlsg mrtkt. Kt azonos nyelven rt dokumentum kztt alig, mg klnbz
nyelvek kztt szignifikns lesz a klnbsg. Ezrt hasznlhat ez az algoritmus a
dokumentum nyelvnek megllaptsra.
Pldnak nzzk meg az angol nyelv pldadokumentumunk els 10 n-gramjt, s
hasonltsuk ssze a magyarral.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

_ (1-1)
e (2-2)
t (3-4)
o (4-12)
n (5-7)
i (6-9)
a (7-3)
s (8-5)
r (9-10)
h (10-28)

Az eredmny 0+0+1+8+2+3+4+3+1+18 = 40. Ez a klnbsg egyre nagyobb lesz,


ahogy lejjebb megynk a listban. Mivel nem lehet vgtelen hossz listt kszteni,
gy azokat az n-gramokat, amelyek az egyik listban szerepelnek, de a msikban nem,
gy vesszk figyelembe, mintha a lista utols helyn lltak volna. Mi egy 400-as listval dolgoztunk, azaz az els 400 n-gramot troltuk el minden nyelvhez.
Ennek megfelelen a kt nyelv elmleti minimlis tvolsga 0, maximlis tvolsga (rmax) pedig 4002 azaz 160 000. Ebbl a szzalkos hasonlsgot a

hszzalkos = rmax  r / rmax / 100

sszefggssel kapjuk.
Pldnak nzzk meg, hogy mekkora hasonlsgot mutatnak klnbz nyelv
dokumentumok a mintadokumentumainkhoz kpest. Az egyszerbb olvashatsg
rdekben hszzalhos rtkekkel szmolva a klnbz nyelv Szeged Wikipdiaszcikkekre [5][6][7][8][9].

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A magyar nyelv szcikk esetn az albbi eredmnyt kapjuk, az els 5 tallatot


krve:
1. magyar: 35.49
2. breton: 27.70
3. szlovk: 27.42
4. eszperant: 26.98
5. kzp-frzi: 26.79
Az angol nyelv szcikk esetn az albbi eredmnyt kapjuk:
1. angol: 44.37
2. skt: 35.67
3. romans: 35.34
4. nmet: 33.74
5. romn: 33.73
A nmet nyelv szcikk esetn az albbi eredmnyt kapjuk:
1. nmet: 57.13
2. holland: 38.15
3. kzp-frz: 37.71
4. dn: 37.48
5. frz: 36.58
Az olasz nyelv szcikk esetn az albbi eredmnyt kapjuk:
1. olasz: 35.21
2. romn: 33.95
3. kataln: 33.46
4. spanyol: 32.18
5. romans: 31.78
Jl lthat az eredmnyekbl, hogy a bartsgos nyelvek esetben magas hasonlsgot mutat a dokumentum a rokon nyelvekre, azaz egy olasz nyelv dokumentum
majdnem ugyanannyi pontot kap az olaszra, mint a spanyolra.
Most nzzk meg, hogy ktnyelv, 50-50 szzalkban kevert dokumentumokra
mit kapunk.
Egy magyar-angol nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. angol: 40.80
2. magyar: 39.45
3. skt: 38.41
4. afrikaans: 34.69
5. kzp-frz: 34.19
Egy magyar-olasz nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. olasz: 49.56
2. romans: 45.25
3. kataln: 41.60
4. latin: 41.26
5. romn: 41.18

10. magyar: 38.02

Szeged, 2011. december 12.

Egy magyar-francia nyelv dokumentum esetn az albbi eredmnyt kapjuk:


1. francia: 38.16
2. kataln: 36.74
3. eszperant: 34.26
4. spanyol: 34.08
5. romans: 33.71

7. magyar: 33.2
Egy angol-nmet nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. nmet: 53.47
2. angol: 44.14
3. frz: 40.98
4. kzp-frz: 40.61
5. holland: 40.08
Lthat, hogy a magyar-olasz, ill. magyar-francia kevert szvegben a magyar
nyelv bele se kerlt az els 5 tallatba.
Vgl nzzk meg, hogy egy hromnyelv, harmadolt arnyban kevert dokumentumra mit kapunk.
Egy magyar-angol-olasz nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. angol: 46.55
2. olasz: 44.55
3. romans: 43.58
4. kataln: 42.41
5. romn: 41.11

10. magyar: 38.26


Lthatjuk, hogy a hromnyelv szvegben sem kerl be az els t helyre a magyar
nyelv.

3 Az j algoritmus
Mint lttuk, bizonyos nyelvek hasonltanak egymsra az n-gram algoritmus szempontjbl, gy egy tbbnyelv dokumentum esetn a msodik helyen nem minden
esetben a dokumentum msodik nyelvt talljuk, radsul az se derl ki, hogy a msodik nyelv azrt kerlt oda, mert valban szerepel a dokumentumban, vagy azrt,
mert hasonlt az els nyelvre. Ezrt az j algoritmusunkban elkezdtk kiszmolni a
nyelvek kztti hasonlsgot, mghozz a nyelvfelismershez hasznlt n-gram mintk kztti hasonlsgot. A tvolsgok tipikus rtkeire nzznk nhny esetet.
A magyar nyelvhez legkzelebb ll nyelvek tvolsg-rtkei:
1. breton: 104 541
2. kzp-frz: 104 751
3. svd: 106 068

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


4. eszperant: 106 469
5. afrikaans: 106 515
Az angol nyelvhez legkzelebb llk:
1. skt: 85 793
2. francia: 88 953
3. kataln: 89 818
4. latin: 90 276
5. romans: 92 936
Vgl az olasz nyelvhez legkzelebb llk:
1. romans: 79 461
2. romn: 85 232
3. kataln: 85 621
4. spanyol: 86 138
5. latin: 86 247

Szmos algoritmussal prblkoztunk, melyek kzl az albb lert bizonyult a legmegbzhatbbnak.


Egy D dokumentumra kapott szzalkos hasonlsgaink (hszzalkos), a szzalkos hasonlsg mrtknek nvekv sorrendjben legyen: h1, h2, h3 stb., a nyelveket
jellje L1, L2, L3, azaz a h1 a D dokumentum hasonlsgt mutatja az L1 nyelv
mintnkkal szzalkban. A nyelvek kztti szzalkos hasonlsgot pedig jelljk
hL1L2-vel. hi legyen az j algoritmus ltal az Li nyelvre adott rtk.

hi ' hi
i 1

hi ' hi 

ha i 1

u hLiLk

k 1

i 1

ha i ! 1

k 1

Az algoritmus tulajdonkppen minden nyelv valsznsgt cskkenti az eltte


megtallt nyelvek valsznsgvel, gy kompenzlva a nyelvek kztti hasonlsgbl add torzulst. Pldnak nzzk meg, hogy mekkora hasonlsgot mutatnak
klnbz nyelv dokumentumok a mintadokumentumainkhoz kpest ezzel az j
algoritmussal szmolva.
Egy magyar nyelv dokumentum (Szeged Wikipdia-szcikke) esetn az albbi
eredmnyt kapjuk, az els 5 tallatot krve:
1. magyar: 35.49
2. knai: 2.09
3. japn (euc jp): 1.81
4. koreai: 1.70
5. japn (shift jis): 1.58

Szeged, 2011. december 12.

Egy angol nyelv dokumentum esetn az albbi eredmnyt kapjuk:


1. angol: 44.21
2. nepli: 3.84
3. knai: 2.53
4. vietnami: 2.08
5. japn: 1.14
Egy nmet nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. nmet: 57.13
2. knai: 2.55
3. japn (shift jis): 2.19
4. japn (euc jp): 1.93
5. nepli: 1.27
Egy olasz nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. olasz: 35.21
2. knai: 1.07
3. perzsa: 0.68
4. japn: 0.57
5. jiddis: 0.55
Jl lthat az eredmnyekbl, hogy a bartsgos nyelvek esetben a nyelvek hasonlsgbl add hamis tbbletpontok kiszrsre kerltek, azaz egy olasz nyelv dokumentumnl a spanyol nyelv mr meg se jelenik az els t tallatban. Most nzzk
meg, hogy a ktnyelv, 50-50 szzalkban kevert dokumentumokra mit kapunk.
Egy magyar-angol nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. angol: 40.80
2. magyar: 9.40
3. thai: 1.54
4. armeniai: 1.39
5. koreai: 1.37
Egy magyar-olasz nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. olasz: 49.56
2. magyar: 7.44
3. walesi: 2.31
4. breton: 1.92
5. r: 1.68
Egy magyar-francia nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. francia: 38.16
2. magyar: 2.11
3. thai: 1.42
4. koreai: 1.16
5. knai: 0.70
Egy angol-nmet nyelv dokumentum esetn az albbi eredmnyt kapjuk:
1. nmet: 53.47
2. angol: 7.79
3. walesi: 2.08

10

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


4.
5.

frz: 1.48
nepli: 1.44

Lthat pldul, hogy a magyar-olasz kevert szvegben a magyar nyelv immr a 2.


helyre kerlt, a korbbi eredeti algoritmus ltal megadott 10. helyrl.
A ktnyelv dokumentumok esetben nem mindegy, hogy a nyelvek milyen
arnyban keverednek, rthet mdon egy bizonyos arny felett az egyik nyelv ngramjai elnyomjk a msikt. Ezt egy angol-magyar dokumentumsorozat segtsgvel nzzk meg. Az egyes rszek arnya a 9 dokumentum sorn a 10% angol, 90%
magyar sszettelrl 90% angol s 10% magyar sszettelre vltozott:
10% angol, 90% magyar:
1. magyar: 38.01
2. koreai: 1.53
3. thai: 1.20
4. japn (euc): 1.14
5. japn (shift): 1.09

40% angol, 60% magyar:


1. angol: 37.62
2. magyar: 5.41
3. japn (euc): 1.47
4. thai: 1.46
5. japn (shift): 1.45

70% angol, 30% magyar:


1. angol: 44.92
2. vietnmi: 1.74
3. mingo: 1.67
4. knai: 1.46
5. armn: 1.36

20% angol, 80% magyar:


1. magyar: 37.93
2. thai: 1.18
3. koreai: 1.17
4. japn: 1.16
5. armn: 1.11

50% angol, 50% magyar:


1. angol: 40.93
2. magyar: 5.30
3. thai: 1.49
4. japn (shift): 1.47
5. japn (euc): 1.37

80% angol, 20% magyar:


1. angol: 46.56
2. vietnmi: 2.07
3. mingo: 2.00
4. japn: 1.47
5. walesi: 1.43

30% angol, 70% magyar:


1. magyar: 37.47
2. angol: 4.91
3. thai: 1.22
4. armn: 1.18
5. japn: 1.16

60% angol, 40% magyar:


1. angol: 41.66
2. magyar: 3.43
3. knai: 1.50
4. vietnmi: 1.48
5. mingo: 1.45

90% angol, 10% magyar:


1. angol: 48.1
2. vietnmi: 1.51
3. nepli: 1.40
4. thai: 1.05
5. knai: 1.05

A fenti tblzat csak egy plda, de a tbbi nyelvprra is hasonl eredmnyeket


kaptunk. Lthat, hogy az algoritmus 30% krl kezd el hibzni, azaz akkor tallja
meg megbzhatan a msodik nyelvet, ha az a szveg tbb mint 30%-t teszi ki.
Hasonl eredmnyt kapunk egy hromnyelv, harmadolt arnyban kevert, magyar-angol-olasz nyelv dokumentum esetn is:
1. angol: 46.55
2. magyar: 7.59
3. olasz: 6.18
4. breton: 3.11
5. skt: 2.85

Szeged, 2011. december 12.

11

Lthatjuk, hogy a hromnyelv szvegben az els hrom helyen szerepelnek a vals


nyelvek, de azrt itt el kell mondani, hogy ez csak az egyenl arnyban kevert hromnyelv dokumentumok esetn mkdik jl. Ha ez az arny eltoldik, akkor gyorsan kieshet egy-egy nyelv. Tapasztalatunk szerint az j algoritmus hrom nyelvet mr
nem tall meg megbzhatan, gy ilyen dokumentumok tmeges elfordulsa esetn
ms algoritmust ajnlott vlasztani.

5 Konklzi
Ahhoz, hogy megllaptsuk, egy dokumentum egy vagy tbb nyelven rdott-e, kell
vlasztanunk egy olyan rtket, ami felett azt mondjuk, hogy a msodik nyelv is relevns, azaz a dokumentum tbbnyelv. Ezt az rtket a tesztek alapjn 4-nek vlasztottuk, azaz 4-es rtk felett jelezzk csak ki a nyelveket. Ez az rtk a felhasznlsi
ignyeknek megfelelen vlaszthat. Akkor rdemes valamivel alacsonyabbra lltani, ha mindenkpp szre szeretnnk venni, ha a dokumentum ktnyelv, ha pedig
csak igazn nagy idegen nyelv rszek rdekelnek, s nem okoz gondot a hibsan
egynyelvnek tallt dokumentum, akkor llthatjuk akr magasabbra is.
Ezzel a paramterrel az algoritmust rszletesen teszteltk a plgiumkeresnkbe feltlttt dokumentumokon, s a vele szemben tmasztott ignyeknek messzemenkig
megfelelnek talltuk. Ki tudtuk szrni vele a rosszul konvertlt s tbbnyelv dokumentumok tbb mint 90%-t. A tesztek befejezse utn az j algoritmust beptettk a KOPI Plgiumkeres rendszerbe, ahol a korbbi, kevsb pontos eredmnyt ad
algoritmust vltotta ki.

Bibliogrfia
1. Cavnar, W. B.; Trenkle, J. M.: N-Gram-Based Text Categorization. Proceedings of Third
Annual Symposium on Document Analysis and Information Retrieval. UNLV
Publications/Reprographics, Las Vegas, NV, (1994) 161-175
2. ehek, R.; Kolkus, M.: Language Identification on the Web: Extending the Dictionary
Method. In: 10th International Conference on Intelligent Text Processing and
Computational Linguistics (2009)
3. Benedetto, D.; Caglioti, E.; Loreto. V.: Language trees and zipping. Physical Review Letters
Vol. 88, No. 4 (2002)
4. Dunning, T.: Statistical Identification of Language. Technical Report MCCS 94-273, New
Mexico State University (1994)
5. Wikipedia: Szeged szcikk magyar nyelven, http://hu.wikipedia.org/wiki/Szeged (2011)
6. Wikipedia: Szeged szcikk angol nyelven, http://en.wikipedia.org/wiki/Szeged (2011)
7. Wikipedia: Szeged szcikk nmet nyelven, http://de.wikipedia.org/wiki/Szeged (2011)
8. Wikipedia: Szeged szcikk olasz nyelven, http://it.wikipedia.org/wiki/Seghedino (2011)
9. Wikipedia: Szeged szcikk francia nyelven, http://fr.wikipedia.org/wiki/Szeged (2011)

12

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Statisztikai gpi fordtsi mdszereken alapul


egynyelv szvegelemz rendszer s sztvest
Laki Lszl Jnos1
Pzmny Pter Katolikus Egyetem, ITK,
1083, Budapest, Prter u. 50/a,
e-mail: laki.laszlo@itk.ppke.hu
Kivonat Jelen munkban az SMT mdszer alkalmazhatsgt vizsgltam szfaji egyrtelmst s sztvest feladat megoldsra. Ltrehoztam egy alaprendszert, illetve tovbbi lehetsgeket prbltam ki a rendszer eredmnyeinek javtsra. Megvizsgltam, milyen hatst gyakorol a
clnyelvi sztr mretnek vltoztatsa a rendszer minsgre, tovbb
megoldst kerestem a tant halmazban nem szerepl szavak elemzsnek megoldsra.
Kulcsszavak: Statisztikai Gpi Fordts (SMT), szfaji egyrtelmsts
(POS tagging), sztvests, Szeged Korpusz, OOV

1.

Bevezets

Az informatika fejldse szinte az sszes tudomnyg szmra j lehetsgek


halmazt nyitotta meg, s ez nincs mskpp a nyelvszetben sem. Napjaink szmtgpei segtsgvel kpesek lettnk risi mret szveges anyagok gyors s
hatkony kezelsre, feldolgozsra. A szvegek szintaktikai s/vagy szemantikai informcival trtn jellse, valamint a szavak szfaji elemzse rendkvl
fontos feladat a szmtgpes nyelvszet szmra. A szfaji egyrtelmsts problmja korntsem megoldott, annak ellenre, hogy sokfle rendszer ltezik ennek
implementlsra. A legelterjedtebbek a gpi tanulson alapulnak, melyek maguk ismerik fel a szablyokat a klnbz nyelvi jellemzk segtsgvel. Tovbbi
nehzsget jelent azonban ezen jellemzk meghatrozsa, hiszen a klnbz sajtossgok nehezen fogalmazhatk meg.
Ezzel szemben a statisztikai gpi fordt (SMT) rendszerek elzetes nyelvi
ismeret nlkl kpesek a fordtshoz szksges szablyok felismersre. Kzenfekv megoldsnak tnik SMT rendszerek alkalmazsa szvegelemzsre. Munkm sorn az ebben rejl lehetsgeket vizsgltam a szfaji egyrtelmsts s
sztvests feladatnak megoldsra.

2.

A szfaji egyrtelmsts

Szfaji egyrtelmsts az a folyamat, amely a szvegben tallhat szavakat ltalnos lexikai jelentsk s kontextusuk alapjn megjelli a megfelel POS cm-

Szeged, 2011. december 12.

13

kvel. Egy helyesen cmkzett mondatban minden szhoz pontosan egy cmke
van rendelve. Ennek ellenre a szfaji egyrtelmsts sokkal komplexebb feladat
egy sz s cmkjnek listjbl val kikeresshez kpest, mivel egy sznak tbb
szfaji alakja is lehet.
Erre a feladatra ltrehozott els megoldsok elre megrt szablyrendszerek
segtsgvel elemezik a szveget. A problma ezekkel a rendszerekkel a szablyok
ltrehozsnak magas kltsge volt. Napjaink elterjedt rendszerei gpi tanulson
alapul mdszereket hasznlnak, amelyek klnbz nyelvi jellemzk segtsgvel
maguk ismeri fel a szablyokat, m a megfelel jellemzk meghatrozsa szintn
nehz feladat. A klnbz nyelvi sajtossgok nehezen fogalmazhatk meg s
llthatk ssze olyan teljes, mindent magba foglal szablyrendszerr, mely a
szmtgp szmra feldolgozhat. Ilyen nyelvi sajtossgok lehetnek pldul a
nyelvek kztti fordts szablyai, valamint a morfolgiai elemzs.
A szfaji egyrtelmstk teljestmnynek egyik nagyon fontos tnyezje a
tanthalmazban nem szerepl szavak (OOV: out-of-vocabulary) elemzse. Az
OOV szavak elemzse nagyban fgg az elemzend nyelvtl. Pldul az angol
nyelv esetben nagy valsznsggel az OOV szavak tulajdonnevek lesznek. Ezzel
szemben ms nyelvek esetben mint a magyar vagy a mandarin knai az OOV
szavak fnevek s igk is lehetnek.[1]
2.1.

A sztvests

Lemmatizls szmtgpes nyelvszeti szempontbl az az algoritmikus folyamat, amelyik meghatrozza egy sz sztri alakjt. Napjainkban tbb megvalsts is ltezik ezen feladat megoldsra (pldul: HUMOR [2]), de ezek ltalban
bonyolult mdszereket alkalmaznak. Ezzel szemben az SMT rendszeren alapul
sztvests elzetes nyelvtani ismeret nlkl vgzi el ezt a feladatot.
2.2.

Ltez megvalstsok

Oravecz s Dienes 2002-ben ksztettk el az els magyar nyelv sztochasztikus


POS-taggert. A rendszer MSD-kdokat hasznl s 98.11%-os pontossgot rt el
[3].
Halcsy et al. ltrehoztak egy maxent modellen alapul szfaji egyrtelmstt. Csoportjval 2007-ben ltrehoztk a HunPOS nev rendszert, ami napjaink legjobb magyar nyelv POS-taggerjnek szmt. A rendszer MSD-kdokat
hasznl s 98.24%-os pontossgot rt el [4].

3.

Statisztikai gpi fordts

A statisztikai nyelvfeldolgozs elterjedt alkalmazsa a gpi fordts. A statisztikai gpi fordt (SMT) mdszer nagy elnye a szablyalap fordtssal szemben,
hogy az architektra ltrehozshoz nem szksges a nyelvek grammatikjnak
ismerete. A rendszer tantshoz csupn egy ktnyelv korpuszra van szksg,
amelybl statisztikai meggyelsekkel nyerjk ki a szablyokat. A fordts sorn

14

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

az egyetlen, amit biztosan tudunk, az a mondat, amit le szeretnnk fordtani (forrsnyelvi mondat). Ezrt a fordtst gy vgezzk, mintha a clnyelvi mondatok
halmazt egy zajos csatornn tengednnk, s a csatorna kimenetn sszehasonltannk a forrsnyelvi mondattal.
= argmax p(E|F ) = argmax p(F |E) p(E)
E
E

(1)

amelyik a legjobban hasonlt a


Az a mondat lesz a rendszernk kimenete (E),
fordtand (forrsnyelvi) mondatra. Ez a hasonlsg lnyegben egy valsznsgi
rtk, amely a nyelvi modellbl p(E) s a fordtsi modellbl p(F |E) szmolhat.
Lsd az 1. egyenletben.

4.

A POS-Tagging problma mint SMT-problma

Amint a bevezetben mr emltettem, a szvegelemzs is megfogalmazhat ford megfogalmaztsi feladatknt. Egy tetszleges mondat (F ) szfaji elemzse (E)
hat a kvetkez egyenlettel:
= argmax p(E|F ) = argmax p(F |E) p(E)
E
E

(2)

ahol p(E) a cmkk nyelvi modellje s p(E|F ) a fordtsi/elemzsi modell.


A fordtsi feladathoz hasonlan a forrsnyelvi mondatot kifejezsek halmaznak tekintjk, ahol minden frzist a cmkk egy halmazra fordtunk. Egy termszetes nyelvek kzti fordtshoz kpest a szfaji egyrtelmsts egyszerbb az
SMT-rendszerek szmra, hiszen nincs szksg a mondatban elhelyezked szavak sorrendjnek megvltoztatsra. A fordts sorn a forrsnyelvi s clnyelvi
oldal szavainak szma is megegyezik, azaz a rendszer nem vgez elembeszrst
s trlst.[1,5] Ezen tulajdonsgok miatt az SMT-rendszer jl alkalmazhat megvalstsnak tnik szfaji egyrtelmstsre.

5.

Munkm sorn alkalmazott rendszerek

A kvetkez fejezetben bemutatom a munkm sorn alkalmazott keretrendszereket.


5.1.

MOSES

Tbb mdszert is megvizsgltam, melyek kpesek prhuzamos korpuszbl informcit kinyerni. Vgl az IBM modellek mellett dntttem, mivel hatkony,
viszonylag pontos, s a feladatnak nagyon jl megfelel algoritmusnak bizonyultak. Ezrt kezdtem hasznlni a Moses keretrendszert [6,7,8], amely implementlja
ezeket a modelleket. Ebben a rendszerben megtallhat a prhuzamos korpusz
elfeldolgozsa, a fordtsi s nyelvi modellek ltrehozsa, a dekdols, valamint
a BLEU-metrikra val optimalizls.

Szeged, 2011. december 12.


5.2.

15

Joshua

Msfell a Joshua keretrendszert [9] hasznltam, mely nem pusztn sz- vagy
frzisszint statisztikai valsznsgi modelleket hasznl, hanem bizonyos nyelvtani jellemzk elfordulst is gyelembe veszi. A Joshua rendszer tovbbi nagy
elnye, hogy kpes ezen generatv szablyok kzti fordtsra oly mdon, hogy
megadhatak a szablyok mind a forrsnyelvre, mind a clnyelvre, valamint az
is denilhat, hogy mekkora valsznsggel transzformlhatk t a szablyok
egymsba.
5.3.

Korpusz

Az SMT-rendszer tantshoz szksges ktnyelv prhuzamos korpuszt, a Szeged Korpusz 2.0-t hasznltam. A korpusz elnyei, hogy a szavak MSD-kdols
POS-cmki mellett azok sztvei is szerepelnek benne, ltalnos tmj, valamint kszti kzzel ellenriztk annak helyessgt. Htrnya, hogy viszonylag
kis mret. Mivel a szfaji cmkk elemszma korltozott, ezrt elvben kisebb
mret korpuszban is elg nagy gyakorisggal szerepelhetnek. [10,11]
5.4.

Kirtkel mdszerek

A rendszer minsgnek kirtkelshez a BiLingual Evaluation Understudy


(BLEU) mdszert hasznltam, amely egy gyakran alkalmazott mdszer az SMTrendszerek minsgnek vizsglata. Lnyege, hogy a fordtsokat referenciafordtsokhoz hasonltja, majd hozzjuk egy 0 s 1 kztti vals rtket rendel.
Ezt BLEU-rtknek nevezzk. Tanulmnyomban ennek szzalkostott formjt
hasznlom. [12]
Msfell egy Levenshtein tvolsgon alapul automatikus mdszer segtsgvel kiszmtottam az elemz rendszer pontossgt a mondatok s a tokenek
szintjn egyarnt.

6.
6.1.

Eredmnyek
Az alaprendszer ltrehozsa

Az els betants. Mint mr korbban emltettem, az SMT-rendszer betantshoz egy prhuzamos korpusz szksges. A Szeged Korpusz 2.0-bl lltottam
el az ltalam hasznlt forrsnyelvi s clnyelvi korpuszokat. Az elbbibe az
eredeti, elemzetlen s tokenizlt mondatokat tettem, mg az utbbiba a mondatban szerepl szavak sztvei, valamint azok POS-cmki kerltek. Az gy kapott
rendszer eredmnyei az 1. tblzatban szerepelnek.
A kirtkelsnl szembetnt a rendszer egy slyos hibja, miszerint az elemzett korpuszban egyms utn szerepelnek a szavak sztvei, amikhez hozzkapcsoldnak az elemzst tartalmaz cmkk, de a tbb tagbl ll kifejezsek esetben (pl.: tbbtag tulajdonnevek, igei szerkezetek) a cmke csak a kifejezs utols
szavn, vagy utna helyezkedik el. Az egy szfaji egysgbe tartoz kifejezsek

16

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


1. tblzat. A 6.1. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
90.97% 90.29%
9.71%
JOSHUA
90.96% 91.02%
8.08%

jellsnek hinya a statisztikai mdszerben flrevezet fordtsi modellt eredmnyez. Ennek ksznheten a rendszer az elemzett szveghez vletlenszeren
hozzad cmkket, ezrt gyengbb eredmnyt rt el.
Az nll POS-cmkk eltvoltsa. Az eredmny javtsa rdekben minden nll cmkt hozzcsatoltunk az eltte ll szhoz, gy kaptuk a 2. tblzatban lthat eredmnyeket.
2. tblzat. A 6.1. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
90.97% 90.80%
9.20%
JOSHUA
90.96% 90.72%
9.28%

A 2. tblzatbl ltszik, hogy vltozatlan BLEU-rtkek mellett a rendszer


pontossga 0,50,6 szzalkkal javult. Ezt annak ksznhetjk, hogy nem kerltek a fordtsba felesleges elemek. Ennek ellenre a tbbtag kifejezsek fordtsa
tovbbra sem megoldott.
A tbbtag kifejezsek kezelse. Tbbtag kifejezsek esetben a nehzsg
abbl addik, hogy mivel a rendszer szavakat elemez, gy az sszetett kifejezsek
rszeit is kln-kln cmkzi. Clom, hogy az elemz egy egysgknt kezelje
a tbbtag kifejezseket. A problma megoldshoz elengedhetetlen ezeknek a
kifejezseknek az sszekapcsolsa pldul a tulajdonnevek felismersvel. Nem
volt clom ilyen rendszer kifejlesztse, viszont az elmlet igazolsa rdekben
sszektttem a korpuszban ezeket a kifejezseket. A tants utn a 3. tblzatban lthat eredmnyt kaptam.
Az 1500 mondatos teszthalmazbl szmszerstve 506 mondat elemzse volt
teljesen helyes s 994-ben volt valamilyen hiba. Els rnzsre ez rossznak tnhet,
de ha az eredmnyt cmkk szintjn is megvizsgljuk, sokkal jobb arnyt kapunk,
hiszen 24557 helyes s csak 2343 helytelen elemzst kaptam. Lthatjuk, hogy
a 6.1 rendszerhez kpest a tbbtag kifejezsek sszektse s egyknt kezelse
javtott a rendszer pontossgn, annak ellenre, hogy rosszabb BLEU-eredmnyt
kaptam.

Szeged, 2011. december 12.

17

3. tblzat. Az alaprendszer eredmnye


Rendszer BLEU-rtk Helyes Helytelen
MOSES
90.76% 91.29%
8.71%
JOSHUA
90.77% 91.07%
8.93%

Az eredmnyek mlyebb vizsglatbl kiderl, hogy a helytelen annotcinak


kt oka lehet. Az els, amikor a sz nem szerepel a tant halmazban (outof-vocabulary, OOV), ekkor a rendszer elemzetlenl adja vissza a forrsnyelvi
kifejezst. Ez 1697 esetben fordult el. A helytelen annotcik msik tpusa,
amikor az SMT rendszer helytelen cmkt rendel az adott szhoz (646 eset).
Ennek tovbbi kt csoportja lehet: egyrszt, amikor a megfelel szfaji cmkt
megtallja, viszont a mlyebb szint elemzs sorn hibzik; msrszt amikor
teljesen rosszul elemzi a szt.
A 4. tblzatban egy pldamondat olvashat a 6.1. rendszer kimenetbl.
4. tblzat. Pldamondat az alaprendszer eredmnybl
Rendszer
Sima
szveg:
Referencia
elemzs:

SMT
elemz:

Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
ez_[pd3-sa] a_[tf] lobbyert_[x] s_[ccsw] kpessg_[nc-sa]
a_[tf] diplomciai_[afp-sn] erfeszts_[nc-pp] kvl_[st] mindenekeltt_[rx] a_[tf] magyarorszgi_[afp-sn] multinacionlis_[afppn] adhat_[vmcp3py] ._[punct]
ez_[pd3-sa] a_[tf] lobbyert s_[ccsw] kpessg_[nc-sa] a_[tf]
diplomciai_[afp-sn]
erfesztseken
kvl_[st]
mindenekeltt_[rx] a_[tf] magyarorszgi_[afp-sn] multinacionlis_[afp-pn]
adhat_[vmcp3py] ._[punct]

Tovbbiakban ezt a rendszert fogom alaprendszernek tekinteni. A tovbbiakban vizsglt rendszereknl kikts lesz, hogy a fent emltett hibkat elhagyjam,
vagyis ne lljanak nmagukban cmkk, illetve a tbbtag kifejezsek ssze legyenek ktve.
6.2.

A clnyelvi sztr mretnek cskkentse

Csak szfaji egyrtelmsts. Az SMT-rendszer tulajdonsgaibl kvetkezik,


hogy egy megfelel korpuszbl brmilyen szably betanthat. Mivel az ltalam
hasznlt korpusz mrete korltos, a rendszer minsgnek javulsa tbbek kztt
elrhet az annotcis feladat komplexitsnak cskkentsvel. Ebben az esetben
ezt gy rhetem el, ha az elemzend szveget a POS-cmkk nyelvre" fordtom.

18

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Ezt munkm sorn gy valstottam meg, hogy az elemz rendszerembl elhagytam a sztvestst, s csak a szfaji egyrtelmstst alkalmaztam. Mivel
ezltal csak a szavak POS-tag-jeire fordtok, a clnyelvi oldal sztri elemeinek
szma nagy mrtkben cskken. Az alaprendszer esetben 152694 elembl llt a
clnyelvi sztram, ezt cskkentettem le 1128 elemre. gy a fordtsi feladat bonyolultsgt cskkentve egy relatve pontos rendszer hozhat ltre kis korpuszbl
is. Msrszrl a sztvek elhagysval csak cmkk halmazra fordtok, ezltal az
egyes cmkk nagyobb sllyal szerepelnek, mind a fordtsi, mind pedig a nyelvi
modellben. A tants utn az 5. tblzatban lthat eredmnyt kaptam.
5. tblzat. A 6.2. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
89.01% 91.46%
8.54%
JOSHUA
88.57% 91.09%
8.91%

A rendszer eredmnyeit vizsglva kiderlt, hogy a BLEU-rtk tovbbi cskkensnek ellenre a rendszer pontossga jobb lett. Itt mr az 518 teljesen helyes
mondat mellett 982 mondat volt helytelen (0.8%-os javuls az alaprendszerhez
kpest). Tokenek szintjn 24603 volt helyes s 2297 volt helytelen (0.17%-os javuls). Ebbl a rendszer ltal nem elemzett szavak szma 1699, amely vltozatlan
az alaprendszerhez kpest. Ezekbl az eredmnyekbl vilgosan ltszik, hogy a
rendszer minsgnek javulsa abbl addik, hogy az alaprendszer ltal elrontott 646 elemzs az j rendszerben 598-ra cskkent. Az eredmnyek mlyebb
vizsglata sorn szembetnt, hogy e mgtt a 48 darabos javuls mellett tbb
eddig helyes elemzs romlott el. Ilyen hiba pldul a hatrozszk s a ktszk
keverse, valamint a ktszk s a mutat nvmsok tvesztse. A 6. tblzatban
egy pldamondat olvashat a 6.2. rendszer kimenetbl.
6. tblzat. Pldamondat a 6.2 . rendszer eredmnybl
Rendszer
Sima
szveg:
Referencia
elemzs:
SMT
elemz:

Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] lobbyert [ccsw] [nc-sa] [tf] [afp-sn] erfesztseken [st]
[rx] [tf] [afp-sn] [afp-pn] [vmcp3py] [punct]

Szeged, 2011. december 12.

19

A POS cmkk egyszerstse. Az elz (6.2) fejezet eredmnyeibl kiindulva megvizsgltam, hogy a clnyelvi sztr tovbbi cskkentse milyen hatst
gyakorol a rendszer minsgre. Annak rdekben, hogy megvizsgljam a rendszer mkdst a lehet legegyszerbb krlmnyek kztt, hogy az elemzsi
mlysget nagy mrtkben cskkentettem.
Ezt a kvetkez rendszer segtsgvel tanulmnyoztam oly mdon, hogy csak
a f szfaji cmkket (az MSD-kd els karaktereit) hagytam meg a clnyelvi
sztrban. Ebben az esetben a clnyelvi sztr 14 elembl ll. A tants utn
a 7. tblzatban lthat eredmnyt kaptam.
7. tblzat. A 6.2. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
79.57% 92.20%
7.80%

A rendszer kirtkelsbl kiderlt, hogy az eddig meggyelt tendencia folytatdik. Teht amg a BLEU-rtk cskkent, a rendszer pontossga nvekedett.
Ebben az esetben a rendszer 553 mondatot elemzett helyesen, mikzben 947-et
rontott el. Ez a 6.2. rendszerhez kpest 2.3%-os, mg az alaprendszer (6.1) esetben 3.1%-os nvekedst jelent mondatok szintjn. Tokenek tekintetben 24803
volt helyes s 2097 volt helytelen elemzs, ami 0.74%-os javuls a 6.2. rendszerhez kpest, illetve 0.88% az alaprendszerhez kpest. A 8. tblzatban egy
pldamondat olvashat a 6.2. rendszer kimenetbl.
8. tblzat. Pldamondat a 6.2. rendszer eredmnybl
Rendszer
Sima szveg:

Fordtsok
ezt a lobbyert s kpessget a diplomciai erfesztseken kvl
mindenekeltt a magyarorszgi multinacionlisok adhatnk .
Referencia elemzs: p t x c n t a n s r t a a v p
SMT elemz:
p t lobbyert c n t a erfesztseken s r t a a v p

Konklzi. A fent elrt eredmnyek rendkvl bztatak, mivel egy viszonylag


kismret korpusz esetn is az elemz rendszerek pontossga 90% feletti. rdemes meggyelni, hogy a 6.2. rendszer sztra kt nagysgrenddel kevesebb elemet
tartalmaz (1128 darab cmke) az alaprendszerhez kpest (152 694 darab cmke),
ennek ellenre pontossga csupn 0.17%-al javult. Tovbb meggyelhet, hogy
a 6.2. rendszer csupn 14 cmkbl ll sztra esetn (ami ngy nagysgrend-

20

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

del val cskkentst jelent az alaprendszerhez kpest) is csak 0.88%-os javuls


mutatkozott.
rtkelsem szerint ez a 0.88%-os minsgjavuls nem ll arnyban azzal a
hatalmas informcivesztesggel, amely a rendszerek clnyelvi sztrmretnek
cskkentsvel jtt ltre. Tovbbi tanulsg, hogy a clnyelvi sztr mretnek
vltoztatstl fggetlenl az OOV szavakat (1698 darab) egyik rendszernek
sem sikerlt elemeznie. Ebbl arra a kvetkeztetsre jutottam, hogy a rendszer
eredmnynek tovbbi javulsa rdekben megoldst kell tallnom a tanthalmazban nem szerepl szavak kezelsre.
6.3.

Az OOV szavak kezelse

Az els, legkzenfekvbb megolds a korpusz nvelse. A tant halmazban minl


tbb token fordul el, annl pontosabb lesz a rendszer. A magyar nyelv agglutinl tulajdonsgbl addan, azrt, hogy minden token megfelel szmban
forduljon el a korpuszban, nagyon nagy mret korpuszra lenne szksg. A kvetkez fejezetben egy olyan mdszert vizsglok, amely alkalmas lehet az OOV
szavak kezelsre.
Sima szveg esetn. Mivel az OOV szavak elemzshez a tant halmazbl
semmilyen informcit nem nyertnk ki, szksgnk van ezen szavak tovbbi
vizsglatra. Ebben segtsgnkre lehet az ismeretlen szavak kontextusa. A nyelvi
sajtossgok, valamint a zrt s nylt szosztlyok miatt az OOV szavak nagy
valsznsggel csak egy-kt szfaji osztlybl kerlnek ki. Az elz rendszerek
meggyelse alapjn elmondhat, hogy a sztrban nem szerepl szavak tlnyomrszt fnevek.
Guillem s Joan Andreu mdszere alapjn [1] ezt a problmt gy prblom meg kikszblni, hogy azokbl a szavakbl, melyek a tant halmazban
egy bizonyos kszbrtknl gyakrabban fordulnak el, egy sztrat hozok ltre.
Azokat a szavakat, amelyek nem kerlnek be ebbe a sztrba, egy tetszleges (az
esetemben UNK) kifejezsre cserlem ki. gy ez a szimblum nagy gyakorisggal kerl be az elemzend szvegbe. Felttelezsem szerint, mivel az OOV szavak
csak egy-kt szfaji osztlybl kerlnek ki, a krnyezetkben lv szfaji szerkezetek nagyon hasonlak lesznek. Mivel az SMT rendszer kifejezs alap fordtst
vgez, gyelembe veszi mind az elemzend szavak, mind a cmkk krnyezett
is. Ennek segtsgvel tudja meghatrozni az UNK szimblum elemzst.
Kulcsfontossg krds a megfelel gyakorisgi szint kivlasztsa, hiszen ettl
fgg, hogy mennyi UNK szimblum kerl a korpuszba. Egyrszt, ha tl nagy
ez a szm, akkor tl sok token cserldik ki az UNK szimblumra, emiatt a
krnyezet vizsglatbl sem kapunk megbzhat elemzst, hiszen abban is elfordulhat nagy valsznsggel UNK. Msrszt viszont ha tl kicsi, akkor tl sok
ritka sz marad a sztrban, ezzel nem tudjuk megfelel mrtkben kihasznlni a
mdszer elnyt. Rendszeremben ezt a gyakorisgi kszbt 10-re vlasztottam.
A fentiek alapjn felptett rendszer betantsa utn a 9. tblzatban lthat
eredmnyt kaptam.

Szeged, 2011. december 12.

21

9. tblzat. A 6.3. rendszer eredmnye


Rendszer BLEU-rtk Helyes Helytelen
MOSES
88.71% 85.74% 14.26%

Szembetn vltozs, hogy a rendszer eredmnye nagymrtkben romlott.


Csupn 294 mondatot sikerlt teljesen hibtlanul elemeznie a rendszernek, mg
1206-ban fordult el valamilyen hiba. Tokenek szintjn 23064 volt helyes s 3836
volt helytelen. A 10. tblzatban egy pldamondat olvashat a 6.3. rendszer
kimenetbl.
10. tblzat. Plda mondat a 6.3. rendszer eredmnybl
Rendszer
Sima
szveg:
Referencia
elemzs:
SMT
elemz:

Fordtsok
ezt a unk s unk a diplomciai unk kvl mindenekeltt a magyarorszgi unk unk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct] [pd3-sa] [tf] [nc-sa] [ccsp] [vmis3py]
[tf] [afp-sn] [nc-pn] [st] [rx] [tf] [afp-sn] [nc-pn] [nc-sas3] [punct]

A magyar nyelv szvegben a fnevek s az igk klnbz ragozott formi


tallhatk meg, melyek kis korpusz miatt nagy valsznsggel az ltalam alkalmazott kszb al esnek. Ez magyarzza, hogy a korpuszban szerepl mondatok
tbbsgben a fnevek s az igk helyre is az UNK szimblum kerl, ami
a szsszekt munkjt nehezti meg. Ez okozta, hogy a rendszer elrontotta
az eddig helyes mondatelemzseket is, radsul elfordult, hogy sszekeverte a
szavak sorrendjt az elemzs sorn.
Sztvek esetn. Az elz rendszer hibinak kikszblsre megvizsgltam,
hogyan befolysolja a rendszer eredmnyt, ha a gyakorisgot nem a szvegben
megtallhat szavakra, hanem azok sztveire vizsglom. Ettl azt vrtam, hogy
gy csak azokat a szavakat/sztveket cserlem UNK-ra, amelyek elfordulsa
tnyleg nagyon alacsony. A kt rendszer sszehasonltsnak rdekben ebben az
esetben is 10-re vlasztottam a kszbrtket. A 11. tblzatban lthat eredmnyt kaptam.
Az eredmnyek elemzse sorn az elz rendszer (6.3) eredmnyhez kpest
viszonylag nagy javuls gyelhet meg, br ez az alaprendszer (6.1) eredmnyt
mg mindig nem ri el. A rendszer 450 helyes mondat mellett 1050-et ront el.
Tokenek szintjn 24190 volt helyes s 2710 volt helytelen.

22

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


11. tblzat. A 6.3. rendszer eredmnye
Rendszer BLEU-rtk Helyes Helytelen
MOSES
90.87% 89.93% 10.07%

A fent emltett vltoztatsok hatsra valban csak az igazn ritka szavak


lettek lecserlve UNK-ra. Ezek tbbsge nagyrszt fnv, s mr alig van kztk ige. Ezzel prhuzamosan viszont az igk esetben egyre gyakoribb jelensg,
hogy az elemz OOV szknt elemezte ket. Ez abbl addik, hogy ragozott
formjuk nem szerepel a tant halmazban megfelel sllyal. A 12. tblzatban
egy pldamondat olvashat a 6.3. rendszer kimenetbl.
12. tblzat. Pldamondat a 6.3. rendszer eredmnybl
Rendszer
Sima
szveg:
Referencia
elemzs:
SMT
elemz:

7.

Fordtsok
ezt a unk s kpessget a unk erfesztseken kvl mindenekeltt a
magyarorszgi multinacionlisok adhatnk .
[pd3-sa] [tf] [x] [ccsw] [nc-sa] [tf] [afp-sn] [nc-pp] [st] [rx] [tf] [afp-sn]
[afp-pn] [vmcp3py] [punct]
[pd3-sa] [tf] [nc-sa] [ccsw] [nc-sa] [tf] [afp-sn] erfesztseken [st] [rx]
[tf] [afp-sn] [afp-pn] [vmcp3py] [punct]

sszefoglals

Kutatsom sorn az SMT-rendszer lehetsgeit vizsgltam a szfaji egyrtelmsts s a lemmatizls feladatainak megvalstsra. Meggyelsem szerint ezek
a problmk megfogalmazhatk a sima szvegrl elemzett szvegre val fordtsknt is. Az erre a clra hasznlt rendszerek pontossga elrheti akr a 92%-ot is.
Annak ellenre, hogy ez az eredmny nem ri el a napjaink legjobb POS-tagger
rendszernek szintjt, az ltalam felptett rendszer teljesen automatikusan ismeri fel a szablyokat, s nincs szksg elzetes szvegfeldolgozsra. Msrszt ez
a rendszer prhuzamosan vgzi az annotls s a lemmatizls feladatt. Az itt
elvgzett ksrletekkel bebizonytottam, hogy a clnyelvi sztr mretnek cskkentse csak minimlis javulst okoz a rendszer pontossgban, viszont risi
informcivesztesget eredmnyez.
Az eredmnyek azt is megmutatjk, hogy tisztn statisztikai alap mdszerek nem elegek ezen feladatok megvalstsra, hanem szksg lenne valamifle
hibridizcira is. Az eredmnyek a jvre nzve biztatak, clom a tovbbi lehetsgek vizsglata.

Szeged, 2011. december 12.

23

Hivatkozsok
1. Gasc I Mora, G., Snchez Peir, J.A.: Part-of-speech tagging based on machine
translation techniques. In: Proceedings of the 3rd Iberian conference on Pattern
Recognition and Image Analysis, Part I. IbPRIA 07, Berlin, Heidelberg, SpringerVerlag (2007) 257264
2. Prszky, G., Kis, B.: A unication-based approach to morpho-syntactic parsing of
agglutinative and other (highly) inectional languages. In: Proceedings of the 37th
annual meeting of the Association for Computational Linguistics on Computational Linguistics. ACL 99, Stroudsburg, PA, USA, Association for Computational
Linguistics (1999) 261268
3. Oravecz, C., Dienes, P.: Ecient Stochastic Part-of-Speech Tagging for Hungarian.
In: Proc. of the Third LREC, pages 710717, Las Palmas, Espanha. (2002) ELRA.
4. Halcsy, P., Kornai, A., Oravecz, C., Trn, V., Varga, D.: Using a morphological
analyzer in high precision POS tagging of Hungarian. In: Proceedings of LREC
2006. (2006) 22452248
5. Laki, L.J., Prszky, G.: Statisztikai s hibrid mdszerek prhuzamos korpuszok
feldolgozsra. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia, Szeged,
Szegedi Egyetem (2010) 6979
6. Koehn, P.: Statistical Machine Translation. Cambridge University Press (2010)
7. Koehn, P.: Moses - A Beam-Search Decoder for Factored Phrase-Based Statistical
Machine Translation Models. (2009)
8. Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N.,
Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A.,
Herbst, E.: Moses: Open Source Toolkit for Statistical Machine Translation. In:
Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, Association for
Computational Linguistics (2007) 177180
9. Li, Z., Callison-Burch, C., Dyer, C., Ganitkevitch, J., Khudanpur, S., Schwartz,
L., Thornton, W.N.G., Weese, J., Zaidan, O.F.: Joshua: an open source toolkit
for parsing-based machine translation. In: Proceedings of the Fourth Workshop on
Statistical Machine Translation. StatMT 09, Stroudsburg, PA, USA, Association
for Computational Linguistics (2009) 135139
10. Csendes, D., Hatvani, C., Alexin, Z., Csirik, J., Gyimthy, T., Prszky, G., Vradi,
T.: Kzzel annotlt magyar nyelvi korpusz: a Szeged Korpusz. In: I. Magyar
Szmtgpes Nyelvszeti Konferencia, Szegedi Egyetem (2003) 238247
11. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizci a Szeged
Treebank 2.5-ben. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia, Szeged,
Szegedi Egyetem (2010) 349353
12. Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic
evaluation of machine translation. In: Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics. ACL 02, Stroudsburg, PA, USA,
Association for Computational Linguistics (2002) 311318

24

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Fordtsi plgiumok keresse


Pataki Mt
MTA SZTAKI Elosztott Rendszerek Osztly
1111 Budapest, Lgymnyosi utca 11.
pataki.mate@sztaki.hu

Kivonat: Napjainkban egyre tbb dik beszl idegen nyelveken, ami elny, hiszen fel tudjk dolgozni az idegen nyelv szakirodalmat s tudomnyos eredmnyeket, htrny azonban, ha ezt hivatkozs nlkl teszik, azaz plagizlnak.
Az elmlt egy v alatt egy kutats keretben arra kerestk a vlaszt, hogy meg
lehet-e tallni, fel lehet-e ismerni a fordtsi plgiumokat. Ennek sorn egy
olyan algoritmust fejlesztettnk ki, amely kpes egy nagymret, idegennyelv
adatbzisbl kikeresni egy magyar nyelv dokumentumban idzett, lefordtott
szvegrszeket.

1 Bevezets
Termszetes nyelv szvegek fordtsnak megtallsa nemzetkzi szinten is megoldatlan, mg a sokak ltal beszlt angol s nmet nyelvek kztt is, ugyanakkor megoldsa szmos terleten jelentene nagy elrelpst. A kutatsi eredmnyek nemcsak
plgiumok felkutatsban, hanem a prhuzamos korpuszok ptsben, a hrek, cikkek, szvegek terjedsnek a vizsglatban, hasonl tmkkal dolgoz emberek,
kutatcsoportok megkeressben is alkalmazhatk.
A prhuzamos korpuszok nagy jelentsge nemcsak az oktatsban rejlik, e korpuszok szmos kutats alapjaknt, algoritmusok tant adatbzisaknt is szolglnak.
Hasznljk ket az alkalmazott nyelvszetben: sztrksztk, gpi fordtk szmra,
valamint kontrasztv nyelvszeti kutatsokhoz is elengedhetetlenek.
Eurpban fontos tma a plgiumkeress, de mg nemzetkzi szinten is csak kutatsi terlet a fordtsi plgiumok keresse. [1] Az irodalomban ismertetett legtbb
algoritmus nyelvprfgg, azaz egymshoz nyelvtanban hasonl nyelvek esetn
bartsgos nyelvprok jl mkdik, de jelentsen eltr nyelvtan nyelvek esetn
rossz eredmnyt mutat. Angol-nmet nyelvprra pldul egsz szp eredmnyeket
rtek mr el, mg az angol-lengyel nyelvprra ugyanaz az algoritmus hasznlhatatlannak bizonyult. A magyar nyelvben hrom f akadly van: a) nem kttt szrend, b)
ragozs, c) jelents nyelvtani klnbzsg az angol nyelvtl.
Dr. Debora Weber-Wulff ktvente teszteli az sszes elrhet plgiumkerest,
2010-ben 48 plgiumkerest tesztelt, s azt llaptotta meg, hogy:
The biggest gap in all the plagiarism checkers was
the inability to locate translated plagiarism. [2]

Szeged, 2011. december 12.

25

Azaz a jelenleg elrhet plgiumkeresk egyltaln nem foglalkoznak a fordtsi


plgiumok problmjval. Az els publikus eredmnyek tbbnyelv plgiumkeressi
algoritmusokrl a CLEF 2010 konferencin [3] jelentek meg, de itt is csak bartsgos
nyelvprokkal (angol, nmet, spanyol) prblkoztak, s automatikus fordtt hasznltak a plgiumok megtallsra:
After analyzing all 17 reports, certain algorithmic
patterns became apparent to which many participants
followed independently. ... In order to simplify the
detection of cross-language plagiarism, non-English
documents in D are translated to English using machine
translation (services). [4]

2 Az algoritmus
A legtbb szakirodalomban s kezdeti kutatsokban olyan algoritmusokat lthatunk a
fordtsi plgiumok keressre, amelyek a jelenlegi egynyelv keressek adaptlsai
egy adott nyelvprra. A legjobb plgiumkeresk tlapold szavas darabolst (ngramokat) hasznlnak a szvegek sszehasonltsra, a plgiumkeressre. [4] Ez az
algoritmus sz szerinti egyezst keres, amelyet szmos ms algoritmussal igyekeznek
javtani, hogy kisebb trsokat, eltrseket ne vegyen figyelembe, ezek kzl a legygyakrabbak az albbiak: a) stopszavak szrse, b) sztvezs, c) bizonyos szavak
kicserlse egy szinonimra, d) szavak sorrendezse az n-gramon bell. Ezek a vltoztatsok sokkal nehezebb teszik a plgiumok elrejtst, s jelentsen megnvelik a
lebuks kockzatt, ugyanakkor klnbz nyelven rt szvegek kztt mg mindig
nem teszik lehetv az sszehasonltst.
Tbben is prblkoztak automatikus, gpi fordtk alkalmazsval, hogy kt szveget azonos nyelvre hozzanak, ugyanakkor ezen fordtk eredmnyei ma mg nagyon megbzhatatlanok, nagyban fggnek az adott nyelvprtl, a szveg tmjtl, a
mondatok sszetettsgtl. sszefoglalva elmondhatjuk, s ez nem csak a gpi fordtkra igaz habr azokra kiemelten az , hogy egy fordts komoly vltoztatst
eredmnyez a szvegen, hibkat visz be, s a szavak mondaton belli sorrendjn is
nagymrtkben vltoztat, fleg az olyan nem kttt szrend nyelvek esetben, mint
amilyen a magyar.
A gpi fordtkat alkalmaz algoritmus tulajdonkppen kt klnbz algoritmussal trtn fordtsi lpsnek veti al a szveget (egy kzi a plagizl ltal s
egy gpi az ellenrzskor), majd az ezek utn kapott, visszafordtott szveget hasonltja ssze az eredeti szveggel. Esetleg egy adott szveget ktszer fordt le egy msik
nyelvre (egyszer kzzel, egyszer gppel), majd ezeket hasonltja ssze. Mivel a legtbb mondatnak nincsen egy adott j fordtsa, hanem szmos lehetsges fordtsa
van, gy majdnem teljesen biztosak lehetnk benne, hogy komoly klnbsgek lesznek a mondatok kztt, nemcsak a szrendben, hanem a hasznlt szavakban, kifejezsekben is. Fischer Mrta ezt gy fogalmazza meg:

26

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A nyelvszeti fordtstudomny eredmnyei amelynek


fontos terlete az ekvivalencia kutatsa eloszlathatjk azt a tves elkpzelst, mely szerint a fordts automatikus s teljes megfeleltetst (ekvivalencit) felttelez a kt nyelv kztt. A kutatk klnbz
megkzeltsei s a szmtalan ekvivalencia-elmlet ppen arra vilgtanak r, hogy az ekvivalencia tbb
szinten, tbb szempont szerint rtelmezhet Ezek ismerete teht ppen abban erstheti meg a tanult, hogy
nincs egyetlen helyes (ekvivalens) vlasz. [5]
Magyar nyelv esetben tovbbi htrny, hogy a gpi fordtk igen rosszak, a legjobb angol-magyar nyelvpr esetben is tulajdonkppen majdnem minden mondatban
hibznak, s minl sszetettebb a mondat, annl valsznbb, hogy teljesen flre is
fordtanak valamit.
Angol-nmet nyelvpr esetn mr el lehet taln gondolkodni, hogy egy automatikus fordt alapjn ksztsnk egy algoritmust, de mg ott is szmos hiba addik.
Emellett komoly htrny, hogy egy kls programra vagy algoritmusra kell hagyatkozni, hiszen a j minsg algoritmusok mind fizetsek, gy nagyobb mennyisg
szveg rendszeres lefordtsa komoly kltsgekkel is jrna. A Google Translate meghvhat egy API-n keresztl, s korbban lehetett is nagyobb mennyisg szveget
fordtani rajta, de pr hnapja a Google gy dnttt, hogy mg fizetsg ellenben sem
engedi napi 100 000 karakternl nagyobb szveg lefordtst. Ez mg egy rvidebb
diploma ellenrzshez is kevs.
The
Google
Translate
API
has
been
officially
deprecated as of May 26, 2011. We are not currently
able to offer additional quota.

2.1. Az algoritmus kialaktsa


Kt nyelv kztt a legkisebb egyezs egy sz egyezse lehet. Termszetesen, ha egy
angol szvegben az eleven szt olvashatjuk, akkor annak magyarul nem az eleven sz
fog megfelelni, hanem a tizenegy vagy a 11, de ennek ellenre beszlhetnk egyezsrl. Ugyanakkor rdemes megjegyezni, hogy szmos sznak nem lesz megfelelje a
msik nyelvben, vagy egyltaln nem is lesz megfelelje, vagy nem szknt jelentkezik. Most a teljessg ignye nlkl vegynk sorra pr lehetsges eltrst.
x sszetett szavak: elkpzelhet, hogy mg az egyik nyelvben egy gondolatot
egy szval, addig a msikban tbb szval fejeznk ki, mint pldul tavaly
s last year. Fordtva pedig, mg magyarul szabadlbra helyeznek valakit,
angolul ezt a jelentst a liberated adja vissza.

Szeged, 2011. december 12.

27

Ragozs: a magyar nyelv (akrcsak pldul a trk) szmos dolgot ragokkal, a szval egybe rva fejez ki, mg ms nyelvek erre elljrt hasznlnak.
Ami magyarul az lmomban, az angolul in my dream trtnt.

Antonma: gyakran egy kifejezst jobb antonmval fordtani, nem nmagval. Mg magyarul valami nem felel meg a clnak, addig ugyanez angolul
inadequate.

Ismtlsek elkerlse: bizonyos nyelvek, mint pldul a magyar, kevsb


szeretik az ismtlst, s inkbb utalnak az ismtld dolgokra, illetve szinonimkat hasznlnak. A 80 nap alatt a fld krl magyar fordtsban tallkozunk a gentleman szval, ahol az angolban a Mr. Fogg szerepel.

Teljes talakts: kifejezsek s a forrs- valamint clnyelv klnbzsgn,


illetve a kt olvastbor kulturlis ismeretnek a klnbzsgbl addan. A Queens pudding-bl rakott palacsinta lesz, az egg and spoon races
pedig gyessgi gyerekjtk. [6]

Azaz szmos eset kpzelhet el, amikor egy adott sz nem felel meg egyrtelmen
a msik nyelv egy szavnak, ugyanakkor a szavak jelents rsze megtallhat lesz
mindkt nyelvben. Ugyan a szavakat jl fel lehet hasznlni arra, hogy fordtsokat
keressnk, de nmagban kt szveg mg nem lesz azonos pusztn azrt, mert sok
kzs szavuk van.
Ha eggyel magasabb szintre lpnk, a tagmondatok szintjre, akkor azt ltjuk,
hogy br gyakran elfordul a tagmondatok egyezse, de mg a magyarban igen sok
vesszt hasznlunk, s legtbbszr egyrtelmen jelljk a tagmondatok hatrt,
addig az angol nyelvben alig vannak vesszk, s kimondottan nehz feladat a tagmondatok hatrnak megkeresse. Emiatt ezzel a lehetsggel most itt nem is foglalkozunk.
A kvetkez szint a mondatok szintje. Ha valaki nekill egy szveg fordtsnak,
akkor azt az esetek tlnyom rszben mondatonknt fordtja le. Egy irodalmi fordts esetn gyakrabban tallkozunk azzal, hogy egy mondatot kettbe szed a fordt,
vagy kt mondatot sszevon, de mg itt is viszonylag ritkn fordul el ez a gyakorlat.
Az ennl magasabb szintekkel, bekezdsekkel, fejezetekkel ugyanaz a legnagyobb
gond, mint a tagmondatokkal: nem egyrtelm a jellsk, elhagyhatak, sszevonhatak, gy ezek egyezsnek a vizsglatra gyszintn nem trnk most ki.
Mint lttuk, fordtsok esetben a legrtelmesebb szint a szavak vagy a mondatok
szintje. A szavak esetben viszont lnyeges a sz tbbi szhoz viszonytott pozcija,
a szvegkrnyezet, hiszen brmely kt azonos nyelven rdott szvegben vannak
azonos szavak, mg akr ezek mrtke is magas lehet, azonban ekkor sem biztos,
hogy a kt szvegnek ugyanaz a jelentse, vagy esetleg csak a tmja egyezik. Mint
azt a webes keresk esetben ltjuk ahol adott szavakat tartalmaz szvegekre keresnk nagyon nagy az olyan tallatok szma, amelyek ugyan megfelelnek a kereskrdsnek, de semmi kzk sincs ahhoz, amit kerestnk. Azaz nmagban a szavak
egyezsge nem tesz kt szveget egyms msolatv, nem lehet ltala megllaptani
a plagizls tnyt. Ez kt klnbz nyelv esetben mg inkbb gy lesz, hiszen egy
adott sznak a msik nyelvben szmos msik felel, vagy felelhet meg, gy mg ez is
komoly bizonytalansgot eredmnyez.

28

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Termszetesen ez nem azt jelenti, hogy a szavak nem hasznlhatk kt szveg kzti egyezs megtallsra, de nmagban ez nem elg: hiszen ha valaki lefordt egy
egyoldalas szveget angolrl, s beteszi a 120 oldalas magyar diplomjba, akkor
ennek a megtallsa csak a szavak hasznlatval lehetetlen. Mindenkppen definilnunk kell egy szvegkrnyezetet, ahol a szavakat keressk. Ezrt a kutatshoz a legjobb kiindulsi pontnak a mondatalap keress tnt, ahol a szavaknak van szvegkrnyezetk (egy mondat), radsul a mondat mr elg egyedi ahhoz, hogy kt dokumentumban mg ha azonos tmban rdtak is nagyon kicsi annak az eslye, hogy
kt azonos mondat lesz (rvid, egy-, kt-, hromszavas mondatokat s kzs idzeteket nem szmtva). Knnyen belthatjuk ezt, ha belegondolunk, hogy a legtbb
nyelvnek tbb szzezer szava van [7], a nyelvtani szablyokat most figyelmen kvl
hagyva, szzezer szval szmolva az adott nyelven egy n szbl ll mondat (Sn)
sszes lehetsges vltozata:
|Sn| = (2 105)n
Ez egy mg hossznak sem mondhat 10 szavas mondat esetben:
|S10|  1053
Termszetesen ennek a jelents rsze rtelmetlen mondatot eredmnyezne, de ennek a hatalmas szmnak mg az egy tzezrelke is hatalmas. Ha hozzvesszk, hogy
pldul a magyar nyelvben a legtbb sznak szmos alakja van, akkor ez a szm mg
jelentsen nvekedne, de az angol nyelv esetben is a tbbesszm s egyb alakok
miatt az alapszkincs tbbszrse a tnylegesen elfordul szalakok szma. Ezrt
tekinthetnk gy egy mondatra, mint egyedi alkotsra. Sokak szerint egy mondatnl
kezddik a plagizls, azaz egy (tartalmas, hosszabb) mondat mr rendelkezik annyi
egyedi tulajdonsggal, hogy lemsolsa esetn lehet plagizlsrl beszlni.
rdemes megnzni a Wikipdia ide vonatkoz oldaln tallhat sszefoglal tblzatot, amelybl itt csak egy kivonatot mutatunk be. [8]
Dokumentum, bemeneti adat, szvegkrnyezet
Egy szveg leggyakoribb szavai kzl ennyi adja ki annak
25%-t.
Egy szveg leggyakoribb szavai kzl ennyi adja ki annak
60%-t.
Kb. egy 2 ves gyerek szkincse
Az Ogden-fle egyszer angol nyelv (Basic English) szkincse
Ennyi szt hasznlnak az els osztlyosok olvasstantsban.
Kb. egy 6 ves gyerek szkincse
Arany Jnos Toldi c. mvben felhasznlt szkincse
Az tlagember aktv szkincse (l-aktv s szunnyadaktv)

Szavak szma
15

|S10|

100

1,0E+20

5,8E+11

300 5,9E+24
850 2,0E+29
1000

1,0E+30

2500 9,5E+33
3000 5,9E+34
3 000-5 000 5,9E+34

Szeged, 2011. december 12.


Kzpfok nyelvtudsnak megfelel szkincs
Kb. egy 11 ves gyerek szkincse
Az tlagember passzv szkincse
Ennyi szval a Shreket 95%-ban megrtjk.
Ennyi sz szksges a 20. szzadi angol prza megrtshez.
Ennyi szval a tanknyveket 95%-ban megrtjk.
Egy ktnyelv kissztr terjedelme (cmszavak)
Shakespeare (mveiben felhasznlt) szkincst ennyire
becslik
Petfi Sndor verseibl kimutathat szkincse
Egy tlag rtelmisgi egyvi beszdt gondolatban rgztve kb. ennyifle sz fordulna el.
Igen mvelt embereknl a passzv szkincs nagysga
Kb. ennyi mai magyar szt tartanak szmon.
Egy ktnyelv nagysztr terjedelme (cmszavak)
A 20 ktetes Oxford English Dictionary 2. (nyomtatott)
kiadsbl (1989) a ma is hasznlt szavak szma
A 20 ktetes Oxford English Dictionary 2. (nyomtatott)
kiadsnak (1989) terjedelme (cmszavak)
A 33 ktetes Deutsches Wrterbuch terjedelme (1960-as
kiads, cmszavak)
A Websters Third New International Dictionary,
Unabridged terjedelme (cmszavak)
A magyar nyelvben kb. ennyi sz (lexma!) van (tlnyomrszt elavult vagy rendkvl specilis szavak)
Az 1,48 millird szvegszt (v. szelfordulst) tartalmaz magyar webkorpusz 4%-os hibatrssel kszlt metszetbl kinyert szkincs mrete (lexmk, ill. sztri szavak), kzi ellenrzs nlkl

29
3 500-3 900 2,8E+35
5 000 9,8E+36
5 000-10 000 5,6E+38
6 000 6,0E+37
8-9 000 1,1E+39
10-12 000 1,0E+40
10-30 000 1,0E+43
18-25 000 1,7E+43
22 719 3,7E+43
25-30 000 3,0E+44
50-60 000 2,5E+47
60-100 000 1,1E+49
120 000 6,2E+50
171 476 2,2E+52
291 500

4,4E+54

350 000

2,8E+55

>450 000

3,4E+56

1 000 000

1,0E+60

7 200 000

3,7E+68

Jl lthat a tblzatbl, hogy mr egy ktves gyerek is tbb szz szt ismer, s
ha csak a rvidebb mondatokat vesszk, akkor is tbb tzezer mondatot tud elmletileg sszetenni.
sszefoglalva az elzeket, lthatlag a mondat egy rtelmes egysgnek tnik ahhoz, hogy plgiumot, illetve szvegek kztti egyezseket keressnk. Ennek az albbi
elnyei vannak:
x Egy rtelmes gondolati egysget kpvisel
x

A mondathatrok nagy pontossggal meghatrozhatak

A mondat elg egyedi ahhoz, hogy kt szveg kztt tbb mondat egyezsekor mr valami kzs forrst felttelezznk

Fordtsok esetn a mondat a fordts egysge, amely mint egysg legtbbszr megmarad a klnbz nyelvek kztt [9]

30

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


x

Egy mondat s fordtsa kztt ekvivalencia van, amely biztostja, hogy a


kt mondat jelentse minl kzelebb legyen egymshoz

Miutn belttuk, rdemes a mondatok kztti hasonlsgot vizsglnunk ahhoz,


hogy a fordtsi plgiumot megtalljuk, definilnunk kell egy metrikt, amely a klnbz nyelven rdott mondatok kztti hasonlsg mrtkt hatrozza meg.

2.2 A hasonlsgi metrika


Mint korbban emltettk, egy angol s egy magyar nyelv mondat szavai ha nem is
teljes mrtkben , de megfeleltethetk egymsnak. A kt nyelv nyelvtannak klnbsgbl s a magyar nyelv ktetlen szrendjbl addan a szavak sorrendje
teljesen lnyegtelen ebben a megfeleltetsben, azaz az angol nyelv mondat els,
msodik, harmadik szava brhol lehet a magyar mondatban, s fordtva.
A sorrendet figyelembe nem vev, egy szveg szavait reprezentl modell a szzsk (bag of words) [10] egy adott szveg sszes szavt tartalmaz, de a sorrendet
figyelembe nem vev halmaz , amelyet szmos helyen hasznlnak a szakirodalomban pldul dokumentumok csoportostsra, spamszrsre, de mg rzelmek felismersre is [11]. Mi most sokkal kisebb egysgben, a mondatok szintjn fogjuk a
szzskot alkalmazni.
Egy n szbl ll mondatot (S) kpviseljenek a benne lv szavak (w).

wx

Sx s wy

Sy

Termszetesen ez egy egyszersts, hiszen elmletileg ugyanazokbl a szavakbl


ms mondatokat is ssze lehet rakni. Azonban, mivel az esetek tlnyom rszben
elg egyrtelmen visszallthat a mondat rtelme a szavak ismeretben, tl sok
hibt ez az talakts nem fog eredmnyezni.

Sx = {wx1, wx2, wx3, wxn}


Most definiljuk kt mondat hasonlsgnak a mrtkt (Sim) a bennk lev kzs
szavak szmval.

Sim(x,y) = | Sy  Sz |
Ez mr egy j megkzelts, de szmos dolgot nem vesz figyelembe. Pldul egy
hossz s egy rvid mondat hasonlsga gy maximum akkora lehet, amekkora a
rvid mondat hossza. Ez helyes is, ugyanakkor pldul ha a hossz mondatban megtallhat a rvid mondat sszes szava, akkor ez a kt mondat ugyanannyira hasonl
lesz, mintha a rvid mondatot nmagval hasonltottam volna ssze, ami viszont
egyrtelmen rossz: ezrt figyelembe kell venni nemcsak a kzs szavakat, hanem a
hinyz szavakat is. Ezeket rdemes slyozni is, most legyen a megtallt szavak slya
 , a nem megtalltak .

Sim(x,y) = | Sx  Sy | -
| Sx \ Sy |

Szeged, 2011. december 12.

31

Amennyiben rtkt 3-nak,


rtkt pedig 1-nek vesszk, akkor az azt jelenti,
hogy minden olyan szt, amelyik megvan a msik mondatban, hromszoros sllyal
vesznk figyelembe a hinyz szavakhoz kpest.
Ez a kplet mr majdnem tkletes, de nem szimmetrikus Sx \ Sy miatt, azaz:
Sim(x,y) Sim(y,x). Ez nem j gy, hiszen annak az eslye, hogy Sx Sy-nak a fordtsa elvileg ugyanannyi kell legyen, mint annak eslye, hogy Sy Sx-nek a fordtsa. Ezt
a hibt gy lehet kikszblni, hogy pldul kiszmoljuk mindkt rtket, majd ennek vesszk az sszegt. Ugyanakkor azrt vezettk be az egyenlet msodik tagjt (Sx
\ Sy), mert azok a szavak, amelyek csak az egyik mondatban tallhatak meg, cskkentik annak valsznsgt, hogy a kt mondat egyms fordtsa. Ha annak az eslye, hogy Sx fordtsa Sy-nak kisebb, mint a fordtottja azaz Sim(x,y) < Sim(y,x),
akkor ez a legtbb esetben azt jelenti, hogy Sx hosszabb, azaz tbb olyan sz van
benne, aminek nincs fordtsa a msik mondatban. Ez lnyeges: hiba kapunk
Sim(y,x)-re egy nagyon magas rtket, ha Sim(x,y) alacsony, hiszen akkor majdnem
biztos, hogy a kt mondat nem fordtsa egymsnak, esetleg az egyik a msik rsze.
Ezrt a tovbbiakban gy szmoljuk ki Sim(x,y) rtkt, hogy a korbban definilt
rtkek kzl az alacsonyabbat vesszk. Ezzel az j kplet:

Sim(x,y) = min ( | Sx  Sy | -
| Sx \ Sy | ,
| Sy  Sx | -
| Sy \ Sx | )
Ez a definci mr eleget tesz a szimmetria (ekvivalencia) kvetelmnynek, azaz
most mr

Sim(x,y) = Sim(y,x)
A tovbbiakban mg nhny lnyeges dolgot figyelembe kell vennnk ahhoz,
hogy a szzsk algoritmus fordtsok esetben is jl mkdjn. Mivel Sx s Sy nyelve
nem azonos, ezrt definilnunk kell, hogy mit jelent kt sz azonossga, illetve klnbzsge: azaz mikor mondjuk, hogy wx wy s mikor mondjuk, hogy wx wy
Ahhoz, hogy ezt meghatrozzuk, definilnunk kell mg egy mveletet, a fordts
mvelett, azaz egy fordtsi fggvnyt, amely egy sznak, illetve annak sszes sztvnek az sszes fordtst adja vissza a msik nyelven.

trans(wx) = Wy ahol wy

Wy

trans(wy) = Wx ahol wx

Wx

mivel a fordts egy szimmetrikus mvelet, ezrt ha

wx

trans(wy) akkor wy

trans(wx)

ezek alapjn definiljuk, ha

wy

trans(wx) akkor wx wy

32

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


illetve ha

wx

trans(wy) akkor wx wy

hasonl mdon ha

wy

trans(wx) akkor wx wy

wx

trans(wy) akkor wx wy

illetve ha

A fent lert algoritmusnak szmos elnye van: elszr is nem kell szegyrtelmstst hasznlni, hiszen az azonossgi fggvnynk amelynek pontos mkdsnek
lerstl eltekintnk, csak a defincijt adtuk meg ezt feleslegess teszi azzal,
hogy minden lehetsges jelentst figyelembe vesz. Az egynyelv plgiumkeressekben hasznlt szinonima-egyrtelmstst, illetve -szrst sem kell alkalmazni, hiszen
egy sznak a lehetsges fordtsai a msik nyelven egy vagy tbb szinonimahalmazba
rendezhetek, s ezeket az algoritmus transzparensen kezeli. Az algoritmus nem rzkeny a szavak sorrendjre, mint az n-gram algoritmus, azaz nem fgg a fordtstl
s nem mkdik nagyon eltren bartsgos s nem bartsgos nyelvprok esetben.
Az algoritmus htrnya viszont a hatalmas keressi tr s a lineris keressi id, azaz
a keress ideje linerisan fgg az adatbzis mrettl. Nagy adatbzisok esetn ez
gyorsan elfogadhatatlan keressi idket eredmnyez. Ez utbbi problmt az implementcis fzisban egy indexlt keresssel meg tudtuk oldani, de most a rszletek
ismertetstl helyszke miatt eltekintnk.

2.3. Tesztkrnyezet kialaktsa


Az algoritmus tesztelshez szksgnk van olyan szvegekre, amelyeknek ismerjk
a fordtst, valamint egy olyan hatalmas korpuszra, amely lehetv teszi a hamis
pozitv tallatok tesztelst is, azaz egy olyan korpuszra, amely mr biztos tartalmaz
hasonl mondatokat, hiszen 10 mondatbl kivlasztani egy adott mondat fordtst
egy igen rosszul teljest algoritmusnak se lenne gond. Nagymret korpusznak a
Wikipdit vlasztottuk, abbl is az angol nyelvt. [12] Amennyiben egy algoritmus
kpes egy Wikipdia mret adatbzisbl kivlasztani a megfelel mondato(ka)t,
akkor elmondhatjuk, hogy jl mkdik. Utbbira azrt is esett a vlaszts, mert sokan
idznek, illetve sokan plagizlnak is sajnos a Wikipdibl, gy gyakorlati haszna is
van egy olyan keresnek, amely kiemeli a Wikipdibl tvett rszeket egy dolgozatban. Sztvezsre a MOKK ltal fejlesztett, ingyenesen elrhet Hunspellt alkalmaztuk [13]. Szmos eszkz ltezik, amely kpes szvegeket mondatokra bontani, de mi
hrom okbl dntttnk a sajt algoritmus hasznlata mellett: a) Elszr is a
Wikipdia szvege mg szveges formtumra alakts utn is tartalmazott hibkat, pldul mondatok rendszeresen egyberdnak a kvetkezvel (hinyzik a szkz
a mondatot lezr rsjel utn). b) Msodszor pedig egy olyan algoritmusra volt szk-

Szeged, 2011. december 12.

33

sgnk, ami gyors, s segtsgvel elkerlhetjk az jabb kztes fjlok ltrehozst.


c) Mivel ekkor mr ltszott, hogy a teljes folyamat igen erforrs-ignyes, ezrt szerettnk volna minl kevesebb kls programot hasznlni, hogy a plgiumkeres program minl tbb gpen legyen kpes futni.
Tbb okbl kifolylag is elengedhetetlennek bizonyult egy automatikus fordt
hasznlata a tesztekhez. Az els s legfontosabb, hogy nem rendelkeznk annyi
Wikipdibl vagyis tulajdonkppen brhonnan szrmaz angol-magyar prhuzamos korpusszal, amely elegend lenne az algoritmus tesztelsre. Termszetesen
ssze kell vetni az automatikus fordtval s egy szemly ltal fordtott szvegen elrt
eredmnyeket, hogy megbizonyosodjunk arrl, hasonl eredmnyt kapunk a kt esetben. A knny elrhetsg s az API fellet miatt esett a vlaszts a Google fordtjra. [14]
Ahhoz, hogy egy angol s egy magyar sz azonossgt meg tudjuk llaptani,
szksgnk van egy szszedetre, egy lapos sztrra. Ehhez kitn alapot nyjtott a
SZTAKI online sztra. [15] Mivel azt is szksges tesztelni, hogy a sztr mrete,
illetve a hinyz fordtsok mennyire befolysoljk az algoritmust, ezrt ms, online
elrhet sztrakkal illetve szszedetekkel is vgeztnk ksrleteket. A kutats jelents rszt az sszes sztr unijval vgeztk.

3 Konklzi
Az algoritmus tesztelshez a teljes feldolgozott angol Wikipdit feltltttk egy
adatbzisba, s ebben kerestnk, mind a kzzel magyarra fordtott, mind a gppel
fordtott Wikipdia cikkeket. A kt keress kztt statisztikai klnbsget nem talltunk, gy most a sokkal nagyobb mennyisg, gppel fordtott korpuszon elrt eredmnyeket ismertetjk.
A magyar mondatokra keresve 0,67 recall rtket kaptunk, azaz ennyi volt az arnya azon mondatoknak, ahol a teljes Wikipdibl sikerlt kivlasztanunk azt a mondatot, amelyiknek ez a magyar mondat a fordtsa. Ez annyit jelent, hogy egyenletes
valsznsget felttelezve a mondatoknl annak az eslye, hogy egy 10 mondatbl
ll szakaszbl egy hasonlt se tallunk meg, 0,000016; s csak az esetek 2%-ban
fogunk kevesebb mint 4 mondatot hasonlnak tallni.
A recall rtke knnyedn mrhet, amennyiben tudjuk, hogy mit fordtottunk le a
msik nyelvre. Ugyanakkor a pontossg meghatrozsa sokkal krlmnyesebb,
hiszen kzzel kell ellenrizni, hogy a visszaadott tallatok kzl melyek tnyleges
lehetsges fordtsok, s melyek nem. Egy vletlen kivlasztott, kzzel fordtott, s
kzzel ellenrztt korpusz esetben, ahol rtkt 2-nek,
-t pedig 1-nek vlasztottuk, a hasonlsgi metrika (Sim) minimumt pedig 8-nak, a pontossgra 0,92-t kaptunk, a recall rtke pedig 0,85 lett. Ebbl F1=0,88 addik.
Az algoritmus kutatsa mr befejezdtt, jelenleg az algoritmus finomhangolsn
s a KOPI Plgiumkeres Portlba val integrlsn dolgozunk. A konferencira mr
mindkett elkszl s remnyeink szerint be tudunk szmolni az els publikus tesztek
eredmnyrl is.

34

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4 Tovbbi tervek
Az algoritmust kzzel ellenriztk ms nyelvprok esetben is, s az eredmnyek
bztatak, de clunk, hogy pontosan kiszmoljuk a recall s pontossg rtkeket legalbb 10 tovbbi nyelvpr esetben is.
A szszedet mrete lineris sszefggst mutat a futsi idvel, azaz minl tbb lehetsges fordtsa van egy sznak, annl nagyobb a keressi tr, s annl lassabb lesz
a keress. A pontossgot ugyanakkor sokkal kisebb mrtkben javtja egy adott mrethatr felett, gy meg kell hatrozni, hogy mi az idelis szszedet mrete, amely
mg gyors algoritmust eredmnyez, de mr a tallati pontossga is megfelel egy adott
alkalmazshoz. Ez a mret valsznleg nyelvprfgg lesz.
Az algoritmus mkdik egynyelv keressek esetben is, amennyiben a fordtsi
azonossg (trans) helyett szinonimkat, antonimkat, hiper- s hiponimkat hasznlunk. ssze szeretnnk hasonltani az egynyelv keresst a jelenleg legtbb plgiumkeres ltal hasznlt n-gram algoritmus eredmnyvel is.

Bibliogrfia
1.

Bailey,
J:
The
Problem
with
Detecting
Translated
Plagiarism,
http://www.plagiarismtoday.com/2011/02/24/the-problem-with-detecting-translatedplagiarism/ (2011)
2. Dr. Weber-Wulff, D.: Results of the Plagiarism Detection System Test 2010,
http://plagiat.htw-berlin.de/software-en/2010-2/ (2010)
3. PAN 2010 Lab: Uncovering Plagiarism, Authorship, and Social Software Misuse
http://www.uni-weimar.de/medien/webis/research/events/pan-10/ (2010)
4. Potthast, M.; Barrn-Cedeo, A.; Eiselt, A.; Stein, B.; Rosso, P.: Overview of the 2nd International
Competition
on
Plagiarism
Detection,
http://www.clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf (2010)
5. Fischer, M.: Fordts s kzvetts a nyelvoktatsban mit nyjthat a nyelvoktatsnak a
fordtstudomny? , http://ecml.opkm.hu/files/FischerM.doc (2008)
6. Tth, P.: Fordtselmlet, http://dettk.ucoz.com/load/0-0-0-93-20 (2005)
7. How many words are there in the English language?, Oxford University Press,
http://oxforddictionaries.com/page/93 (2011)
8.
Wikipedia,
Szkincsmretek
sszehasonlt
listja,
http://hu.wikipedia.org/wiki/Szkincsmretek_sszehasonlt_listja (2011)
9. Nida, E. A.: Toward a Science of Translating. E. J. Brill, Leiden (1964)
10. Wikipedia: Bag of words model, http://en.wikipedia.org/wiki/Bag_of_words_model (2011)
11. Mihltz, M.: OpinHu: online szvegek tbbnyelv vlemnyelemzse. In: VII. Magyar
Szmtgpes Nyelvszeti Konferencia. Szeged (2010)
12. Wikipedia the free encyclopedia, http://en.wikipedia.org/ (2011)
13. BME MOKK: Hunspell sztvez, helyesrs ellenrz, morfolgiai elemz,
http://hunspell.sourceforge.net/ (2011)
14. Google: Google Translate, http://translate.google.com/ (2011)
15. MTA SZTAKI: SZTAKI Sztr, http://szotar.sztaki.hu/ (2011)

Szeged, 2011. december 12.

35

Soknyelvpros gpi fordts hatkony s


megbzhat kirtkelse
Oravecz Csaba, Sass Blint, Tihanyi Lszl
MTA Nyelvtudomnyi Intzet
e-mail:{oravecz.csaba,sass.balint,tihanyi.laszlo}@nytud.hu

Kivonat Gpi fordtsok kirtkelsre a legmegbzhatbb mdszer az


emberi szakrti kirtkels, mely egyrtelmen elsdleges mindenfajta
egyb megkzeltssel szemben. A dolgozat arra keresi a vlaszt, hogy milyen elfogadhat alternatvkkal vlthat ki a szakrti kirtkels abban
az esetben, amikor ez a preferlt, ugyanakkor rendkvl erforrsignyes
mdszer a kirtkelend szvegek nagy mennyisge, illetve a kirtkelsi
feladat sajtos paramterei miatt nem alkalmazhat. A javasolt megolds
a rendelkezsre ll tbbfle tpus kirtkelsi informcit rugalmasan
kombinl s ennek alapjn minsgi klasztereket kpz eljrs, ahol az
egyes klasztereken bell minden fordtsi kimenethez vletlenszeren generldik az aktulis rangsor.
Kulcsszavak: gpi fordts, fordtskirtkels, korrelci, fordtportl

1.

Bevezets

A kutats httert az iTranslate4.eu nemzetkzi projektum adja, melynek keretben elkszlt egy 63 nyelvpr kztti automatikus gpi fordtst s egyb fordtson alapul szolgltatst knl webportl. A weboldalon a fordtst 14 szolgltat ltal kifejlesztett szablyalap, illetve statisztikus fordtmotorok vgzik. A
63 nyelvpr sszesen 6362 = 3906 nyelvpr kztti fordtst tenne szksgess.
Br a portl szmra valjban csak 233 nyelvi motor ll rendelkezsre, megfelel kzvett nyelvek megvlasztsval a portl kiszolglja valamennyi nyelvi
irnyt, gy tetszleges nyelvrl tetszleges msikra fordt.
A portl egyedi sajtossga hasonl online fordtkkal szemben, hogy egy-egy
krsre tbb megoldssal is tud szolglni. Mind a klnbz programok gyrtinak, mind a felhasznlknak termszetes ignye, hogy ezek az alternatvk minsgi sorrendben jelenjenek meg. Ehhez szksg van az egyes fordtk krdses
nyelvprok szerinti teljestmnynek a kirtkelsre, hatkony s megismtelhet, a fordtmotorok minsgi vltozst kvetni kpes mdon. A feladat volumennek kvetkeztben a szakrti emberi kirtkels nem vehet szmtsba,
ms mdszereket kell kidolgozni. A kirtkelsi feladat clja teht alapveten bekezds hosszsg szvegek sorrendbe rendezse, amelynl gyelembe kell venni,
hogy

36

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

a minsts nem lassthatja a fordtsi folyamatot,


a szvegek megjelentsnek clja a megrts s nem az jrafelhasznls,
ezrt olyan oine kirtkelsi eljrsok preferlandk, amelyek inkbb a felhasznli vlemny, mintsem az esetleges utszerkesztshez szksges kltsgmetrika alapjn rangsorolnak.
Az oine megoldssal termszetesen nem az ppen megjelen fordtsokat
rangsoroljuk, hanem az azokat ltrehoz fordtprogramokat. A rangsor a fordtprogramok szempontjbl relevns, hiszen a kvetkez kirtkelsig meghatrozza azok sorrendjt. A minstsek a fordtsokkal egytt nem jelenthetk
meg, hiszen a felhasznl a konkrt megolds minstst vrn el, a fordtk
ltalnos minstse ezt pedig csak kzeltheti.

2.

Gpi fordtsok kirtkelse

A gpi fordtsok kirtkelse kzismerten krlmnyes s bonyolult feladat,


melyre hossz ideje keresnek hatkony s knnyen kivitelezhet megoldst. Az
automatikus kirtkel metrikk legismertebbje, a Bleu-mrtk [17] mellett mra
tovbbi mdszerek sokasgt fejlesztettek ki (lsd pl. a [7] kiadvnyt, illetve a
[4] tanulmnyban tallhat sszefoglalt). Szles krben elfogadott ugyanakkor,
hogy az automatikus mdszerek megbzhatsga jelentsen elmarad a (szakrti) humn kirtkelstl [4], ezrt gyakorlati hasznuk leginkbb a fordtmotorok
fejlesztse sorn van [6]. A legjobb eredmnyeket ad eljrsok ezen tl olyan
nyelvi elksztst s adott nyelvi erforrsok (pl. WordNet) megltt ignylik,
melyek a jelen feladat kontextusban nyilvnvalan a krdses nyelvek nagy rszben nem llnak rendelkezsre. Tovbbi problma, hogy a statisztikai alap
fordtrendszerek, melyek egyre inkbb dominnsak a szablyalap rendszerek
felett, egyre tbb, gyakorlatilag minden elrhet adatot igyekeznek felhasznlni
betantsuk rdekben. Ezrt lehetetlen, de legalbbis bizonytalan kimenetel
egy elfogulatlan, fenntarthat s folyamatos nagy lptk kirtkel krnyezetet
kifejleszteni, hiszen a tesztadatok fggetlensge nem biztosthat.
A fentiek fnyben egyrtelm a humn kirtkels elsdlegessge akkor, amikor a feladat a tbbfle fordtmotor ltal szolgltatott fordtsok valamilyen
rangsorba lltsa. A legjobb megolds termszetesen a szakrti kirtkels, m
az gy kapott eredmnyek objektv rtelmezse sem problmamentes [2]. Kzenfekv persze, hogy jelen esetben ez a rendkvl erforrsignyes mdszer a
kirtkelend szvegek nagy mennyisge, illetve a kirtkelsi feladat sajtos paramterei miatt eleve szba sem jn, a vgs megoldsban fenntarthat mdon
nem alkalmazhat.

3.
3.1.

Mdszerek s vizsglatok
A kirtkelend nyelvek, nyelvprok s fordtmotorok

Br 63 nyelv esetn a nyelvprok elvi kombincijnak szma 3096, ennl jval


kevesebb nyelvpr kirtkelsvel kellett foglalkoznunk. Ennek tbb oka is volt:

Szeged, 2011. december 12.

37

egyrszt a valjban nyelvi motorral is tmogatott nyelvprok szma csak 233, a


tbbi esetben pedig kzvett nyelven keresztl kt lpsben fordt a rendszer. A
portlunkhoz hasonlan a Google s a Microsoft fordtprogramjai is kzvett
nyelvet hasznlnak, azaz az ltaluk tmogatott nyelvprok szma ezek esetn is
csak a nyelveik szmnak a ktszerese. A tbbi 12 fordtprogram a minsgi
normk betartsa rdekben nem vgez kzvett nyelves fordtst, itt a nyelvprok szma kzvetlenl ismert. Mivel a kirtkelsi feladatunk clja rangsorols
volt, ezrt nem kellett gyelembe venni azokat a nyelvprokat sem, amelyeken
csak egy versenyz indult, ezzel a nyelvprok szma 106-ra cskkent.
A weboldalon fordt programok kt nagy kategriba csoportosthatk. Az
egyikbe a szerzdses partnerek, a msikba pedig a Google s a Microsoft tartoznak. Az utbbiak szabadon elrhet programozi fellet (API) segtsgvel
integrlhatk. Mivel azonban mind a Google, mind a Microsoft fordtk ilyen jelleg felhasznlsa hamarosan zets szolgltatss vlik, ezrt ezeknek a nyelvproknak zemeltetse s kirtkelse csupn tjkoztat jelleg eredmnnyel
szolglhat, a vgleges megoldsban nem jtszik szerepet. A 12 partnerfordtbl
a legalbb kett ltal tmogatott nyelvprok szma 58 volt. Mivel a kirtkelsi eljrsok kltsgt alapveten a kirtkelshez szksges nyelvi erforrsok
(prhuzamos szvegek gyjtse, tesztek sszelltsa) teszik ki, ezek csak egy-egy
j nyelvpr esetn jelentenek tbbletkltsget. Vagyis a partnerek miatt kirtkelend nyelvprok esetn a kirtkels tovbbi kltsg nlkl kiterjeszthet a
Google s Microsoft fordtkra is.
A kirtkelsi feladat sorn a versenyzk szmnak alakulsa s a klnbz
nyelvprok (nyelvek ISO kd szerinti rvidtsvel) az albbiak voltak:
8:
7:
6:
5:
4:

fr-de, en-de, de-fr, de-en


fr-en, en-fr
it-en, es-en, en-it, en-es
ru-en, pt-en, pl-en, fr-es, es-fr, es-de, en-ru, en-pt, en-pl, de-es
zh-en, uk-en, tr-en, sv-en, sl-en, ru-pl, ru-fr, ru-de, pl-ru, pl-fr, pl-de, no-en,
lv-en, it-fr, it-es, it-de, hu-en, fr-ru, fr-it, -en, es-it, en-zh, en-tr, en-sv, en-lv,
en-hu, en-, en-da, de-ru, de-pl, de-it, da-en, bg-en

A fenntarthat kirtkelshez ktfle kivitelezhet megkzelts vlaszthat,


m mindegyik felvet szmos olyan krdst, melyet a hatkony mdszer kidolgozsa rdekben meg kell vlaszolni:
A. Valamilyen sztenderd mrtk(ek) szerinti automatikus, gpi kirtkels.
B. Emberi, de nem szakrti kirtkels, amely nagy lptkben is alkalmazhat.
3.2.

Automatikus kirtkels

Az automatikus kirtkels (a tovbbiakban au) sorn az IQMT [12] keretrendszer ltal szolgltatott 5 fle sztenderd mrtk normalizlt tlagt hasznltuk:
BLEU [17], NIST [9], GTM [16], METEOR [1] s ROUGE [13]. Idelis esetben
3 humn referenciafordts szksges a kirtkelshez, tekintve azonban a projektben szerepl nyelvek szles skljt, ilyen mennyisg fordts beszerzse,

38

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

ellltsa remnytelen, gy egy referenciafordtst alkalmaztunk, s a felhasznlt szvegek mfajnak s forrsnak varibilitsval prbltuk kiegyenslyozottabb tenni az automatikus kirtkelst. A kvnt nyelvi erforrsok az EU
prhuzamos hrkorpuszbl szrmaznak, 13 klnbz tmakategribl, mintegy 80 ezer szvegsz mretben. Termszetesen, hiba sajt gyjtsrl van sz,
itt is felmerl a forrsok fggetlensgnek krdse: vajon ezek a szvegek nem
alkottk-e a rszt a statisztikus fordtprogramok tantkorpusznak.
3.3.

Emberi, nem szakrti kirtkels a Mechanical Turk


rendszerben

A nagyobb volumen emberi, nem szakrti fordtsrtkels megvalstsra lehetsget adnak az utbbi vekben ltrejtt, online elrhet crowdsourcing rendszerek. Ezekben a rendszerekben internetes rlap formjban megfogalmazhat,
emberi intelligencit ignyl feladatok (HIT, human intelligence task) tehetk
kzz. A feladatokat a regisztrlt dolgozk (worker) meghatrozott zetsg ellenben vgzik el. Lehetsg van a dolgozk elzetes szrsre, pldul megtehetjk, hogy csak olyan dolgozk jelentkezst fogadjuk, akik mr korbban adott
szm HIT-et sikeresen megoldottak. A nem megfelel minsgnek tlt munkavgzs esetn a zetsg visszatarthat. Ezek az eszkzk segtenek a munkavgzs
ltalnos minsgi szintjt magasan tartani. A crowdsourcing rendszerekkel teht olcsn s gyorsan lehet megbzhat minsg megoldst tallni emberi intelligencit ignyl feladatokra [3], ugyanakkor legjabban mr az ilyen rendszerek
esetleges kockzataira is felhvjk a gyelmet [11].
Eljrsunk. A gpi fordtsok emberi, nem szakrti kirtkelsre (a tovbbiakban mt) a Mechanical Turk (http://www.mturk.com) internetes rendszert
alkalmaztuk.
Forrsnyelvenknt 30 darab, tma szerint minl vltozatosabb kzepes hosszsg (legnagyobbrszt 1030 szavas) mondatot gyjtttnk. Ezeket a mondatokat a rendelkezsre ll fordtprogramok mindegyikvel lefordtottuk. Hogy egy
kirtkelsi feladat ne legyen tl idignyes, egy feladatba (HIT-be) 5 mondatot
tettnk, azaz a 30 mondatot 6 db 5-s csoportra osztottuk. Egy kirtkelnek
teht egy feladat keretben 5 db mondat fordtsait kellett rtkelnie.
A kirtkelknek az a feladata, hogy 1-tl 5-ig terjed skln minsg szerint
pontozzk a fordtsokat. Az instrukcik s egy mintafeladat svdangol nyelvprra, ahol 4 klnbz automatikus fordt van a 1. brn lthat. A feladat a
fordtsok sorba rendezse, 1-tl (legjobb) 5-ig (legrosszabb) skln adott pontszm segtsgvel. Tbb mondatnak adhat azonos pontszm, s a fordtsok
szmtl fggetlenl 1-tl 5-ig terjed sklt hasznlunk.
A rendszer mkdsbl addan egy kirtkel tetszleges szm mondat
kirtkelst elvgezhette (azaz akr az sszes 30 mondatt is). Ezrt hogy
semmikpp se csak egy dolgoz vlemnyre tmaszkodjunk minden mondatot 3 klnbz kirtkelvel rtkeltettnk ki. Itt a klnbzsget szintn a
rendszer biztostja. Vgeredmnyben teht fordtnknt 3 30 = 90 kirtkelsi
pontszmot kaptunk, ami minimum hrom klnbz kirtkeltl szrmazott.

Szeged, 2011. december 12.

39

1. bra. Egy a Mechanical Turk rendszerben megvalstott fordtskirtkelsi


feladat dolgozknak szl fellete a svdangol nyelvpr esetn.

A kapott 90 db rtk sszestsre ktfle mrszmot alkalmaztunk. Egyrszt


egyszeren tlagot szmoltunk, msrszt az EuroMatrix projektben [5, 3.1 rsz]
alkalmazott mrtket hasznltuk, miszerint egy fordtrendszer minden olyan
esetben kap egy pontot, ha egy kirtkel szerint egy msik rendszernl jobb
(vagy vele egyforma), s vgl pontszm szerint rendeztk a fordtrendszereket.
A kt mrszm lnyegben minden esetben ugyanazt az rtket adta, ezrt a
pontszmok tlagval dolgoztunk a tovbbiakban.
Minsgbiztosts. A fordtsrtkelsi feladat megoldshoz nyilvn szksges mindkt nyelv megfelel ismerete, magasszint ismeret fknt a clnyelv
esetben kvnatos. Annak rdekben, hogy valban j minsg rtkelseket
kapjunk, bevezettk azt, hogy a dolgozknak elszr ki kell tltenik egy rvid
tesztet az adott nyelvprra vonatkozan, s csak akkor dolgozhatnak a kirtkelsben, ha ez j eredmny. A Mechanical Turk terminolgijval egy megfelel
minsts (qualication) megltt kveteljk meg, mieltt a dolgoz hozzkezd
a munkhoz.
A clnyelvre fordts kpessgt egy ngy krdsbl ll teszttel mrtk, ngy
darab forrsnyelvi mondat esetben kellett megmondani, hogy a felknlt fordtsok kzl melyik a legjobb. A szndkosan hibs fordtsokban morfolgiai,
szintaktikai s szemantikai, szkincsbeli hibk egyarnt elfordultak.
Sorrendkevers. Kutatsunk els szakaszban a fordtsok mindig x sorrendben jelentek meg. Ez a sorrendbl add nem kvnt torzt hatshoz vezetett.

40

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

E hatst s kikszblst a nmetangol nyelvpron mutatjuk be, ahol 7 fordtrendszert teszteltnk.


A pszicholgiban ismert az a jelensg, hogy ha tbb azonos tpus entitst
kell rtkelnnk, akkor jelentsge van annak, hogy ezek a bizonyos rtkelend
dolgok milyen sorrendben kerlnek elnk. Meggyeltk, hogy bizonyos esetekben
hajlamosak vagyunk az elsknt ltottat elnyben rszesteni (primciahats,
v. [15]), ms felttelek mellett pedig az utolst (recenciahats, v. [8]). Ezek a
jelensgek fknt akkor gyelhetk meg, mikor az adott jellt meggyelse utn
azonnal rtkelni kell, nem vrhatjuk meg a pontszmokkal az sszes versenyzt
(ilyen pldul a mkorcsolya-zsrizs struktrja). Esetnkben lehetsg volt a
jelltek (fordtsok) tbbszri vizsglatra, sszevetsre, s csak az sszes jellt
vizsglata utn kellett dntst hozni, mgis hatrozott primciahatst talltunk,
amit torztotta az eredmnyeket.
A nmetangol nyelvpron vgzett els ksrletekben teht a 7 angol fordts mindig x sorrendben, a fordtrendszerek neve szerinti betrendben jelent
meg az eredeti nmet mondat utn. A fordtnknt 90 rtkbl add tlagos
pontszmok a 2. brn lthatk.
A B C D E F G
4,07 3,47 3,54 3,44 1,50 2,92 1,58

2. bra. Fordtknti tlagos pontszmok. Itt a 7 angol fordts mindig a fordtk neve szerinti betrendben kvetkezett az eredeti nmet mondat utn. (Az
osztlyzs itt eredetileg 1-tl 7-ig trtnt, utlag normltuk ezt az sszehasonlthatsg kedvrt az 1..5 sklra a kvetkez mdon: normlt = eredeti 23 + 13 .)

A sorrendi hatsok kiegyenltse nem mindig knny [8], esetnkben azonban


egy egyszer, determinisztikus sorrendkever algoritmus segtsgvel biztostani
lehetett azt, hogy minden pozci esetben igaz legyen az a felttel, hogy minden
fordt ugyanannyiszor fordul el az adott helyen.
A sorrendkever algoritmus alkalmazsval a fordtsok determinisztikus mdon vltoz, a keveralgoritmus ltal meghatrozott sorrendben kvettk egy-

Szeged, 2011. december 12.

41

mst. A nmetangol nyelvpr esetben a fordtknti 90 rtkbl gy add


tlagos pontszmokat a 3. brn lthatjuk.
A B C D E F G
3,43 3,20 3,40 3,39 1,34 3,08 1,72

3. bra. Fordtknti tlagos pontszmok. Itt a 7 angol fordts mindig vltoz,


a keveralgoritmus ltal meghatrozott sorrendben kvetkezett az eredeti nmet
mondat utn.
A 2. s a 3. brt sszevetve ltjuk, hogy egy helyen maga a sorrend is
megvltozott (B-D helyett D-B), de ennl lnyegesebb annak feltrsa, hogy
milyen mrtkben vltoztak a pontszmok a kt elrendezs kztt. A klnbsgeket brzoltuk a 4. brn. Az bra tansga szerint egyrtelm primciahatst
tapasztalunk (a x els hely jogtalan elnnyel jr; aki elrbb van, az rdemtelenl tbb pontot kap), egyfajta fordtott recenciahatssal erstve (aki htrbb
van, az igazsgtalanul kevesebb pontot kap). A torzt hats arnyos az eredeti
pozcival.
Az eredmny arra hvja fel a gyelmet, hogy az ilyenfajta tbbszri rtkelses feladatokban egyltaln nem mindegy, hogy milyen sorrendben szerepelnek
az rtkelend entitsok, a sorrend nagyban befolysolja az eredmnyt. Az igazsgos rtkelshez fontos a sorrendi hatsok kikszblse, klnben torzul az
eredmny.
3.4.

Felhasznli visszajelzsek

A harmadik kirtkel komponenst a felhasznli visszajelzsek (tovbbiakban


fv) alkotjk. Ezek valjban az egyes fordtsokra rkezett szavazatok, amelyeket a portlon adhatnak le a felhasznlk. Egy fordts esetn tbb megolds
is megjellhet. A szavazatokat a portl megnyitsa ta gyjtjk. Br a szavazati hajlandsg viszonylag magas (5%-os), az indul weboldal ltogatinak
alacsony szma miatt az adatok mennyisge csak lassan n. A szavazs sorn

42

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


A B C D E
F
G
0,64 0,27 0,14 0,05 0,16 -0,16 -0,14

4. bra. Fordtknti tlagos pontszmok klnbsge az els sorrendi hatsnak


kitett (v. 2. bra) , s a msodik sorrendi hatsra semleges (v. 3. bra)
elrendezs kztt. Br az eltrs csak A esetben szignikns (ktmints Welchprba: p  0.05), jl lthat egy trend, miszerint a sorrendi hatsnak kitett
esetben az elrbb lvk jogtalan elnyhz jutnak, a htrbb lvk pedig htrnyt szenvednek.

kiderlt, hogy a kzvettnyelves megoldsok is hasznlatban vannak, s szavazatokat tudnak gyjteni. Ezekre sem az automatikus, sem az mt kirtkelsek
erforrs hinyban nem tudtak adatokkal szolglni. A partnerek kztt elvi
egyetrts alakult ki arrl, hogy a jvben, megfelel mennyisg adat birtokban az fv kirtkels legyen elsdleges, hiszen ez elvileg valdi fordtsi krdsekre valdi felhasznlk ltal adott rtkelst kpvisel. Vizsglni kell azonban
ennek a kirtkelsi mdszernek a megbzhatsgt is.

4.
4.1.

Eredmnyek
A kirtkelsek sszevetse

Fontos krds, hogy a 3.3. rszben lert mdszer segtsgvel a Mechanical Turk
rendszerrel valban lehetsges-e magas megbzhatsg kirtkelst vgezni. Ezt
gy vizsglhatjuk meg, hogy a szakrt vlemnyt vetjk ssze a nem szakrt
dolgozk vlemnyvel. Ennek rdekben kirtkeltettk a mr emltett nmet
angol nyelvprt egy szakrtvel. A szakrt ltal adott 30 darab pontszm tlagos
rtke a 5. brn lthat.
Annak ellenre, hogy a kis eltrsek miatt a fordtk sorrendjben lnyeges
klnbsgek vannak, meggyelhet, hogy a nem szakrti kirtkelk (3) s a
szakrt (5) meglehetsen hasonlan rtkelte a fordtsokat, ahogy a kt brn
lthat grakon lefutsn is lthat. Clszer ezrt a rangsorok sszehasonltsra szoksosan hasznlt Spearman-fle rangkorrelcis egytthat helyett ms

Szeged, 2011. december 12.

43
A B C D E F G
4,03 3,83 3,83 4,13 2,07 3,87 2,57

5. bra. A szakrt tlagos pontszmai nmetangol nyelvprra. A grakon lefutsa lnyegben megegyezik a 3. brn lthatval.

megkzeltst alkalmazni a hasonlsg mrtkre. KolmogorovSzmirnov prbval vizsgltuk meg, hogy mennyire valszn, hogy a kt grakon ugyanazt
rja le. A p rtkre 0,05-nek addott, azaz 5% hiba mellett mondhatjuk, hogy
igaz az, hogy a nem szakrtk s a szakrt gyakorlatilag ugyangy rtkelte
a fordtsokat. Emiatt a Mechanical Turk rendszerben kapott kirtkelseket is
megbzhatnak tarthatjuk, azaz ltalnossgban tmaszkodhatunk erre a sokkal
olcsbb s egyszerbben kivitelezhet emberi kirtkelsi metdusra. Korbban
gy gondoltk [3], hogy a crowdsourcing megbzhat kirtkelsi eredmnyeket
ad, ez ksbb megkrdjelezdtt [4], jelen eredmnyeink azt mutatjk, hogy ha
az alkalmas dolgozkat a 3.3. rszben bemutatott eljrs segtsgvel vlasztjuk
ki, a megbzhatsg megfelel szint lesz.
A tovbbi komponensek sszehasonltsa sorn beigazoldott, hogy a szakrti kirtkelshez legkzelebb ll MT mdszer utn a felhasznli visszajelzsek
a legmegbzhatbbak, az automatikus kirtkels pedig, klnsen a statisztikai
fordtkkal szembeni elfogultsg miatt a legkevsb megbzhat. Azokon a nyelvprokon, ahol kzvetett s kzvetlen fordtsok is elrhetk voltak, egyrtelmen
megmutatkozott az utbbiak minsgi flnye.
4.2.

Javasolt kirtkelsi mdszer

A gyakorlati alkalmazsban nehezen vdhet egy, a kirtkelsek alapjn rgztett rangsorba rendezs a fordtmotorok kztt, s a fordtsok e szerinti megjelentse. A 6. bra illusztrl egy olyan sszevont rangsort, ahol az egyes fordtmotorokhoz rendelt mrtk (score) a hrom komponens (s) slyozott tlaga
(w1 = 0.1, w2 = 0.3, w3 = 0.6):
score =

w1 sAU + w2 sMT + w3 sFV


3

(1)

44

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A kis minsgi klnbsggel htrbb sorolt partner jogosan tiltakozik, hogy a

6. bra. Az egyes komponensek eredmnyei s az sszevont rangsor.


sohasem 100%-osan megbzhat rtkels(ek) alapjn vglegesen rosszabb helyre
kerl. Ezrt a rgztett rangsor helyett az albbi javasolt mdszerrel prbljuk
kikszblni ezt a problmt.
Kpezznk az rtkels sorn kapott eredmnyek alapjn a fordtmotorok
kztt minsgi klasztereket. A klaszterek szmt az rtkelskor kapott adatok
alapjn kell automatikusan meghatrozni (a 3., 5. s 6. brn lthat adatok
alapjn pldul kt minsgi klasztert clszer kpezni, ha eltekintnk az AU
mdszer elfogultsgtl a statisztikus fordtk fel). Erre ktfle megkzelts alkalmazhat: a klaszterek szmt elre megkvn algoritmus (pl. k-means) esetben valamilyen segdalgoritmus (lsd pl. [14,18]), illetve a klaszterek szmt is
meghatroz klaszterez algoritmus [10]. Az egyes klasztereken bell alapesetben
vletlen rendezs szerint jelennek meg a fordtsok. A klaszterek kpzshez szksges bemen adatot az adott nyelvprra ktflekppen llthatjuk el. Egyrszt
a rendelkezsre ll kirtkel komponensek eredmnyeinek pldul (1) szerinti
sszevonsval, vagy az ppen legmegbzhatbbnak tekinthet s elegend adatot szolgltat komponens kizrlagos gyelembevtelvel (ahol a megbzhatsgi sorrend a kvetkez MT FV AU). A legjobb megolds kivlasztshoz

Szeged, 2011. december 12.

45

tovbbi rtkelsi adatok s vizsglatok szksgesek, ahol termszetesen azt is


meg kell hatrozni, mit fogadunk el elegend adatnak.
Ez a mdszer felttlen igazsgosabb s a partnerek ltal is elfogadhatbb,
mint a kttt rangsor alapjn trtn rendezs, megvalstsa azonban technikai
okok miatt csak rszleges lehet. A fordtmotorok eltr sebessge miatt portl
felleten denilt meghatrozott maximlis vlaszid (jelenleg 1mp) mr eleve
kialakt egy sorrendet. A portl szolgltatsait kzvett API alkalmazsokban
pedig a hv fl lltja be a krt megoldsokat, az ltala tapasztalt sebessgi s
minsgi eredmnyek alapjn.

5.

sszefoglals s tovbbi feladatok

A tanulmnyban megvizsgltuk, hogy egy konkrt alkalmazsban hogyan valsthat meg gpi fordtsok kirtkelse olyan krnyezetben, ahol szmos gyakorlati paramtert kell gyelembe venni. Javaslatot tettnk olyan kirtkelsi mdszerre, amely vlaszt ad a felmerl problmkra: megbzhat, fenntarthat s
soknyelvpras fordts esetn is alkalmazhat, ezzel egytt vdhet s igazsgos
minstst eredmnyez. A portl mkdse sorn gyjttt adatok mennyisgnek
nvekedse tovbbi rszletes vizsglatok elvgzsre ad lehetsget, melyek kirtkelse mg megalapozottabban kimutathatja az egyes fordtk kztti minsgi
klnbsgeket.

Hivatkozsok
1. Banerjee, Satanjeev s Lavie, Alon. METEOR: An Automatic Metric for MT
Evaluation with Improved Correlation with Human Judgments. In: Proceedings
of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or
Summarization, 2005, 6572.
2. Bojar, Ondej, Ercegovevi, Milo, Popel, Martin s Zaidan, Omar. A Grain of
Salt for the WMT Manual Evaluation. In: Proceedings of the Sixth Workshop on
Statistical Machine Translation, Edinburgh, Scotland. Association for Computational Linguistics, July, 2011, 111.
3. Callison-Burch, Chris. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazons Mechanical Turk. In: Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing, Singapore. Association for
Computational Linguistics, 2009, 286295.
4. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof, Peterson, Kay, Przybocki, Mark s Zaidan, Omar. Findings of the 2010 Joint Workshop on Statistical
Machine Translation and Metrics for Machine Translation. In: Proceedings of the
Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, Uppsala, Sweden. Association for Computational Linguistics, July, 2010, 1753.
5. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof s Schroeder, Josh. Findings
of the 2009 Workshop on Statistical Machine Translation. In: Proceedings of the
EACL Workshop on Statistical Machine Translation, 2009, 128.
6. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof s Zaidan, Omar. Findings of the 2011 Workshop on Statistical Machine Translation. In: Proceedings
of the Sixth Workshop on Statistical Machine Translation, Edinburgh, Scotland.
Association for Computational Linguistics, July, 2011, 2264.

46

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

7. Callison-Burch, Chris, Koehn, Philipp, Monz, Christof s Zaidan, Omar F. szerk.


Proceedings of the Sixth Workshop on Statistical Machine Translation. Association
for Computational Linguistics, Edinburgh, Scotland, July, 2011.
8. de Bruin, Wndi Bruine. Save the Last Dance for Me: Unwanted Serial Position
Eects in Jury Evaluations. Acta Psychologica, 2005, 118:245260.
9. Doddington, George. Automatic evaluation of machine translation quality using
n-gram co-occurrence statistics. In: HLT-01, 2002.
10. Ester, Martin, Peter Kriegel, Hans, S, Jrg s Xu, Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. AAAI Press,
1996, 226231.
11. Fort, Karn, Adda, Gilles s Cohen, K. Bretonnel. Amazon Mechanical Turk: Gold
Mine or Coal Mine? Computational Linguistics, 2011, 37(2):413420.
12. Gimnez, Jsus. IQMT. A Framework for Automatic Machine Translation Evaluation based on Human Likeness. TALP Research Center, 2007.
13. Lin, Chin-Yew s Och, Franz Josef. Automatic evaluation of machine translation
quality using longest common subsequence and skip-bigram statistics. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics,
ACL 04, Stroudsburg, PA, USA. Association for Computational Linguistics, 2004.
14. Lleti, R., Ortiz, M.C., Sarabia, L.A. s Snchez, M.S. Selecting variables for kmeans cluster analysis by using a genetic algorithm that optimises the silhouettes.
Analytica Chimica Acta, 2004, 515(1):87 100. Papers presented at the 5th COLLOQUIUM CHEMIOMETRICUM MEDITERRANEUM.
15. Mantonakis, Antonia, Rodero, Pauline, Lesschaeve, Isabelle s Hastie, Reid. Order
In Choice: Eects of Serial Position on Preferences. Psychological Science, 2009,
20(11):13091312.
16. Melamed, I. Dan, Green, Ryan s Turian, Joseph P. Precision and recall of machine
translation. In: Proceedings of the 2003 Conference of the North American Chapter
of the Association for Computational Linguistics on Human Language Technology:
companion volume of the Proceedings of HLT-NAACL 2003short papers - Volume
2, NAACL-Short 03, Stroudsburg, PA, USA. Association for Computational Linguistics, 2003, 6163.
17. Papineni, Kishore, Roukos, Salim, Ward, Todd s Zhu, Wei-Jing. Bleu: A method
for automatic evaluation of machine translation. In: ACL-02, Philadelphia, PA.
2002.
18. Sugar, Catherine A. s James, Gareth M. Finding the number of clusters in a
data set: An information theoretic approach. Journal of the American Statistical
Association, 2003, (98):750763.

Szeged, 2011. december 12.

47

Igei bvtmnykeretek fordtsi ekvivalenseinek


kinyerse mlyen elemzett prhuzamos korpuszbl
Hja Enik1, Takcs Dvid1, Sass Blint1
1 MTA Nyelvtudomnyi Intzet
{eheja,takdavid,sass.balint}@nytud.hu

Kivonat: Jelen cikk clja annak vizsglata, hogy a mly szintaktikai elemzs
nveli-e a fedst s a pontossgot igei szerkezetek fordtsi megfelelinek teljesen automatikus kinyerse sorn. Els lpsknt a prhuzamos korpusz forrsnyelvi s clnyelvi oldalt kln-kln elemeztk, majd ebbl nyertk ki az
igei szerkezeteket egy felgyelet nlkli tanul algoritmussal. Az gy elllt
igeiszerkezet-listt gyakorisgi alapon szrtk. A kvetkez lpsben az igei
szerkezeteket egytag kifejezsekk vontuk ssze a prhuzamos korpuszban,
hogy az egytokenes igei szerkezetek az illesztsi algoritmus bemeneteknt
szolglhassanak. Eredmnyeink azt mutatjk, hogy az alkalmazott mdszer jl
hasznlhat igei szerkezetek fordtsi ekvivalenseinek detekcijra.

1 Bevezets
Jelen cikkben ismertetett munka az EFNIL ltal finanszrozott EFNILEX projekt
rsze. A projekt azt vizsglja, hogy a nyelvtechnolgiai mdszerek s eszkzk
klns tekintettel a prhuzamos korpuszokra mennyiben jrulhatnak hozz a sztrksztsi folyamathoz. A sztrkszts automatikus tmogatsa elssorban a kevss hasznlt nyelvek esetben br jelentsggel, hiszen az ilyen nyelvprokra kszlt sztrak irnti kereslet alacsony, gy a szksges munklatok finanszrozsa is
korltozott. A projekt clkitzse kzpmret (min. 15,000 szcikk), ltalnos cl
sztrak ltrehozsa volt a magyar-litvn, illetve a francia-holland nyelvprokra.
A statisztikai gpi fordts trhdtsval jelentsen megntt a prhuzamos korpuszok szerepe a nyelvtechnolgiban. rdekes mdon a lexikogrfusok kztt nem
eldnttt krds, hogy hasznlhatak-e a prhuzamos korpuszok emberi felhasznlsra kszl sztrak ellltsra (l. pl. [1]). Eddigi kisrleteink azt mutattk, hogy ha
elfeldolgozsknt szillesztst vgznk, akkor az ltalunk javasolt mdszer szmos
elnnyel rendelkezik a hagyomnyos lexikogrfiai mdszertannal szemben [5]. A
javasolt mdszer htrnya, hogy nem kezeli a tbbszavas kifejezseket, gy nmagban alkalmatlan a tbb szbl ll fordtsi ekvivalensek kiszrsre. Ennek a feladatnak a megoldsa kiemelten fontos, hiszen egy sztrnak tartalmaznia kell azokat
a tbbszavas kifejezseket is, amelyek fordtsa nem kompozicionlis.
[6], illetve [9] altmasztottk, hogy egy elfeldolgoz modul hozzadsa elvileg
lehetv teszi a tbbszavas ige + bvtmny szerkezetek fordtsi megfelelinek automatikus kinyerst. Eredmnyknt olyan sszetett igei szerkezeteket kapunk, mint a

48

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

francia faire partie de... vagy holland megfelelje, a deel uitmaken van... (rszt kpezi vminek).
Feladatunk a mdszert tovbbfejleszteni gy, hogy a kinyert prhuzamos igei szerkezetek felvehetek legyenek a sztrba: vagyis a pontossg s a feds nvelsre
egyarnt szksg van. Ennek rdekben a kutats jelen szakaszban a [6]-ban, illetve
[9]-ben lertakat az albbiak szerint mdostottuk. (1) Elre meghatrozott igk helyett minden elegenden gyakori igt figyelembe vettnk, (2) minden igei szerkezet a
vizsglat trgyt kpezi, nemcsak azok a szerkezetek, amelyek fnvi lemmt is tartalmaznak, (3) rszlegesen elemzett prhuzamos korpusz helyett mly szintaktikai
annotcival rendelkez prhuzamos korpuszt hasznltunk az igei szerkezetek kinyershez.
Azt vrjuk, hogy a javasolt mdszer az ige+bvtmny szerkezetek fordtsi ekvivalenseinek teljesen automatikus meghatrozsval hozzjrul a sztri ttelek
mikrostrukttjnak kialaktshoz.
A kvetkez szakaszban vzoljuk a munkafolyamatot (2), amely hrom f lpsbl
ll: a prhuzamos korpusz szintaktikai elemzse (2.1), az igei szerkezetek automatikus kinyerse (2.2), valamint a protosztr ltrehozsa (2.3). Majd eredmnyeinket
mutatjuk be (3), vgl pedig a konklzikat s a tovbbi teendket (4).

2 A munkafolyamat
A munkafolyamat hrom f szakaszbl ll. Az els lpsben elvgezzk a prhuzamos korpusz francia s holland rsznek mly szintaktikai elemzst, majd az gy
elllt frzisstruktra-szerkezeteket az igei szerkezet kinyer algoritmus ltal megkvetelt rszleges fggsgi elemzsekk konvertljuk (2.1). A msodik lpsben a
francia s holland igei szerkezetek egymstl fggetlen automatikus kinyersvel
ltrehozzuk a vizsgland igei szerkezetek listjt (2.2). A harmadik lpsben a kivlasztott tbbszavas igei szerkezeteket egytokenes kifejezsekk vonjuk ssze, gy
ezek az illeszts bemenetl szolglhatnak. Eredmnyl egy tbbszavas igei szerkezeteket tartalmaz protosztrat kapunk (2.3).

2.1 A holland-francia prhuzamos korpusz szintaktikai elemzse


A ksrlethez a TLT-Centrale ltal fejlesztett Holland Prhuzamos Korpusz (DPC
Dutch Parallel Corpus) francia-holland alkorpuszt hasznltuk [7]. Az sszesen
6,820,547 tokenes prhuzamos korpusz 186,945 illesztett egysget tartalmaz.
A holland esetben a HPSG elemzst vgz Alpinot [2] hasznltuk, mg a francia
korpuszt az FRMG hibrid TIG/TAG-parszerrel elemeztk1 [11].
Az Alpino szablyalap szintaktikai elemz a prhuzamos korpusz holland rszkorpuszt rszletetes annotcival ltja el: megjelli a frzisok hatrait s megadja a
frzisok szintaktikai funkciit. Ennek sorn felismeri az ighez tartoz vonzatokat s
partikulkat. Elvgzi a frzisok bels elemzst is: annotcival ltja el a frzis fejt
1

A szvegek elemzsrt ksznettel tartozunk Gbor Katnak.

Szeged, 2011. december 12.

49

s a fejhez tartoz dependenseket. Az Alpino szmunkra kiemelten fontos tulajdonsga, hogy felismeri a tagmondathatrokat, s megadja a tagmondatok egymshoz val
viszonyt (fmondat, mellkmondat, koordinci).
Az FRMG hasonl mlysg elemzst vgez, mint az Alpino. Egy fontos klnbsg azonban, hogy az elemzs nem tartalmazott tagmondathatrra vonatkoz informcit, ezrt a tagmondathatr-felismerst sajt szablyokkal vgeztk el, amelyeket
ksbb rszleteznk.

1.

bra: A munkafolyamat.

A kvetkez lpsben az Alpino s az FRMG parszer kimenett kln-kln rszleges fggsgi elemzss alaktottuk, hogy az elemzett korpuszok az igekinyer
algoritmus bemenetl szolglhassanak.

50

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az igei szerkezeteket kinyer algoritmus abbl az elfeltevsbl indul ki, hogy (1)
az ige jellemz bvtmnykerett mindig az a tagmondat tartalmazza, amelyben az ige
elfordul, (2) egy tagmondat csak egy ighez tartoz bvtmnyeket tartalmaz. Ebbl
kvetkezen a konverzi sorn meg kellett oldani a tagmondathatr-felismerst a
francia esetben, valamint visszalltani a teljes vagy eredeti bvtmnykeretet azokban az esetekben, amikor erre szksg volt (pl. passzv igk, hatrozi s mellknvi
igeneves szerkezetek). Ezeket utlagos talakt szablyok hozzadsval valstottuk meg. A szablyok a rszletes szintaktikai annotcin alapulnak, amely azt is jelli, ha az ige valamilyen kpzett formban szerepel (passzv, illetve klnfle igeneves
szerkezetek).
A holland esetben az albbi talaktsokat vgeztk el:
(1) Passzv szerkezetek aktvv alaktsa
(2) Segdigk trlse az sszetett igeidk esetben
(3) Mellknvi igeneves szerkezetek konverzija tagmondatt
A francia elemzs esetben a fentieken tl a tagmondathatrok bejellsre is
szksg volt, gy a fenti szablyokhoz tovbbiakat adtunk hozz:
(4) Mellknvi igeneves szerkezetek nll tagmondatot alkotnak
(5) A vonatkoz nvmsok eltt legyen tagmondathatr
(6) A fnvi igenv eltt is van tagmondathatr, ha a fnvi igenv eltt valamilyen prepozci ll (de, pour, sans, en vue de, stb.)
(7) Legyen tagmondathatr koordinlt tagmondatokat sszekt ktszavak helyn
(et - s, puis - aztn, ou - vagy, stb.)
(8) Legyen tagmondathatr az alrendelt mondatokat bevezet ktszavak helyn
(que - hogy, quand, pendant que - amikor, stb)
(9) Ha kt ige kztt nincs tagmondathatr, akkor szrjon be tagmondathatrt
vessz, pontos vessz vagy kettspont esetn.
Vgl el kellett dntennk, hogy a rszletes szintaktikai annotci mely jegyeit kvnjuk figyelembe venni az igei bvtmnykeretek kinyershez. Itt kt ellentmond
kvetelmnynek kell eleget tenni: egyfell, minl tbb jegyet tartunk meg az eredeti
elemzsbl, annl rszletesebben karakterizlhatjuk az igei bvtmnykereteket. Msfell, tl sok jegy alkalmazsa jelentsen ronthatja az eredmnyeket, hiszen az irrelevns cmkk nvelik az adatok diverzitst. A tpusok szmnak nvekedsvel prhuzamosan cskken a tpusok elfordulsi gyakorisga, ez pedig rontja a generlt
sztr minsgt.
Els megkzeltsben megtartottuk az igt, az igvel kzvetlenl fggsgi viszonyban lev sszetev fejt, valamint a fej dependensei kzl az esetleges mellkneveket, illetve egyb mdostkat a vonzatos fnevek esetben, mg a nvelket
elhagytuk. A koordinlt szerkezetekbl (ha nem koordinlt tagmondatokrl volt sz)
mindig csak az els sszetevt riztk meg. A kvetkez rszben ltni fogjuk, hogy
bizonyos esetekben ez is tl rszletes elemzsnek bizonyult, gy tovbbi empirikus
vizsglatot ignyel, hogy pontosan milyen mlysg elemzst rdemes vgezni.

Szeged, 2011. december 12.

51

2.2 Az igei szerkezetek automatikus kinyerse


A relevns francia s holland ige+bvtmny szerkezeteket automatikusan nyertk ki
a prhuzamos korpusz megfelel egynyelv rszeibl. Az igei szerkezetek automatikus kinyerse sorn az ige mellett meglv jellegzetes bvtmnykereteket hatrozzuk
meg a tagmondatokban a gyakori rszkeretek rendszerezett sszeszmllsa rvn. A
[9]-ben rszletesen lert mdszer elnye abban rejlik, hogy felismeri, hogy melyik
bvtmnynl lnyegi elem a konkrt fej s melyiknl csak az ige-bvtmny viszony.
gy egyszerre kpes meghatrozni az sszetett igket s a vonzatkereteket is. A hasznot hz vmibl szerkezet esetn pldul felfedezi, hogy a lexiklisan kttt trgy
mellett egy -bl/-bl esetragos vonzat is szerepel az igei keretben.
Az algoritmus vzlata a kvetkez. Vesszk a korpusz sszes tagmondatt. Ellltjuk a tagmondatoknak megfelel szerkezeteket, melyekben a bvtmnyi fejeket
minden variciban, vltakozva trljk, illetve megtartjuk. Hossz szerint cskken
sorba rendezzk a kapott szerkezetlistt, majd sorra elhagyjuk azokat a szerkezeteket,
melyeknek a gyakorisga 5-nl kisebb, s ezek gyakorisgt a megfelel illeszked
rvidebb keret gyakorisghoz adjuk. A megmarad szerkezetek gyakorisg szerint
rendezett listja adja az sszegyjttt igei szerkezeteket.
Az igeiszerkezet-kinyer mdszer alapveten tagmondatokra bontott, szintaktikailag rszlegesen elemzett korpuszon dolgozik. A tagmondatok egy igt s annak bvtmnyeit kell, hogy tartalmazzk, a szintaktikai elemzs pedig meg kell hogy llaptsa a tagmondat igjt, a bvtmnyek fejt, valamint a bvtmnyek ighez val
szintaktikai viszonyt. A szintaktikai viszonyt a megfelel esetrag vagy egy elljrsz jelli. Mivel az igei szerkezet fogalmt a vonzatkeretnl tgabban rtjk, mly
szintaktikai annotcival rendelkez korpuszokon is futtathat az algoritmus gy,
hogy tbbletinformcit nyerjnk ki belle (az algoritmus az igei vonzatokon tl a
jellemz bvtmnyeket is megadja akkor is, ha azok szabad hatrozk st az igei
szerkezet rszt kpezik a jellemz lexikai fejek is). Az 1. s 2. tblzatban pldkat
lthatunk az automatikusan kinyert igei szerkezetekre.
1.

tblzat. A holland gebruiken ige ngy leggyakoribb szerkezete.

Szerkezet
gebruik obj1
gebruik niet=mod:ADV obj1
gebruik obj1 obj1_ADJ
gebruik obj1 als=predc:CP

Gyakorisg
470
159
104
95

Magyar megfelel
hasznl vmit
nem hasznl vmit
hasznl vmilyen vmit
gy hasznl valamit, hogy ...

Az 1. tblzat mutatja azt is, hogy a rszletes elemzs eredmnyekppen a nem


hasznl vmit illetve a hasznl valamilyen vmit is gyakori kereteknek minslnek,
m felvtelk egy igei kereteket tartalmaz sztrba a keretek kompozicionalitsa
miatt nem indokolt. A megfelel bvtmnyek elhagysval mindkt keret a hasznl
vmit kerethez soroldna, gy nvelve ezen keret gyakorisgt a korpuszban, s ezltal a megfelel fordtsi ekvivalensek kinyersnek a valsznsgt.

52

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A 2. tblzatban szintn szerepelnek irrelevns keretek is a mly szintaktikai elemzs eredmnyeknt:

2.

tblzat. A holland geven ige ngy leggyakoribb szerkezete.

Szerkezet
geef obj1
geef obj1 obj1_ADJ
geef aan:obj2 obj1
geef obj1 obj2

Gyakorisg
170
80
78
72

Magyar megfelel
ad vmit
ad vmilyen vmit
ad vkinek vmit (indirekt)
ad vkinek vmit (direkt)

A tblzatban ltszik, hogy ha a trgyat mdost jelzt nem vennnk figyelembe,


akkor a geven leggyakoribb szerkezetei pontosan az elvrtak lennnek.
A 3. tblzatban tallhat plda mr lexikai bvtmnyt is tartalmaz a jellemz
esetkeret mellett. Ez a mly elemzs egy msik nem kvnt hatst szemllteti: a
parszer ugyanahhoz a felszni szerkezethez bizonyos esetekben klnbz annotcikat rendel, s ez fggetlenl attl, hogy melyik a j elemzs megint csak a rendelkezsre ll adatok cskkenshez vezet.

3. tblzat: A holland een beroep doen op elemzsei.

Szerkezet
doe beroep=obj1 obj1_op
doe beroep=obj1 op:mod

Gyakorisg
72
39

Magyar megfelel
felhvst tenni vmire
felhvst tenni vmire

Az els esetben a holland op (-rA) az ige trgynak, a beroep-nak, mg a msodik esetben magnak az ignek a bvtmnye. Tovbbi problma, hogy ennek a szerkezetnek a nvel (een) ktelezen rsze, de ez mindkt keretbl hinyzik.
A kvetkez lpsben automatikusan vlasztottuk ki azokat az igei szerkezeteket,
amelyeket akr forrsnyelvi, akr clnyelvi oldalon a sztrban szerepeltetni akartunk. Egy lehetsges megkzelts, hogy heurisztikt dolgozunk ki a lexikogrfiai
szempontbl rdekes bvtmnykeretek automatikus szrsre. Mivel fordtsi feladatrl van sz, a kompozicionalits ebben az esetben nem nmagban, hanem egy
msik nyelv fggvnyben rtelmezhet. A javasolt mdszer egyik kiemelten fontos
tulajdonsga a nyelvfggetlensg. gy elkpzelhet, hogy A nyelv egy igei szerkezete
kompozicionlisan fordul le B nyelvre, de nem kompozicionlis C nyelven. Ebben az
esetben teht azt kell mondanunk, hogy A nyelv adott kifejezse lexikogrfiailag
rdekes az els esetben, s rdektelen a msodikban. A nyelvfggetlensg miatt jrhatbb megkzeltsi mdnak tnik az igei szerkezeteket gyakorisgi alapon szrni.
Ebben az esetben felttelezzk, hogy egy sztrban a gyakran elfordul jelensgeket
clszer rgzteni, fggetlenl attl, hogy ezek fordtsa transzparens-e vagy sem egy
msik nyelven.

Szeged, 2011. december 12.

53

gy teht az automatikusan kinyert igei szerkezetek kzl azokat vettk fel a listnkba, amelyek legalbb tszr elfordultak a prhuzamos korpusz megfelel oldaln. Ennek a kritriumnak a holland oldalon 289 ige felelt meg, sszesen 5804 kerettel, mg a francia igelista 391 igt tartalmazott 5987 klnbz kerettel.

2.3 A keretek azonostsa, sszevonsa s a protosztr ltrehozsa


A harmadik lpsben kvetkezik ezen igei szerkezetek korpuszbeli azonostsa, szszevonsa s illesztse.
[6]-ban csak azokat a szerkezeteket vizsgltuk, amelyek az ign kvl is tartalmaztak valamilyen kttt lexikai elemet. Az igei szerkezetek kivlasztsakor nem trekedtnk a teljes bvtmnykeret megrzsre, gy bizonyos esetekben a kitltetlen
vagyis tipikus fnvi lemma nlkl ll esetragokat elhagytuk. Ennek oka egyfell
az volt, hogy az eltr igei szerkezetek sszevonsval nvelhettk a szksges adatok mennyisgt. Msfell, mivel az illeszts bemeneti korpusza nem tartalmazott
sem rszleges szintaktikai elemzst, sem tagmondatfelismerst, az esetek egy jelents
rszben lehetetlen volt pontosan azonostani a megfelel prepozcit.
Ezzel szemben a jelen ksrlet clja minden megfelelen gyakori igei bvtmnykerethez fordtsi megfelelt tallni, fggetlenl attl, hogy tartalmaz-e kttt lexikai
elemet. Az ige bvtmnyeit rtelemszeren csak az ighez tartoz tagmondatban
kerestk. Az illeszked igei keretek kzl a leghosszabbakat vlasztottuk, s ezt vontuk ssze a prhuzamos korpusz elemzett vltozatban.
Mg az emltett els ksrletben a 126 francia igei szerkezet sszesen 7805-szr, s
a 146 holland igei szerkezet 8029-szer fordult el a prhuzamos korpuszban, addig a
jelen ksrletben 170,229 illeszked francia bvtmnykeret s 207,610 illeszked
holland bvtmnykeretet talltunk a prhuzamos korpuszban.
A tovbbiakban a kivlogatott tbbszavas igei kifejezseket egy tokenknt kezeltk s gy kzvetlenl alkalmaztuk az mkd illeszt algoritmust.
Az illesztst a GIZA++ szoftverrel vgeztk [8], amely az illeszts sorn fordtsjellteket hoz ltre, gy, hogy a forrsnyelvi s clnyelvi lemmaprokhoz fordtsi
valsznsget rendel. A fordtsi valsznsg a clnyelvi s forrsnyelvi szpr
feltteles valsznsgnek kzeltse P(szcl|szforrs) az EM (expectation
maximization) algoritmus alapjn [3].
A protosztrak kiindulsi alapjt az gy kinyert fordtsi jelltek s fordtsi valsznsgeik kpeztk. Mivel a fordtsi valsznsg 0-tl 1-ig brmilyen rtket
felvehet, ebben a szakaszban mg sok helytelen fordtsi jelltnk van. Ezrt szksg
van olyan szrk bevezetsre, amelyek lehetv teszik a legjobb fordtsjelltek
automatikus kivlasztst a lehet legtbb helyes fordtsjellt megtartsval. Eddigi
tapasztalataink azt mutattk [5], hogy a fordtsi valsznsgek s a forrsnyelvi,
illetve clnyelvi korpuszgyakorisgi adatok egyttesen mr jl hasznlhatak az
eredmnyek szrsre. gy a protosztrban az albbi adatok szerepelnek:

54

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


4.

tblzat. Francia s holland fordtsi jelltprok s paramtereik.

Kifejezsforrs
prendre
mdicament=obj1

Kifejezscl
neem_in
genees_middel=obj1
gebruik
genees_middel=obj1
start gebruik=met:cmp
met:cmp_van
sta onder_invloed=particle
drug=van:cmp

P(szcl|szforrs)
0.377261

Gyakf
53

Gyakc
32

0.102349

53

21

0.0971227

53

28

0.050697

53

11

A 4. tblzatban lthat, hogy a francia prendre mdicament (gygyszert bevenni) szerkezetnek a legvalsznbb holland megfelelje az geneesmiddel innemen.
Ezt kveti a geneesmiddel gebruiken (gygyszert hasznlni). A start met gebruik
van nem teljes keret (elkezdeni a hasznlatt valaminek) szintn relevns fordtsnak
tekinthet. A legkevsb valszn, m lexikogrfiai szempontbl mg rdekes fordts a staan onder invloed van drug (drog hatsa alatt llni).
A mr elvgzett kirtkelsek alapjn (magyar-litvn, magyar-szlovn, franciaholland) az albbi ltalnos feltteleket fogalmazhatjuk meg a protosztrban szerepl ttelekkel szemben:
(1) A forrsnyelvi s a clnyelvi sznak is legalbb 5-szr el kell fordulnia a prhuzamos korpuszban. Ez a felttel szksges ahhoz, hogy elegend adat lljon rendelkezsre a fordtsi valsznsg becslshez.
(2) Hasonl gyakorisg szavak esetn magasabb fordtsi valsznsgi kszb
alkalmazsa esetn magasabb lesz a j vagy hasznos fordtsi jelltek arnya.
(3) A paramterek bellthatak gy, hogy gyakoribb forrsnyelvi szavak esetn
alacsonyabb fordtsi valsznsgi kszb krlbell ugyanolyan arnyban eredmnyezzen j vagy hasznos fordtsi jellteket, mint a ritkbb szavak esetben egy magasabb fordtsi valsznsgi kszb.

3 Kirtkels
Els lpsben olyan paramterbelltst vlasztottunk, amely mellett felttelezheten
magas a j vagy hasznos fordtsjelltek arnya. gy megmutathatjuk, hogy van olyan
paramterbellts, amely magas pontossgot eredmnyez, amelybl kiindulva a feds
legalbbis rszben nvelhet a paramterbelltsok finomtsval. A 2. brn
lthat a francia-holland igekeret-jelltprok eloszlsa a forrsnyelvi kifejezs logaritmikus gyakorisga s a megfelel fordtsi valsznsg szerint. A fekete tglalap
terletre es fordtsjellteket rtkeltk ki. A legalbb 100-szor elfordul forrsnyelvi s a clnyelvi lemmk kzl azokat a fordtsi jelltprokat vlasztottuk ki,
amelyek legalbb 0,44 fordtsi valsznsggel rendelkeznek. Ezek kzl 100 megfelel keretet rtkeltnk ki.

Szeged, 2011. december 12.

2.

55

bra: A francia-holland igekeret-jelltprok eloszlsa a forrsnyelvi kifejezs logaritmikus gyakorisga s a megfelel fordtsi valsznsg szerint. A kirtkelsi tartomny.

A kirtkelst kt szempont alapjn vgeztk: egyfell figyelembe vettk, hogy az


algoritmus megtallta-e a megfelel igt. Msfell azt is vizsgltuk, hogy az illeszts
a teljes keretek kztt trtnt-e. sszesen 46 esetben volt megfelel a fordts, gy,
hogy mind a forrsnyelvi, mind a clnyelvi oldalon teljes igei bvtmnykeretek szerepeltek (46%). Ebbl 54 esetben a megfelel ige llt mindkt oldalon, de hinyos
volt valamelyik, esetleg mindkt ige kerete (21 esetben a forrsnyelvi ige, 9 esetben a
clnyelvi ige, 24 esetben mindkt ige kerete hinyzott).
A kirtkelt keretek tbbnyire egy bvtmnyt tartalmaztak, ltalban egy trgyat,
de elfordultak tbb bvtmnyt tartalmaz keretek is, pl.:
avoir besoin=obj1 de:cpl
hebben obj1 nodig=predc:ADJ
(vkinek szksge van vmire)
A legjobb fordtsjelltek kirtkelse sorn krdsknt merlt fel, hogy hogyan
nvelhet a j fordtsjelltek kztt a teljes keretek szma? Erre egy lehetsges
megolds, hogy valamilyen alkalmas heurisztikval szrjk a rossz kereteket az automatikusan ellltott bvtmnykeretlistbl. Krds, hogy esetnkben mi szmt
rossz bvtmnykeretnek. Mivel clunk ltalnos cl sztrak ptse, rossz keretnek minslhetnek a tl hossz keretek, amelyek jellemzen a korpusz valamely
szaknyelvi rszben (orvosi, informatikai) fordulnak el nagy szmmal. Az ilyen

56

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

keretek illesztsvel a rvidebb, ltalnosabb kereteket kizrjuk. A leghosszabb francia keret 24 egysg hossz2 s 14-szer fordul el orvosi szvegekben.
A 3. bra a francia esetben azt mutatja, hogy az egyes kerethossz alapjn csoportostott kerettpusokbl hny van, s az egyes keretek hnyszor fordulnak el a francia rszkorpuszban.

3. bra: A kerethossz alapjn csoportostott kerettpusok szma s az egyes keretek gyakorisga a prhuzamos korpusz francia rszkorpuszban.

Az brn jl ltszik, hogy a 8 hosszsg keretek kztt mg vannak olyanok,


amelyek viszonylag gyakoriak, gy ezeket mg rdemes lehet megtartani a sztr
generlsnl, de az ennl hosszabbakat mr nem. Mindazonltal a keretek manulis
vizsglata azt mutatja, hogy mg a 8 hosszsg keretek is nagyon specifikusak, s
egy ltalnos cl sztr esetben legfeljebb 5 hosszsg kereteket rdemes figyelembe venni. Tovbbi empirikus vizsglatokat ignyel, hogy ez a heurisztika nveli-e
a teljes keretek arnyt a j fordtsi jelltek kztt.
Az alkalmazott mdszer rdekessge, hogy az igei szerkezetek kinyerse s a fordtsi jelltek kinyerse is felgyelet nlkli tanulssal trtnik vagyis az emberi
intuci kikszblsvel. gy a kirtkels sorn azt is vizsgltuk, hogy a kapott
szerkezeteket mennyire jl karakterizlnak egy igt (mettre):
Az illeszts eredmnyekppen elllt protosztrbl csak a 0,02-nl valsznbb
s legalbb 5-szr elfordul prokat hagytuk meg. A mettre 5706 elfordulsa 65
klnbz bvtmnyi kerettel fordul el. Ezek az 5611 esetben elfordul 132 holland kerettel sszesen 151 fordtsi prba rendezdnek. Ezeket rszletesen kirtkel2

A keretek hosszt a bvtmnyek szmval mrjk: az igekinyer algoritmusnak megfelelen


a bvtmnyek szintaktikai funkcijt jelz morfmk s a keretben szerepl lexikai elemek
ugyanolyan sllyal szmtanak.

Szeged, 2011. december 12.

57

tk. A kirtkels sorn igen-nem-dntst hoztunk a megfeleltets helyessgrl


aszerint, hogy az adott francia keretet lehetsges-e a hozz prostott holland kerettel
fordtani a korpuszban tallhat valamely kontextusban. Megengedtk a hinyos
kereteket is, ha a konkordanciban gy lttuk, hogy megfelelen bvthetek. A 151
keret 62%-t tltk helyesnek.
Mind a francia, mind a holland oldalon megjelltk a hinyos kereteket, amelyek
nem nll sztri ttelek, de ilyenn bvthetek. A mettre 65 kerete kzl 10
olyan volt, amelynek csak rossz fordtsai voltak, 55-hz (a keretek 85%-hoz) talltunk egy vagy tbb helyes fordtst.
rdekes, hogy a helytelen fordtsi prok jellemzen (78% teljes francia keret s
86% teljes holland keret) a teljes keretekhez addtak. Ezzel szemben a helyes fordtsi proknak csak 59%, illetve 63%-a teljes keret. Teht egyrtelm trade-off van a
keretek jlillesztettsge s a pontossg kztt.

4 Konklzik s tovbbi teendk


Eredmnyeinkbl ltszik, hogy a javasolt mdszer hasznos tletekkel lthatja el a
lexikogrfusokat arra vonatkozan, hogy mely igei tteleket kell szerepeltetni a sztrban, illetve ezen tteleknek milyen fordtsai lehetnek. Mindazonltal, a keretek
sok esetben hinyosak, gy sokszor kell a megfelel konkordancira tmaszkodni a
helyes igei szerkezetek visszalltshoz. gy a jvben az elsdleges clunk az, hogy
a fordtsjelltek kztt minl teljesebb keretek szerepeljenek.
Egy lehetsges megolds, hogy valamilyen alkalmas heurisztikval szrjk a rossz
kereteket az automatikusan ellltott bvtmnykeretlistbl. Mivel clunk ltalnos
cl sztrak ksztse, els lpsknt azt kvnjuk vizsglni, hogy a hossz keretek
rvidebb keretek al rendezsvel nvelhet-e a teljes keretek arnya a fordtsi jelltprok kztt.
Az eredmnyek ltalnos pontossgnak a nvelshez pedig szksges az adatok
diverzitsnak cskkentse, hogy minl tbb adat lljon az illeszt algoritmus rendelkezsre. Ehhez tovbb kell szkteni az igeiszerkezet-algoritmus bemenetl szolgl nyelvtani kategrik krt, valamint a teljes szintaktikai annotcit elegend csak
az igei szerkezeteken bell megtartani.

Bibliogrfia
1. Atkins, B. T. S., Rundell, M.: The Oxford Guide to Practical Lexicography. Oxford University Press, Oxford (2008)
2. Bouma, G., Noord, van G., Malouf, R.: Alpino: Wide coverage computational analysis of
Dutch. In: Daelemans, W., Sima'an, K., Veenstra, J., Zavrel, J. (eds): Computational Linguistics in the Netherlands 2000. Rodolpi, Amsterdam (2001) 4559
3. Dempster, A. P., Laird, N. M., Rubin. D. B.: Maximum likelihood from incomplete data via
the EM algorithm. Journal of the Royal Statistical Society, Series B Vol. 39, No.1 (1977) 1
22

58

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4. . Kiss, K.: Mondattan. In: . Kiss, K., Kiefer, F., Siptr, P. (eds.): j magyar nyelvtan.
Osiris Kiad, Budapest (2003) 15184
5. Hja, E.: The Role of Parallel Corpora in Bilingual Lexicography. In: Proceedings of the
LREC2010 Conference. La Valletta, Malta (2010) 27982805
6. Hja E., Sass B.: Tbbszavas kifejezsek kezelse a prhuzamos korpuszokra pl
sztrksztsi mdszertanban. In: MSZNY2010, VII. Magyar Szmtgpes Nyelvszeti
Konferencia. SZTE, Szeged (2010) 8090
7. Macken, L., Trushkina, J., Paulussen, H., Rura, L., Desmet, P., Vandeweghe, W.: Dutch
Parallel Corpus. A multilingual annotated corpus. In: Proceedings of Corpus Linguistics
2007. Birmingham, United Kingdom (2007)
8. Och, F. J., Ney, H.: A Systematic Comparison of Various Statistical Alignment Models.
Computational Linguistics Vol. 29, No. 1 (2003) 1951
9. Sass, B.: A Unified Method for Extracting Simple and Multiword Verbs with Valence Information. In: Angelova G. et al. (eds.): Proceedings of RANLP 2009. Borovec, Bulgria
(2009) 399403
10. Sass, B.: Prhuzamos igei szerkezetek kzvetlen kinyerse prhuzamos korpuszbl. In:
MSZNY2010, VII. Magyar Szmtgpes Nyelvszeti Konferencia. SZTE, Szeged (2010)
102-110
11. Villemonte de la Clergerie: Convertir des drivations TAG en dpendances. In: Atala,
(ed.):17e Confrence sur le Traitement Automatique des Langues Naturelles - TALN 2010
(2010)

Szeged, 2011. december 12.

59

F
elig kompozicion
alis szerkezetek automatikus
azonost
asa magyar
es angol nyelven
Vincze Veronika1 , Nagy T. Istvan2 , Zsibrita Janos2
1

Magyar Tudom
anyos Akademia, Mesterseges Intelligencia Kutat
ocsoport
Szeged, Tisza Lajos k
or
ut 103., e-mail:vinczev@inf.u-szeged.hu
2
Szegedi Tudom
anyegyetem, TTIK, Informatikai Tanszekcsoport
ad ter 2., e-mail:{nistvan,zsibrita}@inf.u-szeged.hu
Szeged, Arp

Kivonat Jelen munk


aban bemutatjuk szab
alyalap
u es gepi tanult m
odszereken alapul
o megk
ozelteseinket, melyek mind angol, mind magyar
nyelven kepesek a felig kompozicion
alis szerkezetek foly
o sz
ovegben t
orten
o automatikus azonost
as
ara. Eredmenyeink azt igazolj
ak, hogy a sekely
morfol
ogiai elemzesre ep
ul
o m
odszereink mellett a szintaktikai inform
aci
o
is nagyban kepes segteni a felig kompozicion
alis szerkezetek automatikus azonost
as
at. Cikk
unkben kiter
unk a feladat angol es magyar nyelv
u
saj
ats
agaira is.
Kulcsszavak: t
obbszavas kifejezesek, lexik
alis szemantika, t
obbnyelv
useg, FXtagger

1.

Bevezet
es

A termeszetes nyelvi feldolgozasban, k


ulonosen a gepi fordt
as es fordt
ast
amogat
as ter
uleten az egyik legnehezebb problem
at a tobbszavas kifejezesek megfelelo kezelese jelenti. A t
obbszavas kifejezesek sikeres kezelesenek elso lepese,
hogy felismerj
uk
oket a foly
o sz
ovegben. Ebben a munk
aban a tobbszavas kifejezesek egy altpusanak, a felig kompozicion
alis szerkezeteknek automatikus
felismeresere koncentralunk.
A felig kompozicion
alis szerkezetek (FX-ek) olyan, f
onevb
ol es igebol all
o
t
obbszavas kifejezesek, ahol a szemantikai fej a fonev, mg az ige pusztan csak a
szerkezet igeisegeert felel. Mivel jelentes
uk nem teljesen kompozicion
alis, a szerkezet elemeinek egyenkenti lefordt
asa nem (vagy csak nagyon ritkan) eredmenyezi a szerkezet idegen nyelv
u megfelel
ojet. Emellett a felig kompozicion
alis
szerkezetek (v
alaszt kap) szintaktikailag hasonlo feleptessel brnak, mint mas,
om
ak (verszeproduktv (kompozicion
alis) szerkezetek (pul
overt kap), illetve idi
met kap) [1], gy azonost
asuk nem val
osulhat meg puszt
an szintaktikai mint
akat
gyelembe veve. Veg
ul, mivel a szerkezet szintaktikai es szemantikai feje nem
azonos, a szerkezet nyelvi elemzesekor celszer
u a f
onevet es az iget egy komplex
egysegkent kezelni - az angol vonzatos igekhez (phrasal verbs) hasonloan.

60

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A fenti okokb
ol kifolyolag a felig kompozicion
alis szerkezetek kezelese k
ulonleges gyelmet erdemel a termeszetes nyelvi alkalmaz
asokban. Ennek els
o lepesekent azonostani kell oket, mely celhoz k
ulonfele algoritmusok fejlesztese segthet
hozz
a. Ennek megfelel
oen el
osz
or szab
alyalap
u megk
ozelteseket denialunk,
majd ezek eredmenyeire alapozva gepi tanulo modszerek segtsegevel is azonostjuk a felig kompozicionalis szerkezeteket.

2.

Kapcsol
od
o munk
ak

A felig kompozicion
alis szerkezetek automatikus azonost
asara, illetve a fonev +
ige szerkezetek oszt
alyokba sorol
asara m
ar t
obb szerzo is kserletet tett.
Van de Cruys es Moiron [2] szemantikai alapokon nyugv
o rendszere igeprepozci
o-f
onev kombin
aci
okat azonost holland sz
ovegekben. Modszer
uk az ige
es a f
onev szelekci
os megk
oteseire ep
ul, illetve az igevel egy
utt el
ofordul
o f
onevek
szemantikai osztaly
at is gyelembe veszik.
Cook es munkat
arsai [3] angol ige + fonev szerkezetek szo szerinti es idiomatikus haszn
alatat k
ul
ontik el egym
ast
ol. Felteves
uk szerint idiomatikus haszn
alatban fokent a szerkezet szot
ari alakja fordul elo, mg sz
o szerinti haszn
alatban
a szerkezet nagyobb szintaktikai valtozatoss
agot mutat. A szerkezet szintaktikai r
ogztettseget kihaszn
al
o fel
ugyelet nelk
uli osztalyoz
o modszer
uk 72%-os
eredmenyt er el.
Bannard [4] szinten angol nyelv
u ige + f
onev szerkezeteket oszt
alyoz szintaktikai r
ogztettseg
uk alapj
an. Az altala haszn
alt jellemz
ok k
oze tartozik a
fonev nevelozhet
osege, m
odosthat
osaga, a szerkezet szenved
o szerkezetben val
o
elofordul
asa stb.
Samardzic es Merlo [5] angol-nemet p
arhuzamos korpuszokban el
ofordul
o
felig kompozicion
alis szerkezeteket vizsg
alnak. Eredmenyeik szerint a szerkezetek p
arhuzamost
asan
al k
ulon
osen nagy szerepet jatszanak a gyakorisagi adatok
mellett a szerkezetek nyelvi jellemz
oi is, peldaul a kompozicionalit
as foka.
Gurrutxaga es Alegria [6] baszk nyelv
u szovegekbol nyernek ki idiomatikus es felig kompozicion
alis f
onev + ige szerkezeteket statisztikai modszerek
segtsegevel. Mivel a baszk szabad sz
orend
u nyelv, azzal az el
ozetes feltetelezessel
eltek, hogy az ige tagabb k
ornyezetet nezve javulni fognak az eredmenyek, azonban kserleteik ezt nem t
amasztott
ak ala.
Tu es Roth [7] ige + f
onev p
arokat osztalyoznak aszerint, hogy felig kompozicion
alis szerkezetek-e vagy sem. Mind kornyezeti, mind statisztikai jellemzokkel
dolgoznak, es meg
allapt
asuk szerint a t
obbertelm
u peld
akon a lokalis k
ornyezeti
jellemzok hasznalata vezet a legjobb eredmenyhez.
Sass Balint [8] beszamol egy igei szerkezetek parhuzamos korpuszbol valo
kinyeresere szolg
al
o elj
ar
asr
ol, mely egy korabbi, igeket es azok b
ovtmenyeit
kinyer
o algoritmusra ep
ul. A modszer lenyege, hogy a tagmondatok igeit egymas
melle rendelve egy komplex ige jon letre, melyhez a b
ovtmenyeket halmazkent
rendelj
uk hozz
a, felcmkezve oket aszerint, hogy melyik nyelv
u reszkorpuszbol
szarmaznak. Az gy kapott reprezent
aci
obol az eredeti algoritmus segtsegevel
lehet kigy
ujteni az egyes nyelvekre jellemzo igei szerkezeteket.

Szeged, 2011. december 12.

61

A felig kompozicion
alis szerkezetek automatikus azonost
asat celzo modszerek
nagy resze kiindulasi alapnak tekinti a szintaxist, azaz altal
aban ige-t
argy p
arokat
osztalyoznak [3,4,9,7]. Ezzel szemben mi nem a szintaktikai mint
azatok alapjan
megsz
urt FX-jel
olteket szeretnenk osztalyozni, hanem foly
o szovegben szeretnenk
azonostani oket, nem feltetlen
ul szintaktikai informaci
ok segtsegevel. Kserleteink kozben azonban kiemelt gyelmet szentel
unk a szintaktikai informaci
ok
hozz
aadott ertekenek.

3.

A f
elig kompozicion
alis szerkezetek automatikus
felismer
ese

A felig kompozicion
alis szerkezetek automatikus azonost
as
ara szab
alyalap
u es
gepi tanulasi modszereket is denialtunk. Angol es magyar nyelvre alapj
aban
veve ugyanazokat az eljar
asokat alkalmaztuk, termeszetesen gyelembe veve az
adott nyelv saj
atoss
agait.
M
odszereink kiertekelesehez h
arom korpuszt hasznaltunk. A SzegedParalellFX p
arhuzamos korpusz [10] angol es magyar nyelven ugyanazokat a szovegeket tartalmazza, melyekben osszesen 1100 angol nyelv
u es 1112 magyar nyelv
u
FX tal
alhat
o. A Szeged Korpuszban szinten be vannak jel
olve a felig kompozicion
alis szerkezetek [11]. Kserleteinkhez a sajtonyelvi reszkorpuszokat haszn
altuk. Az angol nyelv
u Wiki50 korpuszban [1] t
obbszavas kifejezesek es nevelemek
vannak annot
alva, gy a felig kompozicion
alis szerkezetek is be vannak jel
olve.
Noha a korpuszokban a felig kompozicion
alis szerkezetek melleknevi igenevi es
f
onevi alakjai is be vannak jelolve, jelen munkankban csak az igei alakok felismeresere koncentralunk. A felhasznalt korpuszok adatait az 1. t
abl
azat mutatja.
1. t
abl
azat. A felhasznalt korpuszok adatai
Korpusz
Wiki50 (angol)
SzegedParallelFX (angol)
SzegedParallelFX (magyar)
Szeged Treebank (
ujs
agcikkek - magyar)

3.1.

Mondat
4.350
14.262
14.262
10.210

Token Igei FX
114.570
368
298.948
745
240.399
753
182.172
458

Szab
alyalap
u m
odszerek

Sz
amos szab
alyt fogalmaztunk meg a felig kompozicion
alis szerkezetek automatikus azonost
asara. Az angol nyelv
u szovegeket a Stanford elemzesi l
anc
segtsegevel tokeniz
altuk, majd elemezt
uk sz
ofajilag [12] es szintaktikailag [13].
A SzegedParalellFX magyar nyelv
u sz
ovegeit a magyarlanc [14] csomaggal tokenizaltuk es elemezt
uk sz
ofajilag. A Szeged Korpuszbol szarmaz
o szovegek eseten
az etalon szofaji es dependenciaelemzesekre hagyatkoztunk, illetve az osszevethet
oseg kedveert a magyarlanc
altal ny
ujtott szofaji elemzesekkel is vegezt
unk
kserleteket.

62

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A POS-szab
alyok ( POS) m
odszer eseteben k
ulonfele szofaji mint
akat

adtunk meg, peld


aul VB.? (NN|NNS) angolra vagy N V a magyarra. Amennyiben ezek illeszkedtek a sz
oveg egy szegmensere, azt megjel
olt
uk mint felig kompozicion
alis szerkezetet. Mivel tov
abbi m
odszereink morfol
ogiai informaci
okra
ep
ulnek, pontosabban az ige vagy a f
onev termeszetere tesznek megszort
asokat,
a POS-szab
alyokra valo illeszkedes elofeltetele a t
obbi m
odszer alkalmazhatos
ag
anak.
A v
egz
od
es ( veg) m
odszer alapja, hogy az FX-ek fonevi komponense

legtobbszor igeb
ol kepzett fonev. Ebben az esetben azokat az FX-jelolteket fogadtuk el, amelyekre illeszkedett egy szofaji minta, es a fonev az elore denialt
n-gramok (kepz
ok) egyikeben vegz
od
ott.
A leggyakoribb ige ( ige) modszer azon meggyelesen alapszik, hogy al
tal
aban a leggyakoribb igek szerepelnek funkci
oigekent (az angolban a do, make,
take stb., mg a magyarban ad, vesz, hoz stb.). gy azokat az FX-jel
olteket fogadtuk el, amelyek illeszkedtek a sz
ofaji mintakra, es az igei komponens lemm
aja
megegyezett az el
ore megadott leggyakoribb igek egyikevel.
A sz
ot
o ( t
o) m
odszer a f
onev sz
ot
ovet vizsg
alja. Mint fentebb emltett
uk,

a f
onevi komponens igen gyakran igeb
ol szarmazik, gy az angolban azt nezt
uk
meg a Porter stemmert haszn
alva [15], hogy a fonev szot
ove egybeesik-e egy igei
szot
ovel (to make a decision - to decide) vagy maga a f
onev egybeesik-e egy
igevel (to have a walk - to walk ). A magyarban pedig a hunmorph elemz
o [16]
segtsegevel
allaptottuk meg a fonev szot
ovet, es vizsg
altuk meg, hogy annak
van-e igei elemzese.
A felig kompozicion
alis szerkezetek azonost
asaban a szintaktikai inform
aci
ok
is hasznosak lehetnek. Az angolban a szerkezet ket tagja kozott altal
aban dobj
vagy prep viszony szerepel (t
argyi vagy prepozci
os vonzat eseteben), mg a
magyarban obj vagy obl (t
argy vagy egyeb argumentum). A szintaxis m
odszert
alkalmazva azokat az FX-jel
olteket fogadtuk el, amelyek tagjai a fenti relaci
ok
egyikeben alltak egymassal.
A fenti m
odszereket kombin
altuk is egym
assal: vagyis vett
uk a k
ulonfele
m
odszerek uni
oj
at (egy potencialis FX jel
olt abban az esetben ker
ult elfogad
asra, amennyiben legal
abb az egyik m
odszer elfogadta azt), es a metszet
uket
(csak akkor jel
olt
unk sz
oosszetetelt FX-nek, amennyiben minden szab
aly elfogadta azt). Eredmenyeinket a 2. t
abl
azat szemlelteti.
3.2.

A szab
alyalap
u m
odszerek eredm
enyei

A 3. t
abl
azat mutatja a szab
alyalap
u m
odszereink eredmenyet a negy felhasznalt
korpuszon. J
ol l
atszik, hogy h
arom korpusz eseteben a leggyakoribb ige modszer
bizonyul a legsikeresebbnek, j
oval magasabb F-merteket er el, mint a t
obbi
m
odszer vagy azok kombinaci
oi. Az egyetlen kivetelt a SzegedParalellFX angol
allom

anya jelenti, ahol is az ige es t


o modszerek metszete a legeredmenyesebb. Ez
val
oszn
uleg annak kosz
onhet
o, hogy a korpuszban nagy aranyban fordulnak elo
tipikus f
onev + tipikus ige kombinaci
ok. A vegz
odes jellemzo a SzegedParalellFXen bizonyul hasznos informaci
onak, a masik ket korpuszon onmag
aban meg ront

Szeged, 2011. december 12.

63

2. t
abl
azat. Szab
alyalap
u megkozeltesek eredmenyei, fedes/pontoss
ag/Fmertek.
Megk
ozel
t
es
POS
V
eg
Ige
T
o
V
eg Ige
V
eg Ige
V
eg T
o
V
eg T
o
Ige T
o
Ige T
o
V
eg Ige T
o
V
eg Ige T
o

Wiki50
77,14 6,32 11,68
17,14 9,47 12,20
55,24 34,32 42,34
54,29 7,72 14,64
9,52 43,48 15,64
62,86 19,64 29,93
14,29 10,79 12,30
57,14 7,60 13,42
40,95 42,57 41,75
68,57 8,93 15,81
8,57 52,94 14,75
70,48 8,70 15,48

ParalellFX
79,40 5,07
15,24 10,5
54,56 28,81
61,55 7,66
10,24 48,31
59,64 19,02
11,07 11,14
65,71 7,74
43,45 38,87
72,74 8,25
7,62 47,41
74,29 8,05

angol
9,52
12,43
37,73
13,62
16,90
28,84
11,10
13,84
41,03
14,82
13,13
14,53

ParalellFX
65,55 7,67
21,45 12,79
43,83 30,19
21,05 16,14
15,15 40,36
50,13 18,21
19,30 16,31
23,19 12,90
15,01 46,09
49,87 20,52
13,67 46,36
50,54 17,77

magyar
13,74
16,02
35,76
18,27
22,03
26,71
17,68
16,58
22,65
29,07
21,12
26,30

Szeged Treebank
74,56 5,75 10,69
19,30 6,53 9,76
58,77 24,28 34,36
16,67 7,85 10,67
18,42 32,81 23,60
59,65 12,39 20,51
15,79 8,37 10,94
20,18 6,32 9,62
16,67 35,19 22,62
58,77 14,44 23,18
15,79 39,13 22,50
59,65 11,97 19,94

is az eredmenyeken, viszont kiegesztve a leggyakoribb ige jellemzovel mar minden


utt javt a rendszer teljestmenyen. A szot
o jellemzo pedig a Szeged Korpusz
kivetelevel mindenhol javulast eredmenyezett: feltehet
oleg ar
anyaiban kevesebb
a tipikus (igeb
ol kepzett) f
onevi komponenst tartalmaz
o felig kompozicion
alis
szerkezet ebben a korpuszban, mint a tobbiben.
Mg a leggyakoribb ige az igei komponensre, a sz
ot
o es vegz
odes pedig a
f
onevi komponensre tesz megszort
asokat. Igy a m
odszerek uni
oja a fedesre van
j
o hat
assal, hiszen a nem tipikus fonev + tipikus ige es a tipikus fonev + nem
tipikus ige parokat egyar
ant meg lehet talalni. A modszerek metszete pedig a
pontoss
agot javtja, hiszen gy csak a tipikus f
onev + tipikus ige parokat talaljuk
meg.
3. t
abl
azat. Szab
alyalap
u megk
ozeltesek eredmenyei a Szeged Treebanken,
fedes/pontoss
ag/F-mertek.
Megk
ozel
t
es
POS
V
eg
Ige
T
o
V
eg Ige
V
eg Ige
V
eg T
o
V
eg T
o
Ige T
o
Ige T
o
V
eg Ige T
o
V
eg Ige T
o

pred. POS
74,56 5,75 10,69
19,30 6,53 9,76
58,77 24,28 34,36
16,67 7,85 10,67
18,42 32,81 23,60
59,65 12,39 20,51
15,79 8,37 10,94
20,18 6,32 9,62
16,67 35,19 22,62
58,77 14,44 23,18
15,79 39,13 22,50
59,65 11,97 19,94

etalon POS
84,21 6,70 12,41
21,93 7,35 11,01
69,30 28,11 40,00
20,18 9,35 12,78
20,18 35,38 25,70
71,05 14,57 24,18
18,42 9,55 12,57
23,68 7,38 11,25
19,30 38,60 25,73
70,18 17,02 27,40
17,54 41,67 24,69
71,05 14,14 23,58

pred. POS + szint.


76,32 6,92
12,69
19,30 7,64
10,95
60,53 26,44 36,80
16,67 9,00
11,69
18,42 35,00 24,14
61,40 14,31 23,22
15,79 9,68
12,00
20,18 7,35
10,77
16,67 38,00 23,17
60,53 16,35 25,75
15,79 41,86 22,93
61,40 13,81 22,54

etalon POS
85,09 7,77
21,93 8,56
70,18 29,20
20,18 10,80
20,18 35,94
71,93 16,33
18,42 11,11
23,68 8,54
19,30 40,00
71,05 18,75
17,54 42,55
71,93 15,83

+ szint.
14,23
12,32
41,24
14,07
25,84
26,62
13,86
12,56
26,04
29,67
24,84
25,95

A Szeged Korpusz etalon szofaji annot


aci
oja lehet
ove tette azt is, hogy osszevethess
uk a magyarlanc
altal elemzett es az etalon szofaji kodokat tartalmazo
sz
ovegeken a szab
alyalap
u m
odszerek teljestmenyet. Az eredmenyeket a 3. tabl
azat elso ket oszlopa mutatja. Egyertelm
uen kider
ul, hogy jobb eredmenyeket
lehet elerni, ha az etalon kezi cmkeket hasznaljuk, hiszen gy a sz
ofaji egyertelm
ustes hib
ai kik
usz
ob
olodnek. K
ulonosen l
atv
anyos javulas erhet
o el a leg-

64

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

gyakoribb ige jellemzo eseteben, ami valoszn


uleg arra vezethet
o vissza, hogy a
magyarlanc gyakran minosti hib
asan melleknevnek a m
ult idej
u igeket (amelyek
homonmek az ige befejezett melleknevi igenevi alakj
aval), peldaul adott. Az etalon cmkek haszn
alata atlagosan 2,75% javul
ast eredmenyezett az F-mertekben.
4. t
abl
azat. Szab
alyalap
u megkozeltesek eredmenyei szintaktikai informaci
oval
(fedes/pontoss
ag/F-mertek).
Megk
ozelt
es
POS
Veg
Ige
T
o
Veg Ige
Veg Ige
Veg T
o
Veg T
o
Ige T
o
Ige T
o
Veg Ige T
o
Veg Ige T
o

Wiki50
73,33 8,85 15,79
15,24 11,03 12,80
53,33 42,11 47,06
51,43 10,87 17,94
7,62 38,10 12,70
60,95 24,90 35,36
13,33 12,73 13,02
53,33 10,53 17,58
40,00 50,00 44,44
64,76 12,45 20,89
7,62 50,00 13,22
66,67 12,15 20,56

ParalellFX angol
72,98 6,89 12,59
14,52 12,82 13,62
51,19 34,82 41,45
56,19 10,16 17,21
9,76 55,03 16,58
55,95 23,06 32,66
10,60 14,02 12,07
60,12 10,18 17,40
40,48 44,04 42,18
66,90 10,99 18,88
7,26 53,98 12,80
68,33 10,64 18,42

Szeged Treebank
76,32 6,92 12,69
19,30 7,64 10,95
60,53 26,44 36,80
16,67 9,00 11,69
18,42 35,00 24,14
61,40 14,31 23,22
15,79 9,68 12,00
20,18 7,35 10,77
16,67 38,00 23,17
60,53 16,35 25,75
15,79 41,86 22,93
61,40 13,81 22,54

Mivel szamos kor


abbi munka szintaktikai inform
aciobol kiindulva kserelte
meg a felig kompozicionalis szerkezetek automatikus felismereset, mi is fokozott
gyelmet fordtottunk a szintaxis szerepere. Legjobb tudom
asunk szerint magyar nyelv
u dependenciaelemz
o meg nem all rendelkezesre, gy magyar nyelvi
mereseinkhez a Szeged Korpusz etalon dependenciaannot
aciojat hasznaltuk fel.
Amennyiben pusztan szintaktikai inform
aci
ot hasznalunk fel a felig kompozicion
alis szerkezetek azonost
asara, azaz a korpuszban elofordul
o ige-targy
p
arokat minost
unk annak, csup
an 17,69-es F-merteket er
unk el a Wiki50 korpuszon (fedes: 59,51 es pontoss
ag: 10,39). Mivel m
odszereink arra ep
ulnek, hogy
a baseline m
odszer altal meghat
arozott lehetseges FX-ek k
orebol tov
abbi megszort
asok segtsegevel valasszuk ki a tenyleges FX-eket, gy olyan baseline-t
erdemes v
alasztani, amely nagy fedeshez vezet. E celnak pedig a POS-szab
alyok
sokkal ink
abb megfelelnek (76,63-as fedes a Wiki50 korpuszon), gy a tov
abbiakban a szintaktikai informaci
ok hozz
aadott erteket vizsgaljuk meg az egyes
korpuszokon.
azat osszeveteseb
ol latszik, hogy a szintaktikai informaci
o
A 3. es 4. tabl
javt a rendszer teljestmenyen, k
ul
onosen a leggyakoribb ige (es kombin
aci
oi)
eseteben. Az atlagos javul
as F-mertekben 2,3% a Wiki50, 2,26% a SzegedParalellFX es 1,52% a Szeged Korpusz eseteben. A 4. t
abl
azat utols
o oszlopa azt
is mutatja, hogy a Szeged Korpuszon akkor erj
uk el a legjobb eredmenyeket,
ha etalon szofaji k
odokat es szintaktikai informaci
ot hasznalunk az FX-ek azonost
as
aban,
atlagosan 4%-kal javtva az F-merteket a predik
alt szofaji k
odokra
ep
ul
o rendszerhez kepest.

Szeged, 2011. december 12.


3.3.

65

G
epi tanul
asi m
odszerek

Sz
ot
arilleszteses megk
ozelteseket haszn
altunk baseline megold
asnak a gepi tanulasi m
odszerek eseteben. Mivel mindket nyelven rendelkezes
unkre allt ket annot
alt korpusz, ezert az ezeken el
ofordul
o FX-ekb
ol lemmatizalt list
akat hoztunk letre. Az azonos nyelv
u korpuszokra a masikrol gy
ujtott list
at jelolt
uk
ra. Igy peld
aul a Wiki50 eseteben az angol SzegedParallelFX-r
ol gy
ujtott lista
ker
ult illesztesre. A k
ulonb
oz
o korpuszokon gy elert eredmenyek a 5. tabl
azatban
l
athat
ok.
5. t
abl
azat. A sz
ot
aralap
u megkozeltes eredmenyei.
Korpusz
Wiki50
SzegedParalellFX angol
SzegedParalellFX magyar
Szeged Treebank

Fed
es Pontoss
ag F-m
ert
ek Sz
ot
arm
eret
8,57
81,81
15,51
587
9,01
73,07
16,04
287
29,5
40,14
34,01
1215
30,7
39,77
34,65
578

Az eddig ismertetett megkozelteseken t


ul implement
altuk az FXtagger nev
u,
gepi tanulo alap
u megk
ozeltes
unket is. Vizsg
alatainkban a Conditional Random Fields (CRF) [17] szekvencialis tanul
o MALLET [18] implement
aci
ojat
haszn
altuk, az al
abbi alapjellemzokkel ([19] alapj
an a feladat saj
atsagaira szabva):
Felszni jellemz
ok: kis/nagybet
us kezdet, szohossz, a szo belsejeben elofordul
o k
ulonleges karakterek (szamok, nagybet
uk stb.), karakter bi- es trigramok, toldalekok;
Sz
ot
arak: szemelynevek, cegnevek, helynevek, a leggyakoribb funkci
oigek,
fonevek sz
ot
ovei;
Gyakoris
agi jellemz
ok: a token gyakorisaga, a kis- es nagybet
us alakok
elofordul
asanak aranya, a nagybet
us es mondatkezd
o alakok el
ofordul
asanak
ar
anya;
Nyelvi jellemz
ok: sz
ofaj, f
ugg
osegi viszonyok;
K
ornyezeti jellemz
ok: mondatbeli pozci
o, a szo kornyezeteben el
ofordul
o
o kor
ul stb.
leggyakoribb szavak, idez
ojelek a sz
Ezt az
altal
anos jellemzoteret egesztett
uk a szab
alyalap
u megk
ozeltesek jellemz
okre transzform
alt verzioival. gy a leggyakoribb ige es a sz
ot
o modszereket
sz
ot
aralap
u jellemzokent, a POS-szab
alyokat es a mondat szavai k
ozti szintaktikai kapcsolatokat nyelvi jellemz
okent, mg a vegz
odes megk
ozeltest felszni jellemz
okent alkalmaztuk a CRF tant
asa sor
an. Mivel a magyar nyelv reszletesebb
morfologiai elemzest tesz lehet
ove, ezert magyar nyelv
u gepi tanulas soran a jellemz
oket meg kiegesztett
uk ezekkel a reszletesebb jellemzokkel. Tov
abb
a minden
esetben sz
ot
aralap
u jellemzokent haszn
altuk a szot
arillesztes baseline megk
ozeltesnel haszn
alt list
akat.

66

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Kserleteinkhez a korpuszokat 70%:30% aranyban osztottuk fel tant


o es
kiertekelo adatb
azisra. Mivel a korpuszok tobb tem
aban is tartalmaznak szovegeket (
ujsagcikkek, szepirodalom, tank
onyvi mondatok stb.), minden egyes dokumentumot a fenti ar
anyoknak megfeleloen osztottunk fel a tant
o es a kiertekelo
adatb
azis k
oz
ott. Eredmenyeink a 6. tabl
azatban lathat
ok.
6. t
abl
azat. A gepi tanult megkozeltes eredmenyei a k
ulonbozo korpuszokon.
Korpusz
Wiki50
SzegedParalellFX angol
SzegedParalellFX magyar
Szeged Treebank etalon
Szeged Treebank predik
alt

3.4.

Fed
es Pontoss
ag F-m
ert
ek
42,86
56,96
48,91
37,91
55,55
45,07
61,0
67,78
64,21
44,73
62,96
52,03
43,86
56,82
49,51

A g
epi tanul
asi m
odszerek eredm
enyei

A szot
aralap
u megkozeltesek eredmenyeiben igen nagy kontraszt mutatkozott
a ket vizsg
alt nyelvben. Ez a modszer magyar nyelv
u korpuszokon ketszer jobb
F-merteket ert el, mint az angol nyelv
ueken. Ugyanakkor az angol nyelv
u korpuszokon a megk
ozeltes pontossaga joval magasabb volt, mint a magyaroken.
A fedesben mutatkoz
o k
ul
onbsegeket az magyarazhatja, hogy a magyar nyelv
u
korpuszok j
oval homogenebbek voltak az angolokenal. Az enciklopedia domen
(Wiki50), mely tobb k
ul
onboz
o tem
at olel fel, egeszen m
as jelleg
u, mint a homogenebb SzegedParallelFX, nagyreszt u
jsagcikbol es regenyekb
ol all
o domen,
mely hat
assal lehet az FX-ek eloszlasara is. Mivel a ket magyar nyelv
u korpusz mindegyikeben tal
alhat
ok u
jsagcikkek, ezert a bel
ol
uk kinyert FX-list
ak
kevesbe voltak elter
oek. A SzegedParalellFX korpuszon mert eredmenyek kozti
k
ul
onbsegeket magyar
azhatja az alkalmazott list
ak merete. Mivel a Szeged Treebank j
oval nagyobb, mint a Wiki50, ezert az ezekb
ol a korpuszokbol osszealltott
list
ak merete is nagyon elter
o. Ugyanakkor ezen baseline megk
ozeltes pontossagi
ertekei szerint a felig kompozicion
alis szerkezetek kevesbe tobbertelm
uek angolban, mint a magyar nyelvben, azaz a list
akban el
ofordulo FX-jelolt nagyobb
val
oszn
useggel lesz a valosagban is FX.
Az 5. tabl
azat pontossagi ertekei is igazolj
ak, hogy a felig kompozicionalis
szerkezetek automatikus azonost
asa sor
an hasznos informaci
o lehet a kontextus
is. Igy peld
aul a titokban tartja a kapcsolatot Imrevel szovegreszletben a titokban
tarja es a tartja a kapcsolatot is lehetseges FX. Ebben az esetben a sz
ovegkontextus segthet eldonteni, hogy melyik szekvencia az adott szovegben az FX.
A foly
o sz
ovegekben el
ofordul
o felig kompozicion
alis szerkezetek automatikus
azonost
asa gy nagyban segtheti az olyan alkalmaz
asokat, mint a gepi fordt
as
vagy az informaci
okinyeres. Ugyanakkor el
ofordulhat olyan eset is, amikor a feloen a sz
ovegb
ol kigy
ujthet
o FX-ek listaja erdekli alapvetoen.
hasznal
ot alapvet
Ebben az esetben elegend
o minden potenci
alis FX azonost
asa a szovegben, nem

Szeged, 2011. december 12.

67

sz
ukseges annak eld
ontese, hogy az adott szekvencia FX-kent viselkedett-e az
adott kontexusban.
Az FXtaggerrel elert eredmenyek az 6. t
abl
azatban lathat
oak. A gepi tanul
o megk
ozeltessel elert eredmenyek minden korpuszon meghaladtak mind
a szot
aralap
u baseline m
odszer, mind a szab
alyalap
u rendszerek eredmenyeit.
Vagyis a felig kompozicion
alis szerkezetek automatikus azonost
as
ara hatekony
reprezent
aci
ot voltunk kepesek adni a CRF line
aris tanul
o szam
ara kib
ovtett
jellemzoter segtsegevel. Mint ahogy meggyelhett
uk, a korpuszokr
ol gy
ujtott
sz
ot
arak kedvezo hat
assal voltak a pontoss
agra, mg a POS-szab
alyok a fedest

javtottak. A gepi tanulo m


odszerek ezen jellemz
ok kedvezo kombinalas
aval erhettek el a legjobb eredmenyeket a k
ulonbozo korpuszokon.
Szembet
uno, hogy az angol nyelv
u korpuszokon elert eredmenyek szerenyebbek a magyar nyelven elerteknel. Ezt magyarazhatja, hogy megkozelteseink
alapvetoen a morfol
ogiai jellemzokre t
amaszkodnak, gy hatekonyabbnak bizonyultak a morfol
ogiailag joval gazdagabb magyar nyelv eseteben. Az etalon POScmkek pozitv hat
asat j
ol mutatja a Szeged Treebanken mert ket eredmeny
unk.
A SzegedParalellFX korpusz magyar nyelv
u valtozat
an elert legmagasabb Fmerteket t
obbek k
ozt az ebben az esetben alkalmazott nagyobb FX-lista magyarazhatja.

4.

Eredm
enyek

Az altalunk deni
alt szab
alyalap
u megkozeltesek eredmenyei azt igazolj
ak, hogy
m
ar sekely morfol
ogiai elemzesek segtsegevel is versenykepes eredmenyeket lehet
elerni felig kompozicion
alis szerkezetek automatikus azonost
asa soran. Hatekony
jellemzonek bizonyult a lemmatiz
al
as, sz
ot
ovestes, szofaji egyertelm
ustesen kv
ul egy funkci
oige-lista is. Ugyanakkor a szintaktikai inform
aci
ok integr
alasa
tov
abb javtja a rendszer teljestmenyet. A felig kompozicion
alis szerkezetek
felismerese ennelfogva leghatekonyabban a szintaktikai elemzest k
ovetoen, egy
ut
ofeldolgoz
o lepesben val
osulhat meg, annak vegeredmenyet pedig j
ol tudjak
hasznostani a magasabb rend
u alkalmazasok, peld
aul az informaci
okinyeres es
a gepi fordt
as.
aval
A k
ul
onboz
o szab
alyalap
u m
odszerek jellemz
okre val
o transzformalas

megvizsg
altuk a gepi tanulo algoritmusok hatekonys
agat is. Altal
anosan elmondhat
o, hogy a gepi tanulo m
odszerekkel magasabb F-merteket tudtunk elerni, mint
a szab
alyalap
u megk
ozeltesekkel. Ugyanakkor az eredmenyekb
ol kit
unik, hogy a
szab
alyalap
u modszerek jobb fedest tudnak elerni, mg a gepi tanulo megkozeltes
joreszt j
o pontossag
anak k
osz
onheti sikeret. Ahogy a 6. tabl
azatban is latszik,
a gepi tanulo megk
ozeltes mind a negy vizsgalt korpuszon 50% folotti pontossagot volt kepes elerni, mg a szab
alyalap
u megkozeltesek vagy egyaltal
an
nem kepesek ilyen magas pontoss
agra, vagy csak igen alacsony fedes mellett.

68

VIII. Magyar Szmtgpes Nyelvszeti Konferencia







  


















 



     

 

 

   



1. abra. Szab
alyalap
u eredmenyek a korpuszokon.

5.

Az angol
es magyar eredm
enyek
osszevet
ese

Az angol es magyar korpuszokon elert eredmenyeket az 1. abra szemlelteti.


Bizonyos modszerek eseteben alapveto k
ulonbsegeket gyelhet
unk meg a nyelvek k
oz
ott. erdekes modon a leggyakoribb ige es a szot
o metszete sokkal jobb
eredmenyt ert el az angol korpuszokon, mint a magyarokon, ugyanakkor e ket
m
odszer uni
oja a magyar korpuszokon teljest sokkal jobban. Ennek az lehet az
oka, hogy feltehetoleg az angol korpuszokban t
obb olyan FX fordul el
o, amelyek
tipikus ige es tipikus fonev kombin
aci
oja, mg a magyarokban a tipikus ige +
nem tipikus f
onev p
arok vannak t
uls
ulyban.
Tov
abbi sz
amottev
o elterest gyelhet
unk meg mindh
arom modszer metszete
kapcs
an: sokkal jobb eredmenyhez vezet a magyarban, mint az angolban. Ez
tal
an azzal magyarazhat
o, hogy a metszet megkoveteli, hogy egy igei tov
u fonev
adott kepz
oben vegz
odj
on. A magyarban ez denci
o szerint megval
osul (igeb
ol
kepz
ok segtsegevel tudunk f
onevet kepezni: d
ont - d
ontes), ugyanakkor az angolban a konverzio m
uvelete is letrehozhat igebol fonevet (peldaul walk - walk ).
Ut
obbi megfelel a szot
o denci
oj
anak, de a vegz
odesenek mar nem, gy az ilyen
tpus
u f
oneveket tartalmazo FX-eket nem lehetseges azonostani a m
odszerek
metszetevel.
A nyelvek k
ozti elteresek egy u
jabb vet
uletet jelenti a leggyakoribb igek
szama. Mg az angolban a 12 leggyakoribb igevel lehetett 40% kor
uli eredmenyeket elerni, addig a magyarban nagyobb (17 elem
u) igelist
aval is szerenyebb
eredmenyekhez jutottunk. E jelenseg magyar
azat
at keresve osszevetett
uk a SzegedParalellFX ket reszeben tal
alhat
o FX-igek szam
at. Mg angolban osszesen
100 ige fordult elo, melyek eloszlasa megfelel a Zipf-t
orvenynek, addig a magyarban 179 ige fordult elo, kiegyenltettebb eloszlasban. Teh
at az angolban kevesebb

Szeged, 2011. december 12.

69

ige is nagyobb hanyad


at fedi le az FX-eknek, mint a magyarban. Mindez azt is
mutatja, hogy az FX-igelistak b
ovtesevel v
arhat
oan jobb eredmenyeket lehet
elerni mindket nyelven.

6.

Osszegz
es

Ebben a cikkben bemutattuk szab


alyalap
u es gepi tanult modszereken alapulo
megk
ozelteseinket, melyek mind angol, mind magyar nyelven kepesek a felig
kompozicionalis szerkezetek automatikus azonost
as
ara sekely morfol
ogiai jellemz
ok segtsegevel. Eredmenyeink
osszevethet
ok m
as, szintaxison alapulo megk
ozeltesekkel. M
odszereinket ket k
ul
onbozo nyelven es harom korpuszon tesztelt
uk, melyeken hasonl
o eredmenyeket ert
unk el. Eredmenyeink azt mutatjak,
hogy mind angol, mind magyar vonatkoz
asban egy adott nyelvre es domenre
szabott funkci
oige-lista es a f
onev sz
ot
ove bizonyul a leghasznosabb jellemzonek,
illetve az angol anyagban a szintaktikai jellemzok beeptese is sz
amottev
oen javt
a rendszer teljestmenyen. Gepi tanult megkozeltesnek linearis CRF tanulo algoritmust alkalmaztunk, melynek alap jellemzoteret kiegesztett
uk a szab
alyalap
u
m
odszerek jellemz
okre transzform
alt verzioival. FXtagger nev
u, gepi tanulo megk
ozeltes
unk erte el a legmagasabb F-mertekeket az osszes vizsgalt korpuszon.

K
osz
onetnyilv
ant
as
A kutatas reszben a MASZEKER es BELAMI k
odnev
u projektek kereteben

a Nemzeti Fejlesztesi Ugyn


okseg, illetve a TAMOP-4.2.1/B-09/1/KONV-20100005 jel
u projekt kereteben az Europai Unio tamogat
asaval, az Europai Region
alis Fejlesztesi Alap es az Europai Szocialis Alap t
arsnanszroz
asaval val
osult meg.

Hivatkoz
asok
1. Vincze, V., Nagy T., I., Berend, G.: Multiword expressions and named entities in
the Wiki50 corpus. In: Proceedings of RANLP 2011, Hissar, Bulgaria (2011)
2. Van de Cruys, T., Moir
on, B.n.V.: Semantics-based multiword expression extraction. In: Proceedings of the Workshop on a Broader Perspective on Multiword
Expressions. MWE 07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 2532
3. Cook, P., Fazly, A., Stevenson, S.: Pulling their weight: exploiting syntactic forms
for the automatic identication of idiomatic expressions in context. In: Proceedings
of the Workshop on a Broader Perspective on Multiword Expressions. MWE 07,
Morristown, NJ, USA, Association for Computational Linguistics (2007) 4148
4. Bannard, C.: A measure of syntactic exibility for automatically identifying multiword expressions in corpora. In: Proceedings of the Workshop on a Broader
Perspective on Multiword Expressions. MWE 07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 18

70

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

5. Samardzic, T., Merlo, P.: Cross-lingual variation of light verb constructions: Using
parallel corpora and automatic alignment for linguistic research. In: Proceedings
of the 2010 Workshop on NLP and Linguistics: Finding the Common Ground,
Uppsala, Sweden, Association for Computational Linguistics (2010) 5260
6. Gurrutxaga, A., Alegria, I.n.: Automatic Extraction of NV Expressions in Basque:
Basic Issues on Cooccurrence Techniques. In: Proceedings of the Workshop on
Multiword Expressions: from Parsing and Generation to the Real World, Portland,
Oregon, USA, Association for Computational Linguistics (2011) 27
7. Tu, Y., Roth, D.: Learning English Light Verb Constructions: Contextual or Statistical. In: Proceedings of the Workshop on Multiword Expressions: from Parsing
and Generation to the Real World, Portland, Oregon, USA, Association for Computational Linguistics (2011) 3139
8. Sass, B.: P
arhuzamos igei szerkezetek k
ozvetlen kinyerese p
arhuzamos korpuszb
ol.
In Tan
acs, A., Vincze, V., eds.: VII. Magyar Sz
amt
ogepes Nyelveszeti Konferencia,
Szeged, Szegedi Tudom
anyegyetem (2010) 102110
9. Tan, Y.F., Kan, M.Y., Cui, H.: Extending corpus-based identication of light verb
constructions using a supervised learning framework. In: Proceedings of the EACL
Workshop on Multi-Word Expressions in a Multilingual Contexts, Trento, Italy,
Association for Computational Linguistics (2006) 4956
10. Vincze, V., Felvegi, Z., R. T
oth, K.: Felig kompozicion
alis szerkezetek a SzegedParalell angolmagyar p
arhuzamos korpuszban. In Tan
acs, A., Vincze, V., eds.:
MSzNy 2010 VII. Magyar Sz
amt
ogepes Nyelveszeti Konferencia, Szeged, Hungary, University of Szeged (2010) 91101
11. Vincze, V.: Felig kompozicion
alis szerkezetek a Szeged Korpuszban. In Tan
acs, A.,
Szauter, D., Vincze, V., eds.: VI. Magyar Sz
amt
ogepes Nyelveszeti Konferencia,
Szeged, Szegedi Tudom
anyegyetem (2009) 390393
12. Toutanova, K., Manning, C.D.: Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In: Proceedings of EMNLP 2000, Stroudsburg,
PA, USA, Association for Computational Linguistics (2000) 6370
13. Klein, D., Manning, C.D.: Accurate unlexicalized parsing. In: Annual Meeting of
the ACL. Volume 41. (2003) 423430
14. Zsibrita, J., Vincze, V., Farkas, R.:
Ismeretlen kifejezesek es a sz
ofaji
egyertelm
ustes. In Tan
acs, A., Vincze, V., eds.: MSzNy 2010 VII. Magyar
Sz
amt
ogepes Nyelveszeti Konferencia, Szeged, Hungary, University of Szeged
(2010) 275283
15. Porter, M.F.: An algorithm for sux stripping. In Sparck Jones, K., Willett, P.,
eds.: Readings in information retrieval. Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA (1997) 313316
16. Tr
on, V., Gyepesi, G., Hal
acsy, P., Kornai, A., Nemeth, L., Varga, D.: hunmorph:
Open Source Word Analysis. In: Proceedings of the ACL Workshop on Software,
Ann Arbor, Michigan, Association for Computational Linguistics (2005) 7785
17. Laerty, J.D., McCallum, A., Pereira, F.C.N.: Conditional random elds: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of the
Eighteenth International Conference on Machine Learning. ICML 01, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. (2001) 282289
18. McCallum, A.K.:
MALLET: A Machine Learning for Language Toolkit.
http://mallet.cs.umass.edu (2002)
19. Szarvas, G., Farkas, R., Kocsor, A.: A Multilingual Named Entity Recognition
System Using Boosting and C4.5 Decision Tree Learning Algorithms. In: Discovery
Science. (2006) 267278

II.Korpusz,ontolgia

Szeged, 2011. december 12.

73

Jelents-egyrtelmstett szabadalmi korpusz


Nagy goston, Almsi Attila, Vincze Veronika
Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport
Szeged, rpd tr 2.
vizipal@gmail.com, {vinczev,nagyagoston}@inf.u-szeged.hu

Kivonat: A tanulmny clja, hogy megllaptsuk, hogy az angol nyelv szabadalmakban milyen arnyban fordulnak el tbbjelents szavak, valamint azt,
hogy ezek a valsgban hny klnbz jelentssel fordulnak el e szvegekben. Kutatsaink sorn az A23K osztlyba tartoz 60 szabadalmat tartalmaz
korpuszunkban tallhat szvegekre sszpontostunk. Elfelttelezseink szerint a szakkifejezsek s terminusok nagy rsze a fnv osztlyba sorolhat,
ezek pedig adott domnen bell ltalban egyflekppen hasznlatosak. Az
eredmnyek is azt igazoljk, hogy a szabadalmakban kevesebb jelents jelenik
meg a gyakorlatban, mint amennyi a sztrakban tallhat.

1 Bevezets
Az ALL s a Szegedi Tudomnyegyetem egy kzs projekt keretben vllalta egy
szemantikus keresrendszer kifejlesztst, amely elsdlegesen az angol s magyar
nyelv szabadalmakban val keresst clozza meg. A keresrendszer hatkony mkdshez a szabadalmak morfolgiai s szintaktikai elemzsn tl szksges azok
szemantikai feldolgozsa is, melynek elfelttele a szavak jelentsnek elzetes meghatrozsa, azaz a jelents-egyrtelmsts.
A tanulmny clja, hogy megllaptsuk, hogy az angol nyelv szabadalmakban milyen arnyban fordulnak el tbbjelents szavak, valamint azt, hogy ezek a valsgban hny klnbz jelentssel fordulnak el e szvegekben.
Cabr [1] alapjn az az elfelttelezsnk, hogy a fnevek s igk a szabadalmakban ltalban csak egy jelentsben fordulnak el, mivel ezek fleg terminusok, amelyeknek alapfelttele, hogy lehetleg csak egy fogalmat denotljanak. Ettl fggetlenl elfordulhat, hogy egy terminus tbb fogalmat jell, de egy domnen bell csak
egyet, gy idelis esetben a terminusok nem lehetnek poliszmek, csak homonmek.

2 A jelents-egyrtelmstsi feladat
A jelents-egyrtelmsts egy szveg adott szavnak egy olyan meghatrozssal
vagy jelentssel trtn prostst jelenti, amely az adott szhoz trsthat ms lehetsges jelentsektl lesen elklnl. gy a feladat szksgszeren kt lpsbl tevdik ssze: (1) a vizsglt szveg minden relevns szavnak meg kell hatrozni a lehet-

74

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sges jelentseit, illetve (2) az adott sz minden egyes elfordulshoz trstani kell a
megfelel
jelentst.
Az
els
lpsben
leginkbb
elre
megadott
jelentsmeghatrozsokat alkalmaznak, amelyek pldul a kvetkezkbl llhatnak:

htkznapi sztrakban megadott jelentsek


klnfle szemantikai jegyek, kategrik vagy kapcsold szavak (pl. szinonimk)
ktnyelv sztrakban megadott informcik (idegen nyelv megfelelk)

A msodik lpsben a szalakok s jelentsek sszekapcsolsa kt f informciforrs alapjn trtnhet meg:

tg rtelemben vett kontextus: klnfle informcit tartalmaz a sz szvegkrnyezetben, a diskurzusban stb.


kls tudsforrsok: lexiklis, enciklopdikus tuds

A
jelents-egyrtelmst
eljrsok
hatkrk
alapjn
s
a
jelentsmegklnbztets foka szerint kt-kt fbb csoportra oszthatk. Hatkr
tekintetben a teljes szkincsre alkalmazhat (all-words WSD) s elre megadott
szalakokon mkd (lexical sample WSD) mdszereket klnbztethetnk meg,
mg a jelentsmegklnbztets rszletessge szerint aprlkos vagy finom (fine
grained), illetve durva (coarse grained) szinteket klnbztethetnk meg.
A lexical sample alap mdszer sokkal kevesebb elzetes munkt (pl.
jelentsmeghatrozsok megalkotsa) s idrfordtst ignyel, mivel nem szksges
az adott korpusz sszes tbbjelents elemnek elzetes definilsa. Ezzel szemben
az all-words mdszer egy jval nagyobb mrtk vllalkozs, amely akkor lehet
hasznos, ha egy ltalnos korpuszt kvnunk ltrehozni, mert ebben az esetben jobban
meg lehet figyelni, hogy milyen jelents milyen szvegkrnyezetben fordul el.
Durva jelentsmegklnbztets esetn nagyobb jelentsmezk, jelentsklaszterek
jelennek meg. Ezek feldolgozhatsga egyszerbb, s az egyrtelmsts a gpi tanul szmra s egyben az emberi annottor szmra is knnyebb. Finom
jelentsmegklnbztets esetn viszont sokkal aprlkosabb klnbsgeket lehet
kdolni, ami mindenkppen hasznos lehet bizonyos alkalmazsokban, mert specifikusabb dolgokra lehet rkeresni, de a korpusz elksztse sokkal id- s munkaerignyesebb feladat. A tlzott jelentsmegklnbztets bizonyos esetekben mg az
emberi annottorok szmra is indokolatlannak tnik, gyakoriak az eltr annotcik,
hiszen minl tbb a jelents, annl nagyobb a tveszts valsznsge. gy, mind
informatikai, mind pedig nyelvszeti szempontbl 3-5 egymstl pontosan elklnthet jelents felvtele tnik a legmegfelelbbnek, mert ezt mind az emberi
annottorok, mind pedig a klnfle szmtgpes algoritmusok szmra is idelis
mkdsi hatkonysgot tesz lehetv (lsd [6]).

Szeged, 2011. december 12.

75

3 Korpusz s mdszer
Kutatsaink sorn az A23K osztlyba tartoz 60 gygyszerszeti s gygyszati segdeszkzket ler szabadalmakat tartalmaz korpuszunkban tallhat szvegekre
[7] sszpontostunk. Annak eldntsre, hogy mely sznak hny jelentse van, a
legjabb, 3.0-s Princeton WordNetet (PWN) hasznltuk [8]. Ebbl addan az egyrtelmstst csak azokra a szavakra tudjuk elvgezni, amelyek ebben az ontolgiban
is szerepelnek, azaz fnevekre, igkre s mellknevekre. Noha a WordNet hatrozszavakat is tartalmaz, ezekkel nem foglalkoztunk, mert a hatrozszavak elfordulsi
arnya igen csekly a szvegekben, tovbb a szemantikus keress szempontjbl kis
jelentsggel brnak. Mivel a PWN finom jelentsmegklnbztetst alkalmaz, gy a
lehetsges jelentsek szma szalakonknt magasnak mondhat.
A tbbrtelm kifejezsek kigyjtst 60 szabadalmi fignyponton vgeztk el.
Ezeket a fignypontokat az Apache UIMA keretrendszerben az OpenNLP modullal
mondatokra bontottuk s tokenizltuk. Ezt kveten a Stanford POS-tagger segtsgvel minden tokenhez hozzrendeltk annak sztvt s Penn Treebank szerinti
szfaji kdjt (pl. NNS tbbes szm fnv) [5]. Eztn kigyjtttk a korpuszban
elfordul sszes fnevet, igt s mellknevet, majd megnztk, hogy a WordNetben
ezen szavak tbbrtelmek-e vagy sem. Ehhez a Javba is beilleszthet JAWS (Java
API for WordNet Searching) alkalmazst [3] hasznltuk. Ezutn a tbbrtelm szavakat a szvegkrnyezetkkel egytt elmentettk a SemEval s SensEval
workshopokon [2] is hasznlatos XML formtumba.
A korpusz annotlst kt fggetlen nyelvsz vgezte a Sensetagger program segtsgvel. Azokat a szavakat egyrtelmstettk, amelyek legalbb hromszor elfordultak a korpuszban, a ksbbiekben azonban hasonl elvek alapjn bvthet
az annotci. 15 sz elfordulsait mindkt annottor bejellte, ezltal lehetv vlt a
korpusz konzisztenciaszintjnek mrse. A szavakat szfajuk szerint annotltuk, teht
pldul a form sz igei s fnvi jelentseit egymstl teljesen elklntve kezeltk, a
szfaji egyrtelmst modul elemzsnek megfelelen.

4 Eredmnyek
Ebben a fejezetben az elkszlt korpusz statisztikit s az elrt eredmnyeket ismertetjk.

4.1 A jelentsek eloszlsa


A korpuszban tallhat tbbrtelm fnevek, mellknevek s igk eloszlsa az 1.
tblzatban lthat. Hangslyozzuk, hogy itt a tbbrtelmsget pusztn a
wordnetbeli jelentsek alapjn hatroztuk meg, nem pedig a vals korpuszbeli eloszlsok alapjn.

76

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


1. tblzat: A WordNet alapjn a szabadalmakban elfordul tbbrtelm szavak arnya
szfajonknt.

Fnv
Mellknv
Ige
sszes

sszes
744
310
162
1216

Tbbrtelm
284
115
135
534

38,17%
37,1%
83,33%
43,91%

A tblzat jl mutatja, hogy elmleti szinten leginkbb a szabadalmak igire jellemz


a tbbrtelmsg.
Ezen listbl azon szavakat annotltuk kzzel, amelyek legalbb hromszor fordultak el a vizsglt korpuszban. Ezek konkrt szma szfaji lebontsban s az sszesre
kivettve a 2. tblzat els oszlopban olvashat. A msodik oszlop mutatja az annotlt szavak arnyt az sszes elfordul tbbrtelm szhoz viszonytva. A harmadik
oszlop tartalmazza azon elemek szmt, amelyek az annotltak kzl legalbb kt
jelentssel brnak a szabadalmakban, vgl az utols mutatja, hogy a korpuszban
tbbrtelm szavak arnya mekkora az annotlt szavak szmhoz kpest.

2. tblzat: Az annotlt szavak arnya az sszes tbbrtelm sz fggvnyben.

Annotltak
szma

Fnv
Mellknv
Ige
sszes

164
52
69
285

Annotltak
Annotlt s
arnya az sszes
legalbb
elfordul tbb- ktrtelm
rtelm szhoz szavak szma
kpest
57,74%
15
45,22%
2
51,11%
12
53,37%
29

Legalbb
ktrtelm
szavak arnya
az annotltak
kzl
9,14%
3,84%
17,39%
10,17%

A tblzatbl jl lthat, hogy az annotls sorn a lehetsges tbbrtelm szavak


kicsivel tbb mint a felt annotltuk kzzel. A harmadik s a negyedik oszlopbl
kiderl, hogy az igk azok, amelyek a legnagyobb arnyban brnak tbb jelentssel a
szabadalmakban: ezen igk arnya 17,4%, mg a fneveknl ez az arny 9%, a mellkneveknl pedig 4%.
A vizsglt tbbrtelm szavak esetn megnztk, hogy azok tlagosan hny jelentssel fordultak el mind a WordNetben, mind a szabadalmakban. A 3. tblzatban
foglaljuk ssze az tlagos jelentsszmot a klnbz szfaji kategrikra vonatkoztatva.

Szeged, 2011. december 12.

77

3. tblzat: Jelentsek tlagos szma a WordNetben s a szabadalmakban.

Jelentsek tlagos
gyakorisga a WordNetben
Fnv
Mellknv
Ige
tlag

4,7115
4,9817
7,5362
5,5509

Jelentsek tlagos
gyakorisga a
szabadalmakban
1,0385
1,0976
1,2319
1,1193

A 3. tblzatbl jl lthat, hogy a tnylegesen vizsglt s kzzel is annotlt szavak esetben is az igk rendelkeznek a legtbb jelentssel a WordNetben, tlagban
7,5-del, mg a fnevek s a mellknevek jelentsnek tlagos szma 5. A szabadalmak esetn azonban azt vehetjk szre, hogy a jelentsek tlagos szma szfaji kategritl fggetlenl 1 krl van, s ez a szm az igknl a legnagyobb, egszen pontosan 1,2319. Ez megersti azt a felttelezsnket, hogy a szabadalmakban nagyrszt
terminusknt fordulnak el a kifejezsek.
Az 1. bra mutatja szfaji kategrikra lebontva, hogy az adott szfaj esetn menynyi az tlagos jelentsszm a WordNetben (bal oszlop), illetve a szabadalmakban
(jobb oldali oszlop).

8
7
6
Jelentsek tlagos
gyakorisga a
WordNetben

5
4

Jelentsek tlagos
gyakorisga a
szabadalmakban

3
2
1
0
Fnv

Mellknv

Ige

tlag

Szfaj

1. bra. Jelentsek tlagos szma a WordNetben s a szabadalmakban.

Az igk kztt 4 darab hromrtelm (form, reduce, make, have) s 8 darab ktrtelm sz tallhat. A form ige esetben az albbi hrom jelents figyelhet meg a
WordNetben elfordul 7 jelents kzl a szabadalmakban:

78

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


4. tblzat: A form ige jelentsei.

Jelents
szma
1
2

to compose or represent
create (as an entity)

give shape or form to

4
5

develop into a distinctive entity


establish or impress firmly in
the mind
make something, usually for a
specific function

WordNetbeli jelents

Plda a szabadalmakban

[] adding to a second fluid


bed dryer the fourth feed stream
to form the granular detergent
composition; []
[] deforming the films to
form a multiplicity of recesses
[]

A water resistant suntan gel


capable of forming [] a
water-resistant film on skin []

assume a form or shape

A wordnetbeli jelentsek kzl gy kevesebb, mint fele hasznlatos a szabadalmakban. Az ts szmmal elltott jelents pldul nagyon kis valsznsggel fordulhatna el akrmilyen szabadalomban.
A szabadalmakban kt jelentssel rendelkez igk a kvetkezk: provide,
determine, combine, contain, comprise, treat, mix s produce. A tbbi mind egy jelentssel rendelkezik.
A mellknevek esetben kizrlag az oral s lower sz rendelkezett kett jelentssel a szabadalmakban, a tbbi mind egyjelents volt. Az els sz szabadalmakban
elfordul kt jelentst s a wordnetbli jelentseket az albbi tblzat tartalmazza:
5. tblzat: Az oral sz jelentsei.

Jelents
szma
1

WordNetbeli jelents

Plda a szabadalmakban

of or relating to or affecting or
for use in the mouth

A composition for treating


diabetes to be taken in oral
doses
tablet capable of being chewed
or disintegrated in the oral
cavity []

of or involving the mouth or


mouth region or the surface on
which the mouth is located
a stage in psychosexual
development when the child's
interest is concentrated in the
mouth; fixation at this stage is
said to result in dependence,
selfishness, and aggression
using speech rather than writing

Szeged, 2011. december 12.

79

A fnevek kzl egyedl a system sznak volt kettnl tbb jelentse a szabadalmakban, sszesen 3 a wordnetbeli 9 helyett. Ez a hrom jelents a kvetkez volt: (1)
instrumentality that combines interrelated interacting artifacts designed to work as a
coherent entity, (2) a group of independent but interrelated elements comprising a
unified whole s (3) a procedure or process for obtaining an objective. Ezen kvl 14
darab fnvnek volt legalbb kt jelentse a szabadalmakban.
A szabadalmakban elfordul jelentsek arnya arra mutat r, hogy noha a jelents-egyrtelmstsi feladatot finom megklnbztetsknt fogtuk fel, hiszen a
WordNet alapjn hatroztuk meg a jelentseket, a valsgban elgsgesnek bizonyul
a durva jelentsmegklnbztets, azaz ltalban 2-3 jelentssel rendelkeznek a tbbrtelm szavak a szabadalmakban. Tapasztalataink azt is igazoljk, hogy a gygyszerszeti szabadalmak jelents-egyrtelmstse nem ignyli specilis gygyszerszeti
jelentstr ltrehozst, mivel egy ltalnos cl jelentstr (WordNet) is alkalmasnak
bizonyult a feladatra.

4.2 Egyetrtsi rta


A korpusz annotlst kt fggetlen nyelvsz vgezte a Sensetagger program segtsgvel. Minden szfajbl az t leggyakoribb tbbrtelm sz elfordulsait mindkt
annottor egyrtelmstette, gy mrhetv vlt az egyetrtsi rta. A 6. tblzat mutatja a szfajonknti s az sszestett adatokat a mindkt annottor ltal jellt korpuszrszen.
6. tblzat: A kt annottor kztti egyetrtsi rta.

Fnv
Ige
Mellknv
sszesen

Elforduls
211
179
62
452

Egyetrts
96,68%
93,85%
100%
96,08%

A 6. tblzat jl mutatja, hogy az annottorok kzti egyetrts igen magasfoknak


mondhat. A szintn WordNet-jelentsekre pl magyar nyelv WSD-korpusz [6]
egyetrtsi rtja 84,78%-os volt, amihez kpest 11,4%-kal jobb teljestmnyt rtnk
el a minta alapjn. Ez arra enged kvetkeztetni, hogy szakszvegekben knnyebb
feladat a jelents-egyrtelmsts, hiszen egy adott domnen bell kisebb valsznsggel hasznlatosak a szavak tbbfle jelentsben (noha a csald sz tbbrtelm,
botanikai kontextusban szinte kizrlagosan a rendszertani kategrit jelli). Br a
magyar WSD-korpusz is homogn szvegeket tartalmaz (HVG-cikkek), azok nyelvezete s tematikja mgsem annyira kttt, mint a szabadalmak (v. [4]).
Klnsen a mellknevek egyrtelmstse bizonyult knny feladatnak, noha itt
szmotteven kevesebb pldt kellett cmkzni, mint a fnevek s igk esetben. Meg
kell tovbb emlteni, hogy a mellknevek nagy tbbsge egyjelentsknt fordult el
a szabadalmakban, ami tovbb knnytette az annotlst. Az egyrtelmstsre kivlasztott mintban a form ige bizonyult a legnehezebbnek: itt az annottorok pusztn
52,6%-ban rtettek egyet. Ennek valsznleg az lehet az oka, hogy kt jelentst (lt-

80

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

rehoz s valamilyen clra ltrehoz) egymshoz kzel llnak, gy nehezen megklnbztethetnek tltek az annottorok. Az eltren annotlt esetek nagy rsze e kt
jelentst rintette.

5 sszegzs s tovbbi clok


Tanulmnyunkban bemutattuk a gygyszerszeti szabadalmakat tartalmaz jelentsegyrtelmstett korpuszunkat. A wordnetbeli s a korpuszban elfordul jelentsek
arnya azt tkrzi, hogy szakszvegekben, jelesl a szabadalmakban kevesebb jelents jelenik meg a gyakorlatban is, mint ahogy azt az adatbzis alapjn vrhatnnk. Ez
nmileg megknnyti mind az annottorok, mind a gpi egyrtelmsts feladatt.
Az elkszlt korpuszt a jvben szeretnnk jelents-egyrtelmst algoritmusok
tesztelsre hasznlni, melyek beplnek majd a szemantikus keresbe.

Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti
Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel
projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi
Alap s az Eurpai Szocilis Alap trsfinanszrozsval valsult meg.

Bibliogrfia
1. Cabr, M. T.: Terminology. Theory, methods and applications. John Benjamins, Philadelphia PA (1998)
2. Erk, K., Strapparava, C. (eds.): Proceedings of the 5th International Workshop on Semantic
Evaluation. Association for Computational Linguistics, Uppsala, Sweden, July (2010)
3. Java API for WordNet Searching (JAWS), http://lyle.smu.edu/~tspell/jaws/index.html
4. Osenga, K.: Linguistics and patent claim construction. Rutgers Law Journal Vol. 38, No. 61
(2006) 61108
5. Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml
6. Vincze, V., Szarvas, Gy., Almsi, A., Szauter, D., Ormndi, R., Farkas, R., Hatvani, Cs.,
Csirik, J.: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation. LREC 2008, Marrakech, Morocco (2008) 33443349
7. Vincze, V., Nagy ., Klausz, ., Almsi, A., Kiss, M., 2010: Nyelvszeti problmk a
szabadalmak feldolgozsban. In: Tancs, A., Vincze, V. (szerk.): VII. Magyar
Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 168
179
8. WordNet A lexical database for English, http://wordnet.princeton.edu/

Szeged, 2011. december 12.

81

Korpusz
ept
es
omagyar k
odexekb
ol
Simon Eszter, Sass Balint, Mittelholcz Iv
an
MTA Nyelvtudom
anyi Intezet
{eszter,sass.balint,mittelholcz}@nytud.hu

Kivonat Az annot
alt nyelvi er
oforr
asok elerhet
osege egyre fontosabb
szerepet kap a nyelveszet t
obb ter
uleten: a nyelvtechnol
ogiai fejleszteseken kv
ul az elmeleti kutat
asoknak is kiv
al
o alapanyagot szolg
altatnak
a korpuszok. A Magyar Generatv T
orteneti Szintaxis cm
u projekt kereteben felept
unk egy olyan korpuszt, amely tartalmazza az o
sszes fennmaradt o
magyar sz
ovegemleket. A cikkben a teljes korpuszeptesi munkafolyamatot bemutatjuk a szkennelest
ol az online lekerdez
o fel
uletig.

1.

Bevezet
es

Az annot
alt nyelvi er
oforrasok elerhet
osege egyre fontosabb szerepet kap a nyelveszet t
obb ter
uleten: a nyelvtechnol
ogiai fejleszteseken kv
ul az elmeleti kutatasoknak is kiv
al
o alapanyagot szolgaltatnak a korpuszok. A t
orteneti korpuszok az adatok es a nyelvi jelensegek gazdag tarh
azat adj
ak de csak akkor, ha
a relevans inform
aci
o elektronikusan interpret
alhat
o es elohvhato modon van
tarolva benn
uk. A Magyar Generatv Torteneti Szintaxis cm
u projekt celja,
hogy diakron szintaktikai vizsgalatokat vegezzen magyar nyelv
u szovegeken,
melyhez elsodleges fontossag
u egy elektronikus nyelvtorteneti adatb
azis letrehoz
asa. A projekt id
otartama alatt (2009-2013) felept
unk egy olyan korpuszt,
amely tartalmazza az osszes fennmaradt omagyar kori (8961526) szovegemleket,
a k
ozepmagyar korbol (15261772) pedig k
ulonfele szempontok szerinti aranyos
v
alogat
ast u
gy, hogy minden nyelvj
ar
as, m
ufaj, regiszter s
uly
anak megfelel
oen
kepviselve legyen benne.
an els
osorban m
ar digitalizalt
Napjainkban a korpuszeptesi munkalatok sor
szovegekb
ol indulnak ki; de nem ez a helyzet a torteneti dokumentumokkal. Az
elektronikus formatumok (sot az elektromoss
ag) elotti korb
ol szarmaz
o szovegekb
ol val
o korpuszeptes sokkal ido- es munkaigenyesebb folyamat, es bizonyos
esetekben m
as m
odszereket is igenyel, mint a mai szovegek eseteben. A teny,
hogy az omagyar kor tobb mint 6 evszazadot fog at, amelynek soran nem volt
egyseges hangjel
olesi rendszer, vagyis az egyes szovegekben levo specialis karakterek halmaza k
ul
onboz
o, tov
abb nehezti a helyzetet. A helyesr
as ezekben a
szazadokban t
avolr
ol sem volt egyseges, r
aadasul egy k
odexet altal
aban t
obb
kez jegyez, ami meg tovabb n
oveli a heterogenit
ast a sz
ovegekben. Ezek es m
as,
kes
obb reszletezett okok miatt a sztenderd elofeldolgoz
o lepesek (tokenizalas,
mondatra bontas, morfol
ogiai elemzes es egyertelm
ustes) nem vegezhetok teljesen automatikusan, es nagyon sok kezi ellenorzest igenyelnek.

82

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A cikkben a teljes korpuszeptesi munkafolyamatot bemutatjuk a szkennelest


ol az online lekerdez
o fel
uletig. A 2. fejezetben a korpusz anyaganak osszegy
ujteset rjuk le, majd a 3. fejezetben bemutatjuk a korpusz felepteset, valamint
az ezzel p
arhuzamos sz
ovegfeldolgoz
asi lepeseket. A 4. fejezet az online lekerdezo
fel
ulet ler
asat adja, veg
ul a korpuszeptessel kapcsolatos tov
abbi feladatainkat
targyaljuk.

2.

A korpusz anyag
anak o
sszegy
ujt
ese

A reprezentativit
as a korpuszok egyik lenyegi tulajdons
aga, kiveve abban az
esetben, ha egy holt nyelvet vagy egy nagyon specialis nyelvi reteget vizsgalunk.
Ez a helyzet az omagyar korpusz eseteben is, amely terveink szerint az osszes
omagyar korbol fennmaradt sz

ovegemleket tartalmazni fogja. Sz


ovegemlek alatt
az osszef
uggo
omagyar mondatokat tartalmaz
o nyelvemlekeket ertj
uk, az u
n.
sz
orv
anyemlekekkel, amelyekben csak sporadikusan fordulnak el
o magyar szavak
vagy nevek, jelen projektben nincs lehet
oseg
unk foglalkozni. Nem szerepelnek
tov
abb
a a korpuszban azok a szovegek sem, amelyeket meg soha nem adtak ki
nyomtat
asban, vagyis a nyelvt
orteneti atr
asi munk
at is nek
unk kellene elvegezni.
A fenti megszort
asokat gyelembe veve a feldolgozand
o omagyar anyag 47
k
odexet, 27 rovidebb sz
ovegemleket es 244 misszilist (elk
uld
ott levelet) foglal
magaban, vagyis mind
osszesen k
or
ulbel
ul 2 milli
o szovegszot. Ebb
ol t
obb mint
770 ezer mar elerhet
o, keresheto
allapotban van. A kozepmagyar kori szovegek
kiv
alogat
asa meg folyamatban van.
A korpuszeptes els
o lepese a valamilyen elektronikus szoveges formatumban
m
ar meglev
o nyelvtorteneti anyagok osszegy
ujtese volt. A k
ulonbozo forr
asokb
ol
sz
armaz
o, v
altozatos fontkeszleteket haszn
alo, jellemzoen Microsoft sz
ovegszerkeszto eszk
ozokkel el
oalltott dokumentumokat egyseges, UTF-8 k
odol
as
u, sztenderd Unicode-karaktereket tartalmaz
o sima sz
ovegf
ajlokka alaktottuk. Egy masik forr
asunk a Sz
amt
ogepes Nyelvtorteneti Adatt
ar volt, amelyben t
obb omagyar k
odex abecerendes adatt
ara elerhet
o. A kodexfeldolgozasi munk
alatok meg
a hetvenes evekben kezd
odtek a Debreceni Egyetemen Jakab L
aszlo vezetesevel.
Az adatt
arban a k
odex cmszavai abecerendbe rendezve szerepelnek. A hozz
ajuk
tartoz
o bet
uh
u sz
ovegszavakat a lel
ohely (lapszam, sorsz
am) megjel
olesevel kozorteneti,
lik, mellett
uk sz
amokkal r
ogztettek az adatra vonatkoz
o helyesr
as-t
szot
orteneti, hangtani, szofajtani, jelentestani es alaktani tudnival
okat. Ez a fajta
adatk
odol
asi modszer meg a hetvenes evekbol maradt, mivel annak idejen meg
lyukk
arty
an r
ogztettek az informaci
okat. Ebbol a tabl
azatos formabol alltottuk
vissza a kodexek eredeti bet
uh
u sz
oveget, tov
abb
a az egyes szovegszavakhoz
tartoz
o morfol
ogiai elemzest az altalunk haszn
alt morfol
ogiai elemzo kimeneti
formatum
ara atalaktva.
Az omagyar sz
ovegek nagy reszenek azonban nincsen elektronikusan elerhet
o
szoveges v
altozata, gy ezeket a szamt
ogep altal olvashat
o es feldolgozhat
o
form
ara kell hoznunk. Ez a r
ovidebb szovegek eseteben altal
aban begepelessel,
a hosszabbak eseteben szkennelessel, optikai karakterfelismer
o (OCR) program
alkalmazas
aval es kezi ellenorzessel t
ortenik.

Szeged, 2011. december 12.

3.

83

Az annot
aci
o kidolgoz
asa

Ahhoz, hogy a korpuszban a nyelvi jelensegek kereshet


ok legyenek, vagyis az
adatb
azis haszn
alhat
o segedeszk
oze legyen az elmeleti es nyelvtorteneti kutat
asoknak, a relevans inform
aci
oknak elektronikusan interpretalhat
o es elohvhato
m
odon kell t
arolva lenni
uk. Ennek megval
ost
asahoz a sztenderd szovegfeldolgoz
o
lepeseket (tokenizal
as, mondatra bontas, morfol
ogiai elemzes es egyertelm
ustes)
kell megtenn
unk, a t
orteneti szovegek eseteben azonban ezek nem problemamentesek. Bizonyos lepesek automatizalhat
ok, de munkaigenyesebb modszereket
es t
obb kezi ellenorzest igenyelnek, mint a mai nyelvet reprezent
al
o korpuszok
eseteben.
A korpusz feleptese, vagyis az egyes sz
ovegszavakhoz tartoz
o annot
aci
os szintek p
arhuzamosan alakulnak a szovegfeldolgozottsagi szintekkel, melyeket az 1.
tabl
azatban lathatunk. Ezek alapjan hat annotaci
os szintet es ot feldolgozo lepest
unk reszletesebben.
k
ul
onthet
unk el, melyeket ebben a fejezetben ismertet
1. t
abl
azat. Sz
ovegfeldolgozotts
agi szintek.
(1) kiadott k
odex szkennelve
OCR
(2) nyers OCR-kimenet
kezi javt
as, k
odol
as
(3) bet
uh
u elektronikus forma
felautomatikus normaliz
al
as
(4) normaliz
alt forma
automatikus morfol
ogiai elemzes
(5) sz
ot
ovestett es morfol
ogiailag elemzett forma
kezi egyertelm
ustes
(6) egyertelm
ustett korpusz

3.1.

Szkennel
es

Neh
any k
odex beszkennelt verzi
oja megtal
alhat
o a Magyar Elektronikus Konyvt
arban, s
ot ezek egy resze u
n. ,,szendvics PDF, vagyis a kep m
ogott megtal
alhat
o az OCR-ezett sz
oveg is. Ennek ellenere ezeket nem tudtuk haszn
alni:
a kepek felbont
asa nem eleg j
o az OCR-ezeshez, a mogottes szoveg pedig nem
esett at kezi ellenorzesen, vagyis meglehet
osen sok benne a hiba. Igy minden
k
odexet, amit nem tudtunk szoveges formaban megszerezni, minimum 300 dpi
felbont
asban be kellett szkenneln
unk.
3.2.

OCR

Az omagyar k
odexekben tal
alhat
o nagysz
am
u k
ulonleges karakter kezelese miatt az OCR programmal szemben alapvet
o elvar
asunk volt a tanthat
osag. A

84

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sz
oba j
ohet
o nylt forr
ask
od
u szoftverek (pl. Tesseract) tant
asa t
ul id
oigenyes
lett volna, ezert veg
ul az Abby FineReader mellett d
ont
ott
unk. Ez ugyan nem
nylt forrask
od
u, de meglehet
osen k
onnyen tanthat
o, es eleg jo minoseg
u kimenetet ad.
Az OCR program teljestmenyet m
asokhoz hasonl
oan (pl. [1]) nem karakterszinten, hanem szopontossaggal (word accuracy, WAcc) mert
uk (az r
asjelek felismereset
ol eltekintett
unk). Az el
ozetes elvar
asoknak megfelel
oen az eredmenyek
azt mutatj
ak, hogy a pontossag nagyban f
ugg a k
odexekben alkalmazott helyesr
ast
ol. Kniezsa [2] az omagyar kori k
odexek kezeinek helyesr
as
at h
arom
nagy tpusba sorolja; a kiertekelesnel ezt a kategorizal
ast kovett
uk. A mellekjel
nelk
uli helyesr
as a latinban nem szerepl
o magyar hangokat tobb bet
u komas egy rokonhang bet
ujenek mellekjeles
bin
aci
oj
aval rja le; a mellekjeles helyesr
v
altozat
aval jeloli ezeket; a harmadik tpus pedig ezek kevereke. A kiertekeleshez
h
arom k
odexet v
alasztottunk a h
arom k
ulonbozo tpusb
ol, tov
abb
a osszehasonlt
asi alapkent egy r
ovidebb mai magyar sz
ovegen is kiertekelt
uk a szoftver
teljesmenyet.
A legjobban a mellekjel nelk
uli helyesr
assal boldogult a program: ez nagyj
abol
megegyezik a mai magyar szovegek felismereseben ny
ujtott pontossaggal. A
mellekjeles es keverek helyesr
as
u k
odexekben hasznalt speci
alis karakterek nagy
sz
ama a tant
as ellenere is kb. 30%-kal rontotta a pontoss
agot.
2. t
abl
azat. Az OCR szopontossaga helyesr
asi tpusok szerint.
k
odex
Kulcs
ar
M
uncheni
Czech

3.3.

helyesr
as
mellekjel nelk
uli
mellekjeles
keverek
mai magyar

tokensz
am
36.321
74.657
11.478
5.121

felismert
35.258
50.790
7.910
5.068

WAcc (%)
97,07
68,03
68,91
98,97

A bet
uh
u sz
oveg

A bet
uh
u sz
oveg elkesztesekor nem a kodexek kezzel rott v
altozat
at, hanem
az
altalunk haszn
alt atirat szerkeszt
ojenek konvencioit kovetj
uk, vagyis nem
t
oreksz
unk t
okeletes paleograai pontossagra. A szabvanyossag elonyei miatt
a teljes korpuszt sztenderd UTF-8 k
odol
as
u Unicode karakterekkel t
aroljuk es
jelentj
uk meg. Mindenkeppen sz
ukseges egy, az egesz korpuszra kiterjed
o szigor
uan egyseges form
atum, ez teszi lehetove, hogy a lekerdezeseket az egesz
anyagra vonatkoztathassuk. Ugyanakkor viszonylag nagy er
ofesztest kv
an ennek az egysegessegnek a megvalost
asa, mivel az egyes nyelvemlekek r
asm
odja, a
benn
uk el
ofordulo specialis omagyar karakterek halmaza meglehet
osen k
ul
onbozik egymast
ol. A k
ulonfele ekezetes es t
obbszor
osen ekezetes karaktereket a Unicode megfelel
oen kezeli, de el
ofordulnak olyan regi magyar karakterek is, melyek
a Unicode-ban nincsenek reprezentalva. Ezeket a karaktereket egy kivalasztott

Szeged, 2011. december 12.

85

Unicode karakterrel helyettestj


uk, megpedig u
gy, hogy az adott helyettest
o karaktert kizarolag az adott hianyzo eredeti karakter helyett haszn
aljuk a korpuszban.
3.4.

Normaliz
al
as

A magyar r
asoss
agot a latin nyelv
u es vallasos t
argy
u irodalom fordt
asanak
igenye hvta eletre, de a latin abece magyarra alkalmaz
asa sz
amos problem
at
vetett fel. A legf
obb gond abb
ol fakadt, hogy nyelv
unk hangrendszerenek t
obb
eleme a latinban ismeretlen, gy ezek jelolesere u
j jeleket kellett bevezetni. Az
omagyar korban a helyesr

as meg egy
altal
an nem volt egysegestve, s
ot egy
k
odexet akar t
obb kez is jegyezhetett, ami tov
abbi egyenetlensegeket okoz a
sz
ovegekben. A k
ul
onb
ozo helyesr
asi rendszerekben is ritka az egy hangegy
bet
u megfeleles (vagyis amikor egy hang jel
olesere mindig ugyanaz a bet
u haszn
alatos, es az adott bet
unek mindig egy hangerteke van), de egy alakul
oban
lev
o helyesr
asi rendszerben ilyenfajta k
ovetkezetesseg meg annyira sem varhat
o
ot inkabb az a tipikus, hogy egy emleken bel
ul is ingadozik egy-egy hang
el. S
ag vilaga])), vagy kett
os hangerteke van egyjel
olesm
odja (pl. Vylag uilaga [vil
egy bet
unek (pl. zerzete zerent [szerzete szerint]). Tovabb bonyoltja a helyzetet,
hogy neh
any bet
u egyarant utalhat maganhangzora es massalhangzora is (pl. az
u,v,w t
obb evszazadon at jelolhette az u,
u,
u,
u,v hangok barmelyiket).
Ezert sz
ukseg van egy u
n. normaliz
al
asi lepesre, amelynek sor
an az eredeti
bet
uh
u sz
oalakokat mai magyar helyesr
as
u szavakra alaktjuk at. A t
obbfele,
k
ul
onboz
o nyelvtorteneti szakmai ervekkel al
at
amaszthat
o lehetseges feldolgoz
asi
forgat
ok
onyvek egyik gyakori k
ozos
atalakt
o lepese ez a fajta normaliz
alas (pl.
[3]). A szovegfeldolgozasnak ez a lepese kritikus fontoss
ag
u, enelk
ul ugyanis a
(felig) automatikus annot
aci
o hatekonysaga a k
ovetkezo lepesekben dramaian
visszaesik [4].
ul id
oigenyes
Mivel a normalizal
as nyelvtorteneti szakertelmet kvano, rendkv
manu
alis munka, megpr
ob
altuk kiv
altani gepi elj
ar
assal. Az altalunk eptett
gepi normalizal
o az
omagyar tokenekhez atr
asi lehet
osegeket rendel, melyek
k
oz
ul a normaliz
al
ast vegz
o nyelvesz ki tudja valasztani a megfelelo kimenetet
(reszletesen lasd [5]).
A normalizal
as sor
an ket alapelvet tartunk szem el
ott. Egyreszt a ma nem
letezo
osszes sz
ot, toldalekot, morfol
ogiai konstrukciot megtartjuk, vagyis morfem
at nem toldunk be, es nem hagyunk el. M
asreszt viszont elhagyunk minden
fonol
ogiai es helyesr
asi esetlegesseget, vagyis egyseges, amennyire lehet, a mainak megfelelo helyesr
asra t
oreksz
unk. Ez ut
obbi azt is jelenti, hogy egy adott
sz
ot mindig ugyan
ugy runk le ezt nevezz
uk az egysegesseg elvenek.
A normalizal
asi lepes sor
an t
ortenik meg a sz
oveg tokenekre es mondatokra
ason jelen esetben azt ertj
uk, amikor
valo bont
asa is mindkett
o kezzel. Tokenizal
az omagyar sz
ovegben a szavakat a mai helyesr
asnak megfeleloen osszevonjuk,
illetve szetv
alasztjuk, termeszetesen a megfelelo modon jelolve a v
altoztat
asokat.
Mivel ebben a korban a mai r
asjelek nagy resze meg ismeretlen volt, tovabb
a
amit haszn
altak, azt se k
ovetkezetesen tettek, a mai ertelemben vett automatikus

86

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

mondatra bontas teljesen lehetetlen vallalkoz


asnak t
unik. Ezert ezt a szovegfeldolgoz
asi lepest is manu
alisan vegezz
uk el.
3.5.

Morfol
ogiai elemz
es
es egy
ertelm
ust
es

A normalizalt sz
ovegv
altozat kepezi a morfol
ogiai elemz
o bemenetet. Mivel a
normaliz
al
as sor
an az omagyar sz
oveget mai magyarra rjuk at, az ez ut
obbira
kifejlesztett automatikus morfol
ogiai elemzot viszonylag konnyen tudjuk alkalmazni a nyelvemlekek feldolgozasara. Jelen projektben a Humor elemz
ot haszn
altuk [6]. Az egyik normaliz
al
asi alapelv
unk, hogy minden morfologiai konstrukci
ot megtartunk, ezert termeszetesen ki kellett b
ovten
unk a lexikont es a
szab
alyhalmazt bizonyos ma m
ar nem letezo, de az omagyarban meg hasznalt
nyelvi jelensegek ler
asaval. A morfologiai elemzo kimenetenek egyertelm
usteset
viszont a gepi normalizal
o kimenetenek kezelesehez hasonloan kezzel vegezz
uk.

4.

Korpuszlek
erdez
o eszk
oz

A korpusszal p
arhuzamosan kesz
ul a hozz
a tartoz
o korpuszlekerdezo rendszer,
amelynek segtsegevel a teljes
omagyar korpuszt kutathatjuk. A jo korpuszlekerdez
o eszk
oz
ok lehetove teszik azt, hogy kinomult, nyelveszetileg relev
ans
lekerdezeseket fogalmazzunk meg altaluk. Az ilyen lekerdezesek sok esetben
k
ul
onfele nyelvi szinteken megjeleno informaci
ora hivatkoznak. Hogy ez megval
osulhasson, adatb
azisunk p
arhuzamosan tartalmazza az 1. t
abl
azatban lathat
o
hat sz
ovegfeldolgozotts
agi szintnek megfelelo nyelvi adatokat. Ezenfel
ul lehet
ove
tessz
uk a t
obb szintre val
o egyidej
u hivatkoz
ast ak
ar egy kerdesen bel
ul is. Ha
peld
aul az a kerdes
unk, hogy milyen szavak szerepelnek egy igealak es egy igek
ot
o
k
oz
ott, akkor az elemzesek szintjen (6) kell megfogalmazni a kerdest. Ha gyakorisagi list
at keszt
unk a korpusz egy reszebol, akkor ezt megtehetj
uk peldaul a
u szavakra is,
szot
ovekbol kiindulva, de ra lehet kerdezni kozvetlen
ul az nc. veg
ekkor a (3) szinthez fordulunk.
A korpusztal
alatok megjelentese f
uggetlen a lekerdezest
ol, abban az ertelemben, hogy igeny szerint barmilyen ak
ar a lekerdezesben nem is szerepl
o
szovegfeldolgozotts
agi szintet is megjelenthet
unk.
A korpusz anyaga vertik
alis f
ajlok formajaban kesz
ul el. Ezek .csv form
atum
u
tabl
azatok, melyek soronkent egy sz
ovegszot tartalmaznak, az egyes sz
ovegfeldolgozotts
agi szintekhez tartozo informaci
ot pedig a megfelel
o oszlopban, kiegesztve

egy ,,Ertelmez
es es egy ,,Megjegyzes oszloppal. Ezt a format XML-le alaktjuk,
gy vegezz
uk el a valid
aci
os lepeseket, melyek az adatbazis konzisztenci
ajat ellen
orzik. Egy k
ovetkezo atalakt
o lepes sor
an alakul ki az alkalmas bemenet az
Emdros [7] korpuszkezel
o rendszer sz
am
ara, melyre a lekerdezofel
ulet ep
ul.
A lekerdez
o fel
ulet az 1. abran l
athat
o. A fel
ulet kozeps
o reszen hivatkozhatunk az egyes sz
ovegfeldolgozottsagi szintekre. Az itt megadott adatokbol az
OK gomb megnyomasara all el
o maga a lekerdezes a bal oldali sz
ovegmezoben
az Emdros lekerdez
onyelven, ez szerkeszthet
o, es a Mehet gombbal futtathat
o.

Szeged, 2011. december 12.

87

1. abra. A korpuszlekerdez
o fel
ulete. A felt
untetett peldaban azokra a tokenekre
keres
unk, melyeknel a normalizalt alak kezdete a jonh sztring.

2. abra. Az 1. abr
an l
athat
o lekerdezes eredmenyenek reszlete: korpuszpozci
ok,
ahol a normaliz
alt alak kezdete a jonh sztring.

88

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az 1. abr
an bemutatott lekerdezes eredmenye a 2. abr
an lathat
o. A talalatok
felett a l
okuszjel
ol
o tal
alhat
o, mely a k
odex azonost
ojabol, az oldalsz
ambol es
az adott sz
o egyedi azonost
oj
ab
ol all. Az egyes tal
alatokat t
abl
azatos formaban
jelentj
uk meg: a bet
uh
u alak z
olddel, a normaliz
alt alak feketevel, az ertelmezes
az omagyar jonh mai magyar megfeleloje a szv szo pedig kekkel.
Veg
ul l
assunk egy val
odi omagyar szintaxisra vonatkozo elmeleti nyelveszeti
kutat
asi kerdest, melynek megv
alaszol
asahoz segtseget ny
ujthat a korpusz. A
mai magyarban tagad
as eseten az igekot
o koveti az iget (vo: nem j
on be), az
omagyar viszont az igekot

o + tagadosz
o + ige (v
o: be nem j
on) sorrendet
ara vonatkoz
o megfelel
o lekerdezesek
hasznalja legt
obbsz
or. A sz
ofajok sorozat
a 3. abr
an l
athat
ok. Ezt a jelenseget mutatja a J
okai-kodexb
ol szarmaz
o alabbi
peldamondat is: ,,Ver touaba k
y nem futott (Ver tovabb
a ki nem futott.).
Mai magyar sz
orend:
[W FOCUS w_6e ~ Mod]
[W FOCUS w_6e ~ V\.]
[W FOCUS w_6e ~ Vpfx]

Omagyar
sz
orend:
[W FOCUS w_6e ~ Vpfx]
[W FOCUS w_6e ~ Mod]
[W FOCUS w_6e ~ V\.]

3. abra. A tagadott ige es igek


ot
o sorrendi viszony
ara vonatkoz
o lekerdezesek. A
o morfologiai elemzesre kerdezhet
unk ra, a
w 6e jellemzovel a (6) szinten elerhet
tagad
osz
o k
odja Mod, az ige kodja V, az igekot
oje pedig Vpfx.
A Regi Magyar Konkordancia nevet visel
o lekerdezofel
ulet szabadon elerhet
o
a http://corpus.nytud.hu/rmk cmen.

5.

Tov
abbi feladatok

Els
odleges feladatunk a teljes omagyar anyag bet
uh
u szoveges formaban valo
el
o
allt
asa es kereshetove tetele. A normaliz
alast, valamint a morfol
ogiai elemzest
es egyertelm
ustest csak a korpusz egy reszen fogjuk vegrehajtani.
Az omagyar sz
ovegek eleve adott heterogenit
asa mellett tov
abbi problem
akat
okoz az is, hogy a k
ulonb
ozo korokban kiadott nyomtatott k
odex
atiratok tipograai kenyszer
usegek miatt azonos karaktereket elter
oen jelentenek meg.
Terveink k
ozott szerepel ezen esetlegessegek kik
usz
obolese, vagyis a k
ul
onb
ozokeppen jel
olt karakterek azonos sztenderd Unicode-karakterrel val
o lecserelese.
A k
ozepmagyar anyagok eseteben m
ar fontos szerepet jatszik a reprezentativitas kerdese, ugyanis ebb
ol a korbol lenyegesen t
obb nyelvemlek
unk szarmazik,
vagyis a teljes anyag feldolgozasara ebben a projektben nem v
allalkozhatunk.

Szeged, 2011. december 12.

89

A k
ozepmagyar szovegemlekek kivalogat
asan
al ket fo szempontot tartunk szem
el
ott: csak a m
ar szoveges form
atumban elerhet
o dokumentumokkal foglalkozunk, es ezeket D
om
otor [8] m
ufaji beosztasat k
ovetve kategorizaljuk u
gy, hogy
minden regiszter megfelel
oen kepviselve legyen a korpuszban.

K
osz
onetnyilv
ant
as
Az omagyar korpusz eptese a Magyar Generatv Torteneti Szintaxis projekt
kereteben valosul meg. A projektet az OTKA NK 78074. sz
am
u p
aly
azata tamogatja. K
osz
onetet mondunk Novak Attilanak, aki a morfol
ogiai elemzest es a
Jakab L
aszl
o-fele t
abl
azatok atalakt
asat vegzi.

Hivatkoz
asok
1. Volk, M., Marek, T., Sennrich, R.: Reducing OCR Errors by Combining Two OCR
Systems. In: Proceedings of the ECAI 2010 Workshop on Language Technology
for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon,
Portugal, Faculty of Science, University of Lisbon (2010)
2. Kniezsa, I.: Helyesr
asunk t
ortenete a k
onyvnyomtat
as kor
aig. Akademiai Kiad
o,
Budapest (1952)
3. McEnery, T., Hardie, A.: Lancester Newsbooks Corpus. (2003)
4. Rayson, P., Archer, D., Baron, A., Culpeper, J., Smith, N.: Tagging the bard:
Evaluating the accuracy of a modern POS tagger on Early Modern English corpora.
In: Proceedings of Corpus Linguistics, University of Birmingham (2007)
5. Oravecz, C., Sass, B., Simon, E.: Semi-automatic normalization of Old Hungarian
codices. In: Proceedings of the ECAI 2010 Workshop on Language Technology
for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon,
Portugal, Faculty of Science, University of Lisbon (2010)
6. Pr
oszeky, G., Kis, B.: A unication-based approach to morpho-syntactic parsing of
agglutinative and other (highly) inectional languages. In: Proceedings of the 37th
Annual Meeting of the Association for Computational Linguistics, College Park,
Maryland, USA (1999) 261268
7. Petersen, U.: Emdros a text database engine for analyzed or annotated text. In:
COLING 2004. (2004) 11901193
8. D
om
ot
or, A.: Regi magyar nyelvemlekek. Akademiai Kiad
o, Budapest (2006)

90

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Nem lexikalizlt fogalmak a Magyar WordNetben


Vincze Veronika, Almsi Attila
Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport
Szeged, rpd tr 2.
vinczev@inf.u-szeged.hu, vizipal@gmail.com

A Magyar WordNet (HuWN) ptse sorn az annottorok viszonylag nagy


szm olyan fogalommal tallkoztak, melyeknek nem volt megfeleljk a magyar nyelvben. E dolgozatban bemutatjuk a HuWN-be bevezetett nem
lexikalizlt synsetek kt (non-lex s t non-lex) tpust, megvizsgljuk a non-lex
jelensg httert, statisztikkat is kzlnk, a kt wordnetbl vett pldkkal rvilgtunk bizonyos problmkra, majd megoldsokra is javaslatot tesznk tbbszavas kifejezsek kezelsnek krdst is krljrjuk s egy esetleges jvbeli
HuWN revzi non-lex irny fellvizsglatt is javasoljuk.

1 Bevezets
A wordnetek olyan lexikai adatbzisok, amelyek jelentsk alapjn klaszterekbe
rendezdnek s klnfle szemantikus s lexikai relcik segtsgvel kapcsoldnak
ssze egy konceptulis hierarchiba (lexikai ontolgiba). Eredetileg azrt alkottk
meg ezeket, hogy bemutassk, hogyan szervezdnek a nyelvi ismeretek az emberi
elmben [6].
A wordnetek mretket tekintve ugyan eltrseket mutatnak, de ezeket klnsen a Princeton WordNetet (PWN) tekintik egy adott nyelv legnagyobb nyelvi informcit tartalmaz adatbzisainak.
A wordnetek ltrehozsnl a tbbnyelvsg is fontos szempont: az ptk rendszerint a PWN-hez igaztjk j adatbzisaikat, gy azokat olyan mind egy-, mind
pedig tbbnyelv alkalmazsokban lehet felhasznlni a szmtgpes nyelvszetben
mint pl. a jelents-egyrtelmsts, a gpileg tmogatott fordts, dokumentumklaszterezs stb.
Azonban kt nyelv sosem fedi egymst teljesen sem a konceptulis, sem pedig lexikai szinten. Dolgozatunkban fogalmak megfeleltetse szempontjbl vetjk ssze a
magyar s angol wordnetet, ismertetjk a felmerlt problmkat s megoldsi javaslatokat is tesznk. Elszr rviden bemutatjuk a magyar s angol wordnetet, majd pldkkal vilgtjuk meg a nem lexikalizlt (non-lex) s technikailag nem lexikalizlt (t
non-lex) synseteket. Ezt kveten arra tesznk javaslatot, hogy hogyan kerlhetjk el
a non-lex cmke alkalmazst, vgl pedig rmutatunk arra, hogy noha idelis esetben
egy, a nyelv konceptulis hierarchijt brzol wordnetnek nem kellene non-lex
elemeket tartalmaznia, mgis hasznosnak bizonyulhatnak olyan kutatsi terletek
szmra, mint a pszicholingvisztika, nprajz s kontrasztv nyelvszet.

Szeged, 2011. december 12.

91

2 Wordnetek a nagyvilgban
Az els wordnetet a Princeton Egyetemen hoztk ltre angol nyelvre. A 90-es vek
ta folyamatosan fejlesztik s mostanra a legnagyobb angol nyelven hozzfrhet
lexikai adatbziss vlt, mely knnyen illeszthet klnfle szmtgpes alkalmazsokhoz. A Princeton WordNet 3.0 hozzvetleg 155 000 szt s mintegy 117 000
synsetet tartalmaz.
Azta egyb wordneteket is ltrehoztak, gy pl. a EuroWordNetet, holland, olasz,
spanyol, nmet, francia, cseh s szt nyelvekre [2]; a BalkaNetet, az EuroWordNet
kiterjesztseknt bolgr, grg, trk, szerb s romn nyelvekre [9,10]. Ezeken kvl
wordneteket fejlesztettek mg arab, horvt, knai, dn, szlovn, lengyel, orosz, perzsa,
hindi, tulu, dravida, tamil, telegu, szanszkrit, bodo, asszmi s filippn nyelvekre
[3,8].
A Magyar WordNetet (HuWN) a Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzete, a Szegedi Tudomnyegyetem Informatikai Tanszkcsoportja s a MorphoLogic Kft. Fejlesztette ki egy hromves projekt keretben [1,5]. A HuWN jelenleg tbb mint 40 000 synsetet tartalmaz, melybl 2 000 synset a gazdasgi, 650 synset
pedig a jogi szakontolgia rszt kpezi.
A HuWN alapjul a Princeton WordNet 2.0 szolglt, pontosabban a BalkaNet
Concept Setbe (BCS) tartoz synsetek lettek kivlogatva s magyarra fordtva. A
wordnet kszti ezt kveten szerkesztettk, javtottk s kiterjesztettk ket szinonimkkal a VisDic szerkesztprogram segtsgvel. Ksbb a fogalmak krt koncentrikusan terjesztettk ki, azaz a mr meglv synsetek utdait synsetjelltekknt
kezeltk. A vgs dntst, arrl, hogy felvegyk ket vagy sem, tbb tnyez is befolysolta, mint pl. a fogalom gyakorisga vagy jelenlte ms wordnetekben [5].

3 Nem lexikalizlt synsetek


A munka kezdetn a magyar wordnet fejleszti az gynevezett expand1 mdszer
mellett dntttek. Ez azt vonta maga utn, hogy a HuWN a PWN hierarchijt rklte. A HuWN fnvi s mellknvi rsze a kvetkez mdszer alapjn lett felptve: a PWN csompontjait automatikusan magyar synsetjelltekhez kapcsoltk s a
relcikat tvettk. Az alapstratgia az volt, hogy egy ktnyelv angol-magyar sztr
magyar szcikkeit hozzkapcsoltk a PWN 1.6 fnvi/mellknvi synsetjeihez.
A HuWN ltrehozsa gyakorlatilag azt jelentette, hogy a PWN synseteket magyarra fordtottk. Azonban, mivel nincs teljes tfeds a nyelvek fogalmai kztt, kulturlis, letkrlmnyek s egyb tnyezk eltrsbl addan a nyelvek gyakran csak
rjuk jellemz fogalmakkal rendelkeznek, s ezeknek ms nyelvekben csak hozzvetleges megfelelik vannak, s nem fordthatk, fejezhetk ki egyetlen szval [4].
gy a PWN ptsi elvek teljes tvtelnek s alkalmazsnak negatv kvetkezmnyei lettek volna a HuWN-re; egyrszt kevsb tkrzdtt volna a magyar
lexikalizci, msrszt a PWN konceptulis szerkezetnek egy az egyben magyarra
1

Kiterjesztses modell

92

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

trtn tltetse tovbbi nehzsgeket okozott volna, klnsen a tbbnyelv alkalmazsokra tekintettel [7].
Azrt, hogy ne legyenek lyukak a fban, azaz a magyar s angol wordnet a lehet legnagyobb mrtkben tfedjen, meg kellett tallni az ilyen synsetek megfelel
kezelsnek mdjt. Bevezettk a non-lex cmkt olyan synsetek jellsre, melyek
(sz szintjn) nem lteznek az adott nyelv lexikonjban. Ezek a synsetek krlrs
formjban tartalmazzk az angol synsetnek megfelel fogalmat, de defincit s
pldt nem.
POS: n NL: yes
ID: ENG20-04138222-n BCS: 3
Synonyms: (haj jobb oldala):0
Domain: aeronautic
NL jelli a non-lex-t; a synsetnek nincs defincija, pldja, rtelmez sztrbeli
linkje s literlja.
Albb statisztikkat kzlnk a HuWN nem lexikalizlt synsetjeit illeten. Lthat,
hogy a HuWN egszt tekintve minden huszadik, a BCS rszt tekintve pedig minden
tizenkettedik synset nem lexikalizlt.
1.tblzat: (Technikai) nem lexikalizlt synsetek a HuWN-ben

Synsetek
Nem lexikalizlt
Technikai nem lexikalizlt
Nem lexikalizlt synsetek % -a

HuWN
42 292
1 999
454
5,799

BCSHu
8 446
463
271
8,69

Most pedig megadjuk azokat a kritriumokat, amelyek alapjn egy synset a nonlex synset kategriba sorolhat. Elszr, lehetsges, hogy a fogalom az adott nyelvben nem fordul el (klnsen kulturlis klnbsgeknek ksznheten). Msodszor,
a fogalom kifejezhet produktv vagy kompozicionlis szerkezetekkel (pl. mellknv
+ fnv szerkezetekkel), azaz nincs md arra, hogy egyetlen szval fejezzk ki ket.
Harmadszor, a fogalom tbb ms, egyetlen szval kifejezhet fogalmat foglal magban, gy a msik nyelvben csupn egy listval fejezhet ki. Negyedszer, gy tnik,
hogy a PWN tbb kvetkezetlensget vagy hibs defincit, hipernima relcit tartalmaz, melyeket a HuWN pti nem kvntak kvetni s ehelyett a problms
synseteket non-lex cmkvel lttk el.

3.1 A nem lexikalizlt synsetek tpusai


A nem lexikalizlt synsetek hat f osztlyba sorolhatk, melyekre pldkat albb
lthatunk.

Szeged, 2011. december 12.

93

3.1.1 Kulturlisan meghatrozott fogalmak


Ezek a fogalmak a kultrk, letstlus, fldrajzi elhelyezkeds stb. klnbsgeibl
fakadnak. Mivel a magyar s amerikai kultra, (npi) hagyomnyok s trsadalmi
httr igen eltr, vannak olyan fogalmak, melyeknek vannak ugyan sz szerinti
megfelelik a msik nyelvben, ahogy az albbi pldkbl is ltszik, azonban nem
tkrzik az eredeti szavak ltal elhvott rzseket, hangulatokat, azaz, azt, ami az
anyanyelvi beszl eszbe jut, amikor hallja ket [11].
Pldk a magyar nyelvbl:
o Luca szke Lucas chair (az angol fordts semmit sem rul el a kapcsold
npi hiedelemrl);
o Mglyaraks stake (a magyarban ez egy stemny, melynek jelentse nem adhat vissza az angol szval).
Pldk az angol nyelvbl:
o Anglia Anglia latinul (a magyarban nincs megklnbztets, mivel a magyarban
az England megfelelje Anglia);
o Sassenach angol szemlyt jell skt terminus; nincs lexikalizlt magyar megfelelje.
3.1.2 Gyjtfogalmak
A nem lexikalizlt synsetek egy msik csoportja olyan elemeket tartalmaz, amelyeknek nincs megfeleljk az adott nyelvben. Igen gyakran bizonyos, ebbe az osztlyba
tartoz gyjtfogalmakat csak krlrssal vagy lista megadsval lehet kifejezni a
msik nyelvben. Pldul:
Learned profession:1, a jog- , orvos- s teolgia tudomnynak gyjtneve, melyet a magyar nem tud kifejezni egyetlen szval, csak a hrom terletet tudjuk felsorolni.
Ami a drug:1-et illeti, a HuWN-ben nincs egyszavas megfelelje, mivel a magyarban jl elklnl a gygyszer a kbtszertl, br az utbbit hasznljk orvosi
rtelemben olyan anyagok jellsre, melyeknek nagyon ers s tarts fjdalomcsillapt hatsuk van.
3.1.3 Fosztkpzvel elltott synsetek
A nem lexikalizlt synsetek egy msik, alappldja a fosztkpzvel kpzett mellknevek/fnevek olyan prefixumokkal, mint a non-, in-, un- stb. Nhny esettl eltekintve, az ilyen fosztkpzvel kpzett lexikai egysgek magyar megfelelit negatv
hatrozkkal kpezzk, s ezek egytt nem alkotnak lexikalizlt synseteket; pldul:
unattractive nem vonz; ill-timed rosszul idztett; incongruity meg nem egyezs stb.

94

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3.1.4 Mellknv + fnv szerkezetek


A magyarban bizonyos PWN-ben tallhat fogalmakat mellknv + fnv szerkezetekkel fejeznk ki s ezeket nem tekintjk lexikai egysgeknek, mert vagy produktvak, vagy pedig jelentsk teljesen kompozicionlis.
Pldul az Englishman:1/Englishwoman:1 (English male angol frfi English
woman angol n) nem lexikalizlt egysgek a HuWN-ben, mert a magyarban nincs
nyelvtani nem. Msrszt az Englishman magyar megfelelje, az angol bekerlhetett
volna a HuWN-be. Ugyanakkor az Englishwoman:1 magyar megfelelje, az angol
n nem vehet fel a HuWN-be.
A HuWN sajnos nem tl kvetkezetes e tekintetben. Lsd pl. Scotsman:1-t, melyet megfelelen skt-nak vettek fel. A magyarban a skt, angol, magyar szavaknak nincs neme, e szavak mgis elssorban az adott nemzet hmnem tagjra
utalnak s nnem prjukat a n hozzadsval kapjuk meg. A skt n sszettelt
azonban mr produktv szerkezetnek (mellknv + fnv) s nem tbbszavas kifejezsnek tekintjk (, mely a magyarban a fenti szerkezetek felttele a HuWN-be val
bekerlsre), ezrt nem vettk fel a magyar wordnetbe.
3.1.5 Nyelvtani klnbsgek
Nmely esetben a nem lexikalizlt synset nyelvtani klnbsgekbl addik. A
people:1-nek (embercsoport) konceptulis szinten van, de lexikai szinten nincs megfelelje a magyarban: pldul a 200 people magyarra a ktszzan szval adhat
vissza, ahol az esetrag az angol fnvnek felel meg.
Plda a nem lexikalizlt mellknevekre a HuWN-ben a comfortable:1,
uncomfortable:2 synsetek. A HuWN-be nem lehetsges felvenni a cselekvs genst
s experienst egy synsetbe, ami viszont a PWN-ben gyakran elfordul.
3.1.6 tvtelek
Idvel bizonyos nem lexikalizlt fogalmak lexikalizldnak. E folyamat egyik tipikus
terlete a technolgia, melynek fogalmai egyre gyorsul temben terjednek vilgszerte. Nhny vvel ezeltt, amikor a HuWN plt, pl. az RV (recreational vehicle) nonlex cmkt kapott, m most mr teljes jog lexikalizlt synsetknt felvehet lenne a
HuWN-be.

3.2 Technikai nem lexikalizlt synsetek


A wordnetpts sorn gyakran elfordult, hogy kt hipernima relciban lv angol
synsetnek egy magyar megfelelje volt; a kt fogalom csak a konceptulis szinten
klnl el, lexikai szinten azonban nem tallunk kt kln szt. Ez azzal a kvetkezmnnyel jrna a HuWN-re, hogy a magyar sz nmaga hipernimja lenne. Ez volt a
f oka annak, hogy bevezettk a technikai nem lexikalizlt (t non-lex) cmkt.
A t non-lex cmkt a kvetkez esetekben hasznljuk: szfaji eltrs, azonos literlok hipernima relciban, azonos literlok similar_to relciban.

Szeged, 2011. december 12.

95

3.2.1 Eltr szfaj


Klnbsgeket a kt nyelv lexikonjban is tallunk. Nmely esetben a synset megfelelje a clnyelvben ms szfaj, de a wordnetekben megengedett ngy szfaj egyike.
Pldul az afraid sz az angolban mellknv, viszont a magyarban a fl igvel adhat vissza. Ezekben az esetekben vettk hasznt az n. eq_xpos_synonym relcinak, mely eltr szfajok kzt jell szinonmit s a magyar synset pedig t non-lex
cmkt kapott.
3.2.2 Azonos literlok hipernima relciban
A t non-lex cmkzs msodik esete kt azonos literl hipernima relciban lv
synsetekben. A cmkzst azzal indokolhat, hogy automatikusan knnyebb lehetsges hibkat azonostani. Ha ugyanaz a literl x s y synsetben is megjelenik s azok
hipernima relciban vannak, akkor valszn, hogy az annottor hibzott.
Az is a wordnetpts egyik alapelve, hogy a fogalmat helyettesteni lehet a
hipernimjval, ezrt sszernek tnt, hogy a hiponimt nem vettk fel a HuWN-be.
Lsd a kvetkez pldt:
1 curtain:1
2 drop curtain:1

fggny:2
(fggny) t non-lex

Ebben az esetben a HuWN t non-lex synsetjnek van egy szinonimja a sznhzi


fggny, mely egy kollokci s teljes joggal felvehet lett volna a wordnetbe. A
hiponima helyzetben lv azonos literl trlsnek szablynak felfggesztsvel egy
kttag synsetet kapunk (fggny, sznhzi fggny). Az a klns ebben a
synsetben, hogy a kt tag nem valdi szinonima, mivel nem minden esetben felcserlhetk:
Elads utn a fggny leereszkedett.
Az egsz vrost felkutattam megfelel anyagrt sznhzi fggny ksztshez.
Az els mondatba csak a fggny illeszkedik megfelelen, a sznhzi fggny
furcsn hangzik; a mellknv (sznhzi) felesleges. A msodik esetben azonban ez
annyiban mdosul, hogy a mellknvi rsz hasznlata nlkl a fggny (curtain:1 a
PWN-ben) ltalnosabb jelentse is elfordulhat.
3.2.3 Azonos literlok kzponti s szatellit synsetekben
Az ontolgia mellknvi rszben is alkalmaztuk a t non-lex cmkt. Mivel ptse az
antonim prokon s a hozzjuk asszocici rvn kapcsolhat, szinonim szatellit
synseteken alapul, lehetsges, hogy amg angolban eltr sz szerepel a kzponti s
szatellit synsetben, addig a magyarban mindkt helyen ugyanaz a synset jelenik meg.
A wordnetpts szablyai nem engedik meg, hogy azonos literlok szerepeljenek a
kzponti s szatellit synsetben (v. a hiper- s hiponima azonossga). Ebbl kvetkezen ismt azt az eljrst kvettk, hogy a kzponti synset lexikalizlt marad s a
specifikusabb szatellit synset kapja a t non-lex cmkt.

96

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Pldul a {wide:1; broad:1}s szatellit synsetje a {heavy:5; thick:5}, de a magyarban a szles mindkettt lefedi, ezrt a kzponti synset a {szles:2}, a szatellit
synset pedig a {szles:0}.
A t non-lex cmkvel elltott synseteknek szemben a non-lex synsetekkel van
defincija, pldja s, a legtbb esetben, KSz-linkje is. Azrt vlasztottuk ezt a
megoldst, mert ezek a synsetek ltez fogalmak a magyarban, szavakkal kifejezhetk, s csak a wordnet szerkezetnek ksznhet, hogy a t non-lex cmkt kell alkalmaznunk.

4 Nem lexikalizlt synsetekhez kapcsold wordnet hibk


Itt a PWN s HuWN nhny problms synsetjt mutatjuk be megoldsaikkal egytt.

4.1 Problmk a fban


Bizonyos esetekben a synset s hipernimja nincs sszhangban. Pldul a location:1
PWN synset defincija a kvetkez: a point or extent in space (trbeli pont vagy
kiterjeds); egyik hiponimja a bilocation:1, melynek defincija: the ability (said of
certain Roman Catholic saints) to exist simultaneously in two locations (az a kpessg (, melyet bizonyos rmai katolikus szentekrl lltanak), hogy valaki egy idben,
kt helyen van jelen (unique beginner synset: entity:1). Szerintnk a relci nem
megfelel, mert a defincik nem sszeegyeztethetk s csak gy tnik, hogy szablyszer hiper-hiponima prt alkotnak. Ehelyett a bilocationt az ability:2,
power:3/kpessg:2-hz kellene kapcsolni ppen PWN-ben szerepl definci alapjn vagy pedig a phenomenon:1/jelensg:1-hez. Ha a PWN szerkezett meg akarjuk
rizni a HuWN-ben, a synsetet non-lex-nek kellene cmkzni s egy j synsetet kellene ltrehozni a megfelel hipernima alatt (kpessg:2 vagy jelensg:1).
A PWN kritiktlan msolsnak kvetkezmnyei helytelen synset relcik is lettek: pl. als llkapocs:1/lower jaw:1 llkapocs:2/jaw:1 hipernima relciban
vannak, noha a megfelel a holo_part (rsze) relci lenne.
4.2 Lexikalizlt synsetek non-lex cmkvel
Bizonyos esetekben megltsunk szerint a HuWN annottorai vtettek hibt.
Pldul a labor:1 jelenleg egy non-lex synset, mikzben teljes joggal lehetne
lexikalizlt a fizikai munka kollokcival fordtva. Hasonlkppen a seating:1,
area:1-t is fel lehetett volna venni mint lhely.
A synsetek egy msik csoportja a HuWN-ben melyet helytelenl non-lex cmkvel lttak el az, melyben a literlok birtokos esetben vannak (rear:2/htulja;
front:2/eleje).

Szeged, 2011. december 12.

97

4.3 Lexikalizltknt felvett non-lex synsetek


A non-lex synsetek egy rdekes pldja a bow and arrow:1/j s nylvessz:1. Megltsunk szerint a synsetet helytelenl jelltk lexikalizltnak, mivel br kt rsze
egy egysget alkot a kilvszerkezet s a lvedk nem alkotnak egy fogalmat a
magyarban.
A PWN kritiktlan msolsnak msik pldja egy teljessggel nem ltez (br lehetsges) synsethez, a fveszkz:1/blower:1-hez vezet a magyarban.
A PWN-ben, gy tnik, vannak olyan synsetek, melyek nyilvnvalan nem alkotnak egysges fogalmat. A small/large definite/indefinite quantity, creating from
raw materials, sound property, change of integrity, creating by removal stb.
synseteket non-lex-nek tekintjk.

4.4 rklsi problmk


Bizonyos synseteknek kt vagy tbb hipernimja van a fban. Arra kvnunk rmutatni, hogy csak abban az esetben szabad megengedni a tbb hipernimt, ha a hiponim
synsetek a hipernima sszes jellemzjt rklhetik. Plda lehet erre a relaxant:1,
melynek kt hipernimja van (drug vagy treatment). A fban a synset a treatment:1tl terjed egszen az act:2 legfels szint fogalomig. A fenti esetben a synset nemcsak a drug, hanem a treatment tulajdonsgait is rkli, ami ahhoz az ellentmondshoz vezet, hogy (hiponimja,) a Valium egyszerre entits s emberi tevkenysg.

5 A non-lex problmk lehetsges megoldsai


A magyar wordnetben tallhat non-lex synsetek nagy szma felveti a wordnetptsi
elvek fellvizsglatnak krdst. A non-lex synsetek tulajdonkppen nem kpezik
rszt az adott nyelvnek, s a nagyszm non-lex elemet tartalmaz wordnetek aligha
tkrzik megfelelen az adott nyelv fogalmi hierarchijt. Azrt, hogy megoldjuk
ezeket a problmkat, azt javasoljuk, hogy cskkentsk a non-lex synsetek szmt a
kvetkezkben ismertetend mdszerekkel.

5.1 Hiponima nlkli non-lex synsetek


Azt javasoljuk, hogy a hiponima nlkli non-lex synseteket trljk a fbl. Mivel a
hipernimk minden kontextusban helyettesthetik hiponimikat, ez az eljrs nem
ssa al bizonyos fogalmak kifejezhetsgt. Ez a kvetkez pldk esetben lehet
hasznos:
1 freedom:1
2 liberty:1

szabadsg:1
(szabadsg)

98

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Magyarban nincs jelentsklnbsg a kt PWN-fogalom kzt, gy a fban lejjebb


elhelyezked non-lex synsetet trlni kell. Ez a megolds egyb kultra- s fldrajzspecifikus synsetek esetben is alkalmazhat.

5.2 Gyjtfogalmak
Azokat az gyjtfogalmakat, amelyeket vissza lehet adni egy lista megadsval, egyszeren trlni kell a fbl s sszes hiponimit a hipernimjhoz kell csatolni. Pldul:
cycling:1

(kerkprozs, motorozs)

Ebben az esetben a kerkprozs s motorozs fogalmakat kt kln synsetbe


kell felvenni s a sport:1 al kell bektni.

5.3 A fa jraptse
Bizonyos esetekben a fa jraptse tnik a legmegfelelbb megoldsnak. Legelszr
is, hadd mutassuk be a problmt az albbi PWN-bl s HuWN-bl vett farszlettel
(a magyar trsok megfelelnek a PWN definciinak):
1 building:1
2 place of worship:1
3 church
temple:1

plet:1
(istentisztelet helye) non-lex
(keresztny templom) non-lex
(nem keresztny templom) non-lex

A PWN-ben a church:2 s a temple:1 azonos szint hiponim synsetjei a place of


worship:1-nek, s jelenleg nincs lexikalizlt megfeleljk a magyar wordnetben.
Azrt, hogy megszabaduljunk hrom non-lex synsettl, azt javasoljuk, hogy a
templom synsetet (, mely magyarban valamely valls istentiszteleti helynek, pletnek felel meg), hipernima pozciba kell helyezni prhuzamosan a place of
worship:1-gyel. A msik kt PWN synsetnek a magyarban nincs megfelelje, gy
helyk resen marad.
1 place of worship:1
2 church:2
temple:1

1 templom:1
(-)
(-)

5.4 Tbbszavas kifejezsek integrlsa


A kvetkez plda elgondolkodtatott az alapvet wordnetptsi elvekrl:
1 gutter:2, sewer:3, toilet:3

(WC, ablak, csatorna; kidobhatod az ablakon)

Szeged, 2011. december 12.

99

A misfortune resulting in lost effort or money (krba veszett erfeszts vagy


pnz) jelents synsetet az annottorok nem talltk lexikalizlhat elemnek. Ez arra
a tnyre vet fnyt, hogy a HuWN sokkal inkbb lexikai wordnet, mintsem konceptulis. Gyakran a magyar wordnet pti inkbb a szalakra figyeltek, mint a fogalomra,
ezrt nincs a PWN synsetnek lexikalizlt megfelelje a magyarban. Azonban a f
gond az, hogy az angol literlok egy tbbszavas kifejezs rszei (ebben az esetben
egy idim), melyeket mint (konceptulis) egysget (, azaz synsetet) lehetett volna
felvenni. Mivel a legtbb tbbszavas kifejezsnek megvan a megfelelje a msik
nyelvben, a megfelel synsetet knnyebben meg lehet tallni.
A problma megoldsra azt javasoljuk, hogy a teljes idimt vegyk fel egy lexikai egysgknt a wordnetek igei rszben (az idimk jellemzen komplex prediktumok), melyeket aztn knnyen lehet prostani anlkl, hogy a nvszi sszetevk
megfelelit kellene keresnnk a msik nyelvben. Ezek alapjn a kvetkez synsetek
llnak el:
be in the gutter, go down the sewer, be in the toilet
kidobhatja az ablakon

lehzhatja a WC-n,

Az idima felvtele mint nyelvi egysg sokkal hasznosabb a tbbnyelvsg szempontjbl, mert gy knnyebb azok megfelelit megtallni a msik nyelvben mint
egyes rszeit, msrszt pedig az egsz idima felvtelre kerl, s nemcsak fnvi, igei
vagy mellknvi rszei2. Egyttal az idimk rszeihez kapcsold non-lex
synseteket is fel lehet szmolni.

7 Az eredmnyek rtkelse
A non-lex elemek kulturlis vagy konceptulis klnbsgeket tkrznek s gy nyelvek kzti hasonlsg megllaptsra szolglhatnak. A magyar wordnet jelen formjban tartalmaz non-lex elemeket, de amennyiben valamikor sor kerl a fellvizsglatra, rdemes lenne bizonyos elemeket trlni vagy lexikalizlt elemknt felvenni
(ha hibsan non-lex synsetknt lettek jellve), gy a HuWN igazn tkrzni tudn a
magyar nyelv konceptulis hierarchijt.
Azonban a non-lex jells tbb szakterleten is hasznos lehet, pl. a
pszicholingvisztikban, ahol klnbz nyelvek beszli mentlis fogalmainak hierarchijt vetik ssze a non-lex synsetek expliciten jelzik ezeket a klnbsgeket. A
kultraspecifikus synseteknek a nprajz vehetn hasznt. A nyelvi klnbsgekbl
add non-lex synsetek (pl. fosztkpzs mellknevek) pedig hozzjrulhatnnak az
elmleti s kontrasztv nyelvszet kutatsaihoz.
A fentiekre alapozva teht azt javasoljuk, hogy a magyar wordnetet kt vltozatban
kellene ltrehozni: az egyiket, amennyire csak lehetsges, a PWN-hez kellene ktni,
gy megrizve annak hierarchijt (non-lex synsetekkel); a msiknak nem kellene
non-lex elemeket tartalmaznia, hogy a magyar nyelv hierarchijt tkrzze. A kt
verzit gy a kutatsi cloknak megfelelen lehetne felhasznlni.
2

E szfajok s a hatrozszavak alkotjk a wordneteket.

100

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

8 sszegzs
Ebben a dolgozatban bemutattuk a kt, HuWN-be bevezetett non-lex cmkt (non-lex
s t non-lex) s megvizsgltuk, hogy mi ll a non-lex jelensg mgtt: elssorban
kulturlis s/vagy nyelvi klnbsgekre vezethetk vissza. Megprbltunk megoldsokkal is szolglni a szksgtelen synsetek trlsvel vagy a fa jrarendezsvel.
Br az adott nyelv hierarchijt brzol wordnetnek nem volna szabad non-lex
elemeket tartalmaznia, mgis hasznosnak bizonyulhatnak klnfle kutatsi terletek
(pszicholingvisztika, nprajz stb.) szempontjbl. gy azt javasoljuk, hogy amennyiben sor kerl a magyar wordnet revzijra, a non-lex elemeket trlni kellene s gy
a magyar konceptulis hierarchit tkrz wordnetet kapnnk, melyet elssorban
magyar nyelv kutatsokra lehetne felhasznlni, az eredetileg kiadott verzi pedig
tbbnyelv kutatsok referencia-adatbzisaknt szolglhatna.

Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg.

Bibliogrfia
1.

2.

3.

4.

5.

6.

Alexin, Z., Csirik, J., Kocsor, A., Mihltz, M., Szarvas, Gy.: Construction of the
Hungarian EuroWordNet Ontology and its Application to Information Extraction. In:
Proceedings of the Third International WordNet Conference. South Jeju Island, Korea (2006) 291292
Alonge, A., Bloksma, L., Calzolari, N., Castellon, I., Marti, T., Peters, W., Vossen
P.: The Linguistic Design of the EuroWordNet Database. Computers and the Humanities. Special Issue on EuroWordNet Vol.32, No. 23 (1998) 91115
Bhattacharyya, P., Fellbaum, C., Vossen, P. (eds.): Principles, Construction and Application of Multilingual Wordnets. Proceedings of the Fourth Global WordNet Conference. Narosa Publishing House, Mumbai, India (2010)
Derwojedowa, M., Piasecki, M., Szpakowicz, S., Zawisavska, M., Broda, B.: Words,
Concepts and Relations in the Construction of Polish WordNet. In: Proceedings of
the Fourth Global WordNet Conference (2008) 16768
Mihltz, M., Hatvani, Cs., Kuti, J., Szarvas, Gy., Csirik, J., Prszky, G., Vradi, T.:
Methods and Results of the Hungarian WordNet Project. In: Tancs, A., Csendes, D.,
Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of the Fourth Global
WordNet Conference. University of Szeged, Szeged (2008) 311320
Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K.: Introduction to
WordNet: an On-line Lexical Database. International Journal of Lexicography Vol.3,
No.4 (1990) 235244

Szeged, 2011. december 12.


7.

101

Raffaelli, I., Tadi, M., Bekavac, B., Agi, .: Building Croatian WordNet. In:
Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008) 349
359
8. Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008)
9. Tufi, D. (ed.): Romanian Journal of Information Science and Technology. Special
Issue on BalkaNet Vol.7, No.12 (2004)
10. Tufi, D., Cristea, D., Stamou, S.: BalkaNet: Aims, Methods, Results and Perspectives. A General Overview. Romanian Journal of Information Science and Technology. Special Issue on BalkaNet Vol.7, No.12 (2004) 943
11. Zidoum, H.: Towards the Construction of a Comprehensive Arabic WordNet. In:
Tancs, A., Csendes, D., Vincze, V., Fellbaum, C., Vossen, P. (eds.): Proceedings of
the Fourth Global WordNet Conference. University of Szeged, Szeged (2008) 531
544

102

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A Magyar szelemtr megalkotsa


s a Magyar gyksztr elkszt munklatai
Kiss Gbor1, Kiss Mrton1, Sfrny-Kovalik Balzs2, Tth Dorottya3
1

TINTA Knyvkiad, 1116 Budapest, Kondorosi t 17.


{kissgabo, kissmarci}@tintakiado.hu
2
PPKE ITK (hallgat), 1083 Budapest, Prter utca 50/a.
safba@digitus.itk.ppke.hu
3
ELTE BTK (hallgat), 1088 Budapest, Mzeum krt. 4/A.
tdorottya90@gmail.com

Antal Lszl a morfma fogalmt tisztz 1959-es cikke [1] utn 1964-ben Egy
magyar morfmatr gyben cm cikkben [2] ezt rja: A modern nyelvszeti
felfogs a nyelvet jelrendszernek, kdnak tekinti. [] A nyelv teljes lershoz
[] minden, az adott idpontban l kdtag, jel listba vtele is hozztartozik.
[] Amennyiben a nyelv alapvet eleme a morfma, gy jogosult s szksges
olyan sztr ksztse, amely morfmkat tartalmaz, pontosabban anyagt a
morfma kategrijban mutatja be. [] Persze az ilyen sztr valjban
morfmatr lesz, br nevezhetnnk morfmasztrnak is. Antal Lszl tletbl s Kiss Gbor egy korbbi tanulmnybl [10] kiindulva ksztettk el a
magyar morfmasztrt, azaz a Magyar szelemtrat. Kiindulsunk a Magyar
rtelmez kzisztr (KSz2) [16] 73.542 cmszava volt. Munknk eredmnyekppen sszeszmolhatv vlt, hogy 16.272 tmorfma, 518 tvltozat, 705
fiktv t, 54 igekt, 949 toldalk, illetve eltag s 82 idegen szt pti fel a
sztr cmszavait. tlagosan 2,46 morfma alkot egy-egy cmszt. A Magyar
szelemtr j kiindulsi alap a Magyar gyksztr elksztshez.

1 Bevezets
Brczi Gza is felhvja a figyelmet arra, hogy a nyelvi jelensgek ltalban nehezen
hatrolhatk el pontosan sztvl kategrikba [3]. Ez klnsen rvnyes a magyar
sszetett s tovbbkpzett szavak morfolgiai felbontsa sorn, hiszen a szinkrn s a
diakrn nyelvi skok kztt nincs les hatrvonal. Termszetesen sok esetben a szkpzs, illetve a szsszettel elhomlyosulhat, eltnhet a nyelvhasznl eltt. Nyelvtrtnetileg a folt, jobbgy, jszg, kend, kopr, kopasz, mond, orom, orszg szavak
kpzett szavak; a szsszettel tnye pedig a kvetkez szavakban felismerhetetlen a
mai nyelvhasznl eltt: ifj, frj, ezst, arc, kengyel, nnep, lny, srmny, keszty,
nyolc. Kln csoportot kpeznek azok a szsszettelek, melyek a nyelvhasznl
szmra bizonytalanul homlyosak: holnap, tegnap, testvr. A krdsrl legutbb
alapos tanulmnyt T. Somogyi Magda [19] tett kzz.

Szeged, 2011. december 12.

103

2 A Magyar szelemtr munklatai


Nem elzmny nlkli a magyar lexikogrfiban s szmtgpes nyelvszetben,
hogy valamely sztr cmszavainak sort gppel dolgozzk fel. Papp Ferenc az egyik
els magyar szmtgpes nyelvszeti munkaknt az 1960-as vek msodik felben
vgezte el a Magyar Nyelv rtelmez Sztra cmszavainak kdolst Debrecenben.
E munklat eredmnyekppen szletett meg a Magyar Nyelv Szvgmutat sztra,
amely az a terg elrendezs mellett informcit tartalmaz a cmsz ttpusrl, sszetettsgrl s ragozsi tpusrl is [14,15,10].
A Magyar morfmatr munklata sorn az KSz2 cmszavaiban bejelltk a
szelemhatrokat a kvetkez mdon: gy+goly+, ll+kapocs+, angra+nyl+.
A gpi reprezentci sorn az elemhatrol jeleket szgletes zrjelben elhelyezett
kdokkal valstottuk meg: gy[1]goly[1], ll[1]kapocs[1], angra[1]nyl[1]. A
kdols sorn a kvetkez hat szelem-kategrit klnbztettk meg, s jelltk:
1. szt [1]: asztal[1]lb[1]; andrs[1]kereszt[1]; anya[1]csavar[1]
2. sztvltozat [2]: alv[2][5]; rk[2]ol[5]; asztm[2]s[5]; bny[2]sz[5]
3. fiktv t [3]: acsar[3]og[5]; por[3]odik[5]; ford[3]ul[5]; ugr[3]ik[5]
4. igekt [4]: t[4]gzol[1]; be[4]cipel[1]; meg[4]nyom[1]
5. toldalk (kpz) vagy eltag [5]: ad[1]omny[5]; g[1]as[5]; akaszt[1][5];
anti[5]anyag[1]
6. idegen sz [6]: baseball[6]; know[6]-how[6]; kick[6]-box[6]
Az KSz2 cmszavainak felbontsa, azaz a kdols sorn szmos krds merlt fel,
amelyek legtbbszr a szinkrn s a diakrn nyelvi skok rintkezsbl, illetve egymsba csszsbl addtak. Hiszen dnts krdse, hogy pldul a szarvas, serts,
farkas szavakat egyetlen elemnek vagy tbb elembl llknak tekintjk:
szarv[1]as[5] <> szarvas[1]; sert[2]s[5] <> serts[1]; fark[2]as[5] <> farkas[1]. ltalban a felbonts s a sztvlaszts mellett dntttnk, pldakppen nhny sz, amely felbontsra kerlt: tvgy, kert, laktanya, nvny. Tovbb irnyelvnk volt, hogy akkor jellnk szelemhatrt, ha a szelemek kapcsoldsa a mai
magyar beszl szmra ,,tlthat, rzkelhet.
Magyar szelemtrbl 6 rszlet 10-10 kdolt cmszval:
in[3]dt[5]
in[3]dt[5]s[5]
in[3]dt[5]k[5]
in[3]dt[5][5]
in[3]dt[5][5]ll[1]s[5]
in[3]dt[5][5]gomb[1]
in[3]dt[5][5]kar[1]
in[3]dt[5][5]kulcs[1]
in[3]dt[5][5]motor[1]
in[3]dt[5][5]ok[1]

kp[1]
kp[2]l[5]
kp[2]l[5][5]
kr[1]
kr[1]
k[1]rcs[1]
k[1]rajz[1]
k[1]rak[1]s[5]
kr[1]bstya[1]
kr[1]be[5]

104
le[4]ad[1]
le[4]ad[1]s[5]
le[4]ad[1][5]
le[4]akaszt[5]
le[4]alacsony[1]t[5]
le[4]alacsony[1]t[5][5]
le[4]alacsony[1]odik[5]
le[4]alz[1]
le[4]alz[1]kodik[5]
le[4]alz[1][5]
madm[1]
madr[1]
madr[1]berkenye[1]
madr[1]kp[1][5]
madar[3]sz[5]
madar[3]sz[5]ik[5]
madr[1]birs[1]
madr[1]cseresznye[1]
madr[1]csicserg[2]s[5]
madr[1]dal[1]
mamut[1]
mamut[1]birtok[1]
mamut[1]cg[1]
mamut[1]feny[1]
mamut[1]jv[2]edelem[5]

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


mamut[1]sziv[2]atty[5]
ma[1]nap[1]sg[5]
mancs[1]
mandarin[1]
mandtum[1]vizsg[2]l[5][5]
prm[1]
prm[1]es[5]
prmcsi[1]
prm[1]ez[5]
prm[1]gallr[1]
prm[1]gallr[1]os[5]
premier[1]
premier[1]ajndk[1]
premier[1]film[1]
premissza[1]
ut-[1]
ut[1]l[1]et[5]
ut[1]idny[1]
ut[1]jt [1]k[5]
ut[1]rend[1]el[5]s[5]
ut[1]szl[1]tt[5]
ut[1]vg[1]re[5]
ut[1]bb[5]
ut[1]bb[5]i[5]
ut[1]d[5]

A kdols ellenrzshez a Magyar szelemtrat elhelyeztk a vilghln, majd


szerkeszt-, illetve konkordanciakszt s lekrdez felletet hoztunk ltre, amelynek segtsgvel a kiindulsi sztr cmszjegyzkben sztszrtan elhelyezked
elemek kdolst egysgestettk.
Pl.: anya[1]sert[1]s[5]; bacon[1]sert[2]s[5]; hz[1][5]sert[2]s[5].

3 Eredmnyek
A munklat sorn ltrehoztuk a Magyar szelemtrat, amelyet a kvetkez elemek
ptenek fel:
16.272 egyedi tmorfma 96.645 elfordulssal,
518 egyedi tvltozat 4616 elfordulssal,
705 egyedi fiktv t 5988 elfordulssal,
54 egyedi igekt 11.275 elfordulssal,
949 toldalk, ill. eltag 62.282 elfordulssal,
82 idegen szt 108 elfordulssal.

Szeged, 2011. december 12.

105

A Magyar szelemtr internetes elrhetsge: (felhasznlnv: MSZNY, jelsz:


szoelem) http://tintakiado.hu/szotar/szoelemtar/
M A G YA R SZ EL EM T R
[keres]
sz-

szt

elem
1.

2.

ik

3.

mdosult

[konkordancia]
fiktv t

toldalk,

t

igekt

eltag

idegen
sz

szumma

49

3988
3845

3845

31

3473

3504

4.

13

3107

3120

5.

2456

2458

6.

el

20

7.

8.

9.

es

10.

11.

meg

27

1748

1775

12.

ki

11

1669

1680

13.

os

1646

1646

14.

et

1428

1429

15.

1339

1346

16.

1209

1211

17.

ol

1210

1250

18.

at

1150

1150

19.

sg

1139

1139

20.

be

57

988

1394

2402

2074

2074

1832

1891

118

1668

1786

4037

1774

70

1781

1057

1128

A Magyar szelemtr internetes felletnek konkordanciarszlete.


Az els 20 szelem sszes elfordulsa szerint sorba rendezve
A Magyar szelemtr felptse utn szmszeren rendelkezsnkre ll, hogy az
egyes szelemek milyen mrtkben, hnyszor vesznek rszt az KSz2 cmszavainak
felptsben. A kvetkez 20 tsz mindegyike tbb mint 250 alkalommal szalkot
elem, gyakorisgi sorrendben: fa, kz, hz, szer, fog, kp, rend, von, ll, egy, szn, l,
vz, szm, f, gp, hely, jr, sz, tan.
Lexikogrfiai s sztrri segdeszkzknt is hasznlhat, hiszen a Magyar
szelemtrbl pldul kikereshetv vlt annak a 156 tsznak a listja, amely tszknt nem, hanem csak sszetteli tagknt szerepel a Magyar rtelmez kzisztrban.
Pl: -arbikum, -istk, -pipke, csicseri-, esztrd-, kardn-. Ugyancsak listzhatv
vltak a cmszjegyzk sszetett szavaiban tallhat tulajdon- s keresztnevek. Pl.:
leiter[1]jakab[1], szent[1]jnos[1]lds[1], borzas[1]kata[1].

106

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Lehetv vlt a magyar nyelv szmos szalap (rtelmez s egyb tpus) sztra
utn egy morfmaalap sztrnak az elksztse.

4 A Magyar gyksztr munklatainak elksztse


A magyar sztrkiads a 20. szzadban mindvgig olyan rtelmez sztrakat adott
ki, melyek cmszavai bcrendben kvettk egymst. Azonban a szavak sztri
besorolsnak s kzreadsnak nemcsak ez a mechanikus besorols az egyetlen mdja, hanem elkpzelhet s megvalsthat egy olyan sztri kzreads, ahol a szavakat felpt szelemek (szavak, toldalkok) alkotjk a rendez elvet, legyenek a szelemek szkezd, sz belseji vagy szvgi helyzetben. Ezt a szemlletet valstotta
meg Kresznerics Ferenc 1838-ban kiadott Magyar sztr gykrrenddel s
dekozattal cm munkjban [12]. Minta Kresznerics Ferenc sztrbl:
DUG
DUG dugja, bele dugja, b dugja, el dugja, ki dugja; DUGA donga, dugba dl;
DUGACS dugacsol, dugacsolja, b dugacsolja; DUGASZ s.g-dugasz, dugaszol, dugaszolja, be dugaszolja, el dugaszolja; DUGS b dugs, el dugs; DUGDOS dugdossa, b dugdossa; DUGGAT duggatja; DUGGOGAT, duggogatja; DUG dugni
val; DUGTIG duguls, b duguls, dugult, dugultsg; DUGVA
PR
PR vas-pr; PRCEN, prcenet, ra-prcens; PRD prdt, prdti, meg prdti, prdthet, prdthetetlen, prdl, b prdl, el prlt, PRG, PRG pgec,
prgeldik, prgs, prgs, prget, prgeti, prgets, prgettet, prgetty, prgetve,
prg, prg ra, prg rokka
A CzuczorFogarasi-sztr bcrendben kzreadott (s rtelmezett) szavainak a
sort rendre megtri s keresztbeszvi a szelem, azaz a hajdani szerzk ltal hasznlt terminussal, a gykk szerinti csoportosts [11].
A Magyar morfmatr elkszlte utn lehetv vlt egy olyan magyar gyksztr
sszelltsa, melynek anyagnak vezrl elve az KSz2 cmszavainak egy olyan
kzreadsa, ahol egy-egy szcikkben egytt ltjuk mindazokat a szavakat, amelyekben megtallhat egy adott szelem (a 19. szzadi terminussal lve gyk).

5 Mutatvny a kszl Magyar gyksztrbl


-oda kpz (53 db)
llat|v|oda, fs|s|fon|oda, finom|fon|oda, fik|ir|oda, fogad||ir|oda, fon|oda,
for|dt||ir|oda, gz|mos|oda, gyr|s|fon|oda, hang|verseny|ir|oda, hir|det||ir|oda,
ing|atlan|ir|oda, ir|oda, ir|oda|btor, ir|oda|p|l|et, ir|oda|gp, ir|oda|hz, ir|oda|i,
ir|oda|igaz|gat|, ir|oda|kis|asszony, ir|oda|kukac, ir|oda|szer, ir|oda|technika,
ir|oda|tiszt, jegy|ir|oda, kabinet|ir|oda, km|ir|oda, luxus|szll|oda, men|et|jegy|ir|oda,

Szeged, 2011. december 12.

107

mos|oda, ok|mny|ir|oda, v|oda, v|oda|pedaggus, panasz|ir|oda, prt|ir|oda, sajt|ir|oda, sport|usz|oda, szll|oda, szll|oda|i, szll|oda|ipar, szll|oda|lnc,
szll|oda|port|s, szll|oda|tolvaj, szll|oda|tz, szll|oda|vll|al|at, szn|i|tan|oda,
tan|oda, terv|ez||ir|oda, tud|akoz||ir|oda, usz|oda, varr|oda, verseny|ir|oda, verseny|usz|oda
iskola, iskol- fnv (97 db)
alap|iskola, balett|iskola, be|iskol|z, el|iskola, fa|iskola, fest||iskola, fi|iskola,
f|iskola, f|iskola|i, f|iskol|s, gyakor|l||iskola, had|apr|d|iskola, heged|iskola,
inas|iskola, ipar|iskola, iskola, iskola|beteg|sg, iskola|busz, iskola|drma, iskola|p|l|et, iskola|r|ett, iskola|v, iskola|fenn|tart|, iskola|gp, iskola|gyakor|l|at, iskola|hagy|ott, iskola|haj, iskola|i, iskola|igaz|gat|, iskola|jtk, iskola|ker|l|, iskola|knyv, iskola|kpeny, iskola|ktel|es, iskola|ktel|ez|ett|sg, iskola|lt|ogat|s, iskola|lov|ag|l|s, iskola|mester, iskola|mul|aszt|s, iskola|orvos, iskola|pad, iskola|parancs|nok, iskola|plda, iskola|pnz, iskola|rdi, iskola|rend|szer, iskola|rep|l|s,
iskola|ruha, iskol|s, iskol|s|kor, iskol|s|kor|, iskola|szk, iskola|szer, iskola|szolga,
iskola|trs, iskola|tska, iskola|tej, iskola|televzi, iskola|tv, iskola|tpus, iskola|titkr, iskola|udvar, iskola|gy, iskola|vros, iskol|z, iskol|z|s, iskol|z|atlan,
iskol|z|ik, iskol|z|ott, iskol|z|tat, ismt|l||iskola, kadt|iskola, kis|iskol|s, kzp|iskola, kzp|iskol|s, leny|iskola, l|iskola, magn|iskola, magas|iskola, minta|rajz|iskola, munka|iskola, np|f|iskola, np|iskola, nyelv|iskola, prt|f|iskola,
prt|iskola, rel|iskola, szak|iskola, szak|kzp|iskola, szn|i|iskola, tan|onc|iskola,
tnc|iskola, ugr||iskola, vv||iskola, zene|iskola, zongora|iskola, zug|iskola
for- ige (86 db)
al|for|dt, al|for|dul, t|for|dt, t|for|dul, be|for|dt, be|for|dul, bele|for|dt, bele|for|dul, egy|for|dul||s, el|ford|t, el|ford|ul, el|for|dul, v|for|dul|, ezr|ed|for|dul|,
fel|for|dt, fel|for|dul, fel|for|dul|s, fl|for|dul|at, fel|for|dul|t, flre|for|dt, flre|for|dul,
for|dt, for|dt|s, for|dt|, for|dt||gp, for|dt||i, for|dt||ir|oda, for|dt||korong,
for|dt||program, for|dt||s, for|dt||sz|tr, for|dt|ott, for|dt|va, for|dul, for|dul|s,
for|dul|at, for|dul|at|os, for|dul|at|szm, for|dul|at|szm|ll|, for|dul|, for|dul||pont,
htra|for|dt, htra|for|dul, hova|for|dt|s, ker|l|-for|dul, kt|for|dul||s, ki|for|dt,
ki|for|dul, kocsi|for|dul|, kor|for|dul|, kor|szak|for|dul|, kr|for|dul|at, krl|for|dul,
le|for|dt, le|for|dt|hatatlan, le|for|dul, lpcs|for|dul|, meg|for|dt, meg|for|dul,
moz|d|ony|for|dt|, m|for|dt, m|for|dt|s, m|for|dt|, nap|for|dul|, nyers|for|dt|s,
oda|for|dul, pl|for|dul|s, posta|for|dul|ta, prba|for|dt|s, r|for|dt, r|for|dt|s,
sors|for|dt|, sors|for|dul|at, sors|for|dul|, szak|for|dt|, szz|ad|for|dul|,
szz|ad|for|dul||s, szembe|for|dul, tr|l|-for|dul, test|for|dul|at, trzs|for|dt|s, tkr|for|dt|s, t|for|dul|, vilg|fel|for|dul|s, vissza|for|dt, vissza|for|dt|hatatlan,
vissza|for|dul
olvas ige (61 db)
t|olvas, bele|olvas, be|olvas, el|olvas, el|olvas, fel|olvas, fel|olvas|s,
fel|olvas||l|s, gz|le|olvas|, gond|ol|at|olvas|s, gond|ol|at|olvas|, gyors|olvas|s,
hr|olvas|, hozz|olvas, krtya|le|olvas|, ki|olvas, ki|olvas|, kotta|olvas|s,
lap|olvas|, le|olvas, le|olvas|, meg|olvas, nv|sor|olvas|s, olvas, olvas|s, ol-

108

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

vas|s|md, olvas|at, olvas|atlan, olvas|gat, olvas|hatatlan, olvas|hat, olvas|mny,


olvas|mny|os, olvas|ni|val, olvas|, olvas||jegy, olvas||jel, olvas||knyv, olvas||kr, olvas||kz|n|sg, olvas||lmpa, olvas||lc, olvas||napl, olvas||prba,
olvas||szem|veg, olvas||szerkeszt|, olvas||szolg|l|at, olvas||tbor, olvas||terem,
olvas|ott, olvas|ott|sg, olvas|tat, ssze|olvas, ssze|olvas|s, r|olvas, r|olvas|s,
tr|kp|olvas|s, jra|olvas, j|sg|olvas|, vgig|olvas, vissza|olvas
farok, fark- fnv (27 db)
egr|fark|kr, fark, fark|all|, fark|a|pnz, fark|atlan, fark|csigolya, fark|csont,
fark|csv|l|s, fark|inca, fark|os, fark|toll, fark|sz|, farok, farok|csigolya, farok|csont, farok|fellet, fecske|fark, fecske|fark|kt|s, fecske|fark|, hd|fark|,
l|fark, nyl|fark|f, nyl|fark|nyi, kr|fark|kr, rka|fark|, rozsda|fark|, rge|fark
-kony kpz (31 db)
ll|kony, alusz|kony, boml|kony, csal|kony, fr|ad|kony, fz|kony, fog|kony,
fog|kony|sg, foly|kony, foszl|kony, gyl|kony, hajl|kony, hajl|kony|sg,
hat|kony, herv|ad|kony, hz|kony, ill|kony, izgul|kony, lobb|an|kony,
mll|kony, moz|g|kony, ml|kony, nyl|kony, olv|ad|kony, robb|an|kony,
rom|l|kony, rug|kony, sim|ul|kony, tall|kony, tan|ul|kony, vlt|oz|kony

Bibliogrfia
1. Antal, L.: A morfmrl. Magyar Nyelv Vol. LV. (1959) 1622
2. Antal, L.: Egy magyar morfmatr gyben. In.: Tanulmnyok a magyar nyelv letrajza
krbl. Nyelvtudomnyi rtekezsek 40. sz. Akadmiai Kiad, Budapest (1964) 2227
3. Brczi, G.: Magyar trtneti szalaktan I. A sztvek. (Egyetemi Magyar Nyelvszeti Fzetek.) Tanknyvkiad, Budapest (1958)
4. D Bartha, K.: Magyar trtneti szalaktan II. A magyar szkpzs trtnete. (Egyetemi
Magyar Nyelvszeti Fzetek.) Tanknyvkiad, Budapest (1958)
5. Benk, L. (fszerk.): A magyar nyelv trtneti-etimolgiai sztra IIII. Akadmiai Kiad,
Budapest (19671976)
6. Benk, L.: Magyar fiktv (passzv) tv igk. Akadmiai Kiad, Budapest (1984)
7. Czuczor, G., Fogarasi, J. (szerk.): A magyar nyelv sztra IVI. Pest (18621874) [Reprint
kiadsa: Pytheas Kiad, 2010.]
8. Hegeds, R.: Magyar nyelvtan. Formk, funkcik, sszefggsek. Tinta Knyvkiad, Budapest (2005)
9. Keszler, B.: A szkpzs. In: Keszler, B. (szerk.): Magyar grammatika. Nemzeti Tanknyvkiad, Budapest (2000) 307346
10. Kiss, G.: A Magyar Nyelv rtelmez Sztra cmszavainak sszetettsge. In: Horvth, K.,
Ladnyi, M.: Elemszerkezetek s linearits. A jelents s szerkezet sszefggse. Bessenyei
Gyrgy Knyvkiad, Nyregyhza (1998)
11. Kiss, G.: A CzuczorFogarasi-sztr helye a magyar sztrirodalomban. letnk. Vol.
XLIX. No. 34 (2011) 8491
12. Kresznerics, F.: Magyar sztr gykrrenddel s dekozattal, III. Buda (18311832)
[Hasonms kiadsa: Tinta Knyvkiad, 2010.]
13. Ladnyi, M.: Produktivits s analgia a szkpzsben: elvek s esetek. (Segdknyvek a
nyelvszet tanulmnyozshoz 76.) Tinta Knyvkiad, Budapest (2007)

Szeged, 2011. december 12.

109

14. Papp, F.: A magyar nyelv szvgmutat sztra. Akadmiai Kiad, Budapest (1969)
15. Papp, F.: A debreceni thszaurusz. Magyar Tudomnyos Akadmia Nyelvtudomnyi Intzete, Budapest (2000)
16. Pusztai, F. (fszerk.): Magyar rtelmez kzisztr (KSz2). Akadmiai Kiad, Budapest
(2007)
17. Simonyi, Zs.: Tzetes magyar nyelvtan. Magyar hangtan s alaktan. Magyar Tudomnyos
Akadmia, Budapest (1885)
18. T. Somogyi, M.: Toldalkrendszerezsnk vits krdsei. (Segdknyvek a nyelvszet
tanulmnyozshoz 3.) TINTA Knyvkiad, Budapest (2000)
19. T. Somogyi, M: A feljtott s megjtott kpzk. A nyelvjts hatsa a kpzrendszerre.
In: Bakr-Nagy, M., Forgcs, T. (szerk.): A nyelvtrtneti kutatsok jabb eredmnyei. VI.
Szegedi Tudomnyegyetem Magyar Nyelvszeti Tanszk, Szeged (2011) 229247
20. Tompa, J. (szerk.): A mai magyar nyelv rendszere. Ler nyelvtan, III. Akadmiai Kiad,
Budapest (1961)
21. H. Varga, M.: Egyszer vagy sszetett kpzk? Magyar Nyelvr Vol. 124 (2000) 514519
22. Veenker, W.: Mitteilungen der Societas Uralo-Altaica. Heft 3. Verzeichnis der Ungarischen
Suffixe und Suffixkombinationen. Hamburg, kzirat (1968)

III.Szintaxis,morfolgia,nvelemfelismers

Szeged, 2011. december 12.

113

A sek
ely mondattani elemz
es tov
abbi l
ep
esei
Recski Gabor
MTA SZTAKI
Nyelvtechnol
ogiai Kutat
ocsoport
e-mail: recski@sztaki.hu

1.

Bevezet
es

A sekely mondattani elemzes (shallow parsing), mely a mondatok f


o osszetev
oinek azonost
as
at jelenti a mely mondatszerkezet felterkepezese nelk
ul,
sz
amos nyelvtechnol
ogiai elj
ar
as kulcsfontossag
u lepese. A legnagyobb mondattani egysegek pontos azonost
asa nelk
ulozhetetlen lehet a gepi megertesben, a
gepi fordt
asban, de az inform
aci
okinyeresben es -visszakeresesben is. Cikk
unkben elsokent bemutatjuk, hogyan kepes az eredetileg fonevi csoportok azonost
as
ara kifejlesztett hunchunk rendszer a megfelel
o tanuloadat birtokaban
tetszoleges kategori
aj
u fr
azisok azonost
asara. A 2.1 fejezetben r
oviden osszefoglaljuk a tanuloadat elo
allt
asanak es a rendszer tant
asanak menetet, a 2.2.
reszben a hunchunk felepteser
ol ejt
unk neh
any szot, veg
ul a 2.3 fejezetben
uk a rendszer teljestmenyet.
ertekelj
A mondat sekely szerkezetenek megismeresehez elengedhetetlen, hogy azonostani tudjuk a t
obb, gyakran nem szomszedos szob
ol all
o igei szerkezeteket.
A 3.1 fejezetben egy olyan eszk
ozt ismertet
unk, mely azonostja egy ige es a
t
ole k
ul
on
all
o igekot
o kapcsolat
at felhasznalva ehhez a rendelkezesre all
o morfol
ogiai elemzest, valamint az egyes igekot
os igek gyakoris
agar
ol meglevo ismereteinket is. Ugyancsak a mondatszerkezet hatekonyabb felterkepezeset segti elo,
ha kepesek vagyunk eszlelni az igeb
ol es annak innitvuszi b
ovtmenyebol all
o
szerkezeteket - a 3.2. fejezetben erre tesz
unk kserletet.

2.

Mondattani egys
egek azonost
asa

A hunchunk rendszer [1] magyar fonevi csoportok azonost


as
ara kesz
ult, azonban
megfelel
o tanuloadat birtokaban tetszoleges olyan nyelvfeldolgoz
asi feladatra alkalmas, mely szoszint
u cmkezeskent is megfogalmazhat
o. A Szeged Treebank
[2] segtsegevel a f
onevt
ol k
ul
onb
ozo mondattani kategori
akra is keszthet
unk
tanul
oadatot, gy lehetove teve, hogy a hunchunk a legmagasabb szint
u mondattani egysegeket azonostsa.
2.1.

Tant
as

A Szeged Treebank egy vegyes m


ufaj
u, t
obb mint 80000, szintaktikailag teljesen
annot
alt mondatot tartalmaz
o korpusz. A tant
oadat el
oallt
as
ahoz a mondat-

114

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

tani elemzes legfels


o ket szintjet haszn
aljuk a legfels
o szinten a tagmondatok
(CP) k
ulon
ulnek el, az ezek alatti legmagasabb szint
u egysegek azok, melyeket
azonostani szeretnenk. A korpuszbol ugyancsak kinyerhet
o az egyes szavakra
vonatkoz
o morfol
ogiai informaci
o MSD-k
odol
asban, ezt a korpusz kesztesekor
atalaktottuk a KR-formalizmusnak megfelel

o alakra [3], mivel az altalunk


hasznalt hunmorph morfol
ogiai elemz
o [4] is ezt a form
atumot koveti.
Az egyes fr
azisokhoz tartozast a szavakhoz rendelt cmkek jelzik. A cmkezes
sor
an a Start/End konvenci
ot alkalmazzuk [5], mely az elterjedtebb IO es
IOB konvenciokn
al [6] tobb cmket igenyel, ugyanakkor lehet
ove teszi t
obbfele
frazisbeli pozci
o megk
ulonb
ozteteset: mg az elobbi megold
asok vagy egy
cmkevel (I-NP) jel
olik a fr
azishoz tartoz
o szavakat, esetleg a fr
azist kezdo
sz
ot jelolik k
ulon szimbolummal (B-NP), addig az altalunk haszn
alt jeloles a
al (B-NP, I-NP,
chunkhoz nem tartoz
o szavakon (O) kv
ul negy cmket haszn
E-NP, 1-NP), melyek rendre a fr
azis elejen, kozepen es vegen all
o, valamint az
onmag

aban frazist alkot


o szavakat jelolik. Igy a korpuszban talalhat
o, 1. abra
szerinti elemzessel br
o mondat az u
jonnan letrejott korpuszban a 1. tabl
azat
szerinti cmkezest kapja.

CP

PP

AdvP

AdvP

Prev

Kes nelk
ul

megsem

mehetek

ejjel

haza

1. abra. Mondattani elemzes

1. t
abl
azat. Cmkezes
Kes nelk
ul megsem mehetek ejjel haza .
B-PP E-PP 1-ADVP
O
1-ADVP O O

Az egyes mondattani kategori


ak nagyon k
ulonbozo gyakoris
aggal fordulnak
elo maxim
alis fr
aziskent a korpuszban (l. 2. tabl
azat). Mint l
athat
o, melleknevi
frazis csak elvetve fordul el
o tagmondat kozvetlen osszetev
ojekent, akkor is
altal

aban hibas annot


aci
o k
ovetkezmenyekent (vo. A k
od mint [AdjP melegvizes]
rongy fek
udt az arcomon).

Szeged, 2011. december 12.

115

2. t
abl
azat. Kategori
ak megoszl
asa a korpuszban
NP
ADVP
PP
ADJP

Osszesen

2.2.

268726
79536
16925
34
365221

73.58%
21.78%
4.63%
0.00%
100%

A hunchunk rendszer

A hunchunk egy fel


ugyelt tanul
asra ep
ulo, szoszint
u cmkezesi feladatokat ellat
o
eszk
oz, melyet sikerrel alkalmaztunk fonevi csoportok azonost
asara es tulajdonnev-felismeresre [1,7]. A rendszer a maximum entropia m
odszerrel tanul
[8], majd egy-egy mondat legval
oszn
ubb cmkezeset rejtett Markov-modellekkel
[9], az egyes cmkek k
oz
otti atmenetval
oszn
usegek gyelembevetelevel keresi
meg. Az u
jfajta modell tant
asa sor
an valtoztat
as nelk
ul alkalmaztuk azt a
jegykeszletet es azon beallt
asokat, melyek a maxim
alis f
onevi csoportok azonost
asa sor
an a legsikeresebbnek bizonyultak. Valtozast a folyamatban csup
an
az jelentett, hogy a sokszorosara b
ov
ult cmkekeszlet (5 helyett 21 k
ulonbozo
cmke) jelentosen n
oveli mind a tant
as, mind a cmkezes idejet.
2.3.

Ki
ert
ekel
es

ast a korpusz 90 szazalek


an vegezt
uk, a fennmarad
o 10 szazalekon
A tant
mert
uk az eszkoz teljestmenyet. A rendszer teljestmenyet ket adat, a pontossag es a fedes jellemzi, a helyesen megtal
alt fr
azisok aranyat elobbi az
osszes azonostott fr

azis ar
any
aban, ut
obbi a tenyleges frazisok ar
anyaban mutatja. A szakirodalomban megszokott modon a ket ertek harmonikus k
ozepekent
el
o
all
o u
n. F-pontszammal jellemezz
uk a rendszer altal
anos teljestmenyet. A
hunchunk eredmenyei az egyes mondattani kateg
ori
akon, valamint osszestve,
a 3. t
abl
azatban lathat
ok. Az AdjP kategori
at, mivel a tanuloadatban is nagyon ritkan es szab
alytalanul voltak jelen, a cmkezo is csak elvetve es l
atszolag
ok nek
ul v
alasztotta, ennek hat
asa azonban elhanyagolhato a rendszer ossz
teljestmenye szempontjab
ol.
3. t
abl
azat.
NP
ADVP
PP
ADJP
osszesen

Pontoss
ag
89.36%
92.68%
88.70%
0.00%
90.06%

Fedes
88.80%
92.99%
88.02%
0.00%
89.68%

F1
89.08
92.83
88.36
0.00
89.87

116

3.

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Ig
ek

A sekely mondattani elemzes lehet


ove teszi, hogy egy-egy mondaton bel
ul azonostsuk a f
obb argumentumokat. Az alltmany azonost
as
ahoz azonban olyan
eszk
ozre is sz
ukseg
unk lesz, mely felfedezi az elvalt igek
ot
oket es a tobb sz
ob
ol
all

o igei komplexumokat. A Szeged Treebank mindket fajta f


uggosegi viszonyt
k
odolja, gy az elkesz
ult eszk
oz
ok teljestmenyet m
odunkban all kiertekelni.
3.1.

Igek
ot
ok

A Szeged Treebankben tal


alhat
o morfologiai elemzesb
ol csak
ugy, mint a
hunmorph morfol
ogiai elemz
o kimenetebol egyertelm
uen azonosthat
ok az
onmagukban all

o igek
ot
ok. Celunk, hogy minel pontosabban tudjuk azonostani,
mely igehez tartoznak. A kezdeti legegyszer
ubb elj
ar
asunk minden igek
ot
oh
oz a
hozz
a a mondatban legkozelebb all
o iget parostja; ez a modszer az igek
ot
oige parokat csup
an 82% kor
uli F-pontszammal azonostja. A pontossagot kis
mertekben javtja, ha az iget csak az igek
ot
ohoz legkozelebb all
o r
asjelek koz
ott
keress
uk.
A legjelent
osebb hibaosztalyt az innitvuszi konstrukci
ok okozz
ak (vo. fel
akar m
aszni ) ha az innitvusz mellett all
o segedige kiv
altja az igekot
o
elv
al
as
at, akkor a segedige k
ozelebb ker
ul az igekot
ohoz, mint az innitvusz
alakban all
o ige. Kalm
an C. es mtsai [10] felsorolj
ak azon segedigeket, melyek
leggyakrabban az igek
ot
o es ige k
oze ker
ulnek: akar, br, fog, kell, kezd, kv
an,
lehet, mer, o
hajt, pr
ob
al, szabad, sz
andekozik, szeret, szokik, tal
al, tetszik, tud
unk el, ha ezen igeket kizarjuk a keresesb
ol.
(pp. 81-82)1 ; jelentos javulast er
Celszer
u volt tov
abb
a kiz
arni a letiget, mivel k
ulonbozo alakjaiban ugyancsak
gyakran ker
ul egy ige es annak igekot
oje k
oze (vo. meg lehet szokni, meg van
csin
alva). A k
ulonb
ozo elj
ar
asokkal elert eredmenyeket a 4. tabl
azat osszesti.
4. t
abl
azat. Igek
ot
o-ige p
arok azonost
asa
baseline
+r
asjelek k
oz
ott
+segedige sz
ures
+letige sz
ures

Pontoss
ag
82.81%
84.41%
97.06%
97.52%

Fedes
82.37%
82.55%
93.41%
95.32%

F1
82.59
83.47
95.20
96.41

A hibak szemrevetelezeseb
ol kider
ul, hogy azok t
ulnyomo tobbseget m
ar a
korpusz valamilyen apr
o hib
aja okozza. Igy peld
aul nem jarhat sikerrel az eljar
as,
ha barhol is teves vagy hianyos az igek es igek
ot
ok morfologiai elemzese, vagy
eppen a kiertekeles alapj
aul szolg
al
o mondattani annot
aci
oba cs
uszik apr
obb
hiba. Veg
ul a hibaforras sok esetben a korpuszban szereplo ketfele annot
aci
o
1

A segedigek beferk
ozesi hajland
os
ag
ar
ol tett meg
allapt
asokat [11] korpuszalap
u
vizsg
alattal is meger
ostette.

Szeged, 2011. december 12.

117

k
ovetkezetlensege egyes nem egyertelm
u esetekben. Pl. az alabbi mondatban:
Vaks
otet volt a fenekben, csak tapogatva jutott el
ore az el
ore sz
o morfologiai
elemzese szerint igek
ot
o, a szintaktikai annotaci
o alapj
an azonban bovtmeny. A
jelenseg fordtottja is elofordul: az ide gyeljen mondatban hiaba jelez igek
ot
oige viszonyt a korpusz, az algoritmusunk nem tudja azonostani, mivel az ide
sz
o a morfol
ogiai elemzes szerint nem igekot
o, hanem hataroz
o. Ezen szavak
grammatikai st
atusz
anak vizsgalata nyilvanval
oan t
ulmutat jelen cikk hat
arain,
az azonban kijelentheto, hogy az altalunk eltevesztett parost
asok jelentos resze
olyan szerkezeteket erint, amelyekr
ol a kezi annot
atorok sem hoztak k
ovetkezetes
d
onteseket.
3.2.

Komplex ig
ek

A t
obb sz
ob
ol all
o igei szerkezetek egy masik gyakori, amde k
onnyen azonosthat
o
tpusat adjak a m
ar emltett, egy nit es egy -ni veg
u igeb
ol all
o szerkezetek.
Magas pontossag erhet
o el a fentihez hasonl
o baseline modszer neh
any trivialis
javt
as
aval. A modszer itt is csup
an annyi, hogy a morfol
ogia elemzes szerint
innitvuszi jeggyel br
o igeket a hozz
ajuk legk
ozelebbi nit igehez kapcsoljuk,
nem lepve
at k
ozben r
asjelet. A m
odszer pontossagat az 5. tabl
azat mutatja.
5. t
abl
azat. Innitvuszok es nit igek parost
asa
Pontoss
ag Fedes
F1
97.02% 96.35% 96.69

Ez a baseline modszer az innitvuszok ket gyakori elofordul


asat is rosszul
ismeri fel, ezek adjak a hibak legnagyobb reszet. Egyreszt nem kezelj
uk ket innitvusz f
ugg
osegi viszonyat (vo. S
urg
osen igyekeznem kell Almir
aba jutni ), gy
a peldamondatban a jutni sz
ot nem az igyekeznem szoval kapcsoljuk ossze. Ha
azonban csak annyit m
odostunk az algoritmuson, hogy nem kovetelj
uk meg
a v
alasztott ige nitseget, akkor a modszer rosszul kezelne az olyan mondatokat, melyben egy nit igehez t
obb, egym
ast k
oveto innitvusz is t
arsul, pl: A
madzagnagyiparos h
ulni es zsibbadni kezdett.
A m
asik nagy hibaoszt
alyt a koordin
alt es vesszovel elv
alasztott innitvuszok adjak. Mivel a fenti elj
ar
ast nem egesz mondatokon, hanem ket r
asjel
k
oze eso sz
osorozatokon vegezz
uk, gy ha egy innitvuszt megis r
asjel v
alaszt el
a hozz
a tartoz
o nit iget
ol, akkor ezt a p
arost
ast biztosan nem talaljuk meg (vo.
og
ott megiscsak olyan szv dobog, amelyik tudott szeretni, f
ajni es
a szakadt ing m
agg
odni is valamikor.) Ha azonban altal
anoss
agban megengedj
uk az r
asjeleken
atvel

o f
uggoseget, akkor ez sz
amos teves p
arost
ashoz es gy a pontossag jelentos
roml
as
ahoz vezet a fedes kismertek
u novekedese mellett.
Mindket problem
ara legal
abb reszben megold
ast jelentene, ha egy
elofeldolgoz
asi lepesben felismernenk a koordinalt szerkezeteket. Ez egy
uttal
u
jabb hasznos eljar
as lenne az alapveto mondatszerkezet felterkepezesere, gy
remelhetoleg a j
ov
oben erre is sort kerthet
unk.

118

4.

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Osszefoglal
as

Cikk
unkben h
arom, a magyar mondatok sekely szerkezetenek felterkepezeset
szolg
al
o elj
ar
ast mutattunk be, melyeket a Szeged Treebank korpusz segtsegevel
ertekel
unk ki. Megmutattuk, hogy a tagmondatok k
ozvetlen osszetev
oit alkot
o
maximalis fr
azisok a fonevi csoportokhoz hasonlo hatekonysaggal azonosthat
oak
a fel
ugyelt tanul
asra alapul
o hunchunk eszk
ozzel. A cikk m
asodik feleben ket
egyszer
u elj
ar
ast rtunk le, melyek kepesek morfol
ogiailag elemzett sz
ovegbol kinyerni az elvalt igek
ot
oj
u igeket es az ige+innitvusz szerkezeteket. Mindket
elj
ar
as 96 sz
azalek feletti F-pontsz
amot er el. Az igek
ot
ok es igek p
arost
asakor
a hib
ak legnagyobb reszeert a korpuszban fellelheto ellentmondasok felelnek,
mg az innitvuszok eseteben a pontossag valoszn
uleg jelent
osen javthat
o,
amennyiben a t
obb egymast koveto innitvuszi alakot tartalmazo mondatok
szerkezeter
ol elozetesen t
obb inform
aci
ot nyernenk ki.

Hivatkoz
asok
1. Recski, G., Varga, D., Zseder, A., Kornai, A.: F
onevi csoportok azonost
asa
magyar-angol p
arhuzamos korpuszban [Identifying noun phrases in a parallel corpus of English and Hungarian]. VI. Magyar Sz
amit
ogepes Nyelveszeti Konferencia
[6th Hungarian Conference on Computational Linguistics] (2009)
2. Csendes, D., Csirik, J., Gyim
othy, T., Kocsor, A.: The Szeged Treebank. In:
Lecture Notes in Computer Science: Text, Speech and Dialogue. (2005) 123131

3. Rebrus, P., Vajda, P., Hal


acsy, P., Rung, A., Tr
on, V.: Altal
anos cel
u morfol
ogiai
elemz
o kimeneti formalizmusa [Output formalism of a general-purpose morphological analyzer]. II. Magyar Sz
amit
ogepes Nyelveszeti Konferencia [6th Hungarian
Conference on Computational Linguistics] (2004)
4. Tr
on, V., Kornai, A., Gyepesi, G., Nemeth, L., Hal
acsy, P., Varga, D.: Hunmorph:
open source word analysis. In: Proceedings of the Workshop on Software, Association for Computational Linguistics (2005) 7785
5. Uchimoto, K., Ma, Q., Murata, M., Ozaku, H., Isahara, H.: Named entity extraction based on a maximum entropy model and transformation rules. In: ACL 00:
Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, Morristown, NJ, USA, Association for Computational Linguistics (2000)
326335
6. Sang, E.F.T.K., Veenstra, J.: Representing text chunks. In: EACL. (1999) 173179
7. Varga, D., Simon, E.: Hungarian named entity recognition with a maximum entropy approach. Acta Cybernetica 16 (2006) 293301
8. Ratnaparkhi, A., et al.: A maximum entropy model for part-of-speech tagging. In:
Proceedings of the conference on empirical methods in natural language processing.
Volume 1. (1996) 133142
9. Rabiner, R.L.: A tutorial on Hidden Markov Models and selected applications in
speech recognition. In: Proc. IEEE. Volume 77. (1989) 257286
am N
10. K
alm
an C., G., K
alm
an, L., Ad
adasdy, Pr
oszeky, G.: A magyar segedigek

rendszere. Altal
anos Nyelveszeti Tanulm
anyok (1989) 49103
11. Modri
an-Horv
ath, B.: Gesichtspunkte zu einer funktionalen Typologie der Ungarischen Innitiv regierenden Hilfsverben. Acta Linguistica Hungarica 56(4) (2009)
405439

Szeged, 2011. december 12.

119

K
oz
oss
egkeres
es alap
u fel
ugyelet n
elk
uli
sz
ofaji egy
ertelm
ust
es
Berend G
abor1 , Vincze Veronika2
1

Szegedi Tudom
anyegyetem, TTIK, Informatikai Tanszekcsoport,
ad ter 2., e-mail:berendg@inf.u-szeged.hu
Szeged, Arp
2
Magyar Tudom
anyos Akademia, Mesterseges Intelligencia Kutat
ocsoport,
Szeged, Tisza Lajos k
or
ut 103., e-mail:vinczev@inf.u-szeged.hu

Kivonat Az el
oad
asban bemutatjuk fel
ugyelet nelk
uli sz
ofaji egyertelm
ust
o m
odszer
unket, mely k
oz
ossegkeresesre ep
ul. A k
oz
ossegkeres
o elj
ar
as bemeneteu
l szolg
al
o, a sz
oalakok f
ol
ott ertelmezett hasonl
os
agi gr
af
k
oltseges sz
amt
as
ara val
o tekintettel az elosztott rendszerek ter
uleten az
u
n. overlay topol
ogi
ak k
ozeltesere kor
abban m
ar sikeresen alkalmazott
T-MAN algoritmust alkalmaztuk. Eredmenyeink azt igazolj
ak, hogy siker
ult a
t
ultetn
unk a ket k
ul
onb
oz
o tudom
anyos k
oz
osseg a
ltal haszn
alt
m
odszerek el
onyeit a sz
ofaji egyertelm
ustes ter
uletere, azaz egy olyan
feladatra ny
ujtottunk gy megold
ast, amelyet egy harmadik tudom
anyos
k
oz
osseg t
uz
ott ki celj
aul.
Kulcsszavak: sz
ofaji egyertelm
ustes, k
oz
ossegkereses, fel
ugyelet nelk
uli
tanul
as, modularit
as

1.

Bevezet
es

A sz
ofaji egyertelm
ustes a termeszetes nyelvi feldolgoz
as egyik alapveto lepese:
sz
amos magasabb rend
u alkalmaz
as hasznostja jellemz
okent a szofaji k
odokat,
azaz igen fontos, hogy a szovegszavakhoz hozzarendelj
uk azok szofaji elemzeset.
A fel
ugyelt sz
ofaji egyertelm
ustesi m
odszerek nagymeret
u, kezzel annot
alt adatb
azisokra ep
ulnek. Az annot
alt adatb
azis letrehoz
asahoz azonban sz
ukseges egy,
az adott nyelvre kidolgozott morfologiai kodrendszer is, melynek segtsegevel
morfol
ogiailag elemezni es egyertelm
usteni lehet az adott nyelv
u szovegeket.
Bizonyos nyelvekre azonban nem all rendelkezesre ilyen kodrendszer es/vagy
nagymeret
u annot
alt adatb
azis. Ez esetekben a megoldast a felig fel
ugyelt vagy
fel
ugyelet nelk
uli szofaji egyertelm
ustesi m
odszerek jelenthetik, melyek segtsegevel az ilyen nyelvekre is lehetseges hatekony szofaji egyertelm
ust
ot epteni.
ugyelt sz
ofaji egyertelm
ustesi m
odszerek a szovegszavakat el
ore megA fel
hat
arozott (a tant
o adatb
azisban szerepl
o) szoosztalyokba sorolj
ak. Azonban
el
ofordulhat, hogy egy nyelvre t
obbfele annot
aci
os rendszer is letezik, mas-m
as
mennyiseg
u elerhet
o annot
alt adattal, ami megnehezti a k
ulonfele szofaji egyertelm
ust
o m
odszerek hatekonys
ag
anak osszeveteset. Peld
aul a hunpos tagger [1]

120

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

a KR morfol
ogiai kodrendszerre ep
ul, am jelenleg nem tudunk olyan kezzel annot
alt adatb
azisr
ol, amely a KR-k
odokat hasznaln
a. Igy a hunpos hatekonysagat
csak u
gy lehetseges merni, ha a KR-k
odokat megfeleltetj
uk egy kezzel annotalt
korpuszban szerepl
o k
odoknak, ami szinten id
o- es munkaigenyes feladat.
A fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszerek k
ul
onfele csoportokba
(klaszterekbe) soroljak a szavakat, gy kepesek kik
usz
ob
olni a fenti h
atr
anyokat,
mivel a klaszterek osszevethet
ok b
armely morfol
ogiai kodrendszer altal alkalmazott csoportokkal. A m
odszer tov
abb el
onye, hogy a sz
ofaji egyertelm
ustes
reszletesseget k
ulonb
ozo technik
akkal lehetseges szab
alyozni. Mg egyes k
odrendszerek t
uls
agosan reszletes k
odokat tartalmaznak (peld
aul kepzessel kapcsolaukseges a k
odok
tos informaci
okat), addig a legt
obb alkalmaz
as szam
ara nem sz
ilyen mertek
u reszletezese: a f
o sz
ofaj megad
asa altal
aban elegsegesnek bizonyul a legtobb alkalmaz
as szam
ara (peld
aul informaci
o-visszakereses, nevelemfelismeres vagy kulcsszokinyeres). Ezzel szemben mas esetekben fontos lehet a
minel reszletesebb morfol
ogiai informaci
o, peld
aul a gepi fordt
asban vagy a
szemantikai szerepek meghataroz
asaban a fonevi esetragok igen nagy szereppel
brnak. A sz
ukseges reszletesseget a klaszterek mennyisegenek befolyasolasaval
tudjuk biztostani. Az aktualis feladat sz
am
ara indokolt klasztersz
am befolyasol
asara a T-MAN [2] hal
ozati topologiaept
o pletykaalgoritmus sz
am
ara bemenetkent adott gr
af elter
o m
odokon t
orteno feleptesevel nylik lehet
oseg.
ar
as [3] a sz
oalakok kontextu
alis tulajAz altalunk haszn
alt k
ozossegkeres
o elj
donsagaib
ol eptett h
al
ozat particional
asaval alltja el
o az egyes lexikai csoportokat. A gr
afelmeleti alapokon nyugv
o algoritmus a particionalando grafok legjobb
modularit
assal jar
o felbont
asara ad kielegt
o es gyors k
ozeltest. Az eljar
as egy
tov
abbi tulajdonsaga, hogy mivel a k
ul
onbozo particionalasokat jellemz
o modularitas mer
osz
am
anak t
obb lepesben vegrehajtott maximaliz
alasaval tortenik,
gy lehetoseg van hierarchikus k
ozossegek kialakt
asara, amelyek a felhaszn
alasi
ter
ulett
ol f
uggoen elter
o hasznossaggal brhatnak, hiszen a szoalakok durv
abb es
reszletezettebb lexikai csoportokba sorol
asa is lehetseges.
Eredmenyeink azt igazoljak, hogy megkozeltes
unk felveszi a versenyt az anuli modszerekkel, mindemellett a modszer magolra alkalmazott fel
ugyelet nelk
gyarra val
o alkalmazhat
osag
at is sz
amszer
ustett
uk.

2.

Kapcsol
od
o munk
ak

A fel
ugyelet nelk
uli es felig fel
ugyelt sz
ofaji egyertelm
ustes ter
uleten m
ar szamos
kor
abbi munka sz
uletett az utobbi evtizedekben, melyek tobb csoportba sorolhat
ok. Az egyik megk
ozeltes szerint a kvant szofaji klaszterek sz
am
at elore meg
kell adni [4,5], ugyanakkor m
as rendszerek a klaszterek sz
am
at az adott feladathoz igaztva hat
arozz
ak meg. Mg egyes m
odszerek rejtett Markov-modellekre
ep
ul
o fel
ugyelet nelk
uli tanulaskent tekintenek a problem
ara [6,7], addig m
asok
magasabb dimenzios terekben vegeznek sz
amt
asokat, illetve megint m
asok grafkent k
ozeltenek a problem
ahoz. Tov
abb
a, bizonyos modszerek m
ukodesehez
sz
ukseg van egy elore megadott reszleges szot
arra vagy neh
any mintapeldara
is, azonban ezek nem minden esetben allnak rendelkezesre.

Szeged, 2011. december 12.

121

Sz
amos kiertekelesi metrika haszn
alatos a szakirodalomban, melyek gyakran a t
obb sz
ofaji klasztert el
oallt
o modszereket reszestik el
onyben. A legt
obb
szerz
o azonban az informaci
oelmeletbol kolcsonz
ott V-mertek mellett teszi le
a voks
at [8]. A fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszerek kiertekelese
megfeleltetes alapj
an is t
ortenhet, amikor is a rendszer teljestmenyet a letrejott
klaszterek (vagy ezek egy reszhalmaza) es az etalon klaszterek kozti megfeleltethetoseg alapj
an hat
arozz
ak meg. A kiertekelesi metrik
akr
ol [9] r bovebben.
A h
alozatelemzes kulcsfontossag
u szereppel br a fel
ugyelet nelk
uli megk
ozeltesekben, ahol a magasabb dimenzi
os terekben t
orteno klaszterezes helyett
gr
afalapon hajt
odik vegre a m
uvelet, gyelmen kv
ul hagyva a dimenzionalit
ast.
oz
ul k
ulonosen a k
ozossegkereses kapott nagy A halozatelemzesi m
odszerek k
gyelmet t
obb tudom
anyter
uleten is a biologi
at
ol kezdve a szociologi
an at az
informatik
aig. A gr
afok particion
al
asa kapcsan a modularitas valt meghat
aroz
o
fogalomm
a a kor
abbi metrik
ak k
oz
ul [10]. A modularitas eredetileg a graf particion
alas
anak hatekonysag
at hivatott merni, es kesobb sz
amos gr
afparticion
al
o
algoritmus mint peld
aul a spektralis optimalizaci
o, moh
o algoritmusok es szimul
alt h
utes celf
uggvenyeve v
alt.

3.

M
odszertan

A k
oz
ossegkeres
o elj
ar
asra ep
ul
o sz
ofaji egyertelm
ustes az elter
o sz
oalakok folott
ertelmezett hasonl
osagi graf particion
alasan alapul, amely hasonlosagi graf eptesenek es jellemzo csoportokra bont
as
anak reszletes bemutat
as
ara a kovetkezokben ker
ul sor.
3.1.

Hasonl
os
agi gr
af

Mivel a hasonl
o kontextusban szereplo szoalakokr
ol feltetelezhet
o, hogy hasonlo
mondatbeli funkci
oval is brnak [11], ezert eljar
asunkban a szoalakok szofaji kategori
ainak fel
ugyelet nelk
uli meghat
aroz
asara egy olyan eljar
ast val
ostottunk
meg, mely a sz
oalakok fol
ott ertelmezett hasonl
os
agi graf particion
alasan alapul. Algoritmusunk a szoalakokat a hozz
ajuk meghat
arozott kontextusvektorok
ofaj
ukent inalapj
an sorolja be a hasonl
o szerepet betolt
o es altalunk azonos sz
terpret
alt szavak halmazaiba. Elso lepeskent teh
at a szoalakok folott ertelmezett,
s
ulyozott hasonl
osagi grafunkat deni
aljuk.
Munkank soran a szofajuk szempontj
abol csoportostand
o szavak alkott
ak
azt a V sz
ot
arat, amely elemeit elter
o meret
u (1 W 3) ablakok mellett
vett sz
ok
ornyezet-eloszl
asokkal jellemezt
uk. (Mind a csoportostand
o szoalakok
meghat
aroz
asa sor
an, mind pedig a kornyezet
uk vizsgalata soran egy egyszer
u
regul
aris kifejezes segtsegevel a numerikus kifejezeseket egysegesen kezelt
uk.) A
k
ul
onbozo meret
u es nyelv
u korpuszok feldolgoz
asa sor
an egy-egy sz
oalakot, a
u
bal es jobb oldalukon, elter
o w W pozci
okon szamtott 2(|V |+1)W meret
eloszl
asvektorral jellemezt
unk. A kes
obbiekben particionalando hasonl
osagi graf
cs
ucsait a |V | meret
u sz
ot
ar egy-egy eleme kepezte, a cs
ucsok k
ozotti els
ulyok

122

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

meghat
aroz
as
aban pedig a szoalakokhoz tarstott eloszl
asvektorok jatszottak szerepet.
A gr
afalap
u megk
ozeltesek el
onye t
obbek k
ozott az, hogy a kiugro ertekek
(outliers) kezelese viszonylag termeszetes modon kezelhet
o szemben peld
aul a
k-k
ozep klaszterezessel. A nem relevans es gy nem kvant hasonl
os
agok kisz
uresenek egy lehetseges m
odja a teljes grafokr
ol a k-legk
ozelebbi gr
afokra valo
atteres lehet. Azon t

ul, hogy a grafban cs


okkentheto a zajt okoz
o kapcsolatok
szama, a gr
af ritkt
asaval egy
uttal j
otekonyan befolyasolhat
o a gr
afon vegzett
algoritmusok sebessege.

Eppen
ezert a szoalakok egymashoz valo viszony
anak reprezent
alasa sor
an a
teljes grafokb
ol Gk = (V, Ek , w) k-legk
ozelebbi szomszeds
agon alapulo grafokat
konstrualtunk, melyekre Ek = {(u, v) : n(u, k)  v n(v, k)  u}, ahol az
n(u, k) es n(v, k) f
uggvenyek rendre az u es v cs
ucsokhoz tartozo k legkozelebbi
szomszedot adjak vissza, w(u, v) pedig az u es v cs
ucsok k
ozotti szimmetrikus
tavols
agot hat
arozza meg. A cs
ucsok kozotti t
avolsagot a koszinusz t
avols
ag (1),
Jensen-Shannon divergencia (2), illetve Jaccard-egy
utthat
o (3) segtsegevel is
vizsg
altuk, melyek kisz
amt
asa a k
ovetkezo kepletek alapjan t
ortent:


cos(q, r) = 1 

JS(q, r) =

q(v)r(v)

2
2
v q(v)
v r(v)
v

(1)

1
[D(q
avgq,r ) + D(r
avgq,r )]
2

(2)

|{v : q(v) > 0 r(v) > 0}|


|{v|q(v) > 0 r(v) > 0}|

(3)

jacc(q, r) = 1

Az eloz
oekben bemutatott metrik
ak valamelyikevel a cs
ucsokhoz t
orteno k
legk
ozelebbi szomszed meghat
aroz
asat k
ovetoen az eddig t
avolsagokkent ertelmezhet
o els
ulyokat hasonl
osagi ertekekke alaktottuk at. A hasonlosagi mertekre
val
o atteres erdekeben minden (u, v) cs
ucs koz
otti s
ulyt a sim(f (u, v)) = 1+f1(u,v)
kepletnek megfelel
oen alaktottuk at, ahol f (u, v) az el
ozoekben denialt t
avols
agf
uggvenyek erteke u es v cs
ucsokra nezve. A tavols
ag helyett a hasonl
os
agi
ertekekre valo
atteresnek a koz
ossegkeres
o elj
ar
as s
ulyozott gr
afon ertelmezett
m
uk
odese kapcs
an volt fontos.
3.2.

Modularit
asalap
u k
oz
oss
egkeres
es

Az altalunk haszn
alt, modularit
as maximalizal
asara ept
o elj
ar
as el
onye, hogy a
kialakul
o k
ozossegek szama a particion
aland
o graf topologi
aja alapj
an ker
ul meghat
aroz
asra, szemben egyeb eljar
asokkal (pl. k-k
ozep klaszterezes). Egy adott
asaval egy j
osagi erteket rendelgr
afparticion
al
ast jellemzo modularit
as kiszamt
het
unk a felbontas minosegere nezve, mely gyelembe veszi a gr
af topologi
aj
ab
ol
ad
od
oan az egyes cs
ucsp
arok k
ozott elv
arhat
o elek sz
am
at, valamint egy tenyleges
felbont
as sor
an az egyes csoportokon bel
ul vezet
o elek tapasztalt sz
am
at. Az

Szeged, 2011. december 12.

123

el
oz
oekben elmondottak a k
ovetkezo keplettel sz
amolhat
ok:
Q=

1 
ki kj
)(Ci , Cj )
(Aij
2m ij
2m

(4)

, amelyben az osszegzes minden lehetseges elre (minden i es j cs


ucsra) vonatkoo gr
af szomszeds
agi matrix
anak egy eleme,
zik, es ahol az Aij a particionaland
m a grafban tal
alhat
o elek sz
ama, az osszegzesben tal
alhat
o hanyados az i es j
cs
ucsok k
ozott men
o elek v
arhat
o erteke, a f
uggveny pedig az u
n. Kroneckerdelta, mely akkor veszi fel az 1 erteket, ha az i es a j cs
ucsok megegyez
o klaszterben tal
alhat
ok, m
ask
ulonben 0.
Sz
amos j
o tulajdonsaga miatt vonzo elgondol
as lenne a grafokhoz olyan felbontasokat keresni, amelyek a modularitas j
osagi mer
osz
am
at tekintenek celf
uggveny
ul, azt maximaliz
aln
ak. Ugyanakkor ahogy arra mar ramutattak [12],
ez a feladat erosen N P-teljes. A negatv eredmenyb
ol ad
odoan, sz
amos k
ozelt
o
oben torteno minel hatekonyabb
eljar
as l
atott napvilagot a problema kezelhet
o id
megold
as
ara, melyek k
oz
ott talalunk szimul
alt h
utest
ol kezdodoen spektr
alm
odszereken at moh
o megk
ozelteseket is.
Ugyan a spektralmodszereken alapulo eljar
asok gyakorta jobb eredmenyeket
ernek el m
as megk
ozeltesekhez kepest, nagymeret
u gr
afok eseteben sokszor nem
hatekonyak, es mivel eset
unkben kifejezetten nagy grafok felbontas
at kserelt
uk
meg, gy kiemelten fontos volt, hogy a maximalis modularit
ast eredmenyezo felbontas k
ozeltesere alkalmazott elj
ar
asunk szamt
asi igenye alacsony legyen. A
[3] altal alkalmazott moh
o optimaliz
alo strategia kifejezetten nagy gr
afokon is
m
uk
od
okepesnek bizonyult, gy az altaluk javasolt elj
ar
ast val
ostottuk meg a
asasz
oalakok grafj
anak maximalis modularit
ast eler
o felosztasanak meghataroz
ra. A szerz
ok altal javasolt eljar
as egy alulrol felfele eptkezo klaszterezo eljar
as,
mely kezdeten minden cs
ucsot egy k
ulon klaszterbe sorolnak, majd a tov
abbi
lepesek sor
an a cs
ucsok megl
atogat
asa sor
an azokat a lokalisan legjobb modularit
as n
ovekmenyt eredmenyez
o k
oz
osseghez sorolj
ak (esetleg egyikhez sem).
Egy i cs
ucs C k
ozossegbe t
orten
o mozgat
asa sor
an kettos hat
as gyelheto meg:
egyreszt n
oveli a globalis modularit
as erteket azon elei altal, amelyek immaron
a C k
oz
ossegbeli szomszedjaival val
o osszek
ottetest biztostjak, masreszr
ol viszont a modularitas bizonyos mertek
u csokkenese is meggyelhet
o lesz azon elei
kapcs
an, amelyek a kor
abbi k
ozossegenek tagjaival valo osszekottetesert voltak
felelosek. Egy i cs
ucs C k
ozossegbe t
orteno atmozgatasanak hat
asa a k
ovetkezok
szerint osszegezhet
o:

Q =

+ki,in

2m

in



+ki
2m

tot

2 




in

2m

2
tot

2m

ki
2m

2 
(5)



ul, illetve a C kozosseget
, ahol in es tot ertekek rendre a C kozossegen bel
ucsot tartalmaz
o,
erint
o elek s
ulyainak osszege, ki es ki,in pedig rendre az i cs
illetve az i cs
ucsot a C k
ozosseggel osszekot
o elek s
ulyainak osszege, m pedig a
particionaland
o gr
afban talalhat
o elek osszs
ulya. Miut
an minden cs
ucs besorol
ast

124

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

nyert az egyes kozossegekbe, az algoritmus a kialakult k


ozossegeket osszevonva,
es azokat egy cs
ucskent kezelve megismetli az elozo eljarast. Egy soron k
ovetkezo iter
aci
os blokk kezdeten teh
at eppen annyi cs
ucsot tartalmaz
o grafot bontunk ismet k
ozossegekre, amennyit az el
ozo blokkban azonostottunk (a kor
abbi
blokk k
oz
ossegeinek megfeleltethet
o els
ulyok pedig a megel
ozo lepesben a ket
k
oz
osseg k
ozt men
o elek osszs
uly
aval lesz egyenlo, a kozossegen bel
uli elek pedig
hurokelkent jelentkeznek.) Az iter
aci
os blokkokat ismetelhetj
uk x lepesszamig,
vagy addig, amg a modularit
as n
ovekedese fenntarthat
o. Az eljaras elonye, hogy
az eredeti hasonlosagi graf cs
ucsai foksz
am
anak v
arhat
o ertekenek x voltabol
arashoz elvegzendo m
uveletek szama nagysagrendileg a hasonl
osagi
ad
od
oan az elj
gr
af cs
ucsainak linearis f
uggvenye lesz. Tovabbi el
ony, hogy az iteraci
os blokkok
menten elter
o noms
ag
u de ugyan
ugy a modularitas maximalizal
asara t
orekv
o
felbont
asait nyerhetj
uk ki a particion
alando grafnak.
3.3.

A legk
ozelebbi szomsz
ed gr
af pletykaalgoritmussal t
ort
en
o
k
ozelt
ese

Mas fel
ugyelet nelk
uli modszerhez hasonloan az altalunk javasolt elj
ar
as is nagy
elemszam
u minta alapjan prob
alja a szoalakok k
ozt fennall
o szab
alyszer
usegeket
megragadni, ami azzal jar, hogy a sz
ot
ar meretenek novekedesevel egy
utt a hasonl
os
agi graf cs
ucsainak sz
ama t
obb sz
azezres nagys
agrendben is mozoghat, ami
pedig nagyobb W kontextusablak valasztasa eseten ak
ar az egyes szoalakokat
o sz
okornyezeteloszl
as-vektorok millios hosszat is eredmenyezheti. J
ollehet
ler
a sz
okornyezeteloszl
as-vektorok jellemzoen igen ritk
ak, egy adott esetben tobb
szazezer cs
ucsot tartalmazo hasonlosagi grafra meg gy sem hat
arozhat
o meg
igaz
an hatekonyan minden sz
ogponthoz annak k legkozelebbi szomszedja.
A szot
armeret novekedesevel egy
utt jelentkez
o hatekonysagi problema megold
as
ara a T-Man [2] pletykaalap
u peer-to-peer protokollt hvtuk segtseg
ul,
melynek eredeti celja specialis, dinamikusan v
altozo, nagymeret
u u
n. overlay
h
alozatok topol
ogi
aj
anak felterkepezese. Az overlay halozatok dinamikuss
agab
ol
ad
od
oan az algoritmus a halozati topologia egy kozelteset hat
arozza csup
an meg,
amire eset
unkben a szoalakok hasonlos
agi grafj
anak statikussagabol ad
od
oan
ukseg, ugyanakkor a sz
ot
ar meretenek novekedesebol ad
odo
ugyan nem lenne sz
problem
akra megold
ast ny
ujthat sebessegevel. A protokoll a k
ovetkezok szerint
j
ar el: minden cs
ucs (peer) inicializal
asra ker
ul egy x meret
u random szomszedos
cs
ucsokat (peereket) tartalmazo buerrel, majd az egyes iter
aci
ok sor
an a cs
ucsok
(peerek) kommunikalnak egym
assal, amely sor
an lehetoseg
uk nylik a hozz
ajuk
tartoz
o buerek tartalmanak frisstesere, amennyiben azzal javtani tudnak annak tartalman. (Eset
unkben az overlay h
alozatok azon speci
alis tulajdons
agaval,
hogy a cs
ucsok folyamatosan be,- illetve kilephetnek a halozatb
ol, nem kellett
sz
amoljunk.)
A szerz
ok algoritmusuk gyors konvergenciajar
ol szamoltak be, vizsgalataik
alapj
an 10-15 iter
aci
o elegsegesnek bizonyult az eredeti halozatok topologi
ajanak
ozelebbi
k
ozel t
okeletes kozeltesere. A szoalakok folotti hasonl
osagi graf k-legk
szomszeds
ag
anak felterkepezese kapcs
an tapasztalhato konvergenciaval kapcsolatos eredmenyeinket a 4. fejezet tartalmazza.

Szeged, 2011. december 12.

4.

125

Eredm
enyek

Az eloz
oekben bemutatottak szerint m
ukod
o k
ozossegkeresesen alapulo sz
ofaji
egyertelm
ust
ot annak fel
ugyelet nelk
uli voltab
ol adodoan modost
asok nelk
ul
alkalmazhattuk magyar, illet
oleg angol nyelv
u szovegekre. Angol nyelv
u vizsg
al
od
asaink t
argy
at az ACL/DCI korpuszban tal
alhat
o Wall Street Journal 1987.
evad
anak 1-5. fejezetei kepeztek, a magyar nyelv
u szovegek eseteben pedig hasonl
o stlus
u es nyelvhaszn
alat
u korpuszt keresven a Magyar Nemzeti Szovegtar
Heti Vil
aggazdas
agot erint
o reszeit vizsg
altuk. Kserleteink kitertek a szoalakok
hasonl
os
ag
anak meghataroz
as
anak k
ulonfele parameterek melletti vizsgalatara:
a kontextusablak merete, akarcsak a hasonl
osagi graf eseteben a k legkozeott mozogtak, tovabb
a megvizsgaltuk azt
lebbi szomszeds
ag ertekei 1 es 3 k
oz
is, mikepp befoly
asolja a sz
oalakok csoportost
as
anak eredmenyesseget, ha elter
o
nagys
agrend
u sz
oveg alapj
an hajtjuk vegre mindazt. A ket nyelvre elkesztett
elter
o nagys
agrend
u korpuszokkal kapcsolatos statsztik
akat a 1. tabl
azat tartalmazza. (Mivel a Magyar Nemzeti Sz
ovegt
ar eseteben nem allt rendelkezesre az
az informaci
o, hogy egy szoalakra nezve melyek a sz
oba johet
o szofaji k
odok, gy
ott a szoalakonkenti atlagos szofajszamot/tobbertelm
useget nem allt m
odunkban
kiszamolni.)
1. t
abl
azat. Az angol es magyar nyelv
u korpuszok statisztik
ai.
WSJ
Szint1 Szint2
Mondatok sz
ama
7053 34486
Tokenek sz
ama
145002 723415
Sz
oalakok sz
ama
13750 31686

Atlagos tokengyakoris
ag
10,55 22,83
Sz
oalakonkenti a
tlagos sz
ofaj 2.26 1,38

MNSZ
Szint1 Szint2
6069 30524
145006 723416
36224 110133
4,00
6,57
-

A nagyobb gr
afok (Szint2 ) eseteben megvizsg
altuk a T-Man h
al
ozatitopologia-k
ozelt
o algoritmus konvergenciaj
anak sebesseget az iter
aci
ok t
ukreben, ami
az 1.
abr
an l
athat
o. Az egyes iteraci
okhoz tartoz
o szaggatott vonalok alapj
an
leolvashat
o, hogy atlagosan h
any szazalekkal haladta meg a k
ozeltett grafokban
szerepl
o elek osszs
ulya az etalon k-legkozelebbi gr
afok alapjan elvarhat
o osszs
ulyokat. A folytonos vonalak menten az lathat
o, hogy az egyes iteraci
ok utan a
gr
af cs
ucsaihoz valasztott legk
ozelebbi szomszedok mekkora h
anyada volt megtal
alhat
o a tenyleges de csak joval t
obb sz
amt
as ar
an megkaphat
o k-legkozelebbi szomszeds
agban szerepl
o elekhez kepest. A k
orrel jelzett ertekek a magyarra, a csillaggal jelzettek pedig az angol eredmenyekre vonatkoznak.
A fel
ugyelet nelk
uli szofaji k
odol
as hatekonysagat jellemzoen a kialakult
arendelhetosege, valamint inklaszterek tenyleges szofaji csoportokhoz val
o hozz
formaci
oelmeleti szempontok szerint szokas vizsgalni. Eredmenyeink a megszo-

126

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

kott V1-m
ert
ek, illetve egy-az-egyhez (1-1) es t
obb-az-egyhez (t-1) ertekek
szerint ker
ulnek k
ozlesre.
2. t
abl
azat. A harom fo parameter (tavolsagsz
amt
as m
odja, gyelembe veend
o
legk
ozelebbi szomszedok sz
ama, kontextusablak merete) k
oz
ul pontosan egy lex
al
asa mellett elert atlagos eredmenyek az elter
o meret
u es nyelv
u szovegeken.
MNSZ
COS
JS
JACC
k=1
k=2
k=3
w=1
w=2
w=3

Szint1
V1
1-1
0.3336 0.2646
0.3096 0.2260
0.2558 0.1880
0.4138 0.2510
0.2474 0.2164
0.2378 0.2111
0.3270 0.2316
0.2956 0.2342
0.2764 0.2127

t-1
0.3929
0.3581
0.2924
0.4715
0.2943
0.2777
0.3768
0.3475
0.3191

V1
0.3493
0.3345
0.2799
0.4322
0.2726
0.2589
0.3281
0.3275
0.3083

WSJ
Szint2
1-1
t-1
0.2793 0.4266
0.2415 0.3800
0.2049 0.3142
0.2569 0.5212
0.2295 0.3013
0.2393 0.2982
0.2308 0.3838
0.2531 0.3820
0.2417 0.3549

Szint1
V1
1-1
0.4466 0.3054
0.4011 0.3034
0.3184 0.2446
0.4747 0.3115
0.3385 0.2640
0.3529 0.2778
0.3894 0.2702
0.3860 0.2964
0.3111 0.2498

t-1
0.5501
0.4681
0.3993
0.6283
0.3950
0.3942
0.4506
0.4531
0.3887

V1
0.4711
0.4631
0.3204
0.4932
0.3875
0.3740
0.4258
0.4380
0.3909

Szint2
1-1
0.3150
0.3425
0.2323
0.3053
0.3025
0.2819
0.2857
0.3341
0.26700

t-1
0.5907
0.5343
0.3960
0.6803
0.4339
0.4068
0.5137
0.5317
0.4755

3. t
abl
azat. A nagyobb mennyiseg
u szovegekb
ol kesztett k-legk
ozelebbi
szomszeds
agi graf k
ozelt
o meghat
aroz
asa segtsegevel elert atlagos eredmenyek
pontosan egy parameter lexal
asa mellett.

V1
COSINE 0.3167
JS
0.2562
JACC 0.2135
k=1 0,3923
k=2 0,2049
k=3 0,1883
w=1 0,2645
w=2 0,2645
w=3 0,2564

MNSZ
1-1
t-1
0.2645 0.3896
0.2052 0.3083
0.1756 0.2665
0,2494 0,4770
0,2009 0,2512
0,1950 0,2363
0,2087 0,3264
0,2226 0,3248
0,2140 0,3132

V1
0.4724
0.4029
0.2662
0,485
0,3399
0,3167
0,3649
0,4009
0,3758

WSJ
1-1
0.3364
0.2924
0.2090
0,3073
0,2775
0,2530
0,2593
0,3038
0,2747

t-1
0.5859
0.4720
0.3575
0,6532
0,3946
0,3675
0,4632
0,4916
0,4605

A t
obb-az-egyhez kiertekeles olyan megenged
o erteket hat
aroz meg a sz
oalakok csoportost
asahoz, amely a megtal
alt kozossegeket olyan m
odon rendeli
az etalon sz
ofaji cmkek altal alkotott sz
oalakok csoportjaihoz, hogy a pontossag
maximaliz
alva legyen. Ezzel szemben az egy-az-egyhez kiertekeles megk
oveteli
azt a feltetelt, hogy a megtal
alt csoportok hozz
arendelese az etalon csoportokhoz kizar
olag olyan m
odon t
ortenhet, hogy egy etalon csoporthoz egy k
ozosseget
rendelhet
unk. Jelen eredmenyek az egy-az-egyhez hozz
arendeles moh
o m
odon

Szeged, 2011. december 12.

127

45
40
35
30
25
20
15
10
5
0

10

15

itercik szma

1. abra. A k-szomszeds
agi grafok pletykaalgoritmussal t
orteno kozeltesenek konvergenci
aja a vegrehajtott iter
aci
ok szam
anak f
uggvenyeben.
t
orten
o meghat
aroz
asa mellett ertend
ok (amely nem feltetlen egyezik meg a
glob
alisan legjobb hozz
arendeles ertekevel). Termeszetesen ez ut
obbi kiertekeles
jobban b
unteti azokat a felbontasokat, amelyek az etalon szerint elvartn
al joval
nagyobb sz
am
u csoportot eredmenyeznek.
Az informaci
oelmeleti alapokon nyugv
o V1-mertek [8] az egy klaszterezeshez
tartoz
o homogenit
as es teljesseg ertekekbol szamtott s
ulyozott harmonikus atlagakent all el
o, hasonloan az osztalyozasok j
os
agat jellemzo F-mertekhez, ami
at hasza pontoss
ag es a fedes ertekeket otv
ozi. A homogenit
as felteteles entropi
nalva szamszer
usti, hogy a kialakulo egyes csoportok mennyire diverzek az
etalon csoportokhoz kepest. A teljesseg szamt
asa anal
og m
odon t
ortenik, a
k
ul
onbseg mindossze annyi, hogy ennek eseteben az etalon cmkek diverzitasa
ker
ul sz
amszer
ustesre a megtalalt klaszterek fenyeben. Egy t
okeletes klaszterezes eseteben az osszes egy etalon csoportba tartozo elemet ugyanabban a megtal
alt klaszterben kell tal
aljunk. Hasonl
oan az F-mertek altal
anost
asahoz, a Vmertek eseteben is lehet
oseg nylik annak ket osszetev
ojenek egymashoz mert
fontoss
aga alapjan meghatarozni = 1 v
alasztast
ol k
ulonboz
o modokon is
akar egyeb V ertekeket.

5.

Diszkusszi
o

A hasonl
os
agi grafok segtsegevel leghatekonyabban a f
onevek, igek, segedigek
es sz
amnevek csoportjait siker
ult azonostani: minden altalunk haszn
alt m
odszer
elfogadhat
o mertekben azonostotta oket. Ez k
ulonosen igaz a h
onapnevekre
es a k
ul
onfele cegformak rovidtett alakjaira (peld
aul Co. vagy Ltd.), hiszen
ezekben az esetekben szemantikailag hasonl
o szavak ker
ultek egy csoportba. A

128

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

fenti szofajokkal szemben a legkemenyebb di


onak a hataroz
oszavak bizonyultak. A hat
aroz
oszavak eleg vegyes csoportot alkotnak (morfologiai jegyekkel es
mondatbeli pozci
oval kevesbe megfoghat
ok), gy megfelel
o oszt
alyba sorol
asuk

nehezseget jelentett mindegyik modszer szam


ara. Erdekes
m
odon a k legkozelebbi szomszed es a Jaccard-m
odszer is azonos gr
afba helyezte az el
olj
ar
okat,
neveloket es k
ot
oszavakat, aminek az lehet a magyarazata, hogy hasonl
o k
ornyezetben fordulnak el
o (peld
aul gyakran fonevi el
otti pozci
oban). Megjegyezz
uk
ugyanakkor, hogy e szofajok elk
ul
ontese problem
asnak nevezheto az angol nyelvben [13]. A szomszedok sz
am
anak meghataroz
asaval es az ablakmeretek r
ogztesevel kapcsolatban ugyanakkor azt talaltuk, hogy a kisebb ertekek bizonyultak
hat
asosabbnak, tehat els
odlegesen a szavak sz
uk kornyezete befoly
asolta a csoportokba sorol
ast.
Az egyes modszerek osszeveteset tekintve a Jaccard-modszer bizonyult leghatekonyabbnak az -ing-es alakok (gerund) azonost
asaban. A k legkozelebbi
szomszed modszer a melleknevek felismereseben ny
ujtott kit
uno eredmenyt, tov
abb
a hatekonynak bizonyult az igekent es fonevkent egyar
ant szerepl
o szoalakok
csoportost
asaban (pl. decrease). Szinten e modszer remekelt a nevelemek osztalyba sorolas
aban, k
ul
on
osen az orsz
ag- es nemzetisegnevek besorol
asa bizonyult sikeresnek. Ez arra utalhat, hogy e m
odszer a fel
ugyelet nelk
uli szofaji
egyertelm
ustes mellett fel
ugyelet nelk
uli szemantikai osztalyoz
asra is feltehetoleg
j
ol hasznalhat
o.
A k
oz
ossegkeres
o elj
ar
as sor
an elnagyoltabb es reszletesebb lexikai csoportok
is letrejottek. Angol nyelvre az elnagyoltabb csoportost
as eseteben sikeresnek
bizonyult a nevm
asok, t
obbes szam
u f
onevek, tulajdonnevek es melleknevek keonevi szerepet egyar
ant betolthet
o szoalakok is egy
zelese, ugyanakkor az igei es f
osztalyba ker
ultek. Ugyanez mondhat
o el az elolj
ar
oszavakra es hat
aroz
oszavakra
is. Az angol nyelv
u nomabb oszt
alyoz
as sor
an a szofaji oszt
alyoz
ason t
ul szemantikai csoportok is megjelentek (peldaul egy k
ozosseget alkot a TV, video,
radio szocsoport), de a helynevek oszt
alyoz
asa is jonak mondhat
o. Mindemellett k
ulon csoportokba ker
ultek az elobb meg egy osztalyba sorolt prepozci
ok
es nevelok, determin
ansok.
Magyar nyelv
u kserleteinkben a fonevek, szamnevek es segedigek azonost
asa
volt a legeredmenyesebb, az igek es nevut
ok felismerese valamivel nehezebb feladatnak bizonyult. Az angolhoz hasonl
oan a funkcioszavak (k
ot
oszavak, nevmasok, nevelok, hataroz
oszavak) itt is egy osztalyba ker
ultek mindegyik m
odszer
alkalmaz
asakor. Mindezt szinten a hasonl
o mondatbeli pozci
o magyarazhatja:
aul a k
ot
oszavakhoz hasonl
o viselkedest mutatnak.
a vonatkozo nevm
asok peld
M
odszereinket osszehasonltva azt tal
aljuk, hogy a nevelemek azonost
asaban a
Jaccard-m
odszer fel
ulm
ulja a m
asik kett
ot, k
ulonosen igaz ez a politikai partokra
es a szemelynevekre, vagyis itt is kepes szemantikai alap
u nevelemcsoportok
letrehoz
as
ara.
A k
oz
ossegkeres
o elj
ar
as
altal letrehozott csoportok a magyarban kevesbe
bizonyultak jonak, mint az angolban. Noha itt is meggyelhet
unk szemantikai alap
u csoportost
ast (het napjai, h
onapok) a reszletesebb osztalyoz
asban,

altal

anoss
agban a szamnevek felismerese erte el a legjobb eredmenyt. Erdekes

Szeged, 2011. december 12.

129

m
odon a f
onevek es melleknevek gyakran ker
ultek egy csoportba, amit valoszn
uleg az magyarazhat, hogy a magyarban mindket szoosztaly hasonlo toldalekokat
vehet fel (tobbes sz
am jele, birtokos jel, esetragok).
Ha
osszevetj
uk az angolra es magyarra kapott eredmenyeinket, azt lathatjuk,
hogy a fel
ugyelet nelk
uli szofaji egyertelm
ustes k
onnyebb feladat angolon, mint
magyaron. Ezt termeszetesen a nyelvek kozti elteresekre vezethet
o vissza. Egyreszt az angolban nagys
agrendekkel kevesebb szoalak tartozik egy lemmahoz,
mint a magyarban (erre utal a lehetseges szofaji kodok szama is). Masreszt a
magyarban joval kisebb a tobbertelm
u szoalakok (homonim
ak) szama, az angol ezzel szemben bovelkedik az ige/fonev/melleknev stb. szerepben egyarant
el
ofordul
o szavakban (pl. present). Mindebb
ol az k
ovetkezik, hogy a magyarban t
obb szoalak fordul elo, gy ezek csoportost
asa is nehezebb feladat. Harmadreszt az angol sz
orendje k
ot
ott, mg a magyar szorend a mondat inform
aci
os
szerkezetet t
ukr
ozi, ami azt jelenti, hogy az oszt
alyozand
o szo kornyezete sokkal v
altozatosabb lehet, mint az angolban, vagyis nehezebb a kontextus felett
altal

anostani.

6.

Osszegz
es

Ebben a munk
aban bemutattuk fel
ugyelet nelk
uli szofaji egyertelm
ust
o modszer
unket, mely koz
ossegkeresesre ep
ul. A szoalakok folott ertelmezett hasonl
os
agi
gr
af koltseges szamt
asara val
o tekintettel az elosztott rendszerek ter
uleten az
u
n. overlay topol
ogi
ak kozeltesere kor
abban m
ar sikeresen alkalmazott T-MAN
algoritmust alkalmaztuk. Angol es magyar nyelv
u eredmenyeink egyarant azt
igazolj
ak, hogy siker
ult at
ultetn
unk a ket k
ulonbozo tudom
anyos kozosseg altal
haszn
alt m
odszerek el
onyeit a sz
ofaji egyertelm
ustes ter
uletere, azaz egy olyan
feladatra ny
ujtottunk gy megold
ast, amelyet egy harmadik tudom
anyos kozosseg
t
uz
ott ki celj
aul.

K
osz
onetnyilv
ant
as
A kutatas reszben a MASZEKER es BELAMI k
odnev
u projektek kereteben

a Nemzeti Fejlesztesi Ugyn


okseg, illetve a TAMOP-4.2.1/B-09/1/KONV-20100005 jel
u projekt kereteben az Europai Unio tamogat
asaval, az Europai Region
alis Fejlesztesi Alap es az Europai Szoci
alis Alap t
arsnanszroz
asaval val
osult meg.

Hivatkoz
asok
1. Hal
acsy, P., Kornai, A., Oravecz, C.: HunPos - an open source trigram tagger. In:
Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, Prague,
Czech Republic, Association for Computational Linguistics (2007) 209212
2. Jelasity, M., Montresor, A., Babaoglu, O.: T-man: Gossip-based fast overlay topology construction. Comput. Netw. 53 (2009) 23212339

130

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3. Blondel, V.D., Guillaume, J.L., Lambiotte, R., Lefebvre, E.: Fast unfolding of
communities in large networks. Journal of Statistical Mechanics: Theory and Experiment 2008(10) (2008) P10008+
4. Biemann, C.: Chinese whispers: an ecient graph clustering algorithm and its
application to natural language processing problems. In: Proceedings of the First
Workshop on Graph Based Methods for Natural Language Processing. TextGraphs1, Stroudsburg, PA, USA, Association for Computational Linguistics (2006) 7380
5. Lamar, M., Maron, Y., Johnson, M., Bienenstock, E.: Svd and clustering for unsupervised pos tagging. In: Proceedings of the ACL 2010 Conference Short Papers.
ACLShort 10, Stroudsburg, PA, USA, Association for Computational Linguistics
(2010) 215219
6. Gao, J., Johnson, M.: A comparison of Bayesian estimators for unsupervised Hidden Markov Model POS taggers. In: EMNLP 08: Proceedings of the Conference
on Empirical Methods in Natural Language Processing, Morristown, NJ, USA,
Association for Computational Linguistics (2008) 344352
7. Van Gael, J., Vlachos, A., Ghahramani, Z.: The innite HMM for unsupervised PoS
tagging. In: Proceedings of the 2009 Conference on Empirical Methods in Natural
Language Processing, Singapore, Association for Computational Linguistics (2009)
678687
8. Rosenberg, A., Hirschberg, J.: V-measure: A conditional entropy-based external
cluster evaluation measure. In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). (2007) 410420
9. Christodoulopoulos, C., Goldwater, S., Steedman, M.: Two decades of unsupervised POS induction: How far have we come? In: Proceedings of the 2010 Conference
on Empirical Methods in Natural Language Processing, Cambridge, MA, Association for Computational Linguistics (2010) 575584
10. Newman, M.E.J., Girvan, M.: Finding and evaluating community structure in
networks. Physical Review E 69(2) (2004) 026113+
11. Biemann, C.: Unsupervised part-of-speech tagging employing ecient graph clustering. In: Proceedings of the 21st International Conference on computational
Linguistics and 44th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. COLING ACL 06, Stroudsburg, PA, USA,
Association for Computational Linguistics (2006) 712
12. Brandes, U., Delling, D., Gaertler, M., Goerke, R., Hoefer, M., Nikoloski, Z., Wagner, D.: Maximizing modularity is hard. (2006)
13. Santorini, B.: Part-of-speech tagging guidelines for the penn treebank project.
Technical report, Department of Computer and Information Science, University of
Pennsylvania (1990)

Szeged, 2011. december 12.

131

Szfaji kdok s nvelemek egyttes osztlyozsa


Mra Gyrgy1, Vincze Veronika1, Zsibrita Jnos1
1

Szegedi Tudomnyegyetem,
Szmtgpes Algoritmusok s Mestersges Intelligencia Tanszk
6720 Szeged, rpd tr 2.
{gymora, vinczev, zsibrita}@inf.u-szeged.hu

Kivonat: Jelen munknkban egy, a szfaji kdok s a nvelemek meghatrozsra szolgl gpi tanulsi modellt mutatunk be. Az ltalnos vletlen mezkn
alapul mdszer segtsgvel tbb cmkesorozat egyttesen tanulhat, valamint
az osztlyozs sorn a cmkesorozatok legjobb kombincijt egyttesen keressk. A magyarlanc szfaji elemz s az SZTENER nvelem-felismer jellemzkszlett hasznlva olyan rendszert ptettnk, amely a cmkk egyttes
osztlyozsnak segtsgvel fellmlta a kiindulsi rendszereket az ltalunk
hasznlt teszthalmazon. A nvelem-felismer F-mrtkben mrt teljestmnye
87,75-rl 89,87-re, a szfaji cmkz pontossga 97,11%-rl 97,99%-ra ntt,
gy, hogy a kdok meghatrozsnak ms minsgi tnyezi is javultak.

1 Bevezets
Szintaktikai szempontbl a tulajdonnevek fnvknt viselkednek: a Lttad az Interj
a vmprral-t? mondatban a film cme ugyangy ragozhat, mint brmely ms magyar fnv (v. Lttad a filmet?). Emiatt a tulajdonneveket gyakran a fnevek egyik
alosztlynak tekintik: bizonyos morfolgiai kdrendszerek kln tulajdonnvi kdot
tulajdontanak nekik (pldul az MSD-kdrendszerben Np-s*, a PENN Treebankben
pedig NNP az egyes szm tulajdonnevek kdja).
Azonban valjban nemcsak fnevek, hanem brmelyik szfajhoz tartoz elemek
is lehetnek tulajdonnevek (vagy azok rszei), pldul Tesz-Vesz Kft. A fenti kdrendszerek hasznlatval a Tesz-Vesz-t is tulajdonnvnek kellene kdolni, ami azonban a
kdok megsokszorozdsval jr, hiszen voltakppen brmely sznak lehet tulajdonnvi kdja is. Ez egyrszt megnveli a szfaji egyrtelmsts kltsgeit (sokkal tbb
sz vlik morfolgiailag tbbrtelmv), tovbb megkvnja azt is, hogy a morfolgiai elemzbe bepljn egy tulajdonnv-felismer rendszer. gy vljk azonban,
hogy a tulajdonnv-felismers nem a morfolgiai elemz feladata, gy az ltalunk
alkalmazott megoldsban a kt feladatot prhuzamosan hajtjuk vgre. Megkzeltsnkben a tulajdonnvi jells teht nem a morfolgiai kd rsze, hanem kln tulajdonnvi cmkkkel ltjuk el a tulajdonnv-felismer ltal NE-nek tlt elemeket, fggetlenl attl, hogy milyen szfaj az adott elem.
Munknkban megmutatjuk, hogy a szfaji cmkzs s a nvelem-felismers teljestmnye klcsnsen javthat a tanuls sorn a msik feladat ltal szolgltatott jel-

132

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

lsekkel. Hogy ez lehetv vljon, olyan gpi tanul megkzeltst alkalmaztunk,


amelynek segtsgvel a kt problma egytt, egy gpi tanulsi faladatknt kezelhet.
Az ltalunk fejlesztett rendszer hatkonyan alkalmazhat magyar nyelv szvegek
egyidej szfaji cmkzsre s a bennk tallhat nvelemek felismersre, s a
hasznlt tant s kirtkel halmazokat figyelembe vve teljestmnyben fellmlja
az eddigi klnll statisztikai alap szfaji cmkzket, valamint nvelem-felismer
rendszereket. A mdszer knnyen adaptlhat ms nyelvekre is, amennyiben rendelkezsre ll az adott nyelven morfolgiai elemz s megfelel annotlt szvegkorpusz,
mivel nem alkalmaz nyelvspecifikus jellemzket.

2 Morfolgia s tulajdonnevek
A tulajdonnevek nylt szosztlyt alkotnak, azaz nem alkotnak vges elem halmazt,
szmuk llandan bvl a nyelvben. Ez maga utn vonja, hogy nem is sorolhatk fel
maradktalanul egy sztrban sem. A nyelvfeldolgozs szmra azonban kiemelkeden fontos a tulajdonnevek megfelel kezelse, gy pldul a morfolgiai elemzkbe
nagymret tulajdonnvsztrak plnek be azok elemzsnek megknnytsre.
Azonban a fenti okok miatt egy morfolgiai elemz sem ismerhet fel minden szalakot, gy az ismeretlen szavak (melyek nagy rsze tulajdonnv vagy annak szrmazka) kezelsre klnfle, gynevezett guessing mdszereket rdemes kidolgozni [20].
A tulajdonneveket a nyelvszeti szakirodalom tbbnyire merev jellnek tekinti,
mely konstans mdon ugyanazt az egyedet azonostja [7]. A fenti definciban a merevsg arra vonatkozik, hogy nem vltozik a jell s jellt kzti kapcsolat, azonban
elgondolsunk szerint a merevsg fogalma a tulajdonnevek morfolgijban is rtelmezhet. A tulajdonnevek ugyan ragozhatk, st alkalmanknt kpzk is csatlakozhatnak hozzjuk (New York New York-i), azonban a lemmjuk vltozatlan formban fordul el a toldalk eltt (Fodor fodoros). (A kisbet-nagybet vltozsoktl most eltekintnk.) Ez klnsen akkor nyilvnval, amikor egy morfolgiailag
sajtos viselkeds fnv fordul el tulajdonnvi hasznlatban. Vegyk az albbi
pldkat.
Fodort Kovcs, mg Bokort Szab vltotta az elnki szkben.
Panni tugrotta a bokrot, s egy kill g elszaktotta a szoknyja aljn lev fodrot.
A fodor s bokor hangkivet fnevek, vagyis bizonyos toldalkok eltt kiesik a
lemma utols magnhangzja. Ez a jelensg azonban nem figyelhet meg akkor,
amikor szemlynvknt hasznlatos a kt sz. E tulajdonsg kihasznlhat a nvelem-felismersben: a morfolgiai elemz a fodrot s bokrot alakokat vrn fodr+ot
s bokr+ot morfmkkal, m a fenti szalakokat csak a guesser segtsgvel lehet
elemezni a beptett toldalklista segtsgvel fodor+t, illetve bokor+t morfmkra
val felbontssal. Amennyiben az gy kapott lemma megtallhat a morfolgiai adatbzisban, viszont eltrst tapasztalunk az ott tallhat s a guesser ltal adott elemzs
kztt (vagyis jelen esetben a fodor s bokor trgyeset alakja nem fodrot s bokrot,
hanem fodort s bokort), valsznsthetjk, hogy tulajdonnvrl van sz.

Szeged, 2011. december 12.

133

Bizonyos tulajdonnvtpusok mcmek, intzmnynevek (klnsen ha tbbtagak) gyakran tartalmaznak mr eleve ragozott alakokat, pldul Interj a vmprral, Bolyai Farkas Alaptvny a Magyarul Tanul Tehetsgekrt. Azonban ezek is
ragozhatk:
Megnztem az Interj a vmprral-t.
Ksznetet mondott a Bolyai Farkas Alaptvny a Magyarul Tanul Tehetsgekrt-nek.
A helyesrsi szablyok szerint ilyenkor ktjellel kell kapcsolni az jabb toldalkot a tulajdonnvhez. Utbbi sajtossg is kihasznlhat a nvelem-felismersben: a
ktjelet tartalmaz szalakot a guesser segtsgvel elemezzk, majd az gy kapott
lemmt ismt elemezzk. Amennyiben a szalak a msodik elemzs sorn is toldalkoltnak bizonyul, ismt valsznsthet, hogy tulajdonnvvel tallkoztunk.
A gyakorlatban sokszor elfordul, hogy a toldalk nem ktjellel kapcsoldik a tulajdonnvhez (akr a helyesrsi szablyok ellenben). Ezekben az esetekben is a
guesser nyjthat segtsget: a lehetsges vgzdseket le kell vgni a sz vgrl,
majd a maradkot lemmaknt visszaadni, s a toldalknak megfelel fnvi elemzst
trstani a szhoz (pl. Agrobankhoz Agrobank illativusi eset fnv).
A morfolgiai elemz oldalrl nzve a vele prhuzamosan zajl tulajdonnvfelismers abban segthet, hogy a NER-rendszer ltal tulajdonnvnek minstett elemeket nem felttlenl prblja meg hagyomnyos mdon elemezni, hanem egybl a
beptett guessert hvja segtsgl, ezzel gyorstva a folyamatot.

3 Egyttes cmkzsi mdszerek


Hagyomnyosan a klnbz szekvenciajellsi feladatokat (szfaji cmkk, felszni
elemzs, nvelemek) kln-kln gpi tanulsi feladatknt definiljk, s a szvegek
feldolgozsa sorn az elemzket egyms utn futtatjk. gy azonban az egyes alrendszerek hibi sszeaddnak, valamint csak a feldolgozsi lncban htrbb ll komponenseknek van lehetsge felhasznlni az eltte llk cmkit jellemzknt.

3.1 A cmketerek kombinlsa


Tbb jellsi lps egyesthet a cmkk kombinlsval is, de gy kezelhetetlen mrtkben megnhet a cmketr, illetve elfordulhat, hogy bizonyos cmkekombincik
csak kevsszer fordulnak el a tanul adatok kztt, gy felismersk bizonytalan
lesz. A feladatok ilyen jelleg kombinlsnl a kzs jellemzkszlet is problmt
jelenthet, mert elfordulhat, hogy a klnbz cmkzsi feladatok eltr jellemzkszlet mellett adnak optimlis eredmnyt.

134

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3.2 Grfalap valsznsgi modellek


Ksrleteinkben a szvegek prhuzamos cmkzsre a MALLET GRMM [9][15] s
a FactorIE [11] csomagban tallhat ltalnos feltteles vletlen mezk mdszert
alkalmaztuk. A mdszerek lehetv teszik a hagyomnyos lineris lncols vletlen
mezk mdszerhez kpest, hogy tetszleges valsznsgi fggsgeket brzol
modelleket alkalmazzunk, gy egy token akr egynl tbb cmkvel is rendelkezhet.
A cmkk kztti feltteles valsznsgi kapcsolatok modellezsvel a nvelemfelismers s a szfaji cmkzs egymstl fggetlen jellemzkszlet segtsgvel
valsthat meg, de olyan mdon, hogy a szfajcmkk s a nvelemcmkk egyttes
legjobb eloszlst tanuljuk, majd keressk a jells sorn. Termszetesen a mdszer
kiterjeszthet ms feladatokra, vagy akr kettnl tbb egyidej cmkesorozat meghatrozsra is.

3.3 Elzetes vizsglatok


Angol nyelv szvegeken vgzett ksrletek [10] azt mutattk, hogy a szfaji kdok
s a felszni elemzs cmkinek egyttes gpi tanulsval jobb eredmnyt lehet elrni,
mint ha ezeket a feladatokat kln tantott modellekkel egyms utn szekvencilisan
vgeznk el. Az ltalunk vgzett ilyen irny ksrletek azt mutattk, hogy a szfaji
kdok meghatrozsnak pontossga 62,45%-rl 72,89%-ra, a felszni elemzs pontossga pedig 83,95%-rl 85,76%-ra ntt azonos jellemzkszlet hasznlata mellett,
abban az esetben, ha a cmkesorozatokat fggetlen osztlyozsa helyett azokat egyttes osztlyozssal hatrozzuk meg. A kt cmkesorozat az osztlyozs sorn gy dinamikus jellemzknt hathat egymsra, klcsnsen javtva a cmkk meghatrozsnak pontossgt. A mrsekhez a CoNLL-2000 Shared Task tant s kirtkel
halmaznak ezer-ezer tokenes mintjt hasznltuk.
A CoNLL-2003 Shared Task [18] nyelvfggetlen nvelem-felismersi feladatn
vgzett ksrletek azt mutattk, hogy minimlis jellemzkszletet hasznlva, mind a
szfaji kdok cmkzse, mind a nvelemek felismerse javthat az egyttes cmkzs hasznlatval. A verseny spanyol szvegeket tartalmaz rszkorpuszbl szrmaz mintn elvgzett vizsglatok azt mutattk, hogy mg a szfaji kdok cmkzsnek
pontossgt csak mrskelten 88,6%-rl 88,7%-ra, addig a nvelem-felismers Fmrtkt jelents mrtkben, 39,5-rl 42,2-re nvelte az egyttes cmkzs.

4 Nvelem-felismers
A nvelem-felismers alapvet fontossg az informcikinyer rendszerek mkdse szempontjbl. A felismert s klnbz tpusokba sorolt nvelemek nem csak
nmagukban rdekesek, de sok rendszerben a nvelemek jelentik azokat az alapegysgeket, amelyekbl esemnyek plnek fel, illetve amelyek kztt relcikat azonostanak. A nvelemek azonostsnl ltalban sokkal nagyobb kihvst jelent azok
megfelel osztlyba sorolsa. Az osztlyozs ltalban krnyezeti jellemzk alapjn
lehetsges.

Szeged, 2011. december 12.

135

4.1 Kapcsold munkk


A nvelemek felismersnek kt alapvet mdjt klnbztethetjk meg. A
tokenalap rendszerek szavanknti osztlyozssal dntik el, hogy az adott token rsze-e vagy sem egy nvelemnek. Az osztlyoz rendszerint szupportvektorgp [8],
vagy maximum entrpia osztlyoz [1][5]. Gyakran tbb akr klnbz tpus tanult is kombinlnak [13]. A nvelem-felismerk msik, elterjedtebb csoportja a
szekvenciatanulst alkalmaz mdszerek. A Markov-mezket [14] egyre inkbb a
feltteles vletlen mezk vltjk fel a szekvenciajell rendszerekben. A CoNLL2002 s a CoNLL-2003 nvelem-felismersi feladatainak eredmnyei azt mutattk
hogy a tokenenknti osztlyozst vgz rendszereket tbbnyire fellmljk a tbb
token feletti cmkeeloszlst tanul megkzeltsek a nvelem-felismersi feladatokban. [17][18]
Az ltalunk fejlesztett nvelem-felismer mdszer az SZTENER [3]
nyelvfggetlen nvelem-felismer rendszer magyar nyelvre adaptlt vltozatbl indul ki. A szoftver a feltteles vletlen mezk mdszernek MALLET [9] programcsomagban tallhat verzijn alapszik. Elsrend lncolst alkalmaz, a jellemzk
kztt ortografikus, szfrekvencia alap, valamint sztr jellemzk tallhatak. A
tant s teszthalmaz mondataibl s szavaibl ennek a rendszernek a jellemzkinyer modulja segtsgvel ksztettnk a gpi tanul algoritmusok szmra feldolgozhat jellemzvektorokat.

4.2 A nvelemfelismer rendszer modellje

zi1

zi

zi+1

wi1

wi

wi+1

1. bra: A nvelemek felismershez hasznlt elsrend modell. A fehr krk a cmkk rejtett vltozit, a szrkk a jellemzk megfigyelhet vltozit, a fekete ngyzetek a vltozk
kztti faktorokat jellik.

A nvelem-felismer architektrjt megtartva a FactorIE feltteles valsznsgi


programozsi krnyezetben az [11] brn lthat elsrend feltteles valsznsgi
modellt definiltunk. A modell a sz jellemzi (w0,w1,...,wn) s cmki (z0,z1,...,zn) ,
valamint az egymst kvet cmkk kztt definil faktorokat. Az egyetlen klnbsg
az eredeti s az ltalunk fejlesztett rendszer kztt, hogy a feltteles valsznsgek
pontos kiszmtsa helyett kzelt mdszereket alkalmaztunk, ugyanis az egyttes
cmkzsi feladat sorn elll bonyolult modell kiszmtsa csak kzelt mdszerekkel kivitelezhet elfogadhat idn bell.

136

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

5 Szfaji kdok meghatrozsa


A szfaji kdok fontos szerepet tltenek be a szveg tovbbi nyelvszeti elemzse
sorn, illetve sok megkzelts kzvetlenl jellemzknt is hasznlja. A kdok hozzrendelse tokenalapon trtnik. Jelen munkban az MSD-kdrendszer egy egyszerstett, gpi tanulsi mdszerekkel knnyebben kezelhet vltozatt hasznljuk.

5.1 Kapcsold munkk


Korbban tbb szfaji cmkz rendszer is kszlt a magyar nyelvre, mint pldul a
szably alap RGLearn, illetve ms, rejtett Markov-modellekre pl statisztikai
mdszereket alkalmaz algoritmusok [4][6][12]. A szfaji cmkzsi feladat szerves
rsze klnsen ersen agglutinl nyelvek esetben, mint pldul a magyar a
szavak morfolgiai elemzse. A korbban emltett magyar szfaji egyrtelmstk a
HuMOR1, illetve MetaMorpho2 rendszereket, valamint a NooJ magyarra tltetett
verzijt3 alkalmaztk.
A szfaji cmkz jellemzkszlete s felptse a magyarlanc nev [20], a
Stanford POSTagger [19] mdostsval ltrehozott szfaji cmkzn alapszik, amely
krkrs fggsg vletlen mezket alkalmaz maximum entrpia osztlyozt
hasznl. A magyar nyelvre kifejlesztett jellemzkszlet az 1-3 hossz
karakterprefixeket s suffixeket, a szavakat s azok szmintjt tartalmazza. Ezen
kvl krnyezeti jellemzknt a sz eltte s utna ll szavakkal alkotott bigramjait,
valamint a szavak s a krnyezetben tallhat szavak szfaji cmkinek kombinciit hasznlja. A szfaji kdok, illetve azok bi- s trigramjai a cmkzs sorn dinamikusan llnak el, a rendszer a lehetsges kombincikat elemezve dnt a cmkkrl,
gy a mdszer a tokenosztlyozs s a szekvenciaosztlyozsi mdszerek jegyeit is
magn hordozza. Az adott szhoz rendelhet szfaji kdokat a morfolgiai elemz
ltal megadott lehetsges kdok halmazbl veszi a cmkz, ezzel is cskkentve a
keressi teret [4].

5.2 A szfaji cmkz modellje


Mivel a szfaji cmkz ciklikus helyi fggsgeket tartalmaz maximum entrpia
osztlyozt hasznl modellje egy az egyben nem ltethet t a FactorIE feltteles
valsznsgi programozsi krnyezetbe, a 2. brn lthat, az eredeti mdszer tleteit felhasznl msodrend vletlen mezs modellt definiltunk. A modell a nvelem-felismer szerkezethez hasonl, de a sz jellemzi (x0,x1,...,xn) s cmki
(y0,y1,...,yn), valamint az egymst kvet cmkk kztti faktorokon kvl a nem kzvetlenl egymst kvet cmkk kztt is ltrehoz feltteles kapcsolatokat. Ez azrt

1 http://www.morphologic.hu/Morfologiai-elemzes.html
2 http://www.morphologic.hu/MetaMorpho-technologia/menuazonosito-256.html
3 http://corpus.nytud.hu/nooj/

Szeged, 2011. december 12.

137

fontos, mert a szfaji kdok ersen fggenek nem csak az ket kzvetlenl megelz,
hanem az azt megelz cmktl is.

yi1

yi

yi+1

xi1

xi

xi+1

2. bra: A szfaji cmkz ltal alkalmazott msodrend modell.

A szavak felszni jellemzi mellett a morfolgiai elemz ltal megadott lehetsges


szfaji kdok is kln vektorvltozba kerltek. Az eredeti magyarlanctl val
eltrs, hogy a keress nem korltozdik csak ezekre a cmkkre, emiatt szmos esetben olyan cmkket is helyesen meghatrozott, amiket a morfolgiai elemz hibsan nem ajnlott fel.
wi1

wi

wi+1

zi1

zi

zi+1

yi1

yi

yi+1

xi1

xi

xi+1

3. bra: A kt klnll valsznsgi modell egyestse. A vilgos s sttszrke sznnel


jellt faktorok a kt cmkesorozat kztti sszefggsek lersra szolglnak.

138

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

6 Nvelemek s szfaji kdok egyttes cmkzse


A szfaji cmkzs s a nvelem-felismers valsznsgi modelljeit a 3. brn lthat modellben egyestettk. A kt cmkesorozat elemei kztt, valamint a nvelem
cmkjnek vltozja s a megelz sz szfaji kdjnak vltozja kztt j faktorokat alkalmaztunk a modellek sszekapcsolsra. Ezen faktorok paramterei lesznek
azok, amelyek a tanuls utn lerjk a kt cmkesorozat kztti sszefggseket.

7 Eredmnyek
Mdszernket a Szeged Korpusz zleti hreket tartalmaz alkorpuszn rtkeltk ki,
melyben be vannak jellve az etalon tulajdonnevek [2][16]. Az eredeti MSDannotciban a tulajdonnevek Np-s* kddal rendelkeztek, tovbb a tbbtag tulajdonnevek ssze voltak vonva. A kirtkelst megelzen sztdaraboltuk a tbbtag
tulajdonneveket, s tagjaikat jraannotltuk, a fnevek esetben pedig nem tettnk
klnbsget a kznvi s tulajdonnvi hasznlat kztt (azaz a kznv s tulajdonnv
kdokat felvltotta a fnv kd). gy teht a Magyar Nemzeti Bank j kdja A A N
lett. A magyar nyelven vgzett ksrleteink azt mutatjk, hogy az angolhoz hasonlan eredmnyeink meghaladjk a szekvencilisan tantott modellek hatkonysgt.
A tantshoz s a kirtkelshez a rendelkezsre ll tbb mint 221 ezer tokent s
9400 mondatot tartalmaz korpuszt kt rszre osztottuk a mondatok vletlenszer
halmazba sorolsval. A tant halmazba gy a mondatok megkzeltleg 60%-a kerlt, a maradkot kirtkelsre hasznltuk.

7.1 A nvelem-felismers kirtkelse


A jelen munkban szerepl nvelem-felismersre vonatkoz eredmnyek mind frzisalap kirtkelsbl szrmaznak. Ez azt jelenti, hogy tbbszavas nvelemek esetn
csak az a jells szmtott helyesnek, ahol a nvelem minden szava helyesen volt jellve, s tovbbi szavak nem kerltek jellsre. Az sszehasonlthatsg rdekben
az sszes rendszert ugyanazokon a halmazokon tantottuk s rtkeltk ki, azonos
metrikkat alkalmazva. Ezt a frzisalap F-mrtket alkalmaztk a CoNLL-2003 nvelem-felismersi feladat kirtkelse sorn is, az itt kzlt eredmnyek azonos mdszerrel lettek megllaptva.
A kiindulsi rendszer teljestmnye mellett az ltalunk fejlesztett rendszerek eredmnyeit a tanul algoritmus 2 s 5 iterciig tart futtatsa mellett is megadjuk mind
a szfaji cmkzstl fggetlenl tantott nvelem-felismer, mind az egyttesen tantott s osztlyozott nvelem-felismers esetben.

Szeged, 2011. december 12.

It.
2
5

1. tblzat: Nvelem-felismers eredmnyei.


Rendszer
Preczi
Feds
SZTENER nvelem-felismer
86,81
88,71
Fggetlen osztlyozs
86,81
81,11
Egyttes osztlyozs
88,57
89,27
Fggetlen osztlyozs
84,73
81,60
Egyttes osztlyozs
89,71
90,04

139

F=1
87,75
83,86
88,93
83,13
89,87

Az 1. tblzatban tallhat eredmnyek megerstik, hogy a nvelemek szfaji


kdokkal val egyttes osztlyozsa azonos jellemztr esetben jelentsen javtja a
cmkzs teljestmnyt a fggetlenl tantott modellhez kpest. A fggetlen modell a
kiindulsi rendszernl is gyengbb teljestmnyt 83,86-rl 88,93-ra nveli. A jellemztr brzolsnak gyengesgt sejteti, hogy az eredetileg is gyengbb eredmnyt
csak cskkenti a tanul itercis szmnak nvelse, vlheten tltanulja a jellemzket. Ezt az informcihinyt kompenzlhatja az egyttes tanulskor a szfaji kdok
jelenlte.

7.2 A szfaji cmkzs kirtkelse


A szfaji cmkzst a cskkentett MSD szfaji kdok alapjn tantottuk s
predikltuk [20]. Ez az MSD-kdoknak egy szktett kszlete (42 kd), ahol csak
azok a szfaji kdok vannak megklnbztetve, ahol a szalakbl nem dnthet el
egyrtelmen a sz eredeti MSD-kdja. Erre a cmketr cskkentse miatt van szksg, mert az eredeti tbb szz cmkt tartalmaz kdrendszer gpi tanul mdszerekkel kezelhetetlen lett volna.
A cskkentett MSD-kdokat tovbb reduklva csak a szfajt jell els karaktert
megtarva is elvgeztk a szfaji cmkzk kirtkelst, gy lthatv vlt, hogy a
cskkentett MSD-kdokon szinte azonos eredmnyt elrt rendszerek ltal hibsan
jellt MSD-kdok mennyire trnek el egymstl, azaz mennyire slyos hibkat vt a
kt cmkz.
A szfaji cmkzst a nvelem-felismershez hasonlan a kiindulsi rendszerhez
hasonltottuk, s megmrtk a csak szfaji cmkzst vgrehajt modell s az egyttes osztlyozs kztti klnbsgeket is. A rendszernket ebben az esetben is kett,
illetve t iterciig tantottuk.
A nvelem-felismerstl eltren nem F-mrtket, hanem pontossgot alkalmaztunk a rendszerek teljestmnynek elsdleges mrshez. A pontossg mellett az
egyes MSD/szfaji osztlyokon elrt F-mrtkek tlagt (makrotlag, 1. kplet) is
megadtuk a rendszerekhez. Mg a pontossg a szveg szavainak tlagos osztlyozsi
pontossgt rja le, a makrotlag azt mutatja meg, hogy a ritkn elfordul cmkk
osztlyait mennyire jl ismeri a rendszer. Ha ugyanis csak a gyakori szfajcmkket
osztlyozza helyesen, akkor az osztlyonknti F-mrtkek tlaga alacsony lesz a sok
kis elemszm, rosszul cmkzett szfaji osztly miatt.

140

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

It.

2
5

2. tblzat: Szfaji cmkzs eredmnyei.


Reduklt MSD-kd Csak szfaj
Rendszer
PontosF=1 macro Pontossg F=1 macro
sg
magyarlanc
97,11
67,81
97,98
85,18
Fggetlen oszt.
97,75
71,03
98,60
84,12
Egyttes oszt.
97,78
72,48
98,68
86,32
Fggetlen oszt.
71,33
98,78
86,44
98,00
Egyttes oszt.
97,99
73,32
98,81
88,77

F 1 macro 

 1

ci

, vci {C

(1)

A szfaji egyrtelmsts tern azt tapasztaltuk, hogy eredmnyeink javulsa elssorban a nagybetvel kezdd alakok helyes elemzsnek ksznhet. Ez nem meglep, hiszen a magyarban ltalban a tulajdonnevek s a mondatkezd szavak kezddnek nagybetvel. A tulajdonnevek s szfaji kdok egyttes jellsvel a mondatkezd tulajdonneveket knnyebb volt azonostani, gy a maradk mondatkezd
elemek szfajt is nagyobb hatkonysggal lehetett megllaptani: pldul a Szerinte
mondatkezd elem fnvi kdot kapott a szekvencilis jellsben, azonban az egyttes jells sorn mr a helyes hatrozszi kdot kapta.
Kiemelked javulst figyelhettnk meg a rvidtsek esetben is. Noha ez a szosztly kevs elemet tartalmaz, felismersk 17,86%-kal javult, ami fleg a tulajdonnv rszt kpez Jr. s Dr. el-, illetve uttagoknak pontosabb azonostsnak volt
ksznhet. Az indulatszavak kategrijba lettek sorolva olyan tulajdonnevek is,
amelyeket a morfolgiai elemz helytelenl olyan sszettelknt rtelmezett,
amelynek uttagja indulatsz, pldul Palotain. Ezek tulajdonnvknt val felismerse javtott a rendszer teljestmnyn.
sszessgben azt figyelhettk meg, hogy a rendszer klnsen a ritkn elfordul szfajok felismersben volt kpes javulni, mg a nagyobb szosztlyok esetben
minimlis klnbsgeket vehettnk szre. Utbbiak felismersi pontossga azonban
mr a szekvencilis modell esetben is kiemelked volt (97% feletti), gy a tulajdonnevek hozzadott rtke nem befolysolta rdemben az eredmnyeket.
Az elhanyagolhat pontossgbeli eltrs ellenre a jells minsge javult az
egyttes osztlyozstl. A 2. tblzatban tallhat makrotlagok azt mutatjk, hogy
kzel azonos pontossg mellett az egyttesen tantott rendszer a kis elemszm szfaji kdok osztlyozsban jobb, ezzel sszessgben kiegyenslyozottabb teljestmnyt nyjt. A hibaelemzshez alkalmazott, csak a szfajt figyelembe vev kirtkels pedig azt mutatja, hogy az egyttesen tantott rendszer hibs cmkzskor tbb
esetben rendel olyan szfaji kdot a szavakhoz, amelyek szfaja megegyezik a helyes
szfajjal, azaz az elkvetett hibinak kisebb hnyada slyos tveszts, mint a fggetlenl tantott szfaji kdcmkznek.

Szeged, 2011. december 12.

141

8 Konklzi
Cikknkben a szfaji kdok s a nvelemek egyttes cmkzshez hasznlhat rendszert mutattunk be. Megmutattuk, hogy a hagyomnyos, szeparltan tanul mdszerekhez kpest mindkt cmkzsi feladat teljestmnye ntt. Br a szfaji cmkzs
esetben a vltozs nem olyan jelents, de javultak az egyb minsgi tulajdonsgai.

Ksznetnyilvnts
A kutats rszben a MASZEKER s BELAMI kdnev projektek keretben a
Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005
jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az Eurpai Szocilis Alap trsfinanszrozsval valsult meg.

Bibliogrfia
1. Borthwick, A.: Maximum Entropy Approach to Named Entity Recognition. PhD thesis,
New York University (1999)
2. Csendes D., Hatvani Cs., Alexin Z., Csirik J., Gyimthy T., Prszky G., Vradi T.: Kzzel
annotlt magyar nyelvi korpusz : a Szeged Korpusz. In: Magyar Szmtgpes Nyelvszeti
Konferencia (MSZNY 2003). Szeged (2003) 238247
3. Farkas R., Szarvas Gy.: Nyelvfggetlen tulajdonnv-felismer rendszer, s alkalmazsa
klnbz domainekre. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2006) 2231
4. Halcsy P., Kornai A., Oravecz Cs.: HunPos an open source trigram tagger. In:
Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics
(2007)
5. Chieu, H. L., Ng, H.T.: Named Entity Recognition with a Maximum Entropy Approach. In:
Proceedings of CoNLL-2003 (2003)
6. Kuba A., Bakota T., Hcza A., Oravecz Cs.: A magyar nyelv nhny szfaji elemzjnek
sszevetse. In: Alexin Z., Csendes D. (szerk.): I. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2003) 1622
7. Kripke, S.: Naming and necessity. Blackwell, Oxford (1980)
8. Mayeld, J., McNamee, P., Piatko, C.: Named Entity Recognition using Hundreds of
Thousands of Features. In: Proceedings of CoNLL-2003 (2003).
9. McCallum, A,. "MALLET: A Machine Learning for Language Toolkit."
http://mallet.cs.umass.edu. (2002).
10. McCallum, A., Rohanimanesh, K., Sutton,C.: Dynamic Conditional Random Fields for
Jointly Labeling Multiple Sequences. In: NIPS Workshop on Syntax, Semantics and
Statistics (2003)
11. McCallum, A., Schultz, K., Singh, S.: FACTORIE: Probabilistic Programming via
Imperatively Dened Factor Graphs. In: Advances on Neural Information Processing
Systems (NIPS) (2009)
12. Novk A., Nagy V., Oravecz Cs.: Magyar ismeretlensz-elemz program fejlesztse. In:
Alexin Z., Csendes D. (szerk.): I. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi
Tudomnyegyetem, Szeged (2003) 4554

142

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

13. Radu, F., Ittycheriah, A., Jing, H., Zhang, T.: Named Entity Recognition through Classier
Combination. In: Proceedings of CoNLL-2003 (2003)
14. Miller, S., Crystal, M., Fox, H., Ramshaw, L., Schawartz, R., Stone, R., Weischedel, R. and
the Annotation Group: BBN: Description of the SIFT System as Used for MUC-7. In:
MUC-7. Fairfax, Virginia (1998)
15. Sutton, C.: GRMM: GRaphical Models in Mallet..http://mallet.cs.umass.edu/grmm/.
16. Szarvas, Gy., Farkas, R., Felfldi, L., Kocsor, A., Csirik, J.: A highly accurate Named
Entity corpus for Hungarian. In: Proceedings of International Conference on Language
Resources and Evaluation (2006)
17. Tjong Kim Sang, E. F.: Introduction to the CoNLL-2002 shared task: language-independent
named entity recognition. In: Proceedings of the 6th conference on Natural language
learning - Volume 20 (2002)
18. Tjong Kim Sang, E.F., De Meulder, F.: Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition. In: CONLL '03 Proceedings of the
seventh conference on Natural language learning at HLT-NAACL 2003 - Volume 4 (2003)
19. Toutanova, K., Klein, D., Manning, C., Singer, Y.: Feature-Rich Part-of-Speech Tagging
with a Cyclic Dependency Network. In: Proceedings of HLT-NAACL 2003 (2003) 252259
20. Zsibrita, J., Vincze, V., Farkas, R.: Ismeretlen kifejezsek s a szfaji egyrtelmsts. In:
Tancs, A., Vincze, V. (szerk.): MSzNy 2010 VII. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 275283

Szeged, 2011. december 12.

143

Magyar nyelv klinikai dokumentumok


elfeldolgozsa
Siklsi Borbla1 , Orosz Gyrgy1 , Novk Attila2
1

Pzmny Pter Katolikus Egyetem Informcis Technolgiai Kar, 1083 Budapest,


Prter utca 50/a
e-mail: {siklosi.borbala, oroszgy}@itk.ppke.hu
2

MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5.


e-mail: novak@morphologic.hu

Kivonat A klinikai dokumentumok feldolgozsnak els lpse azok


strukturlsa s normalizlsa. Bemutatjuk, hogy a szerkezeti egysgek
hinyt hogyan tudtuk a formzsi jegyek alapjn automatikus transzformcikkal ptolni, illetve alapvet metainformcikat a foly szvegbl
kinyerni. Ezutn a korpusz szveges rszeit elvlasztottuk a nem szveges rszektl, az gy kapott halmazra automatikus helyesrs-javt,
illetve javaslatgenerl rendszert hoztunk ltre. Mdszernk elssorban
a rendelkezsnkre ll korpusz statisztikai viselkedsre pl, de kls
erforrsokat is bevontunk a jobb minsg elrse vgett. Az algoritmust
kt funkcija: a helyesrs-javts, illetve a javaslatgenerls alapjn rtkeltk ki. Belttuk, hogy mdszernk a teljesen automatikus javtsra
pillanatnyilag nmagban nem alkalmas, azonban ez nem is volt cl, viszont minimlis emberi kzremkdssel hatkonyan alkalmazhat egy
helyes orvosi-klinikai korpusz ltrehozsra.
Kulcsszavak: automatikus helyesrs-javts, orvosi szvegfeldolgozs,
szvegnormalizls

1.

Bevezets

A legtbb krhzban az orvosi feljegyzsek trolsa csupn archivls, illetve


az egyes esetek dokumentlsa cljbl trtnik. Az gy felhalmozdott adattmegek felhasznlsa jelenleg csupn az egyes betegek krtrtnetnek visszakeressre korltozdik. A nyelvtechnolgia, a szmtgpes ontolgik s a statisztikai szvegfeldolgoz algoritmusok lehetv tennk a foly szvegekben rejl
sszefggsek, rejtett struktrk felfedst, a feljegyzsekben tallhat informcihalmaz elrst, abbl tuds kinyerst.
Az angol nyelvterleten az ilyen irny kutatsok elrbb jrnak, azonban
alkalmazhatsguk a magyar nyelv sajtossgai miatt sokszor nem egyrtelm,
tovbb szmos olyan nyelvi erforrs, ami az angol nyelvre hozzfrhet, magyarra nem ltezik. Az orvosi dokumentumok feldolgozsa sorn nem csak a

144

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

magyar nyelv nyelvtani sajtossgait kell gyelembe venni, hanem az orvosi szvegekre klnsen jellemz nehz, olykor hinyos szintaktikai szerkezeteket, rvidtseket, idegen kifejezseket is kezelni kell.
Ezen tapasztalatok alapjn fogalmazdott meg az igny, hogy a magyar
nyelv klinikai dokumentumok feldolgozst a ms nyelveken mr ltez alkalmazsok adaptlsa, tovbbfejlesztse s alkalmazhatv ttele rvn aktvan
kutatott terlett tegyk, tekintettel a kutats vrhat hasznra.
Hossztv clunk egy olyan keretrendszer ksztse, amely orvosi dokumentumokat feldolgozva segthet a klinikai szakembereknek j sszefggsek feltrsban. Cikknkben egy ilyen rendszer megvalstsnak kezdeti lpseit mutatjuk be. Az els problma a rendelkezsnkre ll nyers orvosi szvegek egysges reprezentcijnak kialaktsa. Br a meglv klinikai dokumentumok lthatan rendelkeznek struktrval, de ezekre csak a formzs, illetve a tartalom
rtelmezse alapjn lehet kvetkeztetni. Jelents nehzsg mg a dokumentumokkal kapcsolatban, hogy ksztik nem fordtanak hangslyt a helyes s konzisztens fogalmazsra, tagolsra, helyesrsra. gy szksgesnek lttuk a dokumentumokban meglv zaj (helyesrsi hibk) cskkentst, ami akr orvosonknt/asszisztensenknt, illetve osztlyonknt is vltoz lehet.
Cikknkben bemutatjuk a nyers orvosi dokumentumok feldolgozsakor alkalmazott algoritmusainkat, amelyekkel strukturlis egysgekre bontottuk a krlapokat, s ezzel egytt a felszni jegyekbl knnyen meghatrozhat metainformcikat is kinyertnk, tovbb meghatroztuk az tfed dokumentumrszeket.
Ezek utn bemutatjuk a szveges s a nem szveges rszek elvlasztsra alkalmazott megoldsunkat, majd az automatikus helyesrs-javt rendszer els
eredmnyeit ismertetjk.

2.

A nyers dokumentumok strukturlsa

Rendelkezsnkre llt a klinikai dokumentumok (krlapok) egy rendezetlen


halmaza. A szvegek struktrjra csak a formzs, illetve a tartalom rtelmezse alapjn lehetett kvetkeztetni. Az alapvet tagolson kvl mely nmagban sem tekinthet egysgesnek nem voltak a tovbbi feldolgozs szempontjbl hasznlhatan elklntett egysgek. Az adathalmaz jelents rsze redundns, az egyes esetek krelzmnynek minden korbbi fzisa a krtrtnet sszes
dokumentumban ismtelten megjelenik, gy a folyamat idben ksbbi szakaszban kszlt lersok egyre hosszabbak, az sszes elzmny msolsa rvn. Itt
szintn tapasztalhat volt az egysges rendszer hinya, a folyamatok sszemsolsa tbbfle mdon trtnt (idben korbbi/ksbbi dokumentumok elrbb
vagy htrbb toldsa; diagnzisok elvetse/halmozsa, stb.)
Mivel az eltr szakterletek dokumentumainak felptse eltr, ezrt elsknt a szemszeti dokumentumok feldolgozsa indult el, melynek eredmnyei
kisebb tdolgozssal alkalmazhatak lesznek ms szakterletek, vgl pedig ltalnos orvosi szvegek feldolgozsra.

Szeged, 2011. december 12.

145

1. bra. Egy eredeti dokumentum

2.1.

XML-struktra

A feldolgozs els lpseknt teht szksges volt a dokumentumok struktrjnak azonostsa s annak szabvnyos brzolsa. Az egysgek meghatrozsa
egy egyszer szablyalap mintailleszt eljrssal trtnt, mely a rekordok szemmel is lthat tagolsra pl. gy a foly szvegekben meglv formzsi elemeket transzformltuk a szerkezetet meghatroz jellemzkk. A kinyert struktrk
s metainformcik XML-struktrban val trolsa sorn a dokumentumok felptse a kvetkezkppen alakult:
Teljes eredeti: a teljes dokumentum szvegt eredeti formban is megtartottuk a ksbbi megjelents egyszerstse cljbl
Tartalom: a dokumentumok szabad formj szveges rszeit is tovbb tagoltuk fejlc, diagnzisok, beavatkozsok, javaslat, sttusz, mtt, panasz, stb.
rszek megjellsvel.
Metaadatok: a dokumentumok egyes rszein alapvet automatikus mdszerekkel jl felismerhet, a foly szveges rszektl elklnl, adatokat tartalmaz egysgeket nyertnk ki, elltva ket az adatok tpusra vonatkoz
cmkkkel. A kvetkez metaadatokat nyertk ki: az adott dokumentum tpusa (zrjelents, kezellap stb); a dokumentumot kibocst osztly azonostja; a tblzatos formban explicit mdon megjellt diagnzisok, illetve
beavatkozsok megnevezse s kdja.

146

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Egyszer nvelemek: a munknk jelenlegi fzisban az egyszer mintaillesztssel kinyerhet nvelemek (dtumok, orvosok, mttek) megjellse is megtrtnt, azonban az erre alkalmazott mdszerek nomtsa s pontostsa
mg felttlenl szksges.
Krtrtnet: az egyes betegek krlefolysnak trolsa a klinikai adminisztrcis rendszer hinyossgai miatt jelenleg tbbflekppen trtnik. Gyakori
eset, hogy a krelzmny teljes szvege hozzaddik az jabban keletkez
dokumentumhoz, gy folyamatosan egyre nagyobb dokumentumok kapcsoldnak egy pcienshez, melyek egymst tartalmazzk. Nincs egysges rendszer arra vonatkozan sem, hogy a korbbi vizsglatok lersa a dokumentumban elrbb vagy htrbb esetleg vegyesen kerl be. Ennek ellenre
megvalsult egy automatikus sorbarendezs, amelynek sorn minden dokumentumhoz eltroljuk az t kvet, s t megelz dokumentumokat ha
vannak ilyenek.
2.2.

Szveges rszek elklntse

Az gy kapott struktra jl elklnti a dokumentumok egyes rszeit, azonban


korntsem elegend ahhoz, hogy a szveges rszek nllan kezelhetek legyenek.
Az ltalunk vizsglt szemszeti dokumentumokra klnsen jellemzek az esetek
nagy rszben tlnyoman foly szveget tartalmaz szakaszokba keld olyan
nem foly szveg tpus rszek, melyek az elfeldolgozs sorn zajknt viselkednek. Ilyen rszletek a laboreredmnyek, klnbz szmrtkek, elvlaszt
karaktersorozatok, valamint csupn rvidtseket, specilis jeleket tartalmaz
megllaptsok. Ezek kiszrse szksges volt ahhoz, hogy a nyelvi elfeldolgozs
ksbbi lpsei sorn alkalmazott algoritmusok alapjt kpez korpusz elllthat legyen. Mivel azonban ezek a mintzatok nmagukban sem egysgesek,
klnbz stlus (felttelezheten ms-ms orvos, illetve asszisztens szoksait
tkrz) dokumentumok kztt mg inkbb vltoz mdon szerepelnek, ezrt
szablyok, illetve mintafelismers segtsgvel nem lehetett kiszrni ezeket. A
legkzenfekvbb megoldsknt klaszterezst alkalmaztunk. Mivel ezek a tartalmak sokrtek, ezrt mondatszegmentlst nem alkalmazhattunk, gy a sorokra
bontott dokumentumban ktttk ssze azokat, amik j esllyel egy egysget
alkotnak. Ha egy sor nem mondatvgi rsjelre vgzdik, a rkvetkez sor pedig
nem nagybetvel s nem szmmal kezddik, illetve ha egy sor vgn mondatkzi
rsjel van (vessz, pontosvessz), akkor a kt sort sszektttk.
gy megtartottuk azokat a mondattredkeket, amik a felszni jellemzik alapjn az elklntend (nem szveges) rszekhez llnak kzelebb. Az gy megjellt
konkatenlt sorokat K-means klaszterez algoritmussal csoportostottuk. Clunk
kt diszjunkt halmaz ltrehozsa volt, de k = 2 esetn nem volt elg hatkony
az elklnts. Mivel a jellemzhalmaz mdostsval nem sikerlt clt rnnk, a
klaszterek szmnak vizsglata sorn optimlis eredmnyt k = 7 esetn kaptunk,
(A ht halmazbl kett tartalmazott szveges rszeket, a tbbi t pedig klnbz jelleg nem szveges rszeket) A klaszterezsnl hasznlt jellemzhalmaz,
s az gy ltrejtt tantanyag alkalmazsval a ksbbiekben osztlyozssal is jl
besorolhatak lesznek a dokumentumok egyes rszei. Naive Bayes-osztlyozssal

Szeged, 2011. december 12.

147

tesztelve a jellemzhalmazunk hatkonysgt, 98%-os pontossgot kaptunk egy


100 sorbl ll teszthalmaz esetn.

3.

Helyesrs-javts

A dokumentumok alapvet strukturlsa s a szveges tartalmak meghatrozsa utn a kvetkez feladat a dokumentumok normalizlsa volt, amelynek els
lpse a helyesrsi hibk javtsa. Esetnkben ez nem csupn a magyar nyelv nehzsgeibl ered problmk megoldsra korltozdott, hanem sok olyan hiba
is felmerlt a szvegekben, melyek a szakterlet sajtossgaibl erednek. A legjellemzbb hibk az albbiak voltak:
elgpels, flrets, betcserk,
kzpontozs hinyossga (pl mondathatrok jelletlensge) s rossz hasznlata (pl. betkzk elhagysa az rsjelek krl, illetve a szavak kztt),
nyelvtani hibk,
mondattredkek,
a szakkifejezsek latin s magyar helyesrssal is, de gyakran a kett valamilyen keverkeknt fordulnak el a szvegekben (pl. tensio/tenzio/
tensi/tenzi); kln nehzsget jelent, hogy br egy elvi szabvny ltezik
ezek helyesrsra vonatkozan, az orvosi szoksok vltozatosak, s mg a
szakrtknek is problmt jelent az ilyen szavak helyessgnek megtlse,
hinyos megfogalmazsok gyakori elfordulsa, melyek nem tekinthetk a
hagyomnyos rtelemben vett rvidtseknek, azonban teljes szavaknak, kifejezseknek sem,
szakterletre jellemz rvidtsek, melyeknek sem a jells mdja, sem a
jelentse nem ltalnosthat.
A fenti hibajelensgek mindegyikre jellemz tovbb, hogy orvosonknt, vagy
akr a szvegeket lejegyz asszisztensenknt is vltozak a jellemz hibk. gy
elkpzelhet olyan helyzet, hogy egy adott szt az egyik dokumentum esetn javtani kell annak hibs volta miatt, egy msik dokumentumban azonban ugyanaz
a szalak egy sajtos rvidts, melynek rtelmezse nem egyezik meg a csupn
elrt sz javtsval.
A feladat msik nehzsgt az jelentette, hogy egyltaln nem llt rendelkezsnkre nagy mret helyesen rt klinikai korpusz, ami alapjn el tudtunk
volna lltani a javtshoz hasznlhat nyelvi s hibamodelleket.
Mivel munknk jelen fzisban clunk egy kismret helyesen rt korpusz
ellltsa, gy a javtsi feladatot egy egyszer lineris modellel valstottuk
meg. Ehhez klnbz nyelvi modelleket kombinltunk, melyeket rszben a hibs
korpusz alapjn ptettnk, rszben kls erforrsok bevonsval jttek ltre.
Az els kettt a javts eltti szrknt alkalmaztuk, a tbbit pedig a helyes
alakok ellltshoz.
Stopword lista: az ltalnos stopwordket kiegsztettk a korpuszra jellemz
hasonlan viselked tokenekkel, a leggyakrabban elfordul szalakok kzl
kzzel vlogatva ki ezeket. Ez elssorban az rsjel-karaktereket, szmokat s
egyb nem szknt vagy rvidtsknt kezelend tokeneket tartalmaz.

148

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Rvidtslista: egyszer mintaillesztssel kivlasztottuk a potencilis rvidtseket, majd ezt manulisan szrve jtt ltre a rendszerben hasznlt szhalmaz. Lehetsges rvidtsnek tekintettk azokat a tokeneket, amik nem
mondatvgi szavak, rendelkeznek sz vgi ponttal (s esetleg ms punktucival), morfolgiai elemz szmra ismeretlenek s nem hosszabbak egy elre
megadott korltnl (6 karakter).
Morfolgia ltal elfogadott szavak listja: kivlogattuk a korpuszbl azokat
a szalakokat, amiket a HUMOR morfolgiai elemz elfogadott, azaz helyesnek tekinthetek. Ehhez a morfolgit clszer volt kiegsztennk a szakterletre jellemz szavakkal (gygyszernevek, hatanyagok, orvosi helyesrsi
sztr). Az gy elfogadott szavak listjbl unigram nyelvmodellt ptettnk.
Morfolgia ltal el nem fogadott szavak listja: a fel nem ismert szalakokbl
szintn ptettnk egy gyakorisgi modellt, melyet ktfle mdon vettnk gyelembe a javtott alakok ajnlsa sorn. Amik kis gyakorisggal fordultak
el ebben a listban, azokat tovbbra is rossznak tartottuk, amik azonban
nagyon sokszor rossz alakban jelennek meg, azokat a morfolginak ellentmondan, j alakoknak tekintettk. gy azok a specilis hasznlat kifejezsek, szakszavak, melyeket a morfolgia alapjn nem ismernk fel, elfogadott vlhatnak, hiszen a hasznlatuk elg gyakori ahhoz, hogy elfogadottnak
tekintsk. A korpuszbl generlt kumullt elfordulsi gyakorisgot reprezentl grbe gradiensnek vltozsa alapjn meghatrozott kszbrtknl
(2. bra) nagyobb gyakorisg szavakat tekintjk helyesnek. A kszbrtk
alatti frekvencij szavakat pedig 1 f mdostott gyakorisggal vettk gyelembe. (Abbl a felttelezsbl indultunk ki, hogy a legalbb n-szer ltott
tokenek kzt fellelhet a szalakok legnagyobb hnyada.)
ltalnos s tovbbi szakszvegekbl ll korpuszok: helyes alakok listjhoz
hasonl gyakorisgi modellt ptettnk mg a Szeged Korpusz alapjn, illetve
a BNO3 betegsgek listja s lersa alapjn is. Itt feltteleztk, hogy csak
helyes szalakokat tartalmaznak.
A modellek ltrehozsa utn a javtand szveget egy olyan nyelvfggetlen
tokenizlval szegmentltuk, amely kpes rvidtsek kezelsre a szalakok s
az rsjelek megtartsval egy tokenknt, illetve hibatr. rzketlen a kzpontozsi hibkra, hiszen minden nem alfanumerikus karakter mentn ami nem
rvidts rsze j tokent hoz ltre. Az fenti eszkz ltrehozst az orvosi rekordok klnleges nyelvezete (tredkes szerkezetek) s a kzpontozsi hibk sr
meglte indokolta. A szegmentl egy ltalnos rvidtslistt s a korbban
emltett szakterleti rvidtslistt hasznlja.
A tokenizls utn a stopword-lista s a rvidtslista alapjn kiszrtk azokat a szavakat, amelyekre nem hajtunk vgre javtst. A tbbi szalak mindegyikhez ltrejn egy javaslathalmaz, mely az egy Levenshtein tvolsgra lv
szalakokat, illetve a morfolgia ltal generlt lehetsges javaslatokat rangsorolva tartalmazza. A rangsorols alapjt a fenti modellek s a morfolgia ltal
egyttesen meghatrozott tnyez kpezi. Mivel minden szalakra generlunk
3

Betegsgek Nemzetkzi Osztlyozsa

Szeged, 2011. december 12.

149

2. bra. A morfolgia ltal fel nem ismert szalakok kumullt gyakorisga.

javaslatokat, nem csak azokra, amiket a morfolgia rossznak tl, ezrt azt az
informcit, hogy az eredeti alakot a morfolgia elfogadja-e, a javaslatok rangsorolsnl kell gyelembe venni.
A rangsorols vgn a lehetsgek kzl az els t javaslatot tekintettnk
lehetsges javtsnak. Amennyiben az els s a msodik helyezett kztt elg
nagy klnbsg volt, akkor az els javaslatot automatikusan elfogadtuk helyes
javtsnak, egybknt pedig felhasznli megerstssel trtnt meg a legjobb
javaslat kivlasztsa az els t kzl.

4.

Eredmnyek

Megvizsgljuk, hogy a kapott eljrs mint automatikus javt eszkz s mint


helyesrsi hibkra javaslatot nyjt eszkz milyen eredmnyessggel br. Mivel
nem llt rendelkezsnkre helyesen rt szveg, ezrt a kirtkelshez szksges
teszthalmazt kzzel kellett ellltani. Az eredeti korpusz vletlenszeren kivlasztott 5%-t javtottuk ki (100 bekezdst). Sok szalak esetn szembesltnk
azzal, hogy gyakran az emberi javts szmra sem egyrtelm, hogy mely alakok fogadhatak el helyesnek, klnsen a vegyes latinmagyar rsmddal rt
szakkifejezseknl. A mdszer eredmnyeit az ltalnosan alkalmazott pontossg
s feds alapjn rtkeltk ki. A pontossg ebben az esetben azt mutatja meg,
hogy az els legvalsznbb javaslatot javtsnak tekintve, mekkora a helyesen
javtott tokenek szmnak arnya az sszes trt token szmhoz viszonytva.
A feds rtkbl pedig azt tudhatjuk meg, hogy eredeti anyagban lv hibs
tokenek mekkora rszt javtotta a rendszer helyesen. Az F -mrtk pedig ezek
slyozott harmonikus kzepe. Tovbbi metrikaknt a helyes javaslatok rangjt
mrve a Mean Average Precision-t (MAP) alkalmaztuk.

150

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


1. tblzat. Eredmnyek az egyes modellek slyozott kombinciira
OOV
0,05
0,277
0,312

VOC
0,25
0,277
0,312

SZEGED
0,15
0
0

BNO
0,2
0,166
0.187

ISORIG
0,2
0,166
0.187

HUMOR
0,15
0,111
0

Pontossg
0,5555
0,5417
0.5385

Feds
0,8769
0,8769
0,8462

F0.5
0,5994
0,5865
0,5807

MAP
0,9863
0,9859
0,9853

A kirtkelst a lineris modellnk klnbz slyozott kombinciira vizsgltuk:


A morfolgiai elemz ltal elfogadott s nem el fogadott szavak listja (VOC,
OOV): Mivel a szvegeinket leginkbb az eredeti korpusz jellemzi, ezrt az
ebbl ptett modelleket vettk gyelembe a legnagyobb sllyal. A sajtos
stlus s szhasznlat miatt mindenkppen a korpuszon belli elforduls a
hangslyosabb az ltalnos szhasznlattal szemben.
SZEGED, BNO: Mivel a BNO betegsgek lersa sok szakkifejezst tartalmaz, viszont sokkal ltalnosabb formban, mint ahogy az a javtand szvegekre jellemz, a Szeged Korpusz viszont teljesen ltalnos, htkznapi
kifejezseket, ezrt ezeknek a slyt kisebb mrtkben szksges gyelembe
venni. Az eredmnyeken ltszik, hogy a Szeged Korpusz gyelembevtele
valamelyest javt az rtkeken, azonban slynak tovbbi nvelsvel nem
rhet el jobb eredmny.
ISORIG: Az eredetileg felteheten helyesen rt kifejezsek sajt maguk valsznsgt erstik, azonban ennek a tnyeznek a slyt sem llthattuk
tl nagyra, hiszen ez a morfolgia hibjt, illetve szakterleti hinyossgait
erstette volna.
HUMOR: Jelentsen javtott az eredmnyeken, ha a morfolgia ltal elfogadott javaslatok slyt megnveltk. Ehhez szintn a szakkifejezsekkel bvtett Humor-t hasznltuk.
A korpusz sajtos jellegnek gyelembevtele miatt - az elzetes felttelezsnknek megfelelen - a meglv korpuszra pl modellek(OOV, VOC) magasabb sllyal val gyelembevtele, a morfolgival kiegsztve hozta a legjobb
eredmnyt. (l. 1. tblzat)
A szmszer eredmnyek nem tl magas rtkt tbb jelensg is magyarzza:
A teszthalmaz viszonylag kis mrete nem ad teljes kpet az sszes hibrl,
azonban egy nagyobb tesztszveg ltrehozsa az emberi erforrs ignye miatt nehz.
A rvidtsek felismersnek hinyossgai. Sok esetben nem is rtelmezhet
a helyesrs-javts a rvidtsek felismerse, a tokenizls sorn val helyes
kezelse s a felolds ismerete nlkl. Ilyen mondatok esetn, mint pldul:
szemhjszl idem, mrs. inj. conj, l.sin. vagy Vitr. o.s. (RM) abl. ret. miatt. a kirtkels nem tekinthet mrvadnak, azonban a rvidtsek megfelel kezelst a ksbbiekben fogjuk megvalstani.
Szakterleti tbbrtelmsg a latin-magyar vegyes alakok kezelse sorn. Az
a-, c-k, o-, stb. karakterprok sok esetben egyenrtkek, az ilyen szavaknak sok alakja elfogadott, azonban ez nem fogalmazhat meg ltalnos

Szeged, 2011. december 12.

151

szablyknt. A kirtkels sorn minden sznl a gyakrabban elfordul nhny alakjt tekintettk helyesnek, ez azonban enyhthet lenne brmely
alak engedlyezsvel. Mivel mind az emberi olvas szmra, mind a tovbbi
alkalmazs cljra alkalmas a jelenlegi mdszerrel elrhet valamely forma,
gy csupn a szmrtkek nvekedse lenne vrhat ettl, a tnyleges minsg
javulsa nem.

2. tblzat. Pldamondatok, automatikus javtssal


Hibs mondat
A beteg intraorbitalis implatatumot is
kapott ezrt kliniknkon szeptember vgn,oktber elejn elzetes telefonnegbeszls utn kontrollvizsglat javasolt.
Meibm mirgy nylsok helyenknt srgs
kupakszeren elzrdtak, ezeket megint
tvel megnyitom

Automatikusan javtott mondat


A beteg intraorbitalis implantatumot is
kapott ezrt kliniknkon szeptember vgn,oktber elejn elzetes telefonmegbeszls utn kontrollvizsglat javasolt.
Meibm mirigy nylsok helyenknt srgs
kupakszeren elzrdtak, ezeket megint tvel megnyitom

A javaslatok sorrendjrl elmondhat, hogy amikor nem az els eredmny


tartalmazza a helyes alakot, akkor az els 5 javaslatban az esetek 99,12%-ban
fellelhet a helyes szalak. Tovbb az informci visszakeressben hasznlatos
MAP metrikval is vizsglva a tallati listnk tlagos pontossgt, a legtbb
esetben 98% fltti pontossgot kaptunk.
3. tblzat. Automatikus javaslatok hibs szavakhoz
Eredeti sz Els javaslat Els t rangsorolt javaslat
ltaht
lthat
lthat : 0.1061, ltaht : 0.0004,
ltahet : 0.0, ltapt : 0.0, lgtaht : 0.0
rajtra
rajtra
rajtra : 0.2631, rajta : 0.1053,
rajra : 0.1052, rajtura : 0.1052,
rajtja : 0.10526
implatatumot implantatumot implantatumot : 0.1053, implatatumot : 0.0009, implatatumt :
0.0, implatatumot : 0.0, implatatumot : 0.0

5.

sszefoglals

A jelenlegi algoritmus clja egy olyan helyesrs-javt alapalgoritmus megvalstsa volt, mellyel egy helyesnek tekinthet orvosi korpusz ellltst tudjuk
tmogatni. Ezltal ltrehozunk egy olyan szveget, ami alapjn pontosabb hibamodell pthet egy tovbbfejlesztett rendszer betantshoz.

152

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A javts egyelre csupn szszinten trtnik, a krnyezet gyelembevtele


nlkl. Ahhoz azonban, hogy a krnyezeteket is fel tudjuk hasznlni az egyes
szavak javtsa sorn, egy j minsg n-gramokat tartalmaz nyelvmodellre is
szksg lenne, aminek ellltsa szintn helyes korpuszt ignyel.
A javaslatok sorrendjnek meghatrozshoz s azok generlshoz, tovbb
a modellek felptshez jelenleg csupn teljes szavakat vesznk gyelembe, egy
megfelel hatkonysg guesser segtsgvel azonban lemmaszinten is meg lehetne vizsglni a javaslatok rtkt. Ez minden olyan helyzetben segtene, ahol
a helyesrsi hiba a sztben fordul el.
A magyar nyelv agglutinl jellegbl s az sszetett szavak rsmdjbl
addan a lehetsges szalakok kvzi-vgtelen szma miatt kzenfekv volna
slyozott vges llapot transzducerrel megoldani a javaslatgenerlsi feladatot,
ami tartalmazn mind a morfolgit, mind az elfordulsi gyakorisgokat s a
hibamodellt is.
Az elrt eredmnyek alapjn bemutattuk, hogy a hossz tv clknt megfogalmazott rendszer kezdeti llapotban is olyan alkalmazsokat tesz lehetv,
amelyek az eredeti dokumentumok kereshetsgben, alkalmazhatsgban, ttekinthetsgben jelents elrelpst jelentenek. Bemutattuk, hogy egy tfog,
klinikai dokumentumokat elemz rendszer felptse sorn a kiindulsi llapot
ltrehozsa sem trivilis feladat, szmtalan nehzsggel kell megkzdeni, ami
klnsen a kezdeti lpsek sorn mindenkppen ignyel emberi munkt is. Az
gy elrhet egyre nagyobb s egyre pontosabb korpusz javtsa azonban fokozatosan teljesen automatikuss vlhat.

Hivatkozsok
1. Levenshtein, V.: Binary codes capable of correcting spurious insertions and deletions
of ones. Problems of Information Transmission 1(1) (1965) 817.
2. Contractor, D., Faruquie, T., Subramaniam, L.: Unsupervised cleansing of noisy
text. In: Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Association for Computational Linguistics (2010) 189196
3. Prszky, G., Novk, A.: Computational Morphologies for Small Uralic Languages.
In: Inquiries into Words, Constraints and Contexts., Stanford, California (2005)
150157.
4. Pirinen, T.A., Lindn, K.: Finite-State Spell-Checking with Weighted Language and
Error Models Building and Evaluating Spell-Checkers with Wikipedia as Corpus.
In: Xth SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for
Less-Resourced Languages, LREC 2010. (2010) 1318.
5. Patrick, J., Sabbagh, M., Jain, S., Zheng, H.: Spelling correction in Clinical Notes
with Emphasis on First Suggestion Accuracy. In: 2nd Workshop on Building and
Evaluating Resources for Biomedical Text Mining. (2010) 28.
6. Farkas, R., Szarvas, G.: Automatic construction of rule-based ICD-9-CM coding
systems. BMC Bioinformatics 9 (2008)

IV.Beszdtechnolgia

Szeged, 2011. december 12.

155

Nyelvimodell-adaptci gyflszolglati
beszlgetsek gpi leiratozshoz
Tarjn Balzs1, Mihajlik Pter1,2, Fegy Tibor1,3
1

Budapesti Mszaki s Gazdasgtudomnyi Egyetem,


Tvkzlsi s Mdiainformatikai Tanszk
{tarjanb, mihajlik, fegyo}@tmit.bme.hu
2 THINKTech Kutatsi Kzpont Nonprofit Kft.
3
AITIA International Zrt.

Kivonat: A folyamatos nagysztras gpi beszdfelismers kritikus eleme a


statisztikai nyelvi modell, melynek betantshoz feladatspecifikus (in-domain)
tantadatra van szksg. Ilyen tantadat azonban a gyakorlatban csak
korltozott mennyisgben ll rendelkezsre, mely felveti a feladattl fggetlen
vagy ellenrizetlen (out-of-domain) tantszvegek felhasznlst is.
Formlisan nyelvi modell adaptci rvn pthet be az addicionlis
tantszvegben trolt tuds a feladatspecifikus nyelvi modellekbe. Cikknkben
azt vizsgltuk, hogy telefonos gyflszolglati hanganyagok felismersi
pontossga javthat-e a klnfle nyelvimodell-adaptcis technikkkal.
Ksrleteink szerint mind felgyelt, mind felgyelet nlkli nyelvimodelladaptcival szignifiknsan nvelhet a vals beszlgetseket leiratoz
rendszerek pontossga.

1 Bevezets
A jelenleg elterjedt nagysztras beszdfelismerk statisztikai ton tantott nyelvi
modellt hasznlnak, gy a modell pontossgt dnten befolysolja, hogy milyen
mennyisg s minsg tantszveg ll rendelkezsnkre. J minsg
tantszveg ltalban a felismersi feladathoz illeszked hanganyagok kzi
leirataibl llthat el (in-domain tantszveg). A gyakorlatban azonban a
begyjthet hanganyagok mennyisge s a kzi leiratozs kltsgei hatrt szabnak az
ilyen ton nyerhet tantszveg mretnek. ppen ezrt a tudomnyos kzssget
rgta foglalkoztatja, hogyan lehet az akusztikus modellek adaptcijhoz hasonlan
egy feladattl fggetlen (out-of-domain), de robosztus nyelvi modellt egy in-domain,
de elgtelen mennyisg adaton tantott modellhez adaptlni.
Cikknkben klnbz mret s feladatunkhoz klnbz mrtkben illeszked
tantszvegek alapjn kszlt nyelvi modelleket ksrelnk meg adaptlni
gyflszolglati beszlgetsek felismersre ksztett rendszernkhz. Megmutatjuk,
hogy milyen mdon clszer eljrni, ha kismret, de a feladathoz jl illeszked
kiegszt szveghez jutunk, illetve ha egy tbb tzmilli szt tartalmaz webkorpuszt
szeretnnk felhasznlni az in-domain modell javtsra. Felgyelt adaptci mellett
felgyelet nlkli adaptcis ksrleteket is vgznk, azaz megvizsgljuk, hogyan

156

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

hasznlhatak fel a felismers korbbi kimenetei a nyelvi modell tovbbi


pontostsra.
A nyelvimodell-adaptcis technikknak alapveten kt nagy gt kell
megklnbztetnnk [2]. Az els mdszer az n. maximum a posteriori (MAP)
becslsen alapszik [4], s a clja, hogy gy vltoztassa meg az out-of-domain modell
paramtereit, hogy azok az in-domain modell paramtereinek eloszlst kvessk. A
msik adaptcis megkzeltsnl az objektv cl az, hogy az out-of-domain nyelvi
modell minl kevesebb felismersi hibt vtsen egy kijellt in-domain tesztanyagon.
Itt a paramterek hangolsa diszkriminatv tants tjn trtnik. A kt megkzelts
kzl a MAP-adaptci sok esetben jobban teljest [2], mint a diszkriminatv tants,
emellett a megvalstsa is egyszerbb, gy ksrleteinkben ezt mdszert alkalmaztuk.
A felgyelet nlkli adaptci hatkonyabb tehet, ha konfidenciaadatok alapjn
slyozzuk vagy szrjk a felismersi kimeneteket [5], azonban a rendelkezsnkre
ll felismersi leiratok nem tartalmaztak megbzhatsgi mrtket, gy a felgyelet
nlkli adaptci esetn is csakgy, mint a felgyelt esetben egy ms tpus
vlogatsi eljrst alkalmaztuk, melyet a cikknk ksbbi rszben ismertetnk.
A kvetkezkben elszr a ksrletekhez hasznlt tant s tesztadatbzisokat
ismertetjk, majd kitrnk a modellek tantsnl s adaptlsnl alkalmazott
mdszerekre. A felismersi feladat s mdszertan bemutatsa utn ismertetjk a
klnbz adaptcis megkzeltsekkel kapott eredmnyeket, mg vgl
sszefoglalst adjuk ksrleteink legfontosabb kvetkezmnyeinek.

2 Tant s tesztadatbzisok
2.1 Tant adatbzisok
Kt gyflszolglati rendszer in-domain nyelvi modelljnek javtst tztk ki
ksrleteink cljaknt, melyekre a tovbbiakban MTUBA (Magyar Telefonos
gyflszolglati Beszdadatbzis) I., illetve II. nven fogunk hivatkozni. Az
MTUBA I. rendszernl az in-domain modell tantshoz egy sszesen 380 ezer
szavas, kzi leiratokat tartalmaz tantszveg llt rendelkezsnkre. Az MTUBA II.
feladatnl valamivel kisebb, sszesen 280 ezer szavas kzi leiratot hasznlhattunk. A
felgyelet nlkli adaptcis ksrletekhez tovbbi kt korpuszt gyjtttnk, melyek
az egyes rendszerek felismersi kimeneteit tartalmazzk.
Az adaptcis ksrletekhez szksgnk volt egy a feladatokhoz semmilyen mdon
nem ktd, out-of-domain korpuszra is. Idelis vlasztsnak tnt erre a clra a
Magyar Webkorpusz [6]. risi mrete miatt csak a webkorpusz egy tizedt
hasznltuk, mely nmagban 100 milli szt jelent, gy elegenden nagynak
bizonyult vizsglatainkhoz. Az eredmnyek knnyebb rtelmezhetsge rdekben
egy mind mretben, mind illeszkedsben az in-domain s az out-of-domain
korpuszok kztt elhelyezked kiegszt tantszveget is szerettnk volna tallni.
Erre a megoldst egy gyflszolglati levelezseket tartalmaz, sszesen 1,8 milli
szavas korpusz jelentette. Ez az e-mail korpusz az in-domain szvegekhez hasonlan
gyflszolglati tmj, gy a webkorpusznl jobban illeszkedik a feladathoz,
azonban szigoran vve nem tekinthet in-domain tantanyagnak sem, ugyanis a

Szeged, 2011. december 12.

157

valdi beszlgetsek leiratai sokkal tbb spontn elemet tartalmaznak, mint az


elektronikus levelezs.
1. tblzat: A szveges tant adatbzisok mretei

In-domain
Mret
[milli sz]

Felismersi kimenet

Kiegszt korpusz

MTUBA
I.

MTUBA
II.

MTUBA
I.

MTUBA
II.

E-mail
korpusz

Webkorpusz

0,38

0,28

32

5,3

1,8

100

2.2 Tesztadatbzisok
A vltozatos nyelvimodell-konfigurcik kirtkelshez minden esetben a
tantanyagoktl fggetlen tesztfelvteleket hasznltunk. Az MTUBA II. adatbzison
tbb mint 5 rnyi felvtelt tudtunk tesztelsi clokra elklnteni, mely megbzhat
kirtkelst tesz lehetv, gy tesztjeink tbbsgt ezen vgeztk. Annak rdekben,
hogy minden esetben garantljuk a fggetlen tantst s tesztelst, egy msik,
sszesen 2 rs tesztanyagot is definilnunk kellett az MTUBA II. adatbzison,
melynek rszletes okaira az 4.2.1 fejezetben trnk ki. Az MTUBA I. adatbzison egy
kb. 1 rs tesztanyagot jelltnk ki, melyen felgyelet nlkli adaptcival
kapcsolatos ksrletet vgeztnk.
2. tblzat: A teszt adatbzisok jellemzi

MTUBA I.
MTUBA II.-5h
MTUBA II.-2h

Hossz
[min]
56
300
120

Szavak szma
[ezer sz]
5,7
35
14

3 Mdszertan
3.1 Nyelvimodell-adaptci
Ksrleteinkben a MAP becslsen alapul nyelvimodell-adaptci egy-egy specilis
esett jelent korpuszegyestses (count merging) s nyelvimodell-interpolcis
eljrsokat alkalmaztuk [1]. Kt szveges tudsforrs egyestsnek legegyszerbb
mdja, ha n-gram statisztikjukat egyestjk, s ez alapjn ksztjk el az n-gram
nyelvi modellt. Gyakorlatban ez a kt tantszveg sszemsolsval vitelezhet ki a
legegyszerbben. Ez az eljrs jl mkdhet, ha hasonl mrtkben illeszked
tantszvegeket egyestnk. Abban az esetben azonban, ha egy out-of-domain
tantszveget szeretnnk egy in-domain tantszveghez adaptlni, a
korpuszegyestssel arnytalanul nagy sllyal kerlhetnek az egyestett modellbe a
feladathoz rosszul illeszked tantszveg n-gram becslsei [11]. Ilyenkor

158

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

jelenthetnek megoldst az interpolcis eljrsok, melyekkel klnbz nyelvi


modellek n-gram becslsei egyesthetek tetszlegesen megvlasztott slyoz
tnyezvel. Mi az n. lineris interpolcit alkalmaztuk [7].
3.2 Perplexitsalap elvlogats
Nyelvimodell-interpolcival hatkonyan orvosolhatak az adaptci sorn a
modellek illeszkedsi klnbsgeibl fakad problmk. nmagban hasznlva az
adaptci azonban nem felttlenl elegenden hatkony. Egy nagymret kiegszt
korpusz egyszerre tartalmaz olyan szvegrszeket, melyek a feladatunk
szempontjbl hasznos n-gramokat hordoznak s olyanokat is, melyek nyugodtan
elhagyhatak lennnek. Ha valban el tudjuk hagyni az adaptci eltt az adaptland
nyelvi modellbl azokat az n-gramokat, melyek nem illeszkednek a feladatunkhoz,
kt ponton is nyerhetnk. Egyrszt cskkenthet a nyelvi modell mrete, msrszt a
szksgtelen tantadatok elhagysval a modell pontossga is nhet.
A kiegszt tantszvegek sorainak elvlogatsra egy perplexitsalap eljrst
alkalmazunk. Ennek az egyszer, de hatkony eljrsnak a lnyege abban ll, hogy az
in-domain nyelvi modell segtsgvel kiszmtjuk a kiegszt korpusz minden
sorhoz az illeszkedsi mrtket (perplexitst). Ezek utn kijellnk egy kszbt,
amely alatti perplexitssal rendelkez sorokat megtartjuk, mg a tbbit eldobjuk.
Teht az eljrs lnyegben arra a felttezsre pt, hogy azok a sorok, melyeket nagy
pontossggal kpes megjsolni az in-domain modell, potencilisan tovbb erstik a
modellt, mg azon sorok, melyek rosszul jsolhatak, nem tartoznak szorosan a
felismersi tmhoz, gy elhagyhatak a modellbl.
A perplexitst ktfle mdon szoks szmolni. A hagyomnyos eljrs szerint, az
(1)-es kpletben w0-al jellt mondatkezd szimblumot s a wK+1 mondatzr
szimblumot is figyelembe vesszk a P(s) mondatvalsznsgek szmtsakor. Az ez
alapjn szmtott perplexitst szoks PPL-el jellni.
P s PPL

K 1

P w

| w K 1 ,..., w K  ( N 1)

(1)

i 0

Ezzel szemben a PPL1-gyel jellt metrika a mondatvalsznsgek kiszmtsakor


nem veszi szmtsba mondatkezd s mondatzr karaktereket (2). Vizsglataink
sorn mindkt mrszmot kiprbltuk a gyakorlatban. Az erre vonatkoz
eredmnyeket az 4.1.1 fejezet foglalja ssze.
P s PPL 1

P w
K

| w K 1 ,..., w K  ( N 1)

(2)

i 1

3.3 Tants s dekdols


A vizsglt nyelvi modellek mdostott Kneser-Ney simts [3] hasznlatval kszltek
az SRI Language Modeling Toolkit (SRILM) [10] segtsgvel. A ltrehozott 3gram, szalap modellekben entrpiaalap metszst egyetlen esetben sem

Szeged, 2011. december 12.

159

alkalmaztuk. Interpollt nyelvi modellek ksztshez s optimalizlshoz az SRILM


beptett lineris interpolcis s perplexitsszmt eljrsait hasznltuk.
Az MTUBA I. feladathoz tartoz akusztikus modell tantshoz az erre a clra
elklntett 27 ra, mg az MTUBA II. akusztikus modellhez 38 ra hanganyagot
hasznltuk fel. Az annotlt felvtelek felhasznlsval hromllapot, balrl-jobbra
struktrj, krnyezetfgg rejtett Markov-modelleket tantottunk a Hidden Markov
Model Toolkit [13] eszkzeinek segtsgvel. A ltrejtt akusztikus modell 4048
egyenknt 13 Gauss-fggvnybl ll llapotot tartalmaz az MTUBA I. modell esetn
s 3535 egyenknt 16 Gauss-fggvnybl ll llapotot az MTUBA II. modell esetn.
Minden ksrletben a felismersi feladathoz illeszked akusztikus modellt hasznltuk.
A 8 kHz-en mintavtelezett, telefonos tesztfelvtelek lnyegkiemelshez 39
dimenzis, delta s delta-delta rtkkel kiegsztett mel-frekvencis kepsztrlis
komponenseken alapul jellemzvektorokat hoztunk ltre, s n. vak
csatornakiegyenlt eljrst [8] is alkalmaztunk. A slyozott vges llapot
talaktkra (WFST Weighted Finite State Transducer) [9] pl felismer
hlzatok generlst s optimalizlst az Mtool keretrendszer programjaival
vgeztk, mg a tesztels sorn alkalmazott egyutas mintaillesztshez a VOXerver
[12] nev WFST dekdert hasznltuk. A felismer rendszerek teljestmnynek
rtkelshez szhibaarnyt (WER Word Error Rate) s karakterhiba-arnyt (LER
Letter Error Rate) szmoltunk, utbbi gyakran pontosabb kpet ad egy felismer
rendszer megbzhatsgrl morfmkban gazdag nyelvek esetn.

In-domain modell
x MTUBA I.
x MTUBA II.

Kiegszt korpusz
x E-mail korpusz
x Webkorpusz
x Felismersi kimenetek

Perplexits-alap
korpusz
elvlogats

Adaptci
x Korpuszegyests
x Interpolci

Tesztels
x MTUBA I.
x MTUBA II.-5h
x MTUBA II.-2h

1. bra. Ksrleteink ltalnos mdszertani lpsei


(a szaggatott vonal opcionlis lpst jell).

4 Ksrleti eredmnyek
Ebben a fejezetben a mr bemutatott tant- s tesztadatok felhasznlsval, az elz
fejezetben ismertetett mdszerekkel elrt eredmnyeinket mutatjuk be. Vizsglataink
els felben az MTUBA II. feladat nyelvi modelljhez ksreljk meg adaptlni a
kls tudsforrsokat, majd a fejezet msodik felben a felismersi kimenetekkel
visszacsatolt felgyelet nlkli adaptciban rejl lehetsgeket mutatjuk be.
Ksrleteink ltalnos mdszertani lpseit az 1. bra foglalja ssze.

160

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4.1 Felgyelt adaptci az MTUBA II. nyelvi modellhez


A fejezet sorn hrom tudsforrst prblunk meg adaptlni az MTUBA II. in-domain
nyelvi modellhez: nagymret, ltalnos tematikj webkorpuszt, a kisebb mret,
jobban illeszked e-mail szvegadatbzist s az MTUBA I. feladat tantszvegt.
4.1.1 PPL s PPL1 metrika sszehasonltsa
Annak eldntsre, hogy a tantszvegek sorainak elvlogatshoz melyik
perplexits-mrszmot rdemes alkalmazni, terveztnk egy ksrletsorozatot. Els
lpsknt kerestnk olyan PPL s PPL1 rtkprokat, melyeknl a webkorpuszon
vgrehajtva a vlogatst egyforma mret tantszveget kapunk. A krds ezek utn
gy mdosult, hogy melyik ilyen mdon kapott elvlogatott tantszveggel
rhetnk el nagyobb pontossgnvekedst az MTUBA II. felismersi feladaton.
Ennek meghatrozshoz egyestettk az elvlogatott webkorpuszokat az MTUBA
II. tantszvegvel, majd az egyestett tantszvegeken tantottunk j nyelvi
modelleket. Ezutn az j nyelvi modellekkel perplexits- s sztron kvli szarny
(OOV Out of Vocabulary) mrseket hajtottunk vgre az MTUBA II.-5h
tesztanyagon. A ksrletsorozat eredmnyeit a 3. tblzatban foglaltuk ssze.

3. tblzat: MTUBA II. in-domain modell s a PPL, valamint PPL1 alapjn elvlogatott
webkorpusz korpuszegyestses adaptcijval kapott eredmnyek az MTUBA II.-5h
teszthalmazon kirtkelve.

Vlogatsi
mdszer / hatr
PLL-400
PLL1-750
PPL-200
PLL1-400
PPL-100
PPL1-260
PPL-50
PPL1-200

MTUBA II.
tantszveg

Kiegszt
webkorpusz

[milli sz]

[+milli sz]

0,28

22

0,28

7,5

0,28

0,28

1,5

OOV arny

PPL

(MTUBA II.-5h) (MTUBA II.-5h)


[%]
[-]

1,7
1,7
2,1
2,1
2,5
2,6
2,9
2,9

580
550
501
454
423
373
357
320

A 3. tblzat alapjn azt mondhatjuk, hogy azonos kiegszt korpusz mret


mellett a PPL1 metrika segtsgvel elvlogatott webkorpusz nagyobb mrtkben
jrul hozz az in-domain modell pontostshoz. Ez abbl olvashat ki, hogy az
MTUBA II.-5h tesztanyagon mindkt megkzelts pronknt nagyjbl megegyez
OOV-arny rt el, azonban a PPL1 vlogatssal kaphat perplexitsok minden
korpuszmret mellett alacsonyabbak. Ennek oka az lehet, hogy a rvid, sok sztron
kvli szt tartalmaz soroknl a PPL1 metrika relisabb kpet fest az illeszkeds
mrtkrl. A tovbbiakban minden esetben PPL1 alapjn vgezzk a kiegszt
korpuszok sorainak elvlogatst.

Szeged, 2011. december 12.

161

2 bra. A webkorpusz sorainak PPL1 eloszlsa az MTUBA II. in-domain modell alapjn,
[0;20000] tartomnyon brzolva.

4.1.2 Adaptcis paramterek


Annak rdekben, hogy megfelel vlogatsi kszbt tudjunk belltani a
webkorpuszon, ismerni kell a sorainak PPL1 eloszlst (2. bra). Az adaptcis
ksrletekhez a mr elz pontban is vizsglt PPL1-400 illetve PPL1-260
elvlogatsi hatrokat vlasztottunk. 400-nl nagyobb hatrt megengedve, nagyon
megntt volna az adaptlt modell memriaignye, mg 260-nl kisebb hatrt belltva
mr tl sok rtkes sort vesztettnk volna. Az interpolcis sly optimalizlsakor
mindkt korpuszmret mellett a webkorpuszok 0,1-es slyozs figyelembevtelvel
kaptuk a legalacsonyabb perplexitsokat az MTUBA II.-5h tesztanyagon.
Az e-mail korpuszon a webkorpusz esetben mr bemutatott eljrst kvettk.
Elszr megvizsgltuk a korpusz sorainak MTUBA II. in-domain modellel szmtott
PPL1 eloszlst (3. bra), majd ez alapjn vlogatsi kszbrtkeket hatroztunk
meg. A kt kivlasztott kszbrtk az eloszls els cscsnak hatrhoz (1000),
illetve a mg szmottev mintval rendelkez tartomny hatrhoz (6000) illeszkedik.
Az e-mail korpusz azonban a webkorpusznl kt nagysgrenddel kevesebb szt
tartalmaz, ezrt a korpusz elvlogats mellett a vlogats nlkl kaphat

3. bra. Az e-mail korpusz sorainak PPL1 eloszlsa az MTUBA II. in-domain modell
alapjn, [0;6000] tartomnyon brzolva.

162

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

eredmnyekre is kvncsiak voltunk. A perplexits minimalizlst clz ksrleteink


eredmnyeknt a webkorpuszhoz hasonlan itt is a 0,1-es kiegszt modell sly
addott optimlisnak minden esetben.
A ksrletsorozat utols llomsaknt az MTUBA I. modellt adaptltuk az
MTUBA II. modellhez. Mivel a kt gyflszolglati feladat szhasznlatban s
fordulataiban nagyon hasonlt egymshoz, az MTUBA I. kzel in-domain
tantszvegnek tekinthet, gy itt a korpuszegyestses eljrst is kirtkeltnk. Az
MTUBA I. korpusz kis mrete miatt korpusz-elvlogatst nem alkalmaztunk. Az
interpolci sorn az idelis kiegszt modell sly 0,2-nek addott.
4.1.3 Felgyelt adaptcis felismersi eredmnyek
A MTUBA II.-5h felismersi feladaton kirtkelt felgyelt nyelvimodell-adaptcis
eredmnyeket a 4. tblzatban foglaltuk ssze.
4. tblzat: MTUBA II.-5h tesztanyagon mrt felismersi eredmnyek felgyelten adaptlt
nyelvi modellek hasznlatval.
Nyelvi modell
MTUBA II. in-domain
+0,1 Webkorp. PPL1-400
+0,1 Webkorp. PPL1-260
+0,1 E-mail korpusz
+0,1 E-mail korpusz PPL1-6000
+0,1 E-mail korpusz PPL1-1000
+MTUBA I. (korpuszegyests)
+0,2 MTUBA I. (interpolci)

Sztrmret
[ezer sz]
21
386
228
70
55
40
37
37

OOV
arny
[%]
4,3
2,1
2,6
3,3
3,4
3,7
3,1
3,1

PPL
[-]

WER
[%]

LER
[%]

167
208
201
181
178
176
189
176

46,4
45,2
45,5
45,4
45,3
45,6
45,4
45,2

25,0
24,6
24,7
24,6
24,6
24,7
24,6
24,5

A felismersi eredmnyek alapjn lthat, hogy a felgyelt adaptcival kszlt


modellek hasznlatval szignifiknsan alacsonyabb felismersi hibt rhetnk el, mint
az in-domain MTUBA II. modellel. Br a kismret in-domain nyelvi modellel
mrhet a legkisebb perplexits MTUBA II.-5h tesztanyagon, az adaptlt nyelvi
modellek ellenslyozni tudjk ezt nagyobb sztrmretkkel, melynek segtsgvel le
tudjk szortani a tesztanyagon mrhet OOV arnyukat.
A legalacsonyabb felismersi hibt mind LER mind WER rtelemben az MTUBA
I. adaptcijval rtk el, radsul az adaptlt modellek kzl ehhez tartozott a
legkisebb sztrmret is. Igaz teht, hogy a feladathoz jl illeszked tantanyagok a
legnehezebben hozzfrhetek s esetenknt a legkltsgesebbek is, azonban ezekkel
lehet a leghatkonyabban vgrehajtani az adaptcit. Megfigyelhet tovbb, hogy
hasonl mrtkben illeszked tantszvegek esetn is eredmnyesebb eljrs a
modell-interpolci, mint a korpuszegyests.
Az MTUBA I.-tl nagyon kicsit elmaradva, meglepen jl teljestett a
webkorpuszos adaptci. Igaz, hogy ugyanakkora WER elrshez itt tzszer akkora
sztrra volt szksg, azonban az MTUBA I.-el ellenttben a webkorpuszt
hatkonyan lehet adaptlni ms felismersi feladathoz is, gy egyfajta univerzlis
kiegszt modellnek tekinthet. Az e-mail korpusszal mrt eredmnyek is csak kis

Szeged, 2011. december 12.

163

mrtkben maradnak el a kt korbbi csoport eredmnyeitl. Itt a valdi rdekessget


az adja, hogy sszevethetek a teljes s vlogatott kiegszt korpusszal kapott
eredmnyek. Ez alapjn azt mondhatjuk, hogy a tlzott metszs ronthatja az adaptci
hatsfokt (PPL1-1000), azonban az sem igaz, hogy a teljes out-of-domain korpusz
alkalmazsa j megolds. Optimlis eredmny akkor szletett, amikor br szrtk a
korpuszt, de nem tlzottan nagy mrtkben. Mindez arra is utalhat, hogy akr
pontosabb felismersi eredmny is elrhet lenne a webkorpusz hasznlatval, ha az
adaptci eltt nagyobb elvlogatsi kszbt alkalmaznnk, azonban ilyen nagy
sztrmret felismer hlzatot szalapon nem tudunk ltrehozni a hlzatpts
nagy memriaignye miatt.
4.2 Felgyelet nlkli adaptci
Felgyelet nlkli adaptcis ksrleteket az MTUBA I. s MTUBA II. feladaton is
vgeztnk. Vizsglataink kzponti krdse az volt, hogy a felismer rendszer nyelvi
modellje vajon milyen mrtkben kpes profitlni abbl, ha az ltala generlt korbbi
kimenetekkel adaptlunk.

4. bra. Az MTUBA I. felismersi kimeneteit tartalmaz korpusz sorainak PPL1


eloszlsa az MTUBA I. in-domain nyelvi modell alapjn, [0;2000] tartomnyon

4.2.1 Adaptcis paramterek


Felgyelet nlkli adaptci esetn egybl addik a krds, hogy vajon szksg van-e
perplexitsalap korpusz elvlogatsra. A krds megvlaszolshoz felvettk a 32
milli szavas MTUBA I. felismersi kimenet korpusz PPL1 eloszlst MTUBA I. indomain modell alapjn (4.bra). Mg a webkorpusz esetn egy nagyon vegyes
szveggel lltunk szemben, ezrt jl klnvlaszthatak voltak a jl s kevsb jl
illeszked sorok, addig a felismersi kimeneteket tartalmaz korpusznl sokkal
egyenletesebb az eloszls, s az illeszkeds mrtke is tlagosan nagyobb. Ez alapjn
az felttelezhet, hogy nagymrtk mretcskkents csak jl illeszked sorok
elhagysnak rn valsthat meg. ppen ezrt az eredeti, vlogats nlkli
korpusszal is vgznk adaptcit. Az idelis kiegszt modellsly 0,9-nek addott az
elvlogatott s az eredeti korpusz hasznlatakor egyarnt.

164

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az MTUBA I. mellett az MTUBA II. feladaton is szerettnk volna felgyelet


nlkli adaptcis ksrleteket vgezni. Ehhez azonban nem hasznlhattuk az
MTUBA II.-5h tesztanyagot, ugyanis az MTUBA II. rendszerrel elll felismersi
kimenetek a felismer egy olyan konfigurcijbl szrmaztak, ahol az in-domain
nyelvi modell az 5 rs tesztanyag leiratait is tartalmazta. Ez tovbbi 2 ra MTUBA
II. hanganyag kzi trst tette szksgess, melybl megszletett a tantstl mr
fggetlen MTUBA II.-2h tesztanyag. MTUBA II. esetn csak a teljes, vlogats
nlkli kiegszt korpusszal vgeztnk ksrletet. A kiegszt modellsly rtkt
0,8-nl mrtk optimlisnak.
4.2.2 Felgyelet nlkli adaptcis eredmnyek
A felgyelet nlkli adaptcival kszlt felismersi eredmnyeket az 5. tblzatban
foglaltuk ssze.
5. tblzat: Felgyelet nlkli adaptcis eredmnyek az MTUBA I.
s MTUBA II.-2h teszthalmazon.

Nyelvi modell
MTUBA I. in-domain
+ 0,9 MTUBA I. felism. PPL1-300
+ 0,9 MTUBA I. felism.
MTUBA II. in-domain
+ 0,8 MTUBA II. felism.

OOV arny
[%]
5,7
5,7
5,7
5,6
5,6

PPL
[-]
310
207
192
255
173

WER
[%]
48,0
47,5
46,8
50,9
49,7

LER
[%]
25,9
25,5
25,1
27,5
26,9

Megfigyelhet, hogy felgyelet nlkli adaptcival az OOV arnyt nem lehet


cskkenteni, ami nem meglep, hiszen ennl az eljrsnl az in-domain nyelvi modell
ltal szolgltatott felismersi kimeneteket integrljuk, azaz a rendszer sztra elvileg
sem bvlhet. rdekes eredmny azonban, hogy a korbbi kimenetek
figyelembevtelvel jelentsen sikerlt cskkenteni a perplexitst s gy a sz-, illetve
karakter-hibaarnyt is. Azaz egy mkd rendszerben rdemes lehet a felismersi
eredmnyeket idrl-idre adaptlni a nyelvi modellhez, ugyanis ezzel tovbbi
kltsgek nlkl pontosabb tehet a felismers. A kiegszt korpusz mrett itt
azonban nem rdemes cskkenteni, mert mint az mr a perplexitseloszls alapjn is
sejthet volt (4. bra), nehz olyan vgsi hatrt tallni, mely mg jelentsen
cskkenti a modellmretet, viszont nincs jelents hatssal a felismersi hibra.

5 sszefoglals
Cikknkben azt vizsgltuk, hogy milyen mdszerekkel s milyen mrtkben lehet
felgyelt s felgyelet nlkli adaptcis technikkkal telefonos gyflszolglati
hanganyagok felismersre ksztett rendszerek in-domain nyelvi modelljeinek
pontossgt javtani. Eredmnyeink alapjn azt a kvetkeztetst vonhatjuk le, hogy
amennyiben a nyelvi modell mretnek az alacsonyan tartst tzzk ki clul, akkor a
legjobb eredmnyt a felismersi feladathoz jl illeszked nyelvi modellek

Szeged, 2011. december 12.

165

felhasznlsval rhetjk el. Ilyen tantadatok azonban nem minden esetben llnak
rendelkezsre korltlan mennyisgben, illetve ellltsuk a kltsgek miatt
esetenknt mr nem gazdasgos. Ebben az esetben tovbbi pontossgnvekeds
rhet el out-of-domain tantkorpusz felhasznlsval is, ha a cikknkben ismertetett
mdon kinyerjk a feladathoz jl illeszked rszeket a korpuszbl. El kell azonban
fogadni, hogy a nem feladatspecifikus tantadatok felhasznlsa hatatlanul a modell
mretnek nvekedsvel jr.
Klnsen rtkes s a gyakorlatban jl hasznosthat eredmny tovbb, hogy kt
mr mkd gyflszolglati felismer rendszerben tlagosan 2,4%-os relatv WERcskkenst sikerlt elrni a felismersi kimenetek felgyelet nlkli adaptlsval.
Felgyelet nlkli adaptcinl az OOV arny nem cskken, hiszen felismer
rendszer sztra nem bvl, gy a javuls egyedl a nyelvi modell jobb elrejelz
kpessgre vezethet vissza, mely a nagy mennyisg in-domain hanganyag gpi
leiratban rejl tuds felhasznlsnak ksznhet.

Ksznetnyilvnts
Kutatsunkat a TMOP-4.2.1/B-09/1/KMR-2010-0002-es, a KMOP-1.1.1-07/12008-0034-es, a GOP-1.1.1-09/1-2009-0068-as, a KMOP-1.1.3-08/A-2009-0006-os
s a NAP-1-2005-0010-es projektek keretben az NF s az NIH tmogatta.

Bibliogrfia
1.
2.

3.

4.

5.

6.

7.
8.
9.

Bacchiani, M., Roark, B.: Unsupervised language model adaptation. In: Proc. of
Acoustics, Speech, and Signal Processing (ICASSP 03) (2003) 224227
Bacchiani, M., Roark, B., Saraclar,M.: Language model adaptation with MAP
estimation and the perceptron algorithm. In: Proc. of HLT-NAACL 2004 (2004) 21
24
Chen, S. F., Goodman, J.: An Empirical Study of Smooting Techniques for Language
Modeling. Technical Report TR-10-98, Computer Science Group, Harvard University
(1998)
Gauvain, J.-L., Lee, C.-H.: Maximum a posteriori estimation for multivariate
Gaussian mixture observations of Markov chains. In: IEEE Transactions on Speech
and Audio Processing Vol.2, No.2 (1994) 291298
Gretter, R., Riccardi, G.: On-line learning of language models with word error
probability distributions. In: Proc. of the International Conference on Acoustics,
Speech, and Signal Processing (ICASSP 01) (2001) 557560
Halcsy, P., Kornai, A., Nmeth, L., Rung, A., Szakadt, I., Trn, V.: Creating open
language resources for Hungarian. In: Proc. of the 4th international conference on
Language Resources and Evaluation (LREC2004) (2004)
Jelinek, F., Mercer, R. L.: Interpolated estimation of Markov source parameters from
sparse data. In: Proc.Workshop on Pattern Recognition in Practice (1980)
Mauuary, L.: Blind Equalization in the Cepstral Domain for robust Telephone based
Speech Recognition. In: Proc. of EUSPICO98, Vol.1 (1998) 359363
Mohri, M., Pereira, F., Riley, M.: Weighted Finite-State Transducers in Speech
Recognition. Computer Speech and Language Vol.16, No.1 (2002) 6988

166

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


10. Stolcke, A.: SRILM an extensible language modeling toolkit. In: Proc. Intl. Conf.
on Spoken Language Processing. Denver (2002) 901904
11. Tarjn B., Mihajlik P.: Magyar nyelv nagysztras beszdfelismersi feladatok
adatelgtelensgi problminak cskkentse nyelvi modell interpolci
alkalmazsval. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged,
Magyarorszg (2010). 216223
12. Tarjn, B., Mihajlik, P., Balog, A., Fegy, T.: Evaluation of Lexical Models for
Hungarian Broadcast Speech Transcription and Spoken Term Detection. In:
CogInfoCom 2011: 2nd International Conference on Cognitive Infocommunications.
Budapest, Hungary (2011) 15
13. Young, S., Ollason, D., Valtchev, V., Woodland, P.: The HTK book. (for HTK
version 3.2.) (2002)

Szeged, 2011. december 12.

167

Prozdiai vltozatossg rejtett Markov-modell alap


szvegfelolvasval
Csap Tams Gbor1, Nmeth Gza1
1

Budapesti Mszaki s Gazdasgtudomnyi Egyetem,


Tvkzlsi s Mdiainformatikai Tanszk
{csapot, nemeth}@tmit.bme.hu

Kivonat: A prozdiai vltozatossggal kiegsztett szvegfelolvas rendszer


olyan alkalmazsokban lehet hasznos, ahol hasonl jelleg, ismtld mondatok szintetizlsra van szksg. A cikkben bemutatunk egy j mdszert,
amellyel egy adott szveghez klnbz prozdival rendelkez mondatvltozatokat lehet szintetizlni. A prozdia komponensei kzl a dallammal s hangsllyal foglalkozunk az alapfrekvencia (F0) vltoztatsn keresztl. Ehhez egy
statisztikai F0-modellt hasznlunk fel rejtett Markov-modell alap beszdszintetiztorban. A betantshoz hasznlt eredeti beszdkorpuszt a SOFM (Self
Organizing Feature Map) mdszerrel felbontjuk tbb rszkorpuszra. A klnbz beszdkorpuszokbl betanult modellekkel eltr dallam mondatvltozatokat szintetizlunk azonos szveghez. A mondatvltozatok kztti klnbsgeket megvizsglva a szubjektv ksrletek azt mutatjk, hogy az alapfrekvencia eltrse sok esetben elg jelents ahhoz, hogy ez az emberi fl szmra is
szlelhet legyen.

1 Bevezets
A szvegfelolvas rendszerek rthetsge elrte a megfelel szintet, viszont ms
tulajdonsgokban mg hinyossgok fedezhetek fel. Ezek kz tartozik az emberi
beszd vltozatossga, amelyet ritkn modelleznek beszdszintetiztor rendszerekben. Az emberi beszdben a prozdia (dallam, hangsly, ritmus) rendkvl vltozkony jellemz. Egy-egy mondatot mg akarattal sem tudunk tbbszr ugyangy elmondani, a mindennapi beszdben pedig nagy klnbsgek tapasztalhatak mindegyik fenti jellemzben. A legtbb szvegfelolvas rendszer ezzel szemben
determinisztikusan lltja el a prozdit, azaz egy-egy bemeneti szveghez ismtelt
szintziskor mindig ugyanaz a prozdia tartozik. Ez sokszor ismtld, monoton
mintk tlzott elfordulshoz vezet, ami zavar lehet a szintetizlt beszdben. A
prozdiai mintk ismtldse azrt fordulhat el a szvegfelolvas rendszerekben,
mert a beszdszintetiztor mindig a legjobb prozdit prblja egy-egy mondathoz
rendelni. gy az emberi beszd vltozatossga lecserldik a legjobb, leggyakoribb
mintra. Ez viszont az emberi fl szmra, ami a vltozkonysghoz szokott, knnyen
felismerhet, s hosszabb szintetizlt beszdrszlet hallgatsa sorn zavar lehet.

168

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

1.1 Prozdiai vltozatossg


Az a cl, hogy a szvegfelolvas egy-egy bemeneti mondathoz ne mindig ugyanolyan prozdij mondatot szintetizljunk, gy valsthat meg, ha a bemeneti szveghez tbbfle dallammenetet s ritmusszerkezetet tudunk generlni, s ezek kzl a
rendszer szintziskor egyet kivlaszt. Ekkor ugyanis cskken a monotonits, hiszen
nem-determinisztikuss vlik a mondatokhoz trtn dallammenet- s ritmushozzrendels. Ezen elv segtsgvel a hasonl szerkezet egyms utn elfordul
mondatokhoz is eltr prozdit tudunk kialaktani. A cikk tovbbi rszben a prozdia dallam s hangsly rszvel foglalkozunk, az alapfrekvencia (F0) megfelel belltsn keresztl.
Korbbi kutatsaink sorn a fenti clt korpuszalap prozdiai modellel ksreltk
meg elrni. Egy nagymret beszdkorpuszbl kigyjtttk a jellemz mondatdallam-mintzatokat, majd ezeket rendeltk a szintetizland szveghez, hasonlsgi
mrtkknt a mondatrszek sztagszmt felhasznlva. Ezeket a vizsglatokat egy
didos beszdszintetiztorral vgeztk el [2, 8]. Jelen cikkben a korbbiakhoz hasonl ksrleteket vgznk, statisztikai alap prozdiai modellt felhasznlva.
A nemzetkzi szakirodalomban Daz s Banga foglalkozott a prozdiai vltozatossg tmjval egy korpuszos, elemkivlasztsos beszdszintetiztoron vgzett ksrletek keretben [3, 4]. A mdszer megrzi az eredeti beszl intoncijnak vltozatossgt, mivel az sszefzend elemek kivlasztsakor tbb lehetsges sorozatot megtart, melyek mindegyike hasonl minsg szintetizlt beszdet eredmnyez.

1.2 Rejtett Markov-modell alap beszdszintzis


A szvegfelolvas technolgik kzl az elmlt vekben a rejtett Markov-modell
(Hidden Markov Model, HMM) alap beszdszintetiztorral foglalkozott sokat a
szakirodalom, melynek elnye a korbbi megoldsokhoz kpest az alacsonyabb erforrsigny s a statisztikai alap parametrikus mkds. A statisztikai beszdszintzisben a rendszer a tanulsi fzis sorn kinyeri a tant beszdadatbzisbl a beszl
hangjra jellemz tulajdonsgokat, s ezek alapjn hatrozza meg ksbb a szintzis
sorn a beszd generlshoz szksges paramtereket, majd egy beszdkdol eljrs ez alapjn ltrehozza a szintetizlt beszdet. Ezen paramterek kz tartoznak
pldul a beszd alapfrekvencija, hang- s sznetidtartamai, illetve spektrlis
egytthati.
A kutats sorn a HTS [13] nylt forrskd HMM-alap beszdszintetiztor magyar nyelvre adaptlt vltozatt alkalmaztuk [12]. A ksrletekhez egy professzionlis
ni bemondval kszlt fonetikailag gazdag beszdadatbzist hasznltunk fel, amely
2 rnyi 16 kHz-en mintavtelezett, 16 bites kvantls beszdet tartalmaz sszesen
1940 kijelent mondatban.

Szeged, 2011. december 12.

169

2 Mdszerek
Amennyiben a HMM-alap beszdszintzisben az eredeti tant adatbzist tbb rszre bontjuk, s ezekre kln-kln elvgezzk a statisztikai alap tantst, akkor ez
alapjn klnbz paramterrtkeket tanul be a rendszer. A klnbz rsztantadatbzisok paramtereit egy beszdszintzisre pl alkalmazsban prhuzamosan felhasznlva (azaz felvltva hasznlva az eltr paramterhalmazokat) elrhet, hogy egy adott mondathoz ne mindig ugyanaz a prozdia tartozzon. Ha a rsztantadatbzisok mondatai elg klnbzek voltak, akkor a generlt ismtld
mondat tulajdonsgai is eltrek lesznek ismtelt szintzis sorn, illetve azt vrjuk,
hogy hasonl szerkezet mondatok is lnyegesen eltr prozdival fognak rendelkezni. A HTS rendszerrel vgzett betantsi s szintetizlsi, valamint adatbzis feldarabolsi lpseket az 1. bra mutatja be.

1. bra: A beszdkorpusz feldarabolsa, majd HMM tantsi fzis (fels rsz). A bemeneti szveghez HMM adatbzis kivlasztsa, majd szintzis fzis (als rsz).

2.1 Prozdiai tvolsgmrtkek


Kt mondat prozdijnak objektv sszehasonltsra szmos mdszer tallhat a
szakirodalomban. Amennyiben csak a mondatok alapfrekvencia-menett akarjuk
sszehasonltani, tbbek kztt az tlagos ngyzetes kzp tvolsg (Root Mean
Square Error, RMSE) [6], a Hermes-korrelci [5], vagy ez utbbinak DTW-vel
(Dynamic Time Warping) kiegsztett vltozata [10] hasznlhat.

170

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az RMSE a kvetkez mdon szmthat kt mondat dallama kztt [6]:

ahol f1 s f2 jelli a kt sszehasonltand mondat F0 rtkeit, n pedig a mrpontok szma.


A Hermes-korrelci szmtsa [10] alapjn:

ahol f1 s f2 jelli a kt sszehasonltand mondat F0 rtkeit, m1 s m2 ezeknek az


tlagos F0-ja, ezen kvl a w(i) egy slyoz faktor az adott jelszakasz intenzitsnak
fggvnyben. Az alapfrekvencit sok esetben nem kzvetlenl Hz-ben, hanem
logaritmizlva alkalmazzk ezen kpletekben [10].
A DTW alap Hermes-korrelci akkor lehet hasznos, ha olyan mondatok alapfrekvencijnak sszehasonltsra van szksg, amelyeknek idszerkezete jelentsen
eltr.
A 2. bra egy pldt mutat kt mondat F0-menete kztti RMSE tvolsg s
Hermes-korrelc rtkre. A tovbbiakban a Hermes-korrelcit hasznltuk fel prozdiai tvolsgmrtknek, mert a szakirodalom alapjn ez alkalmasabb az alapfrekvencia-klnbsgek kimutatsra, mint az RMSE tvolsg [5].

F0 (Hz)

330

200
100
50
pau a b o2 l cs e1 sz e gy a1 l t a l a1 n n e m b o2 l cs

bb pau m i n t m a1

e mb e

0.4499

pau
3.537

Ido (s)
300
250

F0 (Hz)

200
150
100
50
pau a b o2 l cs e1 sz e gy a1 l t a l a1 n n e m b o2 l cs
0.4499

bb pau m i n t m a1

e mb e

pau
3.537

Ido (s)

2. bra: Egy mondat kt klnbz F0-menettel rendelkez vltozatnak sszehasonltsa


(amennyiben a mondatok idszerkezete megegyezik). A sztagonknti tlagos F0 rtkek
alapjn szmolva az RMSE tvolsg 0,1619; a Hermes-korrelci pedig 0,6337.

Szeged, 2011. december 12.

171

2.2 Tant adatbzis felbontsa


A kutats sorn megvizsgljuk, hogy egy adott beszltl szrmaz klnbz rsztantadatbzisokkal mennyire klnbz prozdij mondatok llthatak el a
dallam, illetve alapfrekvencia tekintetben.
Az eredeti 1940 mondatbl ll beszdkorpuszt tbb eltr mdon vlasztottuk kln csoportokba. Els ksrletknt vletlenszeren sztvlogattuk a mondatokat 2, 4,
8, illetve 16 csoportra, majd mindegyik rsz-tantadatbzis segtsgvel elvgeztnk
egy tantst a HTS beszdszintetiztorral, majd leszintetizltunk 40 mondatot. A szintetizls sorn csak a betanult dallam modellt vltoztattuk (a gerjesztsi, hangidtartam s egyb paramtereket vltozatlanul hagyva).
Ezutn a 2.1 szakaszban ismertetett Hermes-korrelci objektv tvolsgmrtket
felhasznlva ellenriztk, hogy egy adott szveghez tartoz szintetizlt vltozatok
mennyire klnbznek egymstl a mondat F0-menetnek szempontjbl. Ehhez a
sztagonknti tlagos F0 rtk alapjn szmoltuk a Hermes-korrelcit. A vletlen
sztvlaszts esetn a mondatvltozatok kztti Hermes-korrelci magas volt (a
legtbb esetben 0,95 fltti rtk), azaz olyan mondatokat sikerlt gy szintetizlni,
melyeknek F0-menetben nem fordult el ezen mrtk szerint jelents klnbsg.
A vletlen vlaszts mellett a tovbbiakban azt vizsgltuk, hogyan lehet gpi tanul algoritmussal clzottan sztvlasztani az eredeti beszdkorpuszt tbb klaszterre.
Ehhez a vlasztsunk a felgyelet nlkli tantson alapul Self-Organizing Feature
Map (SOFM) eljrsra esett. A Kohonen ltal bemutatott megoldst [7] hasznltuk fel
egy Matlab-alap implementciban [1]. A SOFM-ot korbban sikeresen alkalmaztk
hangosknyvek beszdanyagnak expresszivits szerinti sztvlasztsra [11]. A
SOFM alkalmasnak ltszik az alapfrekvencia szerinti sztvlaszts feladatra, mivel
felgyelet nlkli gpi tanulsi mdszer. A betants sorn azt kell belltanunk, hogy
hny rszre bontsa szt a korpuszt az algoritmus. A SOFM bemeneteknt felhasznlt
tulajdonsgoknak az F0 bizonyos statisztikit vlasztottuk (minimum, maximum,
tlag, szrs 1-1 mondaton bell), azaz mondatonknt ezek a paramterek lltak rendelkezsre a felgyelet nlkli tantshoz.
A SOFM tovbbi elnye, hogy a tbbdimenzis adat ktdimenzis trkpen brzolhat. A 3. brn a klaszterezs eredmnyeknt kapott 4 csoport lthat, melynek
sorn az 1940 mondat egy nagyobb s hrom kisebb rszkorpuszra lett felbontva. A
4. bra a szomszdos klaszterek kztti tvolsgok trkpt mutatja. A hexagonok a
bemeneti vltozkon (vagyis az F0 paramterei) elvgzett felgyelet nlkli tantsbl szrmaz klaszterek. Azok a kapcsolatok, amelyek nagyobb tvolsgot mutatnak
a klaszterek kztt, sttebb sznnel vannak jellve. Az brrl az lthat, hogy a bal
fels csoport tvolsga nagy a tbbi csoporttl, mg a tbbi tvolsg ehhez kpest
alacsonyabb. Ez alapjn azt vrjuk, hogy azok a szintetizlt mondatok, amelyek a bal
fels mondatokkal mint tant adatbzissal kszlnek, dallam szempontjbl nagyobb
tvolsgra lesznek a tbbi tant adatbzissal kszlt szintetizlt mondatoktl, mint
azok egymstl.

172

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


SOM tallatok

1.5

1
328

395

0.5

473

744

-0.5

-1
-1

-0.5

0.5

1.5

2.5

3. bra: A SOFM alap klaszterezs eredmnyeknt felbonts utn kapott ngy tantadatbzis
mondatainak elemszma.
SOM szomszdok sly tvolsga

1.5

0.5

-0.5

-1
-1

-0.5

0.5

1.5

2.5

4. bra: A SOFM alap klaszterezs eredmnyeknt felbonts utn kapott ngy tant adatbzis egymstl mrt tvolsga. A vilgosabb szn kisebb, a sttebb szn nagyobb tvolsgot
jell.

Szeged, 2011. december 12.

173

3 Eredmnyek
A SOFM alap klaszterezs eredmnyessgt objektv s szubjektv vizsglatokkal is
ellenriztk. 2000 kivlasztott mondatot leszintetizltunk a 4 tant adatbzisbl
szrmaz F0-modellel kln-kln (a gerjesztsi s idtartam paramtereket a teljes
tant adatbzisbl szrmaz modellbl felhasznlva).

3.1 Objektv klnbsgek


A mondatvltozatok kztti dallambeli klnbsg vizsglatra a 2.1 szakaszban ismertetett Hermes-korrelcit hasznltuk fel. A szintetizlt mondatok 4 vltozatt
pronknt sszehasonltottuk, majd kiszmoltuk az egyes mondatvltozatok kztti
Hermes-korrelcit, melyre egy pldt az 5. bra s az 1. tblzat #1625 rsze mutat.
300
cluster1

250
200
150
100

0.6

0.8

1.2

1.4

1.6

1.8

2.2

2.4

2.6

300
cluster2

F0 (Hz)

250
200
150
100

0.6

0.8

1.2

1.4

1.6

1.8

2.2

2.4

2.6

300
cluster3

250
200
150
100

0.6

0.8

1.2

1.4

1.6

1.8

2.2

2.4

2.6

300
cluster4

250
200
150
100

0.6

0.8

1.2

1.4

1.6
1.8
Ido (Hz)

2.2

2.4

2.6

5. bra: A #1625 mondat (Zsigmond nem tagadja, hogy  zsid.) ngy szintetizlt vltozata,
klnbz tant adatbzisokbl kiindulva. Az alapfrekvencia-menet (s gy a mondatdallam,
illetve a hangslyok helye s erssge) eltr a klnbz vltozatokban.

174

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Ezutn a 2000 mondatbl kivlasztottunk 10 mondatot, melyeknl a vltozatok kztti F0 szerinti Hermes-korrelci a legalacsonyabb volt (gy vrhatan ezek kztt
szlelhet a legnagyobb klnbsg a mondatdallamban).

3.2 Szubjektv klnbsgek


A 10 legnagyobb objektv klnbsggel rendelkez mondat 4-4 vltozatt vlasztottuk ki a szubjektv teszt hanganyaghoz pros sszehasonlts keretben, gy sszesen
60 mondatpr llt rendelkezsre. A meghallgatsos teszt clja az volt, hogy ellenrizzk, a Hermes-korrelci milyen mrtkben mutatja meg a mondatdallambeli klnbsget egy percepcis vizsglathoz kpest. Hasonl vizsglatot vgeztek korbban
pldul nmet mondatokon [9].
A meghallgatsos tesztet internetes tesztfelleten vgeztk. A mondatokat pronknt kellett meghallgatniuk a tesztelknek, s arra a krdsre vlaszolniuk, hogy
Hallasz-e klnbsget a kt mondat dallama kztt? Igen Nem. Ezutn ha Igennel vlaszoltak, egy msodik krdst is meg kellett vlaszolniuk: Ha hallottl klnbsget, akkor milyen mrtk? Kicsi Kzepes Nagy.
A mondatprok meghallgatst 9 tesztel vgezte el. A tesztelk mindannyian p
halls, magyar anyanyelv emberek voltak, a 23-60 v kztti korosztlybl (tlagosan 33 v). Egy rszk a tmhoz rt beszdtechnolgiai szakrt vagy fonetikus
volt, mg a tbbiek egyetemi hallgatk krbl kerltek ki. A teszt tlagos meghallgatsi ideje 12 perc volt.
Az 1. tblzatban hasonltjuk ssze a mondatvltozatok kztt mrt Hermeskorrelcit, s a tesztelk Igen vlaszainak arnyt. A szubjektv teszt 2. krdst,
(azaz a dallambeli klnbsg mrtkt) itt nem vettk figyelembe, de az szrevehet
volt a vlaszok kztt, hogy a tesztelk leggyakrabban kicsi s kzepes klnbsget jelltek csak be. A tblzatban a Hermes-korrelcinl az alacsonyabb rtk
jelent nagyobb F0 eltrst, mg az Igen arnynl a nagyobb szm jelenti azt, hogy
tbben szleltek klnbsget a mondatvltozatok dallamban. Az eredmnyek alapjn
az objektv s a szubjektv mrtk kztt nem tallhat ers sszefggs (R2 = 0,115).
A 60 mondatprbl sszesen 35 esetben vlaszolta a tesztelk legalbb 65%-a,
hogy hall klnbsget a vltozatok kztt. A maradk 25 mondatprt megvizsglva
az derlt ki, hogy ezekben az esetekben a mondatvltozatok kztti sztagonknti
tlagos F0 klnbsge legfeljebb 10-20 Hz volt. Azoknl a mondatproknl, ahol
hallottak klnbsget a tesztelk, a legnagyobb F0 klnbsg akr a 70 Hz-et is elrte, s tbb helyen elfordult, hogy a mondat hangslya (az ereszked jelleg alapfrekvencia-menetbl lnyegesen kiugr rsz) is msik szra kerlt. A #0074-es mondat (A blcssz egyltaln nem blcsebb, mint ms ember.) esetn pldul a ngy
vltozatban klnbz pozcikra helyezdtt a mondathangsly: blcssz; egyltaln; blcsebb; ms. Ezek kzl nem minden vltozat megfelel, a ms
szra helyezett hangsly pldul helytelen hangslyozst jelent.

Szeged, 2011. december 12.

175

1. tblzat: A 10 kivlasztott mondat 4-4 vltozata kztti Hermes-korrelci s a szubjektv


teszt alapjn szmolt klnbsg.

Mondat

Hermeskorrelv1 v2 ci

Szubjektv
Igen

Mondat

Hermeskorrelv1 v2 ci

Szubjektv
Igen

#0044

0,7833

88,89%

#0186

0,8515

44,44%

#0044

0,7416

66,67%

#0186

0,7416

77,78%

#0044

0,8271

55,56%

#0186

0,7650

66,67%

#0044

0,9408

55,56%

#0186

0,8877

66,67%

#0044

0,9071

33,33%

#0186

0,9575

33,33%

#0044

0,9385

33,33%

#0186

0,9108

66,67%

#0046

0,7697

44,44%

#0849

0,6929

77,78%

#0046

0,7410

44,44%

#0849

0,7921

44,44%

#0046

0,7185

77,78%

#0849

0,8694

55,56%

#0046

0,9356

22,22%

#0849

0,9327

55,56%

#0046

0,9158

66,67%

#0849

0,8991

22,22%

#0046

0,9644

88,89%

#0849

0,9406

66,67%

#0069

0,7663

77,78%

#1342

0,9205

55,56%

#0069

0,8016

66,67%

#1342

0,7346

77,78%

#0069

0,8260

77,78%

#1342

0,9032

55,56%

#0069

0,9273

22,22%

#1342

0,8172

55,56%

#0069

0,8608

55,56%

#1342

0,9127

77,78%

#0069

0,9381

77,78%

#1342

0,7591

66,67%

#0074

0,6337

88,89%

#1425

0,8240

66,67%

#0074

0,8452

77,78%

#1425

0,8310

66,67%

#0074

0,8101

77,78%

#1425

0,7815

77,78%

#0074

0,7819

44,44%

#1425

0,9546

11,11%

#0074

0,7759

66,67%

#1425

0,8546

88,89%

#0074

0,8971

77,78%

#1425

0,9040

66,67%

#0091

0,9034

66,67%

#1625

0,7812

44,44%

#0091

0,6437

66,67%

#1625

0,8299

44,44%

#0091

0,9006

66,67%

#1625

0,8523

77,78%

#0091

0,8481

44,44%

#1625

0,6547

77,78%

#0091

0,9777

0,00%

#1625

0,9233

66,67%

#0091

0,8189

55,56%

#1625

0,8081

66,67%

176

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A ksrletet vgighallgatknak a teszt vgn megjegyzsek hozzfzsre is volt


lehetsgk. Az egyik tesztel a mondatdallambeli klnbsget jval nagyobbnak
rezte azokban az esetekben, amikor a hangsly is msik szra kerlt (esetleg olyan
szra, amit valjban nem is kellett volna hangslyozni), mint amikor a hangsly
pozcija azonos volt a kt vltozatban, de az alapfrekvenciban mgis jelents klnbsg volt.

4 sszefoglals
A kutats sorn bemutattunk egy egyszer mdszert, amivel egy adott szveghez
klnbz dallammal rendelkez mondatokat lehet szintetizlni. Ehhez egy statisztikai F0-modellt hasznltunk fel HMM-alap beszdszintetiztorban. Az eredeti beszdkorpuszt az SOFM mdszerrel bontottuk fel ngy rszre. A klnbz beszdkorpuszokbl betanult modellekkel eltr dallam mondatvltozatokat szintetizltunk
(azonos szveghez). Ezutn megvizsgltuk a mondatvltozatok kztti klnbsgeket. A szubjektv ksrletek azt mutatjk, hogy az alapfrekvencia eltrse a vizsglt
mondatprok felben annyira jelents volt, hogy ez az emberi fl szmra is szlelhet (azonban ez nem ll szoros sszefggsben az objektv tvolsgmrtkkel). Ahhoz,
hogy percepcis szempontbl eltr prozdij mondatokat tudjunk ltrehozni, az
szksges, hogy az eredeti beszdkorpusz felbontsa minl jobban eltr rszekre
trtnjen, melyre a SOFM mdszer alkalmasnak ltszik.
A vltozatosabb prozdival kiegsztett beszdszintzis azokban a rendszerekben
jelenthet javulst a felhasznlk szmra, ahol hosszabb szvegek felolvassa trtnik, illetve gyakran elfordulnak ismtld, hasonl szerkezet mondatok. Ezek kz
tartozik a knyv s az e-levl felolvass.
A kutatst rszben a TMOP-4.2.1/B-09/1/KMR-2010-0002 projekt tmogatta.

Bibliogrfia
1. Bealen, M.H., Hagan, M.T., Demuth, H.B.: Neural Network Toolbox, Revised for Version
7.0, Release 2010b, http://www.mathworks.com/help/toolbox/nnet/ (2010)
2. Csap, T.G., Zaink, Cs., Nmeth, G.: A Study of Prosodic Variability Methods in a Corpus-Based Unit Selection Text-To-Speech System. Infocommunications Journal, Vol. LXV,
No.1 (2010) 3237
3. Campillo Daz, F., Rodrguez Banga, E.: A method for combining intonation modelling and
speech unit selection in corpus-based speech synthesis systems. Speech Communication
Vol. 48 (2006) 941956
4. Campillo Daz, F., van Santen, J., Rodrguez Banga, E.: Integrating phrasing and intonation
modelling using syntactic and morphosyntactic information. Speech Communication, Vol.
51, No.5 (2009) 452-465
5. Hermes, D.J.: Measuring the perceptual similarity of pitch contours. Journal of Speech Language Hearing Research Vol. 41 (1998) 7382
6. Klabbers, E., van Santen, J., Wouters, J.: Prosodic factors for predicting local pitch shape. In
Proceedings 2002 IEEE Workshop on Speech Synthesis. Santa Monica, CA (2002)

Szeged, 2011. december 12.

177

7. Kohonen, T., Kaski, S., Lappalainen, H.: Self-organized formation of various invariantfeature filters in the adaptive-subspace SOM. Neural Computation Vol. 9, No. 6 (1997)
13211344
8. Nmeth, G., Fk, M., Csap, T.G.: Increasing Prosodic Variability of Text-To-Speech Synthesizers. In: Proc. of Interspeech (2007) 474477
9. Reichel, U.D., Kleber, F., Winkelmann, R.: Modelling similarity perception of intonation.
In: Proc. of Interspeech (2009) 17111714
10. Rilliard, A., Allauzen, A., Boula de Mareil, P.: Using Dynamic Time Warping to compute
prosodic similarity measures. In: Proc. of Interspeech (2011) 20212024
11. Szkely, E., Cabral, J. P., Cahill, P., Carson-Berndsen, J.: Clustering expressive speech
styles in audiobooks using glottal source parameters. In: Proc. of Interspeech, (2011) 2409
2412
12. Tth B.P., Nmeth G.: Rejtett Markov-modell alap szvegfelolvas adaptcija flig
spontn magyar beszddel. In: Tancs A., Szauter D., Vincze V. (szerk.): VI. Magyar
Szmtgpes Nyelvszeti Konferencia (2009) 246256
13. Zen, H., Nose, T., Yamagishi, J., Sako, S., Masuko, T., Black, A.W., Tokuda, K.: The
HMM-based speech synthesis system version 2.0. In: Proc. of ISCA SSW6 (2007)

178

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A szintaktikai szerkezet automatikus


feltrkpezse a beszdjel prozdiai elemzse
alapjn
Szaszk Gyrgy1 , Beke Andrs2
1

BME Tvkzlsi s Mdiainformatikai Tanszk, Beszdakusztikai Laboratrium


2
MTA Nyelvtudomnyi Intzet, Fonetikai Osztly
E-mail: szaszak@tmit.bme.hu; beke.andras@gmail.com

Kivonat A prozdia s a szintaktikai szerkezet kztti sszefggs aligha


krdses, hiszen szmos kutats foglalkozott mr kapcsolatukkal, illetve
ezt az sszefggst szmos beszdtechnolgiai elssorban beszd szintzist clz - alkalmazsban ki is hasznljk. Az ltalnosan elfogadott
llspont szerint a prozdiai s a szintaktikai szerkezet szorosan sszefgg
ugyan, kzttk a kapcsolat azonban nem egy-egyrtelmen meghatrozott. Mindenesetre gyakorlati alkalmazsok bizonytjk, hogy a szintaktikai elemzs alapjn a prozdia jl elrejelezhet s kivlan elllthat
beszdszintetiztor alkalmazsokban. A prozdia s a szintaxis kztti
sszefggs msik irnyt azonban nevezetesen a szintaxis visszakvethetsgt prozdiai jegyek alapjn eddig kevesen vizsgltk, illetve ha
mgis, ezen vizsglatok jellemzen miniml mondatprok prozdia alapjn trtn elklnthetsgre vonatkoztak. Br e vizsglatok rtkt
nem szeretnnk albecslni, hiszen fontos elmleti jelentsgk van, eredmnyeik a gyakorlati alkalmazsokat tekintve azonban csak elvtve, nem
igazn letszer krlmnyek kztt lennnek felhasznlhatk. Cikknkben ezrt arra keressk a vlaszt, hogy lehetsges-e a prozdiai szerkezet
feltrsa alapjn szintaktikai szerkezetre vonatkoz informci kinyerse
ltalnosabb, a mindennapi lethez jobban kthet tematika esetben.
Miutn a kutats clja az automatikus elemezhetsg vizsglata, ezrt a
prozdiai szerkezet elemzst is automatikus eszkzkkel valstjuk meg.
Eredmnyeink tansga szerint a beszdben a szintaktikai frzisok jelents rsze jl beazonosthat, radsul, a szintaktikai hierarchia magasabb
szintjein jl el is helyezhet. Mlyebb szinteken - tbbszrs begyazsban - pontos szintaktikai szintbeli elhelyezst nem vrhatunk a prozditl, a hatrok jelzse azonban megmaradhat.
Kulcsszavak: prozdia, szintaktikai elemzs, prozdiai szegmentls,
szintaktikai hierarchia, prozdiai hierarchia, szintaxis-fonolgia interfsz

1.

Bevezets

A prozdia s a szintaktikai szerkezet kztti sszefggst szmos megkzeltsben vizsgltk mr, a szintaktikai s a fonolgiai reprezentci kztti interfszt

Szeged, 2011. december 12.

179

azonban eddig nem sikerlt egysgesen lerni. Ez nem meglep, hiszen sszetett
jelensggel llunk szemben, gy az egysges modell megalkotsa nem is felttlenl volna megvalsthat elkpzels. Mindenesetre az eddigi kutatsok nhny
fbb ponton sszecsengenek, gy a szintaktikai s prozdiai szerkezetek kztti
sszefggs ltalnosan elfogadott, termszett tekintve azonban nem teljesen
feltrt. Az egyik legismertebb hipotzis Selkirk nevhez fzdik (prosodic structure hypothesis), mely szerint egy-egy mondat prozdiai szerkezete nagyban - de
nem teljes mrtkben - fgg a felszni szintaktikai szerkezettl [11]. Ms szerzk
viszont amellett rvelnek, hogy a prozdit kzvetlenl s tbbnyire egyrtelmen a szintaktikai szerkezet hatrozza meg [5]. A szerzk tapasztalatai alapjn
ez utbbi megllapts tlzottnak tnik, ugyanakkor az idzett elmletek nem
trnek ki arra, hogy a prozdiai, illetve szintaktikai hierarchiban magasabban
elhelyezked szintek sokkal biztosabban, mg a mlyebbek esetlegesebben feleltethetk meg egymsnak.
A prozdiai szerkezet az ltalnosan elfogadott hipotzisek szerint ([11], [4])
fellrl lefel haladva az albbiak szerint alakul: a megnyilatkozs (utterance)
intoncis frzisokbl ll (IF), amelyek tovbb bonthatk az n. fonolgiai frzisokra (FF). A fonolgiai frzisokat pedig fonolgiai szavak (FSz) ptik fel,
ezeket gyakran prozdiai sznak is hvjk [11]. A hierarchia tovbb nomthat
egszen a sztag szintig, de a fonolgiai frzisnl mlyebb egysgeket a cikkben nem fogjuk hasznlni, gy a tovbbi ismertetstl eltekintnk. A prozdiai
szerkezet jl szemlltethet fval vagy a hierarchit tkrz zrjelezssel.
A mondatok szintaktikai elemzsekor hasonl hierarchiban gondolkodunk,
amely az alapvet ptelemeket (pl. szavak) kapcsolja ssze mondatokk: az
egyes szavak szszerkezeteket alkotnak, ezek a szintaktikai frzisok (SzF). Az
egyes frzisokba tovbbi frzisok keldhetnek (embedding), ltrehozva a szintenknt reprezentlhat hierarchit. A szintaktikai frzist ltalban dominns
eleme (n. fej) utn nevezik el. A dominns elem az az elem, amely a frzis
viselkedst az eggyel magasabb szintaktikai szinten meghatrozza. Ily mdon
beszlhetnk nvszi frzisokrl (a fej nvsz), igei s hatrozi stb. frzisokrl.
A szintaktikai elemzs sorn elterjedt a fareprezentci.
A beszdtechnolgiban az rott mondatok szintaktikai elemzse beszdszintzis eltt elterjedt technolgia [6]. Az els ilyen irny prblkozsok egszen
az 1980-as vekig nylnak vissza. A mdszer alapja az a felttelezs, hogy a szintaktikai elemzs alapjn az ellltand beszd prozdiai jellegzetessgei igen jl
elrejelezhetk. Ez teht azt jelenti, hogy a felszni szintaktikai szerkezet lekpezhet a prozdiai szerkezetre, radsul a gyakorlati tapasztalatok alapjn igen
biztosan. Teljes lekpezhetsgrl azonban a beszdszintzis esetn sem beszlhetnk, rszben ppen ezzel magyarzhat, hogy a beszdszintzis alkalmazsokat
mirt rdemes egy-egy behatrolt tmaterletre szkteni a minsg javtsa rdekben [12].
A fordtott irny lekpezs, azaz a prozdia alapjn a szintaktikai viszonyokra val kvetkeztets jval kevsb elterjedt, nhny igaz, leginkbb kutatsi, ksrleti, de kevsb gyakorlati alkalmazsban azonban tallkozhatunk
vele. Tbb kutatsban is vizsgltk pldul egymstl jelentsben s/vagy ta-

180

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

golsban, rsjelezsben klnbz, de a felpt szavakat tekintve megegyez,


n. miniml mondatprok elklnthetsgt prozdia alapjn [9] (lnyegt tekintve teht jelents-egyrtelmsts cljbl). Az idzett tanulmnyban Price
s munkatrsai kvetkeztetsei alapjn a prozdia alapjn tbbsgben jl elklnthetek voltak a miniml prok, nhny kivteltl eltekintve. Munkjukban
javaslatot is tettek olyan automatikus prozdiacmkzre, amely normalizlt idtartamadatok alapjn sznetek osztlyozsra volt alkalmas. A prozdia alapjn
vgzett egyrtelmstst vizsgltk mr beszdfelismersben is, leginkbb itt is
miniml prok elklnthetsgt clozva.
A beszdalap egyrtelmstsi feladatokban az elbbiekben bemutatott miniml pros szemlltets a legelterjedtebb, pedig az ily mdon konstrult mondathalmazok gyakran mesterkltek, gyakorlati alkalmazsban ritkn, de semmikpp sem univerzlisan hasznlhatk. Ezrt jelen kutatsban arra helyeztk a
hangslyt, hogy amennyire lehetsges, ltalnos cl s ltalnosan felhasznlhat eszkzt dolgozzunk ki. Az alkalmazott megkzelts az automatikus szintaktikai s a prozdiai elemzsek sszevetse lesz, ltalnos, relatve nagy mret beszdkorpuszon. A vizsglat arra keresi a vlaszt, hogy lehetsges-e a szintaktikai
szerkezet legalbb rszleges, illetve minl teljesebb feltrsa a beszdjel prozdiai elemzse alapjn. Ha igen, mennyire megbzhat ez az elemzs, lehetsges-e
a szintaktikai hierarchia fellltsa is? A ksrlethez automatikus prozdiai elemzt hasznlunk [13], gy a lehetsgeket azonnal az automatikus elemezhetsg
jelentette korltok kztt rtkeljk.
Cikknk felptse az albbiak szerint alakul: elsknt bemutatjuk a prozdiai elemzst s a szintaktikai elemzst, a beszdkorpuszt. Ezt kveti a ksrleti
felttelek rszletes lersa, a kirtkelshez hasznlt mrszmok bemutatsa, az
eredmnyek ismertetse s a kvetkeztetsek szrmaztatsa.

2.

Beszdjel automatikus prozdiai szegmentlsa

A prozdiai szerkezet feltrkpezsre a beszdjelen prozdiai szegmentlst vgznk. Az eljrst rszletesen bemutattuk mr [14], [13], gy itt csak a lnyegesebb
jellemzit foglaljuk ssze. A prozdiai szegmentl feladata fonolgiai frzisok
(FF) illesztse a beszdjelhez. Ehhez a szegmentl 7 beptett fonolgiai frzismodellt trol rejtett Markov-modell formjban (lsd 1. tblzat). Az illeszts a
hangslyok s a dallammenetek egyttes gyelembevtelvel trtnik. A felhasznlt akusztikai jellemzk az alapfrekvencia- s az energiamenet, kinyersket a
kvetkez, 2.1 alfejezetben rviden ttekintjk. A fonolgiai frzisokra gy tekintnk, mint a legkisebb, nll hangsllyal s dallammenettel jellemezhet
egysgre [4]. A magyar nyelvben kijelent mdban a tipikus FF elejn a hangslynak megfelel kiemelst tapasztalunk, amelyet lassan ereszked dallammenet
kvet a kvetkez hangslyos egysgig. Ezt tekintjk a FF prototpusnak (fs).
Mivel azonban a fonolgiai frzisok intoncis frzisokba, illetve megnyilatkozsegysgekbe - olvasott beszdben mondatokba, spontn beszdben virtulis mondatokba - szervezdnek, magasabb szint tnyezk is befolysoljk a hangslyozst s a dallammenetek alakulst. Emiatt az osztlyozshoz/illesztshez

Szeged, 2011. december 12.

181

tovbbi FF-ok elklntse szksges: a tagmondat eleje (me) s a tagmondat


vge (mv ) jellemzen befolysolja a FF prototpust, akrcsak a fkusz (fe) s
a folytatst jelz dallammenet-emelkeds (fv ). Ez utbbi a kvetkez fonolgiai
frzist olykor inverz hangslyba fordtja, azaz kiemelkeds helyett a prozdiai jellemzk loklis minimumot adnak (s). A prozdiai szegmentl kimenetn teht
az illesztett fonolgiai frzisok jelennek meg kezd- s vgidpontjaikkal.
1. tblzat. A prozdiai szegmentlshoz modellezett fonolgiai frzistpusok.
Cmke
me
fe
fs
mv
fv
s
sil

FF tpus
Tagmondat eleje
Ers hangsly
Prototpus
Tagmondat vge
Folytatst jelz
Inverz hangsly
Csend

A prozdiai szegmentls sorn a fonolgiai frzisok egymshoz kapcsoldsi szablyszersgeit ler, prozdiai-nyelvi jelleg modellt is hasznlunk. Ez
a modell teszi lehetv egyrszt az illesztst (milyen FF milyen FF utn milyen valsznsggel kvetkezhet), msrszt elkszti a szintaktikai szerkezetre
val lekpezst, hiszen a prozdiai szegmentl FF-modelljei a mondatokban,
tagmondatokban elfoglalt helyk, szerepk szerint lettek kialaktva. A hasznlt
modell ppen a mondatok, virtulis mondatok (idealizlt) felptst adja meg:
minden mondat tagmondat eleje frzissal (me) indt s tagmondat vge frzissal
(mv) zr. Kzben ersen (fe) s kzepesen hangslyos (fs, prototpus) fonolgiai
frzisok tetszleges sorrendben vltakoznak, esetleges folytatst jelz frzisokkal
(fv). Ez utbbit tagmondat eleje frzis (me) vagy inverz hangslyt tartalmaz
frzis (s) kvetheti. Kivteles esetben mondat vge is lehet (pl. krds esetn). A
mondatok kztt sznetet feltteleznk (sil). Fontosnak tartjuk megvilgtani,
hogy az alkalmazott illesztsi eljrs nem pusztn egyes prozdiaesemnyhez kthet jellk (pl. sznetjellk, hangslyjellk) detektlsn alapul (v. ToBI,
[12]), hanem a prozdiai, illetve a hozz trstott akusztikai jellemzk folyamatos
kvetst biztostja, ily mdon vlemnynk szerint rugalmasabb s egysgesebb
prozdiai szegmentlst tesz lehetv, lnyegben az egyes detektland esemnyeket a fonolgiai frzisok modelljei inkorporljk.
2.1.

Akusztikai-prozdiai elfeldolgozs

Az akusztikai-prozdiai elfeldolgozs a [13] irodalomban ismertetettek alapjn trtnik, de az egyes jellemzk kinyersnl hasznlt konstansok rtkeit
az albbiak szerint lltottuk be: az alapfrekvencia (F0 ) kinyerse ESPS algoritmussal trtnik 25 ms hosszsg, cssztatott ablakolssal. Az energia kinyershez hasznlt ablak is 25 ms. A keretid mindkt jellemzre 10 ms. A nyert

182

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

alapfrekvencia-menetet ezutn oktvugrsoktl szrjk, majd 5 pontos tlagol


szrvel simtjuk. Ezutn az alapfrekvencit logaritmikus tartomnyban linerisan extrapolljuk a zngtlen helyeken, de csak akkor, ha a zngtlen szakasz
nem hosszabb 150 ms-nl s ha a zngtlen szakasz utn az alapfrekvencia nem
indul tl magasrl (nem emelkedhet tbbet 10%-nl a zngtlen szakasz elttihez
kpest. Erre azrt van szksg, hogy a frzisok kztti, levegvtellel nem trsul
sznetet nehogy zngtlen beszdhangszakasznak vegyk. Az gy elfeldolgozott
jellemzkhz delta s delta-delta egytthatkat fztnk. Az elfeldolgozs minden egyb tekintetben azonos a [13] irodalomban bemutatottal.

2.2.

Prozdiai szegmentls s szhatrok detektlsa

Korbbi munkkban [13] [14] [2] vizsgltuk mr a szhatrok detektlhatsgt


prozdiai jellemzk segtsgvel. Ennek egyik tja szintn a fonolgiai frzisok
illesztse volt, amely magyar nyelvre a kttt hangslyozst kihasznlva szhatrok detektlst tette lehetv, 77% krli pontossggal s 57% krli hatkonysggal magyar nyelvre, 69% krli pontossggal s 76% krli hatkonysggal
pedig nn nyelvre. A szhatr-detektls vizsglatakor nem vgeztnk szintaktikai elemzst, viszont hipotzisnk, hogy a szintaktikai frzisok hatra es szhatrok jobban detektlhatk, mint a frzisok belsejbe esk (igaz, a szhatrok
jelents rszn szintaktikai frzis hatra is van). A szhatr-detektls elssorban a gpi beszdfelismerst segtette, mg a szintaktikai elemzs ha lehetsges
a prozdia alapjn a beszd gpi elemzst teheti lehetv, amely kiemelt fontossg az tfogbb, gpi beszdrtst/-elemzst is ignyl rendszerekben (pl.
gpi tolmcsols).

3.

Szintaktikai elemzs (szvegalap)

A szintaktikai elemzshez a szabadon elrhet HunPars eszkz llt rendelkezsnkre [1]. Ez a szintaktikai elemz bels erforrsokknt n. frzisstruktra
nyelvtant s lexikai adatbzisokat s a HunMorph morfolgiai elemzt hasznlja
fel. A morfolgiai elemz hasznlata nagyban emeli a komplexitst, de a magyar
nyelv sajtossgai miatt aligha megkerlhet. A szintaktikai elemz kimenetn
az elemzett mondat tagekkel elltva s a szintaktikai hierarchiban elfoglalt helyzetet tkrz zrjelezssel jelenik meg, amelybl fastruktrj reprezentci is
generlhat. Az elemz minden lehetsges hipotzist megad, ez hosszabb mondatokra tbb tz, kirv esetben nhny szz lehetsges elemzs is lehet. Miutn
a prozdit ezttal nem egyrtelmstsre kvnjuk felhasznlni, az elemzseket
szakrt kzzel egyrtelmstette. Az egyrtelmsts egybknt leginkbb egyes
lexikai elemek tbb jelentsbl addan vlt szksgess (pl. az egy szt mindig hromfle elemzsben kapjuk meg (hatroz, nvel, szmnv), ha tbb nem
egyrtelm elem is van a mondatban, akkor a hipotzisek szma sszeszorzdik).

Szeged, 2011. december 12.

4.

183

Anyag s mdszer

A ksrleti anyagot a BABEL magyar nyelv adatbzis [10] szolgltatta, amely


5-7 mondatbl ll bekezdseket is tartalmaz. Ebbl 330 mondatot elemeztnk
(az ismtldsek miatt 155 klnbz mondatot kellett csak szintaktikailag elemezni) 60 beszltl (30 fr, 30 n). Elsknt a 155 klnbz mondat szintaktikai elemzst vgeztk el. Ezutn az egyes felvteleket beszdhang szinten
szegmentltuk knyszertett illesztssel. A beszdhang szint szegmentlsbl
kinyertk az egyes szintaktikai egysgek hatrhoz kthet idpontokat. Ezeket
fogjuk a prozdiai szegmentls eredmnyeknt elll fonolgiai frzisok hatraival sszevetni. Az sszevetst szintaktikai szintenknt vgezzk elklntve,
mivel a hipotzisnk az, hogy a magasabb szintaktikai szinteket a prozdia jobban tkrzi. Az elklntett szintaktikai szinteket szmmal jelltk, fellrl lefel
haladva: 0, 1, 2, 3, 4 (v. 1. bra). A mondatokat tagmondatokra bontjuk,
gy kapjuk a 0. szintet. A tagmondatokat szintaktikailag tovbb elemezve egymsba gyazott szintaktikai frzisokat tallunk, ezeket reprezentljk a negatv
szmmal jellt szintek. Mg a begyazst nem tartalmaz szintaktikai frzisok
(1. szint) s az egyszeres begyazst tartalmazk (2. szint, a legtbb jelzs
szerkezet ilyen) igen gyakoriak, addig ktszeres vagy tbbszrs begyazs mr
viszonylag ritka (lsd a 2. s 3. tblzatokban).
A szintaktikai s a fonolgiai frzishatrokat akkor tekintettk egybeesnek,
ha kzttk kezdidpontjukat (vgidpontjukat) tekintve 150 ms-ot meghalad
idbeli eltrs nem volt. Ezt a trsintervallumot az albbi megfontolsok alapjn jelltk ki: (i) az intervallumnak lehetv kell tennie kb. fl sztag nagysgrend eltrst, mert a prozdiai szegmentl pontossga ilyen nagysgrend (v.
[13]), illetve (ii) mert a referenciaknt vizsglt szintaktikai hatrokat automatikus szegmentlssal hatroztuk meg, ami pontatlanabb szegmentlst jelent a
kzzel vgzettnl. A vlasztott trshatron bell gy mg biztostott, hogy (iii)
a prozdiai szegmentl ltal illesztett fonolgiai frzisok vrhat hossza jval
nagyobb 150 ms-nl (a vizsglt korpuszon az tlagos FF-hossz 618 ms, 211 ms
szrs mellett). A fonolgiai frzisok kezdett mindig a szintaktikai frzisok kezdetvel, a FF-ok vgeit mindig a SzF-ok vgvel vetettk ssze.

1. bra. Szintaktikai szintek hierarchikus reprezentciban

184

5.
5.1.

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Eredmnyek s rtkels
Szintaktikai frzisok behatrolsa

Az els ksrlet arra irnyult, hogy megvizsgljuk, a szintaktikai frzisok mennyire


hatrolhatk be a prozdia alapjn. Mrszmknt a recall rtket hasznljuk,
mely denci szerint:
tp
,
(1)
Recall =
tp + f n
itt tp a helyesen azonostott szintaktikai hatrok szma (true positives), f n pedig
a nem azonostott szintaktikai hatrok szma (false negatives). Az eredmnyek
a 2. tblzatban lthatk, kln a frzisok kezdetre s a vgre. Mr emltettk, hogy a kirtkelst szintaktikai szintekre bontva kln-kln vgezzk.
Egyes esetekben (nem is ritkn) tbb, klnbz szint szintaktikai hatrt tallunk egy helyen (pl. az "gyes ember" frzisban egyszerre indul a 1. s a
2. szint szintaktikai frzis, a 2. szint az "gyes", az 1. szint az "ember"
utn r vget). A kirtkelst emiatt kt szlra bontottuk: az egyik szlon egy
helyen egyetlen, a legmagasabb szint szintaktikai hatrt szmoljuk csak (erre
az 1B/W jellssel utalunk), mg a msik szlon az egy helyen tallhat valamennyi szintaktikai hatrt egyszerre gyelembe vesszk (teht utbbi esetben
helyes detektls esetn valamennyi szinten egy helyes detektlst szmtunk,
holott "tbb legyet tttnk egy csapsra". Ugyanakkor ha elvtjk a hatrt,
akkor azt termszetesen valamennyi szinten hibaknt vesszk gyelembe. Erre a
szmtsi mdra a MB/W jellssel utalunk).
2. tblzat. Szintaktikai frzisok hatrainak detektlsa (recall). 1B/L= egy (a
legmagasabb szint) szintaktikai hatr egy helyen; MB/W= tbb szintaktikai
hatr is lehet egy helyen.
Szintaktikai
szint
0
1
2
3
4
sszes szint

Kezdet
1B/W MB/W
0,85
0,85
0,45
0,70
0,42
0,70
0,44
0,74
0,48
0,70
0,54
0,72

Vg
Elf. szma
1B/W MB/W (MB/W)
0,79
0,79
3124
0,48
0,68
10339
0,48
0,69
5763
0,45
0,65
814
0,50
0,67
187
0,55
0,69
20227

Az tlagos recall rtk 71% (MB/W), illetve 55% (1B/W), amely a tagmondatok szintjn jelentsen magasabb: 85% (frziskezdet) s 79% (frzisvg). Az
eredmnyek statisztikai altmasztsra Kruskal-Wallis prbt vgeztnk, amely
igazolta, hogy a fonolgiai s a szintaktikai frzisok kztt szignikns sszefggs van (2 = 6430, 606; p < 0, 000).

Szeged, 2011. december 12.

185

A megfelel SzF kezd- s vgidpontokat prba lltva s a recall rtkeit vizsglva Mann-Whitney s Wilcoxon W tesztekkel a tagmondatok esetn a tagmondat kezdett szigniknsan jobban lehet detektlni, mint a vgt (Z = 7, 807; p < 0, 000). Mlyebb szintaktikai szinteken azonban megsznik a szignikns klnbsg a kezd s vgidpontok tekintetben (1. szint:
Z = 0, 407; p > 0, 1; 2. szint: Z = 0, 016; p > 0, 1; hasonlan a mlyebb
szintekre is).
A tagmondat szintnl mlyebb szinteken a recall rtkek szinte azonosak, ebbl arra kvetkeztethetnk, hogy a prozdia a szintaktikai hierarchiban elfoglalt
helyzettl fggetlenl jelez szintaktikai frzishatr-informcit: nincs szignikns
klnbsg a recall rtkek kztt a szintaktikai szint fggvnyben a tagmondatnl mlyebben: (2 = 0, 224; p > 0, 1). Teht minden SzF nll entitsknt
viselkedik, fggetlenl a szintaktikai hierarchiban elfoglalt helytl.
5.2.

Szintaktikai szintek elklntse a prozdia alapjn

A kvetkez lpsben azt vizsgltuk, mennyire klnthetk el az egyes szintaktikai szintek a fonolgiai frzisokra trtn szegmentls alapjn, illetve van-e
olyan FF, amely valamely szintaktikai szinthez trsthat (a frzistpusok elklntsnl hasznlt metodika alapjn hipotzisnk, hogy kell lennie). Ha a
FF tpusa alapjn klnbsget tudunk tenni a szintaktikai szintek kztt, az
nagyban emeln a prozdiai szegmentls rtkt az elemzsben. Azt is j lenne
tudnunk, mennyire megbzhat a detektls az egyes fonolgiai frzisok tpustl
fggen (ha van kzttk klnbsg). A vlasztott mrtknk a precision:
P recision =

tp
,
tp + f p

(2)

ahol tp ismt a FF-ok ltal helyesen (150 ms-on bell) jelzett SzF hatr, mg
f p a beszrt FF hatrok szma (amelyek teht nem esnek egybe SzF-sal). A
precision mrszm mellett specicits jelleggel azt is vizsgljuk, hogy fonolgiai frzistpusokra bontva hogyan alakulnak a szintenknti relatv gyakorisgok
(milyen tpus FF milyen szint SzF-nak felel meg leggyakrabban/tipikusan).
Az eredmnyeket a 3. s a 4. tblzatokban mutatjuk be, kln frzisok elejnek
s vgnek sszehasonltsra. A relatv gyakorisgok mellett az utols oszlopban
a FF-hoz tartoz precision rtke is megtallhat.
A 3. tblzat eredmnyei szerint a me FF 86% relatv gyakorisggal tagmondat kezdett jelli. A 1. szint szintaktikai frzis kezdetre a fe, fs, mv, illetve
kisebb mrtkben a fv fonolgiai frzisok utalnak. Az s tpus frzis kezdete
nem egyrtelm szintaktikai utals szempontjbl. A 2. szintaktikai szinttl
mlyebben a FF-ok eloszlsa lnyegben egyenletes az egyes szintek kztt, gy
a FF tpusa nem utal a szintaktikai szintre. Az eredmnyek sszessgben teht azt jelentik, hogy a tagmondatok kezdete igen biztosan elrejelezhet a FF
tpusa alapjn (0. szint), illetve hogy a 1. szint ettl s a mlyebben fekv
szintektl mg jl elklnthet. Teht a szintaktikai hierarchia prozdiai szemszgbl 3 szintre tagoldik, a 0. szintaktikai szintre, a 1. szintaktikai szintre s

186

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3. tblzat. SzF szintek s FF-ok tpusnak kapcsolata frzisok elejn (relatv


gyakorisgok) s precision.
FF
tpusa
me
fe
fs
mv
fv
s
sszes FF

Szintaktikai szint Elfordulsok Prec0


1 2 3 szma (sszes) ision
0,86 0,07 0,04 0,02
1736
0,84
0,12 0,78 0,07 0,02
2517
0,58
0,09 0,83 0,06 0,01
1399
0,55
0,14 0,80 0,04 0,02
2094
0,46
0,22 0,72 0,04 0,01
1326
0,51
0,50 0,41 0,07 0,02
1456
0,57
0,36 0,56 0,05 0,02
10539
0,58

az sszevont 2. N. mlyebb szintekre. Arra is tekintettel, hogy a szintaktikai


hierarchiban a mlyebb szintek fel haladva a SzF elfordulsok gyakorisga
radiklisan cskken, teht igen ritkk a kettnl tbbszr begyazott frzisok
(v. 2. tblzat), a fonolgiai frzis segtsgvel behatrolt szintaktikai frzisok
jelents hnyadrl teht eldnthet, hogy nagy valsznsggel milyen szinthez
tartoznak. Az sszes 2. szint s mlyebben elhelyezked frzis valjban tbb
mint 85%-ban 2. szint frzisnak felel meg, csak a fennmarad szk 15% az
ennl mlyebb szinten elhelyezked. Kzttk viszont a prozdia alapjn klnbsget nem tudtunk tenni.

4. tblzat. SzF szintek s FF-ok tpusnak kapcsolata frzisok vgn (relatv


gyakorisgok) s precision.
FF
tpusa
me
fe
fs
mv
fv
s
sszes tpus

Szintaktikai szint Elfordulsok Prec0


1 2 3 szma (sszes) ision
0,05 0,74 0,11 0,08
1736
0,58
0,09 0,68 0,20 0,03
2517
0,64
0,08 0,68 0,18 0,04
1399
0,60
0,83 0,11 0,04 0,02
2094
0,80
0,60 0,28 0,09 0,03
1326
0,73
0,13 0,64 0,17 0,06
1467
0,57
0,34 0,49 0,13 0,04
10593
0,66

A 4. tblzat eredmnyei szerint a frzisok vgt vizsglva a detektlt mv


tpus FF 83% relatv gyakorisggal jelezte a 0. szint tagmondat vgt. Az
fv tpus FF gyakran (60%) szintn tagmondat vgt jelzi (0. szint), azonban
viszonylag gyakran jelezheti 1. szint szintaktikai frzis vgt is (28%). Az me
tpus FF vge egyrtelmbben a 1. szinthez kapcsolhat 74% gyakorisggal,
mg az fe, fs s s tpus FF-ok vge 1. vagy 2. szinten jelzi a SzF-ok vgt.
Ellenttben a frzisok elejre vgzett vizsglatokkal, a frzisok vgt vizsglva

Szeged, 2011. december 12.

187

mr a 1. s a 2, illetve mlyebb szintek sem klnthetk el az illesztett


FF tpusa alapjn a relatv gyakorisgok vizsglatval. Ehhez teht a frzisok
elejt kell vizsglnunk. A gyakorlatban termszetesen a frzisok elejt s vgt
egyttesen tudjuk vizsglni az esetek dnt tbbsgben, hiszen a frzisok vgn
rendszerint jabb frzisok kezddnek (kivve a megnyilatkozs vgn s hosszabb
csend eltt, br ez utbbi szintn informatv elem, hiszen eltte legalbbis
olvasott beszdben a szintaktikai frzis, st a tagmondat is ltalban lezrt.
A precision s recall mrszmok rtkeit reduklt FF elemhalmazzal is szmtottuk annak vizsglatra, hogy ily mdon esetleg egyrtelmbben lehetsgese a szintaktikai szintek elklntse. A reduklt FF halmazzal trtn vizsglat
sorn a prozdiai szegmentl nem illesztheti az fs s az s FF-okat. Utbbit
azrt zrjuk ki, mert a frzisok elejre vgzett vizsglatkor nem jelezte egyrtelmen a szintaktikai szintet, elbbit pedig azrt, mert szerept vrhatan az
ersebben hangslyos, de dallammenetben nem klnbz fe tpus FF modellje
rszben tveheti. A reduklt FF elemhalmazzal vgzett vizsglatok eredmnyei
a frzisok elejt vizsglva az 5. tblzatban lthatk. A recall rtke visszaesik
(tlagosan 48%-ra, 1B/W esetben), teht a reduklt elemhalmazzal kevesebb
szintaktikai frzis kezdett tudjuk meghatrozni, ugyanakkor a precision rtke
szigniknsan nem vltozik. Ami miatt mgis rdemes lehet a vizsglatot elvgezni, hogy a 0., tagmondat szintet sokkal biztosabban kiemeli. A frzisok vgt
vizsglva hasonl eredmnyeket kaptunk: gyengbb recall mellett szigniknsan
nem jobb precision, a 0. s a 1. szintek elklnthetsge javul, a 2. szintet
pedig rdemben mr nem detektlja a rendszer.
5. tblzat. SzF szintek s FF-ok tpusnak kapcsolata frzisok elejn reduklt
FF elemhalmazzal (relatv gyakorisgok); precision s 1B/W recall az egyes szintaktikai szintekre.
FF
tpusa
me
fe
mv
fv
sszes tpus
Recall

5.3.

Szintaktikai szint Elfordulsok Prec0 1 2 3 szma (sszes) ision


0,88 0,07 0,02 0,02
1835
0,92
0,13 0,77 0,07 0,02
3455
0,58
0,26 0,67 0,04 0,02
1914
0,53
0,37 0,58 0,04 0,01
1782
0,57
0,42 0,51 0,05 0,02
8986
0,64
0,80 0,39 0,34 0,37
tl. recall: 0,48

sszefggs a fonolgiai s a szintaktikai frzis tpusa kztt

Vgezetl azt is vizsgltuk, hogy felfedezhet-e valamifle sszefggs a fonolgiai frzis tpusa (me, fe, fs, mv, fv, s), illetve a szintaktikai frzis tpusa kztt
(NP, AdjP, AdvP, NumP, VV, VV-Inf, PostpP). Az eredmnyek tansga szerint
ilyen sszefggs a magyar nyelvben nem mutathat ki (2 = 0, 349; p > 0, 1),

188

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

a fonolgiai frzisok vletlenszeren kombinldnak a szintaktikai frzisokkal.


A frzistpusok ssze nem fggse a magyar nyelvben a ktetlen szrend miatt
nem meglep, a vizsglatot rdemes lenne ms, a szemantikai sszefggseket
szrenddel rzkeltet nyelven is elvgezni.

6.

sszefoglals s kitekints

Cikknkben a szintaktikai szerkezet feltrkpezhetsgt vizsgltuk olvasott beszdben. Egy prozdiai szegmentl kimenete alapjn a szintaktikai frzisok hatrait azonostottuk, s vizsgltuk a szintaktikai hierarchihoz rendelt szintek
visszakvethetsgt is pusztn a beszdjel prozdija alapjn. A tagmondathatrok akr 92%-a, a tagmondatban elhelyezked, akr egymsba is gyazott
szintaktikai frzisok hatrainak 50-70%-a volt automatikusan meghatrozhat.
A tagmondathatrok detektlsban a pontossgot jellemz precision mrszm
maximlis rtke 84% volt, a begyazott szintaktikai frzisokra 46 s 58% kztt
alakult. Vgkvetkeztetseink az albbiak: a prozdia olvasott beszdben (i) a
szintaktikai hatrokat jl jelzi, (ii) tbbnyire vilgosan elklnti a tagmondathatrokat a szszerkezetek hatraitl, (iii) a FF-ok/SzF-ok elejt sszevetve az
egyszeres begyazdsok mg esetenknt megklnbztethetk (1. s 2. szintek elklntse), a mlyebb szintaktikai szintek viszont egybeolvadnak, hatraik
azonban esetenknt tovbbra is detektlhatk. Ezek alapjn a prozdia temez,
szinkronizl szerepe felttelezhet a humn beszdpercepciban, amelyet szernyebb rtegz szerep egszt ki (0., 1. s 2. s mlyebb szintek elklntse).
A prozdiai s szintaktikai szerkezet sszefggseit spontn beszdben is vizsgljuk, ezek a ksrletek azonban mg folyamatban vannak remnyeink szerint
eladsunkban mr az eredmnyekbl is zeltt adhatunk. Spontn beszd esetben a prozdiai szegmentls nagyjbl elvgezhet, ugyanakkor szmolni kell
az elemzst megnehezt elemek megjelensvel: rzelmi tltet, amely a prozdit
is befolysolja; nagyobb dinamikatartomny (ez az elfeldolgozsban - oktvugrs elleni szrsben s interpollsban - okozhat nehzsgeket; a hangslyozsihanglejtsi "szoksjog" gyakori megszegse, dinamikus vltozsa). A spontn beszd szintaktikai elemzse igen nehz feladatnak bizonyul, mivel nem tartalmaz
jl krlhatrolhat, egyrtelmen meghatrozhat mondatokat. thidal megoldsknt n. virtulis mondatok elemzst fogjuk elvgezni (ez alatt a spontn
beszdbeli megnyilatkozsok olvasott beszdhez hasonl mondatszer formra
konvertlt alakjt rtjk - v. [3], [7]). Tovbbra is problmt jelentenek azonban a megakadsjelensgek, befejezetlen gondolatok stb., amelyek a prozdiai s
virtualizlt szintaktikai szerkezet egymsra kpezst jelentsen nehezthetik.

Ksznetnyilvnts
A szerzk ksznetket fejezik ki Nagy Katalinnak, a BME villamosmrnk hallgatjnak a bemutatott munkban nyjtott segtsgrt.

Szeged, 2011. december 12.

189

Hivatkozsok
1. Babarczy A., Blint G., Hamp G., Krpti A., Rung A., Szakadt I.: Hunpars:
mondattani elemz alkalmazs, III. Magyar Szmtgpes Nyelvszeti Konferencia.
Szeged, Magyarorszg, 2005. pp. 20-28.
2. Beke Andrs, Szaszk Gyrgy: Sztagok automatikus osztlyozsa spontn beszdben spektrlis s prozdiai jellemzk alapjn, VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg, 2010. pp. 236-248.
3. Gsy Mria: Virtulis mondatok a spontn beszdben, Beszdkutats 2003, MTA
Nyelvtudomnyi Intzet, Budapest, 2003. pp. 19-43.
4. Hunyadi Lszl: Hungarian Sentence Prosody and Universal Grammar, Peter Lang,
2002.
5. Kaisse, Ellen M.: Connected Speech: The Interaction of Syntax and Phonology,
Academic Press, San Diego, 1985.
6. Koutny Ilona: Parsing Hungarian Sentences in order to Determine their Prosodic
Structures in a Multilingual TTS system, Proc. of the Eurospeech99 International
Conference on Speech Communication and Technology, pp. 2091-2094, Budapest,
Hungary, 1999.
7. Mark Alexandra: A spontn beszd nhny szupraszegmentlis jellegzetessge:
Monologikus s dialogikus szvegek sszevetse, valamint a hmmgs vizsglata,
PhD rtekezs, ELTE, Budapest, 2005.
8. Olaszy Gbor, Nmeth Gza, Olaszi Pter: Automatic Prosody Generation - a
Model for Hungarian, In: European Conference on Speech Communication and
Technology (Eurospeech 2001). Aalborg, Dnia, 2001. pp. 525-528.
9. Price, P.J., Ostendorf, M., Shattuck-Hufnagel, S., Fong. C.: The use of prosody for
syntactic disambiguation, Journal of the Acoustical Society of America 90(6):29562970, 1991.
10. Roach, P. et al.: BABEL: An Eastern European multi-language database, Proc. of
the 4th International Conference on Speech and Language Processing, Philadelphia,
USA, Vol 3. pp. 1892-1893, 1996.
11. Selkirk, Elisabeth: The Syntax-Phonology Interface, in Smelser, N.J. and Baltes,
Paul B. [Eds], International Encyclopaedia of the Social and Behavioural Sciences,
15407-15412, Oxford: Pergamon, 2001.
12. Silverman, K.: On costumizing prosody in speech synthesis: names and addresses
as a case in point, in Proc. ARPA Workshop on Human Language Technology, pp.
317-322, 1993.
13. Szaszk Gyrgy: A szupraszegmentlis jellemzk szerepe s felhasznlsa a gpi
beszdfelismersben, PhD rtekezs. Budapesti Mszaki s Gazdasgtudomnyi
Egyetem, 2008.
14. Vicsi Klra, Szaszk Gyrgy: Folyamatos beszd sz- s frzisszint automatikus
szegmentlsa szupraszegmentlis jegyek alapjn, II. rsz: Statisztikai eljrs, nnmagyar nyelv sszehasonlt vizsglat, III. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg, 2005. pp. 360-370.

190

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A HuComTech-korpusz s -adatbzis szmtgpes


feldolgozsi lehetsgei. Automatikus prozdiai annotci
Szekrnyes Istvn1, Csipks Lszl1, Oravecz Csaba2
1

Debreceni Egyetem, ltalnos s Alkalmazott Nyelvszeti Tanszk


H-4032, Debrecen, Egyetem tr 1.
xepenator@gmail.com, laszlo.csipkes@freemail.hu
2
Magyar Tudomnyos Akadmia, Nyelvtudomnyi Intzet
H-1394, Budapest, Pf. 360
oravecz@nytud.hu

Kivonat: A klnbz kommunikcis esemnyek szmtgpes elemzse sorn nlklzhetetlen tmpontot jelent, hogy gpileg feldolgozhat formban elrhetk legyenek az azokat ksr s ltalnossgban jellemz fizikai jegyek,
mint amilyen a gyorsul beszdtemp vagy az eltr hanghordozs. A jelen tanulmnyban bemutatsra kerl, a HuComTech-korpusz s -adatbzis bvtseknt tervezett automatikus prozdiai annotci ezeknek az informciknak a
feltrkpezst szolglja abbl a clbl, hogy a lehetv tegye a korpusz annotciiban rgztsre kerlt kommunikcis jelensgek akusztikai jellemzst. A
tanulmny a korpusz ltalnos bemutatsa utn ennek cljait, mdszereit s lehetsgeit kvnja rszletezni.

1 Bevezets
A HuComTech projekt1 keretben ltrehozott multimodlis lnyelvi korpusz s
adatbzis szmtalan feldolgozsi s kutatsi lehetsget rejt magban. A kommunikcielmleti szakemberek, digitlis kpfeldolgozk s szmtgpes nyelvszek kzremkdsvel, 113 beszl rszvtelvel gyjttt, 50 rnyi annotlt anyag azzal a
cllal kszlt, hogy egy egysges elmleti kerethez igazodva ltrejjjn egy olyan
empirikus erforrs, amely klnfle kutatsokra, adatbnyszatra, gpi betantsra
alkalmas alapanyagot jelent a projektben egyttmkd, illetve kls kutatk szmra [4]. Jelen tanulmny a jelenlegi specifikcik rvid ismertetse utn az adatbzis
bvtseknt tervezett automatikus prozdiai annotcit, annak mdszereit s lehetsgeit kvnja bemutatni.

A kutats alapjait Az embergp kommunikci technolgijnak elmleti alapjai. cm, TMOP-4.2.208/1/2008-0009 projekt azonostj program keretei kztt teremtettk meg. Jelen tanulmny A
felsoktats minsgnek javtsa a kutats-fejleszts-innovci-oktats fejlesztsn keresztl a
Debreceni Egyetemen cm, TMOP-4.2.1/B-09/1/KONV-2010-0007 projektazonostj program
keretein bell jtt ltre.

Szeged, 2011. december 12.

191

1.1 A HuComTech-korpusz s -adatbzis bemutatsa


A HuComtech-korpusz magjt egy sszessgben 50, beszlnknt fl ra hossz
audio- s videfelvtel alkotja. A felvtelek mindegyike kt szemly (egy interjztat
s egy interjalany) rszvtelvel kerlt rgztsre, egy formlis s egy informlis
trsalgsi szcenri felhasznlsval. Az els (formlis) rsz egy szimullt llsinterj formjban, a msodik egy irnytott beszlgets szabadabb keretei kztt valsult
meg, amelyek sorn az interjztat klnfle mdszerekkel igyekezett az interjalanybl spontn reakcikat kivltani.

1. bra: pillanatfelvtel a HuComTech korpuszbl. Az interjalany oldala.

A korpusz szmtgpes feldolgozhatsgt a felvtelekhez kszlt annotcik


biztostjk, amelyek elksztsre az akusztikus s a vizulis csatornn prhuzamosan,
tbbfle megkzeltsben (fizikai jelek, nyelvi egysgek s kommunikcis jelensgek megfigyelse), azokon bell is tbb elemzsi szempont alapjn trtnt.
A vizulis annotci a kpi anyagon megfigyelhet, a kommunikcis esemnyeket ksr, azok lehetsges jellemzit kpez fizikai jeleket rgzti (fejmozgs, gesztikulci, tekintetirny stb.), illetve interpretlja (arckifejezs jellege stb.). Az
audioanyag szegmentlsa sorn a beszdfolyam szintaktikai egysgekre bomlik,
amelyek mentn az annotci a beszdfolyam szveges tiratn kvl tovbbi informciknt tartalmazza annak halls alapjn meghatrozott rzelmi tltst (a szemantikai tartalom figyelmen kvl hagysval). Az gy kinyerhet adatok a vizulis s
akusztikus csatorna sszefggseinek vizsglatn tl a pragmatikai szempont annotci cmkivel sszevetve vlnak igazn informatvv, ahol az annottorok mr nem
nyelvi egysgeket vagy fizikai jeleket, hanem kommunikcis esemnyeket rgztenek, vizulis, akusztikus s audiovizulis jegyek alapjn.
Technolgiai szempontbl az audio- s a videcsatorna annotcija klnbz
szmtgpes eszkzkkel2 s eltr szegmentlsi mdszerekkel valsult meg, nem
kizrva ezzel az utlagos konverzik, a modalitsok egyestse rvn megvalsthat
multimodlis lekrdezseket sem. Az annotcik tartalmazta adatok a feldolgozs
sorn egy SQL-alap adatbzis rszeiv vlnak, amely a felvtelekkel kapcsolatos
2

A videfelvtelek rgztsre a digitliskp-feldolgoz csoport ltal fejlesztett Qannot, az


audiofelvtelek feldolgozsra pedig a Praat beszdfeldolgoz szoftver szolglt [2].

192

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

klnfle metainformcikat (beszl neme, letkora stb.) is magban foglalja, az


annotcis cmkket pedig a modellben elfoglalt helyk s tulajdonsgtpusaik (arckifejezs, rzelmi tlts stb.) alapjn rendszerezi (2. bra).

2. bra: A HuComTech adatbzissma.

Az SQL lekrdezseken kvl, a nyers adatokon (felvtelek s annotcik) folytatott munka a feldolgozs azon rszt kpezi, amely egyttal a korpusz bvtst is
magval vonja az automatikusan generlt j annotcik vagy metaadatok formjban.
Az automatizlt adatgyjts s cmkzs ilyen szmtgpes nyelvszeti irny rszt
kpezi a klnfle akusztikai informcik kinyerse s annotlsa a mr meglv
manulis annotcik felhasznlsval.

1.2 Az automatikus prozdiai annotci szerepe az adatbzisban


A prozdiai annotcival elltott beszlt nyelvi korpuszok rendkvl rtkes nyelvi
errforrst kpviselnek, m ellltsuk igen munkaignyes. Tovbbi problmt okoz,
hogy a nemzetkzi gyakorlatban nincs egyrtelm megllapods arra vonatkozan,
hogy pontosan mit is tartalmazzon egy prozdiai annotci.
Sajt annotcis eljrsunk megtervezse sorn a tvlati clok figyelembevtelvel
azokat az elemzsi megkzeltseket tekintettk megfelelnek, amelyek az adatbzisban jellsre kerlt kommunikcis esemnyek gpi detektlshoz szolgltathatnak
relevns informcikat. Ennek megfelelen a kommunikcis esemnyeket ksr,
ltalnossgban jellemz s vals idben is feldolgozhat fizikai jegyeket szksges

Szeged, 2011. december 12.

193

elemezhetv tenni, amelyek egyttesei, meghatrozott irny progresszija alapjn


amazok felismerhetv vlnak.
A pragmatikai annotcikban jellt kommunikcis esemnyek ilyen rtelemben
vett potencilis ksrjegyei vizulis oldalon rszben manulisan, rszben automatikusan (pl. a szjmozgs) rgztsre kerltek, detektlsuk pedig a digitlis kpfeldolgozs feladatkrbe esik, a kapcsold prozdiai informcik viszont az adatbzis
jelenlegi llapotban egyltaln nem elrhetk. Az automatikus prozdiai annotci
clja ptolni ezt a hinyt, hogy a nyers adatok (F0 s intenzitsrtkek) az adatbzisban kzvetlenl, illetve a klnfle cmkzsi eljrsok rvn feldolgozott formban
is lekrdezhetv vljanak. A feldolgozs eredmnyeknt kapott cmkesorokbl aztn
tgabb kr elemzsek tjn tovbbi metainformcik nyerhetk ki az interakcik
beszddinamikai mintzatairl, amelyek feltrkpezse ltal a kommunikcis esemnyek felismerst segt tuds birtokba juthatunk. Pldul arrl, hogyan vltozik
egy dialgus intenzitsa az abba bekerl j informcik, tmavltsok hatsra.

2 A prozdiai annotci lpsei

2.1 F0- s intenzitsadatok kinyerse s integrlsa az adatbzisba


A beszdfolyam akusztikai karakterizlshoz leginkbb felhasznlhat F0 s intenzits adatok kinyersre a Praat beszdfeldolgoz szoftver [2] e clra kidolgozott, beptett szkript nyelve ltal knnyen automatizlhat lekrdez funkcii mellett sajt
fejleszts, vals idben is mkd, jelenleg tesztels alatt ll algoritmusokat kvnunk a ksbbiekben felhasznlni. Ezek tetszleges formra hozhat kimenete a korpusz rszeknt tovbbi elemzsek bemenetl szolgl, illetve feltltsk utn az
eredmnyek az adatbzis-lekrdezsek sorn is felhasznlhatv vlnak.
A HuComTech projekt jelenlegi adatbzissmja egyetlen relcis tblban trolja
a klnbz tpus annotcik cmkit a cmkekezdet, cmkevg, cmkertk oszlopokban rgztve az azokat jellemz legfontosabb informcikat (lsd 1. bra). Az
olyan tpus akusztikai adatok, mint az egy adott idpillanathoz tartoz F0- s intenzitsrtkek trolsra ez a tbla nem alkalmas, gy a tbbi annotcis cmktl szeparltan, kln tblban kerlnek trolsra, amely ksbb alkalmas egyb, megegyez struktrj (id rtk) fizikai adatok trolsra is. Ezek az adatok a lekrdezsek sorn termszetesen csak bizonyos kalkulcik, pldul bizonyos cmkeszakaszokra vagy az egsz fjlra szmolt tlagrtkek utn vlnak kellen informatvv.

2.2 A beszdtemp annotcija


A feldolgozsi eljrs egyik fontos komponenst a beszdtemp mrse s cmkzse
jelenti, melynek sorn a beszd sebessgnek vltozsairl kvnunk szmot adni.
A beszdtemp mrsnek kivitelezshez elssorban egy olyan mrsi objektum
meghatrozsra van szksgnk, amelynek egy adott idegysgre mrt gyakorisga,

194

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

srsge megragadhatv teszi azt. A ltez megoldsok utn kutatva talltunk r


Nivja H. de Jong s Ton Wempe tanulmnyra [3]. A szerzk a beszdtemp vizsglathoz a sztagmagokat vlasztottk mrsi objektumknt, amelyek detektlsra
egy jl mkd mdszert is kidolgoztak. Az eljrs Praat beszdfeldolgoz program
beptett szkript nyelvt, fggvnyeit s mrsi algoritmusait hasznlja. A sztagmagok detektlsa az intenzits grbe cscsainak meghatrozott kszbrtkek (cscsok
kztti minimlis rtkbeli klnbsg stb.) szerinti szrse ltal trtnik a beszdfolyam nem hangzs rszeinek kizrsval. Az eredmnyl kapott intenzitscscsok
idpillanatai a Praat TextGrid formtum annotcis fjljaiban kerlnek trolsra,
amelyek a program szerkesztfelletn jelenthetk meg (2. bra), illetve egyb
szoftveres megoldsokkal is knnyen feldolgozhatk.

3. bra: A sztagmagok detektlsa.

A beszd sebessgnek ingadozsa gy a sztagmagok helyt reprezentl intenzitscscsok kztti tvolsg vltozsain keresztl vlik megragadhatv.3 Ehhez termszetesen figyelembe kell vennnk a beszd sebessgnek az adott beszl egyedi
beszdtempjbl kvetkez relatv viszonyait, amely a teljes beszdfolyamra szmolt elzetes statisztikk segtsgvel valsthat meg. A hangzs rszekre szmolt
cscsok kztti tvolsg tlagrtknek megadsval meghatrozhatjuk az adott beszl norml beszdtempjt. Az eljrs sorn az tlagolst elszr minden hangzs
szakaszra kln-kln vgezznk el, majd ezeket az eredmnyeket tlagoljuk jra. A
norml beszdtemp meghatrozsa utn relatv kszbrtkek kiszmtsval tovbbi kategrikat llthatunk fel, amelyek mr az adott szakaszokra trtn cmkzsi
eljrs sorn kerlnek felhasznlsra (3. bra).

A klnbz magnhangzk eltr ejtsi idejbl fakadan ez az eljrs knnyen vezethet


megtveszt eredmnyekhez. Az algoritmus tkletestshez teht plusz informciknt figyelembe kell venni a cscsok ltal reprezentlt sztagmag idbeli terjedelmt is, amely az
F0- s az intenzitsgrbe tovbbi vizsglata rvn lesz megvalsthat.

Szeged, 2011. december 12.

195

4. bra: A beszdtemp cmkzse.

A beszd aktulis tempjt teht az adott szegmensen bell fellelt sztagmagok tlagsrsgnek az adott beszlre jellemz norml tlagsrsghez viszonytott klnbsge fogja meghatrozni a beszd aktulis tempjt. A eljrs lpseit sszefoglalva:
sztagmagok detektlsa (de Jong s Wempe munkja [3] nyomn)
norml beszdtemp meghatrozsa a sztagmagok hangzs rszekre
szmolt tlagsrsge alapjn (beszlspecifikus tulajdonsg)
az adott beszdszegmens tlagsrsgnek kiszmtsa
az adott beszdszegmens tempjnak kategorizlsa a norml
beszdtemptl val eltrs foka alapjn
A cmkzs esetben problematikus krds, hogy milyen egysgekre, a
beszdfolyam mely szakaszaira trtnjen az aktulis beszdtemp kategorizlsa.
Lehetsges utat jelent a korbban mr manlisan annotlt szegmentumok, illetve a
sznettl sznetig tart hangzs rszek tempjnak cmkzse. Az eljrsnl
problmt jelent, hogy egy folytonos (sznettl sznetig tart) beszdszakaszon, vagy
akr egy szintaktikai egysget reprezentl annotlt szegmentumon bell is
szmtanunk kell a temp ingadozsra. Hogy ezeket az informcikat ne vesztsk
el, az adott egysgen bell is vizsglnunk a beszdtemp alakulst, a beszlt s az
egysget jellemz adatokbl szmolt kszbrtkek felhasznlsval.

2. 3 Az alapfrekvencia progresszijnak annotlsa


A prozdiai annotci kvetkez lpst az alapfrekvencia progresszijnak
elemzse jelenti, amelynek eredmnyeknt a beszdfolyam meghatrozott
szegmentumaihoz valamilyen egzakt tonlis karaktert jell annotcis cmkt
(emelked, ereszked, es stb.) vagy cmkekombincit rendelnk. Ennek
megvalstsa rdekben a kimrt F0-rtkekre szmolt trendvonalak formjban
elbb feldolgozhat formban stilizlnunk kell az alapfrekvencia vltozsait.

196

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az eljrs megvalstsra Piet Mertens kapcsold munkjt [5] terveztk


felhasznlni. Mertens elzetesen szmos fontos felttelt fogalmaz meg, amelyeket a
prozdiai annotci sorn nem szabad figyelmen kvl hagyni:
x
x
x
x
x
x

Az annotcnak alapveten az rzkelhet intoncit kell reprezentlnia


ojektv s knnyen rtelmezhet mdon,
Az alapfrekvencia vltozst hosszabb beszdfolyamon keresztl is
tkrznie kell, a szlesebb tartomnyokra kiterjed vltozsok rgztse
rdekben,
A fizikai jelek idbeli szervezdst meg kell riznie a sznetek, hezitcik,
beszdtemp s a ritmus azonosthatsga rdekben,
Az annotcinak automatikusnak vagy flautomatikusnak kell lennie,
Az annotci elmletsemleges kell, hogy legyen, a szleskr
hasznlhatsg rdekben,
Az annotci lehetleg idben illesztett fonetikai s szveges trst
tartalmazzon az olvashatsg s szveges keress lehetsgnek biztostsa
rdekben.

Mertens [5] kifejlesztett egy, a fenti feltteleknek megfelel transkripcis


rendszert, amely a voklis sztagmag alapfrekvencijnak stilizlt kontrjt
felhasznlva flautomatikusan rendel prozdiai annotcit fonetikai transkripcihoz.
A stilizls [1] alapjn a tonlis rzkels pszichoakusztikai modelljre pl. Az
annotci megrzi az akusztikai jel temporlis jellemzit, s bepti a szveges,
illetve a fonetikai transkripcit is, ahol ez utbbi a voklis sztagmag azonostsban
jtszik szerepet. A rendszer tbbfle rszletessg informcit tartalmaz kimenetet
kpes generlni: a kompakt vltozat a stilizlt beszddallam szveges s fonetikai
trssal kiegsztett annotcijt tartalmazza (lsd 5. bra).

5. bra: A Mertens-fle transkripcis rendszer kimenete.

A mdszer implementcija a Praat beszdfeldolgoz program felhasznlsval


trtnt. A transkripcikat generl Praat szkript a hozz tartoz dokumentcival
egytt Prosogram (v2.8) nven szabadon hozzfrhet4, tbbfle belltssal s
zemmdban futtathat, lehetsget biztostva pldul meglv, a megfelel
formtumban trolt manulis szegmentcik hasznlatra. A HuComTechkorpuszban hozzfrhet szveges transkripcik tagmondatszint annotcikat
takarnak, gy az alapfrekvencia flautomatikus stilizcijhoz ezek nem

http://bach.arts.kuleuven.be/pmertens/prosogram/

Szeged, 2011. december 12.

197

felhasznlhatk, viszont a program lehetsget knl a hanganyag sztagokra s


sztagmagokra trtn automatikus szegmentlsra is.5
Az eredmnyl kapott stilizciknak6 a felhasznlsval tovbbi elemzsvel
lehetv vlik a beszdfolyam szegmentumainak egzakt kategorizcija. Problmt
jelent viszont, hogy a stilizcikat tartalmaz kimenet csak grafikus formban
elrhet. A ltalunk tervezett, a HuComTech adatbzisba integrlhat prozdiai
annotci megvalstshoz gy a stilizcik megjelentsrt felels algoritmust elbb
vissza kell fejtennk s t kell alaktanunk, hogy a clnak megfelel, a tovbbi
szmtsokhoz felhasznlhat numerikus kimeneteket (a stilizcik kezd s
vgpontja) tudjunk produklni. A program sajt anyagunkon vgzett tesztelsnek
grafikus kimenett az 5. bra szemllteti.

6. bra: A Prosogram grafikus kimenete.

A tovbbi elemzsek bemenett teht az alapfrekvencia stilizlt progresszija adja,


amely a dallamgrbe normalizlt darabjainak hosszban, a kezd s vgpontok
frekvenciartknek klnbsgben ragadhat meg. Ezeknek az rtkeknek a
felhasznlsval trtnik a beszdfolyam tonlis egysgeinek cmkzse, ahol minden
cmke az adott egysg dallamnak karakterrl prbl feldolgozhat lerst adni.
Mint ahogyan a beszdtempnl, az alapfrekvencia annotlsnl is problmt
jelent, hogy a beszdfolyamnak melyek azok az egysgei, amelyek kirtkelse rvn
az alapfrekvencia vltozsairl a szmunkra megfelel lptk kpet kapjuk. A jelenlegi tervek szerint ezek az egysgek a korpuszban mr manulisan annotlt,
potencilis intoncis frzisokat jelent tagmondatok lesznek, nem kizrva a
dallammenet tgabb lptk, klnfle kommunikcis esemnyek mentn trtn
elemzst. Ezekhez a vizsglatokhoz clszer a tagmondatszint progresszi
kategorizlsa mellett szmot adni a beszddallam aktulis tartomnyrl, annak
relatv magassgnak fggvnyben.7

5
6
7

Ennek megbzhatsga sajt anyagunkon jelenleg tesztels alatt ll.


Amelyeket a tovbbiakban az alapfrekvencia normalizlt progresszijnak tekintnk.
Ennek a relatv magassgnak a meghatrozshoz az adott beszlre jellemz hangterjedelem szolgltat informcikat.

198

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3 sszegzs
A HuComTech-korpusz s -adatbzis jelenlegi llapotban szmos vizsglati
lehetsget biztost kommunikcielmleti kutatsok folytatsra. Az automatikus
prozdiai annotci sikeres implementcija jelents mrtkben kitgtja ezeket a
vizsglati lehetsgeket az akusztikai informcik feldolgozhat formban trtn
bekapcsolsval, olyan tovbbi kutatsokat alapozva meg, melyek egy adott
kommunikcis esemny vals idben trtn detektlsnak vagy predikcijnak
algoritmizlhatsgt clozzk.

Bibliogrfia
1. Alessandro, P., Mertens., P.: Automatic pitch contour stylization using a model of tonal
perception. Computer Speech & Language Vol. 9, No. 3 (1995) 257-288
2. Boersma, P., Weenink, D. (2010): Praat: doing phonetics by computer 5.1.43. Institute of
Phonetic Sciences, University of Amsterdam. http://www.praat.org
3. de Jong, N. H., Wempe, T.: Praat script to detect syllable nuclei and measure speech rate
automatically. Behavior Research Methods Vol. 41, No. 2 (2009) 385-390.
4. Hunyadi, L.: Multimodal human computer interaction technologies. Theoretical modeling
and application in speech processing. Argumentum. Megjelens alatt (2011)
5. Mertens, P.: The Prosogram: Semi-Automatic Transcription of Prosody Based on a Tonal
Perception Model. In: Bel, B., Marlien, I. (eds.): Proceedings of Speech Prosody 2004i, Nara (Japan), 23-26 March (ISBN 2-9518233-1-2) (2004)
6. Ppay, K., Szeghalmy, Sz., Szekrnyes, I.: HuComTech Multimodal Corpus Annotation.
Argumentum. Megjelens alatt (2011)

Szeged, 2011. december 12.

199

A HuComTech audio adatbzis szintaktikai szintjnek


elvei s szablyrendszernek jdonsgai
Kiss Hermina1
HuComTech Group, Debreceni Egyetem, ltalnos s Alkalmazott Nyelvszeti Tanszk,
4032 Debrecen, Egyetem tr 1.
kissh3@gmail.com

Kivonat: A HuComTech multimodlis adatbzis egyik annotcis szintje a szintaktikai szint.


Az annotcis szempontrendszer kialaktsa sorn jbli tgondolsra kerlt a mondat fogalma,
a tagmondatok hierarchijnak elemzsi mdszere s az implicit nyelvi elemek kimutatsnak
mdszertana. Ennek tkrben ltrehoztunk egy j tpus mondatelemzsi mdszert, aminek
szintaktikai alapegysge a tagmondat. Az adatbzis legfontosabb alapelvei: az adatbzis legyen
preteoretikus, tkrzze a klnbz tudomnyos megkzeltsek kztti konszenzust, valamint
legyen alulspecifiklt. A spontnbeszd-kutats szintaktikai elemzsnek specilis jellegt
azzal lehet leginkbb kiemelni, ha klns figyelmet fordtunk az implicit nyelvi elemek
sszegyjtsre s rendszerezsre, valamint a tagmondatok hierarchijnak jellemzsre. Ez
az elads erre vllalkozik.

1 Bevezets
A munknk alapjt a HuComTech spontnbeszd-korpusz s adatbzis kpezi. Az
adatbzis a kommunikci szmos multimodlis jegye mellett nyelvi, ezen bell a
beszdre is vonatkoz adatot tartalmaz. Kln kihvs a folyamatban megszlet, a
kommunikci sorn kialakul spontnbeszd mondattani elemzse, hiszen az
gyakran ellenll a hagyomnyos mondatelemzsnek. Elemzse s annotlsa szmos
problmt vet fl egyrszt azrt, mert a beszl mg nem tudja, hogy az ltala
kifejezend informci milyen szerkezetben fog megjelenni, msrszt pedig az lsz
spontaneitsnak gyakori kvetkezmnye a pongyola nyelvhasznlat, ami egy nem
kellkppen tgondolt s nem megfelelen ltrehozott szintaxist hoz ltre. Els s
legfontosabb dolog a spontn beszd annotcis szablyainak kialaktshoz, hogy
meghatrozzuk a hasznland alapfogalmakat. Mivel jelen esetben kt szemly
kztti kommunikci szintaktikai elemzsrl van sz, minden esetben az egyes
beszlk ltal megvalstott egyes fordulkat tekintjk az elemzs trgynak. Az
egyes fordulkon bell azonostjuk a szintaktikai struktrt. A szintaktikai struktra
alapjnak a tagmondatot tekintjk (mlyebb bontsra mr csak azrt sem
vllalkozunk, mert ezt a beszlt nyelvi produkci gyakran nem is teszi lehetv) s
ezt szerkezeti sajtossgai alapjn hatrozzuk meg. Az elemzs s az annotci
1
A jelen tanulmny alapjul szolgl kutatsban a szerzt A felsoktats minsgnek javtsa
a kutats-fejleszts-innovci-oktats fejlesztsn keresztl a Debreceni Egyetemen cm,
TMOP-4.2.1/B-09/1/KONV-2010-0007 projektazonostj program tmogatta.

200

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

egysges strukturlis szempontok alapjn azt gri, hogy az elemzs jl tkrzi a


nyelv beszdben kialakul szerkesztst, ugyanakkor kellen alulspecifiklt ahhoz,
hogy klnbz elmleti megkzeltsekben is jl hasznlhat legyen.

2 A mondat s a tagmondat fogalma


A mondat fogalmnak defincijt olyan szempontbl kzeltjk meg, hogy
rvnyesljn az az alapvet clunk, miszerint az ltalunk kidolgozott szintaktikai
modell preteoretikusan mkdtethet, teht az ember-gp kztti kommunikci
tanulmnyozsra ltrejtt adatbzisban szinkronba hozhat a nyelvszeti
szakirodalom mondatfogalmnak tbbfle szempont megkzeltse s ennek
megfelelen tbbfle meghatrozsa.
Ennek a clnak az egyik velejrja az, hogy elemzsi szempontrendszernk
alulspecifiklt, hiszen a tagmondatok kztti viszonyok meghatrozsa utn nem
bontjuk tovbb az elemzsi szempontrendszert gy, hogy az al- s mellrendel
mondattpusok megnevezst is lehetv tegyk.
A Strukturlis magyar nyelvtan mondattanrl szl ktetben az alrendel
mellkmondat vonzatnak minsl, ezrt nem rvnyes az a szerkezeti meghatrozs,
miszerint a mondat szerkezete egyszer s sszetett mondatokbl ll ssze [1]. Mi
viszont elfogadjuk, hogy a kifejtett mondatrsz kln tagmondat, hogy minl
rszletesebben s rzkletesebben kimutassuk a mondat implicit elemeit. Nem
mondjuk azt teht, hogy az alrendelt tagmondat egy vonzat, s nem hinyzik semmi
a mondatbl, hanem kln tagmondatknt rtelmezve felsznre hozzuk az gy
kimutathat implicit nyelvi elemeket.
Ebbe a rendszerbe beilleszthet a vonzatrl val felfogsunk, amit a Strukturlis
magyar nyelvtan, illetve a Magyar grammatika [2] is elfogad: vonzatnak az
elhagyhatatlan bvtmnyeket tartjuk, ami azt jelenti, hogy a vonzat a grammatikai
struktra srlse nlkl nem hagyhat el a nyelvi egysg melll, amihez tartozik. Az
alanyt viszont nem tekintjk vonzatnak.
Ennek megfelelen az elemzsnk alapegysge a tagmondat. A tagmondat
szerkezetileg nem ms, mint szavak kapcsoldsa egy hierarchikus rendben. Egy
tagmondat szerkezeti hatrt az kpezi, amikor egy adott szt mr nem tudunk az
addig (az azt linerisan megelz s/vagy kvet szavakbl) felplt hierarchikus
rendben elhelyezni. Funkcionlisan egy hinytalan tagmondat a rgensbl (lltmny)
s ktelez vonzataibl, valamint az alanybl ll. Szmunkra az lltmny az igt s
annak vonzatait jelenti egyttesen, teht nem csupn a ler nyelvtan szerinti egyszer
s sszetett lltmnyt, hanem azzal egytt a vonzatokat is magba foglalja.
A szerkezetek lncszer grammatikai kapcsolata tagmondatok sort alkotja meg.
Ezek, ha szerkezetileg kapcsoldnak, mondatt llnak ssze. A mondat teht a
tagmondatok lncszer, szerkezeti kapcsoldsa s minimum egy tagmondatbl ll.

Szeged, 2011. december 12.

201

3 Implicit nyelvi elemek


A beszlt nyelvben gyakori elemek az ismtlsek, a tltelkszavak, a mondatok
megszerkesztettsge lazbb, szablytalanabb. Ennek egyik grammatikai
kvetkezmnye az, hogy elmaradhat a fmondat, az utalsz, a ktsz, a
grammatikai, illetve logikai alany, az lltmny, a trgy, a jelz s az ige. Ezen nem
jellt nyelvtani elemekre bizonyos esetekben kvetkeztethetnk akr strukturlisan,
akr szemantikailag/kontextulisan, ms esetekben azonban nem (pl. a megkezdett, de
befejezetlen tagmondatok esetben). A grammatikailag jlformlt s nem jlformlt
tagmondatokat egyazon szempontrendszer alapjn elemezzk.

4 Minimlis mondat
A beszlt nyelv lazbb szerkesztettsgnek fentebb bemutatott grammatikai
kvetkezmnye az implicit nyelvi elemek gyakori elfordulsa mellett egy msik
fontos grammatikai kvetkezmnye az, hogy egy-egy fordul [3] llhat klnll
szavak olyan egymsutnisgbl, amelyek kztt semmilyen grammatikai
sszerendezds nincs. A tagmondat fentebbi meghatrozsa alapjn ilyen esetekben
ezen szavak kln-kln egyetlen tagmondatbl ll mondatokat kpeznek. Ezek a
minimlis mondat esetei. Kln figyelmet kell fordtanunk a lexiklis tartalom nlkli
hangz megnyilvnulsokra. Ezek a lexiklis tartalom nlkli minimlis mondat
esetei. Csak azokat az eseteket vesszk figyelembe, amelyek a fordulk elejn vagy
vgn jelennek meg. (A tagmondat szavai kztt megfigyelhet, gyakran
bizonytalansgot vagy a kifejezend gondolat mdostst jelz hangz
megnyilvnulsokat, mint amik nem befolysoljk a mondatszerkezetet, nem
jelljk.) A minimlis tagmondatra a pldk a kvetkez alfejezetek:
4.1 A befejezetlen tagmondatok
pldul: De s Hm
4.2 A mondatszk
pldul: ksznsek, megszltsok, indulatszavak, tltelkszavak, stb.
4. 3 Egyszavas vlaszok
pldul: Igen. Nem. Taln.

202

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4.4. Egymondatos visszakrdezsek


pldul: ugye, (akr visszakrdezs, akr tltelksz), Legjobb fnk? Legszebb
lmny?
De az gy/gy tltelkszavakat nem soroljuk ide, mivel grammatikailag (hatrozknt)
kapcsoldnak a tagmondathoz.
4.5. A mint-tel kezdd hasonlt hatrozi alrendelt tagmondatok
Olyan lettem, mint te. Ez mr nem olyan, mint az volt.
4.6. Tltelkszavak
ugye, gy/gy teht, stb.

5 Teljes tagmondat
Fentebb a beszlt nyelvre klnsen jellemz, valamilyen szempontbl hinyos
szerkezetekrl szltunk. Termszetesen a beszlt nyelvben is tallkozunk az ettl
klnbz szerkesztssel, azaz a strukturlis szempontbl teljes mondatokkal. Ezek
funkcionlisan tartalmazzk a rgenst (lltmnyt) annak ktelez vonzataival s az
alanyt. Ezt a ler nyelvtan egyszer mondatnak nevezhetjk, illetve sszetett
mondat esetn az sszetteleket.

6 A tagmondatok kdolsa
A tagmondatok lncolata linerisan s hierarchikusan is szervezi a beszdet. Ennek
feltrsa alapvet clunk. Ennek megfelelen meghatrozunk az al- s mellrendel
tagmondatokat, illetve a tagmondatok kztti grammatikai kapcsolat hinyt
(begyazst, bekelst).
6.1 Szegmentcis szakaszok
Alrendel tagmondatok esetn egyrtelm a szegmentcis hatrhelyzet, azaz a
tagmondat hatra. Mellrendel tagmondatok esetn vagy j mondat indul ktszval,
illetve anlkl kezdve, vagy az eltte lv tagmondathoz kapcsoldik, s gy mg
ugyanannak a tagmondatfzrnek a tagja, amihez az elz kapcsoldik.

Szeged, 2011. december 12.

203

6.2 A szmozs
A szmozs a tagmondatok kztti sorrendisget s a tagmondatok kztti viszonyt
fejezi ki. A szmozs kezdete a hagyomnyos mondat kezdett jelli. A szmozs ott
fejezdik be, ahol a hagyomnyos mondat vgt lehet rzkelni. A hagyomnyos
mondat vgt nem az intonci s elsdlegesen nem a szemantika, illetve
interpretci hatrozza meg, hanem a szintaktika.

1. bra: A szintaktikai annotcis szint kdolsa.

Az 1. brn lthatjuk a kdolsi rendszert, az annotci 6. szintjn. A kdrendszerben


az els szm teht a tagmondatok sorszmt jelenti. A msodik szm azt jelli, hogy
az adott tagmondathoz tartozik-e alrendels, s ha igen, akkor hnyas szm
tagmondat. Ha nincs, akkor az 0 rtkkel van jellve. A harmadik szm a
tagmondathoz tartoz mellrendel tagmondat(ok) sorszmt jelli. Ha nincs ilyen,
akkor a 0 rtk lthat. A negyedik szmjegy azt mutatja meg, hogy az adott
tagmondat hnyas szm tagmondatnak az alrendeltje. Itt is megjelenhet a 0 rtk.
Az tdik szmjegy a grammatikai kapcsolat hinyt jelli, azt mutatja meg, hogy
melyik tagmondat kapcsoldik hozz gy, hogy grammatikai elem nem jelenik meg.
A szmok kztt pont van. Ha egy elemzsi szemponthoz tbb szm is tartozik, akkor
azok vesszvel vannak elvlasztva.

204

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

7 A hiny kategrii
7.1. Nem hinyzik semmi
Nem hinyzik semmi abban az esetben, ha rvnyesl a teljes tagmondat fent lert
defincija.
7.2 Hinyzik a fmondat
Mert szeretnk munkt.
Ha gy lesz.
Mikor mg kicsi voltam.
7.3

Hinyzik az eltte ll mellkmondat

Abban az esetben hasznljuk ezt a kategrit, amikor a tagmondat eltt nincs


tagmondat, (az elz mondathoz tartoz tagmondat).
s  nem vette fel a telefont.
Meg el sem jtt
De n mindenkpp el akartam menni.
7.4 Hinyzik a ktsz
Attl fgg, mit nznk.
reztem, hogy plyakezdknt itt sokat tanulhatok.
Emlkszem, amikor ezt tavaly tltem.
7.5 Hinyzik az utalsz
Angolt tanultam gy eddig is, mert nekem az egyetemen kellett.
Sokszor dolgoztam mr, hogy minl tapasztaltabb legyek.
Ne mondjtok meg, hogy hov kell menni.
7.6 Hinyzik a grammatikai alany
Csak gy nem ilyenre szmtottam.
Megyek dolgozni.
Nagyon fontos dolgokat mondott neknk.

Szeged, 2011. december 12.

205

7.7 Hinyzik a logikai alany


Ht, ltalban gy szokott lenni.
Nincs szksgem erre egyltaln.
Nem volt mg elz munkahelyem.
7.8 Hinyzik az lltmny
Pldul: A fnk kabtban. Abban az esetben hinyzik az lltmny, ha az ige s
annak vonzatkre nem jelenik meg a tagmondatban, van(nak) viszont egyb szabad
hatroz(k).
7.9 Hinyzik a trgy
Sokszor iszik valban.
Akkor gy nem vettk szre.
 is ltta.
7.10 Hinyzik a hatroz
Pldul: a megy ige vonzatai: vki, vhov. Ha ezek kzl hinyzik a hatroz, akkor az
hinynak van feltntetve.
Nem hitt.
Rszt vett.
Pista jrtas.
7.11 Hinyzik a jelz
Liter tejet hozott.
Kbmter vz fogyott.
Kil kenyrrel trt vissza a munkahelyre.
7.12 Hinyzik az ige
Pldul: Jnos spagettit. Ha a tagmondatban megvan(nak) a ktelez vonzat(ok), de a
rgens hinyzik (eszik/evett/ fog enni).
Pter a kvt.
Jnos knyvet.
A lisztet.

206

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

7.13 Befejezetlen tagmondat


Az lbeszdre jellemz sajtossg, hogy a nyelvtani korrekcik a beszd
folyamatban trtnnek meg. Ennek grammatikai kvetkezmnye az, hogy a
szerkeszts befejezetlen marad. A tagmondat meghatrozs alapjn azonban az ilyen
befejezetlen szerkezeteket tagmondat rtknek tekintjk. A befejezetlensget
azonban kln kdoljuk, ugyanis feltesszk, hogy a befejezetlensg ltal keltett
informcihinyt egy msik, nem nyelvi modalits ptolja s gy az azonosthat pl.
egy arckifejezsben vagy egy mozdulatban stb. gy a szintaktikai annotls mint a
multimodlis annotls rsze hozzjrulhat ahhoz, hogy az egyik modalitsbl
hinyz elemet egy msik modalits ugyanazon idpillanatban kutathassuk, teht
egy befejezetlen mondat kzmozdulatokkal, mimikval val lezrst nyomon
kvethessk a szintaktikai szinten is.
7.14 A hiny nem relevns
A hiny nem relevns akkor, ha nem tudunk rvnyes hiny kategrit megllaptani,
de a mondat mgsem tekinthet teljesnek.
7.14.1 Mondatszk
7.14.1.1 Indulatszavak:
H! Naht! ! stb.
7.14.1.2 Igenl egyszavas vlaszok:
De! Igen! Rendben! J! stb.
7.14.1.3 Tagad egyszavas vlaszok:
Nem. Mdostszval egytt: Mg nem. Szerencsre nem. Nem nagyon. n nem.
Innen mg nem.
De ha a tagadsz mondatrszben van,akkor az alany s az lltmny hinyzik: Azt
mondom, hogy nem. Utazshoz tudnm ktni, de igazbl mg nem. stb.
7.14.1.4. Bizonytalan egyszavas vlaszok:
Taln. Lehet. Bizonyra. stb.

Szeged, 2011. december 12.

207

7.14.1.5 Ksznsek:
Viszlt! Viszontltsra! J napot! De a J napot kvnok! ksznsforma nem
tartozik ehhez a kategrihoz, mert egyrtelmen meg tudjuk hatrozni a mondatban
az alanyt, az lltmnyt s a vonzatot.
7.14.1.6 Udvariassgi formulk:
Szvesen! Nagyon szvesen! stb.
7.14.1.7 Tltelkszavak
Ht, ugye, gy, gy, stb.
7.14.1.8 Megszltsok
Andrs! Kinga! stb.
7.14.2 Egymondatos visszakrdezsek
pldul: ugye? (akr visszakrdezs, akr tltelksz), Legjobb fnk? Legszebb
lmny? De az gy/gy tltelkszavakat nem soroljuk ide, mivel grammatikailag
(hatrozknt) grammatikailag kapcsoldnak a tagmondathoz.
7.14.3 Mint-tel kezdd hasonlt hatrozi alrendelt tagmondat esetn
Szebb, mint az.
Sokkal jobb lesz gy, mint gy. stb.
7.14.4 Valamilyen okbl (pldul a pongyola nyelvhasznlat mrtke miatt)
kikvetkeztethetetlen tagmondatok esetn
Ha vletlenl tallkozunk egy szit, de tbb nem.

8 sszegzs
A Praat szoftver felhasznlsval olyan annotcis szablyrendszert dolgoztunk ki,
amely lehetv teszi a spontn beszd szintaxisnak kutatst. Klns hangslyt
fektettnk arra, hogy a spontn beszd jellegzetessgeit kezelhetv tegyk a magyar

208

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

nyelv mondattana keretei kztt, mint ami rendszerben nem, csak megvalsulsban
klnbzik attl. Nem tettnk emltst szmos problmakrrl, amelyek az adott
kategrik tgondolst segtettk. Pldul az egyedi sz- s nyelvhasznlatbl add
jelensgekrl, sajtossgokrl, vagy a tltelkszavak, indulatszavak spontn beszdbe
illeszked rendszerrl, illetve a pongyola nyelvhasznlat kvetkezmnyeknt
ltrejv szintaktikai problmkrl. (Mint pldul az abszolt s relatv fnv
elhelyezkedse a mondat hierarchijban, a ktszval kezdd mondatok krdsrl,
a fneveslt jelz mondattani szerepkrrl, a fgg beszdben jelen lv implicit
elemekrl, az ellipszis szmos krdskrrl, illetleg a dialgus msik szerepljnek
a vizsglt szemly grammatikjra tett hatsrl.) Itt ismertetett kdrendszernk
lehetv teszi azt, hogy az adatbzist vizsgl kutatk tovbbi szintaktikai
elemzseket folytassanak, kiegsztve, rszletezve az ltalunk ltrejtt rendszert.

Bibliogrfia
1. Keszler B.: Szintagmatan. In: Keszler B. (szerk.): Magyar Grammatika. Nemzeti
Tanknyvkiad, Budapest (2000) 355
2. Komlsy A.: Rgensek s vonzatok. In: Kiefer F. (szerk.): Strukturlis Magyar Nyelvtan I.
Akadmiai Kiad, Budapest (1992) 308316
3. Ivnyi Zs.: A nyelvszeti konverzcielemzs. Magyar Nyelvr Vol. 125 (2001) 74-93
[http://www.c3.hu/~nyelvor/period/1251/125106.htm]

V.Pszicholgia,pragmatika,
kognitvnyelvszet

Szeged, 2011. december 12.

211

A csoportkzi rtkels mint a csoporttrauma rzelmi


feldolgozsnak indiktora a nemzeti trtnelem
elbeszlseiben
Csert Istvn1, Lszl Jnos2, 3
1

Pcsi Tudomnyegyetem, Pszicholgiai Intzet


H-7624 Pcs, Ifjsg tja 6.
csertopi@gmail.com
2 Magyar Tudomnyos Akadmia, Pszicholgiai Kutatintzet
H-1132 Budapest, Victor Hugo utca 18-22.
3 Pcsi Tudomnyegyetem, Pszicholgiai Intzet
H-7624 Pcs, Ifjsg tja 6.
laszlo@mtapi.hu

Kivonat: Egy hosszmetszeti tartalomelemzses vizsglatban a csoportkzi rtkels mintzatait trtuk fel 1920 s 2000 kztt kiadott magyar kzpiskolai
trtnelemtanknyvek trianoni bkeszerzdsrl szl narratviban. A trtnelmi id elrehaladtval vltoz narratv konstrukcikban a kls s a sajt
csoportra vonatkoz rtkelsek olyan eloszlsi mintzatait trtuk fel hrom
szemantikai dimenziban, amelyek a pozitv csoportidentitst fenyeget traumatikus esemny rzelmi feldolgozsra jellemzek. A szvegelemzst a
NARRCAT (Narrative Psychological Content Analytical Tool) szmtgpes
tartalomelemz eszkz csoportkzi rtkels moduljval vgeztk, melyet a
PTE Pszicholgiai Intzet s az MTA Pszicholgiai Kutatintzet kzs narratv pszicholgiai kutatcsoportja fejlesztett ki. A komplex elemzeszkz a
NooJ nyelvtechnolgiai rendszerben mkdik, amely lehetv teszi meghatrozott, szszint feletti nyelvi alakzatok azonostst nagy terjedelm szvegbzisokban.

1 A nemzeti trtnelem mint a csoportidentits narratv


konstrukcija
Ahogyan az egyn lettrtneti beszmoli az egyni identits tkrt nyjtjk, gy a
csoporttrtneti elbeszlsek a csoportidentits llapotairl s folyamatairl tjkoztatnak [2, 3]. A csoport mltjra, jelenre s jvjre vonatkoz elbeszlsek a csoportot rint esemnyek s a csoportkzi viszonyok tern interpretcis mdokat
implikl. A nemzeti trtnelem narratvi a trsadalmi kommunikciban mint termszetes kzegben ltrejv csoporttrtneti elbeszlsek, amelyek gazdag terepet nyjtanak a csoportidentits s a csoportkzi viszonyok dinamikjnak vizsglatra. A
narratvk nyelvi-kompozcis tulajdonsgai rvn olyan, a csoportkzi viszonyokra
s csoportfolyamatokra vonatkoz elmletek ellenrizhetk, illetve rnyalhatk, ame-

212

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

lyek esetben a nemzeti csoportok trtneti dimenzija jelents tnyez a jelensgek


megrtse szempontjbl [3].

2 Nemzeti trauma, nemzeti identits s kollektv feldolgozs


A nemzeti identits a kzs mlt narratv konstrukcija, melyet a trsadalmi megoszts rvn minden csoporttag birtokol. Jelen kutats rtelmezsi keretben a nemzeti
traumk olyan csoportkzi konfliktusok eredmnyei, melyek a nemzeti identits
alkalmazkodkszsgnek hatrait meghalad mrtk srlst okozzk, s gy jraszervezse vlik szksgess. A nemzeti trauma kollektv elaborcija az identitsnak
azt az jraszervezst jelenti, amely a nemzeti trtnelem hossz tv rekonstrukcis
folyamatban valsul meg. E rekonstrukci clja a traumatikus esemny integrcija
egy koherens s fenntarthat csoportnarratvba.
A feldolgozott trauma narratvjnak a kvetkez feltteleket kell teljestenie: (1)
A traumatikus esemnyt a mlt rszeknt reprezentlja, vagyis oly mdon, hogy az
esemnynek nincs kzvetlen relevancija az rintett csoportokkal fenntartott viszonyok jelenbeli alakulsra. (2) A narratva koherens, azaz kvetkezetesen illeszkedik
a trtnelem esemnyeinek lncolatba, valamint a csoporton bell ltalnosan elfogadott (kanonizlt) konstrukci. (3) A narratva egy fenntarthat identits rsze, ami
azt jelenti, hogy hozzjrul egy pozitvan rtkelt nemzeti azonossgtudat fenntartshoz, ugyanakkor harmonikus viszonyban ll az rintett csoportokkal fenntartott
jelenbeli viszonyokkal.

3 Csoportkzi rtkels s traumafeldolgozs


3.2 Csoportkzi rtkels s csoportidentits
A csoportkzi rtkels a narratv identitskonstrukci lnyeges nyelvi eszkze,
amely az elbeszlt trtnelmi esemnyeket s azok szereplit jelentsteli s koherens
reprezentciv szervezi. A csoportkzi rtkelsek explicit szocilis tletek, melyek
az esemnyben rintett csoportokat, illetve azok kpviselit rtkelik. Ezek lehetnek
(1) nekik tulajdontott, illetve tetteiket jellemz pozitv s negatv tulajdonsgok (pl.
blcs, jogtalan), (2) a rjuk irnyul rzelmi reakcik s viszonyulsok (csodl, megvet), (3) a cselekvseikre vonatkoz, rtkel jelleg interpretcik (a tnyszer lers
helyett vagy mellett; vitzkedik, kizskmnyol), s (4) a jutalmazs s bntets, illetve
elismers s kritika aktusai (ljenez, tiltakozik).
A csoportkzi rtkels alapvet szerepet jtszik a pozitv szocilis identits fenntartsban. A szocilis identits elmlete [14, 15] azon a tzisen alapul, hogy az egynek nazonossgukat jelents mrtkben azoktl a csoportoktl nyerik, melyeknek
tartsan tagjai, s amelyek letkben meghatroz szerepet tltenek be. Egy pozitvan
rtkelt tagsgi csoport pozitv nrtkelst s a valahov tartozs biztonsgt nyjtja
az egyn szmra. A szocilis identits azonban nem abszolt, hanem relcis kategria: a sajt csoport rtkt ms, vele azonos tpus kls csoportoktl val pozitv

Szeged, 2011. december 12.

213

megklnbztetettsge adja. A pozitv szocilis identits ignye csoportkzi sszehasonltshoz s elfogultsghoz vezet, azaz a sajt csoport fel- s a kls csoport lertkelshez, amely megjelenhet sztereotipizlsban, diszkriminatv viselkedsben vagy
agresszv versengsben [9, 8, 7]. Az rtkelsbeli elfogultsg a csoport jltt fenyeget, kilezett konfliktushelyzetekben felersdik, megerstve a csoportkohzit s a
kollektv azonossgtudatot. Ksrletek demonstrltk, hogy az elfogultsg a verblis
viselkedst is befolysolja [11].

3.2 A csoportkzi rtkels traumafeldolgozsra vonatkoz mutati


Narratv pszicholgiai megkzeltsben a csoportidentitst rt trauma kollektv feldolgozsa olyan narratv rekonstrukcis folyamat, amely az elfogadhatatlan vesztesglmny narratv lekpezsvel indul, majd a lezrt mlthoz tartoz, a csoporttrtnet egszhez koherens mdon illeszked s a fenntarthat, pozitv azonossgtudathoz hozzjrul narratvhoz vezet. A jelen tanulmny trgyt kpez feltevs szerint
a narratv csoportkzi rtkels legalbb hrom olyan jelentsdimenzival br, amelyek felttelezheten a traumafeldolgozs folyamatnak lnyeges eszkzv teszik.
Az albbiakban e hrom, a narratvkban mennyisgileg mrhet dimenzit s a feldolgozsi folyamatra vonatkoz implikciikat hatrozzuk meg.
Az egyes dimenzikat mindhrom esetben tbb klnbz tartalmi kategria gyakorisgi eloszlsa, az ezekbl ltrejv mintzat jelenti, nem pusztn egyetlen kategria elfordulsi gyakorisga. A feldolgozsi folyamattal val sszefggsket oly
mdon hatrozzuk meg, hogy a feldolgozatlan s a feldolgozottsg fel tart trauma
konstrukcijra jellemz mintzatok kztti klnbsgeket definiljuk.

1) Csoportkzi elfogultsg: pozitv s negatv valencia


A feldolgozatlan trauma konstrukcijban szignifikns aszimmetria jelenik meg a
sajt csoport s a kls csoportok rtkelsben, a csoportkzi elfogultsg tendencijnak megfelelen: a sajt csoport rtkelst pozitv, a kls csoportt negatv tlsly jellemzi. Ez a mintzat azt impliklja, hogy a sajt csoportot nem terheli felelssg a traumatikus esemny bekvetkeztrt, nem vllalja annak kvetkezmnyeit,
valamint jvttelre tart ignyt, hiszen a negatvan rtkelt esemny felelssge s
jvttele a negatvan rtkelt szereplt terheli. Ebben a dimenziban a feldolgozsi
folyamat elrehaladst az jelzi, hogy a csoportkzi rtkels aszimmetrija cskken,
a sajt csoport sszessgben kevsb pozitvan, a kls csoport pedig kevsb negatvan rtkeldik. E mintzat a negatv esemnyrt s kvetkezmnyeirt viselend
felelssg megoszlst impliklja. Egy nreflektv, a vesztesgre kls, objektvebb
nzpontbl tekint perspektvt alkalmaz az elbeszls, amely a trauma feldolgozsban fontos tnyezt jelent [6].

214

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2) A jelenre vonatkoz relevancia hangslya: narrtori vs. szerepli rtkeli


perspektva
A narrtor s a sajt csoportot kpvisel szereplk rtkelsei kpviselik a csoport
rtkel perspektvjt a trtnelmi narratvkban. Lnyeges, hogy mg a narrtor a
sajt csoport jelenbeli perspektvjt kpviseli az esemny vonatkozsban, addig a
szereplk rtkelsei a mlthoz tartoznak, mivel maguk a szereplk is a mltbeli
esemny rszeknt jelennek meg az elbeszlsben. A kvetkez pldk illusztrljk a
narrtori s szerepli rtkels kzti klnbsget, lnyegben azonos rtkel tartalom mellett. Narrtori rtkels: A bkefelttelek felhbortan igazsgtalanok voltak.
Szerepli rtkels: A bkefeltteleket az orszg felhborodott tiltakozssal fogadta.
Feltevsnk szerint a csoporttrauma kezdeti konstrukcijban az rtkelsek viszonylag nagy hnyadt (az idben ksbb keletkezett narratvkhoz kpest) a narrtor teszi. Ha ebben a perspektvban hangslyos a csoportkzi rtkels, az az esemny jelenre vonatkoz relevancijt, vagyis lezratlansgt tkrzi. A feldolgozsi
folyamat sorn a narrtori rtkelsek arnya cskken a megelz konstrukcikhoz
kpest, ami az esemny jelenre vonatkoz jelentsgnek cskkenst impliklja, a
jelen s mlt kzti pszicholgiai tvolsg nvekedst, a rekonstrukcis folyamat az
esemny lezrsa fel tart.

3) rzelmi fkusz: rzelmi vs. kognitv rtkels


A narrtor rzelmi s kognitv jelleg rtkelseinek relatv arnya az esemnyhez
val viszonyuls rzelemteltettsgnek mutatja. Az rzelmi-kognitv megklnbztets alapja hasonl Pennebaker [6, 16] osztlyozshoz, amelyet traumatikus letesemnyekrl szl egyni beszmolk tartalomelemzsben hasznlt. Ugyanakkor a
csoportkzi rtkels szkebb metszetre vonatkoz vizsglatunk olyan kategriarendszert hasznlt, amelyben az rzelmi kifejezsek mellett a kdol nyelvi intucija
alapjn rzelmi reakcikat implikl morlis tletek is az rzelmi rtkelsek kz
tartoznak (pl. kegyetlen, hsies), mg a kognitv rtkelsek kzt a kognitv mechanizmusokra utal rtkelseken tlmenen (pl. tgondolatlan, megfontolt) helyet
kapnak a racionlis szempont illetve ltalnos, rzelmeket nem vagy nem jellemzen
implikl rtkelsek (pl. hibs, j).
Kollektv traumrl szl csoporttrtneti szvegekben ahhoz hasonl tendencia
vrhat, amit Pennebaker tallt egyni beszmolkban: A narrtori rtkelsek krben kezdetben viszonylag nagy arnyban szerepelnek rzelmileg teltett rtkelsek,
szemben a kognitv rtkelsekkel, a kirtkels rzelmi fkusznak megfelelen. A
feldolgozsi folyamat sorn az rzelmileg teltett rtkelsek arnya cskken, szemben a kognitv rtkelsekvel, amely az rzelmi kontroll s a racionlis belts ersdst impliklja, gy az esemnyt trgyknt kezel (s nem lmnyknt megl)
kls, objektvebb perspektva nagyobb mrtkben rvnyesl.

Szeged, 2011. december 12.

215

4 Vizsglat: A csoportkzi rtkels mint a csoporttrauma rzelmi


feldolgozsnak mutatja a trianoni bke tanknyvi narratviban
4.1 A trianoni bke mint nemzeti trauma
A narratv csoportkzi rtkels s a traumafeldolgozsi folyamat kzti sszefggsek vizsglathoz a trianoni bkt vlasztottuk relevns esemnynek. Az 1920-ban
hatlyba lp trianoni bkeszerzds a magyar trtnelem egyik f traumja, melyet a
nemzet a mai napig nem dolgozott fel maradktalanul, ugyanakkor a szerzdskts
ta eltelt kilenc vtized elegend id arra, hogy a traumatizci llapotbl szmottev elmozduls trtnjen a traumatikus esemny integrcija fel. A feldolgozs befejezetlensgre utal az, hogy a hatron tli magyarok gye sem Magyarorszgon, sem
az rintett szomszdos orszgokban nem rt nyugvpontra, hogy haznkban mind a
mai napig vannak a bke revzijt szorgalmaz csoportosulsok, s hogy Trianon
trtnete mig nem nyerte el kanonikus formjt. (A kzelmltban llami beavatkozs rvn ksreltk meg egysgesteni a Trianonrl szl tananyagot a kzoktatsban
[5].)
A traumatikus esemnyrl szl, 1920 utn kiadott magyar trtnelem tanknyvek
fejezetei kivl szveges adatbzist nyjtanak a csoportkzi rtkels s kollektv
traumafeldolgozs kzti sszefggsek ellenrzsre. A bkektst kzvetlenl kvet idszaktl a jelenkorig kiadott tanknyvek Trianon-fejezeteinek hosszmetszeti
elemzsvel nyomon kvethetv vlik a traumafeldolgozssal sszefggsbe hozott
nyelvi-szemantikai dimenzik vltozsa, s e vltozsok a feldolgozsi folyamat keretben rtelmezhetk.

4.2 Hipotzisek
A csoportkzi rtkels s a feldolgozsi folyamat sszefggsre vonatkozan egyfajta nullhipotzist lltottunk fel alapfeltevsknt. Azt feltteleztk, hogy a traumatikus vesztesg elfogadsnak folyamatt az idtnyezn kvl semmi egyb nem befolysolja, mintha lgres trben, trsadalmi vkuumban zajlana. Ennek elnye, hogy
az rtkels mutatira vonatkozan egyrtelm predikcikat lehet tenni, s minden,
ettl val jelents eltrs az eredmnyekben olyan mozzanat hatsaknt rtelmezhet,
amely a feldolgozs akadlyaknt jelenik meg.
A csoportkzi rtkels hrom tartalmi dimenzijra vonatkozan a 3.3 fejezetben
lert ltalnos feltevsek alapjn a kvetkez predikcikat tettk. Az (1) rtkels
csoportkzi aszimmetrijval mrtke az id mlsval prhuzamosan cskken, azaz
a sajt csoport pozitv rtkelse s a konfliktusos kls csoportok negatv rtkelse
egyarnt cskken tendencit mutat. Az (2) rtkeli perspektvra a narrtori rtkelsek arnya idben cskkenni fog, gy a pszicholgiai tvolsg jelen s mlt kztt
fokozd hangslyt kap a szvegekben. A (3) narrtori rtkelsek tartalmra az
rzelmi rtkelsek arnya fokozatosan cskken tendencit kvet, az rzelmi fkusz
dominancija gy cskken, mg a racionlis belts n.

216

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4.3 Minta
Az Orszgos Szchnyi Knyvtrban elrhet kzpiskolai tanknyvek adtk a mintavtel bzist. A hosszmetszeti elemzst szolgl korpuszt 1920 s 2000 kztt kiadott kzpiskolai trtnelem tanknyvek Trianonrl szl fejezetei alkottk. A jellt
idszakon bell 10 ves felbonts mintavtelt vgeztnk: mindazon Trianonfejezetek bekerltek a mintba, amelyek kerek esztendkben (1920, 1930 stb.) kiadott
tanknyvekben szerepeltek. Ily mdon 1920 s 2000 kztt 10 alkorpuszt kaptunk,
melyek szmszer rtkelsmutatibl ksreltnk meg kvetkeztetseket levonni a
feldolgozsi folyamatra vonatkozan.

4.4 Eljrs
A szvegek elsdleges elemzse a NARRCAT szmtgpes nyelvi elemzeszkz
rtkels moduljval trtnt. A NARRCAT moduljai a NooJ nyelvtechnolgiai rendszerben mkdnek [10], amely tbb nyelvben lehetv teszi nagy terjedelm digitalizlt szvegkorpuszok morfolgiai s szintaktikai elemzst, s erre pl algoritmusok rvn meghatrozott nyelvi alakzatok azonostst. Az rtkels modul az elemzst szolgl, szfaj s valencia szerinti annotcis jegyekkel jelli meg az rtkelst
hordoz kulcsszavakat, amelyek e szempontok szerint kln sztrakba kerltek. Az
1. tblzat rendszerezi a modul sztrait, az egyes sztrakra vonatkoz pldkkal s
elemszmokkal. Az rtkel kulcsszavak szfaj szerint lehetnek mellknevek, igk,
fnevek s hatrozk. A mellknv- s igesztrakat az MTA Nyelvtudomnyi Intzetnek hasznlati gyakorisg szerint sszelltott digitlis sztraibl lltottuk ssze,
kt fggetlen brl vlasztsai alapjn. A valencia szerint pozitv s negatv rtkelsek kln sztrakba kerltek. Mivel az rtkelsek elssorban tulajdonsgokban,
valamint cselekvsekben realizldnak, melyeket mellknevekkel, illetve igkkel
fejez ki a nyelv, gy a fnv- s hatrozsztrakat az rtkel mellknevekbl s
igkbl kpzett fnevekbl, illetve hatrozkbl hoztuk ltre. Ez az oka annak, hogy
a sztrak elemszmai ismtldst mutatnak. Az rtkel jelleg rzelmi, illetve mentlis llapotokat a NARRCAT nll rzelem modulja kezeli.
1. tblzat: Az rtkels modul szfaj s valencia szerint osztlyozott sztrai, pldkkal s az
egyes sztrak elemszmval.
Szfaj
Mellknv
Ige
Fnv
Hatroz

Mellknvbl
Igbl
Mellknvbl
Igbl

Pozitv
blcs
vitzkedik
ljenez

db
317
122

Negatv
jogtalan
kizskmnyol
tiltakozik

db
582
317

blcsessg
ljenzs
blcsen
ljenezve

317
122
317
122

jogtalansg
tiltakozs
jogtalanul
tiltakozva

582
317
582
317

Az rtkelsek referenciinak azonostshoz (ki kit rtkel) s rzelmi-kognitv


tartalom szerinti osztlyozshoz tovbbi, szoftveresen tmogatott manulis elemzs-

Szeged, 2011. december 12.

217

re van szksg. Jelenleg fejlesztsek zajlanak e funkcik automatizlsa cljbl (a


szereplazonosts korbbi fejlemnyeirl lsd [17]).
Az elemzs msodik fzisban a szvegben annotlt rtkelseket az Atlas.ti elemzszoftverrel [4] kdoltuk az rtkels trgya (magyarok, Antant, Kisantant) s valencija (pozitv, negatv), az rtkeli perspektva (narrtor, szerepl), valamint
narrtori rtkelsek esetben az rtkels tartalma (rzelmi, kognitv) szerint. Az
rtkels trgya szerinti kdolskor a magyarok kategrijba kerlt a nemzet mint
egsz, s az azt kpvisel csoportok, illetve egyni szereplk, valamint a narrtor
mint rtkel. Az Antant, illetve a Kisantant kategriiba kerlt a kt hatalmi csoport
mint egsz, az egyes tagnemzetek s az azokon belli kisebb csoportok, illetve egyni
szereplk. A valencia szerinti kdols mr az elemzs els, automatizlt fzisban
megtrtnt. A perspektva szerinti kdolsban narrtori s szerepl perspektvt klntettnk el, aszerint, hogy ki rtkel a szvegben. Csak a magyarok perspektvjt
kpvisel rtkelseket vontuk be az elemzsbe, teht a narrtor s a magyar szereplk rtkelseit. A tartalom szerinti kdolsban az rzelmi s kognitv kategrikat
klntettk el. E tekintetben a kdolst vgz szerz egyni nyelvi intucijra hagyatkozott.

4.5 Eredmnyek
4.5.1 Az rtkels csoportkzi aszimmetrija (trgy s valencia)
Az adatelemzs els lpseknt az egyes csoportokra (magyarok, Antant, Kisantant)
vonatkoz pozitv s negatv rtkelsek gyakorisgait vizsgltuk. Mind a 10
alkorpusz esetben kln kimutatst ksztettnk, ezek adtk az adatrtelmezs alapjt. A csoportkzi rtkels hasonlsgai szerint a 10 alkorpusz ngy nagyobb szegmensre oszthat: 1920-1940, 1950, 1960-1980, 1990-2000 (2. tblzat). Az adatok
rszletes elemzsre lentebb kerl sor (4.5.3 fejezet), de annyit szksges itt megllaptani, hogy a ngy szegmens ltal lefedett idszakok megkzeltleg megfeleltethetk ngy egymst kvet politikai rnak: Horthy-korszak (1920-1940), Rkosikorszak (1950), Kdr-korszak (1960-1980), Rendszervlts utni idszak (19902000). Ez azt sugallja, hogy a mindenkori uralkod politikai ideolgia rnyomta blyegt a Trianon-reprezentcikra. Az egyes politikai rknak az eredmnyek rtelmezse szempontjbl relevns jellemzit szintn lentebb ismertetjk (4.5.3 fejezet).1

A szmszer adatok eloszlsa alapjn megllaptott korszakhatrokat termszetesen nem gy


tekintjk, mint amelyek les vlasztvonalat kpeznek a vltoz trtnelemfelfogsok
kztt, azonban az vtizedes mintavteli felbonts nem engedi e felfogsbeli vltozsok
finomabb rekonstrukcijt. Ezzel egytt a klnbz korszakok Trianon-reprezentciira
vonatkoz megllaptsainkat alapveten rvnyesnek fogadjuk el.

218

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2. tblzat: Az vtizedenknti eloszlsok alapjn kapott ngy alkorpusz adatai: vtizedenknti


szszm, rtkels %-os arnya, rtkelsek eloszlsa trgy s valencia szerint
(szvegterjedelemhez mrt arnyban, zrjelben a nyers gyakorisgok), perspektva szerint,
narrtori rtkelsek tartalom szerinti eloszlsa.
Idszak

1920-1940
Horthy
1950
Rkosi
1960-1980
Kdr
1990-2000
Rdszvlts

Sz/
vtized

rtkels
%

2951

1,5

3138

1,5

464

0,9

5419

0,6

Trgy / Valencia
Kls
Magyarok
csoportok
Poz.
Neg.
Poz.
Neg.
1
(1)
3
(1)
0
(0)
2
(2)

66
(58)
29
(9)
7
(1)
41
(44)

49
(43)
25
(8)
14
(2)
8
(9)

16
(14)
83
(26)
50
(7)
7
(8)

rtkeli
perspektva
Narrtor
104
(92)

Szerepl
12
(11)

Narrtori
rtkelsek
tartalma
rKogzelmi
nitv
71
33
(63)
(29)

30
(32)

24
(26)

17
(18)

13
(14)

4.5.2 Az tlagos szvegterjedelem s az rtkelsek arnya korszakonknt


A kvetkez lpsben megvizsgltuk, hogy a ngy korszakban hogyan alakul a Trianon-szvegek tlagos terjedelme s az rtkels tlagos, szvegterjedelemhez mrt
szzalkos arnya (2. tblzat). Az egyes korszakokon belli, vtizedenknti tlagos
szszm (sszes szszm / vtizedek szma az adott korszakban) mutatja a legjobban,
hogy milyen viszonylagos hangsllyal jelent meg az egyes korszakokban Trianon a
tanknyvekben. A Horthy- s a Rkosi-korszak vtizedenknti tlagos szvegterjedelme megkzeltleg azonos (2951, 3138), majd a Kdr-korszakban drasztikus ess
figyelhet meg (464), vgl a rendszervlts utni idszakban a szszm az sszes
tbbi korszak fl emelkedik (5419).
Az rtkels korszakonknti, szvegen belli szzalkos arnya (sszes rtkels /
sszes szszm 100) szintn az esemny viszonylagos jelentsgt, a nemzettrtnet szempontjbl vett fontossgnak vltozst mutatja. A Horthy- s a Rkosikorszakban az rtkels arnya azonos (1,5%), majd ehhez kpest a kvetkez kt
korszakban fokozatosan cskken (0,9%, 0,6%).
4.5.3 A csoportkzi megklnbztets ngy mintzata
Az egyes korszakokban megfigyelt, trgy s valencia szerinti eloszlsi mintzatok
kzti eltrs statisztikailag szignifikns (Pearson 2 = 135,926; p = ,000), teht a teljes
adathalmaz ngy trtnelmi korszak, illetve politikai ra szerinti felbontsa relevns.
(A cellnknti gyakorisgi adatokat az egyes alkorpuszok esetben a kvetkez
kplettel kaptuk: [rtkelsek nyers gyakorisga / alkorpusz szszma 10.000]
egsz szmra kerektve. A kls csoportok kt kategrijra, az Antantra s a
Kisantantra vonatkoz adatokat sszevontan kezeltk, a rjuk vonatkoz rtkelsek
korszakokon belli eloszlsainak hasonlsga, illetve az rtkelsek viszonylag kis
szma miatt.)
Az egyes korszakokon bell a kls s a sajt csoportokra vonatkoz pozitvnegatv rtkelsek eloszlsai kztti klnbsgek statisztikai szignifikancijt
ugyanezzel az eljrssal vizsgltuk. Az albbiakban mutatjuk be az egyes korszakokban megfigyelt tendencikat (lsd 2. tblzat).

Szeged, 2011. december 12.

219

1) 1920-1940 (Horthy-korszak)
A bkeszerzdst kzvetlenl kvet idszakban tisztn megmutatkozik a csoportkzi elfogultsg tendencija az rtkelsek eloszlsban. A kls csoportoknl a negatv
rtkelsek dominlnak a pozitvakkal szemben: 1 pozitv, 58 negatv rtkels.
Ugyanakkor a magyarokra vonatkoz rtkelsek ezzel ellenttes tendencit mutatnak: 43 pozitv, 14 negatv rtkels. A kls csoportokra vonatkoz, sszestett
rtkelsek s a magyarokra vonatkoz rtkelsek valencia szerinti eloszlsai szignifiknsan klnbznek egymstl (Pearson 2 = 76,555; p = ,000).
2) 1950 (Rkosi-korszak)
Az 1950-es szvegekben az elz korszakhoz kpest egy teljesen ms mintzat jelenik meg. Egyrszt itt lnyegesen kevesebb a kls csoportokra, mint a magyarokra
vonatkoz rtkels: kls csoportok sszesen: 10; magyarok: 34 rtkels. Msrszt
nem csak a kls csoportok, hanem a magyarok esetben is lnyegesen tbb a negatv, mint a pozitv rtkels: kls csoportok: 1 pozitv, 9 negatv; magyarok: 8 pozitv, 26 negatv rtkels. A kt eloszls kztt nincs szignifikns klnbsg (Pearson
2 = 2,927; p = ,087). A mintzat htterben az ll, hogy e korszak szvegeiben Trianon trtnete bizonyos rtelemben tkeretezdik, mgpedig az ekkor uralkod szovjet
szocialista ideolginak megfelelen. Az esemnyben rintett csoportok mr nem
Magyarorszg s a gyztes hatalmak, hanem a nyugati imperialistk s a szovjet forradalmrok, tovbb ezen a felosztson bell a szvegek elssorban a nyugatbart s
a szovjetbart magyarok szerepre koncentrlnak, melyet azok a bkhez vezet
esemnyekben betltttek.
3) 1960-1980 (Kdr-korszak)
Az 1960-1980 kztti idszak szvegei hasonl mintt mutatnak az elz korszak
szvegeihez, ugyanakkor lnyegesen kevesebb az rtkelsek gyakorisga: kls
csoportok: 0 pozitv, 1 negatv; magyarok: 2 pozitv, 7 negatv rtkels. A kls
csoportokra s a magyarokra vonatkoz rtkelsek eloszlsai kztti klnbsg az
elz korszakhoz hasonlan itt sem szignifikns (Fishers Exact Test: p = ,331). Az
rtkelsek kis szma rszben annak ksznhet, hogy ebben a korszakban sokkal
kevesebb s rvidebb szveg kerlt kiadsra (0,8 szveg ill. 464 sz / vtized), mint
az elzben (3 szveg, ill. 3138 sz / vtized). Msfell az 1960-1980 alkorpuszban a
szvegterjedelemhez mrt arnyokat tekintve is sokkal kevesebb, feleannyi rtkels
van, mint az 1950-es alkorpuszban (71 s 140 a kt arnyszm).
4) 1990-2000 (rendszervlts utni idszak)
A rendszervlts utni, egyben a szovjet uralom lezrulsa utni idszakban Trianon
jra nemzeti keretben tematizldik, ahogyan a Horthy-korszakban. Egyrszt visszatr a Magyarorszg gyztes hatalmak relci, msrszt jra nagyobb hangslyt kap

220

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

az esemny, amely a szvegterjedelem elz korszakhoz viszonytott jelents nvekedsben mutatkozik meg (vtizedenknt 5419 sz szemben a 464 szval). Rszben
visszatr a Horthy-korszakban feltrt rtkelsi mintzat is. A kls csoportokra vonatkoz rtkelsek jra ers negatv tlslyt mutatnak: Antant: 2 pozitv, 35 negatv;
Kisantant: 0 pozitv, 9 negatv rtkels. Ugyanakkor a magyarokra vonatkoz rtkelsek eloszlsban nem jelenik meg a Horthy-korszak szvegeiben tallt, csoportkzi elfogultsgra jellemz pozitv dominancia, az eloszls ehelyett kiegyenltett: 9
pozitv, 8 negatv rtkels. (A kls csoportokra s a magyarokra vonatkoz rtkelsek eloszlsai kzti klnbsg ezzel egytt szignifikns: Fishers Exact Test: p =
,000) Tovbbi fontos klnbsg a kt korszak szvegei kztt, hogy az rtkelsek
szvegterjedelemhez viszonytott arnya lnyegesen kisebb a jelenkorban, mint a
Horthy-korszakban (0,6% szemben az 1,5%-kal).
4.5.4 rtkeli perspektva s narrtori rtkelsek tartalma
Amint fentebb (4.5.3) kifejtettk, a szocializmus idejre es kt alkorpusz szvegeiben Trianon a nyugatellenes szovjet ideolgia rtelmezsi keretben reprezentldik,
amely a ktplus vilg harcnak rszv teszi a bkeszerzds trtnett, ezzel httrbe szortva a nemzeti identitst rt vesztesget. Ebbl fakadan a trauma rzelmi
feldolgozottsgnak llapotra vonatkozan csak a Horthy-korszak s a rendszervlts utni idszak alkorpuszai informatvak, gy a narrtori s szerepli rtkeli perspektva relatv arnyt, valamint a narrtori rtkelseken bell az rzelmi s kognitv
rtkelsek arnyt e kt alkorpuszban vizsgltuk (lsd 2. tblzat).
A ktfle rtkeli perspektva relatv hangslyt tekintve, mg a Horthy-korszak
szvegeiben sszestve tbb mint nyolcszor annyi a narrtori, mint a szerepli rtkels (92 s 11), addig a rendszervlts utni alkorpuszban a kt gyakorisg csaknem
azonos (32 s 26). Az arnyszmokban kifejezett eloszlsok szignifiknsan klnbznek egymstl (Pearson 2 = 25,668; p = ,000).
A narrtori rtkelsek tartalmt vizsglva hasonl irnyba mutat vltozs figyelhet meg. Mg a Horthy-korszak szvegeiben tbb mint ktszer annyi az rzelmi,
mint a kognitv rtkels (63 s 29), addig a rendszervlts utni szvegekben a kt
gyakorisg jval kiegyenltettebb eloszlst mutat (18 s 14). A kt eloszls kzti
klnbsg azonban nem szignifikns (Pearson 2 = 1,390; p = ,238), az rzelmikognitv arny vltozsa teht csak tendenciaknt rtelmezhet.

5 Megvitats
A kollektv trauma feldolgozsra vonatkoz f hipotzisnk azt jsolta, hogy mind a
csoportkzi megklnbztets mrtke, mind a narrtori rtkelsek arnya, mind
pedig ezen bell az rzelmi rtkelsek arnya az id mlsval prhuzamosan cskken tendencit mutat, az ettl eltr irny tendencik pedig a feldolgozst akadlyoz tnyez hatsaknt rtelmezhetk. Lttuk, hogy a mindenkori uralkod politikai ideolgia jelentsen befolysolja a reprezentcis folyamatot, hiszen az vtizedenknti adateloszlsok alapjn ngy olyan, egymstl eltr rtkelsi mintzatot
sikerlt azonostani, amelyek a trtnelmi idben val elhelyezkedsk alapjn ngy

Szeged, 2011. december 12.

221

politikai ra hatsnak feleltethetk meg. A ngy eloszlsi mintzatot idbeli linearitsban vizsglva az rzelmi feldolgozs szempontjbl, azt ltjuk, hogy a
traumatizci s retraumatizci idszaka utn beksznt szovjet szocialista diktatra a nemzeti szuverenits elnyomsa rvn kzel t vtizeden keresztl megakadlyozta a nemzeti identitst rt trauma tematizcijt, ezltal ksleltette az rzelmi
feldolgozs folyamatt. A Kdr-korszakban a represszi az alacsony szvegterjedelemben jelenik meg. A rendszervlts utn jra az nll nemzet sszefggsben
trgyalt trianoni bke narratvi a konfliktusban ll csoportok rtkelse szempontjbl inkbb hasonltanak a revizionista Horthy-korszak narratvira, mint a megelz
szocialista ra trtneteire. A Horthy-korszak s a rendszervlts utni kor konstrukciinak kzs pontja a kls csoportok rtkelst jellemz erteljes negatv tlsly,
ami azt mutatja, hogy a jelenkori Trianon-konstrukci megrzi az ldozat-elkvet
viszonyt: a nemzet tovbbra is ldozatknt jelenik meg, a vilghbor gyztes hatalmaira pedig olyan felelssget ruhz, amely mig nem vlt el. Hatkony rzelmi
feldolgozsrl teht nem beszlhetnk a vizsglt nyolcvan vet tekintve.
Ms mutatk ugyanakkor azt tkrzik, hogy a feldolgozs a Horthy-korszakhoz
mint zrponthoz kpest jelents elmozdulst mutat. Egyfell a jelenkor lnyegesen
kevesebb rtkelssel, alacsonyabb rzelmi hfokon beszli el a traumt, mint Horthy kora, illetve hinyzik a nemzet glorifikcija is. Mindez arra utal, hogy a vesztesg vglegesknt jelenik meg, a jelenkori szvegek ennek elfogadst kzvettik, sem
explicit, sem implicit mdon az rtkels eszkzei rvn nem utalnak a vesztesg
eltti llapothoz val visszatrs lehetsgre avagy ignyre. A mlt teht ebben az
rtelemben lezrul a narratvkban. Msfell a jelenkori narratvk a Horthykorszakhoz viszonytva pszicholgiai tvolsgot teremtenek a traumatikus mlt s a
jelen kztt. Egyrszt jelents mrtkben cskken a narrtori rtkelsek arnya, ami
az esemnyhez val jelenbeli viszonyuls dimenzijt kpviseli a narratv konstrukciban, s e perspektva hangslynak cskkensvel a jelen s a mlt kapcsolata
gyengl, a mlt jelenre vonatkoz relevancija httrbe szorul. Msrszt a fennmarad narrtori rtkelseken bell tendencia mutatkozik az rzelmi rtkelsek cskkensre, teht a jelenkori narratvk egy racionlisabb szempont viszonyt rvnyestenek a Horthy-korszakhoz kpest. Ez a mozzanat szintn tvolsgot teremt mlt s
jelen kztt, azltal, hogy a vesztesg rzelmi aspektust tvoltja a befogadtl.
A feldolgozottsg jelen llapotra vonatkoz kvetkeztetseket sszegezve gy tnik, hogy br Trianon narratvi a bke ltal szentestett gazdasgi, trsadalmi s
politikai vesztesg vglegessgnek elfogadst kzvettik, illetve a vesztesg lmnyt tvoltjk a jelentl, ugyanakkor nem rjk fell az ldozat-elkvet viszonyt, a
nemzet ldozat szerept. Ez a perspektva kvlre helyezi a felelssget s az esemnyek feletti kontrollt, tovbb llandstja a jv nem tett vesztesgbl fakad deprimlt s ellensges rzelmi viszonyulst. Ezek a konstrukcis mozzanatok ltalnos
mintaknt megjelennek a nemzeti mlt ms esemnyeinek jelenkori narratviban is
[1, 12], s felttelezhet, hogy a nemzeti identitst megszlt jelenbeli esemnyek s
jvkpek kapcsn szintn konstrukcis elvekknt mkdnek, amelyek azonban
maladaptv megkzdsi mdokat facilitlnak.

222

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Hivatkozsok
1.

2.
3.
4.
5.

6.
7.

8.
9.

10.
11.

12.

13.
14.
15.

16.

17.

Flp .: A trtnelmi plya s a nemzeti identits rzelmi szervezdse. PhD rtekezs. (2010) Letltve: http://pszichologia.pte.hu/files/tiny_mce/D-2010-Fulop%
20Eva.pdf
Lszl J.: A trtnetek tudomnya. Bevezets a narratv pszicholgiba. MK, Bp.
(2005)
Lszl J.: Narratv Pszicholgia. Pszicholgia, Vol. 28., No. 4 (2008) 301317
Muhr,
T.:
User's
Manual
for
ATLAS.ti
5.0
(2004)
Letltve:
http://www.atlasti.com/up loads/media/atlman_01.pdf
Oktatskutat s Fejleszt Intzet: A nemzeti sszetartozs napja. Pedaggiai httranyag.
(2011)
Letltve:
http://www.kormany.hu/download/0/cd/30000/A%20nemzeti%20%C3%
B6sszetartoz%C3%A1s%20napja.pdf#!DocumentBrowse
Pennebaker, J. W.: Putting stress into words: Health, linguistic, and therapeutic
implications. Behaviour Research and Therapy, Vol. 31(6). (1993) 539-548
Pettigrew, F. T.: The Ultimate Attribution Error: Extending Allport's Cognitive
Analysis of Prejudice. Personality and Social Psychology Bulletin Vol. 5, No. 4
(1979) 461476
Sherif, M.: In Common Predicament: Social Psychology of Intergroup Conflict and
Cooperation. Boston: Houghton Mifflin (1966)
Sherif, M., Harvey, O. J., White, J., Hood, W., Sherif, C.: Intergroup Conflict and
Cooperation: The Robbers Cave Experiment. Norman: University of Oklahoma, Institute of Social Relations (1961)
Silberztein,
M.:
NooJ
manual.
(2003)
Letltve:
http://www.nooj4nlp.net/NooJManual. pdf
Szab Zs. P., Banga Cs., Ferenczhalmy R., Flp ., Szalai K., Lszl J.: A nyelvbe
kdolt trsas viszonyok. Az implicit szemantika szocilpszicholgiai kutatsa. Pszicholgia Vol. 30, No. 1 (2010) 116
Szalai K.: Az gencia nyelvi jegyei. Az aktv s passzv igk szerepe a
narratvumokban. PhD rtekezs. (2011) Letltve: http://pszichologia.pte.hu/files/
tiny_mce/doktori/D-2011-Szalai%20Katalin.pdf
Tajfel, H.: Differentiation Between Social Groups: Studies in the Social Psychology
of Intergroup Relations. Academic Press, New York, NY (1978)
Tajfel, H.: Human groups and social categories: Studies in social psychology. Cambridge University Press, Cambridge (1981)
Tajfel, H., & Turner, J. C.: The social identity theory of intergroup behavior. In:
Worchel, S., Austin, W. (Eds.) The Psychology of Intergroup Relations (2nd ed.).
Chicago Nelson-Hall. (1986)
Tausczik, Y., Pennebaker, J. W.: The psychological meaning of words: LIWC and
computerized text analysis methods. Journal of Language and Social Psychology,
Vol. 29 (2010) 2454
Vincze O., Gbor K., Ehmann B., Lszl J.: Technolgiai fejlesztsek a Nooj pszicholgiai alkalmazsban. In: Tancs A., Szauter D., Vincze V. (szerk.): VI. Magyar
Szmtgpes Nyelvszeti Konferencia. JATE Press, Szeged (2009) 285294

Szeged, 2011. december 12.

223

Szemantikus szerepek vizsglata magyar nyelv


1
szvegek narratv pszicholgiai elemzsben
Ehmann Bea1, Lendvai Piroska2, Fritz Adorjn3, Mihltz Mrton2, Tihanyi Lszl2
1 MTA Pszicholgiai Kutatintzet
1132 Budapest, Victor Hug u. 18-22.
{ehmannb}@mtapi.hu
2 Nyelvtudomnyi Intzet,
1068 Budapest, Benczr u. 33.
{piroska, tihanyil}@nytud.hu; {mmihaltz}@gmail.com
3 Pcsi Tudomnyegyetem, Pszicholgiai Intzet
7624 Pcs, Ifjsg tja 6.
{kifino}@gmail.com

Kivonat: A narratv pszicholgiai tartalomelemzs s a korpusznyelvszet tbb


ve folytatott kzs projektje a szemantikus szerepek s a narratv pszicholgiai
modulok sszekapcsolsa egynek s csoportok nelbeszlseinek elemzshez.
A kt munkacsoport korbbi egyttes fejlesztsei a szemantikus szerepek felismerst gy oldottk meg, hogy a MetaMorpho nyelvi elemzs
morfoszintaktikai s szemantikai kimenett sszekapcsoltk a NooJ eszkz procedrival. A jelen munka clja, hogy a korbbi trekvsek tovbbfejlesztsvel
magyar nyelv szvegekben felismerhet vljon az gencia, s ennek nyelvi kifejez
elemeihez
automatikusan
hozzrendelhetek
legyenek
az
Ingroup/Outgroup pszichoszemantikai kategrik. Ekkpp a tudomnyos narratv pszicholgia a semantic role labeling nyelvszeti terlet j alkalmazjaknt
jelenik meg.

1 Mirt fontos a tudomnyos narratv pszicholgia szmra a


szemantikus szerepek vizsglata?
A Tudomnyos Narratv Pszicholgia (TNP) a szelf- s csoportnarratvkban azonosthat pszicholgiai jelensgek longitudinlis, kvantitatv vizsglatra szolgl, Magyarorszgon kifejlesztett elmlet, melynek szmos empirikus alkalmazsa ltezik a
szocilpszicholgia, a szemlyisg- s a klinikai pszicholgia terletn [9]. Az elmlet mdszere, a Narratv Pszicholgiai Tartalomelemzs (NPTA) fejldsnek alapja a
magyar korpusznyelvszekkel s nyelvtechnolgusokkal trtn egyttmkdse,
melynek sorn a Narratv Pszicholgiai Munkacsoport szmos pszichoszemantikai
taxonmit s algoritmust fejlesztett ki [18,10,9] a NooJ nyelvszeti fejlesztsi
krnyezet keretben [16].

A kutatst az OTKA 81633K plyzat tmogatta.

224

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az eddig kifejlesztett NPTA-algoritmusok, TNP-modulok a kvetkezk: AktivitsPasszivits [17], rzelem [7], Kognitv folyamatok [21,20], rtkels [1,2],
Intencionalits [6], Tagads; n- s Mi Referencia [8], Perspektva [13], valamint a
Szubjektv Idlmny [5].
E fejlesztsekrl s a velk kapott empirikus eredmnyekrl az elmlt vek sorn a
Munkacsoport a Szmtgpes Nyelvszeti Konferencikon s nemzetkzi
kzlemnyekben is szleskren beszmolt2.
A Narratv Pszicholgiai Tartalomelemz NooJ algoritmusok (modulok) a TNP kt
f terletn hasznlatosak. A strukturlis megkzelts azt vizsglja, hogy a vizsglt
kategrik elssorban az elbeszli perspektva, az idlmny s az rtkels
mikppen vltoznak az nelbeszlsek s a csoportelbeszlsek egsznek bels szerkezetben [4,14,13].
A msik vizsgldsi kr a mintzatelemzs, ami az egyes szgyakorisgok
egyttjrsbl von le pszicholgiai kvetkeztetseket: ennek egyik pldja, hogy
kiscsoportok beszmoliban a negatv rzelemmarkerek s a szelfreferencia magas
egyttes arnya csoporton belli konfliktust jelez; a negatv rzelemmarkerek s a mireferencia magas arnya viszont egyttesen a csoport fenyegetettsgre utal [3].
A tudomnyos narratv pszicholgia annyiban lp tl a hagyomnyos pszicholgiai
tartalomelemzsi koncepcin, hogy nem elgszik meg a pszicholgiai tartalmak puszta szmllsval s strukturlis vagy mintzatelemzsvel, hanem azt is vizsglja,
hogy az adott rzelem, kognci vagy cselekvs milyen cselekvhz, illetve milyen
elszenvedhz tartozik. Minthogy a Narratv Pszicholgiai Munkacsoport kiemelt
kutatsi terlete a nemzeti s eurpai identits vizsglata, sarkalatos krds, hogy
valamely trtnelmi esemny vagy korszak beszmoliban a TNP ltal vizsglt kategrik a sajt csoporthoz vagy a kls csoporthoz tartoznak.
A cselekv s az elszenved krdskre a pszicholgiban hagyomnyosan az
genciakutats terlethez kapcsoldik. A szemlyisg- s a klinikai pszicholgiban
ez fknt az nhatkonysg megtlsben fontos, a szocilpszicholgiban pedig a
humn gens s a humn elszenved egyn vagy csoport nyelvi megjelentse vagy
ennek hinya a trsas-trsadalmi-hatalmi felelssg felvllalst, hrtst vagy elkendzst teszi vizsglhatv.
Ezrt fontos a TNP szmra a szemantikus szerepek (Semantic Role Labeling)
vizsglatra szolgl elemzeszkz kifejlesztse.

2
A magyar s eurpai trtnelem narratv pszicholgiai
korpuszai
Az MTA Pszicholgiai Intzetnek Oral History Archvumban a kvetkez
elektronikus korpuszok llnak rendelkezsre:
x Trtnelemknyv korpusz: a magyar trtnelemrl szl knyvek rszletei
a 10 legfontosabb esemnyrl, 1900-tl 2000-ig, 10 ves bontsban (kb.
200000 sz);

Cf. http://narrativpszichologia.pte.hu

Szeged, 2011. december 12.


x
x
x

225

Trtnelmi regny korpusz: nemzetek kztti konfliktusokrl szl 6


trtnelmi regny teljes szvege (kb 700000 sz);
Trtnelem tanknyv korpusz: ltalnos s kzpiskolai tanknyvek
rszletei a 10 legfontosabb esemnyrl (kb. 210000 sz);
Nphistriai
korpusz:
Flig
strukturlt
interjk
a
legpozitvabb/legnegatvabb magyar s eurpai trtnelmi esemnyekrl
500 fs rtegzett mintn (kb. 120000 sz).

A kt utols korpuszt az MTA Nyelvtudomnyi Intzetnek korbban mr tadtuk;


ezek annotlsa szmos vonatkozsban mr megtrtnt. Ezek szolglnak alapul a
szemantikus szerepek vizsglatra szolgl fejlesztsekhez.

3 A pszicho-szemantikai szerepek vizsglatnak problematikja


Adott teht egy elmleti paradigma (a tudomnyos narratv pszicholgia), egy kutatsi
mdszer (a narratv pszicholgiai tartalomelemzs), egy magyar nyelv
szvegkorpusz (a trtnelemszvegek). Amit els krben keresnk, az az, hogy
terjedelmes szvegkorpuszokbl automatikusan olyan konkordancikat hozzunk ltre,
melyek kilistzzk, hogy ki cselekszik, ki rez, ki gondol s ki rtkel.
A trtnelem szvegek vizsglatakor a ki nem csupn szemly lehet pldul
Mtys kirly hanem csoport is pldul a tatr hadak. A narratv
szocilpszicholgia szmra nem az f kritrium, hogy szemly vagy csoport
cselekszik-e/rez-e, stb., hanem az, hogy sajt csoport (ingroup) vagy kls csoport
(outgroup) teszi-e ezt. Ezrt az egyes szemlyek is ingroup, illetve outgroup cmkt
kapnak.
Kutatsunk egyik konceptulis nehzsge, ami majd a finomabb vizsglatoknl fog
szerepet jtszani, hogy az ingroup s az outgroup kategria egyarnt tbb
alhalmazbl tevdik ssze, pldul attl fggen, mennyire aprlkos, illetve milyen
kognitv domnra fkuszl a szvegr megkzeltse. Tbbnyire egysges
ingroupknt jelennek meg a magyarok vagy az rpd-hzi kirlyok olyan
szvegrszletekben, amikor klgyekrl, vagyis a szervezetileg azonos
nagysgrend outgroup szereplkkel val interakcirl olvasunk (pl. besenyk,
jszok, keleti lovas npek, kun trzsek, Eurpa hatalmassgai, nmet csszr,
orosz fejedelemsg zok, stb). Termszetesen a belgyekrl szl tudstskor a
magyar szntr szerepli finomodnak (a furak, Bla kirly, a trnrks Istvn
herceg stb.), s ezek ktplus csoportba sorolsnak automatizlsa komoly
szakmai kihvst jelent gy a pszicholgus, mint a nyelvtechnolgus szakember
szmra.
Rszben ez az oka annak, hogy egy egyetemes vagy kutatsi igny szerint
klnbz trtnelmi korokra lebontott, robusztus Ingroup-Outgroup szlista
elksztse korntsem trivilis, hiba tnik gy, hogy pl. a Tatr Outgroup sztr
nagyjbl vges szm elembl s azok varildsbl ll ssze (Dzsingisz kn,
Batu kn, nagykn, mongolok, mongol trzs, nomd sereg, tatr hadak, tatr
hordk, tatrok, stb.). A kzzel sszelltott szlistk a variabilits miatt nagy
idbefektets rn tudjk csak a relevns entitsokat lefedni a korpuszokban (plne az

226

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

egyelre feldolgozatlanokban) elfordulkbl. Tovbb, leggyakrabban csakis


szvegkrnyezet vagy egyb, nem objektv kritrium/megegyezs alapjn lehet
eldnteni, hogy egy entits melyik csoportba tartozik. Ezrt fejlesztsnk sorn a
digitlis blcsszeti kutatsokra jellemz flautomatikus mdszerrel dolgozunk, ami a
kutatsi s implementcis folyamat fontos rszeknt az automatikus feldolgozs
rszeredmnyei utn, meghatrozott fzisokban, loklis vizsglattal elvgzett kzi
egyrtelmstst s javtst foglal magba.
A tovbbiakban a problma nyelvtechnolgiai megkzeltsrl s modellezsrl
szmolunk be. Mdszernk a MetaMorpho nyelvi elemzs morfoszintaktikai s szemantikai kimenett kapcsolja ssze a NooJ eszkz procedrival. Nyelvszeti
szempontbl az egyik legnehezebb feladat a szvegekben a koreferencia (illetve az
anafora) feloldsa, mivel az egyes szereplket tbb kifejezs is jelezheti (pldul: IV.
Bla lenya = a kirly lenya = rpdhzi Szent Margit.) Tovbbi aspektusa az
entitsok felismersnek a metonimikus hasznlat, vagyis, hogy nmagukban
lettelen dolgok is gensknt, aktv szereplknt emltdhetnek pldul az egri vr
hsiesen ellenllt, stb. Ezekkel a jelensgekkel jelenleg csak marginlisan
foglalkozunk, mivel tbbszrsen sszetett technolgiai megoldst ignyelnek.

4 Pszichoszemantikai szerepek annotcija


Az automatizlt annotcis folyamat kiindulpontja a Mixgroup kategria, vagyis
az olyan lexiklis elemek, amik az Ingroup vagy Outgroup kategrihoz egyarnt
tartozhatnak, ilyen pldul a sereg, lakossg, orszg, lovassg, stb. A
szvegekben ezek megjelenhetnek nmagukban, illetve pl. nvelvel s/vagy
jelzkkel egytt, egy NP fejeknt. Korbbi munka sorn elkszlt az etnikai
fnevek/mellknevek sztra, amit a NooJ fejleszti krnyezetben a Mixgroup
entitsok modellezsben felhasznlunk. Ltrehoztunk egy NooJ egyrtelmst
prototpus-grfot (l. 1. bra), ami
x eldnti, hogy mikor ll fnvi s mikor jelzi szerepben egy etnikai
entits (pl. a trkk, ill. 'a trk szultn), s ezeket az NP-ket InGr,
illetve OutGr szemantikai cmkvel ltja el;
x begyjti az sszes olyan fejet, ami etnikai jelzvel ll s N+MixGr-knt
cmkzi ket;
x a MixGr cmkj fneveket mdost, de eddig az etnikai szlistban nem
szerepl jelzket egy specilis osztlyba sorolja, ami azt fogja jelezni,
hogy utna egy potencilisan InGr vagy OutGr elem kvetkezhet.
gy egy kb. 600 szbl ll NP halmazhoz jutunk csak a tatr korpuszon, amit a
NooJ-ban flautomatikusan sztrr alaktunk: az NP-k lemmjukkal s morfolgiai
jegyeikkel egytt egy kln sztrban eltroljuk. A sztrat a kvetkez elemzsi
fzisokban, illetve j korpuszok elemzsekor hasznljuk fel. A fent lert eljrs azrt
fontos, mert a szintaktikai szvegelemzk gyakran csak az NP-fejet rjk ki; mi olyan
gyakorlatias megkzeltst vlasztottunk, ami felttelezi, hogy a magasszint
(szemantikai) elemzs sorn egy mr meglv elfeldolgoz eszkz kimenetre

Szeged, 2011. december 12.

227

tmaszkodunk, amibe nincs lehetsgnk belenylni (vagyis black box-knt rhet


el).

1. bra: NooJ szintaktikai-szemantikai egyrtelmst prototpusgrf.

Az entitsdetektl kr tovbbi lpsei:


x az egyrtelmst/cmkz grfnak a nagyobb lefeds rdekben trtn
kiterjesztse;
x egyb mechanizmusok beptse, pl. hogy megtalljunk olyan kpzett
szavakat, amelyeket a NooJban morfolgiai lekrdezs alapjn az
aktivits stb. sztrba felvehetnk: a mongolok elretrsrl >
elretr;
x a szemantikailag is anaforikus MixGr kifejezsek kzi egyrtelmstse
NooJ konkordancia alapjn, ahol szvegsszefggsbl lehet eldnteni,
hogy az adott csoport sajt csoportot vagy kls csoportot jell: pl. Batu
kn visszavonta a katonit. Sokszor mondathatron tl tnyl anaforrl
van sz (pl. Az uralkod nehz helyzetbe kerlt.), ekkor a NooJ
kontextusablaknak a mrett nagyobb szszmra lehet lltani. A NooJban az illesztett kategrikhoz tartoz lexikai elemekhez egyben az annotcik is hozzrendelhetk.

5 Thematikus szerep hozzrendelse


Nyelvtechnolgiai megkzeltsben a thematikusszerep-felismers (semantic role
labeling) knlkozik alkalmas megoldsknt az gencia detektlsra, viszont magyar
nyelvre egyelre nincs ltrehozva thematikusszerep-felismersben felhasznlhat
strukturlt szemantikai erforrs vagy annotlt korpusz [lsd pl. 11]. A MetaMorpho
[15] kpes bizonyos igkhez tartoz thematikus szerepeket felismerni, amelyet szablyalap koreferenciafeloldssal is tmogat [12], habr csak viszonylag kevs szm
ige mellett. A Vincze Orsolya s Gbor Kata ltal megalkotott NooJ protzisgrf a
MetaMorpho ltal thematikus szereppel felcmkzett igei bvtmnyeket tallja meg

228

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

[19]. Ezen tlmutatva, jelen munknk clja, hogy a mr meglv erforrsokhoz


igazodva gy ismerjk fel az gencit, hogy ehhez felhasznljuk a trtnelmi szvegek lexiklis elemeihez grfokkal automatikusan hozzrendelt pszichoszemantikai
kategrikat. A MetaMorpho ltal felismert fnvi csoportokat s azok mondatban
betlttt szerept kdol XML-fjlt importljuk a NooJ-ba, mely utn a sztrakkal,
illetve szintaktikai mintaillesztsvel az In/Outgroup entitsok gens szerept igyeksznk meghatrozni (l. 3. bra).

2. bra: Az gencit pszichoszemantikus csoportok alapjn szr NooJ grf.

1.

2.

Az Aktivits NPTA grfot a NooJ elemzfolyamatban kiemelt szintaktikai elemzknt belltva a +AKTIV cmkt kapott igkre szortjuk a keresst. gy automatikusan kiszrjk a tallatok kzl az olyan tartalm
mondatokat, ahol az alany nem cselekv, pl. Lszl kirly a kunok kztt
rezte jl magt., A furak kzl sokan rltek a kirly bajnak. Br
megjegyezzk, hogy a trtnelmi szvegekben elfordul entitsok fkpp cselekvknt vagy szenvedknt szerepelnek, s a nem aktv igk
viszonylag ritkn, illetve nem az ltalunk vizsglt etnikai entitsokkal
fordulnak el, pl. A pnclos katonasg mellett ntt a knnylovassg
szma is., A mongol sereget nem egszen helyesen, ltalnostva nevezzk - elcsapataikrl - tatr seregnek.
A fent elksztett Group sztr alapjn lehetv tesszk a keresst
In/Outgroup entitsokra lebontva, anlkl, hogy ezek lexikai alakjait a
grfba kdolnnk, illetve a sztr j korpuszokon trtn iteratv bvtse
alapjn egy nvekv fnvi lemma- s NP lista, s a szvegek kzzel
egyrtelmstett annotlsa alapjn.

6 A fejleszts tovbbi lpsei s alkalmazsi lehetsgei


Soron kvetkez lpsnk egyrszt a szerepli sztrak s a narratv pszicholgiai
tartalomelemzsi modulok (jelen esetben fknt az rzelem, a kognci s az
rtkels) sszeillesztse s tovbbfejlesztse lesz, msrszt az igei argumentumok
thematikus szerepnek meghatrozsa a NooJ-ban rt loklis grammatikk alapjn,
pldul:

Szeged, 2011. december 12.

229

ha V+AKTIV s Group(SUBJ) == OutGr,


akkor Th_role(OBJ) = Undergoer s Group(OBJ) = InGr.
Ezzel a terjedelmes szvegkorpuszokbl automatikusan olyan konkordancik
hozhatk ltre, melyek nem csupn azt listzzk, hogy ki cselekszik, ki rez, ki
gondol s ki rtkel, hanem azt is, hogy ki mindezeknek a trgya vagy
elszenvedje/kedvezmnyezettje (agent vs. patient/undergoer). Ezek statisztikai
feldolgozsa rvn vonhatk le az egyni s a csoportidentitssal kapcsolatos narratv
pszicholgiai kvetkeztetsek.

Hivatkozsok
1. Bigazzi S., Csert I., Nencini, A.: A szemly- s csoportkzi rtkels pszicholingvisztikja.
In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti Konferencia.
Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006) 267276
2. Csert I.: A szemly- s csoportkzi rtkels pszicholgiai szempont elemzse elbeszl
szvegekben. In: Alexin Z., Csendes D. (szerk.): VI. Magyar Szmtgpes Nyelvszeti
Konferencia, Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2009) 272284
3. Ehmann, B., Balzs, L., Flp, ., Hargitai, R., Kabai, P., Pley, B., Plya, T., Vargha, A.,
Vincze, O., Lszl, J.: Narrative Psychological Content Analysis as a Tool for Psychological
Status Monitoring of Crews in Isolated, Confined and Extreme Settings. Acta Astronautica,
Vol. 68, No. 9-1) (2011) 15601566
4. Ehmann, B., Garami, V.: Narrative Psychological Content Analysis with NooJ: Linguistic
markers of time experience in Self reports. In: Proceedings of the 2008 International NooJ
Conference. Cambridge Scholar Publishing (2010) 180190
5. Ehmann, B., Garami, V., Naszdi, M., Kis, B., Lszl, J.: Subjective Time Experience:
Identifying Psychological Correlates by Narrative Psychological Content Analysis. Empirical Text and Cultural Research Vol. 3 (2007) 1425
6. Ferenczhalmy R., Lszl J.: Az intencionalits modul kidolgozsa NooJ tartalomelemz
programmal. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006) 285295
7. Flp ., Lszl J.: Az elbeszlsek rzelmi aspektusnak vizsglata tartalomelemz program segtsgvel. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem Informatikai Tanszkcsoport (2006)
296304
8. Hargitai, R., Naszdi, M., Kis, B., Nagy, L., Bna, A., Lszl, J.: Linguistic Markers of
Depressive Dynamics in Self Narratives: Negation and self reference. Empirical Text and
Cultural Research Vol. 3 (2007) 2638
9. Lszl, J.: The Science of Stories: An introduction to Narrative Psychology. Routledge,
London, New York (2008)
10. Lszl, J., Ehmann, B., Pley, B., Plya, T.: Narrative psychology and narrative psychological content analysis. In: Lszl, J., Stainton Rogers, W. (eds.): Narrative Approaches in Social Psychology. New Mandate, Budapest (2002) 925
11. Mrquez, L., Carreras, X., Litkowsky, K. C., Stevenson, S.: Semantic Role Labeling: An
Introduction to the Special Issue. Computational Linguistics Vol. 34, No. 2 (2008) 145-159
12. Mihltz, M.: Knowledge-based Coreference Resolution for Hungarian. In: Proceedings of
The Sixth International Conference on Language Resources and Evaluation. Marrakesh,
Morocco (2008)

230

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

13. Plya, T., Kis, B., Naszdi, M., Lszl, L.: Narrative perspective and the emotion regulation of a narrating person. Empirical Text and Cultural Research Vol. 3 (2007) 5061
14. Plya, T., Lszl, J. and Forgas, J. P.: Making sense of life stories: The role of narrative
perspective in communicating hidden information about social identity. European Journal of
Social Psychology Vol. 35, No. 6 (2005) 785796
15. Prszky, G., Tihanyi, L.: MetaMorpho: A Pattern-Based Machine Translation System. In:
Proceedings of the 24th Translating and the Computer Conference. ASLIB, London, United Kingdom (2002) 1924
16. Silberztein, M.: NooJ Manual (2003) Elrhetsg: www.nooj4nlp.net
17. Szalai, K., Lszl, J.: Activity as a Linguistic Marker of Agency: Measuring inGroupversus Out-group Activity in Hungarian Historical Narratives. Empirical Text and
Culture Research RAM-Verlag: 4 (2010) 5058
18. Vradi, T.: The Hungarian National Corpus. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria
(2002) 385389
19. Vincze O., Gbor K., Ehmann B., Lszl J.: Technolgiai fejlesztsek a NooJ pszicholgiai
alkalmazsban. In: VI. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Egyetemi
Kiad (2009) 285294
20. Vincze, O., Lszl, J.: Narrative Means of Intergroup Relations: Cognitive States and their
role in reducing or increasing intergroup conflict. In: General Meeting of the European Association of Social Psychology (EASP). Stockholm (2011) 30
21. Vincze, O., Tth, J., Lszl, J.: Representations of the Austro-Hungarian Monarchy in the
history books of the two nations. Empirical Text and Cultural Research Vol. 3 (2007) 6271

Szeged, 2011. december 12.

231

Paralingvisztikai jegyek a narratv pszicholgiai


tartalomelemzsben: a magabiztossg-krzis skla
Pusks Lszl
Pcsi Tudomnyegyetem Blcsszettudomnyi Kar, Pszicholgia Doktori Iskola
laszlopuskas@gmail.com

Tanulmnyunkban egy jfajta narratv pszicholgiai eljrsmddal lefolytatott


vizsglat kezdeti eredmnyeit ismertetjk. Arra tesznk ksrletet, hogy a narratv pszicholgiai tartalomelemzst s a voklis mintzatok pszicholgiai tartalomelemzst sszekapcsoljuk, vagyis a trtnetszerkesztsbl s a beszd
jellemzibl az elbeszl bels llapotaira vonatkoz kvetkeztetseinket egysges keretbe foglaljuk. A lelkillapot-vltozs, illetve a krzishelyzet nyelvi
tartalmi s fonetikai jegyeit prhuzamosan vizsgltuk. Megllaptottuk, hogy a
narratv tartalmi jegyek struktrja s a fonetikai struktra egyttesen jelzik a
lelkillapot-vltozsok intenzitst, minsgt. A magabiztossg-dominancia s
a krzishelyzet jelzsre, valamint ezek mrtknek meghatrozsra ltrehoztunk egy sszetett jelzszmot, amelynek rtke a nyelvi markereket s a voklis jelzseket egyarnt figyelembe veszi. Ezt a jelzszmot magabiztossgkrzis indexnek neveztk el. Az index kiszmtsnl a nyelvi markerek relatv
elfordulsi gyakorisgbl kpzett arnyszmokat sszegezzk, melyekhez
hozzadjuk a voklis paramterekre kiszmolt mrszmokat. A kapott eredmny tartalmaz egy negatv eljel korrekcis mrszmot is. Az index rtke
egy olyan skln mozog, amely alapjn kvetkeztethetnk a kzl kiegyenslyozottsgra, illetve krzishelyzetre.

1 Bevezets
A narratv pszicholgia szerint az elbeszlsben jut kifejezsre az a md, ahogy az
emberek lmnyeiket, a trsas vilghoz val viszonyukat megszervezik, identitsukat
megalkotjk. Ha elfogadjuk azt, hogy az emberek a trtnetekben s azok rvn
konstruljk meg nmagukat, s sajt pszicholgiai valsgukat, el kell fogadnunk
azt is, hogy e trtnetek lmnyanyaga informcival szolglhat a trtnetmond
ember alkalmazkodsra s megkzdsi stratgiira vonatkozan is. A narratolgia az
elbeszlsek vges szm alkotelemt s a vges szm alkotelemek vges szm
variciit rta le, mikzben a szveg vgtelenl vltozatos lehet. A narratv pszicholgiai tartalomelemzs ezeket a narratv alkotelemeket alaktja olyan tartalmi kategrikk, amelyekhez lmnyszint pszicholgiai jelentsek trsthatk, tartalmakat
keres a szvegben, amelyek valamilyen pszicholgiai folyamatnak megfeleltethetk.
Az alkotelemek, illetve ezek vltozatai a szvegben megbzhatan azonosthatk, s
az elbeszls gy meghatrozott elemeihez lmnyszint pszicholgiai jelentsek tr-

232

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sthatk [2,4]. A narratv pszicholgiai kutatsok eddig figyelmen kvl hagytk az


elhangzott kzls fonetikai paramtereit, mint a vizsglatok eredmnyeit befolysol
tartalmi elemeket [3].
Egy elhangzott szvegben nemcsak a nyelvi alkotelemek, hanem a voklis jellemzk is sszefggenek a kzl lelkillapotval. Ezek a voklis elemek viszonylag
jl krlhatrolhatk, s azonostsuk rvn tbbletinformcihoz juthatunk. Az elhangzott szveg fonetikai struktrjban olyan trvnyszersgeket tallhatunk, melyek a kzl lelkillapotval sszefggsben jl megragadhatk. Scherer [8] azzal
magyarzza ezeknek az llapotoknak, illetve llapotvltozsoknak a voklis mintzatra gyakorolt hatst, hogy a szervezetben lezajl vltozsok olyan fiziolgiai llapotvltozst eredmnyeznek, amelyek hatssal vannak a hangkpzsi s artikulcis izmokra is. Ezek a vltozsok befolysoljk a hangkpzst, melynek rvn eltr
akusztikai karakterisztikumok jelenhetnek meg. A voklis mintzatokat elssorban az
rzelemkifejezssel sszefggsben vizsgltk.

2 Lear kt monolgjnak tartalomelemzse korbbi vizsglatokban


Pennebaker s Ireland [6] elemeztk Shakespeare Lear kirlynak nyelvhasznlatt.
Tanulmnyukban az egyes szm els szemly nvmsok (szelf-referencia), a tbbes
szm els szemly nvmsok (mi-referencia), a pozitv s a negatv rzelmekre utal
kifejezsek, valamint a nagy szavak elfordulsi gyakorisgt vizsgltk. Ezek krzishelyzetbeli nyelvi mintzatba rendezdsvel a Narrcat programmal lefolytatott
komplex vizsglat rszeknt a 3.2 alfejezetben foglalkozunk.

3 A vizsglat
3.1 A vizsglati anyag
Tanulmnyunk nem pusztn a lert szveget, hanem annak sznszi megfogalmazsnak tulajdonsgait igyekszik vizsglni az elhangzott szveg fonetikai sajtossgai s a
szveg tartalma alapjn. Lear els s utols monolgjnak szvegt s sznszi megjelentst ksreljk meg sszehasonltani a Pennebaker s Ireland [6] ltal elemzett
szvegrszletek alapjn. Azrt szksges hangslyozni, hogy ezen szveg alapjn
dolgozunk, mert a tanulmny mindkt monolgot rvidtett formban kzli, s az
sszehasonlthatsg miatt szksges a lehet legteljesebb egyezs. A hanganyagot a
Magyar Televzi 1978-ban kszlt Lear kirly cm tvjtknak felhasznlsval
vizsgltuk meg. A vizsglt monolgok szvege magyarul a kvetkez:
Tudnotok kell, hogy orszgunkat hrom rszre osztjuk, ers szndkunk minden gondot s bajt lerzni agg korunkrl, tadvn ifjabb erknek, mg magunk tehertl menten mszunk a sr fel. Fink Cornwall, s nem kevsb szeretett fink Alban, ez
rban szilrd akaratunk lnyaink hozomnyt kln kiszabni, hogy jv viszlynak
mr most elejt vegyk. () Szljatok lenyok (minthogy mi le akarunk mondani az

Szeged, 2011. december 12.

233

orszg gondjairl s jvedelmeirl), halljuk ht, melyiktek szeret leginkbb? Hogy


legfbb kegynket rdem szerint oszthassuk
Ti mind kemberek vagytok. Ha nyelvetek, szemetek enyim volnnak, olyan zivatart zdtank, hogy meghasadna a Mennynek boltozatja. , vge, rkre. n tudom,
ki holt meg, s ki l.  holt, akr a Fld. Dgvsz irtson ki gyilkos rulk! n megmenthettem vol, s vge, vge! Cordelia, Cordelia! Vrj egy kicsit! Mit mondasz?
Mindig nyjas volt szava, szeld s halk, nben nemes vons. () Ki vagy te? Szemem
nem j, de megmondom, meg n. () Gomboljatok ki, krlek. Ksznm. [Ez utbbi
kt mondat a filmbeli tiratbl hinyzik.] Nzztek! Ltjtok ezt? ()

3.2 Mdszer s eredmnyek


3.2.1 A szveg strukturlis-tartalmi elemeinek vizsglata
A Narrcat programmal lefolytatott vizsglat eredmnyeit az 1. tblzat mutatja.
1. tblzat: Lear els s utols monolgjnak tartalmi elemei.
InId: rzeAktv/ Kog
pasz- nitv tenci befe- lem
jezs
szv

Id:
rk
id

Tagads

Szelfreferencia

Mireferencia

rtkels

Els
monolg

16

2 pozitv

2
pozitv

Utols
monolg

4 pozitv
3 negatv

Fentiek alapjn, a Lear monolgokat felhasznlva, felllthatjuk a llektani krzis


nyelvi jegyeinek profiljt (lsd 2. tblzat). Ehhez a szvegszint mintzathoz szorosan kapcsoldnak a fonetikai paramterekben bekvetkez vltozsok.
2. tblzat. A krzis nyelvi markereinek mintzata.

Vltozs
irnya

Tagads

Szelfrefer
ecia

N/
stagnl

N

Mireferenci
a
Cskken

rtkels
Negatv
, n

Aktv/
paszszv
Paszszv
n/
stagnl

Kog
nitv

Intenci

Id

rzelem

Stag
nl/
csk
ken

Csk
ken

Idi
tvolods
jegyek
nnek

Pozitv
cskken,
negatv
n

234

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A szveg nyelvi tartalmi elemei mellett megvizsgltuk a fonetikai struktrt is. A


kt, egymssal nem megfeleltethet, de egyms hatst erst struktra egyttes mrsre pedig bevezettk a magabiztossg-krzis indexet.

3.3 A fonetikai paramterek alakulsa a beszdben


3.3.1 A fonetikai paramterek vizsglata
A kivlasztott kt monolg vizsglathoz a Praat [7] fonetikai programot hasznltuk
fel, melyet az Amszterdami Egyetem munkatrsai fejlesztettek ki. Az rzelmi llapotok fonetikai paramterekre gyakorolt felttelezett hatsval rszben Scherer [8] tanulmnya alapjn foglalkoztunk, amely harminckilenc korbbi tanulmny adatait
sszegezte. Az elfeltevseinket a 3. tblzat tartalmazza.
3. tblzat: A lelkillapot-vltozsokhoz s a kzl pillanatnyi lelkillapot-vltozshoz
kapcsold, felttelezett akusztikai vltozsok.
Artikulcis temp

Hanger

Hangerintervallum

Beszdszakasz
hossza

Sznet
hossza

cskken

cskken

cskken/=

n

cskken/n

n

rvid

rvid

Nemtetszs/undor

n

Megvets/lenzs

n

Szomorsg/levertsg

n

cskken/n

cskken

Bnat/ktsgbeess

n

n

rvid

rvid

n

n!

n!

n

rvid

rvid

n!

n

cskken

n!

n

rvid

rvid

Unalom/kzmbssg

cskken/n

Szgyen/bntudat

n

lvezet/boldogsg
Jkedv/rm

Szorongs/aggodalom
Flelem/rettegs
Ingerltsg/hideg dh
rjngs/forr dh

A !-jel megnvekedett erej vltozst jsol.


sszefoglalan azt mondhatjuk, hogy lelkillapot-vltozs esetn az artikulcis
temp vrhatan cskken az lvezet/boldogsg s az rjngs/forr dh esetn, mg
n a jkedv/rm, a szomorsg/levertsg, a bnat/ktsgbeess, valamint a flelem
rettegs sorn (ennl fokozottan), a tbbi lelkillapot-vltozs, az elvrsok szerint,
nem gyakorol hatst r, illetve ezek hatsa elre nem kiszmthat. A hanger vltozsa, vrakozsaink szerint, mind a tizenkt felsorolt lelkillapot-vltozsra hatssal

Szeged, 2011. december 12.

235

van. Nyolc esetben egyrtelmen n a hanger. Ezek kzl hromban fokozottan n.
Egy esetben cskken a hanger, mg hrom esetben nem a vltozs irnya, hanem
maga a vltozs a meghatroz. A hanger-intervallumoknl ngy esetben nvekedst, egy esetben cskkenst, egy esetben cskkenst vagy vltozatlan hangert vrunk. A beszdszakaszok s a sznetek hossznl rvidlst vrunk ngy lelkillapotvltozsnl. Mindkt vltoz esetn a jkedv/rm, a bnat/ktsgbeess, a flelem/rettegs, valamint az rjngs/forr dh esetn ll be a cskkens. A beszdszakaszok hosszt, az artikulcis temp, a hanger s a hanger-intervallumok mellett,
a magabiztossg-krzis sklzsra ltrehozott index kialaktsnl is felhasznltuk.
3.3.2 A magabiztossg-dominancia s a krzishelyzet pszicholgiai sklzsnak
lehetsgei, a magabiztossg-krzis index
A magabiztossg-dominancia jegyeinek mintzatba rendezdst Lear krzishelyzet
eltti megnyilatkozsban a tartalmi elemek vizsglatnl s a szveg fonetikai elemzsnl egyarnt megtalltuk. Ugyanez igaz a krzishelyzetet kvet megnyilatkozs
mintzatba rendezdsre is. A tartalomelemzs s a voklis jegyek mintzatnak
vizsglata nem feleltethet meg egymsnak kzvetlenl, mg ha ktsgkvl egyms
hatsait erstik is, s a megnyilatkoz lelkillapotnak intenzitsrl tudstanak. A
vizsglt jegyek mintzatba rendezdst vizsglva, igyekeztnk olyan sszetett sklzsi mdszert kialaktani, mellyel a krzishelyzet jellemezhet.
gy gondoljuk, hogy nemcsak arrl van sz, hogy a voklis jelzsek mrsvel is
lerhatjuk ugyanazt a lelkillapotot, sokkal inkbb arrl, hogy a voklis paramterek
s a nyelvi markerek egyttesen jelzik a megnyilatkoz lelkillapott, s ennek a lelkillapotnak az intenzitst, amit az is valsznst, hogy a voklis paramterek s a
nyelvi markerek nem feleltethetk meg kzvetlenl egymsnak. Ebbl addik, hogy
eljrsunk kt sszetevre oszlott: egyrszt a vizsglt szveg tartalomelemzsre,
msrszt az elhangzott szveg akusztikai paramtereinek vizsglatra. Kt egymstl
teljesen klnbz eljrst folytattunk le prhuzamosan, melyekben a vizsglati egysgeink is eltrtek egymstl. A szveg tartalomelemzsnl az elemzsi egysgnk a
sz volt, s a keresett szavak relatv elfordulsi gyakorisgt vizsgltuk. A fonetikai
vizsglatnl a beszdszakaszokat tekintettk elemzsi egysgnek, amelyek nem felttlenl feleltethetk meg minden esetben teljes rtk mellkmondatoknak, nyelvtani
rtelemben. Az akusztikai vizsglatnl a kiugr rtkek gyakorisgt s intenzitst
vizsgltuk.
A magabiztossg-dominancia s a krzishelyzet jelzsre, valamint ezek mrtknek meghatrozsra ltrehoztunk egy sszetett jelzszmot, amelynek rtke a nyelvi markereket s a voklis jelzseket egyarnt figyelembe veszi. Ezt a jelzszmot
magabiztossg-krzis indexnek neveztk el. Az index kiszmtsnl a nyelvi markerek relatv elfordulsi gyakorisgbl kpzett arnyszmokat sszegezzk, melyekhez hozzadjuk a voklis paramterekre kiszmolt mrszmokat. A kapott eredmny
tartalmaz egy negatv eljel korrekcis mrszmot is. Minl alacsonyabb az index
rtke, annl kiegyenslyozottabb, magabiztosabb a ksrleti szemly (a nullhoz
kzeli, illetve a negatv rtk egyrtelmen a dominancia s a magabiztossg jele).
Minl magasabb rtket kapunk az indexre, annl erteljesebb krzishelyzetre utal a

236

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

megnyilatkozs. Az index kiszmtshoz hat arnyszmot hasznltunk fel, melyek


rtkt egymssal sszeadtuk:
1. A kett msodperc alatti beszdszakaszok szma osztva a vizsglt szveg szszmval rvid beszdszakaszok.
2. A hangercscsokat tartalmaz beszdszakaszok szma osztva a vizsglt szveg
szszmval. (Ebbe a kategriba tartozik minden nyolcvan dB-t meghalad beszdszakasz, de a megnyilatkoztl fggen ennek mrtke a beszlhz mrten cskkenthet.) Magas hanger.
3. Az alacsony hanger-intervallumokat tartalmaz beszdszakaszok szma (amelyek nem haladjk meg a hsz dB-t) osztva a vizsglt szveg szszmval monoton
beszd.
4. A szelf-referencira vonatkoz szavak szma osztva a vizsglt szveg szszmval szelf-referencia.
5. A tagadsra vonatkoz szavak szma osztva a vizsglt szveg szszmval tagads.
6. Negatv korrekcis index: a mi-referencira vonatkoz szavak szma osztva a
vizsglt szveg szszmval, negatv eljellel mi-referencia.
A magabiztossg-krzis indexbe be kvntuk foglalni az intencira, az aktivitsra, a
kognitv folyamatokra, az rtkelsre s az rzelmekre vonatkoz eredmnyeket is,
azonban a kt monolgban ezek olyan kis gyakorisggal fordultak el, hogy statisztikailag nem voltak kezelhetk.
3.3.3 A magabiztossg-krzis index segtsgvel nyert eredmnyek
Eredmnyeink egyrtelmen azt mutatjk, hogy Lear els monolgjt a kiegyenslyozottsg, a magabiztossg s a dominancia uralja, mg utols monolgjt a slyos
krzishelyzet jellemzi (4. tblzat).
4. tblzat: A magabiztossg-krzis index kiszmtsa a hat felhasznlt mrszm alapjn.

Mrszmok

sszesen

Lear els
monolgja

0,0540 0,0270 0,0135 0,0000 0,0135

-0,2162

-0,1082

Lear utols
monolgja

0,3200 0,2533 0,1333 0,1200 0,0133

0,0000

0,8399

A tblzatbl az is kitnik, hogy az indexhez hasznlt voklis s az rott szvegben


mrt paramterek kln-kln eltr sszestett mrszmokat adnnak, s egyttesen hatrozzk meg a krzishelyzet s a kiegyenslyozottsg mrtkt.
Szksges magyarzatot fznnk a magabiztossg-krzis indexhez felhasznlt paramterekhez s azok kiszmtsi mdjhoz. A fonetikai paramterek vizsglatnl
azt az elvet kvettk, hogy a kivlasztott beszdszakaszok szmt a vizsglt szveg
szszmval osztottuk el. Erre azrt volt szksg, mert a beszdszakaszok tbb sz-

Szeged, 2011. december 12.

237

bl is llhatnak, s ha az egsz beszdszakaszt kivlasztannk, akkor ezzel valamenynyi szt kiemelnnk, ami arnytalansgokhoz vezetne, ezrt gy tekintettk, mintha a
beszdszakasznak egyetlen szava kerlne megjellsre, s gy a megjellt szavak
szmt osztannk el a teljes szszmmal. A msik krds az volt, hogy ha egy beszdszakasz tbb ltalunk vizsglt fonetikai paramternek is megfelel, akkor hnyszor
vegyk figyelembe. Amellett dntttnk, hogy valamennyi fonetikai paramternl
kln szmtjuk be, mintha annyi megjellt sz lenne az adott beszdszakaszban,
ahny az ltalunk vizsglt fonetikai paramternek megfelel, ha gy tetszik, ezzel slyoztuk az index fonetikai mrszmainak sszetevit. Ezt azrt tartottuk fontosnak,
mert gy gondoljuk, minl tbb kiugr rtket tartalmaz egy beszdszakasz, annl
intenzvebb a megnyilatkoz lelkillapota.
A kett msodperc alatti beszdszakaszok relatv gyakorisgt azrt hasznltuk fel
az index kialaktsnl, mert gy vljk, hogy a beszdszakaszok hosszbl kvetkeztethetnk a beszl gondolatainak sszeszedettsgre, az illet fjdalmra, s arra,
hogy az adott helyzetre milyen korbban konstrult smval rendelkezik. Termszetesen a kiegyenslyozott megnyilatkozsban is lehetnek s vannak rvidebb beszdszakaszok, megszltsok, csodlkozsok, de a krzishelyzetben, felttelezsnk szerint,
jval nagyobb lehet a relatv elfordulsi gyakorisguk, mivel a vlaszreakci, a
helyzet jdonsgrtkbl addan, kevsb automatikus.
A hangercscsokat tartalmaz beszdszakaszok fontos szerepet tltttek be az index kialaktsnl, hiszen, ahogy azt a 3. tblzatban mr korbban ismertettk, bnat/ktsgbeess, szorongs/aggodalom s szgyen/bntudat esetn nvekszik a
hanger, flelem/rettegs, ingerltsg/hideg dh s rjngs/forr dh esetn pedig
fokozottan nvekszik a hanger.
Az alacsony hanger-intervallumok gyakorisga, felttelezsnk szerint, egyfajta
olyan monotonitst klcsnz a megnyilatkozsnak, amely az er s a magabiztossg
hinyra utal, rossz lelkillapotra.
A szelf-referencia s a tagads elfordulsi gyakorisgt vizsglta Pennebaker s
Ireland [6], valamint Lszl s munkatrsai [4] is, akik ezek relatv gyakorisgt nztk meg a szvegben. Az nre val tlzott utals a befel forduls jele, mg a mi-re
trtn utals a msok irnyba val nyitst fejezi ki. Patolgis esetben a magas nreferencia sszefggst mutat a depresszival, a szuicid tendencikkal. A tagadst
pszichodinamikai szempontbl az egszsges emberi krnyezethez s morlis mrckhez val alkalmazkodsra, illetve a vilg rtktelentsre, a destrukcira s ndestrukcira val hajlamra vonatkozan vizsgltk [1]. Krzishelyzetben a megvltozott krnyezethez val alkalmazkods problms, fokozottan fordulhat el tagads az
elbeszlsben.
A mi-referencit a magabiztossg-krzis indexnl negatv korrekcis mrszmknt hasznltunk fel. Erre egyrszt azrt volt szksg, mert az indexet alkot sszetevk gy llnak ssze egssz, hogy minl nagyobb az index rtke, annl erteljesebb
a krzis, s a mi-referencia rtke pont a kiegyenslyozott megnyilatkozsoknl a
legmagasabb, gy ott ellenttes hatst rne el. Msrszt a magabiztos megnyilatkozsnl ennek a vltoznak a negatv rtke jelentsen cskkenti a vletlenszeren, a
megnyilatkozsba kerlt, ltalunk vizsglt paramterek relatv elfordulsi gyakorisgnak rtkt, viszont az erteljes krzishelyzeteknl kapott indexet kevsb vagy
egyltaln nem befolysolja.

238

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sszessgben elmondhatjuk, hogy ha csak a megnyilatkozshoz tartoz magabiztossg-krzis indexet ismerjk, j esllyel kvetkeztethetnk a beszl lelkillapotra
is.

4 Megvitats
sszefoglalan azt mondhatjuk, hogy az lszban is elhangz megnyilatkozsoknl,
a szveg tartalmi elemein tl, clszer a fonetikai szerkezet vizsglata, amely sok
esetben rnyalhatja, kiegsztheti, illetve pontosthatja a hagyomnyos tartalomelemzs mdszereit. Lear kt monolgjban azt a krzis okozta lelkillapot-vltozst vizsgltuk, amelyet vesztesgtrtnetknt jellemezhetnk.
A tudomnyos narratv pszicholgiai megkzelts az elbeszlsek pszicholgiai
jelentseit mr nemcsak a szavak s tmk szintjn vizsglja, hanem a narratvum
szintjn is. Az olyan narratv minsgek mentn trekszik a pszicholgiai jelentsek
vizsglatra, mint amilyen a struktra, a szervezettsg, a perspektva, az idviszonyok
s a koherencia [5]. Ezzel a vizsglt trtnetek nyelv feletti tartalmait is vizsgljk.
Tanulmnyunkban egy j narratv pszicholgiai eljrs meghonostsra tesznk
ksrletet, mely sszekapcsolja a tudomnyos narratv pszicholgiai tartalomelemzsnek a narratv tartalmakra irnyul megkzeltst az elhangzott szveg fonetikai
struktrjnak elemzsvel. Vizsglatunk alapjn megllapthatjuk, hogy a szveg
tartalmi elemei s a fonetikai paramterek egymssal nem megfeleltethet, mg ha
ssze is fgg, prhuzamos struktrt alkotnak, gy azok egyttes vizsglatt indokoljk. E kt prhuzamos struktra egyttes vizsglata az eredmnyek minsgi javulst, rnyalst s pontostst is lehetv teszi. A verblis s non-verblis kd elemzst a magabiztossg-krzis indexszel kapcsoltuk ssze, mely mindkt struktra elemeit felhasznlja.
Vizsglatunk arrl tesz tanbizonysgot, hogy az akusztikai paramterek sszekapcsolsa a lelkillapot-vltozsokkal eredmnyesen alkalmazhat technika. Megllapthatjuk, hogy krzis hatsra a megnyilatkoz lelkillapot-vltozsa mind a megnyilatkozs tartalmi elemeiben, mind pedig annak fonetikai struktrjban kimutathat, s adatokkal altmaszthat. Meggyzdsnk, hogy a sznszi jtk modelllta
helyzet vizsglata a spontn megnyilatkozsoknl is alkalmazhat, s, a szveg tartalmi elemeinek vizsglatval prhuzamosan, alapja lehet egy, a fonetikai struktrt is
vizsgl, sszetett tudomnyos narratv pszicholgiai eljrs alkalmazsnak.

Irodalom
1. Hargitai, R. Naszdi, M., Kis, B., Nagy, L., Bna, A., Lszl, J.: A depresszv dinamika
nyelvi markerei az n-elbeszlsekben. A LAS VERTIKUM tagads s szelfreferencia modulja. Pszicholgia No. 2 (2005) 181199
2. Lszl J.: Elsz. In: Lszl J., Thomka B. (szerk.): Narratv pszicholgia. Narratvk 5.
Kijrat Kiad, Budapest (2001) 715
3. Lszl, J.: Narratv pszicholgia. Pszicholgia Vol. 28, No. 4 (2008) 301317

Szeged, 2011. december 12.

239

4. Lszl, J.: The science of stories.: An introduction to narrative psychology. Routledge, London; New York (2008)
5. Lszl, J., Ehmann, B., Pley, B., Plya, T.: A narratv pszicholgiai tartalomelemzs: elmleti alapvets s els eredmnyek. Pszicholgia Vol. 20, No. 4 (2000) 367390
6. Pennebaker, J. W., Ireland, M.: Analyzing Words to Understanding. In: Jan Auracher, William van Peer (eds.): New Beginnings to Literary Studies. Cambridge Scholar Publishing
(2008) 2448
7. Praat: http://www.fon.hum.uva.nl/praat/
8. Scherer, K. R.: Vocal affect expression: A review and a model for future research.
Psychological Bulletin Vol. 99 (1986) 143165. Magyarul: Voklis rzelemkifejezs. ttekints s egy modell az eljvend kutatsokhoz. Fordtotta: Bodor Pter. In: Barkczi Ilona
Sra Lszl (szerk.): rzelmek s rzelemelmletek. Tanknyvkiad, Budapest (1989)

240

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A multimodlis pragmatikai annotci jelentsge


a szmtgpes nyelvszetben1
Bdog Alexa1, Abuczki gnes1, Nmeth T. Enik2
1

Debreceni Egyetem, ltalnos s Alkalmazott Nyelvszeti Tanszk


Egyetem tr 1.
4032 Debrecen
2
Szegedi Tudomnyegyetem, ltalnos Nyelvszeti Tanszk
Egyetem utca 2.
6722 Szeged
{alexa.weirdling, abuczki.agnes}@gmail.com,
nemethen@hung.u-szeged.hu

Kivonat: Jelen tanulmny egy olyan pragmatikai annotcis eljrst mutat be


annak szintjeivel, technikai eszkzeivel s kezdeti eredmnyeivel egytt, amely
segtsgvel lehetv vlik a trsalgs bizonyos mozzanatainak automatikus
flismerse s kinyerse, valamint a trsalgs szerkezetvel s menetvel kapcsolatos predikcik megttele. Az annotcis eljrst a multimodlis, spontn
htkznapi trsalgsokat tartalmaz magyar HuComTech-korpuszon fejlesztettk ki. Az annotcis rendszer nyelvfggetlen, univerzlis kategrikkal dolgozik, tpusos szerkezet, az egyes szintek egymsra plnek benne. Az annotcis szintek az albbiak: a kommunikatv aktusok szintje, a tmogat aktusok
szintje, a tematikus kontroll szintje, valamint az adott-j informci szintje. Az
eljrs megfelel a jelenleg is kidolgozs alatt ll nemzetkzi standardizcis
elvrsoknak, kvetelmnyeknek.

1 Bevezets: pragmatika s szmtgpes nyelvszet


A szmtgpes nyelvszet terletn a pragmatikai kutatsok s fejlesztsek vrlvre nagyobb teret nyernek. E tendencia mgtt elsdlegesen az embergp interakci (a tovbbiakban HCI humancomputer interaction) sikeresebb ttelnek motivcija hzdik meg, msodsorban pedig a nyelvtudomny azon komputcis ignye,
melynek clja a grammatikai s a pragmatikai kompetencia formlis modelljeinek
ltrehozsa [1], [2]. A HCI-alkalmazsok sikernek egyik kulcsa azrt keresend a
pragmatikban, mert e terlet az emberek kztt zajl kommunikatv nyelvhasznlat
mibenltvel foglalkozik [3]. A nyelvet klnbz kontextusokban, klnbz clok
1

A jelen tanulmny alapjul szol-gl kutatsban Bdog Alext s Abuczki gnest A


felsoktats minsgnek javtsa a kutats-fejleszts-innovci-oktats fejlesztsn
keresztl a Debreceni Egyetemen cm, TMOP-4.2.1/B-09/1/KONV-2010-0007
projektazonostj program, Nmeth T. Enikt pedig az MTA-DE-PTE-SZTE. Elmleti
Nyelvszeti Kutatcsoportja tmogatta.

Szeged, 2011. december 12.

241

elrsnek rdekben hasznljuk, s ennek a bzisnak tkrzdnie kell az ember s az


ltala hasznlt gp kommunikcijban is. E mozzanat fontossgt jelzi az is, hogy a
htkznapi felhasznlknak a gpekhez fzd viszonya sajtosan ksmodern termszet: egyrszrl ignyeljk s taln el is vrjuk azt, hogy a gpek megknnytsk
mindennapi letnket (gy ebbl a szempontbl ltalban pragmatistk vagyunk2 s a
gpeket rtksemleges eszkzknek tekintjk), msrszrl viszont gy gondoljuk,
hogy letnket s cljainkat a gpek igenis befolysoljk, st, bizonyos esetekben
meg is vltoztatjk pldul a gpek hasznlatt a legtbb esetben explicit mdon
tanulni kell (ebbl a szempontbl eszkzeinket rtkterheltnek tekintjk).3
A fntiek alapjn elmondhat teht, hogy a komputcis pragmatika f kutatsi
problmi azon jellemzk fltrsa s gpi kezelse kr csoportosulnak, melyek a
htkznapi, vals nyelvhasznlatot alapveten meghatrozzk. Ennek megfelelen
kzponti helyet foglalnak el a klnbz referencilis elemek visszakeressvel kapcsolatos problmk, a nyelvszeti pragmatikbl ismert beszdaktusok automatikus
generlsnak s interpretlsnak nehzsgei, a beszdaktusokon tlmenen a teljes
diskurzusok szerkezete automatikus generlsnak s interpretlsnak krdsei, valamint az abdukci [2]. E problmk komputcis pragmatikai megoldsai a HCI
tbb kutatsi s alkalmazsi terletn alkalmazhatk, gy pldul dialgusrendszerekben, racionlis dntsi rendszerekben, vagy akr spontn beszdfelismer rendszerekben is [1], [4].
A jelenleginl termszetesebb HCI megteremtst clz projektek kztt megklnbztetett fontossggal brnak a kommunikci multimodalitst alapul vev kutatsok, melyek sorn nemcsak a beszlt nyelvi kommunikatv informcimanipulci
jellemzit trjuk fl, hanem figyelembe vesszk a nem verblis akusztikus, valamint a
vizulis tartomnybl rkez informcikat is.
A fnt emltett problmk megoldshoz tbbfle adatgyjtsi s elmletalkotsi
modellt hvhatunk segtsgl, melyek kzl a legelterjedtebb mdszer a korpusz- s
adatbzis-ptsen alapul adatkinyers, illetve elmleti ltalnostsok megttele.
Szmtgpes nyelvszek s informatikusok szmos smt fejlesztettek ki azon trekvs sorn, hogy standardizlt kdnyelvet s terminolgit hozzanak ltre klnbz korpuszannotcik szmra. Mivel a korpusz- s adatbzis-pts f kritriuma a
standardok kvetse s az interoperabilits, ezrt ezeket a smkat ltalban XMLben kdoljk, amely lehetv teszi a gpi feldolgozst. A nyelv verblis aspektusainak kdolsa mellett szintn standardizlt rendszerr fejldtt a nem verblis jegyek
kdolsa is, melyekre sajtos kdnyelvek szlettek, mint pldul a nemzetkzi lvonalbeli, arcizommozdtsokat figyelembe vev Ekman-fle FACS-kdrendszer
(Facial Action Coding System).4 A multimodlis kdolsmk kzl ttrknt
emelkedett ki a MUMIN5 multimodlis kdrendszer a gesztusok s arckifejezsek
szemlykzi kommunikciban betlttt szerepnek tanulmnyozsra. A fenti smkhoz hasonlan a HuComTech kutatcsoport is egy tbbszint, multimodlis an2
3
4

Vigyzat, nem pragmatikusok, csak pragmatistk!


A gpekhez fzd attitdjeinkrl j ttekintst ad Ropolyi Lszl [5].
A FACS manuljnak rszlete elrhet az albbi weboldalon: http://face-andemotion.com/dataface/facs/manual/TitlePage.html
MUMIN:
http://www.ling.helsinki.fi/kit/2006k/clt310mmod/MUMIN-coding-schemeV3.3.pdf

242

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

notcis rendszert ptett ki, amely figyelembe veszi a kommunikci verblis akusztikus, nem verblis akusztikus s vizulis jellemzit is, gy klnfle multimodlis
termszet lekrdezsekre s modellptsre is alkalmas.
Ugyanakkor nem szabad elfelejtkeznnk arrl, hogy a korpusz s adatbzis hasznlata egy elmleti dnts, ahogyan az is, hogy milyen annotcit ksztnk, szintaktikait, morfolgiait vagy pragmatikait, tovbb, hogy a vlasztott tpus annotcis
rendszernk milyen alapegysgekkel s szintekkel dolgozik. A HuComTechkorpuszon alkalmazott multimodlis pragmatikai annotci mgtt az az elmleti
megfontols hzdik, hogy a kommunikci sorn a kommunikcis partnerek egyszerre, szimultn mdon veszik figyelembe a klnbz elrhet modalitsokbl
szrmaz stimulusokat. Ezen elmleti dnts rtelmben vlhatott a multimodlis
pragmatikai annotci alapegysgv a kommunikatv aktus.
Jelen tanulmny a kommunikatv aktusok generlsra s interpretcijra sszpontost a HuComTech-korpusz vizsglata s multimodlis pragmatikai annotcija
alapjn. Clunk ketts: egyrszrl szeretnnk bemutatni egy olyan, sajt fejleszts
multimodlis pragmatikai annotcis rendszert, mely segtsgvel oly mdon tudjuk
lerni s rtelmezni a szemlykzi kommunikatv viselkedseket, hogy az tevkenyen
hozzjrulhasson a beszlt ember-gp interakcit lehetv tv dialgusrendszerek
modelllshoz s kivitelezshez. Kzvetett clunk pedig az, hogy rvilgtsunk
arra, hogy a hagyomnyosan nem formlis termszet nyelvszeti pragmatika aktvan
kpes hozzjrulni a szmtgpes nyelvszethez (s viszont), valamint hogy ez a
hozzjruls nem ncl. Fontos kiemelni azt, hogy kutatsunk e tanulmny elksztsekor mg nem zrult le az annotci jelenleg is folyik, gy vgleges elmleti ltalnostsok levonsra, valamint eredmnyeink dialgusrendszerbe trtn integrlsra egyelre mg nem volt mdunk. Ennek ellenre annotcis rendszernk elnyei
mr most kzzelfoghatk.
Cljainknak megfelelen elsknt rviden bemutatjuk a HuComTech-csoport ltal
ptett korpuszt, annotlsunk terept, majd pedig a QANNOT-annotcis eszkzt.
Eladsunk legfontosabb rszben sajt multimodlis pragmatikai annotcis rendszernk szintjeit mutatjuk be pldk segtsgvel, valamint az annotls eszkzt, az
annotcis folyamatot s tovbbi kutatsi terveinket. Zrsknt ksrletet tesznk
tanulmnyunk metaelmleti reflexijra is, hogy kimutassuk a nyelvszeti pragmatika
s a szmtgpes nyelvszet egymsra gyakorolt hatst.

2 A HuComTech-korpusz multimodlis pragmatikai annotlsnak elmleti alapjai


Multimodlis pragmatikai annotcis rendszernk alapjait egy korbbi tanulmnyunkban rszletesen kifejtettk [6]. Jelen tanulmnyban cljainknak megfelelen
arra sszpontostunk, hogy rmutassunk a hagyomnyos nyelvszeti pragmatika s a
szmtgpes nyelvszet kzs metszspontjaira, gy annotcis rendszernk elmleti
alapjait is e nzpontbl mutatjuk be.
A pragmatikai annotci a trsalgs szegmentlst s cmkzst jelenti, melynek
sorn nyelvi informcit adunk hozz a nyelvi szegmensekhez, valamint a nem verb-

Szeged, 2011. december 12.

243

lis kommunikatv viselkedst is szegmentljuk s cmkzzk. A pragmatikai annotci elssorban a beszl szndknak megfelel, s nem csupn a formban (a felszni szerkezetben) tkrzd kommunikatv funkcikat jelli meg, hiszen a sikeres
kommunikci felttele az, hogy a hallgat/cmzett ugyangy rtelmezze a beszl/felad megnyilatkozst s szndkait, ahogyan  (a beszl) is kvnta [6].
Multimodlis pragmatikai annotcis rendszernk alapjt a kommunikatv aktusok
kpezik. A kommunikatv nyelvhasznlat e minimlis alapegysgei nyelvi szempontbl megnyilatkozsok [7], amelyek trsalgsi fordulkba, a fordulk szomszdsgi
prokba, a prok pedig koherens diskurzusokba szervezdnek. A beszlt nyelvi dialgusokat a trsalgselemzsben ltalban fordulkra szoks szegmentlni, m mivel
ezek a szegmensek nagyon hosszak is lehetnek, ezrt elnysebb ket tovbbi funkcionlis egysgekre, kommunikatv aktusokra tagolni. A kommunikci sorn minden
szint sajtos elvek s megszortsok alapjn szervezdik. A nyelvszeti pragmatika
oldalrl nzve a kommunikatv aktusok multimodlis illokcis aktusok. Illokcis
aktusok, mivel a bennk kifejezett beszli s szndkolt hallgati attitdk alapjn
szervezdnek, gy eltrbe kerlnek a kommunikciban jelen lev intencik, s
multimodlisak, mivel a verblis kzls mellett figyelembe vesszk a vizulis (a gesztusokkal, valamint a klnbz arckifejezsekkel tmogatott) s a nem verblis
akusztikus (prozdiai) informcikat is. Az illokcis aktusok nyelvszeti pragmatikai kutatsai rmutatnak arra, hogy a partikulris illokcis aktusok szma igen magas, gy ezek vizsglata parttalann vlhat mind a kategorizci, mind a csoportosts
tekintetben. Pldul a krsnek mint illokcis aktus fajtnak rengeteg alfaja klnbztethet meg (krs, parancs, knyrgs, utasts, kvnalom stb.), s ezek az
aktusok radsul mg nyelvfgg termszetek is (az egyik nyelvben megvannak, a
msikbl pedig hinyoznak). Amennyiben magas szinten ltalnost modellt kvnunk ltrehozni, gy ki kell kszblnnk a nyelvfgg, partikulris kategrikat
tl kell lpni az egy jelensg = egy szably tpus lersokon. Multimodlis pragmatikai annotcis rendszernkben ezt a problmt gy oldottuk meg, hogy nem partikulris aktusokat, hanem aktustpusokat klnbztettnk meg egymstl a Bach s
Harnish ltal kidolgozott illokcis aktustipolgia alapjn [8]. A tpusos megkzelts
egyik pozitvuma az teht, hogy valamilyen szempont alapjn (jelen esetben az aktusban kifejezett beszli s a szndkolt hallgati attitdk alapjn) osztlyokba, tpusokba sorolja a pldnyszint (token) jelensgeket, gy a rendszer alkalmas lesz ltalnos szablyszersgek megllaptsra, s ebbl ereden predikcik megttelre.
Rendszernkben pldul a krsek, parancsok, kvnalmak stb. egysgesen a direktv aktusok tpusba tartoznak. A direktv aktusok olyan aktusokat tartalmaznak,
melyek propozicionlis tartalma a hallgat egy elvrt/preferlt jvbeli cselekedetre
vonatkozik, s amelyek kifejezik a beszl azon szndkt, hogy a hallgat a szban
forg aktus hatsra hajtsa vgre a jvbeli cselekedetet [6]. A direktvek mellett
megklnbztetnk konstatvokat (melyek a beszlnek egy propozicionlis tartalomhoz fzd hiedelmt fejezik ki gy, hogy a beszl mindekzben szndkozza
azt is, hogy az aktus propozicionlis tartalmt feldolgozza s higgye a hallgat is),
komisszvokat (amelyek a beszl azon szndkt fejezik ki, amellyel elktelezi magt egy jvbeli aktus megttelre) s n. viselked aktusokat is (acknowledgement, a
beszl valamilyen affektv, rzelmi, attitdbeli viszonyulst fejezik ki a hallgat
fel). A trsalgsban elfordulnak olyan esetek is, amikor a megnyilatkozs semmif-

244

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

le propozicionlis tartalommal nem rendelkezik, s a megnyilatkozs konkrt


illokcis ereje nem azonosthat.6 Ebben az esetben a none (nem azonosthat) cmkt alkalmazzuk az annotci sorn.
A tpusos megkzelts msik elnye az univerzalits: mg a partikulris aktusok
nyelvfggek, addig az aktusok tpusai nagy valsznsggel nyelvfggetlenek [9].
Az univerzlis jelensgek mgtt meghzd szablyszersgek fltrsa a nyelvszeti pragmatikban s a szmtgpes nyelvszetben egyarnt fontos: a pragmatika
szmra azrt, mert absztrakt, ltalnos rvny megllaptsokat tudunk tenni a
nyelvhasznlatra vonatkozan, a szmtgpes nyelvszet szmra pedig azrt, mert e
megllaptsokat flhasznlva tl tud lpni a statisztikai alap alkalmazsokon.
A kommunikatv aktusok mellett az gynevezett tmogat aktusokat is annotljuk
a multimodlis pragmatikai annotci sorn. Ezek az aktusok nem brnak nll
illokcis rtkkel, ehelyett kiegsztik, tmogatjk a velk egy fordulban szerepl
kommunikatv aktust. Ezen aktusok annotlsa azrt fontos a nyelvszeti pragmatika
szmra, mert segtsgkkel szmot tudunk adni egyrszrl az interakciban levs
mozzanatairl, msrszrl a trsalgs formai jegyek alapjn trtn szegmentlsrl.
E kt mozzanat a szmtgpes nyelvszet szmra is fontos: az interakciban val
rszvtelnek pragmatikai funkcij multimodlis jelli vannak, pldul a visszajelzs (backchannel), mely trtnhet blogatssal, hmmgssel, hmzssel stb.
Emellett a trsalgsban olyan formai jellk, pldul diskurzusjellk s udvariassgi
markerek is rszt vesznek, melyek segtsgvel knnyen azonosthatv vlnak a
megnyilatkozsokat alkot kommunikatv aktusok tpusai. Pldul hiba hangzik el
egy krd intoncij megnyilatkozs, ha a vgn szerepel a lgy szves kifejezs
vagy a krlek szcska: tudjuk, hogy a megnyilatkozs ebben az esetben krs lesz.7
Multimodlis pragmatikai annotcis rendszernkben a tmogat aktusok kzl a
visszajelzseket, az udvariassgi markereket, valamint a javtsokat (melyek sorn a
beszl a sajt partikulris kommunikatv aktushoz fzd attitdjt vltoztatja meg)
jelljk. Tvlati terveink kztt szerepel a diskurzusjellk annotlsa is.
Ahogy korbban emltettk, a kommunikatv aktusok s a tmogat aktusok egysgesen megnyilatkozsokba, a megnyilatkozsok pedig trsalgsi fordulkba szervezdnek. A fordulk teht tbb megnyilatkozst, s azon bell tbb kommunikatv aktust is tartalmazhatnak, hatraikat a beszlvlts jelli ki. A beszlvlts azonban
nem vletlenszeren trtnik a trsalgsban: pldul egy krds elvrt kvetkezmnye a vlasz, egy javaslat elvrt kvetkezmnye az elfogads, a nyugtzs. Az egymsra kvetkez fordulkbl olyan szomszdsgi prok bontakoznak ki, ahol a pr
msodik tagja rendszerint az els prra adott elvrhat, preferlt vlasz. Teht az interakci elmleti modellezse sorn szintn rdemes prszekvencikba sszekapcsolni a kommunikatv aktusokat. Dialgus-modellekben ltalban kt kommunikatv
aktus alkot egy prszekvencit [10]: az els kommunikatv aktust a gp nyjtja, a
msodik aktus pedig az (emberi) felhasznl fordulja. Mivel a kommunikatv aktusok jellemzen elre megjsolhat sorrendben kvetik egymst (pl. krds-vlasz s
krs-teljests szekvencikban) [11], [12], gy az egyes aktusok jellemz jegyeinek

6
7

Ilyen eset pldul a Jaj! flkilts.


Nyelvszeti pragmatikai terminussal lve a konvencionlisan indirekt illokcis aktusok
automatikus felismersnek lehetsgeit kvnjuk fltrni.

Szeged, 2011. december 12.

245

az annotcibl val kinyerse megknnytheti a dialgusrendszer betantst azok


felismersre s megfelel vlaszok automatikus generlsra is. Ha adott az egyik
rsz, elre jelezhet a msik [1].
Annotcis rendszernk lehetv teszi azt, hogy a tbbi HuComTech-annotcival
egybefzve megvizsgljuk a trsalgsi fordulk szomszdsgi prokba val szervezdsnek mozzanatait is. E vizsglat pedig elvezethet minket kommunikatv aktusok
kztti dntshozst segt, kvetkez aktust jsl dntsi fk ltrehozshoz is. Mivel a kommunikatv aktusok automatikus felismersnek, predikcijnak s generlsnak els lpse s egyben alapfelttele a beszlvlts predikcija is, ezrt Abuczki
gnes [13] kvantitatv vizsglatokkal, adatbzis-lekrdezsekkel a fordullezrs s a
lehetsges vltsi pont tipikus jegyhalmazt gyjttte ssze Troung s munkatrsai
[14] modelljbl kiindulva, majd ezeket a jellemzket vizulis jegyekkel kiegsztve
egy dntsfba rendezte (l. 1. bra).

1. bra: Dntsfa a fordul lezrsnak ('end-of-turn', rvidtse: EOT) s a fordul tartsnak


('turn-keep', rvidtse: TK) megklnbztetsre multimodlis jegyek alapjn [13].

246

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az 1. brn lthat dntsfa a fordulzrs ('end-of-turn', rvidtse: EOT) s a fordul tartsnak ('turn-keep', rvidtse: TK) megklnbztetsre vllalkozik. A dntsfn lthat t lps kzl az els hrom akusztikai tnyezket, az utols kt lps
pedig vizulis tnyezket tartalmaz. A beszlvlts predikcijval egyidejleg a
szomszdsgi prok tipikus mintzatnak megfelelen, az egyes kommunikatv aktustpusok lekrdezsek utn kapott megklnbztet jegyeire tmaszkodva, a jegyeket
a fenti pldhoz hasonlan dntsi fba rendezve a kvetkez kommunikatv aktust
megjsl modellt hozhatunk ltre. A pragmatikai annotci mellett az audio- s
videoszinten is annotlt HuComTech-korpusz megbzhat kiindul bzisa lehet az
egyes kommunikatv aktusok egytt jr jellemzi sszegyjtsnek, ami hozzjrulhat az emberi beszl ltal vgrehajtott aktusok automatikus felismershez. Az egyelre mg csak vzlatosan modelllt dialgusrendszer feladata elssorban csupn a
fordulk vgnek detektlsa lesz a tipikus fordulvgi jellemzk (audio- s vizulis
markerek) egyttes elfordulsa s bizonyos idtartam esemnyek egymst kvet
sorrendje alapjn. A megnyilatkozs vgnek detektlsa utn pedig a gpi gens
felteheti a beptett forgatknyvnek (scenario) megfelel kvetkez krdst. gy a
krdsek s vlaszok lncbl felpl a dialgus. A szomszdsgi prok sorozatbl
pl ki a trsalgs egsze, melynek sorn akr tbb tmt is egymsba fzhetnk.
Ezrt annotcinkba a tematikus kontroll szintjt is bevezettk, mellyel clunk az
volt, hogy korrelcikat tudjunk megllaptani az egyes kommunikatv aktusok szekvencilis szervezdse, a fordulkezels, valamint a globlis diskurzusszervezds
mozzanatai kztt. Annotcis rendszernkben megklnbztetjk a tmakidolgozs,
az egyes trsalgsi tmk motivlt egymsba fzse, illetve a motivlatlan tmavlts
mozzanatait.
A pragmatikai annotci utols szintjn a trsalgs univerzumba kerl j lexikai
informcikat jelltk. Erre azrt volt szksg, hogy a ksbbiekben megvizsglhassuk azon hipotzisnket, amely szerint az j informci bevezetse lnkebb, erteljesebb gesztikulcival s nagyobb intenzitssal jr egytt. [13] kvalitatv elvizsglata a szemantikailag j lexiklis informci kzi bejellse utn azt az eredmnyt
hozta, hogy a gesztus cscspontja (n. stroke) s a szemantikailag legfontosabb verblis egysg gyakran egybeesik. Ezt a felttelezst kvantitatv mdszerekkel, vagyis a
tervezett lekrdezsek statisztikai elemzsvel is kvnjuk igazolni a HuComTechkorpuszban.

3 A multimodlis pragmatikai annotcis sma


A HuComTech-projekt multimodlis pragmatikai annotcijnak smjt az albbi
tblzatban sszegezzk:

Szeged, 2011. december 12.

247

1. tblzat: A HuComTech-projekt multimodlis pragmatikai annotcis smja.

kommunikatv aktusok tpusai (the level of communicative act types):


konstatvok (constatives) = tlkezk: vlaszads, megersts,
informls, predikci, visszaemlkezs
direktvk (directives) = vgrehajtk: krs, parancs, javaslatttel
komisszvok (commissives)= elktelezk: beleegyezs (pl. egy
fogadsba), flajnls, gret
viselkedk (acknowledgements): dvzls, bcszs, elfogads
(pl. meghvs)
indirekt (indirect)
nem azonosthat (none)
tmogat aktusok szintje (the level of supporting acts):
visszajelzs (backchannel)
udvariassgi marker (politeness marker)
javts (repair)
nincs aktus (none)
tematikus kontroll szintje (the level of thematic control):
tmakezdemnyezs (topic initiation)
tmakidolgozs (topic elaboration)
tmavlts (topic change)
informci szintje (the level of information type):
adott (given)
j (new)
A multimodlis pragmatikai annotci eszkzt, a QANNOT-programot Szeghalmy
Szilvia (Debreceni Egyetem) hozta ltre 2010-ben a HuComTech-csoport szmra. A
QANNOT-ban az annotci egysge amely egysgekhez timestampeket (kezd- s
vgpontokat) lehet rendelni a frame. A pragmatikai annotci jelenleg belltott
szegmentlsi egysge 8 frame per second, vagyis nyolc frame reprezentl egy msodpercet. Az annotci sorn az annottorok elsknt a kommunikatv aktusok tpusainak cmkit helyezik el az annotlni kvnt vide idvonaln. Ezutn a tmogat
aktusok cmkzse kvetkezik, majd a tmavlts. Vgezetl az adott-j informci
cmkzse trtnik. Mivel a QANNOT egyszerre jelenti meg az sszes annotcis
szintet, gy az annottorok szimultn mdon ssze tudjk hasonltani s szinkronizlni egymssal a klnbz szinteken elhelyezett cmkket.8

Ez nemcsak a multimodlis pragmatikai annotcin bell fontos, hanem akkor is, amikor a
klnbz annotcikat egybe kvnjuk vetni, s korrelcikat megllaptani pldul a
Praatban zajl prozdiai s a QANNOT-ban zajl multimodlis pragmatikai annotci cmki kztt.

248

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2. bra: A multimodlis annotci felhasznli fellete a QANNOT-programban.

4.

Tervezett lekrdezsek a HuComTech-korpuszon

A kutats kvetkez szakaszban (a 2011-es MSzNy konferencia idpontjig) kvantitatv elemzst kvnunk vgezni adatbzis alap cmkelekrdezsek segtsgvel,
melyekrl eladsunkban rszletesen be fogunk szmolni. Multidimenzis vizsglatot
fogunk vgezni, vagyis a dialgusok horizontlis s vertiklis szerkezett egyarnt
elemezni fogjuk a klnbz tpus (audio, video, szintaktikai s pragmatikai) annotcik bizonyos szintjeinek (a diskurzus, a tekintetirny, a kommunikatv s tmogat
aktusok, valamint a tematikus kontroll szintjnek) szimultn tbbszint megjelentse
s egyttes elfordulsukra vonatkoz cmkelekrdezsek segtsgvel.
A horizontlis (szekvencilis) elemzs rszeknt az annotci horizontlis vetlett fogjuk vizsglni, vagyis ennek segtsgvel az idben egymst kvet jelensgek
(elssorban kommunikatv aktusok) mintzatt prbljuk feltrni.
A vertiklis cmkeelemzs keretben pedig audio-, video- s pragmatikai cmkk
egyttjrst keressk: els lekrdezseink sorn azt vizsgljuk meg, hogy az egyes
kommunikatvaktus-tpusok (konstatv, direktv, komisszv, viselked, indirekt) jellemzen milyen emblma tpus gesztusokkal (figyelem, egyetrts, nem egyetrts,

Szeged, 2011. december 12.

249

visszautasts, ktelkeds, szmok s alak, valamint mret mutatsa9) s milyen arckifejezsekkel (semleges, boldog, meglepett, szomor, elgondolkod, feszlt10) (a kategrik rszletes bemutatsrt l. [15]) jrnak vagy kezddnek egytt (vagyis melyik
kommunikatv aktusba esik bele egy gesztus vagy arckifejezs kezdpontja). Ezeket
az eredmnyeket olyan formban szeretnnk megkapni, hogy hny-hny darab emblmatpus jelenik meg az egyes kommunikatv aktus-tpusok vgrehajtsa kzben.
Vagyis a fenti vertiklis termszet lekrdezsek f clja az egyes aktus-tpusokat
ksr nem verblis-vizulis, nem verblis-akusztikus s verblis jegyek felfedse,
amelyek szisztematikus rendszerbe foglalsa s explicitt ttele elvezethet minket a
kommunikatv aktusok automatikus felismershez.
Kvetkez lpsknt, a szekvencilis (horizontlis) elemzs sorn a kommunikatv
aktusok egymst kvet tipikus sorrendjeit szeretnnk megllaptani. Ezzel validlni
szeretnnk a szomszdsgi prok [11] ltal fellltott tipikus lncolat alkalmazhatsgt magyar spontnbeszdkorpuszon is. Ezt a lekrdezst gy fogjuk elvgezni, hogy
diskurzusszinten11 a zr (turn give kzben vgrehajtott) s a nyit (turn take kzben
vgrehajtott) kommunikatv aktusokat prostjuk, majd a kapott aktusprokat csoportostjuk s megszmoljuk. Mivel a prszekvencia els fele elrejelzi a msodik felt klnsen formlis, kanonikus szitucikban -, gy ez a megkzelts grafikus s
multimodlis felhasznli felletek mkdtetshez egyarnt megfelel feltteleket
biztost. Eredmnyeinkkel ezltal nemcsak a kommunikatvaktus-tpusok felismershez, hanem azok automatikus generlshoz s sszefonshoz, diskurzusba kapcsolshoz is clunk hozzjrulni.
Kvetkez lekrdezsnk arra a krdsre keresi a vlaszt, hogy az egyik beszl
ltal vgrehajtott visszajelzs (backchannel) a msik beszl ltal vgrehajtott mely
kommunikatvaktus-tpusba s hny alkalommal esik bele.12 Ezzel azt kvnjuk feltrni, hogy leggyakrabban milyen aktustpusra kvetkezik reakciknt a visszajelzs,
vagyis mi a visszajelzs leggyakoribb funkcija.
A kommunikatv aktusok akusztikai markereinek feltrshoz a Praat-program
[16] ll rendelkezsnkre. A Praat-programban melyben a HuComTech-korpusz
audioannotcija zajlik - a spektogram horizontlis irnyban mutatja az idtartamot,
vertiklis irnyban pedig a frekvencia (hangmagassg) sklzst (Hz mrtkegysgben). A fenti adatok millisecundumonknti rtkeinek feltltse lehetv teszi a felvtelek fonetikai elemzst s fonetikai jelleg (pldul intenzitsra s alapfrekvenciSmnkban a cmkk angolul szerepelnek: attention, agree, disagree, refusal, doubt, numbers, size.
10 Smnkban a cmkk angolul szerepelnek: natural, happy, surprised, sad, recalling, tensed.
11 A HuComTech-korpusz audioannotcija tartalmaz egy diskurzusszintet, ahol a trsalgs
fordulkra van bontva [13]. A fordulkat a kvetkez cmkk jellik: T (turn taking: a
fordul tvtele/kezdete), K (turn keeping: 'a fordul megtartsa'), G (turn giving: 'fordul
tadsa') s BC (backchannel: 'a hallgat fl rvid, figyelmet jelz visszajelzse'). Egy
beszl forduljn bell akr tbb kommunikatv aktus is elfordulhat, teht az
audioannotci tovbbi informcikkal bvl a pragmatikai szinten.
12 Olyan visszajelzseket (BC) vizsglunk, amelyek kezdpontja beleesik a msik beszl ltal
vgrehajtott kommunikatv aktus idtartamba. Aktustpusonknt egyesvel szksges
lekrdezni a kommunikatv aktusok darabszmt s idtartamt, illetve a bennk vgrehajtott
visszajelzsek darabszmt.
9

250

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

ra vonatkoz) lekrdezsek vgrehajtst. Ezek utn elsdleges clunk az egyes


kommunikatvaktus-tpusok tlagos intenzitsminimumnak, -maximumnak s tlagnak lekrdezse lesz, annak rdekben, hogy ezekkel az eredmnyekkel is hozzjruljunk az egyes aktustpusok megragadshoz s formalizlt lershoz, amely a
ksbbiekben elvezethet minket a beszl kommunikatv szndknak automatikus
felismershez, illetve elrejelzshez.

5 sszegzs
A jelen tanulmnyban bemutatott pragmatikai annotcis rendszer f elnye abban
rejlik, hogy univerzlis kategrikkal dolgozik, vagyis a felvtelek nyelvtl fggetlenl univerzlisan alkalmazhat, hiszen a kommunikatv s a tmogat aktusok tpusai, valamint a tematikus kontroll tulajdonsgai egyarnt univerzlis jellemzi a trsalgsnak. A rendszer interoperbilis XML-smja lehetv teszi az annotcis
szempontok, annotland kommunikatv jelensgek bvtst jabb szintek s cmkk
bevezetsvel. Ugyanakkor a flslegess vlt szintek s cmkk is trlhetk (pldul a none cmkt bevezetst kveten hamarosan trltk). A fordulk mint strukturlis elemek s a kommunikatv aktusok tpusai mint funkcionlis elemek egyttes
szerepeltetse lehetv teszi, hogy a fordulkbl kibontakoz szomszdsgi prokhoz
megfelel kommunikatvaktus-tpusokat tudjunk rendelni. Mivel a QANNOTprogram kpes egyszerre megjelenteni az sszes annotcis szintet, gy lehetv vlik az egyes szintek cmkinek szimultn sszehasonltsa (pldul a kommunikatv
aktusok sszevetse az audio- s videoannotci cmkivel), illetve a cmkestatisztikai adatbzisba val feltlts utn bizonyos kommunikatv jelensgekre jellemz
multimodlis jegyhalmazok explicit formban trtn felfedse. Ez kzelebb vihet
minket olyan multimodlis jegyhalmazok meghatrozshoz s finomtshoz, amelyek segtsgvel nagy biztonsggal meg tudjuk jsolni a kvetkez fordul kommunikatv aktust/aktusait a trsalgsban.
Mindezen megfontolsokat figyelembe vve a HuComTech-korpusz pragmatikai
annotcija tevkenyen hozzjrul az ember-gp kommunikcis technolgik nyelvszeti aspektusainak modellezsi lehetsgeihez. Ha a szmtgpes nyelvszet
adatbzisokra alapozva kvnja a kommunikcit modelllni, akkor annak szksge
van a pragmatikra, hiszen jl megalapozott pragmatikaelmleti dntseket ignyel
annak meghatrozsa, hogy milyen legyen a trsalgsok pragmatikai annotcija.
Ugyanakkor a pragmatika szmra is nyeresggel jr a komputcis nzpont, mert
rknyszerti a pragmatikusokat, hogy a kommunikatv nyelvhasznlatra vonatkoz
megllaptsaikat explicit formban fogalmazzk meg, gy, hogy azok formalizlsra
alkalmasak legyenek s ezltal algoritmizlhatakk vljanak.

Szeged, 2011. december 12.

251

Bibliogrfia
1.

2.
3.
4.

5.
6.

7.
8.
9.
10.

11.
12.
13.

14.
15.

16.

Bunt, H., Black, W.: The ABC of computational pragmatics. In: Bunt, H., Black, W.
(eds.): Abduction, belief and context dialogue: Studies in computational pragmatics.
John Benjamins, Amsterdam (2000) 146
Jurafsky, D.: Pragmatics and computational linguistics. In: Horn, L. R., Ward, G.
(eds.): The handbook of pragmatics. Blackwell, Oxford (2002) 578604
Nmeth T. E: Pragmatika. In: Kiefer F. (szerk.): A magyar nyelv. Akadmiai Kiad,
Budapest (2006) 222261
Jurafsky, D., Bates, R., Coccaro, N., Martin, R., Meteer, M., Ries, K., Shriberg, E.,
Stolcke, A., Taylor, P., Van Ess-Dykema, C.: Automatic detection of discourse structure for speech recognition and understanding. In: Proceedings of the 1997 IEEE
Workshop on Speech Recognition and Understanding, Santa Barbara (1997) 8895
Ropolyi L.: Technika s etika. In: Fekete L. (szerk.): Kortrs etika. Nemzeti
Tanknyvkiad, Budapest (2004) 245292
Abuczki ., Bdog A., Nmeth T. E.: A multimodlis pragmatikai annotci elmleti
alapjai az embergp kommunikci modelllsban. In: Nmeth T. E. (szerk.) Ember-gp kapcsolat. A multimodlis embergp kommunikci modellezsnek
alapjai. Tinta Knyvkiad, Budapest (2011, megjelens alatt)
Nmeth T. E.: Megnyilatkozs: tpus - pldny. Nprajz s Nyelvtudomny Vol. 35
(1994) 69101
Bach, K., Harnish, R. M.: Linguistic communication and speech acts. MIT Press,
Cambridge (1979)
Verschueren, J.: Understanding pragmatics. Arnold, London (1999)
Bogdan, C., Kaindl, H., Falb, J., Popp, R.: Modeling of interaction design by end users through discourse modeling. In: Proceedings of the 13th international conference
on Intelligent user interfaces. ACM, New York (2008)
Levinson, S. C.: Pragmatics. Cambridge University Press, Cambridge (1983)
Schlegoff, E. A.: Sequence organization in interaction: A primer in conversation
analysis. Cambridge University Press, Cambridge (2006)
Abuczki, .: A multimodlis interakci szekvencilis elemzse. In: Nmeth T. E.
(szerk.) Ember-gp kapcsolat. A multimodlis embergp kommunikci
modellezsnek alapjai. Tinta Knyvkiad, Budapest (2011, megjelens alatt)
Troung, K. P., Poppe, R., Heylen, D.: A rule-based backchannel prediction model using pitch and pause information. In: Proceedings of Interspeech (2010) 30583061
Fldesi, A.: Unimodlis funkcionlis annotci a HuComTech-korpuszban. In:
Bdog, A. (szerk.): Az embergp kommunikci technolgijnak elmleti alapjai.
IKUT zrktet. (elkszletben)
Boersma, P., Weenink, D.: Praat: doing phonetics by computer 5.0.02. Institute of
Phonetic Sciences, University of Amsterdam (2007) http://www.praat.org

252

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Metaforikus kifejezsek szerkezeti jellemzi


Babarczy Anna
BME Kognitv Tudomnyi Tanszk, Budapest 1111, Egry Jzsef u. 1.
babarczy@cogsci.bme.hu

Kivonat: A tanulmny a tg rtelemben vett metaforikus kifejezsek elfordulsi jellemzit vizsglja magyar rott s kvzi beszlt nyelvi korpuszban. Az
elemzs clja olyan lexiklis kifejezsek vagy morfoszintaktikai konstrukcik
kzi azonostsa, melyek a korpuszban elfordul szavak alapjelentstl eltr
jelentsre utalnak. A f krdsek, melyekre vlaszt keresnk a kvetkezk: (a)
Javthat-e szmotteven a gpi metaforaazonosts teljestmnye, ha a metaforikus jelentst jelz kifejezst nem csak egymondatos ablakon bell, hanem annl tvolabb is keressk? (b) Tallhat-e olyan nyelvtani szerkezet vagy konstrukci, amely jellemz a metaforikus kifejezsekre, s amely figyelembe vtele
megknnytheti a metafork gpi azonostst? s (c) Megfigyelhetk-e tipikus
eltrsek a fenti kt tekintetben klnbz szvegfajtk kztt?

1 Bevezets
1.1 Metafork a kognitv nyelvszetben s a nyelvtechnolgiban
Az elvont nyelv krdse egy klasszikus nyelvfilozfiai problmra vezethet vissza,
ami magyarzatot keres arra a krdsre, hogy honnan szrmazhat az a tuds, amirl
nem lehet kzvetlen tapasztalatunk. Kt egymssal ellenttes, br egymst nem teljes
mrtkben kizr hipotzis terjedt el a szakirodalomban ennek magyarzatra: a fogalmi metafora elmlet [13], [14] s a nyelvi elvonatkoztats elmlete [25].
A fogalmi metafora elmlet arra az empirikus megllaptsra pl, hogy az emberi
nyelvben (tbb-kevsb) szisztematikus kapcsolat ltezik adott konkrt tartomnyok
s adott elvont tartomnyok kztt: hideget s meleget kifejez szavak pldul viszonylag konzisztensen rnak le rzelmi llapotokat, mint ahogy tri relcikat meghatroz kifejezseket szisztematikusan alkalmazunk idi relcik lersra. Az elmlet szerint teht az elvont fogalmak elsajttsa s mentlis reprezentcija a konkrt
tudsbl szrmazik, ami pedig az embert krlvev vilg testi tapasztalatban gykeredzik.
Az elvont nyelv krdsnek msik megkzeltse a nyelvi elvonatkoztats elmlete
[25], ami pszicholingvisztikai ksrletek eredmnyein s a gpi nyelvtanuls tapasztalatain alapul. Az elmlet szerint mind a konkrt, mind pedig az elvont fogalmak elsajttst a nyelvi inputbl kivont statisztikai mintk segtik. A feladat kivitelezhetsgt a nyelvnek az az empirikusan bizonytott tulajdonsga biztostan, hogy egy-egy
nyelven bell a hasonl disztribcij szavak tbbnyire azonos fogalmi tartomnyba

Szeged, 2011. december 12.

253

tartoznak ha a disztribci fogalmt megfelel pontossggal definiljuk [15], [8],


[19].
A termszetes nyelvi szvegek sekly szemantikai elemzse, azaz az argumentumok s hatrozk tematikai azonostsa a gpi nyelvfeldolgozs egyik kulcskrdse.
A feladat egyik legnehezebb problmja a formailag hasonl, de szemantikailag eltr argumentumok/hatrozk megklnbztetse, azaz a tg rtelemben vett metaforikus kifejezsek helyes azonostsa. Az albbi mondatokban, pldul, a labdval argumentum a konkrt rtelemben vett jtszs eszkze, mg az tlettel s a jtszott
kztt ms tpus kapcsolat van, mivel az ige itt metaforikus rtelemben szerepel.
Amint a (3) plda mutatja, nem llthatjuk azonban azt, hogy egy tlet nem lehet
eszkz.
(1) Eljtszott az tlettel.
(2) Eljtszott a labdval.
(3) Mindenkit feldhtett az tlettel.
A sekly szemantikai elemzs tern kt elterjedt statisztikai megkzelts ltezik:
az emberi ervel annotlt korpuszbl val gpi tanuls [17] s a teljesen automatikus
gpi tanuls [3]. Az elbbi rendszer morfolgiailag s/vagy szintaktikailag elemzett,
s argumentumcmkkkel (pl. PATIENS, AKTOR, HELY, MD) elltott korpuszbl
von ki statisztikai mintkat a prediktum-argumentum elfordulsokra vonatkozan,
s ezek alapjn azonostja az argumentumszerkezeteteket j szvegekben. A msik,
kevsb erforrs-ignyes, de kevsb sikeres mdszer csak morfolgiai s/vagy
szintaktikai annotcival elltott korpuszbl alkot lexikont, melyben a prediktumokhoz argumentum-valsznsgeket rendel. Jelenleg egyik mdszer sem kpes a metaforikus szerkezetek megbzhat azonostsra.

1.2 A gp metaforaazonosts elz eredmnyei


A kutats korbbi eredmnyeinkre pt, ahol a fogalmi metafora elmletbl kiindulva
forrs- s cltartomnyi szavak egyttes elfordulsa alapjn prbltunk metaforikus
kifejezseket azonostani egy korpuszban [1]. A metaforajelz szavakat hrom klnbz mdon definiltuk. Az els egy asszocicis ksrletre plt, ahol egyetemi
hallgatk a forrs- s cltartomnyokat kpvisel szavakhoz szorosan kapcsold
szavakat soroltak fel. A msodik mdszer az gy kapott szlistkat sztri szinonimkkal egsztette ki, a harmadik mdszer pedig a ksrleti korpuszbl kzzel kivont forrstartomnyi szavakat vette alapul a tesztkorpusz metaforinak azonostshoz. Mindhrom ksrlet esetben a forrs- s cltartomnyi szprokat egy-egy
mondaton bell kerestk. A legjobb eredmnyeket a harmadik, korpuszalap mdszer
adta, de itt is 50 szzalk alatt maradt mind a tallati arny, mind pedig a pontossg.
Az eredmnyek teht azt mutatjk, hogy egy forrs-cl tartomnyproson bell nem
brmilyen asszocici vezet metaforikus rtelmezshez, s a valban metaforicitsra
utal relcik mibenlte leginkbb az adott szveg nyelvi tulajdonsgain mlik. Az is
kiderlt, hogy nem minden esetben van szksg egy mondaton bell mindkt tartomnybeli kifejezsre a metaforikussg rtelmezshez. Mindez a metafork koncep-

254

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

tulis termszete helyett azok disztribcis tulajdonsgainak fontossgra vilgt r.


A mdszer gyenge eredmnyei azonban arra utalnak, hogy az eddigieknl rszletesebb elemzsre van szksg. Erre tesz ksrletet a jelen tanulmny a nemzetkzi irodalombl mr ismert eredmnyek felhasznlsval.
Deignan fknt a metaforikus kifejezsekben szerepl szavak grammatikai s
kollokcis termszett vizsglva arra mutatott r, hogy a pszicholingvisztikai ksrletekben hasznlt pldk problmkhoz vezethetnek [4], [5]. A nyelvi metafork
grammatikai viselkedsnek vizsglata is olyan fontos rszletekre vilgt r, amelyeket a konceptulis metaforaelmletben figyelmen kvl hagynak. Ugyancsak Deignan
elemzseibl derl ki, hogy a klnbz szavak, kifejezsek tbbnyire ms-ms
grammatikai jellemzkkel, illetve logikai relcikkal rendelkeznek a sz szerinti s a
metaforikus hasznlatban. Az az emberi viselkeds llati viselkeds konceptulis
metafora esetn pldul azok a szavak, amelyek a forrstartomnyban szerepelnek, s
entitsokat jellnek, metaforikus hasznlatukban tbbnyire igeknt vagy mellknvknt fordulnak el. A szerz egyb metaforatpusok vizsglata alapjn szmos pldval mutatja meg, hogy metaforikus hasznlatban a szavak jval kevesebb grammatikai szabadsggal rendelkezek, mint amikor sz szerinti jelentskben jelennek meg.
Ez azt jelenti, hogy a forrstartomnyban lv entitsok kzti logikai relci nem
egyszeren megismtldik a cltartomnyban, ahogyan azt a kognitv metaforaelmlet jsoln, hanem t is alakul: a szavak metaforikus jelentskben nll letet kezdenek lni.
A British National Corpus egy rsznek kzi elemzse preczebb megllaptshoz
vezet: egy j elemzs szerint az itt elfordul 241 metaforikus kifejezsbl 164-et ige
vezetett be [22]. Ez a megfigyels sszecseng a gpi metafora azonosts egyik klaszszikus tanulmnynak kittelvel, amely szerint az ige ltal bevezetett metafora operatv defincijnak tekinthetjk azt a tulajdonsgt, hogy a metaforikus kifejezsekben valamifle szelekcis megkts megszegse fordul el [26]. Erre a megfigyelsre
pl Fass met* elnevezs flig-meddig gpestett rendszere [6], amely sz szerinti,
metaforikus, metonimikus s anomalikus ige alap kifejezseket ksrel meg megklnbztetni egymstl. A rendszer hrom lpsben mkdik. Elszr egy kzi ervel
alkotott szelekcispreferencia-sztr s rszontolgia segtsgvel klnti el a sz
szerinti jelentst (ahol az argumentumok megfelelnek az ige szelekcis preferenciinak) minden nem sz szerinti jelentstl (ahol az argumentumok nem felelnek meg a
szelekcis preferenciknak). A msodik lpsben a rendszer egy forrs- s cltartomny rszontolgival veti ssze a vonzatszerkezetet, s ha megfelelst tall, metaforikusnak cmkzi a kifejezst. A mdszer problmja az, hogy a jelents kzi beavatkozs ellenre vagy ersen alulgenerl (nem tallja meg a metaforkat) vagy ersen
tlgenerl (mindent metafornak tl). Az eredmnyek szinte kizrlag azon mlnak,
hogy mi szerepel a kzileg megalkotott ontolgiban. Ez a problma visszavezethet
a metafork kzi azonostsnak bizonytalansgra, amit a rendkvl alacsony
annottorok kztti egyetrts is mutat [1].
Shutova s munkatrsai j munkjukban az argumentumstruktra mdszert a korpuszbl kinyert forrs- s cltartomny-szlista keressi mdszerrel kombinltk
[22]: olyan kifejezseket kerestek, ahol az ige jelli a forrstartomnyt s az alany
vagy a trgy a cltartomnyt. A forrs-, illetve cltartomnyi szavakat klaszteralgoritmusok segtsgvel korpuszbl lltottk ssze. Az igk kzl kiszrtk azokat,

Szeged, 2011. december 12.

255

amelyek szintn korpuszelemzsek szerint gyenge szelekcis preferencikat mutatnak. A szerzk hipotzise szerint az olyan kifejezsek, ahol ers szelekcis preferencij forrstartomnyi igk cltartomnyi vonzatokkal fordulnak el, metaforikusnak tekinthetk. A mdszer eredmnyeknt 79 szzalkos pontossgot rtek el. Az
rtkels azonban nem egy gold standard minthoz kpest trtnt, hanem a gpi
elemzs eredmnynek utlagos kzi ellenrzsvel. Ebbl kvetkezen a rendszer
fedsi arnyrl nincs informcink, s az eredmnyek nem vethetk ssze ms mdszerek eremnyeivel.
Vgl Baumer s munkatrsai egy hasonl klaszteralap megoldst egsztenek ki
szemantikaiszerep-cmkzssel (Semantic Role Labelling, SRL) [2]. Az SRL segtsgvel a szintaktikai elemzssel elltott korpuszban klnbz szintaktikai szerkezetekbl is ki tudjk vonni a tematikai szerepeket (pl. az angol passzv szerkezet alanyrl megllapthat, hogy az ige pciens argumentuma). A rendszer jelenleg ksrleti
stdiumban van.

2 A metaforikus kifejezsek kzi elemzse


A fenti eredmnyek teht korltozott sikert rtek el, ami rszben azzal magyarzhat,
hogy mg mindig nincs pontos kpnk a metafork mibenltrl. A jelen elemzs
clja ezrt a konceptulis metaforaelmlettl elvonatkoztatva olyan lexiklis kifejezsek vagy morfoszintaktikai konstrukcik kzi azonostsa s elemzse, melyek a
korpuszban elfordul szavak alapjelentstl eltr jelentsre utalnak (a tovbbiakban ezt metaforikus jelentsnek fogjuk nevezni). Alapjelents alatt a sz konkrt,
fizikai vagy tri jelentst rtjk. Egy metaforajelz elem lehet egyetlen sz, ahogy
a (4) pldban a ktsgbeess jelzi az sszefz ige metaforikus jelentst a prediktum
szelekcis megktseinek megszegsvel. Ezzel szemben az (5) mondat metaforikus
jelentse csak a tgabb kontextusbl kvetkezik, amibl kiderl, hogy a kirlyi udvarrl van sz, s annak a tmogatsban val bizalomrl.
(4)

(5)

A hallra rmlt pr (amennyiben a hzassg valamely si formja nem


is, a ktsgbeess bizonyra sszefzte ket) egyre nehezebben
haladt. (National Geographic)
Ne csak az udvarra pts. (Filmfelirat)

2.1 Korpusz s annotcis rendszer


Az elemzs alapjul egy regnybl, a National Geographic magyar nyelv kiadsbl
s filmfeliratokbl ll sszesen 36.355 szavas korpusz szolglt. A korpusz sszettelt az 1. tblzat mutatja. Az elemzsi korpusz egy nagyobb korpusz rsze, a hrom
szvegtpust arnyosan reprezentlja. A szvegkontextus jelentsge miatt a szvegek nem mondathatrokon, hanem epizdushatrokon vannak elvlasztva.

256

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


1. tblzat: Szvegszavak szma korpuszban.

Regny
19 544

National
Geographic
7 252

Filmfelirat

sszes

9 559

36 355

Az elemzs a nemzetkzi gyereknyelvikorpusz-kutatsokban ismert CHAT formtumban a CLAN annotcis s statisztikai elemzprogramok hasznlatval kszlt. A
formtum s az eszkzk elnye, hogy lehetv teszik a szveg rugalmas tagolst s
hosszabb tv, akr mondatokon tvel fggsgek kezelst.
Az annotcis rendszer a metaforikus kifejezs s az azt jelz elem egymstl val
tvolsgt, mindkett tagmondatbeli, illetve egymshoz viszonytott grammatikai
funkcijt s lexiklis azonossgt jelli. A rendszer felptst az 1. bra mutatja
nmi egyszerstssel. Az els szint az jelli, hogy a metafora s az azt jelz elem egy
mondaton bell, vagy kt klnbz mondatban jelenik-e meg. Az brn egyb
cmkvel jellt kategriba olyan esetek tartoznak, ahol nem lehet metaforicitst jelz
elemet azonostani (mint pldul a fenti (5) mondat esetn), vagy a metaforikus sz
morfolgiai alakja jelzi a metaforicitst (pl. mlysgesen). Mind a metafora, mind
pedig a metaforicitsra utal elem szintaktikai szerept (ige, alany, trgy, egyb vonzat vagy hatroz) valamint egymshoz viszonytott nyelvtani funkcijt (fejdependens) jelli az annotci.

1. bra: Az annotcis rendszer szintjei.

2.2 Eredmnyek
A f krdsek, melyekre vlaszt keresnk a kvetkezk: (a) Javthat-e szmotteven
a gpi metaforaazonosts teljestmnye, ha a metaforikus jelentst jelz kifejezst
nem csak egy-mondatos ablakon bell, hanem annl tvolabb is keressk? (b) Tall-

Szeged, 2011. december 12.

257

hat-e olyan nyelvtani szerkezet vagy konstrukci, amely jellemz a metaforikus


kifejezsekre, s amely figyelembevtele megknnytheti a metafork gpi azonostst? s (c) Megfigyelhetk-e tipikus eltrsek a fenti kt tekintetben klnbz szvegfajtk kztt?
Az elemzs sszegzett eredmnyeit a 2. tblzat mutatja. A mondaton kvli
metaforicitsra utal elemek (lsd 6. plda) alacsony tlagos valsznsge (10%)
arra utal, hogy nem javthat jelentsen az automatikus gpi azonosts teljestmnye
a keresablak tgtsval. A szvegtpusok kztt azonban van nmi klnbsg: a
beszlt nyelvet reprezentl filmfelirat korpuszban valamivel gyakoribb, 17%, a metaforikus mondatot megelzen elfordul metaforicits jelz elem (az rott s a beszlt szvegek kztti klnbsg statisztikailag szignifikns, Chi2 = 20.9, p = 0.002,
valsznleg nem a vletlen mve).

(6)

- s mondja csak Bondy r, hogyan jutott erre a gondolatra?


- Hogyan? vlaszolta G. H. Bondy szrakozottan. Tulajdonkppen hogy az igazat megvalljam, az reg van Toch vezetett r.

A nhny mondaton tvel metafora elemzsbl az is kiderl, hogy a


metaforicitst jelz elem nem felttlenl a metaforikus szt tartalmaz mondatot
kzvetlenl megelz mondatban jelenik meg, hanem ennl nagyobb is lehet a tvolsg.

2. tblzat: A metaforikus kifejezsek s a metaforicitst jelz nyelvi elemek egymstl val


tvolsga.

Metaforicits jelz
Nem azonosthat (%)
Mondaton kvl (%)
Mondaton bell (%)
sszes N (100%)

Regny
1%
6%
93%
147

National
Geographic
2%
8%
90%
62

Filmfelirat
9%
17%
75%
60

sszes
(tlag)
2%
10%
86%
269

sszesen 237 olyan metaforikus kifejezs fordul el a korpuszban, ahol a metafora
s a metaforicitsra utal elem egy mondatban jelenik meg. Az ilyen esetek tlnyom
tbbsgben (223 metafora), a kt elem egy tagmondaton bell tallhat. A 3. tblzat az egy tagmondaton bell elfordul metaforikus kifejezs s metaforajelz elem
egymshoz val nyelvtani viszonynak valsznsgeit mutatja. A fej-mdost viszony jelzs (7a), nvuts (7c), birtokos (7b), stb. szerkezetekre utal, az ige-vonzat
viszony pedig olyan tagmondatokra, ahol a metaforikus kifejezs az ige, a
metaforicitst jelz sz pedig az ige nyelvtani alanya (8a), trgya (8b) vagy ms eset
vonzata (8c). Az egyb kategriba azok a tagmondatok tartoznak, ahol a metafora s
a metaforicitsra utal kifejezs is valamilyen bvtmny.

258
(7a)
(7b)
(7c)
(8a)
(8b)
(8c)

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


... termkeny vita folyt ...
... egy rgi vita lngjt ...
... felgyelete al helyeztk ...
... sok trtnet kering ...
Ne keverj bele szemlyes rzelmeket.
... kockzatos ugrs volt az ismeretlenbe.

A szmokbl kiderl, hogy a British National Corpus elemzsi eredmnyeinek


megfelelen a metaforikus rtelemben hasznlt kifejezsek tbbsge a magyar korpuszban is ige, s a helyes rtelmezst segt kifejezs a bvtmnye. Az ilyen esetek
egy rszben maga a vonzatkeret knlja a metaforikus rtelmezst (pl. A Rka nem
ad a pontossgra), mg mskor a vonzat lexiklis tulajdonsgai a meghatrozak (pl.
...ugyangy sllyedne el a mi kultrnk).
3. tblzat: Az egy tagmondatban elfordul metaforikus kifejezsek s a metaforicitst jelz
nyelvi elemek viszonya.

Metafora -- Jelz
Fej -- Mdost (%)
Mdost -- Fej (%)
Ige Vonzat (%)
Egyb (%)
sszes egy tagmondaton bell N

Regny

Filmfelirat

23%
15%
58%
4%

National
Geographic
9%
9%
80%
2%

4%
4%
89%
2%

sszes
(tlag)
12%
10%
76%
3%

124

54

45

223

Az egy mondaton bell, de kt klnbz tagmondatban megjelen metafora s


metaforicits jelz prok tlnyom tbbsge beleillik a 3. tblzatban felsorolt grammatikai szerkezetek valamelyikbe, br egy-egy nehezebben elemezhet konstrukcit
is tallunk, mint pldul a (9) mondat.
(9) gy ltszott, rvidesen leomlanak az utols korltok, melyeket a vilgtengerek mind ez ideig az emberisg fejldse el emeltek.
Az automatikus gpi metaforaazonosts szempontjbl a fenti megfigyelsek anynyit jelentenek, hogy a vonzatkeretek s a vonzatszelekcis preferencik beptse a
rendszerbe elvben jelentsen javthatja a teljestmnyt, amint ezt a nemzetkzi tapasztalatok is mutatjk. A szmokbl az is kiderl azonban, hogy ms visszatr grammatikai konstrukcit is tallunk a metaforikus kifejezsek kztt: a metaforicitst jelz
kifejezs gyakran mdostja a metafora fejet, vagy megfordtva, a metafora mdostja
a jelz elemet. Br a nyelvtani konstrukci ms, a metaforicits elvi meghatrozsa
megmarad: a kollokcis-szelekcis preferencik megszegse jelzi a nem sz szerinti
rtelmezst. Tovbbra is kulcskrds marad teht, hogy milyen mdszerrel definilhatjuk a szelekcis preferencikat a pontos eredmnyek elrshez.

Szeged, 2011. december 12.

259

Bibliogrfia
1. Babarczy, A., Simon, E., Bencze, I., Fekete, I.: A metaforikus nyelvhasznlat korpuszalap
elemzse. In: Tancs,A., Vincze, V. (szerk): VII Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged. (2010)
2. Baumer, E.P.S., White, J.P., Tomlinson, B.: Comparing Semantic Role Labeling with Typed
Dependency Parsing in Computational Metaphor Identification. Workshop on
Computational Approaches to Linguistic Creativity (CALC-10) at HLT/NAACL (Los Angeles, CA) (2010)
3. Burgess, C., Lund, K.: Modelling parsing constraints with high-dimensional context space.
Language and Cognitive Processes Vol. 12 (1997) 177210
4. Deignan, A.: Metaphor and corpus linguistics. John Benjamins, Amsterdam/Philadelphia
(2005)
5. Deignan, A.: Corpus linguistics and metaphor. In: Gibbs Jr., Raymond W. (szerk.): The
Cambridge Handbook of Metaphor and Thought. Cambridge University Press, Cambridge
(2008) 280294
6. Fass, D.: met*: A method for discriminating metonymy and metaphor by computer.
Computational Linguistics Vol. 17, No. 1 (1991) 4990
7. Gentner, D., Holyoak, K. J., Kokinov, B. N. (eds): The analogical mind: perspectives from
cognitive science. MIT Press, Boston (2001)
8. Gleitman, L., Cassidy, K., Nappa, R., Papafragou, A., Trueswell, J.: Hard words. Language
Learning and Development Vol. 1 (2005) 2364
9. Heywood, J., Semino, E., Short, M.: Linguistic metaphor identification in two extracts from
novels. Language and Literature Vol. 11 (2002) 3547
10. Kintch, W.: Predication. University of Colorado Technical Report 99-02 (1999)
11. Kintsch, W.: Metaphor comprehension: a computational theory. Psychonomic Bulletin and
Review Vol. 7, No. 4 (2000) 257266
12. Kvecses, Z.: Metaphor: A Practical Introduction. Oxford University Press, Oxford (2002)
13. Lakoff, G.: The contemporary theory of metaphor. In: Ortony, A. (ed.): Metaphor and
Thought (2nd ed.). Cambridge University Press, Cambridge (1992)
14. Lakoff, G., Johnson, M.: Metaphors we live by. University of Chicago Press, Chicago, IL.
(1980)
15. Landauer, T. K., Dumais, S. T.: A solution to Plato's problem: the Latent Semantic
Analysis theory of acquisition, induction, and representation of knowledge. Psychological
Review Vol. 104, No.2 (1997) 211240
16. Martin, J.H.: A corpus-based analysis of context effects on metaphor comprehension. In:
Stefanowitsch, A., Gries, S.Th. (eds): Corpus-Based Approaches to Metaphor and
Metonymy. de Gruyter, Berlin (2006) 214236
17. Pradhan, S., Hacioglu, K., Ward, W., Jurafsky, D., Martin, J. H.: Support Vector Learning
for Semantic Argument Classification. Machine Learning Journal Vol. 60, No. 1 (2005)
18. Saffran, J. R. , Aslin, R. N., Newport, E. L.: Statistical learning of 8-month-olds. Science
Vol. 274 (1996) 19261928
19. Schutze, H.: Dimensions of meaning. In: Proceedings of Supercomputing Vol. 92 (1992)
787796
20. Schwaneflugel, P.J. (ed.): The psychology of word meanings. Lawrence Erlbaum
Associates, Hillsdale, NJ (1991)
21. Shutova, E, Sun, L., Korhonen, A.: Metaphor Identification Using Verb and Noun
Clustering. In: Coling 2010 (2010)
22. Shutova, E., Teufel, S.: Metaphor corpus annotated for source - target domain mappings.
In: Proceedings of LREC 2010. Malta (2010)

260

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

23. Simon, E., Szamarasz, V.: Preparations for a multilingual corpus analysis of metaphor.
Doktorandusz konferenciaelads. Budapest (2008)
24. Steen, G.: Towards a procedure for metaphor identification. Language and Literature Vol.
11 (2002) 1734
25. Vinson, D. P., Vigliocco, G.: Semantic feature production norms for a large set of objects
and events. Behavior Research Methods Vol. 40, No. 1 (2008) 183190
26. Wilks, Y.: Making preferences more active. Articial Intelligence Vol. 11, No. 3 (1978)
197223

VI.Szemantika

Szeged, 2011. december 12.

263

Az intenzionalits szmtgpes nyelvszeti kezelse


avagy a eALIS O szintfggvnye
Alberti Gbor1
PTE BTK Nyelvtudomnyi Tanszk
eALIS Elmleti s Szmtgpes Nyelvszeti Kutatcsoport
7624 Pcs, Ifjsg tja 6.
alberti.gabor@pte.hu

Kivonat: Kutatcsoportunk szeme eltt tovbbra is [5], [6] az a hossz tvon


kifizetd cl lebeg, miszerint az intelligens szmtgpes nyelvszeti clokat
(pl. fordts, kivonatols) az egymssal kommunikl humn interpretli elmk eALIS-modelljnek [1]-[3] implementlsra alapozva kvnjuk megvalstani. A jelen munkaszakaszban a mondatok (alkotta diskurzusok) intenzionlis jelentsrtegnek megragadst tztk ki, ami els lpsben az elmlet
knlta elvek s tletek [8] specifiklst s clorientlt formalizlst jelenti,
msodik lpsben pedig az erre pl implementcit. Dnten magyar lexikai
tteleken mutatom be az intenzionalits tetten rst s formlis megragadst, ami a legkisebb toldalkok komplex jelentstani analzistl, a legklnflbb szfajba es szavak elemzsn keresztl, nagyobb diskurzusegysgek interpretli informcillapotba val begyazdsa intenzionlis tnyezinek
feltrsig terjed. Megkzeltsnk kiemelked ernynek tartjuk, hogy nemcsak az zenetet alkot szavak puszta jelentsbl sszell informcit trjuk fel s implementljuk, hanem az zenet megbzhatsgt is, valamint az
zenet forrst jelent interpretl informcillapotnak relevns tnyezit, a
grice-i rtelemben vett idelis beszli karaktertl val eltrs elemzse rvn.
Kulcsszavak: reprezentacionalista dinamikus diskurzusszemantika, intenzionalits, informcillapot, md s modalits, aspektus

1 Bevezets
Minthogy kzptvon kifinomult gpi fordtsra s megbzhat informcikivonatolsra treksznk, ezttal egy olyan rvid tv projektet indtottunk, ami a poszt-montagovinus [11], (S)DRT-re alapozott [15] [9], eALIS nev [1] [2] reprezentacionalista dinamikus diskurzusszemantika megkzeltsben (2. szakasz) a diskurzusreferensek intenzionlis szintjeinek [8] a gyakorlati kidolgozsra irnyul, majd a
1 A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje tmogatta, a
konferencia-rszvtelt pedig a TMOP-4.2.1.B-10/2/KONV/2010/ KONV-2010-0002 (A Dl-

dunntli rgi egyetemi versenykpessgnek fejlesztse). rtkes megjegyzseikrt


elssorban a eALIS ESzNy Kutatcsoport kvetkez tagjainak szeretnk ksznetet
mondani: Kleiber Juditnak, Kroly Mrtonnak s Kilin Imrnek.

264

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

kapott reprezentcik implementlsra az egymssal kommunikl interpretli elmk komplex modelljben ahogyan azt a eALIS formlisan megragadja [4] ngy
bels fggvnye segtsgvel: a formulapt V-rl [6] [18], a horgonyz/azonost Drl [7], a dobozszint-kijell O-rl [8], [16] illetve a kurzor szerep N-rl van sz.
A projekt els felben teht megalapozand az implementcit a eALIS elmleti konstrukciit bizonyos nyelvi elemek csoportjaira alkalmaztuk, dnten magyar lexikai elemekre (3-4. szakasz). Olyan specifiklt formlis reprezentcikat dolgoztunk ki, amelyek pontosan megragadjk az rintett morfmk s szavak sszetett
intenzionlis karaktert, a md s modalits toldalkaira, az aspektusjell elemekre,
klnfle modlis (segd-) igkre, adverbiumokra, mellknevekre s partikulkra (pl.
bevesz, fog, valsznleg, lltlagos, is). A msodik projektszakaszban belefogtunk e
reprezentcik implementlsba a kommunikl interpretli elmk eALIS-modelljben [16]. A nyelvi elemek komplex intenzionlis karakterizlsnak a feladata, a
O szintfggvnynek ksznheten, vgs soron arra redukldik, hogy a DRS stlus
dobozstruktrrban minden egyes referenshez hozzrendeljnk egy J=P1,W1,i1,S1,
P2,W2,i2,S2, ..., Pk,Wk,ik,Sk vilgocska-indexet vagy mg inkbb egy *={J1, J2,...,
JN} indexhalmazt e dobozstruktrban elfoglalt pozcijuk (pozciik) / szintjk
(szintjeik) kifejezse vgett. Hamarosan kiderl, hogy a rendezettngyes-sorozatok e
* halmaza mibl is ll ssze, s hogy ez a matematikai konstrukci hogyan kpes
egysgesen megragadni a legklnflbb nyelvi kifejezsekben rejl intenzionalitst,
illetve a szvegkrnyezet s a kontextus adta intenzionlis hatsokat (5. szakasz).

2 A eALIS alapjai
Mindenekeltt felvzolom a jelen trgyalsunk szempontjbl relevns vonsait
annak a httrelmletnek, amelyen a szemantikai elemzsek, a DRS stlus
reprezentcik s a szmtgpes implementci lpsei nyugszanak.
A eALIS (REciprocal And Lifelong Interpretation System, azaz Klcsns s
lethossziglani Interpretcis Rendszer) olyan j poszt-montagovinus [11] elmletknt mutathat be, amely a koherens (kis-)diskurzusokk sszell mondatok
formlis jelentselemzst nyjtja [15] [9], kzppontjban az interpretlk lexikai,
szemlykzi s kulturlis / enciklopdikus tudsnak egy lethossziglani modelljvel,
mely az interpretlk egymsrl val klcsns tudst is megragadni hivatott. A
teljes (40 oldalas) defincis rendszer elrhet angolul az interneten ([1] http://
lingua.btk.pte.hu/realispapers), magyarul pedig egy idn megjelent knyvben [2]; az
elmlet klnfle aspektusairl s alkalmazsairl pedig mostanban szmos publikci ltott napvilgot [3]-[8] [16] [18].
Ami most igazn relevns, az a Kamp-fle DRS-ek jfajta felhasznlsa: az
interpretli informcillapotok lethossziglani reprezentcii gyannt lehet ket
alkalmazni. Nyilvn gigantikus dobozstruktrk addnak gy, de matematikai tartalmuk alig bonyolultabb, mint az eredeti DRS-ek; a begyazott dobozrendszerek viszont ezek a logikai mveletekre nzve nem zrt, vges informcitrak kszen
knlkoznak a Montague-fle formlis diskurzus-szemantikban hasznlatos (vgtelen) lehetsges vilgok [11] helyettestsre [8]; melyek megalapozottsga korntsem megfelel [19]. A korltlanul egymsba gyazhat dobozok segtsgvel

Szeged, 2011. december 12.

265

ugyanis meg tudjuk ragadni az interpretli hiedelmek, vgyak s szndkok (BDI)


nem ritkn egyms hiedelmeire, vgyaira s szndkaira vonatkoz szvevnyes
rendszert. Egy interpretl informcillapota teht vilgocskknak az emltett
vges informcitraknak egy olyan felcmkzett fastruktrjaknt definilhat, ami
gyakorlatilag az  elmjnek bels vilgnak a formlis modelljeknt szolgl,
amely rsze a teljes univerzum kls vilgot is tartalmaz modelljnek. Ami taln
meglep megkzelts, de semmi intuciellenes nincs abban, hogy az emberi elmket
is a vilg(modell) rsznek tekintsk.
Ezek alapjn a szimultn rekurzis defincis technika knlkozik a eALIS mint
episztemikus multigens rendszer formlis megfogalmazsra: = Wo, W, Dyn,
Tru, ahol az gensek szerept a vilgrl s azon bell (tipikusan!) egyms elmjnek tartalmrl folyamatosan informcit gyjt interpretlk jtsszk. Wo a klvilgot jelli, ami egy iddimenzit is tartalmaz teljes trtnelem, amire alaptva
mind (igazsgrtkel) statikus interpretcit definilhatunk (Tru), mind (DRS-pt /
a tudsgyarapodst felmr) dinamikus interpretcit (Dyn), klcsnhatsaikat is
[KGR] megragadva. A W egy fggvny, amelynek a W[i,t] rtke egy i interpretl t
idpillanatbeli informcillapott adja meg. A fentiek rtelmben ez egyfell a vilg
egy reprezentcijt jelenti, msfell nzve viszont a vilg(modell) egy rszlett;
amennyiben ez utbbi aspektust kvnjuk rzkeltetni, akkor bels vilgknt
utalhatunk a vilgocskk felcmkzett fastruktrjaknt szervezd W[i,t] konstrukcira. A modlis kifejezsek interpretcija a megfelelen felcmkzett vilgocskk tartalmra pl, a klvilg (vagy brminem lehetsges vilg) helyett.
Ez nem kevesebbet jelent, mint hogy a eALIS megkzeltsben a szoksos rtelemben vett intenzionalits egyszeren nem is ltezik: a (teljes vilgmodell rszt kpez elmk lersban szerepl) interpretli vilgocskk hordozzk mindazt az informcit (BDI, feltevsek, lmok), ami msutt a lehetsges vilgokra van bzva. gy is
fogalmazhatunk teht, hogy a eALIS rendszerben az interpretci mindig extenzionlis, csak a bzist kpez modellzna lehet tbbfle: a Wo klvilg vagy egy
W[i,t] interpretli belvilg valamely szektora, vagy ltjuk majd, mennyire gyakran!
a klvilg s tbb interpretl klnfle vilgocskinak valamilyen kombincija.
Mindemgtt az a hipotzis hzdik meg, hogy minden olyan (nyelvszeti) problma,
amelyrl Montague-t kvetve [11] azt szoks gondolni, hogy megoldsa a (vgtelen)
lehetsges vilgok kontrukcijrt kilt, megoldhat a (vges) vilgocskkra
alapozva.
Szemlltetsl e cikkben lljon a modlis horgonyzs azaz az eltr modlis kontextusokon tvel keresztreferencia makacs problmja [20:243]. Az albbi (1a)
ktmondatos kisdiskurzus msodik mondatban azt nem tudjk megmagyarzni, hogy
a vrkastly hatrozott kifejezs egyfell modlisan al van rendelve egy megelz
mondatban szerepl sszetevnek, msfell viszont a msodik mondat a maga egszben nem ll modlis alrendeltsgben. Ez a jelensg azrt jelent slyos problmt a
lehetsges vilgok elimincijn nyugv szemantikai megkzeltsben, mert az rintett mondat klnbz rszeinek interpretlsa klnbz elimincit ignyelne: a
vrkastly referencijt Mari hiedelmei alapjn kalkullhatjuk ki, mikzben a mondat
lltmnya hamisnak blyegzi az ppen e kalkulci alapjt jelent elfeltevst. A
eALIS megkzeltsben viszont, amik megfelelnek az eltr modlis kontextusoknak, azok egyazon vilgmodell rszt kpezik minthogy valamennyi interpretli belvilg egyazon vilgmodellbe tartozik. Referenseik sszehorgonyzsnak en-

266

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

nl fogva elvi akadlya nincsen, csupn a referensek kztti elrhetsg megfelel


felttelrendszert kell meghatrozni.
Az albbi (1e) reprezentci pldul egy idelis interpretl dinamikus interpretcijnak a relevns rszlett mutatja. Egy mondat (illetve diskurzus) dinamikus
interpretcija az interpretli informcillapot kiterjesztseknt definiltatik [1,
2.2.] [2, 4.2.]. Ami tulajdonkppen trtnik e kiterjeszts sorn, az nem ms, mint
hogy j szektorok plnek ki az interpretli informcillapotban, ksznheten a
bemeneti performancia (morfmrl morfmra val) interpretli feldolgozsnak: a
felcmkzett vilgocskk rszben rendezett szvevnye j blokkokkal gyarapodik.
Egy mondat statikus interpretcija (igazsgrtkelse) a klvilg bzisn vagy / s
potencilisan akr tbb interpretl bizonyos vilgocskinak a bzisn definiland. E
struktrk valamifle egyestst (Wo+6W[L,W]) kell a dinamikus interpretci kimenetvel (W[i,t]) sszevetni, s meghatrozni, hogy ltesthet-e kzttk elgsges
mintailleszts.
1. plda. MODLIS HORGONYZS MINT AZ INTENZIONLIS AZONOSTS EXTRM ESETE

a. Mari gy vlte, hogy a fk mgtt egy vrkastly van.


A vrkastly egy hatalmas tlgyfnak bizonyult.
b. ltalnos vilgocskaindex: J=P1,W1,i1,S1, P2,W2,i2,S2, ..., Pk,Wk,ik,Sk
c. Az r vilgocskaindexe: J= BEL,rMary,W,+, SEE,rMary,W,+
d. Az r vilgocskaindexe: J= SEE,rspeaker,W,+
e. A RELEVNS VILGOCSKK VIZULIS MEGJELENTSE:
BEL,rMari,W,+
SEE,rMari,W,+
e : pvr r
r
SEE,s,W,+
e: ptlgyfa r

Az (1a) pontbeli els mondat egy r referens bevezetsvel jrul hozz a diskurzusjelentshez, amelyhez az az informci kapcsoldik, hogy Mari vrkastlynak vlte
ltni az r dolgot (a W pillanatban). A msodik mondat egy lltst tesz valamirl,
ami minden bizonnyal a beszl vizulis megfigyelsn alapul.2
A DRT jl ismert dobozstruktrjnak [15] a eALIS formalizmusban a
vilgocskk felcmkzett rszbenrendezse felel meg [1, 1.2.4.] [2, 3.2.4.]. Az (1e)
reprezentcin fogom bemutatni e cmkket. Olyan rendezett ngyesek, amelyek a
kvetkez tnyezket adjk meg: a cmke modalitst (pl. hiedelem / vgy / szndk /
feltevs / megfigyelsi md), kzvetlen gazdjt, idpillanatt s polaritst (pozitv
2

Felvetdhet az olvasban, hogy a pontos formula-feltltse az olyan dobozoknak, mint az


(1e) vagy a majdani (3d) pontbeliek, nknyes elemeket is tartalmaz, amelyek nem felttlenl kompozicionlis mondatelemzsbl szrmaznak. A trgyals jelenlegi szakaszban erre
azt vlaszolom, hogy az nknyessg a relevns dobozstruktrt nem rinti. A cikk 5.
szakaszban pedig visszatrnk majd a krdsre egy tgabb perspektvbl.

Szeged, 2011. december 12.

267

/ semleges / negatv). Az (1e) pontban a fels dobozpr pldul azt az informcit


hordozza, hogy egy W idpillanatban Mari (rMari) gy hiszi (BEL), hogy egy e
eventualitst lt (SEE), melynek informcitartalma: egy r referens vrkastly (a pvr
prediktum a vrnak lenni lltst fejezi ki). Az als (egyetlen) doboz pedig azt az
informcit nyjtja, hogy a beszl (s) vizulis szleli egy W (ksbbi) pillanatban,
miszerint valami egy r diskurzusszerepl nem ms, mint egy tlgyfa. Az (1c-d)
formulk a Bevezetsben elrevettett (1b) ltalnos kpletnek megfelelen a
vilgocskaindexeket kzlik az r s az r referensek esetben. Az r indexe azt fejezi
ki, hogy egy Mari ltal W pillanatban ltni vlt dologrl van sz, mg az r indexe
egy, az adott beszl ltal W-ben ltott valamire utal.
Ez a formalizmus is megjelenti teht, hogy a lehetsgesvilg-szemantikk szmra
problematikus modlis horgonyzsi jelensg mirt is az: a vrkastly kifejezst tartalmaz msodik mondat a beszl perspektvjn nyugszik, s nem Marin; mgis sikeres a szban forg szingulris hatrozott fnvi szerkezet induklta antecedenskeress. Vajon ez hogyan magyarzhat a eALIS rendszerben?
Az unicits jelenti az antecedenskeress sikernek zlogt: lennie kell egy olyan
vilgocsknak, amelyben egy referens egyedi az adott vilgocskban abban a
tekintetben, hogy a szingulris hatrozott fnvi szerkezet hordozta llts csakis r
igaz. Az albbi (2a) kisdiskurzus msodik mondata pldul nem elgti ki ezt az
unicitsi kritriumot nem is jl formlt a diskurzus, pedig modliskontextusvltsrl sz sincsen.
Az elrhetsg jelenti az antecedenskeress sikernek msik tnyezjt. Az (1a)
problma precz megoldsa akkommodcit is ignyel, egy referensnek ugyanis
elrhetnek kell lennie egy msik referens szmra, amennyiben ssze kvnjuk horgonyozni ket azonos referencijuk kifejezse vgett [15]. A eALIS rendszerben
az elrhetsg a lehet legkzenfekvbb mdon definilhat a vilgocskahierarchira
alaptva: r1 elrhet r2 szmra, amennyiben r1 lejjebb helyezkedik el r2-hz kpest a
hierarchit matematikailag definil rszbenrendezs szerint [1, 2.2.3.6.] [2, 4.2.3.6.].
Milyen informci akkommodlst vltja ki a szingulris hatrozott kifejezs az
(1a) msodik mondatban? Azt, hogy a beszl elfogadja, hogy valban van egy jkora entits a fk mgtt. Ennek brzolsa gy fest a diskurzus interpretljnak
szemszgbl, hogy a diskurzus dinamikus interpretcijhoz tartoz relatv gykrvilgocskba ami a rszbenrendezs szerint a legals vilgocska bevezettetik egy r
referens. Ami teht mind r (a Mari fle vrkastly), mind r (a beszl tlgyfja)
szmra elrhet; r s r teht egyarnt odahorgonyozhat az r referenshez, megragadva ezltal koreferencilis viszonyukat, amelyet az brn a kzs u jelletk is
mutat.
Gyansan egyszernek tnhet persze az akkommodcihoz val folyamods. Gondoljuk azonban meg: a beszl szmra kzenfekv stratgit jelent a lehet
legkevesebbet (ki)mondani, s ehelyett annyit rbzni a hallgati informcillapotra, amennyit csak lehetsges(-nek gondol a beszl). Ahelyett, hogy a formlis
szemantikai elemzsek sorn a szavak ltal expliciten ki nem fejezett informcit
ignorljuk (mereven elhatroldva lerstl), inkbb arra kne trekedni, hogy az informcinak ezt az implicit rtegt is megragadjuk. A eALIS lethossziglani
megkzeltse lehetv teszi az implicit informci formlis kezelst.

268

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2. plda. UNICITS S AKKOMMODCI

a. Egy don vrosban megnztnk kt kastlyt. *A kastly gynyr volt.


b. Pter tegnap megnslt. + c. / d.
c. A pap roppant harsnyan beszlt. / d. ??A kutya nagyon hangosan ugatott.
A fenti (2b)+(2c/d) ktmondatos kisdiskurzus-varicik az akkommodci iskolapldjaknt szolglnak [14]. A mi kultrnkban egy pap kitntetett szereplje lehet
egy eskvnek, mg ugyanez nem mondhat el egy kutyrl. Mindazonltal az sem
zrhat ki, hogy egy interpretl a (2b)+(2d) diskurzust is kifogstalannak rtkeli
egy adott kontextusban: annyi szksges, pldul, hogy ott legyen az informcillapotban egy darabka tuds egy kutyrl, aki megklnbztetett szerepet
jtszik Pter letben. Fontos hangslyozni, hogy sem a pap az egyik diskurzus-variciban, sem a kutya a msikban nem jelenik meg az eskvt tartalmaz interpretli
informcillapot valamifle logikai kvetkezmnyrelcira val lezrsban; a kohzi teht a jelen mondatok tartalma s az interpretl ltal egykor akr korltlanul
rgen elsajttott tartalmak kztt lp fel. Ha teht szmot akarunk adni a (2c) / (2d)
folytatsok eltr megtlsrl, akkor aligha fordulhatunk a logikailag zrt lehetsges
vilgokhoz; a eALIS nyjtotta lethossziglani megkzelts gr megoldst. A (2c/d)beli szingulris hatrozott kifejezs olyan eljrst indt el a dinamikus interpretci
sorn, ami az interpretli informcillapot kiterjesztst eredmnyezi a diskurzuskezd (2b) mondat megrtst kveten; olyan kiterjesztst, amelyben lennie
kell(ene) egy vilgocsknak unicitst lvez pappal / kutyval. Az elbbi esetben a feladat vgrehajthat, akkommodlva a mi nyugati kultrnkra jellemz eskvre vonatkoz enciklopdikus informcit; az utbbi esetben pedig akkor, de csakis akkor hajthat vgre, ha Pterre vonatkoz megfelel szemlykzi informci akkommodlhat.
Az albbi (3a) pontban egy msik kontextust mutatok be, amelyben egy adott darabka informci (a felesge) gy hasznlhat fel egy szemly azonostsra, hogy kzben a beszdpartnerek szmra eltr modlis kontextusokhoz tartozik; mi tbb, mindketten tudvn tudjk, hogy hamis tartalmat hordoz. A eALIS ismt olyan megoldst knl, ami a relevns referensek bizonyos vilgocskkban val unicitsra pl. A
(3d)-ben a vilgocskablokkok azt brzoljk, hogy a felesge szingulris hatrozott kifejezs a vendg szmra ppen ezt jelenti: az egyetlen x szemly a kontextusban, akire
az igaz, hogy  (a vendg) a portstl azt remli, hogy az elhiszi, hogy az x illet a felesge, annak ellenre, hogy jl tudja az x-rl, hogy nem az; mg a ports szmra a kvetkez meghatrozs nyjtja az unicitst: az egyetlen y szemly a kontextusban, akire az
igaz, hogy gy gondolja, hogy a vendg azt remli tle, hogy elhiszi, hogy y a felesge
neki (mrmint a vendgnek), mikzben persze tudja, hogy nem a felesge. A (3b-c) az
imnt meghivatkozott indexek formlis lerst kzli, hogy vilgos legyen, mi a mgttes
matematikai tartalma az olyan vizulis megjelentseknek, mint a (3d)-beli, amire aztn a
kommunikl interpretlk eALIS-modelljnek implementcijt is fel lehet pteni.
3. plda. SIKERES REFERLS HAMIS INFORMCI SEGTSGVEL:

a. Egy frfi rkezik egy motelbe egy lny trsasgban, aki korntsem a
felesge, egy olyan orszgban, ahol a portsnak a jogszablyok rtelmben
nem lenne szabad egy szobban elszllsolni ket. Az persze nem ll a
ports anyagi rdekben, hogy ajtt mutasson nekik. Inkbb mindketten gy

Szeged, 2011. december 12.

269

emlegetik a lnyt, mintha a vendg felesge lenne, noha tisztban vannak


vele, hogy ez az elfeltevs hamis; st, mg azt is tudjk, hogy a msik is
tisztban van az igazsggal. A ports pldul ezt mondja: Remlem, zleni
fog a felesgnek ez a pezsg.

b. *e = { BEL,rvendg,W,-, DES,rvendg,W,+, BEL,rports,W,+ }


c. *e={BEL,rports,W,-,BEL,rports,W,+, DES,rvendg,W,+, BEL,rports,W,+}
d. A RELEVNS VILGOCSKK VIZULIS MEGJELENTSE:
rvendg gykrvilgocskja

rports gyvilgocskja
BEL,rports,W,+

DES,rvendg,W,+
BEL,rports,W,+
e: pfelesgeirlny rvendg
BEL,rvendg,W,-
e: pfelesgeirlny rvendg

DES,rvendg,W,+

ulny

BEL,rports,W,+
e: pfelesgeirlny rvendg
BEL,rports,W,-
e: pfelesgeirlny rvendg

3 Modlis mellknevek, adverbiumok, ktszavak, (segd-) igk


Az albbi (4) pldban egy a (3)-hoz hasonl elemzshez vezet jelensget szemlltetek. Az lltlagos mellknvrl van sz, amit Kiefer [17:188] szablytalanknt sorol
be, a (4b-c), (4d-e) tulajdonsgai alapjn, sszevetve a szablyos reg mellknvvel.
Megkzeltsnkben kzenfekven addik a szablyos s a szablytalan mellknevek kztti klnbsg: az elbbiek egy prediktummal jrulnak hozz a diskurzusreprezentcihoz (mint a ptlgyfa vagy a pfelesge a 2. szakasz elemzseiben), mg az lltlagos a vilgocskacmke modlis sszetevjt szabja meg. A beszl olyan informcival utal egy szereplre, amelynek igazsga mellett nem ktelezi el magt (4g), mikzben ugyanazon mondat lltmnynak tartalma mellett igen (4f). gy utal a szereplre: egy olyan szemly, akirl legjobb tudomsa szerint van, aki (r*) azt gondolja,
hogy km (4h). A (4b) anomlirl miszerint az lltlagos P-bl nem felttlenl kvetkezik a P a (4h) reprezentci szmot ad, hiszen deklarltan nincs elktelezve a beszl a P igazsga mellett (4g). Az lltmnyi szerep visszautastsa pedig
(4d) abbl addik, hogy az lltlagos hozadka nem egy plltlagos prediktum.
4. plda. LLTLAGOS: EGY SZABLYTALAN (AVAGY MODLIS) MELLKNV

a. Tegnap Mari tallkozott egy lltlagos kmmel.


b. Egy lltlagos km az km.
o nem (felttlenl) igaz
c. Egy reg km az km.
o felttlenl igaz
d. *Pl lltlagos. o rosszul formlt. e. Pl reg. o jl formlt
f. *e:tallkozik = { BEL,rspeaker,W,+ }
g. *s:km={ BEL,rspeaker,W,0,
h.
BEL,rspeaker,W,+,BEL,r*,W,+ }

270

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A segdigk hasonl modlis hatsmechanizmusra nmet pldkat mutatok be. Az


(5a-b) mondatokban egyarnt megvan az a jelentsfaktor, hogy a beszl elhatroldik
magtl az s llapotrl szl lltstl, miszerint Pter beteg volt (BEL,rspeaker,W,0; ld.
(5c-d)). Az (5c-d)-ben kzlt tbb ngyesbl ll formulk azt a beszli vlekedst
fejezik ki, hogy a beszl msnak (r*) tulajdontja az lltst (5c), illetve gy
gondolja, hogy az alany szndka elhitetni msokkal (r*) a betegsg fennllst (5d).
5. plda. A NMET SOLL S WILL: MODLIS SEGDIGK

a-b. Peter soll / will krank gewesen sein. Peter beteg volt. (de ld. (5c-d))
Peter soll / will

beteg van.PERF van.INF

c. *s:beteg/a. = {BEL,rspeaker,W,0, BEL,rspeaker,W,+,BEL,r*,W,+}


d. *s:beteg/b. = {BEL,rspeaker,W,0, BEL,rspeaker,W,+,INT,rPeter,W,+, BEL,r*,W,+}
A (6) plda kpletei egy olyan idelis beszl informcillapotnak (egyszerstett) modelljt lltjk fel, aki egy valsznleg-gel mdostott tartalm mondatot dolgozott fel. Az igazsgrtkels szempontjbl az els rdekessg az, hogy hamis
lltsrl akkor sem beszlhetnk, ha az s llapotrl (Mari otthon van) szl llts
maga a klvilg alapjn hamis. A (6a) mondat teht nem a klvilgrl ad informcit
(6b), hanem az idelis beszl informcillapotrl, mondjuk a grice-i rtelemben
[13], amire az SDRT is alapt [9]. A krdsre majd az 5. szakaszban visszatrnk. Az
elemzs a vilgocskacmke modlis sszetevjnek finomabb rtkskljt
alkalmazza: a BELgreat a hiedelem alacsonyabb fokozatra utal, mint a biztos tudsra
utal BELMAX. A (6c) formuli teht ezt kzlik: a beszl (s) valsznsti, hogy Mari
otthon van, s szndkban ll a hallgatjt (i) is errl a valsznsgrl meggyzni.
A beszl azt is sugallja a (6a) kzlssel, hogy nincs kzvetlen rzki tapasztalata
Mari otthon ltvel vagy ennek ellenttvel kapcsolatban, s hallgatjrl is ezt
gondolja (6d), illetve azt, hogy kzlsvel tudott valami jat mondani a hallgatnak
(6e), vagyis az nincs Mari otthon ltvel kapcsolatos biztos tuds birtokban.
6. plda. VALSZNLEG : EGY MODLIS ADVERBIUM

a. Mari valsznleg otthon van.


b. Irrelevns az interpretcinl, hogy s (M. otthon van) fennll-e Wo-ban.
c. *s:otthon-van ={ BELgreat, s,W,+, INT,s,W,+,BELgreat, i,W,+,
SEE, s,W,0, BELgreat, s,W,+,SEE, i,W,0,
d.
e.
BELgreat, s,W,+,BELMAX, i,W,0 }
A ktszkban is rejlik intenzionalits; amit a eALIS eszkztrval meg tudunk
ragadni formlisan, s a vilgocskaindexekre alapozva implementlhatunk is. A (7a)
vlaszbl pldul az is kiderl, hogy a beszlnek nincs biztos tudsa sem az s llapotra nzve (M. Delhiben van.), sem az s-re nzve (M. Bombayben van.) vagy
meg akarja tveszteni a hallgatjt (7b), azaz nem viselkedik idelis beszlknt.
Jobban belegondolva azt is megkrdjelezhetjk, hogy a klasszikus logika ltal javasolt s=ss informcirl lehet-e biztos tudsa a beszlnek (BELMAX), mikzben a
diszjunkcinak sem az s tagjrl, sem az s tagjrl nincsen biztos tudsa. Ezrt a
(7c) formulban olyan tudsmodellt lltottam fel, amelyben a vagy hatsa egy

Szeged, 2011. december 12.

271

BELamax hiedelemrtk vlasztsban mutatkozik meg: ez igen ers, de mgsem


teljes s kzvetlen bizonyossgra utal.
7. plda. INTENZIONALITS A KTSZKBAN

a.
b.
c.
d.

(Hol van Mari?) Delhiben vagy Bombayben.


*s:Delhiben ={BELMAX,s,W,0}; *s:Bombayben ={BELMAX,s,W,0}
*s:[s or s] ={BELamax,s,W,+}
Am Montag wusste ich nicht, dass/ob du am Sonntag in der Kneipe gewesen warst.
-On htf tud.MLT.E1 N nem, hogydass/ob te -On vasrnap -bAn a.DAT kocsma van.PERF van.MLT.E2

Htfn nem tudtam, hogy vasrnap a kocsmban voltl / voltl-e.


e. *s[dass]:kocsmban ={ BELMAX, s,W,0, BELMAX, s,W,+ }
f. *s[ob]: kocsmban ={ BELMAX, s,W,0 }
A fenti nmet pldapr (7d) a hogy-nak megfelel alrendel ktszk kztti
vlasztsrl szl, illetve ennek egyetlen rdekes mozzanatrl: mg ltszlag csupn
egy korbbi informcillapotrl tjkoztat a mondat, amelyben az s llapotrl szl
informci egy semleges hiedelemvilgocska-szektorban van (7e-f), az egyik ktszval a beszl elrulja, hogy egy ksbbi informcillapotban az s mr pozitv
tudsknt van jelen (7e).
A szakasz utols pldjban (8) egy olyan magyar ige szerepel, amely az interpretli informcillapotban rendkvl gazdag indexhalmazzal cmkz fel egy s eventualitst, ami egybknt (a megtlsem szerint preferlt rtelmezs szerint) a klvilgra
vettve hamis (8b). Egsz kis drma bontakozik ki az s informci vndorlst
nyomon kvetve vilgocskrl vilgocskra, az indexhalmazt ttekintve (8c-f). Egy W
pillanatban Mari nem gondolta gy, hogy Pl ns (s), egy ksbbi W pillanatban
viszont mr gy gondolta (8c). A vltozst egy (nem felttlenl ismert) r* intrikus
idzte el, aki tudja, hogy s hamis, s gy gondolja, hogy Mari sem hiszi igaznak
(8d). Arra vgyik (DES) viszont, hogy Mari gy higgye, hogy s igaz, s ezrt tenni is
akar (8e); az INT cmke a szndkra utal, amellyel a cmke kzvetlen gazdja (r*) sajt
belvilgnak komplementumt a belvilgban megfogalmazd vgyaihoz akarja igaztani mint lttuk (8c), sikeresen. Mi tbb (8f), Marirl azt sugallja a (8a) mondat,
hogy gy hiszi, az intrikus is nsnek gondolja Plt, s sejtelme sincs arrl, hogy
tudatosan be akarta csapni t.
8. plda. BEVESZ : EGY GAZDAG INTENZIONLIS MINTZAT IGE

a. Mari bevette, hogy Pl ns.


b. Az s llapot (Pl ns.) nem ll fenn Wo-ban.
c. *s:ns ={ BEL, rM,W,- or BEL, rM,W,0, BEL,rM,W,+,
BEL,r*,W,-, BEL,r*,W,-,BEL,rM,W,+ ,
d.
DES,r*,W,+,BEL,rM,W,+ , INT,r*,W,+,BEL,rM,W,+ ,
e.
BEL,rM,W,+,BEL,r*,W,+, BEL,rM,W,0,INT,r*,W,+,BEL,rM,W,+}
f.

272

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4 A md, a modalits s az aspektus intenzionalitsa a magyarban


zeltt szeretnk adni a magyar md- s modalitstoldalkok intenzionlis modellezsre irnyul alprojektnk eredmnyeibl. Az albbi tblzat nhny mlt idej
kombinci (egyszerstett) elemzst mutatja be.
Minden kombinci (legalbb) ktrtelm. A beszl (s) vagy valaki ms (r*) hiedelmeit, vgyait s/vagy szndkait fejezi ki (BEL, DES, INT), egy modalitson bell
finomabb intenzitsi sklt is megkvnva (MAX > amax > great > med). A BELMAX
cmke pldul a teljes bizonyossgra utal. Az INT,r*,S cmketpus az r* szemly
utastst (S=+; ld. c., g.), tiltst (S=-) vagy engedlyt (S=0; ld. a., e.) jelzi, a cmke
polaritsi sszetevjtl fggen. A BEL-PART modlis tnyez egy e eventualits
rszleges tudsnak a megragadsra hivatott (l. a b., d. episztemikus olvasatokat);
amin nem bizonytalan tudst rtek, hanem olyan informcidarabok ismerett,
amelyek a eALIS lethossziglani interpretli bels vilgaiban az e tudsdarabhoz
asszocildnak mintegy tanskodva az e fennllsa mellett. A hazamehetett alaknl
pldul a tblzatban ez a kt intenzionlis elemzs szerepel: a. a beszl szerint
valaki hazament, mert engedlyt kapott erre (nyilvn az is vizsgland, hogy r* az
engedlyezshez megfelel pozciban van-e); b. meglehetsen valszn, hogy
valaki hazament, mert vannak emellett tanskod jelek (nincs ott az irodjban, st a
kabtja s az esernyje sincs ott, elmlt mr 1810, stb.).
pMd Modalitso
-hAt

hazamegy + -(Vt)t
hazamehetett
b. BELmed,s,+
a. INT,r*,0
BELMAX,s,+
BEL-PARTgreat,s,+
haza kellett menni(e) / menni

kell
c.
INTMAX,r*,+
BELMAX,s,+

d. BELamax,s,+
BEL-PARTMAX,s,+

hazamegy + -(Vt)t + vol- + -nA


hazamehetett volna
e. INT,r*,0
f. DESgreat,s,+
BELMAX,s,-
BELMAX,s,-
haza kellett volna menni(e) /
menni
g. INTMAX,r*,+
h. DESamax,s,+
BELMAX,s,-
BELMAX,s,-

1. bra. A magyar md s modalits mlt idej alakjainak modlis elemzse.

Hasonlkppen modellezhetjk az aspektusok intenzionlis karaktert. Vegyk


pldul grcs al a (9a)-beli progresszv vlaszmondatot! A progresszivitsbl addan fellp egy Imperfektv Paradoxonknt emlegetett jelensg [10:147]: nem dnthet el a mondat igazsgrtke pusztn a klvilgi tnyek alapjn. Csak a szban forg nap 1810 eltti idszaka tesztelend externlisan, vagyis a hazautazsi esemny kumulatv szakasznak egy kezdintervalluma (9c). A teljes esemny lefolysrl a beszl nem garantl biztos tudst (9b), csupn ers valsznsget sugall (9b). A 1810
utni idszakra vonatkozan teht internlis informci ll rendelkezsre: egyrszt
az emltett beszli valsznsts, ami a dolgok szoksos rendjnek ismeretbl
fakadhat (9b), msrszt (legalbbis preferltnak hat egy ilyen rtelmezs) az alanynak
tulajdontott szndk. gy ltom egybknt, hogy a (9b-d) intenzionlis karakter egy
az egyben a jv id jellemzsre is alkalmas: a (9e) mondatot is gy rtelmezzk (egyik jelentsben), hogy az esemnyrl biztos tuds persze nincs, de valszn, hogy
lefolyik (9b), mert a beszl rendelkezsre llnak errl tanskod jelek (9c), s

Szeged, 2011. december 12.

273

preferltan az alany szndka is megvan (9d). A progresszv teht vgs soron nem
ms, mint jv a mltban.
9. plda. A MAGYAR PROGRESSZV ASPEKTUS S A JV ID

a. (Mit csinlt Pter 2003. mjus 4-n 1810-kor?) Utazott (ppen) haza.
b. *e:hazautazik ={ BELMAX, s,W,0, BELgreat, s,W,+,
BEL-PARTMAX, s,W,+
c.
INT,rPeter,W,+ }
d.
e. Pter haza fog utazni.

5 Az informci begyazsa az interpretli informcillapotba


Az elz kt szakaszban klnfle lexikai egysgek intenzionlis karakternek a hatst trgyaltam a dinamikus interpretci kimenetre. Vannak azonban pragmatikai hatsok is.
Kzenfekv pldul, hogy az irnia egyszeren megfordtja bizonyos vilgocskk
polaritsi cmkjt (S=-). Ms esetben megsejthet, hogy a beszl blffl; ilyenkor a
megfelel vilgocska polaritsa: S=0. Nem nyertnk volna ht semmi informcit?
Dehogynem! Csak nem a klvilgrl, hanem a beszl sanda szndkrl... hogy
pldul elhiggynk valamit, ami taln nem is gy van; vagy hogy elhitesse velnk,
hogy  tud valamit.
Elmleti htternk lethossziglani jellegbl addan kzenfekv lehetsg
knlkozik a megbzhatsgrl modellt alkotni akr az informcinak, akr az interpretl genseknek. ssze kell vetni egy informcidarabra nzve klnbz interpretlk intenzionlis mintzatait, illetve rgztett interpretlkat tekintve azok
intenzionlis mintzatait klnfle eventualitsok vonatkozsban. A legegyszerbb
alkalmazand elv pldul az, hogy megbzhatbb az az informci, ami fggetlen forrsokbl ugyanabban a formban rkezik, s ez az egybeess a forrsok megbzhatsgt is nveli. Ilyen elveknek kell irnytaniuk az informci ramlst az idelis interpretl rszbenrendezett vilgocskahlzatban, illetve annak meghatrozst,
hogy az informciforrsknt szolgl gensek milyen mdon trnek el az idelis
beszl default kptl, ami a lexikai intenzionlis hatsok trgyalsa sorn (3-4.)
mindig a kiindulpontunk volt.
Mivel a eALIS a kommunikciban ll interpretlk lethossziglani s klcsns multigens rendszere, klnbz krdstpusok intenzionlis modellezsre
is kszen knlkozik. Az albbi (10a-e) pontokban a kiegsztend krdsekre vonatkozan vzolok fel egy vilgocskaindexekre pl elemzst. Az r* referens Pl (adott
idpontbeli) felesgeknt hatrozdik meg a (10b)-ben. A szintn r*-rl szl e*
eventualits pedig a (10c) pontban a (10d)-ben meghatrozott vilgocskamintzatban
jelenik meg, lehorgonyzatlan (azonostatlan) p* prediktummal. A krd formbl
addan az e* olyan, hogy (10d) a beszl nem tudja eldnteni az igazsgrtkt, de
szndkban ll elrni ezt; valsznsti tovbb, hogy a hallgat birtokban van a
relevns tudsnak, s remli, hogy hajland is lesz megosztani vele. A (10c)-beli p*
lehorgonyzatlansgnak jelentsge a kvetkez: a formlis pragmatikai kezdemnyezsek [9] sarokkvnek tekinthet Maximalizld a diskurzuskoherencit! elv

274

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

arra fogja ksztetni a hallgatt, hogy a p* prediktumreferenst a lehet leghatkonyabban horgonyozza le. A vlasz hatkonysgt nyilvn a krdez informcillapotnak nvekmnyre alapozva hatrozhatjuk meg. A (10e.1) vlasz pldul
nyilvn a legkedveztlenebb, mert aligha nyjt informcinvekmnyt a krdez
meglv enciklopdikus tudshoz kpest. A 3. vlasz pedig hatkonyabb a 2.
vlasznl, akkor s csakis akkor , ha a krdez ismeri a megnevezett szemlyt; egy
azonostott entits referensnek a megtallsa ugyanis elrhetv teszi mindazt a
roppant informcitmeget, ami e referenshez kapcsoldott lethossziglan.
10. plda. A KRDS KRDSE

a.
b.
c.
d.
e.

f.
g.

h.
i.
j.
k.

Ki volt Pl felesge akkoriban?


e: pfelesge t r* rPl
e*: p* t* r*
*e* ={ BELMAX,s,W,0, INT,s,W,+,BELMAX,s,W,+ ,
BELgreat,s,W,+,BELMAX,h,W,+ , DES,s,W,+,INT,h,W,+,BELMAX,s,W,+ }
1. Egy n.
2. Egy pincrn a kedvenc indiai ttermnkbl.
3. Az elbvl Shabana Singh.
Ki is volt Pl felesge akkoriban?
*+e* ={ BELgreat,s,W,+,BELMAX,s,W,+ ,
BELamax,s,W,+,BELMAX,h,W,+ ,
BELgreat,s,W,+, BELamax,h,W,+, BELMAX,s,W,+ }
Tunteeko Pekka Marjan / Marjaa? Pter ismeri Marit?
ismer-E3-Q Pter Mari-ACC / Mari-PART (e: pismer t rPter rMari)
*e= BELMAX,s,W,0, BELgreat,s,W,+/-, INT,s,W,+,BELMAX,s,W,+/-
... s PTERT is hvtuk meg!
*e:[Pter az...] ={ BELMAX,s,W,+, INTMAX,s,W,+,... }

A fenti (10f) plda jabb csodlatos megnyilvnulsa egy piciny nyelvi elem
sokrt intenzionlis hatsnak. Lelkesedsem trgya ezttal az is szcska diskurzuspartikulaszer szerepben. A (10g)-ben foglaltakat teszi hozz a krdsz
szemantikai-pragmatikai kontribcijhoz (10d): a beszl biztos benne, hogy egykor
birtokban llott az e* tuds (W<W), s majdnem biztosra veszi, hogy a hallgatja
most is tudja; preferltnak rzem tovbb azt az rtelmezst, hogy a krdez gy vli,
hogy hallgatja tudja rla, hogy egykor birtokban llott neki is az e* informci (az
egytt tlttt rgi szp idkben...).
Az eldntend krds annak jelzse, hogy a beszl sem abban nem biztos, hogy
egy bizonyos e eventualits igaz, sem abban, hogy hamis, s szeretne biztosat tudni. A
(10h) finn plda annyiban klnleges, hogy a trgy esetjellse (Akkuzatvusz /
Partitvusz) arrl is informcit ad (10i), hogy a krdez pozitv vagy negatv vlaszt
vr-e (el).
Az is szcska egy msik sajtos jelentshozadkval zrom az intenzionlis
mintzatok elemzst. A fenti (10j) fkuszos mondat csak olyan diskurzusban
hangozhat el, ahol eltte ugyanaz a tartalom ugyanolyan fkuszkonstrukcival mint
szndk (10k) fogalmazdott meg.

Szeged, 2011. december 12.

275

Hivatkozsok
1. Alberti, G.: eALIS: An Interpretation System which is Reciprocal and Lifelong. Workshop
Focus on Discourse and Context-Dependence (16.09.2009, 13.30-14.30 UvA, Amsterdam
Center for Language and Comm.). http://www.hum.uva.nl/aclc/ events.cfm/C2B8E596-1321B0BE-6825998CFA642DB2, http://lingua.btk.pte.hu/realispapers (2009)
2. Alberti, G.: eALIS: Interpretlk a vilgban, vilgok az interpretlban. Akadmiai Kiad,
Budapest (2011)
3. Alberti, G.: eALIS, avagy a szintaxis dekompozcija. ltalnos Nyelvszeti
Tanulmnyok Vol. 23. (szerk. Bartos H.) (2011) 5198
4. Alberti, G., Kroly, M., Kleiber, J.: The eALIS Model of Human Interpreters and Its
Application in Computational Linguistics. In: Cordeiro, J., Virvou, M., Shiskov, B. (eds.):
Proceedings of ICSOFT 2010, 5th International Conference on Software and Data
Technologies, Athens, Greece. Vol. 2. SciTePress Portugal (2010) 468474.
5. Alberti, G., Kroly, M., Kleiber, J.: From Sentences to Scope Relations and Backward. In:
Sharp, B., Zock, M. (eds.): Natural Language Processing and Cognitive Science.
Proceedings of NLPCS 2010. SciTePress, Funchal, Madeira, Portuglia (2010) 100111
6. Alberti G., Kilin I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok avagy a
eALIS V fggvnye. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes
Nyelvszeti Konferencia, MSZNY 2010. SzTE Informatikai Tanszkcsoport.
http://www.inf.u-szeged.hu/mszny2010 (2010) 113126
7. Alberti, G.: The Grammar of ReALIS and the Implementation of its Dynamic Interpretation.
Informatica Vol. 34, No.1 (2010) 103110
8. Alberti, G., Kleiber, J.: Where are Possible Worlds? (Arguments for eALIS). SinFonIJa4,
Budapest (2011)
9. Asher, N., Lascarides, A.: Logics of Conversation. Cambridge Univ. Press (2003)
10.Dowty, D. R.: Word Meaning and Montague Grammar. D. Reidel Publishing Company,
Dordrecht (1979)
11.Dowty, D. R., Wall, R. E., Peters, S.: Introduction to Montague Semantics. D. Reidel
Publishing Company, Dordrecht (1981)
12.Farkas, J.: A produktv finn kpzsek. Alberti, G. (szerk.): Vonzatok vonzsban. PTE BTK
Nyelvtudomnyi Doktori Iskola (2012)
13.Grice, H. P.: Logic and Conversation In: Cole, P., Morgan, J.L. (eds.): Syntax and
Semantics Vol. 3: Speech Acts. Academic Press, New York (1975) 4158
14.Klmn, L.: Deferred Information: The Semantics of Commitment. Klmn, L., Plos, L.
(eds.): Papers from the Second Symposium on Logic and Language. Akadmiai, Budapest
(1990) 125157
15.Kamp, H., van Genabith, J., Reyle, U.: Discourse Representation Theory. In: Gabbay, D.,
Guenthner, F. (eds.): Handbook of Philosophical Logic, Vol. 15.Springer-Verlag, Berlin
(2011) 125394.
16.Kroly, M.: Interpretci s modalits avagy a eALIS O-fggvnynek implementcija
fel. In: Tancs A., Vincze V. (szerk.): VIII. Magyar Szmtgpes Nyelvszeti Konferencia,
MSZNY
2011.
SzTE
Informatikai
Tanszkcsoport.
http://www.inf.uszeged.hu/mszny2011 (2011) 284296
17.Kiefer, F.: Jelentselmlet. Corvina, Budapest (2000)
18.Kilin, I.: Trgymodell vltozatok a eALIS nyelvi elemzshez. In: Tancs A., Vincze V.
(szerk.): VIII. Magyar Szmtgpes Nyelvszeti Konferencia, MSZNY 2011. SzTE
Informatikai Tanszkcsoport. http://www.inf.u-szeged.hu/mszny2011 (2011) 276283
19.Pollard, C.: Hyperintensions. ESSLLI 2007, http://www.cs.tcd.ie/esslli2007 (2007)
20.Roberts, C.: Anaphora in Intensional Contexts. In: Lappin, Sh. (ed.): The Handbook of
Contemporary Semantic Theory. Blackwell, Oxford (1996) 215246

276

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Trgymodellvltozatok a eALIS nyelvi elemzshez


Kilin Imre
eALIS ESzNyK / PTE TTK Informatika Tanszk
7624 Pcs, Ifjsg tja 6.
kilian@gamma.ttk.pte.hu

Kivonat: Forrsnyelvek clnyelvre talaktst (pl. fordtprogramokban) a kt


metamodell kztti talaktsi szablyrendszerknt rtelmezhetjk. A eALIS
elmlet (http://lingua.btk.pte.hu/realispapers) esetben ez a eALLan forrsnyelv, s a vlasztott Prolog nyelv trgymodellvltozatok kztti lekpezs
megadst jelenti. Szvegfeldolgozsi clokra Prolog nyelven ltalban a relcis trgymodellt alkalmazzk, mert ez a nyelv jellegbl fakadan a szvegnyelvtani szerkezet relcit nemcsak az adott (felismersi) irnyban, hanem
fordtva, szveggenerlsi irnyban is kpes kiszmtani. Hatkonysgi okokbl azonban mg tovbbi trgymodellvltozatokat is rdemes szmtsba venni.
A kvetkeztetses trgymodell esetben az elemzett szveg szavai tnylltsokk, a eALIS lexikonban brzolt nyelvtani informcik szablyokk kpzdnek le, amelyek egy cllltsbl meghva ellltjk az elemzett szveg
nyelvtani szerkezett. A Prolog logikn tli eszkzeinek hasznlatval a deduktvan megvalstott elemzsi feladat abduktvan megvalstott szveggenerlss alakthat. A eALIS lexikonban trolt nyelvtannak, s az elemzsi folyamat aszinkron jellegnek a Prolog visszafel kvetkeztet stratgija helyett
azonban jobban megfelel egy elre halad modell. A cikkben trgyalt
Contralog modell a Prolog elre halad kiterjesztse, amellyel magyar mondatok eALIS elmlet szerinti elemzst mutatjuk be.

1 eALLan: a eALIS nyelvler nyelve


Termszetes nyelvi megvalstsok egyik sarokkve a nyelvi informcik lersi
mdja. Ezt clszeren valamilyen nyelvler formlis nyelven tehetjk meg. Ha csupn a szveges kinzetet megad valamelyik nyelvtani formalizmusra (pl. BNF) szortkozunk, akkor a kinzet oltrn felldozzuk az adatszerkezetet s annak az rtelmezst. Objektumorientlt rendszerekben a formlis nyelv metamodelljt pl. UML-ben
adjuk meg, amely a nyelv elemeit grafikus mdon rgzti, s amelyhez az rvnyessgi szablyokat az OCL megszorts-ler nyelvvel adhatjuk meg. A mi esetnkben a
Prolog megvalsts miatt a eALLan a Prolog egy rsznyelve, vagyis az alapnyelvtan egyfajta alkalmazi megszortsa. Mivel a Prolog tpustalan, ezrt erre a clra egy
Prolog tpusler nyelvkiegsztst (eALType) valstottunk meg.
A eALLan nyelvler nyelven a rendszer teljes lexikalizmusa miatt a lexikonbli
elemekhez rendelhet nyelvtani informcik rgztsnek szablyait lehet megadni. A
nyelv alapveten jegyszerkezetes, egy jegyszerkezet mtrix megadsa alapveten

Szeged, 2011. december 12.

277

Prolog listban, JEGY:RTK prokkal lehetsges. Ehhez az ltalnos lershoz


kpest a kvetkez bvtseket s nyelvtani knnytseket (syntactic sugar) tesszk
lehetv:
x Ha egy jegy rtke szintn sszetett, s a jegygeometriban megadott sszes
jegyet tartalmazza, akkor a jegynevek megadsa nem ktelez, s a Prolog
listakifejezs helyett kerek zrjelekkel teljes Prolog kifejezs is megadhat.
Pl. agr:[pers:1,nr:sing] helyett agr(1,nr) is rhat.
x Azonos rtkek (KIG sszefut lek) jellsre (fordtsidej egyests)
Prolog
vltozkat,
s
a
=/2
funktort
hasznljuk.
Pl:
PRED=desire(SUBJ,OBJ).
x A fordtsidej egyests mellett a :=/2 funktorral a jobboldal kirtkelsre s futsidej egyestsre is lehetsget adunk. Pl. az
RDES1:=[argn(ord(-7,nei),cat(+2,noun),
case(+2,nom)),
argd(cat(+7,gqd))]
kifejezs futsidben egyesti a Prolog vltozt, mint referenst a szvegben megfelel helyzetben tallt alanyeset, fnvvel gy, hogy a szerkezet
ltalnostott kvantordeterminns szerepben van.

2 Trgymodell: Horn-klzok
A trgymodellek lershoz rdemes rgtn az talaktsi szablyrendszert is hozzkapcsolni. Ha a szigor objektumorientltsg elvei mellett maradunk, akkor ez gy
trtnik, hogy a forrs- s a clkrnyezet metamodelljt kapcsolatnyalbbal kapcsoljuk ssze, melyet az talaktsok szablyait rgzt OCL-megszortsokkal ltunk el.
Br most nem kvnjuk az UML modelleket bemutatni, a metamodellek s az talakt relcik fogalma a modellez eszkztl fggetlen, s a Prologhoz ktd krnyezetben is alkalmazhat gy, hogy a forrs- s clkrnyezet fogalmait, valamint a
kzttk megvalstand talaktsi relcit adjuk meg.
A clkrnyezet a Horn-klzok osztlya. Ez az elsrend logika azon rszosztlya,
amelyekben a klzok kvetkezmnyoldaln tbb literl diszjunkcija helyett legfeljebb egyetlen literl llhat.
p1; p2; pk:- n1, n2,, nl.
A rszosztly azrt figyelemre mlt, mert a Prolog programozsi nyelv is ezt
hasznlja gy, hogy a kvetkeztetseket a httrben egy rgztett stratgij, rezolcis ttelbizonyt vgzi. A visszafel halad, lineris-, egysg- s alaprezolcis
stratgia ttelbizonytsra gyengcsknek tnik, de cserbe a nyelv nem logikai eszkzeivel meglehetsen rugalmas s magasszint mkds rhat el.
A eALIS cljaira a Horn-klzokra alapul relcis s kvetkeztetses trgymodellt is, ez utbbira pedig a Prolog eredeti, visszafel halad, ill. a Horn-klzok jonnan kifejlesztett, elre halad rtelmezsre alapul trgymodellt is kidolgoztuk.

278

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2.1 Relcis trgymodell


A Horn-klzok relcis trgymodell szerinti alkalmazsakor egy program bemenet/kimenet relcijt egy adott Prolog szably szmtja ki. Ha egy relci tbb rszrelcibl van sszetve, akkor azokat a szably felttelben nevezzk meg gy,
hogy a be- s kimen paramterek egymshoz lncszeren kapcsoldnak. Az ilyen
szerep vltozkat a Prolog programozk akkumultorprnak nevezik.
relci(BE,KI):rsz1(BE,TMP1),rsz2(TMP1,TMP2),,rszN(TMPN-1,KI).
A Definite Clause Grammar (DCG) formalizmus relcis trgymodell szerinti
nyelvtani elemzsekor a <bemenet-elemzetlen szveg> prt hasznljuk akkumultorknt, a tetszleges argumentumszerkezethez az akkumultorprt pedig a DCG elfordt maga hozza ltre.
nonterm()nonterm1(),nonterm2(),,nontermN().
nonterm(,BE,KI):nonterm1(,BE,TMP1),nonterm2(,TMP1,TMP2),,
nontermN(,TMPN-1,KI).
A megolds egyik htrnya: a relcik nemdeterminisztikus kirtkelse miatt az
eredmnyrelci szmossga legrosszabb esetben az egyes rszrelcik szmossgnak a szorzata is lehet. Ha viszont a szorzatban az els rszrelci szmossga nagyobb, akkor a nemdeterminizmus visszalpses kezelse miatt egszen az els relciig tart, n. mly visszalps trtnik.
A eALIS relcis trgymodell szerinti megvalstsban a bemen paramter az
elemzend szveg, a kimen pedig a szvegnek megfelel logikaikifejezs-szerkezet.
rtelmes rszrelcik lehetnek: szalaktani, nyelvtani-szemantikai elemzs, ill. pragmatika. Ilyen rtelmezs mellett ugyanazt a szablyt hasznlhatjuk elemzsre, (ha
hvskor TEXT adott, LOGEXPR viszont vltoz), illetve szveggenerlsra is (ha
hvskor TEXT vltoz, de LOGEXPR adott).
text2logic(TEXT,LOGEXPR):morphology(TEXT,MORPHLIST),
syntaxSemantics(MORPHLIST,PUREEXPR),
pragmatics(PUREEXPR,LOGEXPR).
Sajnos a relcis trgymodell s az ezzel sszefgg Prolog DCG formalizmus a
mi cljainkra nemigen alkalmas. A eALIS krnyezeti felttelei (pl. vonzatok bizonyos tvolsgban) csak gy lennnek elemezhetk, ha azokat a bemen szvegben
elre-htra mozgssal ellenriznnk. Ennek a megvalstsa is krlmnyes, s komoly hatkonysgi agglyokat is felvet.
A eALIS megvalsts clkitzse a szveg s a diskurzusreprezentci kztti
relci kiszmtsa. Ez (Prolog-szer rtelmezsben) mindkt irny kapcsolatot
jelenti. Ha a szveg adott, akkor a program azt a reprezentcis kifejezst szmtja ki,

Szeged, 2011. december 12.

279

amely az adott logikai rendszerben s az interpretl bels tudatllapott ler tudsbzisban (ontolgiban) kirtkelhet, bizonythat, vagy hozzvehet a tudsbzishoz. Az ellenkez irnyban: ha a tudskezel sszetev ltal (pl. egy krdsre adott
vlaszknt) egy logikai kifejezst kapunk, akkor a relci a szveg kpt lltja el.
A megolds msik htrnya, hogy a szveg legalbb egy bekezdsnyi, de esetleg
akr tbb oldalnyi hossz is lehet. Ez egyrszt a feldolgozs idignyt behatrolja,
msrszt a hossz bemen adatokon az igen mly visszalpsek cskkenthetik az
elemzs hatkonysgt. Harmadrszt a szlssgesen sszetett adatszerkezetek sok
Prolog-megvalsts fizikai hatrait is feszegethetik (pl. veremtlcsordulst okozhatnak).

2.2 Kvetkeztetses trgymodell Horn-klzokon


A kvetkeztetses trgymodell esetben a bemen szveget nem listaparamterknt,
hanem tnylltsokknt brzoljuk. A cikkben felttelezzk, hogy a szalaktani
elemzs mr megtrtnt, s mr csak a nyelvtani-szemantikai elemzs van htra.
word(peter,1,1,noun('Pter',proper,nom,sing-3)).
word(peter,1,2,verb('hasonlt',[], decl, pres, sing-3)).
word(peter,1,3,noun('az',pro(point),sub,sing-3)).
word(peter,1,4,art(def,cons)).
word(peter,1,5,adj('vrs')).
word(peter,1,6,adj('ukrn')).
word(peter,1,7,adj('fut')).
word(peter,1,7,noun('bajnok',common,sub,sing-3)).
A eALLan szablyok kvetel-knl mechanizmusa szinte knlja magt arra,
hogy Horn-klzokk kpezzk le ket. Az albbi klz pl. a hasonlt ige s ktelez
vonzatai kztti kapcsolatot rja le.
regArg2(ID,S,XV,verb('hasonlt',[],MODE,VTIME,AGR),
XS,noun(SUBJ,SKIND,nom,AGR),-7,
XO,noun(OBJ,OKIND,sub,OAGR),7):verb(ID,S,XV,'hasonlt',[],MODE,VTIME,AGR),
gqdet(ID,S,XS,SUBJ,SKIND,nom,AGR), order(XV,XS,-7,nei),
gqdet(ID,S,XO,OBJ,OKIND,sub,OAGR), order(XV,XO,7,nei).
Szintn Horn-klzok rjk le a eALIS V (sigma) fggvnynek megfelel
eventulis kifejezsek rszkifejezsekbl trtn felptst is.
sigma3(ID,S,XV,TIME,SUB,OB,CLAUSE):regArg2(ID,S,XV,verb('hasonlt',[],_MODE,VTIME,_AGR),
XS,SUBJ,_PRS,XO,OBJ,_PRO), {TIME =.. [VTIME,_]},
sigma3(ID,S,XS,TIME,SUB,CLAUSE,
(desire(TIME,SUB,OB):-CONS)),
sigma3(ID,S,XO,TIME,OB,CONS).

280

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

A fenti llts eredmnyekppen a mondat logikai alakjaknt a kvetkezket kapjuk. (A ketts implikci egy egyszer norml program segtsgvel talakthat
felttelek konjuncijv.)
CLAUSE=((similar(pres(T),SUB,OB):run(T, OB),ukrain(T, OB),
red(T, OB),champion(T, OB)):name(T,SUB,Peter))

2.3 Visszafel halad trgymodell (Prolog)


A visszafel halad trgymodell magt a Prolog rtelmezt hasznlja kvetkeztet
motorknt gy, hogy az ltalnos kvetkeztetses trgymodellt hasznlja. Ebben a
megkzeltsben az elemzst a logikai alakra vltozknt hivatkoz clllts hvsval indtjuk. Ha visszavezethet a clllts a szveget rgzt tnylltsokra, akkor a
mondat elemezhet volt, s a kzben elvgzett vltozhelyettestsekbl kiaddik a
cllltsban szerepl logikai alak is.
A megkzelts egyik htrnya, hogy a bizonytshoz hipotzist kell fellltani, ez
gyakorlatilag a clllts. A bizonyts idpontjban mr minden tnynek ismertnek
kell lennie a rendszer nem alkalmas csvezetk- (pipe) -szer feldolgozsra.
Msrszt viszont a visszafel bizonyts logikja szerint mg az ismtld rszbizonytsokat is jra s jra elvgzi, ezzel romlik a hatkonysga.
A fentebb vzolt trgymodell alapveten deduktvan, felismerknt hasznlhat,
mgis kicsi mdostssal abduktv, szveggenertor cl hasznlatra is alkalmas. Ha a
cllltst a logikai alak megadsval, de hinyz szvegkp-tnylltsokkal indtjuk,
akkor a visszafel bizonyts sorn elbb-utbb a tnylltsok szintjig r. Ha az res
tnylltsokat visszalptethet lltsfelvtellel (assert) valstjuk meg, akkor a
program vgeredmnyben abduktv bizonytst fog vgezni.
word(ID,S,X,WORD):(assert(w(ID,S,X,WORD));
retract(w(ID,S,X,WORD)), fail).

2.4 Contralog: Horn-klzok elre halad rtelmezse Prologban


A Contralog tervezsekor cl volt, hogy az elre- s visszafel halad mkds integrlhat legyen gy, hogy a logikai forrsnyelv ugyanaz (a Horn-klzok nyelve), amit
rszben maga a Prolog visszafel haladan, rszben pedig az elrehalad motor akknt rtkelhet ki. A ktfle rezolcis stratgia pedig a programoz ltal vezrelheten legyen vlthat: egyrszt a Prologbl legyen meghvhat az elrehalad motor,
msrszt az elrehalad vgrehajtsbl legyen meghvhat a Prolog.
A Contralog programnyelv a Horn-klzok nyelvt (a Prolog nyelvet) elrehalad
stratgit megvalstva kpezi le a Prolog nyelvre magra gy, hogy egy inkrementlis fordtprogram a beolvasott Contralog-szablyokat Prolog-szablyokk fordtja le,
s a szabvnyos Prolog futtatkrnyezetben mkdteti. [4]

Szeged, 2011. december 12.

281

Az gy ltrehozott rendszerben teht minden fordtva mkdik, mint a Prologban:


- A kvetkeztetst nem a cllltsok, hanem a tnyek indtjk.
- ha van olyan szably, amelynek felttelrszben egy adott tny szerepel,
akkor megvizsgljuk, hogy a felttel tbbi rszt mr sikerlt-e
bebizonytani korbban. Ha igen, akkor a szably tzel, vagyis a
kvetkezmnyrszt sikerlt bebizonytanunk.
- A bebizonytott kvetkezmny jabb egysgklz rezolvenseket (bebizonytott
tnyeket) jelent, amelyet a munkatbln (blackboardon) eltrolunk, s ezzel
a tnnyel folytatjuk a bizonytst.
- A kvetkeztetsi folyamatot a cllltsok lltjk le.
- Clllts elrsekor, vagy ha brmi okbl a bizonyts az adott lncon
tovbb nem folytathat, a rendszer visszalp, s egy korbban nyitva hagyott
alternatva mentn prblkozik jra.
A Prolog-Contralog kapcsolatot ktflekppen lehet mkdtetni:
- a Contralog-szablyok felttelrszben a {}/1 literl kzvetlen Prolog cl
meghvst eredmnyezi.
- A Contralog importok azok a tnyek, amelyek egy modul kvetkeztetsi
lnct elindtjk. Ez az indt tnyeknek megfelel Prolog tzelsi szablyok
exportjt jelenti.
- A Contralog exportok viszont azok a prediktumok, amelyeket az elre
halad stratgia szerint tnyknt kikvetkeztettnk, s vagy msik modul
importjt elgtjk ki vele, vagy a Prolog futtatrendszer egy prediktumt
hvjuk meg. A Contralog-exportokbl Prolog-importok lesznek (, br ezt a
fogalmat a szabvnyos Prolog nem ismeri).
A fent ismertetett alapmkdsen tl az elburjnz kvetkezmnytnyek trlsre
logikn kvli eszkzket vezettnk be:
- minden trgymodulban ltrehoztunk egy, a munkatblt teljesen trl Prolog
eljrst, amit a MODULE:clean hvssal indthatunk.
- egyes tnyek kikvetkeztetsekor letilthatjuk a kvetkeztetst az adott szlon
(a tnyt a munkatbln troljuk ugyan, de a megfelel tzel eljrsokat nem
hvjuk meg). Ezt a mkdst a :- lazy NAME/ARITY. deklarci
hatsra vlthatjuk ki.
- egyes tnyek kikvetkeztetsekor az azonos nvjegy tnyeket mind trljk
a munkatblrl (:- var NAME/ARITY.), vagy egyes argumentumokat
a relcis technolgihoz hasonlan kulcsknt tekintve, csak az azonos
kulcs tnyt trljk. Ezt a :- key(NAME(KEYVECTOR)). deklarcival vlthatjuk ki, ahol a KEYVECTOR szerkezet egy argumentumlista, ahol a
+ jel azt jelzi, hogy az argumentum kulcsknt szerepel, a - pedig azt,
hogy nem.
Az elre halad kvetkeztets alapproblmja, hogy a klzok felttelrszn tbb
elemi felttel is szerepelhet. Amikor ezek kzl nem mindegyik elgl ki, a hinyzkat meg kell vrni, s a kvetkezmny tzelst csak akkor indtjuk, ha az utols
felttel is kielglt. Ezt gy rjk el, hogy a mr kielglteket dinamikus lltsokknt
troljuk, s egy Contralog-szably sszes felttelliterljhoz ltrehozunk egy kln
Prolog-szablyt, ami ellenrzi, hogy a tbbi felttel mr korbban teljeslt-e. Vegynk egy egyszer pldt, tekintsk a kvetkez Contralog-szablyt!

282

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

a:-b, c.
Ha a b vagy a c felttelek kielgltek, akkor az eredmnyknt kapott tnyek a
megfelel b/0, ill. c/0 dinamikus lltsokban tallhatk. Mindegyik felttelhez
ltrehozunk egy fire_NAME tzel, s egy test_NAME ellenrz Prolog prediktumot. Az elbbi trolja a kikvetkeztetett tnyt, majd meghvja az utbbit. Az utbbi
pedig ellenrzi, hogy a tbbi Contralog-felttel teljesl-e, s ha igen, akkor meghvja
a kvetkezmnyhez tartoz tzel eljrst.
A fenti esetben ez a kvetkez Prolog-kd ltrehozst jelenti:
fire_b:- assert(b), test_b.
fire_c:- assert(c), test_c.
test_b:- c, fire_a.
test_c:- b, fire_a.
A fenti trgymodellben tovbbra is a Prologhoz hasonl visszalpses keress trtnik. Vlasztsi pontok tbbflekppen is keletkezhetnek.
- Ha egy felttel tbb Contralog-szablyban is szerepel, akkor annyi Prologalternatva jn ltre belle, ahny szablyban a felttel szerepel.
- Ha egy felttel tbbszr is teljesl, akkor ugyanannyi dinamikus tny jn ltre belle feltve, hogy az adott felttelre nem teljeslnek a kvetkeztetsi
gak megnyirblst clz deklarcik.
- A modul sszes statikus tnylltsnak a trolsa gy trtnik, hogy a
Prolog modul cllltsa visszalpsesen meghvja az sszes statikus tny tzel eljrst. Vagyis, ha valamilyen felttel nem teljesl, akkor vgs soron
akr egszen a Prolog-cllltsig is trtnhet egy visszalps.
A nyitott vlasztsi pontokra a visszalpsek sorn kerl a vezrls. Visszalps
szintn tbbflekppen bekvetkezhet
- Ha valamelyik felttel az adott pillanatban nem teljesl. Ez lehet Contralogfelttel, de a felttelek kz beszrt Prolog-felttel meghisulsa is.
- Ha egy Contralog-clllts elrsekor (a Prologhoz hasonlan) jabb megoldsok krsvel visszalpsre knyszertjk a rendszert.

2.5 Elre halad trgymodell (Contralog)


Az elre halad trgymodell esetben a szablyalkalmazsi rohamokat (burstout) az
egyes mondatelemek, mint tnyek felvtele (berkezse) indtja. A tnyek rkezhetnek aszinkron mdon, idben elcssztatva, st akr tetszleges sorrendben is: egy
kvetkeztetsi lps akkor trtnik meg, ha minden felttel megrkezett s rendelkezsre ll. Br van lehetsg a kvetkeztetsi fa gainak nyrblsra, a kvetkezmnyek a teljes gazdagsgukban elllnak, ha ezekbl nhny illeszkedik a megadott
cllltsokra, akkor a kvetkeztets lell.
A modell elnye, hogy az egyszer bebizonytott tnyeket troljuk, s azokat akrhnyszor fel lehet mg hasznlni.

Szeged, 2011. december 12.

283

Sajnos az elrehalad modell abduktv mdon szveggenerlsra trtn hasznlata nem ltszik kzenfekvnek.

3 rtkels
A tesztmondatok elemzse a bemutatott modellvltozatok alapjn elegend tapasztalatot szolgltatott. A kvetkez lps a eALLAN-Horn-klz fordtprogram megrsa lehet. Kroly Mrton munkjban az elemzsi modellt modalitsok beptsvel
egszti ki. A modalitsok kezelse pedig kijelli az utat a httrben alkalmazott tudstr sszetev megtervezshez egy multimodlis tbbszerepls logikai kvetkeztet rendszer kpben.
A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje tmogatta, a konferencia-rszvtelt pedig a TMOP-4.2.1.B-10/2/KONV/2010/ KONV2010-0002 (A Dl-dunntli rgi egyetemi versenykpessgnek fejlesztse).
Itt szeretnk ksznetet mondani a eALIS projektbli munkatrsaimnak, Alberti
Gbornak, Kleiber Juditnak s Kroly Mrtonnak a nyelvszeti informcik nzetlen
tadsrt s a jl clzott, s egyben megfelelen adagolt, a cikk vgs pldnyra is
kihat megjegyzseikrt.

Hivatkozsok
1. Clockshin-Mellish: Programming in Prolog. Springer Verlag, Berlin, Heidelberg, New York
(1994)
2. Alberti, G.: eALIS. Interpretlk a vilgban, vilgok az interpretlban. Akadmiai
Kiad, Budapest (2011)
3. Alberti, G., Kilin, I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok - avagy a
eALIS V fggvnye. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi
Tudomnyegyetem, Informatikai Tanszkcsoport, Szeged (2010) 113127
4. Kilin, I.:: Contralog: egy elre halad, Prolog-konform kvetkeztet motor, s alkalmazsa
eALIS nyelvi elemzsre. In: SzmOkt 2011. konferencia kiadvnya. Erdlyi Magyar
Mszaki Tudomnyos Trsasg, Kolozsvr (2011) 199205
5 Nakashima, H.: Term Description: A Simple Powerful Extension to Prolog Data Structures
Electrotechnical Laboratory, Umezono, 1-1-4, Ibaraki, Japan (1985)

284

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Interpretci, intenzionalits, modalits avagy a


ReALIS O fggvnynek implementcija fel
Kroly Mrton1
1

Pcsi Tudomnyegyetem, Science, Please! Projektiroda,


7622 Pcs, Vasvri Pl u. 4.
harczymarczy@gmail.com

Kivonat: Projektnk clja egy egyszerbb diskurzusokat elemezni kpes


interpretl rendszer implementlsa. Ennek keretben 4 fggvnyt
definiltunk, ezek kzl korbban a morfoszintaxist megragad -rl volt sz.
Most az intenzionalitst s modalitst lerni szndkoz  szintfggvny kerl
tertkre, amely magnak a vilgocskastruktrnak a kialaktsrt felel. A
fggvny mkdst bemutatjuk nhny pldn, majd, rszben kdrszletek
segtsgvel, eddigi eredmnyeinkre tmaszkodva felvzoljuk az
implementci lehetsges tjt, rvilgtva nhny problmra s lehetsgre.
A -val kapcsolatban tovbbi elmleti cikkek megjelense is vrhat, ezek
fkppen a szintemelsrt, szinttartsrt felels nyelvi elemekrl, egyes
partikulk jelentsrl (a  tkrben) s ltalban a  pragmatikai
vonatkozsairl szlnak majd.

1 Bevezets
A ReALIS projekt hossz tv gyakorlati clja egy (ksbb lehetleg gpi fordtsra
is alkalmass tehet) interpretl rendszer implementlsa. Kutatsunk az elmleti s
szmtgpes nyelvszet hatrterletn helyezkedik el, gy rsze az elmleti modell
fellltsa, majd pedig annak implementlsa.
Modellnk logikai s diskurzuselmleti alapokon nyugv, totlisan lexikalista,
kampinus reprezentacionalista modell, melynek implementcijhoz egy szintn
szablyalap eszkzt, a Prologot s kiterjesztseit hasznljuk. Megkzeltsnk
azonban klnbzik a klasszikus reprezentacionalizmustl annyiban, hogy az
interpretl elmt (benne a nyelvvel) is a vilg rsznek tekintjk, ugyanazon
eszkzket hasznlva magnak a vilgnak s az azt interpretl elmknek a
modellezsre. Ily mdon vagyis azltal, hogy a reprezentci kztes jellegt
megszntetjk s az egsz vilg lersnak egysges keretet adunk teht a
legszigorbb antireprezentacionalistk kvnalmainak is igyeksznk eleget tenni.
Szablyaink lexikai szablyok, magt az elemzett nyelv nyelvtant is a lexikonban
troljuk, eltntetve ezltal a klnbsget lexika s grammatika kztt. A [2]-ben
definilt s hasonl genertorfggvnyek a maglexikonbl j lexikai egysgeket
lltanak el. gy kezeljk pl. a magyar szrendet vagy a mondatban szerepl szabad
hatrozkat: a genertorfggvnyek ellltjk az ige sszes, szintaktikailag

Szeged, 2011. december 12.

285

lehetsges vonzatkerett, a szrendi varinsokat, ill. a szabad hatrozkkal kibvtett


esetkereteket. Clul tztk ki tovbb ms nyelvekben tallhat jelensgeknek a
ReALIS keretei kz val beillesztst, mint pl. a nmet szrend, sszehasonltva a
magyarral. Ezen rszcl rdekben rszben egynyelv clnyelvi, rszben ktnyelv
(bcsi egyetem, Finnugor Intzet) krnyezetben terepmunkt is folytatunk. Farkas [6]
a finn nyelv szintaxist is formalizlta (indexelt generatv mdon), ugyancsak alapot
teremtve ezzel a rendszernkbe val beillesztsre.
Elmletnknek vagy egyes rszeinek bizonytsa vagy cfolata annak szmba
vtelvel lehetsges, mely nyelvi jelensgeket ragadunk meg, s melyeket nem. A
helyessg bizonytsnak legkzenfekvbb mdja azonban az, ha az elmletet
lefordtjuk valamely programozsi nyelvre, azaz programot runk r, s az az
ltalunk elvrt eredmnyt adja. Ennek tkrben a ReALIS taln legfontosabb
mrfldkve az lesz, ha a ngy fggvnyt adekvt mdon kezel, legalbb egy
nyelvre, pl. a magyarra vagy eleinte annak egy korltozottabb vltozatra jl mkd,
egyszerbb szvegeket, minidiskurzusokat morfolgiailag, szintaktikailag,
szemantikailag s akr pragmatikailag is elemezni tud programot fel tudunk
mutatni.1
Br kezdetben programozstechnikailag s rszben ennek kvetkeztben a nyelvi
szintek tekintetben is alulrl felfel haladtunk (kezdve a GeLexi projekttl), a nem
kellen kidolgozott adatstruktrk miatt az elrehalads egyre nehzkesebb vlt.
Jrhatbb tnak tnik ugyanakkor a ReALIS ngy (, ,  s ) fggvnynek
fokozatos, egyenknti kidolgozsa, a folyamatos publikcik mellett rszleges
implementcikkal, tanulmnyprogramok rsval egybektve. Ezt kvetheti elvben a
fggvnyek sszeptse ksz vagy knnyen kssz fejleszthet rendszerr.
A ReALIS modell rszleteirl, az implementci nhny krdsrl s az eddig
elkszlt tanulmnyprogramokrl mr korbbi publikciinkban is beszmoltunk
([1], [2] [3], [4], [5] stb.). A morfoszintaxist, a referensazonostst s a
fiktivitsi/modlis hierarchit egy-egy fggvnnyel (, s ) rjuk le, mg az idt, az
esemnyszerkezetet s az aspektust a  kurzorral kezeljk. Mindennek eredmnye
egy kampinus [7], DRS-ekbl ll, de sajtos szintcmkerendszert hasznl sszetett
struktra.
Az imnt emltett publikcik az ltalnossgokon tlmenen mg dnten a 
fggvnyt trgyaltk. E cikk ugyanakkor mr a fentebb lert elgondolsba illeszkedik:
a  fggvny utn most a -ra s a szintcmkk rendszerre fkuszlunk. A
lehetsges cmkk halmaza vges s adott interpretci vonatkozsban szigoran
meghatrozott, br cljainknak megfelelen bvthet j nyelvszeti, logikai,
pragmatikai elemekkel. A pontos defincit (a msik hrom fggvnyvel egytt) lsd
[5:146-147].

Utbb Kilin [8] morfolgiailag elzetesen elemzett szveget vett ugyan alapul, az elmleti
kvetkezetessg ugyanakkor megkvnja a morfolgiai elemzs analg mdon trtn implementlst. A projekt keretben morfolgiai elemz is kszlt ugyan, m, mint emltettk,
az adatstruktrnak az akkor mg nem kellen kidolgozott szintaktikai s szemantikai adatszerkezettel val sszefslse mr komoly gondot jelentett.

286

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2 A ReALIS  fggvnye
A  feladata egyes hatkri viszonyok, valamint a propozicionlis attitdk s
retorikai relcik megragadsa. A szveg elemzsekor a referenseket a  fggvnnyel
konstruljuk meg. Az feladata az azonossgi vlelmek meghatrozsa, m
alkalmazsa eltt a referensekhez hozz kell rendelni a szintcmkket, mert csak gy
tudjuk az alkalmazsi feltteleit vizsglni. Vagyis a  szempontjbl relevns
nyelvi elemekhez hozz kell rendelnnk azok szintmdost tulajdonsgt is.
Elfordulhat persze, hogy a  mkdst nyelvileg kzvetlenl csak nehezen vagy
egyltaln nem megragadhat tnyezk vezrlik. Ekkor ltalban tbb pragmatikai
rtelmezs is lehetsges. A Prolog visszalpsi mechanizmusa segtsgvel mg ez is
kezelhet (br rsegtsek nlkl nem tl hatkonyan). Szksgnk is lehet erre, mert
a diskurzus tovbbi elemzse sorn kiderlhet, hogy az addig lehetsgesnek tn
elemzsek kzl nhny hibs.
A [i,t] : uU[i] o U[i] szintfggvnyt az i interpretl belvilgban
rtelmezzk. U[i] elemei a referensek, ezek csakis valamely interpretl
belvilgban ltezhetnek (mg a klvilgban infonokrl, magrelcikrl s
entitsokrl beszlnk). Csak az n. fiktv referenseknek lehet kpk, ezek pontosan
egy szintcmke mellett kpezdnek le egy msik referensre (, amire  ismt
alkalmazhat stb.). A  itercija rvn kapott (vges) cmkesorozatot nevezzk a
referens vilgocskaindexnek. Az n. gykrreferensekre a  soha nincs rtelmezve,
ezek vilgocskaindext resnek tekintjk. Viszont csak ezek horgonyzdhatnak ki a
kls vilgba az fggvnnyel. (Ugyanakkor egy referens lehet kls kpvisel
nlkli is, pl. egy vgy trgya.)G
A szintcmkk  halmaza egy rendezett ngyesekbl ll halmaz: modal (
[][.?!][supp|cons|bel|des|int|], modlis cmke) u Tm ( idpillanat) u U[i] (j
kzvetlen gazda, kihorgonyozva egy interpretl-entitshoz) u P (={+,0,}, pozitv,
semleges vagy negatv polarits). Modlis cmkvel jelljk pl. a felttelezst (supp),
kvetkeztetst (cons), a hiedelmet (beln), vgyat (desn), szndkot (intn, utbbi
hromnl n ranggal vagy egyb mdon jelezhetjk az erssget), az t rzkszervtl
szrmaz informcit (hear, see, smell, taste, touch), a pragmatikai kifejtst (elab),
narrcit (narr), valamint az utbbi kettre vonatkoz krdst is (?elab, ?narr).
Ezeken fell cmkt kaphat magyarzat (exp), httr-informci (back) vagy arra
vonatkoz krds (?back), ellentt (contr), prhuzam (par), logikai mvelet (disj,
conj stb.). A felszlts mint a szndk explicit kifejezeszkze ugyancsak kln
cmkt (!intn) kap. Ebbl vilgos az olvas szmra az is, hogy a modlis cmke
hrom elembl ll: a nyl lnyegben a klasszikus mell- s alrendelsnek
(szintemel s szinttart jegy), a ponttl klnbz rsjel a krdsnek, ill.
felszltsnak felel meg (mdjegy), mg a harmadik elem a tulajdonkppeni modlis
tartalom.2
A  rtelmezsben a  idpillanat is rgztett, de fontos, hogy a -k s i-k
egymsba gyazott vilgocskk esetn is klnbzhetnek (pl. egy vlekeds esetn).

Az eredeti definciban [4] a szintcmkk funkciinak angol nyelv rvidtse szerepel, e


cikkben viszont a tovbbiakban a teljes magyar elnevezseket hasznlom.

Szeged, 2011. december 12.

287

2.1 Plda a  fggvnyre


A  mkdst elszr a Pter hazamegy mondat egyszer pldjn illusztrljuk
pragmatiko-szemantikai szempontbl. Ez persze mskpp nzhet ki egy igazmond
s1 s egy hazug s2 beszl (akinek clja a megtveszts) szemszgbl, s a hallgat
(interpretl) csak az s1-re s s2 -re vonatkoz httrtudsa alapjn dnthet arrl,
elhiszi-e az elhangzott mondatot vagy sem, azaz: melyik vilgocskjba helyezi el
azt. (Megj.: s2-rl feltteleztk, hogy Pter alkoholizlsi hajlamait prblja
eltitkolni.)
s1 (ill. i) gykrvilga
ehisz: phisz esznd
hiedelemnmax,s1/i, W,+
esznd: psznd emegy
szndkmax,rPter,W,+
emegy: pmegy rPter shaza
szndkmed,s1,W,+

ekocsmzik: pkocsmzik rPter


s2 gykrvilga
szndkmax,rPeter,W,
esznd: psznd
emegy: pmegy rPter shaza
ehisz
szndkmax,s2,W,+
ehisz: phisz esznd
hiedelemnmax,i,W,+
esznd: psznd emegy
szndknmax,rPter,W,+
emegy: pmegy rPter shaza

1. bra A Pter hazamegy mondat kimondsa mgtti kt lehetsges elmellapot brzolsa a


ReALIS modellben. s1 valszn tnyt llapt meg, mg s2 megtveszti beszdpartnert.

Az 1. brval kapcsolatban megjegyezzk: ahhoz, hogy elfogadhassuk igaznak az


s2 feltett szndka az, hogy i azt higgye, hogy Pter valban hazamegy statikus
interpretcit, szksg van az erre vonatkoz eventualitsokra is a kls vilgban.
(Ez jelentsgt akkor nyeri el, amikor az interpretli informcillapotban ms
interpretl bels vilgrl val informcik is szerepelnek; mg sajt magrl
mindenki tudja, mit hisz el, mit nem.) A vilgocskastruktra mindenkppen ltrejn,
az eventualits viszont csak akkor, ha mr maga az interpretl is viszonyulni prbl
(elhiszi vagy nem stb.) a msik szemlyrl birtokban lv informcihoz. A Hob
Nob-mondatoknl viszont pl. ezek az eventualitsok nem jnnek ltre, ezrt lehet az
erre vonatkoz statikus interpretci eredmnye negatv [5:283-285]. Itt viszont az
attitd (pl. hiedelem) vilgocskjn tl annak eventualitsa is ltre kell, hogy jjjn.
Az 1. brn az is ltszik, hogy ugyanazon referensnek egyidejleg tbb pldnya is
lehet, ha ugyanazon megnyilatkozs rvn jn ltre. Ez egyebek mellett a  fggvny
(?) adatstruktrjnak faszerkezetv alaktst tette szksgess (l. ksbb).
Az s1 beszlhz tartoz brban nincs kifejtve s2 szndk-vilgocskjnak
megfelelje. A Pter hazament mondat ugyanis pontos informci vagy ers
hiedelem birtokban kimondhat, mgpedig vals pragmatikai clunktl fggetlenl.
Az esetek tbbsgben persze informcit adunk t, teht alapveten s1 szndka is
arra irnyul, hogy i-ben legalbbis kialakuljon egy ers hiedelem Pter
hazamensrl, azaz a vilgocska szksges. s2 clja azonban nem lehet nagyon ms,
mint i megtvesztse: biztos forrsbl tud Pter lerszegedseirl, esetleg ppen
aznap is tallkozott mr vele egy kocsmban. A nav i interpretl pedig s1-hez

288

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

hasonl informcillapotba kerl, persze immr a beszdszndkra utal vilgocska


nlkl.
Ha ez utn i egy ksbbi  idpillanatban rtesl az igazsgrl, attl mg a rgi
hiedelme  idpont vonatkozsban megmarad. Ha teht egy s3 beszl felvilgostja
i-t Pter alkoholizlsi szoksairl, akkor i a rgi hiedelmet (.hiedelemnmax, ) s az
j, halls tjn szerzett informcit tartalmaz (.halls, ) vilgocskk tartalmbl,
valamint s2 s s3 szavahihetsgre vonatkoz httrinformcii alapjn alaktja ki a
 idpontban rvnyes j hiedelmt (ami persze ksbb ismt mdosulhat). A
httrinformci-vilgocska cmkje .httr, a hozz tartoz idparamter mutathat
akr -re, akr -ra vagy mg rgebbre, amennyiben az informciforrs
szavahihetsgnek vlelme idkzben nem dlt meg.
Mindezek utn egy n. akkomodcis lps szksges az j hiedelem
kialaktshoz s a rgi megdntshez. Ez nem jelenti ugyanakkor azt, hogy a
vilgocskjt is fel kell szmolni: a Mari korbban azt hitte, hogy Pter hazament
mondat igaz marad. Ltrejn ugyanakkor egy j .hiedelemmed,  vilgocska
benne Pter kocsmzsnak eventualitsval. Minderrl mg pontosabb lerst
kaphatunk, ha nhny szablyler eventualitst is behozunk httrtudsknt, azaz
akr .httr cmkj vilgocskba begyazva: Ha (.felttelezs) valaki kocsmzik,
akkor nem otthon van (.kvetkeztets), ha valaki hazament, akkor nem kocsmzik.3
Clunk teht krlrni azt, hogy a ReALIS elmleti keretei kztt hogyan trtnhet
a mdbeli s intenzionlis (segd)igk, modlis partikulk s morfmk elemzse.
sszessgben ezek tekinthetk a  nyelvi pillreinek. Modellnk kereteibe
beilleszthetk ugyan olyan, az rott nyelven kvli kifejezeszkzk is, mint a
gesztusok s az intoncis smk (ezek kzl a hangslyozsrl [2]-ben szt is
ejtettnk), azonban a mi elsdleges clunk a billentyzeten bevitt nyelvi input
elemzse s az 1. brhoz hasonl doboz- (vilgocska-)struktra mint interpretci
felptse. Amennyiben ez kellen hatkonyan lehetsges, akkor egy kvetkez
lpsben a folyamatot megfordtjuk s egy msik nyelven generlunk egy olyan
szveget, amelyhez ugyanazok a struktrk tartoznak.

3 Adatok, adattrols
3.1 A vilgocskk s referensek lershoz hasznlt adatszerkezetrl
A ReALIS implementcijnak sikere vagy kudarca mlhat azon, hogyan brzoljuk
a lexikon adatait, idertve a feldolgozs sorn jelentkez, az assert prediktummal
ltrehozott tnyeket is. A  fggvny esetn sincs ez mskpp, st a modalitst s
intenzionalitst kifejez szavak esetn meg kell tallnunk annak a mdjt is, hogy a
-szintcmkket rint lexikai szablyokat is egysges keretek kztt troljuk.

A hazamens s a kocsmzs persze nem zrjk ki egymst teljesen: ha Pter a szlfalujba utazott, majd belt a helyi csapszkbe, akkor a kt eventualits egyszerre is fennllhat.
Mi azonban a fenti okfejts sorn vgig egymst kizrnak tteleztk fel e kt eventualitst,
egyszerstsi okokbl leszktve a hazamegy jelentst.

Szeged, 2011. december 12.

289

Az eredeti, [5:146-147] alatti rekurzv definci tvtele egyrszt implementcis


szempontbl nem hatkony, msrszt felvetdtt egy olyan elmleti jelleg problma
is, amely a  jragondolst tette szksgess. Ez akkor jelentkezik, ha ugyanazon
megnyilatkozs rvn ugyanazon referenseket egyszerre tbb klnbz
vilgocskban helyezzk el. Erre a taln legegyszerbb pldt az Egye fene,
elmehetsz magyar mondat elemzse szolgltatja. A szereplk itt is s mint beszl s i
mint interpretl. i ers ksztetst (vgyat) rez arra, hogy elmenjen, s azonban csak
tbbszri rhatsra hajland i-t elengedni. A lelke mlyn s tovbbra is vgyik arra,
hogy i maradjon, azonban meghallgatva i rvelst, vgl vgyn fellkerekedve
engedi t tvozni. Az engedlyt egy minimlis erssg szndk-vilgocskval
jelezzk. s teht beletrdtt abba, hogy i tvozsba, elfogadja azt (2. bra).
i gykrvilga
evgy: pvgy emegy
vgymax,i,W,+
emegy: pmegy i sel

s gykrvilga
vgymed,s,W,
emegy: pmegy i sel
szndkmin,s,W,+
emegy: pmegy i sel

2. bra Az Egye fene, elmehetsz mondat kimondsa mgtti elmellapotok brzolsa a


ReALIS modellben i s s szemszgbl

A  fggvny implementcijhoz a fiktivitsi hierarchit jobban megragad,


eredetileg -vel jellt cmkesorozatot hasznljuk. Ez azon vilgocskacmkk
egymsutnja, amelyeken keresztl a a gykrvilgbl a referenshez eljuthatunk.
Teht pl. az 1. bra i interpretljt nzve (pmegy) = hiedelemnmax,i,W,+,
szndkmax,rPter, W,+. Technikai okokbl, valamint hossz tv clunkat (ami nem
ms, mint egy valdi multigens rendszer ptse) figyelembe vve szksges mg
megjellni azt az interpretlt, akinek elmjhez tartozik a referens: ez esetnkben i.
A lambda/3 tnylltsok szerkezete ugyanakkor ezzel mg korntsem vgleges.
A  cmkesorozat mr knnyen tkonvertlhat Prolog-listv, ugyanakkor a 2. brn
szerepl megnyilatkozs kapcsn felvetett krds megoldshoz  tbbszrzsre s
egy  (fa-)struktra kialaktsra van szksg. A bonyolultabb esetet mindazonltal
az 1. brn talljuk: s2 pmegy referensre (pmegy) = szndkmax,rPeter,W,,
szndkmax,s2,W,+, hiedelemnmax,i,W,+, szndknmax,rPter,W,+, mg a 2. brn
(pmegy) = vgymed,s,W,, szndkmin,s,W, +.
Tovbbi krds a gykrvilg megjelentse a reprezentciban. Mg [1]-ben is
megjelentettk a gykrvilgot, m mivel definci szerint res -vel (s gy -val)
rendelkezik, felvet egy igen komoly krdst. Abbl a feltevsbl indulunk ugyanis ki,
hogy egy interpretlnak sszesen egyetlen gykrvilga lehet.4 Ha viszont mi a

A ReALIS elmleti httert is ismer pszicholingvistink ugyanakkor gy vlik, hogy pl. a


skizofrniban szenved betegek lefordtva a mi elmletnkre legalbb kt gykrvilggal rendelkezhetnek. Ekkor azonban (akr orvosi szempontbl is) krds, mi alapjn dl el
az, hogy egy-egy j informci melyik gykrvilgba, vagy ha gy tetszik, melyik szemlyisgbe pl be. Annak kifejtse pedig, hogy pl. a gykrvilg, ill. annak referensei (idertve

290

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

mentlisan egszsges(!) interpretl gykrvilgt brmilyen mdon felcmkzzk,


nem jelenti-e ez esetleg annak nknyes megtbbszrzst?
gy hisszk: igen. A gykrvilg ppen attl vlik azz, hogy nincs modlis
cmkje. Valamely i interpretlval sem cmkzhet, mert amit msrl tudunk, ahhoz
mr vagy egy msik vilgocska tartozik (j cmkvel), vagy tudsunk legalbbis
valami eventualitsknt jelenik meg, amelynek egyik argumentuma az i. A  idpont
egyvalami lehet, ez pedig a  aktulis idkurzorrtke, vagyis a jelen. Minden ms
idpontrl a tudsunk bizonytalan, a mltat elfelejtjk, ismereteink hamar
tredkess vlnak, a jvrl pedig eleve a legritkbb esetben llthatunk biztosat.
Vgl a polarits krdst a httrtudsunkban tallhat szablyler eventualitsok
oldjk meg: ha valami piros, akkor az nem zld. Itt azonban mr ismt csak fiktv
vilgocskkrl: httrtudsrl, felttelezsrl s konklzirl van sz.5
A fentiek tkrben teht egy referenshez tartoz lambda/3 tny a
kvetkezkppen nzhet ki:
lambda(REFID,OID,[[[COSUB,MOD,MODLEV,INT,T,P]| ...]|
...]).
Azaz: a lambda/3 els argumentuma a referens azonostja, a msodik az az
interpretl, akinek elmjhez tartozik a referens, a harmadik pedig maga a 
szintcmkelista, ktszeresen egymsba gyazva. A bels listkban van egy-egy
referenspldnyhoz tartoz cmkehierarchia.
Az egyes hierarchikon bell krds mg a szintcmkk sorrendje: az j
vilgocskk ltrehozsnak s gy vgs soron az elemzsnek a bellrl kifel
sorrend kedvez, br megnehezti a vilgocskahierarchia brzolst.
gy teht az 1. brn szerepl s2 beszlnl a pmegy prediktumreferenshez pl. a
kvetkez Prolog-tnyek rendelhetk (a referensazonostkat alhzssal jelltk):
lambda(66,11,[[[sub,int,1,55,now,-1]],[[sub,int,2,55,
now,+1],[sub,bel,2,1,now,+1],[sub,int,1,11,now,+1]]]).
%az 1. szint a legersebb (max) , mint ltalban.
ref(1,i,_EGO,0). ref(11,i,SPEAKER2,0).
ref(55,i,Pter,1). ref(66,p,megy,1).
%ref/4: azonost, tpus, lexikai egysg, ref.-szmll

az eventulis referenseket), valamint az egyes fiktv vilgocskk pontosan milyen szerepet


jtszanak az interpretli szemlyisg felptsben, igen messzire vezetne.
Itt ugyancsak messzire vezet, alapvet nyelvfilozfiai krdsekbe botlunk. A zld mirt
ppen zld? Vagy ha egy msik bolygrl ltogatk rkeznek a Fldre, s halljk, hogy
ugyanaz a szn egyszer zld, msszor green vagy vert, akkor honnan fogjk tudni, hogy ppen (nagyjbl) ugyanazt fejezik ki sokflekppen? Vagy azt, hogy a zld meg a rouge viszont mr nem ugyanaz a fogalom? Vlheten valahogy gy tanulnk meg, ahogy egy
gyermek is elsajttja az anyanyelvt (vagy akr egynl tbb nyelvet). Httrtudsukba pedig
elbb-utbb be fog plni az ami piros, az nem zld konstrukci s a kapcsold szablyler eventualitsok.

Szeged, 2011. december 12.

291

A referenseket referenskonstruktorral hozzuk ltre. Krdses mg, hogy ennek


integrns rszt kpezi-e majd pl. a -szintcmke hozzrendelse az elmlet
mindazonltal ezt az elvet diktlja. A referenskonstruktor f feladata a jelenleg
ngyargumentum ref/4 tnyek behozatala, amelyek egy-egy referenst
reprezentlnak. A referensek jelenleg tpusosak: adott tpus lexikai egysghez adott
tpus referensek jnnek ltre. Ugyanakkor knny olyan pldt mondani (nvszi
lltmny), amelynl ugyanazon lexikai egysghez tbb tpus referenst is ltre kell
hozni, vagy a tpusokat konvertlni kell. Ennek pontos megvalstsa a kzeljv
egyik legfontosabb feladata.

3.2 A klvilgi entitsok lersa


A  ily mdon trtn megragadsa lehetv teszi azt is, hogy magnak a klvilgnak
az entitsait (st, infonjait [9]) is lerhassuk, ill. hogy a lambda/3 prediktumot
felhasznlhassuk a kihorgonyzsoknl is. Ha a referensek pozitv azonostt kaptak,
akkor a klvilghoz tartoz elemek szmra a negatv egsz szmok fenntarthatk, a
0 pedig magnak az orkulumnak az azonostja. Azaz:
lambda(10,1,[]). lambda(-3,0,[]).
Ez utn a 10-es gykrreferens (amelynek -cmkje teht res) az segtsgvel a
3-as entitshoz horgonyozhat ki. Ez csak a kihorgonyzs tnyt hivatott
megmutatni, s nem kell a rendszernek tudnia azt, hogy a klvilgban pontosan mi
mivel azonos. Adott interpretl vonatkozsban pedig az azonosthatsg dnten
annak httrtudsbl vagy egyb vilgocskibl kvetkeztethet ki, s maga az
azonosts az fggvnnyel de nem kihorgonyzssal trtnik.

3.3 Az adatbzis-kapcsolatrl: jabb rv a Contralog [8] mellett


A sklzhatsg ma mr a termszetesnyelv-feldolgoz rendszereknl is alapvet
kvetelmny. A Prologot hasznl rendszerek legnagyobb htrnya ennek nem
kielgt mrtke volt. A modern Prolog-megvalstsok (pl. Visual Prolog, SicSTus
Prolog) azonban mr rendelkeznek pl. viszonylag jl hasznlhat adatbzisinterfsszel (pl. a Visual Prolog ODBC-n keresztl kommunikl a Microsoft SQL
rendszerrel).
Rgebben azonban a sklzatsg hinya miatt a Prolog-alap megvalstsok
ritkn jutottak tovbb a prototpus szintjnl. Ennek persze volt egy msik oka is: ha
egy rszlltst a Prolog segtsgvel ismtelten bizonytunk, akkor az elz
eredmnyt a rendszer nem trolja el, hanem akr tbbszr is bebizonytja [8].
Sokan ezrt ttrtek hatkonyabb eszkzk hasznlatra lemondva ezzel a Prolog
kt legfontosabb mechanizmusrl: a visszalpses keressrl s az unifikcirl.
A sklzhatsghoz szksges adatbzis-kapcsolat miatt mi legalbbis e cikkben
a tnylltsok szerkezetre, vagyis lnyegben az adatszerkezetre helyeztk a
hangslyt. Az SQL-alap rendszerek adatrekordjai knnyen trhatk Prologtnyekk s fordtva, gy lnyegesen egyszersdhet a Prolog-program s az SQL-

292

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

szerver kzti kommunikci, valamint a rendszer egyb (pl. adatbiztonsgi)


szempontokbl nzve is kezelhetbb marad.
A tbbszri bizonyts problmjra Kilin [8] szolgltat hasznlhat megoldst:
ez a kvetkeztetses trgymodellt biztost Contralog rendszer. Ebben lehetsg
van a {}/1 literl rvn kzvetlen Prolog-cl meghvsra is, ekkppen mindig az
ppen szksges irnyban hajtva meg a rendszert.
Lthat mg, hogy az adatbzis-kapcsolat szempontjbl fontos tnylltsok,
amelyekrl e cikk is szl, ugyancsak kiltanak az elrehalad kvetkeztetst
alkalmaz rendszerrt. Ily mdon teht pl. egy szveg morfolgiai elemzst
kveten az input ugyanolyan tnylltsokk alakul, mint amilyenekbl a
maglexikon ll majd. (A maglexikon felptst [2]-ben vzoltuk fel, mg a
kiterjesztett lexikon ellltsrt felels lexikai szablyok szintn lerhatk
Contralog-tnyekkel.)

4 Plda a  implementcijra
Az emltett Contralog trgymodell segtsgvel megksrelhet pl. a vgyik ige
(rszleges) implementlsa is. Ha valaki vgyik valamire, akkor ez az elz fejezet s
[8] alapjn kt lpsben rhat le. Az els:
sigma3(ID,S,X,TIME,SUB,OB,CLAUSE):regArg2(ID,S,XV,verb(vgy,[],_MODE,VTIME,_AGR),XS,
SUBJ,_PRS,XO,OBJ,_PRO),{TIME= .. [VTIME,_]},
sigma3(ID,S,XS,TIME,SUB,CLAUSE,(desire(TIME,SUB,OB):CONS)),sigma3(ID,S,XO,TIME,OB,CONS),
{newref(X,e,CLAUSE)}. %%newref: referenskonstruktor.
A
[8]-ban
szerepl
kdot
mi
kiegsztettk
egy
provizrikus
referenskonstruktorral. Ebben a rendszerben teht a CLAUSE kimen vltoz rtke
egy ilyesfajta Prolog-klz lesz: desire(SUB,OB):-car(TIME,OB)
amennyiben a vgy trgya egy aut, s az aut lexikai egysgbl kinyerjk a
valaminek egy bizonyos idpontbeli aut voltra vonatkoz car(TIME,OB)
prediktumot. Meg kell jegyeznnk tovbb, hogy mg Kilin kvetkezetesen
SUB,OB stb. (az angol nyelvre specifikusan alany, trgy) vltozkat alkalmaz, addig
magam azt az irnyvonalat kpviselem, hogy az argumentumokat thematikusszerepcmkkkel kell elltni (szlssges esetben akr ignknt kln definilva!),
fenntartva ezzel a nyelvfggetlensget. Termszetesen szksgnk van a GeLexi-hez
hasonlan kopredikcis szimblumokra, ha ksbb a ReALIS-t gpi fordtsra
szeretnnk hasznlni, ahogy arra a 2. fejezet vgn is mr cloztunk. Mi tbbletknt
egyelre azt ktjk ki, hogy a  mellett a -ra, tvlatban esetleg a megmarad kt
fggvnyre ( s ) vonatkoz lexikai szablyok nyelvfggetlen rsznek pontos
vagy kzel pontos, oda-vissza trtn alkalmazsa szksges a fordtsi
adekvtsghoz. Mindez persze a fordtstudomnnyal foglalkozk szmra tl
szigornak tnhet, de az esetleges enyhts lehetsgeinek vizsglata nmagban is
megrne egy msik cikket. Ha a nyelvi inputbl el tudjuk lltani az interpretcis
struktrt, akkor abbl mirt ne tudnnk az input szveget egy msik nyelven

Szeged, 2011. december 12.

293

visszaadni? Az ehhez szksges httrtuds problmja humn fordtknl is


jelentkezik, de mi mr az interpretcinl feltteleztk ennek bizonyos szint
megltt. Komolyabb problmnak tartom az egyes nyelvek (amelyeknl az
informciforrs befolysolja az alkalmazott igemdot ausztrliai nyelvek, trk
stb.) specifikus elemzsre kialaktott vilgocskacmke-rendszer pontos adaptlst
egy msik nyelvre. Ha pl. az informciforrst a forrsnyelv nem klnbzteti meg,
akkor a clnyelven akr kt vagy tbb klnbz fordts is megjelenhet: a trkben
pl. nem mindegy, hogy a beszl ltott-e valamit, vagy csak mstl hallott.
A vgyik ige elemzsnek 2. lpse, vagyis a vgy trgyhoz a  cmke
hozzrendelse a kvetkezkppen zajldhat:
lambda_des(STIREF,INT,[[[sub,des,1,XPREF,T,+1]|WLR]]):sigma3(_ID,S,EVREF,T,XPREF,STIREF,CLAUSE),ref(EVREF,e,
CLAUSE),desire(T,XPREF,STIREF),lambda(EVREF,INT,WLR),
bassert(lambda(STIREF,INT,[[[sub,des,1,XPREF,T,+1]
|WLR]])).
Azaz: ha az elzekben a desire/3 prediktumot kinyertk az elemzs sorn, s
tartozik hozz egy eventualits (EVREF), akkor a vgy trgya egy szinttel
mlyebbre kerl a vgy-eventualits szintjhez kpest, s kap mg egy des (vgy)cmkt is. (NB. Ebben a pldban a vilgocskastruktra mg lineris!
Faszerkezetet reprezentl lista (3.1. fejezet) esetn minden allista elejre oda kell
tenni az j vilgocskacmkt. Ennek mikntjt, vagyis pl. az Egye fene, csak
vgyakozz az utn a n utn mondat elemzst az olvasra bzzuk.)

5 Kitekints szinttarts, szintcskkents, akkomodci: hogyan?


Ha tovbbgondoljuk az elz, autra trtn vgyakozst taglal pldt, akkor
hatatlanul addik a kvetkez lehetsges folytats: Pter nagyon vgyik egy autra.
Nagyon sokat utazna vele. (De) csak egy rozoga biciklije van.
Mr szltunk a vgyik ige szintemelsrl. E pldbl gy tnik, hogy a magyar
feltteles md hasznlata ugyanakkor szinttart jelleggel br a vgy vonatkozsban.
A vgyvilgbl trtn visszalpsrt pedig a kijelent md felel, ez egy trl lexikai
szabllyal programozhat le.
Szintn lthat, hogy a de szcskt tartalmaz vltozat a valdi szitucit (ti. hogy
Pternek csak egy rozoga biciklije van) szembelltja a vgyvilgocskval s ez a
tny egy mellrendelt .contr (ellentt) vilgocska ltrehozst indokolja valban?
Most megnznk mg hrom tovbbfolytatst: 1. Ez nagyon bosszantja t. 2.
Pedig az autval knnyebben kzlekedne. 3. A btyja felajnlott neki egy Toyott.
Az 1. esetn a mondat mg a  szempontjbl sem egyrtelm. Br a
vgyvilgocskbl kilptnk, a bosszsg oka lehet maga a vgy is (rgta szeretn
az autt, de nem tudja megvenni), vagy a bicikli rozoga volta, vagy mindkett, azaz: a
vgy s a valsg kztt rgta feszl ellentt. Ezek kzl az -nak a lexiklis
szemantikra vonatkoz alkalmazsval tudunk majd dnteni: bosszsgot negatv
dolog okozhat, az pedig .httr vilgocskban dl el, hogy mi negatv s mi nem az.

294

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Ha a bicikli rozoga volta okoz bosszsgot, akkor a dh eventualitsa elvileg mg


a .contr vilgocskn bellre kellene, hogy kerljn. De akkor mifle ellenttben
ll a dh az autra vonatkoz vggyal?
Kevsb valszn, hogy a vgy-eventualitshoz kthet a dh: a szban forg
magyar ez nvms pragmatikai hatkre tipikusan az elz (tag)mondat eventualitsa
az pedig a bicikli rozoga volta vagy hasonl.
A legvalsznbb teht az, hogy a bosszsg oka maga az ellentt. Ekkor azonban
krds, hov tesszk annak az eventulis referenst. Ha vilgocska is tartozik hozz
(lthattuk, hogy a modalitsnak is lehet eventualitsa), akkor abba nzetnk szerint
nem kerlhet be maga a referens. Marad teht a gykrvilg. Akkor viszont mi
jogost fel minket arra, az el: l evgy ebirt eventualitst gy hasznljuk, hogy a vgy
eventualitsa a gykrvilgban, a rozoga bicikli birtoklsnak eventualitsa pedig a
.contr vilgocskban legyen?
A problmt akkomodcival oldjuk meg: a .contr vilgocskt annak ideiglenes
ltrehozsa utn eventualitss zsugortjuk, s a fiktv vilgok kzl csak a
vgyvilgot hagyjuk meg. Vagy: a .contr vilgocskba gyazzuk be a vgyvilgot a
vgy- s a biciklibirtokls-eventualitssal egytt. A legjobban taln gy rhat le Pter
valdi problmja, ami az ellentt-vilgocska puszta ltben rhet tetten.
A 2. folytats esetn a problmt a vgyvilgba val visszalps jelenti. Ennek
implementlsa csak gy lehetsges, ha a  kurzorfggvnyben eltroljuk magukat
az rintett vilgocskaszinteket is: tudnunk kell, hogy a feltteles md elzleg kinek a
vgyhoz, feltevshez kapcsoldott. A -rl azonban ez ideig nem ll rendelkezsre
akr csak ksrleti implementci sem (a -val ellenttben).
Vgl a 3. esetben azt kell megjegyeznnk: a vgy-vilgocskban szerepl autt
nem szabad sszehorgonyozni a Toyotval mg akkor sem, ha az aut mindenben
megfelel Pter vgyainak. Itt ugyanis egyszer narrcinak tekinthet pragmatikai
viszonyrl van sz. A Legjobban egy Toyotnak rlne mondatbl viszont egyenesen
kvetkezik az, hogy a vgyvilgba le kell kpezni azt a httrvilgocskt, amelyben A
Toyota egy aut szablyler eventualits szerepel, teljesen hasonlan [5:273]-hoz
(NB. ott viszont a vgybli zongora s a Bsendorfer azonostsa is mr valjban
egy akkomodci eredmnye!).
httr,i,W,+
eToyota: pToyota rToyota
e: eToyota eaut
kvetkeztets,i,W,+
eaut: paut rToyota
3. bra Plda egy szablyler eventualitsra: A Toyota egy aut.

Ami biztos: ha mindezt implementlni akarjuk, akkor egy komplett ontolgit kell
a ReALIS mg kpzelni. Ez mg megtehet ugyan, ha vlasztunk egy kellen
formalizlt s knnyen implementlhat modellt, s azt tfordtjuk a ReALIS
nyelvezetre, viszont addik az jabb krds: magukat az akkomodcis szablyokat
hogyan rjuk le?

Szeged, 2011. december 12.

295

Taln a modlis igk, mellknevek stb. eventualitsai jelenthetik erre a megoldst.


Ha ezekre is kiterjesztjk a szablyler eventualitsainkat, elegenden ers eszkzt
kapunk az akkomodcis szablyok formalizlsra is. De ez mg a tvoli jv
zenje.

6 sszegezs
Br a  ltalunk felvzolt adatszerkezete meglehetsen egyszernek tnik, nyelvi s
nem nyelvi pillrei igen szertegazak. Cseppet sem magtl rtetd teht az az
elmleti jelleg, de a gyakorlati megvalsts szempontjbl kulcsfontossg krds,
hogy mikor van mindenkppen szksg egy-egy j vilgocska ltrehozsra s mikor
nincs. Fkpp az elz fejezetben mutattunk r nhny elmleti szempontbl is
alapos tgondolst ignyl krdsre.
Lttuk azt is, hogy httrtuds ugyanazon eszkzkkel ragadhat meg, mint maga
a nyelv. Erre elssorban a back (httrtuds), supp (felttelezs) s cons
(kvetkezmny) vilgocskk rvn nylhat md. Lehetsges akr az n. default
kvetkeztets mint opertor hasznlata is.
gy hisszk, hogy egyes vilgocskk hasznlatnak, valamint az akkomodcinak
a szablyai mg nincsenek teljes kren formalizlva. De mikzben grcs al
vesszk a  fggvnyt s megksreljk annak implementlst, efel haladunk. A
gyakorlati implementci ksrletei teht a ReALIS esetn mg sokkal inkbb
visszahatnak a httrelmletre, mint egy tlagos szoftver esetn, idertve a
termszetesnyelv-feldolgoz szoftvereket is.

Ksznetnyilvnts
A szerzt e cikk alapjait jelent kutatsaiban az OTKA T60595 sz. projektje, a
konferencia-rszvtelt a TMOP-4.2.1.B-10/2/KONV/2010/KONV-2010-0002 (A
dl-dunntli rgi egyetemi versenykpessgnek fejlesztse), a nmet nyelvvel
kapcsolatban folyamatban lv ausztriai terepmunkt pedig (mely ksbb szintn
tbb publikci alapjul szolglhat) sztndj formjban az Osztrk-Magyar
Akci Alaptvny tmogatta.

Bibliogrfia
1. Alberti G., Kroly M.: The Implemented Human Interpreter as a Database. In: Cordeiro, J.,
Virvou, M. (eds.): Proceedings of IC3K the 5th International Conference on Software and
Data Technologies Vol. 2. SciTePress, Funchal, Madeira (2011) 468474
2. Alberti G., Kroly M., Kleiber J.: From Sentences to Scope Relations and Backward. In:
Sharp, B., Zock, M. (eds.): Natural Language Processing and Cognitive Science. Proc. 7th
Int. Workshop on NLPCS. SciTePress, Funchal, Madeira (2010) 100111

296

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3. Alberti G., Kroly M., Kleiber J.: The ReALIS Model of Human Interpreters and Its
Application in Computational Linguistics. In: Cordeiro, J., Virvou, M. (eds.): Proceedings
of the 5th International Conference on Software and Data Technologies Vol. 2. SciTePress,
Funchal, Madeira (2010) 468474
4. Alberti G., Kilin I.: Vonzatkeretlistk helyett polaritsos hatslnccsaldok avagy a
ReALIS  fggvnye. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport, Szeged
(2010) 113126
5. Alberti G.: ReALIS. Akadmiai Kiad, Budapest (2011)
6. Farkas Judit: A finn nyelv indexelt generatv szintaxisa. Doktori disszertci. Pcsi
Tudomnyegyetem, Nyelvtudomnyi Doktori Iskola, Pcs (2011)
7. Kamp, H., van Genabith, J., Reyle, U.: Discourse Representation Theory. In: Handbook of
Philosophical Logic Vol. 15. Springer-Verlag, Heidelberg (2011) 125394
8. Kilin I.: Contralog: egy elre halad, Prolog-konform kvetkeztet motor s alkalmazsa a
ReALIS nyelvi elemzsre. In: SzmOkt 2011. konferencia kiadvnya, Erdlyi Magyar
Mszaki Tudomnyos Trsasg, Kolozsvr (2011) 199205
9. Seligman, J., Moss, L. S.: Situation Theory. In: van Benthem, J., ter Meulen, A. (eds.):
Handbook of Logic and Language. Elsevier, Amsterdam / MIT Press, Cambridge (1997)
239309

Szeged, 2011. december 12.

297

Kvantifiklt kifejezsek hatkri tbbrtelmsgnek


szablyalap kezelse
Szcsnyi Tibor
Szegedi Tudomnyegyetem
ltalnos Nyelvszeti Tanszk
szecsenyi@hung.u-szeged.hu

A magyar nyelvben az ige eltti kvantifiklt kifejezsek hatkre kveti a szrendet, az ige utniakra azonban jellemz a hatkri tbbrtelmsg. Ezt a jelensget a HPSG-ben a kvantortrols segtsgvel lehet megmagyarzni. A
cikk az elmleti megolds gyakorlati megvalstst vgzi el. A Prolog-alap,
DCG nyelvtan kpes kezelni a szabad szrend magyar mondatokat, s helyes
szk s tg hatkr olvasatokat rendeli a mondatokhoz.

1 A problma
A termszetes nyelvi kifejezsek szemantikai homlyossgnak az egyik oka a
kvantifiklt kifejezseket (minden kalz, hromnl tbb indin stb.) tartalmaz mondatok hatkri tbbrtelmsge. A kttt szrend nyelvekben, mint az angol, ezeknek a kifejezseknek a mondatbeli pozcija nem nyjt segtsget a kifejezsek ltal
bevezetett logikai kvantorok hatkri viszonyainak a meghatrozshoz.
A magyar mint rszben kttt szrend, azaz diskurzuskonfigurcis nyelv [4],
rszben egyrtelmsti a kvantifiklt kifejezsek hatkri viszonyait, ugyanis az ige
eltti kifejezsek sorrendje megegyezik a hatkrk sorrendjvel (a > a nagyobb
hatkrt jelenti):
(1a) Minden kalz tbb indinnal is megkzdtt.
minden kalz > tbb indin
(1b) Tbb indinnal is minden kalz megkzdtt.
tbb indin > minden kalz
Az igt kvet kvantifiklt kifejezsek hatkre azonban nem meghatrozott, azok
hatkre lehet kisebb is (2a: szk hatkr olvasat) vagy nagyobb is (2b: tg hatkr olvasat), mint az t megelz kvantifiklt kifejezs:
(2a) Minden kalz kibklt nhny indinnal.
(2b)
minden kalz > nhny indin, azaz
x y (indin(y)  (kalz(x) kibkl(x,y))
(2c)
nhny indin > minden kalz, azaz
y x (indin(y)  (kalz(x) kibkl(x,y))

298

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2 Az elemzs
Korbbi [7], [8] s [9] tanulmnyaimban ezt a termszetes nyelvi jelensget prbltam lerni HPSG ([6]) elmleti keretben. Ezekben a tanulmnyokban a klasszikus .
Kiss-fle ([4]) elemzs felszni szerkezett tulajdontottam a magyar mondatoknak,
elhagyva ugyanakkor a nla meglev tbbi elemzsi szintet. A mondat sszetevs
szerkezete teht egy igvel kezdd, lapos frzisbl s ehhez balrl kapcsold, hierarchikus bal perifribl ll:
S1

S2

NP1

S3

NP2

V
Minden kalz tbb indinnal is megkzdtt

NP3

NP4

egy szigeten

a kincsrt

1. bra: A magyar mondat sszetevs szerkezete

A kvantifiklt kifejezsek hatkrnek a meghatrozshoz a Head-driven Phrase


Structure Grammar-ben (HPSG) hasznlatos kvantortrolst hasznltam ([3]).
A kvantortrols alaptlett az adja, hogy az olyan prediktumlogikai kifejezseket, mint ami a (2b)-ben is lthat, sztszedhetjk egy magjelentst kifejez rszre
(kibkl(x,y)) s a kvantifiklt kifejezsek jelentst ler rszekre: x(kalz(x)
P(x), illetve y(indin(y)  Q(y). A kvantorokban tallhat P s Q egy-egy prediktumvltoz, lektskre egy-egy halmazkpz lambda opertor szolgl: minden_kalz = P.x(kalz(x) P(x), illetve nhny_indin = Q.y(indin(y) 
Q(y). Az gy kapott tulajdonsghalmazokat (ltalnostott kvantorokat, kvantorokat)
mint prediktumokat sorban alkalmazhatjuk a magprediktumra, gy megkaphatjuk
minden_kalz(nhny_indin(kibkl)) logikai szerkezet szk hatkr lltst.
Ha
a
kvantorokat
fordtott
sorrendben
alkalmazzuk,
akkor
a
nhny_indin(minden_kalz(kibkl)) tg hatkr olvasatot. Ahhoz, hogy a
kvantorokat tetszleges sorrendben alkalmazhassuk a magra, elszr ssze kell gyjteni ket. A mondatban szerepl kvantorok sszegyjtse, majd sorbarendezse adja
a kvantortrolsi elemzst.
A HPSG-ben a kvantorok a kvantifiklt kifejezsekbl (pontosabban azok determinnsbl) szrmaznak, ott a kvantortrolban (QSTORE) helyezkednek el. Az 1.
brn minden NP bevezet egy-egy kvantort. Az NP kategrik fltti S kifejezsek
sszegyjtik az sszetevikben jelen lev kvantorokat. S3 kvantortroljban megtallhat NP3 s NP4 kvantorai: Q3 s Q4; S2-ben NP2 kvantora, Q2, valamint S3 sszegyjttt kvantorai, {Q3, Q4}; S1 QSTORE-ja pedig a kvetkez: {Q1, Q2, Q3, Q4}.

Szeged, 2011. december 12.

299

A logikai kifejezs magja az igei fejbl szrmazik, valamint az ign s az t dominl kifejezseken jelljk, hogy a kifejezsekben szerepl kvantorok milyen sorrendben alkalmazandak a magra. Ez az igei fej frzisok QUANTS listjn van megadva, teht:
(3)

Egy igei fej S frzis esetn az sszetevk QSTORE halmazban meglev


kvantorok vagy az S QSTORE-jban jelennek meg, vagy az S QUANTS listjnak az elejn (a QUANTS lista tovbbi rsze az S ltal kzvetlenl dominlt
igei fej sszetev QUANTS listjval azonos).

Az gy kialakult mondatszerkezet esetn teht res QSTORE halmazt felttelezve


a QUANTS lista megadja a kvantorok hatkri sorrendjt.
A fent lert mdszer a HPSG ltalnos kvantorrtelmezsi mdszere, segtsgvel a
kttt szrend, konfigurcis nyelvek esetben is meg tudjuk magyarzni a hatkri
tbbrtelmsget. A magyarban azonban, mint azt az (2) pldk is mutatjk, csak az
ige utni kvantifiklt kifejezsek hatkre lehet szabad, az ige eltti kvantifiklt kifejezsek hatkre egymshoz kpest kttt, az (1) pldk szerint a kifejezsek sorrendje meghatrozza a hatkri sorrendet. [7], [8], s [9] szerint a magyarban csak az
ige utni, komplementumpozcibl szrmaz kvantorokra vonatkozik a (3) szably,
az igt megelz, azaz filler-pozcikbl szrmaz kvantorokra a (4) kiegszt szably is vonatkozik:
(4)

Ha egy igei fej S frzisnak van ige eltti, azaz filler-sszetevje, akkor annak a QSTORE-jban megtallhat kvantorok nem jelenhetnek meg az S
QSTORE-jban.

Az 1. brn lthat szerkezetben gy az ige eltti NP1 s NP2 sszetevkbl szrmaz Q1, illetve Q2 kvantorok nem az ket dominl S1, illetve S2 frzisok QSTORE
halmazban jelennek meg (4 szably), hanem a megfelel QUANTS listk ln (3 szably). Mivel azonban S1 QUANTS listjnak a tovbbi rsze S2 QUANTS listjval
egyezik meg, amelynek viszont Q2 volt az els eleme, a Q1 kvantor mindig nagyobb
hatkr lesz, mint a Q2 kvantor, vagyis az ige eltti kvantifiklt sszetevk sorrendje megegyezik a hatkri sorrenddel. Az ige utni kifejezsekbl szrmaz Q3 s Q4
kvantorokra viszont nem vonatkozik a (4) kiegszt szably, azok brmely S kifejezsnl tkerlhetnek a QUANTS listra, vagy tovbb msoldhatnak a QSTORE kvantortrolba.

3 Az implementci
Az elz fejezetben ismertetett elmleti elemzs ellenrzseknt szksges a gyakorlatba is tltetni a megoldsi javaslatot. Az elemzs nagyban pt a HPSG elmleti
keretre. Ltezik ugyan, s el is rhet a HPSG-nek szmtgpes implementcija
([5]), azonban az egy fontos szempontbl nem bizonyul kielgtnek: nem tudja kezelni a magyar nyelvre jellemz szabad szrendsget. Ezrt arra vllalkoztam, hogy
egy alapjaitl jra felptett elemz megalkotsra teszek ksrletet. Ez, br nem telje-

300

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sen kveti hen a HPSG formalizmust, szellemben megfelel annak, s lehetsget


nyjt arra, hogy egy jobban, pontosabban kidolgozott implementci rsze, alapja
legyen.
Mivel a jelensg elemzse frzisstruktra-nyelvtannal trtnt, az alkalmazs
Prolog nyelven trtnt, ahol a beptett DCG formalizmus nagy segtsget nyjt a
frzisstruktra nyelvtanok megfogalmazsra.
Az alkalmazs tbb modulbl ll nyelvtant felttelez. Az els modul a lexikai
egysgek lexikaiegysg-specifikus tulajdonsgait adja meg, gymint hangalak, jelents, ragozsi paradigma stb. Ezekbl pti fel a kvetkez modul a tnyleges alap
lexikai egysgeket, specifiklva az elz egysg ltal csak jelzett tulajdonsgokat itt
derl ki pldul, hogy egy tranzitv ignek pontosan milyen vonzatszerkezete van. A
harmadik modul a lexikai szablyokat tartalmazza, amelyek egy alap lexikai egysg
varinsait adjk meg. A negyedik modulban tallhatak a tnyleges szintaktikai/grammatikai szablyok, amelyekkel sszellthatjuk a frzisokat, az sszelltssal prhuzamosan azok szemantikai lerst is megadva. Ezzel a nyelvtan nemcsak
elemezni kpes magyar nyelv mondatokat, hanem a mondatok jelentsreprezentcija is elll. Ennek a jelentsreprezentcinak az olvashatbb, prediktumlogikai formjra talaktst egy tovbbi modul vgzi. Ez a modul teljes egszben a [1]-ben
ismertetett megoldssal azonos, amely elrhet [2]-n. A lexikaiegysg-specifikus
tulajdonsgokat tartalmaz modul szintn [1] szellemben plt fel, br nyelvspecifikussga miatt nyilvnvalan nem vltozatlan tvtele annak.

3.1 A lexikaiegysg-specifikus tulajdonsgok


A lexikaiegysg-specifikus tulajdonsgokat tartalmaz modulban a lexikai egysgeknek azon tulajdonsgai, amelyek tipikusnak mondhatak, csak jelzsszeren vannak
megadva, ilyen pldul a kvetkez minden determinns esetben a szfaj: det.
Azok a tulajdonsgaik, azonban, amelyek egyediek teljes rszletessgkben, ahogyan
ez a szemantikai lersnl is lthat.
lexentry(
det,
[def(indef), word([minden]), index(I),
sem(lam(S,lam(Q,all(I,imp(app(S,I),app(Q,I))))))]).
Ugyanez a kibkl tranzitv ignl a kvetkezkppen alakul. A sz igei kategrij, azon bell is tranzitv, mgpedig olyan, amelyiknek a msodik argumentuma
-val/vel eset kell hogy legyen (tv2), csakgy, mint pldul a tallkozik vagy a megismerkedik ige. A jelentslersban osztozik a tranzitv igkkel, mindegyik ugyanolyan sma alapjn pl fel, csak a prediktum vltozik benne
(symbol(kibkl)).
lexentry(
tv2,
[fin(fin), word([kibkl]), symbol(kibkl),
agr(sg,3,indef)]).

Szeged, 2011. december 12.

301

3.2 Az alap lexikai egysgek


A lexikai egysgek a lexentry defincik adatainak a felhasznlsval llnak szsze:
lex(
synsem(
cat(...),
content(...)
),
qStore([bo(app(SemDet,SemN),I)]),
slash([]))
-->
{lexentry(det,
[def(Def),word(Word),index(I),sem(SemDet)])},
Word.
A determinnsok (amelyeknek a szintaktikai (cat) s szemantikai (content) tulajdonsgainak a rszletezstl eltekintek) qStore listjn egyetlen elem tallhat,
a determinnssal kezdd fnvi csoport kvantornak a lersa. A slash lista lersa
a lexikai szablyoknl lesz megtallhat.
A hatkr-rtelmezs szempontjbl rdekes mg az igk szerkezete:
lex(
synsem(
cat(
head(v(Fin)),
comps([
synsem(
cat(head(n(nom)),args(_),deps(_),comps([]),_),
content(agr(Num,Per,_),index(I1),restr(_))),
synsem(
cat(head(n(ins)),args(_),deps(_),comps([]),_),
content(agr(_,_,_),index(I2),restr(_)))])),
content(
agr(Num,Per,Def),
quants([]),
nucleus(Sem))),
qStore([]),
slash([]))
-->
{lexentry(tv2,[fin(Fin),word(Word),symbol(Sym),
agr(Num,Per,Def)])},
Word.
Itt a comps lista tartalmazza a tv2 tpus igk argumentumszerkezett, ezen lista
alapjn tudjuk majd ellenrizni a szintaktikai szablyoknl, hogy a mondatban megjelen komplementumok megfelelek-e az ket vonz ige szmra. A nucleus adja
meg az ige jelentst, ami egyttal a mondat magjelentse. A quants lista a magra
alkalmazand kvantorok sorrendjt, vagyis a kvantorok hatkri sorrendjt tartalmaz-

302

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

za. Ez a lista res az igk lexikai lersnl, csakgy, mint a qStore s a slash
lista is.

3.3 Lexikai szablyok


A nyelvtan jelen pillanatban csak egyetlen lexikai szablyt tartalmaz.
A HPSG-ben az sszetevs szerkezetek kialaktsnak kt mdja van. Az egyik az,
amikor a szerkezet egyik sszetevje, a szerkezet feje meghatrozza, hogy milyen
ms sszetevk, azaz komplementumok lehetnek mg a szerkezetben. A fej lexikai
lersban szerepel a comps lista, amely a komplementumokat sorolja fel. Amikor
egy komplementum sszecsatlakozik a fejjel, akkor a komplementum unifikldik a
comps lista egyik elemvel. A lista teht azoknak az sszetevknek a lerst tartalmazza, amelyek mg hinyoznak a fej melll ahhoz, hogy teljes frzist mondatot,
fnvi csoportot stb. kapjunk. Ha egy frzis teht ilyen fej-komplementum szerkezet, akkor a fej comps listja tartalmazza a komplementumot, a frzis comps listjrl azonban mr hinyzik.
A msik frzisalkotsi md az olyan hinyos kifejezseknek a hinyait sznteti
meg, mint amilyen az elliptikus mondat, a krdsz-kiemelses mondat vagy a
datvuszi birtokos kimozgatsval htra maradt hinyos fnvi csoport. Az ilyen
jelleg hinyokat a kifejezsek slash listi troljk. Akkor jelenik meg egy kifejezs valaminek a slash listjn, ha az a kifejezs az elvrt
komplementumpozcijtl tvol kerl majd el. A mondatszerkezet aljn a listn
megjelen kifejezsek a mondatszerkezetben flfel sszegylnek, majd egy bizonyos ponton filler sszetevkknt jelennek meg. A mi elemzsnk szempontjbl
ilyen filler sszetevk az igt megelz pozciban tallhat kvantifiklt kifejezsek.
Mivel egy kifejezs nem lehet egyszerre komplementum s filler is, a kvetkez
lexikai szably az alap lexikai lersban szerepl comps listt kettvlasztja valban
komplementumknt megjelen elemekre s filler sszetevknt megjelen elemekre,
gy egy j lexikai egysget hoz ltre, ami az eredetinek egy argumentumszerkezeti
varinsa:
sign(
synsem(
cat(head(v(fin)), comps(Comps)),
Content),
QStore,
slash(Slash))
-->
lex(
synsem(
cat(head(v(fin)), comps(CompsHead)),
Content),
QStore,
slash([])),
{shuffle(Slash,Comps,CompsHead)}.

Szeged, 2011. december 12.

303

A szablyban szerepl shuffle prediktum a Slash s a Comps lista elemeit


cssztatja ssze oly mdon, hogy az eredeti listk elemeinek egymshoz viszonytott
sorrendje ne vltozzon mint amikor kt pakli krtyt cssztatunk ssze.

3.4 Szintaktikai szablyok


A kvantifiklt kifejezsek hatkrnek a meghatrozshoz szksges a kifejezsek
mondatban elfoglalt pozcijnak meghatrozsa, gyhogy elsdlegesen a tnyleges
mondatelemzshez szksges szablyokat vizsgljuk meg, a megfelel pontokon
rmutatva, hogy a kvantorok hatkr-rtelmezsnl az adott ponton milyen rszletek
jtszanak szerepet.
A magyar mondatok szerkezete az 1. brn bemutatottak szerint kt f rszbl ll.
Az egyik az igt s az t kvet mondatszakasz sszetevit tartalmazza, s mindegyik
sszetev a lexikai ige testvre.
Az igt kvet sszetevk az ige komplementumai. Ebben a mondatszakaszban az
sszetevk sorrendje szabad, jelentsklnbsget (s hatkri klnbsget) nem okoz
az sszetevk felcserlse. Az igei fej, lapos, szabad komplementumsorrend szerkezetet a sign2 kategria generlsval hozzuk ltre:
sign2(
synsem(
cat(head(v(fin)), comps(CompsVP)),
Content),
qStore(QStoreVP),
Slash)
-->
{shuffle([SynsemArg], CompsVP, CompsHead)},
sign2(
synsem(
cat(head(v(fin)), comps(CompsHead)),
Content),
qStore(QStoreV),
Slash),
sign(SynsemArg,qStore(QStoreArg),_),
{append(QStoreArg,QStoreV,QStoreVP)}.
sign2 rekurzvan elllthat egy igei fejbl s az igei fej egy vletlenl kivlasztott komplementumbl, s az eredmnyl kapott kifejezs comps listja eggyel
rvidebb,
mint
az

igei
fej:
shuffle([SynsemArg],CompsVP,CompsHead). Az gy ltrehozott kvzi
lapos szerkezet generlsakor semmi ms nem trtnik, csak a comps lista kirl, s
sszegylnek a komplementumok qStore listjn trolt kvantorai:
append(QStoreArg,QStoreV,QStoreVP).
Az gy kapott, res comps listj igei kifejezs mr megfelel az 1. bra legals S
kategrijnak:

304

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

sign(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsVP), Nucleus)),
qStore(QStoreVP),
slash(SlashVP))
-->
sign2(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsV), Nucleus)),
qStore(QStoreV),
slash(SlashVP)),
{quantorRule(QStoreVP,QStoreV,[],QuantsVP,QuantsV)}.
Ezen a ponton trtnhet meg elszr az eltrolt kvantorok brmelyiknek a hatkrnek a meghatrozsa, azaz itt kerlhetnek t elemek a qStore halmazbl a
quants listra. Ezt a (3) szablyban lertaknak megfelelen a quantorRule prediktum vgzi el:
quantorRule(QStoreMother, QStoreHead, QStoreSister,
QuantsMother, QuantsHead):append(QStoreSister,QStoreHead,Temp1),
deleteSubList(Temp2,Temp1,QStoreMother),
append(Temp2,QuantsHead,QuantsMother).
A definciban szerepl deleteSubList az els argumentum elemeit trli a
msodik argumentumrl, s a maradkot a harmadik argumentumba teszi.
A magyar mondatszerkezet msik f rszben az igt megelz sszetevk egyenknt csatlakoznak az elzekben kialaktott, komplementumaival mr teljes mrtkben kiegsztett kifejezshez:
sign(
synsem(
cat(head(v(fin)), comps([]),),
content(Agr, quants(QuantsS), Nucleus)),
qStore(QStoreS),
slash(SlashMother))
-->
{shuffle([SynsemFiller],SlashMother,SlashHead)},
sign(SynsemFiller,qStore(QStoreFiller),_SlashFiller),
sign(
synsem(
cat(head(v(fin)), comps([])),
content(Agr, quants(QuantsVP), Nucleus)),
qStore(QStoreVP),
slash(SlashHead)),
{quantorRule(QStoreS,QStoreVP,QStoreFiller,
QuantsS,QuantsVP),
subSet(QStoreFiller,QuantsS)}.

Szeged, 2011. december 12.

305

A balrl csatlakoz filler sszetevk a fej slash listjrl kerlnek ki egyenknt,


tetszleges sorrendben. Az sszetevk kvantorai, csakgy, mint az elz jrar szably esetben is, vlaszthatan kerlhetnek a szlcsompontnak a qStore halmazba vagy a quants listjra. Pontosabban ez az opci csak az igei fejrl szrmaz
kvantorok szmra nyitott, a filler sszetev kvantora kizrlag a quants listra kerlhet: subSet(QStoreFiller,QuantsS). Ez a (4) szably Prologmegfelelje.

3.5 A mondat szemantikai tartalmnak prediktumlogikai formulv alaktsa


A tnyleges mondatelemzsi folyamat ezzel kszen is van, a nyelvtan kpes generlni
s elemezni a feltteleknek megfelel magyar mondatokat: szintaktikailag azokat a
nyelvi jeleket (sign) tekinti mondatnak, amelyiknek a kategrija ige
(cat(head(v(fin))), komplementumai mind szerepelnek a kifejezsben
(comps([])), s a filler sszetevi is megjelentek a bal perifrin (slash([])).
A mondat szemantikai rtelmezhetsghez mg az is szksges, hogy valamennyi
kvantornak meg legyen hatrozva a hatkre (qStore([])).
A kvantorok hatkreinek az erviszonyait, mint azt a 2. szakaszban lthattuk, a
kvantorok quants listn elfoglalt helye egyrtelmen meghatrozza. Hogy ezt
szemlletesen is belssuk, alaktsuk t a kapott kvantorlistt knnyebben olvashat,
prediktumlogikai formulv!
A Minden kalz kibklt nhny indinnal mondat elemzse utn a nucleus s a
comps tartalmazzk a logikai kifejezs magjt s a kvantorok listjt, a tg hatkr
olvasat esetn pldul ez a lista a kt elem, a lista els tagja a nhny indin kvantora, a msodik eleme pedig a minden kalz kvantora. Elszr egyetlen formulv alaktjuk a magjelentst s a kvantorokat gy, hogy a kvantorokat a legkisebb hatkrtl a legnagyobb hatkr fel haladva egyms utn alkalmazzuk a magjelentsre.
Ekkor kapunk egy -formult:
app(app(lam(_G298,lam(_G301,exist(_G304,
and(app(_G298,_G304),app(_G301,_G304))))),lam(_G276,
indin(_G276))),lam(_G276,app(app(lam(_G116,lam(_G119,
all(_G122,imp(app(_G116,_G122),app(_G119,_G122))))),
lam(_G72,kalz(_G72))),lam(_G72,kibkl(_G72,_G276)))))
Ugyanez konvencionlis formban (a @ a fggvnyalkalmazs jele):
(5)

((R.S.v(R@v  S@v) @ y.indin(y)) @ y.((P.Q.w((P@w)


(Q@w)) @ x.kalz(x)) @ x.kibkl(x,y)))

Ezen vgrehajtva az [1]-ben hasznlt, [2]-ben elrhet


-konverzit, megkapjuk a
szoksos elsrend formult:
exist(_G304,and(indin(_G304),all(_G999,
imp(kalz(_G999),kibkl(_G999,_G304)))))
Ugyanez konvencionlis formban:

306
(6)

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


y (indin(y)  x (kalz(x) kibkl(x,y))

(6) logikailag ekvivalens (2c)-vel. A Prolog-implementci megadja a szk hatkr olvasatot is, amely a szksges konverzikkal (2b)-vel ekvivalens formulv
alakthat. Az elmleti megolds szmtgpes implementcija teht helyesen mkdik, kpes megadni az elvrt hatkri tbbrtelmsget.

4 Tovbbi lehetsgek
Az implementci, mivel egy kidolgozott elmletre, a HPSG-re alapul, kibvthet
tovbbi grammatikai szablyokkal, amelyek pldul szablyozhatjk, hogy az ige
eltt pontosan milyen elemek s hol jelenhetnek meg, gondolva itt a fkuszrtelmezsre s a topikalizcira. A mr meglev implementcirszek azonban ebben a
kibvtett elemzben is megfelelen mkdnek.
Tovbbi bvthetsge az implementcinak, hogy a rendszer az [1]-ben bemutatott elemekkel kiegsztve az elsrend logikai kifejezsek alapjn kpes egy mondatot interpretlni egy megadott vilgmodellben, vagyis egy olyan lekrdez rendszert
kszthetnk, amelyben a krdsek termszetes nyelven vannak megfogalmazva.

Bibliogrfia
1. Blackburn, P., Bos, J.: Representation and Inference for Natural Language: A First Course in
Computational Semantics. CSLI Press (2005)
2. Blackburn, P., Bos, J.: Representation and Inference for Natural Language: Software Requirements and Downloads: http://homepages.inf.ed.ac.uk/jbos/comsem/software1.html
3. Cooper, R.: Quantification and Syntactic Theory. Reidel, Dordrecht (1983)
4. . Kiss, K.: Configurationality in Hungarian. Akadmiai Kiad, Budapest (1987)
5. Penn, G.: The ALE Homepage: http://www.cs.toronto.edu/~gpenn/ale.html
6. Pollard, C., Sag, I A.: Head-Driven Phrase Structure Grammar. CSLI University of Chicago Press, Stanford Chicago (1994)
7. Szcsnyi T.: Sorrend s hatkr a magyarban: HPSG elemzs. Nyelvtudomny Vol.1
(2005) 171205
8. Szcsnyi T.: Lokalits s argumentumrkls. A magyar infinitvuszi szerkezetek lersa
HPSG keretben. Doktori rtekezs. Szeged, SZTE (2009)
9. Szcsnyi T.: Magyar mondatszerkezeti jelensgek elemzse HPSG-ben. In: Bartos Huba
(szerk.): ltalnos Nyelvszeti Tanulmnyok XXIII (2011) 99138

VII.Poszterekslaptoposbemutatk

Szeged, 2011. december 12.

309

Interaktv formnsrtk-mdost fejlesztse


Abari Klmn1, Olaszy Gbor2
1 Debreceni Egyetem, Pszicholgia Intzet
abari.kalman@arts.unideb.hu
2 BME Tvkzlsi s Mdiainformatikai Tanszk
olaszy@tmit.bme.hu

Kivonat: A cikkben bemutatjuk egy webalap interaktv formnsrtkmdost program felptst s hasznlatt. Az alkalmazs kttt szerkezetben
vrja a kiindul formnsrtkeket, melyeket egy Flash-ben kszlt program segtsgvel tudunk knyelmesen mdostani, azaz hozzigaztani a hangsznkphez. A kiindulsi s mdostott rtkeket is MySQL adatbzisban troljuk, melyek fel- s letltsrl kln funkci gondoskodik. A formnsmdosts sorn
hasznlt hangsznkp megjelentshez a WAV formtum hangfjlok feltltse is szksges. A fejlesztst a magyar formnsadatbzis ksztse s tovbbfejlesztse ihlette.

1 Bevezets
Az elmlt 2 vben mr bemutattuk az els magyar formns adatbzist, amely a BME
Tvkzlsi s Mdiainformatikai tanszkn kezdemnyezett flautomatikus formnselemz eljrson alapul [1,2,3]. A formnsmeghatrozshoz hasznlt szadatbzis a
kvetkez adatokat tartalmazza minden szra: ortografikus szveg, fonetikai tirat, a
sz hullmformja (frfi s ni ejtsben), hanghatr-jellsek a hullmformban s a
mrt formnsok. Az adatbzis szabadon hozzfrhet, webalap keresfellettel
rendelkezik (http://magyarbeszed.tmit.bme.hu/formans). A teljes formnsadatbzisban kzel 3000 sz s sszesen 10 391 magnhangz szerepel. Egy magnhangzn
bell 3 mrsi pontot jelltnk ki: a teljes hang idtartamnak 25, 50 s 75%-os pontjt. Kivtelt kpeztek a kezd s befejez magnhangzk, ahol csak kt mrsi pontot
vettnk fel: kezdhz 50% s 75%, befejezhz 25% s 50%.
A formnsadatbzis ltrehozsa sorn hozzvetleg a magnhangzk negyedben
volt szksg a formnsrtkek kzi korrekcijra. Mr ekkor felmerlt, hogy szksg
lenne egy interaktv formnsrtk-mdost eszkzre, amely a grafikus felhasznli
fellet elnyeit kihasznlva, knyelmes formnsrtk-leolvasst tesz lehetv a sz
sznkpe alapjn, s gy az esetleges korrekcik is rugalmasabban megoldhatk. Jelen
cikkben ennek az eszkznek egy tovbbgondolsrl szmolunk be, amely megnyitja
az utat tovbbi formnsadatbzisok ksztse eltt azzal, hogy lehetv teszi tetszleges beszdadatbzisbl szrmaz tbbnyire automatikus mdszerekkel meghatrozott formnsrtkek egyszer, vizulis alap kzi javtst.

310

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2 Az interaktv formnsrtk-mdost felptse


Az interaktv formnsrtk-mdost eszkz egy szabadon hozzfrhet webes alkalmazs, melynek f komponensei a MySQL adatbzis, a PHP/HTML forrskd
llomnyok s a Flash-ben kszlt animci. Egyelre az alkalmazs bta verzija
kszlt el, vrhatan az v vgre az alkalmazs minden funkcija elrhet lesz a
http://magyarbeszed.tmit.bme.hu/ifem cmen.
A hasznlat szempontjbl az alkalmazs 3 f rszt tartalmaz: (1) a formnsadatbzis-feltltt, (2) a formnsrtkeket mdost Flash alkalmazst s (3) a javtott
beszdadatbzist eltrol modult. A kvetkezben ezeket tekintjk t rszletesebben.

2.1 A formnsadatbzis feltltse


A formnsmdost programunk a sajt adatbzisba feltlttt formnsfrekvencia
rtkeket ajnlja fel korriglsra. Ezt a beszdadatbzist nevezzk a tovbbiakban
formnsadatbzisnak, mely alapveten cmkzsi adatokat s hangfelvteleket tartalmaz. A formnsadatbzisba feltltend adatok forrsa egy n. nyers formnsadatbzis, mely legtbbszr valamilyen automatikus formnsmeghatroz algoritmus
segtsgvel ll el. A nyers formnsadatbzisbl kell ellltanunk a feltltshez
szksges kt llomnyt: (1) egy kttt szerkezet, tabultorral tagolt szveges llomnyt s (2) a bemondsokat tartalmaz WAV fjlok (ajnlott 22 kHz, 16 bit, de nem
kvetelmny) tmrtett llomnyt.
A nyers formnsadatbzisban a bemondsok alapegysge lehet sz, de a sznl kisebb (akr egy magnhangz) vagy sznl nagyobb nyelvi egysg is, erre nzve nincs
megkts a feltlts szempontjbl. A cmkzssel kapcsolatos adatokkal szemben
azonban elvrs, hogy lljon rendelkezsre minden bemondshoz (1) az ortografikus
szveg, (2) a fonetikus tirat, (3) a hanghatrok s (4) valamilyen
formnsmeghatroz algoritmussal megmrt id- s formnsfrekvencia-rtk prok
halmaza.
2.1.1 A tagolt szveges llomny elksztse
Feltlts eltt a rendelkezsre ll tetszleges nyers formnsadatbzisbl szrmaz
adatainkat konvertlni kell egy tabultorral elvlasztott szveges llomnyba. A
tagolt szveges llomny minden sora egy-egy beszdhangra vonatkoz informcit
tartalmaz. Ezek tipikusan magnhangzk vagy zngs mssalhangzk lesznek, de
formailag erre semmilyen megkts nincs.
A tagolt szveges llomny ktelezen tartalmaz fejlcet, azaz az els sor az oszlopnevek tabultorral elvlasztott listja lesz. Javasoljuk a kvetkez oszlopnevek
hasznlatt:
WAV

HANGSORSZAM

FORMANS

HANGHATAROK

BETUSOR

HANGSOR

BESZELO

ID_2

A msodik sortl kezdve azoknak a beszdhangoknak az adatai kvetkeznek az


oszlopnevek fenti sorrendjben, amelyeknek a formnsrtkeit szeretnnk vizulisan

Szeged, 2011. december 12.

311

ellenrizni, esetleg manulisan mdostani. A WAV mezbe a hangfjl neve kerl,


elrsi t nlkl. Felttelezzk, hogy kt azonos nev hangfjl nem fordul el a szveges llomnyban. A HANGSORSZAM mez a hangllomnyban trolt bemonds
szegmentltsgt ttelezi fel, s annak a hangnak a sorszmt tartalmazza, amelynek a
formnsait vizsgljuk, illetve mdostani akarjuk. Egy hangfjlhoz (azaz WAV llomnyhoz) termszetesen tbb hangsorszm mez is tartozhat, ebben az esetben ez a
szveges llomnyban j sorknt fog megjelenni. j sorban meg kell ismtelni a
WAV fjl nevt s a HANGSORSZAM mezbe a kvetkez, formnsmdostsban
rszt vev hang sorszmt kell megadnunk. A FORMANS mezbe a beszdhang
inicilis formnsrtkei kerlnek, pl.:
0.103:746;0.122:788;0.1538:810;0.1856:759;0.2047:647@0.103:1359; 0.122:1382;
0.1538:1380; 0.1856:1398; 0.2047:1364@0.103:2698; 0.122:2670; 0.1538:2700; 0.1856:2532;
0.2047:2464@0.103:2900; 0.122:3363; 0.1538:3299; 0.1856:3455; 0.2047:3455

A fent felsorolt sszes id- s formnsrtk egy adott beszdhangra vonatkozik


(teht sortrs nlkl egy sorba kellett volna ket rnunk). Elszr az F1, majd az F2,
F3, F4 rtkei kvetkeznek. Az egyes formnsokat kukac (@) karakterrel vlasztjuk
szt, a formnson belli, idben elklnl mrseket pontosvessz tagolja. Egy
mrshez kt adatra van szksg egy idkoordintra (s, msodperc) s egy frekvenciartkre (Hz). Ezt a kt koordintt kettspont (:) vlasztja el. A fenti pldban
minden formnsra 5 mrsi pontot adtunk meg s minden formns esetn azonos
idkoordintkat hasznltunk (0.103 s, 0.122s, 0.1538 s, 0.1856 s s 0.2047 s). Most
ezek a beszdhang hossznak 10, 25, 50, 75 s 90%-os pontjait jelentik, gy most
rendelkezsre ll 5 olyan mrsi hely, amely a teljes hangot lefedi. Mivel abszolt
idrtkeket kell megadnunk a FORMANS mezben, a mrsi helyek rendszernek
kialaktsa tetszleges lehet. A formnsrtk mdost alkalmazsunkban az sszes itt
trolt frekvenciartket meg tudjuk vltoztatni.
A kvetkez ngy mez a WAV llomnyban trolt bemondst jellemzi s nem a
sort meghatroz beszdhangot. Ennek megfelelen rtkk minden olyan sorban
azonos lesz, ahol a WAV mezben is azonos rtk tallhat. Ez redundns trolst
jelent, de gy egyszerbb, knnyebben kezelhet szerkezetet kapunk. A
HANGHATAROK mez pontosvesszvel elvlasztva tartalmazza a teljes bemonds
msodpercben (s) meghatrozott hanghatr-jellinek idkoordintjt. A BETUSOR
mezbe a bemonds ortografikus szvege kerl, tagols nlkl. A HANGSOR mez
pontosvesszvel elvlasztva a fonetikai tiratot trolja. Itt tetszleges jellst hasznlhatunk, brmit, amit az ASCII szveges llomny trolni enged (pl. TMIT,
SAMPA). A BESZELO mezbe a hangfelvtelt ad szemlyrl adhatunk egy lerst
(pl. azonost, neme stb).
Az ID_2 mezbe egy tetszleges karaktersorozatot szerepeltethetnk, amely az
adatok visszatltst segti a sajt adatbzisunkba a formnsmdosts utn. Ez a
mez tipikusan a forrs adatbzis valamilyen azonostjt tartalmazza, mely vonatkozhat bemondsra vagy akr beszdhangra is. Szerepe egyrtelmen a formnsmdosts eredmnynek egyszer visszavezetse a korbban hasznlt adatbzisunkba.
Amennyiben ellltottuk a tabultorral tagolt szveges llomnyt, rdemes nhny ellenrzst elvgezni. (1) A WAV s HANGSORSZAM mezk egytt egyrtelmen azonostjk a szveges llomny sorait (azaz elsdleges kulcsok). (2) Azok-

312

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

ban a sorokban, ahol a WAV rtke megegyezik, ott a HANGHATAROK, a


BETUSOR, a HANGSOR s a BESZELO mezk rtke is megegyezik. (3) A
HANGHATAROK mezben a pontosvesszvel elvlasztott rtkek szma mindig
eggyel tbb, mint az ugyanazon sor HANGSOR mezben lv pontosvesszvel elvlasztott elemeinek szma. (4) A HANGSORSZAM mez a HANGSOR pontosveszszvel elvlasztott elemeinek valamelyiknek sorszmt tartalmazza (1-tl indul
sorszmmal).
A fenti ellenrzseket, nhny tovbbi ksretben, maga a program is elvgzi, mikzben a szveges llomnyt eltrolja az adatbzisban. A weboldalon ez egy egyszer llomnykivlasztst kveten automatikusan vgbemegy, az esetleges hibk,
illetve a feltlttt sorok statisztikja szintn a weboldalon kvethet nyomon.
2.1.2 A WAV llomnyok feltltse
A formnsrtkek kzi mdostsnak alapja a hangsznkp. Ezek ltrehozshoz a
bemondsokra is szksg van. Az sszes WAV llomnyt gyjtsk ssze egy knyvtrba, majd csomagoljuk ket ssze ZIP tmrtvel. Az sszecsomagolt llomnyt a
weboldal megfelel funkcijnak kivlasztsval tlthetjk fel a szerverre. A hangsznkpek ltrehozsa utn a WAV llomnyok a szerverrl automatikusan trldnek,
a tovbbiakban nincs szerepk.
A formnsadatbzis kt komponensnek (tagolt szveges llomny, ZIP fjl) feltltse utn a weboldalon tjkoztatst kapunk a MySQL adatbzisba felmsolt formnsrtk adatokrl (klnbz bemondsok szma, a formnsaiban mdosthat
beszdhangok szma, beszdhangonknt a formnsok szma, illetve a mrsi pontok
szma formnsonknt). Az elkszlt hangsznkpekrl is kapunk egy statisztikt,
ellenrizhetjk, hogy az adatbzisunk minden bemondshoz elkszlt-e a hangsznkp.

2.2 A formnsrtkek mdostsa


Az adatbzisba kiindulskppen feltlttt formnsrtkek mdostst egy Flash
alkalmazs vgzi el. Megmutatja a bemonds hangsznkpt s pontokkal jelzi az
adott mrsi helyeken a nyers formnsadatbzisbl szrmaz, korbban meghatrozott formnsrtkeket. Az azonos formnshoz tartoz, de klnbz mrsi pozcikban megjelen pontokat egyenes vonal kti ssze. Az 1. bra a lbmelegt sz (mint
bemondsi egysg) elejnek formnsmdostst szemllteti. A kp tetejn lv szrke grgetsv tjkoztat minket, hogy a kpernyn nem ltjuk a teljes bemondst. A
grgetsv alatt TMIT hangjellssel a bemonds fonetikai tiratt lthatjuk, mely a
HANGSOR mezbl szrmazik. Az ppen formnsmdosts alatt ll beszdhang
szimblumt halvnykk httrsznnel jelzi a program.
A Flash alkalmazs legnagyobb rszt a hangsznkp teszi ki. A hangsznkpeket
az R statisztikai program [4] seewave [5] csomagjval ksztettk, s a
HANGHATAROK adatbzismez segtsgvel rajzoltuk meg a hanghatr jell
fggleges vonalakat. A frekvencia tengelyt 0-5000 Hz-ig jelentjk meg. A hangsznkp mint kpllomny magassgt figyelembe vve (347 pixel), a formnsrtkek
mdostsnak pontossga 14 Hz, azaz egyetlen pixelnyi mozgats az y tengely men-

Szeged, 2011. december 12.

313

tn kb. 14 Hz-et jelent a frekvenciatengelyen. Az idtengely mentn egyszerre kb. 0,8


msodpercet lthatunk a bemondsbl 540 pixel szles terleten. Egy rvid, 50 ms-os
magnhangzra ekkor kb. 34 pixelnyi szles terlet jut. A formnsmrseket reprezentl piros pontok szlessge 6 pixel, gy maximum 5 mrsi helyhez tartoz pontot tudunk egyszerre gy megjelenteni, hogy az a kzi mdosts sorn ne legyen
zavar. A most felsorolt, megjelentsbl add korltozsokat a program hasznlata
eltt vegyk figyelembe, a mrsi pontok szmt s a mdostott adatokbl levonhat
kvetkeztetseket ez alapjn hatrozzuk meg!
A hangsznkp alatt szveges mezket lthatunk, amelyekben az ppen mdostott
formnsfrekvencia rtk jellemzit olvashatjuk: formnssorszm (pl. F4), idkoordinta s frekvenciakoordinta. A bemond szemlyrl is kapunk tjkoztatst a
BEMONDO adatbzismez alapjn.
A formnsfrekvencik mdostst billentyzet segtsgvel vgezhetjk el. Egy
szoksos munkamenet a weboldalon megjelen Flash alkalmazssal a kvetkez
lehet:
1.
2.

3.

4.

5.

Egrrel kattintunk Flash alkalmazs terletn, pl. a hangsznkpen. Ezzel aktivljuk a programot, amely most mr fogadja billentyparancsainkat.
Eldntjk, hogy a sz mely beszdhangjt szeretnnk vizsglni, mdostani.
A hangok kztti vlasztst a Ctrl+JOBBRA NYL s a Ctrl+BALRA NYL
segti. A hangok kztti mozgs a hangsznkp grgetst is maga utn vonhatja, amit a fels grgetsvon kvethetnk nyomon. A hangok kztti vltsnl a program biztostja, hogy a vizsglt hang krnyezett is lthassuk.
A magnhangzn bell a mdostand formns kivlasztsra a kurzormozgat nyilakat hasznlhatjuk (LE NYL, FEL NYL, BALRA NYL,
JOBBRA NYL). Az aktulis pontot eltr sznezs klnbzteti meg a tbbi ponttl. A pontok kztti mozgs hatsa az als informcis mezkben is
nyomon kvethet.
Az aktulis pont s gy a formnsrtk mozgatsra a Q s A billentyket
hasznlhatjuk. A Q-val nveljk az A-val cskkentjk a formnsrtket. Az
informcis mezben ezt is kvethetjk.
A mdostsok mentsre az ENTER billentyt hasznljuk. Ez azonnal az
adatbzisba rgzti a mdostsokat.

sszefoglalva a Flash alkalmazsban hasznlatos billentyparancsok:


Ctrl+JOBBRA NYL s a Ctrl+BALRA NYL: az aktulis beszdhang kivlasztsa, a hangsznkp vzszintes grgetse
LE NYL, FEL NYL, BALRA NYL, JOBBRA NYL: az aktulis
pont kivlasztsa az aktulis hangon bell
Q s A billentyk: a pont mozgatsa fel s le
ENTER: a vltoztatsok mentse.

314

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2.3 A javtott beszdadatbzis mentse


A formnsmdosts elvgzse utn a javtott adatokat tartalmaz tabultorral tagolt
szveges llomny mentse kvetkezik. A ments sorn letlttt adatok mindenben
megegyeznek a feltlts sorn hasznlt adatbzissal, kivve, hogy az kiegszl a
korriglt formnsrtkeket tartalmaz FORMANS_JAV oszloppal. Ez hasonl szerkezetben trolja az id- s formnsfrekvencia-rtkeket, de termszetesen mr a korriglt adatokat tartalmazza.

1. bra. Az interaktv formnsmdost Flash alkalmazs kpe a vizulis megfigyelshez. A


lbmelegt sz els magnhangzjban az F4 els (0.103 s) pontban mutatott rtkt mdosthatjuk.

3 sszefoglals
Jelen cikkben egy webalap formnsrtk-mdost program felptst mutattuk be.
Az automatikusan meghatrozott formnsfrekvencia rtkek kzi mdostsa a bemonds hangsznkpe alapjn trtnik, amelyet szintn az alkalmazs llt el. Erre a
hangsznkpre vetti r a program az automatikus mrsbl szrmaztatott Hz rtkeket (kis pontok formjban). Ez adja a vizulis tlkezs alapjt. Amennyiben az
automatikusan meghatrozott formnsrtk kiugran eltr a hangsznkpen leolvashattl, akkor a mrt rtket a hangspektrogram alapjn mdostjuk, s ezt eltroljuk a

Szeged, 2011. december 12.

315

formnsadatbzisunkban. A Flash alkalmazsban billentyparancsokkal hatrozhatjuk meg a mdosts helyt (hang), a hangon bell a formnst s vgl a formns
fggleges pozcijt, azaz a formnsfrekvencia rtket. Tetszleges hosszsg
bemonds (hang, sz, mondat) formnsait tudjuk kezelni, a hangsznkp vzszintesen
grgethet. A megjelents ennek ellenre rendelkezik korltokkal, ezeket a mrsek
megkezdse eltt figyelembe kell venni. Az alkalmazs segti a nagy pontossg
formnsadatbzisok ltrehozst.

Bibliogrfia
1. Abari K., Olaszy G.: Magyar formnsadatbzis az interneten. In: Gsy, M. (szerk.): Beszdkutats. MTA Nyelvtudomnyi Intzet, Budapest (2011) 7382
2 Olaszy G., Rcz Zs. Zs., Bartalis M.: Formnsmrsek automatizlsa, formnsadatbzisok
ltrehozsa. In: Gsy M. (szerk.): Beszdkutats 2009. MTA Nyelvtudomnyi .Intzet, Budapest (2009) 134147
3. Rcz Zs., Abari K. , Olaszy G.: A formant trajectory database of Hungarian vowels. In:
Nmeth G., Olaszy G. (eds.) The Phonetician 97 (2011) 613 (http://www. isphs.org)
4. R Development Core Team: R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org/.
5. Sueur, J., Aubin, T., Simonis, C. Seewave: a free modular tool for sound analysis and
synthesis. Bioacoustics Vol. 18 (2008) 213226

316

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Korpuszalap
u entr
opiam
ert
ekek gating-
es
lexikai d
ont
esi ks
erletekben
Fazekas Judit1 , Nemeth Kornel1 , Pleh Csaba1 , Varga Daniel2
1

BME Kognitv Tudom


anyi Tanszek, Budapest, Egry J
ozsef utca 1.
e-mail: {jfazekas,knemeth,pleh}@cogsci.bme.hu
2
BME MOKK, Budapest, Egry J
ozsef utca 1.
e-mail: daniel@mokk.bme.hu

Nagymeret
u gyakoris
agi sz
ot
ar birtokaban lehet
oseg
unk nylik informaci
oelmeleti mertekeket denialni, amelyek olyan kerdeseket formalizalnak, mint
peld
aul hogy egy adott sz
o-prex a korpuszon bel
ul milyen mertekben korl
atozza
a sz
o lehetseges befejezeseinek halmaz
at.
Cikk
unkben ezen mertekek felhaszn
alasaval megkserelj
uk, hogy osszef
uggest
t
arjunk fel az emberi morfol
ogiai feldolgozas es szofelismeres teljestmenye, valamit a szoalakok inform
aci
oelmeleti strukt
ur
aja kozott.
Cikk
unk b
ovtett v
altozat
aban harom olyan kserlet eredmenyeit mutatjuk
meg, melyek a fenti kerdeseket j
arj
ak kor
ul szisztematikus m
odon.
Az elso ket, gating feladaton [5] alapul
o vizsg
alat anyagat 60 darab ketszotag
u
fonev kepezte. A 30 gyakori es a 30 ritka szo koz
ul 15-15 korai egyedisegi ponttal
rendelkezett (jap
an), 15-15 pedig kes
oivel (cinke). A varianciaanalzis egyed
ul a
gyakorisagrol mutatta ki, hogy szignikans hat
asa van a felismeres hatasfokara.
A m
asodik vizsg
alatban bevezett
unk egy megszort
ast, a sz
ofelismerest befoly
asol
o top-down hatasok vizsgalatanak celj
abol. A resztvevok fele a kovetkezo
instrukci
ot kapta: Csak ketszotag
u f
oneveket fog hallani toldalekok nelk
ul.,
a t
obbi kserleti szemely nem kapott semmilyen inform
aci
ot. Mind a gyakorisag, mind pedig a megszort
asok hat
asa kimutathat
o volt. Az egyedisegi pontok
hat
asa csak a gyakori szavaknal volt egyertelm
u.
A meresi adatok birtokaban az egyertelm
usegi pont fogalm
anak korpuszalap
u nomt
asa celjab
ol a Magyar Webkorpuszra ep
ulo morfologiailag elemzett
Sz
oszablya Gyakoris
agi Szot
arhoz [3] fordultunk, es a szot
ar prex-faj
anak inuk el. Ennek soran entropiamerteket vezett
unk
form
aci
oelmeleti analziset vegezt
be a sz
oalakok prexein, az alabbi m
odon: A gyakoris
agi sz
ot
ar a magyar nyelv
sz
oalakjain ertelmezett valoszn
usegeloszlast deni
al. Egy szo-prex entr
opi
ajat
ezut
an u
gy denialtuk, mint e val
oszn
usegeloszlasnak a felteteles entropi
ajat
azon feltetel mellett, hogy a meggyelt szo az adott prexszel kezdodik. A
felteteles entropia teh
at a fennmarado bizonytalansagunk merteke az adott sz
or
ol,
miut
an a prexet a tudom
asunkra hoztak. Intuitve, a mertek azt szamszer
usti,
hogy mennyire v
altozatos m
odon fejez
odhet be az adott prex a korpuszunkban.
Megemltj
uk, hogy Antal Laszlo [2] mar 1964-ben felvetette azt a hipotezist,
hogy a morfol
ogiailag osszetett szavak morfemahatarai statisztikai ertelemben
osszef

uggesbe hozhatok azon pontokkal, ahol az gy denialt entr


opiamertek zu-

Szeged, 2011. december 12.

317

han. A Szoszablya Gyakoris


agi Szot
aron vegzett mereseink igazolt
ak ezt a hipotezist.
Egy adott kapuhoz az ott felvett meresi pontokat h
arom oszt
alyba soroltuk,
aszerint, hogy 1. eppen abban a pontban t
ortent meg a felismeres, 2. eppen a
k
ovetkezo pontban tortent meg a felismeres, illetve 3. egyeb esetek. Azt tapasztaltuk, hogy valamely kaput rogztve, a prexek entr
opiamerteke szignikans
mertekben elter az 1. es 2. kategori
aj
u adatpontok kozott, vagyis a felismerest
meg a kapura kontroll
alva is entr
opiacs
okkenes elozi meg. Ez a jelenseg meg akkor is fenn
all, ha a gyakoris
agra es az egyedisegi pont helyere mint ketertek
u
v
altozokra kontroll
alunk. Mi ezt a meggyelest u
gy ertelmezz
uk, mint amely demonstr
alja, hogy az entropia sz
andekainknak megfeleloen az egyedisegi pont nav
fogalm
anak kvantitatv nomt
asa. Ez az eredmeny osszhangban van Moscoso,
Kostic es Baayen [4] modelljevel.
Nemcsak az entr
opia, hanem az entr
opia szomszedos kapuk kozotti megv
altozasa is mutatta a fenti jelenseget, annak ellenere, hogy ez egy erosen nemmonoton viselkedest mutato f
uggveny.
Egy k
ovetkezo kserlet
unk Pleh es Juh
asz [6] szofelismeresre vonatkozo vizsg
alatainak folytatasa volt. Itt rontott szavak azonost
asa volt a kserleti szemelyek
feladata. A szavak egyes vagy t
obbes sz
am
uak voltak, t
oalakban, vagy a -nak,
-ban, -ra ragokkal. A ront
as a szot
o, a jel, illetve az esetrag valamelyikeben
t
ortent, es tpusukban lehettek mag
anhangzo-harmonia hib
ak, vagy a sz
ot
oben
t
orten
o fonemaront
asok.
A gyakorisagnak es a rontas tpusanak egyar
ant szignik
ans hat
asa volt
az azonost
as pontossag
ara. A gyakoribb szavakat gyorsabban kategorizalt
ak a
kserleti szemelyek, de alacsonyabb pontoss
aggal. Er
os korrelaci
o volt a ront
as
pozci
oja es a sikeres visszautast
asok aranya k
oz
ott; a kesobbi ront
asok gyorsabb
es pontosabb visszautast
ashoz vezettek.
u vizsg
alatnak is al
avetett
uk
Gyakorisagi szot
arunk segtsegevel korpuszalap
ezen meresek kimeneteit. Hipotezis
unk az volt, hogy konnyebben felismerhetoek
azok a ront
asok, melyek szokatlan fonema n-gram kombinaci
okhoz vezetnek. A
hipotezis formaliz
al
asahoz meghataroztuk a fonema trigramok gyakorisagait a
korpuszunkban, majd metrik
ankat u
gy deni
altuk, mint a ront
as fonema trigram k
ornyezetenek gyakoris
aga aranytva az eredeti, rontatlan fonema trigram k
ornyezet gyakoris
ag
aval. Hipotezis
unknek megfelel
oen a sikeres visszautast
as val
oszn
usege es sebessege egyarant er
os korrelaci
oban volt az gy deni
alt rontasitrigram-metrikaval.

Hivatkoz
asok
1. Aitchison, J.: Words in the mind. London, Blackwell (1987)
2. Antal, L.: A form
alis nyelvi elemzes, Budapest, Gondolat (1964)
3. Kornai, A., Hal
acsy. P., Nagy. V., Oravecz, Cs., Tr
on, V., Varga, D.: Web-based
frequency dictionaries for medium density languages. In: Proceedings of the EACL
2006 Workshop on Web as a Corpus (2006)

318

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

4. Moscoso, F., Kostic, A., and Baayen, R. H.: Putting the bits together: an information theoretical perspective on morphological processing. Cognition, 94, pp. 1-18
(2004)
5. Grosjean, F.: Spoken word recognition processes and the gating paradigm. In:
Attention, Perception, & Psychophysics, Springer (1980)
6. Pleh, Cs., Juh
asz, L. Processing of multimorphemic words in Hungarian. Acta
Linguistica Hungarica, 43, pp. 211-230. (1995)

Szeged, 2011. december 12.

319

Automatikusan ellltott protosztrak kzzttele


Hja Enik, Takcs Dvid
MTA Nyelvtudomnyi Intzet
{eheja, takdavid}@nytud.hu

A hrom ve foly EFNILEX projekt clja (l. [1]) annak vizsglata, hogy a modern
nyelvtechnolgiai eszkzk mennyiben alkalmasak a sztrkszts tmogatsra.
Jelen demonstrci clja, hogy bemutassa az automatikusan ellltott prototpussztrak (a tovbbiakban protosztrak) lekrdezhet vltozatt.
A protosztrak jdonsgt az adja, hogy prhuzamos korpuszokon automatikusan, szillesztssel lltjuk el ket. Br mr majdnem kt vtizede hasznlnak klnfle statisztikai algoritmusokat forrsnyelvi s clnyelvi szprok kinyersre, hogy
gy bvtsk a gpi fordts bemenetl szolgl sztrakat (pl. [2]), rdekes mdon a
lexikogrfusok kztt a mai napig sem eldnttt krds, hogy hasznlhatak-e a prhuzamos korpuszok emberi felhasznlsra kszl sztrak ellltsra.
Az gy ltrejv sztrak termszetesen tbb ponton is lnyegesen klnbznek a
hagyomnyos, lexikogrfusok ltal ltrehozott sztraktl. A legfontosabb klnbsg,
hogy a protosztrak alapstruktrjban ms tpus adatokkal tallkozunk: a protosztrak mikrostruktrja kevsb kidolgozott, de a fordtsi jellteken kvl korpuszgyakorisgi adatokat, valamint az illeszt algoritmus ltal kalkullt fordtsi valsznsget (P(szcl|szforrs)) is tartalmazza. Nagy mennyisg termszetes nyelvi
kontextus ll rendelkezsre, valamint knnyen kiszmthatak a fordtott irny
protosztr fordtsi valsznsgei is (P(szforrs|szcl)) is. A protosztr htrnya,
hogy utszerkesztsi munklatok hinyban szksgszeren tartalmaz hibs jelentsmegfeleltetseket is. ltalnosan elmondhat, hogy a protosztr fedse s pontossga fordtottan arnyosak: a fent emltett paramtereken alapul szrssel nvelhet
a j fordtsi jelltek arnya, ennek az ra viszont a sztr fedsnek a cskkense.
Clunk egy olyan online fellet fejlesztse, amely kiaknzza a mdszer elnyeit s
minimlisra cskkenti a htrnyait. Feds s pontossg vonatkozsban ez azt jelenti,
hogy a lekrdez fellettel a protosztrak szemlyre szabhatak lesznek: a fedspontossg grbe klnbz pontjai eltr felhasznli ignyeknek feleltethetek meg.
Pldul egy kezd nyelvtanul esetben az alapszkincsre van szksg, s az is elvrs, hogy a clnyelvi megfelel a legjobb (legtbbet hasznlt) fordts legyen. Ebben
az esetben teht a protosztrat gy vgjuk, hogy a gyakoribb szavakat vesszk csak
figyelembe mind a forrsnyelvi, mind a clnyelvi oldalon, s a fordtsi prok kzl
is csak azokat, amelyeknek magas a fordtsi valsznsge. Ezzel szemben egy fordt kpes a rossz fordtsok kzl a jt kiszrni, klnsen, ha rendelkezsre llnak
a javasolt fordtsokat tmogat prhuzamos szvegrszletek. gy az  esetben egy
nagyobb lefedettsg, m alacsonyabb pontossg protosztr megfelel. Ezrt kvetelmny, hogy az online felleten a felhasznl hatrozhassa meg, hogy a protosztr
melyik szeletvel kvn dolgozni.
A protosztr paramtereinek belltsval hatrozhat meg a sztr mrete. Eddigi kirtkelsi eredmnyeink szolglhatnak ugyan nmi fogdzul arra nzve, hogy

320

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

hogyan rdemes ezeket a paramtereket belltani, m ezzel pont a valdi testreszabs


lehetsgt vesztjk el: sokkal clszerbb lehetv tenni, hogy a felhasznl egynileg kisrletezhesse ki, melyek a szmra optimlis paramterbelltsok.
A ritkn hasznlt fordtsok rtelmezsnl nyjt segtsget a nagy mennyisg
termszetes pldamondat, amely a krdses fordtsra kattintva kilistzhat.
A fellet kialaktsnl clunk, hogy a rendelkezsnkre ll informcikat vizulisan reprezentljuk. A fordtsi jellteket szfelhben, illetve grafikonon is megjelentjk. Az brzolshoz az albbi vltozk kzl vlaszthatunk: oda- s visszirny
fordtsi valsznsg, forrsnyelvi s clnyelvi sz abszolt gyakorisga.
Hipotzisnk szerint ezek mentn a paramterek mentn a fordtsi jelltek klnbz osztlyokba sorolhatk, aszerint, hogy milyen szemantikai viszony ll fenn a
fordtsi pr kt tagja kztt, illetve a fordtsi jelltek jelentse szerint. Pldul, ha
mindkt irny fordtsi valsznsg magas s a gyakorisgok megkzeltleg megegyeznek, a fordtsi jelltek nagy valsznsggel jl meghatrozott, konkrt dolgokra referl kifejezsek lesznek (pl. terminusok, tulajdonnevek). Ezzel szemben, ha
az odairny fordtsi valsznsg magas, de a clnyelvi kifejezs sokkal gyakoribb,
valszn, hogy a clnyelvi kifejezs jelentse sokkal ltalnosabb, illetve a forrsnyelvi kifejezs hasznlata jellt. Pl. egy magyar-litvn prhuzamos tesztkorpuszban
a magyar tzetes sz 5-szr fordul el, mg a litvn d miai 100-szor gy, hogy a fordtsi valsznsgk magas: 0.76. Valban, egy angol-litvn sztr alapjn a litvn
sz jelentse sokkal ltalnosabb: attentively, carefully figyelmesen, vatosan,
gondosan jelentsei egyarnt lehetnek.
A protosztrak elrhetek a http://efnilex.nytud.hu/efnilex alatt.

Bibliogrfia
1.
2.

Hja, E.: The Role of Parallel Corpora in Bilingual Lexicography. In: Proceedings
of the LREC2010 Conference, La Valletta, Malta, May (2010) 27982805
Wu, D.: Learning an English-Chinese Lexicon from a Parallel Corpus. In:
Proceedings of AMTA'94 (1994) 206213

Szeged, 2011. december 12.

321

MASZEKER: szemantikus keresprogram


Hussami Pter1
1

Alkalmazott Logikai Laboratrium


1022 Budapest, Hankczy J. u. 7
hussami@all.hu

A Alkalmazott Logikai Laboratrium s a Szegedi Tudomnyegyetem Informatikai


Tanszkcsoportja, valamint Knyvtr- s Humn Informcitudomnyi Tanszke
kzs projektet (TECH_08_A2/2-2008-0092) indtott az Nemzeti Fejlesztsi gynksg tmogatsval. A projekt clja egy olyan, j elveken alapul integrlt keresrendszer kifejlesztse, amely adaptlt (statisztikai s szimbolikus alap) technolgik
s jszer megoldsok kombinlsn keresztl a keresst vgz felhasznl szemantikai kompetencijt az eddigieknl nagyobb mrtkben kiaknzva teszi lehetv a
termszetes nyelvi dokumentumtrakban (szvegekben) trtn valban tartalmi keresst. Egyszeren szlva: a felhasznl jl formlt frzisokkal, mondatokkal specifiklhatja, milyen tartalm dokumentumokat keres.
A rendszer ttekint architektrja az 1. brn lthat.

1.

bra A MASZEKER rendszer ttekint architektrja

Az brnak megfelelen a relevns dokumentumok keresse a kvetkez lpsekbl ll:

322

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


1. a felhasznl egy kontrolllt nyelven adja meg a kereskifejezst,
2. szintaktikus s szemantikus elemzs ellltja kereskifejezs jelentsreprezentcijt,
3. szavak szerinti keress elszri az archvumot,
4. azokra a szvegszegmensekre, amelyekben a szavak szerinti keress tallatai
vannak, illeszti a kereskifejezs jelentsreprezentcijt.

Az MSzNy VII konferencin tartott eladson [1] ismertetsre kerltek a fenti


elemek megvalstsra vonatkoz elmleti alapelvek, elssorban a szemantikus reprezentci felptse mint sarokk kr szervezve. Idn be kvnjuk mutatni a megvalsuls jelenlegi llapott egy dem prezentlsval.
A demban az archvumot szabadalmi lersok fignypontjaibl sszelltott dokumentumgyjtemny alkotja1. A felhasznl a kontrolllt nyelven megadhat
kereskifejezst. A kereskifejezs tbb mondatbl, ill. fnvi kifejezsbl llhat, a
megszortsok az egyrtelmsget biztostjk pldul korltozzk az igeneves szerkezeteket. A felsorolsokat a felhasznlnak jellnie kell. A felhasznli interfsz
segti a kontrolllt nyelv szablyainak betartst, s a morfoszintaktikai elemzs
eredmnye alapjn a rendszer ellenrzi a szablyok betartst. A rendszer a
kereskifejezshez ill frzisokat keres az ignypontok szvegben, s az eredmnyt
a grafikus interfszen megmutatja, kiemelve azokat a szavakat, amelyekbl ll frzist a kereskifejezs egy szegmenshez hasonlnak tallt.
A vgleges kiptshez kpest a dem a kvetkez egyszerstseket alkalmazza:
x
x
x
x
x
x

a kismret archvum miatt a kulcssz szerinti elkeress felesleges,


a szemantikus lexikon kiptettsge mg messze van a kvnatostl, ezrt a
jelentsreprezentcik hinyosak lehetnek,
a szintaktikus elemzs szemantikus kontrollja mg nem teljes,
a hasonlsg felismersnl vannak figyelembe nem vett tnyezk,
a szabadalmi ignypontok szerkezetbl s a tmakrbl add heurisztikus
megoldsokat kielgten mg nem alkalmaztuk2,
a relevancia meghatrozsa mg nem elgg kifinomult.

Mind a felismers pontossgt, mind a performancit a tovbbi ksrletek alapjn


javtani kvnjuk.

Bibliogrfia
1.

Szts M., Csirik J., Gergely T., Karvalics L:: MASZEKER: projekt szemantikus keres technolgia kidolgozsra. In: Tancs A., Vincze V. (szerk.): MSzNy 2010
VII Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem,
Szeged (2010) 159167

A projekt egyik kiemelt felhasznlsi terlete a szabadalmi keress, s a demban gygyhats ksztmnyek s kozmetikai szerek tmakrbl szrmaz szabadalmakat hasznlunk.
Mind a szintaktikus, mind a szemantikus elemzst, mind a hasonlsg megllaptst nagyban befolysolja, hogy milyen tmakrben, milyen tpus dokumentumok kzt keresnk.

Szeged, 2011. december 12.

323

Interaktv fonetikai eszkz


az artikulcis csatorna
keresztmetszet-fggvnynek meghatrozsra
Jani Mtys1 , Bjrn Lindblom2 , Sten Ternstrm3
1

Pzmny Pter Katolikus Egyetem, ITK,


Budapest, Prter utca 50/A, e-mail: janma@digitus.itk.ppke.hu
2
Department of Linguistics, Stockholm University
106 91 Stockholm, Sweden
3
Department of Speech, Music and Hearing, School of Computer Science and
Communication, Kungliga Tekniska Hgskolan (Royal Institute of Technology)
100 44 Stockholm

Kivonat A projekt clja annak az eldntse volt, hogy a SuperCollider


programozsi krnyezet mennyire alkalmas egy interaktv artikulcis
modell implementlsra. Az elkszlt szoftver az APEX nev, ktdimenzis modellt hasznlja, amit az artikulcis csatorna alakja s a formnsok kztti sszefggs vizsglatra hoztak ltre.
Kulcsszavak: artikulcis modell, supercollider, beszdszintzis

1.

Bevezets

Manapsg a konkatenatv beszdszintetizlsra hasznlt mdszer a legelterjedtebb, annak ellenre, hogy az sszefzssel ksztett beszdhang minsge elmarad az artikulcis mdszer ltal elmletileg elllthat beszdhang minsgtl.
Emiatt jabban egyre nagyobb gyelmet kap az artikulcis beszdszintetizls s egyre tbb artikulcis modell jn ltre [1]. Ezen modellek feladata nem
mindig a beszdszintetizls, hasznlhatk kutat s pedaggiai eszkzknek is.
Segtsgkkel tbbek kztt meg lehet gyelni a formns frekvencik s az artikulcis csatorna alakja kztti sszefggst. Jelen munka f clkitzse egy
meglv ktdimenzis artikulcis modell implementlsa, valamint a SuperCollider krnyezet ilyen jelleg feladatra val hasznlhatsgnak kidertse.

2.

APEX modell

Az eredeti APEX program clja adott artikulcibl formns adatok (frekvencia,


svszlessg) kinyerse volt [2]. A modell egy virtulis ktdimenzis artikulcis
csatornt hasznl, ennek geometrijt tesztalanyrl ksztett rntgenkpekbl
nyertk ki. A formns adatok ellltshoz tbb lpsre van szksg. Elszr

324

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

az ajkak, a nyelvcscs s nyelv trzs llapotaibl, az llkapocs s a ggef helyzetbl egy artikulcis prol kszl egy mestersges kzpvonallal, ami az artikulcis csatorna els s hts oldala kztt flton helyezkedik el. Ezutn le
lehet mrni a kzpvonal mentn tetszleges pontokban az artikulcis csatorna
keresztmetszett. A keresztmetszetek hosszt egy adott szably felhasznlsval
keresztmetszeti terletekk kell konvertlni, ez mr lnyegben az artikulcis
csatorna csmodelljnek felel meg. Hangszintzis megvalstsnak egyik mdja
a formnsszintzis, ehhez a csmodellbl ki kell nyerni a formnsparamtereket.
Az APEX modell az orrreget nem modellezi, gy a nazlis hangokat nem tudja
megfelelen szintetizlni.
2.1.

Adatok kinyerse

A krvonalak s egyb geometriai adatok kinyershez rntgenfelvtelekre volt


szksg [3]. A rntgenfelvtelek f problmja, hogy a tesztalanyokat sugrzs ri
s a biztonsg rdekben bizonyos biztonsgi elrsok korltozzk a felvtelek
hosszt s az elszenvedett sugrzsi mennyisget. A hangkpzszervek krvonalai
0,5 - 1 mm pontossggal hatrozhatk meg.
A keresztmetszetek szmtshoz szksges egytthatk meghatrozshoz
keresztmetszeti MR (mgneses rezonancia) kpeket ksztettek az artikulcis
csatorna mentn tbb helyen [4]. A felvtel alatt hasznlt szveganyag svd magnhangzkat tartalmazott, s az MR kpek mellett vide- s hangrgzts is
trtnt.
2.2.

Keresztmetszetek terletekk alaktsa

A ktdimenzis mdszerek kzvetlenl csak az artikulcis csatorna oldalnzeti


keresztmetszett tudjk felhasznlni. A valdi alakzatok nem llnak rendelkezsre, gy az artikulcis csatorna irnyra merleges szeletek terlett az oldalnzeti keresztmetszethosszakbl kell kiszmolni.
Tbbflekppen is lehet becslni ezeket a terleteket [5], ltalban mrsekbl add egytthatkat felhasznlva. A leggyakrabban Heinz s Stevens (1964,
1965) ltal publiklt hatvnyfggvnyt hasznljk:
A = K d
ahol A az artikulcis csatorna irnyra merleges metszet terlete, d a mrt
hossz, K s pedig egytthatk, melyek rtke fgg a tesztalanyon s a vizsglt
metszet pozcijn.
2.3.

A nyelv alakjnak meghatrozsa

A nyelv alakjnak paramtereit fkomponens-analzis segtsgvel hatroztk


meg. Krlbell ngyszz nyelvkrvonalat nyertek ki rntgenkpekbl, majd

Szeged, 2011. december 12.

325

ezeket a krvonalakat 25 pontban mintavtelezve troltk [6]. A fkomponensanalzis eredmnye nhny bzisfggvny slyozott lineris kombincija:
V (x) = N (x) + c1 (v) P C1 (x) + c1 (v) P C1 (x) + ...
ahol x a kontr mintavtelezett pontjnak indexe, V (x) a kiszmolt nyelvalakzat, N (x) egy semleges nyelvkontr (a meggyelt krvonalak tlaga) s P Ci (x)
az i. bzisfggvny. Az egyes ci egytthatk a bzisfggvnyek slyai. ci egy ktdimenzis vektor, rtke a megszlaltatott magnhangztl fgg, amit bemeneti
paramterknt hasznl a modell.
Pontossg: egyetlen P C bzisfggvnnyel 85,7% pontossgot lehetett elrni,
kt bzisfggvnnyel mr 96,3%-ot [6].
2.4.

Artikulci

A modellben hasznlt artikulci egyszerstett vltozata a tnyleges artikulcinak. Csak a programban megvalstott rszeket mutatjuk be. A hangkpz
szervek kzl nhnyat rgztett alakzatknt kezeltnk, ilyen pldul az artikulcis csatorna htuls fala s a szjpadls. A mozgathat alakzatok kz tartozik
a gge a hangszalagokkal, a nyelv s az egsz als llkapocs.
A gge x kontrral rendelkezik, azonban fggleges irnyban mozgathat,
ezzel lehet rvidteni, illetve hosszabbtani az artikulcis csatornt.

1. bra. A nyelv alakja hrom rszbl tevdik ssze.


A nyelv alakja 3 rszbl ll (1. bra). A htuls rsznek formjt a fkomponens-analzissel nyert egyenlettel szmoljuk ki. A nyelv cscsnak helyzete
(B pont) kln llthat, a cscspontot Hermite interpolcival ksztett grbe

326

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

kti ssze a hts nyelvformval. Ahhoz, hogy a kapcsolds trsmentes legyen,


az els derivlt hasznlatra is szksg volt a kapcsoldsi pontban (A pont).
A nyelv cscspontja a szjregben a szj als rszn egy rgztett ponthoz (C
pont) csatlakozik. Ennek a harmadik grbnek az alakjhoz meggyelt adatokat
hasznltunk fel.

2. bra. Az als llkapocs mozgatsa.


Als llkapocs mozgsa az als llkapocs koordinta rendszernek eltolst
s forgatst foglalja magba. Ezzel egytt mozog az als fogsor, a szjreg als
fele s a nyelv. Az elforgats szgt az albbi egyenlettel szmoljuk:
j
+7
2
ahol deg a szg fokban, j pedig az llkapocs nyitottsga (a tvolsg az als
s fels metszfogak kztt, mm-ben). A 2. brn a kk grbe az artikulcis
csatorna htuls fele, az U pont a fels llkapocs koodinta rendszernek origja.
Ha a nyitottsg j-re van lltva, akkor U s L kztti tvolsg j. Az brn jellt
sszes szg . A bels szaggatott piros vonal a j-vel eltolt nyelv, a folytonos
piros vonal az eltolt, majd elforgatott nyelv.
deg =

3.

Megvalsts

A modellt a SuperCollider krnyezetben implementltuk. A SuperCollider egy


programozsi krnyezet algoritmikus zeneszerzsre s hangfeldolgozsra. Kliens-

Szeged, 2011. december 12.

327

szerver architektrj a felptse, a kliensben tallhat interpretlt, objektumorientlt small-talk-szer programozsi nyelv felel a szerver vezrlsrt. A szerver feladata a gyors jelfeldolgozs, valamint a hang be- s kimenet kezelse, natv
bvtmnyek segtsgvel [7].

3. bra. Kommunikci a SuperCollider szerver s a kliensalkalmazs kztt.


A megvalstand program els verzija csak a kliens oldalon helyezkedett el,
a szerver rszt csak a hangszintetizlshoz hasznlta. A sok geometriai mvelet
sajnos nem volt elg hatkony az interpretlt nyelvben, gy ksbb a szmtsignyes rszek tkerltek a szerverre. A kliens-szerver kzti aszimmetrikus
kommunikci szinkronizlsa sok nehzsget okozott (3. bra).

4.

Eredmnyek

Az APEX modellnek ltezik egy korbbi implementcija is, de annak fejlesztse flbemaradt, s a program elavult. Az j program mg tovbbi fejlesztsre
szorul, mivel hinyzik a szjregi rsz helyes kezelse (ajkak, fogak, nyelv alatti
terlet). Ezt leszmtva a modell megvalstsa sikeresnek mondhat. Elrelps a korbbi vltozathoz kpest, hogy a hasznlt krnyezetnek ksznheten
knnyebb a programot trni ms platformokra (Linux rendszeren kszlt, Macen is sikerlt futtatni).
A hangszintzis az elkszlt j verziban interaktv, a bemenetet vltoztatva
azonnal hallhat a vltozs eredmnye. A bemen paramterekbl listt ksztve
lehet tbb hangot is sszefzni. A tbbi artikulcis modellhez hasonlan az
APEX-ben is meggyelhetek a hangok kztti tmenetek, a koartikulci. Az
artikulcis modell alkalmas a hangtmenetek beszdszervek tnyleges zikai
jellemzin alapul interpolcijra.

328

5.

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Tovbblpsi lehetsgek

Tbb irnyban is tovbb lehet folytatni a fejlesztst. A hinyz rsz elksztsvel


a teljes modell meg lenne valstva. A teljes modell leprogramozsa utn a modell
ltal kiszmolt formnsfrekvencikat ssze lehetne vetni valsgos mrsekkel.
A program jelenlegi felptse a szerver-kliens kztti kommunikci miatt
nem idelis. Ennek egyik kikszblsi mdja, hogyha a SuperCollider kliens
helyett sajt, natv klienst ksztennk. Ekkor nem lennnk korltozva az interpretlt nyelv sebessgvel, msrszt a SuperCollider szerver csak a hang kiadsrt
lenne felels, s csak a formnsadatokat kellene tovbbtani.
A szmtsok sebessget tovbb lehetne gyorstani SIMD (Single Instruction
Multiple Data) utastskszlettel, mivel a keresztmetszetfggvny kiszmtsnl
pldul minden keresztmetszeti szeleten ugyanazt az algoritmust kell vgrehajtani.

A munka Erasmus sztndj keretben, MSc diplomaterv formjban lett elfogadva a Kungliga Tekniska Hgskolan Stockholm Speech, Music and Hearing
tanszkn.

Hivatkozsok
1. Shadle, C.H., Damper, R.I.: Prospects for articulatory synthesis: A position paper.
In: 4th ISCA workshop, Pitlochry, Scotland. (2001)
2. Stark, J., Ericsdotter, C., Branderud, P., Sundberg, J., Lundberg, H.J., Lander,
J.: The apex model as a tool in the specication of speaker-specic articulatory
behavior. In: Proc XIVth Intl Congr Phonetic Sci (ICPhS 99), San Francisco.
(1999)
3. Branderud, P., Lundberg, H.J., Lander, J., Djamshidpey, H., Wneland, I., Krull,
D., Lindblom, B.: X-ray analyses of speech: Methodological aspects. In: FONETIK
98. (1998)
4. Ericsdotter, C.: Articulatory-Acoustic Relationships in Swedish Vowel Sounds. PhD
thesis, Stockholm University (2005)
5. Soquet, A., Lecuit, V., Metens, T., Demolin, D.: Mid-sagittal cut to area function
transformations: Direct measurements of mid-sagittal distance and area with mri.
Speech Communication 36(3-4) (2002) 169180
6. Lindblom, B.: A numerical model of coarticulation based on a principal components
analysis of tongue shapes. In: 15th Intl Congr Phonetic Sci, Barcelona. (2003)
7. Wilson, S., Cottle, D., Collins, N.: The SuperCollider Book. The MIT Press (2011)

Szeged, 2011. december 12.

329

Szabadalmak ignypontgrfjnak automatikus


ellltsa s hibaelemzse
Kiss Mrton1, Vincze Veronika1, Nagy goston1, Alexin Zoltn2
1

Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport


6720 Szeged, rpd tr 2.
{mkiss, vinczev, nagyagoston}@inf.u-szeged.hu
2 Szegedi Tudomnyegyetem, Szoftverfejleszts Tanszk
H-6720 Szeged, rpd tr 2.
alexin@inf.u-szeged.hu

Kivonat: Az albb ismertetett kutatsaink kzppontjban az angol nyelv


szabadalmak ignypontjai llnak. A szabadalmak a rszletes lerson tl, az
ignypontokban szabatosan foglaljk ssze a krt szabadalom lnyegt, azt,
hogy a vdelem pontosan mire terjedjen ki. Egy szabadalom ignypontjai kztt vannak kitntetett fignypontok s alignypontok, az alignypontok
fignypontra s egymsra hivatkozhatnak. Ez az ignypontstruktra minden
esetben egy grfot alkot. Nyelvtechnolgiai eszkzkkel ellltottuk az
ignypontgrfot. Az ellltott grfot brzoltuk, hogy megknnytsk a hibadetektlshoz szksges szablyrendszer kialaktst, valamint a tovbbi kutatsokat. Mivel tanul- vagy referenciakorpusz nem llt rendelkezsnkre gy
msik rendszerrel hasonltottuk ssze eredmnyeinket. A grfok elemzse kzben kialaktottunk egy szablyrendszert, amely megsrtse legtbbszr rossz
hivatkozsra, a fignypont hinyra vagy ms hibra utalt. A szablyrendszer
segtsgvel a fignypontok detektlsra is lehetsg nylik. A mdszerrel az
Amerikai Szabadalmi Hivatal ltal elfogadott s nyilvnosan elrhet szabadalmak kztt kerestnk s talltunk hibsakat.

1 A szabadalmak felptse
A szabadalmak egysges szerkezettel brnak [1]. A fignypont mindig azzal kezddik, hogy milyen kategriba tartzik a levdetni kvnt szabadalom, pldul mdszer, eljrs, eszkz, sszettel. Eztn kvetkezik ezek kifejtse: milyen lpsbl/anyagokbl ll a fignypont elejn emltett dolog, s ezeket az alpontokat rekurzvan tovbbfejtik az gynevezett alignypontokban. Fontos megjegyezni, hogy egy
szabadalomnak specilis esetben tbb fignypontja is lehet. A mi kutatsaink csak a
fignypont szerkezetre s az egymsra val hivatkozsaikra korltozdtak.

330

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2 Az ignypontgrf ellltsa
Mirt volt szksgnk az ignypontgrf ellltsra, hiszen mr van mkd rendszer [2, 3], mely ezt a problmt megoldja? - tehetnnk fel joggal a krdst. Sajnos az
a rendszer, melyet mi talltunk (pattools.com/claim_tree.html) csak a grfot lltja
el, a hivatkozsok tpust viszont nem adja meg. Neknk pedig szksgnk volt erre
az informcira is a tovbbi kutatshoz.
Az ignypontok kztti kapcsolatot az ignypontokban lv, regulris kifejezsekkel felismerhet, hivatkozsok/utalsok segtsgvel hatroztuk meg. Ezen hivatkozsok felhasznlsval ptettk fel az ignypontgrfokat. A kutatshoz rt programokat
az UIMA keretrendszerben [4, 5] rtuk.
2.1 Az ignypontgrf ellltsakor hasznlt hivatkozstpusok
Kutatsunk sorn 997 db A24F alosztlyba tartoz szabadalmat vizsgltunk. A szabadalmak ignypontszekcii sszesen 16812 darab ignypontot tartalmaztak. Az
albbi tblzat tartalmazza, hogy milyen hivatkozstpusokat klnbztettnk meg s
ezeknek milyen volt az eloszlsuk az ltalunk vizsglt 997 szabadalomban.
1. tblzat:A hivatkozstpusok megoszlsa az ltalunk vizsglt 997 szabadalom esetben.

Hivatkozstpus
Elforduls
root/nem hivatkozik
2 787
in claim #
3 277
of claim #
9 102
according to #
2 833
sszes hivatkozs 17 999
2.2 A ellltott ignypontgrfok ellenrzse
Nem llt rendelkezsnkre referenciakorpusz, gy egy meglv rendszerrel hasonltottuk ssze eredmnyeinket. A pattools.com/claim_tree.html cmen elrhet rendszer
ltal generlt grfokkal vetettk ssze a mi kimeneteinket. gy kzi ellenrzsre csak
akkor volt szksg, amikor klnbsget fedeztnk fl a kt kimenet kztt.

3 Fignypontok meghatrozsa az ignypontgf felhasznlsval


Ksbbi kutatsi tmt jelenthet, hogy a grfokat felhasznlva automatikusan detektlhatjuk a fignypontokat. Erre nagy szksgnk lesz, mert a K+F projektnkben a
ksbbi szemantikus elemzs kiindulpontjai minden esetben a fignypontok.

Szeged, 2011. december 12.

331

4 Hibaelemzshez szksges szablyrendszer kialaktsa


Az ignypontgrf megalkotsa utn a kapott grfokat elemezve 3 f hibatpust tudtunk megklnbztetni: 1) sajt magra hivatkozik az ignypont, 2) a hivatkozott
ignypont nem ltezik, 3) ugyanaz kt ignypont szma. Valamint feldertettnk lehetsges hibkat is, melyek nem minden esetben bizonyultak hibnak, gy ezek jelzse utn kzi ellenrzssel kellett eldnteni, hogy vals volt-e a jelzs. Ilyen volt pldul, ha egy ignypont az utna kvetkez ignypontra hivatkozik, vagy ha a hivatkozott fignypont s a hivatkoz ignypont kztt van fignypont.
A vizsglt 997 Amerikai Szabadalmi Hivatal ltal elfogadott szabadalomban az
albbi tblzatban felsorolt hibkat dertettk fl.
2. tblzat: A szabadalmakban feldertett hibk.

Hibatpus
Sajt magra hivatkozik az ignypont
A hivatkozott ignypont nem ltezik
Ugyanaz kt ignypont szma
sszes detektlt hiba

Elforduls
6
2
4
12

5 sszefoglals
Mdszernk ms rendszerrel val sszehasonltsa s a feldertett hibk elemzse azt
mutatja, hogy indirekt mdon bizonythat, hogy a rendszer kis hibval mkdik,
ezrt a ksbbiekben jl hasznlhat szabadalmak ignypontgrfjainak ellltsra.
Az ignypontgrfot felhasznlva tbb hibatpus kiszrhet s megllapthatak a
fignypontok is.

Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg.

Bibliogrfia
1. Vincze V., Nagy ., Klausz ., Almsi A., Kiss M.: Nyelvszeti problmk a szabadalmak
feldolgozsban. In: Tancs A., Vincze V. (szerk.): VII. Magyar Szmtgpes Nyelvszeti
Konferencia. Szegedi Tudomnyegyetem, Szeged (2010) 168179
2. Milton, H. W.: Method for preparing a claim tree in the preparation of a patent application.
In: Patent. Bloomfield Hills, MI, US (2008)

332

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3. Kahn, M. R.: Patent claim visualization system and method. In: Patent, Westampton, NJ,
US (2009)
4. Osenga, K.: Linguistics and patent claim construction. Rutgers Law Journal Vol. 38, No.
61 (2006) 61108
5. D. Ferrucci, A. Lally: UIMA by Example. IBM Systems Journal 43, No. 3 (2004) 455475
6. D. Ferrucci, A. Lally: UIMA: An Architectural Approach to Unstructured Information
Processing in the Corporate Research Environment. In: Journal of Natural Language
Engineering. (2004) 327348

Szeged, 2011. december 12.

333

Magyar NP-felismerk sszehasonltsa


Mihltz Mrton1
1

MTA Nyelvtudomnyi Intzet, 1068 Budapest, Benczr u. 33.


mmihaltz@gmail.com

Kivonat
Az eladsban szeretnnk bemutatni egy vizsglat eredmnyt, melynek clja a cikk
rsakor elrhet magyar nyelv szintaktikai elemzprogramok kirtkelse s sszehasonltsa. Az elemzst a mondatokban tallhat maximlis fnvi csoportok hatrainak felismersre korltoztuk, sszehasonltsi alapknt a Szeged Treebank 2.0 [1]
anyagt hasznltuk fel. A kvetkez NP-felismerket vetettk vizsglat al:
MetaMorpho fordtprogram szintaktikai elemzje [3]
NooJ [5] magyar NP-nyelvtan
Hunchunk gpi tanulsos NP-felismer [4]
A MetaMorpho magyar-angol fordtprogram forrsnyelvi szintaktikai elemz
komponense kzzel rt szablyokkal mkd jegystruktrs krnyezetfggetlen
nyelvtant hasznl. A Nyelvtudomnyi Intzetben fejlesztett NP-nyelvtan a NooJ keretrendszerben kszlt vges llapot automatk kaszkdja. A lexikai (morfolgiai)
elemzsi szinthez tbb klnbz megoldssal is teszteltk. A Hunchunk rendszer a
Szeged Treebanken tantott, maximum entrpis Markov-modell NP-felismershez.
A Szeged Treebank 6 klnbz tmakrbl (szpirodalom, iskolai fogalmazsok,
jsgcikkek, szmtstechnikai szvegek, jogi szvegek, gazdasgi s pnzgyi rvidhrek) 1,2 milli szvegszt tartalmaz 82 ezer mondatban, rszletes morfolgiai s
szintaktikai annotcival. A vizsglathoz egyestettk a mondatok halmazt, majd az
ismtldseket kiszrve 80,877 klnbz mondathoz jutottunk. Minden mondatot
kln, az eredeti szvegkrnyezete nlkl elemeztnk a vizsglt elemzprogramokkal, a tbbszr szerepl mondatokhoz az els elfordulsukhoz megadott annotcit
hasznltuk fel (anlkl, hogy megvizsgltuk volna, hogy a klnbz elfordulsok
elemzsei klnbznek-e egymstl.)
A kirtkels sorn minden mondatban megvizsgltuk, hogy az egyes elemzk ltal megadott maximlis NP-k kzl hny szerepelt a treebankben (pontossg), illetve
a treebank maximlis NP-i kzl hny tallhat az elemz kimenetben (feds), valamint megadtuk a kt rtk szoksos kombincijt is (F1-mrtk). Egyezsnek csupn a teljesen megegyez kezd- s zr terminlissal rendelkez NP-ket fogadtuk el,
a rszleges egyezseket ebben a vizsglatban ugyangy hibaknt kezeltk, mint a
teljesen rossz tallatokat. A mrseket minden elemzvel elvgeztk kln-kln a 6
korpusz-tmakr, illetve a 15 klnbz forrs mindegyikre is.
Az 1. tblzatban kzljk a NooJ keretrendszerben rt szintaktikai elemz kt klnbz morfolgiai elemzt hasznl vltozatnak sszehasonltst. Az 1. vltozat
a Magyar Nemzeti Szvegtr [7] s a morphdb.hu [6] anyaga alapjn kszlt morfo-

334

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

lgiai lexikont hasznlja, mg a 2. vltozat egy, a NooJ rendszerben kzzel rt morfolgiai elemz automatt. A 2. tblzatban a MetaMorpho s a NooJ elemz MNSZmorphdb.hu-s vltozatnak sszehasonltsa lthat.
1. tblzat: A NooJ elemz kt vltozatnak sszehasonltsa a teljes treebank anyagn.

Tmakr
Iskolai
Szm.tech.
Gazdasgi
Szpirodalom
Hrek
Jogi
Teljes korpusz:

P
43.61%
34.19%
28.85%
45.93%
35.16%
28.20%
36.51%

NooJ 1.
R
68.31%
52.25%
48.80%
68.19%
56.19%
51.34%
58.72%

F
53.23%
41.34%
36.26%
54.89%
43.25%
36.40%
45.02%

P
47.09%
27.86%
23.92%
43.87%
31.83%
22.58%
33.34%

NooJ 2.
R
67.52%
43.18%
41.32%
62.52%
50.43%
45.82%
53.47%

F
55.48%
33.87%
30.30%
51.56%
39.03%
30.25%
41.07%

2. tblzat: A MetaMorpho s a NooJ elemzk sszehasonltsa a teljes treebank anyagn.

Tmakr
Iskolai
Szm.tech.
Gazdasgi
Szpirodalom
Hrek
Jogi
Teljes korpusz:

MetaMorpho
P
R
F
65.50% 71.92% 68.56%
46.45% 56.72% 51.07%
43.78% 53.59% 48.19%
63.91% 67.27% 65.55%
53.03% 58.43% 55.60%
35.21% 45.37% 39.65%
52.14% 60.25% 55.90%

P
43.61%
34.19%
28.85%
45.93%
35.16%
28.20%
36.51%

NooJ 1.
R
68.31%
52.25%
48.80%
68.19%
56.19%
51.34%
58.72%

F
53.23%
41.34%
36.26%
54.89%
43.25%
36.40%
45.02%

A 3. tblzat a Hunchunk NP-felismer s a msik kt rendszer sszehasonltst


foglalja ssze. Mivel a Hunchunk rendszert a Szeged Treebank mondatainak egy rszn tantottk be, ehhez az sszehasonltshoz nem a teljes korpuszt, csak a tantshoz fel nem hasznlt, a szerzk ltal a kirtkelsre elklntett 16.989 mondatot
hasznltuk fel. Ezek kzl kihagytunk 142 ismtld mondatot, illetve 494 mondatot
a Hunchunk kimenetbl technikai okok miatt nem tudtunk az eredeti korpuszban
azonostani, gy az sszehasonlts a maradk 16.353 mondat segtsgvel trtnt.
3. tblzat: A Hunchunk, a MetaMorpho s a NooJ elemzk sszehasonltsa a treebank
kirtkelsre elklntett rszn.

HunChunk
MetaMorpho
NooJ 1.
P
R
F
P
R
F
P
R
F
78.67% 84.99% 81.71% 54.39% 61.52% 57.73% 37.57% 59.28% 45.99%

A NooJ elemz kt vltozatnak sszehasonltsbl egyrtelmen kitnik, hogy


az MNSZ-morphdb.hu morfolgiai anyagt hasznl vltozat teljest jobban (1. tbl-

Szeged, 2011. december 12.

335

zat). A MetaMorpho elemz ennl a vltozatnl szignifiknsan jobban teljest (2. tblzat). A Treebank szempontjbl tovbbi rdekessg, hogy mindkt rendszer az iskolai fogalmazsok s a szpirodalmi alkotsok szvegein teljest a legjobban s a
jogi szvegeken a legrosszabbul.
A gpi tanulsos rendszer kirtkel halmazn vgzett mrsek (3. tblzat)
ugyanezt a sorrendet mutatjk a kt szablyalap rendszer kztt, az lre viszont a
Hunchunk rendszer kerl szignifikns elnnyel. Mindenkppen szksges azonban
megemlteni, hogy a gpi tanulsos rendszer teljestmnye szempontjbl az alkalmazott technolgin tl nem elhanyagolhat szempont, hogy ez a rendszer a Szeged
Treebank a kirtkel halmaz mondataihoz hasonl mondatain tanulva a kirtkel korpusz inherens sajtossgaira jobban r volt hangoldva, mint a msik kt, a
korpusz anyagtl fggetlenl fejlesztett rendszer.
A bemutatott NP-felismerk kirtkelsben tovbbi lehetsges munka, ha a korrektebb sszehasonlts rdekben az elemzk s a Treebank klnbz koncepcikkal kszlt nyelvtanai kztt megtalljuk a legnagyobb kzs rszhalmazt, s az ezzel
megadhat elemzsekre reduklva ismteljk meg a kirtkelst. Nhny plda ilyen
nyelvtani klnbsgekre: a MetaMorphoban a fnvi igeneves szerkezetek NP-knek
szmtanak, a Szeged Treebankben nem; a nvutk a MetaMorphoban rszei az NPknek, a Treebankben nem; az olyan birtokos szerkezetek, ahol a birtok kzvetlenl
kveti a birtokot, a Treebankben kt NP-nek szmtanak, a MetaMorpho s a NooJ
nyelvtanban viszont van a kettt egyest NP; a MetaMorphoban a fnvi fejhez
kapcsold vonatkoz mellkmondat rsze a maximlis NP-nek, a Treebankben nem
stb. A rszleges tallatok slyozott figyelembevtele s a hibatpusok vizsglata szintn tovbbi lehetsgek.

Bibliogrfia
1. Csendes D., Alexin Z., Csirik J., Kocsor A.: A Szeged Korpusz s Treebank verziinak trtnete. III. Magyar Szmtgpes Nyelvszeti Konferencia (MSZNY 2005) kiadvnya, Szeged, december 8-9. (2005) 409412
2. Oravecz, Cs., Dienes, P.: Efficient Stochastic Part-of-Speech tagging for Hungarian. In:
Proceedings of the Third International Conference on Language Resources and Evaluation.
Las Palmas (2002) 710717
3. Prszky, G., Tihanyi; L., Ugray, G.: Moose: a robust high-performance parser and
generator. In: Proceedings of the 9th Workshop of the European Association for Machine
Translation, Foundation for International Studies. La Valletta, Malta (2004) 138142
4. Recski G., Varga A., Zsder A., Kornai A.: Fnvi csoportok azonostsa magyar-angol
prhuzamos korpuszban. In: VI. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged
(2009)
5. Silberztein, M.: NooJ : an Object-Oriented Approach. In: Muller, C., Royaut, J., Silberztein
M. (Eds): INTEX pour la Linguistique et le Traitement Automatique des Langues, Cahiers
de la MSH. Presses Universitaires de Franche-Comt, Ledoux (2004) 359369
6. Trn, V., Halcsy, P., Rebrus, P., Rung, A., Simon, E., Vajda, P.: morphdb.hu: magyar morfolgiai nyelvtan s sztri adatbzis. In: III. Magyar Szmtgpes Nyelvszeti Konferencia. Szeged (2005)
7. Vradi, T.: The Hungarian National Corpus. In: Proceedings of the Second International
Conference on Language Resources and Evaluation. Las Palmas (2002) 385389

336

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Javban taggelnk
Novk Attila1, Orosz Gyrgy2, Indig Balzs2
1

MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5.


novak@morphologic.hu
2
Pzmny Pter Katolikus Egyetem Informcis Technolgiai Kar,
oroszgy@itk.ppke.hu
dlazesz@gmail.com

Kivonat: A szfaji egyrtelmsts (POS tagging) a szmtgpes nyelvfeldolgozs egyik alapfeladata. A feladat megoldsra szmtalan algoritmus sok klnbz programozsi nyelven megrt implementcija ltezik. Az egyes szvegszavakhoz rendelend morfolgiai cmkk megllaptsa azonban csak az
egyik rszfeladat, amelyet a szveg morfolgiai annotcijakor el kell vgezni:
a cmkn kvl a sztvet is azonostani kell. A nem tl gazdag morfolgij
analitikus angol nyelv esetben egy szfaji egyrtelmst s egy egyszer tvest egyms utn kapcsolsa elfogadhat eredmnyt ad. A magyarhoz hasonl ragoz nyelvek esetben azonban sokkal jobb eredmnyt kapunk, ha a szfaji egyrtelmstst s a szt megllaptst egyarnt elvgz morfolgiai
elemzt tartalmaz integrlt eszkzt hasznlunk.

1 Bevezets
Cikknkben egy olyan j nylt forrskd eszkzt mutatunk be, amely egyszerre
vgzi el a szfaji egyrtelmstst s a szt megllaptst, teht teljes egyrtelmstett morfolgiai annotcit ad. Az eszkz szfaji egyrtelmst algoritmusa a TnT s
HunPoS taggerekben implementlt rejtett Markov-modell (HMM) algoritmuson alapul. Emellett tartalmaz egy olyan felletet, amelynek hasznlatval morfolgiai elemz illeszthet hozz, amely nemcsak a tantanyagban nem ltott szavak morfolgiai
cmkjnek egyrtelmstst teszi sokkal pontosabb, hanem a szavak sztvt is
megadja. Az eszkzt Java nyelven implementltuk.

2 A korpusz reprezentativitsa
Ha a magyarhoz hasonl agglutinl nyelveket az angollal hasonltjuk ssze abbl a
szempontbl, hogy egy adott mret korpusz milyen arnyban tartalmazza az adott
nyelv lehetsges szalakjait, akkor azt tapasztaljuk, hogy mg egy azonos mret
korpuszban sokkal tbb klnbz szalak szerepel az agglutinl nyelvek esetben,
mint az angolban, ezek ugyanakkor mgis sokkal kisebb rszt fedik a korpuszban
szerepl sztvek lehetsges alakjainak. A korpusz teht sokkal kevsb reprezenta-

Szeged, 2011. december 12.

337

tv a szkincs szempontjbl, mint az angol esetben. 10 milli szavas korpuszmret


esetben pldul az angolban ltalban 100 000-nl kevesebb klnbz szalakot
tallunk, ugyanakkor a magyarban jval 800 000 feletti a klnbz szalakok szma. Ugyanakkor mg az angolban egy nylt szosztlyba tartoz sznak legfeljebb 4
6 alakja van, a magyarban tbb szz vagy tbb ezer klnbz alakot kapunk attl
fggen, hogy a produktv szkpzs eseteivel is szmolunk-e. Termszetesen a sokkal tbb lehetsges szalak azt jelenti, hogy a lehetsges szfaji cmkk szma is
jval magasabb a magyar esetben (tbb ezer szemben az angol nhny tucat cmkjvel). Ezrt egy magyar korpusz a szalakok szintjn tbb szempontbl is sokkal
hinyosabban reprezentlja a nyelvet, mint az angol esetben: a szvegekben szerepl
lemmk lehetsges ragozott alakjainak tlnyom tbbsge teljesen hinyzik; az elfordul szalakok is sokkal kevesebbszer szerepelnek; sokkal kevesebb plda van az
adott konkrt morfolgiaicmke-sorozatokra, st a lehetsges cmkk nagy rsze egyltaln nem szerepel a korpuszban.
A tantanyagban nem ltott szavak kezelsre (illetve pl. a maximum entrpia
modellt hasznl taggerek esetben a tantanyagban ltott szavak esetben is) a
szfaji egyrtelmst eszkzk ltalban tartalmaznak valamilyen mechanizmust,
amely a szavak vgzdseit vizsglja a cmke megjsolshoz. A magyar esetben az
elfordul hossz toldalksorozatok miatt jval hosszabb szvgek figyelembevtelre van szksg, mint a nem agglutinl nyelvek esetben (ez klnsen gy van, ha a
ragok mellett bizonyos produktv kpzket is azonostani szeretnnk).

3 A morfolgiai elemz hatsa


A magyarhoz hasonl nyelvek esetben a rendszer tantanyagban nem szerepl
szalakok nagy rsze olyan sz, amelynek ms ragozott alakjai elfordulnak a tantanyagban. Oravecz s Dienes [5], valamint Halcsy s mtsai. [4] bemutattk, hogy
morfolgiai elemz felhasznlsval az ltala ismert szalakok esetben sokkal pontosabban meg lehet llaptani a tantanyagban nem szerepl szavak cmkjt, mint
pusztn a tantanyagon betantott nyelvfggetlen szvgzds-felismervel. Az
utbbi tves javaslatait a morfolgiai elemz kimenetvel megszrve a tantanyagban nem ltott szavakra a szfaji egyrtelmsts pontossga hatkonyan javthat. A
morfolgiai elemz pontossgot javt hatsa annl jelentsebb, minl kisebb a rendelkezsre ll kzzel egyrtelmstett tantanyag.
Az imnt idzett eredmnyek nem olyan rendszerrel kszltek, amely valban integrlt morfolgiai elemzt tartalmazott volna, hanem az annotland szvegen offline lefuttatott morfolgiai elemz ltal visszaadott cmkket tblzat formjban
betltve szimulltk a morfolgiai elemz hatst. Ez a fajta megolds azonban nem
hasznlhat bizonyos alkalmazsokban, pldul ha a taggert webszolgltatsknt
szeretnnk zemeltetni.
Tbbek kztt ezrt dntttnk gy, hogy olyan eszkzt implementlunk, amely
integrlt morfolgiai elemzt tartalmaz. A morfolgiai elemzt nemcsak arra hasznljuk, hogy a tantanyagban nem ltott szavak cmkzsnek pontossgt javtsuk,
hanem szksgnk van r a sztvek megllaptshoz is. A morfolgiai elemz
szmra sem ismert szavak kezelse (legfkppen a sztvk megllaptsa) morfo-

338

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

lgiai guesser (toldalkelemz) beptsvel oldhat meg. Ezrt az eszkz kt csatolfelletet tartalmaz: egyet a morfolgiai elemz, egyet pedig a guesser illesztsre.

4 Az optimlis t kivlasztsa
A morfolgia s fleg a sokkal lazbb megszortsokkal dolgoz guesser gyakran
tbb olyan lehetsges tjelltet is visszaad, amely a tagger ltal vlasztott cmkvel
kompatibilis. Sokszor teht nem trivilis a helyes szt kivlasztsa. A magyarban az
egyik ilyen tbbrtelmsgi osztly az az azonos tv ikesiktelen igeprok. A lexiklis tr/trik, (fel)dolgoz/dolgozik tpus prok mellett a produktv -z/-zik kpzpr
szinte korltlan mennyisgben hozza ltre az ilyen tpus tbbrtelmsgeket. Emellett a kt ragozsi paradigma lnyegben csak abban az egyetlen E/3 jelen idej kijelent md alakban tr el, amely a lemmt adja, az sszes tbbi igealak tbbrtelm a
t szempontjbl, ezrt egyben ez a leggyakoribb olyan ttbbrtelmsg-tpus,
amely a morfolgiai elemz ltal felismert szalakok krben fellp.
A t egyrtelmstsre legegyszerbb alapmodellknt egy egyszer unigram modellt hasznltunk. Ebben a modellben a szalakknt leggyakrabban elfordul alakot
vlasztjuk a lehetsges tvek kzl. Ennek az egyszer modellnek elnye, hogy nincs
szksg a statisztika alapjt kpez korpusz semmifle annotcijra. Ezrt nem kell
a rendelkezsnkre ll annotlt korpuszra szortkoznunk, hanem tetszleges mret
anyagot hasznlhatunk, mg maga az annotland szveg is hozzadhat a statisztika
alapjt kpez anyaghoz. Ez a modell magyarra elg j teljestmnyt ad az ismeretlen
szavak tlnyom rszt ad nvszk esetben, mert ezeknek a leggyakoribb alakja a
toldalkolatlan alanyeset.
Az egyik leggyakoribb tbbrtelmsgi osztly, ahol az egyszer tvlasztsi algoritmus hibzik, a magas hangrend ikesiktelen igeprok esete (ahol az ik nlkli ige
trgyas). Ezeknek az ik vg alakja is tbbrtelm: T/3 alany hatrozott trgyas
alak is lehet, s az ennl az igeosztlynl sokszor gyakoribb az ik nlkli lemmnl
(pl. a nevezik alak 4-szer olyan gyakori, mint a nevez). Ezt a problmt rszben lehet
kezelni egyrszt gy, hogy a morfolgiai elemzben letiltjuk a nevez-hez hasonl
gyakori igk produktv kpzssel ellltott felbontst (ezzel a nv+ezik = nevezik
kpzett alakot). Emellett az egyszer unigram szalak-gyakorisgi modell annotlt
korpuszbl vett adatokkal nyelvspecifikus mdon kombinlva, illetve a tvek megelemzse utn a tagger ltal vlasztott elemzssel inkompatibilis tvek kiszrsvel a
tmeghatrozs pontossga nvelhet.

5 Morfolgiailag annotlt korpusz ptse nullrl


Azon nyelveknek jelents rsze, amelyekre nem lteznek kzzel annotlt tantanyagok, a magyarhoz hasonlan bonyolult morfolgival rendelkezik. Ezen nyelvekre
morfolgiailag annotlt egyrtelmstett korpusz ltrehozsra egy olyan iteratv
eljrs tnik a leghatkonyabb mdszernek, amelynek sorn morfolgiai elemz
ltrehozst kveten a rendelkezsre ll korpusz egy kis rszhalmazt elemeztetjk,

Szeged, 2011. december 12.

339

s ezt kzzel egyrtelmstve a taggert betantjuk. A korpusz kvetkez rszlett az


gy betantott taggerrel elegyrtelmstjk, majd az annotcit kzzel javtjuk, ezt a
folyamatot addig ismtelve, amg elegend annotlt korpuszhoz nem jutunk. Nullrl
ptett annotlt korpuszok esetben a minimlis mret tantanyag miatt a korbban
vzolt adathiny-problma mg slyosabb. Minl kevesebb tantanyag ll rendelkezsre, annl jelentsebb az integrlt morfolgiai elemz jtkony hatsa az automatikus morfolgiai cmkzs pontossgra. Az annotci kzi javtsa is sokkal hatkonyabban vgezhet, ha a morfolgiai elemz egyb elemzsei is rendelkezsre llnak
a tagger ltal vlasztott elemzs mellett, s egyszeren vlasztani lehet az elemzsek
kzl, mint ha tnylegesen mindig kzi javtgatsra van szksg.
Az iteratv korpuszannotcis eljrs hasznlhatsgnak fontos felttele, hogy a
tagger jratantsa ne vegyen ignybe tlzottan hossz idt. A betants sebessgnek
szempontjbl a rejtett Markov-modell alap szfaji cmkz eszkzk nagysgrendekkel fellmljk a bonyolultabb maximum entrpia vagy CRF-alap algoritmusokat, amelyeknek betantsi ideje jval hosszabb. (Konkrtan a HMM-alap HunPoS
[4] betantsa a Szeged korpuszon [6] kevesebb, mint egy percet vesz ignybe, szemben a maximum entrpia alap OpenNLP hat rs betantsi idejvel ugyanazon a
gpen.) Mindemellett a HMM-alap eszkzk szmos nyelvre tbbek kztt magyarra is az egyrtelmsts pontossgban is len jrnak.
Br a magyar nyelvre mr ltezik egy olyan nyelvspecifikus eszkz, amely tartalmaz morfolgiai elemzt, s platformfggetlen implementcival rendelkezik: a
magyarlanc [7], ennek azonban nyelvspecifikus mivolta mellett komoly htrnya az
alapjul szolgl Stanford POS tagger nagy erforrsignye s a betants lasssga.

6 Az j eszkz
Az elrhet HMM-alap megoldsok nem tartalmaznak beptett morfolgiai elemzt. A npszer s megenged licensz HunPos tagger kiegszthet lenne a kvnt
funkcionalitssal, de az implementcijhoz hasznlt programozsi nyelv csekly
ismertsge ennek (s a tagger integrlsnak) korltjt jelenti. Egy, az iparban elterjedtebb nyelv hasznlata knnyebb szerves integrcit tesz lehetv olyan
nyelvfggetlen keretrendszerekhez, mint az UIMA vagy a GATE. Ezrt dntttnk
egy j, a tantsi sebessgt tekintve jl hasznlhat, nyelvfggetlen, morfolgiai
elemzvel knnyen integrlhat szfaji egyrtelmst implementcija mellett. Az
j, nylt forrskd, Java nyelven implementlt, rejtett Markov modellen alapul
POS-tagger, melynek alapjul a TnT [1] s a HunPos rendszerek szolglnak, a korbban emltett problmk kikszblse rdekben a szfaji egyrtelmsts s a sztvezs problmjt egy feladatknt kezeli. A rendszer kpes morfolgiai elemz s
guesser aktv hasznlatra a szfaji egyrtelmsts kzben, tovbb az elemzs kimenett a szt meghatrozsra is felhasznlja. Az eszkzt olyan alkalmazsprogramozsi fellettel lttuk el, amelyen keresztl egyszeren illeszthet hozz tetszleges morfolgiai elemz. Mivel gyakran az egyrtelmstett taghez tartoz t sem
egyrtelm (klnsen nem az azoknak a szalakoknak az esetben, amiket a morfolgiai elemz nem ismer, hanem a lehetsges tveiket a guesser lltja el), olyan

340

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

mechanizmussal is kiegsztettk a rendszert, amely a lehetsges tbbrtelm tvek


kzl is hatkonyan vlaszt.

Bibliogrfia
1. Brants, T.: TnT A Statistical Part-of-Speech Tagger. In: Proceedings of the sixth conference on Applied natural language processing (2000)
2. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizci a Szeged Treebank
2.5-ben. In: VII. Magyar Szmtgpes Nyelvszeti Konferencia (2010) 349353
3. Halcsy, P., Kornai, A., Oravecz, Cs., Trn, V., Varga, D.: Using a morphological analyzer
in high precision POS tagging of Hungarian. In: Proceedings of LREC (2006) 22452248
4. Halcsy, P., Kornai, A., Oravecz, Cs.: HunPos: an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions (2007) 209212
5. Oravecz, Cs., Dienes, P.: Efficient Stochastic Part-of-Speech Tagging for Hungarian. In:
Third International Conference on Language Resources and Evaluation (2002) 710717
6. Vincze, V., Szauter, D., Almsi, A., Mra, Gy., Alexin, Z., Csirik, J.: Hungarian Dependency Treebank. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation (2010)
7. Zsibrita, J., Nagy, I., Farkas, R.: Magyar nyelvi elemz modulok az UIMA keretrendszerhez.
In: VI. Magyar Szmtgpes Nyelvszeti Konferencia (2009) 394395

Szeged, 2011. december 12.

341

A HunOr magyar-orosz prhuzamos korpusz


Szab Martina Katalin1, Schmalcz Andrs2, Nagy T. Istvn2, Vincze Veronika3
1Szegedi

Tudomnyegyetem, Magyar Nyelvszeti Tanszk


szabomartinakatalin@gmail.com
2Szegedi Tudomnyegyetem, Informatikai Tanszkcsoport
schmalcz.andras@stud.u-szeged.hu, nistvan@inf.u-szeged.hu
3 SZTE-MTA Mestersges Intelligencia Kutatcsoport
vinczev@inf.u-szeged.hu

Kivonat: A jelen dolgozatban a HunOr, egy eleddig hinyz digitalizlt magyarorosz prhuzamos korpusz ltrehozsrl szmolunk be. A dolgozat a
korpuszptsi munka cljrl, jelenlegi llsrl, az eddigi munka sorn szerzett tapasztalatokrl, a munka folyamatrl s eszkzeirl, valamint a HunOr
korpusz adatairl igyekszik tfog kpet adni. Az ismertets sorn rszletesen
szlunk azokrl az elmleti s gyakorlati jelleg problmkrl, amelyek az eddig elvgzett s a jelenleg foly feldolgozsi munkk (mondatra bonts, mondatszint prhuzamosts, NE-annotls) sorn elmleti vagy gyakorlati szempontbl megoldsra vr feladatknt lptek fel.

1 Bevezets
A HunOr korpusz autentikus magyar nyelv szvegeket, valamint azok orosz fordtsait, illetve autentikus orosz nyelv szvegeket, valamint azok magyar fordtsait
tartalmazza. A korpusz ltrehozsnak elsdleges clja, hogy vizsglati anyagot teremtsnk a magyarorosz, illetve az oroszmagyar fordtskutats szmra. Ugyanakkor, mivel a korpusz nem csupn fordtott, hanem autentikus szvegeket is tartalmaz mindkt nyelven, szmos, egyb tudomnyterlet krdskrbe tartoz nyelvszeti problma szmtgppel tmogatott vizsglatt is lehetv fogja tenni. A korpusz mindemellett klnfle szmtgpes nyelvszeti alkalmazsokhoz, pldul a
gpi fordtshoz is kitn segdletet biztosthat.

2 A HunOr korpusz szveganyaga


A korpusz feldolgozott szvegllomnya jelenleg valamivel tbb mint 75 000 szvegszt tartalmaz, azonban folyamatos bvts alatt ll. A korpusz szvegei klnbz tpus forrsbl (internetes kiadvny, knyvformtum stb.) szrmaznak.
A HunOr a szvegmfajokat illeten hrom kisebb egysgre bonthat: szpirodalmi, tudomnyos, valamint hivatalos alkorpuszra. Hamarosan azonban remnyeink

342

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

szerint sajtnyelvi, a Russzisztika Kzpont Orosz Negyed cm kiadvnyainak szvegeivel is bvl a korpusz.
A szpirodalmi alkotsok kzl a korpusz jelenleg a Kladbi
enskie istorii cm
mvet tartalmazza, amelynek szerzje a Magyarorszgon egyelre csak lnven,
Borisz Akunyinknt ismert Grigorij Cshartisvili. A novellkat s esszket tartalmaz
knyv 2005-ben jelent meg. A mvet 2008-ban Temeti trtnetek cmmel Bagi Ibolya s Sarnyai Csaba ltettk magyar nyelvre. A korpuszban tallhat tudomnyos
szvegek a szpirodalomhoz kapcsold, orosz forrsnyelv elemz tanulmnyok:
Nyikolaj Bergyaev egy hosszabb llegzet, 1990-ben, O ve
no-babjom v russkoj
duse cmen publiklt mvnek egy rszlete, valamint Vitalij Orlov Hranitel
nenunih ve
ej cm, 1999-es tanulmnya. A fordtsokat 2007-ben Rgczi Ildik, valamint 2009-ben Jzsa Gyrgy Zoltn ksztettk. A hivatalos alkorpusz a Magyar Klgyminisztrium honlapjn kzztett, Tnyek Magyarorszgrl cm kiadvny kvetkez szvegeibl ll: A magyar kultra ezer esztendeje; Nemzeti jelkpek,
nemzeti nnepek; Magyar Nobel-djasok egy jobb vilgrt.
Az albbi tblzat bemutatja a HunOr jelenlegi feldolgozott llomnynak sszefoglal adatait:
1. tblzat: A HunOr korpusz adatai.

Szvegtpus
Szpirodalom
Tudomnyos
Hivatalos
sszesen

Szvegszavak
orosz magyar
52 798 57 980
7 014
7 483
15 924 14 412
75 736 79 875

Mondatok
Fordtsi irny
orosz
magyar
3 255
3 313orosz magyar
360
348orosz magyar
710
561magyar orosz
4 325
4 222

3 A korpusz feldolgozsa
A korpusz ksbbi hasznosthatsga rdekben szksgesnek bizonyult a szvegek
mondatokra bontsa, mondatszint prhuzamostsa, illetve ez utbbival sszefggsben a szvegek tulajdonnvi annotlsa.

3.1 A szvegek mondatokra bontsa s mondatszint prhuzamostsa


A korpusz mondatokra bontsa, valamint mondatszint prhuzamostsa szksgess
tette a mondatnak mint a kt mvelet alapegysgnek a pontos meghatrozst.
A mondat meghatrozsnak a feladata korntsem trivilis; problematikusak
ugyanis az olyan kifejezsek, amelyekben a kettsponttal zrd szerzi szavakat egy
nagy kezdbetvel kezdd idzet (egyenes beszd), egy dialgus, egy nll mondatokbl ll felsorols vagy egy kifejt magyarzat kveti. E szvegtpusok kzl az
idzs s a dialgus a szpirodalmi, a felsorols s a kifejt magyarzat pedig a tudomnyos s a hivatalos stlus szvegek gyakori szerkesztsbeli sajtsga. A HunOr
korpusz mfaji sszettele okn fontos feladat volt teht, hogy egysges rendszert

Szeged, 2011. december 12.

343

dolgozzunk ki a kettsponttal szerkesztett kifejezsek annotlshoz. A problma


megoldsnak cljbl elvgeztk az emltett szvegtpusok magyar s orosz helyesrsi gyakorlatnak sszevet vizsglatt, valamint ttekintettk a vonatkoz orosz s
magyar irodalom megjegyzseit [3, 11, 13, 14]. A tapasztaltak rszletes bemutatstl
a dolgozat keretei miatt most eltekintnk.
A kettspont utn kis kezdbetvel kezdd kifejezsek annotlsa nem volt problematikus szmunkra, azokat egysgesen egy mondatba tartoznak jelltk az eltte
ll, kettsponttal vgzd szerzi bevezetvel. A nagy kezdbetvel kezdd, kettspont utn ll idzetek, dialgusok, felsorolsok s lersok annotlsa azonban
mr krdses volt. A knlkoz lehetsgek a kvetkezk voltak:
a) a kettsponttal zrd kifejezst egy mondatknt kezeljk az ltala bevezetett
mondattal; amennyiben a kettsponttal zrd kifejezst tbb mondatbl ll szvegrsz kveti, gy a szerz szavait egy mondatknt kezeljk annak els mondatval,
majd a tbbi mondatot nll mondatokknt annotljuk;
b) a kettsponttal zrd kifejezst, valamint az ltala bevezetett, egy vagy tbb
mondatbl ll szvegrszt egytt egyetlen mondatknt kezeljk;
c) a kettsponttal zrd kifejezst nll mondatknt annotljuk csakgy, mint az
ltala bevezetett mondatot, vagy a tbb mondatbl ll szvegrsz minden egyes
mondatt.
Vizsgljuk meg a fenti szegmentlsi lehetsgeket az albbi pldn [3] keresztl!
E vizsglatoknak kt formja terjedt el: Az egyik vizsglati forma az
oxitocinterhelses teszt. A mhkontrakcik cskkentik az uterus s az intervillzus tr
vrramlst. A msik vizsglati forma a fiziklis terhelses teszt. Fizikai megterhelsre a vzizomzat vrtramlsa fokozdik, tbbek kztt a myometrium rovsra.
A lehetsges mondatra bontsi megoldsok teht a kvetkezk:
a) <S> E vizsglatoknak kt formja terjedt el: Az egyik vizsglati forma az
oxitocinterhelses teszt. </S> <S> A mhkontrakcik cskkentik az uterus s az
intervillzus tr vrramlst. </S> <S> A msik vizsglati forma a fiziklis terhelses teszt. </S> <S> Fizikai megterhelsre a vzizomzat vrtramlsa fokozdik,
tbbek kztt a myometrium rovsra. </S>
b) <S> E vizsglatoknak kt formja terjedt el: Az egyik vizsglati forma az
oxitocinterhelses teszt. A mhkontrakcik cskkentik az uterus s az intervillzus tr
vrramlst. A msik vizsglati forma a fiziklis terhelses teszt. Fizikai megterhelsre a vzizomzat vrtramlsa fokozdik, tbbek kztt a myometrium rovsra.
</S>
c) <S> E vizsglatoknak kt formja terjedt el: </S> <S> Az egyik vizsglati forma az oxitocinterhelses teszt. </S> <S> A mhkontrakcik cskkentik az uterus s
az intervillzus tr vrramlst. </S> <S> A msik vizsglati forma a fiziklis terhelses teszt. </S> <S> Fizikai megterhelsre a vzizomzat vrtramlsa fokozdik,
tbbek kztt a myometrium rovsra. </S>

344

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Az (a) s a (b) megoldst tmogatja a magyar s az orosz korpuszannotlsi gyakorlat [4, 7, 12, 15], amely szerint minden kettspontot tagmondatok kztti rsjelknt annotlnak a ksztk. A mdszer azonban ellentmondsosnak tnik, amennyiben szem eltt tartjuk Rozental [13] megjegyzst, miszerint az egyenes beszd megfelel az nll mondat szintaktikai kritriumainak, illetve azt, hogy mind a magyar,
mind az orosz szerzk [3, 11, 14] klnbsget tesznek az nll mondatokbl, valamint a nem nll mondatokbl ll felsorolsok kztt. Amennyiben a korpuszannotlsi gyakorlatot kvetnnk teht, gy kett vagy tbb, szintaktikai szempontbl
nll mondatot egyetlen mondatknt jellnnk be a korpuszban.
Az (a) megoldst tmogatja tovbb az orosz helyesrsi gyakorlat; az orosz szerzk ugyanis a magyar gyakorlattal ellenttben [3] nem ismerik el a kettspontot
mondatvgi rsjelknt: a mondatzrk kztt rendre a pontot, a felkiltjelet, a krdjelet, valamint a hrom pontot soroljk fel [11, 13, 14]. Amennyiben teht az orosz
helyesrsi gyakorlathoz ragaszkodnnk, gy a pontokat mondatvgi, a kettspontokat pedig tagmondatok kztti rsjelknt kezelnnk, azaz az (a) megoldst alkalmaznnk a korpuszban. Az eljrsmd vitathat volta azonban kitkzni ltszik azokban
az esetekben, ahol a szerz szavai tbb mondat vezetnek be. Vlemnynk szerint
ugyanis semmifle klnbsg nem mutatkozik a szerz szavai s az azokat kzvetlenl kvet mondat, valamint a szerz szavai s az azokat nem kzvetlenl kvet
mondat (vagy mondatok) kztt, ami alapul szolglhatna ehhez a sajtos annotlsi
mdhoz.
A (c) megoldst tmogatjk az (a) s a (b) megoldssal szemben tett kritikai szrevtelek, ugyanakkor a (c) annotlsi md ellen szl az emltetteknek megfelelen a
korpuszannotlsi gyakorlat, valamint az, hogy az orosz nyelvben nem ismerik el a
kettspont esetleges mondatvgi sttust. Ugyanakkor grammatikinkban nem tallni
olyan kritriumot, amely lehetetlenn tenn a kettsponttal vgzd mondat feltevst, pl: [A mondatot] a szerkeszts klnfle nyelvtani eszkzeinek viszonylagos
lezrtsga jellemez [8]; formai szempontbl elssorban az intonci egysge, lezrtsga jellemzi a magyar mondatot [6]; A mondat egy vagy tbb szbl ll, zrt
intoncis szerkezet jellemzi [2].
Az ismertetett rveket s ellenrveket megfontolva a HunOr korpuszban vgl a
(c) megolds alkalmazsa mellett dntttnk. Az ltalunk vlasztott eljrsmd teht
a kvetkez: azokat a kettspontokat, amelyek nagy kezdbetvel kezdd, egy vagy
tbb mondatbl ll szvegrszt vezetnek be, mondatvgi rsjelekknt kezeljk a
korpuszban, s a kettsponttal vgzd szerzi bevezet utni mondatot vagy mondatokat nll egysgekknt annotljuk.
Az annotci az elmondottak alapjn teht szakt a hazai s az orosz korpuszannotlsi gyakorlattal. Ugyanakkor, mivel elmleti megfontolsokon alapszik, teoretikus
szempontbl a tbbi lehetsges megoldsnl helytllbbnak tekinthet. Mindemellett
rdemes kiemelni azt is, hogy a mdszer az egysgessge folytn nem teremt krdses eseteket, amelynek ksznheten annak korpuszbeli alkalmazsa mind az
annottori dntshozatal, mind az automatikus munka szempontjbl problmamentesen megoldhat.
A mondatok prhuzamostsban a fordtsi egysg hatfle megfelelstpust szoks megklnbztetni [1, 5, 10], a HunOr korpusz ptse sorn azonban egy hetedik
tpust is detektltunk ((g)-vel jellve). A ht megfelelstpus teht a kvetkez:

Szeged, 2011. december 12.

345

a) 1-1 megfelels: egy forrsnyelvi mondat egy clnyelvi mondatnak felel meg;
b) 0-1 megfelels, azaz a beszrs;
c) 1-0 megfelels, azaz a kihagys;
d) 1-N megfelels, azaz a rszekre bonts;
e) N-1 megfelels, azaz az sszevons;
f) N-M megfelels, amely a mondathatr eltoldsbl fakad;
g) N=M megfelels, amely a mondatok sorrendjnek a cserjbl fakad: a forrsnyelvi szveg kt, (a) (b) sorrend mondatnak megfelelje a clnyelv szvegben
(b) (a) sorrendben tallhat meg.
A hetedik megfelelstpust az albbi, a HunOr korpuszbl szrmaz plda szemllteti:
Dombrovszkij ezt a verset igen szerette.
Kit vulkn edzett j elre
S a Nemezis kezbe tett:
A bossz kse vagy szabadsg titkos re,
Brk brja bn s jogtiprs felett!
    
      "#,
$"# # %, &' %,
* " " *  6"#.
7 9    @ X &.

3.2 A tulajdonnvi annotls


Az automatikus prhuzamostst segtik a szvegben tallhat horgonyelemek, pldul a szmok s tulajdonnevek [9], gy a szvegekben kt fggetlen annottor bejellte
a tulajdonneveket. Az annotci sorn a ngy klasszikus tulajdonnvosztlyt alkalmaztuk: szemly, szervezet, hely s egyb. Az annotcik kzti egyetrtsi rta a
magyar anyagon 0,8695 s 0,9609, az oroszon pedig 0,7995 s 0,9318 volt (mrtkben s mikro F-mrtkben megadva). A tulajdonnevek kzi annotlsa lehetv teszi tovbb klnfle magyar s orosz tulajdonnv-felismer rendszerek teljestmnynek mrst.
A 2. tblzatbl kiderl, hogy a kt nyelvben eltr gyakorisggal fordulnak el
a tulajdonnevek, ami valsznleg egyrszt nyelvek kzti klnbsgeknek ksznhet: lteznek sajtos, csak az adott nyelvben tulajdonnvnek szmt elemek, mint
pldul az orosz @  @ , melynek magyar megfelelje (emberisg) nem szmt
tulajdonnvnek. Msrszt a fordtsnak ksznheten stilisztikai klnbsgek is lehetnek a szvegek kztt: pldul az egyik nyelvben szerepl tulajdonnv helyett
llhat nvms a msik nyelv szvegben.

346

VIII. Magyar Szmtgpes Nyelvszeti Konferencia


2. tblzat: A HunOr korpuszban tallhat tulajdonnevek.

Szemly
Hely
Szervezet
Egyb
sszesen

orosz
1535
608
137
291
2571

magyar
1487
479
105
224
2295

A HunOr korpusz esetben a horgonykeresst illeten tbb jelents nyelvi tnyezt kell szem eltt tartanunk: Elszr is, az ltalunk feldolgozni kvnt szvegek nem
azonos karakterkszlet nyelvekbl szrmaznak, hiszen a magyar nyelv a latin, az
orosz nyelv a cirill bct hasznlja. A tulajdonnevek teht nem azonos rsmdban
fordulnak el, ami jelents nehezt krlmny pldul egy magyarangol prhuzamos korpusz ltrehozshoz kpest. Tovbbi jelents nehezt krlmny, hogy az
orosz nyelvben az idegen tulajdonneveket nem azok forrsnyelvi betzse, hanem
rszben azok kiejtse alapjn rjk t cirill betkre, pl. New York Times (angol)
X&-\ ^  [Nju Jork Tajms]; Franois de la Chaise (francia) ` "
 {  [Fransua de la ez]. E problmkra teht fokozott figyelmet kell fordtanunk
az automatikus prhuzamosts sorn.
Ugyanakkor jelents knnyebbsg, hogy a kz- s a tulajdonnevekben a kezdbetk nagysgt illeten a kt nyelvben nincs alapvet eltrs, illetve, hogy a kt nyelv
kzpontozsi kszlete s annak hasznlati sajtsgai alapveten azonosak.

4 A HunOr korpusz hasznosthatsga


Az elkszlt korpuszt a jvben szeretnnk morfolgiai s szintaktikai elemzsnek is
alvetni. A morfolgiailag s szintaktikailag elemzett prhuzamos korpusz minden
bizonnyal kiemelked szerepet tlthet majd be a transzferalap gpi fordtrendszerek fejlesztsben, de tbbnyelv informcikinyersben is hasznosthat lesz,
ugyanakkor a tbbszint annotcinak ksznheten (morfolgia, szintaxis, nvelemek) a kt rszkorpusz a magyar, illetve orosz nyelv szmtgpes nyelvszeti kutatsokat egyarnt sztnzheti.

Ksznetnyilvnts
A kutats rszben a MASZEKER kdnev projekt keretben a Nemzeti Fejlesztsi gynksg, illetve a TMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretben az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi Alap s az
Eurpai Szocilis Alap trsfinanszrozsval valsult meg. Szab Martina Katalin
konferencin val rszvtele a Szegedi Tudomnyegyetem Hallgati nkormnyzata
segtsgvel vlt lehetsgess.

Szeged, 2011. december 12.

347

Bibliogrfia
1. Klaudy K.: A fordts elmlete s gyakorlata. Angol / francia / nmet / orosz fordtstechnikai pldatrral. Scholastica Kiad, Budapest (1997)
2. Kugler N.: A mondattan ltalnos krdsei. In: Keszler B. (szerk.): Magyar Grammatika.
Nemzeti Tanknyvkiad, Budapest (2000) 369393
3. Laczk K., Mrtonfi A.: Helyesrs. Osiris Kiad, Budapest (2006)
4. Magyar Nemzeti Szvegtr [http://corpus.nytud.hu/mnsz/]
5. Pohl G.: Szvegszinkronizcis mdszerek, hibrid bekezds- s mondatszinkronizcis
megolds. In: Alexin Z., Csendes D. (szerk.): MSzNy 2003 I. Magyar Szmtgpes
Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged (2003) 254259
6. Rcz E.: Mondattan. In: Rcz E. (szerk.): A mai magyar nyelv. Nemzeti Tanknyvkiad,
Budapest (1968) 205458
7. Szeged Korpusz [http://www.inf.u-szeged.hu/projectdirs/hlt/]
8. Tompa J.: A mondat s a mondattan ltalnos krdsei. In: Tompa J. (szerk.): A mai magyar nyelv rendszere. Ler nyelvtan II. Akadmiai Kiad, Budapest (1962) 722
9. Tth, K., Farkas, R., Kocsor, A.: Hybrid algorithm for sentence alignment of HungarianEnglish parallel corpora. Acta Cybernetica Vol. 18, No. 3 (2008) 463478
10. Vincze V., Felvgi Zs., R. Tth K.: Flig kompozicionlis szerkezetek a SzegedParalell
angolmagyar prhuzamos korpuszban. In: Tancs A., Vincze V. (szerk.): MSzNy 2010
VII. Magyar Szmtgpes Nyelvszeti Konferencia. Szegedi Tudomnyegyetem, Szeged
(2010) 91101
11. $^`, .. .: ^  ^^ ^ `$^^. `
^^ `^. $$ ,  (2007)
12. ^``    [http://www.ruscorpora.ru/]
13. `$, ..: ^ . ^ $^ . `^ $,
``` ^ $``. ^ `^^$$,  (1988)
14. , ..: ^^ . `$^. ^. 3- ^`^.
$$ ^`$, $-$ (2000)
15. [http://www.ling.helsinki.fi/projects/hanco/]

348

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Magyar szalak- s morfolgiaielemzs-adatbzis


Szidarovszky Ferenc P.1, Tth Gbor1, Tikk Domonkos2,3
1 F12 Kft., 1025 Budapest, Szpvlgyi t 191.
{ferenc.szidarovszky, gabor.toth}@f12.com
2
Gravity Research&Development Kft., 1101 Budapest, Expo tr 57.
domi@gravityrd.com
3 Budapesti Mszaki s Gazdasgtudomnyi Egyetem, Tvkzlsi s Mdiainformatikai
Tsz, 1117 Budapest, Magyar Tudsok krt. 2.
tikk@tmit.bme.hu

Kivonat: Clunk egy olyan morfolgiai elemz megolds ltrehozsa, mely tlagos felhasznls mellett a szavak nagy arnyt tudja elemezni, megengedve a
helytelen szavak kzeli rtelmezst is. Ennek a megoldsnak mszakilag
platformfggetlennek s kevs sz elemzse esetn is hatkonynak kell lennie.
Ennek rdekben egy olyan statikus MySQL adatbzist ptnk, mely tartalmazza a szalakokat s azok elemzst, gy a szavak elemzse adatbzislekrdezssel trtnhet. Kell feltltttsggel ez az adatbzis megvalsthatja
clunkat.

1 Bevezets
Az elmlt vekben sikerrel s nagy megelgedsnkre hasznltuk az OcaMorph morfolgiai elemzprogramot [1]. Funkcionalitsi szempontbl magyar szavak morfolgiai elemzsre a legjobb megoldsok egyike. Technikai szempontbl azonban vannak htrnyai:
x Csak kln folyamatknt lehet elindtani, nehezen s/vagy nem hatkonyan integrlhat ms rendszerekbe.
x Magas a kezdeti inicializls idignye, gyakori, de kevs szt tartalmaz elemzsi
feladatokra nem hatkony. (Ilyen hasznlat merl fel pl. ajnlrendszerek esetben.)
Clunk egy olyan morfolgiai elemz megolds ltrehozsa, mely a fenti technikai
problmkat kikszbli. Ezt egy olyan statikus adatbzis ltrehozsval igyeksznk
elrni, mely trolja a szalakokat s azok morfolgiai elemzseit.
A megoldssal kapcsolatos elvrsainkrl fontos megjegyezni:
x A megoldstl nem vrjuk, hogy teljes legyen, de trekvsnk, hogy tlagos felhasznls esetn a szalakok minl nagyobb arnyt tartalmazza.
x A megoldstl elvrjuk, hogy egy helyes szalakra j elemzseket adjon, de helytelen szalakok esetn csak annyit vrunk el, hogy ha ad elemzst, akkor az alakhoz kzeli elemzseket adjon.
x A megoldstl nem vrjuk, hogy tartalmazza az sszetett szavakat. (Ezek elemzse
jl visszavezethet tbb nem sszetett sz elemzsre.)

Szeged, 2011. december 12.

349

2 Az adatbzis ltrehozsa
2.1 Adatstruktra
Az adatbzis adatmodelljt az 1. bra szemllteti:
Szfaj
Azonost

Elemzs sztve
Sorrend

Sz

Elemzs

Alak

Szt
Alak

Elemzs affixuma
Sorrend

Korpusz
Lers

Elemz
Lers

Affixum
Azonost

1. bra. Az adatbzis adatstruktrja

A Szfaj tbla tartalmazza a szfajok listjt (jelenleg 18 sor), kulcsa a szfaj azonostja. Az Affixum tbla tartalmazza az affixum fajtk listjt (jelenleg 137 sor),
kulcsa az affixum azonostja.
A Korpusz tbla tartalmazza a korpuszok listjt (jelenleg 3 sor), kulcsa a korpusz
lersa. A Sz tbla tartalmazza az eddig tallt elemezhet szalakokat (jelenleg
2 300 717 sor), kulcsa az alak. A korpuszokat s a bennk megtallhat szavakat
sszekapcsoljuk.
A Szt tbla tartalmazza az eddig tallt sztvek listjt (jelenleg 199 822 sor),
kulcsa a kapcsold szfaj s az alak prosa.
Az Elemz tbla tartalmazza a morfolgiai elemzk listjt (jelenleg 1 sor), kulcsa
az elemz lersa. Az Elemzs tbla tartalmazza a trolt elemzsek listjt (jelenleg
3 881 689 sor), kapcsoldik hozz az elemz, s az elemzett sz.
Az Elemzs sztve tbla (jelenleg 4 671 757 sor) tartalmazza a kapcsold elemzs ltal megadott sztveket sorrendben. Az Elemzs affixuma tbla (jelenleg
9 543 740 sor) tartalmazza a kapcsold elemzs ltal megadott affixumokat sorrendben.
Mint lthat, az adatmodellt felksztettk a korpuszok sztvlasztsra s a jvbeli esetlegesen elfordul tbbfle morfolgiai elemz egyttes kezelsre.

350

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

2.2 Feltlts
Az adatbzis feltltse az OcaMorph [1] felhasznlsval trtnt gy, hogy klnbz
korpuszok szavait leelemeztettk az OcaMorph-fal, s a kapott elemzseket betltttk az adatbzisba.
Az albbi korpuszok kerltek feldolgozsra:
x Web korpusz 2.0 [2, 3]
x Magyar wiki korpusz [4]
x Sajt, 368 knyvbl/regnybl ll, az internetrl letlttt korpuszunk.

3 Eredmnyek
3.1 Az adatbzis
Ltrejtt egy statikus (MySQL) adatbzis, mely:
x platformfggetlen;
x jl integrlhat meglv rendszerekbe;
x gyakran vgrehajtsra kerl, de kevs sz elemzst ignyl feladatokra is hatkony.
Tovbbi elnye, hogy az elemzsek egyszerre, hatkonyan llnak rendelkezsre,
gy alkalmass vltak statisztikai elemzsek elvgzsre, pl. szociolingvisztikai elemzsekhez.
3.2 Statisztikk
A fenti hrom korpusz feldolgozsval kb. 2,3 milli szalak sszesen kb. 3,8 milli
elemzst troltuk le. Ezek az elemzsek kzel 260 ezer sztre hivatkoznak.
Az albbi bra szemllteti a szalakok korpuszokon belli elfordulst:

2. bra. Szalakok korpuszokon belli elfordulsa.

Szeged, 2011. december 12.

351

Az egy sz alternatv elemzseinek szmnak eloszlst az albbi tblzat tartalmazza:

1. tblzat: Egy szra es alternatv elemzsek szmnak eloszlsa.

A sz alternatv elemzseinek szma


1
2
3
4
5
6
7
8
9
10

Ilyen szavak szma


1 353 265
578 828
211 574
105 065
17 166
25 463
2 627
4 198
1 164
1 365

Az elemzsekben szerepl affixumok szmnak eloszlst az albbi tblzat tartalmazza:

2. tblzat: Az elemzsekben szerepl affixumok szmnak eloszlsa.

Elemzsben szerepl affixumok szma


1
2
3
4
5
6
7
8
9
1012

Ilyen elemzsek szma


1 106 984
798 212
896 217
468 085
238 277
119 013
30 890
15 925
2 183
1 034

Az elemzsekben kzel 20 ezer klnbz affixumsorozat szerepel.


A legtbb klnbz szalak az t szthz tartozott, sszesen 1098. Az t legtbb
klnbz szalakkal rendelkez szt az ad, gond, nv, sz s t voltak.
A 3. bra mutatja, hogy hogyan alakul a sztvek, illetve szalakok szma az egy
szthz tallt klnbz szalakok szmnak fggvnyben:

352

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

3. bra. Sztvek, illetve szalakok szma az egy szthz tallt klnbz szalakok szmnak fggvnyben.

4 Jvbeli tervek
4.1 Tovbbi korpuszok bedolgozsa
Tervezzk az adatbzis bvtst tovbbi korpuszok 1.2 pontban lertak szerinti feldolgozsval.
Ennek els lpseknt learattuk az Orszgos Szchenyi Knyvtr online elrhet
anyagait, ezek feldolgozsnak elkszletei jelenleg folynak.
4.2 Szalakok generlsa
Vizsgljuk egy ragozmotor kialaktsnak lehetsgt, mely egy sztbl s egy
affixumsorozatbl szalakot kpezne. Egy ilyen motorral korpusz nlkl lehetne
clzottan bvteni az adatbzist. A ragozmotor kialaktst segti, hogy amint a
Bevezetben is emltettk nem teljessgre treksznk, hanem a gyakorlati felhasznlhatsg tmogatsra.
Az eddigi statisztikk alapjn az adatbzis bvtse az eddig tallt sszes sztvel
s alkalmazhat affixumsorozattal jelents, de megfelel informatikai httrrel kezelhet feladatnak tnik.
4.3 Performancia mrse
Az Orszgos Szchenyi Knyvtr letlttt anyagainak bedolgozsa utn meg kvnjuk
mrni az adatbzis teljessgi mutatit, tovbb mkdsi sebessgt. A jelenlegi m-

Szeged, 2011. december 12.

353

retek mellett aggregcis segdtblzat segtsgvel egy szlon kb. 9 ezer


sz/msodperc sebessget tudtunk elrni.

5 Konklzi
Az elzekben ismertetett statikus MySQL adatbzisra pl megolds kell feltltttsg esetn megvalstja a kitztt clokat. J kiltsok vannak arra, hogy nagy
tallati arnyt ad adatbzist tudjunk pteni.

Bibliogrfia
1.

2.

3.

4.

Trn, V., Nmeth, L., Halcsy, P., Kornai, A., Gyepesi, G., Varga, D.: Hunmorph:
open source word analysis. In: Proceedings of the ACL 2005 Workshop on Software.
(2005) 7785
Halcsy P., Kornai A., Nmeth L., Rung A., Szakadt I., Trn V.: Creating open
language resources for Hungarian. In: Proceedings of the 4th International
Conference on Language Resources and Evaluation (LREC 2004) (2004)
Kornai, A., Halcsy, P., Nagy, V., Oravecz, Cs., Trn, V., Varga, D.:. Web-based
frequency dictionaries for medium density languages. In: Proceedings of the 2nd International Workshop on Web as Corpus (ACL-06) (2006) 19
Hder, M., Farkas, M., Olh, T., Solt, I.: Sztakipedia Mashing Up Natural Language
Processing, Recommender Systems and Search Engines to Support Wiki Article
Editing. In: Proceedings of the AI Mashup Challenge 2011 at Extended Semantic
Web Conference (ESWC). Iraklion, Greece (2011)

354

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Lemmaasszocici s morfolgiai jegyek mestersges


neurlis hlzatokban
Tth goston1, Csernyi Gbor1
1 Debreceni Egyetem, Angol Nyelvszeti Tanszk
{toth.agoston, gabor.csernyi}@arts.unideb.hu

1 Bevezets
Kutatsunk clja egy lemmatizlst s korltozott morfolgiai elemzst mintaasszocici segtsgvel megvalst mestersges neurlis hlzat implementlsa,
tovbb a neurlis modellezs erssgeinek s nehzsgeinek dokumentlsa.

2 A ksrleteink
A ksrletekhez hasznlt tant adatokat a Magyar Webkorpusz [1] 100000 leggyakoribb szalakjt tartalmaz listrl nyertk, melyet feldolgozs eltt szrtnk. Az gy
elllt, krlbell 82 ezer szavas szlista 63531 elemre adott a Hunmorph [4] legalbb egy elemzst. A szalakokhoz az elemzs sorn kapott lemmt, valamint kivlasztott (egyelre korltozott szm) morfolgiai jegyet tantottunk be.
A ksrleteket neurlis hlzatokkal vgeztk. A bemeneti rtegen (70 neuron)
szalakokat helyeztnk el egy els alkalommal felhasznlt szreprezentcis technikt hasznlva. Az aktivcik innen egy rejtett rtegbe (80 neuron) haladtak tovbb
tanthat, slyozott kapcsolatokat hasznlva, 1:N projekcival. A rejtett rtegbl
hasonlan kialaktott kapcsolatok vezettek a kimeneti rteghez, ahol egyrszt 70 neuron vgezte a szalakkal asszocilt lemma reprezentcijt ugyanazzal a mdszerrel,
amivel a bemenetet kezeltk (elmletileg vgtelen szm sz brzolst lehetv
tve), msrszt bizonyos mennyisg, alapvet morfolgiai informcikat brzol
neuronokat is betantottunk, az adott ksrlet fggvnyben. A tants a visszafel
terjeszts mdszervel trtnt (minden bemenetre kpeztk az aktulis slyokat
hasznlva a kimeneteket, kiszmtottuk a teljes hibt, majd a hibt visszafel terjesztve mdostottuk a slyokat).
Minden minta (szalak-lemma pr) legalbb 650 alkalommal kerlt betantsra. A
bemeneteken s a kimeneteken [0;1] intervallumba es vals rtkek jelentek meg. A
kimeneten mind a lemmt, mind a morfolgiai jegyeket osztlyoztuk a kvetkez
mdon: a 70 vals rtkbl ll lemma-kimenetet a legkzelebbi ismert lemma clvektornak feleltettk meg, a morfolgiai jegyeket pedig 0,4 kimeneti rtk alatt 0-nak
(jegy hinya), 0,4-tl pedig 1-nek (jegy meglte) osztlyoztuk.
A betantst s a tesztelst a LENS neurlis hlzat szimultorban vgeztk [2]. Az
1. brn pldaknt egy hlzat betantsnak szimulcis eredmnyt mutatjuk be,
amelyen alul, balra megfigyelhet a hibadiagram, a jobb als sarokban pedig a betan-

Szeged, 2011. december 12.

355

tsi s tesztelsi mintk egyenknti vizsglatra alkalmas unit viewer ablakban az


els mintra (az a hatrozott nvelre) kapott aktivcis szintek (alul a bemeneti
csoport, fltte a 80 neuronos rejtett rteg, felettk a kimenetek).

1. bra: LENS kpernyfot.

Fontos kiemelni, hogy az itt bemutatott ksrleteinkben a tbbrtelmsg (az alternatv alaktani elemzsek) kezelse komoly problmt okozott mr a tervezs fzistl
kezdve. Adott keretek kzt alternatvk betantsa nem lehetsges, hiszen egy alternatva jelenlte (azonos inputra klnbz kimeneti clok) a betantst elrontja. Termszetesen a valsgban a krnyezet klnbzsge jelenti azt az informcit, ami alapjn az egyrtelmsts elvgezhet. A morfolgiai elemzs szoksos, vges llapot
automatkat hasznl vltozata olyan kimenetet ad, amiben az alternatvk mind
megjelennek, s egy ksbbi mondattani elemzs sorn ez vagy egyrtelmsthet,
vagy tovbbi elemzsek bevezetshez vezet (s ekkor a problmt tovbb delegljuk
a szemantikai szintre). A tbbrtelmsg kezelsben azonban nem felttlenl jelent
megoldst az sszes elemzs visszaadsa egy ksbbi egyrtelmsts remnyben
(ahogyan azt a lexikai szemantika vonatkozsban a SenseEval/SemEval versenyekben lthattuk). ppen ezrt a ksbbiekben sem az alternatvk enumercija, hanem
a figyelembe vehet paramterek bvtse (pl. a mondatban szerepl tovbbi szavak,
morfmk figyelembevtele) s ezek alapjn egyrtelm kimenet ellltsa a hossz
tv clunk. Jelen rendszernket gy terveztk, hogy szfajonknt egy elemzst tudunk kezelni; ha egy sz Hunmorph-os elemzse ennek nem felelt meg, akkor kizrtuk a ksrletbl. Ezen a szrn 42625 szalak ment t, ami a Hunmorph ltal sszesen elemzett 63531 alak 67%-a (ez egyben a felidzsi rtk, amely mellett rendszernk Hunmorph-hoz viszonytott pontossga rtend).
A bemeneten megjelen szalakok s a kimeneten elvrt lemmk reprezentlsra
olyan vektorokat kpznk, amelyben az ABC minden betjnek kt vektorelem felel

356

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

meg. Az egyik azt mutatja meg, hogy az adott bet a sz hnyadik karakterpozcijn
fordul el elszr, a msik pedig azt, hogy az adott bet a sz (sz vgtl szmtva)
hnyadik karakterpozcin fordul el utoljra. Ha egy szban egy bet kettnl tbbszr szerepel, ami nem ritka jelensg, akkor az adott bet els s utols elfordulsnak helye lesz rgztve, a tbbirl nem trolunk informcit. A mdszert Tth [3]
javasolta, ahol tbb reprezentcis eljrs is szerepel, s a mdszerek elzetes tesztelst angol rott, angol fonetikusan trt s magyar szavakon vgezte el. Az ottani
ksrletekbl ltszik, hogy a betk utols elfordulsnak jegyzse nmagban is
nagyon hatsos eszkz egy sz felismersben, de egy tovbbi adat (itt: az els elfordulsok felhasznlsa) fokozza az eljrs pontossgt. Ezek a mdszerek nem
klcsnsen egyrtelm lekpezseket valstanak meg, de ha ez az adott felhasznlshoz szksges, akkor is rendkvl alacsony a hiba. Mostani ksrletnkben 23
olyan szpr volt, melyek olyan szavakbl lltak, amelyeknek reprezentcija azonos
volt. Ez a jelensg a vizsglt 42625 sznak kevesebb mint 1 ezrelkt rintette, ezrt
nem tekintettk jelents hibaforrsnak, s ezeket a szavakat is megtartottuk.
Els ksrletnkben a szfaji felismerst mrtk, mikzben a kimeneten a lemmt
ler egysgek teljestmnyt nem figyeltk. A fnv jegyet 82%, az igt 90%, a mellknevet 84%, a hatrozszt 96%, az egyb kategrit (nvel, ktsz, szmnv,
stb.) 97% pontossggal jelezte a rendszer a 42625 szavas szlistn mrve.
Msodik ksrletnkben t hlzatot tantottunk be, ezek sorrendben a fneveket,
igket, mellkneveket, hatrozkat s vgl az egyb morfolgiai kategrikat kezeltk, s alaklemma, valamint alakmorfolgiai jegy asszocicit vgeztek gy, hogy
bemenetkn a szalakok, a kimenetkn pedig a lemmk s morfolgiai jegyek
voltak brzolva. A fnvi hlzat esetben a figyelt jegyek (gyakorisguk alapjn
kivlasztva) a tbbes szm, a birtokos eset s a trgyeset, az igei hlzatban a tbbes
szm, a mlt id, az 1. s 2. szemly, valamint a trgyas ragozs voltak; a mellkneveknl a tbbes szmot vizsgltuk, a hatrozszknl nem volt megfigyelt jegy. Az
egyb kategriban (5. hlzat) a Hunmorph tovbbi fkategriit (nvel, ktsz,
szmnv stb., sszesen 9 db) azonostottuk 1-1 neuronnal. Amennyiben a bemeneten
megjelent szalaknak nem volt az adott hlzatnak megfelel kategrij elemzse, a
kimeneten a lemmahiny lemma megjelenst vrtuk, a lemma neuronok egyedi
mintzatt figyelve (teht szintn lemmaasszocicis feladatknt); a morfolgiai kimenetek ekkor inaktvak voltak. A hlzatokon mrt pontossgot az 1-5. tblzatokban foglaltuk ssze.
1. tblzat: A fnvi hlzat pontossga a 2. ksrletben.

lemmahiny (= inkompatibilis kat.)


helyes lemma (kivve: lemmahiny)
(baseline: 1:8297  0,01%)
lemmaasszoc. sszesen
morfolgia (27097 fnvre)

Cl (db)
15528
27097

Elrt (db)
12667
18818

Pontossg
82%
69%

42625

31486

74%
87%-97%

Szeged, 2011. december 12.

357

2. tblzat: Az igei hlzat pontossga a 2. ksrletben.

lemmahiny (= inkompatibilis kat.)


helyes lemma (kivve: lemmahiny)
(baseline: 1:3102  0,03%)
lemmaasszoc. sszesen
morfolgia (10232 igre)

Cl (db)
32393
10232

Elrt (db)
31716
5204

Pontossg
98%
51%

42625

36920

87%
94%-97%

3. tblzat: A mellknvi hlzat pontossga a 2. ksrletben.

lemmahiny (= inkompatibilis kat.)


helyes lemma (kivve: lemmahiny)
(baseline: 1:6325  0,02%)
lemmaasszoc. sszesen
morfolgia (1 jegy, 10092 mellknv)

Cl (db)
32533
10092

Elrt (db)
31830
3675

Pontossg
98%
36%

42625

35505

83%
91%

4. tblzat: A hatrozi hlzat pontossga a 2. ksrletben.

lemmahiny (= inkompatibilis kat.)


helyes lemma (kivve: lemmahiny)
(baseline: 1:2079  0,05%)
lemmaasszoc. sszesen

Cl (db)
40448
2177

Elrt (db)
40380
233

Pontossg
99%
11%

42625

40613

95%

5. tblzat: Az egyb hlzat pontossga a 2. ksrletben.

lemmahiny (= inkompatibilis kat.)


helyes lemma (kivve: lemmahiny)
(baseline: 1:678  0,1%)
lemmaasszoc. sszesen
morfolgia (1071 szalakra)

Cl (db)
41554
1071

Elrt (db)
41554
8

Pontossg
100%
1%

42625

41562

98%
80%-99%

A hlzatok a nem kompatibilis kategrit, lemmahiny lemmt visszaadva, 82100% pontossggal jeleztk. Helyes kategrij alak esetn a legkzelebbi lemmt 169% kztti pontossggal adtk vissza. A gyakoribb kategrik esetn a (ltez szavakra utal) lemmaasszocici pontossga magasabb volt, lsd a fnvi hlzat adatait. Az adatokbl az is lthat, hogy a baseline rtket (ami az adott hlzat lemma
kimenetn vrt sszes klnbz lemmareprezentci mennyisgvel fordtottan
arnyos) mindegyik hlzat esetben sikerlt jelentsen meghaladni. A hatrozsz
s egyb kategrik nagyon kevs alakkal voltak kpviselve, az elrt alacsony pontossg ennek is ksznhet, ilyenkor azonban a morfolgiai inkompatibilist jelz
lemmahiny llapot visszaadsa igen pontos volt. A figyelt morfolgiai jegyeket
(pl. tbbes szm, birtokos eset, trgyeset stb.) meglehetsen j eredmnnyel jeleztk a
hlzatok, adott jegytl fggen tartalmi szavaknl 87-97%, funkciszavaknl 80-

358

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

99% pontossggal. Tovbbi ksrletekben a jegyek kre bvthet, a sklzhatsg


egyelre nem ismert.
Utols ksrletnkben a mintkat vletlenszeren, rszben tant s rszben
tesztel adathalmazra osztottuk. A fnvi hlzatot a tant mintkkal betantottuk,
majd a tesztmintkkal (melyeket a hlzat nem ismert) kirtkeltk. A fnvi elemzsek esetn a lemma kimenet 71%, az inkompatibilis kategria (lemmahiny) jelzse
pedig 80% pontossggal zajlott, sszessgben a lemmaasszocici 74%-ban volt
sikeres. A hrom megfigyelt fnvi morfolgiai jegyet 86-96% pontossggal becslte
a rendszer, jegytl fggen. Ezeket az adatokat az 1. tblzat fnvi oszlopval szszevetve lthatjuk, hogy a hlzat ltalnost kpessge mind a lemmaasszocici,
mind a morfolgiai jegyek tekintetben igen j (a tesztadatokon mrt teljestmny
semmiben sem marad el a tantn mrt pontossgtl), teht kijelenthetjk, hogy nem a
konkrt alakokat, hanem a szablyszersgeket tanulta meg a hlzat.

Ksznetnyilvnts
A publikci elksztst rszben az OTKA (K 72983), rszben a TMOP 4.2.1./B09/1/KONV-2010-0007 szm projekt tmogatta az j Magyarorszg Fejlesztsi
Terven keresztl az Eurpai Uni tmogatsval, az Eurpai Regionlis Fejlesztsi
Alap s az Eurpai Szocilis Alap trsfinanszrozsval, tovbb tmogatta a
TMOP-4.2.2/B-10/1-2010-0024 projekt az Eurpai Uni s az Eurpai Szocilis
Alap trsfinanszrozsval.

Bibliogrfia
1. Kornai, A., Halcsy, P., Nagy, V., Oravecz, Cs., Trn, V., Varga, D.: Web-based frequency
dictionaries for medium density languages. In: Kilgarriff, A., Baroni M. (eds.): Proceedings
of the 2nd International Workshop on Web as Corpus (2006)
2. Rohde, D. L. T.: LENS: The light, efficient network simulator. Technical Report CMU-CS99-164. Carnegie Mellon University, Department of Computer Science, Pittsburgh, PA
(1999)
3. Tth, .: Perspectives on the Lexicon. Akadmiai Kiad, Budapest (2008)
4. Trn, V., Nmeth, L., Halcsy, P., Kornai, A., Gyepesi, G., Varga, D.: Hunmorph: open
source word analysis. In: Proceedings of the ACL 2005 Workshop on Software (2005)

Szeged, 2011. december 12.

359

Fonolgiai jegyek felgyelet nlkli tanulsa


fonemikus korpuszbl
Vsrhelyi Dniel
Etvs Lornd Tudomnyegyetem, BTK, Elmleti Nyelvszet Program,
e-mail:vad@budling.hu

Kivonat A modern fonolgiai brzols kzponti eleme a szegmentumok megklnbztet fonolgiai jegyek re trtn felbontsa, ami lehetv teszi a fonolgiai szablyok tmrebb s plauzibilisebb megfogalmazst. Az utbbi idben tbben prbltak rvelni ezeknek a jegyeknek s
kombinatorikus viszonyaiknak, a jegygeometrinak a veleszletett volta
mellett, mikzben msok a fonolginak a lexikonbl val elsajtthatsga mellett trnek lndzst.
Az ismertetend kutats clja, hogy a konvex kombinatorikus geometrik algoritmikus jellemzsnek legfrissebb eredmnyeit felhasznlva egy
memriaalap felgyelet nlkli algoritmust adjon a jegygeometria megtanulsra, ezzel letve a garast a lexikalista llspont mellett ltalnossgban a nyelvi elemek s specilisan a fonolgiai szegmentumok bels
struktrjnak elsajttsban.
Kulcsszavak: korpusznyelvszet, termszetesnyelv-feldolgozs, jegygeometria, felgyelet nlkli tanuls

1.

Bevezets

A fonolgiai jegyek eloszlsalap elsajttsa klnsen rdekes lehet annak fnyben, hogy bizonyos jelensgek, mint pldul a szonoritsprojekci memriaalap magyarzathoz a fonmk szubszegmentlis brzolsra van szksg
(lsd [2]). Amennyiben a szegmentls szintn elvgezhet kizrlag a fonolgiai input alapjn, akkor nincs szksg veleszletett specikus fonolgiai tuds
felttelezsre.

2.

Jegygeometria

A fonmk, az ket megvalst fnok artikulcis s akusztikus tulajdonsgai


alapjn, szmos jeggyel jellemezhetk, ezek kzl az egyes nyelvek vlasztjk ki,
melyek kontrasztvak, azaz megklnbztet szerepek s melyek redundnsak.
Dresher a [3]-ban a kontraszt fonolgiai szerept vizsglva arra a kvetkeztetsre jutott, hogy a nyelvszek a kontrasztivitsnak kt egymssal inkompatibilis
meghatrozsa kztt ingadoztak. A teljesen speciklt minimlprokon alapul

360

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

s a jegyeken hierarchikus struktrt felttelez megkzeltsek kzl az elsrl


meggyz mdon mutatja ki annak tarthatatlansgt.
A nyelvi elemek hierarchikus jegyekkel val brzolsa az utbbi idben a
nyelvszet ms terletein is szles krben elterjedt.

3.

Antimatroidok

A hierarchikus kapcsolatok egyik legltalnosabb modellje a konvex kombinatorikus geometria vagy a vele ekvivalens antimatroid, egy olyan halmazrendszer,
amely az alaphalmaz elemeinek egyesvel val hozzadsval (vagy elvtelvel)
megkaphat halmazokbl ll.
Belthat, hogy a megklnbztet jegyek rendszere egy antimatroidokbl
ll rendszert alkot, amelyben a fonmk s azok termszetes osztlyai mind
konvex halmazok.

4.

Algoritmusok

A vizsglt korpusz klnfle a szerzk ltal interneten szabadon hozzfrhet


magyar nyelv szvegek sajt algoritmussal trtn fonetizlsval kszlt. A
korpusz mretnek tovbbi nvelse nem okozott lnyeges vltozst a kutats
eredmnyeiben.
A korpuszbl elszr annak trigram modelljt lltottuk el, majd azt kveten minden fonmhoz hozzrendeltk a _p1 p2 , p1 _p2 , p1 p2 _ alak krnyezetek egy elmosdott (fuzzy) halmazt olyan mdon, hogy egy adott p fonmra
a _p1 p2 , p1 _p2 , p1 p2 _ krnyezetekhez rendre a pp1 p2 , p1 pp2 , p1 p2 p trigramok
relatv gyakorisgt rendeltk. Rgztett 0 s 1 kztti kszbrtkre az ennl nagyobb relatv gyakorisg krnyezetek halmazt alkotnak s denilhat
a fonmk halmazn egy opertor olyan mdon, hogy fonmk tetszleges
U halmazhoz hozzrendeljk azokat a fonmkat, amelyek krnyezethalmaza
tartalmazza mindazon krnyezeteket, amelyeket U minden elemnek krnyezethalmaza tartalmaz.
Amennyiben izotn, amelyet az a felttelezs, hogy a fonmk s a krnyezetek konvexek biztost, a [4]-ben ismertetett -algoritmus egy antimatroid
rendszert denil, ami tzisnk szerint ppen a magyar fonolgia jegygeometrijval azonos.

5.

Eredmnyek

A kutats jelenlegi szakaszban a paramterek belltsa s a kapott antimatroid vizsglata folyik, ami a teljes halmazrendszer mrete miatt nem egyszer
feladat, ezrt a teljes halmazrendszer helyett annak kisebb fonmahalmazokra
val megszortst rtkeltk.

Szeged, 2011. december 12.

361

Meglehetsen nagy (>0,01) kszbrtkekre a leggyakoribb fonmkra


(e, a, t, n, k, l, o) megszortott rendszer meggyzen egyezik egy lehetsges jegygeometrival, pldul az {e}, {e, a}, {e, a, o} konvex halmazok megfeleltethetk
egy voc > back > round jegyhierarchinak.

Hivatkozsok
1. Ball, Keith.: An Elementary Introduction to Modern Convex Geometry, Flavors of
Geometry, MSRI Publications Volume 31, Cambridge, Massachusetts, (1997)
2. Daland, Robert, et al..: Explaining sonority projection eects, Phonology 28,
Cambridge University Press, 197234, (2011)
3. Dresher, B. Elan: The contrastive hierarchy in phonology, Toronto Working Papers
in Linguistics, Vol 20, Toronto, 4762, (2003)
4. Kempner, Yulia, et al.: Correspondance between two antimatroid algorithmic characterizations, The Electronic Journal of Combinatorics (www.combinatorics.org),
Vol 10, RR44, (2003)

362

VIII. Magyar Szmtgpes Nyelvszeti Konferencia

Szerziindex,nvmutat

AbariKlmn,309
Abuczkignes,240
AlbertiGbor,263
AlexinZoltn,329
AlmsiAttila,73,90

BabarczyAnna,252
BekeAndrs,178
BerendGbor,119
BdogAlexa,240

CsapTamsGbor,167
CsernyiGbor,354
CsertIstvn,211
CsipksLszl,190

EhmannBea,223

FazekasJudit,316
FegyTibor,155
FritzAdorjn,223

HjaEnik,47,319
HussamiPter,321

IndigBalzs,336

JaniMtys,323

KrolyMrton,284
KilinImre,276
KissGbor,102
KissHermina,199
KissMrton,102,329

LakiLszlJnos,12
LszlJnos,211
LendvaiPiroska,223
Lindblom,Bjrn,323


MihajlikPter,155
MihltzMrton,223,333
MittelholczIvn,81
MraGyrgy,131

Nagygoston,73,329
NagyT.Istvn,59,341
NmethGza,167
NmethKornl,316
NmethT.Enik,240
NovkAttila,143,336

OlaszyGbor,309
OraveczCsaba,35,190
OroszGyrgy,143,336

PatakiMt,3,24
PlhCsaba,316
PusksLszl,231

RecskiGbor,113

SfrnyKovalikBalzs,102
SassBlint,35,47,81
SchmalczAndrs,341
SiklsiBorbla,143
SimonEszter,81

SzabMartinaKatalin,341
SzaszkGyrgy,178
SzcsnyiTibor,297
SzekrnyesIstvn,190
SzidarovszkyFerencP.,348

TakcsDvid,47,319
TarjnBalzs,155
Ternstrm,Sten,323
TihanyiLszl,35,223
TikkDomonkos,348

Szeged, 2011. december 12.


Tthgoston,354
TthDorottya,102
TthGbor,348

VajnaMikls,3
VargaDniel,316


363
VsrhelyiDniel,359
VinczeVeronika,59,73,90,119,131,
329,341

ZsibritaJnos,59,131

You might also like