Professional Documents
Culture Documents
Pancza Judit
SPSS Nyári Iskola
2019. 07. 08.
SPSS Nyári Iskola
2019.07.08-12.
Veszprém
2
SZÖVEGBÁNYÁSZAT, SZÖVEGANALITIKA
3
CLEMENTINE
2007-től saját magyar nyelvű szöveganalitika, magyar nyelvű NLP eszköz
Demok, pilotok, projektek a szöveganalitikára
Népítélet, Hírelemzés, Online véleményelemzés
5
Szövegbányászatról általában
6
NLP
8
WATSON - 2011
GOOGLE - 2018
10
MAGYAR NYELVI SPECIFIKUMOK
Agglutináló nyelv (utóragozás) lemmatizálás
Szabad szórend
Karakterkódolás (hosszú ékezetek)
11
A SZÖVEGBÁNYÁSZAT ÁLTALÁNOS MODELLJE (TIKK, 2007)
Szöveg-
Adat Elő- Alkalmazás
gyűjtés készítés
bányászati Értékelés
tudás
eljárások
ELŐKÉSZÍTÉS
1. Felbontás
strukturális szegmentálás
mondatokra bontás
tokenizálás
13
SZÖVEGANALITIKAI ESZKÖZÖK
16
Érdekes szöveganalitikai alkalmazások - OSINT
KAPCSOLAT FELTÁRÁS = OSINT
„Az OSINT olyan információgyűjtő eljárás, amely során a nyilvánosan elérhető forrásokból az
információkat felkutatják, elemzik, értékelik és felhasználják egy adott cél elérése érdekében.”
(NATO 2001)
18
ÚJ MEGKÖZELÍTÉS
Szöveganalitikai megközelítéssel:
„Hagyományos” Automata
módon feldolgozás Kapcsolatháló
Kapcsolat
• cikkek, blogok • entitások vizualizáció és
korábbi ügyekkel
• céginfó • kapcsolatok elemzés
• facebook.. azonosítása
19
HOGYAN?
Kapcsolat
Egy ügyben merültek fel
Rendszeresen találkozik
AUTOMATA OSINT
Érdekes szöveganalitikai alkalmazások –
Egészségügyi adatok elemzése
FELADAT
Audi Hungaria Motor Kft Győr. - 11.000 dolgozó feletti létszám
Kapcsolódó területek, ahonnan a kérdésfelvetés érkezett:
Egészségmenedzsment
Kiválasztás
Alkalmasság vizsgálatok
Üzem orvosi / foglalkozás egészségügyi szolgálat
A kiindulás: 15 év egészségügyi adatai jórészt strukturálatlan formában érhetőek el, ebből
kinyerhető, használható tudásra van szükség
A feladat:
A tárolt egészségügyi ellátások eseteihez tartozó hiányzó BNO kódok hozzárendelése
Egészségügyi trendek feltárása az elmúlt 15 év adatai alapján
25
SZÖVEGANALITIKA
Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, belőle strukturált információ kinyerését
és így a szövegben kapcsolatok, trendek azonosítását.
Mire használtuk a projektben?
1. Diagnózis, vélemény mezők létrehozása
Sablon alapján írt szövegek:
jelen panaszok fáj a torka Temp láztalan kp.fejlett,táplált bör, [...]
megjegyzés egyéb vélemény pharyngitis ac.
11
EGÉSZSÉGÜGYI SZÓTÁR
pharingitis: pahringitis, phagingitis, phaingitis, phanyngitis, pharinghitis, pharingitius, pharingits, pharingytis, pharingytisth,
pharinigitis, phariyngitis, pharngitis, pharyingitis, pharyngis, pharyngitis, pharyngits, pharyngytis, pharynitis, phayngitis,
phayringitis, phringitis
allergiás dermatitis: allerg.dermat, allergiás dermat, dermaitits allergica, dermatits allerg, dermatits.allergia, dermatitis all,
dermatitis allerg 12
BEOSZTÁS SZERINT JELLEMZŐ BETEGSÉGCSOPORTOK
24
BETEGSÉGCSOPORTOK ORVOSHOZ JÁRÁSI GYAKORISÁG ALAPJÁN
Az orvoshoz járás gyakorisága jellemző a betegségcsoportra és a beteg korára is
Avatar…
Fáradhatatlan
Objektív,
konzisztens
Előítéletmentes
Aktív fórumtag
AZ AVATAR MŰKÖDÉSÉNEK FOLYAMATA
57