You are on page 1of 33

Szövegbányászat

Pancza Judit
SPSS Nyári Iskola
2019. 07. 08.
SPSS Nyári Iskola
2019.07.08-12.
Veszprém

2
SZÖVEGBÁNYÁSZAT, SZÖVEGANALITIKA

Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, a szövegben kapcsolatok, trendek


azonosítását.
Források
 Belső dokumentumok (szerződések, feljegyzések, jelentések,
összefoglalók, stb.)
 Webes adatok (blogok, fórumok, hírek, stb.)
 Audió (hívások, megbeszélések felvételei)

„A vállalatoknál, szervezeteknél fellelhető


adatok közel 80%-a strukturálatlan
állományok formájában áll rendelkezésre.”

3
CLEMENTINE
 2007-től saját magyar nyelvű szöveganalitika, magyar nyelvű NLP eszköz
 Demok, pilotok, projektek a szöveganalitikára
 Népítélet, Hírelemzés, Online véleményelemzés

 2009-től hangalapú szöveganalitika


 Fő referenciáink:
 2009: AEGON Magyarország
 2013: OTP
 2014: Uniqa, Audi
 2015: UPC, PE, TEK
 2016: bűnüldöző szervezetek
 2017: Vodafone, titkosszolgálatok
 2018-19: K&H, Fókusz Takarék, bűnüldözés
 Saját megoldások
 „hangbányászat”
 auto email feldolgozás
 OSINT
 virtuális asszisztens
MIRŐL LESZ SZÓ?
 Szövegbányászatról általában
 Érdekes projektek, tapasztalatok

5
Szövegbányászatról általában

6
NLP

NLP = Natural Language Processing


Beszédfelismerés
Beszédszintézis
Gépi fordítás
NLG
Keresés
Szövegbányászat
ADAT VS. SZÖVEG
 numerikus, kategorikus  szabad formátumú, szöveges

 strukturált, adatbázisban tárolt  tetszőlegesen tárolt dokumentumhalmaz

 összefüggések feltárása, prediktív  információkinyerés, osztályozás,


modellek csoportosítás

 statisztikai modellek, döntési fák,  számítógépes nyelvi eszközök, gépi


neurális hálók, idősorok, stb. tanulók, szótárak

8
WATSON - 2011
GOOGLE - 2018

10
MAGYAR NYELVI SPECIFIKUMOK
 Agglutináló nyelv (utóragozás)  lemmatizálás
 Szabad szórend
 Karakterkódolás (hosszú ékezetek)

11
A SZÖVEGBÁNYÁSZAT ÁLTALÁNOS MODELLJE (TIKK, 2007)

Szöveg-
Adat Elő- Alkalmazás
gyűjtés készítés
bányászati Értékelés
tudás
eljárások
ELŐKÉSZÍTÉS

1. Felbontás
 strukturális szegmentálás
 mondatokra bontás
 tokenizálás

2. Szőtövezés: stemmelés, lemmatizálás


3. Szófaj meghatározás (POS tagging)
4. Stopszó szűrés

13
SZÖVEGANALITIKAI ESZKÖZÖK

Elemzés, feldolgozás Vizualizáció

Programnyelvek: „Nyers” szöveg:


• Python (NLTK) • Szófelhő
• R (tm) • Link Analysis
• Perl, Ruby: szövegkezelés
Eredmények:
Eszközök: • Kapcsolatháló
• SPSS Modeler (Premium) • Klasszikus vizualizációs
• GATE eszközök
• Rapidminer
• SAS Text Miner
• Magyarlánc
• E-magyar
ALKALMAZÁSI TERÜLETEK
 Ügyfélszolgálat
 „hangbányászat”
 routing – email és hang
 chatbot, virtuális asszisztens
 Bűnüldözés
 entitásfelismerés
 kapcsolatok azonosítása
 Egészségügy, gyógyszerkutatás
 Web, sentiment elemzés

16
Érdekes szöveganalitikai alkalmazások - OSINT
KAPCSOLAT FELTÁRÁS = OSINT

„Az OSINT olyan információgyűjtő eljárás, amely során a nyilvánosan elérhető forrásokból az
információkat felkutatják, elemzik, értékelik és felhasználják egy adott cél elérése érdekében.”
(NATO 2001)

18
ÚJ MEGKÖZELÍTÉS
Szöveganalitikai megközelítéssel:

SZÖVEG ENTITÁS HÁLÓZAT


KERESÉS
ANALITIKA TÁR ELEMZÉS

„Hagyományos” Automata
módon feldolgozás Kapcsolatháló
Kapcsolat
• cikkek, blogok • entitások vizualizáció és
korábbi ügyekkel
• céginfó • kapcsolatok elemzés
• facebook.. azonosítása

19
HOGYAN?

Jelentés (minta részlet)

…ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20.,


anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.),
drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű
és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a
művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak
[…] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel,
akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123
HOGYAN?

Jelentés (minta részlet)

…ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20.,


anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.),
drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű
és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a
művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak
[…] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel,
akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123.

Bögre Béla Hashemi


Szül: 1971.03.20, Kaposvár Tel: 06 20 547 8213
An: Nagy Veronika Rsz: DVD-123
Cím: 7400 Kaposvár, Erzsébet u. 55.
Egyéb jellemző: drogelosztó
Nagy János
Becenév: Hashemi
Rsz: DVD-123

Kapcsolat
Egy ügyben merültek fel
Rendszeresen találkozik
AUTOMATA OSINT
Érdekes szöveganalitikai alkalmazások –
Egészségügyi adatok elemzése
FELADAT
 Audi Hungaria Motor Kft Győr. - 11.000 dolgozó feletti létszám
 Kapcsolódó területek, ahonnan a kérdésfelvetés érkezett:
 Egészségmenedzsment
 Kiválasztás
 Alkalmasság vizsgálatok
 Üzem orvosi / foglalkozás egészségügyi szolgálat
 A kiindulás: 15 év egészségügyi adatai jórészt strukturálatlan formában érhetőek el, ebből
kinyerhető, használható tudásra van szükség
 A feladat:
 A tárolt egészségügyi ellátások eseteihez tartozó hiányzó BNO kódok hozzárendelése
 Egészségügyi trendek feltárása az elmúlt 15 év adatai alapján

25
SZÖVEGANALITIKA

Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, belőle strukturált információ kinyerését
és így a szövegben kapcsolatok, trendek azonosítását.
Mire használtuk a projektben?
1. Diagnózis, vélemény mezők létrehozása
Sablon alapján írt szövegek:
jelen panaszok fáj a torka Temp láztalan kp.fejlett,táplált bör, [...]
megjegyzés egyéb vélemény pharyngitis ac.

ma reggelre bal szeme beduzzadt, viszket, váladékozik. vélemény conjunctivis acuta


th neomycines szemcsepp felírt gyógyszerek tobrex 3 mg/ml oldatos szemcsepp [..]

2. Egészségügyi szótár létrehozás a szövegek alapján


3. Adattisztítás
4. Besorolás

11
EGÉSZSÉGÜGYI SZÓTÁR

 Betegségcsoportok és BNO szerint


épül fel
 Minden BNO-hoz hozzárendeltük az
összes
előfordult szinonimát, elírást és
rövidítést
 Tartalma:
 252 betegség
 6055 szó, kifejezés
 11 994 szinonima

 Teljes orvosi validálás

pharingitis: pahringitis, phagingitis, phaingitis, phanyngitis, pharinghitis, pharingitius, pharingits, pharingytis, pharingytisth,
pharinigitis, phariyngitis, pharngitis, pharyingitis, pharyngis, pharyngitis, pharyngits, pharyngytis, pharynitis, phayngitis,
phayringitis, phringitis

allergiás dermatitis: allerg.dermat, allergiás dermat, dermaitits allergica, dermatits allerg, dermatits.allergia, dermatitis all,
dermatitis allerg 12
BEOSZTÁS SZERINT JELLEMZŐ BETEGSÉGCSOPORTOK

Direkt dolgozók: Inirekt dolgozók: Kor és nemi különbségek:


Szív- és érrendszeri Urogenitális és Direkt – idősebb
megbetegedések Légzőrendszeri Indirekt – több nő

24
BETEGSÉGCSOPORTOK ORVOSHOZ JÁRÁSI GYAKORISÁG ALAPJÁN
Az orvoshoz járás gyakorisága jellemző a betegségcsoportra és a beteg korára is

Vegyes Légzőrendszeri Urogenitális Szív- és érrendszeri


A legfiatalabbak keresik Inkább fiatalokra Sok eset a Vérnyomás gyógyszerek
fel legritkábban az orvost jellemző, akik kevesebbet fogamzásgátló felíratása, vérnyomás
járnak orvoshoz felíratás (3 hó-ra mérések nagy számban
írják fel) 25
Érdekes szöveganalitikai alkalmazások
- Virtuális asszisztensek
MEGVALÓSÍTÁSI PÉLDA: MACSKÁK
AVATAR - GÉPI INTELLIGENCIA A VÁLLALATI HITELEZÉSBEN

Szöveganalitikán alapuló aktív fórumtag - Kérdez és értelmezi a választ

Avatar…
 Fáradhatatlan
 Objektív,
konzisztens
 Előítéletmentes
 Aktív fórumtag
AZ AVATAR MŰKÖDÉSÉNEK FOLYAMATA

2. Kérdésre adott rövid válaszok elemzése


1. Hosszú tartalom elemzése

T6 - A tulajdonosnak van másik olyan cége (…), melynek az


elmúlt 5 évben volt durva negatív eseménye (felszámolás,
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 végelszámolás, csődeljárás). Ez nem kockázatos számunkra?
= 9 pont T3 - A Fókusz kizárólagos számlavezető lesz-e pozitív
1 1 1 2 1 3 1 1 2 2 1 4 Bizonytalan
Cég1 hitelelbírálás esetén?
T7 - Az előző évi mérleg adatok szerint az összes
kötelezettség több mint 80%-a a cég mérlegfőösszegének.
Miért ilyen magas az eladósodottság?
Kérdések?

57

You might also like