1 Módszertani Elméleti Áttekintés 2020nov

ADATBÁNYÁSZAT
2020.november
Fördős Fanni
Az üzleti adatbányászat tipikus módszerei
• Regresszió
• Idősorok
• Csoportosítás (Cell Analyzis, Szegmentáció, Clustering)
• Osztályozás (Döntési fák)
• Gyakori elemhalmazok (asszociációk) szabályai
• OLAP kockák
• Neurális hálózatok
• és még sok más módszer
2
Szegmentáció
Forrás: Fajszi et al (2010) 3

Szegmentáció

Szegmentáció
A szegmentáció, az objektumok vagy jelenségek csoportba

sorolása.
Általános szegmentáció
6
Szegmentáció
7
Szegmentáció
2
Klaszterezés

Klaszterezés
A klaszteranalízis adatainkat olyan csoportokra
(klaszterekre) bontja, melyek értelmesek, hasznosak,
esetleg mindkét tulajdonsággal rendelkeznek.
Amennyiben értelmes csoportok létrehozása a cél,
akkor a klasztereknek az adatokban rejlő természetes
szerkezetét kell feltárnia. Egyes esetekben azonban a
klaszteranalízis csak egy hasznos kiindulópont más
célok, például adatösszegzés eléréséhez. Akár
megértésre vagy hasznosításra használják, a
klaszteranalízis szakterületek széles körénél játszik
hosszú ideje fontos szerepet, ilyenek a pszichológia
és más társadalomtudományok, a biológia, a
statisztika, az alakfelismerés, az információkinyerés,
a gépi tanulás és az adatbányászat.
Forrás: Fajszi et al (2010)

10
Klaszterezés
11
Klaszterezés
12
Szegmentáció

Érték alapú szegmentáció (VBS)
Legjobb ügyfelek
Fejlesztendő ügyfelek
Marginális ügyfelek
Alacsony értékű ügyfelek

NOM AUM SALARY
(net operating margin) (assets under management) 14
Döntési fa
A döntési fa egy kifejezetten számítógépes
alkalmazásra kifejlesztett osztályozó eljárás,
amelynek végeredménye egy bináris jellegű
osztályozó fastruktúra. A fát a gyökerétől kezdve
építi fel. Az egyes döntési pontokon a minta
mindig kétfelé válik egy adott változó alapján (pl.
nominális skálán mért változóknál a kategóriák
szerint, míg intervallumskálán mért változóknál
meghatározott értéknél válik szét a fa két ága). A
fa építése során minden lépésben azt kell tehát
megválaszolni, melyik változónál és annak mely
értékénél történjen a vágás. Döntési fák
felépítésére többféle algoritmus is létezik.
Döntési fa hiteligénylés esetén

17
Lineáris regresszió
A statisztika eszköztárában a lineáris
regresszió egy olyan
paraméteres regressziós modell,
mely feltételezi a magyarázó- (X) és a
magyarázott (y) változó közti
(paramétereiben) lineáris kapcsolatot.
Ez azt jelenti, hogy lineáris regresszió
becslése során a mintavételi adatok
pontfelhőjére igyekszünk
egyenest illeszteni.
18
• Ha két változó normális eloszlású, akkor csak lineáris kapcsolat képzelhető el
közöttük, azaz, ha nincs közöttük lineáris kapcsolat, akkor függetlenek egymástól.
• Ha két változó normális eloszlású és korrelációjuk nulla, akkor függetlenek egymástól,
ha korrelációjuk nullától különbözik, akkor lineáris kapcsolatban vannak, és ez a
kapcsolat egy egyenessel megragadható. Fontos a korreláció mértéke is (r=0.01) A
regressziós egyenes segítségével egyik változó értékének ismeretében a másik
változó értékét előre jelezhetjük. Meg kell határoznunk a függő és független változót,
ki kell számítanunk a regressziós együtthatókat ( , és ).
• Ha a független változó értékei köz nem szerepel egy érték, de a megfigyelt
tartományban van (megfigyelt min. és max. érték között), akkor következtethetünk a
függő változó értékére (interpoláció), ha a megfigyelt tartományon kívül van, akkor
ezt nem tehetjük meg (extrapoláció).
• Ha a független változó súlya ( ) a populáció szintjén különbözik nullától, akkor a
független változó hatása szignifikáns. 19


Logisztikus regresszió
A logisztikus regresszió két, egymást kölcsönösen kizáró kategória (siker:
D = 1, kudarc: D = 0) bekövetkezési esélyeinek az egymáshoz való
arányát, vagyis az ún. odds mértékét modellezi a magyarázó változók
értékeinek ismeretében. Legyen a siker bekövetkezésének feltételes
valószínűsége
P = P(D=1|x).
x
22
Lift érték
Az adatok feltárásának egyik leglátványosabb és a
legtöbb meglepetéssel szolgáló szakasza az, amikor a
magyarázó változók és a bináris célváltozó közötti
kapcsolat elemzése kerül sorra. A magyarázó változók
célváltozót befolyásoló erejét a lift fogalmának
Ki kell számolni a lift értéket, ami az adott
segítségével mérjük. A lift megadja, hogy egy, a változó diszkrét kategóriája szerint lehatárolt
rendelkezésünkre álló mintából kiválasztott csoporton részpopulációs célváltozó arányának és a
belül hányszor nagyobb a célesemény bekövetkezésének teljes populációs célváltozó aránynak a
hányadosaként áll elő:
aránya, mint a teljes mintában. Ha például a vizsgált
ügyfélkörben (mintában) a rossz adósok aránya 10% és Lift = (%Jók / %Rosszak)i / (%Jók / %Rosszak)
kiválasztunk egy iskolai végzettség szerinti csoportot,
például az általános iskolai végzettségűeket, és ebben a
csoportban azt tapasztaljuk, hogy a rossz adósok aránya
20% százalék, vagyis kétszer akkora, mint ami a teljes
mintára jellemző, akkor a lift értéke ebben az esetben 2.
Forrás: Fajszi et al 116-117

23
Woe érték
Az ún. bizonyítéksúly (Weights of Evidence, WoE)
bevezetését ajánlja. A bizonyítéksúly egy a lifthez hasonló
mennyiség. Most elég annyit tudnunk róla, hogy azokban
a binekben (kategóriákban), ahol a célesemények aránya
nagyobb, azaz a lift is nagyobb, ott a WoE is nagyobb
lesz, és ennek a fordítottja is igaz.

24
IV érték

25
ROC görbe
A modell eredményének egyik legjobb mutatószáma a ROC
görbe vizsgálata során derül ki. A ROC görbe (Receiver Operating
Characteristic) a besorolási pontosságot adja meg a görbe alatti
terület mutatójának (AUC – Area Under Curve) segítségével. A
más néven kumulált besorolás görbéje egy gyakran alkalmazott
eszköz kétkategóriájú kimenettel és előre jelzett valószínűségi
értékekkel rendelkező klasszifikációs szabályok
teljesítményértékelésére. ROC során azt vizsgáljuk, hogy
mennyire pontosan tudjuk előre jelezni a pozitív céleseményt
ismert kimenetek esetén. A vízszintes tengely a kumulált
eloszlás, a függőleges a sikeres ajánlatok – azaz a pozitív
célváltozók – kumulált aránya. Annál jobb a modell minél inkább
eltér pozitív irányban a 45 fokos véletlenszerűséget jelentő
egyenestől. A fő mutatószám a görbe alatti terület. Ha ez az
érték nagyobb, mint 0,5, azaz 50%, akkor van hozzáadott értéke
a modellünknek. 26
Forrás: Fajszi et al (2010)
Lift grafikon Lift grafikon
Train: Valid: 70%
N = 100 N = 50 60%
True: 20 True: 10 50%

False: 80 False: 40
40%
True%: 20% True%: 20%
30% A célváltozó sűrűségét
20%
adja meg az adott
deicilisen belül.
10%
0%
1 2 3 4 5 6 7 8 9 10
Normal Train Valid
27
Score
28
Lineáris vs. logisztikus regresszió
Lineáris regresszió:
• Y folytonos változó, rögzített X mellett feltételes eloszlása normális
• Lineáris függvény regressziós együtthatóit becsüljük
• legkisebb négyzetek elve
• a mért és a becsült értékek eltérését vizsgáljuk
Logisztikus (nemlineáris) regresszió:

• Y függő változó – itt - bináris (több kategóriája is lehet), melyet
dummy változónak is hívunk
• Logit transzformációt végzünk: a két lehetséges érték előfordulási
valószínűségeinek arányát logaritmizáljuk
• Maximum likelihood becslés
• Az ismert és a becsült osztályozás eltérését vetjük össze, de óvatosan
29
Regresszió számítás során
felmerülő problémák
1. Hiányzó értékek kezelése (Impute)

2. Modell értelmezés
3. Extrém és szokatlan értékek
kezelése
4. Nem numerikus adatok használata
(Transform Variables,
Replacement)
5. Nem lineáris eszközök
hozzáférhetősége (Regression,
Polynominal Regression) 30
Logisztikus regresszió –
Esélyhányados
Hitelképesség
Összesen
Beáll Bedől
Száma 370 250 620
Alacsony
Adósságállomány %-ában 59,7% 40,3% 100,0%
Adósságállomány
Száma 333 649 982
Magas
Adósságállomány %-ában 33,9% 66,1% 100,0%
•31
Felügyelt és felügyelet
nélküli tanulás
• Felügyelt tanulás (pl. osztályozás, regressziós modellek)
 bemeneti, magyarázó változó mindenkinél ismert
 kimeneti, cél változó csak egy részhalmaznál
 feladat: olyan összefüggést találni a tanuló állományban a független és a

függő változók között, amely kivetíthető a cél állományra és a felismert
szabály alapján előrejelzés készíthető
• Felügyelet nélküli tanulás (pl. klaszterezés)
 nincsen cél-változó
 feladat: megtalálni az összefüggést a változók között
32
A modellezés menete
A döntési helyzetben két kockázat van:
Megadjuk a hitelt, pedig be fog dőlni (első fajú hiba)
Elutasítjuk, pedig jó ügyfél lenne (másod fajú hiba)
A kétféle döntési hiba költsége eltérő
True Pozitív esetek száma

SENSITIVITY 
True Pozitív esetek száma  False Negatív esetek száma
True Negatív esetek száma

SPECIFICIT Y 
True Negatív esetek száma  False Pozitív esetek száma
33
A modell illeszkedése (fitting):

• Az a cél, hogy a modell minél jobban illeszkedjék a
valósághoz, torzítatlan (unbiased) legyen. Leírja, leképezze a
valóságot.
• Komplexitás: a valóság leképezésére a valóban arra szükséges
elemeket (változókat) vegye figyelembe, se többet, se kevesebbet, és
pont a fontosakat.
• A szükségesnél több elemet vesz figyelembe:
túl komplex  túl illesztés (overfitting)
• A szükségesnél kevesebb elemet vesz figyelembe:
nem eléggé komplex  alul illesztés (underfitting)
34
Az adatbázis felosztása (particionálás):
Tanuló adatbázis (training data)

„Megtanítani” a rendszernek: behangolni
(tuning) a modell illeszkedését.
Validációs adatok (Validation data)
Kipróbáljuk, hogy hogyan illeszkedik az
ismert valósághoz a tesztadatokon
behangolt modell. Mennyire adja vissza a
modell a tapasztalati eredményt.
Teszt adatok (Test data)
Az adatok nem vesznek részt a modell
illesztésben (training).
35
GYAKORI ELEMHALMAZOK
(ASSZOCIÁCIÓ)
•36
„PIACI KOSÁR” ELEMZÉS
Alap-gondolat:
• Adott m-féle termék: ez a termékválaszték
• A fogyasztók ebből válogatják össze
vásárlásaikat: ez a fogyasztói kosár (tranzakciók):
legyen n db kosár
• A kosarakban vannak olyan tételek, amelyeket a
fogyasztók következetesen együtt vásárolnak (asszociálnak)
Vizsgált kérdés: Melyik termékeket szokták a fogyasztók

következetesen („nagy” valószínűséggel) együtt vásárolni?
Cél: együttállási szabályszerűségek feltárása
•37
A PROBLÉMA FORMALIZÁLÁSA
• E = {e1, e2, …, em} elemek halmaza (pl. termékek) (egy adatbázisban)


• e E részhalmaza: elemhalmaz (lehetséges vásárlói kosarak)

• T = {t1, t2, …tn}: tranzakciók (rekordok = megvalósult vásárlói kosarak)
halmaza
• X elemhalmaz (egy adott termék együttállás) előfordul T-ben,
ha az X része ti-nek
• GYAKORISÁG [support, supp]: azon T tranzakciók száma, melyekben
X előfordul:
GYAKORISÁG(X) = |{ti | X  ti, ahol ti T}|
azon vásárlások száma, melyekben megvan az együttállá s
gyakoriság % 
összes vásárlás
• X gyakori elemhalmaz, ha meghaladja az ún. minimális
gyakoriságot (gyakoriság küszöb=σ): tehát ha
GYAKORISÁG(X) > σ •38
A B D A C D B C D A D E B D
A C E
E={ }
Asszociációs
Gyakoriság
szabály
AD 3/5 60%
BC 2/5 40%
B&CD 1/5 20%
•39
Asszociációs szabály:
Az XY implikációt asszociációs szabálynak hívjuk
arra keres választ, hogy a tranzakciók hány százaléka
tartalmazza Y elemhalmazt, ha az X elemhalmazt
tartalmazza.
X: előzmény rész Y: következmény rész
A {sör, pelenka} gyakori elemhalmazból generálható szabályok:
- Ha valaki vesz sört,
akkor bizonyos valószínűséggel pelenkát is vásárol: Sör  Pelenka
- Ha valaki vesz pelenkát,
akkor bizonyos valószínűséggel sört is vásárol: Pelenka  Sör
Bizonyosság (Confidence [conf.])

gyakoriság( X  Y )
bizonyosság ( X  Y ) 
gyakoriság( X )
gyakoriság ( pelenka  sör ) 3
bizonyoság ( pelenka  sör )    0,75 (75 %)
gyakoriság ( pelenka) 4
•40
A pelenka vásárlók 75 %-a vásárol sört is.
Egy szabály
 Gyakori, ha az előfordulás gyakorisága meghaladja az ún.
minimális gyakoriságot (gyakoriság küszöb=σ)
 Bizonyos, ha bizonyossága meghaladja a
minimális bizonyosságot (bizonyossági küszöb: γ).
 Érvényes (fontos), ha gyakori és bizonyos is
gyakoriság( X  Y )   és bizonyosság ( X  Y )  
Érvényes szabályok feltárása:

1. gyakori elemhalmazok meghatározása
2. gyakori elemhalmazokból az érvényes asszociációk meghatározása
3. érdekességi (fontossági) mutatók meghatározása
(Az érvényes szabályokat fontosság szerint rangsorolni akarjuk,
hogy a kevésbé fontosakat kiszűrjük)
•41
gyakoriság(Y )
Várható bizonyosság 
összes tranzakció
Asszociációs szabály erőssége: Lift

bizonyosság ( X  Y )
Lift ( X  Y ) 
gyakoriság(Y )
Példa:
Felmérés: 500 fogyasztóra kiterjedően
Tea fogyasztása mennyiben befolyásolja a kávé fogyasztását?
Teát a megkérdezettek 20 %-a
Kávét a megkérdezettek 80 %-a
Mindkettőt a megkérdezettek 15 %-a fogyaszt rendszeresen.
gyakoriság(tea )  20 % gyakoriság(kávé)  80 % gyakoriság(tea  kávé)  15 %

gyakoriság(tea  kávé) 15
bizonyosság (tea  kávé)    0,75  75 %
gyakoriság(tea ) 20
A teát fogyasztók 75 %-a kávé fogyasztó is.
bizonyosság (tea  kávé) 0,75

Lift (tea  kávé)    0,9375
gyakoriság(kávé) 0,8
•42
Gyakori elemhalmazok
(Összefoglalás)
Asszociációs szabály: XY implikáció
a tranzakciók hány százaléka tartalmazzaY elemhalmazt,
ha az X elemhalmazt tartalmazza
Elemhalmaz gyakorisága (support):

azon tranzakciók száma, melyekben megvan az együttállá s
gyakoriság % 
összes tranzakció
szabály bizonyossága (confidence):

gyakoriság( X  Y )
bizonyosság ( X  Y ) 
gyakoriság( X )
gyakoriság(Y )
várható bizonyosság 
összes tranzakció
bizonyosság ( X  Y )
szabály erőssége: Lift ( X  Y ) 
gyakoriság((Y )
•43
Gyakori elemhalmazok
(Összefoglaló példa)
FOLYÓSZÁMLA
NEM IGEN
NEM 500 3500 4000

MEGTAKARÍTÁSI
SZÁMLA
IGEN 1000 5000 6000
 10000
Asszociációs szabály: MF

Gyakoriság (MF) = 5000/10000 = 50 %
gyak ( M  F )
Bizonyosság (MF) = gyak ( M )
 5000/6000 = 83 %
gyak ( F )
Várható bizonyosság (MF) = tr
 8500/10000 = 85 %
biz ( M  F )

Lift (MF) = gyak ( F ) 0,83/0,85 = 0,98 < 1
•44
Életkép
Egy vezető floridai kiskereskedelmi hálózat (Palmeri)
kereskedelmi vezetője a Forbes magazinban cikket írt arról, hogy megfigyelésük szerint azon
vevőik, akik Barbie babát (Barbie doll) vásárolnak, mintegy 60 %-os valószínűséggel vesznek
egy adott fajta édességet (candy bar) is. Eszerint:
A cikkben a szerző azt latolgatta, vajon mit ér ez a felfedezés, lehet-e ezzel kezdeni valamit
üzleti szempontból?
A cikkre a Knowledge Discovery Nuggets folytóiratban kapott választ:
1. Tedd őket egymás közelébe – segíts a fantáziának
2. Tedd őket távol egymástól – amíg keresi, más is eszébe juthat, amit közben lát
3. Készíts csomagot, mely együtt tartalmazza a babát és az édességet
4. Készíts csomagot, mely tartalmazza a babát és az édességet, s csomagolj hozzá
valami olyan cikket, ami nem nagyon megy
5. Emeld fel az egyik árát, engedj a másik árából
6. Ajánlj Barbie kiegészítőket is
7. Ne hírdesd a babát és az édességet együtt
8. Kínálj Barbie formájú cukrot •45
(Válaszírók: Piatesky-Shapiro 2003)
NEURÁLIS HÁLÓK
NEURAL NETWORKS
•46
• Nemparametrikus modellezési eszköz, mely leképezi a biológiai
neuron (emberi agy) működését és tanulási folyamatát.
• Regressziós, osztályozási, klaszterezési, előrejelzési problémák
megoldására használatos.
•47
Célszerű neurális hálózatot alkalmazni
- A megoldandó problémával kapcsolatban gazdag
adathalmaz áll rendelkezésre
- A megoldáshoz szükséges szabályok ismeretlenek
- A rendelkezésre álló adathalmaz nem teljes, hibás
adatokat is tartalmazhat
- Sok összefüggő bemenő adat-, összefüggő kimeneti
paraméter áll rendelkezésre
48
NEURON
Dendritis
Idegsejt
Axon
Synapsis
Hippocampal Neurons
Forrás: heart.cbl.utoronto.ca/ ~berj/projects.html
• Dendritis – Felveszi az információt

• Idegsejt – Feldolgozza az információt
• Axon – Továbbítja az információt a másik neuronhoz
• Synapsis – Axon vége és másik neuron dendritis-ének
csatlakozása •49
A MESTERSÉGES NEURON
Dendritis Idegsejt Axon
X1 Az információfolyam iránya
w1
X2 w2
I f V = f(I)
..
.
wp
Xp I = w1X1 + w2X2 + w3X3 + … + wpXp
Veszi az inputokat: X1 X2 … Xp a környezetből, vagy más neurontól

Az inputok súlyozva vannak a w1…wn súlyokkal
Total Input (I) = az összes input súlyozott összege
Transfer függvény (Activation függvény) az inputokat outputokká
konvertálja
Output a környezet, vagy más neuron felé irányul. •50
Azonos feladatkörben szereplő neuronok réteget képeznek
X1 X2 X3 X4
Input réteg
Az infromációáramlás iránya
Rejtett réteg
Output réteg
y1 y2
•51
A rejtett rétegek száma több is lehet
•52
X1 X2 X3 X4
y1 y2
•53
Input: X1 X2 X3 Output: Y Model: Y = f(X1 X2 X3)
X1 =1 X2=-1 X3 =2 0,2 = 0,5 * 1 –0,1*(-1) – 0,2*2
ex
f ( x) 
-0.4 -0.2 1  e x0, 2
-0.1 0.1 e
0.5 0.7 f (0,2)   0,55
1 e 0, 2
0.2 0.9 Becsült Ŷ = 0.478

f (0.2) = 0.55 f (0.9) = 0.71
0.55 0.71
0.1 -0.2
-0.087
f (-0.087) = 0.478
•54
0.478
Neurális hálózatok tervezésének menete
1. Reprezentatív tapasztalati adat gyűjtése

2. Megfelelő feladat specifikus neurális
paradigma kiválasztása
3. Rendszer paraméterek kiválasztása
4. Teljesítmény mérő módszer
kiválasztása
5. A rendszer tanítása és tesztelése
55
Big Data
Big Data
Big Data
Big Data
GDPR
PSD2
Banking API-s
PFM
AI
Köszönöm a figyelmet!

1 Módszertani Elméleti Áttekintés 2020nov

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Módszertani Elméleti Áttekintés 2020nov

Uploaded by

Copyright:

Available Formats

ADATBÁNYÁSZAT

Forrás: Fajszi et al (2010) 3

Forrás: Fajszi et al (2010) 4

A szegmentáció, az objektumok vagy jelenségek csoportba

Forrás: Fajszi et al (2010) 9

Forrás: Fajszi et al (2010)

Forrás: Fajszi et al (2010) 13

Alacsony értékű ügyfelek

Forrás: Fajszi et al (2010) 16

Forrás: Fajszi et al (2010) 20

Forrás: Fajszi et al (2010) 21

Forrás: Fajszi et al 116-117

Forrás: Fajszi et al 116-117

Forrás: Fajszi et al 116-117

True: 20 True: 10 50%

Normal Train Valid

Logisztikus (nemlineáris) regresszió:

1. Hiányzó értékek kezelése (Impute)

 feladat: olyan összefüggést találni a tanuló állományban a független és a

Elutasítjuk, pedig jó ügyfél lenne (másod fajú hiba)

A kétféle döntési hiba költsége eltérő

True Pozitív esetek száma

True Negatív esetek száma

A modell illeszkedése (fitting):

Az adatbázis felosztása (particionálás):

Tanuló adatbázis (training data)

Vizsgált kérdés: Melyik termékeket szokták a fogyasztók

Cél: együttállási szabályszerűségek feltárása

• E = {e1, e2, …, em} elemek halmaza (pl. termékek) (egy adatbázisban)

Bizonyosság (Confidence [conf.])

Érvényes szabályok feltárása:

Asszociációs szabály erőssége: Lift

gyakoriság(tea )  20 % gyakoriság(kávé)  80 % gyakoriság(tea  kávé)  15 %

bizonyosság (tea  kávé) 0,75

Elemhalmaz gyakorisága (support):

szabály bizonyossága (confidence):

NEM 500 3500 4000

Asszociációs szabály: MF

• Dendritis – Felveszi az információt

Veszi az inputokat: X1 X2 … Xp a környezetből, vagy más neurontól

0.2 0.9 Becsült Ŷ = 0.478

1. Reprezentatív tapasztalati adat gyűjtése

You might also like