You are on page 1of 65

ADATBÁNYÁSZAT

2020.november

Fördős Fanni
Az üzleti adatbányászat tipikus módszerei

• Regresszió
• Idősorok
• Csoportosítás (Cell Analyzis, Szegmentáció, Clustering)
• Osztályozás (Döntési fák)
• Gyakori elemhalmazok (asszociációk) szabályai
• OLAP kockák
• Neurális hálózatok
• és még sok más módszer
2
Szegmentáció

Forrás: Fajszi et al (2010) 3


Szegmentáció

Forrás: Fajszi et al (2010) 4


Szegmentáció

A szegmentáció, az objektumok vagy jelenségek csoportba


sorolása.
Forrás: Fajszi et al (2010) 5
Általános szegmentáció

6
Szegmentáció

7
Szegmentáció

2
Klaszterezés

Forrás: Fajszi et al (2010) 9


Klaszterezés
A klaszteranalízis adatainkat olyan csoportokra
(klaszterekre) bontja, melyek értelmesek, hasznosak,
esetleg mindkét tulajdonsággal rendelkeznek.
Amennyiben értelmes csoportok létrehozása a cél,
akkor a klasztereknek az adatokban rejlő természetes
szerkezetét kell feltárnia. Egyes esetekben azonban a
klaszteranalízis csak egy hasznos kiindulópont más
célok, például adatösszegzés eléréséhez. Akár
megértésre vagy hasznosításra használják, a
klaszteranalízis szakterületek széles körénél játszik
hosszú ideje fontos szerepet, ilyenek a pszichológia
és más társadalomtudományok, a biológia, a
statisztika, az alakfelismerés, az információkinyerés,
a gépi tanulás és az adatbányászat.

Forrás: Fajszi et al (2010)


10
Klaszterezés

11
Klaszterezés

12
Szegmentáció

Forrás: Fajszi et al (2010) 13


Érték alapú szegmentáció (VBS)

Legjobb ügyfelek

Fejlesztendő ügyfelek

Marginális ügyfelek

Alacsony értékű ügyfelek


NOM AUM SALARY
(net operating margin) (assets under management) 14
Döntési fa
A döntési fa egy kifejezetten számítógépes
alkalmazásra kifejlesztett osztályozó eljárás,
amelynek végeredménye egy bináris jellegű
osztályozó fastruktúra. A fát a gyökerétől kezdve
építi fel. Az egyes döntési pontokon a minta
mindig kétfelé válik egy adott változó alapján (pl.
nominális skálán mért változóknál a kategóriák
szerint, míg intervallumskálán mért változóknál
meghatározott értéknél válik szét a fa két ága). A
fa építése során minden lépésben azt kell tehát
megválaszolni, melyik változónál és annak mely
értékénél történjen a vágás. Döntési fák
felépítésére többféle algoritmus is létezik.
Forrás: Fajszi et al (2010) 15
Döntési fa hiteligénylés esetén

Forrás: Fajszi et al (2010) 16


17
Lineáris regresszió
A statisztika eszköztárában a lineáris
regresszió egy olyan
paraméteres regressziós modell,
mely feltételezi a magyarázó- (X) és a
magyarázott (y) változó közti
(paramétereiben) lineáris kapcsolatot.
Ez azt jelenti, hogy lineáris regresszió
becslése során a mintavételi adatok
pontfelhőjére igyekszünk
egyenest illeszteni.

18
Lineáris regresszió
• Ha két változó normális eloszlású, akkor csak lineáris kapcsolat képzelhető el
közöttük, azaz, ha nincs közöttük lineáris kapcsolat, akkor függetlenek egymástól.
• Ha két változó normális eloszlású és korrelációjuk nulla, akkor függetlenek egymástól,
ha korrelációjuk nullától különbözik, akkor lineáris kapcsolatban vannak, és ez a
kapcsolat egy egyenessel megragadható. Fontos a korreláció mértéke is (r=0.01) A
regressziós egyenes segítségével egyik változó értékének ismeretében a másik
változó értékét előre jelezhetjük. Meg kell határoznunk a függő és független változót,
ki kell számítanunk a regressziós együtthatókat ( , és ).
• Ha a független változó értékei köz nem szerepel egy érték, de a megfigyelt
tartományban van (megfigyelt min. és max. érték között), akkor következtethetünk a
függő változó értékére (interpoláció), ha a megfigyelt tartományon kívül van, akkor
ezt nem tehetjük meg (extrapoláció).
• Ha a független változó súlya ( ) a populáció szintjén különbözik nullától, akkor a
független változó hatása szignifikáns. 19
Lineáris regresszió

Forrás: Fajszi et al (2010) 20


Lineáris regresszió

Forrás: Fajszi et al (2010) 21


Logisztikus regresszió
A logisztikus regresszió két, egymást kölcsönösen kizáró kategória (siker:
D = 1, kudarc: D = 0) bekövetkezési esélyeinek az egymáshoz való
arányát, vagyis az ún. odds mértékét modellezi a magyarázó változók
értékeinek ismeretében. Legyen a siker bekövetkezésének feltételes
valószínűsége

P = P(D=1|x).
x

22
Lift érték
Az adatok feltárásának egyik leglátványosabb és a
legtöbb meglepetéssel szolgáló szakasza az, amikor a
magyarázó változók és a bináris célváltozó közötti
kapcsolat elemzése kerül sorra. A magyarázó változók
célváltozót befolyásoló erejét a lift fogalmának
Ki kell számolni a lift értéket, ami az adott
segítségével mérjük. A lift megadja, hogy egy, a változó diszkrét kategóriája szerint lehatárolt
rendelkezésünkre álló mintából kiválasztott csoporton részpopulációs célváltozó arányának és a
belül hányszor nagyobb a célesemény bekövetkezésének teljes populációs célváltozó aránynak a
hányadosaként áll elő:
aránya, mint a teljes mintában. Ha például a vizsgált
ügyfélkörben (mintában) a rossz adósok aránya 10% és Lift = (%Jók / %Rosszak)i / (%Jók / %Rosszak)
kiválasztunk egy iskolai végzettség szerinti csoportot,
például az általános iskolai végzettségűeket, és ebben a
csoportban azt tapasztaljuk, hogy a rossz adósok aránya
20% százalék, vagyis kétszer akkora, mint ami a teljes
mintára jellemző, akkor a lift értéke ebben az esetben 2.

Forrás: Fajszi et al 116-117


23
Woe érték
Az ún. bizonyítéksúly (Weights of Evidence, WoE)
bevezetését ajánlja. A bizonyítéksúly egy a lifthez hasonló
mennyiség. Most elég annyit tudnunk róla, hogy azokban
a binekben (kategóriákban), ahol a célesemények aránya
nagyobb, azaz a lift is nagyobb, ott a WoE is nagyobb
lesz, és ennek a fordítottja is igaz.

Forrás: Fajszi et al 116-117


24
IV érték

Forrás: Fajszi et al 116-117


25
ROC görbe
A modell eredményének egyik legjobb mutatószáma a ROC
görbe vizsgálata során derül ki. A ROC görbe (Receiver Operating
Characteristic) a besorolási pontosságot adja meg a görbe alatti
terület mutatójának (AUC – Area Under Curve) segítségével. A
más néven kumulált besorolás görbéje egy gyakran alkalmazott
eszköz kétkategóriájú kimenettel és előre jelzett valószínűségi
értékekkel rendelkező klasszifikációs szabályok
teljesítményértékelésére. ROC során azt vizsgáljuk, hogy
mennyire pontosan tudjuk előre jelezni a pozitív céleseményt
ismert kimenetek esetén. A vízszintes tengely a kumulált
eloszlás, a függőleges a sikeres ajánlatok – azaz a pozitív
célváltozók – kumulált aránya. Annál jobb a modell minél inkább
eltér pozitív irányban a 45 fokos véletlenszerűséget jelentő
egyenestől. A fő mutatószám a görbe alatti terület. Ha ez az
érték nagyobb, mint 0,5, azaz 50%, akkor van hozzáadott értéke
a modellünknek. 26
Forrás: Fajszi et al (2010)
Lift grafikon Lift grafikon
Train: Valid: 70%

N = 100 N = 50 60%

True: 20 True: 10 50%


False: 80 False: 40
40%
True%: 20% True%: 20%
30% A célváltozó sűrűségét
20%
adja meg az adott
deicilisen belül.
10%

0%
1 2 3 4 5 6 7 8 9 10

Normal Train Valid

27
Score

28
Lineáris vs. logisztikus regresszió

Lineáris regresszió:
• Y folytonos változó, rögzített X mellett feltételes eloszlása normális
• Lineáris függvény regressziós együtthatóit becsüljük
• legkisebb négyzetek elve
• a mért és a becsült értékek eltérését vizsgáljuk

Logisztikus (nemlineáris) regresszió:


• Y függő változó – itt - bináris (több kategóriája is lehet), melyet
dummy változónak is hívunk
• Logit transzformációt végzünk: a két lehetséges érték előfordulási
valószínűségeinek arányát logaritmizáljuk
• Maximum likelihood becslés
• Az ismert és a becsült osztályozás eltérését vetjük össze, de óvatosan

29
Regresszió számítás során
felmerülő problémák

1. Hiányzó értékek kezelése (Impute)


2. Modell értelmezés
3. Extrém és szokatlan értékek
kezelése
4. Nem numerikus adatok használata
(Transform Variables,
Replacement)
5. Nem lineáris eszközök
hozzáférhetősége (Regression,
Polynominal Regression) 30
Logisztikus regresszió –
Esélyhányados
Hitelképesség
Összesen
Beáll Bedől
Száma 370 250 620
Alacsony
Adósságállomány %-ában 59,7% 40,3% 100,0%
Adósságállomány
Száma 333 649 982
Magas
Adósságállomány %-ában 33,9% 66,1% 100,0%

•31
Felügyelt és felügyelet
nélküli tanulás
• Felügyelt tanulás (pl. osztályozás, regressziós modellek)
 bemeneti, magyarázó változó mindenkinél ismert
 kimeneti, cél változó csak egy részhalmaznál

 feladat: olyan összefüggést találni a tanuló állományban a független és a


függő változók között, amely kivetíthető a cél állományra és a felismert
szabály alapján előrejelzés készíthető
• Felügyelet nélküli tanulás (pl. klaszterezés)
 nincsen cél-változó
 feladat: megtalálni az összefüggést a változók között

32
A modellezés menete
A döntési helyzetben két kockázat van:
Megadjuk a hitelt, pedig be fog dőlni (első fajú hiba)

Elutasítjuk, pedig jó ügyfél lenne (másod fajú hiba)

A kétféle döntési hiba költsége eltérő

True Pozitív esetek száma


SENSITIVITY 
True Pozitív esetek száma  False Negatív esetek száma

True Negatív esetek száma


SPECIFICIT Y 
True Negatív esetek száma  False Pozitív esetek száma

33
A modellezés menete

A modell illeszkedése (fitting):


• Az a cél, hogy a modell minél jobban illeszkedjék a
valósághoz, torzítatlan (unbiased) legyen. Leírja, leképezze a
valóságot.
• Komplexitás: a valóság leképezésére a valóban arra szükséges
elemeket (változókat) vegye figyelembe, se többet, se kevesebbet, és
pont a fontosakat.
• A szükségesnél több elemet vesz figyelembe:
túl komplex  túl illesztés (overfitting)
• A szükségesnél kevesebb elemet vesz figyelembe:
nem eléggé komplex  alul illesztés (underfitting)

34
A modellezés menete

Az adatbázis felosztása (particionálás):

Tanuló adatbázis (training data)


„Megtanítani” a rendszernek: behangolni
(tuning) a modell illeszkedését.
Validációs adatok (Validation data)
Kipróbáljuk, hogy hogyan illeszkedik az
ismert valósághoz a tesztadatokon
behangolt modell. Mennyire adja vissza a
modell a tapasztalati eredményt.
Teszt adatok (Test data)
Az adatok nem vesznek részt a modell
illesztésben (training).

35
GYAKORI ELEMHALMAZOK
(ASSZOCIÁCIÓ)

•36
„PIACI KOSÁR” ELEMZÉS

Alap-gondolat:
• Adott m-féle termék: ez a termékválaszték
• A fogyasztók ebből válogatják össze
vásárlásaikat: ez a fogyasztói kosár (tranzakciók):
legyen n db kosár
• A kosarakban vannak olyan tételek, amelyeket a
fogyasztók következetesen együtt vásárolnak (asszociálnak)

Vizsgált kérdés: Melyik termékeket szokták a fogyasztók


következetesen („nagy” valószínűséggel) együtt vásárolni?

Cél: együttállási szabályszerűségek feltárása

•37
A PROBLÉMA FORMALIZÁLÁSA

• E = {e1, e2, …, em} elemek halmaza (pl. termékek) (egy adatbázisban)



• e E részhalmaza: elemhalmaz (lehetséges vásárlói kosarak)

• T = {t1, t2, …tn}: tranzakciók (rekordok = megvalósult vásárlói kosarak)
halmaza
• X elemhalmaz (egy adott termék együttállás) előfordul T-ben,
ha az X része ti-nek
• GYAKORISÁG [support, supp]: azon T tranzakciók száma, melyekben
X előfordul:
GYAKORISÁG(X) = |{ti | X  ti, ahol ti T}|
azon vásárlások száma, melyekben megvan az együttállá s
gyakoriság % 
összes vásárlás
• X gyakori elemhalmaz, ha meghaladja az ún. minimális
gyakoriságot (gyakoriság küszöb=σ): tehát ha
GYAKORISÁG(X) > σ •38
A B D A C D B C D A D E B D
A C E

E={ }

Asszociációs
Gyakoriság
szabály
AD 3/5 60%
BC 2/5 40%
B&CD 1/5 20%
•39
Asszociációs szabály:
Az XY implikációt asszociációs szabálynak hívjuk
arra keres választ, hogy a tranzakciók hány százaléka
tartalmazza Y elemhalmazt, ha az X elemhalmazt
tartalmazza.
X: előzmény rész Y: következmény rész
A {sör, pelenka} gyakori elemhalmazból generálható szabályok:
- Ha valaki vesz sört,
akkor bizonyos valószínűséggel pelenkát is vásárol: Sör  Pelenka
- Ha valaki vesz pelenkát,
akkor bizonyos valószínűséggel sört is vásárol: Pelenka  Sör

Bizonyosság (Confidence [conf.])


gyakoriság( X  Y )
bizonyosság ( X  Y ) 
gyakoriság( X )
gyakoriság ( pelenka  sör ) 3
bizonyoság ( pelenka  sör )    0,75 (75 %)
gyakoriság ( pelenka) 4
•40
A pelenka vásárlók 75 %-a vásárol sört is.
Egy szabály
 Gyakori, ha az előfordulás gyakorisága meghaladja az ún.
minimális gyakoriságot (gyakoriság küszöb=σ)
 Bizonyos, ha bizonyossága meghaladja a
minimális bizonyosságot (bizonyossági küszöb: γ).
 Érvényes (fontos), ha gyakori és bizonyos is
gyakoriság( X  Y )   és bizonyosság ( X  Y )  

Érvényes szabályok feltárása:


1. gyakori elemhalmazok meghatározása
2. gyakori elemhalmazokból az érvényes asszociációk meghatározása
3. érdekességi (fontossági) mutatók meghatározása
(Az érvényes szabályokat fontosság szerint rangsorolni akarjuk,
hogy a kevésbé fontosakat kiszűrjük)
•41
gyakoriság(Y )
Várható bizonyosság 
összes tranzakció

Asszociációs szabály erőssége: Lift


bizonyosság ( X  Y )
Lift ( X  Y ) 
gyakoriság(Y )
Példa:
Felmérés: 500 fogyasztóra kiterjedően
Tea fogyasztása mennyiben befolyásolja a kávé fogyasztását?
Teát a megkérdezettek 20 %-a
Kávét a megkérdezettek 80 %-a
Mindkettőt a megkérdezettek 15 %-a fogyaszt rendszeresen.

gyakoriság(tea )  20 % gyakoriság(kávé)  80 % gyakoriság(tea  kávé)  15 %


gyakoriság(tea  kávé) 15
bizonyosság (tea  kávé)    0,75  75 %
gyakoriság(tea ) 20
A teát fogyasztók 75 %-a kávé fogyasztó is.

bizonyosság (tea  kávé) 0,75


Lift (tea  kávé)    0,9375
gyakoriság(kávé) 0,8
•42
Gyakori elemhalmazok
(Összefoglalás)
Asszociációs szabály: XY implikáció
a tranzakciók hány százaléka tartalmazzaY elemhalmazt,
ha az X elemhalmazt tartalmazza

Elemhalmaz gyakorisága (support):


azon tranzakciók száma, melyekben megvan az együttállá s
gyakoriság % 
összes tranzakció

szabály bizonyossága (confidence):


gyakoriság( X  Y )
bizonyosság ( X  Y ) 
gyakoriság( X )
gyakoriság(Y )
várható bizonyosság 
összes tranzakció

bizonyosság ( X  Y )
szabály erőssége: Lift ( X  Y ) 
gyakoriság((Y )
•43
Gyakori elemhalmazok
(Összefoglaló példa)
FOLYÓSZÁMLA
NEM IGEN

NEM 500 3500 4000


MEGTAKARÍTÁSI
SZÁMLA
IGEN 1000 5000 6000

 10000

Asszociációs szabály: MF


Gyakoriság (MF) = 5000/10000 = 50 %
gyak ( M  F )
Bizonyosság (MF) = gyak ( M )
 5000/6000 = 83 %
gyak ( F )
Várható bizonyosság (MF) = tr
 8500/10000 = 85 %
biz ( M  F )

Lift (MF) = gyak ( F ) 0,83/0,85 = 0,98 < 1
•44
Életkép
Egy vezető floridai kiskereskedelmi hálózat (Palmeri)
kereskedelmi vezetője a Forbes magazinban cikket írt arról, hogy megfigyelésük szerint azon
vevőik, akik Barbie babát (Barbie doll) vásárolnak, mintegy 60 %-os valószínűséggel vesznek
egy adott fajta édességet (candy bar) is. Eszerint:

A cikkben a szerző azt latolgatta, vajon mit ér ez a felfedezés, lehet-e ezzel kezdeni valamit
üzleti szempontból?
A cikkre a Knowledge Discovery Nuggets folytóiratban kapott választ:
1. Tedd őket egymás közelébe – segíts a fantáziának
2. Tedd őket távol egymástól – amíg keresi, más is eszébe juthat, amit közben lát
3. Készíts csomagot, mely együtt tartalmazza a babát és az édességet
4. Készíts csomagot, mely tartalmazza a babát és az édességet, s csomagolj hozzá
valami olyan cikket, ami nem nagyon megy
5. Emeld fel az egyik árát, engedj a másik árából
6. Ajánlj Barbie kiegészítőket is
7. Ne hírdesd a babát és az édességet együtt
8. Kínálj Barbie formájú cukrot •45
(Válaszírók: Piatesky-Shapiro 2003)
NEURÁLIS HÁLÓK
NEURAL NETWORKS

•46
• Nemparametrikus modellezési eszköz, mely leképezi a biológiai
neuron (emberi agy) működését és tanulási folyamatát.
• Regressziós, osztályozási, klaszterezési, előrejelzési problémák
megoldására használatos.

•47
Célszerű neurális hálózatot alkalmazni
- A megoldandó problémával kapcsolatban gazdag
adathalmaz áll rendelkezésre
- A megoldáshoz szükséges szabályok ismeretlenek
- A rendelkezésre álló adathalmaz nem teljes, hibás
adatokat is tartalmazhat
- Sok összefüggő bemenő adat-, összefüggő kimeneti
paraméter áll rendelkezésre

48
NEURON

Dendritis
Idegsejt
Axon
Synapsis

Hippocampal Neurons
Forrás: heart.cbl.utoronto.ca/ ~berj/projects.html

• Dendritis – Felveszi az információt


• Idegsejt – Feldolgozza az információt
• Axon – Továbbítja az információt a másik neuronhoz
• Synapsis – Axon vége és másik neuron dendritis-ének
csatlakozása •49
A MESTERSÉGES NEURON
Dendritis Idegsejt Axon

X1 Az információfolyam iránya
w1
X2 w2
I f V = f(I)
..
.
wp
Xp I = w1X1 + w2X2 + w3X3 + … + wpXp

Veszi az inputokat: X1 X2 … Xp a környezetből, vagy más neurontól


Az inputok súlyozva vannak a w1…wn súlyokkal
Total Input (I) = az összes input súlyozott összege
Transfer függvény (Activation függvény) az inputokat outputokká
konvertálja
Output a környezet, vagy más neuron felé irányul. •50
Azonos feladatkörben szereplő neuronok réteget képeznek
X1 X2 X3 X4

Input réteg
Az infromációáramlás iránya

Rejtett réteg

Output réteg

y1 y2
•51
A rejtett rétegek száma több is lehet

•52
X1 X2 X3 X4

y1 y2

•53
Input: X1 X2 X3 Output: Y Model: Y = f(X1 X2 X3)
X1 =1 X2=-1 X3 =2 0,2 = 0,5 * 1 –0,1*(-1) – 0,2*2

ex
f ( x) 
-0.4 -0.2 1  e x0, 2
-0.1 0.1 e
0.5 0.7 f (0,2)   0,55
1 e 0, 2

0.2 0.9 Becsült Ŷ = 0.478


f (0.2) = 0.55 f (0.9) = 0.71
0.55 0.71

0.1 -0.2

-0.087
f (-0.087) = 0.478
•54
0.478
Neurális hálózatok tervezésének menete

1. Reprezentatív tapasztalati adat gyűjtése


2. Megfelelő feladat specifikus neurális
paradigma kiválasztása
3. Rendszer paraméterek kiválasztása
4. Teljesítmény mérő módszer
kiválasztása
5. A rendszer tanítása és tesztelése

55
Big Data
Big Data
Big Data
Big Data
GDPR
PSD2
Banking API-s
PFM
AI
Köszönöm a figyelmet!

You might also like