Professional Documents
Culture Documents
2020.november
Fördős Fanni
Az üzleti adatbányászat tipikus módszerei
• Regresszió
• Idősorok
• Csoportosítás (Cell Analyzis, Szegmentáció, Clustering)
• Osztályozás (Döntési fák)
• Gyakori elemhalmazok (asszociációk) szabályai
• OLAP kockák
• Neurális hálózatok
• és még sok más módszer
2
Szegmentáció
6
Szegmentáció
7
Szegmentáció
2
Klaszterezés
11
Klaszterezés
12
Szegmentáció
Legjobb ügyfelek
Fejlesztendő ügyfelek
Marginális ügyfelek
18
Lineáris regresszió
• Ha két változó normális eloszlású, akkor csak lineáris kapcsolat képzelhető el
közöttük, azaz, ha nincs közöttük lineáris kapcsolat, akkor függetlenek egymástól.
• Ha két változó normális eloszlású és korrelációjuk nulla, akkor függetlenek egymástól,
ha korrelációjuk nullától különbözik, akkor lineáris kapcsolatban vannak, és ez a
kapcsolat egy egyenessel megragadható. Fontos a korreláció mértéke is (r=0.01) A
regressziós egyenes segítségével egyik változó értékének ismeretében a másik
változó értékét előre jelezhetjük. Meg kell határoznunk a függő és független változót,
ki kell számítanunk a regressziós együtthatókat ( , és ).
• Ha a független változó értékei köz nem szerepel egy érték, de a megfigyelt
tartományban van (megfigyelt min. és max. érték között), akkor következtethetünk a
függő változó értékére (interpoláció), ha a megfigyelt tartományon kívül van, akkor
ezt nem tehetjük meg (extrapoláció).
• Ha a független változó súlya ( ) a populáció szintjén különbözik nullától, akkor a
független változó hatása szignifikáns. 19
Lineáris regresszió
P = P(D=1|x).
x
22
Lift érték
Az adatok feltárásának egyik leglátványosabb és a
legtöbb meglepetéssel szolgáló szakasza az, amikor a
magyarázó változók és a bináris célváltozó közötti
kapcsolat elemzése kerül sorra. A magyarázó változók
célváltozót befolyásoló erejét a lift fogalmának
Ki kell számolni a lift értéket, ami az adott
segítségével mérjük. A lift megadja, hogy egy, a változó diszkrét kategóriája szerint lehatárolt
rendelkezésünkre álló mintából kiválasztott csoporton részpopulációs célváltozó arányának és a
belül hányszor nagyobb a célesemény bekövetkezésének teljes populációs célváltozó aránynak a
hányadosaként áll elő:
aránya, mint a teljes mintában. Ha például a vizsgált
ügyfélkörben (mintában) a rossz adósok aránya 10% és Lift = (%Jók / %Rosszak)i / (%Jók / %Rosszak)
kiválasztunk egy iskolai végzettség szerinti csoportot,
például az általános iskolai végzettségűeket, és ebben a
csoportban azt tapasztaljuk, hogy a rossz adósok aránya
20% százalék, vagyis kétszer akkora, mint ami a teljes
mintára jellemző, akkor a lift értéke ebben az esetben 2.
N = 100 N = 50 60%
0%
1 2 3 4 5 6 7 8 9 10
27
Score
28
Lineáris vs. logisztikus regresszió
Lineáris regresszió:
• Y folytonos változó, rögzített X mellett feltételes eloszlása normális
• Lineáris függvény regressziós együtthatóit becsüljük
• legkisebb négyzetek elve
• a mért és a becsült értékek eltérését vizsgáljuk
29
Regresszió számítás során
felmerülő problémák
•31
Felügyelt és felügyelet
nélküli tanulás
• Felügyelt tanulás (pl. osztályozás, regressziós modellek)
bemeneti, magyarázó változó mindenkinél ismert
kimeneti, cél változó csak egy részhalmaznál
32
A modellezés menete
A döntési helyzetben két kockázat van:
Megadjuk a hitelt, pedig be fog dőlni (első fajú hiba)
33
A modellezés menete
34
A modellezés menete
35
GYAKORI ELEMHALMAZOK
(ASSZOCIÁCIÓ)
•36
„PIACI KOSÁR” ELEMZÉS
Alap-gondolat:
• Adott m-féle termék: ez a termékválaszték
• A fogyasztók ebből válogatják össze
vásárlásaikat: ez a fogyasztói kosár (tranzakciók):
legyen n db kosár
• A kosarakban vannak olyan tételek, amelyeket a
fogyasztók következetesen együtt vásárolnak (asszociálnak)
•37
A PROBLÉMA FORMALIZÁLÁSA
E={ }
Asszociációs
Gyakoriság
szabály
AD 3/5 60%
BC 2/5 40%
B&CD 1/5 20%
•39
Asszociációs szabály:
Az XY implikációt asszociációs szabálynak hívjuk
arra keres választ, hogy a tranzakciók hány százaléka
tartalmazza Y elemhalmazt, ha az X elemhalmazt
tartalmazza.
X: előzmény rész Y: következmény rész
A {sör, pelenka} gyakori elemhalmazból generálható szabályok:
- Ha valaki vesz sört,
akkor bizonyos valószínűséggel pelenkát is vásárol: Sör Pelenka
- Ha valaki vesz pelenkát,
akkor bizonyos valószínűséggel sört is vásárol: Pelenka Sör
bizonyosság ( X Y )
szabály erőssége: Lift ( X Y )
gyakoriság((Y )
•43
Gyakori elemhalmazok
(Összefoglaló példa)
FOLYÓSZÁMLA
NEM IGEN
10000
A cikkben a szerző azt latolgatta, vajon mit ér ez a felfedezés, lehet-e ezzel kezdeni valamit
üzleti szempontból?
A cikkre a Knowledge Discovery Nuggets folytóiratban kapott választ:
1. Tedd őket egymás közelébe – segíts a fantáziának
2. Tedd őket távol egymástól – amíg keresi, más is eszébe juthat, amit közben lát
3. Készíts csomagot, mely együtt tartalmazza a babát és az édességet
4. Készíts csomagot, mely tartalmazza a babát és az édességet, s csomagolj hozzá
valami olyan cikket, ami nem nagyon megy
5. Emeld fel az egyik árát, engedj a másik árából
6. Ajánlj Barbie kiegészítőket is
7. Ne hírdesd a babát és az édességet együtt
8. Kínálj Barbie formájú cukrot •45
(Válaszírók: Piatesky-Shapiro 2003)
NEURÁLIS HÁLÓK
NEURAL NETWORKS
•46
• Nemparametrikus modellezési eszköz, mely leképezi a biológiai
neuron (emberi agy) működését és tanulási folyamatát.
• Regressziós, osztályozási, klaszterezési, előrejelzési problémák
megoldására használatos.
•47
Célszerű neurális hálózatot alkalmazni
- A megoldandó problémával kapcsolatban gazdag
adathalmaz áll rendelkezésre
- A megoldáshoz szükséges szabályok ismeretlenek
- A rendelkezésre álló adathalmaz nem teljes, hibás
adatokat is tartalmazhat
- Sok összefüggő bemenő adat-, összefüggő kimeneti
paraméter áll rendelkezésre
48
NEURON
Dendritis
Idegsejt
Axon
Synapsis
Hippocampal Neurons
Forrás: heart.cbl.utoronto.ca/ ~berj/projects.html
X1 Az információfolyam iránya
w1
X2 w2
I f V = f(I)
..
.
wp
Xp I = w1X1 + w2X2 + w3X3 + … + wpXp
Input réteg
Az infromációáramlás iránya
Rejtett réteg
Output réteg
y1 y2
•51
A rejtett rétegek száma több is lehet
•52
X1 X2 X3 X4
y1 y2
•53
Input: X1 X2 X3 Output: Y Model: Y = f(X1 X2 X3)
X1 =1 X2=-1 X3 =2 0,2 = 0,5 * 1 –0,1*(-1) – 0,2*2
ex
f ( x)
-0.4 -0.2 1 e x0, 2
-0.1 0.1 e
0.5 0.7 f (0,2) 0,55
1 e 0, 2
0.1 -0.2
-0.087
f (-0.087) = 0.478
•54
0.478
Neurális hálózatok tervezésének menete
55
Big Data
Big Data
Big Data
Big Data
GDPR
PSD2
Banking API-s
PFM
AI
Köszönöm a figyelmet!