You are on page 1of 105

Upoznavanje sa podacima za

analizu

Doc.dr.sc. Goran Klepac


www.goranklepac.com
goran@goranklepac.com
To be concurrent in information age

"Any customer can have a car painted any colour that he


wants, so long as it is black." Henry Ford
• CRM
• Knowledge workers
Teleportation machine case

Analogy :
Product lifecycle
What do you know about
How to extend this speriod
customers?
Segments

Inovation
Now things became more
complicated

From vertical to horizontal


How to be successful in such
environment
New concepts
Poslovna
Big data
inteligencija
Percepcija
DWH Soft computing/ važnosti
Data science
data mining nestruktiranih
izvora podataka

1990 2000 2010


Zamke

Dužina
Dostupnost
promatrano
podataka
g uzorka

Promjena
bihevioralnih
Sezonalnost obilježja u
portfelju
Ilustracija …

Observacijski period 1 godina Outcome period 1 godina Predikcija

“Sindrom daruvarskih tablica”

Hd


time
Od He

C
Tradicionalan pristup

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
ML pristup

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Automatski pristup - update

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Utjecaj ekspertize

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Supervised learning – nadgledajuće učenje

Supervised learning – nadgledajuće učenje

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Supervised learning – nadgledajuće učenje – regresija

• Linearna regresija
• Logistička regresija
• Support Vector Machines (SVMs)
• Decision Trees i Random Forests
• Neural networks
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Unsupervised learning – nenadgledajuće
učenje

Unsupervised learning – nenadgledajuće učenje

• Self Organising Maps


• K-mean clustering
• Genetic Algorithms
• PSO

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Klasteriranje

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Klasteriranje

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Anomalije !!!!

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Semi supervised learning

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Reinforcement learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Online learning

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Online learning – veliki setovi podataka

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Instance based learning

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Model based learning

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Model based learning - primjer

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Nekoliko mogućih rješanja

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Optimalno rješenje

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Usporedbe modela

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Uloga reprezentativnosti

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Overtfitting

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Važnost dobre pripreme uzorka

* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Možemo li
primijeniti metode
nad ovakvim
podacima ???!!!!

Ciljna
varijabla

Ciljna
varijabla-
binominalna

Potencijalna
ciljna
varijabla-
multinomina
lna

Da li je uzorak
Prazne adekvatan s
Ima li tu što vrijednosti ! obzirom na cilj
devijantno !! analize ???!!!!
???!!!!
Očekivani rezultati

Razumijevanje problema
Model ne znači ništa bez razumijevanja uzročno –
posljedičnih veza u ispravno pripremljenim
podacima
Storytelling
Spoznaje treba usmjeriti ka rješavanju problema
te tako koncipirati analitičke postupke
Kako pristupiti rješavanju problema, odnosno
s čime ćemo se baviti tijekom semestra

1. Razumijevanje cilja, što je cilj analize što želimo riješiti i zašto


2. Procjena adekvatnosti uzorka (obuhvat podataka)
3. Detekcija nedostajućih vrijednosti u podacima sa adekvatnim tretmanom nedostajućih vrijednosti
(„Empty”, Case base reasoning, -99999)
4. Razumijevanje podataka i detekcija anomalija u podacima sa adekvatnim tretmanom devijantnih
vrijednosti (case base reasoning, „Empty”, Razredi , zašto brisanje nije univerzalno rješenje za sve
probleme )
5. Kreiranje bihevioralnih varijabli
6. Testiranja stabilnosti, koncentracija
7. Cijepanje uzorka 80:20 – reprezentativni uzorci
8. Analiza relevantnosti atributa (binominalna varijabla, multinominalna varijabla ) – kod supervised
learning – nadgledajuće učenje (5-13)
9. Razumijevanje uzročno posljedičnih veza
10. Selekcija metoda koje bi nas dovela do rješenja
11. Transformacija vrijednosti atributa s obzirom na planirano korištenje metoda
12. Treniranje modela (na 80% uzorka)
13. Testiranje modela (na 20% uzorka)
14. Ekspertiza- ekstrakcija znanja i pronalaženje rješenja
Data audit

 Vizualizacija podataka – upoznavanje podataka


 Primjena osnovnih statističkih mjera sukladno tipovima
podataka varijabli (kontinuirane, kategoričke, datumske)
 Kontrola kvalitete podataka
DB2

Oracle

Excel tablice ODBC, Izvedena


ODBC, Pretprocesiranje Izvedena
direktna
direktna Pretprocesiranje Rezultat tablica
podataka Rezultat tablica
veza podataka
veza

ASCII
datoteke

Skladište
podataka
Pretprocesiranje podataka

Pretprocesiranje Data mining


Transakcijska baza
podataka 1 (analiza,modeliranje)

Pretprocesiranje
Transakcijska baza
podataka 2
ETL

DWH
Transakcijska baza
podataka n
42
Priprema podataka
 Dobra priprema podataka 80% posla do otkrivanja znanja
 Za parcijalne analize nije potrebno napraviti ETL proces za
100% podataka
 Idealan slučaj u svjetlu otkrivanja znanja
 Uobičajen slučaj- poslovna praksa
 Kako “dobro” pripremiti podatke ?
 Sa ili bez DWH-a ?
 Zašto su ETL procesi za DM analize specifični
Metodologija pripreme podataka
• Ekstremne vrijednosti (putokazi ili nevažni podaci ? )
• Irelevantni atributi
• Nedostajuće vrijednosti
• Diskretizacija
• Analiza relevantnosti atributa (Koji atributi najbolje opisuju
atribut X)
• Transformacija vrijednosti (String- broj, Broj string)
• Metodološka transformacija
Uloga i metodologija
pretprocesiranja podataka

 Pronalaženje ekstremnih vrijednosti


 Dijagnostika nedostajućih vrijednosti i predviđanje nedostajućih
vrijednosti
 Povezivanje relacijskih ključeva iz različitih izvora podataka
 Postizanje jednoobraznosti (konzistentnosti) u podacima
 Uzorkovanje
 Kategorizacija vrijednosti atributa
 Formiranje izvedenih atributa (eng. binning)
 Grupiranje (sažimanje podataka)
 Normiranje podataka
Aritmetička sredina niza (yi .. yn)

Varijanca (yi .. yn)

Standardna devijacija (xi .. xn)


Standardizirano obilježje (xi .. xn)

Koeficijent asimetrije lijevo asimetrična < - , 0 , - > desno


asimetrična

Mjere zaobljenosti spljoštenost < -, 3 , -> veća zaobljenost


DATASET ACTIVATE DataSet1.
IF (MISSING(fuel_cap)) New_fuel_cap=-1 .
EXECUTE.

RECODE fuel_cap (MISSING=COPY) (LO THRU -1=1) (LO THRU 0=2) (LO THRU 16=3) (LO
THRU 16.8=4) (LO
THRU 17.2=5) (LO THRU 18.5=6) (LO THRU 19=7) (LO THRU 20=8) (LO THRU 23.2=9) (LO
THRU HI=10)
(ELSE=SYSMIS) INTO New_Fuel_cap.
VARIABLE LABELS New_Fuel_cap 'Fuel capacity (Binned)'.
FORMATS New_Fuel_cap (F5.0).
VALUE LABELS New_Fuel_cap 1 'Empty' 2 '0 - 15,0' 3 '15,1 - 16,0' 4 '16,1 - 16,8' 5 '16,9 - 17,2'
6
'17,3 - 18,5' 7 '18,6 - 19,0' 8 '19,1 - 20,0' 9 '20,1 - 23,2' 10 '23,3+'.
VARIABLE LEVEL New_Fuel_cap (ORDINAL).
EXECUTE.
Zbog veličine uzorka
Važne statističke mjere koje nam
pomažu u prvom upoznavanju sa
skupom podataka za analizu

 Srednja vrijednost
 Standardna devijacija
 Mjere asimetrije i izbočenosti
 3 (2,0,2)
 4  3,3,  3)

 Minimalne i maksimalne vrijednosti (raspon varijacije)


 Distribucija frekvencija (kategoričke vrijednosti)
 Kvartili, interkvartili
 ...
95% pouzdanosti i 99% pouzdanosti

Očekivana greška na 95%


pouzdanosti
Očekivana greška na 99%
pouzdanosti
Važne statističke mjere koje nam
pomažu u prvom upoznavanju sa
skupom podataka za analizu -podsjetnik

 Srednja vrijednost
 Standardna devijacija
 Mjere asimetrije i izbočenosti
 3 (2,0,2)
 4  3,3,  3)
 Minimalne i maksimalne vrijednosti (raspon varijacije)
 Distribucija frekvencija (kategoričke vrijednosti)
 Kvartili, interkvartili
 ...
Planiranje prodaje vreća cementa !!!!
• Individualni pristup na razini
klijenta
• Portfeljni pristup
• Sezonalni efekti
• Izuzeća
Da li postoji problem/nelogičnost u ovim
podacima ?
Prosječna
dužina
Mjesečni trajanja Prekid
Poštanski iznos tel. telefonskog ugovornog
ID Dob Spol broj računa poziva odnosa
1 20 M 10292 300 3 D
2 21 M 10000 200 5 D
3 29 Z 10211 100 3 N
4 89 M 31000 200 2 D
5 22 Z 21000 300 2 D
6 27   21000 333 7 D
7 22 Z 40000 21 7 N
8 23 Z 4300U 500 117 N
Kako tretirati nedostajuće podatke

 Staviti u fokus cilj analize – nedostajući podaci u atributu


ponekad nisu greška
 Ako se nedostajući podaci u atributu prepoznaju kao greška
potrebno je u nedostajući podatak upisati konstantu npr :
“Missing” ili 99999 ili ...
 Problem “0” za missing atribut u kontinuiranim varijablama
 Ostale tehnike supstitucije – linearna interpolacija, srednje
vrijednosti,case base reasoning, neuronske mreže
Datum Temperatura
(C) Linearna interpolacija vremenske serije
Missing value = (t(-1) + t(+1))/2=18
01.01. 12
02.01. 17
03.01.
04.01. 19
05.01. 14

ID Marka vozila

Za ID=3 Marka vozila = “Missing”


1 Renault
2 VW
3
4 Ford
5 Peugeot
Case base reasoning

ID Regija Volumen Marka


motora vozila

1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6
y 4 B 2.0 Ford
5 A 2.0 Renault

Q(xq,yq)

yq-yp

P(xp,yp)

xq-xp

x
y
D(x,y)
B(x,y)

F(x,y)

X(x,y) A(x,y)
radijus

G(x,y)

C(x,y) E(x,y)

x
Euklidske distance

2 2 2
d (i, j )  xi1  x j1  xi1  x j1  .. xiq  x jq

Manhattan distanca

d (i, j )  xi1  x j1  xi1  x j1  .. xiq  x jq

Matrica distance

d (1,1) d (1,2) d (1,3).. d (1, y )


d ( 2,1) d (2,2) d (2,3).. d ( 2, y )
d (3,1) d (3,2) d (3,3).. d (3, y )
d ( x,1) d ( x,2) d ( x,3).. d ( x, y )
Transformacija nenumeričkih u numeričke podatke

Najviša Numerički Niža hijerarhijska Numerički Niža


hijerarhijska klasifikator instanca klasifikator hijerarhijska
instanca instanca

Boje 1000000 Auto-lakovi 1010000 …

Boje 1000000 Boje za čamce i brodove 1020000 …

Boje 1000000 Zidne boje 1030000 …

Trake 2000000 Platnene 2010000 …

Trake 2000000 Plastične 2020000 …


Zaštitni pribor 3000000 Respiratornog sustava 3010000 …

Zaštitni pribor 3000000 Mehanička oštećenja 3020000 …

Zaštitni pribor 3000000 Kemijska oštećenja 3030000 …


… … … … …
Normiranja podataka
Min-max normiranje

Min-max normiranje svodi se na linearnu transformaciju izvornog raspona podataka na


novi raspon, najčešće između 0-1.

y  min
y 
,

max  min
 max ,  min ,   min ,

min’ – nova, normirana minimalna vrijednost


max’- nova, normirana maksimalna vrijednost
y’ - nova normirana vrijednost atributa
min – minimalna vrijednost originalnog niza
max - maksimalna vrijednost originalnog niza
y - Izvorna vrijednost atributa

Primjena :neuronske mreže, klasteriranje, case based reasoning


Z sklaliranje :

y  srednja _ vrijednost
y, 
st _ devijacija

Korisna u slučaju kada ne znamo minimalnu i maksimalnu vrijednost


originalnog niza

Decimalno skaliranje :

y
y  n
,

10
y – originalna vrijednost
n - broj znamenaka maksimalne apsolutne vrijednosti
Numerički primjer kako procijeniti nepoznatu
vrijednost atributa (case based reasoning)

ID Regija Volumen Marka


motora vozila

1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6 ?
4 B 2.0 Ford
5 A 2.0 Renault

Microsoft Excel
Worksheet
Analiza ekstremnih vrijednosti u uzorku

• Greške u podacima ili putokazi


• Kako procijeniti ulogu ekstremnih vrijednosti
• Kod kojih vrsta analiza su ekstremni podaci analitički
interesantni
zi

Numerička metoda za detekciju


ekstremnih vrijednosti

Proračun standardiziranog obilježja

(Xi  X )
zi 

Definicija ekstremne vrijednosti

z i  3;z i  3
Opservacija kontinuirane varijable dob
Opservacija kontinuirane varijable dob
Kako tretirati nedostajuće podatke

 Staviti u fokus cilj analize – nedostajući podaci u atributu


ponekad nisu greška
 Ako se nedostajući podaci u atributu prepoznaju kao greška
potrebno je u nedostajući podatak upisati konstantu npr :
“Missing” ili 99999 ili ...
 Problem “0” za missing atribut u kontinuiranim varijablama
 Ostale tehnike supstitucije – linearna interpolacija, srednje
vrijednosti,case base reasoning, neuronske mreže
Mjerenje pogreške klasifikacije

 Računanje frekvencije pojavnosti prema kategoričkim


vrijednostima

Županija Frekvencija pojavnosti u


uzorku
Zagrebačka 300
Koprivničko Križevačka 233
Karlovačka 45
Međimurska 644
Koprivničko-Križevačka 33
Diskretizacija kontinuiranih varijabli

 Kako i zašto izvršiti diskretizaciju kontinuiranih varijabli


 Uloga min/max normiranja prilikom diskretizacije
kontinuiranih varijabli
 Primjer diskretizacije
Numerička transformacija diskretnih
vrijednosti

 Kako i zašto izvršiti numeričku transformaciju


diskretnih vrijednosti
 Ekspertni vs. automatizirani pristup
 Primjer numeričke transformacije
Očekivani rezultati eksploratorne analize
– temeljni putokazi

 Prosječna dob “prekidatelja” usluge je X godina


 Distribucija dužine korištenja usluge ima naredna
obilježja :X,Y,Z
 Distribucija obilježja ciljne varijable s obzirom na tip
korištenja proizvoda je ...
 A kada uvodimo više dimenzija
 Distribucija dobi korisnika auto-osiguranja s obzirom na
kvartal ugovaranja police i visinu štete po regijama ...
Eksploratorna analiza vs. testiranje
hipoteza
 Testiranje hipoteza – npr. pokušaj potvrde kako je mlađa dobna
skupina najrizičnija u portfelju auto osiguranika
 Statistički testovi hipoteza z-test, hi2, t test ...
 Jednostavno testiranje hipoteza
 Eksploratorna analiza – pokušaj uočavanja pravilnosti na visokoj
podatkovnoj razini. Npr. vizualizacija podataka ili računanje
osnovnih statističkih mjera s ciljem uočavanja različitosti
populacije koja prekida ugovorni odnos u odnosu na populaciju
koja ne prekida ugovorni odnos
 Histogrami, distribucije, očekivane vrijednosti s obzirom na ciljnu varijablu
 Analiza višestrukih relacija
 Specifičnosti-> fraud, credit scoring, churn
 Cilj analize određuje “prioritetne korake” u analizi
Analiza koreliranosti atributa
Koeficijent korelacije računa se kao
_ _

rx , y 
 ( x  x)( y  y)
(n  1) x y

Gdje je r koeficijent korelacije


x, y

n- je broj promatranih slučajeva u populaciji


x i y su nizovi vrijednosti
_ _
x , y su srednje vrijednosti x i y
 x ,  ysu standardne devijacije nizova vrijednosti x i y
Ako je vrijednost koeficijenta korelacije veća od 0, tada su nizovi
vrijednosti pozitivno korelirani.
Ako je vrijednost koeficijenta korelacije manja od nule, tada su vrijednosti
nizova negativno korelirani.
Zašto je bitna analiza korelacija
atributa ?

 Jaka međusobna koreliranost posebice između ciljne varijable i ostalih


atributa može uzrokovati lošim modelom
 Implikacija ako a (modalitet prediktora A) tada b (modalitet ciljne varijable
B) pri čemu između tih varijabli postoji korelacija može nakon kreiranja
modela sa tim varijablama može dati lažnu sliku o jakoj prediktivnoj moći
modela
Cilj pripreme podataka
Šifra korisnika Datum i godina Adresa Poštanski broj Grad
rođenja

8080 10.06.1972 Ulica lipa 14 10 000 Zagreb

1508 09.09.1943 Miroslava Krleže 31 42 000 Varaždin

2812 17.07.1956 E.A. Poe-a 19 44 000 Sisak

0505 22.07.1976 Tolstojeva 14 47 000 Ogulin

... ... ... ... ...

Šifra korisnika Broj računa Datum transakcije Iznos Način plaćanja

0505 234 14.07.2003 423,22 MC

1508 235 14.07.2003 28,21 Gotovina

8080 236 15.07.2003 311,16 VISA

0505 237 15.07.2003 421,19 MC

... ... ... ... ...

Dobni razred Županija Prosječni mjesečni Način plaćanja Pauza u Registriran


iznos transakcija prema dolasku dulja ponovni
načinu plaćanja od mjesec dolazak nakon
dana pauze

21-25 Zagrebačka 400-600 MC NE -

46-50 Sisačko- Moslovačka 600-700 MC NE -

61-65 Bjelovarsko- 200-300 Visa DA DA


Bilogorska

21-25 Zagrebačka 100-200 Gotovina DA NE

... ... ... ... ... ...


Kako izabrati najbolje
prediktore ?
Očekivani prediktori
“Virtualni” prediktori
Što su to očekivani prediktori ?
Kako odrediti adekvatan virtualni
prediktor ?
Optimizacija observacijskog i
outcome perioda
Kao odrediti “relevantnost atributa”
Neki atributi “bolje” opisuju ciljnu varijablu od
drugih
npr. da li na churn više utječe dob, spol, regija,
stručna sprema ili neka druga varijabla
Zašto je važno odrediti stupanj relevantnosti
atributa (obilježja) ?
Uloga kombinatorike i kombinatorne eksplozije
Dva modaliteta izlazne varijable

WE  log 
Weights
 %non _ churn _ u _ atributu


of evidence
=LN(C4/D4)

 %churn _ u _ atributu 
Churn_flag  
N Y Weights of evidence

Datum ugovora Column N % Column N %  

datum_ugovora <= 25-FEB-2005 9.4% 19.9% -0.754608573


26-FEB-2005 - 07-APR-2005 9.0% 16.5% -0.60759719
08-APR-2005 - 05-MAY-2005 8.7% 14.8% -0.53337319
06-MAY-2005 - 09-JUN-2005 9.3% 14.7% -0.453455997
10-JUN-2005 - 12-JUL-2005 8.9% 13.5% -0.421658213
13-JUL-2005 - 23-AUG-2005 9.3% 7.3% 0.248786856
24-AUG-2005 - 03-OCT-2005 9.4% 8.3% 0.12626254
04-OCT-2005 - 10-NOV-2005 8.8% 5.0% 0.570260748
11-NOV-2005 - 21-DEC-2005 9.1% 0.1% 4.156877462
22-DEC-2005 - 09-FEB-2006 9.1% 0.0%  
10-FEB-2006+ 9.1% 0.0%  
    100.0% 100.0%  
n
Information value
IV    %non _ churn _ u _ atributu i  %churn _ u _ atributu i  *  wei  =(C4-D4)*E4
i 1
n= broj kategorija u atributu

Churn_flag    
N Y Weights of evidence Information value
Column N Column N
Datum ugovora % %    

datum_ugovora <= 25-FEB-2005 9.4% 19.9% -0.754608573 0.079617916


26-FEB-2005 - 07-APR-2005 9.0% 16.5% -0.60759719 0.045651613
08-APR-2005 - 05-MAY-2005 8.7% 14.8% -0.53337319 0.032617876
06-MAY-2005 - 09-JUN-2005 9.3% 14.7% -0.453455997 0.024221442
10-JUN-2005 - 12-JUL-2005 8.9% 13.5% -0.421658213 0.019603791
13-JUL-2005 - 23-AUG-2005 9.3% 7.3% 0.248786856 0.005098149
24-AUG-2005 - 03-OCT-2005 9.4% 8.3% 0.12626254 0.001401934
04-OCT-2005 - 10-NOV-2005 8.8% 5.0% 0.570260748 0.021825239
11-NOV-2005 - 21-DEC-2005 9.1% 0.1% 4.156877462 0.371764209
22-DEC-2005 - 09-FEB-2006 9.1% 0.0%    
10-FEB-2006+ 9.1% 0.0%   IV=
    100.0% 100.0%   0.601802168
Information value
0.02 0.1 1

IV vrlo slab IV slab IV jak IV vrlo jak


Optimalna kategorizacija
oznaka_churna    
N Y    

Column N % Column N % we IV

Prosječni <= 192


24.5% 50.6%
mjesečni iznos -0.7249 0.189299
potrošnje
Impulsa u
192 - 360 24.8% 18.4% 0.298033 0.019034 Grupiranje
kunama 360 - 691 25.3% 17.2% 0.385788 0.031214
691+ 25.4% 13.8% 0.612359 0.071256

    100.0% 100.0%    
Weights of evidence

0.8

Postojanje logike- we u negativnoj zoni 0.6


implicira sklonost churnu, u pozitivnoj
0.4
implicira sklonost “ne churnu”
0.2

0 we

<= 192

192 - 360

3601 - 691

691+
-0.2
IDEJA: Usporedba targetiranih ciljnih
-0.4
skupina konkurencije i analiza utjecaja
trendova churna na tu ciljnu skupinu iz -0.6

vlastitog portfelja korisnika -0.8


Situacija se komplicira kada …
We za dob

0.8

-1

18 25 35 45 55 65
Više modaliteta izlazne varijable
Hvala
na pozornosti

You might also like