Professional Documents
Culture Documents
Upoznavanje Sa Podacima Za Analizu: Doc - Dr.sc. Goran Klepac
Upoznavanje Sa Podacima Za Analizu: Doc - Dr.sc. Goran Klepac
analizu
Analogy :
Product lifecycle
What do you know about
How to extend this speriod
customers?
Segments
Inovation
Now things became more
complicated
Dužina
Dostupnost
promatrano
podataka
g uzorka
Promjena
bihevioralnih
Sezonalnost obilježja u
portfelju
Ilustracija …
Hd
…
time
Od He
C
Tradicionalan pristup
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
ML pristup
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Automatski pristup - update
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Utjecaj ekspertize
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Supervised learning – nadgledajuće učenje
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Supervised learning – nadgledajuće učenje – regresija
• Linearna regresija
• Logistička regresija
• Support Vector Machines (SVMs)
• Decision Trees i Random Forests
• Neural networks
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Unsupervised learning – nenadgledajuće
učenje
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Klasteriranje
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Klasteriranje
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Anomalije !!!!
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Semi supervised learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Reinforcement learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Online learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Online learning – veliki setovi podataka
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Instance based learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Model based learning
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Model based learning - primjer
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Nekoliko mogućih rješanja
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Optimalno rješenje
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Usporedbe modela
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Uloga reprezentativnosti
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Overtfitting
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Važnost dobre pripreme uzorka
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
Možemo li
primijeniti metode
nad ovakvim
podacima ???!!!!
Ciljna
varijabla
Ciljna
varijabla-
binominalna
Potencijalna
ciljna
varijabla-
multinomina
lna
Da li je uzorak
Prazne adekvatan s
Ima li tu što vrijednosti ! obzirom na cilj
devijantno !! analize ???!!!!
???!!!!
Očekivani rezultati
Razumijevanje problema
Model ne znači ništa bez razumijevanja uzročno –
posljedičnih veza u ispravno pripremljenim
podacima
Storytelling
Spoznaje treba usmjeriti ka rješavanju problema
te tako koncipirati analitičke postupke
Kako pristupiti rješavanju problema, odnosno
s čime ćemo se baviti tijekom semestra
Oracle
ASCII
datoteke
Skladište
podataka
Pretprocesiranje podataka
Pretprocesiranje
Transakcijska baza
podataka 2
ETL
DWH
Transakcijska baza
podataka n
42
Priprema podataka
Dobra priprema podataka 80% posla do otkrivanja znanja
Za parcijalne analize nije potrebno napraviti ETL proces za
100% podataka
Idealan slučaj u svjetlu otkrivanja znanja
Uobičajen slučaj- poslovna praksa
Kako “dobro” pripremiti podatke ?
Sa ili bez DWH-a ?
Zašto su ETL procesi za DM analize specifični
Metodologija pripreme podataka
• Ekstremne vrijednosti (putokazi ili nevažni podaci ? )
• Irelevantni atributi
• Nedostajuće vrijednosti
• Diskretizacija
• Analiza relevantnosti atributa (Koji atributi najbolje opisuju
atribut X)
• Transformacija vrijednosti (String- broj, Broj string)
• Metodološka transformacija
Uloga i metodologija
pretprocesiranja podataka
RECODE fuel_cap (MISSING=COPY) (LO THRU -1=1) (LO THRU 0=2) (LO THRU 16=3) (LO
THRU 16.8=4) (LO
THRU 17.2=5) (LO THRU 18.5=6) (LO THRU 19=7) (LO THRU 20=8) (LO THRU 23.2=9) (LO
THRU HI=10)
(ELSE=SYSMIS) INTO New_Fuel_cap.
VARIABLE LABELS New_Fuel_cap 'Fuel capacity (Binned)'.
FORMATS New_Fuel_cap (F5.0).
VALUE LABELS New_Fuel_cap 1 'Empty' 2 '0 - 15,0' 3 '15,1 - 16,0' 4 '16,1 - 16,8' 5 '16,9 - 17,2'
6
'17,3 - 18,5' 7 '18,6 - 19,0' 8 '19,1 - 20,0' 9 '20,1 - 23,2' 10 '23,3+'.
VARIABLE LEVEL New_Fuel_cap (ORDINAL).
EXECUTE.
Zbog veličine uzorka
Važne statističke mjere koje nam
pomažu u prvom upoznavanju sa
skupom podataka za analizu
Srednja vrijednost
Standardna devijacija
Mjere asimetrije i izbočenosti
3 (2,0,2)
4 3,3, 3)
Srednja vrijednost
Standardna devijacija
Mjere asimetrije i izbočenosti
3 (2,0,2)
4 3,3, 3)
Minimalne i maksimalne vrijednosti (raspon varijacije)
Distribucija frekvencija (kategoričke vrijednosti)
Kvartili, interkvartili
...
Planiranje prodaje vreća cementa !!!!
• Individualni pristup na razini
klijenta
• Portfeljni pristup
• Sezonalni efekti
• Izuzeća
Da li postoji problem/nelogičnost u ovim
podacima ?
Prosječna
dužina
Mjesečni trajanja Prekid
Poštanski iznos tel. telefonskog ugovornog
ID Dob Spol broj računa poziva odnosa
1 20 M 10292 300 3 D
2 21 M 10000 200 5 D
3 29 Z 10211 100 3 N
4 89 M 31000 200 2 D
5 22 Z 21000 300 2 D
6 27 21000 333 7 D
7 22 Z 40000 21 7 N
8 23 Z 4300U 500 117 N
Kako tretirati nedostajuće podatke
ID Marka vozila
1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6
y 4 B 2.0 Ford
5 A 2.0 Renault
Q(xq,yq)
yq-yp
P(xp,yp)
xq-xp
x
y
D(x,y)
B(x,y)
F(x,y)
X(x,y) A(x,y)
radijus
G(x,y)
C(x,y) E(x,y)
x
Euklidske distance
2 2 2
d (i, j ) xi1 x j1 xi1 x j1 .. xiq x jq
Manhattan distanca
Matrica distance
y min
y
,
max min
max , min , min ,
y srednja _ vrijednost
y,
st _ devijacija
Decimalno skaliranje :
y
y n
,
10
y – originalna vrijednost
n - broj znamenaka maksimalne apsolutne vrijednosti
Numerički primjer kako procijeniti nepoznatu
vrijednost atributa (case based reasoning)
1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6 ?
4 B 2.0 Ford
5 A 2.0 Renault
Microsoft Excel
Worksheet
Analiza ekstremnih vrijednosti u uzorku
(Xi X )
zi
Definicija ekstremne vrijednosti
z i 3;z i 3
Opservacija kontinuirane varijable dob
Opservacija kontinuirane varijable dob
Kako tretirati nedostajuće podatke
rx , y
( x x)( y y)
(n 1) x y
WE log
Weights
%non _ churn _ u _ atributu
of evidence
=LN(C4/D4)
%churn _ u _ atributu
Churn_flag
N Y Weights of evidence
Churn_flag
N Y Weights of evidence Information value
Column N Column N
Datum ugovora % %
Column N % Column N % we IV
100.0% 100.0%
Weights of evidence
0.8
0 we
<= 192
192 - 360
3601 - 691
691+
-0.2
IDEJA: Usporedba targetiranih ciljnih
-0.4
skupina konkurencije i analiza utjecaja
trendova churna na tu ciljnu skupinu iz -0.6
0.8
-1
18 25 35 45 55 65
Više modaliteta izlazne varijable
Hvala
na pozornosti