Upoznavanje Sa Podacima Za Analizu: Doc - Dr.sc. Goran Klepac

Upoznavanje sa podacima za
analizu
Doc.dr.sc. Goran Klepac

www.goranklepac.com
goran@goranklepac.com
To be concurrent in information age
"Any customer can have a car painted any colour that he

wants, so long as it is black." Henry Ford
• CRM
• Knowledge workers
Teleportation machine case
Analogy :
Product lifecycle
What do you know about
How to extend this speriod
customers?
Segments
Inovation
Now things became more
complicated
From vertical to horizontal

How to be successful in such
environment
New concepts
Poslovna
Big data
inteligencija
Percepcija
DWH Soft computing/ važnosti
Data science
data mining nestruktiranih
izvora podataka
1990 2000 2010

Zamke
Dužina
Dostupnost
promatrano
podataka
g uzorka
Promjena
bihevioralnih
Sezonalnost obilježja u
portfelju
Ilustracija …
Observacijski period 1 godina Outcome period 1 godina Predikcija
“Sindrom daruvarskih tablica”
Hd
…
time
Od He
C
Tradicionalan pristup
* Preuzeto sa : Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems , Aurélien Géron, O’rielly , 2017
ML pristup
Automatski pristup - update
Utjecaj ekspertize
Supervised learning – nadgledajuće učenje
Supervised learning – nadgledajuće učenje
Supervised learning – nadgledajuće učenje – regresija
• Linearna regresija
• Logistička regresija
• Support Vector Machines (SVMs)
• Decision Trees i Random Forests
• Neural networks
Unsupervised learning – nenadgledajuće
učenje
Unsupervised learning – nenadgledajuće učenje
• Self Organising Maps

• K-mean clustering
• Genetic Algorithms
• PSO
Klasteriranje
Klasteriranje
Anomalije !!!!
Semi supervised learning
Reinforcement learning
Online learning
Online learning – veliki setovi podataka
Instance based learning
Model based learning
Model based learning - primjer
Nekoliko mogućih rješanja
Optimalno rješenje
Usporedbe modela
Uloga reprezentativnosti
Overtfitting
Važnost dobre pripreme uzorka
Možemo li
primijeniti metode
nad ovakvim
podacima ???!!!!
Ciljna
varijabla
Ciljna
varijabla-
binominalna
Potencijalna
ciljna
varijabla-
multinomina
lna
Da li je uzorak
Prazne adekvatan s
Ima li tu što vrijednosti ! obzirom na cilj
devijantno !! analize ???!!!!
???!!!!
Očekivani rezultati
Razumijevanje problema
Model ne znači ništa bez razumijevanja uzročno –
posljedičnih veza u ispravno pripremljenim
podacima
Storytelling
Spoznaje treba usmjeriti ka rješavanju problema
te tako koncipirati analitičke postupke
Kako pristupiti rješavanju problema, odnosno
s čime ćemo se baviti tijekom semestra
1. Razumijevanje cilja, što je cilj analize što želimo riješiti i zašto

2. Procjena adekvatnosti uzorka (obuhvat podataka)
3. Detekcija nedostajućih vrijednosti u podacima sa adekvatnim tretmanom nedostajućih vrijednosti
(„Empty”, Case base reasoning, -99999)
4. Razumijevanje podataka i detekcija anomalija u podacima sa adekvatnim tretmanom devijantnih
vrijednosti (case base reasoning, „Empty”, Razredi , zašto brisanje nije univerzalno rješenje za sve
probleme )
5. Kreiranje bihevioralnih varijabli
6. Testiranja stabilnosti, koncentracija
7. Cijepanje uzorka 80:20 – reprezentativni uzorci
8. Analiza relevantnosti atributa (binominalna varijabla, multinominalna varijabla ) – kod supervised
learning – nadgledajuće učenje (5-13)
9. Razumijevanje uzročno posljedičnih veza
10. Selekcija metoda koje bi nas dovela do rješenja
11. Transformacija vrijednosti atributa s obzirom na planirano korištenje metoda
12. Treniranje modela (na 80% uzorka)
13. Testiranje modela (na 20% uzorka)
14. Ekspertiza- ekstrakcija znanja i pronalaženje rješenja
Data audit
 Vizualizacija podataka – upoznavanje podataka

 Primjena osnovnih statističkih mjera sukladno tipovima
podataka varijabli (kontinuirane, kategoričke, datumske)
 Kontrola kvalitete podataka
DB2
Oracle
Excel tablice ODBC, Izvedena

ODBC, Pretprocesiranje Izvedena
direktna
direktna Pretprocesiranje Rezultat tablica
podataka Rezultat tablica
veza podataka
veza
ASCII
datoteke
Skladište
podataka
Pretprocesiranje podataka
Pretprocesiranje Data mining

Transakcijska baza
podataka 1 (analiza,modeliranje)
Pretprocesiranje
Transakcijska baza
podataka 2
ETL
DWH
Transakcijska baza
podataka n
42
Priprema podataka
 Dobra priprema podataka 80% posla do otkrivanja znanja
 Za parcijalne analize nije potrebno napraviti ETL proces za
100% podataka
 Idealan slučaj u svjetlu otkrivanja znanja
 Uobičajen slučaj- poslovna praksa
 Kako “dobro” pripremiti podatke ?
 Sa ili bez DWH-a ?
 Zašto su ETL procesi za DM analize specifični
Metodologija pripreme podataka
• Ekstremne vrijednosti (putokazi ili nevažni podaci ? )
• Irelevantni atributi
• Nedostajuće vrijednosti
• Diskretizacija
• Analiza relevantnosti atributa (Koji atributi najbolje opisuju
atribut X)
• Transformacija vrijednosti (String- broj, Broj string)
• Metodološka transformacija
Uloga i metodologija
pretprocesiranja podataka
 Pronalaženje ekstremnih vrijednosti

 Dijagnostika nedostajućih vrijednosti i predviđanje nedostajućih
vrijednosti
 Povezivanje relacijskih ključeva iz različitih izvora podataka
 Postizanje jednoobraznosti (konzistentnosti) u podacima
 Uzorkovanje
 Kategorizacija vrijednosti atributa
 Formiranje izvedenih atributa (eng. binning)
 Grupiranje (sažimanje podataka)
 Normiranje podataka
Aritmetička sredina niza (yi .. yn)
Varijanca (yi .. yn)
Standardna devijacija (xi .. xn)

Standardizirano obilježje (xi .. xn)
Koeficijent asimetrije lijevo asimetrična < - , 0 , - > desno

asimetrična
Mjere zaobljenosti spljoštenost < -, 3 , -> veća zaobljenost

DATASET ACTIVATE DataSet1.
IF (MISSING(fuel_cap)) New_fuel_cap=-1 .
EXECUTE.
RECODE fuel_cap (MISSING=COPY) (LO THRU -1=1) (LO THRU 0=2) (LO THRU 16=3) (LO
THRU 16.8=4) (LO
THRU 17.2=5) (LO THRU 18.5=6) (LO THRU 19=7) (LO THRU 20=8) (LO THRU 23.2=9) (LO
THRU HI=10)
(ELSE=SYSMIS) INTO New_Fuel_cap.
VARIABLE LABELS New_Fuel_cap 'Fuel capacity (Binned)'.
FORMATS New_Fuel_cap (F5.0).
VALUE LABELS New_Fuel_cap 1 'Empty' 2 '0 - 15,0' 3 '15,1 - 16,0' 4 '16,1 - 16,8' 5 '16,9 - 17,2'
6
'17,3 - 18,5' 7 '18,6 - 19,0' 8 '19,1 - 20,0' 9 '20,1 - 23,2' 10 '23,3+'.
VARIABLE LEVEL New_Fuel_cap (ORDINAL).
EXECUTE.
Zbog veličine uzorka
Važne statističke mjere koje nam
pomažu u prvom upoznavanju sa
skupom podataka za analizu
 Srednja vrijednost
 Standardna devijacija
 Mjere asimetrije i izbočenosti
 3 (2,0,2)
 4  3,3,  3)
 Minimalne i maksimalne vrijednosti (raspon varijacije)

 Distribucija frekvencija (kategoričke vrijednosti)
 Kvartili, interkvartili
 ...
95% pouzdanosti i 99% pouzdanosti
Očekivana greška na 95%

pouzdanosti
Očekivana greška na 99%
pouzdanosti
Važne statističke mjere koje nam
pomažu u prvom upoznavanju sa
skupom podataka za analizu -podsjetnik
 Srednja vrijednost
 Standardna devijacija
 Mjere asimetrije i izbočenosti
 3 (2,0,2)
 4  3,3,  3)
 Minimalne i maksimalne vrijednosti (raspon varijacije)
 Distribucija frekvencija (kategoričke vrijednosti)
 Kvartili, interkvartili
 ...
Planiranje prodaje vreća cementa !!!!
• Individualni pristup na razini
klijenta
• Portfeljni pristup
• Sezonalni efekti
• Izuzeća
Da li postoji problem/nelogičnost u ovim
podacima ?
Prosječna
dužina
Mjesečni trajanja Prekid
Poštanski iznos tel. telefonskog ugovornog
ID Dob Spol broj računa poziva odnosa
1 20 M 10292 300 3 D
2 21 M 10000 200 5 D
3 29 Z 10211 100 3 N
4 89 M 31000 200 2 D
5 22 Z 21000 300 2 D
6 27 21000 333 7 D
7 22 Z 40000 21 7 N
8 23 Z 4300U 500 117 N
Kako tretirati nedostajuće podatke
 Staviti u fokus cilj analize – nedostajući podaci u atributu

ponekad nisu greška
 Ako se nedostajući podaci u atributu prepoznaju kao greška
potrebno je u nedostajući podatak upisati konstantu npr :
“Missing” ili 99999 ili ...
 Problem “0” za missing atribut u kontinuiranim varijablama
 Ostale tehnike supstitucije – linearna interpolacija, srednje
vrijednosti,case base reasoning, neuronske mreže
Datum Temperatura
(C) Linearna interpolacija vremenske serije
Missing value = (t(-1) + t(+1))/2=18
01.01. 12
02.01. 17
03.01.
04.01. 19
05.01. 14
ID Marka vozila
Za ID=3 Marka vozila = “Missing”

1 Renault
2 VW
3
4 Ford
5 Peugeot
Case base reasoning
ID Regija Volumen Marka

motora vozila
1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6
y 4 B 2.0 Ford
5 A 2.0 Renault
Q(xq,yq)
yq-yp
P(xp,yp)
xq-xp
x
y
D(x,y)
B(x,y)
F(x,y)
X(x,y) A(x,y)
radijus
G(x,y)
C(x,y) E(x,y)
x
Euklidske distance
2 2 2
d (i, j )  xi1  x j1  xi1  x j1  .. xiq  x jq
Manhattan distanca
d (i, j )  xi1  x j1  xi1  x j1  .. xiq  x jq
Matrica distance
d (1,1) d (1,2) d (1,3).. d (1, y )

d ( 2,1) d (2,2) d (2,3).. d ( 2, y )
d (3,1) d (3,2) d (3,3).. d (3, y )
d ( x,1) d ( x,2) d ( x,3).. d ( x, y )
Transformacija nenumeričkih u numeričke podatke
Najviša Numerički Niža hijerarhijska Numerički Niža

hijerarhijska klasifikator instanca klasifikator hijerarhijska
instanca instanca
Boje 1000000 Auto-lakovi 1010000 …
Boje 1000000 Boje za čamce i brodove 1020000 …
Boje 1000000 Zidne boje 1030000 …
Trake 2000000 Platnene 2010000 …
Trake 2000000 Plastične 2020000 …

Zaštitni pribor 3000000 Respiratornog sustava 3010000 …
Zaštitni pribor 3000000 Mehanička oštećenja 3020000 …
Zaštitni pribor 3000000 Kemijska oštećenja 3030000 …

… … … … …
Normiranja podataka
Min-max normiranje
Min-max normiranje svodi se na linearnu transformaciju izvornog raspona podataka na

novi raspon, najčešće između 0-1.
y  min
y 
,
max  min
 max ,  min ,   min ,
min’ – nova, normirana minimalna vrijednost

max’- nova, normirana maksimalna vrijednost
y’ - nova normirana vrijednost atributa
min – minimalna vrijednost originalnog niza
max - maksimalna vrijednost originalnog niza
y - Izvorna vrijednost atributa
Primjena :neuronske mreže, klasteriranje, case based reasoning

Z sklaliranje :
y  srednja _ vrijednost
y, 
st _ devijacija
Korisna u slučaju kada ne znamo minimalnu i maksimalnu vrijednost

originalnog niza
Decimalno skaliranje :
y
y  n
,
10
y – originalna vrijednost
n - broj znamenaka maksimalne apsolutne vrijednosti
Numerički primjer kako procijeniti nepoznatu
vrijednost atributa (case based reasoning)
ID Regija Volumen Marka

motora vozila
1 A 1.4 Renault
2 A 1.4 VW
3 B 1.6 ?
4 B 2.0 Ford
5 A 2.0 Renault
Microsoft Excel
Worksheet
Analiza ekstremnih vrijednosti u uzorku
• Greške u podacima ili putokazi

• Kako procijeniti ulogu ekstremnih vrijednosti
• Kod kojih vrsta analiza su ekstremni podaci analitički
interesantni
zi
Numerička metoda za detekciju

ekstremnih vrijednosti
Proračun standardiziranog obilježja
(Xi  X )
zi 

Definicija ekstremne vrijednosti
z i  3;z i  3
Opservacija kontinuirane varijable dob
Opservacija kontinuirane varijable dob
Kako tretirati nedostajuće podatke
 Staviti u fokus cilj analize – nedostajući podaci u atributu

ponekad nisu greška
 Ako se nedostajući podaci u atributu prepoznaju kao greška
potrebno je u nedostajući podatak upisati konstantu npr :
“Missing” ili 99999 ili ...
 Problem “0” za missing atribut u kontinuiranim varijablama
 Ostale tehnike supstitucije – linearna interpolacija, srednje
vrijednosti,case base reasoning, neuronske mreže
Mjerenje pogreške klasifikacije
 Računanje frekvencije pojavnosti prema kategoričkim

vrijednostima
Županija Frekvencija pojavnosti u

uzorku
Zagrebačka 300
Koprivničko Križevačka 233
Karlovačka 45
Međimurska 644
Koprivničko-Križevačka 33
Diskretizacija kontinuiranih varijabli
 Kako i zašto izvršiti diskretizaciju kontinuiranih varijabli

 Uloga min/max normiranja prilikom diskretizacije
kontinuiranih varijabli
 Primjer diskretizacije
Numerička transformacija diskretnih
vrijednosti
 Kako i zašto izvršiti numeričku transformaciju

diskretnih vrijednosti
 Ekspertni vs. automatizirani pristup
 Primjer numeričke transformacije
Očekivani rezultati eksploratorne analize
– temeljni putokazi
 Prosječna dob “prekidatelja” usluge je X godina

 Distribucija dužine korištenja usluge ima naredna
obilježja :X,Y,Z
 Distribucija obilježja ciljne varijable s obzirom na tip
korištenja proizvoda je ...
 A kada uvodimo više dimenzija
 Distribucija dobi korisnika auto-osiguranja s obzirom na
kvartal ugovaranja police i visinu štete po regijama ...
Eksploratorna analiza vs. testiranje
hipoteza
 Testiranje hipoteza – npr. pokušaj potvrde kako je mlađa dobna
skupina najrizičnija u portfelju auto osiguranika
 Statistički testovi hipoteza z-test, hi2, t test ...
 Jednostavno testiranje hipoteza
 Eksploratorna analiza – pokušaj uočavanja pravilnosti na visokoj
podatkovnoj razini. Npr. vizualizacija podataka ili računanje
osnovnih statističkih mjera s ciljem uočavanja različitosti
populacije koja prekida ugovorni odnos u odnosu na populaciju
koja ne prekida ugovorni odnos
 Histogrami, distribucije, očekivane vrijednosti s obzirom na ciljnu varijablu
 Analiza višestrukih relacija
 Specifičnosti-> fraud, credit scoring, churn
 Cilj analize određuje “prioritetne korake” u analizi
Analiza koreliranosti atributa
Koeficijent korelacije računa se kao
_ _
rx , y 
 ( x  x)( y  y)
(n  1) x y
Gdje je r koeficijent korelacije

x, y
n- je broj promatranih slučajeva u populaciji

x i y su nizovi vrijednosti
_ _
x , y su srednje vrijednosti x i y
 x ,  ysu standardne devijacije nizova vrijednosti x i y
Ako je vrijednost koeficijenta korelacije veća od 0, tada su nizovi
vrijednosti pozitivno korelirani.
Ako je vrijednost koeficijenta korelacije manja od nule, tada su vrijednosti
nizova negativno korelirani.
Zašto je bitna analiza korelacija
atributa ?
 Jaka međusobna koreliranost posebice između ciljne varijable i ostalih

atributa može uzrokovati lošim modelom
 Implikacija ako a (modalitet prediktora A) tada b (modalitet ciljne varijable
B) pri čemu između tih varijabli postoji korelacija može nakon kreiranja
modela sa tim varijablama može dati lažnu sliku o jakoj prediktivnoj moći
modela
Cilj pripreme podataka
Šifra korisnika Datum i godina Adresa Poštanski broj Grad
rođenja
8080 10.06.1972 Ulica lipa 14 10 000 Zagreb
1508 09.09.1943 Miroslava Krleže 31 42 000 Varaždin
2812 17.07.1956 E.A. Poe-a 19 44 000 Sisak
0505 22.07.1976 Tolstojeva 14 47 000 Ogulin
... ... ... ... ...
Šifra korisnika Broj računa Datum transakcije Iznos Način plaćanja
0505 234 14.07.2003 423,22 MC
1508 235 14.07.2003 28,21 Gotovina
8080 236 15.07.2003 311,16 VISA
0505 237 15.07.2003 421,19 MC
... ... ... ... ...
Dobni razred Županija Prosječni mjesečni Način plaćanja Pauza u Registriran

iznos transakcija prema dolasku dulja ponovni
načinu plaćanja od mjesec dolazak nakon
dana pauze
21-25 Zagrebačka 400-600 MC NE -
46-50 Sisačko- Moslovačka 600-700 MC NE -
61-65 Bjelovarsko- 200-300 Visa DA DA

Bilogorska
21-25 Zagrebačka 100-200 Gotovina DA NE
... ... ... ... ... ...

Kako izabrati najbolje
prediktore ?
Očekivani prediktori
“Virtualni” prediktori
Što su to očekivani prediktori ?
Kako odrediti adekvatan virtualni
prediktor ?
Optimizacija observacijskog i
outcome perioda
Kao odrediti “relevantnost atributa”
Neki atributi “bolje” opisuju ciljnu varijablu od
drugih
npr. da li na churn više utječe dob, spol, regija,
stručna sprema ili neka druga varijabla
Zašto je važno odrediti stupanj relevantnosti
atributa (obilježja) ?
Uloga kombinatorike i kombinatorne eksplozije
Dva modaliteta izlazne varijable
WE  log 
Weights
 %non _ churn _ u _ atributu


of evidence
=LN(C4/D4)

 %churn _ u _ atributu 
Churn_flag
N Y Weights of evidence
Datum ugovora Column N % Column N %
datum_ugovora <= 25-FEB-2005 9.4% 19.9% -0.754608573

26-FEB-2005 - 07-APR-2005 9.0% 16.5% -0.60759719
08-APR-2005 - 05-MAY-2005 8.7% 14.8% -0.53337319
06-MAY-2005 - 09-JUN-2005 9.3% 14.7% -0.453455997
10-JUN-2005 - 12-JUL-2005 8.9% 13.5% -0.421658213
13-JUL-2005 - 23-AUG-2005 9.3% 7.3% 0.248786856
24-AUG-2005 - 03-OCT-2005 9.4% 8.3% 0.12626254
04-OCT-2005 - 10-NOV-2005 8.8% 5.0% 0.570260748
11-NOV-2005 - 21-DEC-2005 9.1% 0.1% 4.156877462
22-DEC-2005 - 09-FEB-2006 9.1% 0.0%
10-FEB-2006+ 9.1% 0.0%
100.0% 100.0%
n
Information value
IV    %non _ churn _ u _ atributu i  %churn _ u _ atributu i  *  wei  =(C4-D4)*E4
i 1
n= broj kategorija u atributu
Churn_flag
N Y Weights of evidence Information value
Column N Column N
Datum ugovora % %
datum_ugovora <= 25-FEB-2005 9.4% 19.9% -0.754608573 0.079617916

26-FEB-2005 - 07-APR-2005 9.0% 16.5% -0.60759719 0.045651613
08-APR-2005 - 05-MAY-2005 8.7% 14.8% -0.53337319 0.032617876
06-MAY-2005 - 09-JUN-2005 9.3% 14.7% -0.453455997 0.024221442
10-JUN-2005 - 12-JUL-2005 8.9% 13.5% -0.421658213 0.019603791
13-JUL-2005 - 23-AUG-2005 9.3% 7.3% 0.248786856 0.005098149
24-AUG-2005 - 03-OCT-2005 9.4% 8.3% 0.12626254 0.001401934
04-OCT-2005 - 10-NOV-2005 8.8% 5.0% 0.570260748 0.021825239
11-NOV-2005 - 21-DEC-2005 9.1% 0.1% 4.156877462 0.371764209
22-DEC-2005 - 09-FEB-2006 9.1% 0.0%
10-FEB-2006+ 9.1% 0.0% IV=
100.0% 100.0% 0.601802168
Information value
0.02 0.1 1
IV vrlo slab IV slab IV jak IV vrlo jak

Optimalna kategorizacija
oznaka_churna
N Y
Column N % Column N % we IV
Prosječni <= 192

24.5% 50.6%
mjesečni iznos -0.7249 0.189299
potrošnje
Impulsa u
192 - 360 24.8% 18.4% 0.298033 0.019034 Grupiranje
kunama 360 - 691 25.3% 17.2% 0.385788 0.031214
691+ 25.4% 13.8% 0.612359 0.071256
100.0% 100.0%
Weights of evidence
0.8
Postojanje logike- we u negativnoj zoni 0.6

implicira sklonost churnu, u pozitivnoj
0.4
implicira sklonost “ne churnu”
0.2
0 we
<= 192
192 - 360
3601 - 691
691+
-0.2
IDEJA: Usporedba targetiranih ciljnih
-0.4
skupina konkurencije i analiza utjecaja
trendova churna na tu ciljnu skupinu iz -0.6
vlastitog portfelja korisnika -0.8

Situacija se komplicira kada …
We za dob
0.8
-1
18 25 35 45 55 65
Više modaliteta izlazne varijable
Hvala
na pozornosti

Upoznavanje Sa Podacima Za Analizu: Doc - Dr.sc. Goran Klepac

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Upoznavanje Sa Podacima Za Analizu: Doc - Dr.sc. Goran Klepac

Uploaded by

Copyright:

Available Formats

Upoznavanje sa podacima za

Doc.dr.sc. Goran Klepac

"Any customer can have a car painted any colour that he

From vertical to horizontal

1990 2000 2010

Observacijski period 1 godina Outcome period 1 godina Predikcija

“Sindrom daruvarskih tablica”

Supervised learning – nadgledajuće učenje

Unsupervised learning – nenadgledajuće učenje

• Self Organising Maps

1. Razumijevanje cilja, što je cilj analize što želimo riješiti i zašto

 Vizualizacija podataka – upoznavanje podataka

Excel tablice ODBC, Izvedena

Pretprocesiranje Data mining

 Pronalaženje ekstremnih vrijednosti

Varijanca (yi .. yn)

Standardna devijacija (xi .. xn)

Koeficijent asimetrije lijevo asimetrična < - , 0 , - > desno

Mjere zaobljenosti spljoštenost < -, 3 , -> veća zaobljenost

 Minimalne i maksimalne vrijednosti (raspon varijacije)

Očekivana greška na 95%

 Staviti u fokus cilj analize – nedostajući podaci u atributu

Za ID=3 Marka vozila = “Missing”

ID Regija Volumen Marka

d (i, j )  xi1  x j1  xi1  x j1  .. xiq  x jq

d (1,1) d (1,2) d (1,3).. d (1, y )

Najviša Numerički Niža hijerarhijska Numerički Niža

Boje 1000000 Auto-lakovi 1010000 …

Boje 1000000 Boje za čamce i brodove 1020000 …

Boje 1000000 Zidne boje 1030000 …

Trake 2000000 Platnene 2010000 …

Trake 2000000 Plastične 2020000 …

Zaštitni pribor 3000000 Mehanička oštećenja 3020000 …

Zaštitni pribor 3000000 Kemijska oštećenja 3030000 …

Min-max normiranje svodi se na linearnu transformaciju izvornog raspona podataka na

min’ – nova, normirana minimalna vrijednost

Primjena :neuronske mreže, klasteriranje, case based reasoning

Korisna u slučaju kada ne znamo minimalnu i maksimalnu vrijednost

ID Regija Volumen Marka

• Greške u podacima ili putokazi

Numerička metoda za detekciju

Proračun standardiziranog obilježja

 Staviti u fokus cilj analize – nedostajući podaci u atributu

 Računanje frekvencije pojavnosti prema kategoričkim

Županija Frekvencija pojavnosti u

 Kako i zašto izvršiti diskretizaciju kontinuiranih varijabli

 Kako i zašto izvršiti numeričku transformaciju

 Prosječna dob “prekidatelja” usluge je X godina

Gdje je r koeficijent korelacije

n- je broj promatranih slučajeva u populaciji

 Jaka međusobna koreliranost posebice između ciljne varijable i ostalih

8080 10.06.1972 Ulica lipa 14 10 000 Zagreb

1508 09.09.1943 Miroslava Krleže 31 42 000 Varaždin

2812 17.07.1956 E.A. Poe-a 19 44 000 Sisak

0505 22.07.1976 Tolstojeva 14 47 000 Ogulin

... ... ... ... ...

Šifra korisnika Broj računa Datum transakcije Iznos Način plaćanja

0505 234 14.07.2003 423,22 MC

1508 235 14.07.2003 28,21 Gotovina

8080 236 15.07.2003 311,16 VISA

0505 237 15.07.2003 421,19 MC

... ... ... ... ...