You are on page 1of 48

Introducere n Data Mining

Curs 1: Prezentare generala


Lucian Sasu, Ph.D.
Universitatea Transilvania din Brasov, Facultatea de Matematic
a si Informatic
a

March 1, 2012

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

1 / 42

Outline

Bibliografia recomandata
Bibliografie pentru curs
Bibliografie pentru laborator

Data Mining - introducere


Definitii, exemple si motivatie
Data Mining si Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicatii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

2 / 42

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to


Data Mining, Addison-Wesley, 2006

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to


Data Mining, Addison-Wesley, 2006

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of


Data Mining, MIT Press, 2001

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to


Data Mining, Addison-Wesley, 2006

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of


Data Mining, MIT Press, 2001

Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to


Data Mining, Addison-Wesley, 2006

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of


Data Mining, MIT Press, 2001

Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011

Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of


Statistical Learning: Data Mining, Inference, and Prediction, 2nd
edition, Springer 2009, libera la download

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliografie pentru laborator

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliografie pentru laborator

http://rapidminerresources.com

http://rapid-i.com/content/view/36/209/lang,en/

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliografie pentru laborator

http://rapidminerresources.com

http://rapid-i.com/content/view/36/209/lang,en/

Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning


Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.
Software multiplatform
a dezvoltat n Java; poate fi folosit din GUI sau prin API-ul expus;
posibil s
a se apeleze din .NET via ikvm.net.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (2)

RapidMiner Community Edition


The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading
open-source system for data and text mining.

Mecanisme: Data Integration, Analytical ETL, Data Analysis, and


Reporting; graphical user interface for the design of analysis
processes; Repositories for process, data and meta data handling;
Hundreds of data loading, data transformation, data modeling, and
data visualization methods [. . . ]
Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html,
http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html
http://www-users.cs.umn.edu/kumar/dmbook/resources.htm

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

6 / 42

Outline

Bibliografia recomandata
Bibliografie pentru curs
Bibliografie pentru laborator

Data Mining - introducere


Definitii, exemple si motivatie
Data Mining si Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicatii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

7 / 42

Definitii
Definitie
Data Mining este procesul descoperirii (semi)automate a informatiilor utile
n depozite mari de date (Tan et al).

Definitie
Data Mining este analiza seturilor de date deseori de dimensiuni mari
rezultate prin observatii pentru a gasi relatii noi si pentru sumarizarea
datelor n moduri care sunt atat usor de nteles cat si utile celui ce detine
datele (Hand et al).

Definitie
Data mining este procesul netrivial de extragere a informatiei implicite,
anterior necunoscute, interesante si potential utile din date, de regula sub
forma de modele si sabloane de cunoastere (Schapiro et al).
lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

8 / 42

Termeni alternativi:
mineritul cunostintelor din date
extragere de cunostinte (eng: Knowledge Discovery) sinonim
discutabil
analiza date/sabloane
Ce NU e Data Mining:
gasirea datelor complete privind o persoana folosind interogare ntro
baza de date;
gasirea paginilor web care contin anumiti termeni;
Acestea sunt activitati de regasire a informatiei.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

9 / 42

Ce poate fi Data Mining:


sa descoperi ca anumite nume sunt mai frecvente n unele zone:
OBrien, ORurke, OReilly n zona Boston;
gruparea clientilor pe baza unui profil de consum comun;
gruparea paginilor dintr-un motor de cautare pe baza similaritatilor:
motorul search.yippi.com;
predictia evolutiei preturilor la bilete de avion: farecast.com.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

10 / 42

Clustering de pagini web in Yippi

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

11 / 42

Farecast: sa cumpar sau nu acum un bilet de avion?

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

12 / 42

De ce Data Mining: din punctul de vedere al afacerilor (1)

O multime de date sunt colectate si depozitate prin sisteme de data


warehouse
date din Web, comert electronic
cumparaturi n magazine/lanturi de desfacere
tranzactii financiare, carduri de debit/credit

Calculatoarele au devenit tot mai ieftine si mai puternice; procesarea


distribuita este ceva comun.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

13 / 42

De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impusa de competitie este motivanta: aducerea unui nou


client ntro retea de telefonie este de pana la 4 ori mai scumpa decat
pastrarea lui: Customer attrition
Cerinte specifice mediului de afaceri: customer profiling, targetted
marketing, fraud detection
Probleme stringente: Care sunt cei mai profitabili clienti?, Care
produse cumparate atrag achizitia altor produse?, Care va fi
evolutia companiei/pietei pe segmentul . . . ?, Care sunt nisele de
piata?

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

14 / 42

De ce Data Mining: din punct de vedere stiintific

In domenii precum medicina, inginerie si stiinta se acumuleaza rapid


date ce trebuie exploatate pentru a duce la noi descoperiri;
Exemplu: dezvoltarea de sisteme de sateliti pentru observatii
climatice;
Date genetice generate prin microarrays; se doreste decodificarea
completa a genomului uman, determinarea genelor care cauzeaza
diferite afectiuni, ntelegerea structurii si functionalitatii genelor;
DM e unealta de baza pentru bioinformatica = aplicarea statisticii si
a informaticii n domeniul biologiei moleculare.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

15 / 42

Competitii
Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru
17.770 filme
KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data
2011: Recomandare de muzica
2010: Evaluarea performantelor studentilor
2009: Predictia relatiei cu clientii
2008: Cancer de san
2007: Netflix prize
2006: embolism pulmonar din date tomografice
2005: clasificarea interogarilor de Internet
2004: fizica particulelor si biochimie
2003: mineritul retelelor si analiza log-urilor
competitia merge pana n 1997

Alte competitii www.kdnuggets.com


lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

16 / 42

Pasii unui proces de extragere de cunostinte (1)


Data Mining este parte integranta a domeniului Knowledge discovery
in databases (KDD), care e un ntreg proces de conversie a datelor
primare n cunostinte (informatie).
Procesul consta ntro succesiune de pasi:

Datele de intrare se pot gasi ntr-o larga varietate de formate: fisiere


text, baze de date relationale, date semistructurate (e.g. XML,
HTML), imagini, filme etc.
lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

17 / 42

Pasii unui proces de extragere de cunostinte (2)


Datele se selecteaza din multitudinea de surse;
Preprocesarea si transformarea pot include: selectarea dimensiunilor,
reducerea dimensionalitatii, tratarea datelor incomplete, normalizarea;
Preprocesarea si transformarea pot lua chiar si 60% din durata totala
a unui proces de extragere a cunostintelor;
Partea de Data Mining se face printro varietate de tehnici; deseori se
testeaza mai multe metode;
La final, cunostintele rezultate sunt postprocesate (e.g. se elimina
rezultatele invalide sau neinteresante) si trebuie prezentate ntro
forma inteligibila factorilor de decizie (e.g. vizualizare sau reguli de
forma ifthen), sau integrate n alte sisteme (e.g. sistemele utilizate
pentru detectare de fraude);

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

18 / 42

Atentie la ce se obtine

Tehnici folosite la preprocesare: testarea ipotezelor prin metode


statistice se elimina rezultatele nerealiste;
Eliminarea cunostintelor neinteresante element subiectiv,
dependent de cunostintele anterioare;
Limitarea complexitatii modelelor folosite n procesul de DM: If you
torture the data long enough, it will confess (Ronald Harry Coase,
economist);
Principiul lui Bonferroni: if you look harder than the quantity of data
supports, you will find a pattern that fits.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

19 / 42

Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog n anii 50 care a ncercat sa dovedeasca


faptul ca unii oameni au perceptie extra-senzoriala;
experimentul lui Rhine: a cerut unor oameni sa ghiceasca culorile a
10 cartonase ascunse se stiau cele doua posibilitati: rosu si albastru;
a descoperit ca aproximativ 1/1000 din oameni au ghicit toate cele
10 cartoane
a spus oamenilor respectivi ca au abilitati extrasenzoriale si i-a chemat
pentru alte experimente
la un nou experiment, oamenii de la pasul anterior nu au mai ghicit
aproape deloc culoarea cartoanelor.
Concluzia:

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

20 / 42

Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar fi trebuit sa le spuna oamenilor ca au capacitati


extra-senzoriale: asta i face sa si le piarda!!
Un calcul probabilistic simplu arata ca raportul de aproximativ 1/1000
poate fi explicat prin evenimente aleatoare si legea numerelor mari;
Cunoasterea principiului lui Bonferroni poate sa salveze de astfel de
descoperiri.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

21 / 42

Scalabilitatea si dimensiunea datelor

seturile de date ajung usor la dimensiuni de giga/tera/petabytes;


France Telecom are o baza de date folosita pentru luarea deciziilor de
30 TB
Wal-Mart are 20 de milioane de tranzactii pe zi;
16 telescoape europene produc 1 Gb pe secunda;
proiectul genomului uman: 3.4 miliarde de perechi si ntre 20000 si
25000 gene;
problema de descoperire de medicamente: 100000 de atribute;
stabilirea reputatiei URL-urilor: 3231961 de atribute
Experimentul Compact Muon Solenoid la CERNs Large Hadron
Collider genereaza 40 de terabytes de date pe secunda.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

22 / 42

Scalabilitatea si dimensiunea datelor (2)

variante: structuri de date specifice, care sa usureze interogarea


datelor
scalarea pe orizontala sau pe verticala a resurselor hardware;
scalarea pe verticala: rareori suficienta, datele nu ncap n RAM
scalarea pe orizontala cazuri remarcabile: Apache Hadoop, Apache
Mahout proiecte opensource.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

23 / 42

Date eterogene si complexe

atribute eterogene: numerice, categoriale;


ce faci cu datele lipsa? eliminarea nregistrarilor cu goluri de date nu e
ntotdeauna o optiune;
colectii de documente (e.g. pagini Web); date ADN cu structura
spatiala si secventiala; serii de timp
tehnicile de DM trebuie sa ia n considerare relatiile dintre date
(corelatie spatiala si temporala; conectivitate de grafuri; relatie
parintecopil).

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

24 / 42

Gestiunea si distribuirea datelor

datele pot fi prezente n locatii multiple, nu doar ntro organizatie;


necesitate: DM distribuit sau suport de tip Data Warehouse
n caz de distribuire: comunicarea necesara poate sa domine timpul
de calcul
n caz de data warehouse: integrarea datelor necesita timp ndelungat
data privacy: problema delicata, diferite aspecte legislative pot
interveni

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

25 / 42

Analiza nestandard

Statistica: enuntarea de ipoteze si apoi testarea lor;


Problema evidenta: procesul este laborios
DM are ca scop tocmai determinarea pe cat posibil automata a astfel
de ipoteze;
In timp ce statistica este n mare masura tributara modelelor
parametrice, datele reale pot avea cu totul alte distributii decat cele
presupuse;
Dar statistica ofera unelte utile de exemplu metode de testare,
determinarea intervalelor de confidenta, inferenta statistica etc.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

26 / 42

Originile DM
Statistica esantionare, estimare, testarea ipotezelor, modele
parametrice;
Inteligenta artificiala tehnici de rationament probabilist si
management al incertitudinii
Invatare automata (machine learning) pornind de la date se
creeaza modele adecvate
Recunoastere de sabloane (pattern recognition)
Sisteme de baze de date suport pentru stocarea (eventual
distribuita a ) datelor; probleme pot aparea din cauza ca nu toate
datele se pot reprezenta usor sub model relational;
Calcul paraleldistribuit pentru a rezolva problema scalabilitatii
aplicatiilor de DM;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

27 / 42

Sunt doua categorii majore de aplicatii:


Predictia scopul e de a prezice valoarea concreta a unui atribut pe
baza altor atribute. Atributul ce urmeaza a fi prezis se
numeste variabila dependenta sau tinta; cele care se folosesc
pentru predictie sunt variabile independente sau explicative;
Descrierea determinarea de sabloane, e.g. corelatii, tendinte, grupari,
traiectorii, anomalii

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

28 / 42

Clasificare predictie
Grupare (Clustering) descriere
Determinarea relatiilor de asociere descriere
Descoperirea sabloanelor secventiale descriere
Regresie predictie
Detectarea deviatiilor predictie

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

29 / 42

Clasificarea: definitie

Se pleaca de la o colectie de nregistrari = setul de antrenare


Fiecare nregistrare e formata din atribute, dintre care unul este
clasa: bun/rau, risc mare/risc moderat/risc mic;
Scopul este gasirea unui model (a unui mecanism, a unei functii) care
sa determine clasa pe baza atributelor;
Modelul trebuie sa faca o clasificare cat mai fidela pentru nregistrari
care nu fac parte din setul de test = date din setul de testare;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

30 / 42

Clasificarea: exemplu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

31 / 42

Clasificarea: aplicatia 1

Marketing direct:
scopul: reducerea costurilor de trimitere a reclamelor prin posta prin
alegerea unui set de consumatori pentru care sansele de achizitie a
unui produs sunt mari
modalitate de lucru:
se pleaca de la produse similare
pentru aceste produse stim daca au fost sau nu cumparate de catre
consumatorii n cauza; asta da clasa unei nregistrari, ca valoare
posibila din multimea {a cumparat, nu a cumparat}
se colecteaza date demografice despre clienti, istoricul tranzactiilor etc.
se folosesc aceste date pentru a construi un clasificator.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

32 / 42

Clasificarea: aplicatia 2

Prevenirea migrarii clientului:


Scop: sa se determine daca un client al serviciilor oferite este pe cale
de a pleca la un competitor
modalitate de lucru:
se folosesc nregistrari detaliate despre tranzactiile facute de client (e.g.
telefonie: apelurile efectuate, retelele catre care sau efectuat, durata,
frecventa);
se folosesc date demografice: situatia financiara, starea civila etc.
se eticheteaza clientul ca fiind loial sau nu
plecand de la acest set de antrenare se creeaza un clasificator care sa
fie utilizat pentru alti clienti

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

33 / 42

Clasificarea: aplicatia 3
Clasificarea obiectelor ceresti
Scop: sa se prezica clasa unor obiecte ceresti pe baza imaginilor luate
de telescoape
modalitate de lucru:
se pleaca de la o colectie de imagini; caz concret: 3000 imagini cu
23040 x 23040 pixeli pe imagine
se segmenteaza imaginea
se masoara anumite trasaturi
se construieste un clasificator plecand de la aceste segmente de imagini
cu clase atasate - pentru fiecare segment se stie exact ce reprezinta
poveste de succes: sau gasit 16 noi quasari, elemente greu de
descoperit si catalogat prin mijloace traditionale.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

34 / 42

Clasificarea: aplicatia 4

Clasificarea galaxiilor n: galaxii tinere, de varsta medie, vechi.


Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere,
de nivel intermediar, stadiu final;
set de date: 20 de milioane de galaxii, 72 de milioane de stele
baza de date de 150 GB
atribute: trasaturi extrase din imagini, caracteristicile lungimilor de
unda primite etc.
sursa: http://aps.umn.edu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

35 / 42

Clustering: definitie
Danduse un set de puncte, fiecare avand un set de atribute si o
masura de similaritate, sa se gaseasca grupari (clustere) cu
proprietatea:
punctele care apartin unui aceluiasi cluster sunt similare ntre ele
punctele din clustere separate sunt mai putin similare

masura de similaritate: distanta Euclidiana sau alte masuri specifice


deosebire fata de clasificare: printre atributele considerate nu exista
un atribut de clasa

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

36 / 42

Clustering: exemplu

Gruparea automata de documente


scop: gasirea grupurilor de documente care sunt similare pe baza
termenilor pe care i contin
modalitate de lucru
se contorizeaza cuvintele
se formeaza o masura de similaritate ntre documente pe baza
frecventelor
pe baza similaritatii se formeaza grupurile
utilitate: pentru un nou document se descopera rapid care este
clusterul caruia i apartine n mod natural;

utilitate: detectare de plagiate, cautare de documente similare etc.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

37 / 42

Analiza asocierilor: definitie

Danduse un set de colectii de nregistrari, sa se produca regulile de


dependenta care prezic aparitia unui item pe baza aparitiei altor itemi

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

38 / 42

Analiza asocierilor: exemple

gasirea grupurilor de gene care au functii nrudite


identificarea paginilor Web dintrun site care sunt accesate mpreuna
Market Basket Analysis: care sunt produsele care se vand bine
mpreuna; n functie de aceste grupari se poate specula partea de
cross-selling (ieftinesti un produs dar l scumpesti pe un altul) sau
dispunerea pe raft a lor (cele care se vand mpreuna sa fie dispuse
apropiat);
echiparea masinilor care participa la reparatii cu anumite unelte,
pentru a reduce numarul de deplasari la client

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

39 / 42

Descoperirea sabloanelor secventiale: definitie


Danduse un set de obiecte, fiecare cu timpul la care apare, sa se
gaseasca regulile care pot prezice dependintele secventiale dintre
evenimente;

Spre deosebire de analiza asocierilor: aparitia evenimentelor este


reglata de restrictii de timp.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

40 / 42

Regresie: definitie, exemple

Prezicerea unui atribut continuu pe baza unor atribute independente;


Similar cu clasificarea, dar la regresie valorile variabilei dependente
sunt numerice
Intens studiata n statistica si retele neurale artificiale
Exemple:
prezicerea volumului de vanzari
prezicerea vitezei vantului pe baza umiditatii, presiunii, temperaturii
etc.
prezicerea consumului de curent ntro anumita perioada, pe o zona
specificata

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

41 / 42

Detectarea anomaliilor

detectarea deviatiilor semnificative de la comportamentul normal


aplicatii:
detectarea fraudelor cu card bancar
detectarea intruziunilor n retele de calculatoare

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

42 / 42

You might also like