Introducere In Data Mining: Curs 1: Prezentare General A

Introducere n Data Mining
Curs 1: Prezentare generala

Lucian Sasu, Ph.D.
Universitatea Transilvania din Brasov, Facultatea de Matematic
a si Informatic
a
March 1, 2012
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
1 / 42
Outline
Bibliografia recomandata
Bibliografie pentru curs
Bibliografie pentru laborator
Data Mining - introducere

Definitii, exemple si motivatie
Data Mining si Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicatii DM
Curs 1
March 1, 2012
2 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to

Data Mining, Addison-Wesley, 2006
Curs 1
March 1, 2012
3 / 42

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of

Data Mining, MIT Press, 2001
Curs 1
March 1, 2012
3 / 42


Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
Curs 1
March 1, 2012
3 / 42


Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of

Statistical Learning: Data Mining, Inference, and Prediction, 2nd
edition, Springer 2009, libera la download
Curs 1
March 1, 2012
3 / 42
Curs 1
March 1, 2012
4 / 42
http://rapidminerresources.com
http://rapid-i.com/content/view/36/209/lang,en/
Curs 1
March 1, 2012
4 / 42
http://rapidminerresources.com
http://rapid-i.com/content/view/36/209/lang,en/
Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning

Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005
Curs 1
March 1, 2012
4 / 42
Unelte folosite la laborator (1)
Weka: Data Mining Software in Java, Download de aici

Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.
Curs 1
March 1, 2012
5 / 42
Weka: Data Mining Software in Java, Download de aici

Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.
Software multiplatform
a dezvoltat n Java; poate fi folosit din GUI sau prin API-ul expus;
posibil s
a se apeleze din .NET via ikvm.net.
Curs 1
March 1, 2012
5 / 42
RapidMiner Community Edition

The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading
open-source system for data and text mining.
Mecanisme: Data Integration, Analytical ETL, Data Analysis, and

Reporting; graphical user interface for the design of analysis
processes; Repositories for process, data and meta data handling;
Hundreds of data loading, data transformation, data modeling, and
data visualization methods [. . . ]
Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html,
http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html
http://www-users.cs.umn.edu/kumar/dmbook/resources.htm
Curs 1
March 1, 2012
6 / 42
Outline
Bibliografia recomandata
Data Mining - introducere

Definitii, exemple si motivatie
Data Mining si Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicatii DM
Curs 1
March 1, 2012
7 / 42
Definitii
Definitie
Data Mining este procesul descoperirii (semi)automate a informatiilor utile
n depozite mari de date (Tan et al).
Definitie
Data Mining este analiza seturilor de date deseori de dimensiuni mari
rezultate prin observatii pentru a gasi relatii noi si pentru sumarizarea
datelor n moduri care sunt atat usor de nteles cat si utile celui ce detine
datele (Hand et al).
Definitie
Data mining este procesul netrivial de extragere a informatiei implicite,
anterior necunoscute, interesante si potential utile din date, de regula sub
forma de modele si sabloane de cunoastere (Schapiro et al).
Curs 1
March 1, 2012
8 / 42
Termeni alternativi:
mineritul cunostintelor din date
extragere de cunostinte (eng: Knowledge Discovery) sinonim
discutabil
analiza date/sabloane
Ce NU e Data Mining:
gasirea datelor complete privind o persoana folosind interogare ntro
baza de date;
gasirea paginilor web care contin anumiti termeni;
Acestea sunt activitati de regasire a informatiei.
Curs 1
March 1, 2012
9 / 42
Ce poate fi Data Mining:

sa descoperi ca anumite nume sunt mai frecvente n unele zone:
OBrien, ORurke, OReilly n zona Boston;
gruparea clientilor pe baza unui profil de consum comun;
gruparea paginilor dintr-un motor de cautare pe baza similaritatilor:
motorul search.yippi.com;
predictia evolutiei preturilor la bilete de avion: farecast.com.
Curs 1
March 1, 2012
10 / 42
Clustering de pagini web in Yippi
Curs 1
March 1, 2012
11 / 42
Farecast: sa cumpar sau nu acum un bilet de avion?
Curs 1
March 1, 2012
12 / 42
De ce Data Mining: din punctul de vedere al afacerilor (1)
O multime de date sunt colectate si depozitate prin sisteme de data

warehouse
date din Web, comert electronic
cumparaturi n magazine/lanturi de desfacere
tranzactii financiare, carduri de debit/credit
Calculatoarele au devenit tot mai ieftine si mai puternice; procesarea

distribuita este ceva comun.
Curs 1
March 1, 2012
13 / 42
De ce Data Mining: din punctul de vedere al afacerilor (2)
Presiunea impusa de competitie este motivanta: aducerea unui nou

client ntro retea de telefonie este de pana la 4 ori mai scumpa decat
pastrarea lui: Customer attrition
Cerinte specifice mediului de afaceri: customer profiling, targetted
marketing, fraud detection
Probleme stringente: Care sunt cei mai profitabili clienti?, Care
produse cumparate atrag achizitia altor produse?, Care va fi
evolutia companiei/pietei pe segmentul . . . ?, Care sunt nisele de
piata?
Curs 1
March 1, 2012
14 / 42
De ce Data Mining: din punct de vedere stiintific
In domenii precum medicina, inginerie si stiinta se acumuleaza rapid

date ce trebuie exploatate pentru a duce la noi descoperiri;
Exemplu: dezvoltarea de sisteme de sateliti pentru observatii
climatice;
Date genetice generate prin microarrays; se doreste decodificarea
completa a genomului uman, determinarea genelor care cauzeaza
diferite afectiuni, ntelegerea structurii si functionalitatii genelor;
DM e unealta de baza pentru bioinformatica = aplicarea statisticii si
a informaticii n domeniul biologiei moleculare.
Curs 1
March 1, 2012
15 / 42
Competitii
Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru
17.770 filme
KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data
2011: Recomandare de muzica
2010: Evaluarea performantelor studentilor
2009: Predictia relatiei cu clientii
2008: Cancer de san
2007: Netflix prize
2006: embolism pulmonar din date tomografice
2005: clasificarea interogarilor de Internet
2004: fizica particulelor si biochimie
2003: mineritul retelelor si analiza log-urilor
competitia merge pana n 1997
Alte competitii www.kdnuggets.com

Curs 1
March 1, 2012
16 / 42
Pasii unui proces de extragere de cunostinte (1)

Data Mining este parte integranta a domeniului Knowledge discovery
in databases (KDD), care e un ntreg proces de conversie a datelor
primare n cunostinte (informatie).
Procesul consta ntro succesiune de pasi:
Datele de intrare se pot gasi ntr-o larga varietate de formate: fisiere

text, baze de date relationale, date semistructurate (e.g. XML,
HTML), imagini, filme etc.
Curs 1
March 1, 2012
17 / 42
Pasii unui proces de extragere de cunostinte (2)

Datele se selecteaza din multitudinea de surse;
Preprocesarea si transformarea pot include: selectarea dimensiunilor,
reducerea dimensionalitatii, tratarea datelor incomplete, normalizarea;
Preprocesarea si transformarea pot lua chiar si 60% din durata totala
a unui proces de extragere a cunostintelor;
Partea de Data Mining se face printro varietate de tehnici; deseori se
testeaza mai multe metode;
La final, cunostintele rezultate sunt postprocesate (e.g. se elimina
rezultatele invalide sau neinteresante) si trebuie prezentate ntro
forma inteligibila factorilor de decizie (e.g. vizualizare sau reguli de
forma ifthen), sau integrate n alte sisteme (e.g. sistemele utilizate
pentru detectare de fraude);
Curs 1
March 1, 2012
18 / 42
Atentie la ce se obtine
Tehnici folosite la preprocesare: testarea ipotezelor prin metode

statistice se elimina rezultatele nerealiste;
Eliminarea cunostintelor neinteresante element subiectiv,
dependent de cunostintele anterioare;
Limitarea complexitatii modelelor folosite n procesul de DM: If you
torture the data long enough, it will confess (Ronald Harry Coase,
economist);
Principiul lui Bonferroni: if you look harder than the quantity of data
supports, you will find a pattern that fits.
Curs 1
March 1, 2012
19 / 42
Principiul lui Bonferroni: paradoxul Rhine (1)
Joseph Rhine: parapsiholog n anii 50 care a ncercat sa dovedeasca

faptul ca unii oameni au perceptie extra-senzoriala;
experimentul lui Rhine: a cerut unor oameni sa ghiceasca culorile a
10 cartonase ascunse se stiau cele doua posibilitati: rosu si albastru;
a descoperit ca aproximativ 1/1000 din oameni au ghicit toate cele
10 cartoane
a spus oamenilor respectivi ca au abilitati extrasenzoriale si i-a chemat
pentru alte experimente
la un nou experiment, oamenii de la pasul anterior nu au mai ghicit
aproape deloc culoarea cartoanelor.
Concluzia:
Curs 1
March 1, 2012
20 / 42
Principiul lui Bonferroni: paradoxul Rhine (2)
Nu ar fi trebuit sa le spuna oamenilor ca au capacitati

extra-senzoriale: asta i face sa si le piarda!!
Un calcul probabilistic simplu arata ca raportul de aproximativ 1/1000
poate fi explicat prin evenimente aleatoare si legea numerelor mari;
Cunoasterea principiului lui Bonferroni poate sa salveze de astfel de
descoperiri.
Curs 1
March 1, 2012
21 / 42
Scalabilitatea si dimensiunea datelor
seturile de date ajung usor la dimensiuni de giga/tera/petabytes;

France Telecom are o baza de date folosita pentru luarea deciziilor de
30 TB
Wal-Mart are 20 de milioane de tranzactii pe zi;
16 telescoape europene produc 1 Gb pe secunda;
proiectul genomului uman: 3.4 miliarde de perechi si ntre 20000 si
25000 gene;
problema de descoperire de medicamente: 100000 de atribute;
stabilirea reputatiei URL-urilor: 3231961 de atribute
Experimentul Compact Muon Solenoid la CERNs Large Hadron
Collider genereaza 40 de terabytes de date pe secunda.
Curs 1
March 1, 2012
22 / 42
Scalabilitatea si dimensiunea datelor (2)
variante: structuri de date specifice, care sa usureze interogarea

datelor
scalarea pe orizontala sau pe verticala a resurselor hardware;
scalarea pe verticala: rareori suficienta, datele nu ncap n RAM
scalarea pe orizontala cazuri remarcabile: Apache Hadoop, Apache
Mahout proiecte opensource.
Curs 1
March 1, 2012
23 / 42
Date eterogene si complexe
atribute eterogene: numerice, categoriale;

ce faci cu datele lipsa? eliminarea nregistrarilor cu goluri de date nu e
ntotdeauna o optiune;
colectii de documente (e.g. pagini Web); date ADN cu structura
spatiala si secventiala; serii de timp
tehnicile de DM trebuie sa ia n considerare relatiile dintre date
(corelatie spatiala si temporala; conectivitate de grafuri; relatie
parintecopil).
Curs 1
March 1, 2012
24 / 42
Gestiunea si distribuirea datelor
datele pot fi prezente n locatii multiple, nu doar ntro organizatie;

necesitate: DM distribuit sau suport de tip Data Warehouse
n caz de distribuire: comunicarea necesara poate sa domine timpul
de calcul
n caz de data warehouse: integrarea datelor necesita timp ndelungat
data privacy: problema delicata, diferite aspecte legislative pot
interveni
Curs 1
March 1, 2012
25 / 42
Analiza nestandard
Statistica: enuntarea de ipoteze si apoi testarea lor;

Problema evidenta: procesul este laborios
DM are ca scop tocmai determinarea pe cat posibil automata a astfel
de ipoteze;
In timp ce statistica este n mare masura tributara modelelor
parametrice, datele reale pot avea cu totul alte distributii decat cele
presupuse;
Dar statistica ofera unelte utile de exemplu metode de testare,
determinarea intervalelor de confidenta, inferenta statistica etc.
Curs 1
March 1, 2012
26 / 42
Originile DM
Statistica esantionare, estimare, testarea ipotezelor, modele
parametrice;
Inteligenta artificiala tehnici de rationament probabilist si
management al incertitudinii
Invatare automata (machine learning) pornind de la date se
creeaza modele adecvate
Recunoastere de sabloane (pattern recognition)
Sisteme de baze de date suport pentru stocarea (eventual
distribuita a ) datelor; probleme pot aparea din cauza ca nu toate
datele se pot reprezenta usor sub model relational;
Calcul paraleldistribuit pentru a rezolva problema scalabilitatii
aplicatiilor de DM;
Curs 1
March 1, 2012
27 / 42
Sunt doua categorii majore de aplicatii:

Predictia scopul e de a prezice valoarea concreta a unui atribut pe
baza altor atribute. Atributul ce urmeaza a fi prezis se
numeste variabila dependenta sau tinta; cele care se folosesc
pentru predictie sunt variabile independente sau explicative;
Descrierea determinarea de sabloane, e.g. corelatii, tendinte, grupari,
traiectorii, anomalii
Curs 1
March 1, 2012
28 / 42
Clasificare predictie
Grupare (Clustering) descriere
Determinarea relatiilor de asociere descriere
Descoperirea sabloanelor secventiale descriere
Regresie predictie
Detectarea deviatiilor predictie
Curs 1
March 1, 2012
29 / 42
Clasificarea: definitie
Se pleaca de la o colectie de nregistrari = setul de antrenare

Fiecare nregistrare e formata din atribute, dintre care unul este
clasa: bun/rau, risc mare/risc moderat/risc mic;
Scopul este gasirea unui model (a unui mecanism, a unei functii) care
sa determine clasa pe baza atributelor;
Modelul trebuie sa faca o clasificare cat mai fidela pentru nregistrari
care nu fac parte din setul de test = date din setul de testare;
Curs 1
March 1, 2012
30 / 42
Clasificarea: exemplu
Curs 1
March 1, 2012
31 / 42
Clasificarea: aplicatia 1
Marketing direct:
scopul: reducerea costurilor de trimitere a reclamelor prin posta prin
alegerea unui set de consumatori pentru care sansele de achizitie a
unui produs sunt mari
modalitate de lucru:
se pleaca de la produse similare
pentru aceste produse stim daca au fost sau nu cumparate de catre
consumatorii n cauza; asta da clasa unei nregistrari, ca valoare
posibila din multimea {a cumparat, nu a cumparat}
se colecteaza date demografice despre clienti, istoricul tranzactiilor etc.
se folosesc aceste date pentru a construi un clasificator.
Curs 1
March 1, 2012
32 / 42
Prevenirea migrarii clientului:

Scop: sa se determine daca un client al serviciilor oferite este pe cale
de a pleca la un competitor
se folosesc nregistrari detaliate despre tranzactiile facute de client (e.g.
telefonie: apelurile efectuate, retelele catre care sau efectuat, durata,
frecventa);
se folosesc date demografice: situatia financiara, starea civila etc.
se eticheteaza clientul ca fiind loial sau nu
plecand de la acest set de antrenare se creeaza un clasificator care sa
fie utilizat pentru alti clienti
Curs 1
March 1, 2012
33 / 42
Clasificarea obiectelor ceresti
Scop: sa se prezica clasa unor obiecte ceresti pe baza imaginilor luate
de telescoape
se pleaca de la o colectie de imagini; caz concret: 3000 imagini cu
23040 x 23040 pixeli pe imagine
se segmenteaza imaginea
se masoara anumite trasaturi
se construieste un clasificator plecand de la aceste segmente de imagini
cu clase atasate - pentru fiecare segment se stie exact ce reprezinta
poveste de succes: sau gasit 16 noi quasari, elemente greu de
descoperit si catalogat prin mijloace traditionale.
Curs 1
March 1, 2012
34 / 42
Clasificarea galaxiilor n: galaxii tinere, de varsta medie, vechi.

Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere,
de nivel intermediar, stadiu final;
set de date: 20 de milioane de galaxii, 72 de milioane de stele
baza de date de 150 GB
atribute: trasaturi extrase din imagini, caracteristicile lungimilor de
unda primite etc.
sursa: http://aps.umn.edu
Curs 1
March 1, 2012
35 / 42
Clustering: definitie
Danduse un set de puncte, fiecare avand un set de atribute si o
masura de similaritate, sa se gaseasca grupari (clustere) cu
proprietatea:
punctele care apartin unui aceluiasi cluster sunt similare ntre ele
punctele din clustere separate sunt mai putin similare
masura de similaritate: distanta Euclidiana sau alte masuri specifice

deosebire fata de clasificare: printre atributele considerate nu exista
un atribut de clasa
Curs 1
March 1, 2012
36 / 42
Clustering: exemplu
Gruparea automata de documente

scop: gasirea grupurilor de documente care sunt similare pe baza
termenilor pe care i contin
modalitate de lucru
se contorizeaza cuvintele
se formeaza o masura de similaritate ntre documente pe baza
frecventelor
pe baza similaritatii se formeaza grupurile
utilitate: pentru un nou document se descopera rapid care este
clusterul caruia i apartine n mod natural;
utilitate: detectare de plagiate, cautare de documente similare etc.
Curs 1
March 1, 2012
37 / 42
Analiza asocierilor: definitie
Danduse un set de colectii de nregistrari, sa se produca regulile de

dependenta care prezic aparitia unui item pe baza aparitiei altor itemi
Curs 1
March 1, 2012
38 / 42
Analiza asocierilor: exemple
gasirea grupurilor de gene care au functii nrudite

identificarea paginilor Web dintrun site care sunt accesate mpreuna
Market Basket Analysis: care sunt produsele care se vand bine
mpreuna; n functie de aceste grupari se poate specula partea de
cross-selling (ieftinesti un produs dar l scumpesti pe un altul) sau
dispunerea pe raft a lor (cele care se vand mpreuna sa fie dispuse
apropiat);
echiparea masinilor care participa la reparatii cu anumite unelte,
pentru a reduce numarul de deplasari la client
Curs 1
March 1, 2012
39 / 42
Descoperirea sabloanelor secventiale: definitie

Danduse un set de obiecte, fiecare cu timpul la care apare, sa se
gaseasca regulile care pot prezice dependintele secventiale dintre
evenimente;
Spre deosebire de analiza asocierilor: aparitia evenimentelor este

reglata de restrictii de timp.
Curs 1
March 1, 2012
40 / 42
Regresie: definitie, exemple
Prezicerea unui atribut continuu pe baza unor atribute independente;

Similar cu clasificarea, dar la regresie valorile variabilei dependente
sunt numerice
Intens studiata n statistica si retele neurale artificiale
Exemple:
prezicerea volumului de vanzari
prezicerea vitezei vantului pe baza umiditatii, presiunii, temperaturii
etc.
prezicerea consumului de curent ntro anumita perioada, pe o zona
specificata
Curs 1
March 1, 2012
41 / 42
Detectarea anomaliilor
detectarea deviatiilor semnificative de la comportamentul normal

aplicatii:
detectarea fraudelor cu card bancar
detectarea intruziunilor n retele de calculatoare
Curs 1
March 1, 2012
42 / 42

Introducere In Data Mining: Curs 1: Prezentare General A

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introducere In Data Mining: Curs 1: Prezentare General A

Uploaded by

Copyright:

Available Formats

Introducere n Data Mining

Curs 1: Prezentare generala

Data Mining - introducere

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of

Bibliografie pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to

David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of

Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of

Bibliografie pentru laborator

Bibliografie pentru laborator

Bibliografie pentru laborator

Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici

Unelte folosite la laborator (2)

RapidMiner Community Edition

Mecanisme: Data Integration, Analytical ETL, Data Analysis, and

Data Mining - introducere

Ce poate fi Data Mining:

Clustering de pagini web in Yippi

Farecast: sa cumpar sau nu acum un bilet de avion?

De ce Data Mining: din punctul de vedere al afacerilor (1)

O multime de date sunt colectate si depozitate prin sisteme de data

Calculatoarele au devenit tot mai ieftine si mai puternice; procesarea

De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impusa de competitie este motivanta: aducerea unui nou

De ce Data Mining: din punct de vedere stiintific

In domenii precum medicina, inginerie si stiinta se acumuleaza rapid

Alte competitii www.kdnuggets.com

Pasii unui proces de extragere de cunostinte (1)

Datele de intrare se pot gasi ntr-o larga varietate de formate: fisiere

Pasii unui proces de extragere de cunostinte (2)

Tehnici folosite la preprocesare: testarea ipotezelor prin metode

Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog n anii 50 care a ncercat sa dovedeasca

Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar fi trebuit sa le spuna oamenilor ca au capacitati

Scalabilitatea si dimensiunea datelor

seturile de date ajung usor la dimensiuni de giga/tera/petabytes;

Scalabilitatea si dimensiunea datelor (2)

variante: structuri de date specifice, care sa usureze interogarea

Date eterogene si complexe

atribute eterogene: numerice, categoriale;

Gestiunea si distribuirea datelor

datele pot fi prezente n locatii multiple, nu doar ntro organizatie;

Statistica: enuntarea de ipoteze si apoi testarea lor;

Sunt doua categorii majore de aplicatii:

Se pleaca de la o colectie de nregistrari = setul de antrenare

Prevenirea migrarii clientului:

Clasificarea galaxiilor n: galaxii tinere, de varsta medie, vechi.

masura de similaritate: distanta Euclidiana sau alte masuri specifice

Gruparea automata de documente

utilitate: detectare de plagiate, cautare de documente similare etc.

Analiza asocierilor: definitie