You are on page 1of 48

Introducere n Data Mining

Curs 1: Prezentare general a Lucian Sasu, Ph.D.


Universitatea Transilvania din Bra sov, Facultatea de Matematic a si Informatic a

March 1, 2012

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

1 / 42

Outline

Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denit ii, exemple si motivat ie Data Mining si Knowledge Discovery Puncte de dicultate Originile DM Tipuri de aplicat ii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

2 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, Springer 2009, liber a la download

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru laborator

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliograe pentru laborator

1 2

http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliograe pentru laborator

1 2 3

http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/ Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classication, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classication, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. Software multiplatform a dezvoltat n Java; poate folosit din GUI sau prin API-ul expus; posibil s a se apeleze din .NET via ikvm.net.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (2)

RapidMiner Community Edition


The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading open-source system for data and text mining.

Mecanisme: Data Integration, Analytical ETL, Data Analysis, and Reporting; graphical user interface for the design of analysis processes; Repositories for process, data and meta data handling; Hundreds of data loading, data transformation, data modeling, and data visualization methods [. . . ] Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html, http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html http://www-users.cs.umn.edu/kumar/dmbook/resources.htm

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

6 / 42

Outline

Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denit ii, exemple si motivat ie Data Mining si Knowledge Discovery Puncte de dicultate Originile DM Tipuri de aplicat ii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

7 / 42

Denit ii
Denit ie
Data Mining este procesul descoperirii (semi)automate a informat iilor utile n depozite mari de date (Tan et al).

Denit ie
Data Mining este analiza seturilor de date deseori de dimensiuni mari rezultate prin observat ii pentru a g asi relat ii noi si pentru sumarizarea datelor n moduri care sunt at at u sor de nt eles c at si utile celui ce det ine datele (Hand et al).

Denit ie
Data mining este procesul netrivial de extragere a informat iei implicite, anterior necunoscute, interesante si potent ial utile din date, de regul a sub forma de modele si sabloane de cunoa stere (Schapiro et al).
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 8 / 42

Termeni alternativi: mineritul cuno stint elor din date extragere de cuno stint e (eng: Knowledge Discovery) sinonim discutabil analiza date/ sabloane Ce NU e Data Mining: g asirea datelor complete privind o persoan a folosind interogare ntro baz a de date; g asirea paginilor web care cont in anumit i termeni; Acestea sunt activit a ti de reg asire a informat iei.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

9 / 42

Ce poate Data Mining: s a descoperi c a anumite nume sunt mai frecvente n unele zone: OBrien, ORurke, OReilly n zona Boston; gruparea client ilor pe baza unui prol de consum comun; gruparea paginilor dintr-un motor de c autare pe baza similarit a tilor: motorul search.yippi.com; predict ia evolut iei preturilor la bilete de avion: farecast.com.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

10 / 42

Clustering de pagini web in Yippi

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

11 / 42

Farecast: s a cump ar sau nu acum un bilet de avion?

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

12 / 42

De ce Data Mining: din punctul de vedere al afacerilor (1)

O mult ime de date sunt colectate si depozitate prin sisteme de data warehouse
date din Web, comert electronic cump ar aturi n magazine/lant uri de desfacere tranzact ii nanciare, carduri de debit/credit

Calculatoarele au devenit tot mai ieftine si mai puternice; procesarea distribuit a este ceva comun.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

13 / 42

De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impus a de competit ie este motivant a: aducerea unui nou client ntro ret ea de telefonie este de p an a la 4 ori mai scump a dec at p astrarea lui: Customer attrition Cerint e specice mediului de afaceri: customer proling, targetted marketing, fraud detection Probleme stringente: Care sunt cei mai protabili client i?, Care produse cump arate atrag achizit ia altor produse?, Care va evolut ia companiei/piet ei pe segmentul . . . ?, Care sunt ni sele de piat a?

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

14 / 42

De ce Data Mining: din punct de vedere stiint ic

In domenii precum medicina, inginerie si stiint a se acumuleaz a rapid date ce trebuie exploatate pentru a duce la noi descoperiri; Exemplu: dezvoltarea de sisteme de satelit i pentru observat ii climatice; Date genetice generate prin microarrays; se dore ste decodicarea complet a a genomului uman, determinarea genelor care cauzeaz a diferite afect iuni, nt elegerea structurii si funct ionalit a tii genelor; DM e unealt a de baz a pentru bioinformatic a = aplicarea statisticii si a informaticii n domeniul biologiei moleculare.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

15 / 42

Competit ii
Neix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru 17.770 lme KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzic a 2010: Evaluarea performant elor student ilor 2009: Predict ia relat iei cu client ii 2008: Cancer de s an 2007: Netix prize 2006: embolism pulmonar din date tomograce 2005: clasicarea interog arilor de Internet 2004: zica particulelor si biochimie 2003: mineritul ret elelor si analiza log-urilor competit ia merge p an a n 1997

Alte competit ii www.kdnuggets.com


lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 16 / 42

Pa sii unui proces de extragere de cuno stint e (1)


Data Mining este parte integrant a a domeniului Knowledge discovery in databases (KDD), care e un ntreg proces de conversie a datelor primare n cuno stint e (informat ie). Procesul const a ntro succesiune de pa si:

Datele de intrare se pot g asi ntr-o larg a varietate de formate: siere text, baze de date relat ionale, date semistructurate (e.g. XML, HTML), imagini, lme etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 17 / 42

Pa sii unui proces de extragere de cuno stint e (2)


Datele se selecteaz a din multitudinea de surse; Preprocesarea si transformarea pot include: selectarea dimensiunilor, reducerea dimensionalit a tii, tratarea datelor incomplete, normalizarea; Preprocesarea si transformarea pot lua chiar si 60% din durata total a a unui proces de extragere a cuno stint elor; Partea de Data Mining se face printro varietate de tehnici; deseori se testeaz a mai multe metode; La nal, cuno stint ele rezultate sunt postprocesate (e.g. se elimin a rezultatele invalide sau neinteresante) si trebuie prezentate ntro form a inteligibil a factorilor de decizie (e.g. vizualizare sau reguli de forma ifthen), sau integrate n alte sisteme (e.g. sistemele utilizate pentru detectare de fraude);

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

18 / 42

Atent ie la ce se obt ine

Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice se elimin a rezultatele nerealiste; Eliminarea cuno stint elor neinteresante element subiectiv, dependent de cuno stint ele anterioare; Limitarea complexit a tii modelelor folosite n procesul de DM: If you torture the data long enough, it will confess (Ronald Harry Coase, economist); Principiul lui Bonferroni: if you look harder than the quantity of data supports, you will nd a pattern that ts.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

19 / 42

Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog n anii 50 care a ncercat s a dovedeasc a faptul c a unii oameni au percept ie extra-senzorial a; experimentul lui Rhine: a cerut unor oameni s a ghiceasc a culorile a 10 cartona se ascunse se stiau cele dou a posibilit a ti: ro su si albastru; a descoperit c a aproximativ 1/1000 din oameni au ghicit toate cele 10 cartoane a spus oamenilor respectivi c a au abilit a ti extrasenzoriale si i-a chemat pentru alte experimente la un nou experiment, oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. Concluzia:

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

20 / 42

Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar trebuit s a le spun a oamenilor c a au capacit a ti extra-senzoriale: asta i face s a si le piard a!! Un calcul probabilistic simplu arat a c a raportul de aproximativ 1/1000 poate explicat prin evenimente aleatoare si legea numerelor mari; Cunoa sterea principiului lui Bonferroni poate s a salveze de astfel de descoperiri.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

21 / 42

Scalabilitatea si dimensiunea datelor

seturile de date ajung u sor la dimensiuni de giga/tera/petabytes; France Telecom are o baz a de date folosit a pentru luarea deciziilor de 30 TB Wal-Mart are 20 de milioane de tranzact ii pe zi; 16 telescoape europene produc 1 Gb pe secund a; proiectul genomului uman: 3.4 miliarde de perechi si ntre 20000 si 25000 gene; problem a de descoperire de medicamente: 100000 de atribute; stabilirea reputat iei URL-urilor: 3231961 de atribute Experimentul Compact Muon Solenoid la CERNs Large Hadron Collider genereaz a 40 de terabytes de date pe secund a.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

22 / 42

Scalabilitatea si dimensiunea datelor (2)

variante: structuri de date specice, care s a u sureze interogarea datelor scalarea pe orizontal a sau pe vertical a a resurselor hardware; scalarea pe vertical a: rareori sucient a, datele nu ncap n RAM scalarea pe orizontal a cazuri remarcabile: Apache Hadoop, Apache Mahout proiecte opensource.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

23 / 42

Date eterogene si complexe

atribute eterogene: numerice, categoriale; ce faci cu datele lips a? eliminarea nregistr arilor cu goluri de date nu e ntotdeauna o opt iune; colect ii de documente (e.g. pagini Web); date ADN cu structur a spat ial a si secvent ial a; serii de timp tehnicile de DM trebuie s a ia n considerare relat iile dintre date (corelat ie spat ial a si temporal a; conectivitate de grafuri; relat ie p arintecopil).

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

24 / 42

Gestiunea si distribuirea datelor

datele pot prezente n locat ii multiple, nu doar ntro organizat ie; necesitate: DM distribuit sau suport de tip Data Warehouse n caz de distribuire: comunicarea necesar a poate s a domine timpul de calcul n caz de data warehouse: integrarea datelor necesit a timp ndelungat data privacy: problem a delicat a, diferite aspecte legislative pot interveni

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

25 / 42

Analiz a nestandard

Statistica: enuntarea de ipoteze si apoi testarea lor; Problem a evident a: procesul este laborios DM are ca scop tocmai determinarea pe c at posibil automat a a astfel de ipoteze; In timp ce statistica este n mare m asur a tributar a modelelor parametrice, datele reale pot avea cu totul alte distribut ii dec at cele presupuse; Dar statistica ofer a unelte utile de exemplu metode de testare, determinarea intervalelor de condent a, inferent a statistic a etc.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

26 / 42

Originile DM
Statistic a e santionare, estimare, testarea ipotezelor, modele parametrice; Inteligent a articial a tehnici de rat ionament probabilist si management al incertitudinii Inv a tare automat a (machine learning) pornind de la date se creeaz a modele adecvate Recunoa stere de sabloane (pattern recognition) Sisteme de baze de date suport pentru stocarea (eventual distribuit a a ) datelor; probleme pot ap area din cauz a c a nu toate datele se pot reprezenta u sor sub model relat ional; Calcul paraleldistribuit pentru a rezolva problema scalabilit a tii aplicat iilor de DM;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

27 / 42

Sunt dou a categorii majore de aplicat ii: Predict ia scopul e de a prezice valoarea concret a a unui atribut pe baza altor atribute. Atributul ce urmeaz a a prezis se nume ste variabil a dependent a sau tint a; cele care se folosesc pentru predict ie sunt variabile independente sau explicative; Descrierea determinarea de sabloane, e.g. corelat ii, tendint e, grup ari, traiectorii, anomalii

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

28 / 42

Clasicare predict ie Grupare (Clustering) descriere Determinarea relat iilor de asociere descriere Descoperirea sabloanelor secvent iale descriere Regresie predict ie Detectarea deviat iilor predict ie

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

29 / 42

Clasicarea: denit ie

Se pleac a de la o colect ie de nregistr ari = setul de antrenare Fiecare nregistrare e format a din atribute, dintre care unul este clasa: bun/rau, risc mare/risc moderat/risc mic; Scopul este g asirea unui model (a unui mecanism, a unei funct ii) care s a determine clasa pe baza atributelor; Modelul trebuie s a fac a o clasicare c at mai del a pentru nregistr ari care nu fac parte din setul de test = date din setul de testare;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

30 / 42

Clasicarea: exemplu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

31 / 42

Clasicarea: aplicat ia 1

Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin po st a prin alegerea unui set de consumatori pentru care sansele de achizit ie a unui produs sunt mari modalitate de lucru:
se pleac a de la produse similare pentru aceste produse stim dac a au fost sau nu cump arate de c atre consumatorii n cauz a; asta d a clasa unei nregistr ari, ca valoare posibil a din mult imea {a cump arat, nu a cump arat} se colecteaz a date demograce despre client i, istoricul tranzact iilor etc. se folosesc aceste date pentru a construi un clasicator.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

32 / 42

Clasicarea: aplicat ia 2

Prevenirea migr arii clientului: Scop: s a se determine dac a un client al serviciilor oferite este pe cale de a pleca la un competitor modalitate de lucru:
se folosesc nregistr ari detaliate despre tranzact iile f acute de client (e.g. telefonie: apelurile efectuate, ret elele c atre care sau efectuat, durata, frecvent a); se folosesc date demograce: situat ia nanciar a, starea civil a etc. se eticheteaz a clientul ca ind loial sau nu plec and de la acest set de antrenare se creeaz a un clasicator care s a e utilizat pentru alt i client i

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

33 / 42

Clasicarea: aplicat ia 3
Clasicarea obiectelor cere sti Scop: s a se prezic a clasa unor obiecte cere sti pe baza imaginilor luate de telescoape modalitate de lucru:
se pleac a de la o colect ie de imagini; caz concret: 3000 imagini cu 23040 x 23040 pixeli pe imagine se segmenteaz a imaginea se m asoar a anumite tr as aturi se construie ste un clasicator plec and de la aceste segmente de imagini cu clase ata sate - pentru ecare segment se stie exact ce reprezint a poveste de succes: sau g asit 16 noi quasari, elemente greu de descoperit si catalogat prin mijloace tradit ionale.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

34 / 42

Clasicarea: aplicat ia 4

Clasicarea galaxiilor n: galaxii tinere, de v arst a medie, vechi. Scop: clasicarea galaxiilor relativ la stadiul de formare: galaxii tinere, de nivel intermediar, stadiu nal; set de date: 20 de milioane de galaxii, 72 de milioane de stele baza de date de 150 GB atribute: tr as aturi extrase din imagini, caracteristicile lungimilor de und a primite etc. sursa: http://aps.umn.edu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

35 / 42

Clustering: denit ie
D anduse un set de puncte, ecare av and un set de atribute si o m asur a de similaritate, s a se g aseasc a grup ari (clustere) cu proprietatea:
punctele care apart in unui aceluia si cluster sunt similare ntre ele punctele din clustere separate sunt mai put in similare

m asur a de similaritate: distant a Euclidian a sau alte m asuri specice deosebire fat a de clasicare: printre atributele considerate nu exist a un atribut de clas a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

36 / 42

Clustering: exemplu

Gruparea automat a de documente scop: g asirea grupurilor de documente care sunt similare pe baza termenilor pe care i cont in modalitate de lucru
se contorizeaz a cuvintele se formeaz a o m asur a de similaritate ntre documente pe baza frecvent elor pe baza similarit a tii se formeaz a grupurile utilitate: pentru un nou document se descoper a rapid care este clusterul c aruia i apart ine n mod natural;

utilitate: detectare de plagiate, c autare de documente similare etc.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

37 / 42

Analiza asocierilor: denit ie

D anduse un set de colect ii de nregistr ari, s a se produc a regulile de dependent a care prezic aparit ia unui item pe baza aparit iei altor itemi

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

38 / 42

Analiza asocierilor: exemple

g asirea grupurilor de gene care au funct ii nrudite identicarea paginilor Web dintrun site care sunt accesate mpreun a Market Basket Analysis: care sunt produsele care se v and bine mpreun a; n funct ie de aceste grup ari se poate specula partea de cross-selling (ieftine sti un produs dar l scumpe sti pe un altul) sau dispunerea pe raft a lor (cele care se v and mpreun a s a e dispuse apropiat); echiparea ma sinilor care particip a la reparat ii cu anumite unelte, pentru a reduce num arul de deplas ari la client

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

39 / 42

Descoperirea sabloanelor secvent iale: denit ie


D anduse un set de obiecte, ecare cu timpul la care apare, s a se g aseasc a regulile care pot prezice dependint ele secvent iale dintre evenimente;

Spre deosebire de analiza asocierilor: aparit ia evenimentelor este reglat a de restrict ii de timp.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

40 / 42

Regresie: denit ie, exemple

Prezicerea unui atribut continuu pe baza unor atribute independente; Similar cu clasicarea, dar la regresie valorile variabilei dependente sunt numerice Intens studiat a n statistic a si ret ele neurale articiale Exemple:
prezicerea volumului de v anz ari prezicerea vitezei v antului pe baza umidit a tii, presiunii, temperaturii etc. prezicerea consumului de curent ntro anumit a perioad a, pe o zon a specicat a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

41 / 42

Detectarea anomaliilor

detectarea deviat iilor semnicative de la comportamentul normal aplicat ii:


detectarea fraudelor cu card bancar detectarea intruziunilor n ret ele de calculatoare

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

42 / 42

You might also like