Professional Documents
Culture Documents
March 1, 2012
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
1 / 42
Outline
Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denit ii, exemple si motivat ie Data Mining si Knowledge Discovery Puncte de dicultate Originile DM Tipuri de aplicat ii DM
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
2 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, Springer 2009, liber a la download
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
1 2
http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
1 2 3
http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/ Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
5 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
5 / 42
Mecanisme: Data Integration, Analytical ETL, Data Analysis, and Reporting; graphical user interface for the design of analysis processes; Repositories for process, data and meta data handling; Hundreds of data loading, data transformation, data modeling, and data visualization methods [. . . ] Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html, http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html http://www-users.cs.umn.edu/kumar/dmbook/resources.htm
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
6 / 42
Outline
Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denit ii, exemple si motivat ie Data Mining si Knowledge Discovery Puncte de dicultate Originile DM Tipuri de aplicat ii DM
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
7 / 42
Denit ii
Denit ie
Data Mining este procesul descoperirii (semi)automate a informat iilor utile n depozite mari de date (Tan et al).
Denit ie
Data Mining este analiza seturilor de date deseori de dimensiuni mari rezultate prin observat ii pentru a g asi relat ii noi si pentru sumarizarea datelor n moduri care sunt at at u sor de nt eles c at si utile celui ce det ine datele (Hand et al).
Denit ie
Data mining este procesul netrivial de extragere a informat iei implicite, anterior necunoscute, interesante si potent ial utile din date, de regul a sub forma de modele si sabloane de cunoa stere (Schapiro et al).
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 8 / 42
Termeni alternativi: mineritul cuno stint elor din date extragere de cuno stint e (eng: Knowledge Discovery) sinonim discutabil analiza date/ sabloane Ce NU e Data Mining: g asirea datelor complete privind o persoan a folosind interogare ntro baz a de date; g asirea paginilor web care cont in anumit i termeni; Acestea sunt activit a ti de reg asire a informat iei.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
9 / 42
Ce poate Data Mining: s a descoperi c a anumite nume sunt mai frecvente n unele zone: OBrien, ORurke, OReilly n zona Boston; gruparea client ilor pe baza unui prol de consum comun; gruparea paginilor dintr-un motor de c autare pe baza similarit a tilor: motorul search.yippi.com; predict ia evolut iei preturilor la bilete de avion: farecast.com.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
10 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
11 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
12 / 42
O mult ime de date sunt colectate si depozitate prin sisteme de data warehouse
date din Web, comert electronic cump ar aturi n magazine/lant uri de desfacere tranzact ii nanciare, carduri de debit/credit
Calculatoarele au devenit tot mai ieftine si mai puternice; procesarea distribuit a este ceva comun.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
13 / 42
Presiunea impus a de competit ie este motivant a: aducerea unui nou client ntro ret ea de telefonie este de p an a la 4 ori mai scump a dec at p astrarea lui: Customer attrition Cerint e specice mediului de afaceri: customer proling, targetted marketing, fraud detection Probleme stringente: Care sunt cei mai protabili client i?, Care produse cump arate atrag achizit ia altor produse?, Care va evolut ia companiei/piet ei pe segmentul . . . ?, Care sunt ni sele de piat a?
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
14 / 42
In domenii precum medicina, inginerie si stiint a se acumuleaz a rapid date ce trebuie exploatate pentru a duce la noi descoperiri; Exemplu: dezvoltarea de sisteme de satelit i pentru observat ii climatice; Date genetice generate prin microarrays; se dore ste decodicarea complet a a genomului uman, determinarea genelor care cauzeaz a diferite afect iuni, nt elegerea structurii si funct ionalit a tii genelor; DM e unealt a de baz a pentru bioinformatic a = aplicarea statisticii si a informaticii n domeniul biologiei moleculare.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
15 / 42
Competit ii
Neix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru 17.770 lme KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzic a 2010: Evaluarea performant elor student ilor 2009: Predict ia relat iei cu client ii 2008: Cancer de s an 2007: Netix prize 2006: embolism pulmonar din date tomograce 2005: clasicarea interog arilor de Internet 2004: zica particulelor si biochimie 2003: mineritul ret elelor si analiza log-urilor competit ia merge p an a n 1997
Datele de intrare se pot g asi ntr-o larg a varietate de formate: siere text, baze de date relat ionale, date semistructurate (e.g. XML, HTML), imagini, lme etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 17 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
18 / 42
Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice se elimin a rezultatele nerealiste; Eliminarea cuno stint elor neinteresante element subiectiv, dependent de cuno stint ele anterioare; Limitarea complexit a tii modelelor folosite n procesul de DM: If you torture the data long enough, it will confess (Ronald Harry Coase, economist); Principiul lui Bonferroni: if you look harder than the quantity of data supports, you will nd a pattern that ts.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
19 / 42
Joseph Rhine: parapsiholog n anii 50 care a ncercat s a dovedeasc a faptul c a unii oameni au percept ie extra-senzorial a; experimentul lui Rhine: a cerut unor oameni s a ghiceasc a culorile a 10 cartona se ascunse se stiau cele dou a posibilit a ti: ro su si albastru; a descoperit c a aproximativ 1/1000 din oameni au ghicit toate cele 10 cartoane a spus oamenilor respectivi c a au abilit a ti extrasenzoriale si i-a chemat pentru alte experimente la un nou experiment, oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. Concluzia:
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
20 / 42
Nu ar trebuit s a le spun a oamenilor c a au capacit a ti extra-senzoriale: asta i face s a si le piard a!! Un calcul probabilistic simplu arat a c a raportul de aproximativ 1/1000 poate explicat prin evenimente aleatoare si legea numerelor mari; Cunoa sterea principiului lui Bonferroni poate s a salveze de astfel de descoperiri.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
21 / 42
seturile de date ajung u sor la dimensiuni de giga/tera/petabytes; France Telecom are o baz a de date folosit a pentru luarea deciziilor de 30 TB Wal-Mart are 20 de milioane de tranzact ii pe zi; 16 telescoape europene produc 1 Gb pe secund a; proiectul genomului uman: 3.4 miliarde de perechi si ntre 20000 si 25000 gene; problem a de descoperire de medicamente: 100000 de atribute; stabilirea reputat iei URL-urilor: 3231961 de atribute Experimentul Compact Muon Solenoid la CERNs Large Hadron Collider genereaz a 40 de terabytes de date pe secund a.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
22 / 42
variante: structuri de date specice, care s a u sureze interogarea datelor scalarea pe orizontal a sau pe vertical a a resurselor hardware; scalarea pe vertical a: rareori sucient a, datele nu ncap n RAM scalarea pe orizontal a cazuri remarcabile: Apache Hadoop, Apache Mahout proiecte opensource.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
23 / 42
atribute eterogene: numerice, categoriale; ce faci cu datele lips a? eliminarea nregistr arilor cu goluri de date nu e ntotdeauna o opt iune; colect ii de documente (e.g. pagini Web); date ADN cu structur a spat ial a si secvent ial a; serii de timp tehnicile de DM trebuie s a ia n considerare relat iile dintre date (corelat ie spat ial a si temporal a; conectivitate de grafuri; relat ie p arintecopil).
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
24 / 42
datele pot prezente n locat ii multiple, nu doar ntro organizat ie; necesitate: DM distribuit sau suport de tip Data Warehouse n caz de distribuire: comunicarea necesar a poate s a domine timpul de calcul n caz de data warehouse: integrarea datelor necesit a timp ndelungat data privacy: problem a delicat a, diferite aspecte legislative pot interveni
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
25 / 42
Analiz a nestandard
Statistica: enuntarea de ipoteze si apoi testarea lor; Problem a evident a: procesul este laborios DM are ca scop tocmai determinarea pe c at posibil automat a a astfel de ipoteze; In timp ce statistica este n mare m asur a tributar a modelelor parametrice, datele reale pot avea cu totul alte distribut ii dec at cele presupuse; Dar statistica ofer a unelte utile de exemplu metode de testare, determinarea intervalelor de condent a, inferent a statistic a etc.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
26 / 42
Originile DM
Statistic a e santionare, estimare, testarea ipotezelor, modele parametrice; Inteligent a articial a tehnici de rat ionament probabilist si management al incertitudinii Inv a tare automat a (machine learning) pornind de la date se creeaz a modele adecvate Recunoa stere de sabloane (pattern recognition) Sisteme de baze de date suport pentru stocarea (eventual distribuit a a ) datelor; probleme pot ap area din cauz a c a nu toate datele se pot reprezenta u sor sub model relat ional; Calcul paraleldistribuit pentru a rezolva problema scalabilit a tii aplicat iilor de DM;
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
27 / 42
Sunt dou a categorii majore de aplicat ii: Predict ia scopul e de a prezice valoarea concret a a unui atribut pe baza altor atribute. Atributul ce urmeaz a a prezis se nume ste variabil a dependent a sau tint a; cele care se folosesc pentru predict ie sunt variabile independente sau explicative; Descrierea determinarea de sabloane, e.g. corelat ii, tendint e, grup ari, traiectorii, anomalii
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
28 / 42
Clasicare predict ie Grupare (Clustering) descriere Determinarea relat iilor de asociere descriere Descoperirea sabloanelor secvent iale descriere Regresie predict ie Detectarea deviat iilor predict ie
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
29 / 42
Clasicarea: denit ie
Se pleac a de la o colect ie de nregistr ari = setul de antrenare Fiecare nregistrare e format a din atribute, dintre care unul este clasa: bun/rau, risc mare/risc moderat/risc mic; Scopul este g asirea unui model (a unui mecanism, a unei funct ii) care s a determine clasa pe baza atributelor; Modelul trebuie s a fac a o clasicare c at mai del a pentru nregistr ari care nu fac parte din setul de test = date din setul de testare;
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
30 / 42
Clasicarea: exemplu
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
31 / 42
Clasicarea: aplicat ia 1
Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin po st a prin alegerea unui set de consumatori pentru care sansele de achizit ie a unui produs sunt mari modalitate de lucru:
se pleac a de la produse similare pentru aceste produse stim dac a au fost sau nu cump arate de c atre consumatorii n cauz a; asta d a clasa unei nregistr ari, ca valoare posibil a din mult imea {a cump arat, nu a cump arat} se colecteaz a date demograce despre client i, istoricul tranzact iilor etc. se folosesc aceste date pentru a construi un clasicator.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
32 / 42
Clasicarea: aplicat ia 2
Prevenirea migr arii clientului: Scop: s a se determine dac a un client al serviciilor oferite este pe cale de a pleca la un competitor modalitate de lucru:
se folosesc nregistr ari detaliate despre tranzact iile f acute de client (e.g. telefonie: apelurile efectuate, ret elele c atre care sau efectuat, durata, frecvent a); se folosesc date demograce: situat ia nanciar a, starea civil a etc. se eticheteaz a clientul ca ind loial sau nu plec and de la acest set de antrenare se creeaz a un clasicator care s a e utilizat pentru alt i client i
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
33 / 42
Clasicarea: aplicat ia 3
Clasicarea obiectelor cere sti Scop: s a se prezic a clasa unor obiecte cere sti pe baza imaginilor luate de telescoape modalitate de lucru:
se pleac a de la o colect ie de imagini; caz concret: 3000 imagini cu 23040 x 23040 pixeli pe imagine se segmenteaz a imaginea se m asoar a anumite tr as aturi se construie ste un clasicator plec and de la aceste segmente de imagini cu clase ata sate - pentru ecare segment se stie exact ce reprezint a poveste de succes: sau g asit 16 noi quasari, elemente greu de descoperit si catalogat prin mijloace tradit ionale.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
34 / 42
Clasicarea: aplicat ia 4
Clasicarea galaxiilor n: galaxii tinere, de v arst a medie, vechi. Scop: clasicarea galaxiilor relativ la stadiul de formare: galaxii tinere, de nivel intermediar, stadiu nal; set de date: 20 de milioane de galaxii, 72 de milioane de stele baza de date de 150 GB atribute: tr as aturi extrase din imagini, caracteristicile lungimilor de und a primite etc. sursa: http://aps.umn.edu
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
35 / 42
Clustering: denit ie
D anduse un set de puncte, ecare av and un set de atribute si o m asur a de similaritate, s a se g aseasc a grup ari (clustere) cu proprietatea:
punctele care apart in unui aceluia si cluster sunt similare ntre ele punctele din clustere separate sunt mai put in similare
m asur a de similaritate: distant a Euclidian a sau alte m asuri specice deosebire fat a de clasicare: printre atributele considerate nu exist a un atribut de clas a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
36 / 42
Clustering: exemplu
Gruparea automat a de documente scop: g asirea grupurilor de documente care sunt similare pe baza termenilor pe care i cont in modalitate de lucru
se contorizeaz a cuvintele se formeaz a o m asur a de similaritate ntre documente pe baza frecvent elor pe baza similarit a tii se formeaz a grupurile utilitate: pentru un nou document se descoper a rapid care este clusterul c aruia i apart ine n mod natural;
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
37 / 42
D anduse un set de colect ii de nregistr ari, s a se produc a regulile de dependent a care prezic aparit ia unui item pe baza aparit iei altor itemi
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
38 / 42
g asirea grupurilor de gene care au funct ii nrudite identicarea paginilor Web dintrun site care sunt accesate mpreun a Market Basket Analysis: care sunt produsele care se v and bine mpreun a; n funct ie de aceste grup ari se poate specula partea de cross-selling (ieftine sti un produs dar l scumpe sti pe un altul) sau dispunerea pe raft a lor (cele care se v and mpreun a s a e dispuse apropiat); echiparea ma sinilor care particip a la reparat ii cu anumite unelte, pentru a reduce num arul de deplas ari la client
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
39 / 42
Spre deosebire de analiza asocierilor: aparit ia evenimentelor este reglat a de restrict ii de timp.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
40 / 42
Prezicerea unui atribut continuu pe baza unor atribute independente; Similar cu clasicarea, dar la regresie valorile variabilei dependente sunt numerice Intens studiat a n statistic a si ret ele neurale articiale Exemple:
prezicerea volumului de v anz ari prezicerea vitezei v antului pe baza umidit a tii, presiunii, temperaturii etc. prezicerea consumului de curent ntro anumit a perioad a, pe o zon a specicat a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
41 / 42
Detectarea anomaliilor
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
42 / 42