You are on page 1of 195

Familiei mele i n special soiei mele, Crina, fr de care aceast carte nu s-ar fi scris acum

Cuprins
Partea I. Raionament probabilistic
Capitolul 1. Probabiliti i paradoxuri 1.1. Interpretri ale probabilitilor ........................................................... 11 1.1.1. Interpretarea frecventist ......................................................... 11 1.1.2. Interpretarea fizic ....................................................................... 13 1.1.3. Interpretarea subiectivist ........................................................ 15 1.1.4. Probabilitile n lumea cuantic ............................................ 17 1.2. Paradoxuri .................................................................................................... 24 1.2.1. Problema Monty-Hall ............................................................... 24 1.2.2. Paradoxul cutiei lui Bertrand .................................................. .27 1.2.3. Eroarea juctorului de rulet ................................................... 27 1.2.4. Eroarea procurorului ................................................................... 27 1.2.5. Paradoxul lui Simpson................................................................. 28 Capitolul 2. Fundamente teoretice 2.1. Probabiliti condiionate. Teorema lui Bayes ............................... 31 2.2. Independen i independen condiionat .................................. 35 2.3. Reele bayesiene......................................................................................... 37 2.4. Algoritmul Bayes-Ball .............................................................................. 42 2.5. Sortarea topologic ................................................................................... 49 2.6. Construcia automat a reelelor bayesiene ................................... 52

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte 3.1. Calculul probabilitii unei observaii ............................................... 55 3.2. Calculul probabilitilor marginale ..................................................... 57 3.3. Inferena prin enumerare ....................................................................... 59 3.4. Inferena prin eliminarea variabilelor ............................................... 62 3.5. Variabile cu valori multiple. Ignorarea variabilelor irelevante .. 69 3.6. Cea mai probabil explicaie.................................................................. 71 Capitolul 4. Raionamente aproximative 4.1. Introducere .................................................................................................. 73 4.2. Inferena stohastic prin ponderarea verosimilitii .................. 74 4.3. Alte metode de inferen aproximativ ............................................ 83 Capitolul 5. Teoria evidenelor 5.1. Teoria Dempster-Shafer .......................................................................... 85 5.2. Surse multiple de eviden ..................................................................... 91 5.3. Reguli alternative de combinare a evidenelor .............................. 96 5.3.1. Regula lui Yager ............................................................................. 97 5.3.2. Regula Han-Han-Yang............................................................... 100 5.4. Concluzii ..................................................................................................... 104

Partea a II-a. Tehnici de clasificare


Capitolul 6. Problematica general 6.1. Introducere ............................................................................................... 107 6.2. nvarea supervizat ........................................................................... 109 6.3. Definirea unei probleme de clasificare ........................................... 113 6.4. Tipuri de atribute.................................................................................... 114 6.5. Estimarea capacitii de generalizare ............................................. 116 6.6. Aplicaii ale tehnicilor de clasificare ............................................... 119
6
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie 7.1. Algoritmul lui Hunt ................................................................................ 121 7.2. Specificarea testelor de atribute ....................................................... 122 7.3. Msuri de omogenitate ......................................................................... 127 7.4. Partiionarea ............................................................................................. 130 7.5. Probleme cu atribute simbolice ........................................................ 131 7.6. Probleme cu atribute numerice ........................................................ 140 7.7. Aplicarea modelului ............................................................................... 149 7.8. Erorile modelului .................................................................................... 149 7.9. Ctigul proporional ............................................................................ 152 7.10. Ali algoritmi de inducie a arborilor de decizie ...................... 153 7.11. Concluzii ................................................................................................. 154 Capitolul 8. Clasificatorul bayesian naiv 8.1. Modelul teoretic ...................................................................................... 155 8.2. Probleme cu atribute simbolice ........................................................ 157 8.3. Considerente practice ........................................................................... 160 8.3.1. Corecia Laplace .......................................................................... 160 8.3.2. Precizia calculelor ...................................................................... 164 8.4. Probleme cu atribute numerice ........................................................ 164 8.5. Concluzii ..................................................................................................... 167 Capitolul 9. Clasificarea bazat pe instane 9.1. Introducere ............................................................................................... 169 9.2. Metrici de distan.................................................................................. 170 9.3. Scalarea atributelor................................................................................ 172 9.4. Calculul distanelor pentru diferitele tipuri de atribute .......... 173 9.5. Numrul optim de vecini ..................................................................... 173 9.6. Blestemul dimensionalitii ................................................................ 177 9.7. Ponderarea instanelor......................................................................... 177

7
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

9.8. Ponderarea i selecia atributelor .................................................... 178 9.9. Exemplu de clasificare .......................................................................... 181 9.10. Concluzii .................................................................................................. 186 Referine .................................................................................................................... 187

8
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I Raionament probabilistic

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1

Probabiliti i paradoxuri
1.1. Interpretri ale probabilitilor
1.1.1. Interpretarea frecventist Mai nti, vom meniona unele aspecte legate de natura probabilitilor, interesante i din punct de vedere filosofic. O definiie des ntlnit este urmtoarea: probabilitatea unui eveniment A reprezint fraciunea de lumi posibile n care A este adevrat (figura 1.1). Ca n teoria universurilor paralele, se consider c se pot ntmpla toate posibilitile, dar la un moment dat numai ntr-o fraciune din lumile posibile respective se ntmpl un anumit eveniment.

Lumile n care A este adevrat P(A)

Lumile n care A este fals

Figura 1.1. Ilustrarea interpretrii frecventiste

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Aceast definiie este legat de interpretarea frecventist, care se reduce de fapt la organizarea unui experiment i la numrare: numrm cazurile n care evenimentul este adevrat. Dac vrem s aflm care este probabilitatea s se defecteze un calculator, numrm cte calculatoare s-au defectat din numrul total de calculatoare i mprim cele dou valori. Interpretarea frecventist postuleaz c probabilitatea unui eveniment este frecvena sa relativ n timp, adic frecvena relativ de apariie dup repetarea procesului de un numr mare de ori n condiii similare. Evenimentele se consider guvernate de unele fenomene fizice aleatorii, fie fenomene predictibile n principiu, dac am dispune de suficiente informaii, fie fenomene impredictibile prin natura lor esenial. Aruncarea unui zar sau nvrtirea ruletei sunt exemple de fenomene predictibile n principiu, pe cnd descompunerea radioactiv este un exemplu de fenomen impredictibil. Descompunerea radioactiv este procesul prin care nucleul unui atom instabil pierde energie prin emiterea de radiaie ionizant. Emisia este spontan iar atomul se descompune fr alte interaciuni fizice cu alte particule din afara sa. Descompunerea radioactiv este un proces stohastic la nivelul unui singur atom; conform teoriei mecanicii cuantice, este imposibil s se prezic momentul cnd va avea loc aceasta. Totui, probabilitatea c un atom se va descompune este constant n timp i deci pentru un numr mare de atomi identici, rata de descompunere a ansamblului este predictibil, pe baza constantei de descompunere (sau a perioadei de njumtire). n cazul aruncrii unui ban corect, interpretarea frecventist consider c probabilitatea de a cdea cap este 1/2 nu pentru c exist 2 rezultate egal probabile, ci pentru c serii repetate de ncercri au artat n

12
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

mod empiric c frecvena converge la 1/2 cnd numrul de ncercri tinde la infinit. Mai formal, dac na este numrul de apariii ale unui eveniment A dup n ncercri, atunci ( ) .

O problem fundamental n definirea frecventist a probabilitilor este urmtoarea. Limita unui ir infinit de ncercri este independent de segmentele sale iniiale finite. Dac un ban cade cap de o sut de ori la rnd, asta nu spune de fapt mai nimic despre probabilitatea de a cdea cap cnd numrul de ncercri tinde la infinit. Este n mod evident imposibil repetarea de un numr infinit de ori a unui experiment pentru a-i determina probabilitatea real. Dar dac se efectueaz doar un numr finit de ncercri, pentru fiecare serie de ncercri va aprea o frecven relativ diferit, chiar dac probabilitatea real ar trebui s fie aceeai ntotdeauna. Dac putem msura probabilitatea doar cu o anumit eroare, aceast eroare de msurare poate fi exprimat doar ca o probabilitate (nsui conceptul pe care dorim s-l definim). Prin urmare, definiia frecvenei relative devine circular (Hjek, 2012). 1.1.2. Interpretarea fizic Interpretarea fizic (engl. propensity) afirm c probabilitile sunt nite proprieti ale obiectelor sau evenimentelor, predispoziii ale unui anumit tip de situaii s produc anumite rezultate sau frecvene relative pentru un numr mare de experimente. Predispoziiile nu sunt frecvene relative, ci cauze ale frecvenelor relative stabile observate i ar trebui s explice de ce repetarea unui experiment genereaz anumite rezultate cu aproximativ aceleai rate de apariie.
13
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Ne putem ntreba dac probabilitile sunt nite caracteristici intrinseci ale obiectelor, asemntoare cu proprietile lor fizice, ca masa de exemplu. Dac la aruncarea unui ban corect probabilitatea de a cdea pe fiecare din cele dou fee este 50% (banul poate s cad i pe cant, dar aceasta este o problem marginal, o excepie cu probabilitate foarte mic), care este cauza pentru procentele de 50-50%? De ce sunt egal probabile cele dou fee? Este aceasta o proprietate a banului ca obiect? Ar putea exista o alt zon din univers, cu alte legi ale fizicii, n care aceast proporie s nu fie 50-50%? Rezultatul unui experiment fizic este produs de o mulime de condiii iniiale. Cnd repetm un experiment, de fapt realizm un alt experiment, cu condiii iniiale mai mult sau mai puin similare. Un experiment determinist va avea de fapt ntotdeauna o predispoziie de 0 sau 1 pentru un anumit rezultat. De aceea, predispoziii nebanale (diferite de 0 sau 1) exist doar pentru experimente cu adevrat nedeterministe. n aceast interpretare, rezultatul unui eveniment se bazeaz pe proprietile fizice obiective ale obiectului sau procesului care genereaz evenimentul. Rezultatul aruncrii unui ban se poate considera ca fiind determinat de exemplu de proprietile fizice ale banului, cum ar fi forma simetric plat i cele dou fee. Este greu s definim probabilitile ca predispoziii, pentru c (cel puin deocamdat) nu tim ce sunt, ci doar ce (bnuim c) fac. ns, aa cum magnitudinea unei sarcini electrice nu poate fi definit explicit, folosind noiuni elementare, ci doar n msura efectelor pe care le produce (atragerea sau respingerea altor sarcini electrice), tot astfel predispoziia este ceea ce face ca un experiment s aib o anumit probabilitate.

14
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

n acest context, legea numerelor mari reflect faptul c frecvenele relative stabile sunt o manifestare a predispoziiilor, adic a probabilitilor invariante singulare (care se refer la evenimentul considerat n sine, nu la seria de ncercri repetate). Pe lng explicarea apariiei frecvenelor relative stabile, ideea de predispoziie este motivat de dorina de a nelege probabilitile singulare din mecanica cuantic, precum probabilitatea de descompunere a unui atom la un anumit moment (Hjek, 2012). 1.1.3. Interpretarea subiectivist Interpretarea frecventist i cea fizic se mai numesc obiectiviste, deoarece presupun probabilitile ca fiind componente ale lumii fizice. Discuia despre probabilitile obiective are sens doar n contextul unor experimente aleatorii bine definite. Interpretarea subiectivist sau bayesian consider c probabilitatea unui eveniment este o msur a convingerii subiective, personale, c evenimentul va avea loc. Probabiliti subiectiviste pot fi atribuite oricrei propoziii, chiar i atunci cnd nu este implicat niciun proces aleatoriu. Ele reprezint gradul n care propoziia este sprijinit de evidenele disponibile. n general, aceste probabiliti sunt considerate grade de ncredere, care arat ct de siguri suntem c propoziia respectiv este adevrat. Principiul indiferenei afirm c atunci cnd exist n > 1 posibiliti mutual exclusive (distincte) i exhaustive colectiv (care acoper toate posibilitile), indistinctibile cu excepia denumirilor lor, fiecrei posibiliti trebuie s i se atribuie o probabilitate egal cu 1 / n (Keynes, 1921).

15
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Un ban simetric are dou fee, denumite arbitrar cap i pajur. Presupunnd c banul va cdea pe o fa sau pe alta, rezultatele aruncrii banului sunt mutual exclusive, exhaustive i interschimbabile, dac ignorm evenimentul mai puin probabil de a ateriza pe cant, deoarece acest rezultat nu este interschimbabil cu celelalte dou. Conform principiului, fiecrei fee i se atribuie probabilitatea de 1/2. n aceast analiz se presupune c forele care acioneaz asupra banului nu sunt cunoscute. Dac le-am cunoate cu precizie, am putea prezice traiectoria banului conform legilor mecanicii clasice. Interpretarea subiectivist permite raionamentul cu propoziii a cror valoare de adevr este incert. Pentru a evalua probabilitatea unei ipoteze, trebuie specificate unele probabiliti a-priori, care sunt actualizate apoi n lumina datelor relevante noi care apar. n abordarea subiectivist, probabilitatea msoar o convingere personal, unei ipoteze i se atribuie o probabilitate, pe cnd n abordarea frecventist, ipoteza este testat fr a i se atribui o probabilitate iniial. Abordrile obiectiviste sunt nepractice pentru cele mai multe probleme de decizie din lumea real. n abordarea frecventist, este necesar ca un proces s aib o natur repetitiv pentru a-i putea fi msurat probabilitatea. Aruncarea unui ban este un astfel de proces, ns incertitudinile privind un rzboi nuclear de exemplu nu pot fi tratate astfel. Nu au existat rzboaie nucleare pn acum i mai mult, repetarea lor este greu de imaginat. Pentru un astfel de proces complex care presupune analiza circumstanelor care conduc la un rzboi nuclear, este greu de realizat o estimare bazat pe considerente obiective (Lee, 1989). Abordarea subiectivist permite combinarea natural a frecvenelor cu judecile experilor. Probabilitile numerice pot fi extrase din baze de

16
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

date, pot fi estimate de ctre experi sau pot fi o combinaie ntre cele dou variante. 1.1.4. Probabilitile n lumea cuantic Dezvoltnd discuia n domeniul mecanicii cuantice, putem considera extensia modelului de probabiliti unidimensional, din lumea macroscopic, n care probabilitile sunt numere reale pozitive i pentru o distribuie suma tuturor probabilitilor este 1, la un model bidimensional, n care avem aa-numitele amplitudini de probabilitate. Amplitudinea de probabilitate este un numr complex al crui modul ridicat la ptrat reprezint o probabilitate. De exemplu, dac amplitudinea de probabilitate a unei stri cuantice este msura acea stare este | | . | , , atunci probabilitatea de a

Dac o particul elementar poate avea 2 stri, notate |0 i |1, atunci ea poate fi simultan ntr-o superpoziie a acestor stri: | unde | | | | . Dac particula este observat, vom detecta starea |0

cu probabilitatea | | i starea |1 cu probabilitatea | | . De asemenea, starea particulei colapseaz n starea observat, ori |0 ori |1. Dou experimente tipice pun n eviden comportamentul total diferit al elementelor mecanicii cuantice fa de cele ale mecanicii clasice. Primul presupune trimiterea de fotoni sau electroni perpendicular spre un perete, prin dou fante care au mrimea i distana dintre ele comparabile cu lungimea de und a particulelor incidente. Chiar dac doar o singur particul elementar este emis la un moment dat, pe perete apare un model de interferen, ca i cum fiecare particul ar trece simultan prin

17
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

ambele fante i ar interfera cu ea nsi, dup cum se poate vedea n figura 1.2 (BlackLight Power, 2005).

Figura 1.2. Comportamentul de tip und

Dac n dreptul fantelor se pune un detector, astfel nct s se determine exact prin ce fant trece particula, rezultatul de pe perete apare ca dou aglomerri distincte n dreptul fiecrei fante, fr modelul de interferen, ca n figura 1.3 (BlackLight Power, 2005). Prin aciunea de observare, starea particulelor cuantice colapseaz din superpoziie ntr-o stare clasic.

Figura 1.3. Comportamentul de tip particul

18
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

n primul caz, particulele elementare se comport ca nite unde, iar n al doilea caz se comport ca nite particule. Este ca i cum rezultatul ar depinde de scopul msurtorii, dac dorim s detectm particule sau unde. Un alt experiment interesant care pune n eviden caracterul cuantic al particulelor elementare este interferometrul Mach-Zehnder (Harrison, 2008), prezentat n figura 1.4.
D2

O1

S2

D1

Surs de fotoni

S1

O2

Figura 1.4. Interferometrul Mach-Zehnder

Acesta este un dispozitiv utilizat n general pentru a msura interferena clasic. Este compus dintr-o surs de fotoni, dou oglinzi normale, O1i O2, dou oglinzi semitransparente S1 i S2 i dou detectoare de particule D1 i D2. O oglind semi-transparent reflect jumtate din lumina primit i refract cealalt jumtate prin ea. La fiecare reflectare, fotonii i schimb faza cu o jumtate de lungime de und. Schimbri de faz au loc i la traversarea materialului

19
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

oglinzilor semitransparente. Ideea de baz este c schimbrile de faz pentru ambele ci (sus i dreapta) sunt egale n cazul detectorului D1 i prin urmare apare o interferen constructiv. n cazul detectorului D2, fotonii venind de pe cele dou ci prezint o diferen de faz de o jumtate de lungime de und, ceea ce determin o interferen destructiv complet. n cazul clasic, toat lumina ajunge la detectorul D1 i deloc la detectorul D2. n cazul cuantic, un foton traverseaz singur sistemul, ns apare acelai rezultat, ca i cum ar parcurge simultan cele dou ci posibile i ar interfera cu el nsui. Dac am dori s observm exact calea pe care merge fotonul, eliminnd de exemplu oglinda S2 (figura 1.5), rezultatele devin cele clasice, jumtate din fotoni fiind detectai de ctre D1 i jumtate de ctre D2.
D2

O1

D1

Surs de fotoni

S1

O2

Figura 1.5. Configuraia pentru observarea cii fotonului

20
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

Calculul cuantic este o direcie promitoare de cercetare care ncearc s utilizeze fenomenele cuantice precum superpoziia (remarcat n experimentele anterioare prin faptul c particula elementar traverseaz simultan dou ci) pentru a crete performanele algoritmilor. Unitatea de baz pentru informaia cuantic este qubit-ul (engl. quantum bit), un sistem cuantic care poate avea 2 stri. Prelucrarea datelor se face aplicnd aa numitele pori cuantice, care transform starea sistemului. Din punct de vedere matematic, aceste transformri sunt reprezentate ca nite matrice cu care se nmulesc de obicei amplitudinile de probabilitate pentru a lua noi valori. S considerm urmtorul exemplu (Aaronson, 2006), n care un qubit este iniial n starea |0, adic amplitudinea de probabilitate corespunztoare strii |0 este 1 iar cea corespunztoare strii |1 este 0. Vom mai considera transformarea dat de urmtoarea poart cuantic, al crei effect este rotirea unui vector cu 45 n sens antiorar (trigonometric): ]

(1.1)

Prin aplicarea acestei transformri, qubit-ul va ajunge ntr-o superpoziie: ] [ ] ],

(1.2)

n care, dac qubit-ul este observat, strile |0 i |1 au probabiliti egale de apariie, 1/2. Operaia este echivalent aruncrii unui ban.

21
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Dac ns mai aplicm o dat aceeai transformare pentru starea rezultat, vom avea: ] [ ]

[ ],

(1.3)

ceea ce corespunde unei stri deterministe de |1. Este ca i cum am da cu banul o dat i apoi, fr a vedea ce rezultat am obinut, mai aruncm banul o dat i obinem un rezultat determinist. i n acest caz avem de-a face cu un fenomen de interferen, dup cum putem vedea n figura 1.6 (Aaronson, 2006). Exist dou ci care conduc n starea |0, ns una din ci are o amplitudine pozitiv i cealalt are o amplitudine negativ. Prin urmare, aceste amplitudini interfereaz destructiv i se anuleaz. Pe de alt parte, cile care conduc n starea |1 au ambele amplitudini pozitive i acestea interfereaz constructiv.

Figura 1.6. Interferena amplitudinilor de probabilitate

22
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

Acest tip de interferen nu se observ n lumea clasic deoarece probabilitile nu pot fi negative. Anularea dintre amplitudinile pozitive i negative este unul din principalele aspecte care fac mecanica cuantic diferit de mecanica clasic. Una din ideile de baz ale calculului cuantic este tocmai folosirea superpoziiilor i aplicarea unor transformri astfel nct rezultatele nedorite s se anuleze i, cnd sistemul este observat, s colapseze cu probabilitate ct mai mare ntr-o stare corespunztoare rezultatului dorit. Faptul c observarea unui sistem cuantic conduce la modificarea sa ridic numeroase probleme filosofice legate de rolul factorului contient n modelarea realitii. Putem influena evenimentele aleatorii, schimbndu-le probabilitile? n termodinamic, toate particulele au o micare brownian aleatorie, ns dac ne ridicm la un nivel superior, se pot observa comportamente deterministe. i n cazul oamenilor, interaciunile acestora pot fi considerate aleatorii (deterministe sau nu, sunt oricum att de complexe nct sunt probabil imposibil de modelat), ns din punct de vedere statistic se poate vedea cum evolueaz o societate. Referindu-ne la modificarea probabilitilor unor evenimente, noi suntem la nivelul microscopic, ns ar fi interesant dac ne-am putea ridica la un nivel superior pentru a putea observa sau modifica sistemul. Programul Princeton Engineering Anomalies Research (PEAR, 2010) a ncercat ntre anii 1979-2007 un studiu experimental extins asupra interaciunilor dintre contiina uman i anumite dispozitive, multe bazate pe procese aleatorii, pentru a stabili msura n care mintea poate influena realitatea fizic. Dup 28 de ani de investigaii i mii de experimente cu milioane de ncercri, rezultatul (controversat) a fost c, n medie, mintea

23
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

uman poate modifica 2-3 evenimente din 10000, dincolo de variaiile statistice normale.

1.2. Paradoxuri
Modul cum percep oamenii probabilitile nu este perfect corect, ntruct nu exist o capacitate nnscut de a lucra cu acestea. La fel ca i n cazul logicii, oamenii au nevoie de un anumit antrenament pentru a nelege toate subtilitile raionamentelor probabilistice. Vom prezenta n cele ce urmeaz cteva paradoxuri, situaii care conduc la concluzii neintuitive, dar care se dovedesc corecte n urma unei analize mai profunde. 1.2.1. Problema Monty-Hall Problema Monty-Hall a fost popularizat n Statele Unite de o emisiune a canalului CBS din 1963. Problema este ns mai veche, fiind cunoscut ntr-o alt variant nc de pe vasele cu zbaturi de pe Mississippi. Concurentul este pus n faa a trei ui, dup cum se poate vedea n figura 1.7. n spatele a dou ui este cte o capr iar n spatele unei ui este o main. Scopul jocului este desigur ctigarea mainii. Juctorul va ctiga ce se afl n spatele uii alese. Participantul trebuie s aleag o u. Apoi, prezentatorul i deschide o alt u, din celelalte dou rmase, n spatele creia este o capr. Apoi l ntreab dac vrea sau nu s i schimbe alegerea iniial ctre ua a treia.

24
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

Figura 1.7. Problema Monty-Hall

Multe persoane consider c probabilitatea iniial de ctig este 1/3 iar dac s-a deschis o u, probabilitatea devine acum 1/2, indiferent de ua aleas. Avnd n vedere orgoliul propriu, faptul c iniial au ales ceva i nu vor s-i schimbe alegerea, probabilitile prnd oricum egale, ele au tentaia de a nu-i schimba decizia. Se poate vedea ns din figura 1.8 c prin schimbarea uii, participantul are de dou ori mai multe anse de ctig. Intuitiv, prin faptul c prezentatorul i-a artat o capr, i-a dat o informaie, ceea ce schimb probabilitile. Ua iniial a rmas cu probabilitatea de ctig de 1/3, cea anterioar, dar faptul c i-a fost artat o capr a transformat probabilitatea celelalte ui n 2/3. S presupunem c jocul ar avea 100 de ui i prezentatorul i-ar fi deschis 98. Este clar c probabilitatea uii iniiale este de 1/100, iar restul pn la 1 corespunde acum celeilalte ui. Analiznd toate deciziile posibile, dac participantul a ales iniial maina i i schimb decizia, va pierde. Acesta este cazul defavorabil. n celelalte dou situaii ns, strategia de schimbare a deciziei este ctigtoare. Se vede c pstrarea alegerii iniiale are probabilitatea de ctig de 1/3 iar schimbarea are probabilitatea de ctig de 2/3.

25
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Figura 1.8. Situaiile posibile pentru problema Monty-Hall


26
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

1.2.2. Paradoxul cutiei lui Bertrand Paradoxul cutiei lui Bertrand este echivalent din punct de vedere logic cu problema Monty-Hall. Exist trei cutii al cror coninut nu este vizibil. Una conine dou monede de aur, una conine dou monede de argint iar a treia conine o moned de aur i una de argint. Dup ce se alege o cutie n mod aleatoriu i se scoate o moned, dac aceasta este de aur, s-ar prea c probabilitatea ca moneda rmas s fie tot de aur este de 1/2. De fapt, probabilitatea este de 2/3. 1.2.3. Eroarea juctorului de rulet Un alt paradox este eroarea juctorului de rulet (engl. gamblers fallacy). Culorile rou i negru au fiecare probabilitatea de apariie de 1/2. S presupunem c a ieit rou de mai multe ori la rnd. Eroarea este de a considera c, data urmtoare, negrul are mai multe anse de apariie. De fapt, fiecare experiment (acionare a ruletei) este independent. Prin urmare, de fiecare dat, roul i negrul au aceleai probabiliti de apariie. n 1913, la Monte Carlo, negrul a ieit de 26 de ori la rnd. Aceasta nseamn c exist o probabilitate foarte mic ca o culoare s ias i de 100 de ori la rnd, dar nu este imposibil. Toate aceste experimente succesive cu acelai rezultat, combinate, au o probabilitate foarte mic, ns fiecare experiment luat individual are aceleai probabiliti. 1.2.4. Eroarea procurorului Eroarea procurorului (engl. prosecutors fallacy) apare n situaii

27
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

precum urmtoarea. S considerm c a fost prins un suspect de crim, cruia i se fac analize de snge pentru a fi comparate cu probele de la locul faptei. Grupa de snge gsit la faa locului este o grup rar, AB cu Rh negativ, care are 1% frecven n populaie. De asemenea, s-au mai gsit urme de pr blond, persoanele blonde constituind tot 1% din populaie. Suspectul are grupa de snge respectiv i este blond, prezena mpreun a acestor trsturi avnd mpreun probabilitatea de 0,01%. Prin urmare, probele ar indica faptul c suspectul este vinovat cu o probabilitate de 99,99%. Dac ns oraul n care s-a petrecut crima are o populaie de 100.000 de locuitori, nseamn c, statistic, ali 10 oameni au aceleai trsturi i deci, probabilitatea suspectului de a fi vinovat este acum de doar 10%. Probabilitatea vinoviei a sczut de la 99,99% la 10% doar lund n calcul aceast informaie suplimentar. nseamn c aceste probe sunt inutile? Nu, ele conteaz dac sunt combinate cu alte probe, de exemplu o camer video care identific suspectul cu o probabilitate de 70%. n acest caz, probabilitile de a fi nevinovat se nmulesc: 0,1 0,3 = 0,03 i suspectul apare ca vinovat cu probabilitatea de 97%. 1.2.5. Paradoxul lui Simpson Paradoxul lui Simpson (1951) nu se refer la probabilitile elementare, ci la prelucrarea statistic a datelor. n general, se consider c atunci cnd mulimea de date este mai mare, concluziile trase sunt mai sigure, o consecin a legii numerelor mari din abordarea frecventist a probabilitilor. Paradoxul lui Simpson pare s infirme aceast euristic, demonstrnd c este necesar foarte mult atenie atunci cnd mulimi de

28
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 1. Probabiliti i paradoxuri

date mici se combin ntr-o mulime de date mai mare. Uneori concluziile mulimii mari sunt opuse concluziilor mulimilor mici i n acest caz, de multe ori concluziile mulimii mari sunt de fapt greite. S considerm un doctor care propune un tratament nou pentru o anumit afeciune i dorete s l compare cu un tratament standard din punct de vedere al timpului necesar pentru vindecare (scenariul este adaptat dup un exemplu prezentat de Ooi, 2004). Cele dou tipuri de tratament sunt aplicate unor bolnavi, iar rezultatele totale sunt prezentate n tabelul de mai jos. Pentru fiecare tratament i pentru fiecare rezultat, se indic numrul de pacieni aflai n situaia respectiv.
Rezultat (timp de vindecare) Lung Scurt Total Tratament Standard Nou 2725 (55%) 3625 (80%) 2275 (45%) 875 (20%) 5000 (100%) 4500 (100%)

Din aceste date se poate trage concluzia c tratamentul nou pare clar inferior celui standard. 80% din pacienii supui tratamentului nou au avut un timp lung de vindecare, comparativ cu 55% din pacienii supui tratamentului standard. De asemenea, doar 20% din pacienii supui tratamentului nou au avut un timp scurt de vindecare, comparativ cu 45% din pacienii care au primit tratamentul standard. S lum acum n calcul urmtoarea informaie: doctorul a fcut experimentul asupra unor bolnavi din Iai i respectiv din Bacu, n numr aproximativ egal. ns doctorul, locuind n Iai, a avut mai muli pacieni din acest ora supui noului tratament. Cei mai muli pacieni din Bacu au primit tratamentul standard. Rezultatele detaliate sunt prezentate n tabelul urmtor.
29
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic Rezultat (timp de vindecare) Lung Scurt Total Tratament pentru pacienii din Iai Standard Nou 475 (95%) 3600 (90%) 25 (5%) 400 (10%) 500 (100%) 4000 (100%) Tratament pentru pacienii din Bacu Standard Nou 2250 (50%) 25 (5%) 2250 (50%) 475 (95%) 4500 (100%) 500 (100%)

Se vede aici c pentru bolnavii din Iai tratamentul nou este mai bun: 90% fa de 95% au avut un timp lung de vindecare i 10% fa de 5% au avut un timp mai scurt de vindecare. O situaie asemntoare apare pentru bolnavii din Bacu: doar 5% fa de 50% au avut un timp lung de vindecare i 95% fa de 50% au avut un timp mai scurt de vindecare. Practic, atunci cnd considerm individual submulimile de bolnavi din Iai i Bacu, tratamentul nou pare mai bun. Cnd considerm mulimea total de bolnavi, tratamentul nou pare inferior celui standard. Acest lucru ar fi echivalent cu urmtoarea situaie. Dac trebuie s recomandm un tratament unui bolnav, fr s cunoatem din ce ora provine, i vom recomanda tratamentul standard. Dac tim din ce ora provine, i vom recomanda tratamentul nou. ns cunoaterea sau nu a oraului nu ar trebui s aib nicio influen asupra deciziei privind tratamentul. Paradoxul este cauzat de combinarea unor grupuri inegale. n exemplul de mai sus, pacienii din Iai care au primit tratamentul standard sunt de 8 ori mai puini dect cei care au primit tratamentul nou, iar pacienii din Bacu care au primit tratamentul nou sunt de 9 ori mai puini dect cei care au primit tratamentul standard. Soluia este proiectarea experimentelor astfel nct s nu se combine mulimi de date de dimensiuni inegale, provenind din surse diferite (Rogers, 2001).

30
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2

Fundamente teoretice
2.1. Probabiliti condiionate. Teorema lui Bayes
Vom aminti acum cteva noiuni legate de probabilitile condiionate. Cnd trebuie s definim P(A|B), presupunem c se cunoate B i se calculeaz probabilitatea lui A n aceast situaie. Adaptnd un exemplu al lui Moore (2001), s considerm evenimentul D (durere de cap) i s presupunem c are, n general, o probabilitate de 1/10. Probabilitatea de a avea grip (evenimentul G) este de numai 1/40. Dup cum se vede n figura 2.1, dac cineva are grip, probabilitatea de a avea i dureri de cap este de 1/2. Deci probabilitatea durerii de cap, dat fiind gripa, este de 1/2. Aceast probabilitate corespunde interseciei celor dou regiuni, cu aria egal cu jumtate din G.

Figura 2.1. Reprezentare grafic a unei probabiliti condiionate

Pe baza acestei relaii rezult teorema lui Bayes (1763), care este important pentru toate raionamentele probabilistice pe care le vom studia.

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Considerm formula probabilitilor condiionate: ( ( ) )

( | )

(2.1)

Putem exprima probabilitatea interseciei n dou moduri i de aici deducem expresia lui P(B|A) n funcie de P(A|B): ( ( ) ) ( | ) ( | ) ( | ) ( ) ( ) (2.2) (2.3) (2.4)

( | ) ( ) ( )

Aceast ecuaie reprezint un rezultat fundamental. Mai clar, putem considera urmtoarea expresie alternativ: ( | ) ( ) ( )

( | )

(2.5)

unde I este ipoteza, E este evidena (provenind din datele observate), ( ) este probabilitatea a-priori a ipotezei, adic gradul iniial de ncredere n ipotez, ( | ) este verosimilitatea datelor observate (engl. likelihood), adic msura n care s-a observat evidena n condiiile ndeplinirii ipotezei, iar ( | ) este probabilitatea a-posteriori a ipotezei, dat fiind evidena. Relaia este important deoarece putem calcula astfel probabilitile cauzelor, date fiind efectele. Este mai simplu de cunoscut cnd o cauz

32
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

determin un efect, dar invers, cnd cunoatem un efect, probabilitile cauzelor nu pot fi cunoscute imediat. Teorema ne ajut s diagnosticm o anumit situaie sau s testm o ipotez. n ecuaia 2.4, se poate elimina P(B) folosind regula probabilitii totale (engl. law of total probability). P(B) va fi exprimat astfel:

( )

( | ) ( )

(2.6)

Expresia poate fi neleas mai uor observnd situaia din figura 2.2.

Evenimentul A A1
P(B|A1) P(B|A3) P(B|A2) P(B|A4)

A2

A3

Evenimentul B

A4

Figura 2.2. Reprezentare grafic a legii probabilitii totale

Probabilitatea fiecrei valori

a lui A, condiionat de B, este: ( )

( | )

( | )

( | ) ( )

(2.7)

S considerm urmtorul exemplu de diagnosticare. tim c probabilitatea de apariie a meningitei n populaia general este
33
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

( )

. De asemenea, probabilitatea ca o persoan s aib gtul . Mai tim c meningita cauzeaz gt nepenit n .

nepenit este ( )

jumtate din cazuri: ( | )

Dorim s aflm urmtorul lucru: dac un pacient are gtul nepenit, care este probabilitatea s aib meningit? Aplicnd teorema lui Bayes, vom avea: ( | ) ( ) ( )

( | )

G este un simptom pentru M. Dac exist simptomul, care este probabilitatea unei posibile cauze, adic P(M)? Rezultatul este 0,02%, deci o probabilitate mic, deoarece probabilitatea meningitei nsei este foarte mic n general. Acest rezultat este important la diagnosticarea bolilor rare. Testele au i ele o marj de eroare, foarte mic, dar ea exist. Aceasta, coroborat cu probabilitatea mic a bolii, nu conduce automat la concluzia c persoana are boala respectiv, chiar dac testul iese pozitiv. n exemplul urmtor, B reprezint boala, iar T reprezint rezultatul pozitiv al testului. S presupunem c: ( ) ( | ) ( | ) .

Conform expresiei 2.7, putem calcula probabilitatea bolii dac testul a ieit pozitiv:

34
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

( | )

( | ) ( ) ( )

( | )

( | ) ( ) ( ) ( | )

Prin urmare, chiar dac testul iese pozitiv, probabilitatea de a avea boala este de doar 33%. n general, trebuie evitat greeala de a considera c ( | ) ( | ) ( | ) . Se poate vedea chiar din exemplul anterior c ( | ).

2.2. Independen i independen condiionat


Vom prezenta n continuare cteva exemple n care vom explica noiunile de independen i independen condiionat. S presupunem c Ion i Maria dau cu banul. Ion d cu un ban i Maria d cu alt ban. Aceste evenimente nu se influeneaz n niciun fel. Dac Ion d cu banul, acest lucru nu aduce nicio informaie asupra rezultatului aciunii Mariei. n acest caz, evenimentele sunt independente, deoarece rezultatul unui experiment nu influeneaz cellalt experiment. n cazul n care dau cu acelai ban, dac Ion d de 100 de ori i iese de 70 de ori pajur, ceea ce nseamn c banul nu este corect, acest rezultat d informaii asupra experimentului Mariei. Dac Maria va da cu banul de 100 de ori, probabil rezultatul va fi similar. Cele dou evenimente nu mai sunt independente. n schimb, dac un expert analizeaz banul i constat c este msluit, atunci experimentul lui Ion (70% pajur) nu mai aduce nicio informaie asupra experimentului Mariei (tot 70% pajur). Rezultatul se poate prevedea datorit analizei expertului. Experimentele lui Ion i al

35
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Mariei devin independente dat fiind noua eviden, a faptului c banul este msluit. Fie variabila A rezultatul experimentului lui Ion i B rezultatul experimentului Mariei. Fie C variabila banul este influenat n favoarea pajurei. n ultimul exemplu, se spune c A i B sunt independente condiional, dat fiind C. n unele situaii, independena condiional poate fi uor confundat cu independena. Se presupune c evenimentele sunt independente, cnd de fapt sunt doar independente condiional. De exemplu, Ion i Maria locuiesc n zone diferite ale oraului i vin la serviciu cu tramvaiul, respectiv cu maina. Se poate considera c dac ntrzie unul din ei, nu se poate spune nimic despre ntrzierea celuilalt, sunt evenimente independente. Dar s presupunem c la un moment dat aflm c vatmanii sunt n grev. Ion ntrzie deoarece nu merg tramvaiele. ns datorit grevei, probabil traficul auto crete, ceea ce o afecteaz pe Maria. Astfel, ntrzierea lui Ion nu mai este independent de ntrzierea Mariei. Ele sunt independente condiional, dat fiind evenimentul grevei vatmanilor, care este cauza lor comun. S mai considerm cazul n care o rceal poate detemina o persoan s strnute, dar i o alergie poate determina acelai lucru. n general, dac nu tim c persoana a strnutat, rceala i alergia sunt evenimente independente. Dac tim ns c persoana strnut, aceste evenimente nu mai sunt independente. De exemplu, dac mai tim c persoana este rcit, probabil c rceala determin strnutul i deci probabilitatea de a avea i alergie se reduce. Informaii suplimentare privind rceala modific probabilitatea alergiei.

36
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

2.3. Reele bayesiene


n continuare, ne vom concentra asupra reprezentrii informaiilor legate de evenimente probabilistice, care ne va ajuta s realizm eficient raionamente. Determinarea probabilitii unei combinaii de valori se poate realiza astfel: ( ) ( | ) ( ) (2.8)

Aplicnd n continuare aceast regul vom obine regula de nmulire a probabilitilor (engl. chain rule): ( ) ( | ) ( | ) ( | )

( ) exprimat mai concis astfel:

(2.9)

( |

(2.10)

O reea bayesian arat ca n figura 2.3: este un graf orientat aciclic (engl. directed acyclic graph), n care evenimentele sau variabilele se reprezint ca noduri, iar relaiile de corelaie sau cauzalitate se reprezint sub forma arcelor dintre noduri.

37
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Grip

Abces

Febr

Oboseal

Anorexie

Figura 2.3. Reea bayesian

n acest exemplu, se consider c att gripa ct i abcesul pot determina febra. De asemenea, febra poate cauza o stare de oboseal sau lipsa poftei de mncare (anorexie). Sensul sgeilor arcelor sunt dinspre prini, cum ar fi gripa i abcesul, nspre fii, precum febra. Dei n acest exemplu relaiile sunt cauzale, n general o reea bayesian reflect relaii de corelaie, adic msura n care aflarea unor informaii despre o variabil-printe aduce noi informaii despre o variabil-fiu. Condiia ca o reea bayesian s fie un graf orientat aciclic nseamn c arcele pot forma bucle, dar nu pot forma cicluri, dup cum se vede n figura 2.4. Avnd n vedere c determinarea probabilitilor nodurilor presupune de fapt nmuliri i adunri n care sunt implicai prinii variabilelor, dac reeaua ar permite cicluri, acest lucru ar conduce la repetarea la infinit a unor calcule.

38
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

Figura 2.4. a) Reea bayesian valid; b) Reea bayesian invalid

Fiecare variabil are o mulime de valori. n cazul cel mai simplu, variabilele au valori binare, de exemplu Da i Nu. n general ns, o variabil poate avea oricte valori. Tabelul 2.1. Tabelele de probabiliti pentru reeaua bayesian
P(Grip = Da) 0,1 P(Abces = Da) 0,05 Grip Da Da Nu Nu Febr Da Nu Febr Da Nu Abces Da Nu Da Nu P(Grip = Nu) 0,9 P(Abces = Nu) 0,95 P(Febr = Nu) 0,2 0,3 0,75 0,95

P(Febr = Da) 0,8 0,7 0,25 0,05

P(Oboseal = Da) 0,6 0,2 P(Anorexie = Da) 0,5 0,1

P(Oboseal = Nu) 0,4 0,8 P(Anorexie = Nu) 0,5 0,9

39
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Asociate cu variabilele, o reea bayesian conine o serie de tabele de probabiliti, precum cele din tabelul 2.1. Pentru nodurile fr prini se indic probabilitile marginale ale fiecrei valori (adic fr a lua n considerare valorile celorlalte variabile). Pentru celelalte noduri, se indic probabilitile condiionate pentru fiecare valoare, innd cont de fiecare combinaie de valori ale variabilelor printe. n general, o variabil binar fr prini va avea un singur parametru independent, o variabil cu 1 printe va avea 2 parametri independeni iar o variabil cu n prini va avea n tabela de probabiliti corespunztoare. Presupunerea modelului bazat pe reele bayesiene este c o variabil nu depinde dect de prinii si i deci ecuaia 2.10 devine: parametri independeni

( | ( ))

(2.11)

unde ( ) reprezint mulimea prinilor variabilei

, din irul ordonat al

nodurilor n care prinii unui nod apar ntotdeauna naintea nodului respectiv. Modul n care se poate determina acest ir va fi tratat n seciunea 2.5 referitoare la sortarea topologic. Dac avem n variabile binare, distribuia comun de probabilitate conine cte o probabilitate pentru toate combinaii. ns ntruct suma probabilitilor este 1, ultima combinaie nu mai este independent de celelalte i poate fi dedus ca 1 minus suma celorlalte. Distribuia comun este deci specificat de parametri. Dup cum se vede n tabelele de probabiliti din tabelul 2.1, pentru exemplul din figura 2.3 cu 5 variabile sunt necesari numai 10 parametri fa
40
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

de

. Toate variabilele fiind binare, pentru o anumit combinaie

de valori a prinilor, probabilitatea unei valori a unui fiu este 1 minus probabilitatea celeilalte valori, de exemplu: P(Oboseal = Da) = 1 P(Oboseal = Nu). ntr-o reea bayesian, n loc s calculm probabilitile tuturor elementelor din distribuia comun de probabilitate, considerm numai probabilitile condiionate de prini.

MINVOLSET

PULMEMBOLUS

INTUBATION

KINKEOTUBE

VENTMACH

DISCONNECT

PAP

SHUNT

VENTLUNG

VENITUBE

MINOVL

FIO2

VENTALV

PRESS

ANAPHYLAXIS

PVSAT

ARTCO2

TPR

SAO2

INSUFFANESTH

EXPCO2

HYPOVOLEMIA

LVFAILURE

CATECHOL

LVEDVOLUME

STROEVOLUME

HISTORY

ERRBLOWOUTPUT

HR

ERRCAUTER

CVP

PCWP

CO

HREKG

HRSAT

BP

Figura 2.5. Reea bayesian complex

41
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Un alt exemplu privind un sistem de monitorizare a pacienilor la terapie intensiv (Russell & Norvig, 2002) cu 37 de variabile, prezentat n figura 2.5, surprinde reducerea clar a numrului de parametri de la la 509. Reducerea complexitii calculelor de probabiliti este unul din scopurile principale ale reelelor bayesiene.

2.4. Algoritmul Bayes-Ball


Pe baza structurii unei reele bayesiene, putem determina i relaiile de independen sau independen condiionat dintre noduri. n exemplele din seciunea 2.2, am menionat dou situaii n care se poate preciza relaia de independen ntre evenimente, n prezena sau lipsa unor evidene. Putem relua acum aceste situaii n reprezentarea grafic a reelor bayesiene.

Expertiza banului B

I Ion d cu banul

M Maria d cu banul

Figura 2.6. Cauz comun

42
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

n figura 2.6 este prezentat scenariul cauzei comune. Dac lipsesc alte evidene, I i M nu sunt independente, deoarece au o cauz comun ascuns. Dac se cunoate ns B, ele devin independente. Formal, putem scrie c: ( | ) ( | ) ( ), notat i I M M|B ( | ), notat i I

n figura 2.7 este prezentat scenariul revocrii prin explicare (engl. explaining away). R i A sunt independente n lipsa altor evidene. Dac se cunoate ns S, ele nu mai sunt independente. Formal, putem scrie c: ( | ) ( | ) ( ), notat i R A A|S ( | ), notat i R
Rceal R

Alergie A

S Strnut

Figura 2.7. Revocare prin explicare

O modalitate simpl pentru a deduce relaiile de independen i independen condiionat ntre noduri este propus de algoritmul BayesBall (Shachter, 1998), care prin analogie cu jocul de baseball, presupune trimiterea unei mingi n reea, care poate trece mai departe sau poate fi

43
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

blocat de anumite noduri. Dac mingea nu poate ajunge de la un nod A la un nod B, atunci aceste noduri sunt independente. Regulile de micare a mingii prin reea iau n calcul direciile arcelor (dac mingea vine de la un printe la un fiu sau invers), precum i tipurile de noduri: neobservate sau observate (de eviden). n figura 2.8 (Paskin, 2003), sgeile normale arat faptul c mingea trece mai departe, iar barele perpendiculare pe capetele sgeilor indic faptul c mingea este blocat.

Figura 2.8. Regulile de traversare a reelei ale algoritmului Bayes-Ball

Nodurile neobservate sunt marcate cu alb, iar cele de eviden sunt marcate cu gri. Algoritmul poate determina dac nodul A este independent sau nu de nodul B date fiind nodurile , etc. n acest caz, nodurile B| . Dac ajunge, atunci sunt marcate cu gri. Mingea pleac din nodul A i parcurge reeaua, ajungnd sau nu la B. Dac nu ajunge, atunci A A B| . Nodurile pe care le atinge mingea sunt dependente condiional iar nodurile care nu sunt atinse de minge sunt independente condiional de nodul de start.
44
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

Regula 1 specific relaiile de dependen condiional ntre bunici, prini i fii. Dac printele este observat (regula 2), bunicul devine independent condiional de fiu. Am putea aminti aici presupunea Markov: viitorul i trecutul sunt independente condiional dat fiind prezentul. Pentru regula 3, un nod printe pentru doi fii, dac nodul este neobservat, fiii sunt dependeni deoarece au o cauz comun ascuns, aa c mingea trece. Dac nodul este observat (regula 4), fiii devin independeni condiional, aa c mingea va fi blocat. Pentru regula 5, un nod cu doi prini, dac nodul este neobservat, atunci prinii si sunt independeni iar mingea nu trece. Dac nodul este observat (regula 6), prinii devin dependeni iar mingea trece datorit revocrii prin explicare. Regulile 7-10 trateaz cazurile n care mingea ajunge la un nod terminal, unde este ori blocat (7, 10), ori reflectat napoi (8, 9). Pentru a reine mai uor regulile 3-10, putem face urmtoarea convenie. Numim noduri albe nodurile neobservate i negre nodurile de eviden. De asemenea, numim capetele sgeilor albe dac niciun arc nu este incident n acel nod (de exemplu arcele care pleac din nodurile de sus n regulile 3-10) i negre dac arcele sunt incidente n acel nod (arcele care intr n nodurile de jos n regulile 3-10). Regula general este simpl: dac nodurile i arcele au aceeai culoare, mingea trece sau este reflectat. Dac au culori diferite, mingea este blocat. Pentru a exemplifica, vom considera reeaua bayesian din figura 2.9, pe baza creia vom rspunde la o serie de interogri privind independena i independena condiionat a nodurilor cu ajutorul algoritmului Bayes-Ball.

45
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

A C E

B D F

Figura 2.9. Reea bayesian pentru exemplificarea algoritmului Bayes-Ball

Mai nti, s determinm dac A este independent de D. S-au notat ncercuite numerele etapelor de aplicare a algoritmului i sensul de trimitere a mingii pe arcele reelei. Se vede n figura de mai jos c mingea nu ajunge la D i prin urmare rspunsul la ntrebare este afirmativ.

B C D F

Urmtoarea interogare este dac A este independent de D dat fiind C. n figura urmtoare, se observ nodul eviden C marcat cu gri. ntruct mingea ajunge de la A la D, rspunsul este n acest caz negativ.

46
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

C E F
4

Dorim s aflm n continuare dac A este independent de D dat fiind E. Aplicnd algoritmul ca n figura urmtoare, rspunsul este negativ.

C
4 3

D F
7

n continuare, vom rspunde dac A este independent de D dai fiind B i C. Conform rezolvrii din figura de mai jos, de data aceasta este rezultatul este afirmativ.

B D F

C E

Schimbnd nodul de start, dorim s tim dac E este independent de D. Rspunsul este negativ, dup cum se poate observa din figura urmtoare.
47
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

A
4

C
1 2

D F
7

Pentru interogarea privind independena lui E fa de D, dat fiind B, rspunsul este afirmativ.

A
4

B D
2

C
1

n fine, pentru interogarea privind independena lui E fa de D, dai fiind B i F, rspunsul este negativ.

A
6

C
1 2

D F
3

Trebuie menionat faptul c mingea poate merge n direcia opus arcului din graf. Un arc poate fi parcurs de dou ori n direcii opuse.

48
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

ns un arc poate fi parcurs doar o singur dat ntr-o anumit direcie. De aceea, n scopul implementrii, pentru a evita parcurgerea de mai multe ori a arcelor, nodurile eviden sunt marcate ca vizitate cnd mingea ajunge la ele iar celelalte noduri primesc un marcaj sus (engl. top) cnd trimit mingea prinilor i un marcaj jos (engl bottom) cnd trimit mingea copiilor. De exemplu, un nod marcat sus nu mai poate trimite mingea din nou prinilor.

2.5. Sortarea topologic


Sortarea sau ordonarea topologic a unui graf este o ordonare liniar a nodurilor sale astfel nct, pentru fiecare arc AB, A apare naintea lui B. Pentru o reea bayesian, sortarea topologic asigur faptul c nodurile printe vor aprea naintea nodurilor fiu. Orice graf orientat aciclic, cum este o reea bayesian, are cel puin o ordonare topologic. Algoritmii corespunztori au de obicei o complexitate de timp liniar n numrul de noduri n i de arce a: ( ). Pentru exemplificare, vom considera algoritmul propus de Kahn (1962), care este mai uor de neles, nefiind recursiv. Pseudocodul este urmtorul:

L list iniial vid care va conine elementele sortate S mulimea nodurilor fr prini ct-timp S nu este vid scoate un nod n din S introdu n n L pentru-fiecare nod m cu un arc e de la n la m scoate arcul e din graf

49
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic dac m nu are alte arce incidente atunci introdu m n S sfrit-dac sfrit-pentru-fiecare sfrit-ct-timp dac graful mai are arce atunci ntoarce eroare (graful are cel puin un ciclu) altfel ntoarce L (elementele sortate topologic) sfrit-dac

Dac graful este orientat aciclic, soluia se va gsi n lista L. Dac nu, algoritmul detecteaz faptul c exist cicluri n graf i sortarea topologic este imposibil. Lista S poate fi implementat ca o coad sau ca o stiv. n funcie de ordinea nodurilor extrase din S, se pot crea soluii diferite. Pentru exemplificare, vom considera graful din figura 2.10.

Figura 2.10. Graf simplu pentru sortare topologic

50
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

Paii de execuie ai algoritmului sunt urmtorii: 1. 2. , * +, arcul AF 4. 6. * * +, * + * + * * + +, +. + +, 5. se elimin arcul AF, 7. se elimin arcul FO, 8. se elimin arcul FX, 9. 10. * * +, * + * +

3. se elimin arcul GF, F nu poate fi adugat n S pentru c mai exist

Soluia este deci: * 2.11.

S considerm i un exemplu puin mai complex, prezentat n figura

Figura 2.11. Graf mai complex pentru sortare topologic


51
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

n acest caz, paii de execuie ai algoritmului sunt urmtorii: 1. 2. , * +, * + * +

3. se elimin arcul AR 3. se elimin arcul AO 4. * +, * + * + 5. se elimin arcul GR, 3. se elimin arcul GF, 4. 4. * * +, +, * + * * + +, +. + * +

5. se elimin arcul FO, 3. se elimin arcul FX, 4. 4. * * +,

Soluia este: *

2.6. Construcia automat a reelelor bayesiene


Pe msur ce complexitatea modelelor crete, o problem important este construirea reelelor bayesiene n mod automat, doar pe baza datelor existente. Putem identifica aici dou tipuri de probleme: determinarea parametrilor direct din date; determinarea structurii optime direct din date.

52
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 2. Fundamente teoretice

Dac structura de noduri i arce este cunoscut, determinarea parametrilor direct din date presupune estimarea probabilitilor condiionate ale fiecrui nod n funcie de prini, ca frecvene relative de apariie a valorilor n cadrul datelor eantionate disponibile. Determinarea automat a structurii optime este mult mai dificil. Dac nu se cunosc relaiile de cauzalitate sau de corelaie ntre variabile, teoretic, nodurile ar putea fi introduse n reea n orice ordine. Pentru aceleai evenimente, pot exista mai multe reele echivalente. n momentul n care este introdus un nod nou, se actualizeaz relaiile cu nodurile existente pentru crearea arcelor. n cazul cel mai defavorabil, n care nodurile sunt considerate ntr-o ordine nefericit, o reea bayesian devine echivalent din punct de vedere al numrului de parametri cu distribuia comun de probabilitate. Un exemplu n acest sens poate fi observat n figura 2.12 (adaptat dup Russell & Norvig, 2002), n care ordinea n care se introduc nodurile reelei din figura 2.3 este de sus n jos: Oboseal, Anorexie, Abces, Grip, Febr, iar arcele sunt create pentru a respecta relaiile de corelaie. Desigur, nu se mai respect relaiile cauzale logice, dar dac lum evenimentele n aceast ordine, ele nu sunt independente. Dac primul nod introdus n reea este Oboseala, i urmtorul este Anorexia, trebuie adugat un arc ntre cele dou, deoarece informaiile despre primul afecteaz informaiile despre al doilea. Anorexia nu este cauzat de Oboseal, dar n lipsa altor informaii, valorile lor sunt corelate datorit cauzei comune. Acelai tip de raionament se aplic pentru celelalte noduri introduse n reea. n final, aceasta necesit 31 de parametri, la fel ca distribuia comun de probabilitate.

53
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

1. Oboseal

2. Anorexie

3. Abces

4. Grip

5. Febr

Figura 2.12. Cazul cel mai defavorabil pentru structura unei reele bayesiane

Din cauza acestor dificulti, de multe ori se prefer o abordare hibrid, n care structura reelei este definit de un expert uman, care analizeaz pe ct posibil relaiile cauzale dintre evenimente, iar parametrii sunt mai apoi estimai n mod automat din date.

54
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3

Raionamente exacte
3.1. Calculul probabilitii unei observaii
n acest capitol vom prezenta, pe baza mai multor exemple, o serie de calcule i raionamente care permit prelucrarea informaiile stocate ntr-o reea bayesian. Vom considera aceeai reea din capitolul 2. Pentru a fi mai uor de urmrit, redm i aici structura (figura 3.1) i tabelele de probabiliti (tabelul 3.1).

Grip

Abces

Febr

Oboseal

Anorexie

Figura 3.1. Reea bayesian cu 5 noduri i 4 arce

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Tabelul 3.1. Tabelele de probabiliti pentru reeaua bayesian


P(Grip = Da) 0,1 P(Abces = Da) 0,05 Grip Da Da Nu Nu Febr Da Nu Febr Da Nu Abces Da Nu Da Nu P(Grip = Nu) 0,9 P(Abces = Nu) 0,95 P(Febr = Nu) 0,2 0,3 0,75 0,95

P(Febr = Da) 0,8 0,7 0,25 0,05

P(Oboseal = Da) 0,6 0,2 P(Anorexie = Da) 0,5 0,1

P(Oboseal = Nu) 0,4 0,8 P(Anorexie = Nu) 0,5 0,9

Un prim tip de calcul este determinarea probabilitii unei observaii, n cazul n care sunt cunoscute valorile tuturor nodurilor din reea. De exemplu, s presupunem situaia n care o persoan are febr, dar nu are grip, abces, oboseal i anorexie. Pentru simplitate, vom nota nodurile cu F, G, A, O i X, respectiv,. De asemenea, vom nota cu D i N ca indici valorile Da i Nu. Dac variabila Febr are valoarea Da, vom nota acest fapt cu cu ( . Pentru situaia de mai sus, trebuie s calculm probabilitatea ) . Conform ecuaiei 2.11, descompunem aceast probabilitate ntr-un produs de probabiliti condiionate n care factorii sunt probabilitile tuturor nodurilor, condiionate de prini: . Dac variabila Abces are valoarea Nu, vom nota acest fapt

56
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

( (

) ) ( ) ( ) ( ) ( )

Valorile probabilitilor condiionate se caut n tabelele de probabiliti ale reelei. De exemplu, valoarea lui ( valorii Da din ultima linie a tabelei pentru Febr. Rezultatul de aproximativ 1% ne spune c este puin probabil ca o persoan s aib febr n lipsa cauzelor i efectelor cunoscute pentru aceasta. ) corespunde

3.2. Calculul probabilitilor marginale


ntr-o reea bayesian putem calcula i probabilitile marginale ale tuturor nodurilor, adic probabilitile nodurilor n sine, care nu mai depind de prini (n sensul probabilitilor condiionate). n tabelele date, numai nodurile fr prini au probabiliti marginale, cum ar fi Grip i Abces. Dorim s deducem n general care sunt probabilitile celorlalte noduri. Calculele reprezint ntr-un fel o sum a probabilitilor condiionate pentru fiecare valoare, ponderate cu probabilitile marginale de apariie a valorilor prinilor. Pentru valoarea Da a variabilei Febr vom avea: ( ) ( ( ) ) ( ( ) )
57
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

( (

) )

Partea I. Raionament probabilistic

( (

) )

( (

) )

( (

) )

Avnd n vedere faptul c singurele valori ale variabilei Febr sunt Da i Nu, probabilitatea valorii Nu va reprezenta restul pn la 1:

Acelai tip de calcule se realizeaz pentru variabila Oboseal:

) ( ) ( ) ( ) ( )

i de asemenea, pentru Anorexie:

) ( ) ( ) ( ) ( )

58
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte


Grip Da: 0,10 Nu: 0,90 Abces Da: 0,05 Nu: 0,95

Febr Da: 0,12 Nu: 0,88

Oboseal Da: 0,25 Nu: 0,75

Anorexie Da: 0,15 Nu: 0,85

Figura 3.2. Probabilitile marginale ale nodurilor reelei

Figura 3.2 prezint succint probabilitile marginale pentru toate nodurile din reea.

3.3. Inferena prin enumerare


Spre deosebire de calculul probabilitii atunci cnd cunoatem valorile tuturor variabilelor, n cazul inferenei prin enumerare dorim s rspundem la ntrebri generale privind probabilitile unor noduri, cunoscnd doar valorile unora dintre noduri. Folosind acest procedeu, putem rspunde practic la orice ntrebare privind evenimentele codate n reea. Avnd n vedere nite evidene, adic observaii sau evenimente despre care tim c s-au ntmplat, putem calcula probabilitile tuturor celorlalte noduri din reea.
59
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Mai exact, scopul inferenei prin enumerare este de a calcula probabilitatea unei variabile interogate (engl. query), date fiind variabilele observate (eviden). Ideea de baz este tot calcularea unui produs de probabiliti condiionate, ns n cazul variabilelor despre care nu se cunoate nimic (nu sunt nici observate i nici interogate), se sumeaz variantele corespunztoare tuturor valorilor acestora. S considerm urmtoarea ntrebare: Care este probabilitatea ca o persoan s aib grip, dac prezint simptome de oboseal i anorexie? Vom calcula independent ( Pentru ( acestor variabile: * ) i ( ). ), variabilele rmase sunt Abcesul i Febra. n + i * + . De asemenea, pentru a

consecin, vom suma probabilitile corespunztoare tuturor valorilor crete eficiena calculelor, se recomand ca variabilele rmase s fie mai nti sortate topologic, astfel nct prinii s apar naintea copiilor. n acest caz, se vor putea descompune mai uor sumele, scond n fa factorii care nu depind de o anumit variabil. ( )
* +

* +

( (

( )

) ( ) (

) ( ) , (

60
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

( ( ( ( ( * , , ) * (

( ) ) ( ( ) ( ) (

)) )( )-+ -+ ) ( )

) , ( ) ( ) ) (

) , (

n exemplul de mai sus, se observ c ( ) nu depinde de f i prin urmare, suma corespunztoare variabilei Abces a fost scoas n faa sumei corespunztoare variabilei Febr, evitndu-se duplicarea unor calcule. Nodul Abces, neavnd prini, este n faa Febrei n sortarea topologic. Se remarc variabila care intervine n expresia probabilitii. Vom explica sensul acesteia imediat, dup ce vom considera i calculele pentru ( ), n mod analog:

)
* +

* +

( )

( (

) ( ) ( ) * ( ) , (
61

) ) (

) )

( (

) )

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

( ( ( * , , ) , (

( )

) ( )

( ) (

)( )-+ -+ )

Se tie c ( i ( este:

) )

) , exist

, deoarece Da i Nu sunt ) , astfel nct

singurele valori posibile pentru Grip. Avnd n vedere c (

suma celor dou probabiliti s fie 1. n consecin, rezultatul interogrii

( (

) )

3.4. Inferena prin eliminarea variabilelor


Dac urmrim cu atenie paii efectuai pentru a determina probabilitile condiionate prin metoda inferenei prin enumerare, constatm o repetare a unor calcule, evideniat mai jos:

( (

) ) * ( ) , ( ) ( ) ( )

62
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

( ( ( * , , ) , (

( )

) ( )

( ) (

)( )-+ -+ )

Calcularea unor sume pariale i folosirea lor direct atunci cnd este nevoie poate aduce o mbuntire semnificativ a vitezei de execuie n cazul unor reele bayesiene complexe i a unui numr mic de variabile observate, echivalent cu un numr mare de sume. Metoda eliminrii variabilelor se bazeaz pe factorizare. Probabilitatea fiecrei variabile reprezint un factor:

)
* +

* +

( )

) ( ( )

) (

) (

Compunerea acestor factori se realizeaz cu o operaie numit produs punct cu punct (engl. pointwise product), n care variabilele rezultatului reprezint reuniunea variabilelor operanzilor.

63
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

De exemplu, pentru 3 variabile X, Y i Z, produsul punct cu punct al factorilor ( ) i ( ) este: (3.1)

Modul n care se calculeaz valorile factorului rezultat este mai uor de neles pe baza exemplului din tabelul 3.2.
Tabelul 3.2. Exemplu de factorizare
X A A F F Y A F A F f1(X, Y) 0,1 0,2 0,3 0,4 Y A A F F Z A F A F f2(Y, Z) 0,5 0,6 0,7 0,8 X A A A A F F F F Y A A F F A A F F Z A F A F A F A F f3(X, Y, Z) 0,1 0,5 0,1 0,6 0,2 0,7 0,2 0,8 0,3 0,5 0,3 0,6 0,4 0,7 0,4 0,8

Factorul avea

depinde de 2 variabile i s presupunem pentru simplitate

c sunt binare, cu valorile Adevrat (A) i Fals (F). Prin urmare, factorul va valori, corespunztoare tuturor combinaiilor de valori pentru . Valoarea factorului pentru o anumit variabile. Analog pentru factorul

combinaie de valori ale variabilelor sale este egal cu produsul valorilor factorilor-operanzi atunci cnd variabilele acestora iau aceleai valori ca acelea din factorul-rezultat. De exemplu: ( ( ) ) ( ( ) ) ( ( ) )

64
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

n cele ce urmeaz, vom aplica metoda eliminrii variabilelor pentru a rspunde la aceeai ntrebare ca n seciunea 3.3: Care este probabilitatea ca o persoan s aib grip, dac prezint simptome de oboseal i anorexie? Am vzut c:

) ( ( )

) (

) (

Mai nti, vom calcula factorii corespunztori variabilelor, utiliznd probabilitile condiionate din tabelele de probabiliti. Calculele se fac de la dreapta la stnga, variabilele fiind sortate topologic, de la stnga la dreapta. Aici, sortarea topologic a variabilelor este: { Grip, Abces, Febr, Oboseal, Anorexie }. Pentru variabilele Anorexie, respectiv Oboseal, factorii au valorile date de probabilitile condiionate, depinznd de printele lor, Febra:
F D N F D N fX(F) 0,5 0,1 fO(F) 0,6 0,2 F D N F D N P(X|F) 0,5 0,1 P(O|F) 0,6 0,2

Compunem acum aceste dou variabile, rezultnd factorul depinde i el (numai) de Febr: ( ) ( ) ( )

, care

65
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic F D N fOX(F) 0,6 0,5 = 0,3 0,2 0,1 = 0,02 F D N fO(F) 0,6 0,2 F D N fX(F) 0,5 0,1

n continuare, calculm factorul

, prin compunerea factorului

cu factorul corespunztor Febrei, urmtoarea variabil de la dreapta spre stnga. Febra depinde de Grip i Abces, prin urmare: (
F D D D D N N N N G D D N N D D N N A D N D N D N D N

)
F D D D D N N N N

( )
G D D N N D D N N A D N D N D N D N P(F|G,A) 0,8 0,7 0,25 0,05 0,2 0,3 0,75 0,95

fFOX(F,G,A) 0,8 0,3 = 0,24 0,7 0,3 = 0,21 0,25 0,3 = 0,075 0,05 0,3 = 0,015 0,2 0,02 = 0,004 0,3 0,02 = 0,006 0,75 0,02 = 0,015 0,95 0,02 = 0,019

F D N

fOX(F) 0,3 0,02

n acest moment, am ajuns la suma dup valorile variabilei Febr. Pentru a continua calculele, se procedeaz la eliminarea prin sumare (engl. sum out) a variabilei, de unde vine i numele metodei. F este eliminat iar factorul su va depinde numai de G i A. Valorile factorului rezultat, notat

, se calculeaz, pentru fiecare combinaie a

valorilor variabilelor rmase, ca sum a valorilor factorului iniial, pentru toate valorile variabilei eliminate. De exemplu: ( ) ( ) ( )

66
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte G D D N N A D N D N ( ) 0,24 + 0,004 = 0,244 0,21 + 0,006 = 0,216 0,075 + 0,015 = 0,09 0,015 + 0,019 = 0,034

Se poate vedea de exemplu c valoarea 0,244 apare i n calculele metodei de inferen prin enumerare ( ). Aceste 4 valori din tabelul de mai sus sunt exact valorile parantezelor interioare din exemplul din seciunea 3.3. De aceast dat ns, calculele se fac o singur dat, la determinarea factorului. Urmeaz apoi tratarea variabilei Abces: ( ) ( ) ( )

Valorile factorului sunt cele din tabelul de mai jos:


G D D N N A D N D N ( ) 0,05 0,244 = 0,0122 0,95 0,216 = 0,2052 0,05 0,09 = 0,0045 0,95 0,034 = 0,0323

A D N

fA(A) 0,05 0,95

G D D N N

A D N D N

( ) 0,244 0,216 0,09 0,034

La fel, avnd acum o sum dup A, aceast variabil este eliminat prin sumare, rezultnd factorul
G D N

( ) , cu valorile din tabelul urmtor:

( ) 0,0122 + 0,2052 = 0,2174 0,0045 + 0,0323 = 0,0368

Se poate observa c aceste valori sunt la fel cu acelea din parantezele exterioare din calculele din seciunea 3.3, nainte de nmulirile cu respectiv cu ( )
67
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

),

Partea I. Raionament probabilistic

Ultimul factor este: ( ) ( ) ( )

cu valorile de mai jos:


G D N ( ) 0,1 0,0122 = 0,02174 0,9 0,0323 = 0,03312

G D N

fG(G) 0,1 0,9

G D N

( ) 0,2174 0,0368

Se vede c valorile sunt aceleai cu rezultatele finale din exemplul seciunii 3.3. i n cazul metodei de eliminare a variabilelor, trebuie normalizate probabilitile determinate, astfel nct suma lor s fie 1.

Alergie

Grip

Rinoree

Febr

Oboseal

Anorexie

Figura 3.3. Reea bayesian cu 6 noduri i 6 arce

68
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

3.5. Variabile cu valori multiple. Ignorarea variabilelor irelevante


n aceast seciune, vom considera un caz mai general de reele bayesiene, cu mai multe variabile i eliminnd restricia ca acestea s aib valori binare. Pentru analiz, vom utiliza reeaua din figura 3.3. Tabelele de probabiliti sunt date n continuare. Variabila Febr are 3 valori: Absent (A), Mic (M) i Ridicat (R).
Tabelul 3.3. Tabelele de probabiliti pentru reeaua bayesian
P(Alergie = Da) 0,05 P(Grip = Da) 0,1 Grip Da Da Nu Nu Grip Da Nu Alergie Da Nu Da Nu P(Alergie = Nu) 0,95 P(Grip = Nu) 0,9 P(Rinoree = Nu) 0,05 0,2 0,1 0,9 P(Febr = Ridicat) 0,65 0,05

P(Rinoree = Da) 0,95 0,8 0,9 0,1

P(Febr = Absent) 0,1 0,9 Alergie Da Nu Da Nu Da Nu

P(Febr = Mic) 0,25 0,05

Febr Absent Absent Mic Mic Ridicat Ridicat

P(Oboseal = Da) 0,3 0,1 0,5 0,4 0,7 0,6

P(Oboseal = Nu) 0,7 0,9 0,5 0,6 0,3 0,4

Febr Absent Mic Ridicat

P(Anorexie = Da) 0,1 0,2 0,5

P(Anorexie = Nu) 0,9 0,8 0,5

69
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Calculele de probabiliti i metodele de inferen sunt la fel. S considerm urmtoarea interogare: Care este probabilitatea ca o persoan s aib alergie, dac manifest oboseal i rinoree? ( )
* + *

* +

Pentru a optimiza rezolvarea, utilizm urmtorul rezultat. O (* + variabil Y este irelevant pentru o interogare dac ) , unde Q este variabila interogat, E este mulimea ( ) este mulimea predecesorilor * + i (* +) * +.

variabilelor observate (eviden) iar tuturor nodurilor din mulimea M. n exemplul nostru, * +,

Variabila Anorexie nu aparine acestei mulimi. Prin urmare, aceast variabil este irelevant pentru interogarea curent i poate fi ignorat: ( )
* + *

* +

( )

Calculele de probabiliti se realizeaz ca n seciunile anterioare, obinnd n final:

70
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 3. Raionamente exacte

( (

) )

3.6. Cea mai probabil explicaie


Un alt tip de rezultat pe care l putem obine pe baza unei reele bayesiene este cea mai probabil explicaie (engl. most probable explanation) pentru o eviden. Fie E mulimea variabilelor observate (evidena) i M mulimea celorlalte variabile, numit i mulimea de explicare. Se dorete gsirea combinaiei de valori pentru variabilele din mulimea de explicare, pentru care probabilitatea tuturor valorilor astfel obinute ale nodurilor reelei s fie maxim: ( ) , unde m este combinaia de valori ale variabilelor din M iar e este combinaia (dat) de valori ale variabilelor din E. Ca exemplu, pentru reeaua din figura 3.3, dorim s calculm cea mai probabil explicaie pentru trei situaii: * + i * * +, +. Mai exact, dorim s gsim cauza

(alergie sau grip) atunci cnd o persoan are rinoree (i curge nasul), oboseal dar nu are anorexie (lipsa poftei de mncare). Cele trei situaii sunt difereniate de nivelul febrei: n primul caz este absent, n al doilea caz este mic iar n al treilea caz este ridicat. n tabelul 3.4, primele patru coloane indic valorile celor patru variabile de eviden. Coloana 5 prezint probabilitatea valorii condiiile evidenelor date. Coloana 6 prezint probabilitatea valorii , n , n

condiiile evidenelor date. Variabilele A i G sunt binare, astfel nct este suficient menionarea probabilitii unei singure valori. Coloana 7 indic probabilitatea P(m, e) pentru toate combinaiile de valori ale variabilelor de
71
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

explicare. Combinaia pentru care aceast probabilitate este maxim este marcat cu litere aldine. Ultima coloan indic rezultatele: valorile variabilelor de explicare care determin cea mai probabil explicaie.
Tabelul 3.4. Cutarea exhaustiv a celei mai probabile explicaii
R D O D X N F A 57% 5% P(m, e) AN, GN 0,00693 AN, GD 0,00068 AD, GN 0,00984 AD, GD 0,00013 AN, GN 0,00137 AN, GD 0,00608 AD, GN 0,00081 AD, GD 0,00048 AN, GN 0,00128 AN, GD 0,01482 AD, GN 0,00071 AD, GD 0,00108 A, G CMPE AD, GN

15%

75%

AN, GD

10%

89%

AN, GD

n primul caz, n absena febrei, cel mai probabil este c persoana are alergie i nu grip. Dac are febr, mic sau ridicat, este mai probabil ca persoana s aib grip i nu alergie. Valorile din coloanele 5 i 6 sunt n concordan cu cea mai probabil explicaie, totui trebuie precizat c ( ) i ( ) sunt calculate considernd izolat variabilele A i G. Cea mai probabil explicaie le consider mpreun. n cazul n care reeaua conine un numr mare de noduri, pot exista diferene ntre cele dou tipuri de rezultate.

72
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 4

Raionamente aproximative
4.1. Introducere
Pentru probleme din lumea real au fost construite reele bayesiene cu sute de noduri, pentru care algoritmii exaci i ating limitele, ntruct inferena este o problem NP-dificil (engl. NP-hard). Pentru reele foarte complexe, inferena aproximativ este singura posibilitate de a obine un rezultat. De asemenea, pentru alte probleme n care precizia nu este un factor critic, inferena aproximativ poate aduce un ctig important din punct de vedere al vitezei de calcul. Algoritmii de eantionare stohastic sunt cele mai des ntlnite metode aproximative de inferen. Ideea de baz este generarea aleatorie a unor instanieri ale reelei, adic determinarea de valori coerente pentru variabilele sale, i apoi calcularea frecvenelor instanierilor n care apar valorile dorite pentru anumite variabile. Avantajul acestei clase de algoritmi este faptul c precizia calculelor crete cu numrul de eantioane generate i este relativ independent de dimensiunea reelei. De asemenea, timpul de execuie este relativ independent de topologia reelei i variaz liniar cu numrul de eantioane. Pentru aplicaiile n care timpul este un factor critic, algoritmul poate fi oprit oricnd, producnd un rezultat cu o precizie n general dependent de numrul de eantioane generate pn n acel moment (Cheng, 2001).

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Metodele care vor fi descrise n continuare sunt de tipul eantionrii progresive (engl. forward sampling), n care eantioanele sunt generate n ordinea topologic a nodurilor din reea.

4.2. Inferena stohastic prin ponderarea verosimilitii


Metoda de inferen prin ponderarea verosimilitii (engl.

likelihood weighting) este o metod simpl i eficient de aproximare stohastic (Fung & Chang, 1990; Shachter & Peot, 1990). Ideea de baz este generarea aleatorie a unor instanieri ale reelei i calculul probabilitilor dorite ca frecvene relative de apariie. Valorile variabilelor neobservate au probabiliti de apariie n conformitate cu probabilitile nodurilor, iar nodurile de eviden iau mereu valorile observate.

Alergie

Grip

Rinoree

Febr

Oboseal

Anorexie

Figura 4.1. Reea bayesian cu 6 noduri i 6 arce

74
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 4. Raionamente aproximative

S considerm aceeai reea din figura 4.1 cu tabelele de probabiliti din tabelul 4.1. Vom determina probabilitatea nodurilor neobservate din reea, considernd urmtoarea eviden: Rinoree = Da i Oboseal = Da.
Tabelul 4.1. Tabelele de probabiliti pentru reeaua bayesian
P(Alergie = Da) 0,05 P(Grip = Da) 0,1 Grip Da Da Nu Nu Grip Da Nu Alergie Da Nu Da Nu P(Alergie = Nu) 0,95 P(Grip = Nu) 0,9 P(Rinoree = Nu) 0,05 0,2 0,1 0,9 P(Febr = Ridicat) 0,65 0,05

P(Rinoree = Da) 0,95 0,8 0,9 0,1

P(Febr = Absent) 0,1 0,9 Alergie Da Nu Da Nu Da Nu

P(Febr = Mic) 0,25 0,05

Febr Absent Absent Mic Mic Ridicat Ridicat

P(Oboseal = Da) 0,3 0,1 0,5 0,4 0,7 0,6

P(Oboseal = Nu) 0,7 0,9 0,5 0,6 0,3 0,4

Febr Absent Mic Ridicat

P(Anorexie = Da) 0,1 0,2 0,5

P(Anorexie = Nu) 0,9 0,8 0,5

Nodurile fr prini vor fi instaniate potrivit probabilitilor lor marginale. Nodul Alergie va lua valoarea Da cu probabilitatea de 5% i Nu cu probabilitatea de 95%. Din punct de vedere practic, acest lucru corespunde
75
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

unui prag cu valoare 0,05. Se genereaz dup distribuia uniform un numr aleatoriu r ntre 0 i 1. Dac lua valoarea Nu. Analog, nodul Grip va lua valoarea Da cu probabilitatea de 10% i Nu cu probabilitatea de 90%. S presupunem c nodurile Alergie i Grip au fost instaniate ambele cu valoarea Nu. Urmtorul nod, n ordinea dat de sortarea topologic, este Rinoree. Acesta este un nod eviden i va fi instaniat ntotdeauna cu valoarea observat, Da. Urmeaz nodul Febr iar probabilitile valorilor acestuia sunt cele condiionate de valorile deja cunoscute: ( | ( ( | | ) ) ) ( | ( ( | | ) ) ) , nodul va lua valoarea Da, altfel va

Din punct de vedere al implementrii, vor exista n acest caz dou praguri corespunztoare probabilitilor cumulate: 0,9 i 0,9 + 0,05 = 0,95. Se genereaz un numr aleatoriu r ntre 0 i 1. Dac valoarea Absent, dac dac , nodul va lua valoarea Mare. S presupunem c nodul Febr este instaniat cu valoarea Absent. Mai rmne variabila eviden Oboseal, care va lua automat valoarea Da, i variabila Anorexie, cu urmtoarele probabiliti: ( | ) (
76
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

, nodul va lua

), nodul va lua valoarea Mic, iar

| )

Capitolul 4. Raionamente aproximative

| )

S presupunem c valoarea va fi Nu. Astfel, am generat o instaniere a reelei (un caz) cu urmtoarele valori: ( Ponderea unui caz este: ( | ( )) ( | ( )) ).

( )

(4.1)

unde U este mulimea tuturor nodurilor iar E este mulimea nodurilor eviden. Pentru cazul de mai sus, se iniializeaz cele dou produse cu i . Vom considera pe rnd variabilele din reea:

P(Alergie = Nu) = 0,95 , P(Grip = Nu) = 0,9 , P(Febr = Absent) = 0,9 , P(Oboseal = Da) = 0,1 , eviden) P(Anorexie = Nu) = 0,9 , nu se modific (Oboseala este

77
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

P(Rinoree = Da) = 0,1 , eviden) Prin urmare, ponderea cazului este: nu se modific (Rinoreea este

( )

Se repet procesul pentru un numr prestabilit de eantioane. n continuare, vom considera 10 eantioane. Pentru rezultate semnificative, numrul trebuie s fie mult mai mare. De asemenea, pentru a sublinia faptul c rezultatele sortrii topologice nu sunt unice, vom considera ordinea urmtoare: { A, G, F, O, X, R }.
Eantion 1: Nu, Nu, Absent, Da, Nu, Da Variabila: Alergie (interogare), P = 0,95, w1 = 0,95, w2 = 0,95 Variabila: Grip (interogare), P = 0,9, w1 = 0,855, w2 = 0,855 Variabila: Febr (interogare), P = 0,9, w1 = 0,7695, w2 = 0,7695 Variabila: Oboseal (eviden), P = 0,1, w1 = 0,07695 Variabila: Anorexie (interogare), P = 0,9, w1 = 0,069255, w2 = 0,69255 Variabila: Rinoree (eviden), P = 0,1, w1 = 0,0069255 w1 = 0,0069255, w2 = 0,69255 w = 0,01

Eantion 2: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

Eantion 3: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

78
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 4. Raionamente aproximative Eantion 4: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

Eantion 5: Da, Nu, Absent, Da, Da, Da Variabila: Alergie (interogare), P = 0,05, w1 = 0,05, w2 = 0,05 Variabila: Grip (interogare), P = 0,9, w1 = 0,045, w2 = 0,045 Variabila: Febr (interogare), P = 0,9, w1 = 0,0405, w2 = 0,0405 Variabila: Oboseal (eviden), P = 0,3, w1 = 0,01215 Variabila: Anorexie (interogare), P = 0,1, w1 = 0,001215, w2 = 0,00405 Variabila: Rinoree (eviden), P = 0,9, w1 = 0,0010935 w1 = 0,0010935, w2 = 0,00405 w = 0,27

Eantion 6: Nu, Da, Mic, Da, Nu, Da Variabila: Alergie (interogare), P = 0,95, w1 = 0,95, w2 = 0,95 Variabila: Grip (interogare), P = 0,1, w1 = 0,095, w2 = 0,095 Variabila: Febr (interogare), P = 0,25, w1 = 0,02375, w2 = 0,02375 Variabila: Oboseal (eviden), P = 0,4, w1 = 0,0095 Variabila: Anorexie (interogare), P = 0,8, w1 = 0,0076, w2 = 0,019 Variabila: Rinoree (eviden), P = 0,8, w1 = 0,00608 w1 = 0,00608, w2 = 0,019 w = 0,32

Eantion 7: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

Eantion 8: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

Eantion 9: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

79
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic Eantion 10: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01

n final, are loc o faz de normalizare, n care se calculeaz suma ponderilor cazurilor n care o variabil de interogare a avut o anumit valoare, mprit la suma ponderilor tuturor cazurilor: ( ) ( )

(4.2)

unde S este mulimea tuturor eantioanelor iar eantioane n care variabila Var apare cu valoarea val.

este submulimea de

Pentru problema considerat, rezultatele obinute sunt cele de mai jos.


Alergie Nu: wT = 0,4, wS = 0,67, P = 0,597 Da: wT = 0,27, wS = 0,67, P = 0,403 Grip Nu: wT = 0,35, wS = 0,67, P = 0,5224 Da: wT = 0,32, wS = 0,67, P = 0,4776 Febr Absent: wT = 0,35, wS = 0,67, P = 0,5224 Mic: wT = 0,32, wS = 0,67, P = 0,4776 Ridicat: wT = 0,0, wS = 0,67, P = 0,0 Oboseal (nod eviden) Nu: wT = 0,0, wS = 0,67, P = 0,0 Da: wT = 0,67, wS = 0,67, P = 1,0 80
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 4. Raionamente aproximative Anorexie Nu: wT = 0,4, wS = 0,67, P = 0,597 Da: wT = 0,27, wS = 0,67, P = 0,403

Rinoree (nod eviden) Nu: wT = 0,0, wS = 0,67, P = 0,0 Da: wT = 0,67, wS = 0,67, P = 1,0

n tabelul 4.2 se poate vedea cum evolueaz probabilitile nodurilor atunci cnd variaz numrul de eantioane. Cu ct acest numr este mai mare, cu att este mai apropiat valoarea aproximativ calculat de probabilitatea exact.
Tabelul 4.2. Evoluia probabilitilor nodurilor cu numrul de eantioane
Variabil / valoare Alergie = nu Alergie = da Febr = mic Febr = ridicat Febr= absent Anorexie = nu Anorexie = da Grip = nu Grip = da 10 0,597 0,403 0,4776 0,0 0,5224 0,597 0,403 0,5224 0,4776 Probabilitatea (numr de eantioane) 1.000 10.000 100.000 0,717 0,7589 0,7599 0,283 0,2411 0,2401 0,1563 0,1583 0,1653 0,5487 0,543 0,5453 0,295 0,2987 0,2894 0,6794 0,6885 0,66 0,3206 0,3115 0,34 0,4075 0,3806 0,3786 0,5925 0,6194 0,6214

1.000.000 0,754 0,246 0,1639 0,5405 0,2956 0,6673 0,3327 0,3844 0,6156

Un exemplu de variaie i convergen a probabilitilor cu numrul de eantioane este prezentat n figura 4.2. n afar de variabila Febr, care are trei valori, celelalte variabile sunt binare i de aceea graficul prezint doar o singur valoare, cu probabilitatea p, cealalt avnd probabilitatea 1 p.

81
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Figura 4.2. Convergena valorilor aproximative la probabilitile exacte cnd numrul de eantioane crete

Cnd numrul de eantioane este mare, se vede c valorile converg, de exemplu valoarea Nu pentru variabila Alergie tinde la 75%, aa cum s-a calculat n seciunea 3.5. La fel, se pot estima i probabilitile marginale ale variabilelor, n absena evidenelor. Datorit simplitii sale, algoritmul cu ponderarea verosimilitii este una din cele mai des utilizate metode de simulare pentru inferena n reele bayesiene. De multe ori, precizia sa este comparabil cu a metodelor mai sofisticate, ntruct poate genera mai multe eantioane dect ali algoritmi n acelai interval de timp. Atunci cnd probabilitatea evidenei este foarte mic, convergena sa poate fi foarte lent. Viteza de convergen scade de asemenea cnd exist multe noduri de eviden, deoarece probabilitatea evidenei n ansamblu scade exponenial, fiind un produs de numere subunitare. De asemenea, n lipsa unui expert, este dificil de apreciat ct de corecte sunt rezultatele oferite, pentru c metoda nu permite calcularea unor intervale de ncredere bine precizate (Cheng, 2001).

82
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 4. Raionamente aproximative

4.3. Alte metode de inferen aproximativ


Dup cum am spus mai sus, un dezavantaj al inferenei prin ponderarea verosimilitii este convergena lent cnd probabilitatea evidenei este foarte mic. Una din ideile de baz ale algoritmilor mai receni este c la nceput se eantioneaz dup o distribuie diferit de cea definit de probabilitile (condiionate ale) nodurilor, astfel nct valorile puin probabile s aib anse mai mari de apariie. Pe msur ce numrul de eantioane crete, distribuia dup care se eantioneaz converge la distribuia definit de tabelele de probabiliti ale nodurilor. Dintre algoritmii mai compleci care dau n schimb rezultate bune din punct de vedere al vitezei de convergen i a preciziei amintim AIS-BN (Cheng & Druzdzel, 2000) i EPIS-BN (Yuan & Druzdzel, 2003). Rata de convergen poate fi de asemenea mbuntit folosind tehnici mai elaborate pentru eantionare, cum ar fi hipercubul latin (engl. Latin hypercube), n care distribuia de probabilitate este divizat ntr-un numr de intervale echiprobabile i fiecare interval este eantionat o singur dat (Cheng & Druzdzel, 2000). Avantajul fa de metoda Monte Carlo, pur aleatorie, este generarea unei mulimi de eantioane care reflect mai precis forma distribuiei considerate.

83
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

84
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5

Teoria evidenelor
5.1. Teoria Dempster-Shafer
Avnd n vedere c pentru o propoziie pot exista diferite evidene care s o susin n grade diferite, posibil contradictorii, o prim modalitate de combinare a gradelor de ncredere derivate din surse independente de eviden a fost dezvoltat de ctre Dempster (1968) i studentul su, Shafer (1976). Aceast abordare a fost considerat foarte potrivit pentru aplicarea n sistemele expert din anii ' 80. Teoria evidenelor poate fi considerat ntr-un fel o extensie a modelului clasic de probabiliti, deoarece n locul unui singur numr, reprezentnd o probabilitate, se lucreaz cu intervale de ncredere pentru evenimente. Limita inferioar a intervalului care exprim ncrederea c un eveniment se poate ntmpla se numete convingere (engl. belief), notat Bel, iar cea superioar plauzibilitate (engl. plausibility), notat Pl. Pentru un eveniment: ( ) ( ) (5.1)

Este important de subliniat faptul c aici se calculeaz independent valorile pentru A i non-A. Fiecare eveniment are un grad de susinere ntre 0 i 1: 0 nseamn c nu exist susinere iar 1 nseamn o susinere total

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

pentru acesta. Spre deosebire de modelul bayesian, suma convingerilor ntr-un eveniment i n negatul acestuia nu este 1. Ambele valori pot fi 0, dac nu exist evidene nici pentru i nici mpotriva acestuia. n consecin, dac nu avem informaii nici despre A i nici despre A, intervalul de ncredere este , -, n locul unei probabiliti de 0,5. Pe msur ce se acumuleaz informaii, intervalul se micoreaz, respectndu-se relaia: ( ) ( ) ( ) (5.2)

Dac se cunoate precis probabilitatea evenimentului, atunci intervalul se reduce la un punct i rezultatul este echivalent cu modelul clasic: (5.3)

( )

( )

( )

De exemplu, la aruncarea unui ban, probabilitatea a-priori s ias cap este 0,5. ns netiind nimic despre ban, orice rezultat ar putea fi posibil. n lipsa oricror informaii, intervalul de ncredere este [0,1]: ( ( ) ) ( )

Dac un expert afirm c este 90% sigur c banul este corect, atunci: ( ( ) ) ( )

86
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

Intervalul de ncredere este: ,

-.

S mai considerm un exemplu. Dou site-uri de tiri relateaz despre o demonstraie. Primul site are nivelul de ncredere de 80% iar al doilea are nivelul de ncredere de 60%. Ambele afirm c demonstraia a fost una mare, cu peste 10000 de participani. Intuitiv, putem considera c probabilitatea ca ambele site-uri s mint este ( . Prin urmare, intervalul de ncredere este: , mare. ns poate exista situaia n care primul site afirm c demonstraia a fost mare iar al doilea afirm contrariul. Ne intereseaz intervalul de ncredere pentru evenimentul demonstraia a fost mare. n acest caz, nu pot fi ambele site-uri de ncredere, deoarece mrturiile se contrazic. Rmn urmtoarele posibiliti: Doar primul site este de ncredere (demonstraia a fost mare): ( ( ( ) ) ( ) ) ; ; . Doar al doilea site este de ncredere (demonstraia nu a fost mare): Niciun site nu este de ncredere (nu tim nimic precis): ) ( ) . Probabilitatea ca mcar unul din site-uri s spun adevrul este -. Limita superioar este 1 deoarece nu exist evidene mpotriva faptului c demonstraia a fost

Suma tuturor probabilitilor nenule, care va servi ca factor pentru normalizare, este: demonstraia a fost mare este: demonstraia nu a fost mare este:
87
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

. Prin urmare, convingerea c iar convingerea c . Plauzibilitatea unei

Partea I. Raionament probabilistic

demonstraii mari este: , -.

. Intervalul de ncredere este deci:

Pentru a formaliza modelul, fie mulimea tuturor ipotezelor mutual excluzive, numit i cadru de discernmnt (engl. frame of discernment). Pentru exemplul anterior, = {Mare, Mic}. Nivelul de ncredere al unei evidene este probabilitatea ca evidena s fie de ncredere, de exemplu gradul n care fiecare din cele dou site-uri pot fi crezute (0,8 i respectiv 0,6). Fie m o funcie numit atribuire de convingeri de baz (engl. basic belief assignment, BBA) sau funcie de mas (engl. mass function), ( ) , -, unde ( ) este mulimea prilor lui (mulimea de mulimi care se pot forma din elementele lui ). Valorile lui m, de tipul m(A) se numesc mase de convingeri de baz (engl. basic belief masses, BBM). Aplicnd relaiile teoriei DempsterShafer, vom avea ntotdeauna:

( )

( )

(5.4)

Dup cum am menionat, teoria ne permite s combinm convingerile care apar din surse multiple de eviden. Ecuaia fundamental Dempster-Shafer pentru combinarea evidenelor date de nou atribuire de convingeri de baz este: ( ) ( ) ( ) ( ) i ntr-o

( )

(5.5)

88
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

Se consider c coincid, vom avea: m1({Mare}) = 0,8 m1() = 0,2 m2({Mare}) = 0,6 m2 () = 0,4.

( )

Pentru exemplul cu demonstraia, cnd evidenele celor dou site-uri

Se observ c incertitudinea rmas dup precizarea explicit a tuturor evidenelor se atribuie cadrului de discernmnt . Aplicarea regulii de combinare a evidenelor se poate face mai uor considernd un tabel de forma:
X {Mare} {Mare} m1(X) 0,8 0,8 0,2 0,2 Y {Mare} {Mare} m2(Y) 0,6 0,4 0,6 0,4

{Mare} {Mare} {Mare} 0,48 0,32 0,12 0,08

Penultima coloan reprezint intersecia dintre mulimile de elemente X i Y, iar ultima coloan indic produsul maselor de convingeri de baz corespunztoare. ntruct evidenele nu se contrazic, nu apare n intersecie mulimea vid. n consecin, valoarea numitorului din ecuaia 5.5 va fi: Din tabel rezult noua funcie de mas m3({Mare}) = 0,48 + 0,32 + 0,12 = 0,92 m3() = 0,08.
89
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Prin urmare: Bel({Mare}) = 0,92 Pl({Mare}) = 1 Bel({Mic}) = 1. Intervalul de ncredere pentru demonstraia mare este acelai ca mai sus: [0,92, 1]. n al doilea caz, n care primul site afirm c demonstraia a fost una mare, iar al doilea c a fost una mic, vom avea: m1({Mare}) = 0,8 m1() = 0,2 m2({Mic}) = 0,6 m2 () = 0,4. Trebuie s subliniem faptul c ar fi incorect s considerm m2({Mare}) = 0,4, deoarece al doilea site a spus doar c demonstraia a fost mic, nu a spus nimic despre o demonstraie mare. Tabelul pentru calcule va fi urmtorul:
X {Mare} {Mare} m1(X) 0,8 0,8 0,2 0,2 Y {Mic} {Mic} m2(Y) 0,6 0,4 0,6 0,4

{Mare} {Mic} 0,48 0,32 0,12 0,08

Avnd n vedere c valoarea asociat mulimii vide este 0,48, numitorul fraciei va fi .

90
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

Funcia de mas

va fi definit astfel:

m3({Mare}) = 0,32 / 0,52 = 0,62 m3({Mic}) = 0,12 / 0,52 = 0,23 m3() = 0,08 / 0,52 = 0,15. Prin urmare: Bel({Mare}) = 0,62 Bel({Mic}) = 0,23 Pl({Mare}) = 1 Bel({Mare}) = 1 Bel( {Mare}) = 1 Bel({Mic}) = 0,77 Pl({Mic}) = 1 Bel({Mare}) = 0,38. Intervalele de ncredere sunt: pentru {Mare} [0,62, 0,77] iar pentru {Mic} [0,23, 0,38].

5.2. Surse multiple de eviden


n cele ce urmeaz, vom considera un exemplu mai complex pentru a urmri modul n care se combin succesiv mai multe evidene. S presupunem c un pacient internat n spital poate avea rceal, grip, meningit sau indigestie. Vom nota acest lucru astfel: = {R, G, M, I}. Pacientul are febr i greuri. Din studii anterioare, tim c febra susine rceala sau gripa la un nivel de 60%, meningita la un nivel de 20% iar indigestia la un nivel de 10%. Formal, vom avea:
91
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

m1({R,G}) = 0,6 m1({M}) = 0,2 m1({I}) = 0,1 m1() = 0,1. De asemenea, greurile susin ipoteza meningitei sau indigestiei la nivelul de 70%: m2({M,I}) = 0,7 m2() = 0,3. n tabelul urmtor se prezint modul de combinare a acestor dou evidene iniiale:
X {R,G} {R,G} {M} {M} {I} {I} m1(X) 0,6 0,6 0,2 0,2 0,1 0,1 0,1 0,1 Y {M,I} {M,I} {M,I} {M,I} m2(Y) 0,7 0,3 0,7 0,3 0,7 0,3 0,7 0,3

{R,G} {M} {M} {I} {I} {M,I} 0,42 0,18 0,14 0,06 0,07 0,03 0,07 0,03

Valoarea asociat mulimii vide este 0,42 i deci numitorul fraciei va fi . Funcia de mas va fi definit astfel:

m3({R,G}) = 0,18 / 0,58 = 0,3103 m3({M}) = (0,14 + 0,06) / 0,58 = 0,3448

92
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

m3({I}) = (0,07 + 0,03) / 0,58 = 0,1724 m3({M,I}) = 0,07 / 0,58 = 0,1207 m3() = 0,03 / 0,58 = 0,0517. Din masele de convingeri de baz putem deduce convingerile: Bel({R,G}) = 0,3103 Bel({M}) = 0,3448 Bel({I}) = 0,1724 Bel({M,I}) = 0,1207 + 0,3448 + 0,1724 = 0,6379. Pentru calculul lui Bel({M,I}) se observ c se iau n calcul toate submulimile mulimii {M, I}, respectiv {M}, {I} i {M, I}. Convingerea asociat unei mulimi este suma maselor tuturor submulimilor acesteia. Putem calcula apoi plauzibilitile mulimilor: Pl({R,G}) = 1 Bel({M,I}) = 1 0,6379 = 0,3621 Pl({M}) = 1 Bel({R,G,I}) = 1 (m3({R,G}) + m3({I})) = 0,5173 Pl({I}) = 1 Bel({R,G,M}) = 1 (m3({R,G}) + m3({M})) = 0,3449 Pl({M,I}) = 1 Bel({R,G}) = 0,6897. Intervalele de ncredere vor fi cele de mai jos: {R,G}: [0,3103, 0,3621] {M}: [0,3448, 0,5173] {I}: [0,1724, 0,3449] {M,I}: [0,6379, 0,6897].
93
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

S considerm acum c pacientul face un test care sprijin la nivelul 99% faptul c pacientul nu are meningit, ceea ce nseamn c rmn celelalte trei posibiliti rceal, grip sau indigestie: m4({R,G,I}) = 0,99 m4() = 0,01. Testul spune doar c nu este meningit, nu spune nimic despre probabilitatea de a fi meningit. Dup cum am precizat, n teoria evidenelor posibilitile A i sunt considerate independent. Interpretarea este diferit fa de cazul n care am considera m4({M}) = 0,01. n aceast din urm situaie, intervalele ar rmne aproape la fel, cu o foarte uoar cretere a ncrederii lui M. Tabelul care ne ajut s adugm noua eviden este prezentat mai jos:
X {R,G} {M} {I} {M,I} {R,G} {M} {I} {M,I} m3(X) 0,3103 0,3448 0,1724 0,1207 0,0517 0,3103 0,3448 0,1724 0,1207 0,0517 Y {R,G,I} {R,G,I} {R,G,I} {R,G,I} {R,G,I} m4(Y) 0,99 0,99 0,99 0,99 0,99 0,01 0,01 0,01 0,01 0,01

{R,G} {I} {I} {R,G,I} {R,G} {M} {I} {M,I} 0,3072 0,3414 0,1707 0,1195 0,0512 0,0031 0,0034 0,0017 0,0012 0,0005

Valoarea asociat mulimii vide este 0,3414 i deci numitorul fraciei va fi 0,6586.

94
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

Funcia de mas

va fi definit astfel:

m5({R,G}) = (0,3072 + 0,0031) / 0,6586 = 0,4712 m5({M}) = 0,0034 / 0,6586 = 0,0052 m5({I}) = (0,1707 + 0,1195 + 0,0017) / 0,6586 = 0,4432 m5({M,I}) = 0,0012 / 0,6586 = 0,0018 m5({R,G,I}) = 0,0512 / 0,6586 = 0,0777 m5() = 0,0005 / 0,6586 = 0,0008. Convingerile mulimilor vor fi: Bel({R,G}) = 0,4712 Bel({M}) = 0,0052 Bel({I}) = 0,4432 Bel({M,I}) = 0,0052 + 0,0018 = 0,007 Bel({R,G,I}) = 0,4712 + 0,4432 + 0,0777 = 0,9921. Plauzibilitile mulimilor vor fi: Pl({R,G}) = 1 Bel({M,I}) = 1 0,007 = 0,993 Pl({M}) = 1 Bel({R,G,I}) = 1 0,9921 = 0,0079 Pl({I}) = 1 Bel({R,G,M}) = 1 (0,4712 + 0,0052) = 0,5236 Pl({M,I}) = 1 Bel({R,G}) = 1 0,4712 = 0,5288 Pl({R,G,I}) = 1 Bel({M}) = 1 0,0052 = 0,9948.

95
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Intervalele de ncredere ale mulimilor sunt acum urmtoarele: {R,G}: [0,4712, 0,993] {M}: [0,0052, 0,0079] {I}: [0,4432, 0,5236] {M,I}: [0,007, 0,5288] {R,G,I}: [0,9921, 0,9948]. Tabelul urmtor arat cum s-au modificat intervalele de ncredere prin adugarea evidenei testului care a exclus meningita:
Interval de ncredere m3 [0,3103, 0,3621] [0,3448, 0,5173] [0,1724, 0,3449] [0,6379, 0,6897] Interval de ncredere m5 [0,4712, 0,993] [0,0052, 0,0079] [0,4432, 0,5236] [0,007, 0,5288] [0,9921, 0,9948]

X {R,G} {M} {I} {M,I} {R,G,I}

5.3. Reguli alternative de combinare a evidenelor


Atunci cnd evidenele sunt conflictuale, rezultatele obinute prin aplicarea regulii de combinare a lui Dempster pot fi contraintuitive i neplauzibile. O astfel de situaie este cea din exemplul urmtor (Zadeh, 1979). Un pacient este examinat de doi medici, care stabilesc c ar putea avea meningit (M), o contuzie (C) sau o tumoare pe creier (T). Ambii medici consider c tumoarea este improbabil, n schimb nu se pun de acord asupra diagnosticului cel mai probabil, rezultnd situaia urmtoare:

96
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

= {M, C, T} m1({M}) = 0,99 m1({T}) = 0,01 m2({C}) = 0,99 m2({T}) = 0,01. Tabelul indic modul de combinare a celor dou evidene:
X {M} {M} {T} {T} m3(X) 0,99 0,99 0,01 0,01 Y {C} {T} {C} {T} m4(Y) 0,99 0,01 0,99 0,01

{T} 0,9801 0,0099 0,0099 0,0001

Valoarea corespunztoare mulimii vide este n acest caz 0,9801 + 0,0099 + 0,0099 = 0,9999 i deci numrtorul fraciei va fi 0,0001. Funcia de mas va fi doar:

m3({T}) = 0,0001 / 0,0001 = 1. Rezultatul este contraintuitiv, deoarece tumoarea apare ca sigur dei ambii medici au considerat-o foarte improbabil. 5.3.1. Regula lui Yager n cazul n care mai multe evidene trebuie combinate simultan, regula lui Yager (1987) este:

97
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

( )

(5.6)

Spre deosebire de regula lui Dempster, mulimea .

( )

Regula lui Yager nu normalizeaz conflictul, ci l adaug la Pentru combinarea a dou surse de eviden se folosesc urmtoarele relaii:

( )

( )

( )

(5.7)

( )

( )

( )

( )

( )

(5.8)

n cazul exemplului propus de Zadeh, vom avea: m3({M}) = 0 m3({C}) = 0 m3({T}) = 0,01 0,01 = 0,0001 m3() = 0 + (0,9801 + 0,0099 + 0,0099) = 0,9999. Pentru exemplul cu cele dou raportri ale demonstraiei, atunci cnd evidenele coincid (ambele surse raporteaz o demonstraie mare), rezultatele sunt identice cu cele ale regulii lui Dempster, ntruct numitorul pentru normalizare este 1:

98
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor X {Mare} {Mare} m3(X) 0,8 0,8 0,2 0,2 Y {Mare} {Mare} m4(Y) 0,6 0,4 0,6 0,4

{Mare} {Mare} {Mare} 0,48 0,32 0,12 0,08

Prin urmare: m3({Mare}) = 0,48 + 0,32 + 0,12 = 0,92 m3() = 0,08 + 0 = 0,08. Cnd evidenele difer, vom avea situaia de mai jos:
X {Mare} {Mare} m3(X) 0,8 0,8 0,2 0,2 Y {Mic} {Mic} m4(Y) 0,6 0,4 0,6 0,4

{Mare} {Mic} 0,48 0,32 0,12 0,08

i deci: m3({Mare}) = 0,32 m3({Mic}) = 0,12 m3() = 0,08 + 0,48 = 0,56. n consecin, convingerile i plauzibilitile se modific: Bel({Mare}) = 0,32 Pl({Mare}) = 1 Bel({Mic}) = 1 0,12 = 0,88.

99
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

Intervalele de ncredere sunt acum: {Mare}: [0,32, 0,88] fa de [0,62, 0,77] dup regula lui Dempster; {Mic}: [0,12, 0,68] fa de [0,23, 0,38] dup regula lui Dempster. n cazul rezultatelor folosind regula lui Yager, se poate observa c diferena dintre convingere i plauzibilitate este egal cu masa de convingeri de baz atribuit mulimii .

5.3.2. Regula Han-Han-Yang n acest caz, formula de combinare a dou evidene este urmtoarea (Han, Han & Yang, 2008):

( )

( )

( ) ( )

( )

( )

( ) (5.9)

unde

se calculeaz ca mai jos.

Vom introduce funcia de probabilitate pignistic (n latin pignus nsemnnd pariu), care definete probabilitile pe care o persoan raional le atribuie unor opiuni atunci cnd trebuie s ia o decizie, de exemplu s fac un pariu (Smets & Kennes, 1994):

100
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

( )

( )

| | |

| (5.10)

Entropia definit de valorile funciei este: ( ) ( ( ))

(5.11)

Astfel, se definesc ponderile celor dou evidene care se combin:

(5.12) (5.13) Pentru exemplul propus de Zadeh, vom avea: (* +) { } (* +) * + (* +) { } * + * + * + * + ( * + ( * + { } ) * + ) * +

101
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

( )

( )

| | | | | | |

( )

( )

Analog, | | | | | | i deci . | |

( )

( )

( )

( )

n acest caz, este clar c Prin urmare: (* +) (* +) (* +)

Pentru exemplul cu demonstraia despre care o surs spune c a fost mare i cealalt spune c a fost mic, vom avea: (* (* +) +)

102
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 5. Teoria evidenelor

(* (* ( (

+) +)

(* (* ) )

+) +) (

(* )

+)

Prin urmare: m3({Mare}) = 0,593 m3({Mic}) = 0,327 m3() = 0,08 Intervalele de ncredere sunt: {Mare}: [0,593, 0,673] {Mic}: [0,327, 0,407]. Diferena dintre cele dou valori este i aici egal cu m3().

103
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea I. Raionament probabilistic

5.4. Concluzii
Aplicnd regula de combinare a lui Dempster, ordinea n care apar informaiile influeneaz rezultatul. Exist reguli de combinare alternative neinfluenate de acest aspect. ntr-un studiu privind combinarea informaiilor oferite de o mulime de senzori (engl. sensor fusion), s-a constatat c regula lui Yager a dat cele mai bune rezultate n comparaie cu alte reguli (Seo & Sycara, 2006). Exist i alte modaliti de combinare a evidenelor, ns avantajele oferite pentru majoritatea problemelor practice sunt discutabile, avnd n vedere meninerea unui echilibru ntre complexitatea calculelor i credibilitatea rezultatelor.

104
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a Tehnici de clasificare

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6

Problematica general
6.1. Introducere
Dincolo de aplicaiile practice ale tehnicilor de clasificare ce urmeaz a fi prezentate, acestea au o foarte mare importan pentru c dau o imagine asupra modului n care gndete omul n relaia cu mediul nconjurtor. Mediul fiind foarte complex, creierul trebuie s selecteze anumite informaii, construind modele pentru a reduce numrul i diversitatea stimulilor. Clasificarea (sau categorizarea) stabilete clase care includ un grup de obiecte cu atribute comune. Modul n care creierul prelucreaz informaiile din mediu nu este unitar, avnd pri componente diferite care lucreaz diferit. Pentru unele aspecte crem modele bazate pe reguli explicite (de exemplu, dac semaforul este rou, atunci trebuie s ateptm). n alte situaii, lucrm prin analogie. Poate nu tim exact regula dup care se clasific un mr ca fiind mr, dar implicit tim c un anumit obiect este apropiat ca i culoare, form sau dimensiuni fa de un prototip de mr, cunoscut. Cnd aplicm analogii cu situaii ntlnite sau aspecte vzute anterior, uneori este greu s explicm exact de ce. Am putea, ns ar trebui s depunem un efort, deoarece are loc un proces de cutare pentru a extrage reguli explicite din modelul bazat pe analogie. Regulile sunt verbalizabile, de aceea sunt n general mai concise pentru a fi nelese i reinute. Clasificarea prin similaritate poate lua n calcul, n mod implicit, un numr mai mare de aspecte. Mai exist i abordarea probabilistic ntruct

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

dm importan mai mare de obicei lucrurilor care se ntmpl mai frecvent. Toate aceste metode reflect modaliti diferite pe care le folosete omul n propriul raionament. Tehnicile de nvarea automat (engl. machine learning) aparin tipului de raionament inductiv. nvm din mediu i ncercm s tragem nite concluzii generale pe baza a ceea ce experimentm practic. Nu avem o teorie general, avem doar date provenite din experien i ncercm s conturm un model general, dac el exist. Dup ce este gsit i verificat un astfel de model, se poate aplica raionamentul deductiv, de exemplu aplicarea unei teoreme cunoscute la un caz concret. Acum direcia de raionament este invers, de la cazul general la cazul particular pe care dorim s l rezolvm. Din punct de vedere practic, nvarea automat este motivat de faptul c un sistem clasic specializat dar care nu nva de obicei realizeaz calcule numeroase pentru rezolvarea unei probleme, ns nu memoreaz soluia i de aceea, de fiecare dat cnd are nevoie de soluie, realizeaz aceeai secven de calcule complexe. Dac nu nva, comportamentul (calculele) se repet de fiecare dat. nvarea nseamn modul n care se schimb sistemul, astfel nct s rezolve aceeai problem mai eficient (cu performane superioare sau cu mai puine resurse), dar i alte probleme diferite, dei asemntoare (definiie adaptat dup Simon, 1983). Sistemul trebuie s generalizeze pentru a putea rezolva probleme noi. De asemenea, putem spune c un sistem nva dac i mbuntete performanele la ndeplinirea unei sarcini pe baza experienei, din punct de vedere al costurilor sau al calitii (definiie adaptat dup Mitchell, 1997).

108
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

Modelele sunt antrenate cu nite date, ns apoi sunt aplicate pe alte date, noi. Dac nu am face aa, ar fi suficient stocarea propriu-zis a rspunsurilor, echivalent cu nvarea pe de rost.

6.2. nvarea supervizat


nvarea supervizat presupune nvarea unei ipoteze, aproximarea unei funcii, n sensul cel mai larg (funcia nu trebuie s fie neaprat real, poate fi de exemplu i dac cineva i pltete un credit luat de la banc sau nu). Fie f funcia int. Datele cunoscute sunt nite exemple, nite eantionri ale funciei, o mulime de perechi (x, f(x)). Scopul este gsirea unei ipoteze h astfel nct elementele mulimii de exemple de antrenare. Dac valorile funciei sunt reale, discutm despre o problem de regresie. Dac valorile funciei sunt discrete, discutm despre o problem de clasificare. Acest tip de nvare se numete supervizat deoarece pentru fiecare instan se cunoate valoarea funciei f(x), pe lng valorile vectorului de intrare x. S considerm o funcie real, pentru care cunoatem punctele din tabelul 6.1.
Tabelul 6.1. Exemplu de funcie eantionat pentru regresie
x 0,50 1,00 1,50 2,00 109
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

, pentru toate

f(x) 0,25 1,00 0,50 4,00

Partea a II-a. Tehnici de clasificare

n cazul regresiei, problema este gsirea unei funcii de interpolare. De exemplu, putem folosi o funcie liniar (figura 6.1). Desigur, avem erori.

Figura 6.1. Regresie cu o funcie liniar

Putem folosi o funcie polinomial de gradul 2 (figura 6.2).

Figura 6.2. Regresie cu o funcie polinomial de gradul 2


110
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

Putem folosi o funcie polinomial de gradul 3 (figura 6.3).

Figura 6.3. Regresie cu o funcie polinomial de gradul 3

De asemenea, putem folosi o funcie polinomial de grad mai mare (figura 6.4).

Figura 6.4. Regresie cu o funcie polinomial de gradul 6


111
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Funciile date de polinoamele de grad 1 i 2 sunt prea simple, dar de la gradul 3 n sus, toate funciile trec prin punctele specificate. Problema este urmtoarea: care este cea mai bun interpolare? O recomandare n acest sens este briciul lui Occam. Occam a fost un clugr franciscan englez care a trit n secolul al XIV-lea i a propus legea economiei (lat. lex parsimoniae): entitile nu trebuie multiplicate dincolo de necesitate. Ideea de baz este c la egalitate, cnd mai multe modele au aceleai performane, trebuie preferat modelul mai simplu. Cu alte cuvinte, nu trebuie s complicm lucrurile fr rost. Pentru exemplele de mai sus, briciul lui Occam ar recomanda utilizarea polinomului de gradul 3, deoarece este cel mai simplu model care trece corect prin toate punctele. Un model prea complicat conduce la fenomenul de suprapotrivire (engl. overfitting). Trece foarte bine prin punctele date, dar pentru punctele intermediare nu se comport foarte bine. Briciul lui Occam este un principiu util, ns nu trebuie aplicat mecanic. De exemplu, exist algoritmul AdaBoost (Freund & Schapire, 1995), care este o modalitate de a transforma orice algoritm de clasificare slab ntr-un clasificator puternic (spunem c este un meta-algoritm). Ideea de baz este executarea mai multor runde de clasificare. n fiecare rund, este aplicat clasificatorul slab i se determin instanele clasificate greit. Acestora li se d o pondere mai mare n urmtoarea rund de clasificare. Rezult o serie de clasificatori, fiecare cu anumite ponderi, care n final dau cte un vot proporional cu ponderea pentru clasificarea unei noi instane. n acest caz, creterea numrului de runde, echivalent cu creterea

112
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

complexitii modelului, n general nu determin scderea capacitii de generalizare. Prin urmare, briciul lui Occam este o euristic, nu o lege fundamental.

6.3. Definirea unei probleme de clasificare


n continuare, ne vom concentra asupra problemelor de clasificare, mai apropiate de modul n care omul prelucreaz informaiile. Trebuie spus totui c i problemele de regresie sunt foarte importante din punct de vedere matematic i pentru numeroare aplicaii din lumea real. n general, structura unei probleme de clasificare este definit de un tabel de tipul tabelului 6.2. Aici este prezentat un exemplu adaptat dup Quinlan (1986) pe care l vom folosi pentru a descrie toate metodele de clasificare din capitolele urmtoare. Se pune problema de a determina dac n funcie de condiiile meteorologice se poate juca sau nu golf.

Tabelul 6.2. Problem de clasificare


Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie 113
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare

Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent

Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Partea a II-a. Tehnici de clasificare

Pe linii avem instanele, care se cunosc i n baza crora se realizeaz modelul de clasificare. Pentru problema de fa, sunt situaii din trecut, pentru care tim dac s-a putut juca sau nu golf. Tabelul ntreg reprezint mulimea de antrenare. Coloanele reprezint atributele, care au valori. Instanele sunt identificate de valorile atributelor. De exemplu, atributul Umiditate are dou valori: Normal i Mare. Prima instan este definit de valorile: { Starea vremii = Soare, Temperatur = Mare, Umiditate = Mare, Vnt = Absent, Joc = Nu }. De obicei, ultimul atribut este clasa. n exemplul nostru, clasa este Joc. Funcia generic de care discutam mai sus i care trebuie aproximat este aici: h(x) Joc(Starea vremii, Temperatur, Umiditate, Vnt). Pe baza acestor date simple, dorim s identificm cunotine, adic modele mai generale i mai abstracte. Dac la un moment dat tim condiiile meteorologice, aplicnd modelul general putem determina dac este bine s jucm sau nu golf.

6.4. Tipuri de atribute


Exist patru tipuri de atribute, organizate pe dou coordonate: Atribute discrete (simbolice): de tip nominal i ordinal; Atribute continue (numerice): de tip interval i raional.

114
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

Atribute discrete ntre valorile unui atribut nominal nu exist o relaie. Exemple de astfel de atribute sunt: culoarea ochilor (dac nu o considerm ca RGB), numele, sexul, CNP-ul ca obiect (nu ordonat ca numr), numerele de pe tricourilor unor juctori de fotbal, o mulime de ri etc. Valorile atributelor ordinale sunt simbolice, ns ntre ele exist relaii de ordine, de exemplu nlimea unei persoane discretizat n categoriile mic, medie i mare, n general, orice atribut ale crui valori are sens s le considerm n astfel de categorii (foarte mic, mic, mediu, mare, foarte mare etc.). Rangurile (primul, al doilea, al treilea), calificativele (satisfctor, bine, foarte bine, excelent) sunt de asemenea atribute ordinale. Exist mici diferene de tratare a atributelor nominale fa de cele ordinale, mai ales la algoritmii bazai pe instane, prezentai n capitolul 9. Atribute continue Exemple de atribute de tip interval sunt: data calendaristic, temperatura n grade Celsius, nivelul de ncredere ntr-o personalitate public pe o scar de la 1 la 5 etc. Exemple de atribute raionale sunt: lungimea, distana, greutatea, preurile, temperatura n grade Kelvin etc. Diferena dintre cele dou tipuri este urmtoarea. Raional vine de la ratio, care exprim o fracie. n limba latin, ratio nseamn att judecat ct i calcul. Putem spune c o distan de 2 km este de 2 ori mai mare dect o distan de 1 km. Putem calcula un raport ntre aceste valori. La fel la preuri: 10 lei este de 2 ori mai mult dect 5 lei. Pentru temperatura n grade Kelvin exist 0 absolut. La atributele de tip interval, chiar dac sunt continue, nu putem face acest tip de operaie. De exemplu, o temperatur de 20 de grade Celsius nu este de 2 ori mai mare dect una de 10 grade i nu

115
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

are sens un raport de -2 ntre 20C i -10C. De asemenea, pentru datele calendaristice, nu putem face un raport ntre 1 martie 2010 i 1 februarie 2010. Din punct de vedere al algoritmilor, nu prea exist diferene de prelucrare a atributelor de tip interval i a celor de tip raional. Toate atributele continue pot fi tratate la fel. De exemplu, putem transforma o dat calendaristic ntr-un numr ntreg care s specifice diferena n zile fa de o anumit dat de referin. Unii algoritmi sunt mai potrivii pentru un anumit tip de atribute. Pentru arborii de decizie (capitolul 7) i clasificarea bayesian naiv (capitolul 8) am prefera s avem date discrete. Atributele continue pot fi discretizate, ns prin aceast transformare se pot pierde informaii. Algoritmii bazai pe instane (capitolul 9), dimpotriv, trateaz n mod natural valori continue ale atributelor.

6.5. Estimarea capacitii de generalizare


Dup realizarea modelului, este foarte important determinarea capacitii sale de generalizare. De obicei, avem o singur mulime de date. Pentru estimarea capacitii de generalizare, mprim datele existente ntr-o parte cu care s construim modelul (mulimea de antrenare) i o parte pe care s l verificm (mulimea de validare sau de test). Exist mai multe metode de a mpri datele n aceste dou mulimi. Cea mai simpl este mprirea 2/3 1/3. Dou treimi din date se folosesc pentru antrenare iar restul de o treime pentru testarea modelului construit.

116
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

Cea mai folosit metod este validarea ncruciat (engl. crossvalidation), n care mprim instanele n n grupuri. De exemplu, dac avem 100 de instane, le mprim n 10 grupuri de cte 10. Construim modelul pe n-1 grupuri (de exemplu pe 90 de instane) i l testm pe grupul rmas. Apoi se schimb grupul rmas pentru testare, se repet procedura de n ori i se calculeaz rata medie de eroare. Rata de eroare este raportul dintre numrul de instane clasificate greit i numrul total de instane considerate pentru un test. O alt metod, util mai ales atunci cnd exist un numr mic de date, este aa numita las una deoparte (engl. leave one out). Dac avem 10 instane, construim modelul cu 9 instane i l verificm cu a zecea, apoi schimbm instana rmas pentru test i repetm procesul de 10 de ori. Se calculeaz apoi rata de eroare medie a algoritmului pentru instana de test, adic de cte ori este clasificat corect, n medie. n aceast situaie, cu doar 10 instane, mprirea 2/3 1/3 ar conduce la utilizarea a 7 instane pentru antrenare. n schimb, cu aceast metod putem utiliza 9 instane. Cnd folosim o mulime de antrenare i una de test, rezultatele clasificrii instanelor de test sunt de obicei mai proaste dect dac am folosi toate datele disponibile pentru antrenare. Trebuie s subliniem totui faptul c scopul principal al clasificrii nu este aproximarea perfect a datelor de antrenare, care s-ar putea face i prin simpla memorare a acestora, ci crearea unui model care s se comporte bine pentru date noi. Discutnd despre capacitatea de generalizare, dou noiuni sunt foarte importante: Sub-potrivirea (engl. underfitting): ipoteza este prea simpl i nu poate nva modelul din date;

117
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Supra-potrivirea (engl. overfitting): ipoteza este prea complex i este influenat de zgomot i date irelevante. Dac un model este prea simplu, cum era exemplul de regresie cu

funcia liniar, acesta nu poate s nvee datele. Oricum am orienta dreapta respectiv, ea nu poate trece prin toate punctele. Dimpotriv, un model suprapotrivit are performane foarte bune pe mulimea de antrenare, dar performane slabe pe mulimea de validare. Este cazul funciei polinomiale de gradul 6 din figura 6.4. De asemenea, datele de antrenare ar putea fi afectate de zgomot (pot aprea erori de msurare, greeli umane de transcriere, clasificri incorecte ale experilor etc.). Mai ales n astfel de cazuri, un model mai suplu poate scdea influena datelor eronate, conducnd la predicii mai bune.

Figura 6.5. Evoluia acurateei pe msura creterii complexitii modelului

Atunci cnd crete complexitatea modelului, la nceput de multe ori acurateea (1 minus rata de eroare) pentru mulimile de antrenare i de test crete constant, deoarece modelul reuete s potriveasc datele din ce n ce mai bine. La un moment dat, exist un punct de maxim generalizare, dup care modelul ncepe s supra-potriveasc, s fie mai complex dect ar
118
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 6. Problematica general

trebui. Performanele pentru datele de antrenare continu s creasc, ns performanele pentru datele de test ncep s scad. n acest punct ar trebui s oprim dezvoltarea modelului, n care acurateea pentru mulimea de validare este maxim, chiar dac am putea obine performane mai bune pe mulimea de antrenare continund procesul (figura 6.5).

6.6. Aplicaii ale tehnicilor de clasificare


Exist numeroase aplicaii pentru algoritmii de clasificare: nvarea tratamentelor optime din nregistrrile medicale. Exist multe nregistrri cu pacieni care au primit diferite tratamente pentru anumite simptome i se cunoate dac medicamentele respective au funcionat sau nu. Cnd trebuie tratat un nou pacient, cu anumite simptome i caracteristici (vrst, sex, greutate, alte boli cunoscute etc.), se poate estima dac o anumit schem de tratament va funciona sau nu; Clasificarea celulelor din tumori ca benigne sau maligne pe baza radiografiilor; Predicia ratei de recuperare a pacienilor cu pneumonie; Clasificarea structurilor secundare ale proteinelor. Conformaia unei proteine este determinat de secvena sa de aminoacizi. n urma secvenierii ADN-ului uman, a aprut o cantitate uria de date liniare (iruri de baze nucleice). n prezent, se depun eforturi ca din aceste iruri s se extrag structura lor spaial (secundar), astfel nct pasul urmtor s fie predicia proprietilor pe baza componentelor structurale;
119
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Clasificarea plilor electronice ca legitime sau frauduloase. Avnd n vedere cheltuielile tipice ale unei persoane, se poate determina un profil i astfel se poate verifica dac o plat de la un anumit moment este similar cu cele anterioare;

Recunoaterea vorbirii, echivalent cu clasificarea secvenelor de sunete n cuvinte; Recunoaterea optic a caracterelor, ce presupune identificarea caracterelor dintr-o imagine; Clasificarea textelor. n acest caz, atributele sunt chiar cuvintele documentelor respective (dup filtrarea cuvintelor uzuale conjuncii, prepoziii, pronume i eliminarea inflexiunilor) iar valorile atributelor sunt frecvenele de apariie ale acestora. Exemple sunt clasificarea tirilor n categorii precum politic, meteo, sport etc. sau clasificarea email-urilor n spam (mesaje nedorite) i ham (mesaje legitime).

120
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7

Arbori de decizie
7.1. Algoritmul lui Hunt
Algoritmul lui Hunt (1962) este o procedur generic pentru construirea unui arbore de decizie. Iniial, toate instanele din mulimea de antrenare corespund rdcinii arborelui. Ideea de baz este partiionarea fiecrui nod, adic mprirea instanelor n mai multe grupe, corespunztoare fiilor nodului curent, astfel nct nodurile rezultate s fie ct mai omogene, adic toate instanele din acel nod, sau majoritatea lor, s aparin aceleiai clase. ntr-o frunz, omogenitatea ar trebui s fie maxim, adic toate instanele s aparin aceleiai clase. Desigur, n anumite cazuri este imposibil obinerea unor frunze perfect omogene, ceea ce conduce la apariia erorilor de clasificare. Dup partiionarea unui nod, rezult mai multe noduri fiu, pe care le partiionm n mod recursiv dup acelai criteriu. Mai formal, fie Dn mulimea instanelor de antrenare dintr-un nod n. Algoritmul lui Hunt are urmtorii pai (Tan, Steinbach & Kumar, 2006): Dac Dn conine instane din aceeai clas yn, atunci n este o frunz etichetat yn; Dac Dn este o mulime vid, atunci n este o frunz etichetat cu clasa implicit (engl. default) yd;

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Dac Dn conine instane care aparin mai multor clase, se utilizeaz un test de atribute pentru a partiiona datele n mulimi mai mici; Se aplic recursiv procedura pentru fiecare submulime. Se poate observa c algoritmul lui Hunt recomand o strategie

greedy, deoarece se partiioneaz mulimea de instane cu un test care maximizeaz la un moment dat un anumit criteriu, cum ar fi omogenitatea nodurilor fiu rezultate. Cheia este identificarea testului de atribute pe care se bazeaz partiionrile. Algoritmul lui Hunt nu spune nimic despre natura acestuia. Dup cum vom vedea, exist numeroase metode de inducie a arborilor de decizie, care difer prin modalitatea de determinare a testul de atribute, pe lng alte proceduri suplimentare de optimizare a rezultatelor.

7.2. Specificarea testelor de atribute


Partiionarea datelor presupune n primul rnd specificarea testului i apoi, n funcie de acesta, determinarea partiionrii optime a unui nod. Partiionrile sunt diferite n funcie de tipul atributelor. Pentru un atribut nominal, putem partiiona nodul dup fiecare valoare a atributului. Cnd avem mai multe valori discrete, crem cte un fiu pentru fiecare valoare a atributului respectiv. Pentru a exemplifica, vom considera o variant simplificat a problemei de clasificare introduse n capitolul 6, cu un singur atribut nominal i clasa.
Starea vremii Soare nnorat Ploaie 122
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Joc Da Da Nu

Capitolul 7. Arbori de decizie

Atributul Starea vremii are 3 valori, deci vor rezulta 3 frunze corespunztoare acestor valori.

Starea vremii Soare nnorat Ploaie

Da

Da

Nu

Teoretic, am putea grupa valorile ntr-un numr mai mic de mulimi, pentru a avea o frunz Da pentru valorile { Soare, nnorat } i una Nu pentru { Ploaie } ns n cazul general aceasta este o problem de cutare i optimizare. Pentru atribute ordinale, procedura este similar: putem face partiionarea pentru fiecare valoare a atributului.
Temperatur Mic Medie Mare Joc Da Da Nu

Temperatura Mic Medie Mare

Da

Da

Nu

123
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Relaia de ordine ne-ar putea ajuta, pentru c am putea grupa valorile adiacente, de exemplu { Mic, Medie } i { Mare}. O partiionare dup { Mic, Mare } i { Medie } este mai puin intuitiv, dar nu incorect, deoarece datele de antrenare ar putea fi de tipul:
Temperatur Mic Medie Mare Joc Nu Da Nu

La atributele continue, ntr-o prim abordare, ar trebui discretizate valorile, deoarece numrul de fii ai unui nod este ntreg, nu real. O prim metod de discretizare este sortarea valorilor, stabilirea unui numr de intervale egale (histograma) i introducerea valorilor n aceste intervale.
Umiditate 65 70 72 75 80 85 86 90 90 91 93 95 Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu

S considerm discretizarea n 3 intervale. Valorile numerice sunt distribuite n domeniul [65, 95], prin urmare vom considera urmtoarele intervale egale: [65, 75], (75, 85], respectiv (85, 90]. Atributul continuu va fi transformat ntr-unul ordinal, cu valorile Mic, Medie i Mare:
124
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie Umiditate-Dis1 Mic Mic Mic Mic Medie Medie Mare Mare Mare Mare Mare Mare Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu

O alt metod de discretizare este cea cu frecvene egale, astfel nct fiecare interval s conin un numr egal de valori. Nu mai conteaz mrimea valorilor, ci numrul lor. Pentru exemplul de mai sus, cu 12 valori, primele 4 vor primi valoarea Mic, urmtoarele 4 valoarea Medie i ultimele 4 valoarea Mare.
Umiditate-Dis2 Mic Mic Mic Mic Medie Medie Medie Medie Mare Mare Mare Mare Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu

O a treia modalitate este prin clusterizare (engl. clustering), care realizeaz o grupare mai natural a valorilor. Clusterizarea aparine tipului

125
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

de nvare nesupervizat, deoarece acolo nu mai cunoatem valoarea clasei dup care se face gruparea. Se dau doar valorile propriu-zise ale celorlalte atribute i algoritmul trebuie s grupeze instanele astfel nct n interiorul unui grup (cluster) asemnarea instanelor componente s fie ct mai mare, iar ntre clustere diferite asemnarea instanelor s fie ct mai mic. Acest tip de nvare nu face obiectul capitolului de fa, ns un algoritm simplu de clusterizare care poate fi aplicat pentru discretizarea atributelor continue pentru o problem de clasificare este k-means (MacQueen, 1967). O variant alternativ pentru tratarea atributelor continue este partiionarea binar, adic determinarea unei singure valori cu care s se compare valorile atributului considerat. n acest caz, ar trebui tratate toate partiionrile posibile i prin urmare este necesar un efort de calcul mai mare. Pentru exemplul de mai sus, s presupunum c s-a determinat valoarea de referin 85, iar testul este specificat astfel: ( atributului rezultat prin aceast transformare vor fi Da sau Nu:
Umiditate 65 70 72 75 80 85 86 90 90 91 93 95 Umiditate-Bin Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu

) Valorile

126
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

7.3. Msuri de omogenitate


Pentru a face o partiionare la un moment dat, avem nevoie de o msur a omogenitii. O astfel de msur a impuritii unui nod, este entropia, utilizat de algoritmii ID3 (Iterative Dichotomiser 3, Quinlan, 1983) i C4.5 (Quinlan, 1993) pentru a descoperi arbori de dimensiuni ct mai reduse. n teoria informaiei (Shannon, 1948), entropia msoar incertitudinea asociat cu o variabil aleatorie, care se reflect n cantitatea de informaie coninut de un mesaj. Cu ct este mai mare cantitatea de informaie, cu att entropia este mai mare. Entropia este definit astfel:

( )

( )

( )

(7.1)

unde X este o variabil aleatorie discret cu valorile posibile * ( ) este probabilitatea de apariie a valorii Dac , atunci unitatea de msur a entropiei este bitul. Prin convenie, cnd ( ) ( )

+,

iar b este baza logaritmului.

, se consider c ntreg termenul .

( ) este 0, deoarece:

n cazul problemei de clasificare, probabilitile ( ) sunt estimate ca frecvene relative de apariie a valorilor n mulimea de antrenare.

Pentru 2 clase, graficul entropiei este cel din figura 7.1. Valoarea maxim este 1 cnd ntr-un nod ambele clase au un numr egal de instane (ambele posibiliti sunt egal probabile i au probabilitatea 1/2). Valoarea
127
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

minim este 0, cnd toate instanele aparin unei singure clase: dac aparin primei clase, atunci ( ) clase, atunci ( ) i ( ) . , iar dac aparin celei de a doua i ( )

Figura 7.1. Graficul entropiei pentru 2 clase

Pentru 3 clase, graficul entropiei este prezentat n figura 7.2 (Lawrence, 1997).

Figura 7.2. Graficul entropiei pentru 3 clase


128
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

n acest caz, valoarea maxim este atunci cnd toate cele 3 clase au probabiliti egale, de 1/3, i n acest caz valoarea maxim este log2(3) = 1,58. Valoarea minim este de asemenea 0, cnd o singur clas are probabilitatea 1 iar celelalte au probabilitatea 0. Pentru clasificare, am dori ca toate instanele dintr-un nod s aparin aceleiai clase, ceea ce corespunde minimului entropiei. Dac entropia este mare, atunci avem un numr relativ egal de instane n fiecare clas (omogenitate mic), ceea ce ne ndeprteaz de scopul clasificrii. Alternativ, n locul entropiei, se poate folosi, ca n algoritmul CART (Breiman et al., 1984), indexul Gini, definit astfel:

( )

( ( ))

(7.2)

Utiliznd indexul Gini, efortul de calcul este mai mic deoarece se evit calcularea logaritmilor. Pentru 2 clase, forma indexului Gini este asemntoare funciei de entropie, cu o valoare maxim de 0,5, dup cum se poate vedea n figura 7.3. Rezultatele obinute folosind drept criteriu de omogenitate entropia sau indexul Gini sunt de cele mai multe ori identice, mai ales cnd numrul de clase este mic. Diferenele apar cnd avem un numr mare de clase i realizm partiionri binare. Entropia accentueaz o mprire echilibrat astfel nct cele dou noduri fiu s aib dimensiuni apropiate, n timp ce indexul Gini favorizeaz partiionrile care pun instanele din clasa cea mai mare ntr-un singur nod pur i instanele din toate celelalte clase n cellalt nod fiu (Breiman, 1996).

129
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Figura 7.3. Graficul indexului Gini pentru 2 clase

7.4. Partiionarea
Dup cum am spus, din nodul printe, prin partiionare, trebuie s rezulte noduri ct mai omogene. Procedura prin care aplicm criteriul de omogenitate precum entropia pentru selectarea unui atribut dup care se va face partiionarea este prezentat n continuare. Cnd un nod printe p este partiionat n k fii, calitatea partiionrii se calculeaz ca o medie ponderat a entropiilor nodurilor fiu rezultate:

(7.3)

130
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

unde

este numrul de instane din nodul fiu i, n este numrul de instane

din nodul printe p, iar s este o partiionare (engl. split) din mulimea tuturor partiionrilor posibile. Mai nti se calculeaz entropiile tuturor nodurilor fiu rezultate apoi se pondereaz acestea cu numrul de instane din fiecare nod fiu. Creterea omogenitii submulimilor rezultate este echivalent cu maximizarea ctigului informaional (engl. information gain): i

(7.4)

Deoarece entropia nodului printe partiionarea dorit este:

este aceeai pentru toate

partiionrile, se prefer valoarea minim pentru sum, astfel nct

(7.5)

Numrul de noduri fiu seciunea 7.2.

depinde de tipul i de numrul de valori

ale atributului dup care se face partiionarea s, dup cum am spus n

7.5. Probleme cu atribute simbolice


Vom considera ca exemplu problema prezentat n tabelul 7.1, cu 14 instane i definit de 4 atribute simbolice i clasa. Pentru a construi arborele

131
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

de decizie dup algoritmul ID3, detaliat mai sus, mai nti trebuie s partiionm ntreaga mulime de antrenare, pe rnd, dup fiecare atribut, i s determinm cea mai bun partiionare. Coloana Nr. instan nu face parte din problem i a fost inclus doar pentru a urmri mai uor prelucrrile efectuate.
Tabelul 7.1. Problem de clasificare cu atribute simbolice
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

S considerm mai nti atributul Starea vremii (S), care are 3 valori: Soare, nnorat i Ploaie. Dac se partiioneaz nodul rdcin dup acest atribut, vor rezulta 3 noduri fiu, cte unul pentru fiecare valoare. Trebuie s determinm entropia acestor noduri poteniale. Pentru valoarea Soare (S), nodul rezultat va avea 2 instane din clasa Da i 3 din clasa Nu.
Nr. instan 1 2 8 9 11 Starea vremii Soare Soare Soare Soare Soare 132
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Joc Nu Nu Nu Da Da

Capitolul 7. Arbori de decizie

Prin urmare, entropia sa va fi:

Pentru valoarea nnorat (I), nodul rezultat va avea toate cele 4 instane din clasa Da. Este evident c:
Nr. instan 3 7 12 13

.
Joc Da Da Da Da

Starea vremii nnorat nnorat nnorat nnorat

Pentru valoarea Ploaie (P), nodul rezultat va avea 3 instane din clasa Da i 2 din clasa Nu.
Nr. instan 4 5 6 10 14 Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Joc Da Da Nu Da Nu

Entropia sa va fi:

Putem calcula acum entropia medie a partiionrii dup atributul Starea vremii:

133
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Acelai tip de calcule se realizeaz pentru urmtorul atribut, Temperatur (T), cu valorile: Mic (L), Medie (M) i Mare (H). Pentru a calcula mai uor, sortm tabelul dup coloana Temperatur i numrm valorile clasei pentru fiecare valoare a atributului.
Nr. instan 5 6 7 9 4 8 10 11 12 14 1 2 3 13 Temperatur Mic Mic Mic Mic Medie Medie Medie Medie Medie Medie Mare Mare Mare Mare Joc Da Nu Da Da Da Nu Da Da Da Nu Nu Nu Da Da

Se poate vedea uor c:

Prin urmare:

134
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

La fel procedm pentru atributul Umiditate (U), cu valorile: Normal (N) i Mare (M).
Nr. instan 5 6 7 9 10 11 13 1 2 3 4 8 12 14 Umiditate Normal Normal Normal Normal Normal Normal Normal Mare Mare Mare Mare Mare Mare Mare Joc Da Nu Da Da Da Da Da Nu Nu Da Da Nu Da Nu

Vom avea:

n final, pentru atributul Vnt (V) cu valorile Absent (A) i Prezent (P):

135
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare Nr. instan 1 3 4 5 8 9 10 13 2 6 7 11 12 14 Vnt Absent Absent Absent Absent Absent Absent Absent Absent Prezent Prezent Prezent Prezent Prezent Prezent Joc Nu Da Da Da Nu Da Da Da Nu Nu Da Da Da Nu

Valoarea maxim a ctigului informaional este corespunztoare minimului entropiei ponderate face dup atributul Starea vremii. i deci prima partiionare se va

Starea vremii Soare nnorat Ploaie

N1

N2

N3

136
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

Dup ce am fcut o partiionare, eliminm atributul respectiv din mulimea de date i eliminrm i instanele care au valoarea atributului considerat diferit de valoarea de pe ramura nodului fiu corespunztor. Pentru nodul N1 se repet procedura, eliminnd atributul Starea vremii i pstrnd doar instanele care au ca valoare a acestuia Soarele (5 instane).
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Pentru atributele rmase, calculm din nou entropiile. Pentru Temperatur: (1 instan n clasa Da) (1 instan n clasa Da i 1 instan n clasa Nu) (2 instane n clasa Nu)

137
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Pentru Umiditate:

Pentru Vnt:

este valoarea minim, prin urmare nodul N1 va fi partiionat dup Umiditate. Observm c nodurile fiu rezultate sunt frunze omogene i deci nu mai este nevoie de o alt partiionare.

Starea vremii Soare nnorat Ploaie

Umiditate Mare Nu Normal Da

N2

N3

n nodul N2 avem urmtoarea mulime de date:

138
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie Nr. instan 3 7 12 13 Starea vremii nnorat nnorat nnorat nnorat Temperatur Mare Mic Medie Mare Umiditate Mare Normal Mare Normal Vnt Absent Prezent Prezent Absent Joc Da Da Da Da

Nodul este omogen i deci va fi la rndul su frunz, fr a mai trebui partiionat. n sfrit, n nodul N3 avem urmtoarea mulime de date:
Nr. instan 4 5 6 10 14 Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Temperatur Medie Mic Mic Medie Medie Umiditate Mare Normal Normal Normal Mare Vnt Absent Absent Prezent Absent Prezent Joc Da Da Nu Da Nu

Aplicnd aceeai procedur, vom obine: i atributul Vnt, rezultnd de asemenea dou frunze. Arborele final va fi cel din figura 7.4.

. Ultima valoare este minim i deci vom partiiona nodul N3 dup

Starea vremii Soare nnorat Ploaie

Umiditate Mare Nu Normal Da

Da Prezent Nu

Vnt Absent Da

Figura 7.4. Arborele de decizie pentru problema cu atribute simbolice

139
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Temperatura este un atribut irelevant pentru aceast clasificare. Se observ c pe msur ce mulimile se partiioneaz, calculele devin din ce n ce mai simple. Din punct de vedere al implementrii, cele mai dificile aspecte sunt crearea submulimilor corespunztoare nodurilor din arbore i aplicarea recursiv a procedurii pentru acestea.

7.6. Probleme cu atribute numerice


Multe probleme de clasificare conin date numerice, precum cea din tabelul 7.2, o variant a celei studiate n seciunea 7.5, unde Temperatura este dat n grade Celsius iar Umiditatea n procente.
Tabelul 7.2. Problem de clasificare cu atribute mixte
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Pe lng procedeele de discretizare, datele continue pot fi tratate ca atare. Metoda prrezentat n cele ce urmeaz este cea adoptat de algoritmul C4.5.

140
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

Procedura general de partiionare este aceeai, pe baza ctigului informaional. Atributele simbolice sunt prelucrate la fel. Pentru atributele numerice se dorete o partiionare binar, adic se caut o valoare astfel nct instanele cu valoarea mai mic dect referina s aparin unui fiu iar cele cu valoarea mai mare dect referina s aparin celuilalt fiu. Problema se reduce la determinarea valorii de referin. Pentru aceasta, ntr-o prim variant, se sorteaz valorile atributului numeric i se ncearc toate referinele poteniale dintre fiecare dou valori alturate. Vom aplica aceast modalitate de calcul pentru atributul Temperatur. Poziiile de partiionare testate i entropia corespunztoare partiionrii sunt prezentate n tabelul de mai jos. Pentru prima poziie de partiionare i pentru ultima, se vede c toate instanele intr ntr-un singur nod fiu, 9 dintre ele cu clasa Da i 5 cu clasa Nu. Nicio instan nu are temperatura mai mic dect 17,8 i toate instanele au temperatura mai mare sau egal cu 17,8. La fel, toate instanele au temperatura mai mic sau egal cu 29,4 i nicio instan nu are temperatura mai mare dect 29,4. Este firesc, deoarece toate instanele au temperatura mai mare sau egal cu prima valoare i mai mic sau egal cu ultima valoare, n irul sortat.

141
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare Temperatur Joc Poziii de partiionare < 17,8 17,8 18,05 > 18,05 18,3 Nu 19,15 > 19,15 20,0 Da 20,3 > 20,3 20,6 Da 20,85 > 20,85 21,1 Da 21,4 > 21,4 21,7 Nu 21,95 > 21,95 22,2 Nu 22,2 > 22,2 22,2 Da 23,05 > 23,05 23,9 Da 23,9 > 23,9 23,9 Da 25,3 > 25,3 26,7 Nu 26,95 > 26,95 27,2 Da 27,75 > 27,75 28,3 Da 28,85 > 28,85 29,4 > 29,4 9 0 9 0 142
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Numr Joc = Da 0 9 1 8 1 8 2 7 3 6 4 5 4 5 5 4 5 4 6 3 7 2 7 2 8 1

Numr Joc = Nu 0 5 0 5 1 4 1 4 1 4 1 4 2 3 3 2 3 2 3 2 3 2 4 1 4 1 4 1 5 0

Entropiile submulimilor 0,000 0,940 0,000 0,961 1,000 0,918 0,918 0,946 0,811 0,971 0,722 0,991 0,918 0,954 0,985 0,863 0,954 0,918 0,918 0,971 0,881 1,000 0,946 0,918 0,918 1,000 0,890 0,000 0,940 0,000

Entropia partiionrii 0,940

17,8

Da 0,893

0,930

0,940

0,925

0,895

0,939

0,924

0,939

0,937

0,915

0,940

0,930

0,827 0,940

29,4

Nu

Capitolul 7. Arbori de decizie

Ca exemplu de calcul, s considerm partiionarea dup referina 28,85 = (28,3 + 29,4) / 2. 13 instane au temperatura mai mic sau egal cu 28,85, din care 9 aparin clasei Da i 4 clasei Nu. 1 instan are temperatura mai mare dect 28,85, aparinnd clasei Nu. Pentru primul nod fiu, entropia este:

Pentru al doilea nod fiu, entropia va fi 0, fiind omogen: Prin urmare, entropia medie a acestei partiionri va fi:

Se observ c aceast valoarea este minim i va corespunde atributului Temperatur. Aceast abordare, de a considera toate valorile intermediare, nu este ns optim. Pentru un numr mare de instane, efortul de calcul crete foarte mult ntruct numrul de partiionri poteniale este foarte mare. Putem observa ns n tabelul urmtor c dup entropia iniial de 0,94, entropia scade pn la valoarea 0,893, deoarece a fost introdus ntr-un nod separat o instan Da. Apoi entropia crete la 0,93, pentru c n acel nod a intrat i o instan Nu, sczndu-i omogenitatea. n continuare, pe msur ce alte 3 instane Da intr pe rnd n nod, entropia tot scade, pn la 0,895. n acest moment intr o instan Nu, iar entropia crete din nou. La fel, de jos n sus, entropia scade pn la prima schimbare de clas.

143
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare 0,940 0,893 0,930 0,940 0,925 0,895 0,939 0,924 0,939 0,937 0,915 0,940 0,930 0,827 0,940

17,8 18,3 20,0 20,6 21,1 21,7 22,2 22,2 23,9 23,9 26,7 27,2 28,3

Da Nu Da Da Da Nu Nu Da Da Da Nu Da Da

29,4

Nu

Prin urmare, nu are rost s calculm entropia dect n momentul n care se schimb clasa ntre dou instane alturate n irul sortat. Pn cnd se schimb clasa, entropia continu s scad deoarece intr ntr-un nod fiu mai multe instane din aceeai clas. Pentru atributul Temperatur, ar fi fost necesare doar 9 partiionri n loc de 15. n funcie de natura datelor, reducerea numrului poate fi mult mai drastic. Vom utiliza aceast optimizare pentru calculul entropiei atributului Umiditate, dup cum se poate observa n tabelul urmtor.
144
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie Umiditate Joc Poziii de partiionare < 65 >= 65 67,5 > 67,5 70 Da 70 > 70 70 Da 70 > 70 70 Nu 72,5 > 72,5 75 Da 77,5 > 77,5 80 Da 80 > 80 80 Da 82,5 > 82,5 85 Nu 85,5 > 85,5 86 Da 88 > 88 90 Da 90 > 90 90 Nu 90,5 > 90,5 91 Nu 93 > 93 95 Nu 95,5 > 95,5 96 > 96 8 1 9 0 145
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Numr Joc = Da 0 9 1 8

Numr Joc = Nu 0 5 0 5

Entropiile submulimilor 0,000 0,940 0,000 0,961

Entropia partiionrii 0,940

65

Da 0,893

3 6 3 6 0 5 1 4 0,000 0,994 0,811 0,971

0,781

0,925

6 3 6 3 1 4 2 3 0,592 0,985 0,811 1,000

0,788

0,892

8 1 2 3 0,722 0,811

0,747

5 0 5 0 0,961 0,000 0,940 0,000

0,893 0,940

96

Da

Partea a II-a. Tehnici de clasificare

Valoarea minim este: i .

. Pentru atributele simbolice

Starea vremii i Vnt, valorile sunt la fel ca acelea calculate n seciunea 7.5: Rezultatele pentru atribute simbolice i numerice sunt tratate la fel, comparnd entropiile medii ponderate obinute pentru toate atributele i alegnd minimul. Prima partiionare va fi tot dup Starea vremii. Nodul corespunztor valorii nnorat este omogen, dup cum se vede n tabelul de mai jos.
Starea vremii nnorat nnorat nnorat nnorat Temperatur 28,3 17,8 22,2 27,2 Umiditate 86 65 90 75 Vnt Absent Prezent Prezent Absent Joc Da Da Da Da

Submulimea de instane din nodul valorii Ploaie este cea din tabelul urmtor.
Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Temperatur 21,1 20,0 23,9 18,3 21,7 Umiditate 96 80 80 70 91 Vnt Absent Absent Absent Prezent Prezent Joc Da Da Da Nu Nu

Pentru a evita calculele destul de laborioase, putem s analizm tabelul i s observm c dac sortm valorile Temperaturii sau Umiditii, valorile clasei Da i Nu vor fi intercalate. Pentru atributul Vnt, este clar c printr-o singur partiionare vor rezulta dou frunze omogene. Prin urmare, vom partiiona acest nod dup atributul Vnt. n cazul nodului corespunztor valorii Soare, submulimea de instane de antrenare este prezentat n tabelul urmtor.
146
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie Starea vremii Soare Soare Soare Soare Soare Temperatur 20,6 23,9 29,4 26,7 22,2 Umiditate 70 70 85 90 95 Vnt Absent Prezent Absent Prezent Absent Joc Da Da Nu Nu Nu

Atributul Vnt va avea o entropie medie de 0,951, ca i n cazul simbolic. Aplicm procedura partiionrilor multiple dup valori intermediare pentru atributul Temperatur, dup cum se observ n tabelul de mai jos.
Temperatur Joc Poziii de partiionare < 20,6 >= 20,6 21,4 > 21,4 22.2 Nu 23,05 > 23,05 23.9 Da 25,3 > 25,3 26.7 Nu 28,05 > 28,05 29,4 > 29,4 2 0 2 0 2 1 3 0 1,000 0,000 0,971 0,000 0,800 0,971 2 0 1 2 0,918 0,000 0,551 1 1 1 2 1,000 0,918 0,951 Numr Joc = Da 0 2 1 1 Numr Joc = Nu 0 3 0 3 Entropiile submulimilor 0,000 0,971 0,000 0,811 Entropia partiionrii 0,971

20.6

Da 0,649

29.4

Nu

Valoarea minim este 0,551 pentru referina 25,3. Pentru Umiditate, jumtate din partiionri sunt evitate considernd doar referinele unde se schimb clasa i rezult o valoare minim 0 pentru referina 77,5. Este clar c vom partiiona dup Umiditate, rezultnd i aici dou frunze omogene.

147
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare Umiditate Joc Poziii de partiionare < 70 >= 70 70 > 70 70 Da 77,5 > 77,5 85 Nu 87,5 > 87,5 90 Nu 92,5 > 92,5 95 > 95 2 0 3 0 0,971 0,000 0,971 2 0 0 3 0,000 0,000 0,000 Numr Joc = Da 0 2 Numr Joc = Nu 0 3 Entropiile submulimilor 0,000 0,971 Entropia partiionrii 0,971

70

Da -

95

Nu

Arborele final rezultat este cel prezentat n figura 7.5.

Starea vremii Soare nnorat Ploaie

Umiditate > 77,5 Nu <= 77,5 Da

Da Prezent Nu

Vnt Absent Da

Figura 7.5. Arborele de decizie pentru problema cu atribute mixte

148
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

7.7. Aplicarea modelului


Cunoscndu-se arborele de decizie construit, clasificarea unei noi instane este foarte simpl. Parcurcnd arborele cu valorile atributelor instanei, se clasific aceasta ntr-una din clase. Se testeaz mai nti atributul corespunztor rdcinii arborelui. Conform valorii atributului respectiv al instanei de interogare, se merge pe ramura aferent, se testeaz apoi atributul corespunztor nodului n care s-a ajuns i aa mai departe pn se ajunge ntr-un nod frunz care are clasa specificat. S considerm instana de interogare xq = (Soare, 26, 72, Absent). Clasificarea acesteia se realizeaz urmrind arborele din figura 7.5. Rdcina arborelui presupune un test al atributului Starea vremii. Pentru xq, valoarea acestuia este Soare, prin urmare continum parcurgerea arborelui pe ramura corespunztoare acestei valori. Urmeaz testul dup atributul Umiditate. Valoarea acestuia pentru xq este 72, care este mai mic sau egal cu 77,5. Urmnd ramura corespunztoare, ajungem n frunza etichetat Da. n consecin, instana xq este clasificat n clasa Da.

7.8. Erorile modelului


Aplicnd metodele prezentate n acest capitol, pot exista mai multe atribute cu acceai valoare minim a entropiei medii iar partiionarea se poate face dup oricare din ele, ns arborii de decizie finali rezultai pot fi complet diferii n funcie de aceast decizie. De asemenea, pot exista mulimi de date pentru care un model s fie greu de realizat i n consecin s existe erori chiar i la antrenare. De
149
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

exemplu, s considerm o problem de clasificare (adaptat dup Tan, Steinbach & Kumar, 2006) unde dorim s prezicem dac o persoan va returna un credit de la o banc, pe baza urmtoarelor atribute: Refinanare (dac i-a refinanat creditul), Stare civil i Venit (s spunem lunar, n lei).
Refinanare Da Nu Nu Da Nu Nu Da Nu Nu Nu Stare civil Necstorit Cstorit Necstorit Cstorit Divorat Cstorit Divorat Necstorit Cstorit Necstorit Venit 2500 2000 1400 2400 1900 1200 4400 1700 1500 1800 Nerambursare Nu Nu Nu Nu Da Nu Nu Da Nu Da

Cnd ncepem s aplicm procedura de construire a arborelui de decizie, constatm c partiionrile dup Starea civil i dup Venit sunt la fel de bune, avnd acelai ctig informaional. n funcie de aceast decizie iniial, rezultatele pot fi foarte diferite.

Starea civil Divorat Cstorit Necstorit

Refinanare Da Nu Nu Da

Nu Da Nu

Refinanare Nu Venit

< 1600 Nu

>= 1600 Da

150
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

Dac se alege partiionarea dup Starea civil, arborele rezultat va fi cel din figura anterioar. Dac se alege partiionarea alternativ dup Venit, arborele rezultat va fi urmtorul.

Venit < 1950 >= 1950

Starea civil Divorat Cstorit

Nu Necstorit

Da

Nu

Da

n frunza Da marcat cu gri, mulimea de date este cea din tabelul de mai jos.
Refinanare Da Nu Nu Da Nu Nu Da Nu Nu Nu Stare civil Necstorit Cstorit Necstorit Cstorit Divorat Cstorit Divorat Necstorit Cstorit Necstorit Venit 2500 2000 1400 2400 1900 1200 4400 1700 1500 1800 Nerambursare Nu Nu Nu Nu Da Nu Nu Da Nu Da

Prin excluderea atributelor deja tratate, nu mai exist alte opiuni pentru teste care s diferenieze clasele instanelor rmase i se ajunge ntr-o
151
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

frunz pe care o marcm cu clasa majoritar a instanelor sale. Arborele de decizie are o eroare chiar pe mulimea de antrenare, ceea ce nseamn c nu a putut fi creat un model suficient de bun pentru datele disponibile. n general, erorile corespunztoare mulimii de test sunt mai numeroase dect cele corespunztoare mulimii de antrenare.

7.9. Ctigul proporional


O alt problem care afecteaz performanele acestui tip de algoritmi este faptul c msura ctigului informaional favorizeaz atributele cu un numr mare de valori. De exemplu, dac am fi utilizat n clasificare coloana Nr. instan, cu 14 valori diferite, entropia medie ar fi fost 0, ntruct ar fi rezultat o partiionare cu 14 fii omogeni. Capacitatea de generalizare este n mod clar afectat de suprapotrivire. n acest scop, s-a propus msura ctigului proporional (engl. gain ratio, Quinlan, 1986). Folosind semnificaia notaiilor din ecuaiile 7.3 i 7.4, se introduce noiunea de informaie intrinsec:

(7.6)

Ctigul proporional este definit drept raportul dintre ctigul informaional i informaia intrinsec:

(7.7)
152
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 7. Arbori de decizie

La alegerea unui atribut pentru partiionare, ctigul proporional trebuie maximizat.

7.10. Ali algoritmi de inducie a arborilor de decizie


Procedura prezentat de construire a arborilor de decizie este euristic i deci nu garanteaz obinerea arborelui optim. Gsirea celui mai bun arbore posibil este o problem de optimizare NP dificil, care presupune ncercarea tuturor combinaiilor posibile de atribute. n general, utiliznd criterii i metode diferite de partiionare, pot rezulta mai muli arbori pentru aceeai mulime de antrenare. Algoritmul C4.5 (Quinlan, 1993) este o extensie a algoritmului ID3 care, pe lng tratarea atributelor continue, permite i partiionarea de mai multe ori dup acelai atribut. De asemenea, poate reteza sau simplifica arborele generat (engl. pruning) pentru a crete capacitatea de generalizare. Dac arborele este prea mare (are prea multe frunze), este ca i cum am crea cte o regul pentru fiecare instan, ceea ce evident poate conduce la suprapotrivire. Dup construirea unui arbore, anumite ramuri cu prea puine instane i care nu au un aport foarte important la clasificare pot fi retezate, astfel nct s creasc ansele de a generaliza mai bine. Dac datele sunt afectate de zgomot, retezarea poate elimina instanele eronate. Exist i o modalitate aleatorie de generare a arborilor (Random Tree). n acest caz nu se mai folosete un criteriu de omogenitate, ci se alege aleatoriu un atribut dup care se face partiionarea. Arborii sunt de dimensiuni mai mari, pe mulimea de antrenare dau erori n general nule, dar nu se garanteaz o capacitate de generalizare la fel de bun. n practic ns, funcioneaz destul de bine.
153
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Mai exist i o tehnic ce grupeaz mai muli arbori aleatorii (Random Forest), n care arborii sunt construii separat i pentru clasificarea unei noi instane fiecare d un vot privind clasa. Rezultatul este clasa care obine cele mai multe voturi.

7.11. Concluzii
Printre avantajele clasificrii cu arbori de decizie, menionm: Sunt relativ uor de construit, dei necesit totui o serie de calcule; Sunt rapizi la clasificarea instanelor noi; Sunt uor de interpretat, mai ales pentru arbori de dimensiuni mici; Un arbore de decizie poate fi interpretat ca o mulime de reguli, de exemplu: Dac vremea este nsorit i umiditatea este mai mic sau egal cu 77,5, atunci se poate juca golf.

154
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8

Clasificatorul bayesian naiv


8.1. Modelul teoretic
Metoda de clasificare bayesian naiv (engl. Nave Bayes) se bazeaz pe calcularea probabilitilor ca o anumit instan s aparin claselor problemei. ntr-o reea bayesian, se evita calcularea ntregii distribuii comune de probabilitate dup regula de nmulire a probabilitilor (engl. chain rule) presupunnd c un nod depinde doar de prinii si din graf. n metoda naiv, presupunerea simplificatoare este i mai puternic, considernd c toate atributele sunt independente dat fiind clasa. Acest fapt nu este neaprat adevrat, de cele mai multe ori, dimpotriv, condiia de independen poate s nu fie satisfcut. Cu toate acestea, s-a constatat c deseori metoda are rezultate foarte bune. Formal, se consider fiecare atribut i clasa ca variabile aleatorii. Se d o instan definit de valorile atributelor ( echivalent cu gsirea valorii fiind instana: ( ) (8.1) ) . Scopul este determinarea clasei C pentru aceast combinaie de valori, ceea ce este care maximizeaz probabilitatea clasei dat

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Aceast probabilitate trebuie estimat direct din datele mulimii de antrenare, pe baza frecvenelor relative de apariie a valorilor atributelor. Conform teoremei lui Bayes: ( ( ) ) ( )

(8.2)

) este aceeai pentru toate valorile clasei ntruct este

vorba despre aceeai instan pentru toate clasele. Ea depinde doar de valorile atributelor instanei i nu de clase, astfel nct o putem ignora atunci cnd vrem s maximizm cantitatea din partea dreapt a ecuaiei (8.2). Problema de clasificare devine echivalent cu alegerea valorii clasei care maximizeaz numrtorul: (8.3)

( )

Rmne de estimat probabilitatea instanei dat fiind clasa. Considernd c toate atributele sunt independente dat fiind clasa (presupunerea fundamental a metodei bayesiene naive), putem exprima acest produs sub forma: ( ) ( ) ( ) (8.4)

Dup cum vom vedea n continuare, putem estima uor din datele mulimii de antrenare ( ) pentru toate valorile atributelor i clasei . Problema de clasificare devine urmtoarea:

156
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv

( ) (

(8.5)

Metoda se reduce la gsirea clasei pentru care valoarea produsului este maxim.

8.2. Probleme cu atribute simbolice


Pentru a exemplifica modalitatea de calcul, vom considera aceeai problem ca n capitolul 7, privind oportunitatea de a juca golf sau nu (tabelul 8.1).
Tabelul 8.1. Problem de clasificare cu atribute simbolice
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Metoda bayesian naiv clasific o instan dat, care poate s fie una nou, care nu aparine mulimii de antrenare. n cazul de fa, fie aceast instan: xq = (Soare, Mare, Normal, Absent).
157
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Trebuie s realizm un numr de calcule egal cu numrul de clase. Apoi vom alege clasa pentru care probabilitatea de apartenen a instanei este maxim. Mai nti vom calcula produsul pentru clasa Joc = Da ( ). Din tabelul sortat dup valoarea clasei, se observ c aceast valoare apare de 9 ori.
Nr. instan 3 4 5 7 9 10 11 12 13 1 2 6 8 14 Starea vremii nnorat Ploaie Ploaie nnorat Soare Ploaie Soare nnorat nnorat Soare Soare Ploaie Soare Ploaie Temperatur Mare Medie Mic Mic Mic Medie Medie Medie Mare Mare Mare Mic Medie Medie Umiditate Mare Mare Normal Normal Normal Normal Normal Mare Normal Mare Mare Normal Mare Mare Vnt Absent Absent Absent Prezent Absent Absent Prezent Prezent Absent Absent Prezent Prezent Absent Prezent Joc Da Da Da Da Da Da Da Da Da Nu Nu Nu Nu Nu

Prin urmare: ( ) Pentru calculul probabilitilor condiionate din produs, numrm instanele care au valoarea dorit a atributului, numai n clasa considerat. De exemplu, pentru atributul Starea vremii, ne intereseaz cte instane au valoarea Soare (dat de instana de interogare ).

158
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv Nr. instan 9 11 3 7 12 13 4 5 10 Starea vremii Soare Soare nnorat nnorat nnorat nnorat Ploaie Ploaie Ploaie Joc Da Da Da Da Da Da Da Da Da

Din tabelul de mai sus, se poate vedea c numai 2 instane din cele 9 din clasa Da au valoarea Soare. Deci:

Analog se procedeaz i pentru restul atributelor, obinnd:

( ( (

) ) )

Aceleai calcule se realizeaz pentru clasa Nu (N):

( ) ( )

159
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

( ( (

) ) )

Putem calcula acum produsele pentru fiecare clas:

( )

( )

Valoarea maxim este prima i deci instana va fi clasificat n clasa Da.

8.3. Considerente practice


8.3.1. Corecia Laplace Deoarece clasificarea se bazeaz pe calcularea unor produse, dac un factor este 0, ntregul produs devine 0. S considerm urmtoarea mulime de antrenare:

160
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv Starea vremii nnorat Ploaie nnorat Soare Soare Ploaie Umiditate Mare Mare Mare Mare Mare Normal Joc Da Da Da Nu Nu Nu

i instana pe care dorim s o clasificm: xq = (nnorat, Normal). Mai nti realizm calculele pentru clasa Da:

( ) ( ( ) )

Apoi realizm calculele pentru clasa Nu:

( ) ( ( ) )

Calculnd produsele de probabiliti, se vede c ambele sunt 0 i deci nu putem lua nicio decizie de clasificare a instanei :

( ) ( )

( (

) )
161

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

n general, pentru mai multe clase, dac n fiecare produs exist cte un factor nul, atunci toate produsele, pentru toate clasele, se anuleaz. Totui, ceilali factori nenuli ai produsului ne-ar putea da informaii relevante pentru clasificare. n acest sens, exist metode care garanteaz c niciun produs nu va fi 0. n locul calculului tipic al frecvenelor relative ca raport ntre numrul de apariii a unei valori a atributului i n clasa j (nij) i numrul de apariii a valorii clasei j (nj):

(8.6)

se poate folosi estimarea-m (engl. m-estimate) care netezete probabilitile aplicnd urmtoarea formul de calcul:

(8.7)

Corecia Laplace poate fi considerat un caz particular al estimriim unde, dac c este numrul de clase, putem considera rezultnd: i ,

(8.8)

Practic, se adaug la numrtor 1 i la numitor numrul de clase. n acest mod, toi factorii vor avea valori ( ) Probabilitile sunt estimate ca frecvene relative din date, dar nu cunoatem valorile absolute. Teoretic, ar putea s mai existe instane pe care nc nu le-am ntlnit i atunci considerm a-priori c mai exist cte o instan din fiecare clas.
162
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv

Din punct de vedere filosofic, faptul c probabilitile nu pot fi 0 sau 1 ne conduce la ideea c nu putem fi siguri niciodat de ceva c e adevrat sau fals n mod absolut. Pentru exemplul simplificat, vom avea acum:

( ) ( )

( (

) )

i deci se poate lua o decizie (Da), iar rezultatul este conform cu analiza mulimii de antrenare, unde valoarea nnorat apare n clasa Da de dou ori iar valoarea Normal apare n clasa Nu o singur dat. Pentru exemplul iniial din seciunea 8.2, aplicnd corecia Laplace vom avea: ( ) ( ) ( ( ) )

Rezultatul clasificrii nu se schimb deoarece conteaz doar comparaia, nu cantitile propriu-zise. Pentru metoda bayesian naiv, partea calitativ este mai important dect partea cantitativ. Corecia Laplace este foarte util mai ales la clasificarea textelor, unde atributele sunt cuvintele nsele i, avnd multe documente, este probabil ca din acestea s lipseasc anumii termeni.

163
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

8.3.2. Precizia calculelor O alt problem care poate s apar este faptul c un produs de probabiliti subunitare cu muli factori poate fi afectat de precizia reprezentrii numerelor. Astfel, dac valoarea produsului devine mai mic dect cantitatea minim care poate fi reprezentat n virgul mobil, rezultatul va deveni 0. O soluie este logaritmarea i n acest caz, produsul de probabiliti este nlocuit cu suma logaritmilor de probabiliti. De exemplu, pentru calculul ( ) ( ) de mai sus, vom avea:

( ( )

))

( )

Pentru simplitate, mai sus am inclus doar 3 zecimale. Desigur, pentru o precizie suficient a rezultatului, reprezentarea termenilor sumei trebuie s fie corespunztoare.

8.4. Probleme cu atribute numerice


Pentru atribute numerice, exist mai multe modaliti de abordare. Dup cum am explicat n seciunea 7.2, valorile acestora pot fi discretizate, rezultnd atribute ordinale. De asemenea, se poate aplica partiionarea binar: se alege o valoare de referin iar valorile atributului rezultat vor fi

164
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv

Da sau Nu, dac valorile atributului iniial sunt mai mari sau mai mici, respectiv, dect referina. O abordare specific metodei bayesiene naive este mai complex i mai puin folosit n practic, ns interesant din punct de vedere conceptual. Ideea de baz este asemntoare cu aceea de la corecia Laplace sau estimarea-m: estimarea distribuiei de probabilitate. Putem presupune de exemplu c valorile atributului numeric respect o distribuie normal (gaussian). Nu este obligatoriu s respecte aceast distribuie; dac tim c datele urmeaz alte distribuii, putem estima parametrii acestora. Pentru distribuia normal, parametrii pe care trebuie s i determinm sunt media i deviaia standard :

(8.9)

(8.10)

Probabilitile utilizate apoi n clasificarea bayesian naiv sunt calculate din distribuia normal:
( )

(8.11)

Pentru a exemplifica, vom considera mulimea de date cu atribute numerice analizat i n capitolul precedent (tabelul 8.2):

165
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Tabelul 8.2. Problem de clasificare cu atribute mixte


Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

i ne propunem clasificarea instanei: xq = (Soare, 26, 72, Absent). Pentru atributele simbolice, calculele sunt aceleai ca n seciunea 8.2. Pentru atributul Temperatur, pentru clasa Da, media valorilor este 22,778 iar deviaia standard este 3,214. Prin urmare: ( )
( )

Pentru clasa Nu, media valorilor este 23,66 iar deviaia standard este 3,922 i vom avea: ( )

Pentru atributul Umiditate, probabilitile vor fi: ( )


( )

166

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 8. Clasificatorul bayesian naiv

n final:

( ) ( )

( (

) )

i rezultatul este din nou clasa Da.

8.5. Concluzii
Dintre avantajele metodei de clasificare bayesiene naive menionm calculele simple i robusteea la zgomot i atribute irelevante. De aceea, este foarte potrivit pentru mulimi de antrenare de dimensiuni medii sau mari (de exemplu pentru clasificarea documentelor text, detecia spam-ului, diagnoz etc.). Chiar dac se bazeaz pe independena atributelor dat fiind clasa, metoda funcioneaz de multe ori bine chiar i atunci cnd presupunerea este infirmat n realitate.

167
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

168
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9

Clasificarea bazat pe instane


9.1. Introducere
O alt metod de clasificare este cea bazat pe instane, care presupune memorarea efectiv a tuturor instanelor de antrenare. Mai ales n cazul arborilor de decizie, pentru a clasifica noi instane ncercm s realizm un model al datelor de antrenare. Dac avem o mulime de 10000 de instane, este teoretic posibil s construim un arbore de decizie de dimensiuni (mult) mai mici, care s le modeleze. Aici, memorm pur i simplu toate informaiile iar clasificarea presupune estimarea similaritii unei noi instane fa de cele existente, la fel cum clasific oamenii noi obiecte sau situaii prin analogie cu cele cunoscute deja. Instanele, definite de valorile atributelor lor, pot fi vzute ca nite puncte ntr-un spaiu n-dimensional, unde n este numrul de atribute. De exemplu, s considerm o problem de estimare a riscului cardiovascular al unor pacieni, innd seama de vrst (n ani) i de indicele masei corporale: este nimea (n metri). Dup cum se poate vedea n figura 9.1, dac avem dou atribute numerice, fiecare instan reprezint un punct n plan. Instanele ncercuite semnific pacieni cu risc crescut, iar cele nencercuite pacieni cu risc sczut. , unde G este greutatea (n kilograme) iar I

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Figura 9.1. Reprezentare grafic a unei probleme de clasificare

n acest plan, calculm ct de aproape este o nou instan, marcat cu ?, fa de cele de antrenare. n cazul algoritmului cel mai apropiat vecin (engl. nearest neighbor, NN) identificm instana din mulimea de antrenare cea mai apropiat de instana de interogare i rezultatul clasificrii este clasa instanei respective din mulimea de antrenare. n cazul algoritmului cei mai apropiai k vecini (engl. k-nearest neighbor, kNN) identificm cele mai apropiate k instane i clasificm noua instan pe baza votului majoritar al acestor vecini. Dintre cele k instane de antrenare selectate, se numr cte aparin fiecrei clase a problemei iar rezultatul este clasa n care se gsesc cele mai multe.

9.2. Metrici de distan


Pentru a vedea ct de apropiate sunt instanele, avem nevoie de o metric de distan. De obicei se folosesc particularizri ale distanei Minkowski:
170
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

(|

| )

(9.1)

unde x i y sunt vectori n-dimensionali iar p este un parametru. Cnd utilizate n practic. De exemplu, s considerm dou puncte bidimensionale A i B, definite de coordonatele {1, 2}, respectiv {4, 6}. Prin urmare, cele dou puncte.
6 B

formula indic distana euclidian. Cnd

formula

indic distana Manhattan. Aceste dou metrici de distan sunt cele mai

. Figura 9.2 indic distana euclidian i distana Manhattan dintre

Di sta n ae p= ucli 2 dia n

Distana Manhattan p=1

Figura 9.2. Distana euclidian i distana Manhattan

n tabelul 9.1 se calculeaz valoarea distanei dintre puncte pentru diferite valori ale parametrului p.

171
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Tabelul 9.1. Valorile distanei cnd parametrul p variaz


p ( ) d

9.3. Scalarea atributelor


n mulimea de date putem avea atribute de orice fel, cu orice fel de valori. Putem avea de exemplu: nlimea unei persoane Greutatea unei persoane Venitul unei persoane [1,5, 2,1] m; [50, 120] kg; [9600, 60000] lei/an.

Toate aceste atribute intervin n clasificare i pentru calculul distanei; dac vom considera primul i al treilea atribut, este evident c va conta n mult mai mare msur ultimul. De exemplu, s comparm dou persoane cu venituri 30000 i 31000 i nime 1,5 i 2,1. Pentru venituri, aceasta este o diferen mic, n timp ce nlimile sunt la marginile intervalului. n schimb, valoarea absolut a diferenei de venit este att de mare, nct domin clasificarea. De aceea, se folosete n general normalizarea atributelor, ca un pas de preprocesare a datelor, astfel nct toate atributele s aib valori ntre 0 i 1, aplicnd formula de transformare:

172
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

( (

) )

(9.2)

9.4. Calculul distanelor pentru diferitele tipuri de atribute


Deoarece algoritmii NN i kNN se bazeaz pe calculul unor distane, trebuie s definim diferenele dintre valorile atributelor din punct de vedere numeric. Vom descrie nite metode n acest scop pentru fiecare tip de atribut. Pentru atributele nominale, distana dintre valorile unui atribut se consider 0 dac valorile sunt egale i 1 dac sunt diferite. ntre valorile atributului nu exist alte relaii i prin urmare nu exist distane intermediare ntre 0 i 1. Pentru atribute ordinale, se pot considera valorile egal distribuite ntre 0 i 1. De exemplu, pentru trei valori { Mic, Mediu, Mare }, se poate considera transformarea: Mic = 0, Mediu = 0,5 i Mare = 1. Calculul distanelor va fi valoarea absolut a acestor valori numerice, precum: d(Mic, Mare) = 1, d(Mic, Mediu) = d(Mediu, Mare) = 0,5 .a.m.d. Pentru atributele numerice, distana este valoarea absolut a diferenei dintre valorile normalizate ale atributelor.

9.5. Numrul optim de vecini


Decizia privind numrul de vecini considerai este foarte important. Dup cum se poate vedea n figura 9.3, mrind numrul de vecini (implicit

173
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

distana fa de instana de interogare), putem s lum n calcul doi, trei vecini sau chiar toate instanele de antrenare. ns dac instanele unei clase sunt grupate, cum este cazul de obicei, pe msur ce mrim distana i includem mai muli vecini, s-ar putea s ne ndeprtm prea mult i s includem instane din alte clase, care vor afecta rezultatul clasificrii.

Figura 9.3. Vecintile unui punct cu 1, 2 i 3 vecini

Determinarea numrului optim de vecini k poate fi dificil. Cnd k este prea mic, clasificarea poate fi afectat de zgomot. Cnd k este prea mare, vecintatea poate include puncte din alte clase. Figura 9.4 prezint regiunile de decizie pentru o problem arbitrar de clasificare binar cu instane de antrenare bidimensionale albe i negre, culoarea indicnd clasa instanei. Regiunile de decizie indic deciziile de clasificare pentru toate punctele din plan fiecare punct este considerat o instan de interogare care trebuie clasificat n funcie de instanele de antrenare date. Dup cum se vede din aceast figur, la aceast metod de clasificare regiunile de decizie sunt oarecum neregulate dar interesante, ceea ce le confer i o anumit calitate estetic.

174
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

Figura 9.4. Regiuni de decizie pentru o problem de clasificare binar

Atunci cnd datele de antrenare sunt afectate de zgomot, clasa celui mai apropiat vecin ar putea fi greit, iar mai muli vecini ar putea compensa erorile. Figura 9.5 prezint regiunile de decizie ntr-o astfel de situaie pentru

Figura 9.5. Regiuni de decizie pentru date afectate de zgomot cu k = 1

175
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Figura 9.6 prezint regiunile de decizie pentru

Figura 9.6. Regiuni de decizie pentru pentru date afectate de zgomot cu k = 3

Se vede c n ciuda existenei unei instane negre n zona alb, regiunea de decizie alb nu mai conine acum o subregiune neagr. n general, nu putem spune care din situaiile prezentate n figurile 9.5 i 9.6 este de dorit. Dac punctul negru izolat este corect, acesta poate reprezenta o excepie important, iar algoritmul NN este o metod foarte bun pentru a-l lua n considerare. Metoda bayesian naiv, unde impactul majoritii este puternic, poate l-ar fi ignorat. Pentru un arbore de decizie ar putea reprezenta o eroare pe mulimea de antrenare, sau dac se folosete retezarea, frunza corespunztoare ar putea fi eliminat. Dac punctul este ns clasificat greit, este bine s fie eliminat sau influena lui s fie redus, ceea ce se poate realiza considernd un numr mai mare de vecini. Pentru fiecare abordare exist avantaje i dezavantaje. n general, numrul optim de vecini se poate determina prin validare ncruciat, metod prezentat n seciunea 6.5.

176
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

9.6. Blestemul dimensionalitii


O alt problem la care sunt sensibile metodele bazate de instane este aa numitul blestem al dimensionalitii. Dac ne imaginm un segment de dreapt ntre 0 i 1, lungimea sa este 1. Dac ne imaginm un ptrat, lungimea ntre vrfurile opuse, de coordonate (0,0) i (1,1), este . Dac ne imaginm un cub, lungimea diagonalei este . Dac avem un hipercub cu 100 de dimensiuni, lungimea diagonalei este 10. Cu ct crete numrul de atribute, datele devin mai rare n acel spaiu. Dac avem 3 valori distribuite egal pe diagonale, n spaiul unidimensional distana ntre ele este 0,5 (0 0,5 1), pe cnd n spaiul cu 100 de dimensiuni, distana este 5. Cu ct sunt mai rare datele, cu att este mai greu pentru clasificator s realizeze un model precis. De asemenea, dac vom considera un grid pe care valorile sunt egal distribuite, cte 3 pe fiecare dimensiune, pentru a pstra o distan constant ntre valori, n cazul unidimensional avem nevoie de 3 date, n cazul 2D avem nevoie de 9 date, n cazul 3D avem nevoie de 27 date iar n cazul 100D avem nevoie de exponenial. date. Odat cu creterea dimensionalitii, necesarul de date pentru a pstra aceeai densitate crete

9.7. Ponderarea instanelor


Dup cum am menionat, este greu s determinm cea mai bun valoare pentru numrul de vecini. Putem ns s ne gndim c vecinul cel mai apropiat, fiind mai asemntor, conteaz mai mult pentru clasificare

177
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

dect instanele mai ndeprtate. Se poate face astfel ponderarea contribuiei instanelor de antrenare n funcie de distana fa de instana de interogare. O funcie des utilizat pentru ponderare este inversul ptratului distanei:

(9.3)

unde i este indicele unei instane de antrenare iar d este o metric de distan. Distana este o msur a similaritii: cnd distana este mare, similaritatea i deci i ponderea corespunztoare, tind la 0. Cnd distana este mic, ponderea crete. Dac ( ) , ceea ce ar presupune ca ponderea s tind la ) ( ). infinit, dominnd oricum clasificarea, se alege direct clasa corespunztoare instanei din acel punct: ( Prin ponderare, putem folosi ntreaga mulime de antrenare pentru clasificare, ntruct instanele mai ndeprtate vor avea pondere mai mic i nu vor conta foarte mult. Este ca i cum vecintatea optim ar fi determinat n mod dinamic. Astfel, se transform abordarea local, cu o submulime de k instane, ntr-o abordare global.

9.8. Ponderarea i selecia atributelor


Selecia atributelor este o problem esenial din punct de vedere psihologic. Ponderea atributelor, nu a instanelor, este foarte important

178
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

pentru modul n care iau oamenii decizii. Aceste ponderi semnific ceea ce considerm mai semnificativ la un moment dat. S spunem c o persoan culege flori, fr nicio alt constrngere. Atributele cele mai importante pot fi culoarea, mirosul, aspectul estetic etc. Dar dac merge s caute plante medicinale, importana atributelor se modific pentru a respecta noile criterii proprietile medicinale (dup Miclea, 1999). Instanele (plantele) i atributele (criteriile) sunt aceleai, dar decizia de clasificare, de a culege sau nu anumite exemplare, depinde de importana atributelor. Scopul omului determin importana atributelor. Din punct de vedere computaional, schimbarea ponderii atributelor este echivalent cu lungirea sau scurtarea axelor n spaiul multidimensional. Atributelor mai importante le vor corespunde axe mai lungi, ceea ce determin distane mai mari, ce vor avea un efect mai puternic asupra rezultatului clasificrii, chiar dac valorile instanelor rmn normalizate ntre 0 i 1. Axele corespunztoare atributelor mai puin importante, care pot fi i irelevante, se scurteaz. O modalitate de a determina importana atributelor este chiar utilizarea ctigului informaional, descris n seciunea 7.4. Exist i algoritmi specializai, cum ar Relief (Kira & Rendell, 1992; Kononenko, 1994). Ideea de baz este urmtoarea. Se iniializeaz ponderile atributelor cu 0. Pentru fiecare instan xq din mulimea de antrenare, se gsete cea mai apropiat instan din aceeai clas (hit) i cea mai apropiat instan dintr-o clas diferit (miss) i se actualizeaz ponderea atributului dup formula:

179
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

(9.4)

Pentru a explica funcionarea sa, vom considera o problem de clasificare binar (D sau N) cu dou atribute. Instanele au urmtoarele valori pentru atributul 1, n coresponden cu clasa:
Atributul 1 x11 = 1 x21 = 1,5 x31 = 2 x41 = 3 Clasa C=N C=N C=D C=D

Algoritmul se bazeaz pe o serie de iteraii, n care valorile sunt normalizate, diferena dintre valoarea maxim i cea minim fiind 3 1 = 2:
x11: hit x21, miss x31, w1 = (1 0,5) / 2 = 0,25 x21: hit x11, miss x31, w1 = (0,5 0,5) / 2 = 0 x31: hit x41, miss x21, w1 = (0,5 1) / 2 = -0,25 x41: hit x31, miss x21, w1 = (1,5 1) / 2 = 0,25 w1 = 0,25 w1 = 0,25 w1 = 0 w1 = 0,25

n aceast situaie, w1 = 0,25. Pentru atributul 2, s presupunem c instanele au urmtoarele valori n coresponden cu clasa:
Atributul 2 x12 = 1 x22 = 2 x32 = 1,5 x42 = 3 Clasa C=N C=N C=D C=D

180
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane x12: hit x22, miss x32, w2 = (0,5 1) / 2 = -0,25 x22: hit x12, miss x32, w2 = (0,5 1) / 2 = -0,25 x32: hit x42, miss x12, w2 = (0,5 1,5) / 2 = -0,5 x42: hit x32, miss x22, w2 = (1 1,5) / 2 = -0,25 w2 = -0,25 w2 = -0,5 w2 = -1 w2 = -1,25

n aceast situaie, w2 = -1,25. Se observ c atributul 1 este mai important, deoarece separ mai uor cele dou clase, cu o singur valoare de referin: 1,75. Spre deosebire de metoda bayesian naiv, algoritmii NN i kNN sunt mai sensibili la prezena atributelor irelevante. De aceea, eliminarea acestora poate mbunti foarte mult performanele de clasificare. Cunoscnd ponderile atributelor, poate fi selectat o submulime de atribute mai importante. Acest fapt conduce de asemenea la scderea numrului de dimensiuni i la creterea vitezei clasificrii.

9.9. Exemplu de clasificare


Pentru exemplificarea celor doi algoritmi, NN i kNN, vom considera aceeai problem a jocului de golf n funcie de condiiile meteorologice, cu atribute att simbolice ct i numerice, prezentat din nou n tabelul 9.1. Ne propunem clasificarea instanei: xq = (Soare, 26, 72, Absent). Putem interpreta atributul Starea vremii ca fiind ordinal, cu ordinea valorilor { Ploaie, nnorat, Soare }. Acestea vor lua valorile numerice 0, 0,5, respectiv 1. Atributul Vnt este binar i putem transforma valorile simbolice Absent i Prezent n valorile numerice 0, respectiv 1. Mulimea de antrenare va deveni acum cea din tabelul 9.2.

181
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Tabelul 9.1. Problem de clasificare cu atribute mixte


Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Tabelul 9.2. Transformarea atributelor simbolice n atribute numerice


Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii 1 1 0,5 0 0 0 0,5 1 1 0 1 0,5 0,5 0 Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt 0 1 0 0 0 1 1 0 0 0 1 1 0 1 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu

Valorile atributului Temperatur aparin intervalului [17,8, 29,4], iar valorile atributului Umiditate aparin intervalului [65, 96]. Acestea trebuie normalizate, conform ecuaiei 9.2, i sunt prezentate n tabelul 9.3.

182
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

Tabelul 9.3. Normalizarea atributelor


Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Temperatur normalizat 1,000 0,767 0,905 0,284 0,190 0,043 0,000 0,379 0,241 0,526 0,526 0,379 0,810 0,336 Umiditate normalizat 0,645 0,806 0,677 1,000 0,484 0,161 0,000 0,968 0,161 0,484 0,161 0,806 0,323 0,839

Ca metric de distan vom utiliza distana euclidian. Algoritmii presupun calculul distanelor dintre xq i toate instanele din mulimea de antrenare. Instana de interogare trebuie i ea transformat n acelai mod.
Starea vremii Soare 1 Temperatur 26 0.707 Umiditate 72 0.226 Vnt Absent 0 Joc ? ?

Distana dintre

i instana de antrenare

se calculeaz lund n

considerare toate atributele: ( ) ( ) ( ) ( ) ( )

Analog se procedeaz pentru toate celelalte instane din mulimea de antrenare, rezultatele fiind precizate n tabelul 9.4.

183
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Partea a II-a. Tehnici de clasificare

Tabelul 9.4. Calculul distanelor


Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii 1 1 0,5 0 0 0 0,5 1 1 0 1 0,5 0,5 0 Temperatur 1 0,767 0,905 0,284 0,19 0,043 0 0,379 0,241 0,526 0,526 0,379 0,81 0,336 Umiditate 0,645 0,806 0,677 1 0,484 0,161 0 0,968 0,161 0,484 0,161 0,806 0,323 0,839 Vnt 0 1 0 0 0 1 1 0 0 0 1 1 0 1 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu Distana 0,5113 1,1576 0,7019 1,3334 1,1549 1,5637 1,3420 0,8113 0,4705 1,0485 1,0183 1,3015 0,5196 1,5854

Pentru atributul Starea vremii am fcut presupunerea c este de tip ordinal i de aceea pentru instanele 3, 7, 12 i 13 distana pe acest atribut este 0,5. Dac l-am fi considerat simbolic, aceste distane ar fi fost 1. Tabelul de mai jos conine aceleai date sortate n ordine cresctoare a distanei.
Nr. instan 9 1 13 3 8 11 10 5 2 12 4 7 6 14 Starea vremii 1 1 0,5 0,5 1 1 0 0 1 0,5 0 0,5 0 0 Temperatur 0,241 1 0,81 0,905 0,379 0,526 0,526 0,19 0,767 0,379 0,284 0 0,043 0,336 Umiditate 0,161 0,645 0,323 0,677 0,968 0,161 0,484 0,484 0,806 0,806 1 0 0,161 0,839 Vnt 0 0 0 0 0 1 0 0 1 1 0 1 1 1 Joc Da Nu Da Da Nu Da Da Da Nu Da Da Da Nu Nu Distana 0,4705 0,5113 0,5196 0,7019 0,8113 1,0183 1,0485 1,1549 1,1576 1,3015 1,3334 1,3420 1,5637 1,5854

184
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Capitolul 9. Clasificarea bazat pe instane

Dac se aplic algoritmul NN, avem nevoie doar de instana cea mai apropiat de xq, n acest caz x9. Algoritmul nu necesit sortarea datelor dup distan, ci doar gsirea instanei cu distan minim. Rezultatul clasificrii cu NN va fi clasa instanei x9, adic Da. Dac se aplic algoritmul kNN, putem considera cei mai apropiai (de exemplu 3) vecini, sau pe toi. Tabelul urmtor indic rezultatele clasificrii dup numrul de voturi ai vecinilor.
Numrul de vecini k=1 k=2 k=3 k=4 k = 14 Numrul de voturi 1 Da 0 Nu 1 Da 1 Nu 2 Da 1 Nu 3 Da 1 Nu 9 Da 5 Nu Decizia de clasificare Da Indecis Da Da Da

De asemenea, putem pondera influena vecinilor conform ecuaiei 9.3. Tabelul 9.5 prezint ponderile instanelor, ca inverse ale ptratelor distanei euclidiene.
Tabelul 9.5. Ponderarea instanelor
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu Distana 0,5113 1,1576 0,7019 1,3334 1,1549 1,5637 1,3420 0,8113 0,4705 1,0485 1,0183 1,3015 0,5196 1,5854 185
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Ponderea 3,8254 0,7463 2,0300 0,5624 0,7497 0,4090 0,5553 1,5194 4,5171 0,9096 0,9643 0,5903 3,7035 0,3979

Partea a II-a. Tehnici de clasificare

Se calculeaz suma ponderilor pentru instanele care au clasa Da: i suma ponderilor pentru instanele care au clasa Nu: . Prin urmare, instana de interogare este clasificat n clasa Da.

9.10. Concluzii
Clasificatorii bazai pe instane sunt considerai pasivi (engl. lazy learners), deoarece modelul nu este construit explicit iar efortul de calcul se face la aplicarea modelului, pentru clasificarea instanelor noi. n schimb, arborii de decizie de exemplu sunt considerai clasificatori activi (engl. eager learners), deoarece efortul de calcul se face la crearea modelului, naintea clasificrii efective a unei instane noi. Clasificatorii pasivi necesit mai puin timp de calcul pentru antrenare i mai mult pentru predicie. Ratele de eroare ale algoritmilor NN i kNN sunt de obicei mici. Dac nu exist zgomot n date, rata de eroare pe mulimea de antrenare este n general 0. ntruct folosesc toate informaiile disponibile, i capacitatea de generalizare este de multe ori foarte bun. Determinarea celui mai apropiat vecin are o complexitate de timp liniar n numrul de instane. Pentru mulimi de antrenare foarte mari, timpul poate fi redus prin utilizarea, de exemplu, a arborilor k-dimensionali (engl. kd-trees, Bentley, 1975), unde k semnific aici numrul de atribute (sau dimensiuni). Astfel, complexitatea poate fi redus la un nivel logaritmic. Cu toate acestea, cnd numrul de atribute este foarte mare, comparabil cu numrul de instane, performanele cutrii cu arbori kd devin apropiate cutrii exhaustive. Pentru ca aceast metod s fie eficient, trebuie ndeplinit condiia este numrul de atribute.
186
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

, unde n este numrul de instane iar k

Referine
[1] Aaronson, S. (2006). Quantum Computing Since Democritus, http://www.scottaaronson.com/democritus/default.html [2] Amir, E. & Richards, M. (2008). Variable Elimination in Bayesian Networks, http://www.cs.uiuc.edu/class/sp08/cs440/notes/ varElimLec.pdf [3] Ardis, P. (2010). Notes on Dempster Shafer Belief Functions, www.cs.rochester.edu/~ardis/DempsterShafer.pdf [4] Bao, J. (2002). Artificial Intelligence Exercises, http://www.cs.iastate.edu/~baojie/acad/teach/ai/hw4/200212-06_hw4sol.htm [5] Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances, Philosophical Transactions of the Royal Society of London, vol. 53, pp. 370-418 [6] Bentley, J. L. (1975). Multidimensional binary search trees used for associative searching, Communications of the ACM, vol. 18, no. 9, pp. 509-517 [7] BlackLight Power Inc. (2005). Double Slit. Explanation of Classical Electron Diffraction, http://www.blacklightpower.com/ theory-2/theory/double-slit/ [8] Breiman, L. (1996). Some Properties of Splitting Criteria, http:// fbf.cba.ua.edu/~mhardin/BreimanMachineLearning1996.pdf

Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Inteligen artificial: raionament probabilistic, tehnici de clasificare

[9] Breiman, L., Friedman, J. H., Olshen, R. A. & Stone, C. J. (1984). Classification and regression trees, Wadsworth & Brooks/Cole Advanced Books & Software, Monterey, California [10] Changing Minds (2012). Types of data, http://changingminds.org/ explanations/research/measurement/types_data.htm [11] Cheng, J. & Druzdzel, M. J. (2000). AIS-BN: An Adaptive Importance Sampling Algorithm for Evidential Reasoning in Large Bayesian Networks, Journal of Artificial Intelligence Research, vol. 13, pp. 155-188 [12] Cheng, J. & Druzdzel, M. J. (2000). Latin hypercube sampling in Bayesian networks, in Proceedings of the Thirteenth International Florida Artificial Intelligence Research Society Conference (FLAIRS-2000), Jim Etheredge & Bill Manaris (eds), pp. 287-292, Menlo Park, California, AAAI Press [13] Cheng, J. (2001). Efficient stochastic sampling algorithms for Bayesian networks, Ph.D. Dissertation, School of Information Sciences, University of Pittsburgh, http://www2.sis.pitt.edu/ ~jcheng/Cheng_dissertation.pdf [14] Dempster, A. P. (1968). A generalization of Bayesian inference, Journal of the Royal Statistical Society, Series B, vol. 30, pp. 205-247 [15] Doherty, M., Learning: Introduction and Overview, http://www1.pacific.edu/~mdoherty/comp151/lectures/ learning_intro.ppt [16] Freund, Y. & Schapire, R. E. (1995). A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting, Proceedings of the Second European Conference on

188
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Referine

Computational Learning Theory, pp. 23-37, Springer-Verlag London, UK [17] Fung, R. & Chang, K. (1990). Weighting and integrating evidence for stochastic simulation in bayesian networks, in M. Henrion, R.D. Shachter, L. N. Kanal, and J. F. Lemmer (eds.), Uncertainty in Artificial Intelligence, vol. 5, pp. 209-219, North Holland, Amsterdam [18] Hjek, A. (2012). Interpretations of Probability, The Stanford Encyclopedia of Philosophy (Summer 2012 Edition), Edward N. Zalta (ed.), http://plato.stanford.edu/archives/sum2012/ entries/probability-interpret/ [19] Han, D., Han. C. & Yang, Y. (2008). A Modified Evidence Combination Approach Based on Ambiguity Measure, Proceedings of the 11th International Conference on Information Fusion, pp. 1-6 [20] Harrison D. M. (2008). Mach-Zehnder Interferometer, http://www.upscale.utoronto.ca/GeneralInterest/Harrison/ MachZehnder/MachZehnder.html [21] Hsu, W. H. (2001). Decision Trees, Occams Razor, and Overfitting, http://www.kddresearch.org/Courses/Fall-2001/ CIS732/Lectures/Lecture-05-20010906.pdf [22] Hunt, E.B. (1962). Concept learning: An information processing problem, Wiley, NewYork [23] Kahn, A. B. (1962). Topological sorting of large networks, Communications of the ACM, vol. 5, no. 11, pp. 558-562 [24] Keynes, J. M. (1921). A Treatise on Probability (Chapter IV. The Principle of Indifference), Macmillan and Co.

189
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Inteligen artificial: raionament probabilistic, tehnici de clasificare

[25] Kira, K. & Rendell, L. A. (1992). A Practical Approach to Feature Selection, Proceedings of the Ninth International Workshop on Machine Learning, pp. 249-256 [26] Kononenko, I. (1994). Estimation Attributes: Analysis and Extensions of RELIEF, European Conference on Machine Learning, Catania, Italy, Springer-Verlag [27] Kubalik, J. (2000). Machine Learning, http://cyber.felk.cvut.cz/ gerstner/HUT2000/ml/ml1.ppt [28] Lawrence, A. E. (1997). Microprocessor Unit (PU): Glossary, http://www-staff.lboro.ac.uk/~coael/gloss.html [29] Lee, P. M. (1989). Bayesian Statistics: an introduction, Oxford University Press. [30] Livescu, K. (2003). A Practical Introduction to Graphical Models and their use in ASR, http://people.csail.mit.edu/klivescu/ 6.345/6.345-spring03_v4.ppt [31] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, pp. 281-297 [32] Miclea, M. (1999). Psihologie cognitiv, Polirom, Iai [33] Mitchell, T. M. (1997). Machine Learning, McGraw-Hill Science/ Engineering/Math [34] Moore, A. (2001). Probabilistic and Bayesian Analytics, http://www.autonlab.org/tutorials/prob17.pdf [35] Nielsen, M. A. & Chuang, I. L. (2010). Quantum Computation and Quantum Information, 10th Anniversary Edition, Cambridge University Press
190
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Referine

[36] Nilsson, N. J. (2001). Introduction to Machine Learning, http://robotics.stanford.edu/people/nilsson/mlbook.html [37] Ooi, Y. H. (2004). Simpsons Paradox A Survey of Past, Present and Future Research, University of Pennsylvania, http://repository.upenn.edu/cgi/viewcontent.cgi?article=1014 [38] Paskin, M. (2003). A Short Course on Graphical Models. Structured Representations, http://ai.stanford.edu/~paskin/ gm-short-course/lec2.pdf [39] PEAR (2010). Princeton Engineering Anomalies Research. Scientific Study of Consciousness-Related Physical Phenomena, http://www.princeton.edu/~pear/ [40] Quinlan, J. R. (1986). Induction of Decision Trees, Machine Learning, vol. 1, pp. 81-106 [41] Quinlan, J. R. (1993). C4.5: Programs for Machine Learning, Morgan Kaufman Publishers [42] Rogers, T. (2001). Simpsons's Paradox - When Big Data Sets Go Bad, in Amazing Applications of Probability and Statistics, http://www.intuitor.com/statistics/SimpsonsParadox.html [43] Russell, S. J. & Norvig, P. (2002). Artificial Intelligence: A Modern Approach, Prentice Hall, 2nd Edition [44] Seo, Y. W. & Sycara, K. (2006). Combining multiple hypotheses for identifying human activities, Technical report CMU-RI-TR06-31, Robotics Institute, Carnegie Mellon University [45] Shachter, R. D. & Peot, M. (1990). Simulation approaches to general probabilistic inference on belief networks, in M. Henrion, R. D. Shachter, L. N. Kanal, and J. F. Lemmer (eds.), Uncertainty in Artificial Intelligence, vol. 5, pp. 221-231, North Holland, Amsterdam
191
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Inteligen artificial: raionament probabilistic, tehnici de clasificare

[46] Shachter, R. D. (1998). Bayes-Ball: The Rational Pastime (for Determining Irrelevance and Requisite Information in Belief Networks and Influence Diagrams), Proceedings of the Fourteenth Conference in Uncertainty in Artificial Intelligence, pp. 480-487 [47] Shafer, G. (1976). A Mathematical Theory of Evidence, Princeton University Press [48] Shannon, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27, pp. 379423 (July), pp. 623-656 (October) [49] Simon, H. A. (1983). Reason in Human Affairs, Stanford University Press [50] Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables, Journal of Royal Statistical Society Ser.B, vol. 13, no. 2, pp. 238-241 [51] Smets, P. & Kennes, R. (1994). The Transferable Belief Model, Artificial Intelligence, vol. 66, pp. 191-243 [52] Tan, P. N., Steinbach, M. & Kumar, V. (2006). Introduction to Data Mining, Addison-Wesley [53] Vucetic, S. (2004). Alternative Classification Algorithms, http://www.ist.temple.edu/~vucetic/cis526fall2004/ lecture8.ppt [54] Witten, I. H. & Frank, E. (2000). Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco [55] Yager, R. (1987). On the Dempster-Shafer Framework and New Combination Rules, Information Sciences, vol. 41, pp. 93-137

192
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

Referine

[56] Yuan, C. & Druzdzel, M. J. (2003). An importance sampling algorithm based on evidence pre-propagation, in Proceedings of the 19th Conference on Uncertainty in Artificial Intelligence (UAI-03), pp. 624-631, Morgan Kaufmann Publishers San Francisco, California [57] Zadeh, L. (1979). On the validity of Dempsters rule of combination, Memo M79/24, University of California, Berkeley, USA

193
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com

You might also like