Florin Leon - Inteligenta Artificiala: Rationament Probabilistic, Tehnici de Clasificare

Familiei mele i n special soiei mele, Crina, fr de care aceast carte nu s-ar fi scris acum
Cuprins
Partea I. Raionament probabilistic
Capitolul 1. Probabiliti i paradoxuri 1.1. Interpretri ale probabilitilor ........................................................... 11 1.1.1. Interpretarea frecventist ......................................................... 11 1.1.2. Interpretarea fizic ....................................................................... 13 1.1.3. Interpretarea subiectivist ........................................................ 15 1.1.4. Probabilitile n lumea cuantic ............................................ 17 1.2. Paradoxuri .................................................................................................... 24 1.2.1. Problema Monty-Hall ............................................................... 24 1.2.2. Paradoxul cutiei lui Bertrand .................................................. .27 1.2.3. Eroarea juctorului de rulet ................................................... 27 1.2.4. Eroarea procurorului ................................................................... 27 1.2.5. Paradoxul lui Simpson................................................................. 28 Capitolul 2. Fundamente teoretice 2.1. Probabiliti condiionate. Teorema lui Bayes ............................... 31 2.2. Independen i independen condiionat .................................. 35 2.3. Reele bayesiene......................................................................................... 37 2.4. Algoritmul Bayes-Ball .............................................................................. 42 2.5. Sortarea topologic ................................................................................... 49 2.6. Construcia automat a reelelor bayesiene ................................... 52
Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, http://florinleon.byethost24.com
Capitolul 3. Raionamente exacte 3.1. Calculul probabilitii unei observaii ............................................... 55 3.2. Calculul probabilitilor marginale ..................................................... 57 3.3. Inferena prin enumerare ....................................................................... 59 3.4. Inferena prin eliminarea variabilelor ............................................... 62 3.5. Variabile cu valori multiple. Ignorarea variabilelor irelevante .. 69 3.6. Cea mai probabil explicaie.................................................................. 71 Capitolul 4. Raionamente aproximative 4.1. Introducere .................................................................................................. 73 4.2. Inferena stohastic prin ponderarea verosimilitii .................. 74 4.3. Alte metode de inferen aproximativ ............................................ 83 Capitolul 5. Teoria evidenelor 5.1. Teoria Dempster-Shafer .......................................................................... 85 5.2. Surse multiple de eviden ..................................................................... 91 5.3. Reguli alternative de combinare a evidenelor .............................. 96 5.3.1. Regula lui Yager ............................................................................. 97 5.3.2. Regula Han-Han-Yang............................................................... 100 5.4. Concluzii ..................................................................................................... 104
Partea a II-a. Tehnici de clasificare

Capitolul 6. Problematica general 6.1. Introducere ............................................................................................... 107 6.2. nvarea supervizat ........................................................................... 109 6.3. Definirea unei probleme de clasificare ........................................... 113 6.4. Tipuri de atribute.................................................................................... 114 6.5. Estimarea capacitii de generalizare ............................................. 116 6.6. Aplicaii ale tehnicilor de clasificare ............................................... 119
6
Capitolul 7. Arbori de decizie 7.1. Algoritmul lui Hunt ................................................................................ 121 7.2. Specificarea testelor de atribute ....................................................... 122 7.3. Msuri de omogenitate ......................................................................... 127 7.4. Partiionarea ............................................................................................. 130 7.5. Probleme cu atribute simbolice ........................................................ 131 7.6. Probleme cu atribute numerice ........................................................ 140 7.7. Aplicarea modelului ............................................................................... 149 7.8. Erorile modelului .................................................................................... 149 7.9. Ctigul proporional ............................................................................ 152 7.10. Ali algoritmi de inducie a arborilor de decizie ...................... 153 7.11. Concluzii ................................................................................................. 154 Capitolul 8. Clasificatorul bayesian naiv 8.1. Modelul teoretic ...................................................................................... 155 8.2. Probleme cu atribute simbolice ........................................................ 157 8.3. Considerente practice ........................................................................... 160 8.3.1. Corecia Laplace .......................................................................... 160 8.3.2. Precizia calculelor ...................................................................... 164 8.4. Probleme cu atribute numerice ........................................................ 164 8.5. Concluzii ..................................................................................................... 167 Capitolul 9. Clasificarea bazat pe instane 9.1. Introducere ............................................................................................... 169 9.2. Metrici de distan.................................................................................. 170 9.3. Scalarea atributelor................................................................................ 172 9.4. Calculul distanelor pentru diferitele tipuri de atribute .......... 173 9.5. Numrul optim de vecini ..................................................................... 173 9.6. Blestemul dimensionalitii ................................................................ 177 9.7. Ponderarea instanelor......................................................................... 177
7
9.8. Ponderarea i selecia atributelor .................................................... 178 9.9. Exemplu de clasificare .......................................................................... 181 9.10. Concluzii .................................................................................................. 186 Referine .................................................................................................................... 187
8
Partea I Raionament probabilistic
Capitolul 1
Probabiliti i paradoxuri
1.1. Interpretri ale probabilitilor
1.1.1. Interpretarea frecventist Mai nti, vom meniona unele aspecte legate de natura probabilitilor, interesante i din punct de vedere filosofic. O definiie des ntlnit este urmtoarea: probabilitatea unui eveniment A reprezint fraciunea de lumi posibile n care A este adevrat (figura 1.1). Ca n teoria universurilor paralele, se consider c se pot ntmpla toate posibilitile, dar la un moment dat numai ntr-o fraciune din lumile posibile respective se ntmpl un anumit eveniment.
Lumile n care A este adevrat P(A)
Lumile n care A este fals
Figura 1.1. Ilustrarea interpretrii frecventiste
Aceast definiie este legat de interpretarea frecventist, care se reduce de fapt la organizarea unui experiment i la numrare: numrm cazurile n care evenimentul este adevrat. Dac vrem s aflm care este probabilitatea s se defecteze un calculator, numrm cte calculatoare s-au defectat din numrul total de calculatoare i mprim cele dou valori. Interpretarea frecventist postuleaz c probabilitatea unui eveniment este frecvena sa relativ n timp, adic frecvena relativ de apariie dup repetarea procesului de un numr mare de ori n condiii similare. Evenimentele se consider guvernate de unele fenomene fizice aleatorii, fie fenomene predictibile n principiu, dac am dispune de suficiente informaii, fie fenomene impredictibile prin natura lor esenial. Aruncarea unui zar sau nvrtirea ruletei sunt exemple de fenomene predictibile n principiu, pe cnd descompunerea radioactiv este un exemplu de fenomen impredictibil. Descompunerea radioactiv este procesul prin care nucleul unui atom instabil pierde energie prin emiterea de radiaie ionizant. Emisia este spontan iar atomul se descompune fr alte interaciuni fizice cu alte particule din afara sa. Descompunerea radioactiv este un proces stohastic la nivelul unui singur atom; conform teoriei mecanicii cuantice, este imposibil s se prezic momentul cnd va avea loc aceasta. Totui, probabilitatea c un atom se va descompune este constant n timp i deci pentru un numr mare de atomi identici, rata de descompunere a ansamblului este predictibil, pe baza constantei de descompunere (sau a perioadei de njumtire). n cazul aruncrii unui ban corect, interpretarea frecventist consider c probabilitatea de a cdea cap este 1/2 nu pentru c exist 2 rezultate egal probabile, ci pentru c serii repetate de ncercri au artat n
12
Capitolul 1. Probabiliti i paradoxuri
mod empiric c frecvena converge la 1/2 cnd numrul de ncercri tinde la infinit. Mai formal, dac na este numrul de apariii ale unui eveniment A dup n ncercri, atunci ( ) .
O problem fundamental n definirea frecventist a probabilitilor este urmtoarea. Limita unui ir infinit de ncercri este independent de segmentele sale iniiale finite. Dac un ban cade cap de o sut de ori la rnd, asta nu spune de fapt mai nimic despre probabilitatea de a cdea cap cnd numrul de ncercri tinde la infinit. Este n mod evident imposibil repetarea de un numr infinit de ori a unui experiment pentru a-i determina probabilitatea real. Dar dac se efectueaz doar un numr finit de ncercri, pentru fiecare serie de ncercri va aprea o frecven relativ diferit, chiar dac probabilitatea real ar trebui s fie aceeai ntotdeauna. Dac putem msura probabilitatea doar cu o anumit eroare, aceast eroare de msurare poate fi exprimat doar ca o probabilitate (nsui conceptul pe care dorim s-l definim). Prin urmare, definiia frecvenei relative devine circular (Hjek, 2012). 1.1.2. Interpretarea fizic Interpretarea fizic (engl. propensity) afirm c probabilitile sunt nite proprieti ale obiectelor sau evenimentelor, predispoziii ale unui anumit tip de situaii s produc anumite rezultate sau frecvene relative pentru un numr mare de experimente. Predispoziiile nu sunt frecvene relative, ci cauze ale frecvenelor relative stabile observate i ar trebui s explice de ce repetarea unui experiment genereaz anumite rezultate cu aproximativ aceleai rate de apariie.
13
Ne putem ntreba dac probabilitile sunt nite caracteristici intrinseci ale obiectelor, asemntoare cu proprietile lor fizice, ca masa de exemplu. Dac la aruncarea unui ban corect probabilitatea de a cdea pe fiecare din cele dou fee este 50% (banul poate s cad i pe cant, dar aceasta este o problem marginal, o excepie cu probabilitate foarte mic), care este cauza pentru procentele de 50-50%? De ce sunt egal probabile cele dou fee? Este aceasta o proprietate a banului ca obiect? Ar putea exista o alt zon din univers, cu alte legi ale fizicii, n care aceast proporie s nu fie 50-50%? Rezultatul unui experiment fizic este produs de o mulime de condiii iniiale. Cnd repetm un experiment, de fapt realizm un alt experiment, cu condiii iniiale mai mult sau mai puin similare. Un experiment determinist va avea de fapt ntotdeauna o predispoziie de 0 sau 1 pentru un anumit rezultat. De aceea, predispoziii nebanale (diferite de 0 sau 1) exist doar pentru experimente cu adevrat nedeterministe. n aceast interpretare, rezultatul unui eveniment se bazeaz pe proprietile fizice obiective ale obiectului sau procesului care genereaz evenimentul. Rezultatul aruncrii unui ban se poate considera ca fiind determinat de exemplu de proprietile fizice ale banului, cum ar fi forma simetric plat i cele dou fee. Este greu s definim probabilitile ca predispoziii, pentru c (cel puin deocamdat) nu tim ce sunt, ci doar ce (bnuim c) fac. ns, aa cum magnitudinea unei sarcini electrice nu poate fi definit explicit, folosind noiuni elementare, ci doar n msura efectelor pe care le produce (atragerea sau respingerea altor sarcini electrice), tot astfel predispoziia este ceea ce face ca un experiment s aib o anumit probabilitate.
14
n acest context, legea numerelor mari reflect faptul c frecvenele relative stabile sunt o manifestare a predispoziiilor, adic a probabilitilor invariante singulare (care se refer la evenimentul considerat n sine, nu la seria de ncercri repetate). Pe lng explicarea apariiei frecvenelor relative stabile, ideea de predispoziie este motivat de dorina de a nelege probabilitile singulare din mecanica cuantic, precum probabilitatea de descompunere a unui atom la un anumit moment (Hjek, 2012). 1.1.3. Interpretarea subiectivist Interpretarea frecventist i cea fizic se mai numesc obiectiviste, deoarece presupun probabilitile ca fiind componente ale lumii fizice. Discuia despre probabilitile obiective are sens doar n contextul unor experimente aleatorii bine definite. Interpretarea subiectivist sau bayesian consider c probabilitatea unui eveniment este o msur a convingerii subiective, personale, c evenimentul va avea loc. Probabiliti subiectiviste pot fi atribuite oricrei propoziii, chiar i atunci cnd nu este implicat niciun proces aleatoriu. Ele reprezint gradul n care propoziia este sprijinit de evidenele disponibile. n general, aceste probabiliti sunt considerate grade de ncredere, care arat ct de siguri suntem c propoziia respectiv este adevrat. Principiul indiferenei afirm c atunci cnd exist n > 1 posibiliti mutual exclusive (distincte) i exhaustive colectiv (care acoper toate posibilitile), indistinctibile cu excepia denumirilor lor, fiecrei posibiliti trebuie s i se atribuie o probabilitate egal cu 1 / n (Keynes, 1921).
15
Un ban simetric are dou fee, denumite arbitrar cap i pajur. Presupunnd c banul va cdea pe o fa sau pe alta, rezultatele aruncrii banului sunt mutual exclusive, exhaustive i interschimbabile, dac ignorm evenimentul mai puin probabil de a ateriza pe cant, deoarece acest rezultat nu este interschimbabil cu celelalte dou. Conform principiului, fiecrei fee i se atribuie probabilitatea de 1/2. n aceast analiz se presupune c forele care acioneaz asupra banului nu sunt cunoscute. Dac le-am cunoate cu precizie, am putea prezice traiectoria banului conform legilor mecanicii clasice. Interpretarea subiectivist permite raionamentul cu propoziii a cror valoare de adevr este incert. Pentru a evalua probabilitatea unei ipoteze, trebuie specificate unele probabiliti a-priori, care sunt actualizate apoi n lumina datelor relevante noi care apar. n abordarea subiectivist, probabilitatea msoar o convingere personal, unei ipoteze i se atribuie o probabilitate, pe cnd n abordarea frecventist, ipoteza este testat fr a i se atribui o probabilitate iniial. Abordrile obiectiviste sunt nepractice pentru cele mai multe probleme de decizie din lumea real. n abordarea frecventist, este necesar ca un proces s aib o natur repetitiv pentru a-i putea fi msurat probabilitatea. Aruncarea unui ban este un astfel de proces, ns incertitudinile privind un rzboi nuclear de exemplu nu pot fi tratate astfel. Nu au existat rzboaie nucleare pn acum i mai mult, repetarea lor este greu de imaginat. Pentru un astfel de proces complex care presupune analiza circumstanelor care conduc la un rzboi nuclear, este greu de realizat o estimare bazat pe considerente obiective (Lee, 1989). Abordarea subiectivist permite combinarea natural a frecvenelor cu judecile experilor. Probabilitile numerice pot fi extrase din baze de
16
date, pot fi estimate de ctre experi sau pot fi o combinaie ntre cele dou variante. 1.1.4. Probabilitile n lumea cuantic Dezvoltnd discuia n domeniul mecanicii cuantice, putem considera extensia modelului de probabiliti unidimensional, din lumea macroscopic, n care probabilitile sunt numere reale pozitive i pentru o distribuie suma tuturor probabilitilor este 1, la un model bidimensional, n care avem aa-numitele amplitudini de probabilitate. Amplitudinea de probabilitate este un numr complex al crui modul ridicat la ptrat reprezint o probabilitate. De exemplu, dac amplitudinea de probabilitate a unei stri cuantice este msura acea stare este | | . | , , atunci probabilitatea de a
Dac o particul elementar poate avea 2 stri, notate |0 i |1, atunci ea poate fi simultan ntr-o superpoziie a acestor stri: | unde | | | | . Dac particula este observat, vom detecta starea |0
cu probabilitatea | | i starea |1 cu probabilitatea | | . De asemenea, starea particulei colapseaz n starea observat, ori |0 ori |1. Dou experimente tipice pun n eviden comportamentul total diferit al elementelor mecanicii cuantice fa de cele ale mecanicii clasice. Primul presupune trimiterea de fotoni sau electroni perpendicular spre un perete, prin dou fante care au mrimea i distana dintre ele comparabile cu lungimea de und a particulelor incidente. Chiar dac doar o singur particul elementar este emis la un moment dat, pe perete apare un model de interferen, ca i cum fiecare particul ar trece simultan prin
17
ambele fante i ar interfera cu ea nsi, dup cum se poate vedea n figura 1.2 (BlackLight Power, 2005).
Figura 1.2. Comportamentul de tip und
Dac n dreptul fantelor se pune un detector, astfel nct s se determine exact prin ce fant trece particula, rezultatul de pe perete apare ca dou aglomerri distincte n dreptul fiecrei fante, fr modelul de interferen, ca n figura 1.3 (BlackLight Power, 2005). Prin aciunea de observare, starea particulelor cuantice colapseaz din superpoziie ntr-o stare clasic.
Figura 1.3. Comportamentul de tip particul
18
n primul caz, particulele elementare se comport ca nite unde, iar n al doilea caz se comport ca nite particule. Este ca i cum rezultatul ar depinde de scopul msurtorii, dac dorim s detectm particule sau unde. Un alt experiment interesant care pune n eviden caracterul cuantic al particulelor elementare este interferometrul Mach-Zehnder (Harrison, 2008), prezentat n figura 1.4.
D2
O1
S2
D1
Surs de fotoni
S1
O2
Figura 1.4. Interferometrul Mach-Zehnder
Acesta este un dispozitiv utilizat n general pentru a msura interferena clasic. Este compus dintr-o surs de fotoni, dou oglinzi normale, O1i O2, dou oglinzi semitransparente S1 i S2 i dou detectoare de particule D1 i D2. O oglind semi-transparent reflect jumtate din lumina primit i refract cealalt jumtate prin ea. La fiecare reflectare, fotonii i schimb faza cu o jumtate de lungime de und. Schimbri de faz au loc i la traversarea materialului
19
oglinzilor semitransparente. Ideea de baz este c schimbrile de faz pentru ambele ci (sus i dreapta) sunt egale n cazul detectorului D1 i prin urmare apare o interferen constructiv. n cazul detectorului D2, fotonii venind de pe cele dou ci prezint o diferen de faz de o jumtate de lungime de und, ceea ce determin o interferen destructiv complet. n cazul clasic, toat lumina ajunge la detectorul D1 i deloc la detectorul D2. n cazul cuantic, un foton traverseaz singur sistemul, ns apare acelai rezultat, ca i cum ar parcurge simultan cele dou ci posibile i ar interfera cu el nsui. Dac am dori s observm exact calea pe care merge fotonul, eliminnd de exemplu oglinda S2 (figura 1.5), rezultatele devin cele clasice, jumtate din fotoni fiind detectai de ctre D1 i jumtate de ctre D2.
D2
O1
D1
Surs de fotoni
S1
O2
Figura 1.5. Configuraia pentru observarea cii fotonului
20
Calculul cuantic este o direcie promitoare de cercetare care ncearc s utilizeze fenomenele cuantice precum superpoziia (remarcat n experimentele anterioare prin faptul c particula elementar traverseaz simultan dou ci) pentru a crete performanele algoritmilor. Unitatea de baz pentru informaia cuantic este qubit-ul (engl. quantum bit), un sistem cuantic care poate avea 2 stri. Prelucrarea datelor se face aplicnd aa numitele pori cuantice, care transform starea sistemului. Din punct de vedere matematic, aceste transformri sunt reprezentate ca nite matrice cu care se nmulesc de obicei amplitudinile de probabilitate pentru a lua noi valori. S considerm urmtorul exemplu (Aaronson, 2006), n care un qubit este iniial n starea |0, adic amplitudinea de probabilitate corespunztoare strii |0 este 1 iar cea corespunztoare strii |1 este 0. Vom mai considera transformarea dat de urmtoarea poart cuantic, al crei effect este rotirea unui vector cu 45 n sens antiorar (trigonometric): ]
(1.1)
Prin aplicarea acestei transformri, qubit-ul va ajunge ntr-o superpoziie: ] [ ] ],
(1.2)
n care, dac qubit-ul este observat, strile |0 i |1 au probabiliti egale de apariie, 1/2. Operaia este echivalent aruncrii unui ban.
21
Dac ns mai aplicm o dat aceeai transformare pentru starea rezultat, vom avea: ] [ ]
[ ],
(1.3)
ceea ce corespunde unei stri deterministe de |1. Este ca i cum am da cu banul o dat i apoi, fr a vedea ce rezultat am obinut, mai aruncm banul o dat i obinem un rezultat determinist. i n acest caz avem de-a face cu un fenomen de interferen, dup cum putem vedea n figura 1.6 (Aaronson, 2006). Exist dou ci care conduc n starea |0, ns una din ci are o amplitudine pozitiv i cealalt are o amplitudine negativ. Prin urmare, aceste amplitudini interfereaz destructiv i se anuleaz. Pe de alt parte, cile care conduc n starea |1 au ambele amplitudini pozitive i acestea interfereaz constructiv.
Figura 1.6. Interferena amplitudinilor de probabilitate
22
Acest tip de interferen nu se observ n lumea clasic deoarece probabilitile nu pot fi negative. Anularea dintre amplitudinile pozitive i negative este unul din principalele aspecte care fac mecanica cuantic diferit de mecanica clasic. Una din ideile de baz ale calculului cuantic este tocmai folosirea superpoziiilor i aplicarea unor transformri astfel nct rezultatele nedorite s se anuleze i, cnd sistemul este observat, s colapseze cu probabilitate ct mai mare ntr-o stare corespunztoare rezultatului dorit. Faptul c observarea unui sistem cuantic conduce la modificarea sa ridic numeroase probleme filosofice legate de rolul factorului contient n modelarea realitii. Putem influena evenimentele aleatorii, schimbndu-le probabilitile? n termodinamic, toate particulele au o micare brownian aleatorie, ns dac ne ridicm la un nivel superior, se pot observa comportamente deterministe. i n cazul oamenilor, interaciunile acestora pot fi considerate aleatorii (deterministe sau nu, sunt oricum att de complexe nct sunt probabil imposibil de modelat), ns din punct de vedere statistic se poate vedea cum evolueaz o societate. Referindu-ne la modificarea probabilitilor unor evenimente, noi suntem la nivelul microscopic, ns ar fi interesant dac ne-am putea ridica la un nivel superior pentru a putea observa sau modifica sistemul. Programul Princeton Engineering Anomalies Research (PEAR, 2010) a ncercat ntre anii 1979-2007 un studiu experimental extins asupra interaciunilor dintre contiina uman i anumite dispozitive, multe bazate pe procese aleatorii, pentru a stabili msura n care mintea poate influena realitatea fizic. Dup 28 de ani de investigaii i mii de experimente cu milioane de ncercri, rezultatul (controversat) a fost c, n medie, mintea
23
uman poate modifica 2-3 evenimente din 10000, dincolo de variaiile statistice normale.
1.2. Paradoxuri
Modul cum percep oamenii probabilitile nu este perfect corect, ntruct nu exist o capacitate nnscut de a lucra cu acestea. La fel ca i n cazul logicii, oamenii au nevoie de un anumit antrenament pentru a nelege toate subtilitile raionamentelor probabilistice. Vom prezenta n cele ce urmeaz cteva paradoxuri, situaii care conduc la concluzii neintuitive, dar care se dovedesc corecte n urma unei analize mai profunde. 1.2.1. Problema Monty-Hall Problema Monty-Hall a fost popularizat n Statele Unite de o emisiune a canalului CBS din 1963. Problema este ns mai veche, fiind cunoscut ntr-o alt variant nc de pe vasele cu zbaturi de pe Mississippi. Concurentul este pus n faa a trei ui, dup cum se poate vedea n figura 1.7. n spatele a dou ui este cte o capr iar n spatele unei ui este o main. Scopul jocului este desigur ctigarea mainii. Juctorul va ctiga ce se afl n spatele uii alese. Participantul trebuie s aleag o u. Apoi, prezentatorul i deschide o alt u, din celelalte dou rmase, n spatele creia este o capr. Apoi l ntreab dac vrea sau nu s i schimbe alegerea iniial ctre ua a treia.
24
Figura 1.7. Problema Monty-Hall
Multe persoane consider c probabilitatea iniial de ctig este 1/3 iar dac s-a deschis o u, probabilitatea devine acum 1/2, indiferent de ua aleas. Avnd n vedere orgoliul propriu, faptul c iniial au ales ceva i nu vor s-i schimbe alegerea, probabilitile prnd oricum egale, ele au tentaia de a nu-i schimba decizia. Se poate vedea ns din figura 1.8 c prin schimbarea uii, participantul are de dou ori mai multe anse de ctig. Intuitiv, prin faptul c prezentatorul i-a artat o capr, i-a dat o informaie, ceea ce schimb probabilitile. Ua iniial a rmas cu probabilitatea de ctig de 1/3, cea anterioar, dar faptul c i-a fost artat o capr a transformat probabilitatea celelalte ui n 2/3. S presupunem c jocul ar avea 100 de ui i prezentatorul i-ar fi deschis 98. Este clar c probabilitatea uii iniiale este de 1/100, iar restul pn la 1 corespunde acum celeilalte ui. Analiznd toate deciziile posibile, dac participantul a ales iniial maina i i schimb decizia, va pierde. Acesta este cazul defavorabil. n celelalte dou situaii ns, strategia de schimbare a deciziei este ctigtoare. Se vede c pstrarea alegerii iniiale are probabilitatea de ctig de 1/3 iar schimbarea are probabilitatea de ctig de 2/3.
25
Figura 1.8. Situaiile posibile pentru problema Monty-Hall

26
1.2.2. Paradoxul cutiei lui Bertrand Paradoxul cutiei lui Bertrand este echivalent din punct de vedere logic cu problema Monty-Hall. Exist trei cutii al cror coninut nu este vizibil. Una conine dou monede de aur, una conine dou monede de argint iar a treia conine o moned de aur i una de argint. Dup ce se alege o cutie n mod aleatoriu i se scoate o moned, dac aceasta este de aur, s-ar prea c probabilitatea ca moneda rmas s fie tot de aur este de 1/2. De fapt, probabilitatea este de 2/3. 1.2.3. Eroarea juctorului de rulet Un alt paradox este eroarea juctorului de rulet (engl. gamblers fallacy). Culorile rou i negru au fiecare probabilitatea de apariie de 1/2. S presupunem c a ieit rou de mai multe ori la rnd. Eroarea este de a considera c, data urmtoare, negrul are mai multe anse de apariie. De fapt, fiecare experiment (acionare a ruletei) este independent. Prin urmare, de fiecare dat, roul i negrul au aceleai probabiliti de apariie. n 1913, la Monte Carlo, negrul a ieit de 26 de ori la rnd. Aceasta nseamn c exist o probabilitate foarte mic ca o culoare s ias i de 100 de ori la rnd, dar nu este imposibil. Toate aceste experimente succesive cu acelai rezultat, combinate, au o probabilitate foarte mic, ns fiecare experiment luat individual are aceleai probabiliti. 1.2.4. Eroarea procurorului Eroarea procurorului (engl. prosecutors fallacy) apare n situaii
27
precum urmtoarea. S considerm c a fost prins un suspect de crim, cruia i se fac analize de snge pentru a fi comparate cu probele de la locul faptei. Grupa de snge gsit la faa locului este o grup rar, AB cu Rh negativ, care are 1% frecven n populaie. De asemenea, s-au mai gsit urme de pr blond, persoanele blonde constituind tot 1% din populaie. Suspectul are grupa de snge respectiv i este blond, prezena mpreun a acestor trsturi avnd mpreun probabilitatea de 0,01%. Prin urmare, probele ar indica faptul c suspectul este vinovat cu o probabilitate de 99,99%. Dac ns oraul n care s-a petrecut crima are o populaie de 100.000 de locuitori, nseamn c, statistic, ali 10 oameni au aceleai trsturi i deci, probabilitatea suspectului de a fi vinovat este acum de doar 10%. Probabilitatea vinoviei a sczut de la 99,99% la 10% doar lund n calcul aceast informaie suplimentar. nseamn c aceste probe sunt inutile? Nu, ele conteaz dac sunt combinate cu alte probe, de exemplu o camer video care identific suspectul cu o probabilitate de 70%. n acest caz, probabilitile de a fi nevinovat se nmulesc: 0,1 0,3 = 0,03 i suspectul apare ca vinovat cu probabilitatea de 97%. 1.2.5. Paradoxul lui Simpson Paradoxul lui Simpson (1951) nu se refer la probabilitile elementare, ci la prelucrarea statistic a datelor. n general, se consider c atunci cnd mulimea de date este mai mare, concluziile trase sunt mai sigure, o consecin a legii numerelor mari din abordarea frecventist a probabilitilor. Paradoxul lui Simpson pare s infirme aceast euristic, demonstrnd c este necesar foarte mult atenie atunci cnd mulimi de
28
date mici se combin ntr-o mulime de date mai mare. Uneori concluziile mulimii mari sunt opuse concluziilor mulimilor mici i n acest caz, de multe ori concluziile mulimii mari sunt de fapt greite. S considerm un doctor care propune un tratament nou pentru o anumit afeciune i dorete s l compare cu un tratament standard din punct de vedere al timpului necesar pentru vindecare (scenariul este adaptat dup un exemplu prezentat de Ooi, 2004). Cele dou tipuri de tratament sunt aplicate unor bolnavi, iar rezultatele totale sunt prezentate n tabelul de mai jos. Pentru fiecare tratament i pentru fiecare rezultat, se indic numrul de pacieni aflai n situaia respectiv.
Rezultat (timp de vindecare) Lung Scurt Total Tratament Standard Nou 2725 (55%) 3625 (80%) 2275 (45%) 875 (20%) 5000 (100%) 4500 (100%)
Din aceste date se poate trage concluzia c tratamentul nou pare clar inferior celui standard. 80% din pacienii supui tratamentului nou au avut un timp lung de vindecare, comparativ cu 55% din pacienii supui tratamentului standard. De asemenea, doar 20% din pacienii supui tratamentului nou au avut un timp scurt de vindecare, comparativ cu 45% din pacienii care au primit tratamentul standard. S lum acum n calcul urmtoarea informaie: doctorul a fcut experimentul asupra unor bolnavi din Iai i respectiv din Bacu, n numr aproximativ egal. ns doctorul, locuind n Iai, a avut mai muli pacieni din acest ora supui noului tratament. Cei mai muli pacieni din Bacu au primit tratamentul standard. Rezultatele detaliate sunt prezentate n tabelul urmtor.
29
Partea I. Raionament probabilistic Rezultat (timp de vindecare) Lung Scurt Total Tratament pentru pacienii din Iai Standard Nou 475 (95%) 3600 (90%) 25 (5%) 400 (10%) 500 (100%) 4000 (100%) Tratament pentru pacienii din Bacu Standard Nou 2250 (50%) 25 (5%) 2250 (50%) 475 (95%) 4500 (100%) 500 (100%)
Se vede aici c pentru bolnavii din Iai tratamentul nou este mai bun: 90% fa de 95% au avut un timp lung de vindecare i 10% fa de 5% au avut un timp mai scurt de vindecare. O situaie asemntoare apare pentru bolnavii din Bacu: doar 5% fa de 50% au avut un timp lung de vindecare i 95% fa de 50% au avut un timp mai scurt de vindecare. Practic, atunci cnd considerm individual submulimile de bolnavi din Iai i Bacu, tratamentul nou pare mai bun. Cnd considerm mulimea total de bolnavi, tratamentul nou pare inferior celui standard. Acest lucru ar fi echivalent cu urmtoarea situaie. Dac trebuie s recomandm un tratament unui bolnav, fr s cunoatem din ce ora provine, i vom recomanda tratamentul standard. Dac tim din ce ora provine, i vom recomanda tratamentul nou. ns cunoaterea sau nu a oraului nu ar trebui s aib nicio influen asupra deciziei privind tratamentul. Paradoxul este cauzat de combinarea unor grupuri inegale. n exemplul de mai sus, pacienii din Iai care au primit tratamentul standard sunt de 8 ori mai puini dect cei care au primit tratamentul nou, iar pacienii din Bacu care au primit tratamentul nou sunt de 9 ori mai puini dect cei care au primit tratamentul standard. Soluia este proiectarea experimentelor astfel nct s nu se combine mulimi de date de dimensiuni inegale, provenind din surse diferite (Rogers, 2001).
30
Capitolul 2
Fundamente teoretice
2.1. Probabiliti condiionate. Teorema lui Bayes
Vom aminti acum cteva noiuni legate de probabilitile condiionate. Cnd trebuie s definim P(A|B), presupunem c se cunoate B i se calculeaz probabilitatea lui A n aceast situaie. Adaptnd un exemplu al lui Moore (2001), s considerm evenimentul D (durere de cap) i s presupunem c are, n general, o probabilitate de 1/10. Probabilitatea de a avea grip (evenimentul G) este de numai 1/40. Dup cum se vede n figura 2.1, dac cineva are grip, probabilitatea de a avea i dureri de cap este de 1/2. Deci probabilitatea durerii de cap, dat fiind gripa, este de 1/2. Aceast probabilitate corespunde interseciei celor dou regiuni, cu aria egal cu jumtate din G.
Figura 2.1. Reprezentare grafic a unei probabiliti condiionate
Pe baza acestei relaii rezult teorema lui Bayes (1763), care este important pentru toate raionamentele probabilistice pe care le vom studia.
Considerm formula probabilitilor condiionate: ( ( ) )
( | )
(2.1)
Putem exprima probabilitatea interseciei n dou moduri i de aici deducem expresia lui P(B|A) n funcie de P(A|B): ( ( ) ) ( | ) ( | ) ( | ) ( ) ( ) (2.2) (2.3) (2.4)
( | ) ( ) ( )
Aceast ecuaie reprezint un rezultat fundamental. Mai clar, putem considera urmtoarea expresie alternativ: ( | ) ( ) ( )
( | )
(2.5)
unde I este ipoteza, E este evidena (provenind din datele observate), ( ) este probabilitatea a-priori a ipotezei, adic gradul iniial de ncredere n ipotez, ( | ) este verosimilitatea datelor observate (engl. likelihood), adic msura n care s-a observat evidena n condiiile ndeplinirii ipotezei, iar ( | ) este probabilitatea a-posteriori a ipotezei, dat fiind evidena. Relaia este important deoarece putem calcula astfel probabilitile cauzelor, date fiind efectele. Este mai simplu de cunoscut cnd o cauz
32
Capitolul 2. Fundamente teoretice
determin un efect, dar invers, cnd cunoatem un efect, probabilitile cauzelor nu pot fi cunoscute imediat. Teorema ne ajut s diagnosticm o anumit situaie sau s testm o ipotez. n ecuaia 2.4, se poate elimina P(B) folosind regula probabilitii totale (engl. law of total probability). P(B) va fi exprimat astfel:
( )
( | ) ( )
(2.6)
Expresia poate fi neleas mai uor observnd situaia din figura 2.2.
Evenimentul A A1
P(B|A1) P(B|A3) P(B|A2) P(B|A4)
A2
A3
Evenimentul B
A4
Figura 2.2. Reprezentare grafic a legii probabilitii totale
Probabilitatea fiecrei valori
a lui A, condiionat de B, este: ( )
( | )
( | )
( | ) ( )
(2.7)
S considerm urmtorul exemplu de diagnosticare. tim c probabilitatea de apariie a meningitei n populaia general este
33
( )
. De asemenea, probabilitatea ca o persoan s aib gtul . Mai tim c meningita cauzeaz gt nepenit n .
nepenit este ( )
jumtate din cazuri: ( | )
Dorim s aflm urmtorul lucru: dac un pacient are gtul nepenit, care este probabilitatea s aib meningit? Aplicnd teorema lui Bayes, vom avea: ( | ) ( ) ( )
( | )
G este un simptom pentru M. Dac exist simptomul, care este probabilitatea unei posibile cauze, adic P(M)? Rezultatul este 0,02%, deci o probabilitate mic, deoarece probabilitatea meningitei nsei este foarte mic n general. Acest rezultat este important la diagnosticarea bolilor rare. Testele au i ele o marj de eroare, foarte mic, dar ea exist. Aceasta, coroborat cu probabilitatea mic a bolii, nu conduce automat la concluzia c persoana are boala respectiv, chiar dac testul iese pozitiv. n exemplul urmtor, B reprezint boala, iar T reprezint rezultatul pozitiv al testului. S presupunem c: ( ) ( | ) ( | ) .
Conform expresiei 2.7, putem calcula probabilitatea bolii dac testul a ieit pozitiv:
34
( | )
( | ) ( ) ( )
( | )
( | ) ( ) ( ) ( | )
Prin urmare, chiar dac testul iese pozitiv, probabilitatea de a avea boala este de doar 33%. n general, trebuie evitat greeala de a considera c ( | ) ( | ) ( | ) . Se poate vedea chiar din exemplul anterior c ( | ).
2.2. Independen i independen condiionat

Vom prezenta n continuare cteva exemple n care vom explica noiunile de independen i independen condiionat. S presupunem c Ion i Maria dau cu banul. Ion d cu un ban i Maria d cu alt ban. Aceste evenimente nu se influeneaz n niciun fel. Dac Ion d cu banul, acest lucru nu aduce nicio informaie asupra rezultatului aciunii Mariei. n acest caz, evenimentele sunt independente, deoarece rezultatul unui experiment nu influeneaz cellalt experiment. n cazul n care dau cu acelai ban, dac Ion d de 100 de ori i iese de 70 de ori pajur, ceea ce nseamn c banul nu este corect, acest rezultat d informaii asupra experimentului Mariei. Dac Maria va da cu banul de 100 de ori, probabil rezultatul va fi similar. Cele dou evenimente nu mai sunt independente. n schimb, dac un expert analizeaz banul i constat c este msluit, atunci experimentul lui Ion (70% pajur) nu mai aduce nicio informaie asupra experimentului Mariei (tot 70% pajur). Rezultatul se poate prevedea datorit analizei expertului. Experimentele lui Ion i al
35
Mariei devin independente dat fiind noua eviden, a faptului c banul este msluit. Fie variabila A rezultatul experimentului lui Ion i B rezultatul experimentului Mariei. Fie C variabila banul este influenat n favoarea pajurei. n ultimul exemplu, se spune c A i B sunt independente condiional, dat fiind C. n unele situaii, independena condiional poate fi uor confundat cu independena. Se presupune c evenimentele sunt independente, cnd de fapt sunt doar independente condiional. De exemplu, Ion i Maria locuiesc n zone diferite ale oraului i vin la serviciu cu tramvaiul, respectiv cu maina. Se poate considera c dac ntrzie unul din ei, nu se poate spune nimic despre ntrzierea celuilalt, sunt evenimente independente. Dar s presupunem c la un moment dat aflm c vatmanii sunt n grev. Ion ntrzie deoarece nu merg tramvaiele. ns datorit grevei, probabil traficul auto crete, ceea ce o afecteaz pe Maria. Astfel, ntrzierea lui Ion nu mai este independent de ntrzierea Mariei. Ele sunt independente condiional, dat fiind evenimentul grevei vatmanilor, care este cauza lor comun. S mai considerm cazul n care o rceal poate detemina o persoan s strnute, dar i o alergie poate determina acelai lucru. n general, dac nu tim c persoana a strnutat, rceala i alergia sunt evenimente independente. Dac tim ns c persoana strnut, aceste evenimente nu mai sunt independente. De exemplu, dac mai tim c persoana este rcit, probabil c rceala determin strnutul i deci probabilitatea de a avea i alergie se reduce. Informaii suplimentare privind rceala modific probabilitatea alergiei.
36
2.3. Reele bayesiene

n continuare, ne vom concentra asupra reprezentrii informaiilor legate de evenimente probabilistice, care ne va ajuta s realizm eficient raionamente. Determinarea probabilitii unei combinaii de valori se poate realiza astfel: ( ) ( | ) ( ) (2.8)
Aplicnd n continuare aceast regul vom obine regula de nmulire a probabilitilor (engl. chain rule): ( ) ( | ) ( | ) ( | )
( ) exprimat mai concis astfel:
(2.9)
( |
(2.10)
O reea bayesian arat ca n figura 2.3: este un graf orientat aciclic (engl. directed acyclic graph), n care evenimentele sau variabilele se reprezint ca noduri, iar relaiile de corelaie sau cauzalitate se reprezint sub forma arcelor dintre noduri.
37
Grip
Abces
Febr
Oboseal
Anorexie
Figura 2.3. Reea bayesian
n acest exemplu, se consider c att gripa ct i abcesul pot determina febra. De asemenea, febra poate cauza o stare de oboseal sau lipsa poftei de mncare (anorexie). Sensul sgeilor arcelor sunt dinspre prini, cum ar fi gripa i abcesul, nspre fii, precum febra. Dei n acest exemplu relaiile sunt cauzale, n general o reea bayesian reflect relaii de corelaie, adic msura n care aflarea unor informaii despre o variabil-printe aduce noi informaii despre o variabil-fiu. Condiia ca o reea bayesian s fie un graf orientat aciclic nseamn c arcele pot forma bucle, dar nu pot forma cicluri, dup cum se vede n figura 2.4. Avnd n vedere c determinarea probabilitilor nodurilor presupune de fapt nmuliri i adunri n care sunt implicai prinii variabilelor, dac reeaua ar permite cicluri, acest lucru ar conduce la repetarea la infinit a unor calcule.
38
Figura 2.4. a) Reea bayesian valid; b) Reea bayesian invalid
Fiecare variabil are o mulime de valori. n cazul cel mai simplu, variabilele au valori binare, de exemplu Da i Nu. n general ns, o variabil poate avea oricte valori. Tabelul 2.1. Tabelele de probabiliti pentru reeaua bayesian
P(Grip = Da) 0,1 P(Abces = Da) 0,05 Grip Da Da Nu Nu Febr Da Nu Febr Da Nu Abces Da Nu Da Nu P(Grip = Nu) 0,9 P(Abces = Nu) 0,95 P(Febr = Nu) 0,2 0,3 0,75 0,95
P(Febr = Da) 0,8 0,7 0,25 0,05
P(Oboseal = Da) 0,6 0,2 P(Anorexie = Da) 0,5 0,1
P(Oboseal = Nu) 0,4 0,8 P(Anorexie = Nu) 0,5 0,9
39
Asociate cu variabilele, o reea bayesian conine o serie de tabele de probabiliti, precum cele din tabelul 2.1. Pentru nodurile fr prini se indic probabilitile marginale ale fiecrei valori (adic fr a lua n considerare valorile celorlalte variabile). Pentru celelalte noduri, se indic probabilitile condiionate pentru fiecare valoare, innd cont de fiecare combinaie de valori ale variabilelor printe. n general, o variabil binar fr prini va avea un singur parametru independent, o variabil cu 1 printe va avea 2 parametri independeni iar o variabil cu n prini va avea n tabela de probabiliti corespunztoare. Presupunerea modelului bazat pe reele bayesiene este c o variabil nu depinde dect de prinii si i deci ecuaia 2.10 devine: parametri independeni
( | ( ))
(2.11)
unde ( ) reprezint mulimea prinilor variabilei
, din irul ordonat al
nodurilor n care prinii unui nod apar ntotdeauna naintea nodului respectiv. Modul n care se poate determina acest ir va fi tratat n seciunea 2.5 referitoare la sortarea topologic. Dac avem n variabile binare, distribuia comun de probabilitate conine cte o probabilitate pentru toate combinaii. ns ntruct suma probabilitilor este 1, ultima combinaie nu mai este independent de celelalte i poate fi dedus ca 1 minus suma celorlalte. Distribuia comun este deci specificat de parametri. Dup cum se vede n tabelele de probabiliti din tabelul 2.1, pentru exemplul din figura 2.3 cu 5 variabile sunt necesari numai 10 parametri fa
40
de
. Toate variabilele fiind binare, pentru o anumit combinaie
de valori a prinilor, probabilitatea unei valori a unui fiu este 1 minus probabilitatea celeilalte valori, de exemplu: P(Oboseal = Da) = 1 P(Oboseal = Nu). ntr-o reea bayesian, n loc s calculm probabilitile tuturor elementelor din distribuia comun de probabilitate, considerm numai probabilitile condiionate de prini.
MINVOLSET
PULMEMBOLUS
INTUBATION
KINKEOTUBE
VENTMACH
DISCONNECT
PAP
SHUNT
VENTLUNG
VENITUBE
MINOVL
FIO2
VENTALV
PRESS
ANAPHYLAXIS
PVSAT
ARTCO2
TPR
SAO2
INSUFFANESTH
EXPCO2
HYPOVOLEMIA
LVFAILURE
CATECHOL
LVEDVOLUME
STROEVOLUME
HISTORY
ERRBLOWOUTPUT
HR
ERRCAUTER
CVP
PCWP
CO
HREKG
HRSAT
BP
Figura 2.5. Reea bayesian complex
41
Un alt exemplu privind un sistem de monitorizare a pacienilor la terapie intensiv (Russell & Norvig, 2002) cu 37 de variabile, prezentat n figura 2.5, surprinde reducerea clar a numrului de parametri de la la 509. Reducerea complexitii calculelor de probabiliti este unul din scopurile principale ale reelelor bayesiene.
2.4. Algoritmul Bayes-Ball

Pe baza structurii unei reele bayesiene, putem determina i relaiile de independen sau independen condiionat dintre noduri. n exemplele din seciunea 2.2, am menionat dou situaii n care se poate preciza relaia de independen ntre evenimente, n prezena sau lipsa unor evidene. Putem relua acum aceste situaii n reprezentarea grafic a reelor bayesiene.
Expertiza banului B
I Ion d cu banul
M Maria d cu banul
Figura 2.6. Cauz comun
42
n figura 2.6 este prezentat scenariul cauzei comune. Dac lipsesc alte evidene, I i M nu sunt independente, deoarece au o cauz comun ascuns. Dac se cunoate ns B, ele devin independente. Formal, putem scrie c: ( | ) ( | ) ( ), notat i I M M|B ( | ), notat i I
n figura 2.7 este prezentat scenariul revocrii prin explicare (engl. explaining away). R i A sunt independente n lipsa altor evidene. Dac se cunoate ns S, ele nu mai sunt independente. Formal, putem scrie c: ( | ) ( | ) ( ), notat i R A A|S ( | ), notat i R
Rceal R
Alergie A
S Strnut
Figura 2.7. Revocare prin explicare
O modalitate simpl pentru a deduce relaiile de independen i independen condiionat ntre noduri este propus de algoritmul BayesBall (Shachter, 1998), care prin analogie cu jocul de baseball, presupune trimiterea unei mingi n reea, care poate trece mai departe sau poate fi
43
blocat de anumite noduri. Dac mingea nu poate ajunge de la un nod A la un nod B, atunci aceste noduri sunt independente. Regulile de micare a mingii prin reea iau n calcul direciile arcelor (dac mingea vine de la un printe la un fiu sau invers), precum i tipurile de noduri: neobservate sau observate (de eviden). n figura 2.8 (Paskin, 2003), sgeile normale arat faptul c mingea trece mai departe, iar barele perpendiculare pe capetele sgeilor indic faptul c mingea este blocat.
Figura 2.8. Regulile de traversare a reelei ale algoritmului Bayes-Ball
Nodurile neobservate sunt marcate cu alb, iar cele de eviden sunt marcate cu gri. Algoritmul poate determina dac nodul A este independent sau nu de nodul B date fiind nodurile , etc. n acest caz, nodurile B| . Dac ajunge, atunci sunt marcate cu gri. Mingea pleac din nodul A i parcurge reeaua, ajungnd sau nu la B. Dac nu ajunge, atunci A A B| . Nodurile pe care le atinge mingea sunt dependente condiional iar nodurile care nu sunt atinse de minge sunt independente condiional de nodul de start.
44
Regula 1 specific relaiile de dependen condiional ntre bunici, prini i fii. Dac printele este observat (regula 2), bunicul devine independent condiional de fiu. Am putea aminti aici presupunea Markov: viitorul i trecutul sunt independente condiional dat fiind prezentul. Pentru regula 3, un nod printe pentru doi fii, dac nodul este neobservat, fiii sunt dependeni deoarece au o cauz comun ascuns, aa c mingea trece. Dac nodul este observat (regula 4), fiii devin independeni condiional, aa c mingea va fi blocat. Pentru regula 5, un nod cu doi prini, dac nodul este neobservat, atunci prinii si sunt independeni iar mingea nu trece. Dac nodul este observat (regula 6), prinii devin dependeni iar mingea trece datorit revocrii prin explicare. Regulile 7-10 trateaz cazurile n care mingea ajunge la un nod terminal, unde este ori blocat (7, 10), ori reflectat napoi (8, 9). Pentru a reine mai uor regulile 3-10, putem face urmtoarea convenie. Numim noduri albe nodurile neobservate i negre nodurile de eviden. De asemenea, numim capetele sgeilor albe dac niciun arc nu este incident n acel nod (de exemplu arcele care pleac din nodurile de sus n regulile 3-10) i negre dac arcele sunt incidente n acel nod (arcele care intr n nodurile de jos n regulile 3-10). Regula general este simpl: dac nodurile i arcele au aceeai culoare, mingea trece sau este reflectat. Dac au culori diferite, mingea este blocat. Pentru a exemplifica, vom considera reeaua bayesian din figura 2.9, pe baza creia vom rspunde la o serie de interogri privind independena i independena condiionat a nodurilor cu ajutorul algoritmului Bayes-Ball.
45
A C E
B D F
Figura 2.9. Reea bayesian pentru exemplificarea algoritmului Bayes-Ball
Mai nti, s determinm dac A este independent de D. S-au notat ncercuite numerele etapelor de aplicare a algoritmului i sensul de trimitere a mingii pe arcele reelei. Se vede n figura de mai jos c mingea nu ajunge la D i prin urmare rspunsul la ntrebare este afirmativ.
B C D F
Urmtoarea interogare este dac A este independent de D dat fiind C. n figura urmtoare, se observ nodul eviden C marcat cu gri. ntruct mingea ajunge de la A la D, rspunsul este n acest caz negativ.
46
C E F
4
Dorim s aflm n continuare dac A este independent de D dat fiind E. Aplicnd algoritmul ca n figura urmtoare, rspunsul este negativ.
C
4 3
D F
7
n continuare, vom rspunde dac A este independent de D dai fiind B i C. Conform rezolvrii din figura de mai jos, de data aceasta este rezultatul este afirmativ.
B D F
C E
Schimbnd nodul de start, dorim s tim dac E este independent de D. Rspunsul este negativ, dup cum se poate observa din figura urmtoare.
47
A
4
C
1 2
D F
7
Pentru interogarea privind independena lui E fa de D, dat fiind B, rspunsul este afirmativ.
A
4
B D
2
C
1
n fine, pentru interogarea privind independena lui E fa de D, dai fiind B i F, rspunsul este negativ.
A
6
C
1 2
D F
3
Trebuie menionat faptul c mingea poate merge n direcia opus arcului din graf. Un arc poate fi parcurs de dou ori n direcii opuse.
48
ns un arc poate fi parcurs doar o singur dat ntr-o anumit direcie. De aceea, n scopul implementrii, pentru a evita parcurgerea de mai multe ori a arcelor, nodurile eviden sunt marcate ca vizitate cnd mingea ajunge la ele iar celelalte noduri primesc un marcaj sus (engl. top) cnd trimit mingea prinilor i un marcaj jos (engl bottom) cnd trimit mingea copiilor. De exemplu, un nod marcat sus nu mai poate trimite mingea din nou prinilor.
2.5. Sortarea topologic

Sortarea sau ordonarea topologic a unui graf este o ordonare liniar a nodurilor sale astfel nct, pentru fiecare arc AB, A apare naintea lui B. Pentru o reea bayesian, sortarea topologic asigur faptul c nodurile printe vor aprea naintea nodurilor fiu. Orice graf orientat aciclic, cum este o reea bayesian, are cel puin o ordonare topologic. Algoritmii corespunztori au de obicei o complexitate de timp liniar n numrul de noduri n i de arce a: ( ). Pentru exemplificare, vom considera algoritmul propus de Kahn (1962), care este mai uor de neles, nefiind recursiv. Pseudocodul este urmtorul:
L list iniial vid care va conine elementele sortate S mulimea nodurilor fr prini ct-timp S nu este vid scoate un nod n din S introdu n n L pentru-fiecare nod m cu un arc e de la n la m scoate arcul e din graf
49
Partea I. Raionament probabilistic dac m nu are alte arce incidente atunci introdu m n S sfrit-dac sfrit-pentru-fiecare sfrit-ct-timp dac graful mai are arce atunci ntoarce eroare (graful are cel puin un ciclu) altfel ntoarce L (elementele sortate topologic) sfrit-dac
Dac graful este orientat aciclic, soluia se va gsi n lista L. Dac nu, algoritmul detecteaz faptul c exist cicluri n graf i sortarea topologic este imposibil. Lista S poate fi implementat ca o coad sau ca o stiv. n funcie de ordinea nodurilor extrase din S, se pot crea soluii diferite. Pentru exemplificare, vom considera graful din figura 2.10.
Figura 2.10. Graf simplu pentru sortare topologic
50
Paii de execuie ai algoritmului sunt urmtorii: 1. 2. , * +, arcul AF 4. 6. * * +, * + * + * * + +, +. + +, 5. se elimin arcul AF, 7. se elimin arcul FO, 8. se elimin arcul FX, 9. 10. * * +, * + * +
3. se elimin arcul GF, F nu poate fi adugat n S pentru c mai exist
Soluia este deci: * 2.11.
S considerm i un exemplu puin mai complex, prezentat n figura
Figura 2.11. Graf mai complex pentru sortare topologic

51
n acest caz, paii de execuie ai algoritmului sunt urmtorii: 1. 2. , * +, * + * +
3. se elimin arcul AR 3. se elimin arcul AO 4. * +, * + * + 5. se elimin arcul GR, 3. se elimin arcul GF, 4. 4. * * +, +, * + * * + +, +. + * +
5. se elimin arcul FO, 3. se elimin arcul FX, 4. 4. * * +,
Soluia este: *
2.6. Construcia automat a reelelor bayesiene

Pe msur ce complexitatea modelelor crete, o problem important este construirea reelelor bayesiene n mod automat, doar pe baza datelor existente. Putem identifica aici dou tipuri de probleme: determinarea parametrilor direct din date; determinarea structurii optime direct din date.
52
Dac structura de noduri i arce este cunoscut, determinarea parametrilor direct din date presupune estimarea probabilitilor condiionate ale fiecrui nod n funcie de prini, ca frecvene relative de apariie a valorilor n cadrul datelor eantionate disponibile. Determinarea automat a structurii optime este mult mai dificil. Dac nu se cunosc relaiile de cauzalitate sau de corelaie ntre variabile, teoretic, nodurile ar putea fi introduse n reea n orice ordine. Pentru aceleai evenimente, pot exista mai multe reele echivalente. n momentul n care este introdus un nod nou, se actualizeaz relaiile cu nodurile existente pentru crearea arcelor. n cazul cel mai defavorabil, n care nodurile sunt considerate ntr-o ordine nefericit, o reea bayesian devine echivalent din punct de vedere al numrului de parametri cu distribuia comun de probabilitate. Un exemplu n acest sens poate fi observat n figura 2.12 (adaptat dup Russell & Norvig, 2002), n care ordinea n care se introduc nodurile reelei din figura 2.3 este de sus n jos: Oboseal, Anorexie, Abces, Grip, Febr, iar arcele sunt create pentru a respecta relaiile de corelaie. Desigur, nu se mai respect relaiile cauzale logice, dar dac lum evenimentele n aceast ordine, ele nu sunt independente. Dac primul nod introdus n reea este Oboseala, i urmtorul este Anorexia, trebuie adugat un arc ntre cele dou, deoarece informaiile despre primul afecteaz informaiile despre al doilea. Anorexia nu este cauzat de Oboseal, dar n lipsa altor informaii, valorile lor sunt corelate datorit cauzei comune. Acelai tip de raionament se aplic pentru celelalte noduri introduse n reea. n final, aceasta necesit 31 de parametri, la fel ca distribuia comun de probabilitate.
53
1. Oboseal
2. Anorexie
3. Abces
4. Grip
5. Febr
Figura 2.12. Cazul cel mai defavorabil pentru structura unei reele bayesiane
Din cauza acestor dificulti, de multe ori se prefer o abordare hibrid, n care structura reelei este definit de un expert uman, care analizeaz pe ct posibil relaiile cauzale dintre evenimente, iar parametrii sunt mai apoi estimai n mod automat din date.
54
Capitolul 3
Raionamente exacte
3.1. Calculul probabilitii unei observaii
n acest capitol vom prezenta, pe baza mai multor exemple, o serie de calcule i raionamente care permit prelucrarea informaiile stocate ntr-o reea bayesian. Vom considera aceeai reea din capitolul 2. Pentru a fi mai uor de urmrit, redm i aici structura (figura 3.1) i tabelele de probabiliti (tabelul 3.1).
Grip
Abces
Febr
Oboseal
Anorexie
Figura 3.1. Reea bayesian cu 5 noduri i 4 arce
Tabelul 3.1. Tabelele de probabiliti pentru reeaua bayesian

P(Grip = Da) 0,1 P(Abces = Da) 0,05 Grip Da Da Nu Nu Febr Da Nu Febr Da Nu Abces Da Nu Da Nu P(Grip = Nu) 0,9 P(Abces = Nu) 0,95 P(Febr = Nu) 0,2 0,3 0,75 0,95
P(Febr = Da) 0,8 0,7 0,25 0,05
P(Oboseal = Da) 0,6 0,2 P(Anorexie = Da) 0,5 0,1
P(Oboseal = Nu) 0,4 0,8 P(Anorexie = Nu) 0,5 0,9
Un prim tip de calcul este determinarea probabilitii unei observaii, n cazul n care sunt cunoscute valorile tuturor nodurilor din reea. De exemplu, s presupunem situaia n care o persoan are febr, dar nu are grip, abces, oboseal i anorexie. Pentru simplitate, vom nota nodurile cu F, G, A, O i X, respectiv,. De asemenea, vom nota cu D i N ca indici valorile Da i Nu. Dac variabila Febr are valoarea Da, vom nota acest fapt cu cu ( . Pentru situaia de mai sus, trebuie s calculm probabilitatea ) . Conform ecuaiei 2.11, descompunem aceast probabilitate ntr-un produs de probabiliti condiionate n care factorii sunt probabilitile tuturor nodurilor, condiionate de prini: . Dac variabila Abces are valoarea Nu, vom nota acest fapt
56
Capitolul 3. Raionamente exacte
( (
) ) ( ) ( ) ( ) ( )
Valorile probabilitilor condiionate se caut n tabelele de probabiliti ale reelei. De exemplu, valoarea lui ( valorii Da din ultima linie a tabelei pentru Febr. Rezultatul de aproximativ 1% ne spune c este puin probabil ca o persoan s aib febr n lipsa cauzelor i efectelor cunoscute pentru aceasta. ) corespunde
3.2. Calculul probabilitilor marginale

ntr-o reea bayesian putem calcula i probabilitile marginale ale tuturor nodurilor, adic probabilitile nodurilor n sine, care nu mai depind de prini (n sensul probabilitilor condiionate). n tabelele date, numai nodurile fr prini au probabiliti marginale, cum ar fi Grip i Abces. Dorim s deducem n general care sunt probabilitile celorlalte noduri. Calculele reprezint ntr-un fel o sum a probabilitilor condiionate pentru fiecare valoare, ponderate cu probabilitile marginale de apariie a valorilor prinilor. Pentru valoarea Da a variabilei Febr vom avea: ( ) ( ( ) ) ( ( ) )
57
( (
) )
( (
) )
( (
) )
( (
) )
Avnd n vedere faptul c singurele valori ale variabilei Febr sunt Da i Nu, probabilitatea valorii Nu va reprezenta restul pn la 1:
Acelai tip de calcule se realizeaz pentru variabila Oboseal:
) ( ) ( ) ( ) ( )
i de asemenea, pentru Anorexie:
) ( ) ( ) ( ) ( )
58

Grip Da: 0,10 Nu: 0,90 Abces Da: 0,05 Nu: 0,95
Febr Da: 0,12 Nu: 0,88
Oboseal Da: 0,25 Nu: 0,75
Anorexie Da: 0,15 Nu: 0,85
Figura 3.2. Probabilitile marginale ale nodurilor reelei
Figura 3.2 prezint succint probabilitile marginale pentru toate nodurile din reea.
3.3. Inferena prin enumerare

Spre deosebire de calculul probabilitii atunci cnd cunoatem valorile tuturor variabilelor, n cazul inferenei prin enumerare dorim s rspundem la ntrebri generale privind probabilitile unor noduri, cunoscnd doar valorile unora dintre noduri. Folosind acest procedeu, putem rspunde practic la orice ntrebare privind evenimentele codate n reea. Avnd n vedere nite evidene, adic observaii sau evenimente despre care tim c s-au ntmplat, putem calcula probabilitile tuturor celorlalte noduri din reea.
59
Mai exact, scopul inferenei prin enumerare este de a calcula probabilitatea unei variabile interogate (engl. query), date fiind variabilele observate (eviden). Ideea de baz este tot calcularea unui produs de probabiliti condiionate, ns n cazul variabilelor despre care nu se cunoate nimic (nu sunt nici observate i nici interogate), se sumeaz variantele corespunztoare tuturor valorilor acestora. S considerm urmtoarea ntrebare: Care este probabilitatea ca o persoan s aib grip, dac prezint simptome de oboseal i anorexie? Vom calcula independent ( Pentru ( acestor variabile: * ) i ( ). ), variabilele rmase sunt Abcesul i Febra. n + i * + . De asemenea, pentru a
consecin, vom suma probabilitile corespunztoare tuturor valorilor crete eficiena calculelor, se recomand ca variabilele rmase s fie mai nti sortate topologic, astfel nct prinii s apar naintea copiilor. n acest caz, se vor putea descompune mai uor sumele, scond n fa factorii care nu depind de o anumit variabil. ( )
* +
* +
( (
( )
) ( ) (
) ( ) , (
60
( ( ( ( ( * , , ) * (
( ) ) ( ( ) ( ) (
)) )( )-+ -+ ) ( )
) , ( ) ( ) ) (
) , (
n exemplul de mai sus, se observ c ( ) nu depinde de f i prin urmare, suma corespunztoare variabilei Abces a fost scoas n faa sumei corespunztoare variabilei Febr, evitndu-se duplicarea unor calcule. Nodul Abces, neavnd prini, este n faa Febrei n sortarea topologic. Se remarc variabila care intervine n expresia probabilitii. Vom explica sensul acesteia imediat, dup ce vom considera i calculele pentru ( ), n mod analog:
)
* +
* +
( )
( (
) ( ) ( ) * ( ) , (
61
) ) (
) )
( (
) )
( ( ( * , , ) , (
( )
) ( )
( ) (
)( )-+ -+ )
Se tie c ( i ( este:
) )
) , exist
, deoarece Da i Nu sunt ) , astfel nct
singurele valori posibile pentru Grip. Avnd n vedere c (
suma celor dou probabiliti s fie 1. n consecin, rezultatul interogrii
( (
) )
3.4. Inferena prin eliminarea variabilelor

Dac urmrim cu atenie paii efectuai pentru a determina probabilitile condiionate prin metoda inferenei prin enumerare, constatm o repetare a unor calcule, evideniat mai jos:
( (
) ) * ( ) , ( ) ( ) ( )
62
( ( ( * , , ) , (
( )
) ( )
( ) (
)( )-+ -+ )
Calcularea unor sume pariale i folosirea lor direct atunci cnd este nevoie poate aduce o mbuntire semnificativ a vitezei de execuie n cazul unor reele bayesiene complexe i a unui numr mic de variabile observate, echivalent cu un numr mare de sume. Metoda eliminrii variabilelor se bazeaz pe factorizare. Probabilitatea fiecrei variabile reprezint un factor:
)
* +
* +
( )
) ( ( )
) (
) (
Compunerea acestor factori se realizeaz cu o operaie numit produs punct cu punct (engl. pointwise product), n care variabilele rezultatului reprezint reuniunea variabilelor operanzilor.
63
De exemplu, pentru 3 variabile X, Y i Z, produsul punct cu punct al factorilor ( ) i ( ) este: (3.1)
Modul n care se calculeaz valorile factorului rezultat este mai uor de neles pe baza exemplului din tabelul 3.2.
Tabelul 3.2. Exemplu de factorizare
X A A F F Y A F A F f1(X, Y) 0,1 0,2 0,3 0,4 Y A A F F Z A F A F f2(Y, Z) 0,5 0,6 0,7 0,8 X A A A A F F F F Y A A F F A A F F Z A F A F A F A F f3(X, Y, Z) 0,1 0,5 0,1 0,6 0,2 0,7 0,2 0,8 0,3 0,5 0,3 0,6 0,4 0,7 0,4 0,8
Factorul avea
depinde de 2 variabile i s presupunem pentru simplitate
c sunt binare, cu valorile Adevrat (A) i Fals (F). Prin urmare, factorul va valori, corespunztoare tuturor combinaiilor de valori pentru . Valoarea factorului pentru o anumit variabile. Analog pentru factorul
combinaie de valori ale variabilelor sale este egal cu produsul valorilor factorilor-operanzi atunci cnd variabilele acestora iau aceleai valori ca acelea din factorul-rezultat. De exemplu: ( ( ) ) ( ( ) ) ( ( ) )
64
n cele ce urmeaz, vom aplica metoda eliminrii variabilelor pentru a rspunde la aceeai ntrebare ca n seciunea 3.3: Care este probabilitatea ca o persoan s aib grip, dac prezint simptome de oboseal i anorexie? Am vzut c:
) ( ( )
) (
) (
Mai nti, vom calcula factorii corespunztori variabilelor, utiliznd probabilitile condiionate din tabelele de probabiliti. Calculele se fac de la dreapta la stnga, variabilele fiind sortate topologic, de la stnga la dreapta. Aici, sortarea topologic a variabilelor este: { Grip, Abces, Febr, Oboseal, Anorexie }. Pentru variabilele Anorexie, respectiv Oboseal, factorii au valorile date de probabilitile condiionate, depinznd de printele lor, Febra:
F D N F D N fX(F) 0,5 0,1 fO(F) 0,6 0,2 F D N F D N P(X|F) 0,5 0,1 P(O|F) 0,6 0,2
Compunem acum aceste dou variabile, rezultnd factorul depinde i el (numai) de Febr: ( ) ( ) ( )
, care
65
Partea I. Raionament probabilistic F D N fOX(F) 0,6 0,5 = 0,3 0,2 0,1 = 0,02 F D N fO(F) 0,6 0,2 F D N fX(F) 0,5 0,1
n continuare, calculm factorul
, prin compunerea factorului
cu factorul corespunztor Febrei, urmtoarea variabil de la dreapta spre stnga. Febra depinde de Grip i Abces, prin urmare: (
F D D D D N N N N G D D N N D D N N A D N D N D N D N
)
F D D D D N N N N
( )
G D D N N D D N N A D N D N D N D N P(F|G,A) 0,8 0,7 0,25 0,05 0,2 0,3 0,75 0,95
fFOX(F,G,A) 0,8 0,3 = 0,24 0,7 0,3 = 0,21 0,25 0,3 = 0,075 0,05 0,3 = 0,015 0,2 0,02 = 0,004 0,3 0,02 = 0,006 0,75 0,02 = 0,015 0,95 0,02 = 0,019
F D N
fOX(F) 0,3 0,02
n acest moment, am ajuns la suma dup valorile variabilei Febr. Pentru a continua calculele, se procedeaz la eliminarea prin sumare (engl. sum out) a variabilei, de unde vine i numele metodei. F este eliminat iar factorul su va depinde numai de G i A. Valorile factorului rezultat, notat
, se calculeaz, pentru fiecare combinaie a
valorilor variabilelor rmase, ca sum a valorilor factorului iniial, pentru toate valorile variabilei eliminate. De exemplu: ( ) ( ) ( )
66
Capitolul 3. Raionamente exacte G D D N N A D N D N ( ) 0,24 + 0,004 = 0,244 0,21 + 0,006 = 0,216 0,075 + 0,015 = 0,09 0,015 + 0,019 = 0,034
Se poate vedea de exemplu c valoarea 0,244 apare i n calculele metodei de inferen prin enumerare ( ). Aceste 4 valori din tabelul de mai sus sunt exact valorile parantezelor interioare din exemplul din seciunea 3.3. De aceast dat ns, calculele se fac o singur dat, la determinarea factorului. Urmeaz apoi tratarea variabilei Abces: ( ) ( ) ( )
Valorile factorului sunt cele din tabelul de mai jos:

G D D N N A D N D N ( ) 0,05 0,244 = 0,0122 0,95 0,216 = 0,2052 0,05 0,09 = 0,0045 0,95 0,034 = 0,0323
A D N
fA(A) 0,05 0,95
G D D N N
A D N D N
( ) 0,244 0,216 0,09 0,034
La fel, avnd acum o sum dup A, aceast variabil este eliminat prin sumare, rezultnd factorul
G D N
( ) , cu valorile din tabelul urmtor:
( ) 0,0122 + 0,2052 = 0,2174 0,0045 + 0,0323 = 0,0368
Se poate observa c aceste valori sunt la fel cu acelea din parantezele exterioare din calculele din seciunea 3.3, nainte de nmulirile cu respectiv cu ( )
67
),
Ultimul factor este: ( ) ( ) ( )
cu valorile de mai jos:

G D N ( ) 0,1 0,0122 = 0,02174 0,9 0,0323 = 0,03312
G D N
fG(G) 0,1 0,9
G D N
( ) 0,2174 0,0368
Se vede c valorile sunt aceleai cu rezultatele finale din exemplul seciunii 3.3. i n cazul metodei de eliminare a variabilelor, trebuie normalizate probabilitile determinate, astfel nct suma lor s fie 1.
Alergie
Grip
Rinoree
Febr
Oboseal
Anorexie
68
3.5. Variabile cu valori multiple. Ignorarea variabilelor irelevante

n aceast seciune, vom considera un caz mai general de reele bayesiene, cu mai multe variabile i eliminnd restricia ca acestea s aib valori binare. Pentru analiz, vom utiliza reeaua din figura 3.3. Tabelele de probabiliti sunt date n continuare. Variabila Febr are 3 valori: Absent (A), Mic (M) i Ridicat (R).
P(Alergie = Da) 0,05 P(Grip = Da) 0,1 Grip Da Da Nu Nu Grip Da Nu Alergie Da Nu Da Nu P(Alergie = Nu) 0,95 P(Grip = Nu) 0,9 P(Rinoree = Nu) 0,05 0,2 0,1 0,9 P(Febr = Ridicat) 0,65 0,05
P(Rinoree = Da) 0,95 0,8 0,9 0,1
P(Febr = Absent) 0,1 0,9 Alergie Da Nu Da Nu Da Nu
P(Febr = Mic) 0,25 0,05
Febr Absent Absent Mic Mic Ridicat Ridicat
P(Oboseal = Da) 0,3 0,1 0,5 0,4 0,7 0,6
P(Oboseal = Nu) 0,7 0,9 0,5 0,6 0,3 0,4
Febr Absent Mic Ridicat
P(Anorexie = Da) 0,1 0,2 0,5
P(Anorexie = Nu) 0,9 0,8 0,5
69
Calculele de probabiliti i metodele de inferen sunt la fel. S considerm urmtoarea interogare: Care este probabilitatea ca o persoan s aib alergie, dac manifest oboseal i rinoree? ( )
* + *
* +
Pentru a optimiza rezolvarea, utilizm urmtorul rezultat. O (* + variabil Y este irelevant pentru o interogare dac ) , unde Q este variabila interogat, E este mulimea ( ) este mulimea predecesorilor * + i (* +) * +.
variabilelor observate (eviden) iar tuturor nodurilor din mulimea M. n exemplul nostru, * +,
Variabila Anorexie nu aparine acestei mulimi. Prin urmare, aceast variabil este irelevant pentru interogarea curent i poate fi ignorat: ( )
* + *
* +
( )
Calculele de probabiliti se realizeaz ca n seciunile anterioare, obinnd n final:
70
( (
) )
3.6. Cea mai probabil explicaie

Un alt tip de rezultat pe care l putem obine pe baza unei reele bayesiene este cea mai probabil explicaie (engl. most probable explanation) pentru o eviden. Fie E mulimea variabilelor observate (evidena) i M mulimea celorlalte variabile, numit i mulimea de explicare. Se dorete gsirea combinaiei de valori pentru variabilele din mulimea de explicare, pentru care probabilitatea tuturor valorilor astfel obinute ale nodurilor reelei s fie maxim: ( ) , unde m este combinaia de valori ale variabilelor din M iar e este combinaia (dat) de valori ale variabilelor din E. Ca exemplu, pentru reeaua din figura 3.3, dorim s calculm cea mai probabil explicaie pentru trei situaii: * + i * * +, +. Mai exact, dorim s gsim cauza
(alergie sau grip) atunci cnd o persoan are rinoree (i curge nasul), oboseal dar nu are anorexie (lipsa poftei de mncare). Cele trei situaii sunt difereniate de nivelul febrei: n primul caz este absent, n al doilea caz este mic iar n al treilea caz este ridicat. n tabelul 3.4, primele patru coloane indic valorile celor patru variabile de eviden. Coloana 5 prezint probabilitatea valorii condiiile evidenelor date. Coloana 6 prezint probabilitatea valorii , n , n
condiiile evidenelor date. Variabilele A i G sunt binare, astfel nct este suficient menionarea probabilitii unei singure valori. Coloana 7 indic probabilitatea P(m, e) pentru toate combinaiile de valori ale variabilelor de
71
explicare. Combinaia pentru care aceast probabilitate este maxim este marcat cu litere aldine. Ultima coloan indic rezultatele: valorile variabilelor de explicare care determin cea mai probabil explicaie.
Tabelul 3.4. Cutarea exhaustiv a celei mai probabile explicaii
R D O D X N F A 57% 5% P(m, e) AN, GN 0,00693 AN, GD 0,00068 AD, GN 0,00984 AD, GD 0,00013 AN, GN 0,00137 AN, GD 0,00608 AD, GN 0,00081 AD, GD 0,00048 AN, GN 0,00128 AN, GD 0,01482 AD, GN 0,00071 AD, GD 0,00108 A, G CMPE AD, GN
15%
75%
AN, GD
10%
89%
AN, GD
n primul caz, n absena febrei, cel mai probabil este c persoana are alergie i nu grip. Dac are febr, mic sau ridicat, este mai probabil ca persoana s aib grip i nu alergie. Valorile din coloanele 5 i 6 sunt n concordan cu cea mai probabil explicaie, totui trebuie precizat c ( ) i ( ) sunt calculate considernd izolat variabilele A i G. Cea mai probabil explicaie le consider mpreun. n cazul n care reeaua conine un numr mare de noduri, pot exista diferene ntre cele dou tipuri de rezultate.
72
Capitolul 4
Raionamente aproximative
4.1. Introducere
Pentru probleme din lumea real au fost construite reele bayesiene cu sute de noduri, pentru care algoritmii exaci i ating limitele, ntruct inferena este o problem NP-dificil (engl. NP-hard). Pentru reele foarte complexe, inferena aproximativ este singura posibilitate de a obine un rezultat. De asemenea, pentru alte probleme n care precizia nu este un factor critic, inferena aproximativ poate aduce un ctig important din punct de vedere al vitezei de calcul. Algoritmii de eantionare stohastic sunt cele mai des ntlnite metode aproximative de inferen. Ideea de baz este generarea aleatorie a unor instanieri ale reelei, adic determinarea de valori coerente pentru variabilele sale, i apoi calcularea frecvenelor instanierilor n care apar valorile dorite pentru anumite variabile. Avantajul acestei clase de algoritmi este faptul c precizia calculelor crete cu numrul de eantioane generate i este relativ independent de dimensiunea reelei. De asemenea, timpul de execuie este relativ independent de topologia reelei i variaz liniar cu numrul de eantioane. Pentru aplicaiile n care timpul este un factor critic, algoritmul poate fi oprit oricnd, producnd un rezultat cu o precizie n general dependent de numrul de eantioane generate pn n acel moment (Cheng, 2001).
Metodele care vor fi descrise n continuare sunt de tipul eantionrii progresive (engl. forward sampling), n care eantioanele sunt generate n ordinea topologic a nodurilor din reea.
4.2. Inferena stohastic prin ponderarea verosimilitii

Metoda de inferen prin ponderarea verosimilitii (engl.
likelihood weighting) este o metod simpl i eficient de aproximare stohastic (Fung & Chang, 1990; Shachter & Peot, 1990). Ideea de baz este generarea aleatorie a unor instanieri ale reelei i calculul probabilitilor dorite ca frecvene relative de apariie. Valorile variabilelor neobservate au probabiliti de apariie n conformitate cu probabilitile nodurilor, iar nodurile de eviden iau mereu valorile observate.
Alergie
Grip
Rinoree
Febr
Oboseal
Anorexie
74
Capitolul 4. Raionamente aproximative
S considerm aceeai reea din figura 4.1 cu tabelele de probabiliti din tabelul 4.1. Vom determina probabilitatea nodurilor neobservate din reea, considernd urmtoarea eviden: Rinoree = Da i Oboseal = Da.
P(Alergie = Da) 0,05 P(Grip = Da) 0,1 Grip Da Da Nu Nu Grip Da Nu Alergie Da Nu Da Nu P(Alergie = Nu) 0,95 P(Grip = Nu) 0,9 P(Rinoree = Nu) 0,05 0,2 0,1 0,9 P(Febr = Ridicat) 0,65 0,05
P(Rinoree = Da) 0,95 0,8 0,9 0,1
P(Febr = Absent) 0,1 0,9 Alergie Da Nu Da Nu Da Nu
P(Febr = Mic) 0,25 0,05
Febr Absent Absent Mic Mic Ridicat Ridicat
P(Oboseal = Da) 0,3 0,1 0,5 0,4 0,7 0,6
P(Oboseal = Nu) 0,7 0,9 0,5 0,6 0,3 0,4
Febr Absent Mic Ridicat
P(Anorexie = Da) 0,1 0,2 0,5
P(Anorexie = Nu) 0,9 0,8 0,5
Nodurile fr prini vor fi instaniate potrivit probabilitilor lor marginale. Nodul Alergie va lua valoarea Da cu probabilitatea de 5% i Nu cu probabilitatea de 95%. Din punct de vedere practic, acest lucru corespunde
75
unui prag cu valoare 0,05. Se genereaz dup distribuia uniform un numr aleatoriu r ntre 0 i 1. Dac lua valoarea Nu. Analog, nodul Grip va lua valoarea Da cu probabilitatea de 10% i Nu cu probabilitatea de 90%. S presupunem c nodurile Alergie i Grip au fost instaniate ambele cu valoarea Nu. Urmtorul nod, n ordinea dat de sortarea topologic, este Rinoree. Acesta este un nod eviden i va fi instaniat ntotdeauna cu valoarea observat, Da. Urmeaz nodul Febr iar probabilitile valorilor acestuia sunt cele condiionate de valorile deja cunoscute: ( | ( ( | | ) ) ) ( | ( ( | | ) ) ) , nodul va lua valoarea Da, altfel va
Din punct de vedere al implementrii, vor exista n acest caz dou praguri corespunztoare probabilitilor cumulate: 0,9 i 0,9 + 0,05 = 0,95. Se genereaz un numr aleatoriu r ntre 0 i 1. Dac valoarea Absent, dac dac , nodul va lua valoarea Mare. S presupunem c nodul Febr este instaniat cu valoarea Absent. Mai rmne variabila eviden Oboseal, care va lua automat valoarea Da, i variabila Anorexie, cu urmtoarele probabiliti: ( | ) (
76
, nodul va lua
), nodul va lua valoarea Mic, iar
| )
| )
S presupunem c valoarea va fi Nu. Astfel, am generat o instaniere a reelei (un caz) cu urmtoarele valori: ( Ponderea unui caz este: ( | ( )) ( | ( )) ).
( )
(4.1)
unde U este mulimea tuturor nodurilor iar E este mulimea nodurilor eviden. Pentru cazul de mai sus, se iniializeaz cele dou produse cu i . Vom considera pe rnd variabilele din reea:
P(Alergie = Nu) = 0,95 , P(Grip = Nu) = 0,9 , P(Febr = Absent) = 0,9 , P(Oboseal = Da) = 0,1 , eviden) P(Anorexie = Nu) = 0,9 , nu se modific (Oboseala este
77
P(Rinoree = Da) = 0,1 , eviden) Prin urmare, ponderea cazului este: nu se modific (Rinoreea este
( )
Se repet procesul pentru un numr prestabilit de eantioane. n continuare, vom considera 10 eantioane. Pentru rezultate semnificative, numrul trebuie s fie mult mai mare. De asemenea, pentru a sublinia faptul c rezultatele sortrii topologice nu sunt unice, vom considera ordinea urmtoare: { A, G, F, O, X, R }.
Eantion 1: Nu, Nu, Absent, Da, Nu, Da Variabila: Alergie (interogare), P = 0,95, w1 = 0,95, w2 = 0,95 Variabila: Grip (interogare), P = 0,9, w1 = 0,855, w2 = 0,855 Variabila: Febr (interogare), P = 0,9, w1 = 0,7695, w2 = 0,7695 Variabila: Oboseal (eviden), P = 0,1, w1 = 0,07695 Variabila: Anorexie (interogare), P = 0,9, w1 = 0,069255, w2 = 0,69255 Variabila: Rinoree (eviden), P = 0,1, w1 = 0,0069255 w1 = 0,0069255, w2 = 0,69255 w = 0,01
Eantion 2: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01
78
Capitolul 4. Raionamente aproximative Eantion 4: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01
Eantion 5: Da, Nu, Absent, Da, Da, Da Variabila: Alergie (interogare), P = 0,05, w1 = 0,05, w2 = 0,05 Variabila: Grip (interogare), P = 0,9, w1 = 0,045, w2 = 0,045 Variabila: Febr (interogare), P = 0,9, w1 = 0,0405, w2 = 0,0405 Variabila: Oboseal (eviden), P = 0,3, w1 = 0,01215 Variabila: Anorexie (interogare), P = 0,1, w1 = 0,001215, w2 = 0,00405 Variabila: Rinoree (eviden), P = 0,9, w1 = 0,0010935 w1 = 0,0010935, w2 = 0,00405 w = 0,27
Eantion 6: Nu, Da, Mic, Da, Nu, Da Variabila: Alergie (interogare), P = 0,95, w1 = 0,95, w2 = 0,95 Variabila: Grip (interogare), P = 0,1, w1 = 0,095, w2 = 0,095 Variabila: Febr (interogare), P = 0,25, w1 = 0,02375, w2 = 0,02375 Variabila: Oboseal (eviden), P = 0,4, w1 = 0,0095 Variabila: Anorexie (interogare), P = 0,8, w1 = 0,0076, w2 = 0,019 Variabila: Rinoree (eviden), P = 0,8, w1 = 0,00608 w1 = 0,00608, w2 = 0,019 w = 0,32
79
Partea I. Raionament probabilistic Eantion 10: Nu, Nu, Absent, Da, Nu, Da w1 = 0,0069255, w2 = 0,69255 w = 0,01
n final, are loc o faz de normalizare, n care se calculeaz suma ponderilor cazurilor n care o variabil de interogare a avut o anumit valoare, mprit la suma ponderilor tuturor cazurilor: ( ) ( )
(4.2)
unde S este mulimea tuturor eantioanelor iar eantioane n care variabila Var apare cu valoarea val.
este submulimea de
Pentru problema considerat, rezultatele obinute sunt cele de mai jos.

Alergie Nu: wT = 0,4, wS = 0,67, P = 0,597 Da: wT = 0,27, wS = 0,67, P = 0,403 Grip Nu: wT = 0,35, wS = 0,67, P = 0,5224 Da: wT = 0,32, wS = 0,67, P = 0,4776 Febr Absent: wT = 0,35, wS = 0,67, P = 0,5224 Mic: wT = 0,32, wS = 0,67, P = 0,4776 Ridicat: wT = 0,0, wS = 0,67, P = 0,0 Oboseal (nod eviden) Nu: wT = 0,0, wS = 0,67, P = 0,0 Da: wT = 0,67, wS = 0,67, P = 1,0 80
Capitolul 4. Raionamente aproximative Anorexie Nu: wT = 0,4, wS = 0,67, P = 0,597 Da: wT = 0,27, wS = 0,67, P = 0,403
Rinoree (nod eviden) Nu: wT = 0,0, wS = 0,67, P = 0,0 Da: wT = 0,67, wS = 0,67, P = 1,0
n tabelul 4.2 se poate vedea cum evolueaz probabilitile nodurilor atunci cnd variaz numrul de eantioane. Cu ct acest numr este mai mare, cu att este mai apropiat valoarea aproximativ calculat de probabilitatea exact.
Tabelul 4.2. Evoluia probabilitilor nodurilor cu numrul de eantioane
Variabil / valoare Alergie = nu Alergie = da Febr = mic Febr = ridicat Febr= absent Anorexie = nu Anorexie = da Grip = nu Grip = da 10 0,597 0,403 0,4776 0,0 0,5224 0,597 0,403 0,5224 0,4776 Probabilitatea (numr de eantioane) 1.000 10.000 100.000 0,717 0,7589 0,7599 0,283 0,2411 0,2401 0,1563 0,1583 0,1653 0,5487 0,543 0,5453 0,295 0,2987 0,2894 0,6794 0,6885 0,66 0,3206 0,3115 0,34 0,4075 0,3806 0,3786 0,5925 0,6194 0,6214
1.000.000 0,754 0,246 0,1639 0,5405 0,2956 0,6673 0,3327 0,3844 0,6156
Un exemplu de variaie i convergen a probabilitilor cu numrul de eantioane este prezentat n figura 4.2. n afar de variabila Febr, care are trei valori, celelalte variabile sunt binare i de aceea graficul prezint doar o singur valoare, cu probabilitatea p, cealalt avnd probabilitatea 1 p.
81
Figura 4.2. Convergena valorilor aproximative la probabilitile exacte cnd numrul de eantioane crete
Cnd numrul de eantioane este mare, se vede c valorile converg, de exemplu valoarea Nu pentru variabila Alergie tinde la 75%, aa cum s-a calculat n seciunea 3.5. La fel, se pot estima i probabilitile marginale ale variabilelor, n absena evidenelor. Datorit simplitii sale, algoritmul cu ponderarea verosimilitii este una din cele mai des utilizate metode de simulare pentru inferena n reele bayesiene. De multe ori, precizia sa este comparabil cu a metodelor mai sofisticate, ntruct poate genera mai multe eantioane dect ali algoritmi n acelai interval de timp. Atunci cnd probabilitatea evidenei este foarte mic, convergena sa poate fi foarte lent. Viteza de convergen scade de asemenea cnd exist multe noduri de eviden, deoarece probabilitatea evidenei n ansamblu scade exponenial, fiind un produs de numere subunitare. De asemenea, n lipsa unui expert, este dificil de apreciat ct de corecte sunt rezultatele oferite, pentru c metoda nu permite calcularea unor intervale de ncredere bine precizate (Cheng, 2001).
82
4.3. Alte metode de inferen aproximativ

Dup cum am spus mai sus, un dezavantaj al inferenei prin ponderarea verosimilitii este convergena lent cnd probabilitatea evidenei este foarte mic. Una din ideile de baz ale algoritmilor mai receni este c la nceput se eantioneaz dup o distribuie diferit de cea definit de probabilitile (condiionate ale) nodurilor, astfel nct valorile puin probabile s aib anse mai mari de apariie. Pe msur ce numrul de eantioane crete, distribuia dup care se eantioneaz converge la distribuia definit de tabelele de probabiliti ale nodurilor. Dintre algoritmii mai compleci care dau n schimb rezultate bune din punct de vedere al vitezei de convergen i a preciziei amintim AIS-BN (Cheng & Druzdzel, 2000) i EPIS-BN (Yuan & Druzdzel, 2003). Rata de convergen poate fi de asemenea mbuntit folosind tehnici mai elaborate pentru eantionare, cum ar fi hipercubul latin (engl. Latin hypercube), n care distribuia de probabilitate este divizat ntr-un numr de intervale echiprobabile i fiecare interval este eantionat o singur dat (Cheng & Druzdzel, 2000). Avantajul fa de metoda Monte Carlo, pur aleatorie, este generarea unei mulimi de eantioane care reflect mai precis forma distribuiei considerate.
83
84
Capitolul 5
Teoria evidenelor
5.1. Teoria Dempster-Shafer
Avnd n vedere c pentru o propoziie pot exista diferite evidene care s o susin n grade diferite, posibil contradictorii, o prim modalitate de combinare a gradelor de ncredere derivate din surse independente de eviden a fost dezvoltat de ctre Dempster (1968) i studentul su, Shafer (1976). Aceast abordare a fost considerat foarte potrivit pentru aplicarea n sistemele expert din anii ' 80. Teoria evidenelor poate fi considerat ntr-un fel o extensie a modelului clasic de probabiliti, deoarece n locul unui singur numr, reprezentnd o probabilitate, se lucreaz cu intervale de ncredere pentru evenimente. Limita inferioar a intervalului care exprim ncrederea c un eveniment se poate ntmpla se numete convingere (engl. belief), notat Bel, iar cea superioar plauzibilitate (engl. plausibility), notat Pl. Pentru un eveniment: ( ) ( ) (5.1)
Este important de subliniat faptul c aici se calculeaz independent valorile pentru A i non-A. Fiecare eveniment are un grad de susinere ntre 0 i 1: 0 nseamn c nu exist susinere iar 1 nseamn o susinere total
pentru acesta. Spre deosebire de modelul bayesian, suma convingerilor ntr-un eveniment i n negatul acestuia nu este 1. Ambele valori pot fi 0, dac nu exist evidene nici pentru i nici mpotriva acestuia. n consecin, dac nu avem informaii nici despre A i nici despre A, intervalul de ncredere este , -, n locul unei probabiliti de 0,5. Pe msur ce se acumuleaz informaii, intervalul se micoreaz, respectndu-se relaia: ( ) ( ) ( ) (5.2)
Dac se cunoate precis probabilitatea evenimentului, atunci intervalul se reduce la un punct i rezultatul este echivalent cu modelul clasic: (5.3)
( )
( )
( )
De exemplu, la aruncarea unui ban, probabilitatea a-priori s ias cap este 0,5. ns netiind nimic despre ban, orice rezultat ar putea fi posibil. n lipsa oricror informaii, intervalul de ncredere este [0,1]: ( ( ) ) ( )
Dac un expert afirm c este 90% sigur c banul este corect, atunci: ( ( ) ) ( )
86
Capitolul 5. Teoria evidenelor
Intervalul de ncredere este: ,
-.
S mai considerm un exemplu. Dou site-uri de tiri relateaz despre o demonstraie. Primul site are nivelul de ncredere de 80% iar al doilea are nivelul de ncredere de 60%. Ambele afirm c demonstraia a fost una mare, cu peste 10000 de participani. Intuitiv, putem considera c probabilitatea ca ambele site-uri s mint este ( . Prin urmare, intervalul de ncredere este: , mare. ns poate exista situaia n care primul site afirm c demonstraia a fost mare iar al doilea afirm contrariul. Ne intereseaz intervalul de ncredere pentru evenimentul demonstraia a fost mare. n acest caz, nu pot fi ambele site-uri de ncredere, deoarece mrturiile se contrazic. Rmn urmtoarele posibiliti: Doar primul site este de ncredere (demonstraia a fost mare): ( ( ( ) ) ( ) ) ; ; . Doar al doilea site este de ncredere (demonstraia nu a fost mare): Niciun site nu este de ncredere (nu tim nimic precis): ) ( ) . Probabilitatea ca mcar unul din site-uri s spun adevrul este -. Limita superioar este 1 deoarece nu exist evidene mpotriva faptului c demonstraia a fost
Suma tuturor probabilitilor nenule, care va servi ca factor pentru normalizare, este: demonstraia a fost mare este: demonstraia nu a fost mare este:
87
. Prin urmare, convingerea c iar convingerea c . Plauzibilitatea unei
demonstraii mari este: , -.
. Intervalul de ncredere este deci:
Pentru a formaliza modelul, fie mulimea tuturor ipotezelor mutual excluzive, numit i cadru de discernmnt (engl. frame of discernment). Pentru exemplul anterior, = {Mare, Mic}. Nivelul de ncredere al unei evidene este probabilitatea ca evidena s fie de ncredere, de exemplu gradul n care fiecare din cele dou site-uri pot fi crezute (0,8 i respectiv 0,6). Fie m o funcie numit atribuire de convingeri de baz (engl. basic belief assignment, BBA) sau funcie de mas (engl. mass function), ( ) , -, unde ( ) este mulimea prilor lui (mulimea de mulimi care se pot forma din elementele lui ). Valorile lui m, de tipul m(A) se numesc mase de convingeri de baz (engl. basic belief masses, BBM). Aplicnd relaiile teoriei DempsterShafer, vom avea ntotdeauna:
( )
( )
(5.4)
Dup cum am menionat, teoria ne permite s combinm convingerile care apar din surse multiple de eviden. Ecuaia fundamental Dempster-Shafer pentru combinarea evidenelor date de nou atribuire de convingeri de baz este: ( ) ( ) ( ) ( ) i ntr-o
( )
(5.5)
88
Se consider c coincid, vom avea: m1({Mare}) = 0,8 m1() = 0,2 m2({Mare}) = 0,6 m2 () = 0,4.
( )
Pentru exemplul cu demonstraia, cnd evidenele celor dou site-uri
Se observ c incertitudinea rmas dup precizarea explicit a tuturor evidenelor se atribuie cadrului de discernmnt . Aplicarea regulii de combinare a evidenelor se poate face mai uor considernd un tabel de forma:
X {Mare} {Mare} m1(X) 0,8 0,8 0,2 0,2 Y {Mare} {Mare} m2(Y) 0,6 0,4 0,6 0,4
{Mare} {Mare} {Mare} 0,48 0,32 0,12 0,08
Penultima coloan reprezint intersecia dintre mulimile de elemente X i Y, iar ultima coloan indic produsul maselor de convingeri de baz corespunztoare. ntruct evidenele nu se contrazic, nu apare n intersecie mulimea vid. n consecin, valoarea numitorului din ecuaia 5.5 va fi: Din tabel rezult noua funcie de mas m3({Mare}) = 0,48 + 0,32 + 0,12 = 0,92 m3() = 0,08.
89
Prin urmare: Bel({Mare}) = 0,92 Pl({Mare}) = 1 Bel({Mic}) = 1. Intervalul de ncredere pentru demonstraia mare este acelai ca mai sus: [0,92, 1]. n al doilea caz, n care primul site afirm c demonstraia a fost una mare, iar al doilea c a fost una mic, vom avea: m1({Mare}) = 0,8 m1() = 0,2 m2({Mic}) = 0,6 m2 () = 0,4. Trebuie s subliniem faptul c ar fi incorect s considerm m2({Mare}) = 0,4, deoarece al doilea site a spus doar c demonstraia a fost mic, nu a spus nimic despre o demonstraie mare. Tabelul pentru calcule va fi urmtorul:
X {Mare} {Mare} m1(X) 0,8 0,8 0,2 0,2 Y {Mic} {Mic} m2(Y) 0,6 0,4 0,6 0,4
{Mare} {Mic} 0,48 0,32 0,12 0,08
Avnd n vedere c valoarea asociat mulimii vide este 0,48, numitorul fraciei va fi .
90
Funcia de mas
va fi definit astfel:
m3({Mare}) = 0,32 / 0,52 = 0,62 m3({Mic}) = 0,12 / 0,52 = 0,23 m3() = 0,08 / 0,52 = 0,15. Prin urmare: Bel({Mare}) = 0,62 Bel({Mic}) = 0,23 Pl({Mare}) = 1 Bel({Mare}) = 1 Bel( {Mare}) = 1 Bel({Mic}) = 0,77 Pl({Mic}) = 1 Bel({Mare}) = 0,38. Intervalele de ncredere sunt: pentru {Mare} [0,62, 0,77] iar pentru {Mic} [0,23, 0,38].
5.2. Surse multiple de eviden

n cele ce urmeaz, vom considera un exemplu mai complex pentru a urmri modul n care se combin succesiv mai multe evidene. S presupunem c un pacient internat n spital poate avea rceal, grip, meningit sau indigestie. Vom nota acest lucru astfel: = {R, G, M, I}. Pacientul are febr i greuri. Din studii anterioare, tim c febra susine rceala sau gripa la un nivel de 60%, meningita la un nivel de 20% iar indigestia la un nivel de 10%. Formal, vom avea:
91
m1({R,G}) = 0,6 m1({M}) = 0,2 m1({I}) = 0,1 m1() = 0,1. De asemenea, greurile susin ipoteza meningitei sau indigestiei la nivelul de 70%: m2({M,I}) = 0,7 m2() = 0,3. n tabelul urmtor se prezint modul de combinare a acestor dou evidene iniiale:
X {R,G} {R,G} {M} {M} {I} {I} m1(X) 0,6 0,6 0,2 0,2 0,1 0,1 0,1 0,1 Y {M,I} {M,I} {M,I} {M,I} m2(Y) 0,7 0,3 0,7 0,3 0,7 0,3 0,7 0,3
{R,G} {M} {M} {I} {I} {M,I} 0,42 0,18 0,14 0,06 0,07 0,03 0,07 0,03
Valoarea asociat mulimii vide este 0,42 i deci numitorul fraciei va fi . Funcia de mas va fi definit astfel:
m3({R,G}) = 0,18 / 0,58 = 0,3103 m3({M}) = (0,14 + 0,06) / 0,58 = 0,3448
92
m3({I}) = (0,07 + 0,03) / 0,58 = 0,1724 m3({M,I}) = 0,07 / 0,58 = 0,1207 m3() = 0,03 / 0,58 = 0,0517. Din masele de convingeri de baz putem deduce convingerile: Bel({R,G}) = 0,3103 Bel({M}) = 0,3448 Bel({I}) = 0,1724 Bel({M,I}) = 0,1207 + 0,3448 + 0,1724 = 0,6379. Pentru calculul lui Bel({M,I}) se observ c se iau n calcul toate submulimile mulimii {M, I}, respectiv {M}, {I} i {M, I}. Convingerea asociat unei mulimi este suma maselor tuturor submulimilor acesteia. Putem calcula apoi plauzibilitile mulimilor: Pl({R,G}) = 1 Bel({M,I}) = 1 0,6379 = 0,3621 Pl({M}) = 1 Bel({R,G,I}) = 1 (m3({R,G}) + m3({I})) = 0,5173 Pl({I}) = 1 Bel({R,G,M}) = 1 (m3({R,G}) + m3({M})) = 0,3449 Pl({M,I}) = 1 Bel({R,G}) = 0,6897. Intervalele de ncredere vor fi cele de mai jos: {R,G}: [0,3103, 0,3621] {M}: [0,3448, 0,5173] {I}: [0,1724, 0,3449] {M,I}: [0,6379, 0,6897].
93
S considerm acum c pacientul face un test care sprijin la nivelul 99% faptul c pacientul nu are meningit, ceea ce nseamn c rmn celelalte trei posibiliti rceal, grip sau indigestie: m4({R,G,I}) = 0,99 m4() = 0,01. Testul spune doar c nu este meningit, nu spune nimic despre probabilitatea de a fi meningit. Dup cum am precizat, n teoria evidenelor posibilitile A i sunt considerate independent. Interpretarea este diferit fa de cazul n care am considera m4({M}) = 0,01. n aceast din urm situaie, intervalele ar rmne aproape la fel, cu o foarte uoar cretere a ncrederii lui M. Tabelul care ne ajut s adugm noua eviden este prezentat mai jos:
X {R,G} {M} {I} {M,I} {R,G} {M} {I} {M,I} m3(X) 0,3103 0,3448 0,1724 0,1207 0,0517 0,3103 0,3448 0,1724 0,1207 0,0517 Y {R,G,I} {R,G,I} {R,G,I} {R,G,I} {R,G,I} m4(Y) 0,99 0,99 0,99 0,99 0,99 0,01 0,01 0,01 0,01 0,01
{R,G} {I} {I} {R,G,I} {R,G} {M} {I} {M,I} 0,3072 0,3414 0,1707 0,1195 0,0512 0,0031 0,0034 0,0017 0,0012 0,0005
Valoarea asociat mulimii vide este 0,3414 i deci numitorul fraciei va fi 0,6586.
94
Funcia de mas
va fi definit astfel:
m5({R,G}) = (0,3072 + 0,0031) / 0,6586 = 0,4712 m5({M}) = 0,0034 / 0,6586 = 0,0052 m5({I}) = (0,1707 + 0,1195 + 0,0017) / 0,6586 = 0,4432 m5({M,I}) = 0,0012 / 0,6586 = 0,0018 m5({R,G,I}) = 0,0512 / 0,6586 = 0,0777 m5() = 0,0005 / 0,6586 = 0,0008. Convingerile mulimilor vor fi: Bel({R,G}) = 0,4712 Bel({M}) = 0,0052 Bel({I}) = 0,4432 Bel({M,I}) = 0,0052 + 0,0018 = 0,007 Bel({R,G,I}) = 0,4712 + 0,4432 + 0,0777 = 0,9921. Plauzibilitile mulimilor vor fi: Pl({R,G}) = 1 Bel({M,I}) = 1 0,007 = 0,993 Pl({M}) = 1 Bel({R,G,I}) = 1 0,9921 = 0,0079 Pl({I}) = 1 Bel({R,G,M}) = 1 (0,4712 + 0,0052) = 0,5236 Pl({M,I}) = 1 Bel({R,G}) = 1 0,4712 = 0,5288 Pl({R,G,I}) = 1 Bel({M}) = 1 0,0052 = 0,9948.
95
Intervalele de ncredere ale mulimilor sunt acum urmtoarele: {R,G}: [0,4712, 0,993] {M}: [0,0052, 0,0079] {I}: [0,4432, 0,5236] {M,I}: [0,007, 0,5288] {R,G,I}: [0,9921, 0,9948]. Tabelul urmtor arat cum s-au modificat intervalele de ncredere prin adugarea evidenei testului care a exclus meningita:
Interval de ncredere m3 [0,3103, 0,3621] [0,3448, 0,5173] [0,1724, 0,3449] [0,6379, 0,6897] Interval de ncredere m5 [0,4712, 0,993] [0,0052, 0,0079] [0,4432, 0,5236] [0,007, 0,5288] [0,9921, 0,9948]
X {R,G} {M} {I} {M,I} {R,G,I}
5.3. Reguli alternative de combinare a evidenelor

Atunci cnd evidenele sunt conflictuale, rezultatele obinute prin aplicarea regulii de combinare a lui Dempster pot fi contraintuitive i neplauzibile. O astfel de situaie este cea din exemplul urmtor (Zadeh, 1979). Un pacient este examinat de doi medici, care stabilesc c ar putea avea meningit (M), o contuzie (C) sau o tumoare pe creier (T). Ambii medici consider c tumoarea este improbabil, n schimb nu se pun de acord asupra diagnosticului cel mai probabil, rezultnd situaia urmtoare:
96
= {M, C, T} m1({M}) = 0,99 m1({T}) = 0,01 m2({C}) = 0,99 m2({T}) = 0,01. Tabelul indic modul de combinare a celor dou evidene:
X {M} {M} {T} {T} m3(X) 0,99 0,99 0,01 0,01 Y {C} {T} {C} {T} m4(Y) 0,99 0,01 0,99 0,01
{T} 0,9801 0,0099 0,0099 0,0001
Valoarea corespunztoare mulimii vide este n acest caz 0,9801 + 0,0099 + 0,0099 = 0,9999 i deci numrtorul fraciei va fi 0,0001. Funcia de mas va fi doar:
m3({T}) = 0,0001 / 0,0001 = 1. Rezultatul este contraintuitiv, deoarece tumoarea apare ca sigur dei ambii medici au considerat-o foarte improbabil. 5.3.1. Regula lui Yager n cazul n care mai multe evidene trebuie combinate simultan, regula lui Yager (1987) este:
97
( )
(5.6)
Spre deosebire de regula lui Dempster, mulimea .
( )
Regula lui Yager nu normalizeaz conflictul, ci l adaug la Pentru combinarea a dou surse de eviden se folosesc urmtoarele relaii:
( )
( )
( )
(5.7)
( )
( )
( )
( )
( )
(5.8)
n cazul exemplului propus de Zadeh, vom avea: m3({M}) = 0 m3({C}) = 0 m3({T}) = 0,01 0,01 = 0,0001 m3() = 0 + (0,9801 + 0,0099 + 0,0099) = 0,9999. Pentru exemplul cu cele dou raportri ale demonstraiei, atunci cnd evidenele coincid (ambele surse raporteaz o demonstraie mare), rezultatele sunt identice cu cele ale regulii lui Dempster, ntruct numitorul pentru normalizare este 1:
98
Capitolul 5. Teoria evidenelor X {Mare} {Mare} m3(X) 0,8 0,8 0,2 0,2 Y {Mare} {Mare} m4(Y) 0,6 0,4 0,6 0,4
{Mare} {Mare} {Mare} 0,48 0,32 0,12 0,08
Prin urmare: m3({Mare}) = 0,48 + 0,32 + 0,12 = 0,92 m3() = 0,08 + 0 = 0,08. Cnd evidenele difer, vom avea situaia de mai jos:
X {Mare} {Mare} m3(X) 0,8 0,8 0,2 0,2 Y {Mic} {Mic} m4(Y) 0,6 0,4 0,6 0,4
{Mare} {Mic} 0,48 0,32 0,12 0,08
i deci: m3({Mare}) = 0,32 m3({Mic}) = 0,12 m3() = 0,08 + 0,48 = 0,56. n consecin, convingerile i plauzibilitile se modific: Bel({Mare}) = 0,32 Pl({Mare}) = 1 Bel({Mic}) = 1 0,12 = 0,88.
99
Intervalele de ncredere sunt acum: {Mare}: [0,32, 0,88] fa de [0,62, 0,77] dup regula lui Dempster; {Mic}: [0,12, 0,68] fa de [0,23, 0,38] dup regula lui Dempster. n cazul rezultatelor folosind regula lui Yager, se poate observa c diferena dintre convingere i plauzibilitate este egal cu masa de convingeri de baz atribuit mulimii .
5.3.2. Regula Han-Han-Yang n acest caz, formula de combinare a dou evidene este urmtoarea (Han, Han & Yang, 2008):
( )
( )
( ) ( )
( )
( )
( ) (5.9)
unde
se calculeaz ca mai jos.
Vom introduce funcia de probabilitate pignistic (n latin pignus nsemnnd pariu), care definete probabilitile pe care o persoan raional le atribuie unor opiuni atunci cnd trebuie s ia o decizie, de exemplu s fac un pariu (Smets & Kennes, 1994):
100
( )
( )
| | |
| (5.10)
Entropia definit de valorile funciei este: ( ) ( ( ))
(5.11)
Astfel, se definesc ponderile celor dou evidene care se combin:
(5.12) (5.13) Pentru exemplul propus de Zadeh, vom avea: (* +) { } (* +) * + (* +) { } * + * + * + * + ( * + ( * + { } ) * + ) * +
101
( )
( )
| | | | | | |
( )
( )
Analog, | | | | | | i deci . | |
( )
( )
( )
( )
n acest caz, este clar c Prin urmare: (* +) (* +) (* +)
Pentru exemplul cu demonstraia despre care o surs spune c a fost mare i cealalt spune c a fost mic, vom avea: (* (* +) +)
102
(* (* ( (
+) +)
(* (* ) )
+) +) (
(* )
+)
Prin urmare: m3({Mare}) = 0,593 m3({Mic}) = 0,327 m3() = 0,08 Intervalele de ncredere sunt: {Mare}: [0,593, 0,673] {Mic}: [0,327, 0,407]. Diferena dintre cele dou valori este i aici egal cu m3().
103
5.4. Concluzii
Aplicnd regula de combinare a lui Dempster, ordinea n care apar informaiile influeneaz rezultatul. Exist reguli de combinare alternative neinfluenate de acest aspect. ntr-un studiu privind combinarea informaiilor oferite de o mulime de senzori (engl. sensor fusion), s-a constatat c regula lui Yager a dat cele mai bune rezultate n comparaie cu alte reguli (Seo & Sycara, 2006). Exist i alte modaliti de combinare a evidenelor, ns avantajele oferite pentru majoritatea problemelor practice sunt discutabile, avnd n vedere meninerea unui echilibru ntre complexitatea calculelor i credibilitatea rezultatelor.
104
Partea a II-a Tehnici de clasificare
Capitolul 6
Problematica general
6.1. Introducere
Dincolo de aplicaiile practice ale tehnicilor de clasificare ce urmeaz a fi prezentate, acestea au o foarte mare importan pentru c dau o imagine asupra modului n care gndete omul n relaia cu mediul nconjurtor. Mediul fiind foarte complex, creierul trebuie s selecteze anumite informaii, construind modele pentru a reduce numrul i diversitatea stimulilor. Clasificarea (sau categorizarea) stabilete clase care includ un grup de obiecte cu atribute comune. Modul n care creierul prelucreaz informaiile din mediu nu este unitar, avnd pri componente diferite care lucreaz diferit. Pentru unele aspecte crem modele bazate pe reguli explicite (de exemplu, dac semaforul este rou, atunci trebuie s ateptm). n alte situaii, lucrm prin analogie. Poate nu tim exact regula dup care se clasific un mr ca fiind mr, dar implicit tim c un anumit obiect este apropiat ca i culoare, form sau dimensiuni fa de un prototip de mr, cunoscut. Cnd aplicm analogii cu situaii ntlnite sau aspecte vzute anterior, uneori este greu s explicm exact de ce. Am putea, ns ar trebui s depunem un efort, deoarece are loc un proces de cutare pentru a extrage reguli explicite din modelul bazat pe analogie. Regulile sunt verbalizabile, de aceea sunt n general mai concise pentru a fi nelese i reinute. Clasificarea prin similaritate poate lua n calcul, n mod implicit, un numr mai mare de aspecte. Mai exist i abordarea probabilistic ntruct
dm importan mai mare de obicei lucrurilor care se ntmpl mai frecvent. Toate aceste metode reflect modaliti diferite pe care le folosete omul n propriul raionament. Tehnicile de nvarea automat (engl. machine learning) aparin tipului de raionament inductiv. nvm din mediu i ncercm s tragem nite concluzii generale pe baza a ceea ce experimentm practic. Nu avem o teorie general, avem doar date provenite din experien i ncercm s conturm un model general, dac el exist. Dup ce este gsit i verificat un astfel de model, se poate aplica raionamentul deductiv, de exemplu aplicarea unei teoreme cunoscute la un caz concret. Acum direcia de raionament este invers, de la cazul general la cazul particular pe care dorim s l rezolvm. Din punct de vedere practic, nvarea automat este motivat de faptul c un sistem clasic specializat dar care nu nva de obicei realizeaz calcule numeroase pentru rezolvarea unei probleme, ns nu memoreaz soluia i de aceea, de fiecare dat cnd are nevoie de soluie, realizeaz aceeai secven de calcule complexe. Dac nu nva, comportamentul (calculele) se repet de fiecare dat. nvarea nseamn modul n care se schimb sistemul, astfel nct s rezolve aceeai problem mai eficient (cu performane superioare sau cu mai puine resurse), dar i alte probleme diferite, dei asemntoare (definiie adaptat dup Simon, 1983). Sistemul trebuie s generalizeze pentru a putea rezolva probleme noi. De asemenea, putem spune c un sistem nva dac i mbuntete performanele la ndeplinirea unei sarcini pe baza experienei, din punct de vedere al costurilor sau al calitii (definiie adaptat dup Mitchell, 1997).
108
Capitolul 6. Problematica general
Modelele sunt antrenate cu nite date, ns apoi sunt aplicate pe alte date, noi. Dac nu am face aa, ar fi suficient stocarea propriu-zis a rspunsurilor, echivalent cu nvarea pe de rost.
6.2. nvarea supervizat

nvarea supervizat presupune nvarea unei ipoteze, aproximarea unei funcii, n sensul cel mai larg (funcia nu trebuie s fie neaprat real, poate fi de exemplu i dac cineva i pltete un credit luat de la banc sau nu). Fie f funcia int. Datele cunoscute sunt nite exemple, nite eantionri ale funciei, o mulime de perechi (x, f(x)). Scopul este gsirea unei ipoteze h astfel nct elementele mulimii de exemple de antrenare. Dac valorile funciei sunt reale, discutm despre o problem de regresie. Dac valorile funciei sunt discrete, discutm despre o problem de clasificare. Acest tip de nvare se numete supervizat deoarece pentru fiecare instan se cunoate valoarea funciei f(x), pe lng valorile vectorului de intrare x. S considerm o funcie real, pentru care cunoatem punctele din tabelul 6.1.
Tabelul 6.1. Exemplu de funcie eantionat pentru regresie
x 0,50 1,00 1,50 2,00 109
, pentru toate
f(x) 0,25 1,00 0,50 4,00
n cazul regresiei, problema este gsirea unei funcii de interpolare. De exemplu, putem folosi o funcie liniar (figura 6.1). Desigur, avem erori.
Figura 6.1. Regresie cu o funcie liniar
Putem folosi o funcie polinomial de gradul 2 (figura 6.2).
Figura 6.2. Regresie cu o funcie polinomial de gradul 2

110
Putem folosi o funcie polinomial de gradul 3 (figura 6.3).
De asemenea, putem folosi o funcie polinomial de grad mai mare (figura 6.4).

111
Funciile date de polinoamele de grad 1 i 2 sunt prea simple, dar de la gradul 3 n sus, toate funciile trec prin punctele specificate. Problema este urmtoarea: care este cea mai bun interpolare? O recomandare n acest sens este briciul lui Occam. Occam a fost un clugr franciscan englez care a trit n secolul al XIV-lea i a propus legea economiei (lat. lex parsimoniae): entitile nu trebuie multiplicate dincolo de necesitate. Ideea de baz este c la egalitate, cnd mai multe modele au aceleai performane, trebuie preferat modelul mai simplu. Cu alte cuvinte, nu trebuie s complicm lucrurile fr rost. Pentru exemplele de mai sus, briciul lui Occam ar recomanda utilizarea polinomului de gradul 3, deoarece este cel mai simplu model care trece corect prin toate punctele. Un model prea complicat conduce la fenomenul de suprapotrivire (engl. overfitting). Trece foarte bine prin punctele date, dar pentru punctele intermediare nu se comport foarte bine. Briciul lui Occam este un principiu util, ns nu trebuie aplicat mecanic. De exemplu, exist algoritmul AdaBoost (Freund & Schapire, 1995), care este o modalitate de a transforma orice algoritm de clasificare slab ntr-un clasificator puternic (spunem c este un meta-algoritm). Ideea de baz este executarea mai multor runde de clasificare. n fiecare rund, este aplicat clasificatorul slab i se determin instanele clasificate greit. Acestora li se d o pondere mai mare n urmtoarea rund de clasificare. Rezult o serie de clasificatori, fiecare cu anumite ponderi, care n final dau cte un vot proporional cu ponderea pentru clasificarea unei noi instane. n acest caz, creterea numrului de runde, echivalent cu creterea
112
complexitii modelului, n general nu determin scderea capacitii de generalizare. Prin urmare, briciul lui Occam este o euristic, nu o lege fundamental.
6.3. Definirea unei probleme de clasificare

n continuare, ne vom concentra asupra problemelor de clasificare, mai apropiate de modul n care omul prelucreaz informaiile. Trebuie spus totui c i problemele de regresie sunt foarte importante din punct de vedere matematic i pentru numeroare aplicaii din lumea real. n general, structura unei probleme de clasificare este definit de un tabel de tipul tabelului 6.2. Aici este prezentat un exemplu adaptat dup Quinlan (1986) pe care l vom folosi pentru a descrie toate metodele de clasificare din capitolele urmtoare. Se pune problema de a determina dac n funcie de condiiile meteorologice se poate juca sau nu golf.
Tabelul 6.2. Problem de clasificare

Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie 113
Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare
Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent
Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu
Pe linii avem instanele, care se cunosc i n baza crora se realizeaz modelul de clasificare. Pentru problema de fa, sunt situaii din trecut, pentru care tim dac s-a putut juca sau nu golf. Tabelul ntreg reprezint mulimea de antrenare. Coloanele reprezint atributele, care au valori. Instanele sunt identificate de valorile atributelor. De exemplu, atributul Umiditate are dou valori: Normal i Mare. Prima instan este definit de valorile: { Starea vremii = Soare, Temperatur = Mare, Umiditate = Mare, Vnt = Absent, Joc = Nu }. De obicei, ultimul atribut este clasa. n exemplul nostru, clasa este Joc. Funcia generic de care discutam mai sus i care trebuie aproximat este aici: h(x) Joc(Starea vremii, Temperatur, Umiditate, Vnt). Pe baza acestor date simple, dorim s identificm cunotine, adic modele mai generale i mai abstracte. Dac la un moment dat tim condiiile meteorologice, aplicnd modelul general putem determina dac este bine s jucm sau nu golf.
6.4. Tipuri de atribute

Exist patru tipuri de atribute, organizate pe dou coordonate: Atribute discrete (simbolice): de tip nominal i ordinal; Atribute continue (numerice): de tip interval i raional.
114
Atribute discrete ntre valorile unui atribut nominal nu exist o relaie. Exemple de astfel de atribute sunt: culoarea ochilor (dac nu o considerm ca RGB), numele, sexul, CNP-ul ca obiect (nu ordonat ca numr), numerele de pe tricourilor unor juctori de fotbal, o mulime de ri etc. Valorile atributelor ordinale sunt simbolice, ns ntre ele exist relaii de ordine, de exemplu nlimea unei persoane discretizat n categoriile mic, medie i mare, n general, orice atribut ale crui valori are sens s le considerm n astfel de categorii (foarte mic, mic, mediu, mare, foarte mare etc.). Rangurile (primul, al doilea, al treilea), calificativele (satisfctor, bine, foarte bine, excelent) sunt de asemenea atribute ordinale. Exist mici diferene de tratare a atributelor nominale fa de cele ordinale, mai ales la algoritmii bazai pe instane, prezentai n capitolul 9. Atribute continue Exemple de atribute de tip interval sunt: data calendaristic, temperatura n grade Celsius, nivelul de ncredere ntr-o personalitate public pe o scar de la 1 la 5 etc. Exemple de atribute raionale sunt: lungimea, distana, greutatea, preurile, temperatura n grade Kelvin etc. Diferena dintre cele dou tipuri este urmtoarea. Raional vine de la ratio, care exprim o fracie. n limba latin, ratio nseamn att judecat ct i calcul. Putem spune c o distan de 2 km este de 2 ori mai mare dect o distan de 1 km. Putem calcula un raport ntre aceste valori. La fel la preuri: 10 lei este de 2 ori mai mult dect 5 lei. Pentru temperatura n grade Kelvin exist 0 absolut. La atributele de tip interval, chiar dac sunt continue, nu putem face acest tip de operaie. De exemplu, o temperatur de 20 de grade Celsius nu este de 2 ori mai mare dect una de 10 grade i nu
115
are sens un raport de -2 ntre 20C i -10C. De asemenea, pentru datele calendaristice, nu putem face un raport ntre 1 martie 2010 i 1 februarie 2010. Din punct de vedere al algoritmilor, nu prea exist diferene de prelucrare a atributelor de tip interval i a celor de tip raional. Toate atributele continue pot fi tratate la fel. De exemplu, putem transforma o dat calendaristic ntr-un numr ntreg care s specifice diferena n zile fa de o anumit dat de referin. Unii algoritmi sunt mai potrivii pentru un anumit tip de atribute. Pentru arborii de decizie (capitolul 7) i clasificarea bayesian naiv (capitolul 8) am prefera s avem date discrete. Atributele continue pot fi discretizate, ns prin aceast transformare se pot pierde informaii. Algoritmii bazai pe instane (capitolul 9), dimpotriv, trateaz n mod natural valori continue ale atributelor.
6.5. Estimarea capacitii de generalizare

Dup realizarea modelului, este foarte important determinarea capacitii sale de generalizare. De obicei, avem o singur mulime de date. Pentru estimarea capacitii de generalizare, mprim datele existente ntr-o parte cu care s construim modelul (mulimea de antrenare) i o parte pe care s l verificm (mulimea de validare sau de test). Exist mai multe metode de a mpri datele n aceste dou mulimi. Cea mai simpl este mprirea 2/3 1/3. Dou treimi din date se folosesc pentru antrenare iar restul de o treime pentru testarea modelului construit.
116
Cea mai folosit metod este validarea ncruciat (engl. crossvalidation), n care mprim instanele n n grupuri. De exemplu, dac avem 100 de instane, le mprim n 10 grupuri de cte 10. Construim modelul pe n-1 grupuri (de exemplu pe 90 de instane) i l testm pe grupul rmas. Apoi se schimb grupul rmas pentru testare, se repet procedura de n ori i se calculeaz rata medie de eroare. Rata de eroare este raportul dintre numrul de instane clasificate greit i numrul total de instane considerate pentru un test. O alt metod, util mai ales atunci cnd exist un numr mic de date, este aa numita las una deoparte (engl. leave one out). Dac avem 10 instane, construim modelul cu 9 instane i l verificm cu a zecea, apoi schimbm instana rmas pentru test i repetm procesul de 10 de ori. Se calculeaz apoi rata de eroare medie a algoritmului pentru instana de test, adic de cte ori este clasificat corect, n medie. n aceast situaie, cu doar 10 instane, mprirea 2/3 1/3 ar conduce la utilizarea a 7 instane pentru antrenare. n schimb, cu aceast metod putem utiliza 9 instane. Cnd folosim o mulime de antrenare i una de test, rezultatele clasificrii instanelor de test sunt de obicei mai proaste dect dac am folosi toate datele disponibile pentru antrenare. Trebuie s subliniem totui faptul c scopul principal al clasificrii nu este aproximarea perfect a datelor de antrenare, care s-ar putea face i prin simpla memorare a acestora, ci crearea unui model care s se comporte bine pentru date noi. Discutnd despre capacitatea de generalizare, dou noiuni sunt foarte importante: Sub-potrivirea (engl. underfitting): ipoteza este prea simpl i nu poate nva modelul din date;
117
Supra-potrivirea (engl. overfitting): ipoteza este prea complex i este influenat de zgomot i date irelevante. Dac un model este prea simplu, cum era exemplul de regresie cu
funcia liniar, acesta nu poate s nvee datele. Oricum am orienta dreapta respectiv, ea nu poate trece prin toate punctele. Dimpotriv, un model suprapotrivit are performane foarte bune pe mulimea de antrenare, dar performane slabe pe mulimea de validare. Este cazul funciei polinomiale de gradul 6 din figura 6.4. De asemenea, datele de antrenare ar putea fi afectate de zgomot (pot aprea erori de msurare, greeli umane de transcriere, clasificri incorecte ale experilor etc.). Mai ales n astfel de cazuri, un model mai suplu poate scdea influena datelor eronate, conducnd la predicii mai bune.
Figura 6.5. Evoluia acurateei pe msura creterii complexitii modelului
Atunci cnd crete complexitatea modelului, la nceput de multe ori acurateea (1 minus rata de eroare) pentru mulimile de antrenare i de test crete constant, deoarece modelul reuete s potriveasc datele din ce n ce mai bine. La un moment dat, exist un punct de maxim generalizare, dup care modelul ncepe s supra-potriveasc, s fie mai complex dect ar
118
trebui. Performanele pentru datele de antrenare continu s creasc, ns performanele pentru datele de test ncep s scad. n acest punct ar trebui s oprim dezvoltarea modelului, n care acurateea pentru mulimea de validare este maxim, chiar dac am putea obine performane mai bune pe mulimea de antrenare continund procesul (figura 6.5).
6.6. Aplicaii ale tehnicilor de clasificare

Exist numeroase aplicaii pentru algoritmii de clasificare: nvarea tratamentelor optime din nregistrrile medicale. Exist multe nregistrri cu pacieni care au primit diferite tratamente pentru anumite simptome i se cunoate dac medicamentele respective au funcionat sau nu. Cnd trebuie tratat un nou pacient, cu anumite simptome i caracteristici (vrst, sex, greutate, alte boli cunoscute etc.), se poate estima dac o anumit schem de tratament va funciona sau nu; Clasificarea celulelor din tumori ca benigne sau maligne pe baza radiografiilor; Predicia ratei de recuperare a pacienilor cu pneumonie; Clasificarea structurilor secundare ale proteinelor. Conformaia unei proteine este determinat de secvena sa de aminoacizi. n urma secvenierii ADN-ului uman, a aprut o cantitate uria de date liniare (iruri de baze nucleice). n prezent, se depun eforturi ca din aceste iruri s se extrag structura lor spaial (secundar), astfel nct pasul urmtor s fie predicia proprietilor pe baza componentelor structurale;
119
Clasificarea plilor electronice ca legitime sau frauduloase. Avnd n vedere cheltuielile tipice ale unei persoane, se poate determina un profil i astfel se poate verifica dac o plat de la un anumit moment este similar cu cele anterioare;
Recunoaterea vorbirii, echivalent cu clasificarea secvenelor de sunete n cuvinte; Recunoaterea optic a caracterelor, ce presupune identificarea caracterelor dintr-o imagine; Clasificarea textelor. n acest caz, atributele sunt chiar cuvintele documentelor respective (dup filtrarea cuvintelor uzuale conjuncii, prepoziii, pronume i eliminarea inflexiunilor) iar valorile atributelor sunt frecvenele de apariie ale acestora. Exemple sunt clasificarea tirilor n categorii precum politic, meteo, sport etc. sau clasificarea email-urilor n spam (mesaje nedorite) i ham (mesaje legitime).
120
Capitolul 7
Arbori de decizie
7.1. Algoritmul lui Hunt
Algoritmul lui Hunt (1962) este o procedur generic pentru construirea unui arbore de decizie. Iniial, toate instanele din mulimea de antrenare corespund rdcinii arborelui. Ideea de baz este partiionarea fiecrui nod, adic mprirea instanelor n mai multe grupe, corespunztoare fiilor nodului curent, astfel nct nodurile rezultate s fie ct mai omogene, adic toate instanele din acel nod, sau majoritatea lor, s aparin aceleiai clase. ntr-o frunz, omogenitatea ar trebui s fie maxim, adic toate instanele s aparin aceleiai clase. Desigur, n anumite cazuri este imposibil obinerea unor frunze perfect omogene, ceea ce conduce la apariia erorilor de clasificare. Dup partiionarea unui nod, rezult mai multe noduri fiu, pe care le partiionm n mod recursiv dup acelai criteriu. Mai formal, fie Dn mulimea instanelor de antrenare dintr-un nod n. Algoritmul lui Hunt are urmtorii pai (Tan, Steinbach & Kumar, 2006): Dac Dn conine instane din aceeai clas yn, atunci n este o frunz etichetat yn; Dac Dn este o mulime vid, atunci n este o frunz etichetat cu clasa implicit (engl. default) yd;
Dac Dn conine instane care aparin mai multor clase, se utilizeaz un test de atribute pentru a partiiona datele n mulimi mai mici; Se aplic recursiv procedura pentru fiecare submulime. Se poate observa c algoritmul lui Hunt recomand o strategie
greedy, deoarece se partiioneaz mulimea de instane cu un test care maximizeaz la un moment dat un anumit criteriu, cum ar fi omogenitatea nodurilor fiu rezultate. Cheia este identificarea testului de atribute pe care se bazeaz partiionrile. Algoritmul lui Hunt nu spune nimic despre natura acestuia. Dup cum vom vedea, exist numeroase metode de inducie a arborilor de decizie, care difer prin modalitatea de determinare a testul de atribute, pe lng alte proceduri suplimentare de optimizare a rezultatelor.
7.2. Specificarea testelor de atribute

Partiionarea datelor presupune n primul rnd specificarea testului i apoi, n funcie de acesta, determinarea partiionrii optime a unui nod. Partiionrile sunt diferite n funcie de tipul atributelor. Pentru un atribut nominal, putem partiiona nodul dup fiecare valoare a atributului. Cnd avem mai multe valori discrete, crem cte un fiu pentru fiecare valoare a atributului respectiv. Pentru a exemplifica, vom considera o variant simplificat a problemei de clasificare introduse n capitolul 6, cu un singur atribut nominal i clasa.
Starea vremii Soare nnorat Ploaie 122
Joc Da Da Nu
Capitolul 7. Arbori de decizie
Atributul Starea vremii are 3 valori, deci vor rezulta 3 frunze corespunztoare acestor valori.
Starea vremii Soare nnorat Ploaie
Da
Da
Nu
Teoretic, am putea grupa valorile ntr-un numr mai mic de mulimi, pentru a avea o frunz Da pentru valorile { Soare, nnorat } i una Nu pentru { Ploaie } ns n cazul general aceasta este o problem de cutare i optimizare. Pentru atribute ordinale, procedura este similar: putem face partiionarea pentru fiecare valoare a atributului.
Temperatur Mic Medie Mare Joc Da Da Nu
Temperatura Mic Medie Mare
Da
Da
Nu
123
Relaia de ordine ne-ar putea ajuta, pentru c am putea grupa valorile adiacente, de exemplu { Mic, Medie } i { Mare}. O partiionare dup { Mic, Mare } i { Medie } este mai puin intuitiv, dar nu incorect, deoarece datele de antrenare ar putea fi de tipul:
Temperatur Mic Medie Mare Joc Nu Da Nu
La atributele continue, ntr-o prim abordare, ar trebui discretizate valorile, deoarece numrul de fii ai unui nod este ntreg, nu real. O prim metod de discretizare este sortarea valorilor, stabilirea unui numr de intervale egale (histograma) i introducerea valorilor n aceste intervale.
Umiditate 65 70 72 75 80 85 86 90 90 91 93 95 Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu
S considerm discretizarea n 3 intervale. Valorile numerice sunt distribuite n domeniul [65, 95], prin urmare vom considera urmtoarele intervale egale: [65, 75], (75, 85], respectiv (85, 90]. Atributul continuu va fi transformat ntr-unul ordinal, cu valorile Mic, Medie i Mare:
124
Capitolul 7. Arbori de decizie Umiditate-Dis1 Mic Mic Mic Mic Medie Medie Mare Mare Mare Mare Mare Mare Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu
O alt metod de discretizare este cea cu frecvene egale, astfel nct fiecare interval s conin un numr egal de valori. Nu mai conteaz mrimea valorilor, ci numrul lor. Pentru exemplul de mai sus, cu 12 valori, primele 4 vor primi valoarea Mic, urmtoarele 4 valoarea Medie i ultimele 4 valoarea Mare.
Umiditate-Dis2 Mic Mic Mic Mic Medie Medie Medie Medie Mare Mare Mare Mare Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu
O a treia modalitate este prin clusterizare (engl. clustering), care realizeaz o grupare mai natural a valorilor. Clusterizarea aparine tipului
125
de nvare nesupervizat, deoarece acolo nu mai cunoatem valoarea clasei dup care se face gruparea. Se dau doar valorile propriu-zise ale celorlalte atribute i algoritmul trebuie s grupeze instanele astfel nct n interiorul unui grup (cluster) asemnarea instanelor componente s fie ct mai mare, iar ntre clustere diferite asemnarea instanelor s fie ct mai mic. Acest tip de nvare nu face obiectul capitolului de fa, ns un algoritm simplu de clusterizare care poate fi aplicat pentru discretizarea atributelor continue pentru o problem de clasificare este k-means (MacQueen, 1967). O variant alternativ pentru tratarea atributelor continue este partiionarea binar, adic determinarea unei singure valori cu care s se compare valorile atributului considerat. n acest caz, ar trebui tratate toate partiionrile posibile i prin urmare este necesar un efort de calcul mai mare. Pentru exemplul de mai sus, s presupunum c s-a determinat valoarea de referin 85, iar testul este specificat astfel: ( atributului rezultat prin aceast transformare vor fi Da sau Nu:
Umiditate 65 70 72 75 80 85 86 90 90 91 93 95 Umiditate-Bin Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu Joc Da Da Da Da Da Da Nu Nu Nu Nu Nu Nu
) Valorile
126
7.3. Msuri de omogenitate

Pentru a face o partiionare la un moment dat, avem nevoie de o msur a omogenitii. O astfel de msur a impuritii unui nod, este entropia, utilizat de algoritmii ID3 (Iterative Dichotomiser 3, Quinlan, 1983) i C4.5 (Quinlan, 1993) pentru a descoperi arbori de dimensiuni ct mai reduse. n teoria informaiei (Shannon, 1948), entropia msoar incertitudinea asociat cu o variabil aleatorie, care se reflect n cantitatea de informaie coninut de un mesaj. Cu ct este mai mare cantitatea de informaie, cu att entropia este mai mare. Entropia este definit astfel:
( )
( )
( )
(7.1)
unde X este o variabil aleatorie discret cu valorile posibile * ( ) este probabilitatea de apariie a valorii Dac , atunci unitatea de msur a entropiei este bitul. Prin convenie, cnd ( ) ( )
+,
iar b este baza logaritmului.
, se consider c ntreg termenul .
( ) este 0, deoarece:
n cazul problemei de clasificare, probabilitile ( ) sunt estimate ca frecvene relative de apariie a valorilor n mulimea de antrenare.
Pentru 2 clase, graficul entropiei este cel din figura 7.1. Valoarea maxim este 1 cnd ntr-un nod ambele clase au un numr egal de instane (ambele posibiliti sunt egal probabile i au probabilitatea 1/2). Valoarea
127
minim este 0, cnd toate instanele aparin unei singure clase: dac aparin primei clase, atunci ( ) clase, atunci ( ) i ( ) . , iar dac aparin celei de a doua i ( )
Figura 7.1. Graficul entropiei pentru 2 clase
Pentru 3 clase, graficul entropiei este prezentat n figura 7.2 (Lawrence, 1997).
Figura 7.2. Graficul entropiei pentru 3 clase

128
n acest caz, valoarea maxim este atunci cnd toate cele 3 clase au probabiliti egale, de 1/3, i n acest caz valoarea maxim este log2(3) = 1,58. Valoarea minim este de asemenea 0, cnd o singur clas are probabilitatea 1 iar celelalte au probabilitatea 0. Pentru clasificare, am dori ca toate instanele dintr-un nod s aparin aceleiai clase, ceea ce corespunde minimului entropiei. Dac entropia este mare, atunci avem un numr relativ egal de instane n fiecare clas (omogenitate mic), ceea ce ne ndeprteaz de scopul clasificrii. Alternativ, n locul entropiei, se poate folosi, ca n algoritmul CART (Breiman et al., 1984), indexul Gini, definit astfel:
( )
( ( ))
(7.2)
Utiliznd indexul Gini, efortul de calcul este mai mic deoarece se evit calcularea logaritmilor. Pentru 2 clase, forma indexului Gini este asemntoare funciei de entropie, cu o valoare maxim de 0,5, dup cum se poate vedea n figura 7.3. Rezultatele obinute folosind drept criteriu de omogenitate entropia sau indexul Gini sunt de cele mai multe ori identice, mai ales cnd numrul de clase este mic. Diferenele apar cnd avem un numr mare de clase i realizm partiionri binare. Entropia accentueaz o mprire echilibrat astfel nct cele dou noduri fiu s aib dimensiuni apropiate, n timp ce indexul Gini favorizeaz partiionrile care pun instanele din clasa cea mai mare ntr-un singur nod pur i instanele din toate celelalte clase n cellalt nod fiu (Breiman, 1996).
129
Figura 7.3. Graficul indexului Gini pentru 2 clase
7.4. Partiionarea
Dup cum am spus, din nodul printe, prin partiionare, trebuie s rezulte noduri ct mai omogene. Procedura prin care aplicm criteriul de omogenitate precum entropia pentru selectarea unui atribut dup care se va face partiionarea este prezentat n continuare. Cnd un nod printe p este partiionat n k fii, calitatea partiionrii se calculeaz ca o medie ponderat a entropiilor nodurilor fiu rezultate:
(7.3)
130
unde
este numrul de instane din nodul fiu i, n este numrul de instane
din nodul printe p, iar s este o partiionare (engl. split) din mulimea tuturor partiionrilor posibile. Mai nti se calculeaz entropiile tuturor nodurilor fiu rezultate apoi se pondereaz acestea cu numrul de instane din fiecare nod fiu. Creterea omogenitii submulimilor rezultate este echivalent cu maximizarea ctigului informaional (engl. information gain): i
(7.4)
Deoarece entropia nodului printe partiionarea dorit este:
este aceeai pentru toate
partiionrile, se prefer valoarea minim pentru sum, astfel nct
(7.5)
Numrul de noduri fiu seciunea 7.2.
depinde de tipul i de numrul de valori
ale atributului dup care se face partiionarea s, dup cum am spus n
7.5. Probleme cu atribute simbolice

Vom considera ca exemplu problema prezentat n tabelul 7.1, cu 14 instane i definit de 4 atribute simbolice i clasa. Pentru a construi arborele
131
de decizie dup algoritmul ID3, detaliat mai sus, mai nti trebuie s partiionm ntreaga mulime de antrenare, pe rnd, dup fiecare atribut, i s determinm cea mai bun partiionare. Coloana Nr. instan nu face parte din problem i a fost inclus doar pentru a urmri mai uor prelucrrile efectuate.
Tabelul 7.1. Problem de clasificare cu atribute simbolice
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur Mare Mare Mare Medie Mic Mic Mic Medie Mic Medie Medie Medie Mare Medie Umiditate Mare Mare Mare Mare Normal Normal Normal Mare Normal Normal Normal Mare Normal Mare Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu
S considerm mai nti atributul Starea vremii (S), care are 3 valori: Soare, nnorat i Ploaie. Dac se partiioneaz nodul rdcin dup acest atribut, vor rezulta 3 noduri fiu, cte unul pentru fiecare valoare. Trebuie s determinm entropia acestor noduri poteniale. Pentru valoarea Soare (S), nodul rezultat va avea 2 instane din clasa Da i 3 din clasa Nu.
Nr. instan 1 2 8 9 11 Starea vremii Soare Soare Soare Soare Soare 132
Joc Nu Nu Nu Da Da
Prin urmare, entropia sa va fi:
Pentru valoarea nnorat (I), nodul rezultat va avea toate cele 4 instane din clasa Da. Este evident c:
Nr. instan 3 7 12 13
.
Joc Da Da Da Da
Starea vremii nnorat nnorat nnorat nnorat
Pentru valoarea Ploaie (P), nodul rezultat va avea 3 instane din clasa Da i 2 din clasa Nu.
Nr. instan 4 5 6 10 14 Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Joc Da Da Nu Da Nu
Entropia sa va fi:
Putem calcula acum entropia medie a partiionrii dup atributul Starea vremii:
133
Acelai tip de calcule se realizeaz pentru urmtorul atribut, Temperatur (T), cu valorile: Mic (L), Medie (M) i Mare (H). Pentru a calcula mai uor, sortm tabelul dup coloana Temperatur i numrm valorile clasei pentru fiecare valoare a atributului.
Nr. instan 5 6 7 9 4 8 10 11 12 14 1 2 3 13 Temperatur Mic Mic Mic Mic Medie Medie Medie Medie Medie Medie Mare Mare Mare Mare Joc Da Nu Da Da Da Nu Da Da Da Nu Nu Nu Da Da
Se poate vedea uor c:
Prin urmare:
134
La fel procedm pentru atributul Umiditate (U), cu valorile: Normal (N) i Mare (M).
Nr. instan 5 6 7 9 10 11 13 1 2 3 4 8 12 14 Umiditate Normal Normal Normal Normal Normal Normal Normal Mare Mare Mare Mare Mare Mare Mare Joc Da Nu Da Da Da Da Da Nu Nu Da Da Nu Da Nu
Vom avea:
n final, pentru atributul Vnt (V) cu valorile Absent (A) i Prezent (P):
135
Partea a II-a. Tehnici de clasificare Nr. instan 1 3 4 5 8 9 10 13 2 6 7 11 12 14 Vnt Absent Absent Absent Absent Absent Absent Absent Absent Prezent Prezent Prezent Prezent Prezent Prezent Joc Nu Da Da Da Nu Da Da Da Nu Nu Da Da Da Nu
Valoarea maxim a ctigului informaional este corespunztoare minimului entropiei ponderate face dup atributul Starea vremii. i deci prima partiionare se va
N1
N2
N3
136
Dup ce am fcut o partiionare, eliminm atributul respectiv din mulimea de date i eliminrm i instanele care au valoarea atributului considerat diferit de valoarea de pe ramura nodului fiu corespunztor. Pentru nodul N1 se repet procedura, eliminnd atributul Starea vremii i pstrnd doar instanele care au ca valoare a acestuia Soarele (5 instane).
Pentru atributele rmase, calculm din nou entropiile. Pentru Temperatur: (1 instan n clasa Da) (1 instan n clasa Da i 1 instan n clasa Nu) (2 instane n clasa Nu)
137
Pentru Umiditate:
Pentru Vnt:
este valoarea minim, prin urmare nodul N1 va fi partiionat dup Umiditate. Observm c nodurile fiu rezultate sunt frunze omogene i deci nu mai este nevoie de o alt partiionare.
Umiditate Mare Nu Normal Da
N2
N3
n nodul N2 avem urmtoarea mulime de date:
138
Capitolul 7. Arbori de decizie Nr. instan 3 7 12 13 Starea vremii nnorat nnorat nnorat nnorat Temperatur Mare Mic Medie Mare Umiditate Mare Normal Mare Normal Vnt Absent Prezent Prezent Absent Joc Da Da Da Da
Nodul este omogen i deci va fi la rndul su frunz, fr a mai trebui partiionat. n sfrit, n nodul N3 avem urmtoarea mulime de date:
Nr. instan 4 5 6 10 14 Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Temperatur Medie Mic Mic Medie Medie Umiditate Mare Normal Normal Normal Mare Vnt Absent Absent Prezent Absent Prezent Joc Da Da Nu Da Nu
Aplicnd aceeai procedur, vom obine: i atributul Vnt, rezultnd de asemenea dou frunze. Arborele final va fi cel din figura 7.4.
. Ultima valoare este minim i deci vom partiiona nodul N3 dup
Umiditate Mare Nu Normal Da
Da Prezent Nu
Vnt Absent Da
Figura 7.4. Arborele de decizie pentru problema cu atribute simbolice
139
Temperatura este un atribut irelevant pentru aceast clasificare. Se observ c pe msur ce mulimile se partiioneaz, calculele devin din ce n ce mai simple. Din punct de vedere al implementrii, cele mai dificile aspecte sunt crearea submulimilor corespunztoare nodurilor din arbore i aplicarea recursiv a procedurii pentru acestea.
7.6. Probleme cu atribute numerice

Multe probleme de clasificare conin date numerice, precum cea din tabelul 7.2, o variant a celei studiate n seciunea 7.5, unde Temperatura este dat n grade Celsius iar Umiditatea n procente.
Tabelul 7.2. Problem de clasificare cu atribute mixte
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii Soare Soare nnorat Ploaie Ploaie Ploaie nnorat Soare Soare Ploaie Soare nnorat nnorat Ploaie Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt Absent Prezent Absent Absent Absent Prezent Prezent Absent Absent Absent Prezent Prezent Absent Prezent Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu
Pe lng procedeele de discretizare, datele continue pot fi tratate ca atare. Metoda prrezentat n cele ce urmeaz este cea adoptat de algoritmul C4.5.
140
Procedura general de partiionare este aceeai, pe baza ctigului informaional. Atributele simbolice sunt prelucrate la fel. Pentru atributele numerice se dorete o partiionare binar, adic se caut o valoare astfel nct instanele cu valoarea mai mic dect referina s aparin unui fiu iar cele cu valoarea mai mare dect referina s aparin celuilalt fiu. Problema se reduce la determinarea valorii de referin. Pentru aceasta, ntr-o prim variant, se sorteaz valorile atributului numeric i se ncearc toate referinele poteniale dintre fiecare dou valori alturate. Vom aplica aceast modalitate de calcul pentru atributul Temperatur. Poziiile de partiionare testate i entropia corespunztoare partiionrii sunt prezentate n tabelul de mai jos. Pentru prima poziie de partiionare i pentru ultima, se vede c toate instanele intr ntr-un singur nod fiu, 9 dintre ele cu clasa Da i 5 cu clasa Nu. Nicio instan nu are temperatura mai mic dect 17,8 i toate instanele au temperatura mai mare sau egal cu 17,8. La fel, toate instanele au temperatura mai mic sau egal cu 29,4 i nicio instan nu are temperatura mai mare dect 29,4. Este firesc, deoarece toate instanele au temperatura mai mare sau egal cu prima valoare i mai mic sau egal cu ultima valoare, n irul sortat.
141
Partea a II-a. Tehnici de clasificare Temperatur Joc Poziii de partiionare < 17,8 17,8 18,05 > 18,05 18,3 Nu 19,15 > 19,15 20,0 Da 20,3 > 20,3 20,6 Da 20,85 > 20,85 21,1 Da 21,4 > 21,4 21,7 Nu 21,95 > 21,95 22,2 Nu 22,2 > 22,2 22,2 Da 23,05 > 23,05 23,9 Da 23,9 > 23,9 23,9 Da 25,3 > 25,3 26,7 Nu 26,95 > 26,95 27,2 Da 27,75 > 27,75 28,3 Da 28,85 > 28,85 29,4 > 29,4 9 0 9 0 142
Numr Joc = Da 0 9 1 8 1 8 2 7 3 6 4 5 4 5 5 4 5 4 6 3 7 2 7 2 8 1
Numr Joc = Nu 0 5 0 5 1 4 1 4 1 4 1 4 2 3 3 2 3 2 3 2 3 2 4 1 4 1 4 1 5 0
Entropiile submulimilor 0,000 0,940 0,000 0,961 1,000 0,918 0,918 0,946 0,811 0,971 0,722 0,991 0,918 0,954 0,985 0,863 0,954 0,918 0,918 0,971 0,881 1,000 0,946 0,918 0,918 1,000 0,890 0,000 0,940 0,000
Entropia partiionrii 0,940
17,8
Da 0,893
0,930
0,940
0,925
0,895
0,939
0,924
0,939
0,937
0,915
0,940
0,930
0,827 0,940
29,4
Nu
Ca exemplu de calcul, s considerm partiionarea dup referina 28,85 = (28,3 + 29,4) / 2. 13 instane au temperatura mai mic sau egal cu 28,85, din care 9 aparin clasei Da i 4 clasei Nu. 1 instan are temperatura mai mare dect 28,85, aparinnd clasei Nu. Pentru primul nod fiu, entropia este:
Pentru al doilea nod fiu, entropia va fi 0, fiind omogen: Prin urmare, entropia medie a acestei partiionri va fi:
Se observ c aceast valoarea este minim i va corespunde atributului Temperatur. Aceast abordare, de a considera toate valorile intermediare, nu este ns optim. Pentru un numr mare de instane, efortul de calcul crete foarte mult ntruct numrul de partiionri poteniale este foarte mare. Putem observa ns n tabelul urmtor c dup entropia iniial de 0,94, entropia scade pn la valoarea 0,893, deoarece a fost introdus ntr-un nod separat o instan Da. Apoi entropia crete la 0,93, pentru c n acel nod a intrat i o instan Nu, sczndu-i omogenitatea. n continuare, pe msur ce alte 3 instane Da intr pe rnd n nod, entropia tot scade, pn la 0,895. n acest moment intr o instan Nu, iar entropia crete din nou. La fel, de jos n sus, entropia scade pn la prima schimbare de clas.
143
Partea a II-a. Tehnici de clasificare 0,940 0,893 0,930 0,940 0,925 0,895 0,939 0,924 0,939 0,937 0,915 0,940 0,930 0,827 0,940
17,8 18,3 20,0 20,6 21,1 21,7 22,2 22,2 23,9 23,9 26,7 27,2 28,3
Da Nu Da Da Da Nu Nu Da Da Da Nu Da Da
29,4
Nu
Prin urmare, nu are rost s calculm entropia dect n momentul n care se schimb clasa ntre dou instane alturate n irul sortat. Pn cnd se schimb clasa, entropia continu s scad deoarece intr ntr-un nod fiu mai multe instane din aceeai clas. Pentru atributul Temperatur, ar fi fost necesare doar 9 partiionri n loc de 15. n funcie de natura datelor, reducerea numrului poate fi mult mai drastic. Vom utiliza aceast optimizare pentru calculul entropiei atributului Umiditate, dup cum se poate observa n tabelul urmtor.
144
Capitolul 7. Arbori de decizie Umiditate Joc Poziii de partiionare < 65 >= 65 67,5 > 67,5 70 Da 70 > 70 70 Da 70 > 70 70 Nu 72,5 > 72,5 75 Da 77,5 > 77,5 80 Da 80 > 80 80 Da 82,5 > 82,5 85 Nu 85,5 > 85,5 86 Da 88 > 88 90 Da 90 > 90 90 Nu 90,5 > 90,5 91 Nu 93 > 93 95 Nu 95,5 > 95,5 96 > 96 8 1 9 0 145
Numr Joc = Da 0 9 1 8
Numr Joc = Nu 0 5 0 5
Entropiile submulimilor 0,000 0,940 0,000 0,961
Entropia partiionrii 0,940
65
Da 0,893
3 6 3 6 0 5 1 4 0,000 0,994 0,811 0,971
0,781
0,925
6 3 6 3 1 4 2 3 0,592 0,985 0,811 1,000
0,788
0,892
8 1 2 3 0,722 0,811
0,747
5 0 5 0 0,961 0,000 0,940 0,000
0,893 0,940
96
Da
Valoarea minim este: i .
. Pentru atributele simbolice
Starea vremii i Vnt, valorile sunt la fel ca acelea calculate n seciunea 7.5: Rezultatele pentru atribute simbolice i numerice sunt tratate la fel, comparnd entropiile medii ponderate obinute pentru toate atributele i alegnd minimul. Prima partiionare va fi tot dup Starea vremii. Nodul corespunztor valorii nnorat este omogen, dup cum se vede n tabelul de mai jos.
Starea vremii nnorat nnorat nnorat nnorat Temperatur 28,3 17,8 22,2 27,2 Umiditate 86 65 90 75 Vnt Absent Prezent Prezent Absent Joc Da Da Da Da
Submulimea de instane din nodul valorii Ploaie este cea din tabelul urmtor.
Starea vremii Ploaie Ploaie Ploaie Ploaie Ploaie Temperatur 21,1 20,0 23,9 18,3 21,7 Umiditate 96 80 80 70 91 Vnt Absent Absent Absent Prezent Prezent Joc Da Da Da Nu Nu
Pentru a evita calculele destul de laborioase, putem s analizm tabelul i s observm c dac sortm valorile Temperaturii sau Umiditii, valorile clasei Da i Nu vor fi intercalate. Pentru atributul Vnt, este clar c printr-o singur partiionare vor rezulta dou frunze omogene. Prin urmare, vom partiiona acest nod dup atributul Vnt. n cazul nodului corespunztor valorii Soare, submulimea de instane de antrenare este prezentat n tabelul urmtor.
146
Capitolul 7. Arbori de decizie Starea vremii Soare Soare Soare Soare Soare Temperatur 20,6 23,9 29,4 26,7 22,2 Umiditate 70 70 85 90 95 Vnt Absent Prezent Absent Prezent Absent Joc Da Da Nu Nu Nu
Atributul Vnt va avea o entropie medie de 0,951, ca i n cazul simbolic. Aplicm procedura partiionrilor multiple dup valori intermediare pentru atributul Temperatur, dup cum se observ n tabelul de mai jos.
Temperatur Joc Poziii de partiionare < 20,6 >= 20,6 21,4 > 21,4 22.2 Nu 23,05 > 23,05 23.9 Da 25,3 > 25,3 26.7 Nu 28,05 > 28,05 29,4 > 29,4 2 0 2 0 2 1 3 0 1,000 0,000 0,971 0,000 0,800 0,971 2 0 1 2 0,918 0,000 0,551 1 1 1 2 1,000 0,918 0,951 Numr Joc = Da 0 2 1 1 Numr Joc = Nu 0 3 0 3 Entropiile submulimilor 0,000 0,971 0,000 0,811 Entropia partiionrii 0,971
20.6
Da 0,649
29.4
Nu
Valoarea minim este 0,551 pentru referina 25,3. Pentru Umiditate, jumtate din partiionri sunt evitate considernd doar referinele unde se schimb clasa i rezult o valoare minim 0 pentru referina 77,5. Este clar c vom partiiona dup Umiditate, rezultnd i aici dou frunze omogene.
147
Partea a II-a. Tehnici de clasificare Umiditate Joc Poziii de partiionare < 70 >= 70 70 > 70 70 Da 77,5 > 77,5 85 Nu 87,5 > 87,5 90 Nu 92,5 > 92,5 95 > 95 2 0 3 0 0,971 0,000 0,971 2 0 0 3 0,000 0,000 0,000 Numr Joc = Da 0 2 Numr Joc = Nu 0 3 Entropiile submulimilor 0,000 0,971 Entropia partiionrii 0,971
70
Da -
95
Nu
Arborele final rezultat este cel prezentat n figura 7.5.
Umiditate > 77,5 Nu <= 77,5 Da
Da Prezent Nu
Vnt Absent Da
Figura 7.5. Arborele de decizie pentru problema cu atribute mixte
148
7.7. Aplicarea modelului

Cunoscndu-se arborele de decizie construit, clasificarea unei noi instane este foarte simpl. Parcurcnd arborele cu valorile atributelor instanei, se clasific aceasta ntr-una din clase. Se testeaz mai nti atributul corespunztor rdcinii arborelui. Conform valorii atributului respectiv al instanei de interogare, se merge pe ramura aferent, se testeaz apoi atributul corespunztor nodului n care s-a ajuns i aa mai departe pn se ajunge ntr-un nod frunz care are clasa specificat. S considerm instana de interogare xq = (Soare, 26, 72, Absent). Clasificarea acesteia se realizeaz urmrind arborele din figura 7.5. Rdcina arborelui presupune un test al atributului Starea vremii. Pentru xq, valoarea acestuia este Soare, prin urmare continum parcurgerea arborelui pe ramura corespunztoare acestei valori. Urmeaz testul dup atributul Umiditate. Valoarea acestuia pentru xq este 72, care este mai mic sau egal cu 77,5. Urmnd ramura corespunztoare, ajungem n frunza etichetat Da. n consecin, instana xq este clasificat n clasa Da.
7.8. Erorile modelului

Aplicnd metodele prezentate n acest capitol, pot exista mai multe atribute cu acceai valoare minim a entropiei medii iar partiionarea se poate face dup oricare din ele, ns arborii de decizie finali rezultai pot fi complet diferii n funcie de aceast decizie. De asemenea, pot exista mulimi de date pentru care un model s fie greu de realizat i n consecin s existe erori chiar i la antrenare. De
149
exemplu, s considerm o problem de clasificare (adaptat dup Tan, Steinbach & Kumar, 2006) unde dorim s prezicem dac o persoan va returna un credit de la o banc, pe baza urmtoarelor atribute: Refinanare (dac i-a refinanat creditul), Stare civil i Venit (s spunem lunar, n lei).
Refinanare Da Nu Nu Da Nu Nu Da Nu Nu Nu Stare civil Necstorit Cstorit Necstorit Cstorit Divorat Cstorit Divorat Necstorit Cstorit Necstorit Venit 2500 2000 1400 2400 1900 1200 4400 1700 1500 1800 Nerambursare Nu Nu Nu Nu Da Nu Nu Da Nu Da
Cnd ncepem s aplicm procedura de construire a arborelui de decizie, constatm c partiionrile dup Starea civil i dup Venit sunt la fel de bune, avnd acelai ctig informaional. n funcie de aceast decizie iniial, rezultatele pot fi foarte diferite.
Starea civil Divorat Cstorit Necstorit
Refinanare Da Nu Nu Da
Nu Da Nu
Refinanare Nu Venit
< 1600 Nu
>= 1600 Da
150
Dac se alege partiionarea dup Starea civil, arborele rezultat va fi cel din figura anterioar. Dac se alege partiionarea alternativ dup Venit, arborele rezultat va fi urmtorul.
Venit < 1950 >= 1950
Starea civil Divorat Cstorit
Nu Necstorit
Da
Nu
Da
n frunza Da marcat cu gri, mulimea de date este cea din tabelul de mai jos.
Refinanare Da Nu Nu Da Nu Nu Da Nu Nu Nu Stare civil Necstorit Cstorit Necstorit Cstorit Divorat Cstorit Divorat Necstorit Cstorit Necstorit Venit 2500 2000 1400 2400 1900 1200 4400 1700 1500 1800 Nerambursare Nu Nu Nu Nu Da Nu Nu Da Nu Da
Prin excluderea atributelor deja tratate, nu mai exist alte opiuni pentru teste care s diferenieze clasele instanelor rmase i se ajunge ntr-o
151
frunz pe care o marcm cu clasa majoritar a instanelor sale. Arborele de decizie are o eroare chiar pe mulimea de antrenare, ceea ce nseamn c nu a putut fi creat un model suficient de bun pentru datele disponibile. n general, erorile corespunztoare mulimii de test sunt mai numeroase dect cele corespunztoare mulimii de antrenare.
7.9. Ctigul proporional

O alt problem care afecteaz performanele acestui tip de algoritmi este faptul c msura ctigului informaional favorizeaz atributele cu un numr mare de valori. De exemplu, dac am fi utilizat n clasificare coloana Nr. instan, cu 14 valori diferite, entropia medie ar fi fost 0, ntruct ar fi rezultat o partiionare cu 14 fii omogeni. Capacitatea de generalizare este n mod clar afectat de suprapotrivire. n acest scop, s-a propus msura ctigului proporional (engl. gain ratio, Quinlan, 1986). Folosind semnificaia notaiilor din ecuaiile 7.3 i 7.4, se introduce noiunea de informaie intrinsec:
(7.6)
Ctigul proporional este definit drept raportul dintre ctigul informaional i informaia intrinsec:
(7.7)
152
La alegerea unui atribut pentru partiionare, ctigul proporional trebuie maximizat.
7.10. Ali algoritmi de inducie a arborilor de decizie

Procedura prezentat de construire a arborilor de decizie este euristic i deci nu garanteaz obinerea arborelui optim. Gsirea celui mai bun arbore posibil este o problem de optimizare NP dificil, care presupune ncercarea tuturor combinaiilor posibile de atribute. n general, utiliznd criterii i metode diferite de partiionare, pot rezulta mai muli arbori pentru aceeai mulime de antrenare. Algoritmul C4.5 (Quinlan, 1993) este o extensie a algoritmului ID3 care, pe lng tratarea atributelor continue, permite i partiionarea de mai multe ori dup acelai atribut. De asemenea, poate reteza sau simplifica arborele generat (engl. pruning) pentru a crete capacitatea de generalizare. Dac arborele este prea mare (are prea multe frunze), este ca i cum am crea cte o regul pentru fiecare instan, ceea ce evident poate conduce la suprapotrivire. Dup construirea unui arbore, anumite ramuri cu prea puine instane i care nu au un aport foarte important la clasificare pot fi retezate, astfel nct s creasc ansele de a generaliza mai bine. Dac datele sunt afectate de zgomot, retezarea poate elimina instanele eronate. Exist i o modalitate aleatorie de generare a arborilor (Random Tree). n acest caz nu se mai folosete un criteriu de omogenitate, ci se alege aleatoriu un atribut dup care se face partiionarea. Arborii sunt de dimensiuni mai mari, pe mulimea de antrenare dau erori n general nule, dar nu se garanteaz o capacitate de generalizare la fel de bun. n practic ns, funcioneaz destul de bine.
153
Mai exist i o tehnic ce grupeaz mai muli arbori aleatorii (Random Forest), n care arborii sunt construii separat i pentru clasificarea unei noi instane fiecare d un vot privind clasa. Rezultatul este clasa care obine cele mai multe voturi.
7.11. Concluzii
Printre avantajele clasificrii cu arbori de decizie, menionm: Sunt relativ uor de construit, dei necesit totui o serie de calcule; Sunt rapizi la clasificarea instanelor noi; Sunt uor de interpretat, mai ales pentru arbori de dimensiuni mici; Un arbore de decizie poate fi interpretat ca o mulime de reguli, de exemplu: Dac vremea este nsorit i umiditatea este mai mic sau egal cu 77,5, atunci se poate juca golf.
154
Capitolul 8
Clasificatorul bayesian naiv

8.1. Modelul teoretic
Metoda de clasificare bayesian naiv (engl. Nave Bayes) se bazeaz pe calcularea probabilitilor ca o anumit instan s aparin claselor problemei. ntr-o reea bayesian, se evita calcularea ntregii distribuii comune de probabilitate dup regula de nmulire a probabilitilor (engl. chain rule) presupunnd c un nod depinde doar de prinii si din graf. n metoda naiv, presupunerea simplificatoare este i mai puternic, considernd c toate atributele sunt independente dat fiind clasa. Acest fapt nu este neaprat adevrat, de cele mai multe ori, dimpotriv, condiia de independen poate s nu fie satisfcut. Cu toate acestea, s-a constatat c deseori metoda are rezultate foarte bune. Formal, se consider fiecare atribut i clasa ca variabile aleatorii. Se d o instan definit de valorile atributelor ( echivalent cu gsirea valorii fiind instana: ( ) (8.1) ) . Scopul este determinarea clasei C pentru aceast combinaie de valori, ceea ce este care maximizeaz probabilitatea clasei dat
Aceast probabilitate trebuie estimat direct din datele mulimii de antrenare, pe baza frecvenelor relative de apariie a valorilor atributelor. Conform teoremei lui Bayes: ( ( ) ) ( )
(8.2)
) este aceeai pentru toate valorile clasei ntruct este
vorba despre aceeai instan pentru toate clasele. Ea depinde doar de valorile atributelor instanei i nu de clase, astfel nct o putem ignora atunci cnd vrem s maximizm cantitatea din partea dreapt a ecuaiei (8.2). Problema de clasificare devine echivalent cu alegerea valorii clasei care maximizeaz numrtorul: (8.3)
( )
Rmne de estimat probabilitatea instanei dat fiind clasa. Considernd c toate atributele sunt independente dat fiind clasa (presupunerea fundamental a metodei bayesiene naive), putem exprima acest produs sub forma: ( ) ( ) ( ) (8.4)
Dup cum vom vedea n continuare, putem estima uor din datele mulimii de antrenare ( ) pentru toate valorile atributelor i clasei . Problema de clasificare devine urmtoarea:
156
Capitolul 8. Clasificatorul bayesian naiv
( ) (
(8.5)
Metoda se reduce la gsirea clasei pentru care valoarea produsului este maxim.
8.2. Probleme cu atribute simbolice

Pentru a exemplifica modalitatea de calcul, vom considera aceeai problem ca n capitolul 7, privind oportunitatea de a juca golf sau nu (tabelul 8.1).
Tabelul 8.1. Problem de clasificare cu atribute simbolice
Metoda bayesian naiv clasific o instan dat, care poate s fie una nou, care nu aparine mulimii de antrenare. n cazul de fa, fie aceast instan: xq = (Soare, Mare, Normal, Absent).
157
Trebuie s realizm un numr de calcule egal cu numrul de clase. Apoi vom alege clasa pentru care probabilitatea de apartenen a instanei este maxim. Mai nti vom calcula produsul pentru clasa Joc = Da ( ). Din tabelul sortat dup valoarea clasei, se observ c aceast valoare apare de 9 ori.
Nr. instan 3 4 5 7 9 10 11 12 13 1 2 6 8 14 Starea vremii nnorat Ploaie Ploaie nnorat Soare Ploaie Soare nnorat nnorat Soare Soare Ploaie Soare Ploaie Temperatur Mare Medie Mic Mic Mic Medie Medie Medie Mare Mare Mare Mic Medie Medie Umiditate Mare Mare Normal Normal Normal Normal Normal Mare Normal Mare Mare Normal Mare Mare Vnt Absent Absent Absent Prezent Absent Absent Prezent Prezent Absent Absent Prezent Prezent Absent Prezent Joc Da Da Da Da Da Da Da Da Da Nu Nu Nu Nu Nu
Prin urmare: ( ) Pentru calculul probabilitilor condiionate din produs, numrm instanele care au valoarea dorit a atributului, numai n clasa considerat. De exemplu, pentru atributul Starea vremii, ne intereseaz cte instane au valoarea Soare (dat de instana de interogare ).
158
Capitolul 8. Clasificatorul bayesian naiv Nr. instan 9 11 3 7 12 13 4 5 10 Starea vremii Soare Soare nnorat nnorat nnorat nnorat Ploaie Ploaie Ploaie Joc Da Da Da Da Da Da Da Da Da
Din tabelul de mai sus, se poate vedea c numai 2 instane din cele 9 din clasa Da au valoarea Soare. Deci:
Analog se procedeaz i pentru restul atributelor, obinnd:
( ( (
) ) )
Aceleai calcule se realizeaz pentru clasa Nu (N):
( ) ( )
159
( ( (
) ) )
Putem calcula acum produsele pentru fiecare clas:
( )
( )
Valoarea maxim este prima i deci instana va fi clasificat n clasa Da.
8.3. Considerente practice

8.3.1. Corecia Laplace Deoarece clasificarea se bazeaz pe calcularea unor produse, dac un factor este 0, ntregul produs devine 0. S considerm urmtoarea mulime de antrenare:
160
Capitolul 8. Clasificatorul bayesian naiv Starea vremii nnorat Ploaie nnorat Soare Soare Ploaie Umiditate Mare Mare Mare Mare Mare Normal Joc Da Da Da Nu Nu Nu
i instana pe care dorim s o clasificm: xq = (nnorat, Normal). Mai nti realizm calculele pentru clasa Da:
( ) ( ( ) )
Apoi realizm calculele pentru clasa Nu:
( ) ( ( ) )
Calculnd produsele de probabiliti, se vede c ambele sunt 0 i deci nu putem lua nicio decizie de clasificare a instanei :
( ) ( )
( (
) )
161
n general, pentru mai multe clase, dac n fiecare produs exist cte un factor nul, atunci toate produsele, pentru toate clasele, se anuleaz. Totui, ceilali factori nenuli ai produsului ne-ar putea da informaii relevante pentru clasificare. n acest sens, exist metode care garanteaz c niciun produs nu va fi 0. n locul calculului tipic al frecvenelor relative ca raport ntre numrul de apariii a unei valori a atributului i n clasa j (nij) i numrul de apariii a valorii clasei j (nj):
(8.6)
se poate folosi estimarea-m (engl. m-estimate) care netezete probabilitile aplicnd urmtoarea formul de calcul:
(8.7)
Corecia Laplace poate fi considerat un caz particular al estimriim unde, dac c este numrul de clase, putem considera rezultnd: i ,
(8.8)
Practic, se adaug la numrtor 1 i la numitor numrul de clase. n acest mod, toi factorii vor avea valori ( ) Probabilitile sunt estimate ca frecvene relative din date, dar nu cunoatem valorile absolute. Teoretic, ar putea s mai existe instane pe care nc nu le-am ntlnit i atunci considerm a-priori c mai exist cte o instan din fiecare clas.
162
Din punct de vedere filosofic, faptul c probabilitile nu pot fi 0 sau 1 ne conduce la ideea c nu putem fi siguri niciodat de ceva c e adevrat sau fals n mod absolut. Pentru exemplul simplificat, vom avea acum:
( ) ( )
( (
) )
i deci se poate lua o decizie (Da), iar rezultatul este conform cu analiza mulimii de antrenare, unde valoarea nnorat apare n clasa Da de dou ori iar valoarea Normal apare n clasa Nu o singur dat. Pentru exemplul iniial din seciunea 8.2, aplicnd corecia Laplace vom avea: ( ) ( ) ( ( ) )
Rezultatul clasificrii nu se schimb deoarece conteaz doar comparaia, nu cantitile propriu-zise. Pentru metoda bayesian naiv, partea calitativ este mai important dect partea cantitativ. Corecia Laplace este foarte util mai ales la clasificarea textelor, unde atributele sunt cuvintele nsele i, avnd multe documente, este probabil ca din acestea s lipseasc anumii termeni.
163
8.3.2. Precizia calculelor O alt problem care poate s apar este faptul c un produs de probabiliti subunitare cu muli factori poate fi afectat de precizia reprezentrii numerelor. Astfel, dac valoarea produsului devine mai mic dect cantitatea minim care poate fi reprezentat n virgul mobil, rezultatul va deveni 0. O soluie este logaritmarea i n acest caz, produsul de probabiliti este nlocuit cu suma logaritmilor de probabiliti. De exemplu, pentru calculul ( ) ( ) de mai sus, vom avea:
( ( )
))
( )
Pentru simplitate, mai sus am inclus doar 3 zecimale. Desigur, pentru o precizie suficient a rezultatului, reprezentarea termenilor sumei trebuie s fie corespunztoare.
8.4. Probleme cu atribute numerice

Pentru atribute numerice, exist mai multe modaliti de abordare. Dup cum am explicat n seciunea 7.2, valorile acestora pot fi discretizate, rezultnd atribute ordinale. De asemenea, se poate aplica partiionarea binar: se alege o valoare de referin iar valorile atributului rezultat vor fi
164
Da sau Nu, dac valorile atributului iniial sunt mai mari sau mai mici, respectiv, dect referina. O abordare specific metodei bayesiene naive este mai complex i mai puin folosit n practic, ns interesant din punct de vedere conceptual. Ideea de baz este asemntoare cu aceea de la corecia Laplace sau estimarea-m: estimarea distribuiei de probabilitate. Putem presupune de exemplu c valorile atributului numeric respect o distribuie normal (gaussian). Nu este obligatoriu s respecte aceast distribuie; dac tim c datele urmeaz alte distribuii, putem estima parametrii acestora. Pentru distribuia normal, parametrii pe care trebuie s i determinm sunt media i deviaia standard :
(8.9)
(8.10)
Probabilitile utilizate apoi n clasificarea bayesian naiv sunt calculate din distribuia normal:
( )
(8.11)
Pentru a exemplifica, vom considera mulimea de date cu atribute numerice analizat i n capitolul precedent (tabelul 8.2):
165

i ne propunem clasificarea instanei: xq = (Soare, 26, 72, Absent). Pentru atributele simbolice, calculele sunt aceleai ca n seciunea 8.2. Pentru atributul Temperatur, pentru clasa Da, media valorilor este 22,778 iar deviaia standard este 3,214. Prin urmare: ( )
( )
Pentru clasa Nu, media valorilor este 23,66 iar deviaia standard este 3,922 i vom avea: ( )
Pentru atributul Umiditate, probabilitile vor fi: ( )

( )
166
n final:
( ) ( )
( (
) )
i rezultatul este din nou clasa Da.
8.5. Concluzii
Dintre avantajele metodei de clasificare bayesiene naive menionm calculele simple i robusteea la zgomot i atribute irelevante. De aceea, este foarte potrivit pentru mulimi de antrenare de dimensiuni medii sau mari (de exemplu pentru clasificarea documentelor text, detecia spam-ului, diagnoz etc.). Chiar dac se bazeaz pe independena atributelor dat fiind clasa, metoda funcioneaz de multe ori bine chiar i atunci cnd presupunerea este infirmat n realitate.
167
168
Capitolul 9
Clasificarea bazat pe instane

9.1. Introducere
O alt metod de clasificare este cea bazat pe instane, care presupune memorarea efectiv a tuturor instanelor de antrenare. Mai ales n cazul arborilor de decizie, pentru a clasifica noi instane ncercm s realizm un model al datelor de antrenare. Dac avem o mulime de 10000 de instane, este teoretic posibil s construim un arbore de decizie de dimensiuni (mult) mai mici, care s le modeleze. Aici, memorm pur i simplu toate informaiile iar clasificarea presupune estimarea similaritii unei noi instane fa de cele existente, la fel cum clasific oamenii noi obiecte sau situaii prin analogie cu cele cunoscute deja. Instanele, definite de valorile atributelor lor, pot fi vzute ca nite puncte ntr-un spaiu n-dimensional, unde n este numrul de atribute. De exemplu, s considerm o problem de estimare a riscului cardiovascular al unor pacieni, innd seama de vrst (n ani) i de indicele masei corporale: este nimea (n metri). Dup cum se poate vedea n figura 9.1, dac avem dou atribute numerice, fiecare instan reprezint un punct n plan. Instanele ncercuite semnific pacieni cu risc crescut, iar cele nencercuite pacieni cu risc sczut. , unde G este greutatea (n kilograme) iar I
Figura 9.1. Reprezentare grafic a unei probleme de clasificare
n acest plan, calculm ct de aproape este o nou instan, marcat cu ?, fa de cele de antrenare. n cazul algoritmului cel mai apropiat vecin (engl. nearest neighbor, NN) identificm instana din mulimea de antrenare cea mai apropiat de instana de interogare i rezultatul clasificrii este clasa instanei respective din mulimea de antrenare. n cazul algoritmului cei mai apropiai k vecini (engl. k-nearest neighbor, kNN) identificm cele mai apropiate k instane i clasificm noua instan pe baza votului majoritar al acestor vecini. Dintre cele k instane de antrenare selectate, se numr cte aparin fiecrei clase a problemei iar rezultatul este clasa n care se gsesc cele mai multe.
9.2. Metrici de distan

Pentru a vedea ct de apropiate sunt instanele, avem nevoie de o metric de distan. De obicei se folosesc particularizri ale distanei Minkowski:
170
Capitolul 9. Clasificarea bazat pe instane
(|
| )
(9.1)
unde x i y sunt vectori n-dimensionali iar p este un parametru. Cnd utilizate n practic. De exemplu, s considerm dou puncte bidimensionale A i B, definite de coordonatele {1, 2}, respectiv {4, 6}. Prin urmare, cele dou puncte.
6 B
formula indic distana euclidian. Cnd
formula
indic distana Manhattan. Aceste dou metrici de distan sunt cele mai
. Figura 9.2 indic distana euclidian i distana Manhattan dintre
Di sta n ae p= ucli 2 dia n
Distana Manhattan p=1
Figura 9.2. Distana euclidian i distana Manhattan
n tabelul 9.1 se calculeaz valoarea distanei dintre puncte pentru diferite valori ale parametrului p.
171
Tabelul 9.1. Valorile distanei cnd parametrul p variaz

p ( ) d
9.3. Scalarea atributelor

n mulimea de date putem avea atribute de orice fel, cu orice fel de valori. Putem avea de exemplu: nlimea unei persoane Greutatea unei persoane Venitul unei persoane [1,5, 2,1] m; [50, 120] kg; [9600, 60000] lei/an.
Toate aceste atribute intervin n clasificare i pentru calculul distanei; dac vom considera primul i al treilea atribut, este evident c va conta n mult mai mare msur ultimul. De exemplu, s comparm dou persoane cu venituri 30000 i 31000 i nime 1,5 i 2,1. Pentru venituri, aceasta este o diferen mic, n timp ce nlimile sunt la marginile intervalului. n schimb, valoarea absolut a diferenei de venit este att de mare, nct domin clasificarea. De aceea, se folosete n general normalizarea atributelor, ca un pas de preprocesare a datelor, astfel nct toate atributele s aib valori ntre 0 i 1, aplicnd formula de transformare:
172
( (
) )
(9.2)
9.4. Calculul distanelor pentru diferitele tipuri de atribute

Deoarece algoritmii NN i kNN se bazeaz pe calculul unor distane, trebuie s definim diferenele dintre valorile atributelor din punct de vedere numeric. Vom descrie nite metode n acest scop pentru fiecare tip de atribut. Pentru atributele nominale, distana dintre valorile unui atribut se consider 0 dac valorile sunt egale i 1 dac sunt diferite. ntre valorile atributului nu exist alte relaii i prin urmare nu exist distane intermediare ntre 0 i 1. Pentru atribute ordinale, se pot considera valorile egal distribuite ntre 0 i 1. De exemplu, pentru trei valori { Mic, Mediu, Mare }, se poate considera transformarea: Mic = 0, Mediu = 0,5 i Mare = 1. Calculul distanelor va fi valoarea absolut a acestor valori numerice, precum: d(Mic, Mare) = 1, d(Mic, Mediu) = d(Mediu, Mare) = 0,5 .a.m.d. Pentru atributele numerice, distana este valoarea absolut a diferenei dintre valorile normalizate ale atributelor.
9.5. Numrul optim de vecini

Decizia privind numrul de vecini considerai este foarte important. Dup cum se poate vedea n figura 9.3, mrind numrul de vecini (implicit
173
distana fa de instana de interogare), putem s lum n calcul doi, trei vecini sau chiar toate instanele de antrenare. ns dac instanele unei clase sunt grupate, cum este cazul de obicei, pe msur ce mrim distana i includem mai muli vecini, s-ar putea s ne ndeprtm prea mult i s includem instane din alte clase, care vor afecta rezultatul clasificrii.
Figura 9.3. Vecintile unui punct cu 1, 2 i 3 vecini
Determinarea numrului optim de vecini k poate fi dificil. Cnd k este prea mic, clasificarea poate fi afectat de zgomot. Cnd k este prea mare, vecintatea poate include puncte din alte clase. Figura 9.4 prezint regiunile de decizie pentru o problem arbitrar de clasificare binar cu instane de antrenare bidimensionale albe i negre, culoarea indicnd clasa instanei. Regiunile de decizie indic deciziile de clasificare pentru toate punctele din plan fiecare punct este considerat o instan de interogare care trebuie clasificat n funcie de instanele de antrenare date. Dup cum se vede din aceast figur, la aceast metod de clasificare regiunile de decizie sunt oarecum neregulate dar interesante, ceea ce le confer i o anumit calitate estetic.
174
Figura 9.4. Regiuni de decizie pentru o problem de clasificare binar
Atunci cnd datele de antrenare sunt afectate de zgomot, clasa celui mai apropiat vecin ar putea fi greit, iar mai muli vecini ar putea compensa erorile. Figura 9.5 prezint regiunile de decizie ntr-o astfel de situaie pentru
Figura 9.5. Regiuni de decizie pentru date afectate de zgomot cu k = 1
175
Figura 9.6 prezint regiunile de decizie pentru
Figura 9.6. Regiuni de decizie pentru pentru date afectate de zgomot cu k = 3
Se vede c n ciuda existenei unei instane negre n zona alb, regiunea de decizie alb nu mai conine acum o subregiune neagr. n general, nu putem spune care din situaiile prezentate n figurile 9.5 i 9.6 este de dorit. Dac punctul negru izolat este corect, acesta poate reprezenta o excepie important, iar algoritmul NN este o metod foarte bun pentru a-l lua n considerare. Metoda bayesian naiv, unde impactul majoritii este puternic, poate l-ar fi ignorat. Pentru un arbore de decizie ar putea reprezenta o eroare pe mulimea de antrenare, sau dac se folosete retezarea, frunza corespunztoare ar putea fi eliminat. Dac punctul este ns clasificat greit, este bine s fie eliminat sau influena lui s fie redus, ceea ce se poate realiza considernd un numr mai mare de vecini. Pentru fiecare abordare exist avantaje i dezavantaje. n general, numrul optim de vecini se poate determina prin validare ncruciat, metod prezentat n seciunea 6.5.
176
9.6. Blestemul dimensionalitii

O alt problem la care sunt sensibile metodele bazate de instane este aa numitul blestem al dimensionalitii. Dac ne imaginm un segment de dreapt ntre 0 i 1, lungimea sa este 1. Dac ne imaginm un ptrat, lungimea ntre vrfurile opuse, de coordonate (0,0) i (1,1), este . Dac ne imaginm un cub, lungimea diagonalei este . Dac avem un hipercub cu 100 de dimensiuni, lungimea diagonalei este 10. Cu ct crete numrul de atribute, datele devin mai rare n acel spaiu. Dac avem 3 valori distribuite egal pe diagonale, n spaiul unidimensional distana ntre ele este 0,5 (0 0,5 1), pe cnd n spaiul cu 100 de dimensiuni, distana este 5. Cu ct sunt mai rare datele, cu att este mai greu pentru clasificator s realizeze un model precis. De asemenea, dac vom considera un grid pe care valorile sunt egal distribuite, cte 3 pe fiecare dimensiune, pentru a pstra o distan constant ntre valori, n cazul unidimensional avem nevoie de 3 date, n cazul 2D avem nevoie de 9 date, n cazul 3D avem nevoie de 27 date iar n cazul 100D avem nevoie de exponenial. date. Odat cu creterea dimensionalitii, necesarul de date pentru a pstra aceeai densitate crete
9.7. Ponderarea instanelor

Dup cum am menionat, este greu s determinm cea mai bun valoare pentru numrul de vecini. Putem ns s ne gndim c vecinul cel mai apropiat, fiind mai asemntor, conteaz mai mult pentru clasificare
177
dect instanele mai ndeprtate. Se poate face astfel ponderarea contribuiei instanelor de antrenare n funcie de distana fa de instana de interogare. O funcie des utilizat pentru ponderare este inversul ptratului distanei:
(9.3)
unde i este indicele unei instane de antrenare iar d este o metric de distan. Distana este o msur a similaritii: cnd distana este mare, similaritatea i deci i ponderea corespunztoare, tind la 0. Cnd distana este mic, ponderea crete. Dac ( ) , ceea ce ar presupune ca ponderea s tind la ) ( ). infinit, dominnd oricum clasificarea, se alege direct clasa corespunztoare instanei din acel punct: ( Prin ponderare, putem folosi ntreaga mulime de antrenare pentru clasificare, ntruct instanele mai ndeprtate vor avea pondere mai mic i nu vor conta foarte mult. Este ca i cum vecintatea optim ar fi determinat n mod dinamic. Astfel, se transform abordarea local, cu o submulime de k instane, ntr-o abordare global.
9.8. Ponderarea i selecia atributelor

Selecia atributelor este o problem esenial din punct de vedere psihologic. Ponderea atributelor, nu a instanelor, este foarte important
178
pentru modul n care iau oamenii decizii. Aceste ponderi semnific ceea ce considerm mai semnificativ la un moment dat. S spunem c o persoan culege flori, fr nicio alt constrngere. Atributele cele mai importante pot fi culoarea, mirosul, aspectul estetic etc. Dar dac merge s caute plante medicinale, importana atributelor se modific pentru a respecta noile criterii proprietile medicinale (dup Miclea, 1999). Instanele (plantele) i atributele (criteriile) sunt aceleai, dar decizia de clasificare, de a culege sau nu anumite exemplare, depinde de importana atributelor. Scopul omului determin importana atributelor. Din punct de vedere computaional, schimbarea ponderii atributelor este echivalent cu lungirea sau scurtarea axelor n spaiul multidimensional. Atributelor mai importante le vor corespunde axe mai lungi, ceea ce determin distane mai mari, ce vor avea un efect mai puternic asupra rezultatului clasificrii, chiar dac valorile instanelor rmn normalizate ntre 0 i 1. Axele corespunztoare atributelor mai puin importante, care pot fi i irelevante, se scurteaz. O modalitate de a determina importana atributelor este chiar utilizarea ctigului informaional, descris n seciunea 7.4. Exist i algoritmi specializai, cum ar Relief (Kira & Rendell, 1992; Kononenko, 1994). Ideea de baz este urmtoarea. Se iniializeaz ponderile atributelor cu 0. Pentru fiecare instan xq din mulimea de antrenare, se gsete cea mai apropiat instan din aceeai clas (hit) i cea mai apropiat instan dintr-o clas diferit (miss) i se actualizeaz ponderea atributului dup formula:
179
(9.4)
Pentru a explica funcionarea sa, vom considera o problem de clasificare binar (D sau N) cu dou atribute. Instanele au urmtoarele valori pentru atributul 1, n coresponden cu clasa:
Atributul 1 x11 = 1 x21 = 1,5 x31 = 2 x41 = 3 Clasa C=N C=N C=D C=D
Algoritmul se bazeaz pe o serie de iteraii, n care valorile sunt normalizate, diferena dintre valoarea maxim i cea minim fiind 3 1 = 2:
x11: hit x21, miss x31, w1 = (1 0,5) / 2 = 0,25 x21: hit x11, miss x31, w1 = (0,5 0,5) / 2 = 0 x31: hit x41, miss x21, w1 = (0,5 1) / 2 = -0,25 x41: hit x31, miss x21, w1 = (1,5 1) / 2 = 0,25 w1 = 0,25 w1 = 0,25 w1 = 0 w1 = 0,25
n aceast situaie, w1 = 0,25. Pentru atributul 2, s presupunem c instanele au urmtoarele valori n coresponden cu clasa:
Atributul 2 x12 = 1 x22 = 2 x32 = 1,5 x42 = 3 Clasa C=N C=N C=D C=D
180
Capitolul 9. Clasificarea bazat pe instane x12: hit x22, miss x32, w2 = (0,5 1) / 2 = -0,25 x22: hit x12, miss x32, w2 = (0,5 1) / 2 = -0,25 x32: hit x42, miss x12, w2 = (0,5 1,5) / 2 = -0,5 x42: hit x32, miss x22, w2 = (1 1,5) / 2 = -0,25 w2 = -0,25 w2 = -0,5 w2 = -1 w2 = -1,25
n aceast situaie, w2 = -1,25. Se observ c atributul 1 este mai important, deoarece separ mai uor cele dou clase, cu o singur valoare de referin: 1,75. Spre deosebire de metoda bayesian naiv, algoritmii NN i kNN sunt mai sensibili la prezena atributelor irelevante. De aceea, eliminarea acestora poate mbunti foarte mult performanele de clasificare. Cunoscnd ponderile atributelor, poate fi selectat o submulime de atribute mai importante. Acest fapt conduce de asemenea la scderea numrului de dimensiuni i la creterea vitezei clasificrii.
9.9. Exemplu de clasificare

Pentru exemplificarea celor doi algoritmi, NN i kNN, vom considera aceeai problem a jocului de golf n funcie de condiiile meteorologice, cu atribute att simbolice ct i numerice, prezentat din nou n tabelul 9.1. Ne propunem clasificarea instanei: xq = (Soare, 26, 72, Absent). Putem interpreta atributul Starea vremii ca fiind ordinal, cu ordinea valorilor { Ploaie, nnorat, Soare }. Acestea vor lua valorile numerice 0, 0,5, respectiv 1. Atributul Vnt este binar i putem transforma valorile simbolice Absent i Prezent n valorile numerice 0, respectiv 1. Mulimea de antrenare va deveni acum cea din tabelul 9.2.
181

Tabelul 9.2. Transformarea atributelor simbolice n atribute numerice

Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii 1 1 0,5 0 0 0 0,5 1 1 0 1 0,5 0,5 0 Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Vnt 0 1 0 0 0 1 1 0 0 0 1 1 0 1 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu
Valorile atributului Temperatur aparin intervalului [17,8, 29,4], iar valorile atributului Umiditate aparin intervalului [65, 96]. Acestea trebuie normalizate, conform ecuaiei 9.2, i sunt prezentate n tabelul 9.3.
182
Tabelul 9.3. Normalizarea atributelor

Temperatur 29,4 26,7 28,3 21,1 20,0 18,3 17,8 22,2 20,6 23,9 23,9 22,2 27,2 21,7 Umiditate 85 90 86 96 80 70 65 95 70 80 70 90 75 91 Temperatur normalizat 1,000 0,767 0,905 0,284 0,190 0,043 0,000 0,379 0,241 0,526 0,526 0,379 0,810 0,336 Umiditate normalizat 0,645 0,806 0,677 1,000 0,484 0,161 0,000 0,968 0,161 0,484 0,161 0,806 0,323 0,839
Ca metric de distan vom utiliza distana euclidian. Algoritmii presupun calculul distanelor dintre xq i toate instanele din mulimea de antrenare. Instana de interogare trebuie i ea transformat n acelai mod.
Starea vremii Soare 1 Temperatur 26 0.707 Umiditate 72 0.226 Vnt Absent 0 Joc ? ?
Distana dintre
i instana de antrenare
se calculeaz lund n
considerare toate atributele: ( ) ( ) ( ) ( ) ( )
Analog se procedeaz pentru toate celelalte instane din mulimea de antrenare, rezultatele fiind precizate n tabelul 9.4.
183
Tabelul 9.4. Calculul distanelor

Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Starea vremii 1 1 0,5 0 0 0 0,5 1 1 0 1 0,5 0,5 0 Temperatur 1 0,767 0,905 0,284 0,19 0,043 0 0,379 0,241 0,526 0,526 0,379 0,81 0,336 Umiditate 0,645 0,806 0,677 1 0,484 0,161 0 0,968 0,161 0,484 0,161 0,806 0,323 0,839 Vnt 0 1 0 0 0 1 1 0 0 0 1 1 0 1 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu Distana 0,5113 1,1576 0,7019 1,3334 1,1549 1,5637 1,3420 0,8113 0,4705 1,0485 1,0183 1,3015 0,5196 1,5854
Pentru atributul Starea vremii am fcut presupunerea c este de tip ordinal i de aceea pentru instanele 3, 7, 12 i 13 distana pe acest atribut este 0,5. Dac l-am fi considerat simbolic, aceste distane ar fi fost 1. Tabelul de mai jos conine aceleai date sortate n ordine cresctoare a distanei.
Nr. instan 9 1 13 3 8 11 10 5 2 12 4 7 6 14 Starea vremii 1 1 0,5 0,5 1 1 0 0 1 0,5 0 0,5 0 0 Temperatur 0,241 1 0,81 0,905 0,379 0,526 0,526 0,19 0,767 0,379 0,284 0 0,043 0,336 Umiditate 0,161 0,645 0,323 0,677 0,968 0,161 0,484 0,484 0,806 0,806 1 0 0,161 0,839 Vnt 0 0 0 0 0 1 0 0 1 1 0 1 1 1 Joc Da Nu Da Da Nu Da Da Da Nu Da Da Da Nu Nu Distana 0,4705 0,5113 0,5196 0,7019 0,8113 1,0183 1,0485 1,1549 1,1576 1,3015 1,3334 1,3420 1,5637 1,5854
184
Dac se aplic algoritmul NN, avem nevoie doar de instana cea mai apropiat de xq, n acest caz x9. Algoritmul nu necesit sortarea datelor dup distan, ci doar gsirea instanei cu distan minim. Rezultatul clasificrii cu NN va fi clasa instanei x9, adic Da. Dac se aplic algoritmul kNN, putem considera cei mai apropiai (de exemplu 3) vecini, sau pe toi. Tabelul urmtor indic rezultatele clasificrii dup numrul de voturi ai vecinilor.
Numrul de vecini k=1 k=2 k=3 k=4 k = 14 Numrul de voturi 1 Da 0 Nu 1 Da 1 Nu 2 Da 1 Nu 3 Da 1 Nu 9 Da 5 Nu Decizia de clasificare Da Indecis Da Da Da
De asemenea, putem pondera influena vecinilor conform ecuaiei 9.3. Tabelul 9.5 prezint ponderile instanelor, ca inverse ale ptratelor distanei euclidiene.
Tabelul 9.5. Ponderarea instanelor
Nr. instan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Joc Nu Nu Da Da Da Nu Da Nu Da Da Da Da Da Nu Distana 0,5113 1,1576 0,7019 1,3334 1,1549 1,5637 1,3420 0,8113 0,4705 1,0485 1,0183 1,3015 0,5196 1,5854 185
Ponderea 3,8254 0,7463 2,0300 0,5624 0,7497 0,4090 0,5553 1,5194 4,5171 0,9096 0,9643 0,5903 3,7035 0,3979
Se calculeaz suma ponderilor pentru instanele care au clasa Da: i suma ponderilor pentru instanele care au clasa Nu: . Prin urmare, instana de interogare este clasificat n clasa Da.
9.10. Concluzii
Clasificatorii bazai pe instane sunt considerai pasivi (engl. lazy learners), deoarece modelul nu este construit explicit iar efortul de calcul se face la aplicarea modelului, pentru clasificarea instanelor noi. n schimb, arborii de decizie de exemplu sunt considerai clasificatori activi (engl. eager learners), deoarece efortul de calcul se face la crearea modelului, naintea clasificrii efective a unei instane noi. Clasificatorii pasivi necesit mai puin timp de calcul pentru antrenare i mai mult pentru predicie. Ratele de eroare ale algoritmilor NN i kNN sunt de obicei mici. Dac nu exist zgomot n date, rata de eroare pe mulimea de antrenare este n general 0. ntruct folosesc toate informaiile disponibile, i capacitatea de generalizare este de multe ori foarte bun. Determinarea celui mai apropiat vecin are o complexitate de timp liniar n numrul de instane. Pentru mulimi de antrenare foarte mari, timpul poate fi redus prin utilizarea, de exemplu, a arborilor k-dimensionali (engl. kd-trees, Bentley, 1975), unde k semnific aici numrul de atribute (sau dimensiuni). Astfel, complexitatea poate fi redus la un nivel logaritmic. Cu toate acestea, cnd numrul de atribute este foarte mare, comparabil cu numrul de instane, performanele cutrii cu arbori kd devin apropiate cutrii exhaustive. Pentru ca aceast metod s fie eficient, trebuie ndeplinit condiia este numrul de atribute.
186
, unde n este numrul de instane iar k
Referine
[1] Aaronson, S. (2006). Quantum Computing Since Democritus, http://www.scottaaronson.com/democritus/default.html [2] Amir, E. & Richards, M. (2008). Variable Elimination in Bayesian Networks, http://www.cs.uiuc.edu/class/sp08/cs440/notes/ varElimLec.pdf [3] Ardis, P. (2010). Notes on Dempster Shafer Belief Functions, www.cs.rochester.edu/~ardis/DempsterShafer.pdf [4] Bao, J. (2002). Artificial Intelligence Exercises, http://www.cs.iastate.edu/~baojie/acad/teach/ai/hw4/200212-06_hw4sol.htm [5] Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances, Philosophical Transactions of the Royal Society of London, vol. 53, pp. 370-418 [6] Bentley, J. L. (1975). Multidimensional binary search trees used for associative searching, Communications of the ACM, vol. 18, no. 9, pp. 509-517 [7] BlackLight Power Inc. (2005). Double Slit. Explanation of Classical Electron Diffraction, http://www.blacklightpower.com/ theory-2/theory/double-slit/ [8] Breiman, L. (1996). Some Properties of Splitting Criteria, http:// fbf.cba.ua.edu/~mhardin/BreimanMachineLearning1996.pdf
Inteligen artificial: raionament probabilistic, tehnici de clasificare
[9] Breiman, L., Friedman, J. H., Olshen, R. A. & Stone, C. J. (1984). Classification and regression trees, Wadsworth & Brooks/Cole Advanced Books & Software, Monterey, California [10] Changing Minds (2012). Types of data, http://changingminds.org/ explanations/research/measurement/types_data.htm [11] Cheng, J. & Druzdzel, M. J. (2000). AIS-BN: An Adaptive Importance Sampling Algorithm for Evidential Reasoning in Large Bayesian Networks, Journal of Artificial Intelligence Research, vol. 13, pp. 155-188 [12] Cheng, J. & Druzdzel, M. J. (2000). Latin hypercube sampling in Bayesian networks, in Proceedings of the Thirteenth International Florida Artificial Intelligence Research Society Conference (FLAIRS-2000), Jim Etheredge & Bill Manaris (eds), pp. 287-292, Menlo Park, California, AAAI Press [13] Cheng, J. (2001). Efficient stochastic sampling algorithms for Bayesian networks, Ph.D. Dissertation, School of Information Sciences, University of Pittsburgh, http://www2.sis.pitt.edu/ ~jcheng/Cheng_dissertation.pdf [14] Dempster, A. P. (1968). A generalization of Bayesian inference, Journal of the Royal Statistical Society, Series B, vol. 30, pp. 205-247 [15] Doherty, M., Learning: Introduction and Overview, http://www1.pacific.edu/~mdoherty/comp151/lectures/ learning_intro.ppt [16] Freund, Y. & Schapire, R. E. (1995). A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting, Proceedings of the Second European Conference on
188
Referine
Computational Learning Theory, pp. 23-37, Springer-Verlag London, UK [17] Fung, R. & Chang, K. (1990). Weighting and integrating evidence for stochastic simulation in bayesian networks, in M. Henrion, R.D. Shachter, L. N. Kanal, and J. F. Lemmer (eds.), Uncertainty in Artificial Intelligence, vol. 5, pp. 209-219, North Holland, Amsterdam [18] Hjek, A. (2012). Interpretations of Probability, The Stanford Encyclopedia of Philosophy (Summer 2012 Edition), Edward N. Zalta (ed.), http://plato.stanford.edu/archives/sum2012/ entries/probability-interpret/ [19] Han, D., Han. C. & Yang, Y. (2008). A Modified Evidence Combination Approach Based on Ambiguity Measure, Proceedings of the 11th International Conference on Information Fusion, pp. 1-6 [20] Harrison D. M. (2008). Mach-Zehnder Interferometer, http://www.upscale.utoronto.ca/GeneralInterest/Harrison/ MachZehnder/MachZehnder.html [21] Hsu, W. H. (2001). Decision Trees, Occams Razor, and Overfitting, http://www.kddresearch.org/Courses/Fall-2001/ CIS732/Lectures/Lecture-05-20010906.pdf [22] Hunt, E.B. (1962). Concept learning: An information processing problem, Wiley, NewYork [23] Kahn, A. B. (1962). Topological sorting of large networks, Communications of the ACM, vol. 5, no. 11, pp. 558-562 [24] Keynes, J. M. (1921). A Treatise on Probability (Chapter IV. The Principle of Indifference), Macmillan and Co.
189
[25] Kira, K. & Rendell, L. A. (1992). A Practical Approach to Feature Selection, Proceedings of the Ninth International Workshop on Machine Learning, pp. 249-256 [26] Kononenko, I. (1994). Estimation Attributes: Analysis and Extensions of RELIEF, European Conference on Machine Learning, Catania, Italy, Springer-Verlag [27] Kubalik, J. (2000). Machine Learning, http://cyber.felk.cvut.cz/ gerstner/HUT2000/ml/ml1.ppt [28] Lawrence, A. E. (1997). Microprocessor Unit (PU): Glossary, http://www-staff.lboro.ac.uk/~coael/gloss.html [29] Lee, P. M. (1989). Bayesian Statistics: an introduction, Oxford University Press. [30] Livescu, K. (2003). A Practical Introduction to Graphical Models and their use in ASR, http://people.csail.mit.edu/klivescu/ 6.345/6.345-spring03_v4.ppt [31] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, pp. 281-297 [32] Miclea, M. (1999). Psihologie cognitiv, Polirom, Iai [33] Mitchell, T. M. (1997). Machine Learning, McGraw-Hill Science/ Engineering/Math [34] Moore, A. (2001). Probabilistic and Bayesian Analytics, http://www.autonlab.org/tutorials/prob17.pdf [35] Nielsen, M. A. & Chuang, I. L. (2010). Quantum Computation and Quantum Information, 10th Anniversary Edition, Cambridge University Press
190
Referine
[36] Nilsson, N. J. (2001). Introduction to Machine Learning, http://robotics.stanford.edu/people/nilsson/mlbook.html [37] Ooi, Y. H. (2004). Simpsons Paradox A Survey of Past, Present and Future Research, University of Pennsylvania, http://repository.upenn.edu/cgi/viewcontent.cgi?article=1014 [38] Paskin, M. (2003). A Short Course on Graphical Models. Structured Representations, http://ai.stanford.edu/~paskin/ gm-short-course/lec2.pdf [39] PEAR (2010). Princeton Engineering Anomalies Research. Scientific Study of Consciousness-Related Physical Phenomena, http://www.princeton.edu/~pear/ [40] Quinlan, J. R. (1986). Induction of Decision Trees, Machine Learning, vol. 1, pp. 81-106 [41] Quinlan, J. R. (1993). C4.5: Programs for Machine Learning, Morgan Kaufman Publishers [42] Rogers, T. (2001). Simpsons's Paradox - When Big Data Sets Go Bad, in Amazing Applications of Probability and Statistics, http://www.intuitor.com/statistics/SimpsonsParadox.html [43] Russell, S. J. & Norvig, P. (2002). Artificial Intelligence: A Modern Approach, Prentice Hall, 2nd Edition [44] Seo, Y. W. & Sycara, K. (2006). Combining multiple hypotheses for identifying human activities, Technical report CMU-RI-TR06-31, Robotics Institute, Carnegie Mellon University [45] Shachter, R. D. & Peot, M. (1990). Simulation approaches to general probabilistic inference on belief networks, in M. Henrion, R. D. Shachter, L. N. Kanal, and J. F. Lemmer (eds.), Uncertainty in Artificial Intelligence, vol. 5, pp. 221-231, North Holland, Amsterdam
191
[46] Shachter, R. D. (1998). Bayes-Ball: The Rational Pastime (for Determining Irrelevance and Requisite Information in Belief Networks and Influence Diagrams), Proceedings of the Fourteenth Conference in Uncertainty in Artificial Intelligence, pp. 480-487 [47] Shafer, G. (1976). A Mathematical Theory of Evidence, Princeton University Press [48] Shannon, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27, pp. 379423 (July), pp. 623-656 (October) [49] Simon, H. A. (1983). Reason in Human Affairs, Stanford University Press [50] Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables, Journal of Royal Statistical Society Ser.B, vol. 13, no. 2, pp. 238-241 [51] Smets, P. & Kennes, R. (1994). The Transferable Belief Model, Artificial Intelligence, vol. 66, pp. 191-243 [52] Tan, P. N., Steinbach, M. & Kumar, V. (2006). Introduction to Data Mining, Addison-Wesley [53] Vucetic, S. (2004). Alternative Classification Algorithms, http://www.ist.temple.edu/~vucetic/cis526fall2004/ lecture8.ppt [54] Witten, I. H. & Frank, E. (2000). Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco [55] Yager, R. (1987). On the Dempster-Shafer Framework and New Combination Rules, Information Sciences, vol. 41, pp. 93-137
192
Referine
[56] Yuan, C. & Druzdzel, M. J. (2003). An importance sampling algorithm based on evidence pre-propagation, in Proceedings of the 19th Conference on Uncertainty in Artificial Intelligence (UAI-03), pp. 624-631, Morgan Kaufmann Publishers San Francisco, California [57] Zadeh, L. (1979). On the validity of Dempsters rule of combination, Memo M79/24, University of California, Berkeley, USA
193

Florin Leon - Inteligenta Artificiala: Rationament Probabilistic, Tehnici de Clasificare

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Florin Leon - Inteligenta Artificiala: Rationament Probabilistic, Tehnici de Clasificare

Uploaded by

Copyright:

Available Formats

Familiei mele i n special soiei mele, Crina, fr de care aceast carte nu s-ar fi scris acum

Partea a II-a. Tehnici de clasificare

Partea I Raionament probabilistic

Lumile n care A este adevrat P(A)

Lumile n care A este fals

Figura 1.1. Ilustrarea interpretrii frecventiste

Partea I. Raionament probabilistic

Capitolul 1. Probabiliti i paradoxuri

Partea I. Raionament probabilistic

Capitolul 1. Probabiliti i paradoxuri

Partea I. Raionament probabilistic

Capitolul 1. Probabiliti i paradoxuri

Partea I. Raionament probabilistic

Figura 1.2. Comportamentul de tip und

Figura 1.3. Comportamentul de tip particul

Capitolul 1. Probabiliti i paradoxuri

Figura 1.4. Interferometrul Mach-Zehnder

Partea I. Raionament probabilistic

Figura 1.5. Configuraia pentru observarea cii fotonului

Capitolul 1. Probabiliti i paradoxuri

Prin aplicarea acestei transformri, qubit-ul va ajunge ntr-o superpoziie: ] [ ] ],

Partea I. Raionament probabilistic

Figura 1.6. Interferena amplitudinilor de probabilitate

Capitolul 1. Probabiliti i paradoxuri

Partea I. Raionament probabilistic

Capitolul 1. Probabiliti i paradoxuri

Figura 1.7. Problema Monty-Hall

Partea I. Raionament probabilistic

Figura 1.8. Situaiile posibile pentru problema Monty-Hall

Capitolul 1. Probabiliti i paradoxuri

Partea I. Raionament probabilistic

Capitolul 1. Probabiliti i paradoxuri

Figura 2.1. Reprezentare grafic a unei probabiliti condiionate

Partea I. Raionament probabilistic

Considerm formula probabilitilor condiionate: ( ( ) )

Capitolul 2. Fundamente teoretice

Figura 2.2. Reprezentare grafic a legii probabilitii totale

Probabilitatea fiecrei valori

a lui A, condiionat de B, este: ( )

Partea I. Raionament probabilistic

jumtate din cazuri: ( | )

Capitolul 2. Fundamente teoretice

2.2. Independen i independen condiionat

Partea I. Raionament probabilistic

Capitolul 2. Fundamente teoretice

2.3. Reele bayesiene

( ) exprimat mai concis astfel:

Partea I. Raionament probabilistic

Figura 2.3. Reea bayesian

Capitolul 2. Fundamente teoretice

Figura 2.4. a) Reea bayesian valid; b) Reea bayesian invalid

P(Febr = Da) 0,8 0,7 0,25 0,05

P(Oboseal = Da) 0,6 0,2 P(Anorexie = Da) 0,5 0,1

P(Oboseal = Nu) 0,4 0,8 P(Anorexie = Nu) 0,5 0,9

Partea I. Raionament probabilistic

unde ( ) reprezint mulimea prinilor variabilei

, din irul ordonat al

Capitolul 2. Fundamente teoretice

. Toate variabilele fiind binare, pentru o anumit combinaie

Figura 2.5. Reea bayesian complex

Partea I. Raionament probabilistic

2.4. Algoritmul Bayes-Ball

Figura 2.6. Cauz comun