You are on page 1of 348

Departament d’Informàtica de l’ETSEEI La Salle,

Universitat Ramon Llul

Aprenentatge artificial evolutiu emprant


paral·lelisme de gra fi en el marc de la
mineria de dades

Tesis que presenta Francesc Xavier Llorà i Fàbrega


per optar al tı́tol de doctor en Informàtica

Director de la tesi: Dr. Josep M. Garrell i Guiu


Catedràtic d’universitat
Universitat Ramon Llull

Barcelona, 4 de Febrer de 2002.


Iaia, un vel menys
Resum

La proposta que realitza aquesta tesi combina idees provinents de l’aprenentatge artifici-
al, la computació evolutiva (concretament de l’aprenentatge artificial evolutiu) i la vida
artificial. L’objectiu que es planteja rau en la creació d’un model de mineria de dades
que satisfaci certes consideracions. La primera consisteix en el fet que aquest model ha
de poder resoldre problemes de mineria amb tot tipus d’atributs. El segon és que aquest
model no estigui especı́ficament dissenyat per un tipus de representació del coneixement
particular. És a dir, que sigui un model unificat capaç de treballar amb diferents repre-
sentacions. Finalment, aquest model ha d’ésser inherentment massivament paral·lel. És
en aquest punt on són útils les aportacions que pot dur a terme la vida artificial.
Resumen

La propuesta que esta tesis realiza combina ideas procedentes del aprendizaje automtico,
la computación evolutiva (concretamente del aprendizaje automtico evolutivo) y la vida
artificial. El objetivo que se plantea recae en la creación de un modelo de minerı́a de
datos que satisfaga ciertas consideraciones. La primera consiste en que el modelo tiene
que resolver problemas de minerı́a con todo tipo de atributos. El segundo es que este
modelo no esté especı́ficamente diseñado para un tipo de representación del conocimiento
particular. Este modelo debe ser un modelo unificado capaz de trabajar con diferentes
representaciones. Finalmente el modelo tiene que ser inherente y masivamente paralelo.
En este punto resultan útiles las aportaciones que puede realizar la vida artificial.
Abstract

This thesis combines different ideas provided by machine learning, evolutionary compu-
tation (genetic based machine learning), and artificial life. The aim of this work is to
create a data mining model that satisfies certain guidelines. The first one deals with the
type of attributes that can be used in the model. The second one focuses on the goal
that the model has to independent of the knowledge representation used. Finally, the
model must exploit massive parallelism. Artificial Life can be very useful dealing with
parallelism models.
Resum

La tesi que aquı́ es presenta s’emmarca dins el camp conegut com a mineria de dades
(o data mining). Concretament, el treball que aquı́ es presenta es centra en el procés
d’extracció de coneixement coneixement de la informació continguda en bases de dades,
concretament per tasques de classificació. En front de les diferents alternatives que exis-
teixen per expressar aquest coneixment, aquesta tesi proposa d’un model de mineria de
dades unificat. És a dir, en lloc de posseir un algorisme especı́fic per cada representació
del coneixement possible, el que es vol obtenir és un model únic que permeti l’extrac-
ció de coneixement emprant diferents representacions sense haver de canviar l’algorisme
que s’utilitza. La proposta passa per una aproximació basada en l’aprenentatge evolu-
tiu. Aquest tipus d’aprenentatge evolutiu perment, amb variacions mı́nimes, treballar
fàcilment amb diferents representacions del coneixement.
La proposta que realitza aqueta tesi busca combinar innovadorament idees provinents
de l’aprenentantge artificial, la computació evolutiva (concretament de l’aprenentatge
artificial evolutiu) i la vida artificial. L’objectiu inicial que es planteja rau en la creació
d’un model de mineria de dades que satisfaci certes consideracions. La primera consisteix
en el fet que ha d’ésser aplicable a tot tipus de problemes de mineria. Això implica la
capacitat de treballar amb tot tipus d’atributs, per exemple numèrics i categòrics entre
d’altres. El segon és que aquest model no estigui especı́ficament dissenyat per un tipus de
representació del coneixement particular. És a dir, tal i com s’ha comentat anteriorment,
que sigui un model unificat capaç de treballar amb diferents representacions. Finalment,
aquest model havia d’ésser inherentment massivament parallel. És en aquest punt on són
útils les aportacions que pot dur a terme la vida artificial. Aquest procés ha de tractar
amb grans volums de dades, essent un procés computacionalment costos. Imposant la
consideració que el model sigui inherentment paral·lel, aquest escull es evitar explotant
directament el paral·lelisme inherent al model.
La tesi tesi es complementa amb l’estudi del comporatament del model proposat.
Per altra banda, el treball realitzat amb aquest model, que s’ha anomenat GALE, també
s’ha avaluat en la resolció de problemes reals de mineria de dades. Aquestes proves,
acompanyades de la metodologia adient i anàlisi estadı́stica pertinent, han permès ava-
luar el comportament de l’aproximació proposada en front dels resultats que obtenen els
algorismes tradicionals proposats per l’aprenentatge artificial.
Índex

Pròleg xi

1 Introducció 1

2 Mineria de Dades 7
2.1 Objectius de la Mineria de Dades . . . . . . . . . . . . . . . . . . . . . 7
2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Tipus de Mineria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Anàlisi d’associacions . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Classificació/Predicció . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Anàlisi d’agrupacions . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 On es situa la tesi? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Dades: De què es disposa? . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Coneixement: Què es vol obtenir? . . . . . . . . . . . . . . . . . . . . 15
2.7 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Aprenentatge Artificial 19
3.1 Tipus d’Aprenentatge Artificial . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Natura de l’entorn . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 Relació amb l’entorn . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.3 Representació del coneixement i algorismes associats . . . . . . 21
3.2 Aprenentatge Artificial i Mineria de Dades . . . . . . . . . . . . . . . . 22
xiv Índex

3.3 Classificació i Representació de Coneixement . . . . . . . . . . . . . . . 23


3.3.1 Problema de classificació . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 Arbres de decisió . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.3 Regles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.4 Basat en Instàncies . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.5 Classificació Lineal Extesa . . . . . . . . . . . . . . . . . . . . . 37
3.3.6 Models Estadı́stics . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4 Algorismes d’aprenentatge . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.1 ID3 i C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.2 0-R i 1-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.3 PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.4 IBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.5 SMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.6 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4 Computació Evolutiva 51
4.1 Taxonomia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Algorismes Genètics . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.2 Programació Genètica . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.3 Estratègies Evolutives . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.4 Programació Evolutiva . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Orı́gens dels Algorismes Genètics . . . . . . . . . . . . . . . . . . . . . 53
4.3 Model d’un Algorisme Genètic . . . . . . . . . . . . . . . . . . . . . . 54
4.4 Fases d’un Algorisme Genètic . . . . . . . . . . . . . . . . . . . . . . . 56
4.5 Aprenentatge Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.6 Enfocament de Pittsburgh . . . . . . . . . . . . . . . . . . . . . . . . 58
4.6.1 Representació . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.6.2 Avaluació . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.6.3 Operadors genètics . . . . . . . . . . . . . . . . . . . . . . . . 60
xv

4.6.4 GABIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6.5 GIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.6.6 Altres sistemes . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7 Enfocament de Michigan . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.7.1 Model general . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.7.2 Problemàtica del model . . . . . . . . . . . . . . . . . . . . . . 77
4.7.3 SCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.7.4 XCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7.5 Altres sistemes . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.8 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.9 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5 Vida Artificial 91
5.1 Autòmats Cel·lulars . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.1 The Kinemàtic Beast . . . . . . . . . . . . . . . . . . . . . . . 92
5.1.2 El primer Autòmat Cel·lular . . . . . . . . . . . . . . . . . . . . 94
5.1.3 El Joc de la Vida . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.4 Els Autòmats de Wolfram . . . . . . . . . . . . . . . . . . . . . 96
5.1.5 Altres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.6 Recopilatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2 Algorismes Evolutius . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2.1 La formiga d’UCLA . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2.2 Sistemes Classificadors . . . . . . . . . . . . . . . . . . . . . . 101
5.2.3 El món d’Echo . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2.4 Programació Genètica . . . . . . . . . . . . . . . . . . . . . . . 103
5.2.5 Efecte Baldwin . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Ecologies Artificials . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3.1 L-System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3.2 Tierra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3.3 AL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3.4 Jocs de guerra . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
xvi Índex

5.4 Robots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.5 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.6 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6 GALE: Model Evolutiu per la Mineria de Dades 111

6.1 Consideracions de sortida . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.2 Referents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.2.1 Paral·lelisme, Algorismes Genètics i Autòmats Cel·lulars . . . . . 114

6.2.2 Sistemes Classificadors i Mineria de Dades . . . . . . . . . . . . 115

6.3 Descripció del model . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

6.3.1 Topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

6.3.2 Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6.3.3 Algorisme paral·lel . . . . . . . . . . . . . . . . . . . . . . . . . 128

6.3.4 Avaluació . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.3.5 Merge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.3.6 Split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.3.7 Survival . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.3.8 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

6.4 Representacions del coneixement emprades . . . . . . . . . . . . . . . . 143

6.4.1 Regles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.4.2 Arbres de decisió . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.4.3 Instàncies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

6.4.4 Altres consideracions . . . . . . . . . . . . . . . . . . . . . . . 162

6.5 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

6.6 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

7 Comportament del GALE 167

7.1 Anàlisi teòric del model paral·lel . . . . . . . . . . . . . . . . . . . . . 168

7.1.1 Speedup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7.1.2 Requeriments de memòria . . . . . . . . . . . . . . . . . . . . . 173

7.2 Simplificació del GALE . . . . . . . . . . . . . . . . . . . . . . . . . . 174


xvii

7.2.1 Motivacions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174


7.2.2 Modificacions introduı̈des . . . . . . . . . . . . . . . . . . . . . 175
7.3 Definicions prèvies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
7.4 Funcions d’avaluació . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.4.1 One Max . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.4.2 Bounded Deceptive Problem . . . . . . . . . . . . . . . . . . . 179
7.4.3 Hierarchical Trap Function . . . . . . . . . . . . . . . . . . . . 180
7.5 Paràmetres que controlen el comportament . . . . . . . . . . . . . . . 185
7.6 Proves realitzades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
7.6.1 Optimització emprant Algorismes Genètics . . . . . . . . . . . . 186
7.6.2 Mida del tauler . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.6.3 Impacte de la mida de l’espai de cerca . . . . . . . . . . . . . . 190
7.6.4 Ocupació inicial del tauler . . . . . . . . . . . . . . . . . . . . . 192
7.6.5 Paràmetres crı́tics pel comportament . . . . . . . . . . . . . . . 193
7.6.6 Manipulació del material genètic . . . . . . . . . . . . . . . . . 200
7.6.7 Especiació espacial . . . . . . . . . . . . . . . . . . . . . . . . 206
7.7 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
7.8 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

8 Resolent problemes reals de Mineria de Dades 219


8.1 Problemes emprats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
8.1.1 Artificials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
8.1.2 Públics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
8.1.3 Privats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8.1.4 Sumari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
8.2 Algorismes comparats . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
8.3 Impacte del Mapping i el Test . . . . . . . . . . . . . . . . . . . . . . 235
8.3.1 Efecte del Mapping . . . . . . . . . . . . . . . . . . . . . . . . 236
8.3.2 Efecte del Test . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.4.1 Executant algorismes . . . . . . . . . . . . . . . . . . . . . . . 245
xviii Índex

8.4.2 Comparant algorismes . . . . . . . . . . . . . . . . . . . . . . . 249


8.4.3 Disseny final de les proves . . . . . . . . . . . . . . . . . . . . 250
8.5 Obtenció de regles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
8.6 Obtenció d’instàncies . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
8.7 Obtenció d’arbres de decisió . . . . . . . . . . . . . . . . . . . . . . . . 263
8.8 Anàlisi estadı́stic de resultats . . . . . . . . . . . . . . . . . . . . . . . 269
8.9 Resum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
8.10 Notes Bibliogràfiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

9 Conclusions i Recerca Futura 277

A Simetria del mapping piramidal 283

B Pseudocodi del GALE 289

Agraı̈ments 293

Bibliografia 295

Índex de Definicions 307

Índex d’Exemples 309

Índex d’Autors 311

Índex Alfabètic 315


Índex de taules

2.1 El problema del temps . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 El problema del temps nominalitzat . . . . . . . . . . . . . . . . . . . . 42

3.2 Probabilitats d’aparició dels valors dels atributs pel problema del temps
nominalitzat de la taula 3.1 . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1 Exemples d’organismes (patrons repetitius) del Life . . . . . . . . . . . 96

7.1 Paràmetres del model simplificat del GALE . . . . . . . . . . . . . . . . 185

8.1 Atributs extrets del processat de les imatges de les biòpsies de càncer de
mama presents a [Vos, 1996, Martı́nez et al., 1996]. . . . . . . . . . . 229

8.2 Conjunt inicial d’atributs que descriuen les microcalcificacions segmentades230

8.3 Resum dels conjunts de dades emprats en les proves . . . . . . . . . . . 232

8.4 Percentatge d’encert en classificació i desviació estàndard de les proves


emprant ten fold crossvalidation. Els resultat es marquem amb un ◦ si
mostren una millora significativa (significant en un 1% respecte el t-test
aperellat de dues cues) respecte el corresponen resultat del GALE, i amb
una • si presenten una degradació representativa. . . . . . . . . . . . . 251

8.5 Regles produı̈des pel GALE en el problema bre . . . . . . . . . . . . . 255

8.6 Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La
taula mostra els resultats emprant nc=0.05 i nc=0.01. . . . . . . . . . 256
xx Índex de taules

8.7 Percentatge d’encert en classificació i desviació estàndard de les proves


emprant ten fold crossvalidation. Els resultat es marquem amb un ◦ si
mostren una millora significativa (significant en un 1% respecte el t-test
aperellat de dues cues) respecte el corresponen resultat del GALE, i amb
una • si presenten una degradació representativa. . . . . . . . . . . . . 257
8.8 Mitjana d’emmagatzematge (en %) i desviació estàndard de les execuci-
ons de ten fold cross-validation. . . . . . . . . . . . . . . . . . . . . . . 258
8.9 Instàncies produı̈des pel GALE en el problema irs . . . . . . . . . . . . 260
8.10 Instàncies produı̈des pel GALE en el problema wne . . . . . . . . . . . . 261
8.11 Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La
taula mostra els resultats emprant nc=0.05 i nc=0.01. . . . . . . . . . 263
8.12 Percentatge d’encert en classificació i desviació estàndard de les proves
emprant ten fold crossvalidation. Els resultat del GALE es marquem amb
un • si mostren una millora significativa (significant en un 1% respecte el
t-test aperellat de dues cues) respecte el corresponen resultat del C4.5, i
amb una ◦ si presenten una degradació representativa. . . . . . . . . . 264
8.13 Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La
taula mostra els resultats emprant nc=0.05 i nc=0.01. . . . . . . . . . 268
8.14 Percentatge d’encert per tots els conjunts de dades disponibles (promig
i desviació). Cada resultat del GALE s’ha marcat amb la representació
del coneixement emprada. Les marques corresponent a: una ⋆ indica
l’ús de regles, una † l’ús d’instàncies, un ⊕ l’evolució d’arbres de decisió
ortogonals, un ⊗ l’ús d’arbres de decisió oblics, i finalment un ⊙ l’us
d’arbres de decisió multivariats. . . . . . . . . . . . . . . . . . . . . . . 270
8.15 Comparació estadı́stica del XCS i el GALE respecte els esquemes d’apre-
nentatge no-evolucionaris. Les diferències en l’encert de classificació són
significants respecte el t-test d’una cua amb nc = .05• , .01•• , .005••• .
Una • significa que el XCS o el GALE milloren significativament l’al-
gorisme comparat, mentre que un ◦ corresponen a una degradació sig-
nificativa. Les files marcades com m-d llisten el nombre de millores i
degradacions del XCS i el GALE respecte la columna comparada, amb
el nivell de significació indicat. L’última fila representa el nivell de con-
fidència respecte el test de Wilcoxon. . . . . . . . . . . . . . . . . . . . 272
Índex de figures

2.1 Possibles exemples d’anàlisi d’agrupacions . . . . . . . . . . . . . . . . 12

3.1 Alguns exemples de problemes de classificació artificials . . . . . . . . . 26


3.2 Arbre de decisió pel problema del temps . . . . . . . . . . . . . . . . . 28
3.3 Particionat d’A+ per l’arbre de decisió presentat pel problema Quads . . 29
3.4 Particionat d’A+ pel problema Obliques emprant arbres de decisió oblics 31
3.5 Particionat de A+ emprant instàncies . . . . . . . . . . . . . . . . . . 34
3.6 Particionat de A+ emprant cinc instàncies . . . . . . . . . . . . . . . . 36
3.7 Exemples de fronteres de classificació emprant classificació lineal estesa
(màquines de suport vectorial) . . . . . . . . . . . . . . . . . . . . . . 39
3.8 Hiperplà de màxim marge i els corresponent vectors de suport . . . . . 40

4.1 Pseudocodi d’un algorisme genètic . . . . . . . . . . . . . . . . . . . . 55


4.2 Esquema del funcionament d’un AG. . . . . . . . . . . . . . . . . . . . 57
4.3 Esquema d’un sistema classificador . . . . . . . . . . . . . . . . . . . . 70

5.1 Instruccions del model kinemàtic . . . . . . . . . . . . . . . . . . . . . 93


5.2 Representació gràfica de les regles del Boids . . . . . . . . . . . . . . . 99
5.3 Alguns exemples generats amb L-Systems . . . . . . . . . . . . . . . . 105

6.1 Relació eficiència/espectre de problemes resolubles . . . . . . . . . . . 113


6.2 Configuració master/workers d’un algorisme genètic paral·lel . . . . . . 117
6.3 Models de paral·lelisme emprats en la paral·lelització d’algorismes genètics118
6.4 Topologia paral·lela del GALE . . . . . . . . . . . . . . . . . . . . . . . 120
xxii Índex de figures

6.5 Distribució d’instàncies de Σ sobre T emprant mapping uniforme . . . . 124

6.6 Distribució d’instàncies de Σ sobre T emprant mapping piramidal . . . 125

6.7 Anells d’equivalència de cel·les en un mapping piramidal . . . . . . . . 126

6.8 Algorisme paral·lel que implementa el GALE . . . . . . . . . . . . . . . 128

6.9 Funció d’avaluació de l’individu contingut a la cel·la Tij . . . . . . . . . 131

6.10 Algorisme d’avaluació que utilitza el GALE . . . . . . . . . . . . . . . . 132

6.11 Tria d’un veı̈ per a la recombinació de material genètic . . . . . . . . . 134

6.12 Representació esquemàtica del procés que descriu el merge . . . . . . . 135

6.13 Algorisme de merge que utilitza el GALE . . . . . . . . . . . . . . . . . 135


 
6.14 Ubicació en el split de l’individu ISij quan ζ Tijν(t − 1) < 8 . . . . . . 137
 
6.15 Exemple d’ubicació en el split de l’individu ISij quan ζ Tijν(t − 1) = 8 137

6.16 Algorisme de split que utilitza el GALE . . . . . . . . . . . . . . . . . . 138

6.17 Algorisme de survival que utilitza el GALE . . . . . . . . . . . . . . . . 140

6.18 Algorisme de bagging per formar la solució final . . . . . . . . . . . . . 143

6.19 Estructura del genoma dels individus que codifiquen conjunts de regles . 145

6.20 Algorisme de la funció de classificació per individus que el seu genoma


codifica regles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6.21 Representació formal del genoma d’un arbre de decisió . . . . . . . . . 148

6.22 Algorisme de la funció de classificació per individus que el seu genoma


codifica arbres de decisió ortogonals . . . . . . . . . . . . . . . . . . . 150

6.23 Algorisme de la funció de classificació per individus que el seu genoma


codifica arbres de decisió oblics . . . . . . . . . . . . . . . . . . . . . . 152

6.24 Possibles regions de classificació definides per una test multivariat δ en


un problema P en el qual A = {α1, α2} . . . . . . . . . . . . . . . . . 155

6.25 Exemple de classificació d’un parell d’instàncies e1 i e2 per un test mul-


tivariat δ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

6.26 Exemple de cooperació entre tres testos (δ1, δ2 i δ3) per definir diferents
regions de classificació . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

6.27 Exemple de les possibles regions de classificació definides per l’arbre de


decisió multivariat que presenta l’estructura de la figura 6.21 (pg. 148)
en funció del camı́ realitzat . . . . . . . . . . . . . . . . . . . . . . . . 157

6.28 Algorisme de la funció de classificació per individus que el seu genoma


codifica arbres de decisió multivariats . . . . . . . . . . . . . . . . . . . 158
xxiii

6.29 Estructura del genoma dels individus que codifiquen conjunts d’instàncies
totalment definides . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.30 Algorisme de la funció de classificació per individus que el seu genoma


codifica instàncies totalment definides . . . . . . . . . . . . . . . . . . 161

6.31 Estructura del genoma dels individus que codifiquen conjunts d’instàncies
parcialment definides . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.32 Algorisme de la funció de classificació per individus que el seu genoma


codifica instàncies parcialment definides . . . . . . . . . . . . . . . . . 162

7.1 Radi de veı̈natge per les cel·les del GALE . . . . . . . . . . . . . . . . . 169


n
7.2 Comportament de β per n={1000,2500,5000,7500} . . . . . . . . 172
n+ β 9
1

7.3 Funció d’avaluació One Max . . . . . . . . . . . . . . . . . . . . . . . 178

7.4 Funció d’engany de 4 bits . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.5 Funció d’avaluació Bounded Deceptive Problem, per n=4 . . . . . . . . 181

7.6 Funció d’avaluació Bounded Deceptive Problem, per n=8 . . . . . . . . 182

7.7 Funció d’avaluació Hierarchical Trap Function . . . . . . . . . . . . . . 182

7.8 Funció d’avaluació Hierarchical Trap Function . . . . . . . . . . . . . . 184

7.9 Nombre d’avaluacions realitzades en funció de la mida de la població


pel problema One Max. Codi de colors: GALE(verd), SGA(vermell),
TGA2(taronja), TGA8(blau), Nombre màxim d’avaluacions(negre). . . 189

7.10 Nombre d’avaluacions realitzades en funció de la longitud del genoma


ℓ pel problema One Max. Codi de colors: GALE(verd), SGA(vermell),
TGA2(taronja), TGA8(blau). . . . . . . . . . . . . . . . . . . . . . . 191

7.11 Nombre d’avaluacions realitzades en funció de la probabilitat d’estat ini-


cial pζ pel problema One Max. Codi de colors: les proves realitzades
que es mostren corresponen a ℓ = {8, 16, 24, 32, 40, 48, 56, 64}, el vermell
descriu ℓ = 8 i el violeta ℓ = 64, fent l’escombrat de color per la resta de
valors. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

7.12 Escombrat de llindar de survival sostenible ksr a l’interval {-0.05,0.01}


amb increments de 0.002 pel problema One Max on ℓ = 50. Codi de co-
lors: el llindar inferior és vermell i el superior violeta, la resta es representa
amb l’escombrat pertinent. . . . . . . . . . . . . . . . . . . . . . . . . 195

7.13 Fita inferior de take over en funció de ksp . . . . . . . . . . . . . . . . 198


xxiv Índex de figures

7.14 Escombrat de llindar de màxima replicació ksp a l’interval {0,0.15} amb


increments de 0.005 pel problema One Max on ℓ = 50. Codi de colors:
el llindar inferior és vermell i el superior violeta, la resta es representa
amb l’escombrat pertinent. . . . . . . . . . . . . . . . . . . . . . . . . 199

7.15 Escombrat de la probabilitat de merge pM a l’interval {0.01,0.8} amb


increments de 0.026 pel problema BDP4 on ℓ = 16. Codi de colors: els
punts vermells corresponen als valors obtinguts, la lı́nia verda la suavit-
zació emprant polinomis de Bézier. . . . . . . . . . . . . . . . . . . . 202

7.16 Escombrat de la probabilitat de mutació uniforme pmu per l’operador


de mutació Y a l’interval {0.0001,0.045} amb increments de 0.0025 pel
problema BDP4 on ℓ = 16. Codi de colors: els punts vermells correspo-
nen als valors obtinguts, la lı́nia verda la suavització emprant polinomis
de Bézier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

7.17 Evolució del tauler, amb l’histograma associat, pel problema HTF, ℓ = 4,
amb concatenació múltiple per m = 2 . . . . . . . . . . . . . . . . . . 207

7.18 Evolució del tauler, amb l’histograma del genoma associat, pel problema
HTF, ℓ = 4, amb concatenació múltiple per m = 4 . . . . . . . . . . . 208

7.19 Evolució del l’histograma del genoma pel problema HTF amb concate-
nació múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

7.20 Comparació de A(t), aixı́ com la diversitat resultant, pel problema HTF
amb concatenació múltiple de ℓ = 5. Codi de colors: A(t) vermell i la
diversitats blava. El resultats del GALE es marquen amb punts, els del
TGA2 amb triangles, i els del TGA8 amb quadrats. . . . . . . . . . . 213

7.21 Detall de la diversitat resultant de la figura 7.20 pel problema HTF amb
concatenació múltiple. Codi de colors: GALE(vermell), TGA2(blau) i
TGA8(verd). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

7.22 Diversitat resultant en funció de la probabilitat d’estat inicial pζ pel


problema HTF amb concatenació múltiple. Codi de colors: les proves
realitzades que es mostren corresponen a per m = {1, 2, 3, 4, 5, 6}, el
vermell descriu m = 1 i el violeta m = 6, fent l’escombrat de color per
la resta de valors. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

8.1 Esquema del multiplexor d’onze entrades . . . . . . . . . . . . . . . . . 221

8.2 Regles que descriuen el multiplexor d’onze entrades . . . . . . . . . . . 222

8.3 Esquema del set segments emprat . . . . . . . . . . . . . . . . . . . . 223

8.4 Regles que descriuen el light emitting diode . . . . . . . . . . . . . . . 223

8.5 Exemples d’imatges emprades en el problema de diagnosi a partir de


biòpsies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
xxv

8.6 La digitalització i el procés de segmentació transformen la imatge en


nivell de gris en una imatge binaria, on el teixit ha estat eliminat deixant
sols els clusters de les microcalcificacions. . . . . . . . . . . . . . . . . 229
8.7 Impacte del mapping piramidal sobre el problema mux evolucionant regles 237
8.8 Impacte del mapping piramidal sobre el problema irs evolucionant instàncies239
8.9 Impacte del mapping piramidal sobre el problema son evolucionant arbres
de decisió ortogonals . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8.10 Impacte del mapping uniforme sobre el problema irs evolucionant instàncies242
8.11 Instàncies obtingudes pel GALE en el problema tao . . . . . . . . . . . 259

A.1 Equivalència de cel·les en un mapping piramidal . . . . . . . . . . . . . 284


A.2 Distribució de les cel·les equivalents en un mapping piramidal . . . . . . 284
A.3 Projecció d’un punt emprant les diagonals del rectangle definit per la
matriu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

B.1 Pseudocodi del procés principal del GALE . . . . . . . . . . . . . . . . 289


B.2 Pseudocodi de l’avaluació . . . . . . . . . . . . . . . . . . . . . . . . . 290
B.3 Pseudocodi del merge . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
B.4 Pseudocodi del split . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
B.5 Pseudocodi del survival . . . . . . . . . . . . . . . . . . . . . . . . . . 291
xxvi Índex de figures
CAPÍTOL 1

Introducció

La tesi que aquı́ es presenta s’emmarca dins el camp conegut com a mineria de dades
(o data mining). Aquest camp sorgeix, entre d’altres, de la intersecció de tres disciplines
diferents: (1) les bases de dades, (2) l’estadı́stica i (3) l’aprenentatge artificial. Degut als
diferents camps que intervenen en la seva creació, alguns autors defineixen la mineria de
dades [Weiss and Indurkhya, 1998] com a “la cerca d’informació valuosa en grans volums
de dades”. D’altres ho fan dient que és “l’extracció d’informació implı́cita, prèviament
no coneguda, i potencialment útil, de les dades” [Han and Kamber, 2001]. O senzilla-
ment és definida com “l’extracció de coneixement a partir de volums de dades elevats”
[Witten and Frank, 2000]. D’aquestes definicions es pot extreure dues premisses que
descriuen el caràcter de la mineria de dades. El primer és l’extracció de coneixement,
és a dir, és vol obtenir (extreure o inferir) una descripció compacta, o intensional, del
conjunt de dades. El segon rau en l’elevat volum propi de les dades a tractar (mida de
la base de dades).
El camp de la mineria de dades és extens. Per aquest motiu, existeixen diferents
aproximacions dins la mineria centrats en la resolució de problemàtiques particulars. Per
exemple, un punt important del procés de mineria és el preprocessat que es realitza de les
dades. Normalment, no es poden utilitzar directament i necessiten un tractament previ.
Aquest preprocés també pot incloure tractaments especı́fics de les dades cara a facilitar el
procés d’extracció del possible coneixement que en elles es conté. Però un cop es disposa
de les dades adientment tractades, la mineria es centra en el procés d’obtenció, o sı́ntesi,
del coneixement que es troba representat per extensió en les dades del problema a tractar.
Posteriorment, altres àrees de la mineria es centren en el tractament, interpretació, o
possible utilització d’aquest coneixement obtingut.
La tesi que aquı́ es presenta es centra en el procés d’extracció d’aquest coneixement.
Existeixen diferents tipus d’extracció en funció del tipus de coneixement que es vol
obtenir. A grans trets, es pot dir que existeixen tres grans tipus de mineria depenent del
2 Introducció

tipus de coneixement que es vol obtenir d’una base de dades particular. Aquests tres
tipus es poden resumir com:

1. Anàlisi d’associacions

2. Classificació o predicció

3. Anàlisi d’agrupacions (clusters)

Cadascun d’aquests tipus de mineria difereix en el tipus de coneixement que genera


degut, en part, al fet que estan pensats per resoldre problemes diferents. La mineria,
que es dedica a l’anàlisi d’associacions, busca obtenir regles que descriguin relacions
existents entre les dades que són analitzades. Per contra, la classificació busca extreure
models que descriuen classes (categories) de dades, per fer-ne la predicció futura. Certs
autors [Han and Kamber, 2001] diferencien i usen classificació per problemes categòrics,
mentre que predicció ho reserven per l’obtenció de models numèrics. Finalment, l’anàlisi
d’agrupacions es centra en la identificació de grups de dades que comparteixin alguna
caracterı́stica comuna.
Independentment del tipus d’extracció de coneixement que es vulgui dur a terme,
existeix una clara intersecció entre aquest procés i l’aprenentatge artificial. On per
cadascun d’aquests tipus d’extracció han aparegut una gran varietat d’algorismes d’a-
prenentatge que tracten aquesta problemàtica. Dels diferents tipus d’extracció que es
poden trobar dins d’aquesta disciplina, la tesi que s’ha realitzat s’emmarca en una àrea
particular, la resolució de problemes de classificació. En aquest camp concret, dins l’a-
prenentatge artificial és poden trobar un gran varietat d’aproximacions que parteixen de
diferents formes de representar el coneixement que se n’extreu. Un cop fixada aquesta
representació l’algorisme d’aprenentatge artificial es construeix, per dir-ho aixı́, a mida
de la representació. Aquesta aproximació pot ser problemàtica en problemes de mineria.
Això es degut al fet que l’objectiu d’aquest procés és proporcionar a un usuari final una
representació que pugui emprar. Això implica que aquest usuari haurà de poder triar la
possibilitat d’escollir en funció de les seves pròpies preferències. Per altra banda, la re-
presentació emprada pot no ser la més adient pel problema que s’està resolent. L’elecció
d’aquesta representació cauria més aviat dins l’etapa de preprocessat de les dades.
És per aquest motiu, que un dels principals objectius que afronta aquesta tesi és la
proposta d’un model de mineria de dades unificat. És a dir, en lloc de posseir un algorisme
especı́fic per cada representació del coneixement possible, el que es vol obtenir és un
model únic que permeti l’extracció de coneixement emprant diferents representacions
sense haver de canviar l’algorisme que s’utilitza. La proposta passa per una aproximació
basada en l’aprenentatge evolutiu. Aquest tipus d’aprenentatge evolutiu permet, amb
variacions mı́nimes, treballar fàcilment amb diferents representacions del coneixement.
D’aquesta manera és podrà pensar en un model unificat per la mineria que permeti
l’extracció de coneixement emprant diferents representacions del coneixement.
La proposta realitzada en aquesta tesi busca combinar idees provinents de l’apre-
nentatge artificial, la computació evolutiva (concretament de l’aprenentatge artificial
3

evolutiu) i la vida artificial. L’objectiu inicial que es planteja rau en la creació d’un
model de mineria de dades que satisfaci certes consideracions. La primera consisteix
en el fet que ha d’ésser aplicable a tot tipus de problemes de mineria. Això implica la
capacitat de treballar amb tot tipus d’atributs, per exemple numèrics i categòrics entre
d’altres. El segon és que aquest model no estigui especı́ficament dissenyat per un tipus
de representació del coneixement particular. És a dir, tal i com s’ha comentat ante-
riorment, que sigui un model unificat capaç de treballar amb diferents representacions.
Finalment, aquest model ha d’ésser inherentment massivament paral·lel. És en aquest
punt on són útils les aportacions que pot dur a terme la vida artificial. Tal i com es
comentà, aquest procés ha de tractar amb grans volums de dades. Conseqüentment,
el procés resultat esdevé computacionalment costos. Imposant la consideració que el
model sigui inherentment paral·lel, permetria superar aquest escull fàcilment, ja que es
podria explotar directament el paral·lelisme inherent al model.
La tesi no ha parat amb la definició d’aquest model, el qual s’ha anomenat GALE.
Aquesta ha continuat introduint les principals representacions del coneixement emprades
en processos de mineria aplicats a tasques de classificació com són, entre d’altres, les
basades en regles, instàncies o arbres de decisió. A continuació, la tasca realitzada
s’ha diversificat en dues lı́nies d’actuació diferents. La primera és centra en l’estudi del
comportament del model, aixı́ com l’impacte que en aquest tenen els paràmetres que
el controlen. Per altra banda, i tenint present els resultats que s’obtenen de l’estudi
i anàlisi del comportament del model, s’ha emprat el GALE per resoldre problemes
reals de mineria de dades. Aquestes proves, acompanyades de la metodologia adient
i l’anàlisi estadı́stica pertinent, han permès avaluar el comportament de l’aproximació
proposada en front dels resultats que obtenen els algorismes tradicionals proposats per
l’aprenentatge artificial.
Per concloure aquest primer capı́tol introductori tot seguit es comentarà com s’es-
tructura aquest document. Aquesta memòria esta formada per nou capı́tols, inclòs
aquest primer introductori, i un annex format per dos capı́tols. El capı́tol 2 (pg. 7)
descriu el marc general en el qual es mou la tesi que aquı́ es presenta. Concretament
aquest capı́tol descriu breument què s’entén per mineria de dades, junt amb algunes
de les principals tipologies d’aquest tipus de problemes. Tot això permet afitar i definir
clarament els requeriments dins els quals es mou aquesta tesi.
Els tres capı́tols següents repassen el material sobre el qual es recolza aquesta tesi.
El primer d’aquestes capı́tols, el 3 (pg. 19), repassa com els problemes de mineries
de dades objectiu d’aquesta tesi es poden resoldre emprant tècniques d’aprenentatge
artificial. Aquest capı́tol para una especial atenció a la representació del coneixement
que s’utilitza per resoldre problemes de classificació, aixı́ com alguns dels algorisme
especı́fics per la seva obtenció a partir d’un conjunt d’instàncies.
El segon d’aquests tres capı́tols dedicats al repàs del material sobre el qual es recolza
aquesta tesi és el capı́tol 4 (pg. 51). Aquest capı́tol es centre en el camp de la com-
putació evolutiva. Lluny de voler fer un repàs exhaustiu, aquest capı́tol presenta alguns
dels principals paradigmes que es poden trobar dins aquesta disciplina, proporcionant les
referències necessàries per poder aprofundir allà on es vulgui. Aquest capı́tol es centra
4 Introducció

especialment en una àrea concreta de la computació evolutiva, que és l’aprenentatge


artificial evolutiu. L’interès per aquest tipus d’aprenentatge, tal i com s’ha comentat
anteriorment, és la flexibilitat que permet la manipulació de diferents tipus de represen-
tació del coneixement mantenint la mateixa filosofia d’algorisme, fet que no succeeix
amb el cas de l’aprenentatge artificial tradicional.
L’últim d’aquests tres capı́tols que repassen el material sobre el qual es recolza
aquesta tesi és el capı́tol 5 (pg. 91). Aquest capı́tol és el més peculiar dels que es
presenten en aquest document. El que es es repassa són diferents idees i tècniques que
s’engloben sota el nom de vida artificial. Aquesta disciplina aglutina diferents tècniques
provinents de diferents àrees de coneixement, com pot ser la teoria de la informació, la
biologia o la fı́sica entre d’altres. Per aquest motiu el capı́tol fa un repàs eclèctic de les
principals tècniques que s’hi poden trobar, proporcionant les referències corresponents pel
seu aprofundiment. Però dins d’aquest repàs es fa una parada especial en els autòmats
cel·lulars i el seu model de computació, el qual ha marcat fortament la proposta que
realitza aquesta tesi.
Assentades les bases sobre les quals es recolza aquesta tesi, els tres capı́tols següents
ja passen a descriure amb detall el treball realitzat. El primer d’aquests capı́tols, el 6
(pg. 111), presenta el model de mineria de dades, GALE, basat en aprenentatge artifi-
cial evolutiu i paral·lelisme de gra fi. La presentació d’aquest model ha emprat especial
cura a recalcar el caràcter independent de la representació del coneixement evoluciona-
da. Conseqüentment es pot apreciar al llarg de l’explicació d’aquest model com aquest
requeriment ineludible ha guiat la definició del mateix, a través de les diferents etapes i
elements que el conformen. Aquest capı́tol es complementa amb la revisió de les dife-
rents representacions del coneixement, per a tasques de classificació, que el GALE pot
fer evolucionar en aquest treball.
Un cop presentat el model de mineria de dades per tasques de classificació, el capı́tol 7
(pg. 167) presenta l’estudi del seu comportament. Per poder-ho dur a terme es realitzen
algunes simplificacions en el model que permeten una major simplicitat en el moment de
realitzar aquest estudi, això sı́, mantenint els principals elements. A part de presentar el
comportament del model pròpiament dit, aixı́ com la presentació de cert comportament
emergent que se n’obté, el capı́tol presenta com a nucli central l’anàlisi de l’impacte
dels diferents paràmetres del model en el comportament del mateix. Aquest anàlisi és
imprescindible per poder ajustar el model per obtenir-ne un funcionament eficient.
El document prossegueix amb el tercer i últim del capı́tols dedicats a presentar el
treball realitzat amb el GALE. Concretament, el capı́tol 8 (pg. 219), presenta l’estudi
del comportament del model proposat quan aquest s’aplica a la resolució de tasques
de classificació en problemes reals de mineria de dades. Per aquest motiu, el capı́tol
repassa breument els problemes reals de mineria emprats, aixı́ com els algorismes escollits
per poder comparar el rendiment que el model proposat del GALE assoleix en aquest
conjunt de problemes escollits. Tot seguit, i abans de passar a presentar els resultats
obtinguts, es fa un petit parèntesis per presentar l’impacte en el comportament del GALE
de certes consideracions especı́fiques en el moment de resoldre problemes de mineria.
Fetes aquestes consideracions, el capı́tol continua presentant la metodologia emprada
5

per la realització de les proves, per passar tot seguit a presentar els resultats obtinguts
agrupats en funció de les diferents representacions que pot evolucionar el GALE. El
capı́tol conclou amb l’anàlisi estadı́stic dels resultats obtinguts de les proves exhaustives
realitzades emprant els diferents conjunts de dades i algorismes disponibles.
L’últim dels capı́tols que forma aquest document, és el 9 (pg. 277), el qual recull les
conclusions que es poden treure d’aquest tesi. Concretament es fa un repàs dels princi-
pals punts que es poden ressaltar del treball realitzat. Aquest capı́tol es complementa
amb l’exposició de les principals lı́nies de recerca futura que s’obren gràcies a la feina
realitzada en aquesta tesi. Aquest document es complementa amb un annex format
per dos capı́tols breus que recullen monogràfics especı́fics. Concretament l’apèndix A
(pg. 283) recull les consideracions necessàries per la implementació del mapping pira-
midal. Per la seva banda, l’apèndix B (pg. 289) presenta el resum, en pseudocodi, de
l’algorisme que implementa el model de mineria proposat pel GALE.
6 Introducció
CAPÍTOL 2

Mineria de Dades

Mineria de dades (Data Mining) és el nom que es dona al camp sorgit de la
intersecció de tres disciplines diferents: (1) les bases de dades, (2) l’estadı́stica i (3)
l’aprenentatge artificial. Aquest capı́tol descriu el que s’enten per mineria de dades, és
a dir, els seus objectius i les diferents formes en que es presenta. També es descriu en
quina part de la mineria de dades s’enmarca la tesi que aquı́ es presenta. El capı́tol
conclou amb la descripció d’alguns conceptes bàsics que s’empraran d’ara en endavant.

2.1 Objectius de la Mineria de Dades

Alguns autors defineixen la mineria de dades [Weiss and Indurkhya, 1998] com a “la
cerca d’informació valuosa en grans volums de dades”. D’altres ho fan dient que és
“l’extracció d’informació implı́cita, prèviament no coneguda i potencialment útil, de
les dades” [Han and Kamber, 2001]. O senzillament és definida com “l’extracció de
coneixement a partir de volums de dades elevats” [Witten and Frank, 2000]. D’aquestes
definicions se’n pot extreure dues premisses que descriuen el caràcter de la mineria de
dades. El primer és l’extracció de coneixement, és a dir, és vol obtenir (extreure o inferir)
una descripció compacta del conjunt de dades. El segon rau en el volum propi de les
dades a tractar (mida de la base de dades).
Les bases de dades juguen un paper important en la mineria de dades. Gràcies a la
seva constant evolució es pot emmagatzemar i recuperar gran volums d’informació de
forma eficient (sistemes transaccionals) [Date, 1994, Garcia-Molina et al., 2000]. Dins
d’aquesta cerca per l’eficiència, les bases de dades han tendit a crear sistemes basats
en l’explotació de sistemes paral·lels i distribuı̈ts [Özsu and Valduriez, 1999]. També
8 Mineria de Dades

es pot assolir fàcilment, emprant bases de dades, la creació de magatzems de da-


des (Data Warehouses) els quals permeten l’anàlisi de les dades (sistemes analı́tics)
[Anahory and Murray, 1997]. És a partir d’aquest punt en el qual s’emmarca la mineria
de dades. Cóm es pot analitzar volums elevats de dades per obtenir-ne coneixement útil.
Aquest objectiu s’ha tractat des de dues vessant diferents. La primera rau en l’aplica-
ció de tècniques estadı́stiques. Un exemple directe d’aplicació són els tests d’hipòtesis
[Canavos, 1988]. La segona, objectiu d’aquesta tesi, és l’ús de tècniques d’aprenentatge
artificial. El que es busca és obtenir, de forma automàtica, un coneixement (normal-
ment representat emprant alguna forma d’estructura de dades) que descrigui alguna
caracterı́stica rellevant de les dades tractades.

2.2 Metodologia

A grans trets el procés d’extreure coneixement d’una base de dades (Knowledge Disco-
very in Databases) es pot esquematitzar com un procés iteratiu composat per set etapes
diferents [Han and Kamber, 2001].

a. Neteja de les dades: busca eliminar, si existeix, el soroll i les inconsistències de


les dades a tractar.

b. Integració de les dades: procedeix a combinar dades provinents de diferents


fonts, possiblement en magatzems de dades.

c. Selecció de les dades: selecciona de la informació que es presumeix important


pel procés d’anàlisi que s’ha de dur a terme.

d. Transformació de les dades : transforma la representació de les dades per


adecuar-les pel procés de mineria.

e. Mineria de dades: etapa principal del procés d’extracció de coneixement en el


qual s’apliquen tècniques intel·ligents per extreure patrons de les dades tractades.

f. Avaluació de patrons: identificar en els patrons obtinguts aquells que realment


són interessants, sota algun criteri predefinit.

g. Presentació del coneixement: etapa final en la qual es presenta el coneixement


extret a partir de les dades que s’han tractat.

En totes aquestes etapes existeix una re-alimentació provinent de les etapes posteri-
ors. Un possible exemple és la selecció de les dades que s’han d’emprar. A vegades, un
cop s’ha completat les tasques de mineria, s’aprecia que certa informació, que inicial-
ment es considerava útil, no ho ha estat realment. Per tant, es pot tornar a realitzar la
selecció descartant aquesta informació, podem aixı́ millorar el rendiment de l’etapa de
mineria.
2.3 Tipus de Mineria 9

Com es pot apreciar, abans de poder realitzar tasques de mineria sobre un conjunt
de dades, aquestes han de ser tractades adientment. Aquest tractament sol passar per
desnormalitzar la informació continguda en bases de dades relacionals. Sols ser habitual
no empar formes normals [Parsaye et al., 1989] en el moment de realitzar la mineria de
dades, ja que en certs casos en facilita la seva manipulació. Com es veurà més endavant
en aquest capı́tol, les dades s’han de presentar d’una forma que sigui intel·ligible per
l’algorisme de mineria de dades. De la mateixa manera, un cop realitzada la mineria,
el coneixement obtingut ha de ser adientment interpretat. Malgrat el tractament previ
a les mineria, aixı́ com la posterior interpretació del resultat, són importants no són
l’objectiu d’aquesta tesi. Això sı́, és important tenir present la seva existència cara a les
tasques de mineria, ja que en poden condicionar el seu rendiment.

2.3 Tipus de Mineria

La mineria de dades emprant aprenentatge artificial es pot classificar en funció del tipus
de coneixement que es capaç d’inferir. És a dir, donat un conjunt de dades, la mineria
es pot classificar en funció del què s’apren. A grans trets, es pot dir que existeixen
tres grans tipus de mineria depenent de l’objectiu que cerquen obtenir al resoldre un
problema. Aquests tres tipus es poden resumir com:

1. Anàlisi d’associacions

2. Classificació o predicció

3. Anàlisi d’agrupacions (clusters)

Cadascun d’aquests tipus de mineria difereix en el tipus de coneixement que genera


degut, en part, al fet que estan pensats per resoldre problemes diferents. La mineria,
que es dedica a l’anàlisi d’associacions, busca obtenir regles que descriguin relacions
existents entre les dades que són analitzades. Per contra, la classificació o la predic-
ció busquen extreure models que descriuen classes (categories) de dades, per fer-ne la
predicció futura. Certs autors [Han and Kamber, 2001] diferencien usen classificació
per problemes categòrics, mentre que predicció ho reserven per l’obtenció de models
numèrics. Finalment, l’anàlisi d’agrupacions es centra en la identificació de grups de
dades que comparteixin alguna caracterı́stica comuna.
Tot seguit presentem alguns exemples il·lustratius de cadascun d’aquests tipus de
mineria, on es farà esment especial a la classificació/perdició. Referim al lector in-
teressat en aprofundir en els altres tipus de mineria al punt 2.8, on es proporcionen
abundants referències bibliogràfiques. Per altra banda, la taula 2.1 presenta un pro-
blema de mineria senzill que es farà servir, de forma repetida, al llarg dels exemples
que es presentaran en aquest capı́tol i els següents. Aquest exemple ha estat extret de
[Witten and Frank, 2000], on posseeix cinc camps (atributs), els quals contenen tant
dades numèriques (temperature i humidity) i categòriques (outlook, windy i play).
10 Mineria de Dades

Taula 2.1: El problema del temps


outlook temperature humidity windy play
sunny 85 85 FALSE no
sunny 80 90 TRUE no
overcast 83 86 FALSE yes
rainy 70 96 FALSE yes
rainy 68 80 FALSE yes
rainy 65 70 TRUE no
overcast 64 65 TRUE yes
sunny 72 95 FALSE no
sunny 69 70 FALSE yes
rainy 75 80 FALSE yes
sunny 75 70 TRUE yes
overcast 72 90 TRUE yes
overcast 81 75 FALSE yes
rainy 71 91 TRUE no

2.3.1 Anàlisi d’associacions

Tal i com s’ha comentat anteriorment, l’anàlisi d’associacions busca inferir regles que
mostrin condicions, emprant els valors presents a les dades, que succeeixen freqüentment.
Més formalment, una regla d’associació és aquella que presenta la forma X ⇒ Y, és a dir
“A1 ∧ · · · ∧ Am → B1 ∧ · · · ∧ Bn”, on Ai (per i ∈ {1, . . . , m}) i Bj (per j ∈ {1, . . . , n})
són condicions sobre els atributs. Aquestes condicions poden contenir, per exemple,
operadors relacionals (<, ≤, =, >, ≥) tal i com es mostra a l’exemple següent.

Exemple 1 Suposem que disposem del conjunt de dades descrites a la taula 2.1. D’a-
questes dades se’n poden extreure les següents regles d’associació:

(windy = TRUE) ∧ (play = no) → (outlook = sunny) ∧ (humidity ≥ 85)


(humidity ≥ 85) ∧ (windy = FALSE) ∧ (play = no) → (outlook = sunny)

Com es pot apreciar a l’exemple anterior, les regles d’associació poden presentar
parelles atribut-valor a ambdós bandes de la regla. No obstant, no existeix cap mena de
restricció en el moment d’obtenir relacions emprant el conjunt de dades que es tracta.
Aquest fet es pot apreciar a l’exemple anterior, on l’atribut edat apareix indistintament
tant a l’antecedent com al conseqüent de la regla d’associació.

2.3.2 Classificació/Predicció

El segon tipus de mineria de dades és en el qual s’emmarca aquesta tesi. Aquest tipus
de mineria busca l’obtenció d’un model que descrigui el conjunt de dades tractades. En
2.3 Tipus de Mineria 11

aquests punt es important diferenciar el que alguns autors anomenen classificació i el que
entenen per predicció [Han and Kamber, 2001]. Solen reservar el terme classificació per
l’obtenció de models per valors objectius categòrics. Per contra, parlen de predicció quan
els valors objectius són valors numèrics continus. Altres autors [Koza, 1992] empren el
terme regressió simbòlica pels problemes de predicció esmentats.
Aquest tipus de mineria es sol dividir en dues etapes. En la primera, es prenen
les dades disponibles i s’utilitzen per la construcció del model. Dins de l’aprenentatge
artificial és coneix aquesta etapa com a fase d’entrenament. Posteriorment, un cop s’ha
obtingut aquest model, es pot interpretar (anàlisi del coneixement generat) o fer servir
per classificar/predir nous exemples no vistos anteriorment (o també conegut com a
etapa de test). Tot seguit posarem un parell d’exemples il·lustratius, un d’un problema
de classificació i un altre d’un problema de predicció/regressió simbòlica.
A diferència de l’anàlisi d’associacions, no existeix una única forma de representar el
coneixement que es pot extreure d’un problema de classificació. Tal i com es presentarà
en el capı́tol següent, l’aprenentatge artificial ha generat una profusa varietat de formes
de representació del coneixement. Alguns exemples són les regles , els arbres de decisió
, o les basades en instàncies , entre d’altres.

Exemple 2 Emprant les dades presentades a la taula 2.1 (pg. 10), i suposant que
s’utilitza una representació basada en regles, un possible exemple de classificació seria
l’obtenció d’un model que descrigui quan es pot jugar (play=yes), i quan no (play=no).
És a dir, es busca obtenir una representació de la informació descrita per l’atribut play
que permeti descriure les dues categories representades: yes o no. Alguns exemples de
regles de classificació podrien ser:

(outlook = sunny) ∧ (humidity ≤ 75) → (play = yes)


(outlook = sunny) ∧ (humidity > 75) → (play = no)
(outlook = overcast) → (play = yes)
(outlook = rainy) ∧ (windy = TRUE) → (play = no)
(outlook = rainy) ∧ (windy = FALSE) → (play = yes)

De l’exemple anterior se’n poden extreure algunes diferències clares amb les presen-
tades per l’anàlisi d’associacions. Si es formalitza la definició de les regles de l’exemple
anterior s’obté que X ⇒ Y ′ , on “A1 ∧ · · · ∧ Am → C”, essent Ai (per i ∈ {1, . . . , m})
condicions sobre els atributs i C un categoria de l’atribut classe que s’analitza. Per tant,
la diferència més destacada és el fet que en el conseqüent no pot aparèixer qualsevol test,
sinó que es restringeix sols a valors categòrics de l’atribut emprant per la classificació.
Els processos per obtenir aquest tipus de coneixement emprant tècniques d’aprenentatge
artificial, serà tractat amb detall en el capı́tol 3.
A partir d’aquest punt és important fer un incı́s abans de presentar l’exemple de
predicció. El fet és que d’ara endavant s’emprarà el terme regressió simbòlica, enlloc
de predicció. Aquest terme es reservarà pel procés de classificació que es realitza, amb
12 Mineria de Dades

un coneixement prèviament extret, en la fase de test. Dit d’una altra forma, d’ara
endavant, un cop es disposi d’un coneixement que descriu un conjunt de dades, donat
un nou conjunt de dades que descriu el mateix problema, s’entendrà com a predicció al
fet de classificar les noves dades, ja que s’està predient la mateixa. Aquesta capacitat
de la mineria, basada en l’aprenentatge artificial, també es coneix com a capacitat de
generalització del sistema. Fetes aquestes puntualitzacions, tot seguit ja es passarà a
presentar un exemple de regressió simbòlica.

Exemple 3 Donades, un cop més, les dades presentades a la taula 2.1 (pg. 10), un
possible exemple de problema de regressió simbòlica podria ser l’obtenció d’un model
que descrigui l’atribut temperature. Per dur-ho a terme es disposa de la resta d’atributs
existents en el problema. Un possible exemple podria ser:

humidity = 3.69 · temperature0.5

De l’exemple anterior es pot apreciar que l’objectiu de la regressió simbòlica és


obtenir, normalment, un model numèric que descrigui alguna de les caracterı́stiques
(atributs) presents a les dades tractades.

2.3.3 Anàlisi d’agrupacions

L’últim tipus de mineria de dades que s’esmentarà és el que es dedica a l’anàlisi d’agru-
pacions. L’anàlisi d’agrupacions és el procés d’agrupar les dades en classes. A diferència
de la classificació, en aquest tipus de mineria no existeix un atribut categòric el qual
explicita el conjunt de classes disponibles o existents. Per tant, les dades s’han d’agrupar
en classes de tal forma que els objectes continguts en una agrupació (cluster) posseeixin
una similitud elevada, quan aquesta es compara amb objectes pertanyents a una altra
agrupació.

A2 A2 A2

A1 A1 A1
(a) Dues agrupacions (b) Tres agrupacions (c) Dues agrupacions

Figura 2.1: Possibles exemples d’anàlisi d’agrupacions

Exemple 4 El concepte d’anàlisi d’agrupacions és pot il·lustrar gràficament. Suposem


que es disposa d’un conjunt de dades descrites per dos atributs numèrics: A1 i A2.
Gràficament, ambdós atributs formen un espai continu definit per A1×A2, tal i com
2.4 On es situa la tesi? 13

mostra la figura 2.1. Per tant, les dades d’aquest conjunt es poden pintar damunt
d’aquest pla (punts). L’anàlisi d’agrupacions busca identificar grups de dades amb
caracterı́stiques comuns. La figura 2.1 presenta tres possibles agrupacions (a, b i c)
sorgides de tres criteris diferents d’anàlisi.

L’anàlisi d’agrupacions conté una gran nombre d’aproximacions diferents per resoldre
el problema esmentat. Referim al lector interessant en aprofundir en aquest tema a la
secció 2.8, ja que tot seguit sols s’esmentarà les principals propostes existents, donant-ne
una breu descripció dels conceptes en els quals es basen.

Iterative distance-based clustering : També conegut pel nom de k-means, és un


procés iteratiu basat en l’ús de mètriques de distància. Concretament, calcula k
centroides, cadascun dels quals representa una agrupació.

Incremental clustering : Aquest tipus d’agrupació funciona de forma incremental


construint, a partir del conjunt de dades que es disposa, un arbre que descriu
les diferents agrupacions. La clau del procés rau en el concepte d’utilitat de la ca-
tegoria, el qual proporciona un mesura numèrica de la qualitat de les agrupacions
existents a l’arbre en construcció.

Probability-based clustering : Els dos mètodes anterior realitzen decisions dures. Un


element pertany o no a una determinada agrupació. Existeix una altra via d’a-
proximació basada en l’estadı́stica. En lloc de calcular agrupacions pròpiament
dites, el que es busca és obtenir k distribucions de probabilitat de pertinença a
una determinada agrupació.

Neural-based clustering : Una altra aproximació a l’anàlisi d’agrupacions es basa en


l’ús de xarxes neurals. Concretament obtenen el conjunt d’agrupacions a través
del còmput dels pesos d’interconnexió d’una xarxa de neurones, també conegudes
com mapes auto-organitzatius

2.4 On es situa la tesi?

Tal i com s’ha vingut esmentant, existeixen diferents tipus de mineria de dades. La
tesi que aquı́ es presenta, s’emmarca dins de la mineria de dades emprant aprenen-
tatge artificial, restringint-ne l’abast a problemes de classificació. Per tant, l’objectiu
final serà l’extracció de coneixement, a partir d’un conjunt de dades, que en permeti:
(1) proporcinar-ne un model que les descrigui i (2) permetre la classificació (futures
prediccions) de noves dades, no vistes prèviament, emprant el coneixement adquirit.
Per fer-ho, aquesta tesi explora quines aportacions poden fer la vida artificial i la
computació evolutiva al camp de la mineria de dades. Concretament, es proposa un
model genèric de mineria per problemes de classificació, independent del coneixement
14 Mineria de Dades

a obtenir. Tal i com es comentarà al capı́tol 5, aquest tipus l’aproximació és, en el


millor dels casos, incipient. Malgrat que la principal lı́nia d’actuació es de clara inspiració
biològica, no es deixa de banda les aproximacions tradicional provinents de l’aprenentatge
artificial. El capı́tol 3 en presenta un repàs general de les aportacions existents, ja que
com es veurà al llarg de la tesi, són font d’enriquiment per la dilatada experiència que
en elles s’ha acumulat.

2.5 Dades: De què es disposa?

Les dades són la matèria primera de la mineria. Per aquest motiu és important definir
de què es disposarà en el moment de realitzar-ne el seu anàlisi. Tal i com s’ha esmen-
tat anteriorment, el tipus de mineria en el qual s’emmarca aquest treball es centra en
problemes de classificació. Concretament, serà imprescindible que les dades de que es
disposi descriguin tres elements importants: (1) concepte, (2) instància i (3) atributs.
A continuació descriurem que s’entendrà per cadascun d’ells d’ara endavant, deixant la
seva formalització per més endavant. Aquesta precisió és determinant, ja que en fun-
ció del tipus de mineria de dades que s’estigui tractant, diferent de la classificació, les
definicions posterior podrien substancialment.
Concepte Anomenarem concepte a l’objectiu de la mineria, és a dir, a allò que s’ha d’aprendre
a classificar. Lluny de definicions filosòfiques, el concepte és aquella categorització que
s’ha d’aprendre a realitzar automàticament. Retornant a l’exemple del temps, presentat
a la taula 2.1 (pg. 10), el concepte a aprendre és ‘play?’. El que es vol es saber classificar
automàticament, categoritzar, quan es podrà sortir a jugar en funció de les condicions
de temps. Un altre punt important a tenir en compte en la definició de concepte és que
aquesta ve referida sobre un conjunt finit de classes o categories. En l’exemple esmentat,
aquestes en serien dues: (1) yes i (2) no.
Instància Un altre terme important quan es parla de mineria de dades és el d’instància. Si el
concepte era allò que es volia aprendre, la instància en serà una particularització. Dit
d’una altra forma, una instància serà un exemple del concepte tractat. Per altra banda,
les dades que s’han d’analitzar emprant la mineria de dades, no seran res més que un
conjunt d’instàncies. En l’exemple del temps de la taula 2.1 (pg. 10), es presenten
catorze instàncies del concepte play, de les quals 9 són exemples de la categoria yes, i 4
de la categoria no.
Atribut L’atribut és l’últim element que jugarà un paper important en la definició de les
dades que s’empraran per la mineria. Les diferents instàncies, que serviran d’entrada
al procés de mineria basat amb aprenentatge artificial, venen caracteritzades per valors
que pertanyen a un conjunt finit de caracterı́stiques, o tal i com les anomenarem aquı́,
instàncies. Outlook, temperature, humidity, windy i play, són els atributs que defineixen
les instàncies del problema del temps de la taula 2.1 (pg. 10).
És important fer algunes apreciacions en aquest punt. Existeix un únic atribut (play)
2.6 Coneixement: Què es vol obtenir? 15

que descriu la categorització del concepte objectiu. D’atributs concepte sols en pot
existir un en el conjunt de dades a analitzar, el del concepte a aprendre, en aquest cas
play, tal i com s’ha comentat a l’apartat 2.3.2 (pg. 10). Per altra banda, aquest atribut
sols pot ser un atribut categòric (col·lecció finita de classes o etiquetes), ja que l’objectiu
d’aquesta tesi és la mineria de dades per problemes de classificació. La resta d’atributs
seran els que s’empraran en el model que descriurà el concepte a aprendre. Aquest
atributs poden ser de diferents tipus, per exemple numèrics (temperature o humidity),
categòrics (outlook), o booleans (windy) entre d’altres.
La varietat d’atributs emprats en la definició de les dades és equiparable a la va-
rietat d’atributs (camps) presents en les bases de dades relacionals que les contenen
[Date, 1994, Garcia-Molina et al., 2000]. Aquest punt també és interessant, ja que fins
ara s’ha estat presentant les dades a analitzar en forma d’una única taula. A la realitat,
això no té per què succeir. Les dades que conformen una instància poden trobar-se
escampades en diferents taules de la base de dades relacional que les conté. Això no és
problema, ja que tota la informació que descriu la instància pot ser ràpidament formada
fent servir motors relacionals eficients (podent arribar a explotar conceptes de compu-
tació paral·lela i distribuı̈da) [Özsu and Valduriez, 1999]. Un escull que si que s’haurà
de tenir en compte en el procés de mineria, i que no tindrà una solució universal, serà la
presència de valors desconeguts en les instàncies. Tal i com es tractarà més endavant,
existiran problemes de mineria en els qual les instàncies podran presentar atributs sense
un valor real, ja per desconeixement del mateix o per inaplicabilitat al cas en qüestió
(per exemple, no tothom te cotxe). Aquesta problemàtica és anàloga a la que generà
l’aparició del valor NULL a les bases de dades relacionals [Garcia-Molina et al., 2000].

2.6 Coneixement: Què es vol obtenir?

Anteriorment s’ha parlat de concepte com aquella categorització que s’ha d’aprendre
a realitzar automàticament. Aquest fet es pot veure, també, com al descobriment
de patrons estructurals en les dades [Witten and Frank, 2000, Han and Kamber, 2001].
Quan es parli de coneixement (o representació del coneixement), es farà referència a
com aquest patrons, o conceptes, poden ser expressats. Per tant, quan es parli de
coneixement es parlarà d’estructures de dades que recullin aquestes regularitats que
apareixen en els patrons que s’han identificat.
Hi ha un gran nombre de formes de representar el coneixement que es pot extreure
d’un procés de mineria de dades emprant aprenentatge artificial. Moltes d’elles depenen
alhora del tipus de mineria que s’estigui duent a terme. En el capı́tol 3, es descriuran
amb més deteniment, malgrat això, tot seguit es descriuran breument algunes de les
principals formes de representar el coneixement que apareixeran de forma reiterativa al
llarg d’aquesta tesi. Aquesta descripció es centrarà només en aquelles representacions
que s’adecuen a problemes de classificació, i no pretén ser exhaustiva, ja que el que es
busca es il·lustrar idees que es definiran més endavant.
16 Mineria de Dades

Taules de de- La primera representació que es comentarà són les taules de decisió. Aquestes presen-
cisió ten la mateixa representació que les dades d’entrada. És a dir, una taula amb atributs,
on el irrellevants han estat eliminats,i les instàncies han estat adientment condensades.
La seva utilització és senzilla, consisteix en buscar a la taula aquella instància condensada
que descriu l’exemple que es vol resoldre, associant-li la classe pertanyent a l’instància
condensada.
Arbres de de- Una altra forma més elaborada de representar el coneixement són els arbres de decisió.
cisió Existeixen gran varietat d’arbres de decisió, ja sigui en funció del tipus d’atributs que
poden tractar [Quinlan, 1986, Quinlan, 1993], o bé de si serveixen per altres tipus de
mineria que no sigui la classificació [Michalski et al., 1998]. Malgrat això, els nodes dels
arbres de decisió solen representar testos sobre algun atribut en particular, per exemple
comprovar si un valor d’un atribut, per una instància donada, és més gran o més petit
que una certa constant. Per contra. Malgrat això els nodes d’alguns arbres poden
presentar tests sobre més d’un atribut. Per contra, les fulles de l’arbre representa la
classe associada (o una distribució de probabilitats, etc.) a totes les instàncies que són
descrites pel camı́ fet per arribar a elles.
Regles de Les regles de classificació descriuen les dades emprant un conjunt de regles. En
classificació aquest cas també existeixen una gran varietat de formes i lògiques per descriure regles
de classificació, també en part lligades al problema a resoldre [Michalski et al., 1998].
Generalment, aquestes solen presentar la forma X ⇒ Y, on X és el que s’anomena
l’antecedent i Y és una classe del concepte a aprendre. Un exemple d’aquest tipus de
regles són les presentades a l’apartat 2.3.2 (pg. 10), en les quals l’antecedent venia
descrit únicament per la conjunció de testos sobre el valor dels atributs del problema
de classificació. Sols per esmentar-ho, aquestes regles poden posseir, o no, excepcions
associades.
Basades en L’últim tipus de representació que s’esmentarà aquı́ són les basades en instàncies.
instàncies Enlloc de construir estructures de dades que recullin els patrons, existeix una altra apro-
ximació a l’aprenentatge que rau en l’ús dels exemples pròpiament dits. El que es busca
és memoritzar aquelles instàncies representatives per la categorització del concepte. El
model pròpiament, serà aquell conjunt d’instàncies que representi eficientment la classi-
ficació. L’objectiu és poder recuperar (o recordar) aquella instància que millor concordi
amb el nou cas que s’està classificant.

2.7 Resum

En aquest capı́tol s’ha descrit el marc general en el qual s’inscriu aquesta tesi, és a dir,
la mineria de dades emprant aprenentatge artificial. Amb aquest fi s’han revisat els
principals objectius de la mineria de dades, que s’han resumit dient que és “l’extracció
de coneixement a partir de volums de dades elevats”. Tot seguit, s’ha passat a revisar
breument la metodologia que es segueix per l’extracció de coneixement en bases de
dades, identificant-ne les set principals etapes a tenir en compte.
2.8 Notes Bibliogràfiques 17

Dins la descripció d’aquest marc també era important revisar els tipus de mineria
de dades existents. Això es degut a que els tres principals tipus de mineria (l’anàlisi
d’associacions, la classificació/predicció i l’anàlisi d’agrupacions) difereixen en el tipus
de coneixement que es vol extreure. Per aclarir les diferències entre ells s’han presentat
alguns exemples il·lustratius dels tipus de mineria presentats.
L’últim tram de d’aquest capı́tol s’ha centrat en la presentació informal de les entra-
des (dades a analitzar) i la sortida (coneixement obtingut) del processos de mineria de
dades dedicats a la classificació automàtica. Independentment de la tècnica emprada,
aquest tipus de mineria de dades comparteix la forma d’acceptar les dades d’entrada
(una relació, possiblement recuperada d’una base de dades). No obstant, el coneixe-
ment que se n’extreu depèn de la representació que se n’estigui emprant (taules o arbres
de decisió, regles de classificació, conjunts d’instàncies, etc.).

2.8 Notes Bibliogràfiques

Per concloure aquest capı́tol dedicat a la mineria de dades, tot seguit es repassarà la
bibliografia rellevant als temes tractats. Concretament, es presentarà el principals textos
il·lustratius que es poden emprar per aprofundir en les temàtiques presentades. Aquesta
bibliografia es pot separar en tres blocs principals: (1) bases de dades, (2) primeres
aproximacions a la unió de les bases de dades amb els sistemes basats en el coneixement
i finalment (3) mineria de dades pròpiament dita.
Un text que recull els fonaments bàsics de les bases de dades es pot trobar al
llibre “An introduction to Database Systems” [Date, 1994]. Aquest llibre presenta els
principals conceptes emprats en bases de dades relacions. Per contra “Database System
Implementations” [Garcia-Molina et al., 2000] recull un ampli aprofundiment, no sols
en conceptes de bases de dades, sinó també amb la seva pertinent implementació. Per
contra el llibre “Principles of Distributed Database Systems” [Özsu and Valduriez, 1999]
fa un pas més enllà. Fixa els fonaments i consideracions necessàries a tenir en compte
quan les bases de dades relacionals s’empren en entorns de computació distribuı̈da.
Conseqüentment presenta diferents tècniques buscant millorar l’eficàcia i l’eficiència de
les bases de dades relacionals paral·lelizant-ne el manegament de la informació que
manipulen. Un altre aspecte interessant en el camp de les bases de dades es la seva
aplicació per la creació de magatzems de dades. Un exemple d’aquesta utilització és el
llibre que porta per tı́tol “Data Warehousing in the Real World: a practical guide for
building Decision Support Systems” [Anahory and Murray, 1997]. Concretament fa un
repàs dels principals conceptes emprats en els magatzems de dades, com són els data
cubes i els data marts.
Abans de l’aparició de la disciplina, que posteriorment s’anomenà mineria de da-
des, aparegueren treballs que apuntaren cap a la seva creació. Concretament, aquests
treballs començaren a estudiar les possibilitats que oferia la unió de les bases de da-
des amb els sistemes basats en el coneixement. Un exemple il·lustratiu són els dos
18 Mineria de Dades

volums que porten per tı́tol “Principles of Databases and Knowlege-based Systems”
[Ullman, 1988, Ullman, 1989]. El primer volum (“Classical Database Systems”) fa un
repàs a les bases de dades, aixı́ com les seves caracterı́stiques i implementacions. Per
contra, el segon volum (“The New Technologies”) explora com les bases de dades po-
den ser emprades per la creació de sistemes basats en el coneixement. Dins d’aquesta
lı́nia també es pot destacar el llibre que porta per tı́tol “Intelligent Databases: Object-
Oriented, Deductive, Hypermedia technologies” [Parsaye et al., 1989]. El qual és un
compendi de com tècniques procedents de la intel·ligència artificial i la representació del
coneixement permeten convertir les bases de dades en sistemes gestors del coneixement.
Aquest llibre també recull aplicacions incipients en el camp de l’hipermèdia.
Dins ja de l’àmbit de la mineria de dades, es voldrien destacar quatre llibres que
perfilen el camp de la mineria de dades. Un text bàsic és el que porta per tı́tol “Da-
ta Mining: practical machine learning tools and techniques with java implementati-
ons” [Witten and Frank, 2000]. Aquest llibre fa una revisió dels objectius de la mineria
de dades, incloent els diferents tipus que s’hi poden trobar. També recull mesures
per avaluar l’eficiència de la mineria de dades, aixı́ com la descripció i implementació
de les principals tècniques d’aprenentatge artificial que es poden aplicar a la mineria.
Un text molt complert és el que porta per tı́tol “Data Minig: Concepts and Techni-
ques” [Han and Kamber, 2001]. Fa una revisió de la mineria, tant des de la perspectiva
de les bases de dades, com des de l’aplicació de tècniques d’aprenentatge artificial.
També inclou temes interessants con el processat previ de les dades, arquitectures per
la mineria o aplicacions varies. Per contra “Predictive Data Minig: a practical guide”
[Weiss and Indurkhya, 1998] presenta la mineria de dades sota un punt de vista marca-
dament estadı́stic. Això no exclou que sigui d’utilitat per la revisió de temes importants
per la mineria com: mètriques per avaluar l’eficiència de la mineria, la reducció de da-
des, o com aquestes poden ser tractades per facilitar la mineria. L’últim dels textos
de mineria que es comenten aquı́, és “Machine Learning and Data Mining: methods
and applications” [Michalski et al., 1998]. Aquest llibre tracta mètodes d’aprenentatge
artificial i la seva aplicació a problemes de mineria puntuals. Alguns exemples dels pro-
blemes que es tracten passant per l’enginyeria (computació d’elements finits, planificació
de producció, etc.), la detecció de patrons en text, imatge i música, o bé la medicina i
biologia.
CAPÍTOL 3

Aprenentatge Artificial

L’aprenentatge artificial és “el camp sorgit de l’aproximació a l’aprenentatge


per part de la intel·ligència artificial” [Kodratoff, 1986]. El seu principal objectiu passa
per “l’estudi d’artefactes, principalment algorismes, que milloren el seu funcionament
en un entorn a partir de l’adquisició de coneixement resultant de l’experiència proveı̈da
per interacció amb l’entorn” [Langley, 1996]. Aquest capı́tol no busca fer una revisió
exhaustiva del camp de l’aprenentatge artificial, sinó que a continuació se’n farà un breu
repàs selectiu. Concretament, sols s’han inclòs aquells temes que presenten una relació
directa amb el contingut de la tesi que aquı́ es presenta. Això vol dir que disciplines com
per exemple les xarxes neurals, un dels principals paradigmes de l’aprenentatge artificial,
no són revisades aquı́, ja que no presentaran una relació directa amb aquesta tesi.
Tampoc s’inclou en aquest capı́tol els esforços fets des de la comunitat de computació
evolutiva, que degut al seu paper central en aquesta tesi, i per tant degut a la seva
rellevança per aquest treball, es tractaran especı́ficament en el capı́tol 4 (pg. 51).
El capı́tol està estructurat tal i com s’explica a continuació. Primer, fa un breu repàs
als principals paradigmes sorgits en el marc de l’aprenentatge artificial, centrant-se en la
seva aplicació a la mineria de dades sota les consideracions presentades al capı́tol 2 (pg.
7). Un cop fet aquest repàs, es descriuran els principals tipus de representació del conei-
xement rellevants per aquest treball, aixı́ com els principals algorismes d’aprenentatge
sorgits pels diferents tipus de coneixement.

3.1 Tipus d’Aprenentatge Artificial

Tal i com s’ha esmentat en la introducció, no es pretén realitzar una descripció en pro-
funditat dels tipus d’aprenentatge artificial existents. Per aquest motiu, i buscant com-
20 Aprenentatge Artificial

plementar aquesta revisió, l’apartat 3.6 (pg. 48) proporciona referències bibliogràfiques
suficients per aprofundir en els punts tractats al llarg del capı́tol. Malgrat tot, de totes les
possibles formes de definir tipologies dins l’aprenentatge artificial, se’n presentaran tres
escollides pel seu interès cara a la mineria de dades introduı̈da al capı́tol 2. La primera
taxonomia fa referència a la natura de l’entorn en si. D’ara endavant els termes entorn i
problema d’aprenentatge seran emprats indistintament. La segona tindrà en compte la
relació de l’algorisme d’aprenentatge amb l’entorn. Finalment, la tercera agrupació es
realitza tenint en funció de la representació de coneixement emprada i, conseqüentment
dels algorismes emprats per la seva adquisició.
És important fer un incı́s en aquest punt. L’aprenentatge artificial que es presenta
és aquell que es centra en problemes de classificació/predicció. Per aquest motiu, d’ara
endavant, quan es parli d’aprenentatge es parlarà d’aprendre a resoldre problemes de
classificació/predicció. En aquest tipus d’aprenentatge es disposa d’un conjunt d’exem-
ples, els quals són la bases del procés que obtindrà el coneixement intensional que les
representarà. Quedaran per tant fora d’aquesta discussió temes, per exemple, com l’a-
prenentatge basat en explicacions [Mitchell, 1997], ja que el seu objectiu no són el tipus
de problemes que marquen aquest treball.

3.1.1 Natura de l’entorn

L’aprenentatge artificial, en tant que disciplina, es troba a la intersecció de la intel·ligència


artificial i la psicologia en tant que aprenentatge. Per aquest motiu certs conceptes i
termes provenen de l’esforç interdisciplinari entre ambdues disciplines. Els mètodes
d’aprenentatge artificial es poden classificar en funció del tipus d’entorn en el qual s’ins-
criuen.
Un punt clau en l’aprenentatge artificial és el grau de supervisió de que proporciona
l’entorn. En alguns problemes d’aprenentatge existeix un tutor, o expert, que proporciona
una realimentació directa sobre el funcionament del procés d’aprenentatge. Aquest tipus
Aprenentatge d’aprenentatge rep el nom d’aprenentatge supervisat. La seva principal caracterı́stica
supervisat és la possibilitat de discernir inequı́vocament la bonhomia de funcionament del procés
d’aprenentatge.
Aprenentatge Per contra, també poden aparèixer problemes d’aprenentatge no supervisat. En
no supervisat aquest tipus d’aprenentatge l’entorn no disposa d’un tutor que és capaç de proporcionar
una realimentació directa del que està succeint. Per tant, l’aprenentatge artificial s’ha
de proveir de les eines necessàries per dur a terme la seva tasca que li permetin suplir la
seva inexistència.
Aprenentatge Existeix una tercera natura d’entorn que dona lloc a l’aprenentatge per reforçament.
per re- Es troba a mig camı́ entre un entorn amb un tutor que supervisa l’aprenentatge i la
forçament inexistència del mateix. L’entorn proveeix un terme intermig, proporcionant recompenses
o penalitzacions depenent de les accions del sistema d’aprenentatge artificial.
3.1 Tipus d’Aprenentatge Artificial 21

3.1.2 Relació amb l’entorn

Una altra forma de classificar els sistemes d’aprenentatge artificial és fer-ho en funció
de la relació que desenvolupen amb l’entorn. És a dir, aquest tipus de taxonomia rau
en la informació provinent de l’entorn de que es disposa per realitzar l’aprenentatge.
Aixı́, depenent de la informació que es disposi, els algorismes d’aprenentatge es poden
agrupar en dos grans tipus, els incrementals i els no incrementals.
Els algorisme d’aprenentatge incremental són aquells que realitzen el seu aprenen- Aprenentatge
tatge en un entorn que els proporciona els exemples a aprendre d’un en un. Un exemple incremental
d’aquest tipus de problema podria ser l’aprenentatge que un robot dur a terme per evitar
obstacles. A mida que el robot avança pel medi, va recollint informació del seu estat i la
configuració de l’entorn que l’envolta. Aquest procés proporciona un exemple cada cop,
condicionant conseqüentment el tipus d’aprenentatge que el robot pot dur a terme.
Per altra banda, existeixen entorns que proporcionen un conjunt de dades. Aquest
tipus d’entorn dona lloc a conductes d’aprenentatge no incremental. Un exemple pot ser Aprenentatge
l’anàlisi de dades cientı́fiques. Concretament és disposa d’un conjunt de dades provinents no incremen-
de mostres (o experiments) d’un cert problema, i el que es vol és aprendre un concepte. tal
En aquest cas el què es busca és una representació intensional (en forma de llei, principi,
etc.) que en descrigui la representació extensiva (dades proveı̈des pel problema).

3.1.3 Representació del coneixement i algorismes associats

La tercera forma de classificar el algorismes d’aprenentatge artificial passa per la re-


presentació de coneixement emprada, i els algorismes sorgits com a conseqüència. En
aquest punt es poden fer força taxonomies, en funció de si l’objectiu és la representació
del coneixement emprada, o bé el paradigma d’algorisme emprat. Normalment, el primer
que es planteja és quina representació del coneixement s’emprarà donat un problema d’a-
prenentatge, i tot seguit s’estudia l’algorisme que la pot aprendre, originant algorismes
fortament lligats a la representació emprada. Com es veurà al llarg d’aquesta tesi, un
dels principals esforços que s’han realitzat ha estat encarada a trencar aquest lligam,
buscant algorismes independents de la representació, o en el seu defecte, de lligam feble.
Una de les principals classificacions dels paradigmes d’aprenentatge artificial es pot
trobar a [Langley, 1996]. El que es proposa és una classificació de l’aprenentatge artificial
basa en cinc grans eixos, els quals es resumeixen tot seguit.

Inducció de Regles : utilitza regles de l’estil condició-acció, arbres de decisió, o equiva-


lents basats en estructures lògiques per representar el coneixement [Muggleton, 1992].
En aquest tipus de paradigma els algorismes d’aprenentatge rauen en ordenar les
instàncies a través de les branques dels arbres de decisió (buscant una descripció
compacta), o bé en formar aquelles regles que permetin la classificació de nous
exemples a partir de l’activació basada en condicions lògiques.
22 Aprenentatge Artificial

Analı́tic : solen representar el coneixement emprant regles també, però difereixen del
paradigma anterior en l’enfocament emprat. En lloc d’induir regles, el que pro-
posen és plantejar, en un llenguatge formal, el problema de classificació com un
teorema. D’aquesta forma l’aprenentatge es transforma la cerca d’una demostració
al teorema plantejat.

Basat en Instàncies : representa el coneixement en termes d’exemples, o instàncies


puntuals, utilitzant mètodes de recuperació flexibles per la resolució de nous exem-
ples. La capacitat d’aprenentatge rau en l’emmagatzematge d’instàncies que per-
metin una correcta classificació/predicció davant de nous exemples.

Algorismes Genètics : per norma general, els algorismes genètics tradicionals aplicats
a l’aprenentatge artificial, representen el coneixement en poblacions d’individus.
Aquesta aproximació, de marcada inspiració biològica, sol codificar emprant els
individus de la població regles de baix nivell (funcions Booleanes a nivell de bit).
Els individus de la població són evolucionats (adaptats al problema d’aprenentatge
a resoldre) emprant esquemes provinents de la teoria de les espècies de Darwin, aixı́
com de la teoria genètica. Aquests tipus d’algorismes seran àmpliament tractats
al capı́tol 4 (pg. 51).

Xarxes Neurals : representen el coneixement com una xarxa multicapa d’unitats ba-
sades en llindars que transmeten l’activació de les entrades cap a les sortides.
Associat a cada connexió de la xarxa, es pot trobar un pes que determina la quan-
titat d’activació que es passa. L’aprenentatge de les xarxes neurals es basa en
l’ajust dels pesos que determinen aquests llindars d’activació. Aquesta manipula-
ció buscarà millorar la capacitat de classificació/predicció de la xarxa.

3.2 Aprenentatge Artificial i Mineria de Dades

Tal com ja es comentà al capı́tol 2 (pg. 7), una possible forma de mineria de dades es
aquella que es basa en l’ús de tècniques d’aprenentatge artificial. No obstant, no totes les
tècniques d’aprenentatge serveixen per dur a terme tasques de mineria. El principal motiu
prové de la natural del problema de mineria. Aquests tipus de problemes proporcionen
un conjunt de dades a analitzar per extreure cert coneixement útil. Fent el paral·lelisme
entre la mineria de dades i el que s’ha comentat fins al moment d’aprenentatge artificial,
es pot entreveure que els principals mètodes emprats serà aquells que es descrivien com
a pertanyents a l’aprenentatge no incremental (malgrat hi ha excepcions a tenir en
compte).
De la mateixa forma, les principals tasques de la mineria també presenten una corres-
pondència clara amb la natura de l’entorn present en l’aprenentatge artificial. L’anàlisi
d’agrupacions de la mineria de dades queda perfectament circumscrit a l’aprenentatge
no supervisat. Això és degut al fet que no existeix, a priori, cap noció de les possibles
3.3 Classificació i Representació de Coneixement 23

agrupacions, ja que si es coneixés a priori no existiria anàlisi possible. Per altra banda,
tant l’anàlisi de relacions i la classificació/predicció queden fàcilment emmarcats dins l’a-
prenentatge supervisat. El principal motiu és el fet que sempre es pot crear un tutor que
avaluı̈ el progrés de l’aprenentatge a partir de les pròpies dades a analitzar. Per exemple,
en el problema del temps presentat a la taula 2.1 (pg. 10), consistia en classificar les
dades en funció de si es podrà sortir a jugar o no. Un tutor senzill el proporcionen les
pròpies dades amb l’atribut play. Sols és necessari comprovar el valor d’aquest atri-
but per saber si la classificació realitzada pel procés d’aprenentatge ha estat correcte.
D’igual forma funcionaria per l’anàlisi d’associacions. Per altra banda, l’aprenentatge
per reforçament no presentaria una traducció tant directa per les principals tasques de
mineria.
Pel que fa als principals paradigmes de l’aprenentatge artificial, tots ells han estat
aplicats, en més o menys grau, a problemes de mineria de dades. La resta d’aquest capı́tol
es dedicarà a revisar aquelles parts de l’aprenentatge artificial que seran de rellevància
en la tesi que aquı́ es presenta. Tot seguit es passarà a formalitzar que s’entendrà per
problema de classificació, aixı́ com les principals representació que apareixerant de forma
recurrent d’ara endavant.

3.3 Classificació i Representació de Coneixement

El principal objectiu d’aquest apartat serà formalitzar certs conceptes que han anat
apareixen fins al moment i, que posteriorment, esdevindran d’importància cabdal. Con-
cretament, es començarà descrivint que serà un problema de classificació (definició única
tant si es mira de la vessant de la mineria de dades, com si es veu des de la perspectiva de
l’aprenentatge artificial), per passar tot seguit a formalitzar les principals representacions
dels coneixement manegades al llarg del treball que aquı́ s’exposa.

3.3.1 Problema de classificació

El problema de classificació a resoldre es centra en l’aprenentatge de conceptes a partir


d’instàncies resolts del mateix. Tal i com s’ha comentat anteriorment, en aquest treball
ens centrarem en problemes d’aprenentatge a partir d’instàncies definides per un conjunt
d’atributs. Tot seguit es pot trobar la formalització del tipus de problema que volem
resoldre.

Definició 1 Anomenem atribut a al conjunt de valors que presenta una caracterı́stica.

Recuperant l’exemple presentat a la taula 2.1 (pg. 10), es poden trobar cinc atributs
diferents outlook, temperature, humidity i windy. Aquest atributs representen conjunts
de valors diferents. Per exemple, l’atribut windy és booleà (sols pot valdre TRUE o
24 Aprenentatge Artificial

FALSE), mentre que outlook és categòric. Per contra l’atribut temperature és numèric.
Els atributs poden representar qualsevol tipus de dada, ja siguin booleana, categòric,
numèrica, textual, etc. Degut a l’interès per la mineria de dades, s’ha centrat aquest
treball en problemes que empren atributs categòrics i numèrics, ja que permeten repre-
sentar tot tipus de dades, sempre i quan s’emprin els morfismes adequats1 .

Definició 2 Sigui {a0, a1, . . . al} el conjunt no buit d’atributs A, que descriuen el pro-
blema de classificació a resoldre. A+ nota l’espai dels atributs definit per A, és a dir
a0 × a1 × . . . al. La cardinalitat de A s’expressarà com |A| i quedarà definida com
|A| = l.

Per l’exemple anterior, A correspondria al conjunt format pels atributs {outlook,


temperature, humidity, windy}. D’aquest exemple se’n pot apreciar una de les peculi-
aritats de la mineria de dades, el treball amb espais d’atributs heterogenis. En aquest
exemple tots els atributs representen conjunts de valors diferents.

Definició 3 Sigui l’atribut de categorització X el conjunt finit {χ0, χ1, . . . χm} de classes
possibles del problema de classificació.

En el problema del temps, X seria l’atribut play. Conseqüentment, el conjunt de


classes possible vindria definit per {yes,no}. Malgrat les definicions fetes fins al moment,
encara falta una definició més abans de poder definir formalment el que serà un problema
de classificació.

Definició 4 Anomenarem instància, o exemple e, a aquell punt categoritzat pertanyen a


l’espai definit per A+, e ∈ A+. És a dir, e = he0, e1, . . . eli on ei ∈ ai per i = {0, 1 . . . l}.
La classe a la qual pertany la instància es notarà com eχ, per tant eχ ∈ X.

De la definició d’instància anterior, un exemple e pel problema del temps podria ser
e = hsunny, 85, 85, FALSEi, on eχ =no. Un cop fetes aquestes definicions prèvies, ja es
podrà passar a definir el que s’entendrà com a problema de classificació.

Definició 5 Anomenarem univers d’instàncies U a l’espai que es defineix com el resultat


de A+ × X.

L’univers d’instàncies U representa el conjunt de tots els possibles exemples que es


poden formar donat un conjunt d’atributs A i un conjunt de classes X. Amb aquestes
definicions, ja es pot passar a descriure el que s’entendrà per problema de classificació
d’ara endavant. Existeixen moltes formes de formalitzar el concepte de problema de
classificació, però el que es trobarà tot seguit és una proposta que permetrà simplificar
la descripció detallada del treball realitzat que aquı́ es presenta.
1
Aquesta transformació de les dades pertany a l’etapa prèvia a la mineria de dades. És a dir, a la
transformació de dades inherents a l’extracció de coneixement en bases de dades.
3.3 Classificació i Representació de Coneixement 25

Definició 6 Anomenarem problema de classificació P a la 3-tupla formada per hA, X, Σi.


A i X corresponen al conjunt d’atributs (def. 2) i al conjunt de classes (def. 3), respec-
tivament. Per contra, Σ és el conjunt {e0, e1, . . . en} d’instàncies (def. 4) disponibles.
Per definició, Σ pertany a parts del conjunt univers d’instàncies (Σ ∈ P(U)), o el que és
el mateix Σ ⊆ U. Per altra banda, |Σ| és la cardinalitat del conjunt d’instàncies, és a dir
|Σ| = n.

Com es pot apreciar, un problema de classificació queda definit per conjunt d’atributs,
les classes que el defineixen, i finalment les instàncies de les que es disposa. Com es
pot intuir, l’existència de X és degut a que es volen resoldre problemes de classificació,
sota l’enfocament de l’aprenentatge supervisat. Hi ha cops que el conjunt de classes X
s’amplia per incorporar la possibilitat d’una classe indefinida. Tot seguit se’n dona la
definició i ja s’aprofundirà en la seva significació més endavant. A tall de resum, la classe
indefinida serà la resposta dels sistemes d’aprenentatge quan no saben com classificar
una instància.

Definició 7 Sigui X∗ el conjunt de classes estès pel problema de classificació P. Aquest


conjunt es defineix com X∗ = X ∪ {λ}, on λ és la classe indefinida.

Recuperant l’exemple del temps, X correspon al conjunt {yes,no}. Conseqüentment,


el conjunt de classes estès X∗ (def. 7), es pot obtenir com:

X∗ = X ∪ {λ} = {yes, no} ∪ {λ} = {yes, no, λ} (3.1)

Per facilitar l’explicació d’alguns conceptes posteriors, tot seguit s’introduiran tres
problemes de classificació definits artificialment. Aquest problemes comparteixen el ma-
teix conjunt d’atributs. Es a dir, per tots tres problemes, els atributs que formen A
són x∈[-6,6] i y∈[-6,6]. Una forma fàcil de presentar aquests problemes és a partir de
la seva representació gràfica (figura 3.1). Aquesta és possible gràcies a que A+ és un
espai bidimensional. Sobre el pla que defineixen els atributs es poden representar les
instàncies de les quals és disposa pel problema d’aprenentatge. Cada instància, o punt
de A+, és pinta sagnant-lo amb la classe a la qual pertany les instàncies. Aquest tres
problemes són els següents:

Quads : el primer problema correspon a una tasca de classificació binaria. Concreta-


ment, el conjunt de classes queda definit com X = {+, -}. Aquest problema de
classificació respon a mostrejar una ‘⊣’ dibuixada en el pla definit per A+. El
nombre d’instàncies que composen Σ és de 625. Aquestes es troben agrupades
en 289 instàncies (46.24%) pertanyents a la classe ‘+’ i 336 instàncies (53.76%)
pertanyents a la classe ‘-’.

Obliques : el segon problema defineix el conjunt de classes com X = {3, 6, 9}. Aquest
problema és el resultat de fragmentar l’espai d’atributs definit per A emprant dos
trapezis i un triangle (veure figura 3.1.b). El nombre d’instàncies que composen
Σ és també de 625. La distribució de les instàncies en funció de la classe és
26 Aprenentatge Artificial

la següent: 234 instàncies (37.44%) pertanyents a la classe ‘3’, 157 instàncies


(25.12%) pertanyents a la classe ‘6’ i 234 instàncies (37.44%) pertanyents a la
classe ‘9’.

TAO : l’últim problema artificial torna a ser de classificació binària, X = {black, white}.
Les instàncies provenen de mostrejar la figura del TAO (veure figura 3.1.c) emprant
una malla de pas 0.25. El nombre d’instàncies resultants d’aquest procés de
mostreig formen un Σ composat de 1888 instàncies. Aquestes es troben agrupades
en 944 instàncies (50%) pertanyents a la classe ‘black’ i de 944 instàncies (50%)
pertanyents a la classe ‘white’.
6

6
4

4
2

2
0

0
y

y
−2

−2
−4

−4
−6

−6

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

x x

(a) Quads (b) Obliques


6
4
2
0
y

−2
−4
−6

−6 −4 −2 0 2 4 6

(c) TAO

Figura 3.1: Alguns exemples de problemes de classificació artificials

Tal i com es veurà tot seguit, l’aprenentatge per problemes de classificació es pot
entendre geomètricament. El que durà a terme un algorisme d’aprenentatge serà frag-
mentar (compartimentar), d’alguna forma, l’espai definit per A+. Aquesta fragmentació
buscarà identificar regions comunes que comparteixin la mateixa classe. Això s’assolirà
a través de dos elements: la representació del coneixement escollida (d’aquı́ la seva
3.3 Classificació i Representació de Coneixement 27

importància) i la interpretació que se’n fa. Per aquest motiu, els problemes anteriors
(Quads, Obliques i TAO) presenten propietats diferenciades que s’aniran comentant a
mida que es vagi desenvolupant aquest capı́tol.

3.3.2 Arbres de decisió

El primer tipus de representació del coneixement que es tractarà serà els arbres de decisió.
D’arbres de decisió n’existeixen una gran varietat. Un model general és aquell que es
basa en una conjunció de testos disjunts. Com del seu nom se’n desprén, els arbres de
decisió són una representació del coneixement basada en una estructuració jeràrquica de
la informació, l’objectiu de la qual és recollir el coneixement (estructuració) que descriu
la classificació pel problema a resoldre (o a aprendre).
Una estructuració genèrica del arbres de decisió és aquella en que: (1) els nodes
interns de l’arbre representen testos sobre el conjunt d’atributs A, i (2) les fulles recullen
un conjunt d’instàncies que comparteixen (idealment) la mateixa classe (pertanyent a
X). Donat un cert problema de classificació P, les branques que surten d’un node
(condició sobre A) representen la disjunció corresponent als possibles valors resultants
del test fet sobre el node.
Un punt vital en els arbres de decisió és la definició dels testos possibles sobre el
conjunt d’atributs. És a dir, un punt que diferenciarà els arbres de decisió és el nombre
d’atributs que intervenen en un test. Una aproximació senzilla a aquesta definició és
aquella en la qual els testos es realitzen sobre un atribut cada cop. Recuperant l’exemple
dels temps de la taula 2.1 (pg. 10), el que es faria en aquesta primera aproximació és
que cada node intern de l’arbre representi un test sobre un atribut. Per tant, un node
representaria un test sobre un dels quatre atributs disponibles (outlook, temperature,
humidity, windy).
L’altre punt vital en els arbres de decisió és la forma que prenen els testos. Aquests
s’han de definir en funció del tipus d’atribut tractat. Per exemple, en el problema del
temps, si es pren l’atribut outlook aquest és categòric, és a dir disposa d’un conjunt
finit de valors (sunny, overcast, rainy). Conseqüentment, es podria definir els testos
com a parelles atribut-valor (ei = k), de l’estil outlook=sunny, o bé outlook=overcast.
Per contra, si en el mateix problema s’escull per realitzar un test en un node l’atribut
temperature, ja no es pot aplicar la idea anterior degut a la seva natura numèrica.
Arribats a aquest punt és necessita escollir alguna altra forma de realitzar el test. Per
exemple, una forma senzilla seria la següent: ei ≤ k. Aquest test proporciona dos
possibles resultats (a diferència de l’anterior que en presentava tres): cert o fals.
Arribats a aquest punt, si s’uneix tot el que s’ha comentat anteriorment, un possible
exemple d’arbre de decisió pel problema del temps seria el que es presenta a la figura 3.2.
Com es pot apreciar cadascun dels nodes interns de l’arbre representen una condició sobre
algun dels atributs de A. El node arrel defineix el test emprant l’atribut outlook. Els seus
fills representen els possibles valors pel test, en aquest cas tres (sunny, overcast, rainy), o
el que és el mateix, realitza la disjunció dels possibles valors. Si tot seguit s’aprofundeix
28 Aprenentatge Artificial

en alguna branca, per exemple la primera, és troba un altre test, en aquest cas sobre
l’atribut humidity. De nou es torna a presentar la disjunció entre els possible valors del
test (≤ 75, o bé >75). Finalment s’arriba a un node fulla, que indica la classe associada
a totes les instàncies descrites per la conjunció dels testos trobats al llargs del camı́ entre
l’arrel i la fulla. En el cas de la fulla etiquetada com a yes, les instàncies descrites serien
aquelles en que l’atribut outlook pren per valor sunny i l’atribut humidity≤75.

outlook

sunny overcast rainy

humidity yes windy

≤ 75 > 75 TRUE FALSE

yes no no yes

Figura 3.2: Arbre de decisió pel problema del temps

D’ara endavant es notarà aquest tipus d’arbre de decisió de forma compacta. Per
assolir aquesta fita es presentarà l’arbre com a resultat del corresponent recorregut en
pre-ordre del mateix, sagnant-lo en funció de la profunditat a la qual es trobi el node en
qüestió. Concretament, es recolliran els testos sobre A+ que proposa l’arbre de decisió.
L’últim test, abans d’arribar a una fulla, tindrà associat la classe que representa la fulla
corresponent. Per exemple, l’arbre presentat a la figura 3.2 es notarà tal i com apareix
a l’exemple 5.

Exemple 5 Arbre d’inducció pel problema del temps


outlook = sunny
hum ≤ 75 : yes
hum > 75 : no
outlook = overcast : yes
outlook = rainy
windy = true : no
windy = false : yes

Ortogonals Aquest tipus d’arbres de decisió també solen anomenar-se ortogonals. Aquest so-
brenom prové del particionat que duen a terme sobre A+. Les condicions expressades
anteriorment descriuen particions perpendiculars als eixos definits pels atributs. Per
il·lustrar aquest punt s’emprarà el problema Quads presentat a la figura 3.1 (pg. 26).
Un possible arbre d’inducció per aquest problema seria el que es presenta a l’exemple 6.
3.3 Classificació i Representació de Coneixement 29

Exemple 6 Arbre d’inducció pel problema Quads


x≤2
y ≤ -2 : + (153)
y > -2
y ≤ 2: × (136)
y > 2: + (136)
x > 2 : × (200)

El número que apareix entre parèntesis a l’exemple 6 és el nombre d’instàncies de Σ


que rauen en la corresponent fulla de l’arbre. Si es superposa el particionat que genera
l’arbre anterior sobre l’espai definit per A+ s’obté la figura 3.3. Com es pot apreciar el
particionat que genera, per exemple, x>2 és una lı́nia perpendicular a l’eix definit per
l’atribut x. És per aquest motiu que aquest tipus d’arbres de decisió es coneixen com a
ortogonals.
6
4
2
0
y

−2
−4
−6

−6 −4 −2 0 2 4 6

Figura 3.3: Particionat d’A+ per l’arbre de decisió presentat pel problema Quads

Si es té present aquest comportament ortogonal, al mateix temps que es recupera


l’exemple Obliques presentat a la figura 3.1 (pg. 26), es pot deduir que aquest tipus de
particionat no és el millor possible. Si es volgués mantenir aquest particionat ortogonal,
el resultat seria un arbre de decisió amb un comportament d’escala. Aquest comporta-
ment busca aproximar petites particions ortogonals als marges oblics que apareixen entre
classes. Aquest fet es pot apreciar amb el fragment d’arbre que es presenta a l’exemple
7.

Exemple 7 Arbre d’inducció ortogonal pel problema Obliques


30 Aprenentatge Artificial

x ≤ -0.5
x≤1
x≤0: 9
x>0
y≤ -1.5 : 9
y> -1.5 : 6
x>1
y ≤ 3.5
x≤ 3.5 : 9
x> 3.5
y ≤ -5
x ≤ 4.5 : 9
x > 4.5
y ≤ -6 : 9
y > -6 : 6
...

Com es pot apreciar, a diferencia del problema Quads, el particionat de l’espai A+


necessari per dur a terme la classificació no encaixa amb la que realitza l’arbre de decisió
ortogonal. Això implica que aquesta pèrdua de capacitat per descriure les regions de
classificacions introduirà errors en la mateixa. Aquesta problemàtica no és deguda als
arbres de decisió, sinó als testos que es realitzen a cada node de l’arbre, ja que són
aquests els que determinen la forma de descriure les particions.
Oblics Els arbres de decisió oblics resolen aquesta problemàtica. Per fer-ho, modifiquen
els testos que es duen a terme en cadascun dels nodes interns de l’arbre. La condició
d’ortogonalitat apareix quan s’empra un sol atribut per dur a terme el test. Si, per
exemple, en el problema Obliques es volgués descriure una frontera obliqua (en aquest
cas una recta) es necessitarien tots els atributs de A. Els testos que proposen els arbres
de decisió oblics es basen en l’expressió:
|A|
X
αiei + α|A|+1 > 0 (3.2)
i=1

La primera consideració que es pot extreure de l’equació 3.2 és que sols es vàlida
per atributs numèrics. Malgrat ser originalment pensats per problemes amb atributs
numèrics hi ha autors que s’han dedicat a l’estudi de com aplicar-los a problemes amb
atributs no numèrics [Breiman et al., 1984, Van de Merckt, 1993] . Per altra banda ne-
cessiten tota la informació disponible, ja que en cada node intern de l’arbre es necessiten
tots els valors de la instància que es classifica. Els coeficients α1, . . . , α|A|+1 són co-
eficients numèrics que defineixen l’hiperplà (expressió general del pla quan es disposa
de n dimensions) encarregat de separar, i per tant definir, una frontera de classificació.
Amb aquest tipus d’expressió s’aconsegueix fragmentar l’espai d’atributs en polı́edres
que recullen aquelles instàncies que comparteixen la mateixa classe associada.
Els arbres de decisió oblics presenten però un problema que ha fet que s’apliquin
poc. El problema és que la generació d’un arbre de decisió oblic es basa en la capacitat
3.3 Classificació i Representació de Coneixement 31

d’identificar hiperplans que permetin separar adientment les instàncies en funció de la


seva classe. S’ha demostrat que el procés de trobar aquest hiperplans és NP-Hard
[Heath et al., 1993]. Malgrat això, si es recupera el problema Obliques, el problema de
classificació és podria resoldre amb l’arbre de decisió oblic de l’exemple 8.

Exemple 8 Arbre d’inducció oblic pel problema Obliques


y>0
x-y > 0 : 3
x-y ≤ 0 : 6
y≤0
x+y > 0 : 6
x+y ≤ 0 : 9

Tal i com es pot apreciar a la figura 3.4, el particionat d’A+ que realitza aquest arbre
de decisió de l’exemple 8 és molt més acurat que en la seva versió ortogonal. Aquest
arbre oblic elimina el problema d’escala, representant de forma molt més compacta (sols
utilitza 3 hiperplans) les diferents regions de classificació.
6
4
2
0
y

−2
−4
−6

−6 −4 −2 0 2 4 6

Figura 3.4: Particionat d’A+ pel problema Obliques emprant arbres de decisió oblics

Malgrat les modificacions introduı̈des amb els arbres de decisió oblics, existeixen pro-
blemes en els quals les fronteres de classificació no poden ser correctament descrites. Un
exemple d’aquest tipus de problemes és el problema TAO presentat a la figura 3.1 (pg.
26). Com es pot apreciar, aquest problema requereix d’una representació del coneixe-
ment que permeti definicions de fronteres corbes. Per aquest motiu existeixen un tercer
grup d’arbres de decisió, els anomenats multivariants [Murthy et al., 1994]. Aquests ti- Multivariants
pus d’arbres redefineixen de nou les condicions dels nodes interns dels arbres de decisió.
Algunes d’aquestes modificacions defineixen condicions basades en: combinacions d’atri-
buts no lineals [Utgoff and Brodley, 1990], regions de classificació basades en instàncies
[Llorà and Garrell, 2000a], o bé en xarxes neurals [Hampson and Volper, 1986].
32 Aprenentatge Artificial

3.3.3 Regles

El segon tipus de representació de coneixement que es vol comentar és la basada en


regles. Aquest tipus de representació es basa en l’ús de lògica matemàtica. Existeixen
diferents formalismes que donen llocs a diferents tipus de lògiques. No és l’objectiu d’a-
quest apartat fer-ne una revisió, sinó que el que es vol es repassar el que tradicionalment
s’ha fet servir dins l’aprenentatge artificial (tinguen present la tasca de mineria de dades
que es vol dur a terme).
La representació basada en regles (sota les restriccions anteriorment esmentades),
es basen en l’ús d’esctuctures de l’estil X ⇒ Y ′ . X és el que s’anomena antecedent o
condició de la regla, mentre que Y ′ és el conseqüent o acció associada. Com ja s’ha vingut
repetint força vegades, l’objectiu és resoldre problemes de classificació. Aquest punt
restringeix el tipus de regles que s’han usat tradicionalment quan s’aplica l’aprenentatge
artificial a la mineria de dades [Witten and Frank, 2000, Han and Kamber, 2001].
La part que no sol variar en els diferents tipus de regles és el conseqüent. Y ′ descriu
la classe a la qual pertanyen les instàncies descrites per la condició de la mateixa. És
a dir, quan una instància e satisfà la condició de la regla, s’identifica aquesta com
a pertanyent a Y ′ , on Y ′ ∈ C∗ . El motiu de que Y ′ ∈ C∗ i no Y ′ ∈ C és degut
a que d’aquesta forma és pot identificar inequı́vocament aquelles instàncies les quals
no se saben classificar correctament, deixant-les com indefinides abans que errar la
seva classificació. Existeixen altres aproximacions a la definició de l’acció que permeten
l’encadenament de regles [Kodratoff, 1986], on referim al lector interessat a l’apartat
3.6 en el qual es proporcionen les referències bibliogràfiques pertinents.
Pel que fa a la condició de les regles, aquestes es solen definir emprant conjuncions i
disjuncions testos sobre el conjunt d’atributs A. Els testos que tradicionalment s’utilitzen
són els mateixos que els emprats pels arbres de decisió ortogonals. És a dir, testos
basats en parelles atribut-valor quan es tracta d’atributs categòrics i operadors relacionals
(≤,>) quan es manipulen atributs numèrics. Una primera aproximació a aquest tipus
de representació la que presenta l’exemple 9 que es mostra tot seguit.

Exemple 9 Conjunt de regles que descriuen el problema del temps. Les condicions de
les regles representen la conjunció i disjunció de testos sobre alguns atributs de A per
aquest problema.

((outlook = sunny) ∧ (humidity ≤ 75)) ∨


((outlook = rainy) ∧ (windy = FALSE)) ∨
((outlook = overcast)) → yes
((outlook = sunny) ∨ (outlook = rainy)) ∧
((humidity > 75) ∨ (outlook = sunny)) ∧
((outlook = sunny ) ∨ (windy = TRUE)) ∧
((humidity > 75) ∨ (windy = TRUE)) → no
3.3 Classificació i Representació de Coneixement 33

Tradicionalment, els conjunts de regles es representen en forma normal disjuntivafor-


ma normal!disjuntiva. És a dir, les condicions de les regles sols presenten conjuncions de
testos sobre A. Per contra la disjunció s’introdueix com la disjunció de regles. Aquest
tipus de representació facilita l’automatització d’inferència a través de tècniques de reso-
lució. Aquest tipus de representació sol ser més compacta que la presentada a l’exemple
9, facilitant la llegibilitat, tal i com es pot apreciar a l’exemple 10.

Exemple 10 Conjunt de regles que descriuen el problema del temps. Les condicions
de les regles representen la conjunció de testos sobre alguns atributs de A per aquest
problema. La disjunció s’introdueix per mitjà de l’ús de la disjunció entre regles.
(outlook = sunny) ∧ (humidity ≤ 75) → yes
(outlook = rainy) ∧ (windy = FALSE) → yes
(outlook = overcast) → yes
(outlook = sunny) ∧ (humidity > 75) → no
(outlook = rainy) ∧ (windy = TRUE) → no

Existeix un altre motiu per escollir aquest tipus de representació per les regles. Aquest
rau en la facilitat amb la qual es pot transformar un arbre de decisió ortogonals en un Transformar
conjunt de regles equivalent. Aquest pas sempre es possible, a diferència del cas contrari
que pot no ser-ho. El procediment per obtenir el conjunt de regles d’un arbre de decisió
és el basa en que els camins des de l’arrel fins a les fulles representa la conjunció de
testos (condició de la regla equivalent), i la fulla conté la classe associada (acció de la
regla). Degut a que els fills d’un node de l’arbre representa una disjunció, el conjunt
de regles format per tots els camins entre el node arrel de l’arbre i les fulles del mateix,
esdevé en forma normal conjuntiva. Per il·lustrar aquest procés, l’exemple 11 recupera
l’arbre de decisió ortogonal proposat pel problema Quads (exemple 6), obtenint-ne el
conjunt de regles resultant.

Exemple 11 Extracció de regles a partir d’un arbre de decisió ortogonal pel problema
Quads. Les regles (dreta) corresponen als camins entre el node arrel i les fulles de l’arbre
d’inducció ortogonal (esquerra)

x≤2 (x ≤ 2) ∧ (y ≤ -2) → +
y ≤ -2 : + (153)
(x ≤ 2) ∧ (y > -2) ∧ (y ≤ 2) → ×
y > -2
y ≤ 2: × (136) (x ≤ 2) ∧ (y > -2) ∧ (y > 2) → +
y > 2: + (136) (x > 2) → ×
x > 2 : × (200)

Com es pot intuir, el pas contrari de transformació no és sempre possible, ja que
requereix que les regles estiguin en forma normal conjuntiva i, que a més a més, els
testos siguin complementaris i es puguin ordenar adientment.
34 Aprenentatge Artificial

Pel que fa al particionat de l’espai A+ que duen a terme els conjunts de regles, és
equivalent al proporcionat pels arbres de decisió oblics. Això és degut principalment a
que els testos disponibles sobre els atributs són els mateixos, d’igual forma que la unió
entre els es continua basant en conjuncions i disjuncions dels mateixos. Existeixen força
varietats d’aproximacions per modificar aquest comportament en el moment de definir
fronteres de classificació. Sols es voldria fer esment en aquest punt de les aproximacions
basades en lògica de conjunts difusos [Zadeh, 1965], les quals permeten suavitzar i
modificar les fronteres de classificació redefinint el formalisme (regles) que s’empra per
descriure les regions de classificació.

3.3.4 Basat en Instàncies

La tercera representació del coneixement que es repassarà és la basada en instàncies. A


diferències de les anteriors, les quals definien de forma explı́cita les regions de classificació,
la representació basada en instàncies representa la classificació implı́citament emprant
instàncies representatives del problema a resoldre. És a dir, en lloc d’emprar testos, i la
seva posterior estructuració, per dividir l’espai d’atributs, el que s’utilitzen són instàncies
i analogies.
Existeixen també gran varietat d’aproximacions a les representacions basades en
instàncies. De totes elles ens centrarem en les basades en relacions de veı̈natge fona-
mentades en criteris de distància [Aha et al., 1991]. Per modelar la classificació l’apre-
nentatge basat en instàncies utilitza dos elements imprescindibles: (1) les instàncies
pròpiament dites i (2) funcions de distància que permeten obtenir una mesura de
quan a prop es troben dues instàncies (per exemple, la distància euclidiana dins A+
[Han and Kamber, 2001]). Dit d’una altra forma, la representació del coneixement ne-
cessari per dur a terme la classificació, és el conjunt d’instàncies, que junt amb la funció
de distància, permeten definir regions de classificació (d’igual forma que es feia amb
arbres de decisió o regles).

y a

Figura 3.5: Particionat de A+ emprant instàncies

La figura 3.5 presenta un exemple de fragmentació de l’espai de A+ emprant du-


es instàncies (a i b). Per fer-ho utilitza el veinatge basat en distàncies (l’euclidiana
3.3 Classificació i Representació de Coneixement 35

en aquest exemple). Per classificar una nova instància e es calcula la distància de e


sobre cadascuna de les instàncies que apareixen el la representació del coneixement de
classificació, en aquests cas a i b. L’expresió de la distància seria:

v
u |A|
uX
dist(e, x) = t (ei − xi)2 (3.3)
i=1

Un cop calculades dist(e, a) i dist(e, b), la classe a la qual pertanyeria e seria la


mateixa que la de la instància emmagatzemada que minimitza dist. Tot seguit se’n
presenta un exemple quantitatiu.

Exemple 12 Donada la figura 3.5, sigui a = h1, 8i i b = h8, 1i. Si es calcula les
distàncies per cadascuna de les instàncies respecta a la nova instància a classificar,
e = hex, eyi, s’obté:
v
u 2 q
uX
dist(e, a) = t (ei − ai) = (ex − 1)2 + (ey − 8)2
2
(3.4)
i=1
v
u 2 q
uX
dist(e, b) = t 2
(ei − bi) = (ex − 8)2 + (ey − 1)2 (3.5)
i=1

Si ex = 1 i ey = 4 s’obté que dist(e, a) = 4 i que dist(e, b) = 7.62, on e és més


propera a a, es classifica com a pertanyent a la mateixa classe que aχ. Concretament,
la frontera de classificació es pot calcular analı́ticament fent dist(e, a) = dist(e, b).
Emprant les equacions 3.4 i 3.5 s’obté:
q q
(ex − 1)2 + (ey − 8)2 = (ex − 8)2 + (ey − 1)2 (3.6)
(ex − 1)2 + (ey − 8)2 = (ex − 8)2 + (ey − 1)2 (3.7)
e2x − 2ex + 1 + e2y − 16ey + 64 = e2x − 16ex + 64 + e2y − 2ey + 1 (3.8)
−2ex − 16ey = − 16ex − 2ey (3.9)
14ex = 14ey (3.10)
ex − ey = 0 (3.11)

El resultat (equació 3.11) representa la equació implı́cita d’una recta dins l’espai A+.
Aquesta frontera es presenta a la figura 3.5 en forma de lı́nia discontı́nua. Conseqüent-
ment, totes les instàncies que queden compreses per sobre de la recta (ex − ey < 0) són
de classe aχ, mentre que les que són per sota (ex − ey > 0) pertanyen a bχ. Pel que fa
a les instàncies que queden distribuı̈des al llarg de la frontera (ex − ey = 0), no queda
clara la seva classificació.

Com es pot apreciar de l’exemple anterior, amb dues instàncies i una funció de
distància es pot separar en dues parts A+. Aquest particionat recorda força a l’obtingut
emprant arbre de decisió oblics. Pel que fa a les instàncies de la frontera, es poden
36 Aprenentatge Artificial

classificar com a λ (classe indeterminada) o bé com a pertanyents a aχ o bχ. Això


depèn del criteri que s’escolleix en el moment de fixar la representació del coneixement
pertinent.
Una de les principals avantatges d’aquest tipus de representació del coneixement
és la seva capacitat per representar regions de classificació complexes de forma relati-
vament senzilla. La figura 3.6 presenta un particionat de A+ emprant cinc instàncies.
Presentades en traços discontinus, a la figura apareixen les cinc regions de classificació
que apareixen.

Figura 3.6: Particionat de A+ emprant cinc instàncies

Tal i com s’ha vist, aquest tipus de representació es basa en l’ús del veı́ més pròxim
NN (nearest neighbour, o NN) per realitzar la classificació. Les fronteres que apareixen
continuen essent hiperplans, encara que es calculin de forma diferent. Aquest tipus de
frontera presenta la problemàtica que no sol tolerar bé soroll a les instàncies properes
a la frontera, fet que provoca classificacions incorrectes. Per intentar paliar aquest
problema, aixı́ com per suavitzar aquestes fronteres, en lloc d’emprant per la definició
de les fonteres només el veı́ més pròxim, el que es fa és fer-ho amb els k veins més
pròxims (k-NN) [Aha, 1992].
k-NN El k-NN pren en el moment de classificar una nova instància e els k veı̈ns més
propers. La classe a la qual pertanyarà e és detemina com a la classe majoritariament
votada per el k veı̈ns més propers. El valor de k es sol escollir normalment de forma
que no permeti l’aparició d’empats, ja que no es podria afirmar amb rotunditat quina
seria la classe de e i s’hauria de classificar com a λ. Per exemple, en el problema dels
TAO presentat a la figura 3.1 (pg. 26) X és {black, white}. Alguns valors emprats per
k podrien ser {3,5,7,. . . }2 . Com es pot apreciar, sols s’utilitzen valors senars. El motiu
és que el problema TAO és un problema de classificació binària, per tant prenent un
nombre senar de veı̈ns, mai es pot donar el cas d’un empat en la votació.

2
k=1 correspondria senzillament a NN.
3.3 Classificació i Representació de Coneixement 37

3.3.5 Classificació Lineal Extesa

La classificació lineal extesa, es basa en models de lineals. En aquest apartat, abans de


passar a comentar com es pot classificar extenent models lineals, és farà un breu repàs
del que s’entrendrà per model lineal propiament dit. Un cop feta aquesta revisió, es
passarà a comentar un possible model lineal extès, el proposat per les màquines de suport
vectorial (support vector machines o SVM). Malgrat gran part d’aquest camp sorgeix de
l’aprenentatge estadı́stic [Vapnik, 1995], s’ha considerat separar-lo en un apartat propi
pel seu interés, deixant els models estadı́stics pel punt següent.
Els model lineal es basen en l’ús de la regressió lineal [Canavos, 1988] com a eina Regressió line-
per la predicció i la classificació. Per explicar com es pot emprar la regressió lineal per al
la classificació, pimer es descriurà com funciona quan s’aplica a la predicció, numèrica,
ja que com es veurà n’és més afı́, especialment quan es treballa amb problemes en els
quals tots els atributs de A són numèrics. La idea de la regressió és senzilla, consisteix
en calcular la classe χ (numèrica) com a la combinació lineal dels atributs del problema
emprant pesos prestablerts. És a dir, donada una instància e, s’utilitzen el valors que
prenen en ella els seus atributs per predir la classe numèrica. La forma de realitzar
aquesta combinació es mostra tot seguit.

χ = ω0e0 + ω1e1 + · · · + ωlel + ωl+1 (3.12)

Aquests pesos (o coeficients) ωi es calculen emprant els exemples disponibles, és a


dir les n instàncies contingudes a Σ. Per facilitar la comprensió de la notació, recordem
que ei és el valor que pren l’atribut ai ∈ A a la instància e, mentre que ej és la instància
j de Σ. Per tant, el valor predit per la primera instància (j = 0) de Σ és podria notar
com
Xl
χ0 = ω0e00 + ω1e01 + · · · + ωle0l + ω0l+1 = wie0i + ωl+1 (3.13)
i=0

La regressió lineal es centra en escollir els coeficients (wi) que minimitzin la suma
de l’error comès en la predicció de les instàncies de Σ. L’error comès per una instància
ej és pot calcular a partir de la diferència entre el valor esperat i el predit. És a dir,
l’error per la instància j de Σ seria ǫj = ejχ − χj. Per tant, l’error total a minimitzar, ǫ
és calcula com la suma dels errors elevats al quadrat, tal i com mostra l’expressió

n 
!!2
n
X X  n
X l
X
ǫ= ǫj = ejχ − χj = ejχ − wie0i + ωl+1 (3.14)
j=0 j=0 j=0 i=0

Per poder realitzar resoldre problemes de classificació (i no de predicció) amb aquest


tipus de models, es necessita que tots els atributs siguin numèrics però, a més a més, s’ha
de realitzar emprant algunes idees [Witten and Frank, 2000]. La tècnica, anomenada
regressió lineal multiresposta, passa per fer la regressió per cada classe, assignant una Regressió
predicció igual a 1 a aquelles instàncies de Σ que pertanyen a la classe tractada i 0 a lineal multi-
aquelles que no. El resultat d’aquest procés és que es realitzen tantes regressions com resposta
38 Aprenentatge Artificial

|X|, obtenint per tant |X| conjunts de coeficients. El procés de classificació és senzill, si
s’interpreta el resultat de la regressió com a una funció de pertinença a la classe per la
qual s’ha fet la regressió. És a dir, per cada nova instància e, aquesta es classifica com
a pertanyent a la classe que proporcioni un valor de regressió més gran.
Tal i com el seu nom indica, la regressió sols es capaç de resoldre problemes de
classificació que siguin linealment separables per classe. Això és degut a que l’expressió
emprada (equació 3.13) no és res més que un hiperplà. Tal i com se’n desprén d’aquest
punt, la capacitat de classificació emprant regressió lineal és limitada. Per aquest motiu
han aparegut aproximacions per estendre aquest tipus de classificació, tal i com es
comentarà en el que resta d’apartat.
Per superar les limitacions comentades, s’extenen els models lineals amb que s’ha
Màquines de anomenat màquines de suport vectorial [Cristianini and Shawe-Taylor, 2000] (support
suport vecto- vector machines o SVM). Malgrat el nom, el que es busca és enriquir la capacitat
rial per definir regions de classificació presentades pel models lineal. A grans trets, les
SVM presenten una aproximació diferent a les presentades anteriorment. Continuen
resolent els problemes emprant regressions lineals, però aquesta definició d’una frontera
de classificació no es realitza sobre A+ sinó sobre un espai construir a partir de A+.
Enlloc de definir fronteres de classificació no lineal, les SVM transformen A+ en un altre
espai A mitjançant transformacions no lineals. D’aquesta forma, quan es defineix una
frontera de classificació lineal a A, el resultat sobre A+ és una frontera no lineal degut
a la transformació no lineal emprada.
La transformació no lineal emprada converteix les instàncies de A+ en instàncies
transformades de A. Concretament, el que les SVM empren és una transformació que
presenta la següent forma:
f : A+ 7−→ A (3.15)

Exemple 13 Un exemple de funció de transformació no lineal seria les basades en trans-


formacions polinòmiques. Donat els problemes presentats a la figura 3.1 (pg. 26), es
podria realitzar una transformació polinòmica no lineal tal i com es presenta a continu-
ació.

f : A+ 7−→ A
D E (3.16)
7 → x2, xy, y2
hx, yi −

per n = 2, on si n = 3 s’obtindria

f : A+ 7−→ A
D E (3.17)
7 → x3, x2y, xy2, y3
hx, yi −

Conseqüentment, tota instància de A+ pot ser mapada sobre A a través de la funció


de mapat. En cas de l’equació 3.17 alguns exemples de transformació serien: f(h0, 0i) =
h0, 0, 0, 0i, f(h1, 0i) = h1, 0, 0, 0i, f(h0, 1i) = h0, 0, 0, 1i, o bé f(h1, 2i) = h1, 2, 4, 8i.
3.3 Classificació i Representació de Coneixement 39

Un cop assolida la transformació, la classificació sobre les instàncies transformades de


A es realitzaria per mitjà d’una regressió lineal multiresposta. L’expressió de la regressió
es calcularia sobre A, enlloc de sobre A+, tal i com es mostra a continuació.
|A|
X
χ= ωieti + ω|A|+1 (3.18)
i=0

Per tant, quan es desfà la transformació d’una frontera lineal sobre A, s’obté una
frontera sobre A+ que no és lineal. Per il·lustrar aquest punt la figura 3.7 il·lustra
com es veuria sobre A+ una frontera lineal definida a A. Concretament la figura 3.7.a
desfà la transformació descrita per l’equació 3.16, mentre que la figura 3.7.b correspon
a l’equació 3.17.
6

6
4

4
2

2
0

0
y

y
−2

−2
−4

−4
−6

−6

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

x x

(a) n=2, w = h1, 1, 1, −18i (b) n=3, w = h1, 1, 1, 1, −18i

Figura 3.7: Exemples de fronteres de classificació emprant classificació lineal estesa


(màquines de suport vectorial)

Per tot el comentat fins el moment, la representació del coneixement que empraria
la classificació lineal estesa passaria per dos element: (1) la funció de transformació i
(2) els pesos associats a les regressions existents. Per calcular aquest pesos es disposa
de les instàncies del problema, és a dir Σ. Les SVM però no calculen aquest pesos
directament. Degut a que les transformacions poden generar espais d’elevada dimensió,
no és computacionalment viable. Per aquest motiu, les SVM empren el que s’anomena
hiperplà de màxim marge. La finalitat d’emprar aquest tipus d’hiperplà serà el de reduir
el nombre de pesos a ajustar per l’algorisme d’aprenentatge que s’utilitza.
Un hiperplà de màxim marge és un tipus particular l’hiperplà, i, per tant, de model Hiperplà de
lineal. Per facilitar l’explicació es farà servir l’exemple que es presenta a la figura 3.8. màxim marge
Com es pot apreciar es disposa d’un conjunt d’instàncies disposades de forma linealment
separable. Per tant existeix un hiperplà que es capaç de classificar totes les instàncies
correctament. L’hiperplà de màxim marge és aquell que proporciona la màxima separació
entre les classes. Aquest és defineix en funció del polı́gon encerclant (o convex hull) que
encercla cadascuna de les classes. A la figura 3.8 es pot apreciar els dos polı́gons
40 Aprenentatge Artificial

encerclants. Aquests polı́gons són convexos i representen el mı́nim polı́gon que recull en
el seu interior totes les instàncies de la classe. Com que les dues classes són linealment
separables els polı́gons encerclants no es sobreposen. Un cop fet aquest aclariment,
l’hiperplà de màxim marge es defineix com aquell hiperplà ortogonal a la lı́nia més curta
entre ambdós polı́gons encerclants (marcada a la figura en traç discontinu). Comentar
en aquest punt que aquesta aproximació és igual de vàlida en el cas que les classes no
siguin linealment separables. L’objectiu llavors consisteix en buscar l’hiperplà de màxim
marge que proporciona una millor separabilitat lineal.

Figura 3.8: Hiperplà de màxim marge i els corresponent vectors de suport

Les instàncies que es troben més properes a l’hiperplà de màxim marge (mı́nima
distància) són el que s’anomena vectors de suport (o support vectors). Els vectors de
suport per l’exemple de la figura 3.8 són aquelles instàncies que apareixen encerclades
en la mateixa. Existeix com a mı́nim un vector de suport per cadascuna de les classes
involucrades en el problema. Emprant sols aquests vectors es pot reconstruir l’hiperplà de
màxim marge, fent que la resta d’instàncies d’entrenament siguin irrellevants. Suposant
un espai definit per dos atributs a1 i a2, un hiperplà es pot definir com:

χ = ω0 + ω1a1 + ω2a2 (3.19)

Aquesta equació es pot transformar per que l’hiperplà es defineixi emprant els seu
vectors de suport, enlloc del vector de pesos ω = hω0, ω1, ω2i. Arribats a aquest punt
es important dir que inicialment les màquines de suport vectorial es pensaren per proble-
mes binaris, malgrat es poden estendre a tasques de classificació n-àries [Vapnik, 1995].
Per aquest motiu s’emprarà la transformació que es sol emprar per problemes de classi-
ficació binària, on χ = {χ0, χ1}. Per dur a terme aquesta transformació es pot etiquetar
les instàncies d’entrenament de la classe χ0 com a 1, mentre que les de la classe χ1
s’etiquetaran com a −1. Llavors l’hiperplà de màxim marge es pot definir com:
X
χ=b+ αiyia(i) · e (3.20)
i∈CVS

On CVS és el conjunt d’ı́ndex del conjunt de vectors de suport. Per la seva banda,
yi és el valor amb el qual s’ha etiquetat la instància a(i), mentre que b i αi són valors a
ajustar per l’algorisme d’aprenentatge (enlloc del vector de pesos ω anterior). El vector
3.3 Classificació i Representació de Coneixement 41

a(i) correspon a un vector de suport, mentre que e és la instància de test a classificar;
a(i) · e representa el producte escalar d’aquests dos vectors.
Arribats a aquest punt és el moment de recuperar les transformacions no lineals
en les que es basen les màquines de suport vectorial. L’objectiu és incorporar-les a la
formulació d’hiperplà. Per incorporar les transformacions no lineals presentades a les
equacions 3.16 i 3.17, l’equació 3.20 pot ser reescrita com:
X
χ =b+ αiyi (a(i) · e)n (3.21)
i∈CVS

El terme (a(i) · e)n correspon a la transformació no lineal de les instàncies. Per altra
banda, aquesta transformació presenta una propietat força interessant. Concretament,
és el fet que es pot realitzar primer el producte escalar, i posteriorment elevar el resultat
a la enèssima potència. Aquesta operació presenta els mateixos termes que primer fer la
transformació i posteriorment fer el producte escalar dels vectors, diferint són en alguns
termes d’escalament dels eixos [Witten and Frank, 2000]. Conseqüentment, el producte
escalar (costós ja que es realitza repetidament tant en l’entrenament com en el test) es
pot mantenir a l’espai A+. La dimensió de A+ és inferior comparada amb la obtinguda
en l’espai generat per la transformació no lineal.
Finalment, comentar que el terme (a(i) · e)n és el que s’anomena nucli polinomial Polinomial
(polinomial kernel), degut a la natura polinòmica de la transformació no lineal. Malgrat
que aquesta és una de les transformacions més emprades en les màquines de suport
vectorial, n’existeixen d’altres. Per exemple, les basades en nucli basat en funció radials Radials
(radial basis function kernel) que es poden considerar com un cas particular de xarxes
neurals, les radial basis function networks. Un altre exemple de nucli no polinomial és el
nucli sigmoidal (sigmoidal kernel), que també es pot interpretar com un cas particular Sigmoidal
de xarxa neural, la d’un perceptró multicapa sense capes ocultes. Per altres tipus de
nuclis és refereix al lector a [Burges, 1998].

3.3.6 Models Estadı́stics

Una forma de representar coneixement emprant models estadı́stics es basa en l’ús de la


regla de Bayes [Canavos, 1988], o probabilitat condicionada. Concretament, el que diu
la regla de Bayes és que donada una hipòtesis H, i una evidència E, llavors
p[E|H]p[H]
p[H|E] = (3.22)
p[E]

Amb aquesta senzilla regla, i fent algunes assumpcions es pot crear un senzill mètode
de classificació. Concretament, la principal assumpció que s’ha de realitzar és assumir
que les contribucions que realitzen cadascun dels atributs són independents i idèntiques.
Com es pot apreciar aquestes consideracions costa que es produeixin en la realitat. És
fàcil que en un problema no tots els problemes siguin independents, presentant aixı́ una
certa relació entre algun subconjunt d’ells. Per altra banda, tampoc sol ser molt realista
42 Aprenentatge Artificial

Taula 3.1: El problema del temps nominalitzat


outlook temperature humidity windy play
sunny hot high false no
sunny hot high true no
overcast hot high false yes
rainy mild high false yes
rainy cool normal false yes
rainy cool normal true no
overcast cool normal true yes
sunny mild high false no
sunny cool normal false yes
rainy mild normal false yes
sunny mild normal true yes
overcast mild high true yes
overcast hot normal false yes
rainy mild high true no

suposar que les contribucions de cada atribut siguin igual de rellevants. Malgrat això,
i amb aquestes suposicions fetes el resultat es un mètode de classificació senzill que
funciona de forma acceptable en la majoria de casos. Per altra banda, aquesta forma
de classificar proporciona un conjunt de probabilitats que corresponen a les probabilitats
associades, donada una instància, per les classes disponibles.
El classificació presenta un funcionament senzill. Consisteix en mantenir, donat
el conjunt d’exemples d’entrenament, per cada valor possible de cada atribut la seva
probabilitat d’aparició en funció de cadascuna de les classes del problema, donat un
conjunt d’instàncies d’entrenament. Presentada una nova instància a classificar, es
calcula la probabilitat per cadascuna de les classes. Això s’assoleix per cada classe
calculant el producte de les diferents probabilitats d’aparició aixı́ com la probabilitat total
d’aparició de la classe [John and Langley, 1995], tal i com es presentarà amb un exemple
un xic més endavant. Finalment, s’agafen les diferents probabilitats i es normalitzen dins
l’interval [0,1].
Retornant a l’exemple del temps presentat a la taula 2.1 (pg. 10), aquest es pot
transformar per que tots els atributs esdevinguin nominals [Witten and Frank, 2000],
tal i com es presenta a la taula 3.1. Amb aquesta informació ja es pot procedir a
calcular la informació necessària per classificar una nova instància. Tal i com s’ha
comentat anteriorment, és necessari calcular la probabilitat d’aparició de cada possible
valor d’atribut en funció de la classe a la qual pertany. Això s’assoleix fàcilment a partir
de les instàncies d’entrenament presentades a la taula 3.1, tal i com es mostra a la taula
3.2. Amb aquesta informació ja es pot passar a classificar una nova instància.
Donada una nova instància qualsevol, per exemple e={outlook=sunny, temperatu-
re=cool, humidity=high, windy=true, play=?}, la probabilitat associada a cadascuna
de les classes de X per aquest problema es poden calcular emprant la regla de la proba-
3.3 Classificació i Representació de Coneixement 43

Taula 3.2: Probabilitats d’aparició dels valors dels atributs pel problema del temps
nominalitzat de la taula 3.1
outlook temperature humidity windy play
yes no yes no yes no yes no yes no
sunny 2 3 hot 2 2 high 3 4 true 6 2 9 5
overcast 4 0 mild 4 2 normal 6 1 false 3 3
rainy 3 2 cool 3 1
sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 true 2/5 2/5 9/14 5/14
overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 false 3/5 3/5
rainy 3/9 2/5 cool 3/9 1/5

bilitat condicionada. Es a dir, donada la instància e, per la classe χ ∈ X la probabilitat


associada es calcula com:
p[eout|χ] × p[etemp|χ] × p[ehum|χ] × p[ewin|χ] × p[χ]
p[χ|e] = (3.23)
p[e]

El fet de desconèixer p[e] no és un problema seriós, ja que tal i com es podrà veure
a continuació, aquest desapareixerà al normalitzar les propietats. Tot seguit es presenta
el càlcul de les dues probabilitats, p[yes—e] i p[no—e].

2/9 × 3/9 × 3/9 × 3/9 × 9/14 0.0053


p[yes|e] = = (3.24)
p[e] p[e]

3/5 × 1/5 × 4/5 × 3/5 × 5/14 0.0206


p[no|e] = = (3.25)
p[e] p[e]

Finalment, l’últim pas consisteix en normalitzar les probabilitats que s’han obtingut
anteriorment. Aquest fet fa desaparèixer la necessitat de disposar de p[e], tal i com es
presenta a continuació.
0.0053
pyes = = 0.205 (3.26)
0.0053 + 0.0206
0.0206
pno = = 0.795 (3.27)
0.0053 + 0.0206

Quedant aixı́ classificada la instància e. En aquest tipus de classificació destaquen


algunes consideracions a tenir en compte. La primera és que aquest tipus de classificació
no proporciona una resposta única. Per contra, proporciona probabilitat per cadascuna
de les classes de X. La segona rau en el fet que si alguna des les probabilitats p[eα|χ] = 0
genera que la probabilitat resultant sigui zero, presentant algunes anomalies en el fun-
cionament de la classificació. Algunes propostes [Witten and Frank, 2000] suggereixen
iniciar els recompte presentat a la taula 3.2 a 1, enlloc de 0, no afectant al la clas-
sificació. Per altra banda, per poder aplicar aquest tipus de classificació a problemes
amb atributs numèrics es requereix un primer pas de discretització o nominalització, tal
i com es presentava a la taula 3.1. Altres problemes afecten a l’aparició d’instàncies
44 Aprenentatge Artificial

amb valors desconeguts, obligant a introduir modificacions al recompte. Per exemple


[Witten and Frank, 2000], afegint un valor més a tots els atributs, el valor desconegut.
Finalment, per concloure aquest apartat de models estadı́stics, comentar que no la
representació del coneixement no és una representació intensional de la informació. A
diferència de les regles o arbres de decisió, en aquest model la representació del coneixe-
ment es troba a la taula 3.2, fet que no en facilita la seva possible interpretació. Aquest
punt es comparable al que succeeix amb les xarxes neurals en les qual el coneixement
queda emmagatzemat en el pesos d’interconnexió entre les diferents neurones.

3.4 Algorismes d’aprenentatge

Existeixen un ampli ventall d’algorismes d’aprenentatge que treballen amb les diferents
representacions del coneixement presentades en l’apartat 3.3 (pg. 23). En aquest apar-
tat no es vol realitzar ni una taxonomia, ni tampoc un repàs exhaustiu. Per contra, el
que es podrà trobat tot seguit és una breu descripció d’alguns algorismes representatius
de cadascuna de les representacions presentades anteriorment. Concretament, els algo-
rismes que es presenten han estat escollits degut a l’ús posterior que se’n farà d’ells en
aquesta tesi.
Els algorismes que es comentaran breument a continuació, apareixen en funció del
tipus de representació amb el qual treballen segons l’ordre en el qual es presentaven
a la secció 3.3 (pg. 23). És a dir, primer es descriuran els algorismes que treballen
amb arbres de decisió (ID3 i C4.5), per passar tot seguit a descriure els que treballen
amb regles del classificació (0-R, 1-R i PART). A continuació es passaran a descriure els
basats en instàncies (IBL), per finalitzar un algorisme d’aprenentatge per classificació
lineal estesa (SMO), i un basat en models estadı́stics (Naive Bayes).

3.4.1 ID3 i C4.5

Dins dels algorismes d’inducció d’arbres de decisió un dels més coneguts i contrastats
ID3 és el ID3 [Quinlan, 1986]. Aquest algorisme construeix un arbre de decisió ortogonal
emprant un conjunt d’instàncies de forma heurı́stica. Donat un conjunt d’instàncies Σ,
en la qual tots els seus atributs són nominals, l’algorismes construeix un arbre de decisió
que representa la definició intensional del coneixement descrit per les instàncies. Aquest
procés s’assoleix de forma recursiva. Donat el conjunt d’instàncies Σ, emprant l’heurı́stic
basat en el guany d’informació, escull l’atribut a ∈ A que maximitza l’heurı́stic. Aquesta
atribut passa a formar el node arrel de l’arbre, mentre que a continuació Σ es fragmenta
en tants conjunts com possibles valors de a. L’arbre es construeix, de forma recursiva,
repetint el procés anterior per cadascuna de les particions de Σ realitzades.
L’ID3 presenta limitacions importants. Aquestes afecten al tipus d’atribut que pot
manegar, tant sols nominals, aixı́ com la impossibilitat de treballar amb instàncies que
3.4 Algorismes d’aprenentatge 45

presentin valors desconeguts. Posteriorment es realitzaren un conjunt de modificacions


a l’ID3 per poder, entre d’altres, abordar la problemàtica anterior. El resultat fou l’al-
gorisme d’inducció d’arbres de decisió conegut amb el nom de citaquinlan:1993Quinlan,
J.R.. Aquest algorisme incorpora modificacions que el permeten treballar amb atributs
nominals i numèrics alhora, aixı́ com amb instàncies que presentin valors desconeguts,
entre d’altres.

3.4.2 0-R i 1-R

Els algorismes que s’anomenen i són algorismes molt senzills d’obtenció de regles de
classificació. El primer dels algorismes basats en regles que es comentarà en aquesta
secció és el conegut com 0-R [Holte, 1993]. Aquest algorisme consisteix senzillament
en classificar una nova instància e en funció de la classe majoritària χi ∈ X present en
el conjunt d’instàncies Σ del conjunt d’entrenament. El nom de 0-R prové del fet que
l’algorisme no utilitza cap dels atributs de A per realitzar aquest procés. Conseqüentment
la regla que genera l’algorisme correspon a:

∅ → χi (3.28)

El segon dels algorismes d’aprenentatge de regles escollit és el 1-R [Holte, 1993].
Aquest algorisme és una evolució del 0-R comentat anteriorment. L’algorismes genera
una regla de classificació on l’antecedent sols consisteix en el test sobre un dels atributs
aj de A, d’aquı́ el seu nom. És a dir, en el cas que aj sigui un atribut nominal la regla
que s’obté esdevé:
aj = vk → χi (3.29)

Per contra si l’atribut és numèric, la regla generada és:

aj ≤ vk → χi (3.30)

L’atribut aj, el valor vk i la classe χi s’obtenen a partir del conjunt d’instàncies


d’entrenament de Σ. Concretament, l’algorisme d’aprenentatge consisteix en escollir
aquella combinació de valors que maximitza el percentatge d’encert en la classificació
dels exemples de Σ. Com es pot apreciar la generació de la regla es converteix en un
procés de cerca dels valors adient de aj, vk i χi.

3.4.3 PART

L’últim dels algorismes que s’utilitzarà en aquesta tesi per la obtenció de regles de
classificació és el PART [Frank and Witten, 1998]. Aquest algorisme construeix regles
de forma incremental. La principal particularitat d’aquest algorisme és el procés que
s’utilitza per construir cadascuna de les regles. Enlloc de fer-ho de forma incremental
46 Aprenentatge Artificial

a partir de l’adició de conjuncions a una regla buida, fet que acaba implicant processos
d’optimització i cerca globals, el que proposa es emprar arbres de decisió parcialment
definits. La idea consisteix en extreure les regles d’un arbre d’inducció parcialment
definit. Això implica que no es totes les instàncies són cobertes per l’arbre. Un cop
extretes regles, es treuen de Σ aquelles instàncies cobertes, repetint el procés fins que no
queden ja instàncies per cobrir. Aquest arbres s’obtenen emprant l’algorisme C4.5 que
s’ha comentarà anteriorment. Una de les principals propietats d’aquest algorisme rau en
el fet que sense necessitat d’optimitzacions globals obté conjunts de regles compactes i
acurades [Frank and Witten, 1998].

3.4.4 IBL

El tercer bloc d’algorismes escollits són els que treballen amb instàncies. El primer
algorisme que es presenta és el IB1 [Aha et al., 1991, Aha, 1992]. Aquest algorisme
implementa l’algorisme del veı́ més pròxim (nearest neighbor algorithm, o NN) emprant
com a mesura de distància la distància euclidiana. Complementariament, lligat a aquest
algorismes es pot trobar el IBk [Aha et al., 1991, Aha, 1992]. La seva principal diferència
respecte el IB1 rau en el fet que utilitza els k veı̈ns més pròxims (k-NN) per dur a terme
el procés de classificació. Concretament, el que realitza és classificar una instància en
funció de la classe majoritària proposada pels k veı̈ns més pròxims.
Un dels problemes que presenten els algorismes basats en instàncies és l’elevat nom-
bre d’instàncies que s’han de mantenir per poder realitzar la classificació. És per aquest
motiu que també es vol comentar, degut a l’utilització que se’n farà en la part ex-
perimental de la tesi, algunes variants de l’IB1 com són l’IB2, l’IB3, l’IB4, i l’IB5
[Aha et al., 1991, Aha, 1992]. Aquests algorismes busquen, alhora que classifiquen, re-
duir el nombre d’instàncies emmagatzemades per dur a terme el procés de classificació.
L’IB2 es similar a la regla condensada del veı́ més pròxim (condensed nearest neigh-
bor, o CNN) [Hart, 1968]. La CNN comença escollint, a l’atzar, una instància de Σ
per cadascuna de les classes de X. Si una nova instància és mal classificada emprant
les instàncies existents, aquesta s’afegeix al conjunt d’instàncies emmagatzemades per
evitar futurs errors. Emprant aquesta polı́tica l’IB2 emmagatzema instàncies sorolloses,
degut a que aquestes no es classificaren correctament. Per la seva part l’IB3 utilitza
testos estadı́stics per permetre sols emmagatzemar instàncies mal classificades accep-
tables, buscant aixı́ reduir l’impacte del soroll en el conjunt d’instàncies que es manté.
Finalment l’IB4 i l’IB5 estenen l’IB3 computant un conjunt de pesos per cadascun dels
atributs presents a A, buscant aixı́ minimitzar l’impacte d’atributs irrellevant presents
en el problema P a resoldre. A l’igual que succeı̈a amb l’IB1 tant l’IB2, l’IB3, l’IB4,
com l’IB5, poden treballar també amb modalitat de k-NN.
3.5 Resum 47

3.4.5 SMO

Dins de la classificació lineal estesa, i concretament dins les màquines de support vec-
torial, existeixen una gran quantitat d’algorismes d’aprenentatge per obtenir els vectors
de suport. Un dels més emprats recentment és el que s’anomena minimal sequential
optimization o SMO [Platt, 1998]. Aquest algorisme correspon a una algorisme d’apre-
nentatge per màquines de suport vectorial centrades en la resolució de problemes de
classificació binària. Degut a les consideracions matemàtiques d’aquest algorisme que
obligarien a explicació detallada per poder explicar el funcionament de l’algorisme, es
refereix al lector interessat a [Platt, 1998].

3.4.6 Naive Bayes

L’últim dels algorismes que es vol comentar és un algorisme basat en models estadı́stics.
Aquest és el conegut com a Naive Bayes [John and Langley, 1995]. Aquest algorisme
utilitza la regla de la probabilitat condicionada de Bayes per dur a terme la classificació
utilitzant les instàncies de Σ, tal i com s’ha descrit a a la secció 3.3.6 (pg. 41). El
mot d’ingenu (naive) prové del fet que assumeix independència entre les aportacions
dels diferents atributs de A, aixı́ com de la importància de cadascun d’ells. L’algorisme
és simple, consisteix solament en automatitzar el procés de recompte i aplicació de la
regla de Bayes presentada a la secció 3.3.6. L’algorisme s’ha incorpora una extensió per
poder treballar valors d’atributs desconeguts, afegint aquest valor desconegut amb un
més dels que poden adoptar els atributs de A. L’algorisme però requereix d’una etapa
de discretització prèvia dels atributs numèrics. Aquesta és imprescindible per permetre
a l’algorisme treballar alhora amb atributs nominals i numèrics.

3.5 Resum

En aquest capı́tol, lluny de voler realitzar una exposició exhaustiva del que s’enten per
aprenentatge artificial, s’ha introduı̈t algunes conceptes i elements que s’han utilitzat
al llarg d’aquesta tesi. Per aquest motiu, aquest capı́tol ha començat fent una revisió,
a grans trets, del tipus d’aprenentatge artificial que es podent trobar. Concretament,
aquesta descripció ha versat sobre tres punts importants per l’aprenentatge, com són: (1)
la natura de l’entorn o problema d’aprenentatge a resoldre, (2) la relació amb l’entorn,
i (3) la representació del coneixement utilitzada.
Posteriorment, el capı́tol s’ha centrat en posar de relleu les possibles connexions
existents entre l’aprenentatge artificial i la mineria de dades. En aquest punt s’ha posat
de relleu les coincidències entre ambdues disciplines i com, sota certes consideracions, els
problemes de mineria de dades es poden resoldre emprant aprenentatge artificial. Dins
48 Aprenentatge Artificial

d’aquest punt s’ha tornat a posar de manifest que el marc d’aquesta tesi correspon a un
cas particular de mineria, el es sol anomenar com problemes de classificació automàtica.
Havent identificat aquestes connexions, el capı́tol ha prosseguit comentant algunes
consideracions importants pels problemes de classificació. Concretament, aquestes fan
referència a l’impacte que la tria de la representació del coneixement té pels problemes de
classificació automàtica. Dins d’aquest apartat s’ha revisat com algunes de les principals
representacions del coneixements emprades per la classificació condicionen i limiten la
capacitat per expressar conceptes de classificació. Concretament, aquest fet ha quedat
en els sis diferents tipus de representacions exposades. Lluny de fer un repàs exhaustiu
s’ha comentat algunes de les més emprades com són: (1) arbres de decisió, (2) regles,
(3) basades en instàncies, (4) classificacions lineals esteses, i (5) models estadı́stics.
Finalment, el capı́tol ha presentat alguns dels principals algorismes associats a ca-
dascuna de les representacions del coneixement presentades. La finalitat de presentar
aquests algorismes ha estat doble. La primera era per pode il·lustrar com, donada una
representació del coneixement, es pot construir al seu damunt un algorisme d’aprenen-
tatge. Per altra banda, els algorismes s’han presentat degut a que s’ha utilitzat en la
tesis que aquı́ es presenta, tal i com es podrà apreciar més endavant.

3.6 Notes Bibliogràfiques

Per concloure aquest capı́tol, tot seguit es proporcionaran algunes referències bibli-
ogràfiques que corresponen, i alhora amplien, el material presentat en aquest capı́tol.
Per començar, tant a [Kodratoff, 1986], com [Langley, 1996] es poden trobar exten-
ses introduccions al camp de l’aprenentatge artificial. Dins d’aquest grup de referències
genèriques d’aprenentatge artificial, s’hi pot afegir una tercera referència que correspon a
[Mitchell, 1997]. Continuant amb les referències de caire genèric tot seguit se’n volen es-
mentar un parell més. Tant a [Witten and Frank, 2000], com a [Han and Kamber, 2001],
es poden trobar clarament identificades les relacions existents entre la mineria de dades
i l’aprenentatge artificial, i com aquest últim hi pot jugar un paper rellevant.
Pel que fa als arbres de decisió ortogonals, referència obliga és [Quinlan, 1993] en la
qual es descriu, entre d’altres, la seva estructura. Pel que fa als arbres de decisió oblics
se’n volen presentar algunes de puntuals. A [Heath et al., 1993] es pot trobar, entre
d’altres, el per que la inducció d’arbres de decisió oblics és un problema NP-Hard. Per la
seva banda, els arbres de decisió oblics es poden estendre per poder treballar amb atributs
nominals, tal i com es pot trobar a [Breiman et al., 1984] i a [Van de Merckt, 1993].
Pel que fa a l’últim dels tres tipus d’arbres de decisió presentats en aquest capı́tol, els
multivariats, se n’han seleccionat quatre de diferents. Aquestes referències que corres-
ponent a [Murthy et al., 1994], [Utgoff and Brodley, 1990], [Llorà and Garrell, 2000a],
i [Hampson and Volper, 1986], presenten quatre aproximacions diferenciades a la repre-
sentació d’arbres de decisió multivariats.
3.6 Notes Bibliogràfiques 49

Dins les representacions del coneixement basades en regles existeixen dues referències
de gran influència. La primera correspon a [Zadeh, 1965]. En ella es presenta un tipus
de representació de regles anomenades difuses. Per altra banda, a [Muggleton, 1992] es
recull un compendi de la tasca realitzada en el camp de la programació lògica inductiva
(inductive logic programming, o ILP). En aquesta referència es descriu el treball en
l’aprenentatge de regles de primer ordre basades en l’ús de clàusules de Horn.
Pel que fa a les representacions basades en instàncies, existeixen un gran nombre
de referències possibles. Malgrat això, sols se’n volen referenciar dues de particulars.
Aquestes corresponen a [Aha et al., 1991, Aha, 1992]. El motiu de presentar aquestes
dues és la gran rellevància i impacte que han tingut dins la comunitat que treballa amb
l’aprenentatge basat en instàncies.
Un dels primer llibres de text sobre la classificació lineal estesa i les màquines de
suport vectorial es pot trobar a [Vapnik, 1995]. Un altra referència de recent aparició
és [Cristianini and Shawe-Taylor, 2000]. Una altra referència àmpliament emprada és el
tutorial que es pot trobar a [Burges, 1998].
El tema de models estadı́stics és àmpliament treballat per la comunitat matemàtica
que es dedica a l’estadı́stica. Per no esbiaixar la referència cap a un model o tema
concret, a [Canavos, 1988] es pot trobar un recull de material i modelat estadı́stic de
dades. Malgrat això, les referències genèriques presentades al començament d’aquest
capı́tol també es poden trobar descripcions de models particulars, aixı́ com la seva
possible implementació pràctica.
Per concloure aquest capı́tol de referències, tot seguit es comentaran algunes re-
ferències que permeten aprofundir en els algorismes d’aprenentatge presentats al llarg
d’aquest capı́tol. L’article en el qual es presentà l’ID3 es pot trobar [Quinlan, 1986]. Per
la seva banda, el C4.5 fou àmpliament descrit a [Quinlan, 1993]. Els algorismes basats
en regles 0-R i 1-R es poden trobar a [Holte, 1993]. Per la seva banda, el PART es pot
trobar comentat àmpliament a les dues referències següents [Frank and Witten, 1998,
Witten and Frank, 2000]. Dins la famı́lia d’algorismes d’aprenentatge basat en instàncies
IBL, les dues referències que han marcat el camp són [Aha et al., 1991, Aha, 1992],
malgrat ja existı́s força feina feta amb anterioritat, com en el cas del CNN [Hart, 1968]
emprant per l’IB2. El penúltim algorisme presentat, el SMO, es presentà a [Platt, 1998],
aixı́ com l’últim dels algorismes presentats, el Naive Bayes, se’n pot trobar més material
a [John and Langley, 1995].
50 Aprenentatge Artificial
CAPÍTOL 4

Computació Evolutiva

La computació evolutiva és el nom que rep el camp que amalgama diferents
tècniques i metodologies d’inspiració biològica. Aquest capı́tol descriurà informalment les
principals tècniques que s’hi podem trobar. Com es podrà apreciar en aquesta descripció,
moltes d’elles estan pensades per aplicar-se a diferents problemes, per exemple problemes
d’optimització (numèrica o combinatòria), de planificació, o fins i tot d’aprenentatge
artificial. És en aquest últim, l’aprenentatge artificial emprant computació evolutiva,
que se’n farà una descripció detallada. El motiu és descriure, tant les bases com el el
treball existent, en el qual s’emmarca aquesta tesis.

4.1 Taxonomia

Sota el nom de computació evolutiva [Fogel, 1995] es poden trobar una gran varietat
de tècniques d’inspiració biològica. Lluny de voler realitzar una descripció exhaustiva, el
que es vol fer a continuació és descriure les principals vessants, aixı́ com ressaltar algunes
de les seves caracterı́stiques diferenciadores.
Una possible classificació de les tècniques que conformen la computació evoluti-
va és la que agrupa les tècniques en quatre grans blocs: (1) els algorismes genètics
[Holland, 1975], (2) la programació genètica [Koza, 1992], (3) les estratègies evolutives
[Rechenberg, 1965, Schwefel, 1965], i finalment l’últim gran bloc que és (4) la programa-
ció evolutiva [Michalewicz, 1992, Fogel, 1995]. Tot seguit es donaran quatre pinzellades
de cadascuna d’elles. Posteriorment, s’aprofundirà en el camps dels algorismes genètics,
aixı́ com la seva aplicació a l’aprenentatge artificial, degut a la importància que presenten
per la tesi que aquı́ es presenta.
52 Computació Evolutiva

4.1.1 Algorismes Genètics

Els algorismes genètics són el resultat del treball realitzat per John H. Holland buscant
abordar problemes computacionals amb tècniques d’inspiració marcadament biològica
[Holland, 1969, Holland, 1975]. La principal aportació realitzada fou la presentació d’un
dels primers models basats en la idea d’evolució artificial, aixı́ com la descripció i estudi
d’algunes de les seves aplicacions. Alguns dels exemples de les aplicacions proposa-
des passaven per la resolució de problemes d’optimització, aprenentatge o modelat de
sistemes ecològics.
La continuació d’aquesta proposta fou duta a terme per David E. Goldberg, feina
que es recull a [Goldberg, 1989]. Entre d’altres, s’aprofundeix en l’estudi d’algorismes
selecto-recombinatius. Concretament, es proposen extensions i ampliacions del model
inicial cara a millorar l’eficiència en la resolució de problemes, principalment d’optimit-
zació (unimodal, multimodal i multiobjectiu). També destaquen l’èmfasi en l’estudi
dels mecanismes que guien i controlen el comportament i l’eficiència dels algorismes
genètics amb genomes basats en cromosomes de codificació binària. Extensions cap a
genomes per optimització numèrica, o per optimització combinatòria, es poden trobar a
[Michalewicz, 1992]. Per altra banda, alguns exemples de les possibles aplicacions dels
algorismes genètics es poden trobar a [Davis, 1991].

4.1.2 Programació Genètica

Una altra vessant de la computació evolutiva és el que ha rebut el nom de programació
genètica [Koza, 1992, Koza, 1994, Koza et al., 1999]. L’objectiu és força diferent dels
algorismes genètics. La programació genètica busca la creació automàtica de programes,
o dit d’una altra forma, la creació de sistemes capaços d’autoprogramar-se. Una de les
principals diferències que diferencien els algorismes genètics i la programació genètica rau
en el genoma, i com aquest es codifica. La programació genètica utilitza una represen-
tació genòmica arborescent, capaç de codificar des de senzilles funcions matemàtiques
a complerts programes codificats emprant s-expressions.
Aquesta aproximació presenta diverses aplicacions. D’entre elles destaca la utilitza-
ció de la programació genètica com a eina de disseny automàtic. Les utilitats d’aquest
tipus d’aplicació per camps tant diversos com la generació automàtica d’etapes d’ampli-
ficació o filtres passabanda. Una altra interpretació d’aquest tipus de disseny automàtic
ha donat lloc al camp conegut com hardware evolutiu. Aquest últim es centre en l’e-
volució de dispositius lògics programables, permeten obtenir automàticament hardware
especı́ficament obtingut per un problema concret.
4.2 Orı́gens dels Algorismes Genètics 53

4.1.3 Estratègies Evolutives

La tercera de les vessants en que es pot dividir la computació evolutiva és el que s’-
han anomenat estratègies evolutives [Rechenberg, 1965, Rechenberg, 1973]. El model
d’evolució artificial que proposen les estratègies evolutives difereixen del dels algorismes
genètics en que els primers no són selecto-recombinatius. És a dir, les estratègies evo-
lutives no disposen d’operadors de creuament del material codificat en el seu genoma.
Aquesta diferència fa que el model d’evolució artificial sols es basi en l’ús de la pressió
selectiva i la modificació dels individus a través de la mutació.
Algunes de les aplicacions de les estratègies evolutives són diverses, però centrades
principalment en problemes modelables com a problemes d’optimització, principalment,
numèrica [Schwefel, 1965, Schwefel, 1981]. D’entre aquest tipus de problemes desta-
quen problemes d’enginyeria com són el disseny de perfils d’ales per avions, o tuberies
d’aigua.

4.1.4 Programació Evolutiva

L’última de les vessants que es comentarà breument és la programació evolutiva. Aquest
és un enfocament selecto-recombinatiu que es centra en l’evolució d’estructures de dades
[Fogel, 1995, Michalewicz, 1992]. La idea és resoldre problemes especı́fics introduint la
idea d’evolució artificial dins la resolució del problema. Concretament, la idea és donat
un problema a resoldre amb una certa codificació, adaptar l’evolució artificial per què
pugui treballar directament sobre el poblema per poder-lo resoldre. Com es pot apre-
ciar, aquesta aproximació és diferent a la que s’utilitza per resoldre problemes emprant
algorismes genètics. En aquests es busca adaptar al problema per poder-lo encabir en
una representació de genoma lineal binària. Conseqüentment, la programació evolutiva
necessita la redefinició constant dels seus operadors de recombinació, principalment, per
poder resoldre cada nou problema. Una de les primeres aplicacions a les que s’aplicà
aquesta aproximació fou l’evolució d’autòmats finits [Fogel, 1995].

4.2 Orı́gens dels Algorismes Genètics

Si es parla de genètica, es parla d’evolució. L’origen de la teoria evolutiva sorgeix de


la ment del cientı́fic anglès Charles Darwin a mitjans del segle XIX amb el controvertit
llibre sobre l’origen de les espècies [Darwin, 1859]. El principal problema amb el que
topà la teoria evolutiva fou la visió creacionista del món natural. És a dir, que la idea
d’un canvi al llarg del temps de l’individu buscant una millor adaptació al medi forçada
per la supervivència dels més forts, era una visió diametralment oposada a l’existent en
el moment.
54 Computació Evolutiva

Un altre punt important en la teoria evolutiva fou l’aparició de la genètica la qual


revelava la natura més ı́ntima de tot ésser viu, el material genètic. Aquest descobriment
els reporta el premi Nobel. En la seva teoria es verificà que tot ésser viu conté en el
nucli de les seves cèl·lules tires de material genètic (ADN i ARN) formades pels mateixos
compostos orgànics (‘adenina’, ‘citosina’, ‘guanina’ i ‘tinina’), que donen a cada espècie
i ésser viu la seva aparença única.
Aquest material genètic és el que es passarà de pares a fills en el procés reproductiu.
Malgrat que pugui semblar una contradicció, existeix un element molt important en l’e-
volució, l’error en la copia i recombinació del material genètic. Si el material genètic que
es passa de pares a fills sol fos una copia d’un dels progenitors, o bé una combinació dels
dos, el potencial de diversitat genètica, i per tant el procés evolutiu, es veurien forta-
ment estancats. Introduint aixı́ una pinzellada estocàstica en l’adaptació dels individus
a l’entorn.
L’error aleatori en el procés reproductiu, també anomenat mutació, és el que permet
l’aparició de nous individus amb noves capacitats que res a veure tenen amb els seus
progenitors. Aquest fet, que si s’ajunta amb la supervivència dels més forts, és el que
permet guiar l’evolució cap a poblacions d’individus forts i preparats per viure en el medi
en que es troben. D’aquı́ que es pugui intuir la forta empremta que deixa l’atzar al
llarg d’aquest procés. Cal remarcar que aquest procés evolutiu d’adaptació al medi no
és instantani ni propi d’un sol individu, sinó que precisa d’un nombre de generacions i
poblacions d’individus que es relacionin entre si, d’aquı́ el seu caràcter evolutiu a través
del temps. Una altra particularitat d’aquest procés és el paral·lelisme implı́cit que en ell
existeix, tal i com demostrà [Holland, 1975]. Aquest paral·lelisme sorgeix de la forma
amb la qual es processa el material genètic. Més endavant es tornarà a comentar aquest
punt amb més detall.
La nova aproximació que representa la teoria evolutiva obre un nou i ampli ventall de
possibilitats. Una de les primeres i més directes aplicacions de la teoria genètica, fou la
de l’optimització de funcions matemàtiques. Per assolir aquesta fita sols s’ha d’assimilar
els individus a punts de l’espai de solucions, i l’entorn a la funció a optimitzar. Però la
seva aplicabilitat no acaba amb l’optimització, sinó que aquesta es pot estendre sense
problemes al món de la cerca, on destaquen la seva aplicació a problemes combinatoris
[Michalewicz, 1992], com per exemple en el TSP (travelling salesman problem). Final-
ment, existeix una altra vessant d’aplicació dels algorismes genètics. Aquesta correspon
a l’àrea de l’aprenentatge artificial. Dins de l’ampli ventall de possibilitats existents, la
resta del capı́tol es es restringirà a la classificació automàtica, ja que es el marc d’aquesta
tesi.

4.3 Model d’un Algorisme Genètic

Com ja s’ha esmentat anteriorment un algorisme genètic, pretén “imitar” l’evolució


natural. L’objectiu és fer evolucionar un conjunt d’individus (solucions plausibles) cara a
4.4 Fases d’un Algorisme Genètic 55

t ← 0
initialize P(t)
evaluate P(t)
WHILE <not-end-criterion>
DO
t ← t+1
select P(t) from P(t − 1)
recombine P(t)
evaluate P(t)
DONE

Figura 4.1: Pseudocodi d’un algorisme genètic

obtenir-ne la seva adaptació a un cert entorn (problema a resoldre). El model tradicional


d’algorisme genètic es pot resumir tal i com es presenta a figura 4.1 [Michalewicz, 1992].
Revisant l’algorisme proposat es pot apreciar que existeixen dues parts diferenciades,
la inicialització i la sentència iterativa. En la inicialització el que realitza l’algorisme
genètic, és fixar el nombre d’iteració (o generació) actual a 0. Posteriorment, s’inicialitza
la població d’individus que seran utilitzats al llarg del procés evolutiu. Aquesta etapa
consisteix en assignar un valor a cada gen que conforma el cromosoma d’un individu
(seguin alguna metodologia). Això es realitza per tots el individus que conformen la
població. El següent pas avalua tots els individus de la població. Dit d’una altra forma,
es mesura la “bondat” de cada individu dins de l’entorn en el qual es troben immersos.
Posteriorment, si no es compleix la condició de finalització, es procedeix a entrar en
el procés evolutiu pròpiament dit. Cada iteració realitza les següents tasques:

1. S’incrementa el comptador d’iteració actual.

2. Selecciona els individus més ben adaptats a l’entorn. Aquest procés s’aconse-
gueix escollint de la iteració anterior aquells individus que posseeixen una millor
avaluació. Aquest individus, escollits en funció de la seva adaptació, són els que
sobreviuen a la iteració actual, conformant aixı́ una nova població.

3. Recombina, o modifica, els individus de la iteració actual simulant els processos


naturals de reproducció de les espècies. Aquest procés es centra en dues parts im-
portants: (1) el creuament del material genètic provinent dels progenitors, i (2) la
mutació que, en petita probabilitat, pot patir el material genètic dels descendents.

4. Re-avalua la població sorgida de les etapes de selecció i recombinació resultant


calculant-ne la seva adaptació a l’entorn.
56 Computació Evolutiva

4.4 Fases d’un Algorisme Genètic

El procés descrit anteriorment, es pot representar de forma gràfica com es pot apreciar
a la figura 4.2. Tal i com s’observa la figura, existeixen dues parts diferenciades: la
inicialització, i el procés evolutiu (representat per les successives iteracions). Pel que
fa a la inicialització ja s’ha comentat anteriorment, on l’objectiu d’aquesta etapa inicial
consisteix en obtenir una població inicial a partir de la qual es pugui iniciar el procés
evolutiu. Per altra banda, el procés evolutiu es pot descomposar principalment en quatre
etapes diferenciades.
Avaluació L’etapa d’avaluació consisteix en assignar a cada individu de la població una mesura
de la seva adaptació al medi en el qual es troba. Per exemple, en un problema d’opti-
mització d’una funció matemàtica, aquesta fase consistiria en assignar a cada individu
el resultat de calcular el valor de la funció en aquest punt.
Selecció El següent pas és la selecció. Un cop avaluats els individus que conformen la població,
s’aplica una polı́tica de supervivència dels individus més ben adaptats a l’entorn. És a dir,
es trien el individus que sobreviuran en el medi en funció de la seva avaluació. Seguint
aquesta idea, un exemple de possible mètode de selecció dels individus que conformen
la següent població es pot realitzar proporcionalment a l’avaluació que se’ls ha assignat.
Recombinació Un cop construı̈da la nova població, tot seguit es passa a la recombinació. Selec-
cionats els millors individus, el següent pas és introduir la filosofia de la recombinació
del material genètic dels individus. És en les dues etapes en les que es pot separar la
recombinació (creuament i mutació) on es generen els nous individus, descendents dels
seus progenitors, que hereten el material genètic recombinat que els descriu.
Reemplaçament Dins d’aquest model d’algorisme genètic no es té en compte el reemplaçament de
la població. És a dir, inicialment el model és generacional. Això vol dir que la població
de descendent reemplaça completament a la població de progenitors que els ha general.
Tal i com es veurà més endavant, aquesta no és la única alternativa, ja que existeixen
models no generacionals en els qual conviuen progenitors i descendents.

4.5 Aprenentatge Artificial

L’aprenentatge artificial emprant algorismes genètics, tradicionalment, s’ha dividit en


dues branques, o filosofies, clarament diferenciades. Aquestes dues aproximacions són
el que es coneix per:

• Enfocament de Pittsburgh.

• Enfocament de Michigan.
4.5 Aprenentatge Artificial 57

Inicialització

Avaluació
Població 1 Població 1

Mutació

Selecció
Població 3 Població 2
Creuament

Figura 4.2: Esquema del funcionament d’un AG.

L’enfocament de Pittsburgh es basa en l’aprenentatge supervisat. Per contra, l’en-


focament de Michigan es centra en l’aprenentatge per reforçament. Tant en una apro-
ximació com en l’altra és imprescindible posseir un conjunt d’exemples, a partir dels
quals el sistema haurà d’aprendre la tasca de classificació proposada. En el cas d’aquest
treball, es persegueix que el sistema sigui capaç d’aprendre a classificar correctament.
Per aquest motiu és imprescindible posseir, a més dels exemples, la classe a la qual
pertanyen, degut a l’aprenentatge supervisat que en que es basen ambdós enfocaments.
Un altre punt comú a ambdós enfocaments a tenir en compte, és el fet que ambdós es
basen en una representació del coneixement basada en regles. És a dir, que la finalitat
és aprendre un conjunt de regles que descrigui adequadament la classificació que es vol
aprendre automàticament.
A grans trets, i tenint en compte tot el que s’ha comentat fins al moment, es po-
dria descriure ambdues aproximacions per les seves caracterı́stiques més representatives.
Aquestes es podrien resumir per:

• Enfocament de Pittsburgh.

1. Un individu de la població representa un conjunt de cardinalitat variable de


regles.
2. Un individu és una solució complerta al problema de classificació automàtica.
3. L’algorisme genètic manté el seu esquema tradicional, essent el responsable
d’obtenir la millora de la població per solucionar adientment la classificació
automàtica.

• Enfocament de Michigan.

1. Representa un model cognitiu, el qual es basa en un conjunt de regles, on


l’algorisme genètic és una part més del model.
2. Un individu de la població representa una única regla de classificació.
58 Computació Evolutiva

3. No existeix una funció d’avaluació, sinó que es basa en un algorismes d’as-


signació de crèdit per assignar l’avaluació a cada individu.
4. L’algorisme genètic té com a principal finalitat explorar i injectar noves regles
dins la població.

Tot seguit es descriurà i comentarà amb més profunditat cadascun dels enfocaments.

4.6 Enfocament de Pittsburgh

En l’enfocament de Pittsburgh, cada individu de l’algorisme genètic és un conjunt de re-


gles i per tant, representa una solució completa al problema d’aprenentatge. Mitjançant
la competició i recombinació d’aquests individus, l’algorisme genètic convergeix vers una
única solució, que és aquell individu que presenta el conjunt de regles que millor ha resolt
el problema d’aprenentatge. Els algorismes que s’ubiquen dins aquest paradigma es solen
anomenar, dins la comunitat de computació evolutiva, com a sistemes d’aprenentatge
(learning systems).
L’aplicació de l’algorisme genètic en aquest enfocament es directa. Els principals
motius que en faciliten aquesta aplicació són:

Avaluació dels individus: En l’enfocament de Pittsburgh, cada individu s’avalua tes-


tejant el conjunt de regles que codifica sobre el conjunt d’exemples d’entrenament
disponibles. Això és possible degut al fet que un individu és una solució complerta
al problema.

Convergència: L’algorisme genètic tendeix a convergir cap a una única solució, que és
el que precisament es necessita en l’aproximació de Pittsburgh.

Com es pot entreveure els sistema que en resultarà estarà dividit en dues etapes
diferenciades: una d’entrenament, i una de test.
Tot seguit es realitzarà una breu descripció de les principals caracterı́stiques comunes
que presenten els sistemes pertanyents a l’enfocament de Pittsburgh. Malgrat cada
algorisme presenta les seves particularitats, tots ells parteixen de la mateixa base comuna.
Concretament, a continuació es revisaran tres punts: la representació, l’avaluació, i els
operadors genètics.

4.6.1 Representació

Com es comentà anteriorment, una de les principals caracterı́stiques d’ambdues aproxi-


macions consisteixen en que empren una representació del coneixement basada en regles.
És a dir, el que es vol aprendre automàticament és un conjunt de regles que descrigui el
4.6 Enfocament de Pittsburgh 59

problema de classificació que es resoldre. La principal caracterı́stica de l’enfocament de


Pittsburgh, rau en el fet que un individu representa un conjunt de regles. Dit d’una altra
forma, un individu és tractat com una solució complerta al problema de classificació.
Un dels aspectes a considerar en aquest tipus de representació es la cardinalitat del
conjunt de regles, que pot ser variable o fixa. Si s’utilitzen individus de mida variable,
llavors s’han d’adaptar adientment altres parts de l’algorisme, com serien per exemple
els operadors genètics cara a tractar eficientment individus que posseeixin aquesta carac-
terı́stica. És a dir, els operadors genètics s’han de modificar cara a permetre manipular
cromosomes de mida variable. Aquest punt és important tenir-lo amb compte, ja que
difereix del model tradicional d’algorisme genètic on els individus són de mida fixa.
Pel que fa a la representació interna de les regles, el algorismes d’aquest enfocament
han emprat representacions binaritzades de les regles que descriuen. Per assolir-ho,
cada regla és representa la conjunció dels tests sobre els atributs que descriuen les
instàncies del problema. Un test sobre un atribut esdevé un test sobre la disjunció dels
possibles valors que pot adoptar. Al mateix temps, la regla representa la conjunció dels
diferents testos realitzats sobre cadascun dels atributs. Dit d’una altra forma, les regles
es presenten en forma normal conjuntiva (FNC). Per permetre augmentar l’expressivitat, Forma normal
diferents regles s’agrupen emprant la disjunció entre les mateixes. Aquest conjunt és el conjuntiva
que finalment es codifica en un individu.
En funció del problema que es vol resoldre, existeixen sistemes que no representa la
classe de sortida. Això sol succeir quan el que es vol aprendre és un únic concepte/classe.
Aquesta implementació és basa en l’assumpció de de treballar amb un model de món
tancat. És a dir, un exemple no cobert per un conjunt de regles que descriuen un
concepte pertany a la negació del concepte.

Exemple 14 Donada una descripció d’un concepte C com:

C : (S = R ∧ J = R) ∨ (S = T ∧ H = B)

on {S, J, H} són els possibles atributs, aixı́ com {R, T , B} els posibles valors que poden
adoptar cadascun d’ells, una regla es pot representar com:

(100|100|111 ∨ 010|111|001)

Per cada test a realitzar sobre un atribut es codifica amb un 1 si el valor corresponent
ha d’ésser present (l’ordre amb que apareixen el valor dels atributs és important), o amb
0 si no ha d’apareixer. Un test sobre un atribut amb tot els tests a 1 indica que l’atribut
pot adoptar qualsevol valor. Per contra un test amb tots els tests a 0 representa que no
es pot satisfer mai, donant lloc a una regla que mai serà emprada.

Aquesta representació pot ser fàcilment estesa per tractar problemes de classificació
amb més d’una classe. Concretament, això es pot assolir codificant binàriament, dins
de cada regla,el concepte/classe que s’està descrivint explı́citament. Per intentar aclarir
aquest punt estendrem l’exemple anterior.
60 Computació Evolutiva

Exemple 15 Sigui P un problema de classificació amb quatre classes possibles: { c0,


c1, c2, c3 }. Recuperant l’exemple 14, es disposa de les següents regles a codificar:
(S = R ∧ J = R) → c1 ∨ (S = T ∧ H = B) → c2

Aquestes regles es poden codificar afegint la codificació binaria de la classe al final de


cada regla. La codificació del conjunt de regles anterior quedaria per tant com:
(100|100|111|01 ∨ 010|111|001|10)

4.6.2 Avaluació

L’avaluació d’un individu es fa mesurant l’eficiència del conjunt de regles que descriu
sobre el conjunt d’instàncies d’entrenament. Normalment es tenen en compte els criteris
de completesa (exemples positius coberts), consistència (no cobrir cap exemple negatiu)
i simplicitat (en alguns casos, es poden afavorir els conjunts de regles mes reduı̈ts).
Una formulació emprada tradicionalment per calcular l’avaluació dels individus en
un enfocament de Pittsburgh [De Jong and Spears, 1991, Spears et al., 1993], que és:
 c 2
fitness (indi) = (4.1)
t

La funció d’avaluació presentada a l’equació 4.1 es basa en el percentatge d’encert


de les regles descrites per l’individu indi respecte al conjunt d’exemples d’entrenament.
Concretament, c és el nombre d’instàncies d’entrenament correctament classificades,
i t el nombre d’instàncies totals emprades per l’entrenament. Com es pot apreciar,
aquesta funció tendeix a afavorir aquells individus que presentin un millor percentatge
de classificació. Per altra banda, el fet d’elevar aquest percentatge al quadrat, busca
proporcionar petits millores als individus amb percentatges de classificació pobres. Per
contra afavoreix a aquells que presenten un bon percentatge d’encerts.
Des del punt de vista de l’enfocament de Pittsburgh, és necessari disposar d’una
mesura individual de l’avaluació d’un conjunt de regles, o individu. Per aquest motiu
és necessari disposar d’un conjunt d’instàncies del problema a resoldre, facilitant aixı́ la
implementació d’una funció d’avaluació com la presentada a l’equació 4.1.

4.6.3 Operadors genètics

Existeixen dues formes d’aproximar-se al disseny d’operadors especı́fics pels algorismes


pertanyents a l’enfocament de Pittsburgh. Les principals caracterı́stiques d’ambdues
aproximacions es poden resumir de la següent forma:

Adaptació: Cada sistema ha d’adaptar els seus operadors de recombinació en funció


de la representació escollida. Això implica emprar operadors de creuament tradi-
cionals, lleugerament adaptats, per poder tractar amb individus de mida variable.
4.6 Enfocament de Pittsburgh 61

Per exemple, existeixen operadors que per poder realitzar l’intercanvi d’informació
entre cromosomes realitzen una alineació de les regles abans de l’intercanvi (degut
a la mida variable dels individus) [Michalewicz, 1992].

Disseny d’operadors especı́fics: Els diferents sistemes apareguts sota aquest enfoca-
ment han aportat una gran varietat d’operadors diferents. Per exemple, hi ha
sistemes [Janikow, 1993] que defineixen meta-operadors que actuen a varis nivells
(a nivell de cromosoma, a nivell de regla, i a nivell d’atribut). Aquest operadors
són el resultat d’aplicar tècniques de generalització i especialització provinents de
l’aprenentatge inductiu. El problema d’aquest tipus d’aproximació sol néixer de la
complexitat d’ajustar la gran quantitat de paràmetres que se’n deriven.

Tot seguit es passarà descriure alguns del sistemes més representatius de l’enfoca-
ment de Pittsburgh. Per cada sistema se’n farà una breu revisió, aixı́ com es destacaran
algunes de les seves principals peculiaritats.

4.6.4 GABIL

Dins l’enfocament de Pittsburgh, un dels precursors és el sistema anomenat GABIL


(Genetic Algorithm Batch Incremental concept Learner) [De Jong and Spears, 1991,
Spears et al., 1993]. En aquest sistema cada individu és un conjunt de regles. L’in-
dividu es representa amb una tira de bits de mida variable, en funció del nombre de
regles de l’individu. Això és degut a que una regla és de longitud fixa, però cada indivi-
du pot tenir un nombre diferent de regles, d’aquı́ la mida variable. Els operadors genètics
que empra són els mateixos que els emprats tradicionalment en els algorismes genètics,
fent-los lleugeres adaptacions per permetre’ls treballar amb individus de mida variable.
Tot seguit es descriuen, a grans trets, les principals peculiaritats d’aquesta proposta.

Representació

En aquest apartat es revisarà la representació, aixı́ com la seva codificació, del conjunt
de regles per part dels individus. Aquesta es podria resumir de la següent forma.

• Cada individu és un conjunt de regles de classificació. Per tant, un individu és del
tipus: indi = {r1 ∨ r2... ∨ rn}.

• Cada regla està formada per:

– la part esquerra que conté la conjunció dels tests sobre els atributs disponibles.
– la part dreta que indica el concepte associat.

• El test de cada atribut es representa amb una cadena binària de longitud fixa, de
longitud igual al nombre de valors possibles d’aquell atribut. De fet, el test per
cada atribut és una disjunció entre tots els possibles valors que pot prendre.
62 Computació Evolutiva

Per intentar aclarir aquesta descripció, tot seguit es presenta un exemple il·lustratiu
de com funcionaria aquesta representació.

Exemple 16 Es vol expressar regles per un problema de classificació definit sobre dos
atributs { Color, Forma }. Concretament, la informació del problema es pot resumir
dient que:

Color = { vermell, blau, groc}


Forma = { cub, pira  mide, esfera, cilindre, con }
Classe = { c0, c1 }

llavors, una regla del tipus:

 mide) llavors c0
si (Color=vermell) i (Forma=cub o pira

es representaria amb una cadena binària del tipus:

Color Forma Classe


100 11000 0

Es bo tornar a esmentar en aquest punt que un attribut amb tot 1 és una atribut
irrellevant ja que qualsevol possible valor satisfà els tests. D’igual forma es permeten
patrons amb tot 0, indicant que els tests no són satisfets per cap possible valor. Tot i
que aquest tipus de patrons no tenen sentit en la descripció final del concepte, poden
ser útils pel procés evolutiu que duu a terme l’algorisme genètic.
La part dreta d’una regla és el concepte/classe al qual pertany la mateixa. Això
indica que aquest llenguatge de regles defineix un sistema estı́mul-resposta. És a dir, el
sistema quan se l’hi ensenya una instància respon amb la classe associada a la regle que
s’ha activat.
Per codificar un conjunt de regles, sols es necessari anar concatenant diferents regles,
formant una tira de bits de longitud multiple a la d’una regla. La longitud de la tira és
variable en funció del nombre de regles que codifica.

Avaluació

La funció d’avaluació dels individus en el sistema GABIL es la presentada a l’equació


4.1. Per cada individu, s’avalua el percentatge d’instàncies correctament classificades,
respecte al total disponible. Aquesta funció tan sols té en compte el rendiment de
l’individu en la classificació i ignora altres tipus de consideracions com pot ser, entre
d’altres, el nombre de regles que conté.
4.6 Enfocament de Pittsburgh 63

Operadors genètics

Els operadors genètics aplicats són els clàssics, amb algunes lleugeres modificacions per
adaptar-ho a la mida variable dels individus que conformen la població.
El creuament entre individus es fa seleccionant 2 punts de tall. Però al contrari del Creuament
crossover amb 2 punts de tall clàssic, aquı́ apareixen 4 graus de llibertat, enlloc de 2.
És a dir, en escollir dos punts de tall per a un pare, podem no conservar-se els mateixos
per l’altre pare, donat que potser no existeixen. Per tant, cal seleccionar de nou 2 punts
de tall per l’altre pare. L’únic requeriment és que els punts de tall siguin semànticament
correctes. És a dir, si un punt de tall està entre dues regles, en l’altre pare també. Per
il·lustrar-ne el funcinonament, tot seguit s’en presenta un exemple.

Exemple 17 Donats el problema de l’exemple 16, dos possibles individus són:

ind0 : 111|01001|0|101|01101|1
ind1 : 001|11111|1|010|11000|0

Es poden definir els quatre punts de tall necessaris pel creuament, tenint present les
restriccions semàntiques corresponents, tal i com es mostra a continuació,

ind0 : 111|01001|0|10 ⋄ 1|01101|1⋄


ind1 : 00 ⋄ 1|11111|1|010|11000|0 ⋄

Els punts de tall apareixen indicats pel sı́mbol ⋄. Com es pot apreciar el primer punt
de tall en ambdós individus correspon a dos punts semànticament idèntics. És a dir,
ambdós tallen la regla pel primer atribut en el test que correspon al seu tercer valor. Pel
que fa al segon punt de tall d’ambdós individus apareix a la part final d’una regla. Un
cop definits aquests punts de tall, es procedeix a intercanviar el material genètic comprès
entre els dos punts de tall d’ambdós individus. Els individus resultants d’aquest procés
es mostren a continuació:

ind0 : 111|01001|0|101|11111|1|010|11000|0
ind1 : 001|01101|1

Una de les peculiaritats de l’operador de creuament emprat pel GABIL és la seva
capacitat per explorar conjunts de regles de diferents mides. Tal i com es pot apreciar
a l’exemple 17, l’operador, a més a més de recombinar el material genètic, modifica la
longitud dels individus en funció dels punts de tall que han estat seleccionats.
Pel que fa referència a l’operador de mutació és l’habitual d’inversió de bit. A Mutació
diferència de l’operador de creuament, no s’ha d’alterar-ne la definició, ja que consisteix
en invertir el valor d’un determinar gen en funció d’una certa probabilitat. Com es pot
apreciar, aquesta aproximació funciona tant per individus de mida fixa com de mida
variable.
64 Computació Evolutiva

GABL - GA Batch concept Learner

El GABL és l’algorisme genètic que, donat un conjunt d’instàncies, troba el conjunt de
regles que classifiquen els exemples. Aquest algorisme està pensat per funcionar en dues
modalitats diferenciades. La primera és d’entrenament, en la qual s’obtenen les regles
que descriuen les instàncies presentades; la segon, o de test, es centra en l’explotació de
les regles obtingudes, fent-les servir per classificar exemples no vistos anteriorment.

GABIL - GA Batch Incremental concept Learner

En moltes situacions, l’aprenentatge pot ser incremental. És a dir, es va aprenent un


conjunt de regles a mesura que van arribant noves instàncies provinents de l’entorn. El
GABIL és un sistema incremental, que usa el GABL, per aprendre instància a instància.
L’esquema bàsic de funcionament és:

1. Es comença amb una única instància i s’usa el GABL per trobar el conjunt de
regles que la classifiquen correctament. Aquesta instància s’afegeix al conjunt
d’entrenament.

2. S’agafa una nova instància proveı̈da per l’entorn, aixı́ com el millor conjunt de
regles (individu) que ha trobat el GABL i s’utilitza per predir aquest nou exemple.
La instància s’afegeix al conjunt d’entrenament.

3. Si la predicció és errònia, s’aplica de nou el GABL per trobar un nou conjunt
de regles que cobreixi el màxim nombre possible d’instàncies emmagatzemades al
conjunt d’entrenament.

4. Si la predicció és correcta, llavors no s’aplica el GABL.

5. Si l’entorn encara pot proporcionar més instàncies es torna al pas 2. En cas contrari
el procés finalitza.

En aquest cas, cada instància actua com a entrenament i test. Per tant, l’avaluació
del conjunt de regles es fa sobre tots els exemples disponibles, a diferència del GABL
simple que només ho fa sobre el conjunt d’entrenament.

4.6.5 GIL

El sistema GIL (Genetic Inductive Learning) [Janikow, 1993] és un altre dels precursor
de l’enfocament de Pittsburgh. Va ser dissenyat per l’aprenentatge d’un únic i concep-
te. Sorgeix com una aproximació hı́brida a l’aprenentatge emprant algorismes genètics
on posseeix operadors provinents de l’aprenentatge inductiu. Els operadors incorporen
tècniques de generalització i especialització àmpliament estudiades en l’aprenentatge
inductiu.
4.6 Enfocament de Pittsburgh 65

Representació

La representació emprada pel GIL és pràcticament idèntica que la explicada a la secció
4.6.4 pel GABIL. L’única diferència significativa rau en el fet que el GIL està pensat
per l’aprenentatge d’un únic concepte. Aquest fet, simplifica les regles a representar,
ja que es pot suprimir la part en que es descriu la classe/concepte a aprendre. Això es
realitza mitjançant l’assumpció d’un món tancat, on tota instància no coberta pertany
a la negació del concepte.

Avaluació

En aquest apartat tampoc difereix excessivament de la proposta feta pel GABIL. Con-
tinua basant la funció d’avaluació dels individus en funció del seu percentatge d’encert
resolent instàncies d’entrenament.

Operadors genètics

On el GIL si introdueix un ampli ventall de noves aportacions és en el terreny dels


operadors genètics que empra. Aquest operadors provenen directament de l’aprenentatge
inductiu, gràcies a la interpretació simbòlica que es pot realitzar de les regles que codifica
un individu. El GIL aporta uns operadors genètics inductius, o macro-operadors, que
es divideixen en tres nivells: els que s’apliquen a nivell d’individu, aquells que ho fan a
nivell de regla, i finalment aquells que tracten directament amb el nivell d’atribut.
El primer tipus d’operadors genètics són aquells que s’apliquen a nivell d’individu. Individu
Aquest operadors actuen sobre tota la informació codificada en el cromosoma de l’indi-
vidu. Aquests es poden resumir en:

Intercanvis de regles: s’intercanvien les regles entre dos individus diferents. Per exem-
ple els dos individus següents,
h10000|100 ∨ 00100|111i i h10011|110 ∨ 01111|001i
poden produir la descendència:
h10000|100 ∨ 10011|110i i h00100|111 ∨ 01111|001i

Còpia de regles: les regles es copien de forma aleatòria d’un pare a un altre. Per
exemple, donats el pares següents:
h10000|100 ∨ 00100|111i i h10011|110 ∨ 01111|001i
es pot copiar una una rega del segon pare al primer quedant
h10000|100 ∨ 00100|111 ∨ 10011|110i i h10011|110 ∨ 01111|001i

Nou event positiu: aquest és un operador unari que donat un pare i un event positiu
(instància representativa del concepte a aprendre), afegeix una nova regla en el
pare que incorpora aquell fet. Un exemple seria el donat per l’individu
66 Computació Evolutiva

h10000|100 ∨ 00100|111 ∨ 10011|110i


i l’event
00010|001
Aquest produeix que l’individu presenti la següent forma:
h10000|100 ∨ 00100|111 ∨ 10011|110 ∨ 00010|001i

Eliminació de regles: elimina un subconjunt aleatori de regles d’un individu. Per exem-
ple, donat l’individu
h10000|100 ∨ 00100|111 ∨ 11010|010 ∨ 10011|110i
es poden eliminar dues regles a l’atzar, quedant un individu com el següent:
h10000|100 ∨ 11010|010i

Generalització de regles: generalitza un subconjunt aleatori de regles d’un individu.


La generalització es fa passant bits d’un atribut a 1. Amb aquest procés s’obtenen
conjunt de regles més generals, representant un nombre major d’instàncies. Per
exemple, donat l’individu
h10000|100 ∨ 00100|111 ∨ 10011|110i
s’escull un subconjunt de regles (per exemple la 2 i la 3) i es generalitza, donant:
h10000|100 ∨ 10101|111 ∨ 10111|110i

Especialització de regles: especialitza un subconjunt aleatori de regles d’un individu.


L’especialització consisteix en fusionar dues regles escollides a l’atzar prenent per
cada atribut la condició més especı́fica. És a dir, aquella que major nombre de 0
posseeixi. Per exemple donat
h10000|100 ∨ 00100|111 ∨ 10011|110i
s’escull un subconjunt de regles (per exemple la 2 i la 3) i s’especialitza, obtenint:
h10000|100 ∨ 10101|110i

Regla El segon tipus d’operadors genètics són aquells que s’apliquen a nivell de regla.
Aquest operadors ja no actuen sobre tota la informació codificada en el cromosoma de
l’individu, sinó que es centren en les regles que l’individu codifica. Aquests operadors es
poden resumir tal i com es fa a continuació.

Fragmentació de regles: aquest operador divideix una regla en dues. Donada la regla
00110|111
aquesta es pot dividir a l’atzar pel segon atribut, generant dues regles diferents,
tal i com es mostra tot seguit
00110|100 ∨ 00110|011
4.6 Enfocament de Pittsburgh 67

Selector drop: operador que actua sobre una passat els bits d’un atribut, triat a l’atzar,
a 1. Amb això s’aconsegueix que l’atribut esdevingui irrellevant per la regla. Un
exemple seria el següent. Donada una regla com
00110|100
s’escull un atribut a l’atzar i es converteix en irrellevant, tal i com es pot apreciar
tot seguit
11111|100

Intro-Selector: operador invers a l’anterior. S’aplica sobre un atribut que té tot 1s i
canvia alguns dels seus bits a 0s. Un exemple podria ser el següent. Donada la
regla
11111|100
s’escull l’atribut irrellevant i canvien alguns dels bits de 1 a 0, obtenint
10101|100

Nou event negatiu: canvia la definició d’una regla per tal que no cobreixi una instància
que no pertany al concepte que s’està aprenent. Un exemple seria el donat per la
regla
10011|111
i l’event
00010|001
Aquest produeix que la regla presenti la següent forma:
10011|110

Finalment, l’últim tipus d’operadors són aquells que actuen a nivell d’atribut. Aquest Atribut
operadors són els de nivell més elemental, els quals presenten força similituds amb els
operadors de mutació tradicionals dels algorismes genètics. Aquests tres operadors es
poden resumir tal i com es fa a continuació.

Canvi de referència: canvia un bit d’un atribut de 1 a 0 o viceversa.

Extensió de referència: estén el domini d’un atribut, afegint-li valors addicionals (és
a dir, passant bits a 1).

Restricció de referència: operador invers a l’anterior. Elimina valors d’un atribut (can-
via de 1 a 0).

El GIL és un sistema complex perquè hi ha molts paràmetres a ajustar, com per
exemple les probabilitats sota les qual s’aplicarà cada operador. Les probabilitats de cada
operador es calculen amb 2 paràmetres: l’equilibri entre generalització i especialització, i
la mesura (dinàmica) de la cobertura (nombre d’instàncies classificades) [Janikow, 1993].
68 Computació Evolutiva

4.6.6 Altres sistemes

D’ençà l’aparició del GABIL i el GIL han aparegut altres sistemes que s’han inspirat en
aquesta lı́nia de treball. En aquest apartat es farà una breu revisió d’alguns d’ells, que
per un motiu o altre han estat representatius. Alguns d’ells, presenten alguna influència
provinent de l’enfocament de Michigan. Malgrat això, continuen mantenint les idees
inicials presents als sistemes de Pittsburgh.
El COGIN [Greene and Smith, 1993], coetani del GIL fou un dels primers sistemes
que fou especı́ficament dissenyat per la resolució de problemes de classificació n-aris.
Concretament, el COGIN es capaç de fer evolucionar poblacions de regles emprant un
model competitiu basat en el nombre d’instàncies classificades. Per la seva banda, el
REGAL [Giordana and Neri, 1995] presenta un esquema força similar al COGIN, ja que
també està pensat per l’aprenentatge en problemes de classificació n-aris. Introdueix un
operador de selecció basat en sufragi universal, on diferents regles tendeixen a classificar
diferents conjunts d’entrenament que solucionen globalment el problema de classificació.
Per la seva banda, el GA-MINER [Flockhart, 1995] és un sistema dissenyat pel des-
cobriment de patrons dins de bases de dades. Aquest fet l’allunya un xic dels problemes
de classificació pròpiament dits, acostant-lo cap a problemes d’obtenció d’associacions
entre dades de la base de dades explorada. Cada individu de la població descriu una
única regla expressada en forma normal disjuntiva. Malgrat pugui semblar proper a l’en-
focament de Michigan, cada regla és avaluada independentment de la resta de regles
de la població. La formació de conjunts de regles es realitza emprant una estratègia
heurı́stica incremental. Com que l’objectiu el GA-NINER és descobrir associacions, on
el percentatge d’encert global passa a formar part d’un segon pla, no quedant garantida
pel sistema.
Una de les principals problemàtiques que presenten aquests sistemes és l’elevat cost
computacional que comporten. Per aquest motiu, s’ha buscat en la paral·lelització una
eina que permeti reduir el temps de procés necessari per arribar a una solució. Un
exemple en són els esforços duts a terme per assolir la paral·lelització eficient del GA-
MINER [Flockhart, 1995, Araujo et al., 2000].
Com es pot apreciar en aquest tipus de proposta es busca paral·lelitzar un algorismes
seqüencial. Aquest no ha estat el punt de partida del GALE [Llorà and Garrell, 2000a],
el qual presenta directament un model totalment paral·lel de classificació. Aquest es
basa en l’ús de paral·lelisme de gra fi, explotant la localitat inherent en les relacions
que s’estableixen en malles 2D. També difereix, entre d’altres, de la resta de membres
de l’enfocament de Pittsburgh, en que és un model independent de la representació del
coneixement emprada. Tal i com s’exposarà més endavant, no es limita a obtenir con-
junts de regles, sinó que també es capaç de treballar, per exemple, amb representacions
basades en instàncies o arbres.
4.7 Enfocament de Michigan 69

4.7 Enfocament de Michigan

L’aproximació que es coneix com a enfocament de Michigan , sorgeix d’un filosofia clara-
ment diferenciada de l’enfocament de Pittsburgh. En aquesta proposta d’aprenentatge
de regles, l’algorisme genètic pren un paper més acotat. És a dir, si abans l’algorisme
genètic era el motor principal de l’aprenentatge, en aquesta aproximació sols pren el
paper d’introduir noves regles, explorant aixı́ l’espai de possibles solucions (regles). Dit
d’una altra forma, l’algorisme genètic és una part que forma un sistema més ampli. Els
algorismes que pertanyen a aquest tipus de paradigma, dins la comunitat de computació
evolutiva, reben el nom genèric de sistema classificador (classifier system).

4.7.1 Model general

En aquest apartat es comentarà el model general de l’enfocament de Michigan. El


model general que segueixen els sistemes classificadors parteix de la proposta realitzada
per John H. Holland. La descripció del model que es farà a continuació és el resultat del
refinament d’aquest model [Holland and Reitman, 1978, Goldberg, 1989]. Tots aquest
models presenten una clara inspiració en models proposats per la psicologia cognitiva.

Esquema

Un sistema classificador és una proposta de model cognitiumodel!cognitiu. Com a tal


descriu la representació de coneixement que manipula (en aquest cas regles), i tot aquell
conjunt de mecanismes relacionats en la seva adquisició, manipulació i interacció amb
l’entorn en el qual es troba immers el sistema classificador.
Un sistema classificador consta, principalment, de les parts següents:

• Un sistema de regles (rule system).

• Un sistema de repartiment de crèdit (apportionment of credit).

• Un algorisme genètic.

Cadascuna d’aquestes parts s’interrelacionen tal i com apareixen a la figura 4.3. A


més d’aquestes parts, que es comentaran posteriorment, existeixen tres elements més
que completen el model cognoscitiu proposat pels sistemes classificadors. Aquests són:

Detectors: els detectors representen els ‘sensors’ del sistema classificador. Es podria fer el
sı́mil dient que són els ulls, l’oı̈de, . . . que recullen la informació de l’entorn en el
qual es troba immers el sistema classificador o individu que pretén dur a terme el
procés d’aprenentatge.
70 Computació Evolutiva

Sistema de regles
Satisfà
Condició Missatge
Llista de Llista de
missatge regles

Envia

Detectors Assignació de crèdit Efectors

Algorisme genètic

Entorn

Figura 4.3: Esquema d’un sistema classificador


4.7 Enfocament de Michigan 71

Efectors: els efectors són el motor d’interacció amb l’entorn. Fent una analogia, són les mans
i els peus del sistema classificador, i per tant són els responsables de proporcionar
una resposta. Aquesta resposta s’origina de la interacció entre el coneixement
adquirit, representat per les regles de la llista de regles, i els estı́muls provinents
del medi proporcionats pels detectors.

Entorn: l’entorn representa el medi en el qual es mou el sistema classificador. És el conte-
nidor implı́cit dels conceptes que el sistema classificador ha d’aprendre. Aquests
conceptes són transmesos en forma d’estı́muls (missatges) captats pel detectors.
Per altra banda, el medi és capaç d’aportar al sistema recompenses per premiar
l’aprenentatge correcte dels conceptes, fet que es fa patent a través de les accions
que emprenen els efectors.

Un cop comentats els conceptes bàsics que baralla un sistema classificador, es passarà
a comentar els principals elements que els composen.

Sistema de regles

El sistema de regles és aquella part del sistema classificador encarregada de l’emma-
gatzamatge dels conceptes que el sistema ha anat adquirint. Està composat per dos
elements complementaris com són:

1. Llista de missatges

2. Llista de regles

Si es continua amb les analogies, es podria considerar la llista de regles com el co-
neixement que possibilitarà la capacitat de raonar; mentre que per la seva banda la llista
de missatges conté la informació que es genera en el procés de raonament, barrejant el
coneixement intern (missatges enviats per l’activació de regles) i la informació provinent
de l’exterior (missatges dels detectors). Tot seguit es comentarà aquests dos elements
amb més detall.
Tal i com el seu nom indica, la llista de missatges és sols això, una llista. La funció Llista de mis-
d’aquesta llista és doble. Per una banda recull la informació provinent de l’exterior, és satges
a dir missatges enviats pels detectors. Per altra, la llista també conté la informació
generada pel raonament en curs. Dit d’una altra forma, recull els missatges enviats com
a resultat de l’activació d’una regla que ha guanyat en l’etapa de repartiment de crèdit.
Els missatge que es maneguen a la llista presenta una estructura que correspon a:

{ 0,1 }l

On l és la longitud dels missatges que conté la llista.


La llista de regles està formada per un conjunt de regles que segueixen la definició de Llista de re-
les regles que proposa John H. Holland pel seu sistema classificador, i que posteriorment gles
72 Computació Evolutiva

s’ha extès a la resta de sistemes classificadors. Una regla (o classificador) està composada
per dues parts, la condició i el missatge associat. Resumint:

1. La condició (gràfica 4.3) és defineix sobre l’alfabet format per {0,1,#}l. Tot
seguit es pot trobar un exemple que il·lustra el funcionament d’aquest tipus de
condicions.

2. Els missatges es defineixen, tal i com s’ha comentat anteriorment, sobre l’alfabet
definit per {0, 1}l.

La llista de regles disposa d’un espai finit, motiu pel qual sols pot arribar a contenir
n regles. A diferència de l’enfocament de Pittsburgh, un individu sobre el qual actuarà
l’algorisme genètic, correspon a una única regla. Amb aquesta aproximació, es torna a
treballar per tant amb individus de longitud fixa.

Exemple 18 Sigui l = 6, alguns exemples de possibles missatge emmagatzamats a la


llista de missatge serien:

101010
001110
010001

Per altra banda, alguns exemples possibles de regles es poden trobar a continuació.

##10##:010001
####11:101101
0100##:110111

La notació emprada correspon a condició:missatge. Els sı́mbols {0,1} requereixen


que per que la condició s’activi, el missatge contingui el mateix sı́mbol en la mateixa
posició. Per contra, el sı́mbol # admet qualsevol valor, ja sigui {0,1}. Per acabar
d’il·lustar informalment com funciona el sistema de regles, s’en donarà una un exemple
de funcionament. Si el conjunt de regles anterior es troben a la llista de regles, i a la
llista de missatge hi ha el missatge 101010, el sistema de regles funcionaria de la següent
forma:

101010 −→ ##10##:010001 −→
010001 −→ 0100##:110111 −→
110111 −→ ####11:101101 −→
101101

Un cop introduit el missatge 101010 l’única condició que s’activa, és a dir, que la con-
difció satisfà sı́mbol a sı́mbol el missatge és ##10##:010001. Aquesta activació genera
que el missatge de la regla 010001 sigui abocat a la llista de missatges, recomençant el
procés. L’encadenament de regles finalitza amb el missatge 101101, el qual no es capaç
d’activar cap de les regles disponibles.
4.7 Enfocament de Michigan 73

Repartiment de crèdit

La principal finalitat del repartiment de crèdit no és altra que la d’assignar a cada regla
existent a la llista una avaluació. Això és degut a que un individu és una única regla,
fet que impossibilita l’ús de l’esquema tradicional d’avaluació. La finalitat d’aquesta
avaluació (també anomenada força) és la de permetre distingir quines regles són útils
dins el conjunt total de regles, fet que permetrà implementar mecanismes de pressió
selectiva dins el conjunt de regles. Aquesta messura és imprescindible per poder dur
a terme l’exploració de l’espai de solucions per part de l’algorisme genètic. Per altra
banda, la proposta realitzada per John H. Holland basa aquesta mesura en la predicció
de la recompensa que una regla és capaç d’obtenir de l’entorn.
El Bucket Brigate Algorithm (o BBA) es basa en una filosofia d’economia de mercat,
on el que es compra i es ven és informació. Concretament, el que es compra i ven són els
missatges de la llista, fet que permetria a una regla activar-se i vendre el seu missatge
a través de la llista. El funcionament de l’algorisme es pot descomposar en les següents
etapes:

• La subasta (o auction)

• La casa de compensació (o clearing house)

Una de les principals peculiaritats del BBA consisteix en el fet que permet l’activació
de multiples regles alhora. És a dir, donat un missatge de la llista és possible que aquest
activi més d’un classificador, o el que és el mateix, que la condició de les regles siguin
satistefes per missatges de la llista. Dit d’una altre forma, els 0 i 1 de les condicions
corresponen en lloc als del missatge, mentre que els # de la condició accepten tant 0
o 1 en la possició corresponent del missatge, és a dir qualsevol valor. Aquesta polı́tica
d’activació provoca que pugui arribar a existir més d’un classificador que es trobi en
condicions d’enviar el seu missatge. Aquı́ és on es veu la necessitat d’introduir algun
mecanisme que permeti dir qui és activat, mecanisme que es coneix com a subasta.
La subasta consisteix en que cada classificador realitza una oferta per ‘comprar’ el Subasta
missatge que l’ha activat. Aquesta oferta és funció de la seva força [Holland, 1975,
Holland and Reitman, 1978]. Els guanyador/s de la subasta seran els que enviaran els
seus missatges i entren a la següent etapa, la casa de compensació. Posteriorment és
descriurà que s’entén per enviar els seus missatges.
La casa de compensació consisteix, senzillament, en pagar les ofertes realitzades pels Casa de com-
classificadors guanyadors de la subasta. És a dir, aquests classificadors pagan el valor pensació
ofert als classificadors responsables de l’enviació del missatge que els ha activat a la
llista de missatges. És a dir, decrementa la força en funció el valor de la oferta realizada,
passant aquesta quantitat al classificador responsable de dipositar el missatge a la llista.
Arribats a aquest punt i per intentar aclarir-ho un xic es comentarà el funcionament
conjunt del sistema de regles i la seva interacció amb el BBA. Els principals punts del
funcionament conjunt del BBA el sistema de regles correspondrien a:
74 Computació Evolutiva

1. Comença un nou cicle de l’algorisme. No hi ha cap missatge a la llista de missatges.

2. Arriba un missatge de l’entorn generat pels detectors i es diposita a la llista de


missatges.

3. Es realitza la subasta, tal i com s’ha explicat anteriorment.

4. Els classificadors guanyadors (si n’hi ha) paguen l’oferta realitzada a la subasta a
través de la casa de compensació.

5. Els classificadors guanyadors envien els seus missatges a:

• L’entorn (a través dels efectors que realitzen accions alterant-lo).


• A la llista de missatges.

Cal destacar que s’envien als dos llocs. Això és degut a que la principal finalitat que
es persegueix (veure [Holland, 1975]) és l’aprenentage de desicions seqüencials.

6. Aquest procés es repeteix fins que s’assoleix una recompensa provinent del mitjà,
o bé s’ha esgotat el nombre màxim d’iteracions que pot realitzar el BBA1 .

7. Un cop s’ha finalitzat el BBA, es procedeix a buidar la llista de missatges i ens


torna a començar el procés.

Comentar finalment que el procés d’aprenentatge a partir de mostres proposat (on


aquestes correspondrien a missatges provinents dels detectors, i pertant de l’entorn) tant
pot ser incremental, com batch. Això és degut a que per treballar d’una o altra forma
sols variarà la forma de presentar els missatges entre les iteracions del BBA.

Algorisme genètic

La finalitat de l’algorisme genètic en un sistema classificador consisteix en introduir noves


regles dins la llista de classificadors. El principal motiu d’emprar un algorisme genètic
és la d’aprofitar el paral·lelisme implı́cit, també conegut per O(n3), [Holland, 1975,
Goldberg, 1989] que permet la cerca paral·lela de l’espai de regles que es cerca basada
en blocs constructius (o building blocks). Amb aquesta utilització es pretén aprofitar la
potència dels algorismes genètics per crear nous classificadors basada en la recombinació
de la informació existent en els seus progenitors.
Un cop comentats a grans trets els motius pels quals s’usa un genètic, s’hauria de
passar a comentar les peculiaritats que posseirà aquest per poder-se adaptar a la finalitat
d’injectar nous classificadors en la població. Per aquest motiu es comentarà tot seguit
els següents punts:

1. Codificació dels cromosomes


1
De la bibliografia s’intueix que serà funció de la longitud del raonament seqüencial que es vol
apendre, malgrat no es sol esmentar explı́citament
4.7 Enfocament de Michigan 75

2. Recombinació de solucions

(a) Creuament
(b) Mutació

3. Inicialització

4. Selecció de classificadors

5. Problemàtica inherent: ‘la co-evolució’

Abans de tirar endavant cal destacar que l’algorisme genètic ja no és considerat com
un procés iteratiu, sinó que ara és un conjunt d’etapes (selecció, creuament, mutació i
reemplaçament) l’execució de les quals es realitza quan el rendiment del sistema classifi-
cador comença a caure. Conseqüentment aquestes etapes s’executaran entre activacions
del BBA. Tot seguit es passarà a comentar com afecta a la implementació d’un algorisme
genètic la seva introducció en un sistema classificador.

1. Codificació dels cromosomes


Els cromosomes segueixen la codificació de les regles esmentades anteriorment.
Aquesta codificació es basa en l’alfabet ternari que defineix les condicions, és a
dir, {0,1}. És important tornar a comentar aquı́ que aquest individus són de
longitud fixa, fet que simplifica els operador genètics, tal i com es comentarà tot
seguit.

2. Recombinació de solucions
Com s’ha esmentat anteriorment, la codificació dels classificadors en cromosomes
de longitud fixa simplifica la feina de la recombinació de les regles. Això és degut
al fet que es pot continuar mantenint els operadors tradicionals de creuament i
mutació dins l’algorisme genètic. Tot seguit es comentaran breument cadascun
d’ells.

(a) Creuament
L’operador de creuament utilitzat és el tradicional dels algorismes genètics.
Aquest sols consisteix en triar un punt de tall aleatori en els cromosomes, i
intercanviar la part final del material genètic.
(b) Mutació
L’operador de mutació que es proposa és una variant del clàssic, que inver-
teix un bit seleccionat a l’atzar dins el cromosoma. La definició clàssica,
sols és aplicable sobre el missatge del classificador, el qual es troba definit
sobre l’alfabet binari {0,1}. Per contra en les condicions es defineixen sobre
l’alfabet és ternari {0,1,#}.
Aquest fet no tindria més trascendència si es prengués una probabilitat de
substitució ps = 13 per tot sı́mbol de l’alfabet. Aquesta aproximació és co-
neixcom a mutació natural (o natural mutation). Aquesta no és l’única
76 Computació Evolutiva

forma de fer-ho. Si es mira aquesta aproximació la relació entre gene-


ralització i especialització és de 1:2, esbiaixant les regles cap a particula-
ritats més especı́fiques. Existix una segona forma de fer-ho, amplament
acceptada dins els sistemes classificadors [Holland, 1975, Goldberg, 1989,
Wilson, 1995]. Aquesta és la mutació per nı́nxols (o niche mutation). L’ob-
jectiu d’aquesta mutació és augmentar la pressió de generalització, buscant
una relació de 1:1. Aquest fet s’assoleix fixant la probabilitat d’aparició
p# = 12 . Fet que condiciona que p0 = 41 i p1 = 14 .

3. Inicialització
Degut a la nova concepció de l’algorisme genètic aquesta etapa inicial, ha pròpiament
desaparegut. L’única inicialització que es duu a terme és la llista de regles inicials
que manipula el sistema classificador. Per fer-ho es prenen en consideració les
problemàtiques presentades en l’etapa de mutació. Aquesta inicialització sol ser
aleatòria emprant les probabilitats d’aparició comentades anteriorment, o bé per
el que s’anomena covering [Wilson, 1995]. Aquesta segona es basa en la creació
incremental de regles. Si no existeix cap regla que s’activi per un determinat mis-
satge enviat pels detectors, aquesta es genera amb una condició que correspon
al misatge en el qual s’han subtituits aleatoriament algunes posicions per #; per
contra, el missatge de la regla es construeix aleatoriament.

4. Selecció de classificadors
Aquesta etapa és una de les que també s’ha vist modificada. La finalitat de
l’algorisme genètics és introduir noves regles en la població de classificadors. El
treball dels classificadors és col·lectiu, és a dir, el coneixement que es pretén
adquirir, normalment, no es pot representar amb un únic classificador, sinó que
necessita el treball cooperatiu de més d’un. Algunes consideracions que s’han de
tenir present sobre l’algorisme genètic són, entre d’altres:

• Cerca la millor solució, o el que és el mateix en aquest cas, el millor clas-
sificador. Pel comentat anteriorment, això no és el que interesa en aquest
problema.
• Per altra banda, també seria desitjable que la llista de classificadors no possei-
xi elements repetits, fet que no ens és excessivament útil en aquest problema.

Tots aquests punts fan plantejar si el que realment es necessita és manipular tota
la població de classificadors cada cop que es vol executar l’algorisme genètic. Pel
que s’ha comentat anteriorment sembla que seria recomenable treballar amb un
subconjunt reduit de la mateixa. Per aquesta finalitat John H. Holland i David
E. Goldberg proposen emprar una adaptació d’una idea proposa per Keneth A.
De Jong [De Jong, 1975] en els seu estudis sobre optimització de funcions ma-
temàtiques anomenat espai generacional (o generation gap) que ells renombraran
com selecció proporcional (o selection proportion).
La idea inicial de De Jong consisteix en definir un paràmetre G el qual indica la
proporció d’individus que seran triats per conformar la població sobre la qual es
4.7 Enfocament de Michigan 77

realitzarà l’etapa de selecció. És a dir, el nombre de cromosomes serà igual a


pop size · G, on tenim que:

G=1 → població no superposada (o nonoverlapping population)


0<G<1 → població superposada (o overlapping population)

L’etapa de selecció conseqüentment tria pop size · G classificadors a l’atzar.


Aquest conjunt de classificadors formen la població que serà seleccionada emprant
la selecció proporcional (o roulette wheel selection). Aquesta proposta també obre
la porta a la problemàtica de com es reintroduiran dins la llista de classificadors
els nous classifadors generats.

5. Problemàtica inherent
Com s’ha anat veient existeix una necessitat clara de mantenir la diversitat de
classificadors dins la llista. Per aquest motiu és necessari introduir alguna tècnica
d’especiació dins de l’algorisme genètic cara a garantir la diversitat d’individus a
la població. La proposta original de Holland passa per la reintroducció acurada
dels nous classificadors dins la població inicial. Aquesta tècnica es coneix pel nom
de crowding, la qual es basa en definir una polı́tica de reemplaçament, és a dir
com i quins individus de la llista de classificadors inicial seran substituits pels nous
classificadors.
De Jong [De Jong, 1975], realitza una generalització del mètode de preselecció
proposat per Cavicchio que fou la primera aproximació al crowding. El mètode
consisteix en seleccionar, per cada classificador generat en la recombinació, una
subpoblació de CF individus de la llista original, on CF és una constant relati-
vament petita, usualment 3. Un cop establerta la subploblació, es substitueix el
classificador pertanyent a la subpoblació seleccionada, que més seblant sigui2 al
classificador fill, pel descendent a reintroduir a la població inicial.
En aquest cas, la competència per l’espai continua existint, però ara aquesta no
es dona en un nucli familiar (com passa amb la tècnica de presselecció), sinó
en una subpoblació escollida a l’atzar. Aquest mètode pot presentar problemes
de rendiment i convergència com els comentats a [Goldberg, 1989]. Posterior-
ment han aparegut diverses tècniques d’especiació, com per exemple el sharing
[Goldberg, 1989].

4.7.2 Problemàtica del model

S’ha comprobat que existeixen certes situcions en les quals els sistemes classificadors
experimenten certes dificultats [Golberg et al., 1992b]. Existeixen gran diversitat de
propostes per esmenar aquests aspectes, total o parcialment. Alguns exemples es poden
trobar a [Goldberg, 1989, Shu and Shaffer, 1991, Golberg and Wang, 1997] Alguns dels
principals punts es resumeixen a continuació:
2
Distància de Hamming.
78 Computació Evolutiva

1. Predicció (força) dels classificadors basada en la recompensa

2. Reducció del nombre de classificadors necessaris

3. Dificultat per mantenir un rendiment constant

• Optimització multinodal
• Deceptive functions
• Falta de separació entre jerarquies

1. Predicció dels classificadors basada en la recompensa


Tal i com s’ha pogut apreciar en la descripció del model de Michigan, la força, o
mesura de la bondat del classificador, és basa en la predicció de la recompensa
que el classificació obtindrà eventualment de l’entorn. Amb aquesta proposta el
que es busca és obtenir classificadors que maximitzin la recompensa que poden
assolir.
Aquesta proposta no garanteix que els classificadors que s’obtinguin siguin ac-
curats, ni que cormin un conjunt minimal. Els classificadors que s’obtenen ma-
ximitzen la recompensa, però no incomporen la noció de minimitzar l’error que
comenten en el procés de classificació. Per altra banda, no existeix res en el model
que garanteixi que el conjunt de classificadors que s’obtingui sigui màximament
general i que minimitzi per tant el nombre de classificadors emprats.

Jerarquies 2. Reducció del nombre de classificadors necessaris: jerarquies


Una de les primeres modificacions que es van proposar fou establir una priorització,
o jerarquització, entre els classificadors [Shu and Shaffer, 1991]. L’objectiu busca
la reducció de la mida de la possible solució o coneixement que pretenem que el
classificador adquireixi. Aquest tipus de proposta busca facilitar un parell de punts
a tenir en compte:

(a) Reduir el nombre de classificadors que hauran de sobreviure alhora a l’aplica-


ció de l’algorisme genètic un cop assolit el coneixement que es cercava. La
finalitat és poder mantenir un estat permanent de funcionament que permeti
mantenir el coneixement obtingut. És a dir, que el rendiment del sistema
classificador no empitjori el seu comportament un cop hagi obtingut el co-
neixement i passi a un estat d’explotació del mateix.
(b) Reduir el nombre d’iteracions a executar. Intuitivament es pot veure que
si es redueix l’espai de solucion en el que es busca, serà més fàcil dur a
terme la cerca. Aquesta suposició és deguda a la disminució de classificadors
necessaris, i a la reducció de complexitat que això suposa.

3. Dificultat de mantenir un rendiment constant


Un del principals problemes que introdueix l’ús d’un algorisme genètic per la injec-
ció de nous classificadors és el seu comportament. Si en l’optimització de funcions
el rendiment és molt bó, és a dir, l’única cosa que interessa és obtenir una bona
4.7 Enfocament de Michigan 79

solució al final de l’execució. Per contra, el que es vol obtenir en un sistema clas-
sificador és que en tot moment l’algorisme genètic sigui capaç de dur a terme la
seva feina correctament incrementant el rendiment global del sistema. Això, degut
al caracter intrı́nsec de l’algorisme, és una tasca complexa, ja que el rendiment de
tota la població no té per què millorar després de l’aplicació de l’algorisme genètic,
i inclós pot empitjorar puntualment. Dins d’aquest apartat es podria destacar com
a principals problemes els següents [Golberg et al., 1992b]:

• Optimització multimodal
L’algorisme genètic s’ha d’enfrontar al fet d’haver de mantenir un conjunt
de classificadors (individus). D’aquı́ a que es proposi l’analogia amb els pro-
blemes que presenta l’optimització de funcions multinodals. És a dir, s’ha
d’introduir dins l’algorisme genètic tècniques d’especiació que en permetin
la co-evolució. L’objectiu es permetre que diferents classificadors convisquin
al llarg de l’evolució dins la població. Algunes de les tècniques més em-
prades són el crowding i el sharing [Goldberg, 1989]. La tria de la tècnica
pot esbiaxar de forma important el comportament del sistema classificador
[Golberg et al., 1992b].
• Falta de separació entre jerarquies
Degut a la codificació empreda, i a la proposta de jerarquies forçades, es pot
veure els classificadors altament especı́fics com a implantacions d’exepcions
dins el coneixement emmagatzemat pel sistema classificador. Per contra
quan més general sigui més casos abarcarà. Per exemple:

cls1 #######:0
cls2 ###0###:1

Com es pot apreciar les diferències entre els dos són mı́nimes, però tot i aixı́ re-
presenten universos totalment diferenciats. Si ara es suposa que s’empra una
tècnica d’especiació com per exemple crowding [Deb and Goldberg, 1989],
aquesta falta de separació entre classificadors pot portar a la presa de de-
cisions erronees per part del sistema classificador. Si ara es creuen els dos
classificadors s’obtenen dos classificadors fills amb identiques condicions però
amb una inversió de classes. Degut a la falta de separació el sistema podria
patir una caiguda del rendiment global del sistema classificador. Aquest punt
s’agreuja més quan un classificador és força general, degut a l’elevat nombre
d’exemples que descriu.
• Deceptive functions
Altres direccions proposen buscar mecanismes (operadors genètics) que su-
portin la problemàtica que sorgeix en l’optimizació multinodal de funcions les
quals presenten dos màxims globals en els extrems dels intervals d’estudi, i un
nombre elevat de màxims locals en la seva part central. D’aquı́ novament sur-
geix una certa connexió entre optimització eficient i els sitemes classificadors
emprant algorismes genètics [Deb et al., 1992, Deb and Goldberg, 1994].
80 Computació Evolutiva

4.7.3 SCS

El SCS (Simple Classifier System) [Goldberg, 1989] és la simplificació que Goldberg
proposa reprecte el model original de Holland. Malgrat les modificacions, que tot seguit
es descriuran, l’arquitectura bàsica del SCS és equivalent a la presentada en la descripció
anterior. És a dir, els elements que conformen el SCS són els mateixos que apareixien
en el model de sistema classificador originals.
El principal motor que ha mogut la simplificació ha estat la de convertir el sistema
classificador de Holland en un model estı́mul-resposta. Dit d’una altra forma, el que es
busca és que el sistema es comporti de la següent forma: donada una entrada (missatge
suministrat pel medi) el SCS proporcioni directament la classe a la qual pertany el
missatge d’entrada. Com es pot comprovar aquesta proposta difereix de la filosofia
inicial dels sistemes classificadors, que estaven pensats per l’aprenentatge de desicions
seqüencials, en que s’ha simplificat pensant en problemes de classificació. Aquesta
simplificació del model genera l’aparició de modificicacions al llarg de totes les etapes
que composen el sistema classificador. Tot seguit es pot un resum de les modificacions
que es proposen.

Consideracions generals

Com ja s’ha comentat anteriorment, el SCS no cerca l’aprenentatge de desicions seqüen-


cials. El que es preten és la construcció d’un sistema que donat un exemple d’entrada
sigui capaç de discernir directament la classe a la qual s’ha d’associar. Aquestes con-
sideracions obliguen a replantejar la construcció dels detectors i efectors, aixı́ com el
comportament de l’entorn.

1. Detectors
Els detectors presenten la mateixa construcció que posseı̈en en el model de Holland.
És a dir, continuen essent els responsables de la transformació de la informació
del medi en missatges interns que el classificador es capaç de manipular.
2. Efectors
La concepció dels efectors s’ha vist simplificada. Això és degut a que ara sols ha
de translladar a l’entorn la resposta associada a l’estı́mul d’entrada (classe a la
qual pertany l’exemple). Aquest fet provoca que els missatges enviats als efectors
no siguin, normalment, de la mateixa mida que els rebuts dels detectors. Aquest
fet condicionarà, més endavant el funcionament tradicional del sisteme de regles.
3. Entorn
En aquest model estı́mul-resposta la feina que ha de dur a terme l’entorn és força
més sencilla que en la proposta de Holland. Ara l’entorn sols ha de comprovar
que la classe que proporciona el SCS, com a resposta d’un estı́mul d’entrada,
correspon realment amb la classificació correcta de la mostra. Si això succeix, el
medi proporcionarà la recompensa adient al SCS.
4.7 Enfocament de Michigan 81

Sistema de regles

Degut a les simplificacions que s’estan proposant, el sistema de regles també es veurà
sensiblement modificat. La primera gran diferència apareix en la impossibilitat de rea-
litzar la realimentació dels missatges generats per l’activació de regles. Això és degut,
principalment, al fet de que els missatges generats pels detectors són diferents dels
consumits pels efectors. On aquest fet impedirà mantenir la realimentació interna de
missatges. La desaparició de la realimentació de missatges no és preocupant. Això és
afirmable degut a que ja no s’està cercan l’aprenentage de decisions seqüencials, sinó
que el que es cerca és apendre a associar respostes immediates als estı́muls d’entrada.
Donades les consideracions anteriors, tot seguit es comentaran com afecten interna-
ment al sistema de regles.

1. Llista de missatges
Una de les restriccions que imposa el model estı́mul-resposta que s’ha triat és el
fet que donat un missatge d’entrada es genera una resposta immediata. Si això
s’ajunta amb el fet que no existeix realimentació de missatges, es pot deduir que
la longitud de la llista de missatges es veu reduı̈da a l’unitat. És a dir, en la llista
de missatges sols existeix un únic missatge: el d’entrada.

2. Llista de regles
Degut a tots els factors vistos anteriorment, també s’hauran d’introduir modifica-
cions en el que és una regla. En la proposta de Goldberg una regla esdevé:

{0, 1, #}k : {0, 1}l

La part esquerra del classificador posseeix la condició responsable de l’activació de


la regla. Com es pot apreciar, a la part dreta existeix el missatge a enviar, és a dir
la resposta (classe) associada a l’estı́mul (mostra) que ha activat la regla.

Bucket Brigade Algorithm

On més afecten les simplificacions és en el BBA. La filosofia de repartiment de crèdit


continua vigent. És a dir, es continua mantenint l’esquema bàsic de subhasta i casa de
compensació, però amb les restriccions que imposa el model estı́mul-resposta. Aquestes
afecten al fet que el cicle del BBA es veu reduı̈t a una iteració. Això és degut a la
impossibilitat de continuar mantenint la realimentació de missatges que proporcionaven
les regles activades.
Si s’ajunta el que s’ha comentat anteriorment, amb el fet que el model de conei-
xement que es vol implementar no sol presentar relació entre mostres consecutives, tot
això porta a plantejar-se un nou interrogant. Continua essent útil recompensar l’últim/s
classificador/s activat/s?. Aquesta pregunta no té una resposta clara. Dependrà del
problema que s’estigui tractant saber si és útil. En problemes en els quals romangui
una certa relació entre les mostres que es volen classificar, pot ser interessant mantenir
82 Computació Evolutiva

l’opció de recompensar a l’anterior. Per altra banda, en aquells problemes que la classifi-
cació sols depengui d’ella mateixa, independentment del que hagi succeı̈t anteriorment,
l’opció no serà massa útil, on es podrà prescindir d’ella.

Algorisme Genètic

Finalment ja sols falta esmentar com afecta el conjunt de simplificacions a l’algorisme


genètic. Resumint, es pot afirmar que les variacions seran pràcticament inexistents. On
tot el que es va comentar per la proposta de Holland és directament aplicable a la versió
simplificada de Goldberg.

4.7.4 XCS

El sistema classificador XCS representa l’estat de l’art dels classificadors basats en l’enfo-
cament de Michigan. Presentat per primer cop a [Wilson, 1995], i posteriorment ampliat
a [Wilson, 1996, Wilson, 1998, Kovacs, 1999], el XCS busca adreçar els principals pro-
blemes que pateixen els sistemes classificadors, especialment quan aquest s’apliquen a
tasques de mineria de dades com la classificació.
A l’igual que la resta de sistemes classificadors vistos anteriorment, el XCS es basa
en l’interacció amb l’entorn. Tot seguit es farà una revisió del sistema, aixı́ com de la
nomenclatura que s’empra en aquest sistema. L’entorn, tal i com passa amb la resta
de sistemes classificadors, proporciona instàncies σ codificades com a tires de bits de
longitud l. És a dir, σ ∈ {0, 1}l. Per altra banda, les accions α ∈ α1, _,αn són executades
a l’entorn. Si es tracta d’un problema de classificació α són les diferents classes del
problema representat per l’entorn. Finalment, l’entorn proporciona una recompensa en
forma de valor escalar p ∈ ℜ que mesura el grau de correctesa o qualitat de la última
acció duta a terme.
El XCS, a l’igual que la resta de sistemes classificadors utilitza una població [P]
Classificador de classificador de longitud fixa n. L’estructura dels classificadors és molt semblant
a la utilitzada pel SCS. La part de la condició C especifica quan el classificador és
aplicable. Aquesta correspon cadena sobre l’alfabet ternari {0, 1, #} de longitud l, és dir
C ∈ {0, 1, #}l. Pel que fa a la part de l’acció/classificació A pot especificar qualsevol
de les accions de α que pot executar l’entorn, és a dir A ∈ α. Aquesta no és la
única forma de codificar els els classificadors que es pot trobar a la bibliografia. Per
exemple a [Wilson, 1999a] s’introdueix una codificació dels testos dels atributs basada
en nombres reals, enlloc de l’habitual test binari. També hi ha aproximacions basades
en codificacions enteres per mineria de dades obliqües [Wilson, 2000]. Altres autors
han introduı̈t codificacions basades en s-expressions [Lanzi and Perrucci, 1999], o en
codificacions messy [Lanzi, 1999]. Una revisió d’alguns d’aquests elements es pot trobar
a [Wilson, 1999b].
Mesures Cada classificador té associades algunes mesures del seu funcionament. La predicció
4.7 Enfocament de Michigan 83

de la recompensa p estima el valor de la recompensa que es trobarà un cop s’hagi


executat l’acció proposada pel classificador. La predicció de l’error ǫ que estima l’error
actual de p, especialment emprat per determinar lo acurat que és el classificador, aixı́
com la seva avaluació (fitness). L’avaluació F és una mesura de lo acurat que és p
respecta tot els classificador que competeixen amb ell. L’experiència exp mesura quan
sovint els paràmetres del classificador són actualitzats. La marca temporal time stamp
ts mesura el temps en el qual el classificador va pertànyer a un conjunt en el qual es va
aplicar l’algorisme genètic. La mida del conjunt d’acció (action set size) as aproxima
la mida mitjana dels conjunts actius als quals el classificador pertany. S’enten per
conjunt d’acció el conjunt format per tots aquells classificadors que han estat activats
per un determinat missatge, i que posseeixen la mateixa acció que la del classificador
guanyador. L’última mesura associada a un classificador és la numerositat num que
indica quants micro-classificadors (classificadors tradicionals) representa aquest macro-
classificador. Aquesta mesura sols es té en compte per motius d’eficiència, on en lloc
de repetir classificador dins la població, sols n’existeix una copia fı́sica però amb num
corresponent al nombre de còpies del classificador en qüestió. Això és el que s’anomena
macro-classificador.
Al començament de l’execució la població del XCS pot trobar-se buida,o haver-se
inicialitzat aleatòriament. En el cas que s’hagi inicialitzat aleatòriament, cada atribut Inicialització
dins del classificador s’ha fixat al sı́mbol # amb una probabilitat p# , o altrament, a
0 o a indistintament. Pel que fa a l’acció dels classificadors, aquesta s’escull a l’atzar
respecte el conjunt d’accions possibles α.
Un cicle d’aprenentatge en un cert instant de temps t comença amb la percepció Cicle d’apre-
de l’estat actual del problema σ(t) i la formació del conjunt actiu o match set [M]. Si nentatge
dins d’aquest conjunt hi ha menys de θmna accions, llavors es duu a terme una etapa
de covering. En aquesta etapa un nou classificador actiu es crea emprant un mètode
similar al de la inicialització de la població. Tot seguit se’n tria una acció a ∈ α aleatòria
amb una probabilitat pexplr, o determinı́sticament altrament. A partir de [M] és forma
el conjunt [A] que conté tots els classificadors que especifiquen l’acció a (acció guanya-
dora dins de [M]). L’acció és executada a l’entorn proporcionant una recompensa ρ(t).
Respecte la recompensa obtinguda (aixı́ com la màxima predicció de la recompensa en
successius conjunts actius en problemes d’encadenament d’accions), la predicció de la
recompensa p, la mesura de l’error ǫ i la mida del conjunt d’acció as de tots els clas-
sificadors són actualitzats emprant la regla delta (delta rule) [Widrow and Hoff, 1960],
tal i com mostren les equacions següents.

pcl = pcl + β (ρ(t) − pcl) (4.2)


ǫcl = ǫcl + β (|ρ(t) − pcl| − ǫcl) (4.3)
 
X
ascl = ascl + β  numc − ascl (4.4)
c∈[A]

El paràmetre β ∈ (0, 1) mesura el percentatge d’aprenentatge. Si l’experiència del


classificador és menys de 1/β, llavors p, ǫ i as són actualitzats amb la tècnica MAM
84 Computació Evolutiva

(moyenne adaptive modifiée) la qual fixa el valors dels paràmetres emprant la mitjana
dels valors trobats fins al moment. Pel que fa a l’avaluació, o fitness, del classificador,
aquest s’actualitza en tres passos que.

1 si ǫcl < ǫ0,
kcl =  −v (4.5)
α ǫcl altrament.
ǫ0

′ kcl · numcl
kcl =P (4.6)
c∈[A] (kc · numc)


Fcl = Fcl + β kcl − Fcl (4.7)

El primer pas consisteix en calcular la cura (accuracy) k en funció de l’error de la


predicció actual ǫ. Tot seguit, es calcula la cura relativa (relative accuracy) k ′ es calcula
respecte el conjunt d’acció actual [A]. Finalment, l’avaluació s’actualitza en funció del
valor de k ′ . Aquesta avaluació és calcula en termes de macro-classificadors, mentre
que la resta es calculen en termes de micro-classificadors. Un cop actualitzat tots els
paràmetres i s’ha incrementat el comptador de l’experiència exp de cada classificador,
ja és pot passar a aplicar l’algorisme genètic.
Algorisme L’algorisme genètic només s’aplica si la mitjana de temps del conjunt acció [A] des
genètic de l’última aplicació del genètic, calculada emprant les marques temporals (time stamps
) ts, és major que el llindar θGA. Si l’algorisme genètic s’aplica llavors es trien dos
classificadors de [A] per la reproducció. Aquesta tria es realitza emprant una ruleta, en
la qual l’avaluació és la dels classificadors dins de [A]. A continuació aquest parell de
classificadors són reproduı̈ts i posteriorment creuats i mutats. El creuament, que s’apli-
ca amb una probabilitat χ, fa servir un operador amb dos punts de tall [Wilson, 1995].
Pel que fa a la mutació, el XCS utilitza dos dels operadors ja presentats en el SCS, és
a dir la mutació natural (natural mutation) i la mutació per nı́nxols (niche mutation)
[Butz and Pelikan, 2001]. Mentre tant, els pares es mantenen dins la població i compe-
teixen per l’espai amb els seus descendents. Per la seva banda, els nous classificadors són
introduı̈ts utilitzant l’esborrat per subsumpció (subsumption deletion) [Kovacs, 1999].
Si existeix dins la població un classificador cl el qual la seva condició és més general, és
més experimentat (i.e expcl < θsub), i és més acurat (i.e ǫcl < ǫ0), llavor el descendent
no s’introdueix dins la població, però s’incrementa la numerositat num del classificador
cl que l’ha subsumit. Finalment, si el nombre de micro-classificadors de la població
supera la mida màxima n, els classificadors sobrants són eliminats. Un classificador és
triat per ser eliminat emprant una ruleta proporcional la mida estimada del conjunt d’ac-
ció as. A més a més, si un classificador és suficientment experimentat (exp > θdel),
aixı́ com significativament menys acurat que la mitjana de l’avaluació dins la població
P P
(f < δ · cl∈[P] fcl/ cl∈[P] numcl), llavors, la probabilitat de ésser seleccionat per ser
eliminat s’incrementa. Pel que s’ha dit fins al moment, és pot apreciar que l’algorisme
genètic es troba dividit en dues etapes diferenciades, una de reproducció i una segona
posterior d’eliminació de classificadors.
Finalment, l’última etapa és la subsumpció dins el conjunt d’acció (action set sub-
sumption). Aquesta etapa busca en cada conjunt acció [A] el classificador que és (1)
4.8 Resum 85

acurat, (2) experimentat, i (3) més general entre els que satisfan (1) i (2). Sı́ aquest clas-
sificador existeix, subsumeix tots els classificadors dins [A] que siguin més especı́fics. Els
classificadors més especı́fics són eliminats, incrementant-se adientment la numerositat
del classificador que els subsumeix.
Per finalitzar aquesta descripció general del XCS comentar que troba mapes com-
plerts minimals [Kovacs, 1996, Kovacs, 1997]. És a dir, que es capaç de proporcionar
un conjunt de regles acurat, i minimal, que sintetitza el coneixement extret de l’entorn.

4.7.5 Altres sistemes

El XCS, que en l’actualitat ha pràcticament fet desestimar la majoria de propostes de


Michigan, no va aparèixer espontàniament. Aquest sorgı́ com a proposta per corregir
el problemes que s’identificaren en el SCS. Aquest problemes s’identificaren en l’estudi
que es portà a terme amb una versió molt simplificada de sistema classificador que
s’anomenà ZCS [Wilson, 1994].
Per citar alguns altres sistemes classificador de l’enfocament de Michigan, se’n desta-
carien dos, el NewBoole [Bonelli and Parodi, 1991] i el EpiCS [Holmes, 1997]. El primer
es basa en la introducció de conceptes provinents de la lògica booleana i s’aplicà a la clas-
sificació de bases de dades mèdiques. El segon és un sistema classificador especialment
pensat per la seva aplicació a dades mèdiques, especialment a problemes epidemiològics.

4.8 Resum

En aquest capı́tol s’ha fet un revisió del que es coneix com a computació evolutiva. Com
s’ha anat veient a mida que s’anava desgranant aquest capı́tol, computació evolutiva és
el nom que rep el camp que amalgama diferents tècniques i metodologies d’inspiració
biològica. Com s’ha pogut apreciar en aquesta el repàs per algunes de les principals
tècniques d’aquest camp, moltes d’elles estan pensades per aplicar-se a diferents proble-
mes, per exemple problemes d’optimització (numèrica o combinatòria), de planificació,
o fins i tot d’aprenentatge artificial.
És en aquest últim, l’aprenentatge artificial emprant computació evolutiva, que s’hi
ha fet una descripció més detallada. El motiu d’aquest interès rau en la seva relació amb
el treball proposat en aquesta tesi. És per aquest motiu que s’ha realitzat una revisió
dels principals paradigmes d’aprenentatge artificial emprant computació evolutiva, aixı́
com de les principals tècniques proposades en cadascuna d’elles. Concretament s’ha
revisat tant l’enfocament de Pittsburgh, com el de Michigan.
L’enfocament de Pittsburgh, tal i com s’ha pogut apreciar al llarg de la descripció
realitzada en aquest capı́tol, és la més propera a la filosofia original proposada pels
algorisme genètics. Conseqüentment els individus que es fan evolucionar són solucions
86 Computació Evolutiva

complertes al problema de classificació, independentment que aquest sigui un problema


d’aprenentatge automàtic. Per aquest motiu, a la descripció d’aquesta aproximació
realitzada a l’apartat 4.6 (pg. 58), aixı́ com de les tècniques que en sorgeixen, es pot
apreciar les semblances amb un model d’evolució basada en algorismes genètics.
A l’extrem oposat s’ha presentat l’enfocament de Michigan presentat a l’apartat 4.7
(pg. 69). Aquesta proposta s’allunya bastant del model anterior. La font d’inspiració
d’aquesta aproximació rau més propera a la psicologia cognitiva. Com s’ha pogut apre-
ciar en la descripció realitzada d’aquesta aproximació, el que es proposa és un sistema
cognitiu que immers dins un entorn hi és capaç de realitzar-hi un aprenentatge adap-
tatiu. Dins del model proposat per detector, efectors, llistes de classificador, etcètera,
l’aprenentatge es duu a terme com la combinació de l’aprenentatge per reforçament i
l’aprenentatge evolutiu proposat pels algorismes genètics. Malgrat això, el paper que
duu a terme l’algorisme genètic dins d’aquest tipus de model es veu restringit a impulsor
de la cerca de noves regles dins el model original. Per altra banda, el paper de l’algorisme
genètic també es veu lleugerament diluı̈t pel fet que els individus no representen una
solució complerta al problema sinó, que per contra, tota la població evolucionada és la
solució al problema.
Per concloure aquest resum, comentar que dins de cada aproximació també s’ha fet
una revisió de les tècniques i algorismes més representatius. Concretament, per cada
enfocament s’han presentat un parell de sistemes que implementen les seves idees. És
en aquest punt en el qual ha tornat a quedar patent les similituds entre els sistemes
pertanyents a una mateixa aproximació, aixı́ com ressaltant els enfocaments clarament
contraposats de sistemes pertanyents a enfocaments diferents.

4.9 Notes Bibliogràfiques

Per concloure aquest capı́tol es farà un repàs d’algunes referències bibliogràfiques d’in-
terès respecte al material presentat. La primera de les referències a comentar és la que
feu possible aquest tipus de computació evolutiva. Aquesta no es altra que “L’origen
de les espècies” de Charles Darwin [Darwin, 1859]. En aquest llibre es proposa la pri-
mera descripció de la teoria de l’evolució natural que ha servit de basa al camp de la
computació evolutiva.
Pel que fa ja a la computació evolutiva, dins els algorismes genètics existeixen dife-
rents referències que poden servir per ampliar el material proporcionat en aquest capı́tol.
La primera és [Holland, 1975] en la qual es pot trobar la primera descripció del model
evolutiu que proposen els algorismes genètics. Per la seva banda, [De Jong, 1975] pre-
senta un dels primer estudis rigorosos sobre el comportament i propietats del model
d’evolució artificial que presenten els algorismes genètics. Però un dels llibres més em-
prats com a llibre de text pel camp de la computació evolutiva és [Goldberg, 1989]. En
aquest es recull des del model original d’algorismes genètic i la seva modelització teòrica,
fins a la seva aplicació pràctica a problemes de cerca, optimització i aprenentatge arti-
4.9 Notes Bibliogràfiques 87

ficial. Finalment, a [Davis, 1991] es pot trobar una breu introducció al que s’entén per
algorisme genètics. Aquesta es complementa amb una amplia descripció d’aplicacions
reals dels algorismes genètics.
Un altre dels paradigmes de la computació evolutiva és la programació genètica. Dins
aquest camp, existeixen tres referències centrals per introduir-se en el tema. La primera
[Koza, 1992] recull la primera proposta del model de programació genètica, aixı́ com
exemples extensos de com es poden dur a terme aquesta idea, junt amb la codificació
dels sistemes resultants. La segona [Koza, 1994] es centra en descriure, entre d’altres,
exemples i problemes concrets en els qual la programació genètica es competitiva amb
experts humans, com per exemple el disseny i sı́ntesis de circuit electrònics. Per últim,
la tercera referència és [Koza et al., 1999]. En aquesta es debat com aquest paradigma
es pot portar cap a la generació de dispositius, o màquines, autoprogramables, aixı́ com
les seves possibles aplicacions pràctiques.
Els tercer dels paradigmes de la computació evolutiva que s’ha comentat ha estat la
programació evolutiva. Dins aquesta es poden trobar dues referències clares per ampliar
el material presentat en aquest capı́tol. La primera és [Michalewicz, 1992]. Aquest llibre
es centra a portar el paradigma evolutiu cap als problemes a resoldre. Concretament
es centra en com el model evolutiu es pot adaptar a diferents estructures de dades per
permeten una solució senzilla. Per altra banda, a [Fogel, 1995] es poden trobar dues
coses diferenciades. La primera és un repàs general de la computació evolutiva, aixı́
com una de les possibles taxonomies que s’hi poden trobar. Per altra banda, en aquesta
referència també pot servir per ampliar l’explicació de la feina realitzada en el camp de
la programació evolutiva pel que fa a l’evolució d’autòmats finits.
Pel que fa l’últim dels paradigmes de la computació evolutiva comentats, aquell
que es coneix com estratègies evolutives, es poden proporcionar quatre referències d’in-
terès. Les dues primeres [Schwefel, 1965, Schwefel, 1981] descriuen el que s’entén per
estratègia evolutiva, aixı́ com aquestes idees es poden aplicar a problemes d’optimitza-
ció numèrica. Per altra banda, les referències [Rechenberg, 1965, Rechenberg, 1973], a
part de descriure que s’entén per estratègia evolutiva presenta aplicacions pràctiques al
disseny industrial, ja sigui de canonades o de perfils d’ales dels avions.
Tal i com ja s’ha comentat anteriorment, al llarg del temps han sorgit gran quantitat
de sistemes que es poden classificar com a pertanyents a l’enfocament de Pittsburgh. A
continuació es recullen algunes referències als sistemes més representatius dins d’aquesta
aproximació. Un dels primers sistemes presentats sota aquest enfocament és el LS-1.
Una descripció del mateix es pot trobar a [Smith, 1983]. Un altra sistema és el GABIL
[De Jong and Spears, 1991, Spears et al., 1993] que és un del primers sistemes d’aquest
de l’enfocament de Pittsburgh que permet la seva aplicació a problemes d’aprenentatge
incremental. Per la seva banda a [Janikow, 1993] es pot trobat la proposta realitzada pel
GIL d’introduir dins l’algorisme genètic coneixement que faciliti el procés d’aprenentatge
artificial proposat. El COGIN, primer classificar n-ari d’aquest enfocament, es pot trobar
descrit a [Greene and Smith, 1993]. Una altre sistema pensat per la classificació n-ària
és el REGAL descrit amb detall a [Giordana and Neri, 1995]. El penúltim dels sistemes
del qual es vol donar referències és el GA-MINER, que presenta una de les primeres
88 Computació Evolutiva

aproximacions al problema de mineria de dades emprant algorismes evolutius, i la seva


posterior paral·lelització. Existeixen varies referències però se’n destacarien dues, que
són [Flockhart, 1995, Araujo et al., 2000]. Finalment, l’últim dels sistemes pertanyents
a l’enfocament de Pittsburgh que s’esmentarà aquı́ és el GALE, que es presentà per
primera vegada a [Llorà and Garrell, 2000a].
Pel que fa a l’enfocament de Michigan, també es comentaran tot segui algunes
referències d’interès. Una descripció del primer sistema classificador pertanyent a aquest
enfocament es pot trobar a [Holland, 1975], mentre que a [Holland and Reitman, 1978]
es descriu l’importància del sistema de repartiment de crèdit. Variacions sobre el SCS per
l’obtenció de jerarquies de regles apareix explicat a [Shu and Shaffer, 1991]. Per altra
banda, [Golberg et al., 1992b] presenta un estudi de quins són els principals motius, aixı́
com el perquè, que fan un problema difı́cil per un sistema classificador. Menció especial
es vol fer de les referències que es poden trobar sobre el sistema classificador més emprat
en l’actualitzat, i que correspon al XCS.
El sistema conegut com a XCS es presenta per primera a vegada a [Wilson, 1995],
podent-s’hi trobar una descripció detallada del seu funcionament. A [Wilson, 1996] i
[Wilson, 1998] es descriu com afecta la pressió de generalització a les regles que el XCS
obté. Variacions del XCS per treballar amb problemes descrits per atributs numèrics
es poden trobar a [Wilson, 1999a], aixı́ com variacions per permetre treballar amb s-
expresions es poden trobar a [Lanzi and Perrucci, 1999], o bé amb codificacions messy
a [Lanzi, 1999]. A [Wilson, 1999b] es fa un repàs de l’estat de l’art fins al moment
de la tasca realitzada amb el XCS. Per altra banda, les primeres aproximacions de l’ús
del XCS a problemes de mineria de dades es poden trobar a [Saxon and Barry, 2000,
Wilson, 2000], aixı́ com un estudi comparatiu exhaustiu del mateix a diferents problemes
reals es pot trobar a [Bernadó et al., 2001].
Aspecte teòrics del XCS es poden trobar a diferents referències. De totes elles se’n
volen ressaltar algunes contribucions esmentades al llarg del material presentat en aquest
capı́tol. A [Kovacs, 1996] es realitzen consideracions sobre la població òptima de regles
que manipula el XCS. Per altra banda, a [Kovacs, 1997] s’exposen consideracions so-
bre com es poden evolucionar conjunts de regles complets i minimals per un problema
determinat. Un punt crı́tic pel comportament del XCS correspon als esquemes d’eli-
minació de regles, fet que s’estudia a [Kovacs, 1999]. L’última de les referències que
estudien el comportament del XCS que es vol comentar és [Butz and Pelikan, 2001]. En
aquesta referència s’estudien com afecten al comportament del XCS les diferents pres-
sions evolutives existents, aixı́ com aquestes es poden considerar en funció de criteris de
generalització i especificació de les regles que el XCS fa evolucionar.
Per concloure aquest capı́tol es vol comentar breument algunes referències disperses
que han aparegut al llarg del capı́tol. Una de les primeres descripcions de la regla del
gradient (o delta rule) es pot trobar a [Widrow and Hoff, 1960]. El concepte de formació
d’espècies dins els algorismes genètics es pot trobar comentada, entre altres llocs, a
[Deb and Goldberg, 1989]. Pel que fa a funcions enganyoses (o deceptive) multimodal
es poden trobar a [Deb et al., 1992], mentre que a [Deb and Goldberg, 1994] s’estudien
condicions de suficiència per aquest tipus de funcions. Finalment, el concepte de sharing
4.9 Notes Bibliogràfiques 89

es pot trobar descrit a [Golberg and Wang, 1997].


90 Computació Evolutiva
CAPÍTOL 5

Vida Artificial

Vida artificial, segons una definició més o menys estesa, és l’estudi d’organismes
i sistemes que, malgrat ser construı̈ts per l’home, presenten comportaments atribuı̈ts
als éssers vius. Com es pot apreciar, aquesta definició és força genèrica, d’aquı́ que
sota el nom de vida artificial és trobin aportacions provinents de camps, aparentment
dispersos, com són la informàtica, la teoria d’informació, la biologia, l’estudi de sistemes
fı́sics, entre d’altres. Per tant és normal trobar sota el nom de vida artificial una barreja
eclèctica d’idees i propostes provinents de diferents disciplines, buscant totes elles crear
sistemes que presentin caracterı́stiques inherents a la vida. Com ja es pot intuir, un dels
principals esculls amb el qual aquesta disciplina s’ha d’enfrontar és què vol dir “viu”.
En aquest capı́tol es durà una breu revisió dels principals elements i tècniques que
es defineixen la disciplina que s’anomena vida artificial. Per dur-la a terme es centrarà
en els principals element que la conformen: autòmats cel·lular, algorismes evolutius,
ecologies i una breu passada pel món dels robots. Al llarg del capı́tol s’aniran proporcio-
nant abundants referències dels temes proposats, permetent-ne l’aprofundiment al lector
interessat.

5.1 Autòmats Cel·lulars

En aquest apartat es revisarà un dels principals pilars de la vida artificial: els autòmats
cel·lulars. Tot seguit es farà serà un recorregut general, des dels orı́gens fins alguns dels
principals resultats obtinguts.
92 Vida Artificial

5.1.1 The Kinemàtic Beast

El model kinemàtic [Burks, 1966] fou la primera aproximació que presentà John von
Neumann al concepte de “màquina auto-replicant” [Levy, 1993]. La idea que es perse-
guia era crear un sistema artificial que explotes un tret distintiu de la vida: la capacitat
per la reproducció. Per reproducció von Neumann entenia l’autocòpia d’un sistema. És
a dir, donat un sistema A qualsevol, es volia obtenir-ne un altre, B, que fos la còpia
exacta de l’original. Aquesta idea fou possible gràcies a la teoria de Church-Turing
[Hopcroft and Ullman, 1979], que permetia veure el sistemes biològics com a proces-
sadors massius d’informació. Això era possible gràcies a que es podia descriure tot
organisme com un tipus concret d’autòmat, i conseqüentment tractar-los com a infor-
mació.
El model kinemàtic que plantejà era un sistema fı́sic composat d’elements electro-
mecànics. D’aquı́ que aquest model parla d’entitats fı́siques enlloc d’entitats d’informa-
ció. El model, a part dels seus elements computacionals, presenta cinc altres elements
imprescindibles:

1. Un element per manipular l’entorn que l’envolta. Aquest element accepta ordres
dels elements computacionals (control) del sistema.

2. Un element tallant per desconnectar dos elements indicats pel computador.

3. Un element per unir dues parts.

4. Un element sensor capaç de reconèixer qualsevol parts de l’entorn i trametre aques-


ta informació al computador.

5. Elements estructurals rı́gids anomenats “girders”. Aquest elements serveixen tant


pel xassı́s de les entitats, com per emmagatzemar informació.

Aquest sistema es troba immers en un món bidimensional sense fi en el qual pot


trobar les parts de les quals ell és fet. Aquesta hipòtesis és imprescindible per poder
garantir que el sistema es podrà replicar ja que sota aquesta hipòtesis aquest procés no
es quedarà sense parts per finalitzar el procés. Al cap i a la fi, aquest entorn es veu com
un magatzem infinit de girders.
Pel que fa el computador és la simbiosi de tres estructures. Aquestes són:

• La factoria (A)

• El duplicador (B)

• El controlador (C)

La finalitzat del computador junt amb els altres cinc elements és ser capaç de replicar-
se a si mateixos creant un altre sistema idèntic. Per fer-ho és necessita una última
estructura anomenada component D.
5.1 Autòmats Cel·lulars 93

(a)

(b)

Figura 5.1: Instruccions del model kinemàtic

El component D és una tira de girders, l’aspecte del qual apareix a la figura 5.1. Girders
Aquest component codifica la informació necessària per permetre que el sistema és
repliqui, o dit d’una forma més planera, les instruccions del procés. D’aquı́ l’analogia
amb la màquina universal de Turing. La codificació és binaria on una ∧ indica un ‘0’ i
una ∧ amb una barra indica ‘1’, permetent codificar qualsevol informació interpretable.
D’aquı́ que a la figura 5.1.a codifiqui la dada ‘000000’, mentre que a la 5.1.b el valor
correspon a ‘101001’.
Un cop l’autòmat comença el procés auto-replicació, els passos que es segueixen són
els següents:

1. El component C (factoria) llegeix les instruccions de la tira de girders, transferint-


les al component B (duplicador).

2. El component B, copia la instrucció emmagatzemant l’original i retornant-ne la


copia al C.

3. Quan el component C recupera la instrucció, l’interpreta i cerca els elements


necessaris per replicar l’estructura del sistema.

4. Els elements es van recollint un a un, i es van unint sota la direcció del computador
(component A).

5. Un cop replica l’estructura es procedeix a replicar els components A, B i C.

6. Finalment es dona “vida” al nou sistema replicat proporcionant-li la còpia de les


instruccions (tira de girders) emmagatzemades al duplicador (B).

Malgrat el model kinemàtic de von Neumann aconsegueix finalment esdevenir un


sistema capaç d’auto-replicar-se, aquesta definició posseeix punts foscos, com són:

• “Caixa negre”: el sistema requereix de sensors per reconèixer parts, tallants, uni-
ficadors . . . D’on surten els components del primer sistema?.

• L’entorn pot proporcionar sempre material indefinidament?. Aquest punt es sol


resumir a la literatura com a efecte Santa-Claus.
94 Vida Artificial

• Els elements anteriors solen presentar una complexitat elevada. Però el que real-
ment impedeixen és l’anàlisi matemàtic del model.

D’aquest impediments, aixı́ com de la inviabilitat d’implementació fı́sica del model,


la proposta és de principis dels 1930, von Neumann es replantejà el model. Malgrat
això, el model ja apunta cap a la necessitat de la codificació de la informació “vital”, un
del punts més rellevants del model. Les tires de girders són anteriors al descobriment de
l’ADN.

5.1.2 El primer Autòmat Cel·lular

Degut al problema de la “caixa negre” que impedia l’anàlisi matemàtic del model, von
Neumann, a partir d’una idea de Stanislaw Ulam, replantejar el el sistema auto-replicant
que plantejava. El canvi passava per redefinir l’entorn i l’estructura del model kinemàtic.
Concretament el que es proposà fou la creació d’un món bidimensional. Aquest món és
idèntic a un tauler d’escacs, amb les següents caracterı́stiques:

• Les dimensions del món són infinites.

• Cada casella del tauler es defineix com un autòmat finit (AF), idèntic per totes
les caselles del món.

• El món evoluciona a través d’intervals finits de temps.

Amb aquesta definició s’elimina els dos principals problemes de model kinemàtic:
la “caixa negre” i l’efecte “Santa-Claus”. Per altra banda, aquest model presenta la
peculiaritat que tot és informació. Cada casella del tauler, o cel·la (d’aquı́ prové el nom
d’autòmat cel·lular), conté informació; aquesta no es altra que l’estat de l’autòmat finit.
El següent pas fou la redefinició del monstre del model kinemàtic sobre aquest món.
Això obligà a von Neumann a redefinir els components principals del model tal i com
es presentà a [Burks, 1966]. Els elements a redefinir són: la factoria (A), el duplicador
(B), el controlador (C) i les instruccions (D). La resta de parts ja no són necessàries
ja que es tracta amb un organisme construı̈t d’informació, que s’expandeix per un mar
d’informació. Dit d’una altra forma, un “organisme” en aquest model és defineix com
una agrupació de cel·les que descriu un conjunt d’estats.
Tal i com s’ha esmentat anteriorment, la principal peculiaritat que destaca de la nova
definició d’organisme és el fet que no existeix fı́sicament, sinó que es l’agrupació d’un
conjunt de cel·les amb una determinada configuració d’estats. Això implica que a partir
d’elements relativamet senzills (AF), apareix un cert comportament comú, o compor-
tament emergent. Dit d’una altra forma, un conjunt de cel·les conformen l’organisme,
que no presenta cap control centralitzat, que es capaç d’auto-replicar-se. D’aquı́ que els
components A, B i C ocupin un rectangle de 8 × 4000 cel·les, i les instruccions (D) una
tira de 150.000 cel·les [Burks, 1966].
5.1 Autòmats Cel·lulars 95

Amb aquest nova definició von Neumann assolı́ la creació d’una màquina auto-
replicant, formalment analitzable. Per altra banda, també destapà el fet que és possible
generar un cert comportament emergent a partir d’unitats elementals molt simples (i.e.
els autòmats finits emprats en els autòmats cel·lulars).

5.1.3 El Joc de la Vida

Un clar exemple de l’aplicabilitat de les idees de von Neumann, fou el joc de sobretaula
que proposà John H. Conway anomenat Life [Berlekamp et al., 1982] (o joc de la vida). Life
La idea és basava en una simplificació de l’autòmat cel·lular proposat per von Neumann.
El joc de la vida continua essent un espai bidimensional format per cel·les rectangulars
que contenen autòmats finits. Aquest autòmats evolucionen en increments discrets de
temps. La simplificació prové de l’autòmat que s’empra.
El model d’autòmat cel·lular és una versió simplificada del model proposat per von
Newmann. El seu fi no és la replicació d’un “organisme” amb capacitat d’auto-replicació.
Per aclarir aquest model tot seguit se’n presenta una breu definició informal:

• L’autòmat sols té dos possibles estats: viu o mort.

• Si una cel·la és viva:

– continua viva al següent instant si dos o tres veı̈ns són vius.


– mor de superpoblació si hi ha més de tres veı̈ns vius.
– mor d’aı̈llament si hi ha menys de dos veı̈ns.

• Si una cel·la és morta continua morta al següent instant de temps, a no ser que
tres dels vuit veı̈ns siguin vius. Si això passa la cel·la reviu al següent instant de
temps.

Tal i com es pot apreciar no existeix control central, i de la definició anterior es pot
apreciar la simplicitat de l’autòmat proposat. Malgrat això, en aquest tipus d’autòmat
presenta l’aparició de certs comportaments emergents. Un exemple de comportament
emergent, i la complexitat que es pot obtenir amb aquest model, són les estructures
que “espontàniament” apareixen en el món (o tauler). Alguna de les estructures que
apareixen en aquest món són les estructures que apareix a la taula 5.1.
Dins del joc de la vida de Conway emergeixen certs patrons (organismes o agrupa-
cions de cel·les-estats) que es repeteixen al llarg de l’execució. Aquests solen presentar
diferents comportaments, des de comportaments estàtics fins a comportaments lliscants.
Algunes dels patrons o estructures repetitives del Life són els que es presenten a la taula
5.1. Per exemple la de l’estructura de la taula 5.1.a és estàtic. Donada la configuració
inicial que es presenta, si s’apliquen les regles descrites anteriorment, aquesta acaba
portant després de tres generacions a una configuració final estable.
96 Vida Artificial

Taula 5.1: Exemples d’organismes (patrons repetitius) del Life

• • • •
(a) • • • • • • • •
• • • •


• • • • • •
(b) • • • • • • • • • •
• • • • • • • •

El sorprenent d’aquestes configuracions són els anomenats “gliders”. Aquestes con-


figuracions tenen propietats particulars. Un exemple n’és l’estructura 5.1.b. Aquesta
configuració es repeteix indefinidament desplaçant-se diagonalment al llarg del tauler.
La particularitat d’aquestes configuracions es que converteixen al joc de Conway en
un computador universal idempotent a la màquina de Turing [Poundstone, 1985]. Fet
curiós, ja que tornà a confirmar que els sistemes d’inspiració biològica permeten el trac-
tament massiu d’informació, i a més a més ho fan de forma paral·lela, ja que tan el
model de von Neumann com el de Conway computen a cada interval de temps tots els
autòmats del món bidimensional.

5.1.4 Els Autòmats de Wolfram

A partir d’aquest punt els autòmats cel·lulars s’empren en varietat de camps, com per
exemple la fı́sica. Però cap d’aquestes aplicacions acaba realment reeixint. Per altra
banda, totes les propostes que apareixien s’allunyaven cada cop més de la idea original
de von Neumann, la creació de màquines auto-replicants, i per tant “vives”.
La cosa canvia de rum amb l’aparició del treball d’Stephen Wolfram. La principal
crı́tica que fa és la falta de rigor de les propostes que apareixen i la, segons ell maldestre,
utilització dels autòmats per a l’estudi de la complexitat. Per altra banda afirma que
els resultats obtinguts de la simulació de sistemes fı́sics no aporten resultats concloents.
Per aquests motius el primer punt que pretén realitzar és obtenir una taxonomia dels
possibles autòmats cel·lulars.
La principal innovació que introdueix Wolfram fou l’estudi d’autòmats cel·lulars d’u-
na única dimensió [Wolfram, 1983]. A diferència de les versions bidimensionals de von
5.1 Autòmats Cel·lulars 97

Neumann i Conway, aquests autòmats estan formats per una tira de cel·les. Aquest
autòmats permeten una fàcil representació gràfica de la computació que efectuen. Con-
cretament, les cel·les dels autòmats de Wolfram poden estar en dos estats: mortes
(blanques) o vives (negres). Per cada interval de temps és pinta sota la tira de cel·les
la nova tira resultant de computar tots els autòmats. Aixı́, amb una simple gràfica es
poden apreciar tota la història de la computació duta a terme per l’autòmat cel·lular.
Un dels primers fets que destaquen d’aquest autòmats, és el fet que certes computa-
cions presenten una gran similaritat visual amb les closques de mol·luscs. Concretament
aquestes fan referència a certes closques formades per triangles blancs. És aquesta
coincidència la que fa revifar l’interés pel camp de la vida artificial. Però la principal
aportació de Wolfran és la creació de la primera classificació dels autòmats cel·lulars
[Wolfram, 1984a]. Per fer-ho es centra en els autòmats cel·lulars unidimensionals que
proposà. Per això estudià els 256 possibles autòmats unidimensionals que el seu model
pot generar. D’aquest estudi proposà la següent classificació:

Class 1 CA Aquesta classe descriu aquells autòmats que, o bé “blanquejant” (totes les
cel·les esdevenen mortes), o bé “ennegreixen” (totes les cel·les són vives).

Class 2 CA Versions més actives que els de classe 1, però l’activitat acaba parant
donant pas a estructures estables.

Class 3 CA Dins aquesta classe es recullen aquells autòmats amb un comportament


aparentment caòtic. Malgrat les regles que segueixen siguin simples, no són
capaços de permetre que la informació s’estructuri.

Class 4 CA Aquesta classe agrupa els autòmats que presenten una gran complexitat i
aparent aleatorietat. Malgrat això, i amb la senzillesa de les seves regles, es poden
trobar autòmats capaços de propagar informació, incloent els CA (com el Life)
que descriuen computadors universals.

És finalment la classe 3 la que finalment és interessant en la vida artificial, no sols
pel fet que suporti computadors universals, sinó també per que són capaços de descriu-
re sistemes complexes emprant regles senzilles. Un exemple d’aquesta utilitat n’és la
modelització matemàtica de flocs de neu emprant autòmats cel·lulars [Wolfram, 1984b].

5.1.5 Altres

Per acabar aquest apartat d’autòmats cel·lulars, és imprescindible comentar, encara que
sigui breument, dos altres propostes: el Loops de Langton i el Boids de Reynolds.

Loops

Christopher Langton és considerat un dels fundadors del camp que rep el nom de “vida
artificial”. Dues de les seves principals aportacions són: la classificació de sistemes
98 Vida Artificial

d’informació capaços de suportar “vida”, i el sistema auto-replicant anomenat Loops.


La taxonomia que realitza és basa en el moviment d’informació en sistemes dinàmics
complexes [Levy, 1993]. Aquest estudi reafirma el que ja havia presentat Wolfram en
la seva classificació dels autòmats cel·lulars. És a dir, que la vida, vista com a copia
i propagació d’informació, sols pot aparèixer en sistemes amb un delicat equilibri que
permeti el manteniment d’estructures d’informació, però que alhora sigui suficientment
flexible com per permetre l’evolució de les mateixes. A aquest punts els anomena “sweet
spots”.
L’altra aportació que realitza Langton és el Loops [Langton, 1986]. Aquest sistema
proposa un autòmat cel·lular auto-replicant. Aquest autòmat es mou en un univers
bidimensional però, a diferència dels de Conway i Wolfram, cada cel·la és un autòmat
que pot estar en vuit possibles estats. A grans trets, el resultat d’aquest sistema són
una espècie de ‘o’s que creen una cua, convertint-se en quelcom com una ‘q’. Aquesta
cua creix plegant-se sobre si mateixa arribant a tancar-se com un ‘8’. Arribats a aquest
punt, es produeix una separació que forma dues noves ‘o’s, havent complert el fet de
d’auto-replicar-se.
Aquest sistema recupera l’essència del sistema proposat per von Neumann, però
aporta certes peculiaritats. La més destacada, deixant de banda la seva capacitat per
auto-replicar-se, és el fet que proposa “estats escut”. És a dir, els organismes posseeixen
un recobriment de la seva informació d’auto-replicació que la protegeix de l’exterior. Per
aquest motiu, la informació flueix a través de zones protegides, com l’electricitat per un
fil.
Del fet anterior es torna a veure l’analogia amb els sistemes vius, ja que la informació
flueix pels organismes, però aquesta es troba confinada a àrees “segures” que li permeten
moures en entorns “sweet spots” o el que Wolfram anomenava classe 4. També existeix
una altra coincidència entre el treball de Wolfram i de Langton, i és que si els autòmats
1D de Wolfram recordaven mol·luscs, els de Langton tenen una clara retirada amb les
estructures coral·lines.

Boids

El Boids és un sistema proposat per Craig Reynolds [Reynolds, 1987]. Davant d’orga-
nismes d’informació amb capacitat de moviment, com els gliders del Life, taula 5.1.b,
es desprén que un cert comportament emergent, col·lectiu i distribuı̈t, és generable em-
prant autòmats finits, o un equivalentment, regles. Aquest punt és en el que es centrà
Reynolds per resoldre el seu problema d’animació per ordenador.
El que es volia resoldre era modelar el moviment d’ocells formant estols. Davant la
no existència de cap teoria que li fos d’utilitat per l’animació, fou necessari el desenvolu-
pament d’un model. La seva solució passà per emprar els conceptes vistos anteriorment,
essent una de les primeres aplicacions populars de la vida artificial. Els ocells són mo-
delats de forma elemental, ja que sols són un vector d’orientació (del moviment) i un
radi de visió, tal i com es presenta a la figura 5.2.a. El model emprat per descriure el
5.1 Autòmats Cel·lulars 99

(a) Ocell (b) Cohesió

(c) Alineació (d) Separació

Figura 5.2: Representació gràfica de les regles del Boids

moviment dels estols es composa de tres regles bàsiques [Reynolds, 1987]:

1. Una força de cohesió manté a l’estol unit (figura 5.2.b).

2. Un ocell és capaç de moures en la mateixa direcció i velocitat que l’estol (figura
5.2.c).

3. Una força de separació evita que els ocells s’acostin excessivament (figura 5.2.d).

Amb aquestes tres senzilles regles, el sistema es capaç de simular el comportament


d’un estol d’ocells, generant un comportament col·lectiu emergent totalment distribuı̈t.

5.1.6 Recopilatori

Per concloure l’apartat d’autòmats cel·lulars es voldria resumir, a grans trets, les princi-
pals idees que aporten.

• La vida es basa en la propagació d’informació (5.1.1).

• Aquesta propagació es basa en l’auto-replicació (5.1.2).

• És precı́s un delicat equilibri per que la informació pugui fluir (5.1.4).

• Sol ser necessari la protecció de la informació per facilitar el procés de propagació


(5.1.5).
100 Vida Artificial

• Aquest procés pot generar comportaments col·lectius emergents (5.1.3 i 5.1.5).

• No existeix un control centralitzar sinó que aquest és totalment distribuı̈t, i nor-
malment, massivament paral·lel (Tots excepte el model kinemàtic que ràpidament
es refé).

5.2 Algorismes Evolutius

En aquest apartat no es pretendrà descriure els algorismes evolutius [Holland, 1975,


Goldberg, 1989, Michalewicz, 1992], si no que el que buscarà serà veure quina és la
seva aportació al camp de la vida artificial. L’interès d’aquesta visió és el fet que tot
el que s’amaga darrera el nom d’algorismes evolutius no sols partir de les idees de von
Neumann, sinó que directament s’inspiren en la vida. És a dir, en lloc de començar des
de l’univers de la informació per acabar arribant al univers biològic, el que es proposa és
prendre la biologia com a font d’inspiració per l’univers de la informació.
Per aquest motiu, els algorismes evolutius recullen algunes de les caracterı́stiques
abstretes dels estudis de la vida artificial emprant autòmats cel·lulars. Per exemple,
treballen sobre informació (codificada en el genotip de cromosomes), permeten la pro-
pagació d’informació d’una iteració a una altre . . . Però es troba encerclat per elements
que poden limitar la seva potència, per exemple, normalment la representació d’un al-
gorisme evolutiu es fixa a priori. És una bona tria la que s’ha fet a priori?. Si un es
vol inspirar en la biologia, un cromosoma, i per tant com es codifica i emmagatzema la
informació, és el resultat d’un llarg procés evolutiu a través del temps.
Malgrat les restriccions que puguin presentar, introdueixen elements innovadors que
no apareixien en els estudis provinents dels autòmats cel·lulars. Indiquen que la in-
formació es pot recombinar (reproducció sexual). També introdueixen el concepte de
supervivència dels més ben adaptats (Darwin). Per no estendre innecessàriament aquest
punt, presenten les propietats d’un sistemes d’enfocament bottom-up [Fogel, 1995].
En el camp dels algorismes evolutius (entès en el sentit més ampli de la paraula) hi
ha multitud d’exemples il·lustratius, malgrat això a continuació es descriuran solament
quatre exemples il·lustratius del que poden aportar el algorismes genètics a la vida
artificial.

5.2.1 La formiga d’UCLA

Una de les moltes aplicacions dels algorismes evolutius és l’aprenentatge artificial. Un
exemple il·lustratiu, a cavall d’ambdós, és la formiga que es proposà per un grup de
recerca d’UCLA. La idea que perseguien era aplicar l’enfocament bottom-up inherent de
la vida artificial a un problema d’aprenentatge automàtic [Levy, 1993].
5.2 Algorismes Evolutius 101

El problema consistia en fer que una formiga aprengues a cercar menjar en una
malla bidimensional. Concretament el que es volia que aprengués era a seguir un tipus
concret de recorregut anomenat John Muir Trail. Per assolir els seu objectius empraren
un algorisme genètic. La finalitat d’aquest algorisme era fer “evolucionar” (aprendre)
les formigues per que seguissin el recorregut.
La peculiaritat d’aquest enfocament era el que feia evolucionar l’algorisme. Una
formiga no era res més que un autòmat finit. És en aquest punt quan es torna a veure la
informació que descriu un individu (formiga) com un cert programa. Com es pot apreciar
s’ha tornat a arribar a la idea del model kinemàtic de von Neumann, però aquest cop
partint de l’extrem oposat, la biologia com a font d’inspiració.

5.2.2 Sistemes Classificadors

El tema dels sistemes classificadors ha estat àmpliament tractat en el capı́tol 4. En


aquest punt, es fa una breu revisió de les aportacions dels mateixos al camp de la
vida artificial. Els sistemes classificadors [Holland, 1975] pretenen implementar un tipus
concret d’aprenentatge artificial: la classificació automàtica a partir d’exemples. Per
dur-ho a terme implementen tot un sistema cognitiu. Això fa referència al fet que el
sistema classificador és un agent amb certs elements predefinits:

Detectors: són els responsables de codificar l’entorn en missatges que el descriuen en


un moment donat del temps.

Efectors: reben missatges dels classificadors i són els responsables d’actuar en l’entorn
tal i com els ho ha indicat el missatge rebut.

Llista de missatges: actuen de magatzem dels missatges entrants dels detectors, aixı́
com dels missatges recurrents dels classificadors.

Classificadors: són regles del tipus if-them, en les quals les seves condicions es verifiquen
contra missatges provinents de la llista de missatges. El resultat d’aquestes regles
són nous missatges que poden ser enviats, o bé a la llista de missatges, o bé als
efectors.

Per dur a terme la seva tasca d’aprenentatge, els sistemes classificadors empren un
algorisme genètic per realitzar la tasca d’obtenir les regles o classificadors. L’algoris-
me genètic es complementa amb un algorisme d’assignació de crèdit (Bucket Brigade
Algorithm) per determinar el fitness de les regles.
Dels sistemes es ressaltarien dues aportacions provinents de la biologia al món de la
vida artificial:

• Es troben immersos en un entorn amb el que interactuen, podent aquest ser


modificat.
102 Vida Artificial

• El material genètic (informació) és una petita part del sistema global, però prou
important com per controlar-ne el comportament.

• Els sistemes classificadors permeten modelitzar sistemes complexes.

Per contra, presenta alguns punts foscos per ser absorbits dins el marc de conceptes
que conforma la vida artificial. Aquests serien:

• Presenta el mateix problema de la “caixa negra” que el model kinemàtic de von


Neumann.

• El punt anterior impedeix la creació d’un sistema auto-replicant.

• La informació sols controla el comportament, però no la estructuració del sistema


classificador.

• Els sistemes classificadors són inicialment pensats per actuar en solitari.

5.2.3 El món d’Echo

John H. Holland en el seu afany de modelar sistemes complexes, feu evolucionar els
sistemes classificadors en el que acabà conformant el que es coneix com a món d’Echo
[Holland, 1975, Holland, 1995, Holland, 1998]. El món d’Echo és un espai en forma de
malla bidimensional en el qual si poden trobar els següents elements:

Recursos: per l’espai es poden trobar recursos, que corresponen a algun dels elements
de l’alfabet dels recursos { a, b, c, d }

Fonts: corresponen a fonts renovables de recursos. Això indica que cada cert perı́ode,
la font genera nous recursos.

Agents unicel·lulars: són els organismes més simples que recorren el món d’Echo. Són
l’evolució dels sistemes classificadors comentats anteriorment. La seva estructura
serà comentada més endavant.

Agents multicel·lulars: els organismes unicel·lulars del món d’Echo es poden agrupar,
formant aixı́ un individu complex basat en la simbiosi dels individus que el formen.

Els agents del món d’Echo han intentat fer desaparèixer el problema de “caixa negra”
dels sistemes classificadors. Per assolir-ho l’agent queda totalment definit per la seva
informació genètica. Per altra banda, els agents poden realitzar tasques individuals, o
d’interacció amb la resta d’agents del món.
Les tasques individuals que pot realitzar un agent són: desplaçar-se pel món, alimentar-
se (recollir recursos del món), i replicar-se (sempre que disposi dels recursos adients). Pel
que fa a les activitat col·lectives, els agents poden: establir combat, comerciar recursos,
5.3 Ecologies Artificials 103

o bé aparellar-se. Però la principal peculiaritat del comportament col·lectiu és el fet que
dos agents poden decidir recombinar el seu material genètic.
Com es pot apreciar, en el món de l’Echo s’intenta sintetitzar totes les idees vis-
tes fins al moment. Es pretén obtenir sistemes auto-replicants, els quals es basen en
fluxos d’informació, amb un comportament emergent distribuı̈t i paral·lel. Per altra ban-
da, també incorpora conceptes provinents dels algorismes genètics com és el concepte
d’aparallement (creuament sexual d’informació genètica).

5.2.4 Programació Genètica

La programació genètica proposada per John R. Koza [Koza, 1992] no neix dins el món
de la vida artificial. El seu objectiu és l’obtenció de programes emprant com a mètode
de cerca programes basats en els mateixos conceptes que els algorismes genètics.
Parlar de programació genètica cau un fora d’aquest treball, malgrat això, és interes-
sant comentar-ho per varis motius. El primer és que més endavant es tornarà a parlar
del concepte d’aprenentatge de programes. El segon és pel fet que el problema de la
formiga d’UCLA (5.2.1) es tornà a abordà emprant programació genètica, obtinguen
bons resultats.

5.2.5 Efecte Baldwin

A l’igual que el punt anterior, l’efecte Baldwin [Baldwin, 1896] es comenta aquı́ breument
cara al fet que en apartats posteriors se’n farà referència. La proposta de Baldwin proposa
un punt intermig entre, l’evolució de mendeliana i el lamarkisme . El primer proposa
una evolució en que els individus no en poden controlar el procés. El segon, per contra,
proposa una evolució (actualment totalment descartada) en la qual un individu, al llarg
de la seva vida podria modificar la seva informació genètica amb més o menys voluntat.
L’efecte Baldwin, rebutja el lamarkisme, però malgrat això, proposa una evolució en
la que l’aprenentatge d’un individu pot influir en el procés evolutiu. El que proposa és
que un individu pot aprendre certes avantatges al llarg de la seva vida, proposant canvis
en l’entorn que l’afavoreixin. Concretament, el que proposa és un canvi dinàmic en la
funció d’avaluació, provocant aixı́ que l’evolució que afavoreixi cert tipus de solucions.
Un exemple d’aquest tipus de proposta es pot trobar en la proposta feta per Ackley i
Littman [Ackley and Littman, 1991] que serà comentada en l’apartat següent.
104 Vida Artificial

5.3 Ecologies Artificials

Dins la vida artificial, a part dels autòmats cel·lulars i els algorismes genètics (entesos en
el sentit més ampli de la paraula), es troben també diverses propostes sota el nom genèric
de ecologies artificials. L’origen d’aquestes propostes solen ser d’inspiració clarament
biològica. A continuació es presenta algunes de les propostes més rellevants.

5.3.1 L-System

El que es coneix com a L-System és el resultat de la proposa feta per Aristid Lindenmayer
[Lindenmayer and Prusinkiewicz, 1990]. El principal objectiu que perseguia era trobar
una forma matemàtica de descriure el desenvolupament de les plantes. La seva proposta,
degut a tot el que s’ha comentat anteriorment, havia d’ésser simple. El resultat és una
forma de descriure el desenvolupament de plantes emprant gramàtiques.
Gramàtica Un dels exemples més senzills que presentà fou el d’una alga. La gramàtica que la
descriu és:

a → ab
(5.1)
b→a

On la mot inicial és ab. Aplicant les regles de derivació de gramàtica al mot inicial,
es va obtinguen aba, abaab, abaababa, . . . Aquesta successió de mots descriuen
el desenvolupament de l’alga, on aquest desenvolupament es sol interpretar de forma
gràfica. La figura 5.3 presenta algunes representacions gràfiques obtingudes a partir de
gramàtiques.
Degut a aquesta reinterpretació gràfica del model matemàtic, els L-Systems han
sortit força vegades del reducte de la vida artificial en direcció al camp dels gràfics per
ordinador. En aquest salt, han aparegut hibridacions entre aquests sistemes i fractals.
Alguns exemples són els proposats per Alvy Ray Smith [Smith, 1987] sota el nom de
“graftals” [Smith, 1984]. Alguns d’aquests sistemes són capaços de generar jardins
virtuals d’alt realisme visual.

5.3.2 Tierra

El Tierra [Ray, 1995] és un model de vida artificial que recull força idees de les vistes
fins al moment. El seu creador, Thomas Ray, és un biòleg interessat per les idees que
es presenten dins el camp de la vida artificial.
El seu objectiu principal és crear un món en el qual els “organismes” es dediquin a
replicar-se a si mateixos (von Neumann), competint en un entorn amb recursos limitats.
Concretament el organismes dels que parla el Tierra són programes (o estratègies) que es
5.3 Ecologies Artificials 105

(a) Estocàstic (b) Branquejat (c) Ampliat

Figura 5.3: Alguns exemples generats amb L-Systems

dediquen a auto-replicar-se. És una idea similar al individus que s’usen en programació
genètica.
Aquests “organismes” (programes en un ensamblador molt senzill, idea heretada dels
“jocs de guerra” que es comenten a continuació) competeixen pels recursos finits d’un
ordinador virtual. Dit d’una altra forma, principalment competeixen per la memòria i el
temps de CPU. En aquest món els “organismes” sols poden sofrir variacions resultants
d’una mutació. El curiós és que aquesta es pot produir, o bé en el procés de recombinació
(habitual en la natura), o bé per agressió externa (punt que presenta certes similituds
amb una aproximació provinent del lamarkisme).
Com es pot veure, aquesta proposta recull gran part de les idees proposades en el
camp de la vida artificial. Això va des de la capacitat de rèplica, els autòmats (els
“organismes” en són les instruccions), fins a les idees de selecció natural i mutació de
l’individu en el procés de copia. Sorprenentment, queda fora del Tierra conceptes com
la recombinació d’informació (creuament sexual dels algorismes genètics), estimulació
de comportament emergent entre els individus, etc.

5.3.3 AL

Un altre món que busca recollir els conceptes apareguts en el món de la vida artificial
és l’AL (Artificial Life) proposat per David Ackley [Ackley and Littman, 1991].
L’AL és un món bidimensional pla de mida finita (cent caselles al llarg i cent a
l’ample). Aquest món es poblat per formes artificials de vida amb una reproducció basada
en la genètica, que anomenà “agents”. Aquest agents s’alimenten, principalment, de
vegetals existents en el món i poden ésser ferits, o bé per xocs contra els murs del món,
106 Vida Artificial

o bé per batusses amb els carnı́vors que també l’habiten.


Malgrat tot l’objectiu del AL és esperar l’aparició d’un comportament emergent.
Concretament el que s’esperava era l’aparició de l’efecte Baldwin [Baldwin, 1896] (an-
teriorment comentat) i recuperat en els treballs de Hinton [Hinton and S.J., 1987]. Per
fer-ho Ackley proposà el que anomenà Evolutionary Reinforcement Learning (ERL).
El fet consistia en proporcionar als seu “agents” del AL dues xarxes neurals: una
anomenada d’acció i una altra d’avaluació. La missió de la primera (acció) era determinar
les accions de l’agent, mentre que la segona (avaluació) era qualificar la idoneı̈tat o no
de les accions determinades per la primera. Un “agent” al llarg de la seva existència pot
anar ajustant les seves xarxes, però rebutjant el lamarkisme.
Amb aquesta proposta Ackley esperà l’aparició de l’efecte Baldwin com a la capa-
citat dels “agents” de començar del no res, però a mida que el temps va transcorrent,
que aquest acumulin de forma instintiva els coneixements apresos pels seus avantpas-
sats. Aquest punt s’havia de reflectir en la xarxa d’avaluació. Els resultats dels seus
experiments es poden trobar a [Ackley and Littman, 1991, Levy, 1993].

5.3.4 Jocs de guerra

Paralel·lament i anteriorment al Tierra, apareixeren certes propostes, també basades en


organismes que venien descrits per instruccions, la finalitat de les quals era l’evolució en
la competència entre espècies. Concretament, es solen centrar en la generació de de-
predadors, amb sorpreses interessants. A continuació es comenten lleugerament algunes
propostes representatives.

Core War

A. K. Dewdney proposà un joc anomenat Core War [Dewdney, 1988]. Aquest joc pro-
posava una lluita entre organismes consistents en instruccions d’un senzill llenguatge
ensamblador anomenat “Red Code”. Aquest organismes vivien en un ordinador virtual
(aprofitant la idea d’una màquina de Turing emulant-ne una altra) amb la finalitat de
replicar-se i sobreviure emprant qualsevol mitjà disponible.
En aquesta proposta els individus, a part de replicar-se, també es dedicaven a difi-
cultar al màxim la tasca dels altres organismes, buscant augmentar la seva probabilitat
de sobreviure a la selecció natural imperant. Aquest joc, acaba essent el predecessor,
entre d’altres, del Tierra (ja comentat) i del Venus.

Venus

El Venus [Rasmussen et al., 1990] (Virtual Evolution in a Nonstochastic Universe Simu-


lator) és la proposta de Steen Rasmussen. Recupera idees i regles extretes del Core War,
5.4 Robots 107

per definir el que anomena Core World. La idea de fons parteix del caldo prebiòtic en el
qual s’originà la vida.
El sistema proposa organismes que són conjunts d’instruccions residents a memòria.
Aquests organismes presenten la peculiaritat que solien ésser el resultat d’estructures
cooperatives, o agrupacions d’instruccions elementals.

Corol·lari: Virus

Es important fer menció aquı́ del treball de Fred Cohen [Cohen, 1987]. Aquest fou el pri-
mer a intuir les possibilitats que aquest tipus de sistemes oferien. Les propostes anteriors
sempre emulaven màquines a partir d’altres màquines (aprofitant les idees de Turing),
però que passaria si es provés directament damunt d’una màquina?. Aquesta situació
tenia la seva vessant més positiva, l’aparició d’organismes automàticament per resoldre
problemes, i la contrapartida més perillosa, l’aparició de depredadors d’informació dins
els sistemes. Aquest últim és conegut per un cas concret, els virus.

5.4 Robots

Una altra vessant de la vida artificial és les noves propostes que han afectat a la robòtica.
Aquesta branca s’allunya bastant de l’objectiu del treball dut a terme en aquesta tesi.
Malgrat això, tot seguit es comentarà breument on s’han aplicat les idees provinents de
la vida artificial al camp de la robòtica.

Arquitectura: El primer punt que afecta les idees que proposa la vida artificial és la
concepció de la seva arquitectura. Un exemple clar és la proposa de Brooks
[Brooks, 1986], que passa d’un sistema clàssic de pipeline amb percepció, mode-
lització, planificació, execució de la tasca i motor de control, a una arquitectura
de subsumpció. La idea és posseir petites unitats capaces de desenvolupar tasques Subsumpció
de forma distribuı̈da, posseint un senzill control distribuı̈t que en proporciona un
cert comportament emergent.

Maquinari: Apareixen propostes com el Genghis i l’Attila del MobotLab (MIT) [Levy, 1993],
els quals presenten forma d’insectes. La peculiaritat d’aquests és el fet de tornar Insectes
a basar-se en un control distribuı̈t, cooperatiu i emergent que els proporciona
una gran senzillesa i simplicitat a l’hora de comparar-los amb els seus homònims
d’aquitectures clàssiques.

Nanobots: Sota aquest nom s’agrupen un conjunt de propostes que, de moment, són
més properes a la ciència-ficció. La idea bàsica és construir robots de mida mi-
croscòpica, els quals sigui capaços d’auto-replicar-se i mostrar comportaments
emergents, propis de les idees que sorgeixen del camp de la vida artificial, per
108 Vida Artificial

resoldre problemes concrets de forma automàtica. Dins aquests mantell apareixen


idees com la programació de proteı̈nes, la miniaturització . . .

5.5 Resum

Tal i com s’ha pogut anar veient al llarg d’aquest capı́tol, el camp de la vida artificial recull
idees provinents de diferents disciplines, cadascuna d’ella proposant diferents tècniques
(autòmats cel·lulars, algorismes evolutius, ecologies . . . ). Això és degut, principalment,
a la dificultat de definir que és un sistema “viu”.
Malgrat això, al llarg de les propostes presentades, apareixen certes propietats que
es repeteixen, i que sembla que tot sistema hauria de proporcionar i explotar. A tall de
resum, les principals es són les que es citen a continuació:

• La vida es basa en la propagació d’informació. Aquesta propagació es basen en


l’auto-replicació, la recombinació i l’alteració (mutació).

• Els sistemes vius impliquen processos col·lectius, i normalment massivament paral·lels.

• Els processos no solen presentar controls centralitzats, sinó distribuı̈ts.

• Solen generar comportaments emergents. Això inclou des de capacitats coopera-


tives, simbiosis, . . .

• L’aprenentatge juga un paper important, ja sigui des del punt de vista evolutiu, o
bé d’un organisme.

5.6 Notes Bibliogràfiques

General Tant a [Levy, 1993], com a [Emmeche and Sampson, 1996], es poden trobar introduc-
cions entenidores a la vida artificial. En ambdós llibres es fa un repàs general a les
principals àrees existents, aixı́ com proporcionen abundants referències per aprofundir en
els temes tractats
Autòmats D’autòmats cel·lulars n’existeix una amplia bibliografia. Aquı́ només es repassaran
cel·lulars alguns dels materials que s’han emprat per escriure aquest capı́tol. El treball de John
von Newmann fou publicat fou publicat pòstumament a [Burks, 1966]. Aquest llibre és
la descripció del primer autòmat cel·lular, el qual implementava el model kinemàtic de
von Newmann. Per la seva banda, una descripció del Joc de la Vida de John H. Conway
es pot trobar a [Berlekamp et al., 1982], on la demostració de la seva idempotència a la
màquina de Turing, i per tant convertint-lo en un computador universal es pot trobar a
5.6 Notes Bibliogràfiques 109

[Poundstone, 1985]. El treball d’Stephen Wolfram sobre autòmats cel·lulars unidimensi-


onals es pot trobar, entre d’altres a [Wolfram, 1983, Wolfram, 1984a, Wolfram, 1984b].
Finalment, [Langton, 1986] conté la descripció del Loops, aixı́ com [Reynolds, 1987] la
del Boids.
Introduccions a la computació evolutiva es poden trobar a [Goldberg, 1989] i a Computació
[Michalewicz, 1992], malgrat que el text pilar de l’àrea és el publicat per John H. Holland evolutiva
[Holland, 1975]. Posteriorment es publicaren alguns treballs recopilatoris estesos, com
per exemple [Fogel, 1995].Pel que fa a la programació genètica, el principal text fou
publicat per John R. Koza a [Koza, 1992]. Altres llibres d’interès divulgatiu, relacionats
amb la computació evolutiva en general (incloent la seva aplicació a la vida artificial)
són [Holland, 1995, Holland, 1998]. Ecologies digi-
tals
La descripció de l’efecte Baldwin es pot trobar a [Baldwin, 1896], aixı́ com les seves
implicacions per l’aprenentatge artificial es tracten a [Ackley and Littman, 1991]. El
treball d’Aristid Lindenmayer sobre L-Systems es pot trobar, entre d’altres a, al llibre
[Lindenmayer and Prusinkiewicz, 1990]. Les referències [Smith, 1987, Smith, 1984] par-
len de graftals. El Tierra de Tom S. Ray es descriu amb detall a [Ray, 1995]. L’AL, bases
i descripció es poden trobar a [Hinton and S.J., 1987], i a [Ackley and Littman, 1991].
El Core War es pot trobar descrit a [Dewdney, 1988], metre que el Venus apareix descrit
per primer cop a [Rasmussen et al., 1990]. El treball de Fred Cohen sobre virus es pot
trobar a [Cohen, 1987].
110 Vida Artificial
CAPÍTOL 6

GALE: Model Evolutiu per la Mineria de Dades

GALE (Genetic and Artificial Life Environment) és el nom que rep la proposta que
fa en aquesta tesi per resoldre problemes de mineria de dades. Tal i com es definı́ en
els capı́tols 2 (pg. 7) i 3 (pg. 19), la mineria de dades engloba la resolució de diferent
tipus de tasques. De totes elles, aquesta tesi es centra en la resolució de problemes de
classificació.
Aquest capı́tol proposa l’ús d’un algorisme genètic paral·lel de gra fi. La caracterı́stica
més rellevant d’aquest algorisme per la mineria de dades rau en el fet que el model és
independent de la representació del coneixement que s’utilitzi. Dit d’una altra forma,
el mateix model és capaç de treballar eficientment amb diferents representacions del
coneixement. El model serveix tant per fer evolucionar regles de classificació, instàncies,
o bé arbres d’inducció, tal i com es presentarà en aquest capı́tol.
Per facilitar l’explicació del model, s’ha decidit separar en tres capı́tols diferenciats.
Aquest és el primer d’aquest capı́tols, el qual es centra en la descripció del model
pròpiament dit. Concretament, es descriurà detalladament l’algorisme GALE pròpiament
dit. El capı́tol 7 (pg. 167) és el segon dels tres capı́tols i es centra en estudiar el
comportament i dinàmica de l’algorisme proposat. Finalment, el capı́tol 8 (pg. 219),
tercer i últim, repassa l’aplicació del GALE a problemes reals de mineria de dades.
Per concloure aquesta breu introducció, tot seguit es pararà a descriure l’estructu-
ració d’aquest primer capı́tol sobre el GALE. A la secció 6.1 es farà un repàs de les
principals caracterı́stiques que haurà de satisfer el GALE. Un cop fet aquest repàs, la
secció 6.2 comentarà breument alguns dels referents d’aquest treball, buscant posant-
los en relació entre si. La secció 6.3 passarà a descriure el model que proposa el GALE
pròpiament dit. Serà en aquesta secció on es descriurà tot el marc que es proposa per
poder assolir treballar amb qualsevol tipus de representació del coneixement disponible.
Els diferents tipus de representacions de coneixement emprades es detallen a la secció
6.4. Finalment, la secció 6.5 fa un resum del que s’ha presentat al llarg del capı́tol,
112 GALE: Model Evolutiu per la Mineria de Dades

mentre que la secció 6.6 conclou el capı́tol repassant algunes referències bibliogràfiques
d’interès que han anat apareixent al llarg del mateix.

6.1 Consideracions de sortida

El GALE neix com a resultat d’un conjunt de restriccions. El treball realitzat ha estat el
resultat de mantenir, al llarg del mateix, tres consideracions o directrius que han guiat
les decisions que s’ha pres. Aquestes es poden resumir breument dient que el GALE
havia de ser:

1. Aplicable a problemes de classificació amb tot tipus d’atributs.

2. Independent de la representació del coneixement emprada pels individus.

3. Un model inherentment massivament paral·lel

Com es pot apreciar aquestes consideracions no són excessivament restrictives. Prin-


cipalment sorgeixen de pensar en el tipus de problema que es vol resoldre: problemes
de mineria de dades, concretament de classificació. Una caracterı́stica inherent d’aquest
tipus de problemes és que la informació no es presenta de forma homogènia. És a dir, els
tipus dels atributs que descriuen les dades a tractar varien molt. Es pot trobar problemes
Tipus d’atri- en que els tipus d’atribut emprats són purament numèrics (e.g. el resultat del mostreig
but d’un conjunt de sensors analògics), a d’altres que contenen atributs nominals (i.e. el
tipus d’aminoàcids que formen les cadenes d’ADN, quatre en concret), o combinacions
d’altres tipus com poden ser dates, cadenes de caràcters, etc. Per aquest motiu es im-
peratiu que el treball fos capaç de treballar amb tot tipus d’atributs. Aquest punt porta
directament a la segona consideració.
Independent El model ha de ser independent de la representació del coneixement emprada. Exis-
de la repre- teixen varies raons per proposar aquesta consideració. La primera rau en el fet que la
sentació del representació del coneixement emprada ha de poder treballar amb qualsevol tipus d’atri-
coneixement but. En els algorismes d’aprenentatge artificial, presentats en el capı́tols 3 (pg. 19), això
no sempre es aixı́. Sovint sols estant pensat per treballar amb representacions del conei-
xement que contenen un tipus particular d’atribut. Per exemple l’ID3 [Quinlan, 1986]
sols es capaç de treballar amb atributs nominals 1 . Malgrat que sempre es pot buscar
generalitzar la representació del coneixement incloent nou tipus d’atributs, això no sol
ser sempre possible. El motiu rau en el fet que els algorismes d’aprenentatge emprats es-
tan, per dir-ho d’alguna forma, fets a mida de la representació del coneixement emprada
(això inclou el tipus d’atributs que pot tractar). Per aquest motiu canviar-la representa
canviar l’algorisme d’aprenentatge pròpiament dit, fet que no sempre es possible.
1
Quinlan proposar una generalització del ID3 que rep el nom de C4.5 [Quinlan, 1993] que inclogué
el tractament d’atributs numèrics, entre d’altres caracterı́stiques
6.2 Referents 113

Ef.

Figura 6.1: Relació eficiència/espectre de problemes resolubles

Existeix un altre punt que indica la necessitat d’un model independent de la repre-
sentació del coneixement que es vol obtenir. Aquest és que en un sistema de mineria
de dades l’usuari final ha de poder tenir la capacitat de triar aquella representació que
prefereix, ja sigui per inteligibilitat, eficiència, o qualsevol altre consideració que vulgui
satisfer. Això implica que, per exemple, l’usuari pot voler obtenir inicialment un arbre de
decisió i, posteriorment, un conjunt d’instàncies (o exemples) representatius. General-
ment, els algorismes d’aprenentatge artificial no solen ser capaços de mantenir el mateix
algorisme a través de l’espectre de possibles representacions del coneixement possibles.
És a dir, al canviar la representació l’algorisme d’aprenentatge sol deixar de tenir sentit,
i per tant aplicabilitat. Aquesta relació eficiència/espectre de problemes resolubles es
pot representar gràficament [Goldberg, 1989] tal i com presenta la figura 6.1.
L’última consideració que marca el treball realitzat en aquesta tesi imposa que el
model ha d’ésser massivament paral·lel. Aquesta directriu torna a sortir del fet d’exami- Massivament
nar els problemes de mineria de dades. En aquest tipus de problemes el volum de dades paral·lel
a examinar sol ser molt elevat. Aquest fet provoca que el temps emprat per l’algorisme
d’aprenentatge sigui també molt elevat. Per aquest motiu el model que es volia generar
havia de ser, per definició, massivament paral·lel. Conseqüentment, l’objectiu era poder
disminuir, en cas de necessitat, el temps de computació de forma directa explotant el
paral·lelisme inherent en el model.

6.2 Referents

En aquesta secció no es farà un repàs dels referents directes d’aquest treball. Aquesta
tasca s’ha dut a terme, principalment, en els capı́tols 3 (pg. 19), 4 (pg. 51) i 5
(pg. 91). En aquests capı́tols previs es pot trobar els referents en els quals s’emmarca
el treball d’aquesta tesi. Malgrat això, el que es vol realitzar en aquesta secció tot
seguit és comentar un xic més detalladament algunes connexions existents entre alguns
d’aquests referents i el treball que aquı́ es presenta. Per fer-ho, s’ha cregut oportú
114 GALE: Model Evolutiu per la Mineria de Dades

separar aquesta explicació en dos grups diferenciats. El primer es centra principalment


en els treballs de paral·lelisme existents relacionats amb la mineria de dades. Per altra
banda, el segon parla més especı́ficament d’alguns treballs realitzats en el camp dels
sistemes classificadors.

6.2.1 Paral·lelisme, Algorismes Genètics i Autòmats Cel·lulars

El concepte de paral·lelisme és inherent tant als algorismes genètics, capı́tol 4 (pg.
51), com pel que fa als autòmats cel·lulars, capı́tol 5 (pg. 91). Pel que fa al algoris-
mes genètics, existeix un referent clar com és el GA-MINER [Flockhart, 1995]. Aquest
algorisme és una de les primeres incursions dels algorismes genètics al camp de la mi-
neria de dades, malgrat que la seva tasca principal no és la de resoldre problemes de
classificació, si no l’obtenció de regles d’associació. Per altra banda, en el cas dels
autòmats cel·lulars, malgrat les seves caracterı́stiques, no s’ha trobat fins al moment
cap treball que pugui servir de referent directe pel treball que es presenta aquı́. El
treball més proper és el presentat per Moshe Sipper [Sipper, 1997] que busca la pro-
gramació automàtica d’autòmats cel·lulars, aixı́ com el fet per Michael Kirley i David
Green [Kirley and Green, 2000, Green and Kirley, 2000] en la simulació d’ecosistemes.
Tot seguit es comentaran breument ambdós treballs.
El GA-MINER [Flockhart, 1995] és un sistema dissenyat pel descobriment de patrons
dins de bases de dades. Aquest fet l’allunya un xic dels problemes de classificació
pròpiament dits, acostant-lo cap a problemes d’obtenció d’associacions entre dades de la
base de dades explorada. Cada individu de la població descriu una única regla expressada
en forma normal disjuntiva. Cada regla és avaluada independentment de la resta de regles
de la població. La formació de conjunts de regles es realitza emprant una estratègia
heurı́stica incremental. Com que l’objectiu el GA-MINER és descobrir associacions, on
el percentatge d’encert global passa a formar part d’un segon pla, no quedant garantida
pel sistema.
El model d’evolució que proposa el GA-MINER és configurable. Permet execucions
seqüencials emprant el model original d’algorisme genètic, però també permet models
paral·lels força variats2 . El principal model paral·lel que empra és el que utilitza un model
multipoblacional (o també conegut com a model d’illes). Aquests tipus de model paral·lel
es basa en l’ús de diferents poblacions que, al llarg del procés evolutiu, intercanvien
individus que són anomenats immigrants. Alguns exemples dels esforços duts a terme
per assolir la paral·lelització eficient del GA-MINER es poden trobar a [Flockhart, 1995,
Araujo et al., 2000].
Pel que fa al treball presentat a [Sipper, 1997], el seu objectiu no és resoldre ni
problemes de classificació, ni de mineria de dades. El seu objectiu és programar au-
tomàticament autòmats cel·lulars. Dit d’una altra forma, el que busca es trobar de
forma automàtica les regles (o funció de transició) que han de governar un determinat
2
Quan es descrigui el model que proposa el GALE es comentarà en detall els principals tipus de
paral·lelisme que es poden trobar dins dels algorismes genètics.
6.2 Referents 115

autòmat cel·lular per resoldre un problema concret. Per fer-ho proposa un model dis-
tribuı̈t d’algorisme evolutiu que és capaç d’obtenir les regles de transició dels autòmats
més adients per solucionar acuradament el problema a resoldre. El principal interès
que té aquest treball, com a referent per aquesta tesi, és el fet que, a diferencia de les
aproximacions tradicionals que es poden trobar en el camp de la computació evolutiva,
presenta un model totalment distribuı̈t. No existeix un procés central que governi el fun-
cionament de l’algorisme evolutiu. La idea no es nova, ja que es l’aplicació de les idees
en les que es basa un autòmat cel·lular per resoldre el problema de com programar-lo. És
a dir, utilitza un model d’evolució cel·lular per resoldre el problema de la programació.
A l’igual que el treball anterior, el treball realitzat sobre algorismes genètics cel·lulars
(o cellular genetic algorithms, CGA), introduı̈ts a [Whitley, 1993], presenta l’aplicació
d’algorismes genètics paral·lels de gra fi. A l’igual que succeeix amb el GALE, els CGA
presenta un model d’algorisme genètic paral·lel inspirat en els autòmats cel·lulars. Mal-
grat aquestes similaritats, els CGA no estan pensats per resoldre problemes de classifica-
ció, sinó d’optimització, fet que els allunya com a referent del treball que aquı́ es presen-
ta. El model proposat pels CGA ha estat ampliat posteriorment [Kirley and Green, 2000,
Green and Kirley, 2000] per introduir el que s’ha anomenat desastres. S’entén per des-
astre, un event extintiu massiu en la població d’individus, i com pot això ajudar a
resoldre el problema d’optimització. Concretament, l’extinció busca la millora del procés
d’optimització a través de l’augment de la pressió selectiva sobre els individus.

6.2.2 Sistemes Classificadors i Mineria de Dades

L’interès per la mineria de dades emprant sistemes classificadors és força recent. Les
primeres propostes de mineria de dades emprant sistemes classificadors es poden trobar
a [Saxon and Barry, 2000, Wilson, 2000]. Aquest treballs fan lleugeres modificacions
al XCS, secció 4.7.4 (pg. 82), per permetre’l treballar, entre d’altres amb problemes
reals, com és el cas del problema conegut com “Wisconsin Breast Cancer” pertanyent
al repositori de l’Universitat de Califòrnia a Irvine [Merz and Murphy, 1998]. Aquest
interès ha dut a la recent aparició de treballs preliminars [Dixon et al., 2001, Lanzi, 2001]
que buscant l’aplicació de XCS a problemes de mineria de dades. Però, un estudi en
profunditat sobre el XCS comparat amb altres mètodes, com per exemple C4.5, IBL o el
propi GALE és pot trobar a [Bernadó et al., 2001]. La principal aportació d’aquest últim
treball és la d’aportar una metodologia per comparar el rendiment de diferents sistemes
quan s’apliquen a problemes de mineria de dades.
Per altra banda, un dels principals problemes que presenten els sistemes classificadors
en la seva aplicació a problemes de mineria de dades és l’escalabilitat. El problema prové
del fet que els models que s’estan utilitzant actualment no són fàcilment paral·lelitzables.
Aquests punt és crı́tic, especialment si es vol treballar amb problemes amb volums de
dades elevats. Un dels pocs referents que es poden trobar és el treball de paral·lelització
del SCS [Robertson, 1987]. En aquest treball es proposa una paral·lelització de la imple-
mentació del model proposat pel SCS. La implementació no és del tot satisfactòria, ja
que els sistemes classificadors (ja sigui el SCS, el XCS, o bé el ZCS) presenten processos
116 GALE: Model Evolutiu per la Mineria de Dades

purament seqüencials. Aquest punt converteix certes etapes dels sistemes classificadors
en colls d’ampolla en el moment de realitzar-se la paral·lelització, limitant-ne l’escalabi-
litat, tal i com es pot apreciar en el treball esmentat anteriorment.

6.3 Descripció del model

Un cop comentades breument les consideracions de sortida, aixı́ com els principals refe-
rents del treball presentat en aquesta tesi, tot seguit es passarà a descriure amb detall
el GALE. Tal i com s’ha vingut comentant fins al moment, el GALE és un algoris-
me genètic paral·lel de gra fi dissenyat per resoldre problemes de mineria de dades, en
concrets tasques de classificació.
El model que proposa el GALE és un xic extens. Per facilitar-ne l’explicació, aquesta
s’ha dividit en buit parts diferenciades. Cadascuna d’elles es centra en una part del
model proposat. Aquestes parts es poden resumir de la següent forma:

1. Topologia

2. Mapping

3. Algorisme paral·lel

4. Avaluació

5. Merge

6. Split

7. Survival

8. Test

Tot seguit es pararà a descriure cadascuna d’elles amb detall. Cal esmentar en aquest
punt que no es farà cap referència a la representació del coneixement emprada. Degut
a que el model que proposa el GALE és independent de la representació evolucionada,
la descripció de les mateixes es farà en la secció 6.4 (pg. 143).
Per concloure aquest preamble, es vol comentar que la primera descripció del GA-
LE publicada es pot trobar a [Llorà and Garrell, 2000b, Llorà and Garrell, 2000a]. En
aquests articles es presenta principalment el model, aixı́ com la descripció breu de les se-
ves parts. Pel que fa a les aplicacions del mateix, aixı́ com els resultats obtinguts, aquests
es poden trobar a [Llorà and Garrell, 2001b, Bernadó et al., 2001, Llorà and Garrell, 2001c,
Llorà and Garrell, 2001a]. Fetes aquestes puntualitzacions ja es passarà a descriure, sen-
se menys dilació, el treball realitzat.
6.3 Descripció del model 117

Master

Workers

Figura 6.2: Configuració master/workers d’un algorisme genètic paral·lel

6.3.1 Topologia

La primera part del GALE que es descriurà és la topologia de l’algorisme paral·lel que es
proposa. Per fer-ho primer es farà un breu repàs a les principals propostes realitzades
fins al moment3 .
Les primeres aproximacions a la paral·lelització dels algorismes genètics sorgı́ de la
constatació que la major part del temps s’empra en l’avaluació dels individus. És a dir,
cada iteració d’una algorismes genètic necessita avaluar la mesura de fitness associada a
cada individu de la població. A mesura que la complexitat del problema creix, també ho
fa el percentatge de temps que l’algorisme genètic utilitza per avaluar la població, podent
arribar a superar el 99% total del temps d’execució. Conseqüentment, les primeres
proposta d’algorisme genètic que es poden trobar paral·lelitzen l’avaluació de la població.
Per fer-ho, utilitzen un model master/worker (o també anomenat master/slave).
La figura 6.2 mostra la topologia de la paral·lelització master/worker. Aquest tipus
de paral·lelització disposa d’un element de procés distingit (master) i un conjunt variable
d’elements de procés auxiliars (workers). El funcionament és simple. El master executa
de forma seqüencial l’algorisme genètic, excepte la fase d’avaluació de la població. En
aquesta fase el master distribueix la població d’individus entre els diferents elements de
procés disponibles, els quals computen en paral·lel l’avaluació dels individus que se’ls ha
assignat. Aquest procés de distribució de la població es pot realitzar de diferents formes:

Sı́ncrona: el master divideix la població en tants fragments com workers disposi. Aquest
fragments són enviats als workers que computen l’avaluació, retornant-la al master
un cop finalitzada.

Assı́ncrona: els workers van solicitant, a mida de que disposen de recursos disponibles,
al master individus per calcular-ne la seva avaluació.

Dins de cadascuna d’aquestes modalitats, el master pot estar esperant les avaluaci-
ons calculades pels workers (poc eficient), o bé computar també ell un fragment de la
població. Com es pot apreciar aquest model de paral·lelització és molt senzill, on sols
afegeix la tasca de planificació (o scheduling) sobre qui ha de calcular l’avaluació de
3
Es refereix al lector interessat a [Cantú-Paz, 1997, Cantú-Paz, 2000].
118 GALE: Model Evolutiu per la Mineria de Dades

(a) Gra gruixut (b) Gra fi

Figura 6.3: Models de paral·lelisme emprats en la paral·lelització d’algorismes genètics

quins individus. Aquest punt es força important per un bon balanç de la carrega al llarg
de tots els elements de procés disponibles. L’única contrapartida que presenta aquest
model és el fet que la codificació seqüencial de la resta de l’algorisme genètic limita
el rendiment màxim assolible (o speedup) de la implementació paral·lela (llei d’Amdhal
[Hwang, 1993]).
La limitació imposada per la part seqüencial de l’algorisme fou un dels motius de
buscar altres models per paral·lelitzar els algorismes genètics. Concretament, el referent
torna a ser un fet biològic. L’evolució natural no es sol basar en disposar d’una única
població d’individus en la qual tothom es pot relacionar amb tothom (o també anomenat
model panmı́tic). Al contrari, l’evolució natural disposa d’un conjunt de poblacions dins
les quals es produeix l’evolució. Aquestes poblacions es solen relacionar espontàniament,
per exemple intercanviant individus (immigrants). Aquest tipus de model es coneix
com model de paral·lelismes de gra gruixut, o model d’illes. La figura 6.3.a representa
gràficament un exemple d’aquest tipus de paral·lelisme. Els vèrtex del graf representen
diferents poblacions, cadascuna formada per un conjunt d’individus. Per altra banda,
les arestes representen les relacions entre les diferents poblacions. Dit d’una altra forma,
representa entre quines poblacions es poden intercanviar individus.
Com es pot apreciar, el model multipoblacional no és equivalent al model tradicional
d’algorisme genètic. A diferència del master/worker en que el model d’algorisme genètic
es mantenia, en aquest model apareixen nous paràmetres a ajustar, principalment tres. El
primer és la topologia del graf, en concret, de quantes poblacions es disposarà. El segon
és com es relacionaran les poblacions entre elles (disposició de les arestes i la freqüència
de la migració d’individus entre poblacions). Finalment, el tercer és el nombre d’individus
de cada població, aixı́ com el criteri de selecció. Un altre punt interessant a tenir en
compte és el fet que la existència d’immigrants dins una població augmenta la pressió
selectiva dins la mateixa [Cantú-Paz, 2000]. Aquest és un dels principals motius pels
quals aquest tipus de model solen presentar speedup superlinials quan es comparen amb
el model tradicional d’algorisme genètic.
6.3 Descripció del model 119

El model de paral·lelisme de gra fi, o també anomenat model cel·lular (degut a la seva
semblança amb els autòmats cel·lulars) o model de difusió (pel seu comportament), es
pot veure com el resultat de portar el model de gra gruixut a l’extrem. El que es busca
en aquest tipus de model és explotar el màxim paral·lelisme existent dins l’algorisme
genètic. Per aquest motiu es solen emprar topologies basades en malles (referent proveı̈t
pels autòmats cel·lulars), tal i com es presenta a la figura 6.3.b. En aquesta aproximació
cada node del graf conté un únic individu. Aquesta assumpció obliga a redefinir el
model d’evolució emprant, ja que no es disposa d’un conjunt d’individus a evolucionar.
Per contra una subpoblació (o deme) es defineix com la població formada per l’individu
contingut en un vèrtex i els individus continguts en els vèrtexs directament connectats
a ell.
Per la descripció anterior, ja es pot apreciar que el model d’algorisme genètic no es
vàlid, havent-se de redefinir tots els seus components per permetre assolir-ne una im-
plementació totalment distribuı̈da del mateix. És en aquest punt on apareixen diverses
alternatives. Des de decidir quins nodes estan directament connectats amb quins altre, a
decidir com serà el model de selecció distribuı̈t, etc. Malgrat aquestes dificultats, aquest
model presenta una avantatge respecte el model de gra gruixut. Concretament, el model
de gra fi permet una explotació massivament paral·lela de la computació, gràcies a que
per definició és totalment distribuı̈t, no disposant de cap control centralitzat. Malgrat
tot, aquest punt s’assoleix a canvi d’un augment considerable en el cost de les comuni-
cacions entre elements de procés, que sols surt rentable quan el cost, principalment de
l’avaluació d’un individu és molt elevada.
Un cop feta aquesta breu revisió dels principals models de paral·lelisme emprant pels
algorismes genètics, és el moment de reemprendre el fil del treball que aquı́ es presenta.
La mineria de dades és una tasca costosa, on s’han de processar volums ingents de
dades. Aquest volums, com es veurà en l’apartat següent, afecten directament al temps
d’avaluació d’un individu de la població. És per aquest motiu, el cost elevat d’avaluació
de la solució proposada per un individu4 , que en el GALE s’obtà per emprar un model
de paral·lelisme de gra fi. Aquest model permet, explotar al màxim el paral·lelisme per
buscar resoldre el problema de mineria de dades a resoldre. El que resta d’aquesta secció
es dedicarà exclusivament a descriure la topologia emprada pel GALE.
El GALE, pels motius esmentats anteriorment, es basa en una topologia de paral·le-
lisme de gra fi. Concretament, s’utilitza una malla toroidal de dues dimensions, tal i com
es mostra a la figura 6.4.a. Cada element de procés (o cel·la, tal i com l’anomenarem
d’ara en davant), que conté com a molt un únic individu, està directament connectat als
vuit veı̈ns que l’envolten. És important remarcar en aquest punt que un individu és una
solució complerta a la tasca de classificació a resoldre. És a dir, la solució al problema
de mineria de dades consisteix en trobar aquell individu que millor resolgui, per si sol,
el problema de mineria proposat. Com es pot apreciar aquest enfocament s’emmarca
clarament dins l’enfocament de Pittsburgh pel que fa a sistemes basats en algorismes
genètics. Tot seguit es podrà trobar un xic més formalitzada la definició de la topologia
que empra el GALE.

4
Quan es compara amb el cost de comunicació.
120 GALE: Model Evolutiu per la Mineria de Dades

(a) Graf de connexions (b) Detall d’un element de procés

Figura 6.4: Topologia paral·lela del GALE

Definició 8 Anomenarem tauler T a la matriu de m × n que conté la població immersa


en el procés evolutiu. Cada cel·la Tij conté zero o un individus de la població total.
Aquest individu s’anomenarà TijI.

Com es desprén de la definició anterior, una cel·la pot contenir zero o un individus.
La formalització d’aquest concepte es pot trobar a la definició següent.

Definició 9 Definirem estat (o cardinalitat) d’una cel·la ζ(Tij) com la funció definida
de la següent forma:

0 sii Tij és buida,
ζ (Tij) =
1 sii Tij conté un individu.

Conseqüentment, la cardinalitat d’un tauler T serà un indicador del nombre de cel·les


ocupades. O dit d’una altra forma, del nombre d’individus que conformen la població
continguda dins el tauler T .

Definició 10 Definirem cardinalitat d’un tauler ζ(T ) coma el nombre de cel·les ocupa-
des. ζ(T ) serà la funció definida de la següent forma:
XX
ζ (T ) = ζ (Tij)
i j

Un cop definida la cardinalitat d’un tauler, ja es pot definir la mesura d’ocupació del
mateix, tal i com mostra la definició 11.

Definició 11 Definirem ocupació d’un tauler T , com la proporció de cel·les ocupades


respecte la capacitat total del tauler. Expressat quantitativament correspon a:
ζ (T )
O(T ) =
m×n
6.3 Descripció del model 121

Arribats a aquest punt, tal i com s’ha comentat anteriorment, els models de paral·lelisme
de gra fi defineixen una topologia basada en el veı̈nat. Concretament, el GALE utilitza
una topologia toroidal, on cada cel·la està connectada al seu veı̈ns més pròxims, tal i
com mostra la figura 6.4. Conseqüentment, és imprescindible formalitzar la relació de
veı̈nat existent entre les cel·les de T .

Definició 12 Anomenarem veı̈nat ν de la cel·la Tij al conjunt de cel·les directament


connectades a Tij. Notarem el veı̈nat de Tij com Tijν. Donada la configuració presentada
a la figura 6.4, el veı̈nat de la cel·la Tij queda definit com:

Tijν = {Ti⊖1j⊖1, Ti⊖1j, Ti⊖1j⊕1, Tij⊖1, Tij⊕1, Ti⊕1j⊖1, Ti⊕1j, Ti⊕1j⊕1}

On ⊕ i ⊖ corresponent a les operacions internes dins el tauler T definides com:

a ⊕ b = (a + b) mod c
a ⊖ b = (a − b + c) mod c

essent c la cardinalitat de la dimensió explorada de la matriu que defineix T . Notarem


ν
com TijI el conjunt d’individus continguts a les cel·les del veı̈nat.

Definició 13 Anomenarem veı̈nat actiu νa de la cel·la Tij al conjunt de cel·les veı̈nes


que contenen un individu. Aquest conjunt es pot expressar com:
a
Tijν = {c ∈ Tijν | ζ(c) = 1}
νa
Per altra banda, es notarà com TijI el conjunt d’individus continguts al conjunt de
cel·les actives del veı̈nat.

Per concloure la formalització del tauler emprat pel GALE, ja sols falta definir la
cardinalitat del veı̈nat.

Definició 14 Anomenarem cardinalitat del veı̈nat ζ(Tijν), a la cardinalitat del conjunt


format per les cel·les veı̈nes de Tijν. És a dir:
X
ζ(Tijν) = ζ(Tk)
k∈Tij

Donada l’estructura toroidal que utilitza el GALE, amb sols vuit veı̈ns per cada cel·la,
la cardinalitat del veı̈nat és fitada. Concretament

ζ(Tijν) ∈ [0, 8]

Amb aquestes definicions es tanca aquesta secció dedicada a la definició de la topo-


logia emprada pel GALE. Fetes aquestes definicions, utilitat de la qual s’apreciarà més
endavant, ja es pot passar tot seguit a descriure el següent punt dins el model que es
proposa en aquest tesi.
122 GALE: Model Evolutiu per la Mineria de Dades

6.3.2 Mapping

En la secció anterior sols s’ha comentat quina és la topologia que empra el GALE com
a base per la paral·lelització de la computació. Associada a la topologia presentada,
existeix un altre problema a resoldre abans de poder passar a descriure l’algorisme que
proposa el GALE pròpiament. Com ja esmentar força cops, l’objectiu del GALE és resol-
dre problemes de mineria de dades, concretament problemes de classificació. Recuperant
la definició 6 (pg. 25) de problema de classificació, per dur a terme la tasca d’aprenen-
tatge es disposa, entre d’altres d’un conjunt Σ d’instàncies {e0, e1, . . . en}, pertanyents
al conjunt universal d’instàncies U presentat a la definició 5 (pg. 24), il·lustratives del
problema a resoldre. Conseqüentment, la pregunta que s’ha de resoldre abans de poder
descriure l’algorismes paral·lel és com es distribueixen els exemple de Σ al llarg del tauler
T.
Aquesta problemàtica és la que busca adreçar el mapatge (o mapping). L’objectiu
es decidir, per cada cel·la del tauler T , quines instàncies de Σ si dipositen. Per la
seva banda, les cel·les necessiten contenir alguna instància del problema de classificació
a resoldre, ja que aquestes es fan servir per avaluar el fitness de l’individu (solució al
problema) contingut. La definició 15 formalitza aquesta idea, indicant-ne també algunes
propietats.

Definició 15 Anomenarem funció de mapping µ a aquella funció

µ : Σ × Tij 7−→ P(Σ)

tal que satisfà les tres propietats següents:

(1) µ(Σ, Tij) ⊆ Σ


(2) µ(Σ, Tij) 6= ∅
(3) ∃ij : µ(Σ, Tij) = Σ

Com es pot apreciar de la definició anterior, cada cel·la Tij conté un conjunt d’instàn-
cies µ(Σ, Tij), subconjunt de Σ. Aquest subconjunt d’instàncies µ(Σ, Tij) no pot ser buit,
ja que si ho fos la cel·la no disposaria de cap element per avaluar el fitness de l’individu
contingut. Per altra banda, ha d’existir alguna cel·la Tij que contingui tots les instàncies
disponibles, és a dir Σ. La finalitat d’aquesta propietat és garantir que s’està resolent
el problema de classificació original. Això és degut a que el fet d’assignar µ(Σ, Tij) ⊂ Σ
a través de la funció de mapping està canviant el problema original a resoldre, ja que
l’està relaxant eliminant-ne instàncies.
En el treball que aquı́ es presenta, s’ha fet servir un parell de funcions de mapping
diferents. L’objectiu, com es veurà més endavant, era avaluar si la forma de repartir les
instàncies de Σ sobre el tauler T afectava d’alguna forma el comportament del GALE en
el moment de resoldre el problema. Tot seguit es descriurà les dues funcions de mapping
emprades, les quals s’ha anomenat uniforme i piramidal.
6.3 Descripció del model 123

Uniforme

La funció de mapping més senzilla que es pot proposar és la que s’ha anomenat uniforme.
Aquest tipus de mapping consisteix en que cada cel·la Tij disposi de totes les instàncies
disponibles. La definició 16 presenta formalment la funció de mapping que correspon a
aquesta proposta.

Definició 16 La funció de mapping uniforme µu es aquella funció tal que

µu : Σ ×Tij 7−→ P(Σ)


σ, t −→ σ

La funció µu és una funció de mapping ja que satisfà les tres propietats exigides, tal
i com es demostra tot seguit.
Prova. La demostració que µu és una funció de mapping s’obté verificant les tres
propietats que s’han de satisfer. És a dir,

(1) µu(Σ, Tij) ⊆ Σ


(2) µu(Σ, Tij) 6= ∅
(3) ∃ij : µu(Σ, Tij) = Σ

Per completar la demostració sols s’ha de substituir µu(Σ, Tij) pel seu valor, en aquest
cas Σ, tal i com s’indica a continuació:

(1) µu(Σ, Tij) ⊆ Σ ⊣⊢ Σ ⊆ Σ


(2) µu(Σ, Tij) 6= ∅ ⊣⊢ Σ 6= ∅
(3) ∃ij : µu(Σ, Tij) = Σ ⊣⊢ ∃ij : Σ = Σ

Quedant aixı́ demostrat que µu és una funció de mapping vàlida. 


Per altra banda, la figura 6.5 mostra una interpretació gràfica del comportament
de la funció µu. Donat un cert tauler T i un conjunt d’instàncies Σ, µu distribueix
uniformement (d’aquı́ el seu nom) les instàncies disponibles en el tauler. Dit d’una altra
forma replica, per cada Tij, totes les instàncies disponibles. D’aquesta forma es pot
apreciar gràficament que el problema de classificació a resoldre és el mateix en totes les
cel·les del tauler, essent, a més a més, l’originalment presentat per les instàncies de Σ.

Piramidal

L’altra funció de mapping utilitzada en aquest treball és la que s’ha anomenat piramidal.
La idea d’aquest tipus de mapping sorgeix de la voluntat de relaxar la complexitat del
problema P a resoldre. Concretament, l’assumpció que hi ha darrera d’aquesta proposta
de mapping és el fet que dins el procés evolutiu serà més ràpid de resoldre el problema
relaxat. D’aquesta manera, al disposar d’una solució que satisfà el problema relaxat, es
pot accelerar, al llarg del procés evolutiu, l’obtenció al problema original.
124 GALE: Model Evolutiu per la Mineria de Dades

Mid
a

x
Figura 6.5: Distribució d’instàncies de Σ sobre T emprant mapping uniforme

El primer punt per descriure aquest tipus de mapping és el què s’entrendrà per
relaxar el problema de classificació P. Existeixen gran quantitat de formes d’aproximar
la relaxació del problema de classificació. Concretament, la forma que es planteja es
basa en reduir el nombre d’instàncies existents en el problema de classificació. A menys
instàncies a tractar, per norma general, menys temps triga el procés evolutiu a obtenir
una solució que les descriu. Per aclarir un xic aquesta idea, tot seguit es presenta el que
s’entendrà per problema de classificació relaxat.

Definició 17 Donada la definició 6 (pg. 25) de problema de classificació, P = hA, X, Σi,


anomenarem problema de classificació relaxat Pr a aquell problema de classificació tal
que Pr = hA, X, Σri. On Σr ⊂ Σ, i a més a més5 , Σr 6= ∅. La relaxació de Σ
s’obté de la següent forma. Per la definició 6, Σ = {e0, e1, . . . en}. Σr es definirà com
Σr = {e0, e1, . . . er}, on 0 ≤ r < n.

Com es pot apreciar de la definició anterior, aquesta és una possible forma de relaxar
el problema de classificació. Altres podrien passar, per exemple, per la reducció del
nombre d’atributs. Arribats a aquest punt, i per facilitar l’explicació de la funció de
mapping, és important introduir la figura 6.6. En aquesta figura es presenta la forma
en es vol relaxar el problema de classificació P a resoldre al llarg del tauler T . El que
la figura representa és la mida de Σr a mesura que es va relaxant. Concretament, per
cada cel·la Tij es presenta la cardinalitat (o mida) de Σr. Com es pot apreciar, en la
part superior de la piràmide truncada, Σr = Σ. Progressivament, i a mida que es va
acostant als extrems del tauler T , el problema P es va relaxant Pr cada cop més, és a
dir, posseeix menys instàncies.
Aquest tipus de mapping presenta dues caracterı́stiques interessants. La primera
5
Veure definició 15 (pg. 122).
6.3 Descripció del model 125

Mid
a

x
Figura 6.6: Distribució d’instàncies de Σ sobre T emprant mapping piramidal

existeix una simetria dins les cel·les del tauler. Com es pot apreciar a la figura 6.6, les
cel·les formen anells al voltant de les cel·les de la piràmide. Aquest anells s’expliciten a la
figura 6.7, la qual mostra gràficament que els anells estant formats de cel·les equivalents.
Quan es parla de cel·les equivalents, es parla de cel·les que comparteixen el mateix
problema relaxat Pr. La segona caracterı́stica a destacar és que, tal i com s’ha definit
Pr (def. 17), el relaxament de P és monòton, i la complexitat decreixent. Dit d’una
altra forma, les cel·les del centre de T contenen tots els exemples de Σ. Per contra,
a mida que un es desplaça cap a cel·les que pertanyen als extrems del tauler, es van
eliminat instàncies. Tornant a la definició 17, es pot formular aquesta monotonia de la
forma següent:
Σi+1 = Σi ∪ {ei+1} −→ Σi ⊂ Σi+1 (6.1)

Fetes aquestes puntualitzacions ja es pot passar a descriure la funció de mapping pi-


ramidal. El primer que es farà es presentar la funció que computa la classe d’equivalència
a la que pertany una cel·la T . Aquesta funció, anomenada ⋆, es descriu àmpliament
en l’apèndix A (pg. 283). Aquest apèndix està totalment dedicat a la seva definició,
explicant com aquesta s’obté pas a pas. La forma final de ⋆(Tij) es la que es presenta
a continuació.


eq(n n
−m j, m − mn i) sii j + m
n i − m > 0,
⋆(Tij) = △ (6.2)
eq(i, j) sii j + mi − m ≤ 0.
n

El que és important comentar en aquest punt, es que la funció ⋆ mapa la posició de
cada cel·la sobre la seva classe d’equivalència corresponent. Això vol dir que per exemple
les cel·les T00, T01, T10, T02 i T206 pertanyen totes a la mateixa classe d’equivalència,
6
Esmentar que per simplificar la formulació de ⋆ s’ha assumit que l’extrem inferior del tauler T és
T00 .
126 GALE: Model Evolutiu per la Mineria de Dades

Figura 6.7: Anells d’equivalència de cel·les en un mapping piramidal

en aquest cas 0. Això és degut a que

⋆(T00) = ⋆(T01) = ⋆(T10) = ⋆(T02) = ⋆(T20) = 0 (6.3)

Un cop es disposa d’una forma senzilla de calcular la classes d’equivalència a que


pertany una determinada cel·la T , ja es pot finalment passar a definir la funció de
mapping piramidal µp.

Definició 18 La funció de mapping piramidal µk p es aquella funció tal que


 j k
|Σ|
 k+1 (1+⋆(Tij ))
k Σ ssi ⋆ (Tij) < k,
µp(Σ, Tij) =
Σ ssi ⋆ (Tij) ≥ k.

On es satisfà que 0 ≤ k ≤ min m n
2, 2 .

Com es pot apreciar, la funció µkp és paramètrica. El paràmetre k és l’encarregat de
mesurar l’àrea de la part superior de la piràmide truncada que genera aquest tipus de
mapatge. En el cas particular que k = 0 s’obté la funció de mapping uniforme µu. Però
abans d’acceptar µk p com a funció de mapping és precı́s comprovar que satisfà les tres
propietats exigides, tal i com es demostra tot seguit.
Prova. La demostració que µk p és una funció de mapping s’obté verificant les tres
propietats que s’han de satisfer. És a dir,

(1) µk
p(Σ, Tij) ⊆ Σ
(2) µk
p(Σ, Tij) 6= ∅
(3) ∃ij : µk
p(Σ, Tij) = Σ
6.3 Descripció del model 127

Per completar la demostració es demostrarà una a una cadascuna d’aquestes propietats.


(1) µk
p(Σ, Tij) ⊆ Σ. Per demostrar aquesta propietat sols s’ha d’estudiar els dos possibles
casos que proposa µkp
j k
|Σ|
(1+⋆(Tij ))
a. µk
p(Σ, Tij) ⊆ Σ ⊣⊢ Σ
k+1
⊆ Σ sii ⋆ (Tij) < k,
b. µk
p(Σ, Tij) ⊆ Σ ⊣⊢ Σ ⊆ Σ sii ⋆ (Tij) ≥ k,

On el punt a queda demostrat per la definició 17 (pg. 124) i la propietat que se’n deriva
presentada a l’equació 6.1.
(2) µkp(Σ, Tij) 6= ∅. A l’igual que l’anterior, per demostrar aquesta propietat s’estudiaran
els dos possibles casos que proposa µk p
j k
|Σ|
(1+⋆(Tij ))
a. µk
p(Σ, Tij) 6= ∅ ⊣⊢ Σ k+1
6= ∅ sii ⋆ (Tij) < k,
k
b. µp(Σ, Tij) 6= ∅ ⊣⊢ Σ 6= ∅ sii ⋆ (Tij) ≥ k,

El cas b queda demostrat per la definició del problema P. El cas a es satisfà degut a
que sempre es compleix que:
 
|Σ|
(1 + ⋆(Tij)) > 0
k+1
j k
|Σ|
(1+⋆(Tij ))
D’això se’n dedueix que Σ k+1
6= ∅, quedant demostrada aquesta segona
propietat.
(3) ∃ij : µk p(Σ, Tij) = Σ. La demostració d’aquesta propietat és un xic diferent de
les dues anteriors, ja que sols s’ha de demostrar que sempre existeix una cel·la en la
qual es satisfà ⋆(Tij) ≥ k. Si això succeeix, dona com a resultat que en aquesta cel·la
µkp(Σ, Tij) = Σ, satisfent-se la propietat a demostrar. Per demostrar que aquesta cel·la
existeix, es recuperarà la definició de µk
p (def. 18). En aquesta s’afirma que
m n
0 ≤ k ≤ min ,
2 2

Per tant, si a la cel·la T m2 n2 és calcula la classe d’equivalència a la que pertany ⋆(Tij)
s’obté m n
⋆(Tij) = min ,
2 2
D’aquesta forma es demostra que es compleix, com a mı́nim en una cel·la, que ⋆(Tij) ≥ k,

ja que
 k per
 definició satisfà que 0 ≤ k ≤ min m n
2 2 . Conseqüentment a la cel·la
,
µk
p Tm n
2 2
= Σ, quedant aixı́ demostrada la tercera propietat.

Conseqüentment, un cop demostrades les propietats (1), (2) i (3), queda també demos-
trat que µk
p és una funció de mapping vàlida. 
128 GALE: Model Evolutiu per la Mineria de Dades

GALE(T ,P)
FOR-EACH Tij ∈ T
DO IN PARALLEL
t ← 0
initialize Tij
evaluate the accuracy of individual in Tij using P
REPEAT
t ← t+1
merge individual in Tij among Tijν
split individual in Tij among Tijν
evaluate the accuracy of individual in Tij using P
survival of Tij among Tijν
UNTIL Ω (Tij, t)
DONE
RETURN T

Figura 6.8: Algorisme paral·lel que implementa el GALE

6.3.3 Algorisme paral·lel

Un cop revisades la topologia i el mapping que fa servir el GALE, tot seguit es passarà a
descriure l’algorisme paral·lel que s’implementa en el model proposat. Abans de fer-ho,
però, es vol recordar que l’algorisme que es proposa és un algorisme paral·lel de gra fi,
que es comporta com un SPMD (Simple Program Multiple Data). És a dir, cada cel·la
Tij de T executa el mateix algorisme de forma sincrònica, on el que varien són les dades
que manipula. La figura 6.8 mostra el pseudocodi del programa que executa el GALE.
Com es pot apreciar, l’algorisme proposat és defineix en termes de la cel·la Tij i el
seu veı̈nat Tijν. D’aquesta forma s’assoleix un alt grau de paral·lelisme. Per altra banda,
l’algorisme que executa la cel·la Tij presenta dues etapes diferenciades. La primera es
centra en la inicialització de la cel·la pròpiament dita; la segona modela el procés evolutiu
distribuı̈t que el GALE mapa sobre T .
En la primera etapa de l’algorisme, la cel·la Tij inicialitza la informació que conté.
Tal i com s’ha comentat en la secció anterior, cada cel·la Tij pot contenir com a molt un
individu. La primera decisió que duu a terme la cel·la és decidir en quin estat es troba.
És a dir, decidir si ζ(Tij) = 0, o bé si ζ(Tij) = 1. Aquesta decisió es pren de forma
probabilı́stica tal i com mostra la següent definició.

Definició 19 S’anomena probabilitat d’estat inicial pζ, a la probabilitat definida com


pζ = P (ζ (Tij) = 1) , ∀Tij ∈ T

Com es pot apreciar pζ és constant per totes les cel·les de T , essent un paràmetre a
6.3 Descripció del model 129

ajustar del model proposat pel GALE. Per altra banda, la inicialització també calcula el
mapping del problema P que li correspon a la cel·la, és a dir µ(Σ, Tij). Aquesta primera
etapa de l’algorisme conclou calculant l’avaluació (o fitness) de l’individu contingut a la
cel·la. Aquesta avaluació, que sols es duu a terme quan ζ (Tij) = 1, utilitza el conjunt
d’instàncies obtingudes a partir de la funció de µ(Σ, Tij). La forma de calcular aquesta
avaluació s’explicarà en detall en la secció següent (secció 6.3.4).
La segona etapa de l’algorisme és la que introdueix el procés evolutiu pròpiament dit.
Com es pot apreciar a la figura 6.8, el cicle evolutiu està format per quatre processos
diferenciats: (1) merge, (2) split, (3) survival i (4) avaluació. Aquests quatre processos
s’explicaran amb detall en seccions posteriors. Malgrat això, tot seguit es comentarà,
breument, cadascun d’ells. El merge i el split s’encarreguen de la manipulació del material
genètic que defineix l’individu que conté la cel·la. Aquest procés es troba relacionat amb
el veı̈nat de la cel·la, aixı́ com els individus que contenen. El tercer procés, survival,
introdueix la pressió per la supervivència que requereix el procés evolutiu artificial que
es proposa. Com es pot veure a la figura 6.8, aquest procés també està relacionat amb
la informació de les cel·les que formen el veı̈nat. L’últim procés és l’avaluació. Aquest
procés és el mateix que es proposa en la primera fase de l’algorisme, en el qual és mesura
quan bé es comporta l’individu contingut a la cel·la.
El procés evolutiu, que descriu aquesta segona etapa, es manté fins que s’assoleix
algun criteri de finalització. Concretament, el criteri de finalització pot ser múltiple.
Malgrat això, recordar que una de les caracterı́stiques del GALE és que és independent
del tipus de representació del coneixement emprada. Per aquest motiu la condició de
finalització del procés evolutiu no incorpora cap mena de coneixement sobre la informa-
ció. Concretament, la funció de finalització sols incorpora informació del procés evolutiu
pròpiament dit. El criteri de finalització del GALE, que s’ampliarà a la secció 6.3.4, és
el que es presenta a la definició 20. D’aquesta definició s’aprecia que totes les cel·les
comparteixen el mateix criteri de finalització Ω (Tij).

Definició 20 Definirem Ω (Tij), o condició de finalització del procés evolutiu de la cel·la


Tij, com:
Ω (Tij, t) = t < kmax
essent kmax el nombre màxim d’iteracions a realitzar.

6.3.4 Avaluació

Un punt imprescindible dins el model que proposa el GALE és la capacitat d’una cel·la
Tij per avaluar l’individu TijI que conté (o càlcul del fitness). Per facilitar-ne l’explicació
assumirem que ζ (Tij) = 1. Això es degut, a que el càlcul de l’avaluació d’un individu,
no té sentit quan ζ (Tij) = 0.
Per poder calcular l’avaluació d’un individu és necessari fer algunes definicions prèvies.
Com es podrà observar aquestes definicions serviran per augmentar la informació asso-
ciada a una cel·la, concretament la informació referent a quan bé està resolent l’individu
130 GALE: Model Evolutiu per la Mineria de Dades

el problema mapat sobre la cel·la. Com ja s’ha vingut esmentant repetides vegades
fins al moment, el GALE és capaç de fer evolucionar diferents tipus de representacions
del coneixement. Malgrat això, totes elles comparteixen una caracterı́stica en comú,
estan pensades per resoldre problemes de classificació. Conseqüentment, aquestes dife-
rents representacions, donada una instància, són capaces de retornar la classe associada
qualsevol instància e presentada.

Definició 21 Anomenarem funció de classificació ∇, a aquella funció que donat un


individu TijI i una instància qualsevol e ∈ U, retorna la classe pertanyent a X∗ associada
a e. És a dir,
7 → X∗
∇ : TijI × U −

Com es pot apreciar, la definició anterior no presenta com la funció porta a terme la
classificació pròpiament dita. Això és degut a que depèn directament de la representació
del coneixement que l’individu estigui descrivint, tal i com es presenta a l’apartat 6.4
(pg. 143). Aquesta funció és la base per mesurar el comportament de l’individu TijI
davant la tasca de classificació que ha de realitzar dins la cel·la. El comportament, pel
que fa a la classificació, de l’individu contingut a la cel·la es recull emprant una matriu
de confusió, tal i com mostra l a següent definició.

Definició 22 Anomenarem matriu de confusió a aquella matriu TijC de |X∗ |×|X∗ | definida
com:    
TijCkl = N eχ = k ∧ ∇ TijI, e = l , ∀ k, l ∈ X∗
e∈µ(Σ,Tij )

Cada element TijCkl de la matriu, conté el nombre d’instàncies que essent de classe
 
eχ = k han estat classificades per ∇ TijI, e com pertanyents a la classe l.

La informació continguda a TijC és la base per poder definir una mesura de lo acurat
que és l’individu TijI resolent el conjunt d’instàncies mapades sobre la cel·la, és a dir,
µ(Σ, Tij). Aquesta mesura serà la base per definir l’avaluació de l’individu contingut a
la cel·la.

Definició 23 Anomenarem encert de classificació E (Tij) a la mesura definida com:


X
TijCkk
k∈X∗
E (Tij) = X X
TijCkl
k∈X∗ l∈X∗

Aquesta mesura, compresa a l’interval [0, 1], correspon al quocient entre el nombre
d’instàncies de µ(Σ, Tij) correctament classificades per TijI, i el nombre total d’instàncies
classificades.
6.3 Descripció del model 131

1.0
0.8
0.6
A (T ij)

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

ε(T ij)

Figura 6.9: Funció d’avaluació de l’individu contingut a la cel·la Tij

Arribats a aquest punt, ja es disposa d’una mesura que permet avaluar un individu.
Com es pot apreciar la mesura presentada a la definició 23 sols té en compte la informació
resultant de classificar les instàncies disponibles. Degut a que el GALE ha d’ésser capaç
de treballar amb diferents representacions del coneixement, la mesura final de l’avaluació
no incorpora informació particular sobre l’individu. És a dir, si per exemple un individu
és un conjunt de regles es podria esbiaixar l’avaluació d’un individu en funció del nombre
de regles contingudes o la complexitat de les mateixes. Aquest no és el cas en aquest
treball pels motius esmentats anteriorment. Fetes aquestes consideracions, ja es pot
passar tot seguit a definir l’avaluació d’un individu.

Definició 24 L’avaluació d’un individu TijI en una cel·la Tij és aquella funció A (Tij) tal
que:
A (Tij) = E (Tij)2

Com es pot apreciar a la definició 24, l’avaluació d’un individu sols depèn de lo
encertadament que resolgui el problema de classificació. Sols s’ha introduı̈t la mo-
dificació d’elevar al quadrat l’encert de classificació. El motiu passa per poder afa-
vorir aquells individus que presenten un millor encert en contra dels menys acurats
[De Jong and Spears, 1991]. Dit d’una altra forma, diferències significatives d’encert
en la classificació, quan aquesta és dolenta, presenten petites variacions en l’avaluació.
Per contra, petites variacions en l’encert de classificació, quan aquest és bo, representen
variacions importants en l’avaluació.
La figura 6.9 mostra gràficament el comportament de A (Tij). En lı́nia discontı́nua
132 GALE: Model Evolutiu per la Mineria de Dades

Evaluate(Tij)
FOR-EACH k, l ∈ X∗
DO
TijCkl ← 0
DONE
FOR-EACH e ∈ µ(Σ, Tij)
DO
k ← eχ 
l ← ∇ TijI, e
TijCkl ← TijCkl +1
DONE
acc ← 0
FOR-EACH k ∈ X∗
DO
acc ← acc + TijCkl
DONE
 2
acc
A (Tij) ←
|µ(Σ, Tij)|

Figura 6.10: Algorisme d’avaluació que utilitza el GALE

es presenta la identitat, que correspondria a A (Tij) = E (Tij), mentre en lı́nia sòlida


es presenta la funció d’avaluació escollida, A (Tij) = E (Tij)2. Com es pot apreciar,
el fet d’elevar al quadrat l’encert modifica sensiblement el comportament de la funció
d’avaluació, buscant afavorir en el procés evolutiu aquells individus que millor resolen el
problema de classificació.
Arribats a aquest punt ja es disposa de tots els elements necessaris per poder definir
el procés d’avaluació del GALE. La figura 6.10 presenta el pseudocodi d’una possible
implementació de l’avaluació. Com es pot apreciar, per calcular l’avaluació de l’individu
TijI, és necessari classificar totes les instàncies disponibles, és a dir µ(Σ, Tij). Això
és degut a que es necessita calcular cada cop la matriu de confusió TijC. D’aquesta
peculiaritat se’n desprenen conseqüències interessants. Per exemple, tal i com s’estudiarà
amb més detall al capı́tol 7 (pg. 167), això porta a que el cost d’execució associat a
l’avaluació creixi linealment respecte al nombre d’instàncies de Σ.
Abans de conclouré aquesta secció, es vol comentar que en aquest punt es pot
ampliar el criteri de finalització del GALE. El criteri de finalització estès que es presenta
a la següent definició, condicionaria la possible implementació paral·lela del model a
que incorpori una capa superior de senyalització entre les diferents cel·les. Aquesta
senyalització és necessari per una finalització sincronitzada quan alguna cel·la de T
assoleix el criteri de finalització.
6.3 Descripció del model 133

Definició 25 Definirem Ω∗ (Tij), o condició de finalització estesa del procés evolutiu de


la cel·la Tij, com:
Ω∗ (Tij, t) = (t < kmax) ∧ (A(Tij) < 1)

essent kmax el nombre màxim d’iteracions a realitzar, i A(Tij) l’avaluació de l’individu


contingut a la cel·la.

6.3.5 Merge

Una de les principals caracterı́stiques de tot algorisme evolutiu és la seva capacitat per
recombinar la informació genètica que codifiquen els seus individus. El merge s’encarrega
recombinar el material genètic de l’individu TijI. A diferència d’un algorisme genètic
tradicional en el qual tot individu es pot recombinar amb qualsevol altre, en el GALE,
aquest procés de recombinació, degut a la topologia emprada, queda restringit al conjunt
d’individus que formen el veı̈nat de Tij. És a dir, l’individu TijI sols pot recombinar-se
amb algun dels individus ubicats a alguna de les cel·les veı̈nes de Tij, o el que és el
mateix Tijν.
Dins del procés que proposa el merge es pot dividir en: (1) tasques no depenents de
la representació, i (2) tasques depenents de la representació. De fet, les primeres estan
relacionades amb seleccionar quin dels individus pertanyents a les cel·les que conformen el
veı̈nat Tijν serà l’escollit per recombinar-se amb TijI. Per contra, les tasques dependents de
la representació tenen lloc un cop ja s’ha decidit quins dos individus s’han de recombinar.
La recombinació es basa, com es veurà a la secció 6.4, en l’ús d’operadors de creuament
tradicionals lligats a la representació del coneixement que el GALE evoluciona.
En aquesta secció es descriurà les tasques independents de la representació del conei-
xement. El merge no és un procés d’execució determinista. A l’igual que els processos de
recombinació presents als algorismes genètics tradicionals, la recombinació del material
genètic que proposa el merge sols es duu a terme si es satisfà una certa probabilitat.
Aquesta probabilitat és la que es presenta a la definició 26. Com es pot entreveure de
la definició, aquesta probabilitat pM és constant per totes les cel·les Tij que formen el
tauler T .

Definició 26 S’anomena probabilitat de merge pM a la probabilitat que s’apliqui el


merge sobre l’individu contingut a la cel·la Tij.

Existeix una altra restricció a la possible aplicació del merge en una cel·la Tij. La
primera tasca que duu a terme el merge és escollir un individu contingut en una cel·la
veı̈na. Donada la cel·la Tij, el GALE escull un individu a l’atzar dins de les cel·les
veı̈nes de Tij, és a dir Tijν. Òbviament, això sols es pot fer quan hi ha veı̈ns, o dit
d’una altra forma, quan la cardinalitat del veı̈nat és més gran que zero, ζ(Tijν) > 0.
Conseqüentment, si es satisfà alhora la probabilitat pM i que ζ(Tijν) > 0, llavors es pot
tirar endavant amb el merge.
134 GALE: Model Evolutiu per la Mineria de Dades

Tij

Figura 6.11: Tria d’un veı̈ per a la recombinació de material genètic

La figura 6.11 mostra un exemple del procés de tria comentat anteriorment. Com
es pot apreciar la cel·la Tij disposa d’un veı̈nat format per:

Tijν = {Ti⊖1j⊖1, Ti⊖1j, Ti⊖1j⊕1, Tij⊖1, Tij⊕1, Ti⊕1j⊖1, Ti⊕1j, Ti⊕1j⊕1}

El merge es pot aplicar degut a que la cardinalitat del veı̈nat és més gran que zero,
concretament ζ(Tijν) = 3. On el conjunt de possibles candidats a la recombinació amb
TijI, són:
ν
TijI = {Ti⊖1j⊕1
I I
, Ti⊕1j I
, Ti⊖1j⊖1}

Tal i com ja s’ha esmentat, la tria de l’individu que s’haurà de recombinar amb TijI és
ν
tria a l’atzar dins del conjunt de veı̈ns existents, és a dir, TijI . La figura 6.11 representa
l’individu escollit pintant la cel·la de color gris.

Definició 27 S’anomenarà parella de merge IM ij a l’individu escollit a l’atzar dins del


ν
conjunt TijI . La probabilitat d’un individu d’ésser escollit correspon a una distribució
uniforme, on p = |T 1Iν | .
ij

Un cop es disposa dels dos individus a recombinar, TijI i IM


ij , es procedeix a la recom-
binació del material genètic que contenen. Aquest punt depèn del tipus de representació
del coneixement que el GALE estigui evolucionant. La proposta emprada, tal i com es
veurà a la secció 6.4 (pg. 143) utilitza operadors de creuament ja existents a la literatu-
ra. La principal diferència que existeix entre els operadors tradicionals i els que utilitza
el GALE és que en el GALE l’operador sols genera un únic descendent (definició 28).
Aquest descendent passa a ocupar la cel·la a l’instant t+1. El motiu d’aquesta restricció
és que una cel·la Tij sols disposa d’espai per un individu, evitant aixı́ introduir polı́tiques
complexes de reemplaçament.

Definició 28 L’operador de creuament X recombina el material genètic de dos individus,


generant un nou individu que conté material genètic d’ambdós progenitors. La signatura
d’aquest operador és la que es presenta a continuació:

X : TijI × IM
ij 7−→ D

La figura 6.12 representa esquemàticament el procés complert que duu a terme el


merge. Com s’ha presentat a la figura 6.8 (pg. 128), en el tauler T cada cel·la Tij
6.3 Descripció del model 135

TijI

TijI IM
ij X D

IM
ij

T (t-1) T (t)

Figura 6.12: Representació esquemàtica del procés que descriu el merge

Merge(Tij)
IF rand(0, 1) < pM THEN
DO  ν 
IM
ij ← rand T I (t-1)
 ij 
Tij(t) ← X TijI(t-1), IM
I
ij
DONE

Figura 6.13: Algorisme de merge que utilitza el GALE

evoluciona amb intervals discrets de temps. És per aquest motiu que l’individu TijI(t) es
defineix en funció d’individus pertanyents a l’instant precedent de temps. Concretament,
TijI(t) és el resultat de recombinar el material genètic de TijI(t−1) i IM
ij (t−1). Finalment,
per concloure la descripció del merge,la figura 6.13 presenta el pseudocodi que el descriu.

6.3.6 Split

El segon procés del GALE que conforma el cicle evolutiu és la que s’ha anomenat split. Si
el merge es dedicava a la recombinació de material genètic, el procés que s’ha anomenat
split es centra en la introducció de canvis dins aquest material, a l’igual que la mutació
ho realitza en un algorisme genètic tradicional. Aquest procés es pot resumir dient que
la cel·la: (1) genera una còpia de l’individu TijI que conté, (2) introdueix canvis aleatoris
en el material genètic de l’individu copiat, i (3) finalment, seguint un cert criteri, ubica
el nou individu en alguna de les cel·les veı̈nes. Tot seguit es passarà a descriure en detall
cadascun dels elements que conformen aquest procés.
A l’igual que el merge, el procés de split és d’aplicació estocàstica. Això vol dir que
una cel·la Tij sols durà a terme aquest procés si es satisfà una certa probabilitat. Degut a
la proposta que realitza el procés de split, la finalitat d’aquesta probabilitat és doble. Per
una banda, la probabilitat serveix per determinar quan s’aplica el procés de split. Però,
per altra banda, aquesta probabilitat també és responsable del ritme de creixement en
l’ocupació del tauler. És a dir, degut a que el procés genera un nou individu que s’ubica
en alguna cel·la pertanyent a Tijν, aquesta probabilitat està directament relacionada, tal
136 GALE: Model Evolutiu per la Mineria de Dades

i com es veurà més endavant, amb l’evolució del nombre de cel·les ocupades al llarg de
l’evolució. La definició d’aquesta probabilitat es pot trobar tot seguit.

Definició 29 S’anomena probabilitat de split pS a la probabilitat que s’apliqui el procés


de split sobre l’individu contingut a la cel·la Tij. Aquesta probabilitat es defineix com:

pS (Tij(t)) = ksp · A (Tij(t-1))

On, el paràmetre ksp, o llindar de màxima replicació, afita superiorment la probabilitat


de split. Això s’assoleix fent que ksp ∈ [0, 1].

El primer que destaca de la definició anterior és que la probabilitat de split és diferent
per cada cel·la. Concretament, això és degut a que pS (Tij) és proporcional l’avaluació de
l’individu TijI. Per altra banda, el paràmetre ksp, és el llindar que controla la freqüència
màxima amb la qual es podrà invocar el procés de split, essent aquest llindar comú per
totes les cel·les de T .
Si la probabilitat pS es satisfà, la següent tasca que empren el split és duplicar l’in-
dividu Tij. Malgrat això, aquest procés no s’implementa de forma perfecte. En aquesta
còpia s’hi introdueixen errors aleatoris. La còpia imperfecte és pràcticament idèntica
a l’individu original, excepte algunes modificacions puntuals generades per l’error de la
còpia del genoma original. Aquest procés de còpia imperfecte està estretament relaci-
onat amb la representació del coneixement que el GALE estigui evolucionant en aquell
moment. Es degut a aquest fet que, a l’igual que succeı̈a amb l’operador de creua-
ment, l’operador de mutació, que és l’encarregat d’aquest procés de còpia imperfecte,
vindrà definit per cada representació que codifica l’individu. Això sı́, cada implementació
puntual d’aquest operador, donada una representació particular, segueix la definició 30
presentada a continuació.

Definició 30 L’operador de mutació Y, donat un individu TijI, retorna un altre individu


ISij que és una còpia del primer en el qual s’hi han introduı̈t lleugeres modificacions en el
seu material genètic. La signatura d’aquest operador és la que es presenta a continuació:

Y : TijI 7−→ ISij

Arribats a aquest punt, i havent obtingut l’individu ISij com a resultat d’aplicar
l’operador de mutació Y sobre l’individu TijI, la següent tasca que duu a terme el split
és decidir a quina cel·la veı̈na s’enviarà el nou individu. Aquesta decisió es pren en
funció de la configuració de les cel·les en l’estat t-1 que configuren el veı̈nat Tijν de
la cel·la Tij que està realitzant el procés de split. Concretament, la decisió es pren de
forma
 diferenciada
 en funció de si existeix alguna cel·la del veı̈nat en l’estat t-1 buida
ν
ζ Tij (t − 1) < 8, o no. Tot seguit es descriurà com es tria la cel·la per cadascun dels
dos possibles casos.
 
El primer cas és simple. Aquest succeeix quan ζ Tijν(t − 1) < 8, és a dir, quan
existeix alguna cel·la buida. El procés de split, representat gràficament a la figura 6.14,
6.3 Descripció del model 137

Tij Y ISij

T (t-1) T (t)
 
Figura 6.14: Ubicació en el split de l’individu ISij quan ζ Tijν(t − 1) < 8

Tij Y ISij

T (t-1) T (t)
 
Figura 6.15: Exemple d’ubicació en el split de l’individu ISij quan ζ Tijν(t − 1) = 8

escull com a cel·la destı́ una de les cel·les veı̈nes lliures a l’atzar. Es a dir, a l’instant t
s’escull una cel·la d’entre les que pertanyen al conjunt L(t) definit com:

a
L(t) = Tijν(t − 1) − Tijν (t − 1) (6.4)

 
El segon cas, representat gràficament a la figura 6.15, es dona quan ζ Tijν(t − 1) =
8, o el que és el mateix, no existeix cap cel·la de Tijν(t − 1) buida. En aquestes condicions
la cel·la escollida com a destı́ de TijI, a l’instant t, és aquella que conté l’individu menys
adaptat a l’instant t-1. Dit d’una altra forma, la cel·la destı́ r(t) ∈ Tijν tal que satisfà:

A (r(t)) = min
a
(A(c)) (6.5)
c∈Tijν (t-1)

Finalment, la figura 6.16 presenta el pseudocodi que descriu el procés que proposa el
split.
138 GALE: Model Evolutiu per la Mineria de Dades

Split(Tij)
IF rand(0, 1) < pS (Tij(t)) THEN
DO  
ISij ← Y TijI(t-1)
 
IF ξ Tijν(t − 1) = 8 THEN
DO
r(t)I | A (r(t)) = min
a
(A(c)) ← ISij
c∈Tijν (t-1)
DONE
ELSE
DO
rand (L(t))I ← ISij
DONE
DONE

Figura 6.16: Algorisme de split que utilitza el GALE

6.3.7 Survival

Tal i com es pot observar a la figura 6.8 (pg. 128), l’última tasca que la cel·la realitza,
un cop ha re-avaluant l’individu que conté i abans de comprovar la funció de finalització,
és la de decidir si l’individu sobreviurà. El que es busca en la tasca que s’ha anomenat
survival és esbiaixar el procés evolutiu cap aquells individus que presenten una millor
avaluació. La capacitat per seleccionar quins individus sobreviuen al llarg de l’evolució
és una de les principals caracterı́stiques de la computació evolutiva.
El survival defineix l’estat de la cel·la Tij a l’instant de temps t, aixı́ com l’individu
que conté si és el cas, en funció de la configuració i informació del veı̈nat Tijν a l’instant
de temps t, un cop la cel·la ha estat re-avaluada. A l’igual que succeı̈a amb el split,
en el survival la cardinalitat de Tijν(t) serà la que determinarà el comportament del
survival. Concretament, el survival presenta tres comportaments diferents en funció de
la cardinalitat. Aquests tres comportaments s’han anomenat: (1) aı̈llat, (2) sostenible,
i (3) superpoblat.
 
El comportament aı̈llat és produeix quan ζ Tijν(t) < 2. Aquest tipus de configu-
ració dificulta les possibilitats d’intercanviar informació genètica entre individus. Això
es degut a que com a molt existeix una sola cel·la del veı̈nat que conté un individu per
relacionar-se. Sota aquestes condicions, un individu sobreviu en funció de l’avaluació
que presenti resolent el problema de classificació a resoldre.

Definició 31 S’anomena probabilitat de survival en aı̈llament pa R a la probabilitat que


en una cel·la Tij l’indiviu TijI que conté sobrevisqui en un determinat instants de temps
6.3 Descripció del model 139

t. Aquesta probabilitat es defineix com:

pa
R (Tij(t)) = A (Tij(t))

L’extrem oposat a l’aı̈llament és el comportamentque s’ha  anomenat superpoblat. El Superpoblat


ν
survival presenta aquest comportament quan 7 ≤ ζ Tij (t) . Com es pot veure, l’espai
disponible dins el veı̈natge Tijν(t) és pràcticament nul. En aquesta situació l’espai és
un bé escàs, existint una forta pressió per l’ocupació de cada cel·la del T . En aquesta
situació, l’individu TijI(t) és sempre reemplaçat. Això vol dir que no té cap probabilitat
de sobreviure a la cel·la Tij(t), havent de competir per l’espai disponible en alguna
de les cel·les veı̈nes. És important ressaltar en aquest punt, que a diferència del cas
d’aı̈llament, el reemplaçament és determinista; l’individu és sempre reemplaçat. Malgrat
això, no vol dir que l’individu forçosament desaparegui de T . Això és degut a que la
cel·la Tij intervé en el survival de les seves vuit cel·les veı̈nes competint, tal i com s’ha
esmentat anteriorment, per ocupar l’espai del qual elles disposen.
El reemplaçament proposat en el GALE és simple. Consisteix en reemplaçar l’individu
contingut a la cel·la Tij a l’instant t per el millor individu pertanyent a Tijν(t). És a dir,
és aquell individu r(t)I que satisfà:

r(t)I | A (r(t)) = max


a
(A(c)) (6.6)
c∈Tijν (t)

 Finalment,
 el comportament del survival anomenat sostenible és produeix quan 2 ≤ Sostenible
ζ Tijν(t) < 7. En aquest tipus de configuració existeix ja un nombre de veı̈ns que
permeten proposar que la probabilitat de sobreviure d’un individu depèn de l’avaluació
que presenten els seus veı̈ns. De nou, a l’igual que succeı̈a en el comportament de
superpoblació, el comportament sostenible és determinista. El comportament sostenible
és centra en decidir si l’individu TijI contingut a la cel·la a l’instant t continua ocupant-la.
Per decidir si l’individu sobreviu, la decisió es basa en dues mesures extretes de la
informació del veı̈nat, tal i om es pot apreciar a la definició que apareix tot seguit. Si la
condició es satisfà llavors l’individu sobreviu, altrament la casella resta lliure degut a la
mort de l’individu.

Definició 32 S’anomena supervivència sostenible a la condició que determina si un


individu TijI sobreviu en un comportament sostenible del survival. Aquesta condició
s’expressa com:
 
A (Tij(t)) > Aµ Tijν(t) + ksr · Aσ Tijν(t)
   
on Aµ Tijν(t) correspon a la mitjana de l’avaluació dins el veı̈nat de Tij, Aσ Tijν(t)
a la desviació de l’avaluació del veı̈nat, i ksr, o llindar de survival sostenible, el paràmetre
que controla la pressió selectiva a exercir sobre l’individu.

La figura 6.17 presenta el pseudocodi que descriu el survival. Aquest codi presenta
els tres comportaments (aı̈llat, sostenible i superpoblat), descrits anteriorment, en funció
de la cardinalitat del veı̈nat existent al voltant de la cel·la Tij.
140 GALE: Model Evolutiu per la Mineria de Dades

Survival(Tij)
I ← TijI(t) 
IF ξ Tijν(t) < 2 THEN
DO
IF A(I) < rand(0, 1) THEN
DO
I←λ
DONE
DONE  
ELSE IF ξ Tijν(t) < 7 THEN
DO    
IF A(I) > Aµ Tijν(t) + ksr · Aσ Tijν(t) THEN
DO
I←λ
DONE
DONE
ELSE
DO
I ← r(t)I | A (r(t)) = max
a
(A(c))
c∈Tijν (t)
DONE
TijI(t) ← I

Figura 6.17: Algorisme de survival que utilitza el GALE


6.3 Descripció del model 141

6.3.8 Test

Per concloure l’explicació del model que proposa el GALE el que es comentarà en aquesta
secció, no forma part pròpiament del model proposat. Tal i com es presentava a la figura
6.8 (pg. 128), el GALE és capaç de fer evolucionar individus en un tauler T que resolen
el problema de classificació P. Un cop el GALE ha finalitzat, retorna el tauler T que
conté els individus resultants de l’evolució duta a terme. Arribats a aquest punt sorgeix
inevitablement una pregunta: quina solució s’escull?.
Un punt important per entendre el que es proposarà a continuació, torna a ser
el fet que el model s’ha de mantenir el màxim d’independent de la representació del
coneixement que s’evoluciona. És per aquest motiu que els criteris emprats per la tria
de la solució final no inclouen elements especı́fics de la representació, com pot ser per
exemple el nombre de regles que descriu un individu. Conseqüentment, per aquesta tria
sol es pot emprar la informació continguda al tauler T . En les seccions que es podrà
trobar a continuació es descriurà les dues formes proposades per la tria de la solució
final. Abans, però, es realitzarà una definició prèvia, necessària per entendre el procés
de generar la solució final al problema P.

Definició 33 S’anomena conjunt de cel·les objectiu T P al conjunt de cel·les que con-


tenen totes les instàncies de Σ, i conseqüentment, descriuen el problema original, no
relaxat, de classificació. Expressat d’una altra forma:

T P = {t ∈ T | µ(Σ, t) = Σ}

Com es pot apreciar a la definició 33, el que descriu el conjunt T P és el subconjunt
de cel·les que resolen el problema original P. Això implica, que el conjunt T P deixa fora
totes aquelles cel·les en que el mapping n’ha relaxat el problema. La primera decisió
important en el procés de tria de la solució final, i que comparteixen les dues propostes
que es presentaran a continuació, és que sols hi participaran aquelles cel·les que tracten
amb el problema original P a resoldre.
Abans de passar a descriure cadascuna de les dues formes de realitzar aquesta tria,
es vol comentar que la finalitat d’aquesta tria quedarà clarificada al capı́tol 8 (pg. 219).
En aquest punt sols es vol esmentar que aquesta solució final serà la que es farà servir
posteriorment per l’usuari. Conseqüentment, serà la solució proposada un cop s’ha
executat el GALE la que es proposarà com a resultat del procés de mineria de dades. De
moment, es passarà tot seguit a presentar les dues formes de construir aquesta solució
final, deixant per més endavant l’explicar amb detall la seva utilització la tesi que aquı́
es presenta.

Millor individu

La primera forma que es presenta en aquest apartat és molt simple. Aquesta es pot
resumir dient que s’escull aquell individu que presenta la millor avaluació dins de les
142 GALE: Model Evolutiu per la Mineria de Dades

cel·les del tauler que resolen el problema original P. Com es pot apreciar, aquesta forma
de proposar la solució final és simple. Senzillament consisteix en escollir l’individu que
presenta la millor avaluació dins del conjunt de cel·les T P . Això implica que la solució
serà aportada per una única cel·la, aquella que presenta la millor avaluació dins T P . O
el que és el mateix, la cel·la t que aportarà l’individu que esdevindrà la solució final es
pot expressar com:

t ∈ T P | A(t) = max (A(c)) (6.7)


c∈T P

És interessant ressaltar en aquest punt que la solució final escollida, a diferència del
que es presentarà a l’apartat següent, correspon a un únic individu.

Bagging

La segona forma de generar la solució difereix de forma important de la presentada ante-


riorment. El punt més destacat és que la solució que es proposa en aquest apartat s’ins-
pira en una tècnica per combinar classificadors anomenada bagging [Breiman, 1996]. La
proposta realitzada consisteix en formar una solució (que anomenarem meta-classificador)
al problema de classificació com a resultat de combinar els diferents individus aportats
per les cel·les que conformen T P .
La forma de combinar els diferents classificadors, que presenten els individus con-
tinguts a T P , es basa en definir una única funció de classificació construı̈da emprant
les funcions de classificació ∇ de cadascun dels individus de T P . Aquesta funció dona
lloc a un meta-classificador, resultat del comportament combinat dels classificadors. La
funció de classificació que proposa el meta-classificador es basa en el principi de sufragi
I
universal. Donat una instància e a classificar, cada classificador I ∈ T P que composa
el meta-classificador calcula ∇ (I, e). Emprant la classificació proposada per cada clas-
sificador, el meta-classificador classifica la instància e emprant la classe majoritàriament
votada pels individus de T P .

Definició 34 Anomenarem vector de votació a aquell vector B de dimensió |X∗ | definit


com:
Bk = N (k = ∇ (I, e)) , ∀ k ∈ X∗
I∈T P I

Cada element Bk del vector, conté el nombre de classificadors la classificació dels quals
∇ (I, e) correspon a la classe k.

La definició 34 presenta el vector de votació. Aquest vector recull el resum de les


votacions realitzades pels classificadors que formen el meta-classificador. Un cop es
disposa d’aquest vector, decidir la classe que proposa el meta-classificador senzillament
correspon a escollir aquella que presenta un major nombre de vots. O el que és el mateix,

k | Bk = max∗ (Bk) , k ∈ X∗ (6.8)


c∈X
6.4 Representacions del coneixement emprades 143

Bagging(T ,e)
FOR-EACH k ∈ X∗
DO
Bk ← 0
DONE
I
FOR-EACH I ∈ T P
DO
k ← ∇ (I, e)
Bk ← Bk + 1
DONE
RETURN k | Bk = max∗ (Bk)
c∈X

Figura 6.18: Algorisme de bagging per formar la solució final

La figura 6.18 presenta el pseudocodi que descriu esquemàticament el procés de


bagging. Com es pot apreciar, el pseudocodi que es presenta correspon a la funció de
classificació del meta-classificador construı̈da a partir dels diferents classificadors propo-
sats pels individus de T P .

6.4 Representacions del coneixement emprades

L’últim gran apartat que inclou la descripció del GALE tracta de les representacions del
coneixement que s’han utilitzat en aquesta tesi. Tal i com s’ha vingut comentant repe-
tides vegades, el model que proposa el GALE és capaç d’evolucionar diferents tipus de
representació del coneixement. És important deixar clar en aquest punt, que les execuci-
ons del GALE són homogènies respecte la representació del coneixement evolucionada.
Dit d’una altra forma, l’usuari decideix quina representació vol que es faci servir. On
sols es fa servir una representació alhora d’executar el procés evolutiu, cara a simplificar
la interacció entre els individus.
Aquest apartat no farà un repàs exhaustiu dels tipus de representació del coneixe-
ment que es podrien fer servir. El que es podrà trobar en aquest apartat és el repàs
de les representacions del coneixement emprades pels individus en el treball realitzat en
aquesta tesi. Concretament, les representacions que es podran trobar a continuació es
poden dividir en tres tipus principals7 .
El primer tipus de representació que es pot trobar a continuació (secció 6.4.1) és la es
basa en l’ús de regles nominals. El motiu d’incloure aquests tipus de regles és per facilitar
7
Per una explicació detallada de cadascuna d’elles, aixı́ com la problemàtica associada a cadascuna
d’elles, es pot trobar comentada àmpliament al capı́tol 3 (pg. 19).
144 GALE: Model Evolutiu per la Mineria de Dades

la comparació dels resultats que obté el GALE amb sistemes tradicionals d’aprenentatge
de regles emprant computació evolutiva, tal i com es presentaven al capı́tol 4 (pg. 51).
El segon tipus de representació utilitzada (secció 6.4.2) pertany als arbres de decisió.
Concretament, el GALE s’ha provat amb diferents tipus d’arbres (ortogonals, oblics i
multivariats). Finalment el tercer i últim tipus de representació utilitzada és la basada
en instàncies (secció 6.4.3). Aquest tipus de representació també explora diferents tipus
d’aproximacions, concretament les basades en instàncies totalment definides, això com
les parcialment definides.
Tot seguit es comentarà cadascuna d’aquestes representacions. Concretament, per
cada representació es descriurà dues parts diferenciades. La primera passarà per la
descripció de la codificació del genoma realitzada per poder definir els individus que
manipula el GALE, aixı́ com de la funció de classificació ∇ proposada. La segona,
descriurà els operadors genètics especı́fics que s’han de definir per poder permetre a
la representació ser manipulada pel model que presenta el GALE. Concretament, els
operadors que es descriuran són, principalment, l’operador de creuament X (def. 28,
pàgina 134) i de mutació Y (def. 30, pàgina 136). Junt amb aquests dos operadors,
també es comentarà breument la forma d’inicialitzar la representació, ja que el procés
evolutiu comença emprant una població inicialitzada a l’atzar.

6.4.1 Regles

El primer tipus de representació que es presenta és aquell que es basa en l’ús de regles.
Concretament, el tipus de regla que s’utilitza es basa en la conjunció de testos nomi-
nals sobre parelles atribut valor. Aquesta representació no inclou el test sobre atributs
numèrics, deixant-ho per l’apartat següent. Tal i com s’ha comentat anteriorment, el
primer que es passarà a descriure és com es codifica dins els genoma de l’individu el
conjunt de regles.
La primera consideració a tenir en compte és que un individu és un conjunt de
regles de mida variables. Les regles que es volen codificar són de l’estil condició →
acció. On la condició és la conjunció de testos de la forma atribut valor. Per contra,
l’acció recull la classe que s’associa a la condició de l’antecedent. Aquest tipus de
representació, presentada amb detall a la secció 3.3.3 (pg. 32), proposa la cerca d’un
conjunt de regles, de longitud fixa, com a solució al problema de mineria de dades a
resoldre. Conseqüentment, els individus que manipularà el GALE han de codificar, en el
seu genoma, conjunts variables de regles.
La figura 6.19 mostra gràficament com el genoma d’un individu del GALE codifica
aquest tipus de representació. Com es pot apreciar, el genoma correspon a una estructura
lineal en la qual es replica, de mida variable, els blocs de mida fixa que són les regles de
classificació. Cada regla queda codificada com una successió de valors. En la condició,
aquests valors corresponen al valor que han d’adoptar els diferents dels atributs de A en
el problema P. Existeix un valor particular, #, que poden adoptar tots els atributs en
la condició indicant que l’atribut no s’ha de tenir en compte en el moment de testejar
6.4 Representacions del coneixement emprades 145

r1 r2 r3 rn

c1 c2 c3 c4 cm k

ci = α ci = #

Figura 6.19: Estructura del genoma dels individus que codifiquen conjunts de regles

la conjunció que descriu la condició. Pel que fa a l’acció, aquesta codifica una de les
possibles classes de X pel problema P.
Donada aquesta codificació, també és imprescindible descriure pels individus que co-
difiquen regles la funció de classificació ∇ davant d’una instància qualsevol e presentada Funció de
a la definició 21 (pg. 130). El procés es relativament simple, retornant la classe de la classificació
primera regla que s’activa. O el que és el mateix, la classe de la primera regla en la
qual la conjunció de testos de la condició del la regla, donada la instància e, és satisfà.
Com es pot apreciar aquest procés de classificació tracta les regles a mida que van apa-
reixen en la tira que codifica el genoma de l’individu. És pot donar el cas, que donada
una instància e i un individu I no s’activi cap regla. En aquesta situació, el procés de
classificació retorna la classe buida λ, on λ ∈ X∗ . Per poder definir aquest procés, el
pseudocodi del qual es presenta a la figura 6.20, és necessari formalitzar l’activació de
les regles, aixı́ com la nomenclatura que es farà servir, tal i com mostra la definició 35.

Definició 35 Donada una instància e = he0, e1, . . . eli i una regla r = hr0, r1, . . . rl : rχi,
la regla r és activada per la instància e, o r ⊜ e, si es satisfà:


i∈{1...l}
(ri = ei) ∨ (ri = #) ,

Per altra banda, dins el model que proposa el GALE existeixen dos operadors que
manipulen la representació del coneixement codificada pels individus. L’operador de
creuament X , presentat a la definició 28 (pg. 134), s’encarrega de recombinar el material
genètic de dos individus. D’igual forma, l’operador de mutació Y, presentat a la definició
30 (pg. 136), també manipula el material genètic, però ho fa introduint lleugeres
modificacions al genoma descrit per l’individu.
La forma de codificar les regles, presentades a la figura 6.19, simplifica la implemen-
tació d’aquests operadors. Degut a la seva estructura es pot re-aprofitar els operadors
tradicionals presentats a la literatura dels algorismes genètics [Goldberg, 1989], tal i com
s’han comentat al capı́tol 4 (pg. 51). Concretament, l’operador X emprat és un ope-
rador de creuament amb un únic punt de tall. A l’igual que les propostes tradicionals,
aquest operador escull a l’atzar per cada individu un punt pel qual tallar el material
genètic intercanviant els fragments de material entre els individus. Aquests intercanvi
146 GALE: Model Evolutiu per la Mineria de Dades

∇(TijI,e)
(k, i) ← (λ, 1)
R ← TijI
WHILE (k = λ ∧ i ≤ n)
DO
r ← Ri
IF (r ⊜ e) THEN
DO
k ← rχ
DONE
i←i+1
DONE
RETURN k

Figura 6.20: Algorisme de la funció de classificació per individus que el seu genoma
codifica regles

es realitza de tal forma que els dos fragments que composen la descendència prové del
material pertanyent a ambdós progenitors. La diferència respecte als operadors tradici-
onals és que els punts de tall escollits a l’atzar sols han de complir que corresponen al
mateix punt dins d’una regla, no restringint-se la regla dins de cada individu a emprar.
El motiu d’aquest tipus de tria dels punts és degut a que l’operador de creuament X
ha de treballar amb genomes de longitud variable (conjunt variable de regles). L’altra
peculiaritat d’aquest tipus d’operador rau en el fet que X sols genera un descendent, en
comptes dels dos tradicionals dels algorismes genètics.
Per altra banda, l’operador de mutació Y també adopta una implementació particular
en els individus que en el seu genoma codifiquen conjunts de regles. La implementació
utilitzada en el GALE és una senzilla variació de la mutació uniforme tradicional dels
algorismes genètics [Goldberg, 1989]. Concretament, Y consisteix en generar un nous
valors a l’atzar en els gens del genoma. Això sı́, sols es realitza aquesta modificació si
es satisfà una certa probabilitat.
Tal i com s’ha vingut comentant fins al moment, les regles que es codifiquen en
aquest tipus d’individus sols poden treballar amb atributs nominals, a diferència de les
que es presentaven a la secció 3.3.3 (pg. 32). Cara a ampliar el tipus d’atribut que
poden manegar les regles es decidir no complicar la codificació simple presentada fins
al moment. El que es proposa en el seu lloc és aprofitar una propietat que presenten
els arbres de decisió ortogonals, tal i com es presentà a l’exemple 11 (pg. 33). Con-
cretament, és el fet que dels arbres de decisió ortogonals se n’extreu de forma directe
conjunts de regles de classificació equivalents. Degut a aquesta caracterı́stica, el GALE
empra la codificació que es presenta a l’apartat següent, basada en arbres de decisió,
per l’obtenció d’aquest tipus de conjunts de regles.
6.4 Representacions del coneixement emprades 147

6.4.2 Arbres de decisió

El segon tipus de representació del coneixement que es pot evolucionar amb el GALE
es basa en l’ús arbres de decisió. Com ja s’ha comentat en l’apartat 3.3.2 (pg. 27),
existeixen diferents tipus d’arbres de decisió en funció del tipus de test que es proposen
en els nodes de la seva estructura jeràrquica. En aquest treball s’ha restringit l’evolució
a tres diferents tipus d’arbres de decisió, que són:

1. Ortogonals

2. Oblics

3. Multivariats

Per facilitar l’explicació de com el GALE evoluciona cadascun d’aquest tipus de


representació, es començarà comentant algunes caracterı́stiques comunes, unificant-ne
aixı́ la notació. Tot seguit ja es passarà a descriure amb detall l’aproximació més senzilla
emprada que correspon als arbres ortogonals. Un cop descrits els individus, aixı́ com
els operadors que els manipulen, que codifiquen en el seu genoma arbres de decisió
ortogonals, els següent pas serà descriure les modificacions que s’han d’introduir per
poder evolucionar arbres de decisió oblics. Per concloure aquesta secció, es descriurà
finalment el tipus d’arbre de decisió que presenta unes condicions més riques, que són
els multivariats.

Elements comuns

Els diferents tipus d’individus que codifiquen arbres de decisió presenten una carac-
terı́stica comuna. Aquesta és que, a diferència dels individus que codifiquen regles, el
genoma no es representa en forma de tira de gens. El que s’utilitza per representar arbres
de decisió són implementacions dinàmiques arborescents procedents de la programació
genètica [Koza, 1992, Koza, 1994, Koza et al., 1999].
Cara a unificar el llenguatge que es farà servir en els diferents individus que codifiquen
els arbres de decisió, en aquest apartat es faran algunes definicions que s’utilitzaran més
endavant. Com s’ha introduı̈t anteriorment, la codificació dels genomes dels individus
que codifiquen arbres de decisió es basa en jerarquies dinàmiques, tal i com presenta
la figura 6.21.a. Les definicions 36 i 37 formalitzen la notació que es farà servir per
aquesta estructuració. La figura 6.21.b presenta la notació compacta que s’empra per
representar l’exemple presentat a la figura 6.21.a.

Definició 36 Anomenarem test δ sobre una instància qualsevol e a la condició booleana


expressada per δ que ha de satisfer e.

Definició 37 Anomenarem arbre de decisió ∆ a l’agregació jeràrquica de testos sobre


una instància qualsevol e. Sigui ∆ un conjunt finit no buit de testos, en el qual existeix un
148 GALE: Model Evolutiu per la Mineria de Dades

δ1

δ2 δ3 δ4

δ5 δ6
∆ = [δ1, < [δ2], [δ3, < [δ5], [δ6] >], [δ4] >]
(a) Representació gràfica (b) Notació compacta

Figura 6.21: Representació formal del genoma d’un arbre de decisió

test δ distingit ∆δ, anomenat test arrel, i zero o més agregacions jeràrquiques disjuntes,
o arbres de decisió, que es notarà com ∆i on i = 1, 2 . . . d. Escriurem ∆ com [δ, <
∆1, ∆2, . . . ∆d >].

És important destacar en aquest punt que tant el test δ, com la funció de classificació
∇, depenen del tipus d’arbre de decisió amb que es treballi. A continuació es poden
trobar algunes definicions complementàries que estenen la flexibilitat de la notació.

Definició 38 La notació ∆iδ indicarà de forma compacta el test δ de l’arbre de decisió


∆i.

Definició 39 Anomenarem ∆c a la cardinalitat de ∆. Aquesta cardinalitat es defineix


com:
∆c = |[δ, < ∆1, ∆2, . . . ∆d >]| = | < ∆1, ∆2, . . . ∆d > | = d (6.9)
On ∆c = 0 indica que l’agregat està format per un únic test que correspon al test arrel
distingit distingit ∆δ.

Ortogonals

El primer tipus d’individus que implementen representacions del coneixement arbores-


cents, corresponent als arbre de decisió ortogonals presentats a la secció 3.3.2 (pg. 27).
En aquest tipus d’arbre, els nodes interns representen testos simples, en els quals sols
està involucrat un dels possibles atributs de A. Per contra, les fulles de l’arbre codifiquen
una de les possibles classes de X. Per poder finalment veure com es pot codificar en el
genoma dels individus aquest tipus d’arbre, aixı́ com la forma en la qual els operadors
manipulen aquesta codificació, l’explicació cobrirà:

1. Estructura dels testos dels nodes interns.

2. Estructura de les fulles.


6.4 Representacions del coneixement emprades 149

3. Funció de classificació.

4. Operadors genètics.

L’estructura dels testos varia en funció de sobre quin atribut a s’està definint. És a Estructura
dir, si el test que proposa el node recau sobre un atribut nominal o numèric. En el cas dels testos
que l’atribut sigui nominal, el test δ es el resultat de la comparació relacional ≤ entre
la constant continguda en el node, i el valor que aquest atribut a pren en la instància
que s’està classificant ea. Com es pot apreciar, el resultat d’aquesta classificació és bi-
avaluada. Per altra banda, en el cas que l’atribut a sigui nominal, el test escollit difereix
lleugerament. Concretament, el test actua com a discriminant dels possibles valors que
pot prendre a, és a dir |a|. Aquest punt és important, tal i com queda reflectit en la
definició següent.

Definició 40 Es definira el node intern ortogonal δ en funció del tipus d’atribut sobre
el qual s’està realitzant el test.

Numèric: el test definit per δ es defineix com: δα ≤ δρ. On δα és l’atribut sobre el que
es realitza el test relacional, i δρ la constant sobre la qual es realitza la comparació.

Nominal: el test definit per δ es defineix com el discriminant o descodificador del valor
que pren l’atribut δα en la instància e a classificar.

Es notarà com η (δ, e) al valor resultant del test proposat per δ davant la instància e.

Tal i com es defineixen els nodes interns (def. 40) no queda clar com aquest s’agrupen
de forma jeràrquica. La idea és simple, sempre que s’ha de classificar una instància
qualsevol e es comença pel node distingit ∆δ. Un cop s’ha avaluat ∆δ, el procés de
classificació de e continua en el ∆i tal que i correspon al resultat de l’avaluació del test
∆δ, és a dir ∆δ ⊜ e. Cara a simplificar la notació, el resultat de testos reals correspondrà
{1, 2} (fals, cert), mentre que pels atributs numèrics aquest correspon a {1, . . . |X|}. Això
força que, per construcció, ∆c = 2 quan ∆δ és un test numèric, mentre que ∆c = |X|
quan ∆δ és un test nominal.
L’estructura de les fulles és força elemental. Les fulles de l’arbre codifiquen la classe Estructura de
associada a la conjunció de testos del camı́ existent entre el node arrel ∆ i la fulla. La les fulles
definició de fulla es presenta a la definició 41.

Definició 41 Donat un ∆ tal que satisfà ∆c = 0, es notarà com ∆χ la classe associada


al node ∆, tal que ∆χ ∈ X.

La figura 6.22 presenta la funció de classificació que utilitzen els individus que en el Funció de
seu genoma codifiquen arbres de decisió ortogonals. Com es pot apreciar, aquest procés classificació
de classificació retorna la classe continguda en aquella fulla a la qual s’arriba pel camı́
que indiquen els testos davant la instància a classificar e. Mirant més detalladament la
150 GALE: Model Evolutiu per la Mineria de Dades

∇(TijI,e)
(k, ∆) ← (λ, TijI)
IF (∆c = 0) THEN
DO
k ← ∆χ
DONE
ELSE
DO
i ← η (∆δ, e)
k ← ∇(∆i, e)
DONE
RETURN k

Figura 6.22: Algorisme de la funció de classificació per individus que el seu genoma
codifica arbres de decisió ortogonals

classificació que es proposa en aquest tipus d’arbre de decisió, queda patent el fet que
el camı́ fins a les fulles representa la conjunció de testos, mentre que els nodes interns
representen disjuncions8 .
L’últim punt que falta per descriure completament com els individus codifiquen arbres
de decisió ortogonals en el seu genoma, i com aquest és manipulat a posteriori, són els
Operadors operadors genètics. Pel que fa a l’operador de creuament X , els individus del GALE
genètics aprofiten directament, gràcies a la codificació del genoma presentada, el creuament amb
un punt de tall que s’utilitza tradicionalment per la programació genètica [Koza, 1992],
aixı́ sı́, sols generen un descendent. Quelcom semblant succeeix amb l’operador de
mutació Y. Aquest operador consisteix senzillament en generar nous valors a l’atzar de
∆δ, o ∆χ en funció del tipus de node, quan es fa una certa probabilitat constant fixada
a priori.
A l’igual que succeı̈a amb els individus que en el seu genoma codifiquen regles, els
individus que codifiquen arbres de decisió ortogonals també necessiten ser inicialitats per
poder formar una població inicial pel GALE. Aquesta inicialització no es tant senzilla com
el cas dels individus que codifiquen regles. Però a l’igual que succeeix amb els operadors
X i Y, s’utilitza el mètode grow tradicional també de la programació genètica. El mètode
consisteix en la construcció progressiva de l’arbre de decisió ortogonal, decidint a l’atzar
el tipus de nodes descendents de l’arrel ∆δ (interns o fulla), i repetint recursivament per
cadascun d’aquest nodes nodes el mateix procés, d’aquı́ el nom de grow.

8
És per aquest motiu que aquest tipus d’arbre també reben el nom de arbres AND/OR, fet que en
permet l’extracció de regles equivalents.
6.4 Representacions del coneixement emprades 151

Oblics

Tal i com es descrigué en l’apartat 3.3.2 (pg. 27), els arbres de decisió ortogonals
presenten liminitacions importants. El principal inconvenient que posseeixen rau en la
forma en que es defineixen els testos δ (definició 40) en els nodes interns de l’arbre. El
motiu és que amb el tipus de test que es proposa, un arbre de decisió ortogonal genera
fronteres de classificació perpendiculars als eixos que defineix A+. Això implica que
quan la solució al problema de mineria no sigui paral·lela als eixos de l’espai d’atributs,
els arbres de decisió ortogonals presenten efectes d’escala. Concretament, busquen
aproximar la frontera a partir de testos ortogonals generant arbre poc acurats i de mida
elevada, tal i com es presentava en l’exemple 7 (pg. 29).
Una possible solució a aquest problema és la proposada pels arbres de decisió oblics.
En aquest tipus d’arbre de decisió es proposa, pel nodes interns de l’arbre, testos que
defineixen fronteres lineals orientables. És a dir, el test es basa en comprovar si un punt
es troba pel damunt, o no, d’un determinat hiperplà que defineix el propi test o node
intern. Concretament el test a realitzar donada una instància e és el que es presentà a
l’equació 3.2 (pg. 30), que tot seguit es reprodueix.
|A|
X
αiei + α|A|+1 > 0 (6.10)
i=1

Com es pot apreciar de l’expressió anterior, donat un problema de mineria de dades




a resoldre P, el test queda definit pel vector de coeficients α1, α2, . . . α|A|+1 . Con-
seqüentment, ja es pot passar a descriure l’estructura dels testos que defineixen els nodes Estructura
interns dels arbres de decisió oblics. Un punt important a ressaltar, és que els arbres de dels testos
decisió oblics, malgrat també és es puguin aplicar a problemes amb atributs nominals,
estan pensats originalment per problemes amb atributs numèrics. Aquest punt queda
patent a la definició 42, que apareix tot seguit, la qual descriu els nodes interns dels
arbre de decisió oblics.

Definició 42 Es codificarà el node intern d’un arbre de decisió oblic ∆δ com al vector de


coeficients α1, α2, . . . α|A|+1 , els quals es notaran com δαi . Es notarà com η (∆δ, e)
al valor resultant de calcular:
|A|
X
η (∆δ, e) = δαi ei + δα|A|+1
i=1

Finalment, el test definit per ∆δ, donada una instància e qualsevol, es defineix com:

η (∆δ, e) > 0

Per poder completar la definició de l’estructura que presenta el genoma dels arbres
de decisió oblics falta descriure l’estructura de les fulles. L’estructura de les fulles dels
arbres de decisió oblics és la mateixa que es presentava en els arbres de decisió ortogonals
a la definició 41 (pg. 149).
152 GALE: Model Evolutiu per la Mineria de Dades

∇(TijI,e)
(k, ∆) ← (λ, TijI)
IF (∆c = 0) THEN
DO
k ← ∆χ
DONE
ELSE
DO
IF (η (∆δ, e) ≤ 0) THEN
DO
k ← ∇(∆1, e)
DONE
ELSE
DO
k ← ∇(∆2, e)
DONE
DONE
RETURN k

Figura 6.23: Algorisme de la funció de classificació per individus que el seu genoma
codifica arbres de decisió oblics

La figura 6.23 presenta la funció de classificació que utilitzen els individus que en Funció de
el seu genoma codifiquen arbres de decisió oblics. Com es pot apreciar, a l’igual que classificació
succeı̈a amb els arbres de decisió ortogonals, aquest procés de classificació retorna la
classe continguda en aquella fulla a la qual s’arriba pel camı́ que indiquen els testos
davant la instància a classificar e. Aquest testos corresponen ara a fronteres lineals
orientables en funció dels coeficients de ∆δ. Aquests coeficients seran ajustats com a
resultat del procés evolutiu que el duu a terme el GALE.
L’últim punt que falta per descriure completament com els individus codifiquen arbres
de decisió ortogonals en el seu genoma, i com aquest és manipulat a posteriori, són els
Operadors operadors genètics. Pel que fa a l’operador de creuament X , els individus del GALE
genètics aprofiten, gràcies a la codificació del genoma presentada, el creuament amb un punt
de tall que s’utilitza tradicionalment per la programació genètica [Koza, 1992]. Aquest
operador sols introdueix una lleugera variant per poder afrontar que els nodes interns de
l’arbre de decisió conté un vector de coeficients δα. La modificació que s’introdueix rau
en el fet que els dos nodes dels progenitors, a partir dels quals es generarà l’intercanvi de
material genètic, apliquen alhora un operador de creuament d’un punt de tall tradicional
dels algorismes genètics [Goldberg, 1989]. El motiu és permetre recombinar el material
genètic que representa els vectors de coeficients dels nodes escollits. Per altra banda,
l’operador de mutació Y consisteix senzillament en generar nous valors a l’atzar de ∆δα i ,
o ∆χ en funció del tipus de node, quan es satisfà una certa probabilitat constant fixada
a priori.
6.4 Representacions del coneixement emprades 153

A l’igual que succeı̈a amb els individus que en el seu genoma codifiquen arbres de
decisió ortogonals, els individus que codifiquen arbres de decisió oblics també necessiten
ser inicialitats per poder formar una població inicial pel GALE. Aquesta inicialització
utilitza també el mètode consistent en la construcció progressiva de l’arbre de decisió
oblic, decidint a l’atzar el tipus de nodes descendents de l’arrel ∆r (interns o fulla), i
repetint recursivament per cadascun d’aquest nodes el mateix procés, també conegut
com a procés grow.

Multivariats

Els arbres de decisió multivariats, que es proposen en aquesta tesi, són un pas més en
l’augment de la flexibilitat dels testos dels nodes interns presents en l’arbre de decisió. La
proposta que s’implementa en aquest tipus d’individus del GALE, tal i com s’ha esmentat
a l’apartat 3.3.2 (pg. 27), correspon al treball realitzat sobre la classificació emprant
regions basada en l’agregació jeràrquica d’instàncies publicat a [Llorà and Garrell, 2000b,
Llorà and Garrell, 2000a]. En aquest apartat, a part de descriure la implementació del
genoma d’aquest tipus d’arbre, s’exposarà breument com funciona la classificació basada
en regions proposada.
L’estructura dels testos dels nodes dels arbres de decisió multivariats que es proposa Estructura
es basa en el concepte de punt significatiu [Llorà and Garrell, 1999b] dins de l’espai A+ dels testos
definit pel conjunt d’atributs A del problema P. El que es busca és identificar regions
d’aquest espai que comparteixin la mateixa classe associada.

Definició 43 Sigui ∆δ el test proposat pel nodes multivariats en el problema P com la


3-tupla formada per < ρ, θ, χ >.

ρ és un punt de l’espai d’atributs tal que ρ ∈ A+. π(ρ) és el subconjunt d’atributs,
no buit, emprat per definir ρ. Un test ∆δ permetent l’ús de punts parcialment
definits, es a dir:
π(ρ) ⊆ A ∧ π(ρ) 6= ∅

θ és un llindar, θ ∈ ℜ+, que defineix el radi de la regió de classificació definida per ∆δ.

χ és la classe proposada pel node intern, on χ ∈ X.

Un punt important dels arbres de decisió multivariats que es proposa és el fet que
tots els nodes són homogenis. És a dir, tal i com es presenta a la definició 43, no es
fa distinció a l’estructura entre el node intern i fulla, ja que ambdós comparteixen la
mateixa estructura. La principal diferència rau en el nombre de descendents del node, i
el tractament que es fa dels mateixos en funció d’aquest informació, tal i com es veurà
més endavant.
La definició de la regió de classificació d’un test δ s’obté a partir de la funció de
similitud γ. La finalitat d’aquesta funció és permetre determinar si una instància qualse-
vol e, pertany a la regió definida per δ, és a dir e ∈ δ. En aquest cas la instància e serà
154 GALE: Model Evolutiu per la Mineria de Dades

classificada en la mateixa classe que la descrita per ∆δ, on tot seguit es detallarà aquest
procés. Per contra, si e no pertany a la regió definida per δ no es fa cap suposició sobre
la classe a la qual pertany e. Per tant, és es marcarà e com a pertanyen a la classe
indefinida, λ. Tot seguit es defineix el procés emprat per determinar si e ∈ δ, aixı́ com
la funció γ emprada.

Definició 44 Direm que donada una instància e, on eα ∈ A+, i un test δ qualsevol, e


pertany a la regió del classificació definida per δ si i només si es satisfà

e ∈ δ ←→ γ(δρ, eα) ≤ δθ

Definició 45 Anomenarem funció de similitud γ a aquella funció definida com:

γ : A+ × A+ 7−→ ℜ+

tal que v
u
u 1 X  dist(ρa, eα ) 2
γ (ρ, eα) = t a

|π(ρ)| max(a)
a∈π(ρ)

on dist computa la distància de dos valors d’un determinat atribut a. Si l’atribut a és
numèric, llavors dist es computa com dist(ρa, eαa ) = ρa − eαa . Per altra banda, si
l’atribut a és nominal, dist(ρa, eαa ) és igual a 1 si ρa = eαa , i 0 altrament. Finalment
max és la màxima distància possible per l’atribut a, si aquest és numèric, o bé 1 si
aquest és nominal.

De la definició de γ es pot apreciar que la funció de similitud emprada es basa en


la distància euclidiana. Aquesta funció es la responsable de la definició de la regió de
classificació i la forma que en resultarà. Per la resta del treball que es presenta aquı́
s’empra la distància euclidiana presentada a la definició 45. Aquesta funció pot ser
substituı̈da per qualsevol mètrica que satisfaci la definició presentada a la definició 45 i
que, a més a més, proporcioni una mesura del grau de similitud existent entre dos punts
de l’espai A+.
La figura 6.24 presenta un exemple de com un test qualsevol δ pot definir una regió
de classificació. Per facilitar-ne la representació gràfica s’ha escollit un problema P
definit per un parell d’atributs numèrics, A = {α1, α2}. Un exemple d’aquest tipus de
problema seria el TAO, presentat a la figura 3.1.c (pg. 26). A l’exemple de la figura
6.24 es presenta l’espai dels atributs A+ definit per α1 × α2.
Tal i com s’ha comentat a la definició 43, el punt de l’espai d’atributs A+ que
representa δρ pot no ser completament definit. És a dir π(δρ) ⊆ A ∧ π(δρ) 6= ∅.
Emprant dos atributs s’obtenen tres regions de classificació diferents, tal i com mosta
la figura 6.24. La figura 6.24.a representa la regió definida per δ quan s’utilitzen els
dos atributs disponibles, és a dir π(δρ) = {α1, α2}. Per altra banda, les figures 6.24.b
i 6.24.c representen les regions de classificació identificades per un agent δ quan sols
s’empra un atribut per definir δρ.
6.4 Representacions del coneixement emprades 155

α2 α2 α2
θ
θ θ
ρ2 ρ2

ρ1 ρ1
α1 α1 α1
(a) π(δρ ) = {α1 , α2 } (b) π(δρ ) = {α1 } (c) π(δρ ) = {α2 }

Figura 6.24: Possibles regions de classificació definides per una test multivariat δ en un
problema P en el qual A = {α1, α2}

En el moment d’afrontar una nova instància, la classificació rau en el fet de deter-


minar si la instància pertany a la regió definida per l’agent δ. Tal i com presentat a
la definició a l’equació 44, el procés de classificació es pot representar gràficament. La
figura 6.25 presenta gràficament el procés de classificació de dues instàncies, e1 i e2. De
les dues instàncies, e1 es classifica com a pertanyent a la regió de classificació definida
per ∆δ, ja que e1 ∈ δ. Per contra e2 no es classifica, ja que queda més enllà del llindar
definit δθ.

α2
θ
ρ2
e1

e2
ρ1
α1

Figura 6.25: Exemple de classificació d’un parell d’instàncies e1 i e2 per un test multi-
variat δ

Arribats a aquest punt, com es pot apreciar a la figura 6.25, la regió que s’està
definint és circular. Per assolir regions més complexes entra en joc l’estructura jeràrquica
de l’arbre de decisió multivariats. Això s’assoleix classificant la instància que pertany
a la regió definida per ∆δ en funció dels testos descendents, sols parant, a l’igual que
succeı̈a amb la resta d’arbres de decisió, quan s’arriba a una fulla. Per poder continuar
el procés de classificació en els descendents de ∆δ, el procés es pot resumir dient que: la
regió de classificació que defineix un test acaba allà on comença la d’un altre. La figura
6.26 presenta un exemple il·lustratiu de com aquesta filosofia es duria a terme emprant
tres agents diferents ∆1δ,∆2δ i ∆3δ. Com es pot apreciar a la figura, la regió definida per
cada agent δ manté un equilibri entre la seva regió i la dels seus veı̈ns.
Un dels principals motius pel quals s’estructura jeràrquicament el conjunts de testos
és el d’obtenir un nou nivell de refinament en el procés de definició de regions de classi-
ficació. Com es pot apreciar a la figura 6.26, la capacitat de classificació de l’agregació
de testos supera les capacitats individuals de cadascun dels testos que el formen. Això
156 GALE: Model Evolutiu per la Mineria de Dades

α2
∆1δ

∆2δ

∆3δ

α1

Figura 6.26: Exemple de cooperació entre tres testos (δ1, δ2 i δ3) per definir diferents
regions de classificació

passa, no sols per l’estructuració dels testos, sinó que també per definir com es classifi-
caran les instàncies dins aquesta estructura jeràrquica, que té com a base les capacitats
elementals de classificació dels testos que la formen.
Aquesta estructuració obliga a definir com s’ampliarà el procés de classificació dels
testos δ per permetre la resolució cooperativa del problema dins ∆. Abans de passar però
Funció de a descriure la funció de classificació es presentaran algunes definición prèvies, necessaries
classificació per entendre com es realitzarà el procés de classificació cooperatiu d’una instància dins
d’un arbre de decisió multivariat ∆.

Definició 46 Anomenarem conjunt possible Ψ d’un arbre de decisió multivariat ∆, al


conjunt ordenat definit com:
Ψ(∆) = {∆i, ∀i = 1, 2 . . . ∆c}

Definició 47 Anomenarem conjunt visible Θ d’un arbre de decisió multivariat ∆ respecte


una instància e, al conjunt definit com:
Θ(∆, e) = {Γ ∈ Ψ(∆)|γ(Γρ, e) ≤ Γθ}

Definició 48 S’anomenarà conjunt actiu Φ respecte l’agregat ∆ per la instància e, a


aquell agregat que satisfà:
Φ(∆, e) = {Γ ∈ Θ(∆, e)| min γ(Γρ, eα)}

L’objectiu del conjunt Φ(∆, e) és identificar quin arbre de decisió multivariat per-
tanyent al conjunt visible Θ(∆, e) és més γ-proper a la instància e. Malgrat això, és
pot donar el cas que |Φ(∆, e)| > 1, indicant que existeix més d’un possible agregat al
conjunt actiu. Per aquest motiu és distingirà un arbre de decisió del conjunt Φ(∆, e)
b
com Φ(∆, e). Aquest agregat serà aquell que primer apareixi dins el conjunt ordenat de
possibles Ψ(∆).

b
Definició 49 Sigui Φ(∆, e) aquell arbre de decisió que satisfà:

b
Φ(∆, e) = ∆i ←→ ∆i ∈ Φ(∆, e) ∧ ∀∆ j
∈ Φ(∆, e), i ≤ j
6.4 Representacions del coneixement emprades 157

α2 α2 α2

δ2
δ1 δ5
δ4 δ3
δ6

α1 α1 α1
(a) camı́={δ1 } (b) camı́={δ1 , δ3 } (c) camı́={δ1 , δ3 , δ6 }

Figura 6.27: Exemple de les possibles regions de classificació definides per l’arbre de
decisió multivariat que presenta l’estructura de la figura 6.21 (pg. 148) en funció del
camı́ realitzat

Un cop fetes aquestes definicions prèvies ja es pot descriure com l’arbre de decisió
multivariat proposat permet que els testos que el formen treballen junts per classificar
una instància e. Per definir la classificació es necessitarà, per tant, un arbre de decisió
∆ i una instància a resoldre e.

Definició 50 Anomenarem funció de classificació d’un arbre de decisió multivariats a


aquella funció que donat un individu qualsevol que codifica un arbre de decisió mutivariat
i una instància qualsevol, retorna la classe corresponent a la instància. És a dir

7 → X∗
∇ : TijI × U −

definida com

e = λ

 si γ(∆ρ, eα) > ∆θ,
∇(∆, e) = e = ∆rχ 
si γ(∆ρ, eα) ≤ ∆θ ∧ ∆c = 0,

 b
e = ∇ Φ(∆, e), e si γ(∆ρ, eα) ≤ ∆θ ∧ ∆c > 0.

Com es pot apreciar de la signatura de la funció presentada a la definició 50, donat


un arbre de decisió multivariat qualsevol ∆ i una instància e, la funció de classificació
∇ retorna un element del conjunt de classes estès X∗ . El motiu per retornar un element
de X∗ i no de X és el fet de mantenir la voluntat de no realitzat cap suposició sobre el
que no es pot classificar en funció de la regió de classificació en curs, retornant per tant
l’element indefinit λ.
La figura 6.27 posa un exemple de com les regions de classificació queden definides
per ∇ TijI, e . Aquestes van prenent forma a mida que es va fent el camı́ entre el node
arrel de TijI i la fulla que finalment etiqueta la regió a la qual pertany la instància e a
classificar. A mida que es va avançant pel camı́, les regions de classificació que es van
refinant a partir del test que proposa el nou node incorporat al camı́. La figura 6.27.a
presenta la regió de classificació que defineix el camı́ {δ1}. A mida que s’afegeixen testos
al camı́, la regió de classificació es va refinant, adoptant una forma diferent. La regió
presentada a la figura 6.27.b és el resultat d’incorporar al camı́ {δ1, δ3}. Finalment, la
158 GALE: Model Evolutiu per la Mineria de Dades

∇(TijI,e)
(k, ∆) ← (λ, TijI)
IF (γ(∆, e) ≤ ∆rθ) THEN
DO
IF (∆c = 0) THEN
DO
k ← ∆χ
DONE
ELSE
DO  
k ← ∇ Φ(∆, b e), e
DONE
DONE
RETURN k

Figura 6.28: Algorisme de la funció de classificació per individus que el seu genoma
codifica arbres de decisió multivariats

regió de classificació a la qual pertany la instància e és la que es presenta a la figura


6.27.c formada pel camı́ {δ1, δ3, δ6}. Com es pot apreciar, les regions que es defineixen
amb aquest tipus d’arbre de decisió són força més riques i complexes que les generades
per les fronteres lineals generades pels arbres de decisió ortogonals o oblics.
Amb aquestes definicions queda descrita la funció de classificació ∇ pels arbre de
decisió multivariats proposats a [Llorà and Garrell, 2000b, Llorà and Garrell, 2000a]. La
figura 6.28 mostra una possible codificació d’aquesta funció en pseudocodi. Com es pot
apreciar, a l’igual que en el altres tipus de d’arbres de decisió, la classificació que es duu
a terme ve marcada pel camı́ que es segueix fins a la fulla que conté la classe adient per
la instància a classificar.
Abans de passar a comentar els operadors genètics que utilitza aquest tipus d’arbres
de decisió, és vol recalcar que les fronteres de classificació depenen principalment de la
funció γ i del test que sobre ella s’aplica δθ. Per tant, si es coneix a priori el tipus de
frontera que presenta un determinat problema. Es pot enriquir la funció γ emprant dife-
rents mètriques de distància [Wilson and Martinez, 1997, Wilson and Martinez, 2000],
o bé generant testos més complexes que no la simple comparació relacional amb una
constant, per exemple basats en polinomis o funcions paramètriques.
L’últim punt que falta per descriure completament com els individus codifiquen arbres
de decisió multivariats en el seu genoma, i com aquest és manipulat a posteriori, és els
Operadors operadors genètics que s’empren per la manipulació del genoma. Degut a l’estructura
genètics dels seus nodes, els operadors genètics X i Y són els mateixos que els presentats pels
arbres de decisió oblics.
A l’igual que succeı̈a amb els individus que en el seu genoma codifiquen arbres
6.4 Representacions del coneixement emprades 159

de decisió ortogonals o oblics, els individus que codifiquen arbres de decisió multivariats
també necessiten ser inicialitats per poder formar una població inicial pel GALE. Aquesta
inicialització utilitza també el mètode consistent en la construcció progressiva de l’arbre
de decisió oblic, decidint a l’atzar els testos de l’arrel ∆δ, i repetint recursivament per
cadascun d’aquest nodes el mateix procés, conegut com a procés grow anteriorment
comentat.

6.4.3 Instàncies

L’últim tipus d’individus que s’ha proposat en aquesta tesi són els que la seva represen-
tació del coneixement està basada en instàncies presentat a la secció 3.3.4 (pg. 34). La
classificació que es duu a terme amb aquest tipus de representació és basa en la capacitat
de fragmentar l’espai A+ en regions de classificació a partir d’un conjunt d’instàncies.
Per poder assolir el particionat de l’espai que a tall d’exemple proposen les figures 3.5
(pg. 34) i 3.6 (pg. 36), és necessari disposar de dos elements diferenciats. El primer és
el conjunt d’instàncies representatives a emprar pel procés de classificació. Per contra
el segon és l’ús d’una mètrica que permeti calcular distàncies entre instàncies.
Els individus que codifiquen en el seu genoma representacions del coneixement ba-
sades en instàncies, contenen conjunts d’instàncies de mida variable. És a dir, una
solució (individu) al problema de mineria a resoldre correspon a un conjunt d’instàncies
representatives, que són les que s’empren per la classificació. Per altra banda, existei-
xen diferents propostes de funcions de distància que es poden aplicar en el individus
que codifiquen instàncies, tal i com es recull a [Llorà, 2000], o bé les proposades a
[Wilson and Martinez, 1997, Wilson and Martinez, 2000]. Malgrat això, les diferents
aproximacions existents, en aquest tipus d’individus es decidir mantenir una versió de la
distància euclidiana degut a la seva simplicitat conceptual. Aquesta funció pot treballar
alhora, tal i com veurà tot seguit, amb atributs nominals o numèrics indistintament.
En el que resta d’aquesta secció es descriurà els dos tipus d’individus basats en
instàncies que s’han emprat en el GALE. La principal diferència entre ambdós tipus
d’individus rau en el tipus d’instància que s’utilitza. Mentre que el primer tipus d’individu
utilitza instàncies totalment definides, tal i com es presentaren en el seu moment a la
definició 4 (pg. 24). Per contra, el segon tipus d’individu codifica instàncies parcialment
definides, o el que és el mateix, instàncies en que no tots els valors dels atributs són
coneguts. Amb aquesta relaxació s’enriqueix el tipus de regió de classificació que es pot
definir, tal i com succeı̈a en els arbres de decisió multivariats.

Totalment definides

Com ja s’ha comentat anteriorment, aquest tipus d’individus codifiquen un conjunt


d’instàncies. La forma de dur aquesta codificació a terme és similar a la presentada
pels individus que codifiquen regles. Concretament, les diferents instàncies, que donat
un problema P són de mida fixa, arranjant consecutivament dins un genoma lineal.
160 GALE: Model Evolutiu per la Mineria de Dades

e1 e2 e3 en

e31 e32 e33 e34 e3l e3χ

Figura 6.29: Estructura del genoma dels individus que codifiquen conjunts d’instàncies
totalment definides

Aquestes semblances també es faran palpables en els operadors genètics que aquests
tipus d’individus utilitzen per la manipulació del seu genoma.
Codificació La codificació del conjunt d’instàncies dins el genoma de l’individu es presenta
gràficament a la figura 6.29. Com es pot apreciar, l’estructura lineal conté un nom-
bre n variable d’instàncies. Cadascuna d’aquestes instàncies posseeix una longitud fixa,
ja que la longitud d’una instància només depèn del nombre d’atributs del problema P a
resoldre (l) i la classe associada. Això fa que per cada instància del conjunt l’individu
hagi de codificar l + 1 valors en el seu genoma.
Funció de Abans de poder presentar la funció de classificació ∇ emprada en aquest tipus de
classificació codificació, és necessari presentar la funció de similitud que s’utilitza per decidir les
regions de classificació. La funció emprada és una simplificació de la presentada a la
definició 45 (pg. 154). La simplificació consisteix en forçar que tots els atributs de la
instància intervinguin en el càlcul de la distància, a diferència del que succeı̈a amb la
funció γ presentada anteriorment.

Definició 51 Anomenarem funció de similitud totalment definida γt a aquella funció


definida com:
γt : A+ × A+ 7−→ ℜ+
tal que donada una instància qualsevol e i una instància codificada en el genoma eI,
aquesta es defineix com:
v
  u 
u 1 X dist(eIa, ea) 2

γt eI, e = t
|A| max(a)
a∈A

on dist computa la distància de dos valors d’un determinat atribut a. Si l’atribut a


és numèric, llavors dist es computa com dist(eIa, ea) = eIa − ea. Per altra banda, si
l’atribut a és nominal, dist(eIa, ea) és igual a 1 si eIa = ea, i 0 altrament. Finalment
max és la màxima distància possible per l’atribut a, si aquest és numèric, o bé 1 si
aquest és nominal.

Fetes aquestes consideracions prèvies, ja es pot passar a definir la funció de classifi-


Funció de cació ∇. Donada la codificació presentada anteriorment, aixı́ com la funció de distància
classificació γt, ∇ es definirà per assolir una classificació basada en regions de classificació, tal i com
es presentà a la secció 3.3.4 (pg. 34) i les figures 3.5 (pg. 34) i 3.6 (pg. 36). Una
possible codificació d’aquesta funció ∇ en pseudocodi es presenta a la figura 6.30.
6.4 Representacions del coneixement emprades 161

∇(TijI,e)
(k, d) ← (λ,+∞) 
FOR-EACH eI ∈ TijI
DO
 
IF γt eI, e < d THEN
DO

(k, d) ← eIχ, γt(eI, e)
DONE
DONE
RETURN k

Figura 6.30: Algorisme de la funció de classificació per individus que el seu genoma
codifica instàncies totalment definides

L’últim punt que falta per descriure completament com els individus codifiquen con-
junts d’instàncies totalment definides en el seu genoma, i com aquest és manipulat a
posteriori, és els operadors genètics que s’empren per la manipulació del genoma. Degut Operadors
a l’estructura del seu genoma lineal els operadors genètics X i Y són els mateixos que genètics
els presentats a la secció 6.4.1 pels individus que codifiquen en el seu genoma conjunts
de regles.
D’igual forma que succeı̈a amb els individus que en el seu genoma codifiquen regles,
els individus que codifiquen conjunts de regles també necessiten ser inicialitats per poder
formar una població inicial pel GALE. La inicialització consisteix en generar un nombre
aleatori d’instàncies en el genoma, cadascuna de les quals també adopta els seus valors
de forma aleatòria.

Parcialment definides

Existeix un segon tipus d’individus que pot emprar el GALE els quals codifiquen conjunts
d’instàncies però, aquest cop, parcialment definides. Els individus presentats a la secció
anterior forçaven que per cada instància del conjunt codificat, tots i cadascun dels atri-
buts presenti un valor que s’utilitzen en el moment de calcular la funció de distància. Per
contra, en els individus amb instàncies parcialment definides els atributs d’una instància

involucrats en el càlcul de la funció de similitud corresponent a π eI ⊆ A.
La codificació del conjunt d’instàncies parcialment definides dins del genoma de Codificació
l’individu es presenta gràficament a la figura 6.31. Com es pot apreciar, la principal
diferència respecte la codificació anterior rau en que per cada atribut de cada instància
codificada, s’ha afegit un bit per indicar explı́citament si aquest s’ha d’utilitzar per
calcular la distància o no. La funció de distància emprada és γ, tal i com es definı́ a 45
(pg. 154). Conseqüentment, la codificació en pseudocodi de la funció de classificació que Funció de
es presenta a la figura 6.32 sols difereix de l’emprada per instàncies totalment definides classificació
162 GALE: Model Evolutiu per la Mineria de Dades

e1 e2 e3 en

e31 e32 e33 e34 e3l e3x


1 0 1 0 1

Figura 6.31: Estructura del genoma dels individus que codifiquen conjunts d’instàncies
parcialment definides

∇(TijI,e)
(k, d) ← (λ,+∞) 
FOR-EACH eI ∈ TijI
DO
 
IF γ eI, e < d THEN
DO

(k, d) ← eIχ, γ(eI, e)
DONE
DONE
RETURN k

Figura 6.32: Algorisme de la funció de classificació per individus que el seu genoma
codifica instàncies parcialment definides

en la funció de distància que utilitza, és a dir, γ enlloc de γt. La resta del procés de
classificació és idèntic, ja que no s’ha modifica res que l’afecti.
Operadors Pel que fa als operadors genètics, l’operador de creuament X és idèntic a l’emprat
genètics pels individus que codifiquen instàncies totalment definides, tractant conjuntament el
valor d’un atribut i la marca d’utilització. Pel que fa a l’operador de de mutació Y, aquest
amplia lleugerament el dels individus que codifiquen instàncies totalment definides. La
modificació afecta a que la marca d’utilització també pot ser variada a l’atzar quan es
satisfà una certa probabilitat, a l’igual que succeeix amb la resta de valors codificats en
el genoma. Finalment, comentar que el mètode d’inicialització és el mateix proposat
anteriorment generant també les marques d’utilització a l’atzar.

6.4.4 Altres consideracions

Per concloure la secció dedicada a les representacions del coneixement que els individus
del GALE utilitzen, s’ementarà algunes consideracions que no s’han introduı̈t anterior-
ment cara a simplificar l’explicació. Aquestes afecten principalment a les representacions
basades amb instàncies, aixı́ com a les caracterı́stiques que es poden trobar en certs tipus
6.4 Representacions del coneixement emprades 163

de problemes reals de mineria de dades.


La primera consideració afecta a les instàncies parcialment definides. Tal i com s’han
presentat, en aquest tipus d’instàncies un atribut pot ser present en el càlcul de la funció
d’avaluació, o no. Aquesta decisió binària es pot estendre emprant una gradació, o
ponderació d’atributs. Això s’assoleix substituint el 0/1 per un valor de l’interval [0,1] Ponderació
i modificant adientment la funció γ tal i com es presenta a [Llorà and Garrell, 1998, d’atributs
Llorà and Garrell, 1999b, Llorà and Garrell, 1999a].
La segona consideració, que també afecta a les representacions basades en instàncies,
consisteix en estendre el nombre d’instàncies involucrades en la classificació. Concreta-
ment, el que es pot dur a terme és l’ús de k-NN en la funció de classificació tal i com K-NN
es presentà a l’apartat 3.3.4 (pg. 34). L’objectiu d’aquest tipus d’extensió passa per la
suavització de les fronteres de classificació que es poden descriure amb aquest tipus de
representació del coneixement. Una descripció d’aquesta aproximació pel GALE es pot
trobar [Llorà, 2000].
La tercera consideració rau en la interpretació que es pot fer del conjunt d’instàncies
contingudes en un individu. Concretament, aquestes es poden interpretar com un procés
de reducció de l’emmagatzematge necessari. És a dir, donat un problema de mineria de Reducció de
dades descrit per un conjunt d’instàncies, el resultat que proposa el GALE quan s’utilitza l’emmagatze-
individus que representen conjunts d’instàncies, és un altre conjunt. Dels resultats que matge
es presentaran a [Llorà and Garrell, 2001b] i al capı́tol 8 (pg. 219), s’aprecia que aquest
conjunt final resol el problema inicial emprant un nombre molt reduı̈t d’instàncies ob-
tingudes a partir del procés evolutiu, no tenint per que coincidir amb el conjunt inicial.
Aquesta aplicació, no pensada inicialment, ha demostrat una eficiència que millora fins
i tot sistemes tradicionals de reducció de conjunts d’instàncies, tal i com es presentarà
en els resultats.
La quarta consideració afecta a la classificació cooperativa dels arbres de decisió
multivariats. Tal i com es comentà en el seu moment, la classe resultant es escollida en
funció de la fulla a la qual la instància que s’està classificant ha portat. La definició dels
nodes dels arbres de decisió multivariats mostra que són homogenis, i que conseqüent-
ment, tots posseeixen la mateixa estructura, incloent una classe associada a cada test
∆χ. Aquest punt porta a que la forma d’escollir la classe a la qual classificar la instància
no és única. Per exemple, es pot recollir la classe proposada per cada test del camı́ i
emprendre un procés decisió sobre el conjunt de classe proposades, com pot ser el sufragi
universal exposat pel bagging a la secció 6.3.8 (pg. 142). Una altra utilitat d’aquest
testos seria el plantejament d’una classificació basada en un món tancat. És a dir, la
classe continguda en els nodes interns correspon a la classe de les instàncies que cauen
més enllà del llindar definit per ∆θ. On amb això s’arriscaria una classificació evitant
l’ús de λ.
L’última consideració afecta als problemes de mineria de dades que es resolen. En
alguns problemes és normal, fins i tot necessari, l’aparició d’atributs que presenten un
valor desconegut. Això és degut a que, per exemple, el seu valor depèn de la resposta Valor desco-
obtinguda en un altra pregunta. En aquest casos les instàncies que descriuen el problema negut
164 GALE: Model Evolutiu per la Mineria de Dades

de classificació són parcialment definides. Aquest punt afecta a la forma en que la funció
de classificació ∇ ha de tractar les instàncies. Existeixen diferents formes de resoldre,
per cada representació, aquesta problemàtica [Witten and Frank, 2000]. En el treball
que aquı́ es presenta s’ha optat per una de senzilla. En lloc de substituir els desconeguts
per valors mitjans, o bé introduir un nou valor especı́fic, la tècnica emprada ha estat
obviar, allà on calgui, l’atribut que presenta el valor desconegut. Això vol dir que si és
en la condició d’una regla, l’atribut no es té en compte en la conjunció, o bé si això
succeeix en una representació basada en instàncies, l’atribut no s’utilitza per computar
la funció de similitud.

6.5 Resum

En aquest capı́tol s’ha presentat el model de mineria de dades que es proposa en aquesta
tesi. El GALE és un model, basat en el paral·lelisme de gra fi, que permet l’evolució
de diferents tipus de representacions del coneixement. La descripció que se ha versat
entorn tres eixos principals: (1) La descripció de les consideracions de sortida i el referents
existents pel treball que es volia proposar, (2) la descripció del model pròpiament dit,
i finalment (3) la descripció de com es tracta cadascuna de les representacions del
coneixement emprades.
Les consideracions de sortida han servit per aclarir les directrius que han condicio-
nat el treball que s’ha dut a terme. Aquestes es resumeixen dient que el model que es
proposa ha de ser: aplicable a problemes de classificació de tot tipus, independent de
la representació del coneixement emprada, i basada en un model inherentment massi-
vament paral·lel. Sota aquestes consideracions inicials, s’ha fet també una revisió dels
principals referents dins els quals s’emmarca la tesi proposada. Aquesta revisió identifica
els principals sistemes existents que han buscat abordar un problema similar al plantejat
en aquest treball.
Un cop fet aquest preamble, tot seguit s’ha descrit el model que proposa el GALE.
Aquesta descripció, que ha arrancat amb una revisió dels tipus de paral·lelisme que
es poden trobar dins els algorismes genètics, ha cobert les principals caracterı́stiques
del model, com són: la seva topologia, com aquesta es relaciona amb el problema a
resoldre (mapping), i l’algorisme pròpiament dit incloent tots els operadors involucrats.
Aquesta descripció ha tingut en compte el seu caràcter marcadament independent de la
representació del coneixement que s’estigui fent evolucionar.
L’últim gran eix de la descripció del GALE ha passat per la descripció detallada de
com diferents representacions del coneixement són manipulades dins del model. Concre-
tament, s’ha presentat com es poden codificar en el genoma dels individus que evoluciona
el GALE des de conjunts de regles, arbres de decisió, o bé conjunts d’instàncies. Per
cadascuna de les representacions l’explicació a girat a l’entorn de com aquesta es pot
codificar en el genoma dels individus, de com això afecta a la funció de classificació,
i finalment com han d’actuar els operadors genètics sobre aquesta representació per
6.6 Notes Bibliogràfiques 165

poder-la manipular adientment.

6.6 Notes Bibliogràfiques

Per finalitzar aquest capı́tol, a l’igual que s’ha vingut realitzant amb els anteriors, tot
seguit es farà un resum d’algunes notes bibliogràfiques d’interès relacionades amb el que
s’ha vingut comentant.
A [Goldberg, 1989] es pot trobar una introducció entenedora a la base dels opera-
dors de creuament X i mutació Y emprats tradicionalment en els algorismes genètics.
Pel que fa als operadors basats en la programació genètica, [Koza, 1992, Koza, 1994,
Koza et al., 1999] són llibres de text obligats, aixı́ com compendi de l’estat actual de la
recerca que en aquest camp s’està realitzant.
Pel que fa als referents de la tesis que es proposa [Cantú-Paz, 1997, Cantú-Paz, 2000]
contenen un recull entenedor dels diferents models de paral·lelisme existent dins els al-
gorismes genètics. Altres referències passarien per [Flockhart, 1995, Araujo et al., 2000]
les quals descriuen amb detall el GA-MINER, aixı́ com l’estat de la seva paral·lelització.
Pel que fa al treball amb autòmats cel·lulars evolutius [Sipper, 1997] presenta un com-
pendi de com l’evolució pot servir de guia per la seva programació. Pel que fa l’aplicació
d’algorismes genètics cel·lulars (i, cellular genetic algorithms) [Whitley, 1993] n’és una
de les primeres descripcions, junt amb la seva aplicació a problemes d’optimització.
Posteriors ampliacions i l’efecte de la introducció de desastres dins el procés evolutiu
es poden trobar a [Kirley and Green, 2000, Green and Kirley, 2000]. Per altra banda,
[Robertson, 1987] presenta una de les primeres paral·lelitzacions dels sistemes classifica-
dors.
Pel que fa a la mineria de dades, dues referències útils són [Witten and Frank, 2000] i
[Han and Kamber, 2001]. Altres propostes especı́fiques de mineria de dades emprant al-
gorismes evolutius passen pel treball fet amb el XCS, inicialment [Saxon and Barry, 2000,
Wilson, 2000] i posteriorment [Dixon et al., 2001, Lanzi, 2001], o bé per comparatives
entre el XCS i el GALE [Bernadó et al., 2001].
Algunes publicacions relacionades amb el GALE són les que es descriuen a conti-
nuació. A [Llorà and Garrell, 2000b, Llorà and Garrell, 2000a] es pot trobar les prime-
res descripcions publicades sobre el model proposat. Aquesta descripció es pot tro-
bar ampliada a [Llorà, 2000]. Resultats sobre l’aplicació del GALE a problemes re-
als de mineria de dades és recullen a [Bernadó et al., 2001, Llorà and Garrell, 2001c,
Llorà and Garrell, 2001a]. Per altra banda, [Llorà and Garrell, 2001b] descriu l’utilitza-
ció del GALE a la reducció dels requeriments d’emmagatzamatge per algorismes d’apre-
nentatge basats en instàncies. Finalment, [Llorà and Garrell, 1998, Llorà and Garrell, 1999b,
Llorà and Garrell, 1999a] recullen descripcions dels fonaments de la classificació basada
en regions presentada.
Per finalitzar aquest resum de notes bibliogràfiques és repassaren algunes referències
166 GALE: Model Evolutiu per la Mineria de Dades

diverses. [Merz and Murphy, 1998] presenta un repositoris de bases de dades per pro-
blemes d’aprenentatge. Descipcions de paral·lelisme arquitectònic, aixı́ com de la llei
d’Amdhal [Hwang, 1993]. Consideracions de la funció d’avaluació emprada en el GALE
és poden trobar a [De Jong and Spears, 1991]. El bagging es presenta detalladament
[Breiman, 1996]. La descripció sobre l’ID3 es pot trobar a [Quinlan, 1986], aixı́ com la
del C4.5 a [Quinlan, 1993]. Finalment, diferents mètriques de distància, aixı́ com algoris-
mes de reducció de l’emmagatzematge, es poden trobar a [Wilson and Martinez, 1997,
Wilson and Martinez, 2000].
CAPÍTOL 7

Comportament del GALE

El segon dels capı́tols dedicats al GALE es centra en l’estudi del comportament que
aquest presenta al llarg del procés evolutiu. A diferència del capı́tol precedent, centrat en
l’exposició del model proposat, l’estudi del comportament del GALE que es presenta en
aquest capı́tol es pot destriar en dos parts diferenciades. La primera es centra en l’anàlisi
teòric del model paral·lel que proposa el GALE, fent èmfasi el cost computacional del
model, aixı́ com els requeriments de memòria necessaris. Per altra banda, la segona part
presenta un estudi detallat del comportament del GALE en funció dels seus paràmetres,
aixı́ com de certes caracterı́stiques inherents al model proposat. Per facilitar aquest estudi
es realitzarà una simplificació del model proposat. Concretament, aquesta simplificació
sols afectarà al problema que es resol mantenint, això sı́, el model paral·lel proposat.
Per altra banda, aquest estudi també inclourà la comparació dels resultats del GALE
amb els obtinguts de diferents tipus d’algorismes genètics, permetent destacar aixı́ les
diferències de comportament existents entre el models tradicionals i el GALE.
Per concloure aquesta breu introducció, tot seguit es pararà a descriure l’estruc-
turació d’aquest segon capı́tol sobre el GALE. El capı́tol comença a la secció 7.1 amb
l’anàlisi teòric del model de paral·lelisme que proposa el GALE. Un cop fet aquest anàlisi,
a l’apartat 7.2 descriu un model simplificat del GALE que, mantenint les propietats i ca-
racterı́stiques de l’original, simplificarà l’estudi que es realitzarà en els apartats següents.
La secció 7.3 per la seva banda presenta algunes definicions prèvies necessàries per la
resta del capı́tol. En aquest estudi del comportament del GALE emprant el model sim-
plificat s’utilitzen un ventall de funcions especialment escollides per les seves propietats.
Les funcions es descriuen amb detall a la secció 7.4, aixı́ com els paràmetres d’estudi del
GALE es resumeixen a l’apartat 7.5. Finalment, els resultats de l’estudi es presenten a
la secció 7.6, la qual en resumeix els resultats obtinguts. El capı́tol conclou amb un breu
resum, secció 7.7, aixı́ com la ja habitual revisió de les notes bibliogràfiques d’interès
relacionades amb aquest capı́tol 7.8.
168 Comportament del GALE

7.1 Anàlisi teòric del model paral·lel

Aquest apartat analitza el paral·lelisme inherent al model proposat pel GALE. És impor-
tant comentar en aquest punt que aquest anàlisi busca descriure teòricament el màxim
grau de paral·lelisme que amb ell es pot assolir. Una de les consideracions de sortida del
GALE, que es presentaven a l’apartat 6.1 (pg. 112), és el fet que el model proposat ha
d’ésser inherentment massivament paral·lel. El motiu d’aquesta consideració és la possi-
bilitat de proposar implementacions paral·leles del mateix, en cas de necessitat de reduir
el temps d’execució del procés de mineria. L’anàlisi que es pot trobar a continuació es
centra en dos punts. El primer és l’acceleració del paral·lelisme (o speedup), mentre que
el segon busca analitzar els requeriments de memòria que presenta el model.

7.1.1 Speedup

Per poder obtenir les equacions teòriques del speedup és necessari calcular les equa-
cions d’un model genèric seqüencial i les que s’extreuen del GALE. Concretament, el
model genèric seqüencial escollit pel càlcul és el GABL [De Jong and Spears, 1991,
Spears et al., 1993]. El motiu de fer servir aquest model evolutiu com a referència
rau en el fet que és un dels referents de la tesi que aquı́ es presenta.
Tot seguit es presenten les equacions del temps d’execució que se’n desprén de
l’ús del GABL en problemes de mineria de dades. A les equacions que es presenten a
continuació, es recull el temps ta d’execució emprat pel GABL. En aquestes equacions
p és el nombre d’individus del GABL, n el nombre d’instàncies de Σ, i τ el nombre
d’iteracions de l’algorisme genètic.
ta = τ · tloop
= τ (teval + tsel + tcross + tmut)
(7.1)
= τ (tclspn + tcopyp log p + txalgρX p + tmalgρY p)
= τp (α1n + α2 log p + α3)

A l’equació 7.1, ρX i ρY són la probabilitat de creuament i mutació del GABL res-


pectivament. En aquesta equació apareixen tres constants de temps que depenen de
la màquina en la qual s’implementi el codi. Aquestes són tcopy, temps de generar una
còpia d’un individu en el procés de selecció, txalg el temps de creuar un parell d’indivi-
dus, i finalment tmalg, el temps emprat per l’operador de mutació. Per simplificar les
equacions, es suposa que el temps de classificació que un individu utilitza per classificar
una instància és constant, concretament tcls. La simplificació és necessària per poder
generar el model, ja que aquest temps depèn de la representació del coneixement em-
prada i la funció de classificació ∇. La simplificació es sosté si es substitueix pel temps
mitjà estimat d’execució de ∇.
Un cop obtinguda l’expressió del temps ta emprat pel GABL en problemes de clas-
sificació, ja es pot determinar la complexitat en temps. Aquesta es recull a l’equació
7.1 Anàlisi teòric del model paral·lel 169

Tij Tij Tij

(a) r = 1 (b) r = 2 (c) r = 3

Figura 7.1: Radi de veı̈natge per les cel·les del GALE

següent.
ta ∈ O (τp (n + log p)) (7.2)

Donades les equacions 7.1 i 7.2, el següent pas es repetir els mateixos càlculs per
obtenir les equacions corresponents al GALE. Com s’ha esmentat al començament d’a-
quest apartat el què es busca és determinar el grau de paral·lelisme màxim assolible.
Conseqüentment, per aquests càlculs, es suposarà de moment que el model proposat pel
GALE s’executa en una màquina paral·lela ideal, en concret una PRAM (parallel random
access machine) [Hwang, 1993].
Per obtenir una primera aproximació a aquestes equacions és faran algunes assump-
cions. Tal i com s’ha comentat al començar d’aquest apartat, l’objectiu que es vol
mesurar el màxim grau de paral·lelisme que s’assoleix amb aquest model, obviant de
moment qualsevol consideració sobre una hipotètica implementació paral·lela. En l’e-
quació del temps del GALE que es presentarà tot seguit, cada cel·la Tij es mapa sobre
un element de procés diferent. Conseqüentment, el nombre d’elements de procés ρ serà
idèntic al nombre d’individus p. També es suposarà que cada element de procés està
connectat amb qualsevol altre amb un cost de comunicació constant O(1). Comentades
aquestes consideracions, tot seguit es pot trobar l’equació que recull el temps d’execució
del GALE en funció del radi de veı̈natge existent en el tauler T . La figura 7.1 presenta
gràficament la idea del que s’enten per radi de veı̈natge.
1
tcp
b (r) = pτ · tcell
ρ
1
= pτ · tcell
p
= τ (teval + tmerge + tsplit + tsurvival) (7.3)
 
= τ tclsn + tralgpM + tsalgpS + tcopy (2r + 1)2
 
= τ β1n + β2 (2r + 1)2 + β3

A l’equació 7.3 tcls correspon al temps de classificar una instància sotes les mateixes
consideracions realitzades en el GABL, tcopy és el temps de copiar un individu, tralg el
temps de l’algorisme de merge, i tsalg el temps de split d’una cel·la. Com s’ha comentat
al començar aquesta secció, l’objectiu es analitzar la capacitat màxima de paral·lelisme
170 Comportament del GALE

del model. Per aquest motiu, el càlcul del temps emprat pel GALE s’ha realitzat en el
cas en que ζ(T ) = m × n, és a dir, quan el tauler és ple. Finalment, quan r = 1 (radi
proposat pel GALE que minimitza el temps de comunicació) s’obté la següent equació
de complexitat temporal del GALE:

tcp
b (1) ∈ O (τn) (7.4)

De l’equació anterior se’n poden extreure algunes consideracions interessants. Con-


cretament la que diu que si es proporcionen suficients elements de procés al GALE,
ρ = p, el temps emprat en el procés de mineria de dades per un conjunt de dades
donat, és una funció lineal del nombre d’instàncies n emprades i el nombre d’iteracions
realitzades τ.
Arribats a aquest punt, ja es pot definir el speedup s emprant la les equacions de
temps obtinguda per ambdós models ta (eq. 7.1) i tcpb (1) (eq. 7.3).

ta τp (α1n + α2 log p + α3) (α n + α2 log p + α3)


s= cp =   =p 1 (7.5)
tb (1) 2
τ β1n + β2 (2 · 1 + 1) + β3 β1n + β4

Assimptòticament, l’expressió anterior de speedup queda representada tal i com es


presenta a l’equació següent.
 
ta τp (n + log p) log p
s = cp = =p 1+ ≈p (7.6)
tb (1) τn n

L’equació 7.6 de speedup resultant, pel GALE mostra que creix linealment amb
el nombre de processadors emprats, ja que ρ = p. Aquesta  equació també mostra
una peculiaritat important. El component superlineal 1 + n log p
és degut al canvi del
mètode de selecció. Concretament, el GALE elimina, quan r = 1, el coll d’ampolla que
suposa la selecció seqüencial proposada per la ruleta del GABL.
Com ja s’ha comentat anteriorment, els càlculs del temps d’execució tcp b (r) del
GALE (eq. 7.3) són purament teòrics. En una implementació paral·lela s’hauria d’afegir
a tcp co
b (r) el temps de comunicació tb (r) emprat entre cel·les. Aquest temps, depenent
de r, es recull a l’equació 7.7. Aquest temps de comunicació correspon a la suma dels
temps de comunicació emprats en les etapes de merge tcm, split tcs i survival tcsr.

1
tco
b (r) = pτtccell
ρ
1 (7.7)
= pτ (tcm + tcs + tcsr)
p
 
= τ 3(2r + 1)2 · tA + 3ti

A l’equació 7.7 tA és el temps de comunicació de l’avaluació d’un individu en una


cel·la veı̈na, aixı́ com ti correspon al temps de comunicar un individu a una cel·la veı̈na.
7.1 Anàlisi teòric del model paral·lel 171

Amb aquesta equació a la mà, es pot escriure el temps total d’execució del GALE1 , com
la suma del temps de computació emprat més el temps de computació, és a dir:

tb(r) = tcp co
b (r) + tb (r)
   
= τ β1n + β2 (2r + 1)2 + β3 + τ β5(2r + 1)2 + β6 (7.8)
 
= τ β1n + β7 (2r + 1)2 + β8

Aquesta equació per r = 1, queda tal i com es presenta a continuació:

tb(r) = tcp co
b (r) + tb (r)
(7.9)
= τ (β1n + β9)

Si es revisa l’equació 7.5 amb la nova equació de temps, presentada a 7.9, ampliada
del GALE, s’obté la

ta τp (α1n + α2 log p + α3) (α1n + α2 log p + α3)


s= = =p (7.10)
tcp
b (1) τ (β1n + β 9) β1n + β9

Un fet interessant que es desprén de l’expressió del speedup presentada a l’equació


7.10, respecte a la presentada a l’equació 7.5, és que β9 >> β4. Això es degut a que β9
recull el temps de comunicació entre cel·les. Aquest punt afecta directament al speedup,
ja que per que aquest sigui lineal respecte al nombre de processadors s’ha de satisfer
que:
α1n + α2 log p + α3
≈1 (7.11)
β1n + β9

O el que és el mateix:

α1n α2 log p + α3 α1n


+ ≈ ≈1 (7.12)
β1n + β9 β1n + β9 β1n + β9

Això es pot afirmar ja que α2 log p + α3 << β1n + β9 degut a que β1n és el temps
emprat per un individu TijI del GALE per classificar totes les instàncies del conjunt d’en-
trenament. Per contra, α2 log p+α3 correspon a constants que recullen temps d’execució
de tasques de selecció, creuament i mutació del GABL. Interpretant les constants α1 i
β1 de l’equació 7.12, s’aprecia que corresponen al temps de classificar una instància pel
GABL i el GALE, respectivament. Conseqüentment, si els individus d’ambdós mètodes
comparteixen la mateixa representació del coneixement codificada en el seu genoma.
aixı́ com la mateixa funció de classificació ∇, resulta que α1 = β1. Per tant l’equació
7.12 es pot reescriure com:

β1n n n
= β1 n+β9
= β9
≈1 (7.13)
β1n + β9 β1 n+ β1

1
Suposant el temps d’idle com a negligible.
172 Comportament del GALE

1.00
0.95
n+κ
0.90
n

0.85
0.80

0 50 100 150 200


β9
κ=
β1

n
Figura 7.2: Comportament de β per n={1000,2500,5000,7500}
n+ β 9
1

L’equació anterior es pot satisfer de diferents formes. En aquest punt es vol fer incı́s
en una de totes elles. Aquesta és la que es mostra a continuació:

β9
n >> (7.14)
β1

Donades les caracterı́stiques dels problemes de mineria de dades, n satisfà l’equació


anterior degut a l’elevat nombre d’instàncies que s’han de manegar. D’aquest anàlisi
anterior també se n’extreu una altra conclusió interessant, proveı̈da per la relació β
β1 .
9

Concretament, β9 que recull, entre d’altres, el cost de comunicació pot ser raonablement
gran fet que no afectarà excessivament el speedup.
n
La figura 7.2 presenta com evoluciona la relació β davant diferents mides n del
n+ β 9
1
conjunt d’instàncies. Concretament, les mides que es presenten són relativament con-
tingudes davant de problemes de mineria reals, com són n={1000,2500,5000,7500}.
La importància d’aquesta relació determina el pendent, i per tant l’eficiència de la
paral·lelització, del split lineal respecte el nombre d’elements de procés. Com es pot
β9
apreciar a la gràfica, per valors elevats β 1
és manté un pendent elevat, recalcant aixı́ la
tolerància al model a una possible implementació amb latències de comunicació elevada.
Aquest fet suggereix la possibilitat d’implementacions eficients en arquitectures de baix
cost, com poden ser xarxes de workstations en xarxes ethernet.
7.2 Simplificació del GALE 173

7.1.2 Requeriments de memòria

L’altre punt a tenir en compte són els requeriments de memòria del model paral·lel. En el
model proposat pel GALE cada cel·la Tij disposa d’espai per contenir diferents elements.
La cel·la conté un individu TijI i una matriu de confusió TijC. Els requeriments d’espai
de la cel·la Tij per contenir aquest elements és negligible en front de l’espai necessari
per emmagatzemar les instàncies que s’utilitzen per avaluar l’individu de la cel·la. És
aquest espai, tal i com es podrà observar en les mesures assimptòtiques es presentaran
tot seguit, el que marca els requeriments de memòria necessaris del model.
Per calcular el màxim asimptòtic dels requeriments de memòria necessaris, aquest es
centrà en el pitjor escenari possible. És a dir, en aquell entorn que necessitarà els màxims
requeriments de memòria per poder implementar una paral·lelització eficient del model.
Concretament, l’entorn emprat per l’anàlisi es centra en l’ús d’un multicomputador de
memòria distribuı̈da. Els màxims requeriments de memòria es produeixen quan cada
cel·la Tij es mapa sobre un element de procés diferenciat del multicomputador. Per
altra banda, aquest requeriments, tal i com s’ha comentat anteriorment, també depenen
directament del nombre d’instàncies del problema P contingudes a Tij.
A la secció 6.3.2 (pg. 122) es presentava el mapping, o procés de mapat del problema
de mineria de dades P a resoldre. Concretament, cada cel·la Tij conté el conjunt
d’instàncies µ(Σ, Tij). Conseqüentment, els requeriments de memòria M(T , P) pel
GALE, sota les consideracions esmentades anteriorment, es poden expressar com:
X
M(T , P) = |µ(Tij, Σ)| (7.15)
Tij ∈T

Degut a que es busca el llindar assimptòtic superior, el mapping uniforme és el que
necessita els majors requeriment de memòria, i conseqüentment serà el que es farà servir
per obtenir aquesta mesura. Aquest tipus de mapatge, presentat a la secció 6.3.2 (pg.
123), replica totes les instàncies de Σ que descriuen el problema P a totes i cadascuna
de les cel·les de T , és a dir, µu(Σ, Tij) = Σ. Conseqüentment, es pot reescriure l’equació
7.15 tal i com es presenta a continuació.
X X
M(T , P) = |Σ| = n (7.16)
Tij ∈T Tij ∈T

Suposant que la matriu que conté el tauler T és quadrada contenint c × c cel·les,
els requeriments de memòria es poden reescriure tal i com es presenta a l’equació que
apareix a continuació.
M(T , P) = c × c × n = nc2 (7.17)

Conseqüentment, els requeriments de memòria del GALE creixen proporcionalment


al nombre d’elements de procés, i sota les assumpció prèvies, al nombre d’individus que
poblen el model. Assimptòtica, s’expressa tal i com es presenta a l’equació següent.
 
M(T , P) ∈ O c2 (7.18)
174 Comportament del GALE

7.2 Simplificació del GALE

El model proposat pel GALE està plantejat per la resolució de problemes de mineria de
dades, en concret tasques de classificació. Tal i com s’ha comentat en la introducció
d’aquest capı́tol, aquest pretén realitzar un anàlisi del comportament de GALE. És per
aquest motiu que en aquesta secció es proposa simplificar el model per facilitar-ne
l’anàlisi.
Les simplificacions proposades han de servir per permetre comparar el comportament
resultant del model respecte a esquemes tradicionals d’algorismes genètics. Conseqüent-
ment, la simplificació del GALE passarà per resoldre problemes especialment dissenyats
per estudiar el comportament d’aquest tipus d’algorismes. Aquest problemes solen ser
problemes d’optimització, fet que provoca que s’hagi d’introduir lleugeres modificacions
dins el GALE.

7.2.1 Motivacions

Les simplificacions que es proposen del model proposat pel GALE tenen com a ob-
jectiu permetre l’estudi del comportament complex que presenta. Per aproximar-se a
aquest estudi existeixen diferents alternatives. Una de les possibles es la proposada
a [Golberg et al., 1992a], la qual proposa la decomposició de l’estudi en subproblemes
tractables. Aquest subproblemes es poden llistar com:

1. Identificar el que l’algorisme està processant: building blocks (BBs).

2. Resoldre problemes tractables en termes de BBs.

3. Proveir sufients BBs a la població inicial.

4. Assegurar el creixement dels BBs necessaris.

5. Combinar pròpiament el BBs.

6. Decidir adientment entre els BBs que competeixen.

Si s’observa el model proposat pel GALE sota aquesta òptica, s’aprecia que, malgrat
resoldre problemes de mineria de dades, aquests es pot entendre com un problema d’op-
timització particular. Concretament, el GALE busca maximitzar, al cap i la fi, l’avaluació
A(Tij) dels individus. Aquesta funció presenta algunes particularitats interessants, com
és el fet que degut a la seva definició A(Tij) ∈ [0, 1]. Conseqüentment, les simplifica-
cions que es proposen per l’anàlisi passen per substituir el problema a resoldre amb el
GALE per problemes d’optimització sintètics pensats per l’anàlisi dels punts presentats
comentats anteriorment.
El canvi del problema a resoldre afecta a varies parts del GALE, tal i com es descriurà
al següent apartat. Malgrat aquests lleugers canvis, el model és idèntic al presentat al
7.3 Definicions prèvies 175

capı́tol 6 (pg. 111). Això es possible al plantejament independent de la representació


proposat. L’únic punt que quedarà fora de l’anàlisi, degut a les simplificacions que es
proposen, és l’anàlisi de l’impacte del mapping. Malgrat, això aquest es realitzarà sobre
el model originalment proposat, presentant-se els resultats al capı́tol 8 (pg. 219).

7.2.2 Modificacions introduı̈des

La primera modificació que s’introdueix afecta a la codificació dels individus. Concreta- Individus
ment, el que es proposa és la definició d’un individu que sigui capaç de resoldre problemes
d’optimització. Per aquest motiu l’individu proposat recull la codificació binària tradi-
cional dels algorismes genètics [Holland, 1975] per la optimització. Aixı́, cada individu
codifica una solució al problema d’optimització a maximitzar.
La funció l’avaluació consisteix senzillament en avaluar el valor de la funció a op- Funció l’ava-
timitzar. Les funcions emprades, que es descriuran amb detall al següent apartat, són luació
funcions dissenyades a la bibliografia especialment per forçar els lı́mits de funcionament
dels algorismes a estudiar. L’única modificació que s’introdueix en aquestes funcions és
que han de satisfer A(Tij) ∈ [0, 1] per permetre que el model proposat pel GALE funcioni
correctament. Aquest punt es pot assolir fàcilment dividint l’avaluació proporcionada
per la funció entre el màxim valor assolible. Aquesta transformació es pot dur a terme
ja que les funcions que s’empraran han estat construı̈des per posseir unes peculiaritats
concretes, coneixent per tant la seva forma i solucions, aixı́ com el recorregut que pro-
posen. Per altra banda, són aquests canvis en la funció l’avaluació el que impossibilita
l’anàlisi del mapping en el model simplificat. Això és degut a que totes les cel·les Tij
del model simplificat resolen la mateixa funció d’optimització, podent-se sols assimilar
al mapping uniforme presentat a la secció 6.3.2 (pg. 123). Per aquest motiu l’anàlisi es
farà en el capı́tol següent sobre el model no simplificat.
L’altre punt que també s’ha de modificar degut a les simplificacions proposades
correspon als operadors genètics. Contràriament, l’operador de creuament X utilitza Operadors
l’operador tradicional d’un punt de tall emprant pel algorismes genètics tradicionals genètics
[Holland, 1975, Goldberg, 1989]. El mateix succeeix amb l’operador de mutació Y,
el qual utilitza la mutació uniforme d’inversió de bit proposada per la literatura dels
algorismes genètics. Pel que fa a la inicialització dels individus és manté la inicialització
aleatòria del genoma dels individus, tal i com ha vingut essent habitual en les diferents
representacions del coneixement emprandes pel GALE presentades a la secció 6.4 (pg.
143).
Fetes les consideracions anteriors, ja es pot entreveure que la resta del model proposat
pel GALE es manté. És a dir, que en el model simplificat, tant el mètode d’inicialit-
zació del tauler T proposat, com les fases evolutives emprades (merge, split i survival)
presenten la mateixa definició i funcionament que les descrites al capı́tol 6 (pg. 111).
176 Comportament del GALE

7.3 Definicions prèvies

Per facilitar la descripció de les funcions d’avaluació emprades, aixı́ com la realització
d’algunes consideracions, tot seguit es donaran algunes definicions provinents de la te-
oria dels algorismes genètics. Es refereix al lector interessat a [Holland, 1975] per una
presentació més detallada. Aquestes serviran per introduir alguns conceptes que es fa-
ran servir en el que resta de capı́tol. Aquestes definicions es basen en representacions
binàries de les solucions en el genoma, és a dir, en codificacions explı́cites com pot ser:

g = h10101001110...i (7.19)

La primera definició que es presenta és la d’esquema (o schema) , que correspon a


un patró que permet explorar les similituds entre genomes.

Definició 52 Un esquema és la representació de tots els genomes (hiperplà, o subcon-


junt de l’espai de cerca) que encaixen en totes les posicions diferents de * (o don’t-care).

Com es pot apreciar de la definició anterior, suposant un genoma de longitud ℓ =


9, l’esquema S = (*0101010*) representa quatre possibles codificacions del genoma
diferenciats que encaixen amb S.

S = {h001010100i , h001010101i , h101010100i , h101010101i} (7.20)

De la definició 52 se n’extreu que, donat un genoma de longitud ℓ, existeixen 2r


possibles codificacions que encaixen amb l’esquema S, essent r el nombre de ∗ que
apareixen a S. De la mateixa forma se n’extreu que donada la codificació d’un genoma
de longitud ℓ, aquest encaixa en 2ℓ esquemes.

Definició 53 S’anomena ordre d’un esquema o(S) al nombre de posicions dins la codifi-
cació d’un genoma que contenen 0 o 1. Aquestes posicions també s’anomenen posicions
fixes.

En altres paraules, l’ordre d’un esquema o(S) correspon a ℓ menys el nombre de *


que apareixen en la codificació. Alguns exemples d’ordre són els que es presenten tot
seguit.

Exemple 19 Donat un genoma de longitud ℓ = 9, alguns exemples d’esquema i el seu


ordre es presenten tot seguit.

S1 = (001010100) o(S1) = 9
S2 = (0*10*01*0) o(S2) = 6
S3 = (001*101**) o(S3) = 6
S4 = (***01*1**) o(S4) = 3
S5 = (0*******0) o(S5) = 2
S6 = (****1****) o(S6) = 1
7.4 Funcions d’avaluació 177

L’última definició que es presentarà en aquest punt és el que s’anomena longitud de
definició.

Definició 54 S’anomena longitud de definició δ(S) (o, defining length) a la longitud


existent entre la primera i la última posicions fixes dins l’esquema S.

La longitud de definició proporciona una idea del nivell de compactació de la in-


formació continguda dins S. És a dir, donat valors baixos de δ(S) els patrons que
s’estan representen són aquells que són de mida reduı̈da, i viceversa. L’exemple següent
proporciona alguns exemples del càlcul de δ(S).

Exemple 20 Donat un genoma de longitud ℓ = 9, alguns exemples d’esquema i la


longitud de definició associada es presenta tot seguit.

S1 = (001010100) δ(S1) = 8
S2 = (0*10*01*0) δ(S2) = 8
S3 = (001*101**) δ(S3) = 6
S4 = (***01*1**) δ(S4) = 3
S5 = (0*******0) δ(S5) = 8
S6 = (****1****) δ(S6) = 0

7.4 Funcions d’avaluació

Abans de passar a descriure l’anàlisi proposat, aixı́ com els resultats obtinguts, en aquesta
secció es descriurà amb detall les funcions d’avaluació emprades. Aquestes funcions han
estat escollides en funció de les seves caracterı́stiques, i en particular del seu nivell de
dificultat creixent. Tot seguit es presenta cadascuna de les tres famı́lies de funcions
d’avaluació, en ordre de dificultat creixent. Aquesta presentació s’acompanya de la
representació gràfica de les mateixes.

7.4.1 One Max

La primera funció d’avaluació que es presenta és la que es coneix com One Max
[Goldberg, 1989]. El nom prové del fet que aquesta funció d’optimització posseeix una
única solució. La definició de la funció és simple. Consisteix senzillament en sumar el
nombre de 1 que apareixen en el genoma g de longitud ℓ de l’individu TijI. És a dir:


X
f(g) = gi (7.21)
i=1
178 Comportament del GALE

2.0

4
1.5

3
aval.

aval.
1.0

2
0.5

1
0.0

0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 5 10 15

gen. gen.

(a) ℓ = 2 (b) ℓ = 4
8

15
6

10
aval.

aval.
4

5
2
0

0 50 100 150 200 250 0 10000 20000 30000 40000 50000 60000

gen. gen.

(c) ℓ = 8 (d) ℓ = 16

Figura 7.3: Funció d’avaluació One Max

Com es pot apreciar a l’equació 7.21, els BBs que ha de manipular el GALE són
simples. Concretament, els BBs són aquells patrons minimals que contribueixen a la
millora del valor resultant de la funció d’avaluació. En aquest cas concret, la mı́nima
expressió dels BBs es poden representar en aquest problema concret seria *1*. És a
dir, esquemes S d’ordre o(S) = 1 i de longitud de definició δ(S) = 0, on la posició
fixa gi existent correspon al valor 1. Amb aquestes consideracions, la funció One Max
busca proposar una funció simple que encaixa amb la natura selecto-recombinativa dels
algorismes evolutius.
La figura 7.3 representa gràficament la funció One Max. Concretament, aquesta
figura presenta la funció per diferents longituds del genoma, ℓ = {2, 4, 8, 16}. A mida
que augmenta la longitud del genoma ℓ, conseqüentment també augmenta l’espai de
cerca que la funció proposa. Per altra banda, la figura també fa patent la importància
de la codificació del genoma.
7.4 Funcions d’avaluació 179

7.4.2 Bounded Deceptive Problem

La segona famı́lia de funcions a emprar són les que es solen anomenar bounded deceptive
problems. La principal caracterı́stica que presenten les funcions d’aquesta famı́lia és
que estan dissenyades especı́ficament per dificultar l’evolució proposada pels algorismes
selecto-recombinatius. La idea és enganyar el procés evolutiu a partir de petits enganys
que s’introdueix en els BBs que conformen la solució al problema. Concretament, les
funcions que es proposen per les proves es basen en l’ús de BBs de quatre bits, com les
presentades a [Pelikan et al., 2000].
La primera funció proposada és la que s’ha anomenat BDP4. Aquesta funció es
defineix en funció de BBs de quatre bits, on s’expressa com:
 

X 4i
X
f(g) = f4  gi (7.22)
i=1 j=4i−3

En l’equació anterior ℓ correspon al nombre de BBs de quatre bits que conformen el


genoma. Com es pot apreciar, la funció d’avaluació proposada sorgeix de la suma de les
contribucions que realitza cada BB. Les contribucions dels BBs, tal i com es s’observa a
l’equació 7.22, es calcula en funció del nombre de 1s que el defineixen. És a nivell de la
funció f4 on s’introdueix l’engany, o trampa, destinat a tòrcer el procés evolutiu. Això
es duu a terme tal i com mostrà les següent equació.

3 − u si u < 4,
f4(u) = (7.23)
4 altrament.

La funció f4, representada gràficament a la figura 7.4, busca l’engany en el procés


evolutiu afavorint els BBs que no presenten cap 1. Malgrat això, l’esquema que presenta
la màxima aportació a la funció d’avaluació és S = (1111). D’aquı́ el caràcter enganyós
de les aportacions dels BBs.
Per altra banda, la figura 7.5 mostra la representació gràfica de l’avaluació proposada
per l’equació 7.23. La figura recull la representació de la funció f4 per diferents longituds
del genoma. Concretament, es representa l’avaluació quan ℓ = 1, 2, 3, 4.
La dificultat d’aquest tipus de funció es pot incrementar allargant la mida dels BBs
enganyosos que s’utilitza. En les proves que es presentaran en la part final d’aquest
capı́tol, utilizen BBs de longitud vuit. És a dir, que la funció f4 s’ha de redefinir per
poder tractar l’extensió a vuit bits. Tot seguit es pot trobar la definició de la funció f8.
Per la seva part, la figura 7.6 representa gràficament la funció d’avaluació resultant per
BBs de longitud vuit per ℓ = {1, 2}.

7 − u si u < 8,
f8(u) = (7.24)
8 altrament.
180 Comportament del GALE

4
3
f4(u)

2
1
0
0 1 2 3 4

Figura 7.4: Funció d’engany de 4 bits

La funció d’engany pels BBs es pot generalitzar per BBs de longitud arbitrària k.
Això s’assoleix senzillament de la forma següent:

k − u − 1 si u < k,
fk(u) = (7.25)
k altrament.

Independentment de la mida dels BBs i el seu caràcter enganyós, aquest tipus de


funció d’avaluació manté la caracterı́stica que posseeix un únic màxim global. Aquest
és el que representa l’esquema S = (111 . . . 111).

7.4.3 Hierarchical Trap Function

Finalment, l’últim tipus de funció d’avaluació que es proposa és la que que s’anome-
na hierarchical trap function (HTF), o més especı́ficament hierarchical if-and-only-if
(IFF) [Pelikan and Golberg, 2001]. A diferència de les funcions proposades anterior-
ment, aquesta funció d’avaluació no presenta un únic màxim global, sinó dos. Per
altra banda, aquests dos màxim actuen com atractors oposats. Aquestes dues solucions
corresponen als esquemes que es presenten a continuació.

S0 = (000 . . . 000)
S1 = (111 . . . 111)

Com es pot apreciar, ambdós atractors presenten solucions diametralment oposades.


El següent pas en la descripció de la funció HTF consisteix en descriure’n el caràcter
jeràrquic, aixı́ com mètode que s’utilitza per obtenir-ne l’avaluació que s’assigna a un
determinat individu. El mètode d’avaluació utilitza dos elements diferenciats. El primer
és el que s’anomena funció de comparació fc, mentre que el segon és la funció de valor
fv.
7.4 Funcions d’avaluació 181

8
3

6
aval.

aval.
2

4
1

2
0

0 5 10 15 0 50 100 150 200 250

gen. gen.

(a) ℓ = 1 (b) ℓ = 2
12

15
10
8

10
aval.

aval.
6
4

5
2
0

0 1000 2000 3000 4000 0 10000 20000 30000 40000 50000 60000

gen. gen.

(c) ℓ = 3 (d) ℓ = 4

Figura 7.5: Funció d’avaluació Bounded Deceptive Problem, per n=4


182 Comportament del GALE

15
6

10
aval.

aval.
4

5
2
0

0
0 50 100 150 200 250 0 10000 20000 30000 40000 50000 60000

gen. gen.

(a) ℓ = 1 (b) ℓ = 2

Figura 7.6: Funció d’avaluació Bounded Deceptive Problem, per n=8

- f=18

4
- 1 f=14+4

2 2 2
- 0 1 1 f=8+6

1 1 1 1 1 1 1 1
1 0 0 0 1 1 1 1 f=8

Figura 7.7: Funció d’avaluació Hierarchical Trap Function


7.5 Paràmetres que controlen el comportament 183

Per explicar el funcionament d’aquesta funció d’avaluació, s’utlitzarà l’exemple pre-


sentat a la figura 7.7. La primera peculiaritat d’aquesta funció és que el genoma és de
longitud 2ℓ, on ℓ és l’alçada de la funció jeràrquica. Concretament, tal i com es pot
apreciar a la figura, els bits que conformen el genoma s’agrupen de dos en dos. És sobre
cada parella d’aquests bits, que es troben a alçada 0, que es calculen fc i fv. La funció
de valor fv calcula l’aportació d’una parella de bits a la funció d’avaluació. Aquesta
aportació es calcula com:
fv(h) = 2h (7.26)

Per tant, en aquest primer nivell a alçada 0, l’aportació correspon a 20 = 1. En


aquesta alçada els bits del genoma es tracten encara de forma individual, aportant tots
20 a la funció d’avaluació. En aquest punt l’avaluació acumulada de les aportacions
esdevé f = 8. El següent pas és pujar un nivell dins l’arbre de comparacions. Això
genera que s’agrupin els bits en parelles, on l’aportació de cada parella esdevé 21. Però
no n’hi ha prou amb això, i és fc la funció que s’empra per decidir si aquesta aportació
s’ha de dur a terme o no. La funció de comparació fc, donats dos possible valors, es
defineix tal i com a apareix a continuació.


α si α = β ∧ α 6= ‘-’,
8fv(α, β) = (7.27)
‘-’ altrament.

Concretament, una parella sols realitza la seva aportació a la funció d’avaluació si


fc(α, β) 6= ‘-’. És a dir, una parella de bits sols aporta 21 a la funció d’avaluació si
es satisfà que els dos bits són iguals. Com es pot apreciar, en el cas de que totes les
parelles satisfacin aquesta condició, les aportacions realitzades a l’alçada 1 acumulen una
avaluació f = 8. A l’exemple de la figura, la primera parella no aporta res, ja que els seus
bits són diferents. Per contra les altres tres parelles satisfan fc aportant 21 cadascuna a
la funció d’avaluació. És important ressaltar en aquest punt que el resultat de fc sobre
les quatre parelles, és el resultat per formar les parelles que apareixen a alçada 2, i aixı́
successivament. És interessant destacar que el sı́mbol ‘-’ indica diferència de valors, on
un cop apareix aquest es propaga amunt en la jerarquia, evitant les aportacions següents.
La representació gràfica del comportament d’aquesta funció es pot trobar a la figura 7.8.
Per les proves que es presenten a l’apartat 7.6 (pg. 186), s’ha utilitzat una vari-
ant d’aquesta funció. La proposta que es proposa és afegir m bits redundants al co-
mençament del genoma. Aquests bits, si s’interpreta la funció gràficament, provoquen
que la funció d’avaluació apareixi com la concatenació de funcions HTF. Aquest fet
provoca que la funció contingui 2m concatenacions de la funció HTF, i conseqüentment
2m+1 màxims globals. Aquests màxims es reparteixen a parts iguals entre els esquemes:

S0m = (*m000 . . . 000)


S1m = (*m111 . . . 111)
184 Comportament del GALE

4.0

12
3.5

10
aval.

aval.
3.0

8
2.5

6
2.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 5 10 15

gen. gen.

(a) ℓ = 1 (b) ℓ = 2
80
30

70
25

60
50
aval.

aval.
20

40
15

30
10

20

0 50 100 150 200 250 0 10000 20000 30000 40000 50000 60000

gen. gen.

(c) ℓ = 3 (d) ℓ = 4

Figura 7.8: Funció d’avaluació Hierarchical Trap Function


7.5 Paràmetres que controlen el comportament 185

Taula 7.1: Paràmetres del model simplificat del GALE

Paràmetre Descripció
m×n Mida del tauler T
kmax Nombre màxim d’iteracions evolutives
pζ Probabilitat d’estat inicial
pM Probabilitat de merge
ksp Llindar de màxima replicació
pmu Probabilitat de mutació uniforme emprada a Y
ksr Llindar de survival sostenible

7.5 Paràmetres que controlen el comportament

Un cop descrites les funcions d’avaluació que s’utilitzaran en les proves del model sim-
plificat, en aquest apartat es revisarà els paràmetres que controlen el comportament del
GALE. Amb aquest repàs, també es voldrà aprofitar per introduir com aquests paràmetres
determinen les proves que s’han realitzat. En total el nombre de paràmetres que con-
trolen el comportament del model simplificat del GALE són els set que es presenten a
la taula 7.1.
El primer dels paràmetres que apareix a la taula 7.1 correspon a la mida m × n del
tauler T . Aquest paràmetre és crucial en el procés evolutiu ja que, com es veurà en el
següent apartat, intervé directament en la qualitat de la solució final. També intervenen
directament en aquesta qualitat el nombre màxim d’iteracions a realitzar kmax, aixı́ com
la probabilitat d’estat inicial pζ, o probabilitat que una cel·la Tij contingui un individu
TijI en la inicialització del tauler T . Però és especı́ficament la mida del taules, aixı́ com
la probabilitat d’estat inicial, els directes responsables de proveir suficients BBs a la
població inicial. Aquest punt és crı́tic tal i com es comentava a l’apartat 7.2.1 (pg. 174)
[Golberg et al., 1992a].
Per la seva part pM determina la probabilitat d’execució de l’etapa de merge. Aquest
paràmetre afecta directament a un altre dels problemes de la decomposició que s’ha de
dur a terme en l’anàlisi, concretament el de la combinació dels BBs que conformen la
solució al problema a resoldre. ksp mentrestant controla el llindar de màxima replicació,
és a dir, la màxima freqüència amb la qual un individu inicia el procés de split. Si el
procés de split s’inicia, tenint en compte que els individus que es manipularan provenen
estan pensat per la optimització i són genomes basats en tires de bits, el paràmetre pmu
defineix la probabilitat que ha d’utilitzar l’operador Y de mutació uniforme. Finalment,
l’últim paràmetre a tenir em compte és ksr, o llindar de survival, el qual presenta un clar
impacte en el temps necessari per obtenir la solució final al problema a resoldre.
186 Comportament del GALE

7.6 Proves realitzades

Les proves que es presenten en aquest apartat es centren en els set paràmetres esmentat
en l’apartat anterior. Per poder estudiar l’impacte de cadascun d’ells en la versió sim-
plificada del GALE emprant les funcions presentades a la secció 7.4 (pg. 177). Per altra
banda, aquest apartat també recull proves especı́ficament dissenyades per poder deixar
al descobert les principals propietat del model que es presenta en aquesta tesi.
Per poder ressaltar el comportament del GALE, algunes de les proves incorporen
comparacions amb altres model d’optimització evolutiva. Els algorismes introduı̈ts per
comparar, concretament diferents variants d’algorismes genètics, serviran alhora per
ressaltar també algunes peculiaritats que apareixen en l’execució comparada del GALE
amb la resta d’algorismes. És per aquest motiu, que tot seguit es farà una breu descripció
dels algorismes genètics emprats, per passar, tot seguit a descriure les proves pròpiament
dites.

7.6.1 Optimització emprant Algorismes Genètics

Existeixen una gran varietat de propostes d’optimització emprant algorismes genètics. De


totes elles, se s’utilitzaran tres de particulars. El primer model escollit és el SGA, primera
proposat d’algorisme genètic aplicat a l’optimització [Holland, 1975, Goldberg, 1989].
Per la seva banda, els altres dos algorismes emprats es basen en el model TGA basat en
la selecció per competició (o tournament selection) [Back, 1996]. L’objectiu d’aquest
apartat és comentar, breument, les principals caracterı́stiques de cadascun d’aquests
models.
Tots tres models comparteixen, a l’igual que el model simplificat del GALE, una
codificació del genoma basada en seqüències de bits. Codificació que converteix un
individu en una solució al problemes d’optimicació. Els tres models també comparteixen
la mateixa tècnica de recombinació pammı́tic sobre el genoma lineal binari que codifiquen
els individus. Dins la recombinació emprada, els genomes es recombinen amb l’operador
de creuament d’un punt de tall, proposat per primer cop a [Holland, 1975]. Quelcom
semblant succeeix amb l’operador de mutació, utilitzant també el proposat originalment
a [Holland, 1975]. L’utilitzat per tots tres model és el que correspon a l’operador de
mutació uniforme basat en la inversió de bit.
Malgrat aquests elements comuns, els tres models presenten un comportament di-
ferenciat degut als mètodes de selecció que utilitzen. El SGA es basa en la selecció dels
individus de forma proporcional a la seva avaluació, introduint la seva variant elitista
[Goldberg, 1989]. Per contra, els altres dos models es centren en la selecció per com-
petició. Aquesta tècnica de selecció es centra en la selecció a partir de la competició,
en funció de l’avaluació, dins de subpoblacions formades a l’atzar. La diferència entre
el segon i el tercer model rau en el fet que el segon, TGA2, utilitza una subpoblació
formada per dos individus, mentre que el tercer, TGA8, la població està formada per vuit
7.6 Proves realitzades 187

individus. El motiu d’escollir aquest dos últims models es comentarà més detalladament
quan es comentin els resultats de les proves realitzades.
La selecció proporcional del SGA es basa en la selecció basada en ruleta (o roulete SGA
wheele selection), on la probabilitat de selecció es proporcional a la seva avaluació. La
probabilitat de l’individu pi, donada la seva avaluació fi, en una població formada per
ps individus es defineix com:
fi
pi = ps (7.28)
X
fj
j=1

Com es pot apreciar, la probabilitat de selecció, i conseqüentment la pressió selectiva


al damunt d’un individu, es proporcional a l’avaluació de l’individu relativitzada dins les
avaluacions de la població.
Per la seva banda, tant el TGA2 i com el TGA8 utilitzen la selecció per competició. TGA2
Aquesta consisteix en formar la nova població que manipula l’algorisme genètic a partir TGA8
d’una subpoblació formada a l’atzar. En el cas del TGA2 aquesta població és formada
per dos individus, per contra, en el TGA8 la mida de la subpoblació és de vuit. El procés
de selecció continua escollint el millor individu present a la subpoblació, és a dir, aquell
que posseeix una millor avaluació. Aquest procés de selecció es repeteix reiteradament
fins assolir formar una nova població composada pels millors individus, obtinguts en
cadascuna de les subpoblacions formades a l’atzar.
Un cop feta la descripció dels tres models que apareixeran en les comparatives d’a-
quest apartat, tot seguit ja es passarà a descriure les proves realitzades. Per facilitar la
descripció de les proves, els valor dels paràmetres que caracteritzen l’execució es notaran,
de forma compacta, tal i com s’indica a continuació.

hm × n, kmax, pζ, pM , ksp, pmu, ksri (7.29)

Aquesta notació també s’utilitzarà pels tres models d’algorisme genètic involucrats
a les proves. La notació:
hps, kmax, pX , pY i (7.30)

recull els quatre paràmetres ajustables en els tres models d’algorisme genètic pro-
posats anteriorment. El paràmetre ps recull la mida de la població emprada, aixı́ com
kmax correspon al nombre d’iteracions a realitzar. Finalment, pX i pY corresponen a la
probabilitat de creuament i mutació dels algorismes, respectivament.

7.6.2 Mida del tauler

La primera de les proves es centra en l’impacte de la mida del tauler T emprat pel GALE.
La mida de T , al cap i a la fi, determina la mida màxima que pot assolir la població,
factor crı́tic pels algorismes evolutius [Golberg et al., 1992a]. Per aquest motiu, aquesta
188 Comportament del GALE

primera presenta com varia el comportament del GALE a mida que augmenta la mida
del tauler T .
Per fer les proves s’emprà la funció d’avaluació One Max amb una longitud del
genoma ℓ = 32. El motiu d’escollir aquesta funció és la seva simplicitat de resolució,
tant pel que fa al GALE com pels altres tres models d’algorisme genètic. Aquest punt
facilita la interpretació dels resultats, ja que en totes les execucions els quatre models
assoleixen la solució al problema.
La prova consisteix en realitzar pels quatre models un escombrat incremental de
la mida de la població. Per poder comparar els resultats, donats els quatre models
involucrats, els paràmetres equivalents dels models comparteixen els mateixos valors. És
a dir, els quatre paràmetres corresponent a: (1) la mida de la població (m × n ≡ ps),
(2) el nombre d’iteracions a realitzar (kmax), (3) la probabilitat de recombinació del
material genètic (pM ≡ pX ), i finalment (4) la probabilitat de mutació del genoma
(pmu ≡ pY ). Pel que fa als algorismes genètics aquest són:

hm × n, 250, 0.4, 0.003i (7.31)

Per la seva banda, el GALE comparteix en els seus paràmetres els mateixos valors
que els proposats anteriorment, allà on és possible. El valor de tots els paràmetres del
GALE es presenten a continuació.

hm × n, 250, 0.8, 0.4, 0.5, 0.003, −0.25i (7.32)

La figura 7.9 presenta els resultats de la prova. Donada una mida de població,
cada algorisme s’executà 250 cops, buscant minimitzar l’impacte del comportament
estocàstic dels mateixos. El resultat que es presenta d’aquestes execucions és la mitjana
d’avaluacions necessaris per obtenir la solució, individu representat per l’esquema S =
{111 . . . 111}, figura 7.9.a. En aquesta figura, a part del GALE i els altres tres models
d’algorisme genètic, també es representa el nombre màxim d’avaluacions que es poden
realitzar, és a dir m × n × kmax. Per altra banda, la figura 7.9.b presenta el percentatge
d’avaluacions realitzades respecte al total de possibles.
El primer que ressalta dels quatre models és el fet que tots assoleixen la solució al
problema abans d’exhaurir el nombre màxim d’avaluacions disponibles. De tots quatre
destaca particularment el SGA. Aquest primer model d’algorisme genètic destaca per
l’elevat nombre d’avaluacions que requereix en comparació amb els altres tres models.
Una altra consideració, també interessant, és la que es pot extreure de la comparació
del TGA2 i el TGA8. Aquests dos models basats en torneig, que milloren clarament la
selecció proporcional, suggereix que quan més pressió selectiva en el problema del One
Max, més ràpidament s’assoleix la solució final. Aquesta observació ja s’havia realitzat
en per altres treballs basats en l’ús d’algorismes genètics paral·lels [Cantú-Paz, 2000].
El comportament que presenta el GALE, per la seva part, té una clara similitud amb
el presentat pel TGA8. Com es pot apreciar a la figura 7.9, un cop superar un petit
transitori inicial, el comportament és pràcticament idèntic, excepte pel fet que es troba
lleugerament desplaçat verticalment. Aquest fet és fàcilment explicable. El motiu es
7.6 Proves realitzades 189

30000
25000
Avaluacions realitzades

20000
15000
10000
5000

0 200 400 600 800 1000

mxn

(a) Absolut
1.00
0.50
Percentatge d’avaluacions realitzades

0.20
0.10
0.05
0.02

0 200 400 600 800 1000

mxn

(b) Proporcional

Figura 7.9: Nombre d’avaluacions realitzades en funció de la mida de la població


pel problema One Max. Codi de colors: GALE(verd), SGA(vermell), TGA2(taronja),
TGA8(blau), Nombre màxim d’avaluacions(negre).
190 Comportament del GALE

degut al comportament de l’etapa de survival del GALE presentada a la secció 6.3.7 (pg.
138). Quan el survival es troba en estat de superpoblat, aquest actua, al cap i a la fi, com
un model de supervivència basa en torneig. On, a més a més, la mida de la subpoblació
és de vuit individus, a l’igual que succeeix amb el TGA8. La diferència entre el GALE
i el TGA8 és la forma de generar les subpoblacions. Mentre que en el GALE aquesta
està clarament definida per criteris espacials, en el TGA8 aquesta es forma a l’atzar. La
influència d’aquest punt ja es comentarà amb més detall en les proves següents.
També és interessant ressaltar en aquest punt que el problema no és tant senzill
com per ser resolt tant sols amb una inicialització aleatòria de la població. Aquest punt
es pot constatar degut a que si això succeı́s, els percentatges d’avaluacions realitzades
dels models, presentats a la figura 7.9.b, tendiria cap a la fita mı́nima possible, és a
dir, aquella que correspon al nombre d’avaluacions realitzades en l’etapa d’inicializació
1
dels models. Aquesta fita correspon a kmax +1 , que per les proves que aquı́ es presenten
esdevindria aproximadament 0.004.
Una altre punt interessant pel que fa al comportament del GALE rau en les carac-
terı́stiques del model que proposa. Com es pot apreciar dels resultats d’aquesta prova,
una implementació seqüencial del model proposat és competitiva en front dels models
seqüencials proposats d’algorisme genètic. Aquest punt ja és interessant per si sols, ja
que suggereix que una implementació paral·lela del mateix aportaria importants reduc-
cions en el temps esmerçat en el procés evolutiu.

7.6.3 Impacte de la mida de l’espai de cerca

El segon tipus de prova que es vol presentar correspon a l’estudi de l’impacte del crei-
xement de l’espai de cerca en el comportament general. La finalitat d’aquesta prova es
descriure com es veu afectat el model a mida que es va augmentant l’espai de cerca que
ha d’explorar. Aquest punt és força important per les connotacions que pot plantejar
per els problemes de mineria de dades que es volen resoldre.
Per poder fer un estudi de l’impacte del creixement de l’espai de cerca s’ha escollit,
a l’igual que en l’apartat anterior, la funció d’avaluació One Max. Els motius per escollir
aquesta funció recauen en la simplicitat amb la qual es pot escalar per augmentar l’espai
a explorar. Això s’assoleix senzillament allargant la longitud dels genomes que codifiquen
els individus de la població. Per aquest motiu, les proves que es presenten ajusten els
paràmetres tant el GALE, com dels tres models tradicionals d’algorismes genètics (SGA,
TGA2 i TGA8) amb valors equivalents. Pel que fa al GALE, aquests valors són:
h32 × 32, 250, 0.8, 0.4, 0.5, 0.003, −0.25i (7.33)

Mentre que pels tres models d’algorisme genètic, els valors dels paràmetres són:
h1024 × 32, 250, 0.4, 0.003i (7.34)

Posteriorment, cada model s’executà escombrant diferents longituds ℓ del genoma.


Concretament, es començà per ℓ = 8, incrementant la longitud en un bit successivament
7.6 Proves realitzades 191

50000
20000
Avaluacions realitzades

5000
1000 2000
500

10 20 30 40 50 60

Longitud del genoma

Figura 7.10: Nombre d’avaluacions realitzades en funció de la longitud del genoma ℓ


pel problema One Max. Codi de colors: GALE(verd), SGA(vermell), TGA2(taronja),
TGA8(blau).

fins assolir ℓ = 64. Per cada longitud dels genoma, cada model s’executà 250 cops
recollint la mitjana d’avaluacions necessàries per assolir la solució al problema One Max.
La figura 7.10 mostra gràficament els resultats d’aquesta prova pels quatre models
emprats.
De l’observació de la figura 7.10 se n’extreuen algunes consideracions interessants.
La primera que se’n pot fer es constatar que el pitjor model és el que proposa el SGA. Com
es pot apreciar, aquest model requereix fins a un ordre de magnitud més d’avaluacions
per assolir el resultat quan ℓ = 64. També queda patent que el pendent del SGA és
força més pronunciat, fent que sigui el que pitjor s’escala en front de l’augment de la
mida de l’espai de cerca a explorar.
Els dos models basats en la selecció per competició, el TGA2 i el TGA8, es pot
apreciar que s’escalen millor que el SGA en front de l’augment de l’espai de cerca. En
aquesta prova es torna a fer patent el fet que els TGA8, degut a la seva major pressió
selectiva, redueix considerablement el nombre d’avaluacions necessàries per obtenir la
solució del problema.
Per altra banda, el GALE continua mostrant les semblances en el seu comportament
respecte al TGA8. Com es pot apreciar a la figura 7.10, la corba de comportament del
GALE continua apareixen emmarcada per les corbes dels dos models d’algorisme genètics
basats en selecció per torneig. Per altra banda, l’augment en l’espai de cerca comporta
un augment en el nombre d’avaluacions a realitzar per resoldre el problema. Aquest
punt també afavoreix l’ús d’un model paral·lel com el del GALE, degut a la capacitat de
reduir el temps d’execució gràcies a la paral·lelització de la implementació del mateix.
192 Comportament del GALE

7.6.4 Ocupació inicial del tauler

La tercera de les proves realitzades busca estudiar l’impacte de la inicialització en el


model que proposa el GALE. Tal i com es comentà en el seu moment, secció 7.2.1 (pg.
174), un dels problemes que ha d’afrontar els algorismes evolutius és el fet de proveir
suficients BBs a la població inicial. Dins el model proposat pel GALE, aquest punt pren
una rellevància especial. Això és degut al paràmetre pζ, o probabilitat d’estat inicial.
Per poder apreciar l’impacte que té aquest paràmetre en el funcionament del GALE,
es decidir fer la prova que es descriu tot seguit. Concretament, donat un problema com
el One Max, i posseeix un conjunt de paràmetres del GALE fixats, tal i com es presenten
tot seguit.

h20 × 20, 250, pζ, 0.4, 0.5, 0.003, −0.25i (7.35)

L’objectiu és avaluar quin impacte presenta en el nombre d’avaluacions necessàries el


fet de variar el paràmetres pζ. Aquest punt empalma amb el comentat anteriorment, pel
fet que quan més gran sigui la probabilitat d’estat inicial pζ, més gran serà l’aportació
inicial de BBs. Per això es decidı́ realitzar un escombrat de pζ entre les probabilitats
compreses entre 0.005 i 1, en increments de 0.05. Per cada possible valor de pζ és re-
alitzà 250 execucions obtenint-ne la mitja del nombre d’avaluacions realitzades. També
es decidı́ repetir l’experiment per diferents longituds del genoma dels individus, concre-
tament ℓ = {8, 16, 24, 32, 40, 48, 56, 64}. Els resultats otinguts es presenten a la figura
7.11.
El primer punt interessant que s’observà en totes les proves, independentment de a
mida del genoma ℓ, fou el fet que existia un llinda inferior a partir del qual es produı̈a
una extinció total dels individus del tauler T . Aquest llindar és situa al voltant de
pζ ≈ 0.1. Per sota d’aquest valor, la població inicial queda excessivament diversa. Això
genera que la major part de la població es trobi immersa en una etapa de survival en
aı̈llament. Degut a que els individus són inicialitzats a l’atzar, no solen presentar una
bona adaptació al problema. Aquest punt produeix l’extinció progressiva dels individus
de T , succeint-se les extincions per aı̈llament fins a deixar el tauler buit.
Una altra consideració interessant que es desprén de la figura 7.11 sorgeix del nombre
d’avaluacions necessàries per resoldre el problema. El paràmetre pζ presenta un clar
impacte sobre el nombre d’avaluacions necessàries a realitzar per satisfer el problema.
Com es pot apreciar a figura, a mida que s’augmenta la probabilitat d’estat inicial pζ,
el nombre d’avaluacions necessàries tendeix a disminuir. Aquest fet és més patent quan
s’augmenta l’espai de cerca. Quan això succeeix, més pronunciada és la reducció del
mateix. Per altra banda, dels resultats obtinguts s’aprecia que es pot ajustar el valor de
la probabilitat d’estat inicial pζ al voltant de pζ = 0.8.
7.6 Proves realitzades 193

10000
8000
Avaluacions realitzades

6000
4000
2000
0

0.2 0.4 0.6 0.8 1.0

Figura 7.11: Nombre d’avaluacions realitzades en funció de la probabilitat d’estat inicial


pζ pel problema One Max. Codi de colors: les proves realitzades que es mostren cor-
responen a ℓ = {8, 16, 24, 32, 40, 48, 56, 64}, el vermell descriu ℓ = 8 i el violeta ℓ = 64,
fent l’escombrat de color per la resta de valors.

7.6.5 Paràmetres crı́tics pel comportament

Arribats a aquest punt, ja s’ha revisat alguns dels principals paràmetres que controlen
el comportament del GALE. Malgrat això, existeixen dos paràmetres que presenten un
fort impacte en el comportament del model proposat. Aquests paràmetres corresponent
al llindar de survival sostenible ksr i al llindar de màxima replicació ksp. Aquest dos
paràmetres controlen comportaments complementaris dins l’evolució que duu a terme
el GALE. Per una banda, el llindar de survival sostenible ksr controla la pressió vers
l’extinció dins el tauler T . Per l’altra, el llindar de màxima replicació ksp controla el
ritme amb el qual els individus del tauler es repliquen i, conseqüentment, la velocitat
d’ocupació de T . Tot seguit es passarà a comentar amb detall les proves realitzades per
cadascun d’aquest paràmetres.

Llindar de survival sostenible

El primer dels dos paràmetres que es tractarà correspon al llindar de survival sostenible
ksr. L’objectiu de les proves que es presenten a continuació és identificar com es veu
afectat el comportament del GALE quan es varia aquest paràmetre. Amb les proves
que es realitzaran també es voldrà observar quins valors són adients per aquest tipus de
paràmetre.
Abans de començar a descriure les proves que s’han dut a terme, primer es farà
194 Comportament del GALE

algunes consideracions sobre el survival sostenible. Aquest tipus de survival és presentava
quan el veı̈nat està format
 per un nombre de veı̈ns comprès entre 2 i 6, ambdós inclosos.
És a dir, quan 2 ≤ ζ Tijν < 7. En aquesta situació el survival, tal i com es presentava
a la definició 32 (pg. 139), sols permet sobreviure als individus que satisfan la següent
equació:
 
A (Tij(t)) > Aµ Tijν(t) + ksr · Aσ Tijν(t) (7.36)

De l’equació anterior es pot apreciar que ksr controla la pressió extintiva dins aquest
tipus de survival. Però el que es vol ressaltar en aquest punt, és que aquest tipus de
survival també és un tipus particular de torneig. Aquest torneig, en el qual la pressió
selectiva es pot variar, és la responsable del transitori que apareixia a les figures 7.9 (pg.
189) i 7.10 (pg. 191). Aquest transitori començava amb un GALE que presentava un
comportament semblant al TGA2 i acabava comportant-se com un TGA8. O dit d’una
altra forma, el GALE augmenta la pressió extintiva a mida que el tauler es va emplenant,
passant més i més caselles d’un survival sostenible a un survival superpoblat.
Per poder posar de relleu l’impacte que presenta aquest paràmetre sobre el compor-
tament del GALE, es plantejà un conjunt d’execucions basades en un escombrat selectiu
de ksr. El problema escollit fou un cop més el One Max amb una longitud del genoma
de ℓ = 50. Els paràmetres del GALE es fixaren tal i com es mostra a continuació.
h20 × 20, 250, 0.5, 0.4, 0.5, 0.003, ksr i (7.37)

Per la seva part paràmetre ksr s’escombrà des de ksr=-0.05 fins a ksr=0.01 amb
increments de 0.002. Per cadascun d’aquests valors el GALE 250 cops, promitjant-se
els resultat d’aquestes execucions.
La figura 7.12 mostra gràficament els resultats d’aquestes proves. A diferència de
les figures presentades en les proves anteriors, les tres gràfiques que composen la figura
presenten diferents mesures preses sobre el tauler T del GALE al llarg del procés evolutiu.
És a dir, les gràfiques mostren l’evolució d’aquestes mesures al llarg de les successives
iteracions evolutives representades per t. La primera de les tres mesures que es presenten,
A(t), a la figura 7.12.a correspon a l’avaluació mitjana del la població al llarg d’una
execució. Per la seva banda, la figura 7.12.b representa l’ocupació O(t) del tauler T a
l’instant t. És a dir, representa el percentatge de cel·les Tij que contenen un individu.
Finalment, la figura 7.12.c presenta el nombre d’avaluacions necessàries per obtenir la
solució al problema plantejat.
El primer que es pot apreciar a la figura 7.12 és que existeix un clar punt de ruptura
dins ksr. Aquest punt, situat aproximadament a ksr=0.002, provoca que la pressió vers
l’extinció sigui tant elevada, que el tauler T perd tots els individus que conté. Aquesta
extinció massiva provoca que l’execució del GALE no pugui continuar. Per altra banda,
l’augment de la pressió extintiva també presenta variacions en el comportament, tant
pel que fa a l’ocupació del tauler T , com pel que fa a l’avaluació del individus que
conformen la població.
Com es pot observar a la figura 7.12.b, l’augment de la pressió en l’etapa de survival
sostenible provoca una extinció massiva inicial. En aquest procés desapareixen els indivi-
7.6 Proves realitzades 195

1.0
0.8
0.6
A (t)

0.4
0.2
0.0

0 10 20 30 40 50 60 70

(a) Avaluació mitjana de la població A(t)


1.0
0.8
0.6
O (t)

0.4
0.2
0.0

0 10 20 30 40 50 60 70

(b) Ocupació del tauler O(t)


25000
Avaluacions realtizades

15000
5000
0

0 10 20 30 40 50 60 70

(c) Nombre d’avaluacions realitzades

Figura 7.12: Escombrat de llindar de survival sostenible ksr a l’interval {-0.05,0.01} amb
increments de 0.002 pel problema One Max on ℓ = 50. Codi de colors: el llindar inferior
és vermell i el superior violeta, la resta es representa amb l’escombrat pertinent.
196 Comportament del GALE

dus més pobrement adaptats, on la ocupació del tauler T es recupera un cop comencen
a aparèixer individus ben adaptats. Aquests individus sorgeixen com a resultat de la
recombinació i alteració dels seus materials genètics. Aquesta reducció dràstica de la
població a l’augmentar ksr presenta un altre efecte col·lateral. Aquest és la necessitat
d’un major nombre d’iteracions evolutives, que no d’avaluacions tal i com mostra la fi-
gura 7.12.c, per assolir la solució al problema One Max. Aquest fet es degut a la pèrdua
de diversitat dins la població continguda a T com a resultat del procés extintiu. Per
aquest motiu, l’obtenció de la solució final s’alenteix degut a que no es pot aprofitar les
caracterı́stiques del merge per millor els individus, sols introduint-se la millora a través
de la introducció de nou material genètic que duu a terme el split.
És important ressaltar aquı́ el fet que un major nombre d’iteracions no té perquè
suposar necessàriament un major nombre d’avaluacions i per tant temps d’execució, tal
i com succeeix en aquest cas. Aquesta caracterı́stica és pròpia del GALE, però no dels
models tradicionals d’algorismes genètics. Això es degut al comportament dinàmic de
la ocupació del tauler, ja que no totes les cel·les Tij ha d’estar ocupades en tot instant
de temps t. Dit d’una altra forma, la mida de població, i conseqüentment l’ocupació
del tauler T , del GALE és variable, ja que per definició l’ocupació del tauler O(T ) en
un instant de temps t satisfà que O(T ) ≤ 1. Aquest punt encaixa amb estudis teòrics
que proposen que dona millors resultats emprar poblacions reduı̈des durant més temps
que el cas contrari [Goldberg, 2000].

Llindar de màxima replicació

El segon dels dos paràmetres crı́tics pel funcionament del GALE és el llindar de màxima
replicació ksr. L’objectiu de les proves que es presenten a continuació, a l’igual que
succeı̈a amb el paràmetre anterior, és identificar com es veu afectat el comportament
del GALE quan es varia aquest paràmetre. Amb les proves que es realitzaran també es
voldrà observar quins valors són adients per aquest tipus de paràmetre.
Tal i com es presentava a la definició 29 (pg. 136), el llindar de màxima replicació
ksp correspon a la fita superior que la probabilitat de split pot assolir dins una execució
del GALE. Aquest paràmetre, que sols pot adoptar valors dins l’interval ksp ∈ [0, 1],
intervé en la definició de la probabilitat de split. Aquesta probabilitat, que controla el
ritme de replicació dels individus dins la població continguda dins T , es defineix com:
pS (Tij(t)) = ksp · A (Tij(t-1)) (7.38)

La importància del paràmetre ksp queda patent quan es calcula una mesura teòrica
del temps de take over, o temps que triga el millor individu a saturar la població amb
còpies de si mateix. La importància d’aquesta mesura es pot trobar a [Goldberg, 2001].
Per calcular aquesta mesura es suposarà que la població inicial del GALE sols està
formada per un únic individu. Aquest individu, que correspon a la solució al problema a
resoldre, presenta conseqüentment una avaluació A (Tij(t-1)) = 1. Per aquest motiu,
la probabilitat de split, es pot expressar com:
pS (Tij(t)) = ksp (7.39)
7.6 Proves realitzades 197

De l’equació anterior se n’extreu que la probabilitat de split del millor individu, i


conseqüentment la freqüència de replicació, és directament ksp. El següent pas per
calcular el temps de take over és estimar el nombre de còpies del millor individu que
es generaran a cada instant de temps t. Degut a que el que es vol obtenir és una fita
mı́nima d’aquest temps, es poden realitzar algunes assumpcions que en simplifiquen el
càlcul. La primera es suposar que pmu = 0. Si pmu > 0 s’introdueixen errors en la
còpia, fet que endarrereix el procés, fet que no es rellevant pel càlcul de la fita mı́nima.
La segona assumpció que es fa és suposar que les còpies dels individus sempre s’ubiquen
a caselles buides. Malgrat això no es sempre possible degut a les restriccions espacials
del model que proposa el GALE, l’impacte de ubicar la còpia en una casella ocupada, o
ζ (Tij) = 1, sols alenteix el procés, essent de nou irrellevant pel càlcul de la fita mı́nima.
Fetes aquestes assumpcions, ja es pot passar a estimar el nombre de còpies C del millor
individu en funció de la iteració t en curs, tal i com es presenta a continuació.
C(0) = 1
C(1) = C(0) + ksp · C(0) = C(0) (1 + ksp)
C(2) = C(1) + ksp · C(1) = C(1) (1 + ksp) (7.40)
= ...
C(n) = C(n − 1) + ksp · C(n − 1) = C(n − 1) (1 + ksp)

L’equació anterior es pot reescriure com:


C(0) = 1
C(1) = 1 + ksp
C(2) = (1 + ksp) · (1 + ksp) = (1 + ksp)2 (7.41)
2 3
C(3) = (1 + ksp) · (1 + ksp) = (1 + ksp)
...

Per tant el nombre de còpies C a la iteració t, es pot expressar com:

C(t) = (1 + ksp)t (7.42)

L’expressió permet extreu algunes consideracions interessants. La primera és que


el millor individu, un cop ha aparegut, col·lapsar el tauler T a ritme de progressió
geomètrica de raó ksp · 2. D’aquı́ la importància del paràmetre ksp, ja que controla
aquest ritme de creixement. Per altra banda l’equació 7.42 permet estimar el nombre
d’iteracions necessàries per que passi es produeixi el col·lapse d’un tauler T de mida
m × n, tal i com es presenta a continuació.
C(t) = (1 + ksp)t
m × n = (1 + ksp)t

log (m × n) = log (1 + ksp)t
(7.43)
log (m × n) = t log (1 + ksp)
log (m × n)
t=
log (1 + ksp)
198 Comportament del GALE

200
100
log(1 + ksp)
log(mxn)

50
20
10
5

0.0 0.2 0.4 0.6 0.8 1.0

ksp

Figura 7.13: Fita inferior de take over en funció de ksp

Aquesta fita inferior es pot representar gràficament, tal i com mostra la figura 7.13.
Com es pot apreciar, quan més elevat és el llindar de màxima replicació ksp, menys
iteracions són necessàries per assolir el col·lapse del tauler T per part del millor individu.
Amb aquest resultat teòric molt present, i per poder posar de relleu l’impacte que
presenta aquest llindar sobre el comportament del GALE, es plantejà, un cop més, un
conjunt d’execucions basades en un escombrat selectiu de ksp. El problema escollit fou
de nou el One Max amb una longitud del genoma de ℓ = 50. Els paràmetres del GALE
es fixaren tal i com es mostra a continuació.

h20 × 20, 250, ksp, 0.4, 0.5, 0.003, −0.25i (7.44)

Per la seva part paràmetre ksp s’escombrà des de ksr=0 fins a ksr=0.15 amb in-
crements de 0.005. Per cadascun d’aquests valors el GALE 250 cops, promitjant-se els
resultat d’aquestes execucions.
La figura 7.14 mostra gràficament els resultats d’aquestes proves. A l’igual que
l’estudi de ksr, les tres gràfiques que composen la figura presenten diferents mesures
preses sobre el tauler T del GALE al llarg del procés evolutiu. És a dir, les gràfiques
mostren l’evolució d’aquestes mesures al llarg de les successives iteracions evolutives
representades per t. La primera de les tres mesures que es presenten, A(t), a la figura
7.14.a correspon a l’avaluació mitjana del la població al llarg d’una execució. Per la seva
banda, la figura 7.14.b representa l’ocupació O(t) del tauler T a l’instant t. És a dir,
representa el percentatge de cel·les Tij que contenen un individu. Finalment, la figura
7.14.c presenta el nombre d’avaluacions necessàries per obtenir la solució al problema
plantejat.
El llindar de màxima replicació ksp presenta, tal i com es pot apreciar a la figura
7.14, un fort impacte en l’avaluació de la població, aixı́ com en l’ocupació de T . Tant en
7.6 Proves realitzades 199

1.0
0.9
0.8
A (t)

0.7
0.6
0.5

0 20 40 60 80 100

(a) Avaluació mitjana de la població A(t)


1.0
0.9
0.8
O (t)

0.7
0.6
0.5

0 20 40 60 80 100

(b) Ocupació del tauler O(t)


20000
15000
Avaluacions realtizades

10000
5000
0

0 20 40 60 80 100

(c) Nombre d’avaluacions realitzades

Figura 7.14: Escombrat de llindar de màxima replicació ksp a l’interval {0,0.15} amb
increments de 0.005 pel problema One Max on ℓ = 50. Codi de colors: el llindar inferior
és vermell i el superior violeta, la resta es representa amb l’escombrat pertinent.
200 Comportament del GALE

un cas com en l’altre, a mida que augmenta ksp augmenta: (1) la velocitat amb la que
s’assoleix la solució i (2) l’ocupació del tauler. Això concorda amb els resultats teòrics
presentats a l’equació 7.43 (pg. 197), la qual prediu la reducció del nombre d’iteracions
necessàries pel take over a mida que augmenta ksp. La constatació empı́rica d’aquest
resultat és important per dos motius principals.
El primer motiu pel qual són importants els resultats presentats a la figura 7.14
afecte a la pressió selectiva. Com es pot apreciar, la solució al problema s’assoleix
més de pressa quan més de pressa es col·lapsa el tauler T . Aquest punt confirma que
millor disposar d’una pressió selectiva elevada per assolir la solució ràpidament. Això
és degut a que quan el tauler es col·lapsa, el comportament del survival es veu alterat,
passant de sostenible a superpoblat. O el que és el mateix, es passa d’una pressió
per l’extinció relaxada com la que proposa el survival sostenible, a una pressió extrema
degut a l’esquema de torneig que utilitza el survival quan aquest entra en la modalitat
de superpoblació.
L’altre motiu pel qual els resultats obtinguts són rellevants recau en el fet que el
llindar de màxima replicació ksp presenta una doble interpretació. La primera és la
freqüència de replicació i, per tant, el ritme al qual es col·lapsarà el tauler. Però la
segona no és tant evident. Aquesta interpretació de ksp diu que, a la llum del resultat
obtinguts, es capaç de controlar el tipus de comportament de survival que es vol obtenir.
Com ja s’ha comentat, jugant amb ksp es pot jugar a controlar el nivell d’ocupació del
tauler i, conseqüentment, el tipus majoritari de comportament del survival que s’aplica
en el mateix.
Finalment, i per concloure el comentaris sobre els resultats obtinguts dels llindars
ksr i ksp, es vol fer algunes reflexions. La principal és la que s’extreu de les gràfiques
presentades a les figures 7.12 (pg. 195) i 7.14 (pg. 199). Existeix un delicat equilibri
entre l’extinció i la replicació dels individus del tauler. Un excés de pressió extintiva a
les etapes inicials de l’evolució, és a dir un ksr > 0.015, provoca la desaparició total
de la població continguda a T . Aquest punt queda patent en el resultats presentats a
la figura 7.12 (pg. 195). Per altra banda, un cop els individus comencen a presentar
una avaluació adaptada al problema que estan resolent, quan més pressió millor a l’hora
d’accelerar la velocitat d’obtenció de la solució. Això es pot assolir fàcilment colapsant
el tauler, O(T ) = 1, a base de replicar ràpidament els bons individus, forçant aixı́ un
augment en la pressió extintiva degut a l’aplicació d’un survival superpoblat. És en
aquest punt que intervé el llindar de màxima replicació ksp. Amb valors de ksp > 0.25
s’assoleix un col·lapse del tauler que permet accelerar el refinament i obtenció de la
solució final al problema que s’està resolent, tal com mostren els resultats de la figura
7.14 (pg. 199).

7.6.6 Manipulació del material genètic

Arribats a aquest punt, es precı́s analitzar l’impacte que presenten la manipulació del
material genètic en el model proposat pel GALE. A diferència de la resta de proves
7.6 Proves realitzades 201

que es presenten en aquest apartat, les que es descriuran en aquest apartat no són
extrapolables fora del model simplificat. Això és degut a que aquests resultats van lligats
inevitablement a la representació que s’està evolucionen, com als operadors genètics
que s’hi apliquen. Degut al caràcter independent de la representació del coneixement
del GALE, els resultats obtinguts en el model simplificat s’han d’interpretar en cura,
sols essent indicatius de tendències dins el model, havent-se de contrastar per cada
representació que es faci evolucionar.
Fetes les consideracions anteriors, en aquest apartat s’estudiarà l’impacte dels dos
paràmetres que controlen la manipulació del material genètic. En primer lloc es revisarà
la probabilitat de merge pM que determina l’aplicació de l’operador de creuament X . Un
cop fet l’estudi d’aquest paràmetre, tot seguit es passarà a descriure com la probabilitat
de mutació uniforme pmu, la qual controla les alteracions que s’introdueixen a l’operador
Y dins la copia que es fa del genoma d’un individu, condiciona el comportament resultat
de GALE.

Probabilitat de Merge

La probabilitat de merge determina la freqüència d’aplicació de l’etapa de merge, i


conseqüentment la freqüència d’utilització de l’algorisme de creuament X . L’objectiu
de l’operador X , tal i com es presentava a la definició 28 (pg. 134) recombina el material
genètic de dos individus, generant un nou individu que conté material genètic d’ambdós
progenitors.
Per poder posar de relleu l’impacte que presenta aquest paràmetre sobre el compor-
tament del GALE, es plantejà un conjunt d’execucions basades en un escombrat selectiu
de pM . El problema escollit fou el bounded deceptive problem presentat a l’apartat
7.4.2 (pg. 179). El motiu d’aquesta tria recau en el fet que aquest problema està
especı́ficament per posar en dificultats els operadors de recombinació, degut al seu com-
portament trampa en el moment de fer el recompte de bits. Per aquestes proves es feren
servir dues variants del problema. La primera formada per blocs de quatre bits, n = 4, i
un nombre de setze blocs, ℓ = 16. La segona, utilitza blocs de vuit bits n = 8 replicats
vuit cops, ℓ = 8. En ambdós casos la longitud final del genoma és de seixanta quatre
bits. Els paràmetres del GALE es fixaren tal i com es mostra a continuació.

h20 × 20, 250, 0.8, pM , 0.5, 0.003, −0.25i (7.45)

Per la seva part paràmetre pcalM s’escombrà des de pcalM=0.01 fins a pM =0.8 amb
increments de 0.026. Per cadascun d’aquests valors el GALE 100 cops, promitjant-se
els resultat d’aquestes execucions.
La figura 7.15 mostra gràficament els resultats d’aquestes proves per n = 4 i ℓ =
16. La figura presenten diferents mesures preses sobre el tauler T del GALE al per
cada valor de l’escombrat realitzat sobre pM . La primera de les tres mesures que es
presenten, A(t), a la figura 7.15.a correspon a l’avaluació mitjana del la població al llarg
de les execucions realitzades. Per la seva banda, la figura 7.15.b presenta el nombre
202 Comportament del GALE

0.98

0.96

0.94

0.92

A(T)
0.9

0.88

0.86

0.84
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Probabilitat
(a) Avaluació mitjana de la població A(t)
280000

260000

240000

220000
Avaluacions realitzades

200000

180000

160000

140000

120000

100000

80000
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Probabilitat
(b) Nombre d’avaluacions realitzades
5

4.5

3.5
Diversitat

2.5

1.5

1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Probabilitat
(c) Diversitat del tauler T

Figura 7.15: Escombrat de la probabilitat de merge pM a l’interval {0.01,0.8} amb


increments de 0.026 pel problema BDP4 on ℓ = 16. Codi de colors: els punts vermells
corresponen als valors obtinguts, la lı́nia verda la suavització emprant polinomis de
Bézier.
7.6 Proves realitzades 203

d’avaluacions necessàries per obtenir la solució al problema plantejat. Finalment, la


figura 7.15.b representa el nombre de solucions diferents presenta en el tauler T en el
moment d’aturar-ne l’execució.
El primer que destaca dels resultats presentats a la figura 7.15 és el fet que l’avalu-
ació mitjana de la població no assoleix el llindar màxim, és a dir, 1. Malgrat totes les
execucions assoleixen trobar la solució al problema, el caràcter en forma de trampa de
la funció d’avaluació provoca que dins la població es mantingui solucions subòptimes.
Com es pot apreciar, a mida que s’augmenta probabilitat pM , també augmenta l’ava-
luació mitjana del tauler T . Aquest punt presenta, com a contrapartida, un augment
significatiu del nombre d’avaluacions necessàries a realitzar, figura 7.15.b.
Els resultats anteriors són el resultat directa de la funció d’avaluació utilitzada, però
el que no era tant previsible són els resultats que es presenten a la figura 7.15.c. El
que s’observa en aquesta figura és el fet que a mida que s’augmenta la probabilitat de
merge pM , també augmenta la diversitat present a la població continguda al tauler T .
Una primera explicació d’aquest fet passaria per dir que l’augment de la probabilitat
de recombinació del material genètic porta un augment de la disrupció dels BBs que
conformen la solució al problema. Conseqüentment, l’algorisme no és capaç d’eliminar
ràpidament les solucions subòptimes que apareixen constantment. Malgrat aquesta
explicació, certa per models d’algorismes genètics tradicionals, té una altre possible
explicació com a resultat del model que proposa el GALE.
L’alternativa a l’explicació anterior passa per una possible interpretació diferent del
paper que juguen les solucions subòptimes dins el tauler T un cop s’ha assolit la so-
lució al problema. De les proves realitzades, sembla intuir-se que aquestes permeten
aı̈llar subpoblacions que presenten una avaluació similar permeten-les coexistir al llarg
del procés evolutiu. Malgrat això, aquestes proves no permeten extreure’n resultats con-
cloents. Per aquest motiu és decidir dedicar un apartat especı́fic per l’estudi d’aquesta
problemàtica, posposant la discussió pertinent fins a l’apartat 7.6.7 (pg. 206).
Per concloure aquest apartat, es vol realitzar un últim comentari sobre els resultats
obtinguts amb aquestes proves. Com es comentà anteriorment, les + proves es realit-
zaren pel problema BDP amb n = 4 i ℓ = 16, aixı́ com per n = 8 i ℓ = 8. Ambdós
problemes es defineixen sobre genomes de seixanta quatre bits. Malgrat augmentar la
mida de la trampa passant de n = 4 a n = 8, les corbes de comportament obtingudes
amb n = 8 presenten el mateix comportament que les presentades a la figura 7.15,
motiu pel qual no s’han inclòs.

Probabilitat de mutació uniforme

La probabilitat de mutació uniforme determina la quantitat d’error que s’ha d’introduir en


el procés de replicació d’un individu. Aquesta probabilitat afecta, per tant, a l’algorisme
de mutació Y. Tal i com es comentà en el seu moment, definició 30 (pg. 136), l’objectiu
d’aquest operador Y, donat un individu TijI, és generar un altre individu ISij que és una
còpia del primer en el qual s’hi han introduı̈t lleugeres modificacions en el seu material
204 Comportament del GALE

genètic.
Per poder posar de relleu l’impacte que presenta aquest paràmetre sobre el compor-
tament del GALE, es plantejà un conjunt d’execucions basades en un escombrat selectiu
de pmu. El problema escollit fou, a l’igual que en l’estudi de l’impacte de la probabilitat
de merge pM , el bounded deceptive problem presentat a l’apartat 7.4.2 (pg. 179). El
motiu d’aquesta tria també recau en el fet que aquest problema està especı́ficament per
posar en dificultats els operadors que manipulen el material genètic. Per aquestes pro-
ves, i vistos els resultats presentats en l’apartat anterior, es feu servir una única variants
del problema. Aquesta és la formada per blocs de quatre bits, n = 4, i un nombre de
setze blocs, ℓ = 16, que genera una la longitud final del genoma és de seixanta quatre
bits. Els paràmetres del GALE es fixaren tal i com es mostra a continuació.

h20 × 20, 250, 0.8, 0.4, 0.5, pmu , −0.25i (7.46)

Per la seva part paràmetre pmu s’escombrà des de pmu=0.0001 fins a pmu=0.045
amb increments de 0.0025. Per cadascun d’aquests valors el GALE 100 cops, promitjant-
se els resultat d’aquestes execucions.
La figura 7.16 mostra gràficament els resultats d’aquestes proves. La figura presenten
diferents mesures preses sobre el tauler T del GALE al per cada valor de l’escombrat
realitzat sobre pmu. La primera de les tres mesures que es presenten, A(t), a la figura
7.16.a correspon a l’avaluació mitjana del la població al llarg de les execucions realitzades.
Per la seva banda, la figura 7.16.b presenta el nombre d’avaluacions necessàries per
obtenir la solució al problema plantejat. Finalment, la figura 7.16.b representa el nombre
de solucions diferents presenta en el tauler T en el moment d’aturar-ne l’execució.
Com es pot apreciar als resultats presentats a la figura figura 7.16.a, a mida que
augmenta la probabilitat de mutació uniforme pmu també augmenta l’avaluació mitjana
de la població. Però a diferència del que succeı̈a en el cas anterior, aquest increment
en l’avaluació no va acompanyat d’un increment del nombre d’avaluacions necessàries.
La figura 7.16.b mostra aquest fet, suggerint que les variacions en el material genètic
introduı̈des afavoreixen un augment en la velocitat d’obtenció de la solució del problema
a resoldre. Aquest comportament, oposat al que s’obté en variar la probabilitat de merge
pM , no és gens anormal, essent la base sobre la qual es recolzen les estratègies evolutives
[Rechenberg, 1965, Rechenberg, 1973].
Finalment, la figura 7.16.c presenta el resum de la diversitat present en funció del la
probabilitat de mutació uniforme pmu. A diferència del comentat en l’apartat anterior,
en aquest punt la diversitat és causa directa de l’augment de la probabilitat de muta-
ció. Quan més augmenta pmu, més material genètic es veu alterat dins el tauler T i,
conseqüentment, més difı́cil esdevé la convergència cap a la solució al problema. Per
altra banda, l’augment de la pmu també és responsable de la disrupció dels BBs dins
la població, malgrat que aquest efecte es veu paliat per la forta pressió selectiva que
existeix quan el tauler es troba col·lapsat, és a dir, O(T ) = 1.
7.6 Proves realitzades 205

0.975

0.97

A(T) 0.965

0.96

0.955

0.95

0.945
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045
Probabilitat
(a) Avaluació mitjana de la població A(t)
210000

205000

200000
Avaluacions realitzades

195000

190000

185000

180000

175000
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045
Probabilitat
(b) Nombre d’avaluacions realitzades
3.5

2.5
Diversitat

1.5

1
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045
Probabilitat
(c) Diversitat del tauler T

Figura 7.16: Escombrat de la probabilitat de mutació uniforme pmu per l’operador de


mutació Y a l’interval {0.0001,0.045} amb increments de 0.0025 pel problema BDP4
on ℓ = 16. Codi de colors: els punts vermells corresponen als valors obtinguts, la lı́nia
verda la suavització emprant polinomis de Bézier.
206 Comportament del GALE

7.6.7 Especiació espacial

Un cop arribats a aquest punt, ja s’ha explorat l’impacte dels paràmetres presents al
model simplificat presentats a la taula 7.1 (pg. 185). D’aquest estudi s’ha pogut observar
algunes particularitats interessants, les qual suggereixen un major estudi. Concretament,
el focus d’interès se centra en la capacitat que el model presenta per mantenir diferents
solucions (o espècies) alhora coexistint en el tauler T .
L’interés per la capacitat d’especiació del GALE sorgı́ de dues proves realitzades.
La primera correspon a l’estudi de l’impacte de la probabilitat de merge realitzat a la
secció 7.6.6 (pg. 200). En aquest s’intuı̈a una interessant relació entre la generació
de solucions subòptimes i el que anomenarem especiació espacial. La segona prova, es
realitzà per corroborar o refutar la intuı̈ció anterior.
Per poder veure si el GALE era capaç de mantenir un comportament d’especiació
basat en la seva topologia espacial, es plantejà un conjunt d’execucions encarades a po-
sar de relleu aquest fet. El problema escollit fou, la variant del hierachical trap function
proposada a l’aparta 7.4.3 (pg. 180). Aquesta variant proposa afegir m bits redundants
al començament del genoma. Aquests bits, si s’interpreta la funció gràficament, provo-
quen que la funció d’avaluació apareixi com la concatenació de funcions HTF. Aquest fet
provoca que la funció contingui 2m concatenacions de la funció HTF, i conseqüentment
2m+1 màxims globals. La peculiaritat d’aquests màxims és que es reparteixen a parts
iguals entre els esquemes:

S0m = (*m000 . . . 000)


S1m = (*m111 . . . 111)

Per altra banda, aquesta funció presenta la peculiaritat que existeixen dos atractors
diferenciat, S0m i S1m, complicant aixı́ l’especiació. Això és degut a que pot apareixer
una clara pressió cap a un dels dos degut a les condicions d’inicialització, aixı́ com
als errors comesos a través de l’extinció de solucions que es realitza al llarg del procés
evolutiu, podent fer desaparèixer un dels dos esquemes. Aquesta desaparició portaria
conseqüentment a la pèrdua irremissible de la meitat dels màxim de la funció.
Per poder estudiar el comportament del GALE enfront d’aquesta situació es pre-
pararen dues proves diferenciades. En ambdues proves l’alçada del HTF fou ℓ = 4,
proporcionant genomes de setze bits. Per altra banda, la concatenació que es realitzà
emprà m = {2, 4}. D’aquesta forma, per m = 2 s’obté la concatenació de quatre HTFs
de setze bits, mentre que per m = 4 se n’obté la concatenació de setze de diferents.
En el primer cas la longitud final del genoma és de divuit bits, mentre que en el segon
aquesta longitud és de vint. Per cadascuna d’aquestes funcions el GALE s’executa amb
els paràmetres fixats tal i com es mostra a continuació.

h20 × 20, 25, 0.8, 0.4, 0.5, 0.003, −0.25i (7.47)

Les figures 7.17 i 7.18 presenten gràficament el comportament del GALE a llarg d’una
execució. Concretament, aquestes figures presenten un resum de l’estat del tauler T en
7.6 Proves realitzades 207

7
6
5
Freqüència

4
3
2
1
0
0 50000 150000 250000

Genotip

(a) t=0
150
Freqüència

100
50
0

0 50000 150000 250000

Genotip

(b) t=9
2000
1500
Freqüència

1000
500
0

0 50000 150000 250000

Genotip

(c) t=25

Figura 7.17: Evolució del tauler, amb l’histograma associat, pel problema HTF, ℓ = 4,
amb concatenació múltiple per m = 2
208 Comportament del GALE

8
6
Freqüència

4
2
0
0e+00 4e+05 8e+05

Genotip

(a) t=0

120
100
80
Freqüència

60
40
20
0

0e+00 4e+05 8e+05

Genotip

(b) t=9
800
600
Freqüència

400
200
0

0e+00 4e+05 8e+05

Genotip

(c) t=25

Figura 7.18: Evolució del tauler, amb l’histograma del genoma associat, pel problema
HTF, ℓ = 4, amb concatenació múltiple per m = 4
7.6 Proves realitzades 209

tres instants de temps diferenciats. Aquests tres instants de temps corresponen a: (1)
t=0, just després de la inicialització; (2) t=9, en un estadi primerenc del procés evolutiu;
i (3) t=25, un cop el GALE ha finalitzat la seva execució. Cadascun d’aquests resums es
separa en dues parts. La primera, a l’esquerra de la gràfica, representa el mapa genòmic
del tauler T a l’instant t. Cada cel·la Tij presenta l’individu TijI que conté emprant el
color associat al seu valor genòmic. En cas que una cel·la Tij no contingui cap individu,
és a dir ζ (Tij) = 0, aquesta es representa de color blanc. La segona part del resum, a
mà dreta, conté dos elements importants. El primer és les correspondències de colors
que donat per representar els diferents valors numèrics del genoma de l’individu TijI. En
segon lloc recull l’histograma de les freqüències d’aparició dels diferents valors genòmics,
permetent observar a simple vista la distribució del població al llarg de la recta de valors
genòmics possibles.
De l’observació del comportament del GALE a les figures 7.17 i 7.18 se’n desprenen
dues caracterı́stiques interessants. La primera correspon a la dinàmica que apareix al
llarg de l’evolució proposada pel model. Un cop superada l’extinció inicial d’individus
poc adaptats, apareixen illes de cel·les que contenen individus ben adaptats. Degut a
que la probabilitat de split, definició 29 (pg. 136), és proporcional a l’avaluació, les illes
que contenen millors individus creixen més ràpidament. Aquest creixement es realitza a
les fronteres que defineix l’illa. Això també és resultat directe de la forma amb la qual
la fase de split posiciona els nous individus dins el veı̈nat, afavorint la creació d’illes,
o subpoblacions, compactes augmentant aixı́ dins elles la pressió selectiva. Aquesta
propietat ja havia estat apuntada en altres models d’algorismes genètics paral·lels de gra
fi [Davidor, 1991].
És aquesta dinàmica d’aparició d’illes, formades per individus idèntics, la que sug-
gereix una capacitat d’especiació basada en la distribució espacial de la població dins el
tauler T . Les fronteres d’aquestes illes que contenen diferents espècies es mantindrien,
principalment, pel fet que el GALE defineix el criteri de survival superpoblat en funció de
l’avaluació dels individus. Degut a que tots els màxims presenten la mateixa avaluació,
1, la pressió vers el millor desapareix. A les figures 7.17.c i 7.18.c A(T ) = 1, fet que
implica que tots els individus presents a T siguin solucions al problema plantejat. Però,
és en aquest punt que reapareix la importància del merge. La recombinació d’individus
dins una illa genera com a resulta el mateix individu. Això es degut a que els progenitors
són idèntics. Per contra, a la frontera entre dos illes el comportament del merge és
clarament diferent.
Quan el merge succeeix a la frontera entre dues illes pot donar-se dos casos diferen-
ciats. El primer és que els individus de les dues illes pertanyin al mateix esquema, ja sigui
S0m o bé S1m. En aquest cas, l’individu resultant del procés de merge continuarà perta-
nyent al mateix esquema. En el pitjor dels casos començarà una nova illa d’espècies a la
frontera entre les dues existents anteriorment. Per contra, si els dos individus pertanyen
a esquemes oposats, el resultat del creuament pot generar un individu subòptim. Aquest
individu, degut a que el tauler està col·lapsat, serà reemplaçat en l’etapa de survival su-
perpoblat per algun dels seus veı̈ns. Aquest efecte manté l’equilibri a les fronteres entre
les dues espècies. Amb aquestes consideracions en ment, es pot interpretar les gràfiques
210 Comportament del GALE

de les figures 7.17 i 7.18 resultants de l’evolució del GALE.


La figura 7.19 presenta l’evolució del genoma dels individus per les dues proves
presentades anteriorment. Com es pot apreciar en ambdues proves, a mida que avança
el procés evolutiu la població es concentra en la solució al problema que s’està resolent.
El que sobresurt d’ambdues evolucions és que les freqüències d’aparició no depenen de
l’avaluació, ja que tots posseeixen la mateixa. Per contra, si que depèn del moment
en qual aparegueren, aixı́ com la configuració existent al voltant de la illa en la qual
a emergit. És a dir, si la millor solució apareix en una illa de pobre adaptació, aquest
ràpidament s’escampa fins a veure’s aturat per l’avenç d’una altra illa. D’aquesta forma
s’estableix l’equilibri entre les diferents illes, aixı́ com el nombre de còpies dels individus
que conformen l’illa. És per aquest motiu, que els últims individus apareguts pateixen una
lluita aferrissada per l’espai existent en el tauler T . És per aquest motiu que apareixen
valors que presenten un nombre tant baix de còpies.
Per intentar apreciar aquest comportament d’especiació espacial, es realitzaren un
parell de proves més. Concretament, es comparà el GALE amb les dues propostes
d’algorismes genètic basades en selecció per torneig, el TGA2 i el TGA8. La funció
escollida per realitzar aquestes provés fou de nou la HTF. Aquest cop però s’incrementà
la dificultat del problema incrementant l’alçada en una unitat. És a dir, l’alçada de
la HTF fou ℓ = 5, proporcionant genomes de trena dos bits. Per altra banda, la
concatenació que es realitzà emprà m = {1, 3}. D’aquesta forma, gràficament es pot
interpreta que per m = 1 s’obté la concatenació de dues HTFs de trenta-dos bits, mentre
que per m = 3 se n’obté la concatenació de vuit. En el primer cas la longitud final del
genoma és de trenta tres bits, mentre que en el segon aquesta longitud és de trenta
cinc. Per cadascuna d’aquestes funcions el GALE s’executà amb els paràmetres fixats
tal i com es mostra a continuació.

h32 × 32, 100, 0.8, 0.4, 0.5, 0.003, −0.25i (7.48)

Per la seva banda, tant el TGA2 com el TGA8 foren configurats amb els valors
dels paràmetres anteriors equivalents. És a dir, els paràmetres per aquests models
corresponen a:
h1024, 100, 0.4, 0.003i (7.49)

Per minimitzar l’impacte del comportament estocàstic dels tres models, per cada
funció es repetir l’experiment 250 cops, promitjant-ne els resultats. Concretament, les
mesures que es preneren en consideració són el percentatge d’encert mitjà de la població,
aixı́ com la diversitat, o nombre d’individus diferents, existents a la població.
La figura 7.20 mostra gràficament els resultats d’aquestes proves. La figura mostra
els resultat de les dues mesures preses sobre el tauler T del GALE al llarg del procés
evolutiu, aixı́ com de la població evolucionada pel TGA2 i el TGA8. És a dir, les
gràfiques mostren l’evolució d’aquestes mesures al llarg de les successives iteracions
evolutives representades per t. La primera de les tres mesures que es presenten, A(t)
apareix a les figures en vermell. Aquesta correspon a l’avaluació mitjana del la població
al llarg d’una execució. Per la seva banda, les corbes en blau representen la diversitat
7.6 Proves realitzades 211

Freq
ü
ènci
a

t
Geno
tip

(a) m = 2
Freqü
ència

tip
no
Ge

(b) m = 4

Figura 7.19: Evolució del l’histograma del genoma pel problema HTF amb concatenació
múltiple
212 Comportament del GALE

de la població a mida que avança l’evolució. Per facilitar-ne la comparativa, la figura


7.20 sobreposa les corbes per cadascun dels models emprats, presentant per separat els
resultats obtinguts per les dues funcions HTF emprades, m = 1 i m = 3.
El primer que destaca dels resultats presentats a la figura 7.20 és que tant sols el
GALE és capaç d’assolir la solució a ambdós problemes. També queda patent que el
TGA2 és el pitjor dels tres, aixı́ com el TGA8 és el que obté una aproximació a la solució
més ràpidament, però quedant-se estancat en un màxim local que l’impedeix obtenir
la solució final. Per altra banda, el TGA8 és el que perd diversitat més ràpidament,
degut a la seva forta pressió selectiva, seguit pel GALE i finalment pel TGA2. Aquests
resultats mostren també que, malgrat el TGA2 ha reduı̈t la seva pressió selectiva respecte
el TGA8, tampoc es capaç d’obtenir la solució als problemes plantejats. Com es pot
apreciar el comportament de la pèrdua de diversitat del TGA2 i el TGA8 són molt
semblants, ja que comparteixen el mateix mètode de selecció per torneig. Per la seva
banda, el GALE presenta una corba de pèrdua de diversitat diferent. Això és degut als
diferents comportaments que adopta el survival al llarg de l’evolució.
Per posar de relleu el diferent comportament dels tres models comparats, la figura
7.21 presenta amb detall l’evolució de la diversitat de les proves presentades a la figura
7.20. Les proves realitzades emprant la funció HTF amb ℓ = 5 i concatenació de m = 1
i m = 3 presenten quatre i setze màxims locals respectivament. Tal i com s’ha vingut
comentat repetides vegades es reparteixen a parts iguals entre els esquemes:

S0m = (*m000 . . . 000)


S1m = (*m111 . . . 111)

Aquesta peculiaritat és important per entendre el que succeeix en les corbes de
diversitat que es presenten a la figura 7.21. Per la funció HTF amb m = 1, figura
7.21.a, la diversitat final que s’hauria d’obtenir en una població que contingués tant sols
solucions seria de quatre individus. Per contra, en el cas de m = 3 aquest valor s’eleva
fins a setze. El primer que destaca és que el TGA2, al no ser capaç de trobar la solució al
problema no pot col·lapsar la població vers les solucions del mateix. És per aquest motiu
que les corbes del TGA2 es troben, de llarg, del valor de diversitat esperat. Per altra
banda el TGA8, presenta una millor aproximació a la resolució del problema, poden fer
convergir la població cap a les solucions del problema. Malgrat això, la diversitat final
en les poques proves que trobaren la solució als problemes plantejats fou curiosament la
meitat dels esperats. És a dir, dos en el cas de m = 1 i vuit per m = 3. L’explicació és
senzilla un cop s’observà les poblacions resultats d’aquestes execucions. El TGA8 havia
col·lapsat la població vers un dels dos possibles esquemes solució, S0m o S1m, depenen
de quin fos el primer que apareixia al llarg del procés evolutiu. Perdent conseqüentment
la meitat de solucions al problema, i conseqüent reduint la diversitat a la meitat.
Per la seva banda, el GALE aproxima millor la diversitat final de la població al nombre
de solucions del problema a resoldre. Per m = 1 la diversitat mitjana de la població és
de 3.89, mentre que per m = 3 aquest valor és de 14.57. Com es pot apreciar aquests
valors són més grans que 2 i 8, indicant la presència dels dos esquemes solució S0m i S1m
dins la població final. Aquest punt es corroborà posteriorment examinant els genomes
7.6 Proves realitzades 213

3276

1
2621.24

0.85
1966.47

0.71
1311.71

0.56
656.94

0.42
2.18

0.27

0 10 20 30 40 50

(a) m = 1
3276

1
2622.43

0.85
1968.86

0.71
1315.28

0.56
661.71

0.42
8.14

0.27

0 10 20 30 40 50

(b) m = 3

Figura 7.20: Comparació de A(t), aixı́ com la diversitat resultant, pel problema HTF
amb concatenació múltiple de ℓ = 5. Codi de colors: A(t) vermell i la diversitats blava.
El resultats del GALE es marquen amb punts, els del TGA2 amb triangles, i els del TGA8
amb quadrats.
214 Comportament del GALE

2000 5000

2000 5000
500

500
200

200
80

80
40

40
20

20
7

7
4

4
2

2
1

1
0 10 20 30 40 50

(a) m = 1
2000 5000

2000 5000
500

500
200

200
80

80
40

40
20

20
7

7
4

4
2

2
1

0 10 20 30 40 50

(b) m = 3

Figura 7.21: Detall de la diversitat resultant de la figura 7.20 pel problema HTF amb
concatenació múltiple. Codi de colors: GALE(vermell), TGA2(blau) i TGA8(verd).
7.6 Proves realitzades 215

de les poblacions contingudes als taulers T generats pel GALE.


Amb aquests resultats a la mà queda patent els beneficis que aporta emprar una
estructura espacial de la població. Això es degut a que amb aquest tipus d’estructura
permet la generació d’illes d’individus que treballen junts per sobreviure al llarg del
procés evolutiu. Això és degut en part a que la lluita entre espècies diferents es produeix
només a les fronteres de les illes. Aquesta competició restringida a les fronteres facilita
la desaparició accidental de diferents espècies degut als possibles errors de mostrejat que
es puguin produir en el procés de selecció. Aquest és el principal motiu pel qual el GALE
és capaç de mantenir dins el tauler T diferents espècies pertanyents a ambdós esquemes
solució S0m i S1m. Per contra, els models que no presenten aquest comportament espacial,
TGA2 i TGA8, degut als errors de mostratge en la selecció, aixı́ com quins dels dos
esquemes solució apareix primer al llarg del procés evolutiu, esbiaixen la població cap
a espècies, o solucions, que sols pertanyen a un dels dos possibles esquemes solució.
Aquest fet redueix, per tant, la diversitat assolible a la meitat de la que es podria arribar
a assolir.
Finalment, per corroborar l’afirmació anterior, es realitzà una última prova emprant el
GALE. L’objectiu era provar que donada una execució, el tauler final T un cop col·lapsat
O(T ) = 1 i garantint que A(T ) = 1, sempre apareixen individus que pertanyen a un dels
dos possibles esquemes solució, o a S0m o bé a S1m. Això es pot comprovar senzillament
en un tauler que satisfà O(T ) = 1 ∧ A(T ) = 1 si la diversitat és més gran que la meitat
de solucions possibles. Això es degut a que les solucions es reparteixen proporcionalment
entre el dos esquemes S0m i bé a S1m.
La prova consistı́ en avaluar l’impacte de variar la probabilitat d’estat inicial pζ en la
diversitat final dels tauler que satisfan la condició esmentada anteriorment. Per això es
decidı́ realitzar un escombrat de pζ entre les probabilitats compreses entre 0.005 i 1, en
increments de 0.05. Per cada possible valor de pζ és realitzà 100 execucions obtenint-
se la mitja de la diversitat dels taulers. Aquestes proves es repetiren per diferents
funcions HTF, totes elles amb ℓ = 5, amb diferents valors de concatenació, concretament
m = {1, 2, 3, 4, 5, 6}. Per cadascuna d’aquestes funcions el GALE s’executà amb els
mateixos valors del paràmetres fixats tal i com es mostra a continuació.

h64 × 64, 100, pζ, 0.4, 0.5, 0.003, −0.25i (7.50)

La figura 7.22 presenta els resultats obtinguts en aquestes proves. Com es pot apre-
ciar, el GALE és capaç de mantenir amb facilitat una diversitat proporcional al nombre
de solucions del problema que s’està resolent. Concretament, el nombre de solucions
diferents per m = {1, 2, 3, 4, 5, 6} corresponen a {4, 8, 16, 32, 64, 128} respectivament.
És interessant destacar que existeix un llindar de pζ a partir del qual es satisfà que el
GALE posseeix una diversitat superior a la meitat de les solucions del problema que
s’està resolent. Superat aquest llindar, situat al voltant de pζ ≈ 0.5, el GALE es capaç
de mantenir sense problemes espècies d’individus que pertanyen als dos possibles esque-
mes solució S0m i S1m. Aquest resultats corrobora la capacitat del GALE per mantenir
diferents espècies en un tauler col·lapsat gràcies a la distribució espacial de la població.
Per altra banda, aquestes proves també reforcen el fet ja comentat anteriorment de la
216 Comportament del GALE

100
50
20
Diversitat

10
5
2

0.2 0.4 0.6 0.8 1.0

Figura 7.22: Diversitat resultant en funció de la probabilitat d’estat inicial pζ pel pro-
blema HTF amb concatenació múltiple. Codi de colors: les proves realitzades que es
mostren corresponen a per m = {1, 2, 3, 4, 5, 6}, el vermell descriu m = 1 i el violeta
m = 6, fent l’escombrat de color per la resta de valors.

importància de proporcionar suficients BBs en l’etapa d’inicialització.

7.7 Resum

Aquest segon capı́tol dedicat al GALE s’ha centrat en l’anàlisi del seu comportament.
Aquest estudi s’ha realitzat des de dos punts de vista diferenciats. El primer, purament
teòric, es centrà en l’estudi de les possibilitats de paral·lelització del model proposat.
Per contra el segon s’ha centrat en l’estudi de com els paràmetres del model afecten al
comportament del GALE.
De l’estudi de les possibilitats de paral·lelització del model proposat pel GALE se
n’han extret un parell de consideracions importants. La primera és que, gràcies a les
consideracions prèvies en el moment de dissenyar el model, la fita màxima de paral·lelisme
assolible és molt elevada. Concretament, aquesta correspon un speedup equivalent al
nombre de cel·les Tij que composen el tauler T que manipula el GALE. Per altra ban-
da, degut al cost d’avaluació que presenten els individus TijI en front d’un problema
de mineria de dades, els càlculs realitzats indiquen una bona tolerància a latències de
comunicació elevades. Aquest resultat indica la viabilitat d’una possible implementa-
ció paral·lela en maquinari basat en estacions de treball interconnectades per xarxes
telemàtiques. Aquest bons resultats teòrics s’obtenen en contrapartida d’uns requeri-
7.8 Notes Bibliogràfiques 217

ments de memòria linealment proporcionals al speedup que es vol assolir. Això es degut
a la necessitat de replicació de dades per facilitar l’avaluació paral·lela dels individus.
L’estudi posterior s’ha centrat en l’anàlisi de l’impacte que presenten els paràmetres
del GALE sobre el seu comportament. Per aquest motiu s’ha emprat un model simplificat
que ha permès comparar-lo a models tradicionals de computació evolutiva basats en
algorismes genètics. El primer que ha destacat és la competitivitat de la implementació
seqüencial del model emprat en front dels algorismes genètics comparats, malgrat no fos
un dels objectius d’aquest capı́tol.
Dins l’anàlisi dels paràmetres pròpiament dit del GALE ha quedat patent la im-
portància de proporcionar suficients BBs al l’inici de l’execució, ja sigui a través de la
mida del tauler T o bé ajustant adientment la probabilitat d’estat inicial pζ. Aques-
ta aportació facilita l’obtenció final del problema a través del procés evolutiu. Dos
paràmetres que també presente un fort impacte en el comportament del model corres-
ponen al llindar de survival sostenible ksr i el llindar de màxima replicació ksp. Tal i
com s’ha presentat en les proves que s’han realitzat, aquests dos paràmetres controlen,
entre d’altres, la pressió extintiva que s’aplica a la població continguda a T . Mentre
que ksr controla la pressió en els estadis inicials de l’evolució, el ksp governa la velocitat
a la qual es col·lapsa el tauler T , O(T ) = 1, i conseqüentment s’augmenta la pressió
extintiva sobre els individus per l’aplicació d’un survival superpoblat. L’equilibri entre
ambdós paràmetres pot portar a obtenir ràpidament la solució al problema, o bé a l’ex-
tinció total de la població continguda a T fent l’execució irrellevant. En aquest capı́tol
també s’ha estudiat com s’han d’ajustar ksr i ksp per obtenir un funcionament eficient
del GALE.
L’estudi del comportament del GALE també ha posat de relleu un punt interessant.
Aquest és la capacitat que presenta per obtenir especiacions basades en la distribució es-
pacial de la població. Aquest comportament, que emergeix quan O(T ) = 1∧A(T ) = 1,
suggereix l’eficiència de l’utilització de models evolutius basats en topologies paral·leles
de gra fi que restringeixen les relacions dels individus emprant criteris de distribucions
espacials. Aquest punt queda patent quan es compara els resultats que obté el GALE en
front de models pammı́tics tradicionals. Concretament, el GALE és capaç de col·lapsar
la població que manipula vers al conjunt de possibles solucions al problema. Aquesta
especiació espacial presenta una rellevància especial quan es té en compte que els proble-
mes que es resolen són de mineria de dades. En aquest tipus de problemes, proporcionar
solucions diferents, igualment acurades, pot ser de gran utilitat.

7.8 Notes Bibliogràfiques

El repàs de les referències bibliogràfiques d’aquest capı́tol recull referències puntuals a


temes força concrets. Potser l’excepció són [Holland, 1975, Goldberg, 1989] en el qual
es pot trobar en detall les descripcions dels operadors de creuemant i mutació emprats
en aquest capı́tol, aixı́ com del SGA. Descipcions sobre els models basat en selecció
218 Comportament del GALE

per torneig es poden trobar a [Back, 1996]. També caurien dins l’apartat de referències
genèriques es pot incloure [Rechenberg, 1965, Rechenberg, 1973]. En aquestes es poden
trobar les bases de la disciplina coneguda com estratègies evolutives.
Les funcions emprades en els estudis es poden trobar descrites a diferents referències.
A [Goldberg, 1989] es pot trobar descripcions del One Max. Per la seva banda, el
bounded deceptive problem es pot trobar descrit, entre d’altres, a [Pelikan et al., 2000].
L’última de les funcions emprades, la que s’ha anomenat hierarchical trap function, es
pot trobar definida a [Pelikan and Golberg, 2001].
Finalment es comentaran quatre referències que descriuen temes especı́fics. L’anàlisi
dels algorismes genètics basat en diferents subproblemes es proposà per primer cop
a [Golberg et al., 1992a]. A [Goldberg, 2000] s’estudia, sota condicions de recursos de
computació fixes, com dimensionar la població i, conseqüentment, el nombre d’iteracions
a realitzar. Consideracions sobre la selecció i el temps de take over es poden trobar
a [Goldberg, 2001]. Consideracions sobre la relació entre diferents moldels paral·lels
d’algorisme genètic i l’augment en la pressió selectiva es pot trobar a [Cantú-Paz, 2000].
Pel que fa a l’aparició d’illes en altres models d’algorismes genètics paral·lels de gra fi,
es poden troba per exemple a [Davidor, 1991].
CAPÍTOL 8

Resolent problemes reals de Mineria de Dades

La resolució de problemes reals de mineria de dades és l’objectiu principal d’aquest


tercer i últim capı́tol dedicat al GALE. En aquest capı́tol es repassaran els resultats
obtinguts de l’aplicació del model de mineria evolutiva proposat. Les proves que es
presentaran a continuació serviran no sols per posar de relleu la viabilitat d’aquest tipus
de mineria, sinó també per posar de relleu una de les principals avantatges del model,
la seva independència de la representació del coneixement emprat al llarg del procés
evolutiu.
Els resultats d’aquest capı́tol es centren en dues vessants diferenciades. La primera
es centra en l’estudi de l’impacte del mapping en el comportament del GALE. Aquest
estudi, posposat en el capı́tol anterior degut a l’ús d’un model simplificat, recull les
diferències que s’aprecien en l’ús dels dos tipus de mapping proposats a l’apartat 6.3.2
(pg. 122), aixı́ com l’impacte de la modalitat de test escollida presentats a la secció
6.3.8 (pg. 141). A la secció 8.4 (pg. 244) es farà un resum de la metodologia emprada
en les proves realitzades. Un cop fet aquest estudi i descrita la metodologia emprada, tot
seguit es presenten els resultats que s’obtenen de l’aplicació del GALE a un conjunt de
problemes de mineria de dades de caracterı́stiques variades. L’aplicació del GALE a una
bateria de proves heterogènia permetrà estudiar dues caracterı́stiques interessants. Per
una banda, la robustesa del model en diferents problemes, alhora que també permetrà
posar de relleu el comportament de les diferents representacions del coneixement que el
GALE pot manipular.
El capı́tol que es presenta tot seguit s’estructura en nou apartats diferenciats. A
l’apartat 8.1 es descriu els diferents problemes emprats al llarg del capı́tol. Aquests
problemes s’agruparan en funció del seu origen, ja sigui artificial, públic, o privat. Un
cop presentats els problemes, la secció 8.2 descriurà amb detall els algorismes no evolutius
que serviran de marc de comparació pels resultat obtinguts amb el GALE. L’impacte del
mapping en el comportament del GALE és recull a l’apartat 8.3. A continuació ja es
220 Resolent problemes reals de Mineria de Dades

passarà a descriure els resultats que s’obtenen de l’aplicació del GALE als problemes
de mineria de dades escollits. Aquests resultats es presenten agrupats en funció del
tipus de representació del coneixement utilitzat. Concretament, la secció 8.5 presenta
els resultats obtinguts amb l’ús de regles, aixı́ com l’apartat 8.6 els obtinguts amb l’ús
d’instàncies, i finalment la secció 8.7 els resultants de l’evolució d’arbres de decisió.
L’apartat 8.8 recull l’anàlisi dels principals resultats obtinguts emprant diferents tests
estadı́stics. El capı́tol conclou amb un breu resum, secció 8.9, aixı́ com la ja habitual
revisió de les notes bibliogràfiques d’interès relacionades amb aquest capı́tol 8.10.

8.1 Problemes emprats

Els problemes que utilitzats per dur a terme les proves de mineria de dades s’han escollit
per cobrir un ampli ventall de problemes. L’objectiu d’aquesta tria es disposar d’un
conjunt de problemes que presentin diferents caracterı́stiques. Degut a que el tipus de
mineria que es realitza es centra amb tasques de classificació, els diferents problemes
escollits presenten diferents caracterı́stiques que afecten tant als atributs com al nom-
bre de classes involucrades. Per una part, s’ha buscat disposar de diferents problemes
amb diferents nombres d’atributs involucrats, aixı́ com del tipus dels mateixos ja siguin
nominals o numèrics. Per altra banda, aquest conjunt de problemes també tracta amb
diferents cardinalitats de X. És a dir, el conjunt de problemes emprats tracten des de
problemes de classificació binària a n-aris (eg. |X| = 10).
Els problemes escollits es poden agrupar de diferents formes. La que es presentarà
a continuació agrupa els diferents problemes en funció del seu origen.

Artificials: agrupa tres problemes dissenyats especı́ficament per posar de relleu algunes
de les peculiaritats i limitacions dels sistemes de mineria de dades per la classifi-
cació. Algunes de les caracterı́stiques afecten a les capacitats de generalització i
especialització del algorismes, aixı́ com les limitacions inherents a les capacitats
de classificació de les diferents representacions del coneixement emprades.

Públics: un dels principals objectius d’aquest capı́tol és la prova del GALE amb pro-
blemes reals de mineria de dades. Sota aquesta agrupació es recullen un total
de tretze problemes reals amb diferents caracterı́stiques de classificació. Aquests
problemes s’han obtingut de repositoris públics que contenen problemes reals uti-
litzables en problemes de mineria de dades en tasques de classificació.

Privats: aquest últim grup de problemes es centra en dos problemes de mineria de dades
en aplicacions mèdiques. Ambdós problemes es centren en la integració de tasques
de classificació dins de sistemes de diagnosi automàtica de càncer de mama. La
diferència entre aquest dos problemes és centra en l’origen de les dades, ja que
aquest prové en un cas de imatges radiològiques de mammografies, mentre que
l’altre utilitza imatges de biòpsies.
8.1 Problemes emprats 221

i0
i1
i2
i3
i4 o0

i5
i6
i7

a2 a1 a0

Figura 8.1: Esquema del multiplexor d’onze entrades

Un cop presentada aquesta agrupació del conjunt de problemes, tot seguit es des-
criurà els problemes que s’inclouen dins de cada grup.

8.1.1 Artificials

El grup de problemes artificials que s’utitlitzaran a les proves està format per tres proble-
mes diferents, que són: (1) el multiplexors d’onze entrades, (2) el descodificador del LED
contingut al repositori de l’UCI (Universitat de Califòrnia a Irvine), i (3) el samplejat
de la figura del TAO. Cadascun d’aquests problemes presenta unes propietats diferents,
especialment útils al moment d’avaluar el comportament del GALE en el moment de
dur a terme tasques de classificació.

Multiplexor d’onze entrades (mux)

El multiplexor d’onze entrades [Wilson, 1995] és un dels problemes més utilitzats per la
comunitat del sistemes classificadors. Començat a ser emprat àmpliament amb l’apari-
ció del XCS, el problema consisteix en aprendre el comportament d’un multiplexor de
vuit entrades i tres adreces de direccionament. Gràficament, aquest multiplexor es pot
presentar tal i com es mostra a la figura 8.1.
Donat el multiplexor d’onze entrades el conjunt d’atributs dels quals es disposa està
format pels onze senyals binàries d’entrada del multiplexor. És a dir:

A = {i0, i1, i2, i3, i4, i5, i6, i7, a0, a1, a2}

Per altra banda, aquest problema de classificació és binari, ja que la classe correspon
al senyal de sortida o0 que és el mateix de l’entrada ii seleccionada pel conjunt d’adreces
222 Resolent problemes reals de Mineria de Dades

#######0000:0 #######1000:1
######0#001:0 ######1#001:1
#####0##010:0 #####1##010:1
####0###011:0 ####1###011:1
###0####100:0 ###1####100:1
##0#####101:0 ##1#####101:1
#0######110:0 #1######110:1
0#######111:0 1#######111:1

Figura 8.2: Regles que descriuen el multiplexor d’onze entrades

a. Per aquest motiu, el conjunt de classes del problema esdevé:

X = {0, 1}

Finalment, el conjunt d’instàncies disponibles Σ correspon a les 211 = 2048 possibles


combinacions de senyals d’entrada. Cadascuna d’aquestes combinació ve etiquetada amb
la corresponent senyal de sortida o0 resultant de l’entrada ii seleccionada per l’adreça
que la pròpia instància codifica.
Suposant que el problema es resol emprant la representació tradicional de regles
proposada pels sistemes classificadors presentada a la secció 4.7.1 (pg. 71), la figura 8.2
presenta una possible solució al problema. Com es pot apreciar, una de les principals
caracterı́stiques d’aquest problema rau en el fet que l’algorisme d’aprenentatge ha d’ésser
capaç de generalitzar adientment una solució a partir de les instàncies particular que se
l’hi presenten.

Light Emitting Diode (led)

El segon problema artificial utilitzat és l’anomenat light emitting diode (LED). Aquest
problema fou utilitzat per primer cop a [Breiman et al., 1984], formen part en l’actualitat
del repositori de l’Universitat de Califòrnia a Irvine [Merz and Murphy, 1998].
El LED consisteix en set atributs binaris, A = {a0, a1, a2, a3, a4, a5, a6}, i deu
classes associades, X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}. El problema es construeix a partir dels
dı́odes set segments que s’utilitzen per representar un dı́git, com el que es presenta
a la figura 8.3. D’aquı́ que es disposi de set atributs, un per dı́ode, i deu classes,
que corresponen als deu dı́gits possibles. A diferència del problema anterior, el GALE
requereix una codificació màximament especı́fica. És a dir, en el cas d’emprar regles
aquestes presenten tests especı́fics en els quals es descriuen els estats dels set segments,
no essent útil la generalització de les condicions. Aquesta peculiaritat es pot apreciar a
la figura 8.4. Aquesta figura presenta les deu regles que resolen aquest problema.
Aquest problema és aparentment simple, excepte per un punt. En la generació de les
instàncies, aquestes contenen un 10% de soroll afegit a cadascun dels set atributs pre-
sents. Aquesta adició controlada de soroll permet generar un conjunt ampli d’instàncies.
8.1 Problemes emprats 223

a0

a5 a1
a6

a4 a2

a3

Figura 8.3: Esquema del set segments emprat

1111110:0 0110000:1
1101101:2 1111001:3
0110011:4 1011011:5
1011111:6 1110000:7
1111111:8 1110011:9

Figura 8.4: Regles que descriuen el light emitting diode

Aquest conjunt no sols està format per les deu que descriuen cadascun dels dı́gits a
representar, sinó que també conté exemples de dı́gits distorsionats pel soroll introduı̈t.

TAO (tao)

L’últim problema de classificació artificial que s’ha utilitzat a les proves és el que s’ha
anomenat TAO. Aquest problema, presentat per primer cop a [Llorà and Garrell, 2001b],
requereix de la utilització de fronteres no lineals en el procés de classificació.
Aquest problema de classificació artificialment definit torna a ser de classificació
binària, X = {black, white}. Les instàncies provenen de mostrejar la figura del TAO, figura
3.1 (pg. 26), emprant una malla de pas 0.25. El nombre d’instàncies resultants d’aquest
procés de mostreig formen un Σ composat de 1888 instàncies. Aquestes es troben
agrupades en 944 instàncies (50%) pertanyents a la classe ‘black’ i de 944 instàncies
(50%) pertanyents a la classe ‘white’.
El motiu d’escollir aquesta figura i no una altra rau en el tipus de fronteres de clas-
sificació que es requereixen. Com s’ha comentat anteriorment aquestes passen per una
estructura no lineal. Això permet apreciar les liminitacions de certs tipus de representa-
cions dels coneixement per aportar solucions que s’hi adaptin correctament.
224 Resolent problemes reals de Mineria de Dades

8.1.2 Públics

El segon gran grup de conjunt de test són públics. Aquests conjunts es poden trobar
al repositori de l’Universitat de Califòrnia a Irvine [Merz and Murphy, 1998]. Aquest
repository, format en l’actualitat per seixanta nou conjunts de dades, recull problemes
reals de classificació provinents de diferents camps i disciplines.
Tal i com es comentà a l’inici d’aquest capı́tols, un dels principals objectius que es
persegueix en el mateix és la prova del GALE amb problemes reals de mineria de dades.
Per aquest motiu, i sota aquesta agrupació es recullen un total de tretze problemes
reals amb diferents caracterı́stiques de classificació. El criteri per seleccionar aquests
problemes, i no uns altres, és el de disposar d’un conjunt de ampli i variat. Això inclou
problemes amb atributs nominal, numèrics i mixtes, això com problemes de classificació
binària i n-ària. Lluny de realitzar una descripció exhaustiva d’aquests problemes, fet
que es pot trobar a [Merz and Murphy, 1998], el que es podrà trobar a continuació és
una breu descripció de les principals caracterı́stiques de cadascun d’ells.

Breast Cancer Wisconsin (bre)

Aquest conjunt de dades prové d’un conjunt de citologies. Les primera descripció d’a-
quest problema es pot trobar a [Wolberg and Mangasarian, 1995]. Aquest problema
està descrit per deu atributs diferents. D’aquests atributs s’ha prescindit del primer, ja
que sols serveix per identificar la citologia. Els altres nou són nominals, penent valors
pertanyents al conjunt {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. Cadascun d’aquests atributs representa
una caracterı́stica diferent observada a la citologia. El problema de classificació es binari
X={benigne,maligne}. Finalment, el conjunt d’instàncies disponibles es de 699, en les
quals apareixen 16 de les quals que presenten valors desconeguts.

BUPA Liver Disorders (bpa)

Sota el nom de BUPA liver disorders es recull un conjunt de dades d’origen mèdic.
Concretament, es centra en l’estudi de desordres produı̈ts pel consum d’alcohol. Aquest
problema fou utilitzat per primera vegada a [Forsyth, 1990]. El conjunt A està format
per sis atributs numèrics. D’aquests atributs els cinc primers són el resultat de tests
realitzats per mitjà d’anàlisis de sang, mentre que el sisè correspon al volum de consum
alcohòlic diari. Aquest problema de classificació binària ve descrit per 345 instàncies.

Contraceptive Method Choice (cmc)

El conjunt Contraceptive Method Choice, utilitzat per primera vegada a [Lim et al., 2000],
recull exemples sobre la classificació de mètodes anticonceptius per part de les autori-
tats sanitàries. Les 1473 instàncies que el formen provenen de dones casades que en
el moment de l’entrevista no estaven embaraçades, o bé ho desconeixien. Els atributs
8.1 Problemes emprats 225

que conformen el conjunt A són numèrics (2) i nominals (7). Aquest atributs recullen
informació demogràfica i socio-econòmica de la dona entrevistada. Per altra banda,
aquest és un problema de classificació ternari, en el qual X={no n’utilitza, llarg termini,
curt termini}.

Glass (gls)

El problema glass consisteix en identificar a quin tipus de vidre pertany un determinat


fragment. El treball recollit a [Evett and Spiehler, 1987] sorgeix d’estudis de crimino-
logia. L’objectiu d’aquest estudi és la resolució eficient del problema. Això permetria
l’aplicació de la tècnica emprada, per exemple la proposta de mineria de dades que es
presenta en aquesta tesi, per poder utilitzar aquests fragments com proves en un judici.
El problema pròpiament dit ve descrit per deu atributs numèrics, dels quals s’ha desesti-
mat el primer per ser simplement un identificador de la instància. Pel que fa al conjunt
de classes X aquest es format per sis tipus de vidre diferents. N’existeix un setè, malgrat
no n’existeixen instàncies, motiu pel qual s’ha eliminat del conjunt. Finalment comentar
que el problema conté 214 instàncies.

Heart Cliveland (h-c)

Aquest problema torna a provenir del dominic mèdic. Concretament es centra en el di-
agnòstic de malalties coronàries. Un dels primers treballs presentats que utilitzen aquest
conjunt de dades es pot trobar a [Gennari et al., 1989]. Per poder detectar possibles
malalties coronàries, es disposa de 303 instàncies. Aquests instàncies venen definides per
un conjunt A format per tretze atributs, dels quals sis són numèrics i set nominals. Per
la seva banda el conjunt de classes X conté cinc alternatives diferenciades, de les quals
una correspon a un estat sa i els altres quatre a diferents patologies. Concretament, el
conjunt de classes correspon a X={no anomalia, angina tı́pica, angina atı́pica, dolor no
angı́nic, assimptomàtic }. Aquest conjunt de dades també presenta la particularitat que
presenta 0.2% de valors desconeguts.

Heart Hungarian (h-h)

El programa heart hungarian [Detrano et al., 1989] és idèntic a l’anterior. L’única di-
ferència existent és el conjunt d’instàncies emprades. En lloc de provenir de l’àrea de
Cliveland provenen, com el seu nom indica, d’una regió d’Hungria. El conjunt de dades
està format per 294 casos en els qual es produeix una tassa de valors desconeguts del
20.4%.
226 Resolent problemes reals de Mineria de Dades

Heart Statslog (h-s)

Aquest problema també es centra amb la diagnosi de malalties coronàries com els tres
anteriors. L’única diferència amb els anteriors rau en el fet que el treball recollit a
[Feng et al., 1993] agrupa les cinc classes possibles de X en dues, sa i patològic. Malgrat
això, el problema és idèntic, disposant de 270 instàncies totalment definides.

Ionosphere (ion)

Les dades que es recullen en aquest conjunt de dades provenen de mesures de radar
preses al sistema instal·lat a la badia de Goose, Labrador [Sigillito et al., 1989]. El
sistema consisteix en un array de setze antenes d’alta freqüència amb una potència
total d’emissió de 6.4 kilowatts. L’objectiu de les mesures foren els electrons lliures
de la ionosfera. El problema de classificació és binari, buscant discernir entre retorns.
Conseqüentment el conjunt X està format per dues classes. Aquests rebots poden ser
“bons”, aquells que presenten algun tipus d’estructura a la ionosfera, o bé “dolents”,
on la senyal ha passar a través de la ionosfera. Per altra banda, cada senyal ve descrita
per els trenta quatre atributs numèrics que defineixen A. El nombre total d’instàncies
disponibles es de 351.

Iris (irs)

El conjunt iris [Fisher, 1936] és un dels més emprats per provar tot tipus de mètodes
d’aprenentatge. El problema consisteix en classificar les variants d’un tipus particular
de flor. Cada flor es descriu en funció dels quatre atributs numèrics que formen A.
Els atributs emprats són A={longitud sèpal, amplada sèpal, longitud peta, amplada del
pètal}. Per la seva banda, les variants que s’han d’identificar conformen el conjunt de
classes disponibles el qual correspon a X={iris setosa, iris versicolor, iris virgı́nica }. El
conjunt està format per 150 instàncies diferents.

Pima Indians Diabetes (pmi)

Aquest conjunt de dades [Smith et al., 1988] prové de l’estudi dels problemes de diabetis
en dones ı́ndies de mes de vint anys d’herència Pima. El conjunt de dades ve descrit
per vuit atributs numèrics, on A recull resultats de tests sanguinis, aixı́ com altres dades
provinents de l’expedient de la pacient. El conjunt de classes X és binari, descrivint la
pacient com diabètica o no. El conjunt de dades conté 768 instàncies.

Sonar (son)

El conjunt de dades sonar [Gorman and Sejnowski, 1988] conté 111 instàncies obtingu-
des de senyals de radar. L’objectiu és discernir els rebots produı̈ts per un cilindre metàlic
8.1 Problemes emprats 227

a diferents angles i condicions, i els rebots generats per roques en les mateixes condi-
cions. El conjunt d’instàncies es defineix sobre un conjunt A de 60 atributs numèrics.
Cada atribut representa l’energia d’una banda de freqüències particular, integrada al
llarg d’un cert perı́ode de temps. Per la seva banda, el conjunt de classes és binari. És
a dir, X={r, m}, on r correspon a una instància resultant d’una roca, i m correspon a
una instància sorgida del rebot en el cilindre metàlic.

Vehicle (veh)

El conjunt de dades vehicle [Mowforth and Shepherd, 1987] és el resultat del treball
realitzat en el reconeixement automàtic de vehicles emprant imatges digitalitzades. En
concret, les 946 instàncies que conformen aquest conjunt de dades venen descrites per
divuit atributs extrets de les imatges de les siluetes dels vehicles. Aquests divuit atributs
que conformen A són tots numèrics. Per la seva banda, el conjunt de classes X conté
quatre possibles alternatives, X= {opel, saab, bus, van }.

Wine (wne)

L’últim dels conjunts de dades públic és el que rep el nom de wine [Forina and et al., 1991].
El problema recull el resultat de diferents proves quı́miques realitzades a diferents vins
de la mateixa regió d’Itàlia però de diferents viticultors. Les instàncies és defineixen en
funció del tretze atributs numèrics que conformen A. Cadascun d’aquests atributs re-
presenta la quantitat trobada a la mostra de vi d’un determinat constituent. El conjunt
de classes disponibles X correspon als tres viticultors possibles de la regió estudiada. El
nombre total d’instàncies disponibles és de 178.

8.1.3 Privats

Dins dels conjunts de dades que es faran servir en aquesta comparativa s’ha inclòs dos
problemes més provinents del domini mèdic. Ambdós problemes tracten amb la diagnosi
de càncer de mamma. El primer es centra en la diagnosi automàtica de càncer de mama a
partir d’imatges de biòpsies de teixit de glàndula mamària. Per contra el segon és centra
en la diagnosi automàtica de càncer a partir d’imatges radiològiques de mammografies.
Tot seguit s’explica breument cadascun del problemes.

Biòpsies de càncer de mama (bps)

El primer dels dos problemes privats emprats, sorgeix de buscar automatitzar el procés
de diagnosi de càncer de mamma emprant com a base imatges digitalitzades de biòpsies
[Vos, 1996, Martı́nez et al., 1996]. Aquesta automatització consisteix en digitalitzar les
imatges de les biòpsies, on la figura 8.5.a. presenta un exemple d’aquestes imatges.
228 Resolent problemes reals de Mineria de Dades

(a) Original (b) Segmentades

Figura 8.5: Exemples d’imatges emprades en el problema de diagnosi a partir de biòpsies.

Un cop obtingudes aquestes imatges, es processen emprant tècniques de morfologia ma-


temàtica [Martı́nez et al., 1996], encarades al reconeixement de les cel·les que apareixien
a la imatge. El resultat de processar la figura 8.5.a es pot apreciar a la seva homònima
processada, la figura 8.5.b. Les dades que conformen el conjunt emprat són el resultat
d’aquest procés.
Per cada imatge de biòpsia processada, se n’extregueren 24 atributs numèrics que
les descriuen [Martı́nez et al., 1996]. Aquests atributs són els que apareixen a la taula
8.1, conformant el conjunt A. Per la seva banda, el conjunt X és binari, corresponent a
X={benigme, maligne}. El conjunt de dades conté 1028 instàncies que corresponent al
resultat de processar 1028 imatges de biòpsies.

Mammografies (mmg)

El segon problema privat utilitzat, es basa també en la diagnosi de càncer de mama.


A diferència del problema anterior, l’origen de les dades no són imatges de biòpsies,
sinó que la base són imatges radiològiques de mammografies [Martı́ et al., 1998]. Les
imatges mammogràfiques es tracten emprant tècniques de morfologia matemàtica, aixı́
com de tractament de nivells de grisos. El resultat del tractament de les imatges mam-
mogràfiques es pot veure a l’exemple il·lustratiu de la figura 8.6.
Un cop obtinguda la imatge processada, l’objectiu de la qual es la identificació de les
microcalcificacions presents a la mammografia, es procedeix a l’extracció dels atributs
representatius de cada microcalcificació de la imatge. Aquests atributs es descriuen a la
taula 8.1.3.
Arribats a aquest punt, es pot apreciar com per cada imatge mammogràfica es
posseeix la descripció de les microcalcificacions presents a la imatge. Per cada micro-
calcificació es disposa de 23 atributs numèrics. En altres paraules, es disposa d’una
8.1 Problemes emprats 229

Taula 8.1: Atributs extrets del processat de les imatges de les biòpsies de càncer de
mama presents a [Vos, 1996, Martı́nez et al., 1996].
Nom Càlcul
Àrea de la cel·la Mitjana
Àrea de la cel·la Variança
Compactació Mitjana
Compactació Variança
Mitjana de nivell de gris Mitjana
Mitjana de nivell de gris Variança
Variança del nivell de gris Mitjana
Variança del nivell de gris Variança
Dimensió fractal Mitjana
Dimensió fractal Variança
Entropia Mitjana
Entropia Variança
Uniformitat Mitjana
Uniformitat Variança
Contrast Mitjana
Contrast Variança
Cel·la tipus 1
Cel·la tipus 2
Cel·la tipus 3
Cel·la tipus 4
Moment invariant Mitjana
Moment invariant Variança
Excentricitat Mitjana
Excentricitat Variança

(a) Original (b) Segmented

Figura 8.6: La digitalització i el procés de segmentació transformen la imatge en nivell


de gris en una imatge binaria, on el teixit ha estat eliminat deixant sols els clusters de
les microcalcificacions.
Resolent problemes reals de Mineria de Dades

Taula 8.2: Conjunt inicial d’atributs que descriuen les microcalcificacions segmentades
Nom Descripció
Area Número de pı́xels present a la microcalcificació
Perimeter Mida total dels contorns de la microcalcificació
P2
Compactness Derivat del perı́metre (P) i l’àrea (A) de la microcalcificació, és igual a 4πA
Box Min. X,Y; Max. X,Y Les coordenades dels extrems esquerra, superior, dret i inferior, respectivament, de cada microcalci-
ficació.
Feret X,Y Dimensions del mı́nim rectangle embolcallant de la microcalcificació, en les direccions horitzontal i
vertical respectivament.
Feret Minimum Diameter Diàmetre mı́nim de Feret trobat després de provar varis angles (màxim 64)
Feret Maximum Diameter Diametre màxim de Feret trobat després de provar varis angles
Feret Mean Diameter Mitjana del diàmetre de Feret un cop provats tots els angles
Feret Elongation Mesura de forma de la microcalcificació, és igual a FeretMax.Diameter
FeretMin.Diameter

Number of Holes Número de forats a la microcalcificació


Convex Perimeter Aproximació del perı́metre del convex hull embolcallant de la microcalcificació
Perimeter
Roughness Mesura de la rogusitat, es igual a ConvexPerimeter
Length Mesura de la longitud real de la microcalcificació
Breadth Mesura de l’amplitud real
Length
Elongation Igual a Breadth
Centroid X,Y Posició (x, y) del centre de gravetat de la microcalcificació
Principal Axis Angle en el qual la microcalcificació té el moment mı́nim d’inèrcia (eix de simetria). Per microcalci-
ficacions elongades, és l’alineació amb l’eix més llarg
Secondary Axis Angle perpendicular amb l’eix principal.
230
8.2 Algorismes comparats 231

matriu de m × 23 reals, essent m el nombre de microcalcificacions presents a la mam-


mografia. Associada a cada imatge mammogràfica, és disposa de la classe associada a
la mammografia, és a dir, X={maligne, benigne}.
Tal i com es pot apreciar aquesta informació no encaixa amb el plantejament inicial.
Malgrat això, les dades extretes de les mammografies van ser per poder disposar d’un
vector d’entrada i no d’una matriu. Per assolir aquesta fita és generà un vector de 23
dimensions [Llorà et al., 2000], en el qual cada dimensió correspon a la mitjana dels
valors presents a les diferents microcalcificacions presents a la imatge. D’aquesta forma
es pot prendre aquesta informació processada i fer-la servir directament en el GENIFER.
El nombre total d’instàncies de les quals es disposà és de 216.

8.1.4 Sumari

Tal i com s’ha comentat inicialment, els problemes que s’empraren per dur a terme les
proves de mineria de dades busquen cobrir un ampli ventall de problemes. L’objectiu d’a-
questa tria es disposar d’un conjunt de problemes que presentin diferents caracterı́stiques.
Degut a que el tipus de mineria que es realitza es centra amb tasques de classificació, els
diferents problemes escollits presenten diferents caracterı́stiques. La taula 8.3 presenta
un resum de les diferents caracterı́stiques de cadascun d’aquests problemes.
Com es pot apreciar a la taula resum, dels divuit problemes escollits, dos presenten
exclusivament atributs nominals (led, mux), tres els presenten mixtes (cmc, h-c, h-h), i
els tretze restants numèrics. De la mateixa forma, dels divuit problemes, deu corresponen
a problemes de classificació binària, mentre que els altres vuit restant són problemes de
classificació n-ària. Per altra banda, existeixen tres conjunts de dades (bre, h-c, h-h)
que presenten valors desconeguts en les instàncies que els formen.

8.2 Algorismes comparats

A l’apartat anterior s’ha resumit el conjunt de problemes que s’utilitzen en aquest capı́tol.
De la mateixa manera, el GALE no serà l’únic algorisme emprat en la comparativa. En
aquest apartat es farà un breu resum dels diferents algorismes que serviran de marc
de referència pels resultats que s’obtenen amb el model proposat en aquest tesi. Els
algorismes escollits busquen també per la seva part cobrir diferents estils d’algorismes
d’aprenentatge. Concretament, aquests algorismes són el resultat de treballar amb di-
ferents representacions del coneixement, buscant aixı́ facilitar la comparació en front de
les diferents representacions que es capa d’evolucionar el GALE.
Els algorismes escollits representen les diferents representacions del coneixement que
es poden trobar al capı́tol 3 (pg. 19). És a dir, s’ha escollit algorismes que presenten
diferents aproximacions a la resolució de problemes de classificació emprant principal-
ment: (1) regles, (2) arbres de decisió, i (3) instàncies. Per altra banda, per disposar
Resolent problemes reals de Mineria de Dades

Taula 8.3: Resum dels conjunts de dades emprats en les proves


Conjunt Instàncies Desconeguts(%) Atributs Numèrics Atributs Nominals Classes
1 Biopsies (bps) 1027 0.0 24 - 2
2 Breast-w (bre) 699 0.3 9 - 2
3 Bupa (bpa) 345 0.0 6 - 2
4 Cmc (cmc) 1473 0.0 2 7 3
5 Glass (gls) 214 0.0 9 - 6
6 Heart-c-14 (h-c) 303 0.2 6 7 5
7 Heart-h-14 (h-h) 294 20.4 6 7 5
8 Heart-statslog (h-s) 270 0.0 13 - 2
9 Ionosphere (ion) 351 0.0 34 - 2
10 Iris (irs) 150 0.0 4 - 3
11 Led (led) 2000 0.0 - 7 10
12 Mammograms (mmg) 216 0.0 21 - 2
13 Mux11 (mux) 2048 0.0 - 11 2
14 Pima-indians (pmi) 768 0.0 8 - 2
15 Sonar (son) 208 0.0 60 - 2
16 TAO (tao) 1888 0.0 2 - 2
17 Vehicle (veh) 946 0.0 18 - 4
18 Wine (wne) 178 0.0 13 - 3
232
8.2 Algorismes comparats 233

d’un conjunt ampli per la comparació també s’ha afegit algorismes que treballen amb
models estadı́stic i vectors de suport.
El primer dels grups d’algorismes són els basats en l’ús de regles com a representació
del coneixement. Dins d’aquests conjunt s’han escollit quatre exemples il·lustratius d’al-
gorismes d’aprenentatge de regles. Els diferents algorismes escollits presenten diferents
peculiaritats. Els dos primers, el 0-R i el 1-R, són algorismes per l’obtenció de regles
senzilles. Per altra banda, el PART és un algorismes d’inducció de regles que utilitza
arbres de decisió parcialment construı̈ts. Finalment, el XCS obté regles a través de l’ús,
entre d’altres, d’un algorisme evolutiu.
El primer dels algorismes basats en regles escollits és el conegut com 0-R [Holte, 1993]. 0-R
Aquest algorisme consisteix senzillament en classificar noves instàncies en funció de la
classe majoritària χi ∈ X present en el conjunt d’instàncies Σ del conjunt d’entrenament.
El nom prové del fet que no utilitzen cap dels atributs de A per realitzar aquest procés.
Conseqüentment la regla que genera l’algorisme correspon a:

∅ → χi (8.1)

El segon dels algorismes d’aprenentatge de regles escollit és el 1-R [Holte, 1993]. 1-R
Aquest algorisme és una evolució del 0-R comentat anteriorment. L’algorisme genera
una regla de classificació on l’antecedent sols consisteix en el test sobre un dels atributs
aj de A, d’aquı́ el seu nom. És a dir, en el cas que aj sigui un atribut nominal la regla
que s’obté esdevé:
aj = vk → χi (8.2)

Per contra si l’atribut és numèric, la regla generada és:

aj ≤ vk → χi (8.3)

L’atribut aj, el valor vk i la classe χi s’obtenen a partir del conjunt d’instàncies d’en-
trenament de Σ. Concretament, l’algorisme d’aprenentatge consisteix en escollir aquella
combinació de valors que maximitza el percentatge d’encert en la classificació dels exem-
ples de Σ.
El tercer dels algorismes escollits és el PART [Frank and Witten, 1998]. Aquest PART
algorisme construeix regles de forma incremental. La principal particularitat d’aquest
algorisme és el procés que s’utilitza per construir cadascuna de les regles. Enlloc de
fer-ho de forma incremental a partir de l’adició de conjuncions a una regla buida, el
que proposa es emprar arbres de decisió parcialment definits. Aquest arbres s’obtenen
emprant l’algorisme C4.5 que es comentarà un xic més endavant.
L’últim dels quatre algorismes escollits que utilitzen regles és el XCS [Wilson, 1995]. XCS
Aquest algorisme, comentat amb detall a l’apartat 4.7.4 (pg. 82), és un algorisme evolu-
tiu per la obtenció de regles. Aquest sistema classificador, pertanyen a l’enfocament de
Michigan, combina l’aprenentatge evolutiu amb l’aprenentatge per reforçament, obtenint
aixı́ un algorismes incremental. El principal motiu per escollir aquest algorisme rau en el
fet que és un dels més emprats actualment per la comunitat de sistemes classificadors.
234 Resolent problemes reals de Mineria de Dades

Dins dels algorismes d’inducció d’arbres de decisió un dels més coneguts i contrastats
C4.5 és el C4.5 [Quinlan, 1993]. Aquest algorisme construeix un arbre de decisió ortogonal
emprant un conjunt d’instàncies de forma heurı́stica. Aquest procés de construcció es
realitza a partir de l’arrel, repetint-se recursivament per cadascun dels arbres de decisió
fills. Concretament, aquest algorisme utilitza el concepte de guany d’informació per
decidir de quin atribut, donades les instàncies existents, s’ha d’emprar en el test del
node arrel de l’arbre. Posteriorment, i un cop s’han repartit adientment les instàncies
entre cadascuna de les branques filles, és repeteix el procés anterior fins a obtenir un
node en que totes les instàncies comparteixin la mateixa classe, esdevenint aixı́ un node
fulla. Aquest algorisme és una versió millorada de l’ID3 [Quinlan, 1986] el qual és capaç
de treballar amb atributs nominals i numèrics, aixı́ com amb instàncies que presentin
valors desconeguts, entre d’altres.
El tercer bloc d’algorismes escollits són els que treballen amb instàncies. El primer
IB1 algorisme escollit és el IB1 [Aha et al., 1991, Aha, 1992]. Aquest algorisme implementa
l’algorisme del veı́ més pròxim (nearest neighbor algorithm, o NN) emprant com a mesura
de distància la distància euclidiana. Complementàriament, també s’escollı́ l’algorisme
IBk IBk [Aha et al., 1991, Aha, 1992]. La seva principal diferència respecte el IB1 rau en el
fet que utilitza els k veı̈ns més pròxims (k-NN) per dur a terme el procés de classificació.
Un dels problemes que presenten els algorismes basats en instàncies és l’elevat nom-
bre d’instàncies que s’han de mantenir per poder realitzar la classificació. És per aquest
motiu que també s’han utilitzat variants de l’IB1 com són l’IB2, l’IB3, l’IB4, i l’IB5
[Aha et al., 1991, Aha, 1992]. Aquests algorismes busquen, alhora que classifiquen, re-
duir el nombre d’instàncies emmagatzemades per dur a terme el procés de classificació.
IB2 L’IB2 es similar a la regla condensada del veı́ més pròxim (condensed nearest neigh-
bor, o CNN) [Hart, 1968]. La CNN comença escollint, a l’atzar, una instància de Σ
per cadascuna de les classes de X. Si una nova instància és mal classificada emprant
les instàncies existents, aquesta s’afegeix al conjunt d’instàncies emmagatzemades per
evitar futurs errors. Emprant aquesta polı́tica l’IB2 emmagatzema instàncies sorolloses,
IB3 degut a que aquestes no es classificaren correctament. Per la seva part l’IB3 utilitza
tests estadı́stics per permetre sols emmagatzemar instàncies mal classificades accepta-
bles, buscant aixı́ reduir l’impacte del soroll en el conjunt d’instàncies que es manté.
IB4 Finalment l’IB4 i l’IB5 estenen l’IB3 computant un conjunt de pesos per cadascun dels
IB5 atributs presents a A, buscant aixı́ minimitzar l’impacte d’atributs irrellevant presents
en el problema P a resoldre.
Finalment, dins el conjunt d’algorismes emprats en aquest capı́tol se n’han inclòs
dos més que no cauen en cap de les tres representacions del coneixement presentades
Naive Bayes anteriorment. El primer és el conegut com a Naive Bayes [John and Langley, 1995].
Aquest algorisme utilitza la regla de la probabilitat condicionada de Bayes per dur a
terme la classificació. El mot d’ingenu (naive) prové del fet que assumeix independència
entre les aportacions dels diferents atributs de A, aixı́ com de la rellavança de cadascun
d’ells. Per altra banda, el segon algorisme també incorporat és el que s’anomena mi-
SMO nimal sequential optimization o SMO [Platt, 1998]. Aquest algorisme correspon a una
algorisme d’aprenentatge per màquines de classificació binària.
8.3 Impacte del Mapping i el Test 235

Per concloure aquest apartat és precı́s comentar l’origen de les implementacions dels
algorismes utilitzats. Cara a minitzar els errors d’una possible implementació pròpia, es
decidı́ utilitzar implementacions públiques dels mateixos. En alguns casos aquestes foren
proporcionades pels propis autors de l’algorisme. Exemples d’aquest fet són els algorismes
IB1, IB2, IB3, IB4, IB5, i IBk que el propi David W. Aha [Aha et al., 1991, Aha, 1992]
proporciona a la seva plana Web [http://www.aic.nrl.navy.mil/∼aha]. En al-
tres ocasions, els algorismes emprats pertanyen a eines d’aprenentatge artificial com
el Waikato Environment for Knowledge Analysis (WEKA) [Witten and Frank, 2000]
[http://www.cs.waikato.ac.nz/ml/weka]. D’aquesta eina s’han utilitzat els al-
gorismes 0-R, 1-R, PART, C4.5, Naive Bayes, i SMO. Finalment, per la implementació
del XCS s’ha utilitzat la implementació proposada a [Bernadó, 2001].

8.3 Impacte del Mapping i el Test

Arribats a aquest punt, i abans de passar a descriure els resultats obtinguts amb el GALE,
en aquest apartat es descriurà l’impacte en el comportament de dos elements que no
es poderen estudiar en el capı́tol anterior. Això fou degut a les simplificacions que es
dueren a terme. Concretament, els dos punts que s’estudiaran són: (1) l’impacte de la
forma amb la qual es distribueixen les instàncies o mapping, i (2) com es classifiquen
les instàncies no vistes en l’entrenament, o test.
El mapping, presentat a l’apartat 6.3.2 (pg. 122), tracta amb la forma amb la qual
les instàncies de Σ han de ser distribuı̈des al llarg del tauler T . En aquesta tesi s’ha
treballat amb dues funcions de mapping diferents. El mapping uniforme, introduı̈t a
la secció 6.3.2 (pg. 123), és la primera d’elles. Aquest tipus de mapping, notat com
µu(Σ, Tij), replicat totes les instàncies de Σ en totes i cadascuna de les cel·les Tij del
tauler T . Per altra banda, el mapping piramidal introduı̈t a la secció 6.3.2 (pg. 123),
distribueix els exemples en forma de piràmide, tal i com mostra la figura 6.6 (pg. 125).
Aquest tipus de mapping, notat com µk p(Σ, Tij), es basa en la hipòtesi que reduint el
nombre d’exemples es relaxa el problema P podent-ne facilitar aixı́ la seva resolució.
Per la seva banda, el test, presentat a la secció 6.3.8 (pg. 141), tracta amb la
problemàtica de com classificar noves instàncies un cop s’ha fet evolucionar el tauler T .
En aquesta tesi se n’han estudiat i proposat un parell. La primera forma, introduı̈da
a la secció 6.3.8 (pg. 141), és l’anomenada millor. Aquesta suggereix que la nova
instància es classifiqui emprant el millor individu obtingut, d’aquı́ el seu nom. Per
contra, l’anomenada bagging, presentada a la secció 6.3.8 (pg. 142), classifica la nova
instància en funció de la classe majoritaria votada pels individus continguts en les cel·les
Tij que satisfan que µ(Σ, Tij) = Σ. Dit d’una altra forma, la nova instància es classifica
en funció de la combinació de les classificacions dels diferents individus ubicats en cel·les
que resolen el problema P original. Queden per tant exclosos d’aquest procés aquells
individus continguts en cel·les que resolen el problema relaxat Pr.
El que resta d’aquest apartat es centrarà en comentar l’impacte que tenen sobre el
236 Resolent problemes reals de Mineria de Dades

comportament del GALE, cadascun d’aquest factors. En ambdós casos, i degut a que
les proves que es presentaran pertanyen al model original, i no al simplificat, aquestes
tractaran en diferents representacions del coneixement, aixı́ com amb diferents problemes
pertanyents a la selecció presentada a l’apartat 8.1 (pg. 220).

8.3.1 Efecte del Mapping

L’efecte del mapping apareix reflexat en diferents punts del comportament del GALE.
De tots ells aquest apartat es centrarà en un punt concret. Aquest és el que afecta
a la hipòtesi que s’utilitzà per definir el mapping piramidal. Tal i com s’ha comentat
anteriorment, aquest mapping es basa en la idea que amb menys exemples més fàcil és
de resoldre el problema. Per aquest motiu la definició de problema relaxat Pr, realitzada
a la definició 17 (pg. 124), es centrava en reduir el nombre d’instàncies, permetent aixı́
definir fàcilment mappings particulars com el piramidal.
Un altra punt a tenir en compte en el moment de realitzar l’estudi de l’efecte del
mapping en el comportament del GALE és el seu caràcter independent de la representació
del coneixement emprada. És dir, degut a que el GALE és capaç d’evolucionar regles,
conjunts d’instàncies, o arbres de decisió, s’haurà de tenir present quin és l’impacte que
el mapping té sobre cadascuna d’elles. Per altra banda, també s’ha de tenir pressent
que existeixen diferents problemes disponibles, on no es podrà restringir aquestes proves
a un problema particular.
Per posar de manifest l’impacte del mapping sobre el comportament del GALE es
començarà exposant com evoluciona el tauler T quan s’usa el mapping piramidal. Con-
cretament el que es presentarà a continuació és el resultat d’emprar el GALE per resoldre
tres problemes diferents: (1) mux, (2) irs, i (3) son. En cadascun d’aquests problemes
s’ha utilitzat una representació del coneixement diferent. Pel problema mux el GALE ha
fet evolucionar regles, mentre que pel problema irs s’ha utilitzat instàncies, i finalment
en el son els individus corresponent a arbres de decisió ortogonals.
Un altre punt a ressaltar rau en el fet que les tres proves esmentades anteriorment
comparteixen una mateixa parametrització pel GALE. Tal i com es comentà en el capı́tol
anterior, els paràmetres que controlen el comportament del GALE eren els que es presen-
taven a la taula 7.1 (pg. 185). En aquest capı́tol es mantindrà la mateixa representació
compacta que s’utilitzava en el capı́tol anterior. És a dir,
hm × n, kmax, pζ, pM , ksp, pmu, ksri (8.4)

Concretament, les tres proves realitzades la parametrització utilitzada és el resultat


de l’estudi realitzat en el capı́tol anterior. Aquests valors han demostrat la seva idoneı̈tat
en el moment d’executar el GALE. Els valors són:
h64 × 64, 150, 0.8, 0.4, 0.5, 0.003, −0.25i (8.5)

La figura 8.7 recull la primera de les tres proves que es presenten en aquest apartat.
Aquesta prova consisteix en resoldre el problema mux emprant el GALE i evolucionant
8.3 Impacte del Mapping i el Test 237

600
500
400
Freqüència

300
200
100
0
5 10 15

Complexitat

(a) t=19
700
600
500
Freqüència

400
300
200
100
0

0 5 10 15 20 25 30 35

Complexitat

(b) t=47
400
300
Freqüència

200
100
0

0 5 10 15 20 25

Complexitat

(c) t=150

Figura 8.7: Impacte del mapping piramidal sobre el problema mux evolucionant regles
238 Resolent problemes reals de Mineria de Dades

individus que descriuen regles, tal i com es descrigué a l’apartat 6.4.1 (pg. 144). La
figura mostra el tauler T en tres punts de l’evolució duta a terme. Concretament, els
tres instants corresponen a t={19,47,150}. Per cadascun d’aquest instants es representa
dues informacions. La primera, a mà esquerra, correspon a la representació gràfica de
Complexitat la complexitat dels individus. Per complexitat s’entendrà una cosa diferent en funció
de la representació del coneixement emprada. En aquesta primera prova que evoluciona
regles, la complexitat s’ha definit com el nombre de regles que conté l’individu, ja que
a més regles més complexa són les fronteres de classificació que proposa un individu.
Conseqüentment, el tauler representa, emprant colors diferents, el nombre de regles de
cadascun dels individus TijI continguts al tauler T . Per altra banda, a mà dreta, la figura
presenta l’histograma de la complexitat dels individus del tauler T a l’instant t presentat
a l’esquerra. Aquest histograma conté també el codi de colors que s’ha assignat a cada
individu en funció de la seva complexitat.
Dels resultats que presenta la figura 8.7 se’n dedueixen algunes consideracions in-
teressants. Aquesta prova utilitza un mapping piramidal. Això implica que les cel·les
Tij que es troben en el centre del tauler posseeixen totes les instàncies d’entrenament
Σ disponibles. Per contra, a mida que les cel·les s’allunyen del centre i s’aproximen
als extrems del tauler cada cop posseeixen menys instàncies. Aquest tipus de relaxa-
ment del problema, tal i com s’ha comentat anteriorment, s’escollı́ sota la hipòtesi que
menys exemples implica una major facilitat per resoldre el problema. Tenint present
aquesta consideració, si s’observà l’evolució del tauler T es pot apreciar una peculiaritat
interessant. Existeix una relació directa entre la complexitat de l’individu TijI i el nombre
d’instàncies ubicades a la cel·la Tij per la funció de mapping piramidal µk p(Σ, Tij). És a
dir, a major nombre d’exemples més complexa és la solució que es proposa, confirmant
aixı́ la hipòtesi de partida del mapping piramidal. Per altra banda, al final de l’execu-
ció, t=150, es pot apreciar una clara compartimentació de la complexitat en el tauler.
Aquest punt queda patent a l’histograma, en el qual apareixen quatre grans valors de
complexitat que recorren el tauler. Però, a més a més aquesta compartimentació de
la complexitat presenta una forta correlació amb el mapping emprat. Concretament,
aquesta complexitat forma anells al voltant del centre del tauler, tal i com succeı̈a amb
els anells de simetria del mapping piramidal presentats a la figura 6.7 (pg. 126).
Malgrat els resultats obtinguts són clars, es decidı́ repetir aquesta prova emprant
un problema diferent, aixı́ com una altra representació del coneixement. Concretament,
el problema escollit fou el son alhora que el GALE evolucionava conjunts d’instàncies,
tal i com es descrigué a l’apartat 6.4.3 (pg. 159). Per poder repetir la presentació
Complexitat dels resultats és imprescindible definir que s’entendrà per complexitat d’un individu que
codifica un conjunt d’instàncies. Aquesta mesura és molt semblant a la emprada pels
individus que codifiquen regles. Concretament, la complexitat d’un individu que codi-
fica instàncies correspon directament al nombre d’instàncies que conté, ja que a més
instàncies més complexa és les regions de classificació que es defineixen.
La figura 8.8 presenta el resultat d’aquesta prova en tres instants de temps diferen-
ciats, t={1,11,25}. Com es pot apreciar, a mida que el GALE evoluciona el tauler T ,
torna a fer-se present la correlació existent entre la complexitat de l’individu contingut
8.3 Impacte del Mapping i el Test 239

1000
800
600
Freqüència

400
200
0
1 2 3 4 5 6

Complexitat

(a) t=1
1200
Freqüència

800
600
400
200
0

1 2 3 4 5 6 7 8

Complexitat

(b) t=11
1500
1000
Freqüència

500
0

1 2 3 4 5 6 7 8

Complexitat

(c) t=25

Figura 8.8: Impacte del mapping piramidal sobre el problema irs evolucionant instàncies
240 Resolent problemes reals de Mineria de Dades

en una cel·la Tij i les instàncies que el mapping hi ha ubicat, µkp(Σ, Tij), o més concre-
tament el seu nombre. A diferència de la primera prova realitzada en la qual apareixien
quatre grans grups de complexitat, en aquesta els individus de T presenten un major
esglaonament. Destaca però la part més allunyada del centre del tauler. En les cel·les
de la perifèria sobresurten les solucions simples definides per una o dues instàncies. Per
altra banda, a l’igual que també succeı̈a amb la primera prova, a mida que les cel·les
apareixen més a prop del centre, i per tant el mapping piramidal hi ubica més exemples,
augmenta la complexitat de les solucions proposades.
Per acabar de reafirmar aquest comportament es realitzà una tercera i última prova.
Aquesta es centrà en la resolució del problema son emprant el GALE per evolucionar
arbres de decisió ortogonals, com els presentats a la secció 6.4.2 (pg. 147). Un cop
Complexitat més, al canviar de representació s’ha de tornar a definir el que s’entén per complexitat en
aquesta representació. La mesura utilitzada és senzilla, consistent tant sols en recomptar
el nombre de nodes que presenta l’arbre de decisió. Aquesta mesura és congruent amb el
fet que a més nodes, més tests són necessaris per realitzar la classificació de les instàncies
d’entrenament. Conseqüentment, una major complexitat implica que les fronteres de
classificació que defineix un individu TijI a l’espai A+ presentin una forma més rica.
La figura 8.9 presenta el resultat d’aquesta prova en tres instants de temps diferen-
ciats, t={4,21,59}. Com ja s’havia constatat en les dues proves anteriors torna a cada
patent la correlació entre el mapping piramidal emprat i la complexitat dels individus
evolucionats. Malgrat això, presenta una particularitat que no s’apreciava en les dues
proves anteriors. La compartimentació dels individus és molt clara i bipolaritzada en
dos valors de complexitat. Individus formats per tres nodes apareixen a la part exterior
del tauler T . Això posa de relleu que el problema son relaxat en aquestes cel·les es
separable lı́nialment, i a més a més, aquesta separabilitat és ortogonal als atributs de
A. Per altra banda, quan el problema que es resol és el problema original son sense
cap mena de relaxació, la complexitat augmenta clarament a valor compresos entre la
trentena i la quarentena de nodes. Aquest fet posa de manifest la dificultat del problema
original. Separant ambdós extrems apareix un anell de cel·les que es mou entre els dos
extrems. Aquestes cel·les, que presenten individus amb una complexitat que s’aproxima
a la vintena de nodes, actuen com a aı̈llament entre les diferent illes o espècies que
apareixen al tauler T com a resultat del mapping piramidal pel problema son que es
resol.
Fins al moment s’ha estat comentant l’impacte que el mapping piramidal presenta
sobre els individus del tauler T que evoluciona el GALE. Malgrat això, existeix una altre
tipus de mapping disponible en el GALE, el que a la secció 6.3.2 (pg. 123) es presentà
com a uniforme, o µu(Σ, Tij). En aquest mapping totes i cadascuna de les cel·les Tij
conten totes les instàncies d’entrenament de Σ disponibles. Conseqüentment, totes i
cadascuna de les cel·les Tij resolen el problema original a resoldre.
Per veure com evoluciona el tauler T , al llarg de l’evolució duta a terme pel GALE
emprant el mapping uniforme, es repetiren les tres proves realitzades anteriorment. En
totes tres s’aprecià un comportament molt similar entre elles. Desapareguda la distri-
bució de les instàncies, i replicant-se totes elles a les diferents cel·les Tij que formen T ,
8.3 Impacte del Mapping i el Test 241

1500
1000
Freqüència

500
0
0 5 10 15 20 25

Complexitat

(a) t=4
1500
Freqüència

1000
500
0

0 5 10 15 20 25

Complexitat

(b) t=21
2000
1500
Freqüència

1000
500
0

0 10 20 30 40

Complexitat

(c) t=59

Figura 8.9: Impacte del mapping piramidal sobre el problema son evolucionant arbres
de decisió ortogonals
242 Resolent problemes reals de Mineria de Dades

1200
Freqüència

200 400 600 800


0
2 3 4 5 6

Complexitat

(a) t=1

1500
1000
Freqüència

500
0

3 4 5 6 7 8

Complexitat

(b) t=11
1500
1000
Freqüència

500
0

3 4 5 6 7 8 9

Complexitat

(c) t=25

Figura 8.10: Impacte del mapping uniforme sobre el problema irs evolucionant
instàncies
8.3 Impacte del Mapping i el Test 243

el comportament que s’obtingué fou molt similar al presentat anteriorment a l’apartat


7.6.7 (pg. 206). En el model simplificat del GALE apareixien la formació de diferents
espècies o illes d’individus al llarg del tauler T . Aquest comportament es repeteix quan
s’utilitza el GALE per resoldre problemes de mineria de dades.
La figura 8.10 presenta l’execució homònima a la presentada a la figura 8.8 (pg.
239), però això sı́, emprant un mapping uniforme. És a dir, el GALE evoluciona con-
junts d’instàncies per resoldre el problema irs. Com es pot apreciar en aquesta figura
apareixen agrupacions de cel·les que contenen individus amb la mateixa complexitat.
La formació d’aquestes illes no té relació amb les instàncies de les cel·les, ja que totes
les cel·les posseeixen les mateixes. Per contra, aquesta especiació depèn, principalment,
de la inicialització i l’avaluació dels individus. Malgrat això s’aprecia, un cop més, la
capacitat del GALE per mantenir alhora en el tauler T que evoluciona un conjunt de
solucions alternatives al problema a resoldre. Pel que fa a les altres dues execucions, els
resultats obtinguts són idèntics, motiu pel qual no es presenten el resultats.
L’últim dels punts que es vol comentar respecte al mapping és l’impacte que aquest
presenta sobre l’avaluació final dels individus que el GALE genera. Com ja ha quedat
patent, el mapping presenta un fort impacte sobre la complexitat dels individus dins el
tauler T . En el cas d’emprar un mapping piramidal, la complexitat mitjana és inferior,
fins i tot en les cel·les que contenen totes les instàncies de Σ, que la que s’obté en el
cas d’emprar un mapping uniforme. Malgrat tot, on no es nota un efecte apreciable
és en l’avaluació del individus. Des del punt de vista del percentatge d’encert en la
classificació, no s’aprecia un millora de l’avaluació per emprar algun dels dos possibles
mappings proposats, malgrat que en certs problemes puntuals la proposta piramidal
pot accelerar l’obtenció de la solució al problema que s’està resolent. Malgrat això, els
resultats no són concloents.

8.3.2 Efecte del Test

El segons dels components del GALE, l’impacte del qual no es pogué avaluar emprant
el model simplificat, correspon a la forma de realitzar el test de noves instàncies un
cop l’algorisme ha finalitzat el seu funcionament. Exposat d’una altra forma, un cop
el GALE finalitza la seva execució i retorna el tauler T resultant, a l’apartat 6.3.8 (pg.
141) es proposaren dues formes d’emprar-l’ho per poder classificar noves instàncies no
vistes en el procés evolutiu. Aquest són les que s’han anomenat millor individu, apartat
6.3.8 (pg. 141), i bagging, aparat 6.3.8 (pg. 142).
Realitzant proves en diferents conjunts s’aprecià que la variant bagging, a l’igual
que succeeix a la literatura relacionada [Breiman, 1996], es produeix, en general, un
lleuger augment en el percentatge d’encert en la classificació, alhora que disminueix la
desviació, respecte a la proposta d’utilitzar el millor de T . La metodologia emprada per
realitzar aquestes proves s’exposarà amb detall en l’apartat següent. Serveixi d’exemple
els resultats obtinguts en un parell de problemes, com són el irs i el mmg. Quan s’aplica
bagging al problema irs s’obté encerts de classificació del 95.73±6.33; per contra quan
244 Resolent problemes reals de Mineria de Dades

s’escull el millor individu de T , el percentatge d’encert que s’obté, 95.36±6.59, davalla


lleugerament alhora que augmenta la desviació. Em el problema mmg quan s’utilitza
bagging l’encert que s’obté correspon al 66.66±11.55, mentre que la modalitat millor
obté 61.11±12.87. En ambdós casos el GALE evolucionà instàncies. Malgrat això
apareixen excepcions a aquesta regla, com és el cas del problema ion evolucionant
arbres de decisió multivariats. En aquest problema l’encert del GALE (91.46±4.99) és
inferior al que s’obté emprant el millor individus (91.16±4.88).
Malgrat que, per norma general, s’ha apreciat que el bagging millora el percentatge
d’encert en front de noves instàncies no vistes al llarg de l’evolució, les proves que
es presentaran a la resta d’aquest capı́tol utilitzen el test basat en el millor individu
obtingut. El motiu d’aquesta tria, malgrat pugui empitjorar lleugerament el rendiment
del GALE simplifica l’anàlisi de la capacitat per generalitzar, en front noves instàncies,
de la solució proposada pel GALE. Dit d’una altra forma, en el moment d’avaluar la
solució proposada serà més simple analitzar-ne una de sola, que no pas n solucions que
interactuen entre sı́, deixant l’estudi de l’utilitzat del GALE com una lı́nia clara de treball
futur.

8.4 Metodologia

Un cop presentats el resultats sobre l’impacte del mapping i el test sobre el compor-
tament del GALE, aquest apartat presenta un punt d’inflexió en el contingut d’aquest
capı́tol. El que es podrà torbar d’ara endavant és l’experimentació exhaustiva que s’-
ha dut a terme emprant el GALE per la resolució de problemes de mineria de dades.
Però abans de presentar els resultats obtinguts, aquest apartat es centrarà en exposar la
metodologia que s’ha seguit per realitzar l’experimentació que involucra els conjunts de
dades, presentats a la secció 8.1 (pg. 220), els algorismes de l’apartat 8.2 (pg. 231) i,
finalment, el GALE.
Abans de poder comentar la metodologia particular emprada per l’experimentació,
tot seguit es faran algunes consideracions. Bàsicament aquestes afecten a dues qüestions
importants:

1. Com s’han d’executar els algorismes donat un conjunt de dades?

2. Com es poden comparar els diferents algorismes en front d’un conjunt de dades?

Aquestes dues preguntes no van deslligades, ja que com es podrà apreciar tot seguit,
ambdues van fortament relacionades. Això es degut al fet que les comparacions reque-
reixen un tipus d’execució concreta, a l’igual que donat un tipus d’execució, es poden
realitzar certs tipus de comparacions, però d’altres no. Per simplificar es començarà des-
crivint com s’executaran els diferents algorismes, comentant breument el perquè. Tot
seguit, un cop comentada la forma en que s’executaran els algorismes ja es passarà a
8.4 Metodologia 245

descriure com es poden comparar els resultats obtinguts pels diferents algorismes als
conjunts de dades dels quals es disposa.

8.4.1 Executant algorismes

Una de les principals problemàtiques que implica executar l’algorisme és decidir quina
mesura s’emprarà per poder avaluar el seu rendiment. Recordant que els problemes que
es resolen són problemes de classificació, una mesura que sembla força encertada és
emprar el percentatge d’encert, tal i com s’ha presentat en les proves de l’apartat anterior.
Malgrat això, apareix una pregunta inel·ludible. Aquesta és, donat un conjunt de dades,
com s’ha de mesurar aquest percentatge d’encert. En funció de com es decideixi calcular
aquest valor s’obtindrà una forma o una altra d’executar l’algorismes. Per exemple, un
pot prendre un algorisme i executar-lo amb totes les instàncies de Σ disponibles. Un
cop fet això, la mesura que s’escolliria podria ser directament el percentatge d’encert
resultant obtingut de l’execució.
En el cas que s’esculli com a mesura el percentatge d’encert de l’algorisme emprant
tots els exemples té certs inconvenients. El principal rau en el fet que aquesta mesura
no aporta cap mena de noció sobre la capacitat de generalització de l’algorisme. És
important en aquest punt aclarir que s’entén per generalització de l’algorisme d’apre-
nentatge, per evitar confusions amb altres tipus de generalitzacions. Quan es parlava en
el capı́tol 3 (pg. 19) de generalització, es feia referència, principalment, a la capacitat Generalització
de les diferents representacions del coneixement presentades per assolir una represen-
tació intensional compacta. Un exemple clar d’aquesta idea de generalització pot ser
el caràcter ‘#’ de les regles dels sistemes classificadors presentat a la secció 4.7.1 (pg.
71). Com es pot apreciar la generalització en aquesta representació del coneixement
consisteix en introduir ‘#’ dins les regles, permetent eliminar atributs obtenint regles i
generals que cobreixen un major nombre d’exemples. Per contra, i un cop feta aquesta
puntualització, quan es parla de la capacitat de generalització d’un algorisme d’aprenen-
tatge es fa referència la capacitat que l’algorisme té per generalitzar el concepte après
de Σ a altres conjunts d’instàncies que no eren presents en el moment de realitzar-ne
l’aprenentatge. Dit d’una altra forma, la mesura que permeti avaluar el comportament
dels diferents algorismes no pot estat lligat a una execució de l’algorisme donat conjunt
particular d’instàncies. Per contra aquesta hauria d’estimar com es comportarà aquest
en front de nous exemples no vistos anteriorment, és a dir, avaluar-ne la capacitat de
generalitzar.
De les consideracions anteriors, sorgeix el concepte d’estimador de la capacitat de Estimador
generalització. És en aquest punt on per determinar com s’han d’executar els algo-
rismes intervé l’estadı́stica, i els estimadors estadı́stics [Liu and Motoda, 1998]. L’ob-
jectiu d’aquests és estimar el percentatge d’encert que presentarà l’algorisme en front
d’instàncies no utilitzades en l’entrenament. Dit d’una altra forma, la capacitat que
l’algorisme tindrà per generalitzar. La definició dels estimadors, i per tant la forma d’e-
xecutar els algorismes, està clarament lligat a l’estadı́stica. En el que resta d’apartat
es comentaran breument alguns estimadors existents, referint explicacions més detalla-
246 Resolent problemes reals de Mineria de Dades

des a [Liu and Motoda, 1998] i de caire pràctic a [Witten and Frank, 2000], aixı́ com
referències complementaries a [Bernadó, 2001].
Hold-out El primer estimador que es comentarà és l’anomenat hold-out. La idea és simple. Si
el que es vol és estimar com es comporta l’algorisme davant d’instàncies no presents en
el conjunt d’entrenament, una possible solució seria dividir Σ en dos conjunts Σα i Σω
disjunts que satisfaci:
Σ = Σα ∪ Σω ∧ Σα ∩ Σω = ∅ (8.6)

Havent fragmentat Σ tal i com s’ha comentat, es pot emprat Σα com a conjunt
d’instàncies d’entrenament. Per contra Σω s’utilitza com a conjunt d’instàncies per
avaluar el percentatge d’encert un cop l’algorisme ha finalitzat. Posteriorment es pren
aquest percentatge d’entrenament com a estimador de la generalització de l’algorisme.
Aquesta proposta presenta però greus problemes que neixen del fet d’haver de fragmen-
tar el conjunt d’instàncies Σ. El fet es que aquesta fragmentació hauria de garantir
que el conjunt Σω serviran de mesura fiable d’estimació de la capacitat d’estimació.
Estadı́sticament es demostra que aquest estimador sols és acurat quan la mida de Σ és
tendent a infinit [Canavos, 1988]. Aquest punt fa que pràcticament no s’utilitzi.
Bootstrap Una versió més elaborada del hold-out és el que es coneix com a bootstrap, o també
conegut com a 0.632 bootstrap. La idea continua essent idèntica a la presentada en
el cas del hold-out, però la diferència apareix en el punt que aquest estimador si que
especifica com formar els conjunt d’instàncies d’entrenament Σα i de test Σω. El sistema
que proposa es basa en l’ús de mostreig amb reemplaçament. El procés consisteix en
mostrejar el conjunt Σ format per n instàncies n cops per generar el conjunt d’instàncies
Σα. Degut al mostreig que es proposa, dins Σα existiran instàncies no mostrejades.
Aquestes instàncies que no han estat escollides són les que s’utilitzen per formar el
conjunt d’instàncies de test Σω.
Abans de continuar amb l’explicació del 0.632 bootstrap es vol comentar la peculia-
ritat que dona a aquest estimador. Donat el procés de mostreig presentat anteriorment
la probabilitat d’una instància d’ésser escollida per formar part de Σα és 1/n. Con-
seqüentment, la probabilitat de no ser escollida correspon a 1 − 1/n. Si el procés de
mostreig es repeteix n cops, la probabilitat d’una instància de no ser escollida és:
 
1 n
1− ≈ e−1 = 0.368 (8.7)
n

D’això se’n desprén que en front de conjunts de dades relativament grans el 36.8% de
les instàncies de Σ formaran Σω i seran utilitzades per calcular l’error εω de l’algorisme
un cop ha finalitzat l’entrenament. Per contra, el conjunt d’entrenament Σα, de mida
n, contindrà estadı́sticament el 63.2% per cent (d’aquı́ el nom de 0.632 bootstrap)
d’instàncies de Σ algunes d’elles replicades, a partir de les qual es pot calcular εα, o
error obtingut en l’entrenament. Per calcular l’estimador final, no s’escull directament
εω, ja que aquest és excessivament pessimista respecta l’estimació real. Per contra, εα
seria massa optimista. Finalment, l’estimador de l’error ε es calcula com:

ε = 0.632 · εα + 0.368 · εω (8.8)


8.4 Metodologia 247

On l’estimació del percentatge d’error real correspon a 1/ε. Per poder minimitzar
l’impacte que produeix el mostreig en aquest estimador, el procés es repeteix varis
cops, promitjant-ne els resultats obtinguts. Malgrat aquest estimador presenta un bon
comportament en conjunts de dades reduı̈ts, presenta problemes tal i com es relaten
descriuen a [Witten and Frank, 2000].
L’últim dels estimadors que es comentarà en aquest punt és el que es coneix amb el
nom de cross-validation, o validació creuada. Tant el hold-out com el 0.632 bootstrap Cross-
utilitzen algunes instàncies de Σ per dur a terme el test de l’algorisme d’aprenentatge validation
per avaluar-ne la seva capacitat de generalització. Per contra, l’estimador de validació
creuada parteix d’una premissa diferenciada. Aquesta diu que, en el procés de càlcul de
l’estimador, totes les instàncies de Σ han d’haver estat emprades. Dit d’una altra forma,
totes les instàncies han d’haver estat utilitzades per computar el percentatge d’encert
en test de l’algorisme. Per assolir aquest objectiu, l’estimador es recolza en l’ús de folds,
o fragments del conjunt d’instàncies Σ. Donat el conjunt Σ aquest és divideix en k
conjunts, o folds, que satisfan:

(Σ = Σ1 ∪ Σ2 ∪ · · · ∪ Σk) ∧ (Σ1 ∩ Σ2 ∩ · · · ∩ Σk = ∅) (8.9)

Com es pot apreciar a l’equació 8.9, el conjunt Σ es divideix en k conjunts disjunts.


Per altra banda, la mida de cada conjunt Σi correspon, aproximadament, a n/k. És a
dir, les instàncies es reparteixen equitativament entre els diferents folds, essent aquest
procés aleatori. Conseqüentment, cada conjunt Σi contindrà instàncies diferents si es
repeteix el procés degut al mostreig estocàstic que es realitza per la seva formació.
Un cop es disposa d’aquests k folds, ja es pot procedir a executar l’algorisme d’apre-
nentatge que es vol avaluar. La definició de l’estimador requerirà que aquest algorisme
s’executi k vegades. Per cadascuna d’aquestes k execucions l’algorisme utilitza un con-
junt d’entrenament Σα i de test Σω diferents. A la execució 1 el conjunt de test correspon
al primer dels folds Σω 1 = Σ1, mentre que el conjunt d’entrenament està format per la
resta d’instàncies disponibles, és a dir Σα
1 = Σ\Σ1. A la següent execució, la 2, el con-
junt de test correspon Σ2 = Σ2, i el d’entrenament es defineix com Σα
ω
2 = Σ\Σ2. I aixı́
successivament fins a haver executat l’algorisme k cops, cadascun d’ells amb un conjunt
d’entrenament i de test diferents.
Arribats a aquest punt ja es pot procedir a definir l’estimador emprat per la validació
creuada. Sigui pi el percentatge d’encert assolit per l’algorisme en el moment d’ésser
testejat emprat el conjunt de test Σωi . L’estimador p es defineix com:

k
1X
p= pi (8.10)
k
i=1

Amb la definició de l’estimador presentada a l’equació 8.10 s’assoleix la idea original


de poder emprant, en algun moment, totes les instàncies per avaluar la capacitat de
generalització de l’algorisme. Com es pot apreciar, per poder emprar aquest estimador,
és necessari realitzar k proves. Estadı́sticament s’ha demostrat [Witten and Frank, 2000]
que un valor de k que proporciona un estimador acurat, mantenint uns requeriments
248 Resolent problemes reals de Mineria de Dades

acceptables de computació, és 10. Aquest cas particular es coneix com ten-fold cross-
validation.
Aquest estimador, malgrat tot, presenta alguns inconvenients. Tots ells sorgeixen
del mostreig que es realitza de Σ per formar els diferents folds. El comportament
de l’algorisme pot variar d’una execució de la validació creuada a una altra. Per altra
banda, la forma de general el diferents conjunts no garanteix que es mantingui la mateixa
distribució d’instàncies que la que es posseı̈a inicialment. Aquest fet fa que pugui tornar-
se el resultat poc realista.
Per solucionar aquestes dues problemàtiques existeixen un parell de variant de la
validació creuada. La primera consisteix en repetir l’experiment m cops, i promitjar els
resultats obtinguts en aquests m experiments. Un valor que es sol emprar habitualment
és el de 10 [Frank and Witten, 1998]. A aquesta variant, quan k = 10, se l’anomena
ten ten-fold cross-validation. Per altra banda, una altra variant d’aquest operador és la
que es centra en mantenir dins de cada fold la mateixa distribució de classes que apareix
al conjunt d’instàncies Σ disponible. Aquesta variant coneguda com stratified cross-
Stratified validation, o validació creuada estratificada, construeix cadascun del folds mantenint la
cross- distribució de classes de Σ, sempre i quan això sigui possible. L’estratificació també
validation aporta una altra propietat interessant. Aquest és la de reduir l’impacte del mostreig que
es realitza en els folds sobre l’estimador. Malgrat això la repetició de l’experimentació
ajuda a obtenir una mesura més acurada de l’estimador.
Per concloure aquesta breu revisió d’estimadors estadı́stics es vol comentar un cas
particular de la validació creuada. Aquest és l’estimador conegut com leave-one-out
LOO (LOO). Aquest estimador s’obté quan k = n, és a dir quan es fa una validació creuada
en la qual el nombre de folds correspon amb el nombre d’instàncies de Σ. En aquesta
situació Σω
i està format cada cop per una única instància. D’aquesta forma desapareix
la necessitat de dur a terme un mostreig de Σ, convertint l’estimador en determinı́stic,
evitant aixı́ la necessitat de repetir l’experimentació. Per contra, això implica un elevat
cost, ja que l’algorisme d’aprenentatge s’ha d’executat n cops.
Per les proves que es podran trobar en els apartats següents s’ha utilitzat com a
estimador el stratified ten-fold cross-validation. Els motius d’escollir aquest estimador
passen per dos motius principals. El primer prové del tipus de problemes de mineria de
dades que es volen resoldre. Degut a l’elevat volum d’instàncies que es poden trobar
en aquest tipus de problemes de mineria fa impracticable l’ús d’estimadors com el LOO,
degut a l’elevat nombre d’execucions que s’haurien de dur a terme. Per aquest mateix
motiu es descartà també l’ús de validacions creuades repetitives, deixant-ho com a lı́nia
de treball futur. Finalment, el mètode que s’escollı́ es correspon a l’ús de validacions cre-
uades estratificades pels diferents algorismes comparats aixı́ com pels diferents conjunts
de dades.
8.4 Metodologia 249

8.4.2 Comparant algorismes

El segon punt a decidir és quines eines s’empraran per comparar el resultats obtinguts
pels diferents algorismes davant els conjunts de dades disponibles. Aquest no és una
tasca senzilla. El principal problema amb el qual tota la comparació d’algorismes és el
que s’ha anomenat a la literatura relacionada com el problema de superioritat selectiva
(selective superiority problem) [Brodley, 1993]. Existeixen proves empı́riques que els
algorismes tradicionals d’aprenentatge funcionen bé en alguns però no en tots el possibles
problemes. Alguns motius del per què d’aquesta problemàtica s’ha presentat en el capı́tol
3, concretament a l’apartat 3.3 (pg. 23) on es presentaven diferents representacions
del coneixement emprades per la classificació, i alhora es posaven de relleu les seves
limitacions. i
Davant d’aquesta situació, es recorré a l’estadı́stica per permetre estudiar com-
parativament el comportament dels algorismes en el problemes concrets dels quals es
disposa. Concretament, les eines escollides són tests basats en hipòtesis estadı́stiques
[Sachs, 1984, Canavos, 1988]. L’objectiu d’utilitzar aquests tests és permetre avaluar si
les diferències de comportament d’un algorisme respecte un altre, davant un conjunt de
dades concret, són significatives (estadı́sticament significatives). En el cas de ser-ho, es
podrà afirmar, amb un cert nivell de confiança, que en el problema concret analitzat, és
millor emprar un o altra algorisme. Com es pot apreciar, aquesta aproximació encaixa
correctament dins les consideracions esmentades a l’apartat anterior.
Dels possibles tests estadı́stics que es poden escollir n’hi ha dos d’especialment
adients pels objectius que es persegueixen. El primer és el conegut com a test t de
Student, mentre que el segon és el test basat en rang i signe de Wilcoxon. Ambdós
tests es calculen a partir del valor de l’estimador emprant, que en aquest cas correspon al
calculat a partir de la validació creuada estratificada. Recull de referències i justificacions
sobre aquests dos tests es poden trobar amb detalla a [Bernadó, 2001].
Concretament, el test t de Student es basa en les diferències aparellades de la Student
validació creuada dels dos algorismes comparats. És a dir, donats dos algorismes a
comparar, a i b, un cop realitzada la validació creuada es disposa dels resultats dels
diferents tests obtinguts per cada algorimes. O el que és el mateix, per l’algorisme a
s’ha obtingut {pa a a
1 , p2 . . . pk}, mentre que per l’algorisme b aquest valors corresponent a
{pb b b
1 , p2 . . . pk}. Per calcular l’estadı́stic t és necessari calcular les diferències aparellades
{d1, d2 . . . dk} com di = pa b
i − pi . Calcular aquestes diferències és lı́cit degut a que
els folds emprats per ambdós algorismes a i b són els mateixos. Calculades aquestes
diferències es pot també és calcular la mitjana de les diferències, d, això com la seva
variança σ2d. Amb aquesta informació ja es pot calcular l’estadı́stic t com:

d
t= q 2 (8.11)
σd
k

Un cop obtingut el valor de t, és precı́s decidir el nivell de confidència nc que es vol
emprar. Els valors que es solen emprar es solen moure entre un 5% i un 1%. Amb aquest
250 Resolent problemes reals de Mineria de Dades

valor ja es pot determinar el valor del llindar z que correspon a la distribució de Student.
Concretament, si els experiment corresponen a una validació creuada amb k=10, els
valor de z s’extreu de les taules de la distribució de Student amb 9 graus de llibertat.
Per altra banda, en el cas particular de comparar els algorismes a i b aquest test es
convenient realitzar-lo amb dues cues, fet que s’ha de tenir en compte en el moment de
consultar les taules. Tot seguit, amb els emprant els valors de t i z, ja es pot determinar
si el comportament d’un algorisme és significativament millor o pitjor pel conjunt de
dades estudiat amb el nivell de confidència escollit. Més detall sobre l’aplicació d’aquest
tipus de test per comparar algorismes d’aprenentatge es pot trobar a [Dietterich, 1998].
Wilcoxon El segon dels tests emprants és el conegut com a test de Wilcoxon. Aquest test
es basa en rang i el signe de l’estimador emprat, que en aquest cas és el basat en els
resultats de la validació creuada. L’aproximació d’aquest test difereix de l’anterior, en el
qual l’objectiu ra saber si un algorisme a és millor o pitjor que un altre algorisme b fixat
un cert nivell de confidència nc. En el cas del test de Wilcoxon el que s’obté és amb
quin nivell de confidència es pot afirmar que un determinat algorisme a és millor que un
altre algorisme b. Les consideracions a realitzar per poder explicar aquest test són un
xic extensa, motiu pel qual s’ha decidit dirigir al lector interessat a [Conover, 1971], on
trobarà explicat tant el que fa referència al test, com a la forma i condicions que s’han
de donar per poder-lo aplicar a la comparació d’algorismes.

8.4.3 Disseny final de les proves

Arribats a aquest punt ja es pot contestar a les dues preguntes que es feien al comença-
ment d’aquest apartat. Les proves s’han realitzat seguint de la següent forma. Per cada
conjunts de dades, presentat a l’apartat 8.1 (pg. 220), s’han executat tot els algorismes
disponibles, tant els presentats a l’apartat 8.2 (pg. 231) com el GALE, emprant validació
creuada estratificada amb una k=10. Un cop executats aquests algorismes, els resultats
obtinguts s’han comparat estadı́sticament emprant els dos testos estadı́stic presentats,
el de Student i el de Wilcoxon.
Degut a la peculiaritat que presenta el GALE de poder evolucionar diferents tipus de
representacions del coneixement, aquest fet afecta la forma en la que es presentaran els
resultats tot seguit. Per contra, tal i com s’ha vingut comentant repetides vegades, els
algorismes presentats a l’apartat 8.2 (pg. 231) solen estar disenyats per treballar sols
amb un tipus particular de representació. Per aquest motiu els resultats que es presenten
tot seguit s’han agrupat en funció del tipus de representació del coneixement que s’està
emprant. Principalment, aquestes agrupacions corresponen a regles, apartat 8.5 (pg.
251), instàncies, apartat 8.6 (pg. 256), i arbres de decisió, 8.7 (pg. 263). Aquests
resultats s’acompanyen amb una primera aproximació a la comparació estadı́stica basada
amb el test de Student.
Per altra banda, a l’apartat 8.8 (pg. 269) es presenta el resum dels resultats obtin-
guts, aixı́ com els d’aquells algorismes que no encaixen en els tres grans blocs esmentats
anteriorment. Aquests s’amplien amb el resultats dels dos tests estadı́stics aplicats, ara
8.5 Obtenció de regles 251

Taula 8.4: Percentatge d’encert en classificació i desviació estàndard de les proves em-
prant ten fold crossvalidation. Els resultat es marquem amb un ◦ si mostren una millora
significativa (significant en un 1% respecte el t-test aperellat de dues cues) respecte el
corresponen resultat del GALE, i amb una • si presenten una degradació representativa.
Cjt 0-R 1-R PART XCS GALE
bre 65.1±1.1• 92.3±0.6 95.3±2.2 96.4±2.5 94.9±3.2
led 10.5±0.0• 18.2±0.2• 75.1±0.0 74.5±0.0 75.0±0.0
mux 49.9±0.1• 51.6±0.3• 100.0±0.0 100.0±0.0 100.0±0.0
Pmg 41.8 54.0 90.1 90.3 90.0

sı́ sobre tot el corpus de proves realitzades.

8.5 Obtenció de regles

Els primers resultats que es presentaran són aquells que afecten a la obtenció de regles.
Aquest primer apartat dedicat a la presentació de resultats recull les proves realitzades
emprant els algorismes 0-R, 1-R, PART, XCS, i GALE. Aquest algorismes s’han utilitzat
per obtenir regles que descriguin tres conjunts de dades, que són: (1) el bre, (2) el led,
i (3) el mux.
El motiu de sols començar tant sols amb tres conjunts de dades rau en les restriccions
exposades a l’apartat 6.4.1 (pg. 144) sobre el tipus de regles que evoluciona directament
el GALE. Aquestes, hereves de les que s’utilitzen en els sistemes classificadors, treballen
amb atributs nominals, on per poder treballar amb atributs reals requereixen un prepro-
cessat previ basat en la discretització dels valors numèrics. Per altra banda, tal i com
es comentà al final de a l’apartat 6.4.1 (pg. 144), per obtenir regles que treballin amb
atributs nominals i numèrics el GALE utilitza arbres de decisió ortogonals per extreuren
regles de classificació, tal i com es podrà trobar més endavant en aquest capı́tol.
Conseqüentment, degut a les consideracions anterior, de tots els conjunts de dades
disponibles sols se n’han utilitzat tres. Per la seva banda, tant el led com el mux són
problemes artificials especialment pensats per treballar amb atributs nominals, essent
el primer un problema de classificació n-ari mentres que el segon és binari. Per altra
banda, el tercer problema emprat, el bre, és un problema de classificació binari. Malgrat
els atributs es consideren numèrics, ja que prenen valors enters pertanyents a l’interval
[1,10], es pot veure clarament la seva utilització directa com a problema amb atributs
nominals pertanyents a {1,2,3,4,5,6,7,8,9,10}. Amb aquesta consideració es pot utilitzar
igualment.
La taula 8.4 presenta el resultat obtingut per cadascun dels algorismes als tres conjunt
de dades esmentats anteriorment. La taula mostra el resultat dels experiments emprant
validació creuada estratificada, emprant 10 folds, concretament la mitjana final, aixı́
252 Resolent problemes reals de Mineria de Dades

com la desviació obtinguda en l’experimentació pels diferents folds. Aquest resultats


es complementen amb el resultat del test estadı́stic t de Student. Aquest compara el
comportament, per cada conjunt de dades, del GALE respecte la resta d’algorismes
utilitzats.
Dels resultats de la taula 8.4 se’n poden extreure diferents consideracions. La primera
és la que afecta tant al 0-R com al 1-R. Ambdós algorismes presenten un comportament
molt pobre davant dels dos conjunts de dades artificials led i mux. Per altra banda,
els altres tres (PART, XCS i GALE) presenten un comportament central al voltant del
màxim assolible. Concretament en el cas del mux, tots tres algorismes obtenen un 100%
d’encert en la validació creuada, mentre que en el problema del led tots tres es centren
al voltant de llindar màxim de classificació que genera la introducció d’un 10% de fressa
a les mostres.
Quelcom diferent succeeix en el problema real bre. En aquest problema, un cop més
el PART, el XCS i el GALE presenten un molt bon comportament. Per contra, el 0-R
no pot fer massa per resoldre eficientment el problema. Però el que si resulta sorprenen
és constatar el comportament del 1-R. Malgrat la seva simplicitat, els resultats que obté
en aquest problema real s’obté un comportament força competitiu, ja que sols es troba
entre un 2-3% del percentatge d’encert obtingut pels altres models, força més com-
plexes. Aquests resultat sembla corroborar les afirmacions realitzades a [Holte, 1993],
en les quals es poden resumir dient que, en molts problemes reals, el comportament
de classificadors simples pot ser plenament competitiu. Aquest punt es pot comprovar
a l’apartat 8.8 (pg. 269), on es pot veure un compendi del comportament d’aquest
algorisme en front dels diferents problemes reals escollits.
Abans de passar a comentar els resultats obtinguts dels tests estadı́stics duts a ter-
me, tot seguit es presentaran, a tall d’exemple, algunes de les regles obtingudes pels
diferents algorismes emprats. Concretament, aquestes regles són el resultat d’emprar
l’algorisme d’aprenentatge sobre tot el conjunt de dades disponibles. Les regles corres-
ponen al problema real bre. Comentar en aquest punt que A={Clump Thickness,
Cell Size Uniformity, Cell Shape Uniformity, Marginal Adhesion, Single Epi Cell Size,
Bare Nuclei, Bland Chromatin, Normal Nucleoli, Mitoses}, mentre que X={benign,
malignant}. Les regles, que es presenten a continuació, s’acompanyen amb el seu per-
centage d’encert global, aixı́ com per la matriu de confusió associada.
Tal i com ja es comentà anteriorment, el 0-R classifica les instàncies en funció de
la classe majoritària present en el conjunt d’entrenament. En el problema bre, aquesta
classe correspon a bening. Conseqüentment, la regla que proposa el 0-R esdevé:

∅ → benign (8.12)

Com es pot apreciar aquesta regla no presenta antecedent, pels motius esmentats
anteriorment. Malgrat això, degut a la distribució de classes al conjunt d’instàncies
Σ, aquesta regla presenta un percentatge d’encert superior al 50%, concretament el
65.52%. Com es pot apreciar aquest comportament es el resultat particular d’explotar el
balanç de classes, problema molt important a tenir present en el moment de dur a terme
8.5 Obtenció de regles 253

el processos de mineria de dades. Per altra banda, la matriu de confusió associada és la
que es presenta tot seguit.
 
458 0
(8.13)
241 0

A la matriu anterior, les files corresponen a la classe real de les instàncies de Σ.


Per contra, les columnes representa la classe en la qual l’algorisme l’ha classificat. Com
es pot apreciar, degut a que l’algorisme sols classifica les instàncies com a benign,
sols apareix una columna amb informació rellevant. A la primera fila hi apareixen les
instàncies correctament classificades. Per contra a la segona fila apareixen 241 instàncies
que essent de classe malignant han estat classificades com a benign.
Una versió més elaborada d’aquest tipus de regla és la que proposa el 1-R. La regla
que genera si que posseeix un antecedent. Malgrat això, i tal i com es comentà en el seu
moment, aquesta sols ve definida per un únic terme. Aquest terme correspon a un test
que involucre un dels possibles atributs de A. Per altra banda, la versió emprada del 1-R
assumeix que es troba en un món tancat quan treballa amb problemes de classificació Món tancat
binària. És a dir, suposa que tota instància no coberta per la regla proposada, pertany
a la classe contrària a la que apareix a la regla. La regla que proposa el 1-R es la que
es mostra a continuació.

Cell Size Uniformity < 3.5 → benign


(8.14)
→ malignant

Com es pot apreciar, aquesta regla sols realitza un senzill test sobre un dels possibles
atributs de A, concretament sobre Cell Size Uniformity. Malgrat l’aparent simplicitat
de la representació instensional proposada, el percentatge d’encert assolit és remarcable,
assolint un 92.70%. Observant la matriu de confusió que es presenta a continuació,
es pot apreciar l’utilitat que pel 1-R té l’assumpció d’un món tancat. Per contra,
tal i com es pot apreciar a la taula 8.4, el fet de no poder-ho aplicar a problemes
de classificació n-ari, com led, empitjora el seu comportament, necessitant d’altres
mecanismes, la consideració dels quals cau fora del treball que aquı́ es presenta, referint
al lector interessat a [Holte, 1993].
 
444 14
(8.15)
37 204

Com es pot apreciar a la matriu de confusió anterior, la regla proposada pel 1-R
cobreix satisfactòriament 444 instàncies benign, sols errant en 14 d’aquestes instàncies.
Per altra banda malauradament, la regla també cobreix incorrectament 37 instàncies
marcades com a malignant.
Deixant enrera aquestes aproximacions simples, el PART és capaç de generar con-
junts de regles, no sols una. Per altra banda, aquestes regles poden arribar tenir a
l’antecedent tants testos com atributs formen el conjunt A. Concretament, pel proble-
254 Resolent problemes reals de Mineria de Dades

ma bre, el PART genera deu regles diferents, que són les que es presenten a continuació.
Cell Size Uniformity ≤ 2 ∧ Bare Nuclei ≤ 3∧
Single Epi Cell Size ≤ 2 → benign
Cell Shape Uniformity > 2 ∧ Cell Size Uniformity > 4∧
Clump Thickness > 6 → malignant
Cell Shape Uniformity ≤ 2 ∧ Clump Thickness ≤ 5 → benign
Bare Nuclei > 8 ∧ Bland Chromatin > 3 → malignant
(8.16)
Normal Nucleoli ≤ 9 ∧ Marginal Adhesion > 3 → malignant
Normal Nucleoli > 8 → malignant
Mitoses ≤ 1 ∧ Bare Nuclei ≤ 2 → benign
Clump Thickness > 6 → malignant
Bland Chromatin > 2 ∧ Cell Shape Uniformity ≤ 3 → malignant
→ benign

Com es pot apreciar, el part no fa cap assumpció. Les regles combinen tota mena
d’antecedents, aixı́ com tota mena de classes en el conseqüent. Concretament, de les deu
regles que genera, quatre marquen instàncies com a benign, mentre que sis ho fan com
a malignant. Amb aquest conjunt relativament compacte de regles, el PART es capaç
d’assolir un percentatge d’encert sobre el conjunt original d’instàncies Σ del 98.43%.
Però un dels punts interessants d’aquestes regles és amb l’augment amb la cura en la
classificació s’acaba assolint també una clara millora en la fiabilitat, reduint-se el nombre
d’instàncies mal classificades. Aquest ha d’ésser també un dels objectius del treball futur
d’aquesta tesi. El comportament de la classificació del PART es pot apreciar a la matriu
de confusió que es presenta tot seguit.
 
451 7
(8.17)
4 237

L’últim conjunt de regles que es presentarà en aquest aparat és el que genera el
GALE quan s’executa amb totes les instàncies del problema bre. A diferència de les
regles vistes anteriorment el GALE utilitza el mateix tipus de representació que utilitzen
els sistema classificadors que pertanyen a l’enfocament de Michigan. És per aquest
motiu que no es presenten les que genera el XCS, ja que a elles també s’hi poden aplicar
les mateixes consideracions que es faran per les que ha general el GALE. Fetes aquestes
consideracions prèvies, a la taula 8.5 es presenten les regles que ha general el GALE.
La taula 8.5 presenta dues cares de la mateixa moneda. A ma esquerra presenta el
conjunt de regles que el GALE ha generat en tal i com aquestes han estat codificades
en el seu genotip. Per contra, a ma dreta, apareixen les mateixes regles expressades tal
i com s’ha fet amb els sistemes d’aprenentatge anteriors. Abans de tirar endavant amb
els comentaris sobre aquestes regles, és important recalcar el fet que el GALE interpreta
les regles, a diferència del que fa el XCS, emprant l’ordre amb el que apareixen en el
genoma de l’individu. Un cop feta aquesta puntualització, ja es pot comentar alguns
punts rellevants sobre els resultats obtinguts.
8.5 Obtenció de regles 255

Taula 8.5: Regles produı̈des pel GALE en el problema bre


Genoma Regla
1 ####5####:1 Single Epi Cell Size = 5 → malignant
2 9########:1 Clump Thickness = 9 → malignant
3 6########:1 Clump Thickness = 6 → malignant
4 7########:1 Clump Thickness = 7 → malignant
5 #9#######:1 Cell Size Uniformity = 9 → malignant
6 ###9#####:1 Marginal Adhesion = 9 → malignant
7 #4#######:1 Cell Size Uniformity = 4 → malignant
8 #5#######:1 Cell Size Uniformity = 5 → malignant
9 #######9#:1 Normal Nucleoli = 9 → malignant
10 #####96##:1 Bare Nuclei = 9 ∧ Bland Chromatin = 6 → malignant
11 ###6#####:1 Marginal Adhesion = 6 → malignant
12 ##7######:1 Cell Shape Uniformity = 7 → malignant
13 ###3#####:1 Marginal Adhesion = 3 → malignant
14 #########:0 → benign

El primer primer punt a resaltar rau en el fet que les regles posseeixen en el seu
antecedent testos diferents a les presentades anterioment. Això fa referència a que les
regles obtingudes no treballen amb testos relacionals com ho feien les anteriors. Aquest
punt provoca que el nombre de regles generades sigui més elevat degut a les dificultat
d’expressar certs tipus de conceptes amb aquest tipus de regles. Per exemple, a les
regles 2, 3 i 4, els testos que s’estan proposant corresponen a Clump Thickness = 9,
Clump Thickness = 6, Clump Thickness = 7. Pel que se’n despren, el test més apropiat
podria passar per Clump Thickness ≥ 6, però degut a la codificació emprada en el
genoma aquest concepte no és expressable1 . Malgrat això el procés evolutiu solventa
el problema per extensió, repetint regles en les qual sols canvia el valor del test. Una
situació similar es torna a repetir, per exemple, a les regles 7 i 8.
Una altra peculiaritat de les regles obtingudes amb el GALE és la presència d’una
certa jerarquització dins el conjunt de regles [Shu and Shaffer, 1991]. Dit d’una altra
forma, degut a l’ordre amb el qual s’avaluen les regles, les regles que apareixen cap al
principi tendeixen a cobrir menys instàncies i força més especı́fiques que les que apareixen
al final. Serveixi d’exemple que en el conjunt de regles presentat, la última regla cobreix
444 instàncies, o el que és el mateix un 63.51% de les instàncies de Σ. Per altra banda,
les regles evolucionades també permeten entreveure la solució que ha buscat explotat
el procés evolutiu del GALE. Es pot veure clarament que les regles s’han centrat a
identificar les exepcions, les tretze primeres regles sols cobreixen un 36.49% de Σ, i a
més a més aquestes coincideixen amb les instàncies de la classe malignant, minoritària
dins de Σ. D’això es pot veure, que sense cap mena d’indicació, el procés evolutiu, guiat
pel mètode d’activació, ha acabat generant una solució que explota l’assumpció d’un
món tancat. Identifica les exepcions, i assomeix que tot el que no apareix dins aquest
1
Aquest punt no es preocupant degut a aquest tipus d’expressivitat es pot assolir a partir de l’extracció
de regles d’arbres de decisió evolucionats pel GALE.
256 Resolent problemes reals de Mineria de Dades

Taula 8.6: Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La taula mostra els
resultats emprant nc=0.05 i nc=0.01.
t-test aparellat d’una cua nc=0.05 t-test aparellat d’una cua nc=0.01
0-R 1-R PART XCS GALE 0-R 1-R PART XCS GALE
0-R - 0 0 0 0 - 0 0 0 0
1-R 2 - 0 0 0 1 - 0 0 0
PART 3 3 - 0 0 3 2 - 0 0
XCS 3 3 0 - 0 3 2 0 - 0
GALE 3 3 0 0 - 3 2 0 0 -

sac pertany a la classe contraria.


Aquesta polı́tica evolutiva d’explotació de l’assumpció d’un món tancat permet al
GALE assolir un percentatge d’encert del 96.42%. Aquest percentatge d’encert és el
resultat del comportament en la classificació que presenta la matriu de confusió que es
presenta a continuació.
 
444 14
11 230

Per concloure aquest apartat dedicat a l’obtenció de regles, comentar els resultats
estadı́stics obtinguts a l’aplicar el test t de Student. Malgrat un estudi detallat es
podrà trobar a l’apartat 8.8 (pg. 269), la taula 8.6 mostren que no existeix diferències
significatives entre el PART, el XCS i el GALE en els tres conjunts de dades estudiats.
Per contra si que conclouen la clara superioritat dels tres mètodes anteriors sobre el
0-R. Per contra, res es pot comentar en aquest punt sobre el 1-R. Això és degut al bon
comportament que aquest obté en el problema real bre, deixant per més endavant el
tornar a avaluar aquest punt.

8.6 Obtenció d’instàncies

El següent tipus de representació del coneixement que es tractarà és la basa en instàncies.
Aquest segon apartat dedicat a la presentació de resultats recull les proves realitzades
emprant els algorismes IB1, IB2, IB3, IB4, i GALE. Aquest algorismes s’han utilitzat per
obtenir conjunts d’instàncies que descriguin deu dels conjunts de dades disponibles, que
són: (1) el bps, (2) el bre, (3) el gls, (4) el irs, (5) el mmg, (6) el mux, (7) el pmi,
(8) el son, (9) el tao, (10) el veh.
Tal i com es presentà a l’apartat 6.4.3 (pg. 159), el GALE és capaç també d’e-
volucionar conjunts d’instàncies com a representació del coneixement. És important
recalcar en aquest punt que aquestes instàncies que evoluciona no tenen una relació
directa amb les que formen Σ. Aquestes instàncies evolucionades són el que també s’ha
8.6 Obtenció d’instàncies 257

Taula 8.7: Percentatge d’encert en classificació i desviació estàndard de les proves em-
prant ten fold crossvalidation. Els resultat es marquem amb un ◦ si mostren una millora
significativa (significant en un 1% respecte el t-test aperellat de dues cues) respecte el
corresponen resultat del GALE, i amb una • si presenten una degradació representativa.
Cjt IB1 IB2 IB3 IB4 GALE
bps 82.78±3.49 75.74±2.80• 78.48±6.16 76.43±5.97• 83.64±4.71
bre 95.99±1.45 91.85±3.93• 94.44±2.58 94.85±3.18 94.99±2.50
gls 66.38±10.88 62.62±10.65 65.41±10.48 66.35±9.12 64.95±9.38
irs 95.30±3.29 93.98±3.78 91.33±6.31 96.66±4.71 95.33±3.22
mmg 64.36±14.06 66.20±11.22 60.19±11.80 60.17±9.05 66.66±11.55
mux 99.85±0.24 87.06±2.62• 81.59±3.47• 81.34±3.76• 100.00±0.0
pmi 70.42±3.75• 64.30±4.28• 66.91±7.10• 70.82±5.14 75.39±4.21
son 83.66±9.60 80.77±12.85 61.53±10.94• 63.47±11.28• 81.73±9.94
tao 95.99±1.45 91.86±3.93 94.99±2.85 94.85±3.17 95.50±1.03
veh 69.63±4.91 65.49±3.01 63.25±5.25 63.71±3.87 68.79±3.78
Pmg 82.44 77.99 75.81 76.86 82.67

anomenat prototips a la literatura relacionada amb l’aprenentatge basat en instàncies.


Alguns exemples il·lustratius es poden trobar a [Domingos, 1995] o també en els treballs
publicats a [Wettschereck and Dietterich, 1994, Wettschereck and Dietterich, 1995].
Pel motiu esmentat anteriorment, es considerà adient comparar el comportament
del GALE, no sols amb l’IB1, sinò també amb algorismes especı́fics de reducció del
nombre d’instàncies com són l’IB2, l’IB3, l’IB4. El motiu de la comparació amb l’IB1
parteix del punt que el mètode de classificació que utilitza és el mateix que el GALE
implementa. Concretament, veı́ més pròxim emprant distància euclidiana. Per altra
banda, els altres tres algorismes, a part d’emprar les mateixes tècniques de classificació
de l’IB1 cerquen alhora una reducció del nombre d’instàncies emmagatzemades. Aquest
punt és interessant, ja que les instàncies proposades pel GALE admeten una interpretació
alternativa. Concretament, aquestes instàncies evolucionades es poden veure com la
sintetització de les instàncies originals presents a Σ. Conseqüentment, quan el GALE
evoluciona instàncies es pot veure que vol obtenir el rendiment de l’IB1 alhora que en
redueix els nombre d’instàncies necessàries per assolir aquest rendiment.
Per altra banda, els conjunts de dades han estat escollits per disposar d’un ventall
ampli de problemes. Dins aquest grup hi ha problemes amb una dimensionalitat baixa,
com el tao on |A|=2, fins a problemes amb un gran nombre d’atributs, com per exem-
ple el son on |A|=60. També dins d’aquesta diversitat es poden trobar problemes de
classificació binària, com el bre on |X|=2, o n-ària, com el gls on |X|=6.
La taula 8.7 recull els resultats de la experimentació realitzada amb els cinc algorismes
anteriorment comentats emprant els deu conjunts de dades esmentats anteriorment. La
taula presenta el resultat dels experiment de validació creuada estratificada realitzats.
Per cada algorisme i conjunt de dades presenta la mitjana i la desviació (en els folds)
obtinguda. Per altra banda, els resultats obtinguts en cada conjunt per l’IB1, l’IB2,
258 Resolent problemes reals de Mineria de Dades

Taula 8.8: Mitjana d’emmagatzematge (en %) i desviació estàndard de les execucions


de ten fold cross-validation.
Cjt IB1 IB2 IB3 IB4 GALE
bps 100.0±0.0 26.61±0.68 13.62±0.97 12.82±0.73 2.67±0.92
bre 100.0±0.0 8.19±0.29 2.68±0.75 2.65±0.62 3.30±0.83
gls 100.0±0.0 42.99±1.77 44.34±1.43 39.40±2.31 7.18±1.82
irs 100.0±0.0 9.85±0.60 11.26±1.25 12.00±1.15 3.84±1.21
mmg 100.0±0.0 42.28±2.47 14.30±4.66 21.55±2.60 7.25±2.17
mux 100.0±0.0 18.99±0.65 15.76±1.06 15.84±0.72 0.80±0.17
pmi 100.0±0.0 36.02±0.97 15.62±0.92 15.02±1.12 2.77±1.10
son 100.0±0.0 27.30±1.37 22.70±2.02 22.92±1.68 10.37±3.16
tao 100.0±0.0 3.03±0.11 0.99±0.27 0.98±0.23 2.09±0.07
veh 100.0±0.0 39.93±1.29 33.36±2.03 31.66±0.97 2.85±1.02
Pmg 100.0 25.52 17.46 17.48 4.31

l’IB3 i l’IB4 es marquen amb el resultat del test t de Student de dues cues (nc=0.01).
D’aquests resultats es pot observar alguns punts interessants. El primer punt a
comentar és que el GALE sempre obté millors resultats que els algorismes IB2 i IB3.
Aquest algorismes, en el seu afany de reduir el nombre d’instàncies que utilitzen permeten
una caiguda en el seu rendiment comparats amb els mateixos resultats de l’IB1. Per altra
banda, l’IB4 també presenta el mateix comportament d’empitjorament, sols presentant
una anomalia en el problemes irs en el qual és el que obté els millors resultats. Per
altra banda, com es pot apreciar a la taula, l’IB1 i el GALE es reparteixen al 50% els
conjunts de dades en els quals presenten un millor comportament. Punt curiós és el
comportament del GALE en el problema pmi en el qual supera de llarg el comportament
de l’IB1, tot i emprar la mateixa polı́tica de classificació.
Malgrat aquest resultats, on realment es pot apreciar la diferència de comportaments
entre els algorismes emprats i el GALE és a la taula 8.8. Aquesta taula presenta per
l’IB1, l’IB2, l’IB3 i l’IB4 el percentatge d’instàncies retingudes respecte el conjunt original
Σ, aixı́ com la desviació obtinguda. Per la seva part, el GALE presenta el percentatge
d’instàncies emprades que corresponen a la solució final evolucionada respecte el conjunt
d’instàncies Σ, aixı́ com la desviació obtinguda.
Un dels primers punts que destaquen a taula 8.8 és la gran diferència en els percen-
tatges de reducció entre el GALE i la resta d’algorismes. Com es pot apreciar, en vuit
dels deu problemes el GALE presenta un mı́nim en la reducció del nombre d’instàncies
emprades per la classificació. Pel que fa als altres dos conjunts en que el GALE pre-
senta un percentatge de reducció lleugerament superior corresponen als problemes bre
i tao. Pel que fa a aquest últim, aquest major nombre d’instàncies apareix degut a
la complexitat que aquest problema sintèctic ofereix. Degut a les seves fronteres de
classificació no lineals, tal i com es presentava a la figura 3.1 (pg. 26), l’evolució del
conjunt d’instàncies que ha de dur a terme el GALE utilitza individus amb un nombre
un xic més elevat d’instàncies per poder aproximar satisfactòriament aquestes fronteres.
8.6 Obtenció d’instàncies 259

6
4

4
2

2
0

0
y

y
−2

−2
−4

−4
−6

−6
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

x x

(a) TAO (b) GALE

Figura 8.11: Instàncies obtingudes pel GALE en el problema tao

Quelcom semblant succeeix també en el problema bre.


A l’igual que es realitzà amb els resultats obtinguts amb les representacions ba-
sades en regles, tot seguit, i abans de comentar els resultats estadı́stics obtinguts, es
presentaran alguns conjunts d’instàncies obtinguts amb l’aplicació del GALE. A l’igual
que es realitzà a l’apartat anterior, els resultats que es presentaran a continuació són
el resultat d’executar GALE emprant totes les instàncies de Σ i observar els resultats
que se n’obtenen. Concretament, els resultats que es presenten corresponen a dos dels
problemes utilitzats anteriorment, tao i irs, aixı́ com d’un altre conjunt de dades no
utilitzat anteriorment com és el wne.
El primer conjunt d’instàncies que es presenta és el que el GALE obté pel problema
tao. Aquestes instàncies es poden representar gràficament tal i com apareix a la figura
8.11. Com es pot apreciar, el GALE ha estat capaç d’identificar sense problemes les
quatre regions principals de classificació que apareixen en aquest problema. Per altra
banda, en aquesta representació gràfica també es pot intuir com les instàncies evolu-
cionades artificialment pel GALE s’adapten a la forma original del problema tao. El
nombre d’instàncies generades es de 50 que correspon a un 2.65% del conjunt original.
Pel que fa al rendiment de les instàncies presentades a la figura GALE, aquestes
classifiquen correctament el 98.9% de les instàncies original del problema tao. Es im-
portant recalcar que aquest elevat percentatge d’encert (sols s’erra la classificació de 21
instàncies) es pot assolir ja que el GALE ha estat capaç d’identificar les regions internes
del TAO. Les instàncies que es classifiquen incorrectament pertanyen totes a les fronte-
res entre classes de la figura. Pel que fa al comportament de la classificació d’aquestes
instàncies, aquest es pot apreciar a la matriu de confusió que es presenta tot seguit.
 
937 7
(8.18)
15 929

El següent conjunt d’instàncies que es presenta és el que el GALE obté quan s’aplica
sobre totes les instàncies del problema irs. Per aquest problema el conjunt evolucionat
que s’obté està forma per tant sols sis instàncies, fet que correspon a un 4% del conjunt
260 Resolent problemes reals de Mineria de Dades

d’instàncies originals de Σ per aquest problema. Aquestes instàncies es presenten a la


taula 8.9, on el número marcat com a # indica el nombre d’instàncies que aquesta la
instància descrita ha classificat.

Taula 8.9: Instàncies produı̈des pel GALE en el problema irs


Sepal length Sepal width Petal length Petal width Class #
4.6650586 3.6077218 3.572546 0.41394678 Iris setosa (50)
5.574171 2.8441253 3.4442923 1.9518645 Iris virginica (18)
5.574171 2.8579612 3.4442923 1.6303324 Iris versicolor (50)
4.881645 2.2804887 5.600189 1.8353096 Iris virginica (3)
5.574171 2.3521595 6.6273174 2.4504204 Iris virginica (16)
5.574171 2.8441253 6.6273174 1.3019013 Iris virginica (13)

El que es remarcable d’aquest conjunt d’instàncies no és el seu nombre, sinò el seu
percentatge d’encert. Concretament el percentatge d’encert que s’obté amb aquestes
sis instàncies és del 100%. Això vol dir que totes les instàncies originals del conjunt Σ
són correctament classificades utilitzant solament les sis que el GALE ha evolucionat.
Aquest punt queda reflectit clarament a la matriu de confusió resultant que es presentat
tot seguit.
 
50 0 0
 0 50 0  (8.19)
0 0 50

L’últim conjunt d’instàncies que es presentarà en aquest apartat són les que s’han
obtingut pel GALE en el problema wne. El motiu de presentar els resultats d’aquest
problema és posar de manifest que la capacitat de sı́ntesi del GALE presentada a l’apartat
anterior no és un cas particular. En aquest cas, tal i com es pot apreciar a la taula 8.10,
el GALE genera nou instàncies que corresponen al un 5.06% de conjunt d’instàncies Σ
original. El conjunt d’instàncies de la taula es complementa, a l’igual que en el cas
anterior, amb el nombre d’instàncies del conjunt original de Σ que classifica cadascuna
de les instàncies evolucionades.
A l’igual que succeı̈a amb les instàncies generades pel problema del irs, d’aquest
conjunt de regles destaca el seu percentatge d’encert. Concretament el percentatge
d’encert que s’obté amb aquestes nou instàncies és del 100%. Això vol dir que totes les
instàncies originals del conjunt Σ són correctament classificades utilitzant solament les
nou que el GALE ha evolucionat. Aquest punt queda reflectit clarament a la matriu de
confusió resultant que es presentat tot seguit.
 
59 0 0
 0 71 0  (8.20)
0 0 48

Per últim, abans de passar ja a comentar els resultats obtingut a l’aplicar el t test
als resultats presentats a la taula 8.7, es vol fer un comentari sobre les instàncies que ha
evolucionat el GALE. Com s’ha pogut apreciar aquestes són totalment definides, però
8.6 Obtenció d’instàncies
Taula 8.10: Instàncies produı̈des pel GALE en el problema wne

OD280-OD315
Nonflav.-phe.
Alca.-of-ash

Color-inten.
Magnesium

Flavanoids
Malic-acid

Total-phe.

Proantho.

Viticultor
Alcohol

Proline
Hue
Ash

#
12.14 2.02 2.85 16.49 69.41 3.38 3.56 0.22 2.58 11.88 1.39 2.71 524.79 1 (4)
12.66 4.56 2.42 14.59 158.60 1.51 0.52 0.47 1.20 10.90 1.04 1.85 854.89 2 (44)
11.25 4.05 2.37 13.79 119.24 1.30 0.75 0.48 1.24 3.40 1.75 2.71 524.79 1 (31)
14.63 2.83 2.61 12.84 85.47 2.86 1.73 0.23 2.31 6.62 1.01 2.37 1465.30 0 (59)
11.95 4.21 2.19 24.05 86.48 3.43 0.41 0.14 3.15 7.88 0.54 1.85 854.89 2 (4)
11.25 3.34 2.22 20.40 105.11 3.40 1.69 0.48 3.67 2.10 1.34 1.46 498.71 1 (9)
12.40 1.46 1.58 12.42 91.98 3.24 3.79 0.30 1.46 6.96 1.70 1.89 401.98 1 (17)
14.63 2.83 2.61 12.84 85.47 2.86 1.73 0.23 1.46 6.96 1.70 1.89 401.98 1 (4)
11.95 4.21 2.19 24.05 86.48 3.43 0.41 0.14 3.15 7.88 0.55 3.61 1020.31 1 (6)

261
262 Resolent problemes reals de Mineria de Dades

també és possible evolucionar instàncies parcialment definides tal i com es presentava a
l’apartat 6.4.3 (pg. 161). La diferència principal rau en que les instàncies evolucionades
poden posseir atributs que no presentin un valor particular, buscant aixı́ una forma de
generalització de les mateixes. Els resultats obtinguts a l’aplicar el GALE sobre els deu
conjunts de dades utilitzats en aquest apartat no presenten diferències apreciables pel que
fa al percentatge d’encert, malgrat això mostren una certa tendència a lleugeres millores
en problemes de dimensionalitat elevada, com per exemple el son. Malauradament els
resultats no són remarcablement diferents, requerint un estudi més detallat en un futur.
Si en el percentatge d’encert les variacions no són remarcables, sı́ que aquestes ho són
en el nombre d’atributs emprats per les instàncies parcialment definides obtingudes en
cadascun dels conjunts de dades. A continuació es presenta, pe cadascun del problemes,
el percentatge d’atributs emprats per les instàncies evolucionades en funció de la classe
a la que pertanyen.

Cjt χ0 χ1 χ2 χ3 χ4
bps 10,00 17.13 - - -
bre 72,22 68.14 - - -
gls 83,33 64.44 88,88 14,81 61,11
irs 75,00 75.00 50.00 - -
mmg 28,57 30.95 - - -
mux 38,36 40.02 - - -
pmi 60,57 50.00 - - -
son 62,14 65.93 - - -
tao 50,00 69.23 - - -
veh 82.64 79.16 86.11 - -

Com es pot apreciar dels resultats anteriors, la reducció que s’assoleix en el nombre
d’atributs és considerable, destacant per exemple els resultats que s’obtenen en bps i
mmg. En aquests dos problemes privats sembla apuntar-se la presència d’atributs irre-
llevants, fet que s’hauria de tenir present en aquest problemes en un futur. A l’altra
extrem sobresurt el veh que és un dels que requereix més atributs definits en les seves
instàncies per assolir un bon rendiment en la classificació.
Arribats a aquest punt, i per concloure aquest apartat dedicat a la presentació dels
resultats obtinguts en l’obtenció d’instàncies, es comentarà tot seguit els resultats obtin-
gut en la comparació estadı́stica dels resultat obtinguts. Aquests resultats es presenten
a la taula 8.11. Com es pot apreciar en aquesta taula, el comportament de l’IB1 i del
GALE no presenta diferències estadı́sticament significatives. Sols en el problema pmi el
GALE presenta un comportament diferent, concretament millor. On sı́ que les diferències
estadı́stiques si que es fan present és en cas dels algorismes de reducció IB2, IB3 i IB4.
En tots tres casos s’aprecia un deteriorament del comportament en el problemes emprats
quan aquest es compara amb els resultats obtinguts pel GALE.
8.7 Obtenció d’arbres de decisió 263

Taula 8.11: Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La taula mostra els
resultats emprant nc=0.05 i nc=0.01.
t-test aparellat d’una cua nc=0.05 t-test aparellat d’una cua nc=0.01
IB1 IB2 IB3 IB4 GALE IB1 IB2 IB3 IB4 GALE
IB1 - 7 5 5 0 - 6 4 5 0
IB2 0 - 2 3 0 0 - 2 2 0
IB3 0 1 - 1 0 0 1 - 0 0
IB4 0 2 2 - 0 0 2 1 - 0
GALE 2 5 5 7 - 1 4 4 4 -

8.7 Obtenció d’arbres de decisió

Aquest és el darrer punt en el qual es comentaran els resultats obtinguts amb el GALE
abans de passar ja tot seguit a comentar l’anàlisi estadı́stic exhaustiu dels resultats
realitzats. Concretament, en aquest punt es presentaran els resultats obtinguts emprant
representacions arborescents. Els algorismes emprats en aquestes proves són el C4.5 i el
GALE emprant els tres tipus d’arbres de decisió presentats a l’apartat 6.4.2 (pg. 147), és
a dir, ortogonals, oblics i multivariats. Degut al fet de treballar amb una implementació
particular d’arbres de decisió oblics, els conjunts de dades escollits han estat sols aquells
que presenten atributs numèrics. Concretament, els onze conjunts emprats són: (1)
bps, (2) bre, (3) gls, (4) h-s, (5) ion, (6) irs, (7) mmg, (8) pmi, (9) son, (10) tao
i (11) veh.
Tal i com es comentà en el seu moment, apartat 6.4.2 (pg. 147), el GALE, degut
a la seva independència de la representació emprada, és capaç d’evolucionar tres tipus
diferents d’arbres de decisió. El primer tipus, els ortogonals, es basen en la representació
jeràrquica de testos simples sobre un únic atribut. Per contra els oblics corresponen
a agrupacions jeràrquiques de testos basats en combinacions lineals dels atributs, o
hiperplans orientables. Finalment, els multivariats representen agrupacions jeràrquiques
de testos complexes basades en instàncies. Degut a aquest caràcter arborescent de les
representacions emprades, s’ha inclós el C4.5 en aquest apartat de resultats. Malgrat
això, cal tenir present que els seus resultats sols seran directament comparables amb els
que obté el GALE emprant arbres de decisió ortogonals.
La taula 8.12 recull els resultats de la experimentació realitzada amb el C4.5 i les
tres variants del GALE, GALE-ort per arbres de decisió ortogonals, GALE-obl per arbres
de decisió oblics, i GALE-mul per arbres de decisió multivariats. També s’han inclòs
els resultats del 0-R com a llindar inferior de rendiment per sota del qual el comporta-
ment dels diferents algorismes mai hauria d’arribar. La taula presenta el resultat dels
experiment de valiadació creuada estratificada realitzats. Per cada algorisme i conjunt
de dades presenta la mitjana i la desviació (en els folds) obtinguda. Per altra banda,
els resultats obtinguts en cada conjunt pel GALE (-ort, -obl, -mul), es marquen amb
264 Resolent problemes reals de Mineria de Dades

Taula 8.12: Percentatge d’encert en classificació i desviació estàndard de les proves


emprant ten fold crossvalidation. Els resultat del GALE es marquem amb un • si mostren
una millora significativa (significant en un 1% respecte el t-test aperellat de dues cues)
respecte el corresponen resultat del C4.5, i amb una ◦ si presenten una degradació
representativa.
Cjt 0-R C4.5 GALE-ort GALE-obl GALE-mul
bps 51.61±0.62 80.04±4.80 81.89±5.70 83.74±3.94 83.64±1.61
bre 65.52±1.16 95.42±1.69 94.42±1.88 91.70±3.24 ◦ 95.70±2.23
gls 35.51±4.49 65.89±10.47 65.42±11.89 49.07±9.20 61.21±10.01
h-s 55.55±0.00 76.30±5.85 82.22±7.11 71.11±7.35 82.96±5.84
ion 64.10±1.19 89.74±5.23 94.02±3.27 90.31±3.57 91.46±4.99
irs 33.33±0.00 95.33±3.26 96.00±3.46 98.67±2.98 94.00±5.83
mmg 56.02±2.95 64.81±6.48 71.30±5.93 61.11±8.31 65.27±5.74
pmi 65.10±1.00 73.05±5.32 75.78±4.01 69.40±3.24 74.22±4.34
son 53.37±3.78 71.15±8.54 74.52±7.42 68.27±10.03 79.32±6.10•
tao 49.79±0.17 95.07±2.11 89.78±2.29◦ 91.74±2.65◦ 93.20±1.87
veh 25.06±0.54 73.64±5.42 68.32±6.01◦ 58.87±5.37◦ 63.47±4.68◦
Pmg 50.45 80.04 81.24 75.82 80.40

el resultat del test t de Student de dues cues (nc=0.01) realitzat respecte els resultats
obtinguts amb el C4.5. Malgrat, tal i com s’ha comentat anteriorment, que sols el C4.5
i el GALE-ort són directament comparables, els resultats de la comparació respecte a les
altres variants del GALE poden permetre realitzar certes comparacions interessants.
El primer punt remarcable dels resultats presentats a la taula és el fet que el GALE
es presenta com un algorisme competent per l’obtenció d’arbres de decisió ortogonals.
Aquest fet es pot apreciar comparant a simple vista els resultats obtinguts pel C4.5 i
el GALE-ort. En els onze conjunts de dades emprats, a set de les execucions els arbres
ortogonal que ha evolucionat el GALE han estat més acurats que els induı̈ts pel C4.5.
Per contra els mals resultats que obté el GALE, per exemple són deguts a la dificultat a
que es veu sotmès el procés evolutiu per afrontar fronteres no lineals com la del tao. Per
superar-ho el C4.5 explota a les seves solucions l’efecte d’escala comentat a l’exemple
7 (pg. 29). Un punt a tenir també en compte quan es fan les consideracions anteriors
és el fet que, tal i com es comentà en el seu moment, totes les execucions del GALE
s’han realitzat amb els mateixos paràmetres. Malgrat això també ressalta els resultats
obtinguts que s’han obtingut amb el GALE en problemes de dimensió elevada, com el
ion (|A|=34) i el son (|A|=60). En aquest tipus de problemes, el GALE-ort presenta
un millor rendiment que el que assoleix l’inductor tradicional C4.5. Aquest punt pot ser
interessant cara al treball futur.
A l’igual que s’ha vingut realitzant en els apartats anteriors, i abans de comentar els
resultats estadı́stic obtinguts, tot seguit es presentarà alguns exemples d’arbre de decisió
obtinguts. Concretament, es presentaran els arbres que genera el C4.5 i el GALE-ort
quan s’apliquen al problema irs. Ambdós arbres han estat obtinguts de proves en les
8.7 Obtenció d’arbres de decisió 265

quals s’han emprat tots els exemples de Σ en l’entrenament.


L’arbre que genera el C4.5 és força compacta, tal i com es pot apreciar en tot
seguit. De fet sols presenta nou nodes, dels quals cinc són fulles. Mirant aquest arbre
sobresurten algunes curiositats. Per exemples les instàncies que pertanyen a la classe
Iris setosa queden classificades amb un únic test. Per altra banda, també és comentar
aquı́ les constants que apareixen en aquest punt. El motiu s’apreciarà amb més detall
qual es presenti l’arbre obtingut pel GALE, però comentar que en el C4.5 aquests valors
provenen directament de les instàncies d’entrenament. Fets aquests comentaris, tot
seguit es pot trobar l’arbre ortogonal induı̈t pel C4.5.

Petal width ≤ 0.6 : Iris setosa


Petal width > 0.6
Petal width ≤ 1.7
Petal length ≤ 4.9 : Iris versicolor
Petal length > 4.9
Petal width ≤ 1.5 : Iris virginica
Petal width > 1.5 : Iris versicolor
Petal width > 1.7 : Iris virginica

L’arbre anterior classifica correctament un 98% de les instàncies originals del proble-
ma irs. Aquest valor correspon a 147 instàncies classificades correctament, i sols tres
d’incorrectes. Curiosament, l’error no es produeix a cap instància pertanyent a la classe
Iris setosa, sinó que els conflictes apareixen a les instàncies de les dues altres classes de
X. Aquest comportament es pot apreciar a la matriu de confusió que es presenta tot
seguit.

 
50 0 0
 0 49 2  (8.21)
0 1 48

Per la seva banda, l’arbre de decisió ortogonal evolucionat pel GALE proposa una
solució menys compacta que la del C4.5. L’arbre presenta dinou nodes, dels qual deu
són fulles. Una de les curiositats que presenta aquest arbre són els seus testos. A
diferència del que succeeix amb el C4.5 on les valors de les constants són calculades
a partir del conjunt d’instàncies del conjunt Σ, en el GALE aquestes són el resultat
del procés evolutiu. Aquesta puntualització és important quan s’observa es testos que
apareixen en l’arbre que evoluciona el GALE i que es presenta a continuació.
266 Resolent problemes reals de Mineria de Dades

Sepal width ≤ 3.02 : Iris setosa


Petal width ≤ 1.54
Petal length ≤ 4.96
Petal width ≤ 0.70 : Iris setosa
Petal width > 0.70 : Iris versicolor
Petal length > 4.96 : Iris virginica
Petal width > 1.54
Petal length ≤ 4.96 : Iris virginica
Petal length > 4.96
Petal width ≤ 1.78 : Iris versicolor∗
Petal width > 1.78 : Iris virginica
Sepal width > 3.02
Petal width ≤ 1.01 : Iris setosa
Petal width > 1.01
Petal width ≤ 1.53 : Iris versicolor
Petal width > 1.53
Petal length ≤ 4.96 : Iris versicolor
Petal length > 4.96 : Iris virginica

Com es pot apreciar, força dels testos que apareixen involucren els mateixos atributs
que els del C4.5, aixı́ com a constants molt properes a les utilitzades per aquests. La
diferència és que les constants dels arbres del GALE són evolutives, no presentant relació
directa amb els valors de les instàncies de Σ. Això suggereix la capacitat del GALE per
proposar fronteres de classificació que s’aproximen a les proposades per l’arbre del C4.5.
Per altra banda, el fet que l’arbre de decisió presenti més nodes queda compensat quan
se n’avalua el seu percentatge d’encert. Aquest puja fins el 99.33%. Aquesta xifra
indica que sols una instància de Σ és mal classificada. Concretament, aquesta és mal
classificada per la fulla de l’arbre anterior marcada com ∗ . En aquesta fulla sols es
classifiquen tres instàncies, dos de les quals correctament. En front d’aquesta situació
es podria fàcilment modificar manualment substituint aquesta fulla per un test adient
que permetés distingir aquest cas.
Pel que fa al comportament de la classificació, succeeix quelcom semblant al que
succeı̈a amb l’arbre induı̈t pel C4.5. L’error es produeix entre les classes Iris virginica i
Iris versicolor. Aquesta situació es pot apreciar a la matriu de confusió resultant de la
classificació duta a terme pel GALE.
 
50 0 0
 0 50 0  (8.22)
0 1 49

Abans de passar a comentar els resultats dels testos estadı́stics, tot seguit es presen-
taran un parells d’arbres més. El primer és l’arbre de decisió oblic que el GALE genera
quan s’executa amb totes les instàncies presents a Σ pel problema irs. L’arbre resul-
tant, el qual es mostra tot seguit, és molt compacta. Sols presenta set nodes, del quals
quatre són fulles.
8.7 Obtenció d’arbres de decisió 267

α = h−1.38, 175.48, −83.62, −69.85, −8.79i


(≤) α = h109.44, −25.34, −90.50, −184.23, 116.18i
(≤) Iris virginica
(>) Iris versicolor
(>) α = h120.43, −166.48, −53.04, 178.73, −174.54i
(≤) Iris setosa
(>) Iris versicolor

El fet que sols presenti tres testos és interessant quan es constata que el percentatge
d’encert és del 98.66%. Malgrat haver canviat de representació, passar d’arbres de decisió
ortogonals a oblics, les classes que continuen essent conflictives són la Iris virginica i la
Iris versicolor. Aquest fet es pot apreciar de nou a la matriu de confusió.
 
50 0 0
 0 49 1  (8.23)
0 1 49

Quelcom similar succeeix a l’arbre de decisió multivariat que el GALE proporciona


pel problema irs. Aquest arbre és força compacta. Sols present nou nodes, sis dels
quals són fulles. Aquest arbre és el que es presenta a continuació.

[ρ = {(0, 7.58)(1, 4.40)(2, 2.73)(3, 0.85)}, θ = 0.66, χ = Iris virginica]


[ρ = {(2, 4.76)(3, 0.79)}, θ = 0.73, χ = Iris virginica]
[ρ = {(0, 4.91)(1, 2.05)(3, 1.94)}, θ = 0.91, χ = Iris versicolor]
[ρ = {(1, 3.36)(2, 1.73)(3, 0.10)}, θ = 0.79, χ = Iris setosa]
[ρ = {(0, 6.60)(2, 7.03)}, θ = 0.33, χ = Iris versicolor]
[ρ = {(2, 4.86)(3, 0.60)}, θ = 0.72, χ = Iris virginica]
[ρ = {(2, 4.86)(3, 0.60)}, θ = 0.72, χ = Iris virginica]
[ρ = {(1, 2.22)(2, 7.03)}, θ = 0.69, χ = Iris versicolor]
[ρ = {(2, 7.03)}, θ = 0.69, χ = Iris versicolor]

De nou, un arbre compacte és capaç de presentat un molt bon percentatge d’encert,
concretament un 99.33%. Això vol dir que sols hi ha una instància mal classificada
respecta el conjunt d’instàncies Σ original. On, curiosament, les classes que continuen
essent conflictives són la Iris virginica i la Iris versicolor. Aquest fet es pot apreciar un
cop més a la matriu de confusió associada.
 
50 0 0
 0 49 0  (8.24)
0 1 49

Per concloure aquest apartat de resultats dedicat a les representacions basades en


arbres de decisió, tot seguit es comentaran els resultats de les comparacions estadı́stiques
realitzades. La taula 8.13 presenta el resum de les comparacions dutes a terme. El
primer punt a destacar és que tots els algorismes superen clarament el llindar inferior
268 Resolent problemes reals de Mineria de Dades

Taula 8.13: Resultats dels t-tests aparellats d’una cua: el valor indica quants cops el
mètode de la fila millora significativament el mètode a la columna. La taula mostra els
resultats emprant nc=0.05 i nc=0.01.
t-test aparellat d’una cua nc=0.05
0-R C4.5 GALE-ort GALE-obl GALE-mul
0-R - 0 0 0 0
C4.5 11 - 2 6 2
GALE-ort 11 3 - 7 5
GALE-obl 11 2 2 - 1
GALE-mul 11 3 1 7 -
t-test aparellat d’una cua nc=0.01
0-R C4.5 GALE-ort GALE-obl GALE-mul
0-R - 0 0 0 0
C4.5 11 - 2 4 1
GALE-ort 11 1 - 6 0
GALE-obl 10 1 0 - 0
GALE-mul 11 1 1 4 -

que fixa el 0-R pels diferents problemes. Per altra banda, els dos algorismes que són
directament comparables degut a que utilitzen la mateixa representació del coneixement,
és a dir el C4.5 i el GALE-ort, no presenten diferències de comportament estadı́sticament
significatives. Aquest punt posa de relleu l’utilitat del GALE per evolucionar arbres de
decisió ortogonals.
Pel que fa als resultats del GALE-obl i del GALE-mul, s’aprecien lleugeres diferències
estadı́stiques en el comportament. Concretament, en el cas del GALE-obl presenta un
clar empitjorament. Aquests resultats contrasten amb la flexibilitat de la seva represen-
tació, tal i com s’ha pogut apreciar amb els arbres presentats anteriorment pel problema
irs. Malgrat això, els resultats no ho acaben de corroborar. Revisant les execucions
dutes pels arbres de decisió oblics i multivariats s’aprecià que la problemàtica provenia
d’un punt concret: la probabilitat de mutació del genoma dels arbres.
Tal i com comentà en el seu moment, totes les execucions del GALE s’executaren
emprant els mateixos paràmetres obtinguts de les proves realitzades en el capı́tol 7 (pg.
167). Aquest paràmetres han donat un molt bon resultat fins el moment, però en el cas
d’aquest dos tipus d’arbres sol ser excessiva. Això és degut a la mida dels genomes que
codifiquen l’arbre degut als coeficient que han d’ajustar. Concretament, aquesta mida
es mou al voltant de |A| × d, on d és el nombre de nodes de l’arbre. Al disposar d’un
genoma de dimensions tant elevades, la probabilitat emprada a les proves resulta massa
gran, presentant un fort caràcter disruptiu dels BBs continguts en el genoma. Aquest
punt fa pensar que dins el treball futur s’hauria d’incloure l’estudi de probabilitats de
mutació adaptatives. És a dir, que s’ajustin en funció de la mida del genoma que s’està
utilitzant.
8.8 Anàlisi estadı́stic de resultats 269

8.8 Anàlisi estadı́stic de resultats

A part del GALE, les proves realitzades han involucrat nou algorismes més, tots resolent
divuit conjunts de dades diferents. Tal i com s’ha pogut apreciar anteriorment, la majoria
d’aquests algorismes foren escollits per poder ponderar equitativament el comportament
del GALE enfront de les diferents representacions del coneixement que pot evolucionar.
És a dir, s’escolliren algorismes que, per exemple, treballin amb regles per comparar el
comportament del GALE quan evoluciona aquest tipus de representació, i aixı́ successi-
vament per totes les representacions emprades pel GALE, tal i com s’ha pogut apreciar
en els apartats anteriors.
Arribats a aquest punt, el que es presentarà és l’anàlisi estadı́stic de les proves
realitzades emprant tots els algorismes disponibles en els diferents conjunts de dades
disponibles. Dins aquests anàlisi s’han inclòs també dos algorismes que es comentaren
en el seu moment però que no s’han utilitzat en les proves presentades en els tres
apartats anteriors, com són el Naive Bayes i el SMO. Aquest algorismes no s’utilizaren
anteriorment degut a que no existeix actualment una correspondència directa entre la
representació del coneixement que utilitzen i les representacions actuals amb les que pot
tractar el GALE, malgrat aquestes es tinguin molt presents pel que fa a treball futurs,
especialment la representació proposada pel SMO.
L’estudi que presenta aquest apartat es basa, a l’igual que els que s’han anat pre-
sentant anteriorment, en l’ús d’execucions basades en validació creuada estratificada i
el posterior anàlisi dels resultats emprant testos estadı́stics. En aquest punt concret els
resultats s’analitzaren els testos presentats a l’apartat 8.4.2 (pg. 249), és a dir el test
t-test de Student i el de rang amb signe de Wilcoxon.
Una peculiaritat de l’anàlisi que s’ha dut a terme parteix de decidir quins resultats
s’escollien pel GALE. Aquest fet apareix degut al fet que aquest pot treballar amb
diferents representacions del coneixement. Com ja es comentà en el seu moment, un
dels principals objectius del GALE era proposar un model unificat de mineria de dades
independent de la representació del coneixement emprada. El motiu d’aquesta decisió es
doble; el primer es degut a la dificultat de decidir a priori, en front d’un problema real,
quina serà la representació més adients; el segon és que l’usuari final de l’eina de mineria
ha d’ésser capaç de decidir quin tipus l’hi és més interessant, útil o entenedor. Davant
d’aquest dilema s’obtà per escollir els resultats del GALE per aquella representació que
presenta el millor comportament, essent conscients de l’esbiaixament que aquesta decisió
comporta. El motiu que ha fet perdre aquesta decisió és el de voler posar de relleu un
punt ja sabut com és la importància de la representació del coneixement escollida en el
moment de resoldre el problema eficientment.
La taula 8.14 presenta el percentatge d’encert, aixı́ com la desviació obtinguda, pels
algorismes comparats emprant execucions de validació creuada estratificada emprant
els divuit conjunts disponibles. En aquesta taula destaquen varies consideracions. La
primera es que, tal i com es pot apreciar, els resultats del GALE apareixen marcats en
funció del tipus de representació del coneixement emprada. Per altra banda, els resultats
Resolent problemes reals de Mineria de Dades

Taula 8.14: Percentatge d’encert per tots els conjunts de dades disponibles (promig i desviació). Cada resultat del GALE s’ha marcat amb la
representació del coneixement emprada. Les marques corresponent a: una ⋆ indica l’ús de regles, una † l’ús d’instàncies, un ⊕ l’evolució d’arbres
de decisió ortogonals, un ⊗ l’ús d’arbres de decisió oblics, i finalment un ⊙ l’us d’arbres de decisió multivariats.
Cjt 0-R 1-R PART XCS IB1 IBk C4.5 SMO NBa GALE
bps 51.6±0.6 69.8±2.5 79.0±3.3 83.2±3.1 83.2±3.2 82.8±4.3 80.1±4.8 86.4±3.0 78.6±5.5 83.7±3.8⊗
bre 65.5±1.1 92.3±0.6 95.3±2.2 96.4±2.5 96.0±1.5 96.7±1.4 95.4±1.6 96.7±1.7 96.0±2.3 95.7±2.2⊙
bpa 58.0±1.4 56.6±2.7 65.8±10.0 65.4±6.9 63.5±6.6 60.6±6.6 65.8±6.9 58.0±1.4 54.3±2.8 68.4±6.7†
cmc 42.7±0.4 47.8±0.2 49.8±3.6 55.5±2.5 44.4±2.7 46.8±3.3 52.1±2.3 - 50.6±2.8 50.3±5.1†
gls 34.6±2.5 56.1±1.0 69.0±10.0 70.8±8.5 66.3±10.9 66.4±10.9 65.8±10.4 - 47.6±8.9 65.6±11.9⊕
h-c 54.5±2.2 72.9±1.3 77.9±6.4 80.3±7.8 77.4±7.6 83.2±5.2 73.6±8.8 - 83.6±6.0 79.9±5.2†
h-h 63.9±2.1 78.5±0.3 79.6±10.6 79.9±6.3 78.3±6.4 82.4±8.4 80.3±9.0 - 83.7±7.8 78.2±7.2†
h-s 55.6±0.0 74.1±2.5 76.7±2.8 79.9±2.3 74.1±0.1 78.9±0.4 76.3±0.7 83.7±0.5 83.3±1.9 83.0±5.9 ⊙
ion 64.1±0.2 82.3±2.9 90.6±0.9 89.6±3.1 86.9±1.5 86.4±2.3 89.8±0.5 87.8±1.8 81.7±1.7 94.0±3.3 ⊕
irs 33.3±0.0 94.7±0.4 95.3±3.2 94.7±5.3 95.3±3.2 95.3±3.2 95.3±3.2 - 94.7±2.8 98.7±2.8⊗
led 10.5±0.0 19.3±0.1 75.1±0.0 74.5±0.0 62.4±0.0 75.0±0.0 74.9±0.0 - 74.9±0.0 75.0±0.0⋆
mmg 56.0±2.9 58.8±2.9 61.9±4.2 64.3±6.4 63.0±12.4 65.3±6.3 64.8±6.4 67.0±7.4 64.7±7.7 71.3±5.9⊕
mux 49.9±0.1 52.5±0.9 100.0±0.0 100.0±0.0 78.6±4.0 99.8±0.3 99.9±0.2 61.6±3.0 61.9±2.7 100.0±0.0⋆
pmi 65.1±0.0 72.3±1.7 72.6±5.0 75.4±4.7 70.3±3.4 73.9±5.3 73.1±5.2 76.7±4.6 75.4±6.8 75.8±4.0⊕
son 53.3±0.6 61.1±0.4 73.5±2.2 77.5±3.6 87.3±0.8 82.7±0.9 71.5±0.5 77.5±2.5 67.2±2.6 79.3±6.1 †
tao 49.8±0.2 71.9±0.7 93.6±2.8 89.9±1.3 96.1±1.2 96.0±1.4 95.1±2.0 83.6±2.3 80.8±1.8 95.5±1.0†
veh 25.1±0.5 53.3±0.7 72.6±4.6 73.0±4.4 69.4±5.3 69.7±5.9 73.6±5.3 - 46.2±5.7 68.8±3.8†
wne 39.8±4.5 79.8±3.0 92.9±6.1 95.1±6.8 95.6±5.0 96.8±4.5 94.6±6.6 - 97.8±2.9 97.2±2.9†
Pmg 48.5 66.3 79.0 80.3 77.1 79.9 79.0 77.9 73.5 81.3
270
8.8 Anàlisi estadı́stic de resultats 271

del SMO sols apareixen en aquells conjunts de dades que corresponen a problemes de
classificació binària, ja que aquest algorisme no es capaç de treballar directament amb
problemes de classificació n-ària.
Observant els resultats presentats a la taula 8.14 s’aprecia que cap dels algorismes
sobresurt. Aquests fet ja era previsible a priori, degut al problema de superioritat selectiva
introduı̈t a l’apartat 8.4.2. Conseqüentment, l’interessant d’aquesta taula no es quin
algorisme és millor en quin conjunt de dades, sinó quin d’ells presenta una bona robustesa
al llarg dels diferents problemes de prova. Per exemple, el mirar quin algorismes és millor
indicaria que el GALE presenta el millor comportament en cinc dels divuit problemes, el
SMO en quatre dels deu que ha esta provat, o el IB1 en tres dels divuit originals, fet que
no es excessivament indicatiu. Però el que si és interessant de posar de relleu és el fet que
a través dels diferents problemes, per exemple, el GALE no presenta alts i baixos, sinó
que permet resoldre satisfactòriament els diferents problemes de l’espectre presentat.
Això no succeeix per exemple amb el SMO, que tot i restringint-se a problemes binaris,
pot obtenir grans percentatges d’encert, per exemple en el problema bps, però també
presenta caigudes de rendiment preocupants, per exemple en el problema mux.
Analitzant els motiu particulars de la caiguda de rendiment del SMO en el problema
concret del mux, s’aprecia que la problemàtica sorgeix de la representació del coneixe-
ment emprada. Aquest no sembla ser capaç d’absovir les necessitar de generalització,
entesa des del punt de vista de la representació, com per a poder resoldre el problema
eficientment. Quelcom similar succeeix en aquest problema pel IB1. Aquest punt posa
de manifest, que la capacitat del GALE poder treballar amb diferents representacions del
coneixement permet obtenir la robustesa per poder obtenir un comportament eficient al
llarg dels diferents problemes proposats, paliant en aquest punt l’impacte del problema
de superioritat selectiva, gràcies a la capacitat per poder utilitzar, davant d’un problema
particular, aquella representació que millor s’escau. Aquest punt es posa de relleu a la
taula 8.15 que presenta els resultats de l’anàlisi estadı́stic realitzat.
La taula 8.15 resumeix l’anàlisi estadı́stic realitzat a partir dels resultats presentats
a la taula 8.14. En aquesta taula es troba dividida en dos apartats diferenciats. La
primera és la comparació de tots els algorismes respecte el XCS, mentre que la segona
realitza aquesta comparació respecte als obtinguts pel GALE. Concretament per cada
conjunt de dades es realitzà el test t de GALE emprant diferents nivells de confidència,
concretament nc={0.05,0.01,0.005}. Aquests tests es complementaren emprant el test
de Wilcoxon. El motiu de realitzar aquesta comparació respecte el XCS i el GALE prové
del fet que aquests dos algorismes són els únics que utilitzen aprenentatge evolutiu, en
contraposició a la resta que utilitza models d’aprenentatge més tradicionals.
El primer que es pot apreciar a simple vista és el fet que ambdós algorismes evolutius,
tant el XCS com el GALE presenten comportaments robustos enfront dels diferents
problemes tractats. Malgrat això XCS presenta més problemes que el GALE per matenir
un bon comportament al llarg dels diferents problemes. Això empalma amb el fet que
està lligat a una representació basada en regles. Aquest fet es pot apreciar per exemple
en el problema tao, on queda clarament contrastat que les representacions basades en
instàncies s’adapten millor a l’hora de resoldre’l.
Taula 8.15: Comparació estadı́stica del XCS i el GALE respecte els esquemes d’aprenentatge no-evolucionaris. Les diferències en l’encert
Resolent problemes reals de Mineria de Dades

de classificació són significants respecte el t-test d’una cua amb nc = .05• , .01•• , .005••• . Una • significa que el XCS o el GALE milloren
significativament l’algorisme comparat, mentre que un ◦ corresponen a una degradació significativa. Les files marcades com m-d llisten el nombre
de millores i degradacions del XCS i el GALE respecte la columna comparada, amb el nivell de significació indicat. L’última fila representa el
nivell de confidència respecte el test de Wilcoxon.
Comparació del XCS Comparació del GALE

PART

PART
GALE
SMO

SMO
C4.5

C4.5
NBa

NBa
XCS
0-R

1-R

0-R

1-R
IB1

IB1
IBk

IBk
Cjt
bpd ••• ••• • •• ◦◦ ••• ••• ••• ••• • ◦◦◦ •••

bre ••• ••• ••• •••

bpa ••• • ••• ••• ••• ••• •• ••• •••

cmc ••• ••• ••• ••• ••• ••• ••• •• ••• ◦◦ •• •

gld ••• ••• ••• ••• ••• •••

h-c ••• • ◦ • ••• •••

h-h ••• ◦ ••• ◦

h-s ••• •• • • ••• ◦ ◦◦◦ ••• ••• •• ••• ••• •• •••

ion ••• ••• •• ◦◦◦ ••• ••• • ••• ••• • •• •••

irs ••• ◦◦◦ ••• ••• •• ••• • • •• •••

led ••• ••• ••• ••• ••• •••

mmg ••• ◦ ••• • ••• • • • •

mux ••• ••• ••• • ••• ••• ••• ••• ••• • ••• •••

pmi ••• ••• ••• ••• ••• • ••• •

son ••• ••• ◦◦ • •• ◦◦◦ ••• ••• ••• ◦ •• •••

tao ••• ••• ◦◦◦ ◦◦◦ ◦◦◦ ◦◦◦ ••• ••• ◦◦◦ ••• ••• • ••• ••• •••

veh ••• ••• •• • ••• • ••• ••• ◦ ◦ ◦ •••

wne ••• ••• ••• ••• •

Promig 48.5 66.3 79.0 77.1 79.9 79.0 77.9 73.5 81.3 48.5 66.3 79.0 80.3 77.1 79.9 79.0 77.9 73.5
m-d .05 18-0 15-0 2-1 6-2 5-2 4-1 3-1 9-2 2-6 18-0 16-0 8-1 6-2 8-1 8-0 5-1 3-1 10-1
m-d .01 18-0 13-0 1-1 5-2 1-1 3-1 3-1 9-0 1-5 18-0 15-0 4-0 5-1 6-0 3-0 3-0 3-1 9-0
m-d .005 18-0 12-0 1-1 4-1 1-1 2-1 3-0 7-0 0-5 18-0 15-0 2-0 5-0 5-0 0-0 1-0 3-1 9-0
Wilcoxon 99.5 99.5 98.1 98.3 58.2 91.3 66.7 98.3 -83.3 99.5 99.5 99.0 83.3 99.1 85.0 99.3 95.0 99.1
272
8.9 Resum 273

Per la seva banda, el GALE és capaç de mantenir un comportament més robust,
obtinguen força casos millores estadı́sticament significatives. Malgrat això destaquen
alguns problemes que mereixen un menció especial. El primer és el bps. En aquest
problema el SMO presenta un comportament clarament millor que el GALE. És important
ressaltar en aquest punt que les representacions emprades en ambdós casos són diferents,
reforçant la intuı̈ció que seria interessant introduir la representació basada en vectors de
suport dins el conjunt de representacions que pot manegar el GALE. Quelcom semblant
succeeix en el problema veh, on els algorismes que utilitzen representacions basades
en regles milloren clarament els que utilitzen instàncies, com és el cas del GALE en
aquest problema. Aquest punt suggeriria la revisió de les proves fetes amb el GALE
emprant regles per aquest problema concret per esbrinar el motiu del seu rendiment
inferior respecte la resta d’algorismes. Una primera introspecció mostra que el podria
tornaria a recaure amb el valor de la probabilitat de mutació emprada, tal i com succeı̈a
amb els arbres oblics i multivariats presentats a l’apartat 8.7 (pg. 263).
Per concloure amb la presentació dels resultats d’aquest anàlisi estadı́stic, es vol co-
mentar els resultats obtinguts emprant el test de Wilcoxon. El que es vol ressaltar és que
en sis dels algorismes (0-R, 1-R, PART, IB1, C4.5 i Naive Bayes) el nivell de confidència
obtingut és superior al 99%, al 95% en el cas del SMO. Pel que fa al XCS i el IBk aquests
es mouen valors compresos entre el 83% i el 85%. L’interessant d’aquests resultats no
són els valors en sı́, sinó que són una confirmació de la robustesa del GALE en front de
problemes de mineria de dades, gràcies a treballar amb un model únic independent de la
representació del coneixement emprada, podent aixı́ escollir aquella que millor s’adapti
i paliant conseqüentment l’efecte del problema de superioritat selectiva.

8.9 Resum

Aquest capı́tol s’ha centrat el la presentació dels resultats obtinguts de l’aplicació del
GALE a problemes reals de mineria de dades. Concretament, el que capı́tol ha començar
realitzant una breu introducció, per passar tot seguit a descriure el conjunt de problemes
que s’han utilitzat per avaluar el GALE. Aquest conjunt de problemes provenen de
tres entorns diferenciats. El primer grup sorgeix de problemes proposats artificialment,
l’objectiu dels quals es posar a prova alguns aspectes puntuals. El segon conjunt de
problemes són els que s’ha anomenat públics. Aquests problemes solen provenir de
problemes reals de classificació, essent habitualment emprats per avaluar problemes
d’aprenentatge. Finalment el tercer bloc de problemes són problemes reals pertanyents a
dominis mèdics. A continuació, el capı́tol ha continuat presentant els diferents algorismes
que s’han emprat per poder avaluar comparativament el comportament del GALE en la
resolució dels diferents problemes disponibles.
Un cop feta aquest presentació preliminar, tant dels conjunts de dades emprats
com dels diferents algorismes, tot seguit el capı́tol ja ha passat a descriure el primers
resultats obtinguts de l’aplicació del GALE a problemes de mineria de dades. Aquests
274 Resolent problemes reals de Mineria de Dades

s’han centrat en analitzar l’impacte del mapping i el test sobre el comportament del
GALE. El motiu de realitzar-ho en aquest punt rau en el fet que no es pogué realitzar
en el capı́tol 7 (pg. 167), degut a que aquest elements no eren presents en el model
simplificat.
Aquestes proves prèvies sols es centren en l’impacte que aquest elements tenen
sobre el comportament global del GALE. Per aquest motiu, i abans de la presentació
dels resultats obtinguts en tasques de mineria, el capı́tol s’ha centrat en comentar la
metodologia que s’ha seguit per realitzar les proves exhaustives que permetin avaluar
els comportament dels diferents algorismes quan s’utilitzen per resoldre els diferents
problemes disponibles. D’aquesta metodologia s’ha fet especialment esment en la forma
d’executar els diferents algorismes, aixı́ com dels diversos mètodes estadı́stics disponibles
per realitzar la comparació de comportaments pel que fa a percentatge d’encert en
classificació.
En els tres apartats següents s’han presentat els resultats obtinguts de l’aplicació
dels diferents algorismes, seguint la metodologia presentada, als diferents problemes dis-
ponibles. Aquests resultats s’han agrupat en funció del tipus de representació del conei-
xement utilitzada. Concretament, s’ha començat comentat els resultats obtinguts pels
algorisme basats en regles, per passar tot seguit a representacions basades en instàncies
i, finalment, les basades en arbres de decisió. Per cadascun dels diferents tipus s’ha
presentat els resultats obtinguts, tant pel que fa al comportament en percentatge d’en-
cert, com pel que fa referència a l’anàlisi estadı́stic corresponent. Cadascun d’aquests
apartats s’ha complementat amb diferents exemples il·lustratius que han permès com-
parar les diferents solucions proposades pels diferents algorismes al llarg de les diferents
representacions.
El capı́tol ha finalitzat la presentació dels resultats amb un apartat especı́ficament
destinat a l’anàlisi estadı́stic de les diferents proves exhaustives realitzades. Aquest
anàlisi ha permès extreure conclusions i corroborar algunes de les hipòtesis sobre les
quals es basa el model proposat pel GALE. Per altra banda, el fet de realitzar aquest
anàlisi exhaustiu, ha permès també identificar lı́nies de treball futur encarades a millorar
certs aspectes del model proposat.

8.10 Notes Bibliogràfiques

Per concloure aquest capı́tol es comentaran breument algunes referències bibliogràfiques


d’interès que han anat sorgint al llarg del capı́tol. Aquestes s’agrupen en quatre grans
blocs. El primer fa referència als problemes emprats a les diferents proves presentades,
mentre que el segon es centra en els algorismes utilitzats a les mateixes. El tercer fa
referència a temes relacionats amb aspectes concrets de la metodologia emprada per
realitzar les proves. Finalment, el quart grup de referències recullen aspectes diversos.
Com s’ha esmentat, el primer bloc de referències es el que es centra en els pro-
8.10 Notes Bibliogràfiques 275

blemes emprats. Els conjunts de dades artificials es poden trobar comentat a varies
referències, malgrat això s’ha buscat nombrar aquelles en que s’utilitzaren per primer
cop. Dins aquest conjunt de problemes es començarà presentant les referències dels pro-
blemes artificials. El mux fou emprat per primer cop pel XCS a [Wilson, 1995]. El led
es pot trobar utilitat en problemes d’aprenentatge artificial a [Breiman et al., 1984].
Per la seva banda, el problema tao fou dissenyat i utilitzat per primera vegada a
[Llorà and Garrell, 2001b].
Pel que fa als conjunt de dades públics, aquests s’han obtingut principalment del re-
positori que proporciona la Universitat de Califòrnia a Irvine [Merz and Murphy, 1998].
Dins d’aquestes, el conjunt de dades del problema bre es pot trobar explicat amb
detall a [Wolberg and Mangasarian, 1995]. El problema bpa s’introdueix per primer
cop a [Forsyth, 1990]. Per la seva banda, el cmc és un problema de recent apari-
ció, on la seva primera utilització per avaluar algorismes d’aprenentatge es pot trobar a
[Lim et al., 2000]. El gls es pot trobar explicat amb detall a [Evett and Spiehler, 1987].
Pel que fa referència als problemes de diagnosi d’anomalies cardı́aques les primeres
utilitzacions per l’aprenentatge es poden trobar a [Gennari et al., 1989] pel h-c, a
[Detrano et al., 1989] pel h-h, i a [Feng et al., 1993] pel h-s. El problema d’anàlisi dels
rebots a la ionosfera ion s’introduı́ a [Sigillito et al., 1989]. El problema irs és un dels
més antics, les dades originals es publicaren per primer cop a [Fisher, 1936]. El pmi es pot
trobat comentat a diverses publicacions, de les qual es destacaria [Smith et al., 1988].
Per la seva part, el son es comenta amb detall a [Gorman and Sejnowski, 1988]. El
penúltim problema públic emprant, el veh, es s’introduı́ a [Mowforth and Shepherd, 1987].
Mentre que l’últim, el wne es pot trobar a [Forina and et al., 1991].
Pel que fa als problemes privats, utilitzats habitualment pel Grup de Sistemes Intel·li-
gents, el primer dels dos problemes, el bps, es pot trobar comentat a varies referències,
de les qual se’n destacarien dues [Vos, 1996, Martı́nez et al., 1996]. La primera explica
amb detall el procés d’obtenció, mentre que la segona fa una primera aproximació a
com es pot resoldre aquest problema de classificació. Per la seva banda, el problema
mmg s’introduı́ per primer cop a [Martı́ et al., 1998], mentre que a [Llorà et al., 2000] es
pot trobar algunes de les primeres aproximacions realitzades a la seva resolució emprant
tècniques d’aprenentatge artificial.
El segon bloc de referències que es volen presentar són les que fan referència als
algorismes que s’han utilitzat per comparar el comportament del GALE. Una de les pri-
meres aparicions del 0-R i del 1-R es pot trobar a [Holte, 1993]. El PART es presentà
per primer cop a [Frank and Witten, 1998], aixı́ com el XCS s’introduı́ inicialment a
[Wilson, 1995], malgrat la implementació emprada es la que es descriu a [Bernadó, 2001]
. La referència per excel·lència del C4.5 correspon a [Quinlan, 1993]. Pel que fa als pri-
mers treballs del IB1 i del IBk, malgrat existeixen moltes referències anteriors basades en
el veı́ més pròxim, se’n destacarien dues [Aha et al., 1991, Aha, 1992]. De referències
de màquines de suport vectorial n’hi ha moltes d’interessants, malgrat això aquı́ sols
s’esmentarà [Platt, 1998], ja que correspon a la implementació particular del SMO em-
prada en aquesta tesi. La versió utilitzada del Naive Bayes s’introduı́ per primer cop
a [John and Langley, 1995]. Els diferents algorismes, excepte el XCS formen part del
276 Resolent problemes reals de Mineria de Dades

Waikato Environment for Knowledge Analysis (WEKA) [Witten and Frank, 2000].
El tercer bloc de referències són les relacionades amb la metodologia emprada
per realitzar les diferents proves i anàlisi presentades en aquest capı́tol. Descripcions
generals sobre la metodologia, aixı́ com consideracions idoneı̈tat, es poden trobar a
[Liu and Motoda, 1998] i també a [Witten and Frank, 2000]. La descripció del pro-
blema de superioritat selectiva es pot trobar a [Brodley, 1993]. Referències útils per
consideracions sobre testos d’hipòtesis estadı́stiques es poden trobar a [Sachs, 1984] i a
[Canavos, 1988]. Descripcions acurades de utilitzar el test t de Student per la compara-
ció d’algorismes d’aprenentatge apareixen a [Dietterich, 1998], aixı́ com [Conover, 1971]
presenta el test de Wilcoxon. Consideracions interessants sobre l’aplició pràctica dels
mateixos també es pot trobar a [Bernadó, 2001].
Per concloure aquest repàs de referències, el quart i últim bloc de referències recull
temàtiques variades. La jerarquia de regles dins els sistemes classificadors es pot trobar
explicada a [Shu and Shaffer, 1991]. Una referència per ampliar els comentaris realitzat
sobre el bagging podria ser [Breiman, 1996]. Dins la reducció de la mida de conjunts
d’instàncies, una de les primeres referències que es pot trobar és [Hart, 1968], la qual
presenta el condensed nearest neighbor rule (CNN) mol similar al IB2. Dues referències
molt interessants són [Wilson and Martinez, 1997, Wilson and Martinez, 2000], les qual
fan, entre d’altres, un repàs de les tècniques existents de reducció, aixı́ com proporcionen
abundant referències relacionades. Finalment, pel que fa a prototipus, hiperrectangles i
altres mètodes hı́brids es destacarien el treball presentat tant a [Domingos, 1995], com
a [Wettschereck and Dietterich, 1994]. Finalment, també destacar la continuació del
treball presentat a la referència anterior que es pot trobar, entre d’altres treballs, a
[Wettschereck and Dietterich, 1995].
CAPÍTOL 9

Conclusions i Recerca Futura

La tesi que s’ha presentat s’emmarca dins el camp de la mineria de dades. De les
diferents branques que es poden trobar dins d’aquesta disciplina, el treball que s’ha
presentat s’ha centrat en una àrea particular, la resolució de problemes de classificació.
Aquest tipus de problemes de mineria són resolubles emprant diferents aproximacions,
però l’interès d’aquesta tesi recau en l’aprenentatge artificial evolutiu.
La proposta realitzada en aquesta tesi busca combinar idees provinents de l’aprenen-
tatge artificial, la computació evolutiva i la vida artificial. L’objectiu a assolir en aquesta
tesi era la creació d’un model de mineria de dades que satisfés certes consideracions.
La primera consistia en el fet que havia d’ésser aplicable a problemes amb tot tipus
d’atributs, per exemple numèrics i categòrics entre d’altres. També era imprescindible
que fos un model que no estigués especı́ficament dissenyat per un tipus de representació
del coneixement particular. Finalment, aquest model havia d’ésser inherentment massi-
vament paral·lel, ja que un dels principals esculls de la mineria és l’elevat cost associat
al procés.
Les propostes pertanyents a l’aprenentatge artificial solen estar restringides a un ti-
pus particular de representació del coneixement, on es solen introduir restriccions als
tipus d’atributs que poden manegar, fent aixı́ inviable l’aplicació d’aquest algorismes per
l’obtenció d’altres representacions, o senzillament a problemes amb atributs no contem-
plats. Per la seva part, la computació evolutiva aporta un model genèric d’aprenentatge
fàcilment extensible a tota mena de representacions del coneixement. A més a més, la
vida artificial pot aportar models distribuı̈ts amb comportaments emergents. Aquests
tipus de models que assoleixen un objectiu complex a partir de la interacció d’elements
constituents simples, proposen models basats en paral·lelisme de gra fi que permeten l’ús
de paral·lelisme massiu. El GALE és el model de mineria de dades evolutiu, independent
de la representació del coneixement manipulada, que amalgama idees i tècniques de les
disciplines comentades anteriorment.
278 Conclusions i Recerca Futura

Tal i com s’ha pogut apreciar a la definició del model de mineria, presentat al capı́tol
6 (pg. 111), que proposa el GALE, s’ha dedicat una especial cura per poder separar el
model pròpiament proposat, de les representacions que aquest model és capaç de mani-
pular. Aquest punt permet analitzar la dinàmica evolutiva que defineix el comportament
del GALE, tal i com s’ha presentat al capı́tol 7 (pg. 167), malgrat disposar d’un ampli
ventall de representacions del coneixement utilitzables. Aquest punt és rellevant quan es
té present en el marc de la mineria de dades, l’usuari del model pot voler decidir emprar
una o altra representació en funció de l’ús que en vulgui realitzar. Però la possibilitat
de disposar d’una clara separació entre el model i la representació emprada, ha permès
disposar d’un model simplificat del GALE sobre el qual analitzar amb facilitat l’impacte
dels diferents paràmetres existents en la seva eficiència.
De l’estudi del comportament del model simplificat del GALE esmentat anteriorment,
presentat al capı́tol 7 (pg. 167), se n’han pogut extreure conclusions interessants. La
primera ha estat clarificar l’impacte dels diferents paràmetres existents sobre el compor-
tament global del GALE. Tal i com s’ha pogut apreciar els diferents paràmetres afecten el
comportament de diferent forma, fet que ha permès davant de problemes reals esbrinar
com actuar per obtenir un comportament determinat. Lligat amb aquestes consideraci-
ons és important esmentar el fet que s’ha pogut apreciar l’existència d’una àmplia regió
de configuració, definida per diferents rangs dels paràmetres del GALE, que proporcionen
un comportament satisfactori en el moment de resoldre el problema en qüestió. Aquest
punt s’agraeix en el moment de resoldre problemes reals de mineria de dades.
Per altra banda, un altre punt molt interessant és la capacitat d’especiació espacial.
Sense cap mena de esforç realitzat especı́ficament en aquesta direcció el GALE permet
mantenir diferents solucions, igualment acurades, dins el tauler T . Aquest comporta-
ment sorgeix en forma d’illes, o agrupacions de cel·les Tij veı̈nes, que contenen individus
pràcticament idèntics. En aquest punt s’ha apreciat el paper fonamental que juga el
merge en la dinàmica que s’estableix entre les diferents illes. Aquest comportament
emergent d’especiació és de molta utilitat en el procés de mineria, ja que permet pre-
sentar diferents alternatives, igualment competents, com a solució al procés que es duu
a terme.
Però el pes se l’endú el capı́tol 8 (pg. 219). En aquest capı́tol s’han presentat els re-
sultats que s’han obtingut de l’aplicació del GALE a problemes de mineria reals. Aquests
resultats han permès corroborar la competència del model de mineria. Com s’ha pogut
apreciar, el GALE és capaç de treballar eficientment amb les diferents representacions
proposades. Dels resultats obtinguts especı́ficament per cada tipus de representació,
regles, instàncies i arbres de decisió, es pot concloure la competència del GALE en front
d’algorismes tradicionals d’aprenentatge artificial especı́ficament dissenyats per tractar
amb aquest tipus de representacions. On aquesta competència no sols apareix a nivell
de percentatge d’encert, sinó que també s’estén a la comprensibilitat de les solucions
proposades pel GALE.
Dels resultats obtinguts en aquesta aplicació pràctica també s’ha observat un altre
punt molt interessant. Aquest és el que fa referència a la robustesa del GALE davant
l’espectre de problemes tractats. Tal i com s’ha pogut apreciar en l’anàlisi estadı́stic
279

realitzat, el fet de poder treballar amb diferents representacions, aprofitant aquella que
millor s’adapti al problema a resoldre, permet esmorteir comportaments pobres en pro-
blemes concrets, quan aquests es compara amb els obtinguts pels algorismes tradicionals.
És a dir, minimitzar el problema de la superioritat selectiva.
El bons resultats obtinguts, tal i com s’ha esmentat anteriorment, confirmen la
competència del GALE en el moment de resoldre problemes de mineria de dades reals.
Malgrat això, les proves realitzades han estat a simulacions seqüencials del model paral·lel
proposat. Amb aquest tipus d’implementació s’ha pogut apreciar un cost considerable
quan aquest es compara amb els models tradicionals d’aprenentatge artificial. Però
aquesta situació no es preocupant, tal i com s’ha presentat als estudis teòrics del model
realitzats. Per definició el model que proposa el GALE és massivament paral·lel, fet
que permet la reducció directa del temps d’execució amb l’utilització d’implementacions
paral·leles del model proposat, tal i com es comentarà tot seguit quan es revisi la recerca
futura que aquesta tesi deixa oberta.
La proposta realitzada en aquesta tesi, tal i com s’ha pogut apreciar al llarg d’aquest
document, ha satisfet la problemàtica originalment plantejada. Malgrat això, aquest no
és un treball tancat. Al contrari, del treball realitzat en aquesta tesi es poden marcar
unes quantes lı́nies de recerca futura clares com a resultat i prolongació natural de les
propostes fetes. Per altra banda, el treball realitzat també obre l’aplicació del model
de mineria de dades presentat a altres camps, obrint noves direccions alternatives a la
recerca que en ells es realitza. Aquesta recerca futura es pot agrupar en quatres grans
lı́nies d’actuació. Aquestes es podrien resumir com:

1. Recerca marcada per les proves realitzades.

2. Consideracions sobre les representacions del coneixement emprades pel GALE.

3. Ampliació del model proposat a altres tipus de mineria de dades.

4. Consideracions pràctiques.

La primera lı́nia d’actuació és la que agrupa la recerca directa que sorgeix dels
resultats obtinguts en aquesta tesi. Dins d’aquest punt es troben direccions heterogènies
relacionades, principalment, amb els resultats obtinguts a l’experimentació duta a terme.
Exemples d’aquests punt són la necessitat de l’estudi de l’impacte de la dimensió del
problema, |A|, quan es treballa, especialment, amb arbres de decisió ortogonals. Tal
i com es comentà en el capı́tol 8 (pg. 219), s’intueix que els inductors tradicionals,
com el C4.5, poden presentar un menor grau d’escalabilitat respecte la dimensió del
problema quan es compara amb el comportament del GALE evolucionant arbres de
decisió ortogonals.
Relacionat també amb els arbres de decisió, els resultats obtinguts pel GALE evolu-
cionant variants obliqües i multivariades també ha generat lı́nies interessants. Degut a
les possibilitats que ofereix l’aprenentatge evolutiu, ha permès abordar aquests dos ti-
pus de representacions, tradicionalment no emprades, degut a l’elevada complexitat que
presenten. Malgrat la duresa que comporta abordar aquest tipus d’arbres, els resultats
280 Conclusions i Recerca Futura

proposats pel GALE després del procés evolutiu han estat satisfactoris tenint present les
condicions en les que s’han obtingut. Per altra banda, un cop s’ha estudiat el que ha
succeı̈t al llarg de l’evolució, tant dels arbres de decisió oblics, com dels multivariats, s’ha
pogut identificar que la competència del GALE en l’evolució d’aquest tipus d’arbre es
pot millorar parant una atenció especial a la probabilitat de mutació emprada. Una pe-
culiaritat que comparteixen ambdues representacions és l’elevat nombre de gens, o valors
a ajustar, que, junt amb la topologia d’arbre, defineix un espai de cerca de proporci-
ons molt elevades. Tot això suggereix, junt amb el resultat d’algunes proves puntuals
realitzades, que la possibilitat de disposar d’un mecanisme d’adaptació automàtic de
la probabilitat de mutació del genoma és un requeriment ineludible pel funcionament
eficient del GALE per l’evolució d’aquest tipus de representacions. Aquest punt en-
tronca amb certes lı́nies de recerca existents dins la comunitat de computació evolutiva
cap a model amb paràmetres autoajustables, com per exemple el parameter-less genetic
algorithms [Lobo, 2000].
Dins aquesta primera lı́nia de temes de recerca sorgits dels resultats obtinguts, també
apareixen preguntes respecte a les possibilitats que ofereix l’evolució de representacions
basades en instàncies. Algunes, com la reducció del conjunt d’instàncies necessaris per
a la classificació, ja s’han explorat en aquesta tesi. Malgrat això, quan s’observen els
resultats obtinguts emprant instàncies parcialment i totalment definides es pot apreciar
que en molts casos no són necessaris l’ús de tots els atributs de |A| per assolir el mateix
rendiment en la classificació. Conseqüentment, això suggereix la possibilitat de dur
a terme recerca en la direcció de poder avaluar la viabilitat d’emprar les instàncies
parcialment definides del GALE per a la selecció d’atributs rellevants. Aquest punt
entronca directament amb la recerca que s’està realitzant dins el Grup de Sistemes
Intel·ligents pel que fa al problema mmg. En aquest problema s’ha pogut apreciar que les
instàncies parcialment definides obtingudes pel GALE utilitzen al voltant d’un 10% dels
atributs per realitzar la classificació eficientment. Això suggereix que en la recerca que
es duu a terme s’hauria de tenir en compte el fet que s’hauria de reavaluar el conjunt
d’atributs que s’estan emprant.
La segona lı́nia de recerca futura que es presenta és la que afecta a les diferents
representacions del coneixement que pot manipular el GALE. Com s’ha pogut apreciar
al capı́tol 8 (pg. 219), el disposar de diferents representacions del coneixement permet,
no sols utilitzar aquella que millor s’adapti a un problema concret, si no també identificar
dificultats en el procés de classificació, tal i com succeı̈a amb les diferents representacions
arborescent en el problema irs i com el conflicte sempre sorgia entre les mateixes classes.
És per aquest motiu, que part dels esforços de recerca futura s’haurien de centrar en noves
representacions cara a facilitar la detecció d’aquest tipus de problemàtica. En aquesta
direcció s’haurien d’encaminar els esforços per incorporar representacions basades en
vectors de suport i models estadı́stics.
L’altre gran tasca que engloba aquesta lı́nia té relació amb l’elecció de la representació
adient en front d’un nou problema a resoldre emprant el GALE. Tal i com s’ha pogut
observar, aquesta sols es pot fer a posteriori. És a dir, un cop s’ha vist quina es
comporta millor es pot escollir. Un dels punts en els quals s’ha recolzat la tesi és
281

en idees pertanyents als camps de la vida artificial i la computació evolutiva. Dins


d’ambdós camps, el concepte de co-evolució juga un paper important. Aquesta pot ser
també una possible alternativa al dilema de l’elecció davant d’un problema nou quina
representació emprar. La solució podria passar per permetre que el tauler T a evolucionar
no fos exclusivament homogeni. És a dir, donat el model proposat pel GALE, per
què no permetre la evolució conjunta d’individus basats amb diferents representacions.
Per permetre aquesta co-evolució, s’hauria sols de tenir present a l’etapa de merge,
restringint-ho a individus que comparteixin la mateixa representació. Conseqüentment,
el problema de la decisió desapareixeria, ja que mirant el tauler T després del procés
evolutiu es podria veure quines representacions s’han adaptat millor al problema en
qüestió. Aquesta és una lı́nia de recerca que obre un ampli terreny per explorar.
L’última lı́nia futura que s’englobaria en aquesta segona lı́nia de recerca és la que
afecta al bagging. Aquesta tècnica, tal i com s’ha comentat anteriorment aporta millores
en la generalització que es pot assolir pel GALE davant d’instàncies no presentades
anteriorment. Aquesta tècnica, però, prendria una nova dimensió de la mà de la co-
evolució esmentada anteriorment. Aquest punt permetria definitivament explotar la
capacitat del GALE d’independència de la representació del coneixement. Amb el mateix
model, i sense haver de realitzar cap mena de canvi, donat un problema a resoldre es
pugui explotar les avantatges de les diferents representacions de les quals es disposa.
La tercera agrupació de recerca futura és la que proposa l’extensió del model proposat
pel GALE a altres tipus de mineria. Aquesta direcció no comporta massa complicaci-
ons. De forma directa es podria emprar el GALE per l’evolució de regles d’associació
o models numèrics com els que s’obtenen amb la programació genètica. Ambdós es
podrien incorporar fàcilment com noves representacions, sols havent de fer algunes con-
sideracions puntuals en la funció l’avaluació que utilitzen. Dins d’aquesta lı́nia també
seria interessant plantejar com el model d’evolució que proposa el GALE es pot esten-
dre per poder-ho aplicar a entorns dinàmics, aixı́ com a processos que requereixen d’un
aprenentatge continu, malgrat que s’allunyi de la mineria de dades pròpiament dita.
Finalment, la quarta i última gran branca de recerca és la que agrupa les considera-
cions més pràctiques. El GALE, tal i com s’ha pogut apreciar, és un model massivament
paral·lel. Conseqüentment la pregunta que sorgeix es com es pot assolir una explotació
eficient d’aquest paral·lelisme. Aquest punt afecta a com es pot mapar eficientment el
model que proposa el GALE sobre una arquitectura de computador real, no tant sols
simular com s’ha realitzat en aquesta tesi. Com es pot apreciar, aquesta lı́nia s’encavalca
amb la recerca existent en el camp del algorismes evolutius paral·lels. Per altra banda,
aquest procés de mapatge ha de tenir en compte que el procés de mineria de dades
que el GALE ha de dur a terme hauria d’atacar un sistema gestor de basses de dades.
Aquest punt és especialment crı́tic, ja que pot condicionar la paral·lelització efectiva que
es pugui realitzar. Dit d’una altra forma, aquesta lı́nia d’acció haurà de tenir present un
altre camp de recerca important, el que es realitza a nivell de sistemes gestos de bases
de dades distribuı̈des, i quines aportacions pot aquesta realitzar a l’explotació eficient
del paral·lelisme massiu inherent en el model que proposa el GALE. Aquest punt afecta
clarament a l’impacte que això pot tenir en el mapping del problema al damunt del
282 Conclusions i Recerca Futura

GALE.
APÈNDIX A

Simetria del mapping piramidal

La definició de la funció de mapping piramidal µkp, presentada a la secció 6.3.2 (pg.


123), es basa en l’ús de classes d’equivalència piramidal entre cel·les del tauler ⋆(Tij).
En aquest apèndix es descriurà el passos obtinguts per poder obtenir la funció ⋆ que
proporciona les classes d’equivalència piramidal per les cel·les de T . Concretament es
presentarà la idea que guia la simetria emprada, aixı́ com el passos seguits per assolir
l’expressió resultant.
Tal i com es presentà en la figura 6.6 (pg. 125), la representació gràfica de la funció
µkp correspon a una distribució de les instàncies de Σ en forma de piràmide truncada i
esgraonada. Aquest tipus d’estructura presenta dues propietats geomètriques útils. La
primera és la que es presenta a la figura A.1. Aquesta figura representa el contorn de les
“alçades” de cada cel·la de T . Com es pot apreciar, les cel·les de la mateixa “alçada”
formen esglaons al voltant de la piràmide. Aquesta “alçada” creix progressivament a
mida que la cel·la s’acosta al centre geomètric de la figura. La interpretació geomètrica
de T també aporta la segona caracterı́stica útil. Concretament, permet definir diferents
simetries dins l’estructura piramidal, com les que es poden definir emprant les dues
diagonals del rectangle que defineix T .
Per poder definir ⋆(Tij), s’hauran de realitzar varis passos previs. El primer serà
numerar les classes d’equivalència piramidal entre cel·les. Aquest procés de numeració
és pot formalitzar de la següent forma:


Definició 55 Funció d’equivalència triangular inferior eq(Tij) és aquella que donada
una cel·la triangular inferior, projecta aquesta sobre els naturals, tal i com mostra la
següent definició com:

△ i sii i ≤ j,
eq(Tij) =
j sii i > j.
284 Simetria del mapping piramidal

Figura A.1: Equivalència de cel·les en un mapping piramidal

...
7
5
4
3
2
1
0

Figura A.2: Distribució de les cel·les equivalents en un mapping piramidal


285

p(u,v)

p’

Figura A.3: Projecció d’un punt emprant les diagonals del rectangle definit per la matriu

La figura A.2 mostra gràficament com funciona aquest procés de numeració de les
diferent classes d’equivalència. Aquest procés sols presenta un problema, i és el fet que
sols funciona correctament per cel·les que es troben per sota la diagonal definida pels
punts (0, m) i (n, 0). És a dir:
m
y=− x+m (A.1)
n
Emprant la representació implı́cita de la diagonal presentada a l’equació A.1 és poden
identificar els punts que es troben per sobre d’ella. Això succeeix quan:
m
y+ x−m>0 (A.2)
n

Un cop es poden identificar els punts que es troben per sobre la diagonal, emprant la
condició A.2, és on entra en joc la simetria existent emprant les diagonals del rectangle
que defineix T . La simetria emprada és la que es presenta a la figura A.3. Com es
pot apreciar a la figura, aquesta simetria consisteix en projectar el triangle que es troba
sobre la diagonal de l’equació A.1, sobre el triangle inferior, en el qual si que es pot
calcular la classe d’equivalència associada a la cel·la projectada. Això s’assoleix rotant
el triangle superior π graus respecte el centre de la figura. Una altra forma d’afrontar
aquesta projecció, que és la que es presentarà tot seguit, consisteix en:

1. Calcular la distància entre el punt a projectar p i la diagonal de l’equació A.1,


seguint la recta que passa per p i que té el mateix pendent que l’altra diagonal
del rectangle definit per T 1 .

2. Calcular el punt projectat p ′ com a aquell punt de la recta definida en el punt


anterior i que es troba al doble de p a la distància calculada al punt anterior.
1
O el que és el mateix, la recta definida pels punts (0, 0) i (n, m).
286 Simetria del mapping piramidal

Aquesta procés s’il·lustra gràficament a la figura A.3. Per trobar la forma analı́tica
d’aquesta projecció s’haurà de calcular un seguit d’elements que es llisten a continuació:

1. L’expressió de la recta que presenta el mateix pendent que la diagonal definida


entre els punts (0, 0) i (n, m), i que passa pel punt p a projectar.

2. Calcular el punt de tall c entre la recta calculada al punt anterior i la presentada


a l’equació A.1.

3. Calcular el punt projectat p ′ com aquell punt que pertany a la recta calculada al
primer punt i que es troba al doble de la distància entre p i c.

Per tant, el primer punt és calcular l’expressió de la recta que: (1) presenta el mateix
pendent que el de la diagonal definida pels punts (0, 0) i (n, m) i (2) passa pel punt p
a projectar. L’expressió d’aquesta regla serà

y = ax + b (A.3)

Degut a que el pendent ha d’ésser el mateix que el de la diagonal entre els punts
(0, 0) i (n, m), el pendent de la recta a és m
n . Per, altra banda, l’equació anterior ha de
passar pel punt p = (u, v). Emprant el valor calculat de a, i sabent que ha de passar
per p, es pot calcular b com:

y = ax + b (A.4)
m
y= x+b (A.5)
n
m
v= u+b (A.6)
n
m
b=v− u (A.7)
n

Un cop determinat a i b, ja es pot determinar l’expressió de la recta que passa per


p i que presenta el mateix pendent que la diagonal definida pels punts (0, 0) i (n, m).
Aquesta esdevé:
m m
y = x+v− u (A.8)
n n

El següent pas és calcular el punt c, tal i com apareix a la figura A.3, com a
l’intersecció entre les rectes presentades a les equacions A.1 i A.8. Tot seguit es presenta
el càlcul d’aquest punt. La component y del punt c (cy), es calcula sumant les equacions
A.1 i A.8.
m
2y = m + v − u (A.9)
n
1 mu 
y= m+v− (A.10)
2 n
287

La component x del punt c es pot obtenir substituint el valor de cy, obtingut a


l’equació A.10, a l’expressió A.8.
1 m  m m
m+v− u = x+v− u (A.11)
2 n n n
m m 1  m   m 
x= + v− u − v− u (A.12)
n 2 2 n n
m m 1 m 
x= − v− u (A.13)
n 2 2 n 
nm n m
x= − v− u (A.14)
m 2 2m n
n n nv − mu
x= − (A.15)
2  2m n 
1 nv − mu
x= n− (A.16)
2 m
1 nv 
x= n+u− (A.17)
2 m

Arribats a aquest punt, ja es pot expressar el punt c en funció de p, tal i com es


mostra a continuació.
  
1 nv  1  mu 
c(u, v) = n+u− , m+v− (A.18)
2 m 2 n

L’última part del càlcul del punt projectat p ′ consisteix en trobar aquell punt que
pertany a la recta A.8 i que es troba al doble de la distància entre p i c. El punt p ′
s’obté com:

p ′ = p − 2(p − c) (A.19)

p = p − 2p + 2c (A.20)

p = 2c − p (A.21)
  
′ 1 nv  1  mu 
p =2 n+u− , m+v− − (u, v) (A.22)
2 m 2 n
 nv mu 
p′ = n − ,m − (A.23)
m n

Arribats a aquest punt, ja es disposa de l’expressió que permet projectar les cel·les
del triangle superior sobre l’inferior. Conseqüentment, ja es pot definir la funció d’equi-
valència per tota cel·la del tauler T . La definició 56 presenta la funció d’equivalència de
cel·les piramidal. Per assolir aquesta definició, aquesta es basa en l’equivalència trian-
gular inferior donada a la definició 55, aixı́ com amb l’expressió del punt projectat p ′ de
l’equació A.23 i la condició de pertinença al triangle superior del tauler T presentada a
l’expressió A.2.

Definició 56 Funció d’equivalència de cel·les ⋆(Tij) és aquella que donada una cel·la
qualsevol de Tij, projecta aquesta sobre els naturals, és a dir

⋆ : Tij 7−→ N
288 Simetria del mapping piramidal

i es defineix tal i com mostra a continuació:




eq(n n
−m j, m − m n i) sii j + m
ni − m > 0,
⋆(Tij) = △
eq(i, j) sii j + m
− m ≤ 0.
ni
APÈNDIX B

Pseudocodi del GALE

En aquest apèndix és recull el pseudocodi que descriu el model proposat pel GALE.
A la figura B.1 és presenta el procés principal de l’algorisme. Un cop presentat aquest
procés, tot seguit es detalla les principals parts que conformen el model. És a dir, la
figura B.2 presenta l’avaluació, mentre les figures B.3, B.4 i B.5 corresponen al merge,
el split i survival.

GALE(T ,P)
FOR-EACH Tij ∈ T
DO IN PARALLEL
t ← 0
initialize Tij
evaluate the accuracy of individual in Tij using P
REPEAT
t ← t+1
merge individual in Tij among Tijν
split individual in Tij among Tijν
evaluate the accuracy of individual in Tij using P
survival of Tij among Tijν
UNTIL Ω (Tij, t)
DONE
RETURN T

Figura B.1: Pseudocodi del procés principal del GALE


290 Pseudocodi del GALE

Evaluate(Tij)
FOR-EACH k, l ∈ X∗
DO
TijCkl ← 0
DONE
FOR-EACH e ∈ µ(Σ, Tij)
DO
k ← eχ 
l ← ∇ TijI, e
TijCkl ← TijCkl +1
DONE
acc ← 0
FOR-EACH k ∈ X∗
DO
acc ← acc + TijCkl
DONE
 2
acc
A (Tij) ←
|µ(Σ, Tij)|

Figura B.2: Pseudocodi de l’avaluació

Merge(Tij)
IF rand(0, 1) < pM THEN
DO  ν 
IM
ij ← rand T I (t-1)
 ij 
Tij(t) ← X TijI(t-1), IM
I
ij
DONE

Figura B.3: Pseudocodi del merge


291

Split(Tij)
IF rand(0, 1) < pS (Tij(t)) THEN
DO  
ISij ← Y TijI(t-1)
 
IF ξ Tijν(t − 1) = 8 THEN
DO
r(t)I | A (r(t)) = min
a
(A(c)) ← ISij
c∈Tijν (t-1)
DONE
ELSE
DO
rand (L(t))I ← ISij
DONE
DONE

Figura B.4: Pseudocodi del split

Survival(Tij)
I ← TijI(t) 
IF ξ Tijν(t) < 2 THEN
DO
IF A(I) < rand(0, 1) THEN
DO
I←λ
DONE
DONE  
ELSE IF ξ Tijν(t) < 7 THEN
DO    
IF A(I) > Aµ Tijν(t) + ksr · Aσ Tijν(t) THEN
DO
I←λ
DONE
DONE
ELSE
DO
I ← r(t)I | A (r(t)) = max
a
(A(c))
c∈Tijν (t)
DONE
TijI(t) ← I

Figura B.5: Pseudocodi del survival


292 Pseudocodi del GALE
Agraı̈ments

Agraeixo a en Josep Maria Garrell la supervisió del treball realitzat, aixı́ com l’ajuda
i l’amistat de tota la gent del Grup de Recerca en Sistemes Intel·ligents. A la Maria
merci pels ànims i hores esmerçades al despatx. Ester les converses m’han ajudat a
comprendre. No seria just no fer extensiu aquests agraı̈ments també als companys del
Departament d’Informàtica, tant els que hi són com els que han marxat, que m’han fet
sentir com a casa. A la resta de gent de l’Escola que, d’una forma o altra, m’han ajudat
al llarg d’aquesta tesi, gràcies. Teresa, et tornaré els llibres.
Gràcies per la vostra paciència Lluı́s i Xevi. Sense fer fressa, també heu patit d’aques-
ta tesi cada vespre. Francesc, la teva alegria als migdies es contagiosa. Merci també
a tots el amics i amigues que m’heu animat al llarg d’aquests anys. Agrair també a
la gent de la comunitat de computació evolutiva (Luı́s, Hernán, Martin, Terry, Alwyn,
Erick, David, Pier, Wolfgang, Sonia, Natalio...) que he conegut al llarg d’aquests anys
de peripècies per fer-me sentir un membre més. Agrair-vos, no cal dir-ho, també les
inquietuds, idees i discussions que hem compartit.
Però aquesta tesi segur que no hauria estat mai possible sense la meva famı́lia. Sé
que no us ha estat senzill. Margarita, Pere, Pilar i Manel les paraules no serveixin per
agrair-vos prou tot el que heu fet avis. Als meus pares, Isabel i Xavier, gràcies per ser-hi
sempre que us he necessitat i per les petites coses que sempre heu fet dia a dia per
ajudar-me. Mare, merci per tota aquella feina fosca que no es veu, i que a vegades no
es reconeix. Iaia, sense els teus consells les coses serien diferents. Per cert, iaia, mai
estic sol.
Finalment, agrair el suport rebut per part del CIRIT de la Generalitat de Catalunya,
sota la beca 1999FI-00719, que ha permès la realització d’aquesta tesi doctoral. Agrair
també a Enginyeria i Arquitectura La Salle el suport i la confiança rebuda al llarg d’a-
quests tres anys.

Xavier Llorà

Barcelona, 23 de març de 2008


Bibliografia

[Ackley and Littman, 1991] Ackley, D. and Littman, M. (Addison-Wesley, 1991). In-
teractions between learning and evolution. In Proc. of 2nd Conf. on Artificial Life.

[Aha, 1992] Aha, D. W. (1992). Tolerating noisy irrelevant and novel attributes in
instance-based learning algorithms. International Journal of Man-Machine Studies,
36:267–287.

[Aha et al., 1991] Aha, D. W., Kibler, D., and Albert, M. K. (1991). Instance-based
Learning Algorithms. Machine Learning, 6:37–66.

[Anahory and Murray, 1997] Anahory, S. and Murray, D. (1997). Data Warehousing in
the Real World: a practical guide for building decision support systems. Addison-
Wesley.

[Araujo et al., 2000] Araujo, D. L., Lopes, H. S., and Freitas, A. A. (2000). Rule
Discovery with a Parallel Genetic Algorithms. In Whitley, D., D., G., Cantú-Paz,
E., L., S., I., P., and H., B., editors, Workshop on Data Mining with Evolutionary
Computation held in GECCO 2000, pages 89–92. Morgan Kaufmann Publishers.

[Back, 1996] Back, T. (1996). Evolutionary Algorithms in Theory and Practice. Oxford
University Press.

[Baldwin, 1896] Baldwin, J. (1896). A new factor in evolution. American Naturalist 30,
pages 441–451.

[Berlekamp et al., 1982] Berlekamp, E. R., Conway, J. H., and Guy, R. (1982). Winning
Ways for Your Mathematical Plays. New York: Academic Press.

[Bernadó, 2001] Bernadó, E. (2001). Aportacions als Sistemes Classificadors basats


Algorismes Genètics. PhD thesis, ETSEEI La Salle, Universitat Ramon Llull.

[Bernadó et al., 2001] Bernadó, E., Llorà, X., and Garrell, J. M. (2001). XCS and GALE:
a Comparative Study of Two Learning Classifier Systems with Six Other Learning
Algorithms on Classification Tasks. In Proceedings of the 4th International Workshop
on Learning Classifier Systems (IWLCS-2001), to appear.
296 Bibliografia

[Bonelli and Parodi, 1991] Bonelli, P. and Parodi, A. (1991). An Efficient Classifier
System and its Experimental Comparison with Two Representative Learning Methods
on Three Medical Domains. In 4th. International Conference on Genetic Algorithms
(ICGA’91), pages 288–295. Morgan Kaufmann.

[Breiman, 1996] Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–


140.

[Breiman et al., 1984] Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984).
Classification and Regression Trees. Wadsworth International Group.

[Brodley, 1993] Brodley, C. E. (1993). Addressing the seletive superiority problem: Au-
tomatic algorithm/model class selection. In Proceedings of the 10th International
Conference on Machine Learning, pages 17–24.

[Brooks, 1986] Brooks, R. A. (March 1986). A robust layered control system for a
mobile robot. IEEE journal of Robotics and Automation, pages 14–23.

[Burges, 1998] Burges, C. (1998). A tutorial on support vector machines for pattern
recognition. Data Mining and Knowledge Discovery, 2(2).

[Burks, 1966] Burks, A. W. (1966). Theory of Self-Reproducing Automata. Urbana:


University of Illinois Press.

[Butz and Pelikan, 2001] Butz, M. V. and Pelikan, M. (2001). Analyzing the Evolutio-
nary Pressures in XCS. Illigal report no. 2001009, Illinois Genetic Algorithm Lab.

[Canavos, 1988] Canavos, G. C. (1988). Probabilidad y Estadı́stica: Aplicaciones y


Métodos. McGraw-Hill.

[Cantú-Paz, 1997] Cantú-Paz, E. (1997). A Survey of Parallel Genetic Algorithms. Illi-


GAL Report (No. 97003), University of Illinois at Urbana-Champaign.

[Cantú-Paz, 2000] Cantú-Paz, E. (2000). Efficient and Accurate Parallel Genetic Algo-
rithms. Kluwer Academic Publishers.

[Cohen, 1987] Cohen, F. (1987). Computer Viruses: Theory and Experiments. Compu-
ters and Security 6, pages 22–35.

[Conover, 1971] Conover, W. (1971). Practical Nonparametric Statistics. New York:


John Wiley, pages 206-209, 383.

[Cristianini and Shawe-Taylor, 2000] Cristianini, N. and Shawe-Taylor, J. (2000). Sup-


port Vector Machines. Cambrige University Press.

[Darwin, 1859] Darwin, C. (1859). On the origin of species by means of natural selection,
or the preservation of favoured races in the struggle for life. Edició traduida de Planeta-
Agostini (1992).

[Date, 1994] Date, C. J. (1994). An Introduction to Database Systems. Addison-Wesley.


297

[Davidor, 1991] Davidor, Y. (1991). A Naturally Occuring Niche & Species Pheno-
menon: The Model and First Results. In 4th. International Conference on Genetic
Algorithms (ICGA’91), pages 257–263. Morgan Kaufmann.

[Davis, 1991] Davis, L. (1991). Handbook of Genetic Algorithms. Van Nostrand Rein-
hold, New York.

[De Jong, 1975] De Jong, K. A. (1975). An Analysis of the Behavior of a Class of


Genetic Adaptive Systems. PhD thesis, University of Michigan.

[De Jong and Spears, 1991] De Jong, K. A. and Spears, W. M. (1991). Learning Con-
cept Classification Rules Using Genetic Algorithms. In Proceedings of the International
Joint Conference on Artificial Intelligence, pages 651–656. Sidney, Australia.

[Deb and Goldberg, 1989] Deb, K. and Goldberg, D. E. (1989). An invertigation of


niche and species formation in genetic funtion optimization. In Proceedings of the
3th Intenational Conference on Genetic Algorithms, pages 42–50. Morgan Kaufmann.

[Deb and Goldberg, 1994] Deb, K. and Goldberg, D. E. (1994). Sufficient conditions for
deceptive and easy binary functions. Annals of Mathematics and Artificial Intelligence,
10:385–408.

[Deb et al., 1992] Deb, K., Horn, J., and Goldberg, D. E. (1992). Multinodal deceptive
functions. IlliGAL Report (No. 92003), University of Illinois at Urbana-Champaign.

[Detrano et al., 1989] Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid,
J., Sandhu, S., Guppy, K., Lee, S., and Froelicher, V. (1989). International application
of a new probability algorithm for the diagnosis of coronary artery disease. American
Journal of Cardiology, 64:304–310.

[Dewdney, 1988] Dewdney, A. (1988). The Armchair Universe. New York: Freeman.

[Dietterich, 1998] Dietterich, T. G. (1998). Approximate Statistical Tests for Compa-


ring Supervised Classification Learning Algorithms. Neural Computation, 10(7):1895–
1924.

[Dixon et al., 2001] Dixon, P., Corne, M., and Oates, M. (2001). A Preliminary Inves-
tigation of Modified XCS as a Generic Data Mining Tool. In Proceedings of the 4th
International Workshop on Learning Classifier Systems (IWLCS-2001), to appear.

[Domingos, 1995] Domingos, P. (1995). Rule Induction and Instance-based Learning:


A Unified Approach. In Proceedings of the 14th International Joint Conference on
Artificial Intelligence, pages 1226–1232. Morgan Kaufmann.

[Emmeche and Sampson, 1996] Emmeche, C. and Sampson, S. (1996). The Garden in
the Machine (The Emerging Science of Artificial Life. Princeton University Press.

[Evett and Spiehler, 1987] Evett, I. W. and Spiehler, F. (1987). Rule Induction in Foren-
sic Science. Technical report, Central Reseach Establishment, Home Office Forensic
Science Service.
298 Bibliografia

[Feng et al., 1993] Feng, C., Sutherland, A., King, S., Muggleton, S., and Henery, R.
(1993). Comparison of machine learning classifiers to statistics and neural networks.
In Fourth International Conference on AI & Statistics, pages 41–52.

[Fisher, 1936] Fisher, R. (1936). The use of multiple measurements in taxonomic pro-
blems. Annual Eugenics, 7(2):179–188.

[Flockhart, 1995] Flockhart, I. W. (1995). GA-MINER: Parallel Data Mining with Hie-
rarchical Genetic Algorithms (Final Report). Technical Report EPCC-AIKMS-GA-
MINER-REPORT 1.0, University of Edinburgh.

[Fogel, 1995] Fogel, D. B. (1995). Evolutionary Computation: Toward a New Philo-


sophy of Machine Intelligence. IEEE Press.

[Forina and et al., 1991] Forina, M. and et al. (1991). PARVUS - An Extendible Package
for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and
Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.

[Forsyth, 1990] Forsyth, R. S. (1990). PC/BEAGLE User’s Guide. Technical report,


BUPA Medical Research Ltd. 8 Grosvenor Avenue, Mapperley Park, Nottingham NG3
5DX, 0602-621676 .

[Frank and Witten, 1998] Frank, E. and Witten, I. H. (1998). Generating Accurate Rule
Sets Without Global Optimization. In Shavlik, J., editor, Machine Learning: Procee-
dings of the Fifteenth International Conference, pages 144–151. Morgan Kaufmann.

[Garcia-Molina et al., 2000] Garcia-Molina, H., Ullman, J. D., and Widom, J. (2000).
Database System Implementations. Prentice-Hall.

[Gennari et al., 1989] Gennari, J., Langley, P., and Fisher, D. (1989). Models of incre-
mental concept formation. Artificial Intelligence, 40:11–61.

[Giordana and Neri, 1995] Giordana, A. and Neri, F. (1995). Search-Intensive Concept
Induction. Evolutionary Computation, 3(4):375–416.

[Golberg et al., 1992a] Golberg, D. E., Deb, K., and Clark, J. H. (1992a). Genetic
Algorithms, noise, and the sizing of populations. Complex Systems, 6:333–362.

[Golberg et al., 1992b] Golberg, D. E., Horn, J., and Deb, K. (1992b). What Makes
a Problem Hard for a Classifier System. IlliGAL Report (No. 92007), University of
Illinois at Urbana-Champaign.

[Golberg and Wang, 1997] Golberg, D. E. and Wang, L. (1997). Adaptive Niching Via
Coevolutionary Sharing. IlliGAL Report (No. 97007), University of Illinois at Urbana-
Champaign.

[Goldberg, 1989] Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization


and Machine Learning . Addison-Wesley Publishing Company, Inc.
299

[Goldberg, 2000] Goldberg, D. E. (2000). Using Time Efficiently: Genetic-Evolutionary


Algorithms and the Continuation Problem. In Proceedings of the Genetic and Evolu-
tinary Computation Conference (GECCO’2000), pages 212–219.

[Goldberg, 2001] Goldberg, D. E. (2001). The Design of Competent GAs: Towards


a Computational Theory of Innovation. In Tutorials of the Genetic and Evolutinary
Computation Conference (GECCO’2001), pages 284–403.

[Gorman and Sejnowski, 1988] Gorman, R. P. and Sejnowski, T. J. (1988). Analysis


of Hidden Units in a Layered Network Trained to Classify Sonar Targets. Neural
Networks, 1:75–89.

[Green and Kirley, 2000] Green, D. G. and Kirley, M. G. (2000). Adaptation, diversity
and spatial patterns. International Journal of Knowledge-Based Intelligent Engineering
Systems, 4(3):184–190.

[Greene and Smith, 1993] Greene, D. F. and Smith, S. F. (1993). Competition-Based


Induction of Decision Models from Examples. Machine Learning, 13:229–257.

[Hampson and Volper, 1986] Hampson, S. and Volper, D. (1986). Linear function neu-
rons: Structure and Trainning. Biological Cybernetics, 53:203–217.

[Han and Kamber, 2001] Han, J. and Kamber, M. (2001). Data Minig: Concepts and
Techniques. Morgan Kaufmann.

[Hart, 1968] Hart, P. E. (1968). The Condensed Nearest Neighbor Rule. IEEE Transac-
tions on Information Theory, 14(1):515–516.

[Heath et al., 1993] Heath, D., Kasif, S., and Salzberg, S. (1993). Learning oblique
decision trees. In Proceedings of the 13th Intenational Joint Conference on Artificial
Intelligece, pages 1002–1007. Morgan Kaufmann.

[Hinton and S.J., 1987] Hinton, G. and S.J., N. (1987). How learning can guide evolu-
tion. Complex Systems 1, pages 495–502.

[Holland, 1969] Holland, J. H. (1969). Adaptive Plans Optimal for Payoff-Only En-
vironments. In Proceedings of the 2nd Hawaii International Conference on System
Sciences, pages 917–920.

[Holland, 1975] Holland, J. H. (1975). Adaptation in Natural and Artificial Systems: An


Introductory A nalysis with Applications to Biology, Control and Artificial Intelligence.
MIT Press/ Bradford Books edition.

[Holland, 1995] Holland, J. H. (1995). Hidden Order: How Adaptation Builds Com-
plexty. Perseus Books.

[Holland, 1998] Holland, J. H. (1998). Emergence: From Chaos To Order. Perseus


Books.

[Holland and Reitman, 1978] Holland, J. H. and Reitman, J. S. (1978). Cognitive sys-
tems based on adaptive algorithns. Pattern directed inference systems, pages 313–329.
300 Bibliografia

[Holmes, 1997] Holmes, J. H. (1997). Discovering Risk of Disease with a Learning


Classifier System. In Proceedings of the Seventh International Conference of Genetic
Algorithms (ICGA’97), pages 426–433. Morgan Kaufmann.

[Holte, 1993] Holte, R. (1993). Very simple classification rules perform well on most
commonly used datasets. Machine Learning, 11:63–91.

[Hopcroft and Ullman, 1979] Hopcroft, J. E. and Ullman, J. D. (1979). Introduction to


automata theory, languages, and computation. Addison-Wesley Publishing Company.

[Hwang, 1993] Hwang, K. (1993). Advanced Computer Architectures: parallelism, sca-


lability, programability. MacGraw-Hill.

[Janikow, 1993] Janikow, C. (1993). A Knowledge Intensive Genetic Algorithm for Su-
pervised Learning. Machine Learning, 13:198–228.

[John and Langley, 1995] John, G. H. and Langley, P. (1995). Estimating Continuous
Distributions in Bayesian Classifiers. In 11th. Conference on Uncertainty in Artificial
Intelligence, pages 338–345.

[Kirley and Green, 2000] Kirley, M. G. and Green, D. G. (2000). An Empirical Inves-
tigation of Optimisation in Dynamic Environments Using the Cellular Genetic Al-
gorithm. In Proceedings of the Genetic and Evolutinary Computation Conference
(GECCO’2000), pages 11–18.

[Kodratoff, 1986] Kodratoff, Y. (1986). Introduction to Machine Learning. Morgan


Kaufmann.

[Kovacs, 1996] Kovacs, T. (1996). Evolving Optimal Populations with XCS Classifier
Systems. Master’s thesis, School of Computer Science, University of Birmingham,
UK.

[Kovacs, 1997] Kovacs, T. (1997). XCS Classifier System Reliably Evolves Accurate,
Complete and Minimal Representations for Boolean Functions. In Roy, Chawdhryand,
and Pant, editors, Soft Computing in Engineering Design and Manufacturing, pages
59–68. Springer-Verlag.

[Kovacs, 1999] Kovacs, T. (1999). Deletion Schemes for Classifier Systems. In Procee-
dings of the Genetic and Evolutionary Computation Conference (GECCO’99), pages
329–336. Morgan Kauffmann.

[Koza, 1992] Koza, J. R. (1992). Genetic Programing: On the Programing of Computers


by Means of Natural Selection (Complex Adaptive Systems). MIT Press.

[Koza, 1994] Koza, J. R. (1994). Genetic Programing: Automatic Discovery of Reusable


Programs (Complex Adaptive Systems). MIT Pres.

[Koza et al., 1999] Koza, J. R., Bennett III, F. H., Andre, D., and Keane, M. A. (1999).
Genetic Programing: Darwinian Invention and Problem Solving (Complex Adaptive
Systems). MIT Pres.
301

[Langley, 1996] Langley, P. (1996). Elements of Machine Learning. Morgan Kaufmann.

[Langton, 1986] Langton, C. G. (1986). Studying artificial life with cel·lular automata.
Physica 22D, pages 120–149.

[Lanzi, 1999] Lanzi, P. L. (1999). Extending the Representation of Classifier Conditions


Part I: From Binary to Messy Coding. In Proceedings of the Genetic and Evolutinary
Computation Conference (GECCO’99), pages 337–344. Morgan Kauffmann.

[Lanzi, 2001] Lanzi, P. L. (2001). Mining Interesting Knowledge from Data with the
XCS Classifier System. In Proceedings of the Genetic and Evolutinary Computation
Conference (GECCO’2001), pages 958–965. Morgan Kauffmann.

[Lanzi and Perrucci, 1999] Lanzi, P. L. and Perrucci, A. (1999). Extending the Repre-
sentation of Classifier Conditions Part II: From Messy Coding to S-Expressions. In
Proceedings of the Genetic and Evolutinary Computation Conference (GECCO’99),
pages 345–352. Morgan Kauffmann.

[Levy, 1993] Levy, S. (1993). Artificial Life: A report from the frontier where computers
meet biology. First Vintage Books Edition.

[Lim et al., 2000] Lim, T.-S., Loh, W.-Y., and Shih, Y.-S. (2000). A Comparison of
Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New
Classification Algorithms. Machine Learning, 40:203–228.

[Lindenmayer and Prusinkiewicz, 1990] Lindenmayer, A. and Prusinkiewicz, P. (1990).


The Algorithmic Beuaty of Plants. New York: Springer-Verlag.

[Liu and Motoda, 1998] Liu, H. and Motoda, H. (1998). Feature Selection for Know-
ledge Discovery and Data Mining. Kluwer Academic Press.

[Llorà, 2000] Llorà, X. (Juliol, 2000). Diploma d’Estudis Avançats. ETSEEI La Salle,
Universitat Ramon Llull.

[Llorà and Garrell, 1998] Llorà, X. and Garrell, J. M. (1998). A Classifier System based
on Genetic Algorithm under the Pittsburgh aproach for problems with real valued
attributes. In Proceedings of the First Catalan Conference on Artificial Inteligence
(CCIA’98), pages 85–93.

[Llorà and Garrell, 1999a] Llorà, X. and Garrell, J. M. (1999a). Extensions to the GE-
NIFER system: an incremental Machine Learning Approach. In Proceedings of the
Second Catalan Conference on Artificial Inteligence (CCIA’99), pages 253–260.

[Llorà and Garrell, 1999b] Llorà, X. and Garrell, J. M. (1999b). GENIFER: A Nearest
Neighbour based Classifier System using GA. In Proceedings of the Genetic and
Evolutionary Computation Conference (GECCO’99), page 797.

[Llorà and Garrell, 2000a] Llorà, X. and Garrell, J. M. (2000a). Automatic Classification
and Artfificial Life Models. In Proceedings of the International Worshop on Learning
(Learning00).
302 Bibliografia

[Llorà and Garrell, 2000b] Llorà, X. and Garrell, J. M. (2000b). Evolving Hierarchi-
cal Agents using Cellular Genetic Algorithms. In Proceedings of the Genetic and
Evolutionary Computation Conference, (GECCO2000), page 868. Morgan Kaufmann
Publishers.

[Llorà and Garrell, 2001a] Llorà, X. and Garrell, J. M. (2001a). Evolution of Decision
Trees. In Forth Catalan Conference on Artificial Intelligence (CCIA’2001), pages 115–
122. ACIA Press.

[Llorà and Garrell, 2001b] Llorà, X. and Garrell, J. M. (2001b). Evolving Partially-
Defined Instances with Evolutionary Algorithms. In Proceedings of the 18th Internatio-
nal Conference on Machine Learning (ICML’2001), pages 337–344. Morgan Kaufmann
Publishers.

[Llorà and Garrell, 2001c] Llorà, X. and Garrell, J. M. (2001c). Knowledge-Independent


Data Mining with Fine-Grained Parallel Evolutionary Algorithms. In Proceedings of
the Genetic and Evolutionary Computation Conference (GECCO’2001), pages 461–
468. Morgan Kaufmann Publishers.

[Llorà et al., 2000] Llorà, X., Golobardes, E., and Salamó, M. (2000). Diagnosis of
microcalsification using case-based and genetic algorithms. In Proceedings of Engi-
neering of Inteligent Systems (EIS200), pages 258–265.

[Lobo, 2000] Lobo, F. (2000). The parameter-less genetic algorithms: Rational and
automated parameter selection for simplified genetic algorithm operation. PhD thesis,
University of Lisbon, Portugal.

[Martı́ et al., 1998] Martı́, J., Cufı́, X., Regincós, J., and et al. (1998). Shape-based
feature selection for microcalcification evaluation. In Imaging Conference on Image
Processing, 3338:1215-1224.

[Martı́nez et al., 1996] Martı́nez, E., Vos, C., and et al. (1996). Morphological analysis
of mammary biopsy images. In Proceedings of the IEEE International Conference on
Image Processing (ICIP’96), pages 943–947.

[Merz and Murphy, 1998] Merz, C. J. and Murphy, P. M. (1998). UCI Repository
for Machine Learning Data-Bases [http://www.ics.uci.edu/∼mlearn/MLRepository.
html]. Irvine, CA: University of California, Department of Information and Computer
Science.

[Michalewicz, 1992] Michalewicz, Z. (1992). Genetic Algorithms + Data Structures =


Evolution Programs. Springer-Verlag.

[Michalski et al., 1998] Michalski, R. S., Bratko, I., and Kubat, M. (1998). Machine
Learning and Data Mining: methods and applications. Wiley.

[Mitchell, 1997] Mitchell, T. M. (1997). Machine Learning. McGraw Hill.

[Mowforth and Shepherd, 1987] Mowforth, P. and Shepherd, B. (1987). Vehicle Re-
cognition Using Rule Based Methods. Technical report, Turing Institute Research
Memorandum TIRM-87-018.
303

[Muggleton, 1992] Muggleton, S. (1992). Inductive Logic Programming. Academic


Press.

[Murthy et al., 1994] Murthy, S. K., Kasif, S., and Salzberg, S. (1994). A System for
Induction of Oblique Decision trees. Journal of Artificial Intelligence Research, 2:1–32.

[Özsu and Valduriez, 1999] Özsu, M. T. and Valduriez, P. (1999). Principles of Distri-
buted Database Systems. Prentice-Hall.

[Parsaye et al., 1989] Parsaye, K., Chignell, M., Khoshafian, S., and Wong, H. (1989).
Intelligent Databases: Object-Oriented, Deductive, Hypermedia technologies. Wiley.

[Pelikan and Golberg, 2001] Pelikan, M. and Golberg, D. E. (2001). Escaping Hie-
rarchical Traps with Competent Genetic Algorithms. IlliGAL Report (No. 2001003),
University of Illinois at Urbana-Champaign.

[Pelikan et al., 2000] Pelikan, M., Golberg, D. E., and Cantú-Paz, E. (2000). Bayesian
Optimization Algorithm, Population Sizing, and Time to Convergence. IlliGAL Report
(No. 2000001), University of Illinois at Urbana-Champaign.

[Platt, 1998] Platt, J. (1998). Fast training of support vector machines using sequential
minimal optimization. In Schlkopf, B., C., B., and A., S., editors, Advances in Kernel
Methods-Support Vector Learning. Cambridge, MA:MIT Press.

[Poundstone, 1985] Poundstone, W. (1985). The Recursive Universe. New York: Mor-
row.

[Quinlan, 1986] Quinlan, J. R. (1986). Induction of decision trees. Machine Learning,


1(1):81–106.

[Quinlan, 1993] Quinlan, J. R. (1993). C4.5: programs for machine learning. Morgan
Kaufmann.

[Rasmussen et al., 1990] Rasmussen, S., K., C., Felberg, R., and Hindsholm, M. (1990).
The Core World: Emergence and Evolution of Cooperative Structures in Computati-
onal Chemistry. Physica 42D, pages 111–134.

[Ray, 1995] Ray, T. S. (1995). An evolutionary approach to synthetic biology: Zen and
art of creating life. Artificial Life 1(1/2). Artificial Life: an overview. The MIT Press,
pages 1–10.

[Rechenberg, 1965] Rechenberg, I. (1965). Cybernetic Solution Path of an Experimental


Problem. Royal Aircraft Establishment, Library Translation No. 1122.

[Rechenberg, 1973] Rechenberg, I. (1973). Evolutionsstrategie: Optimierung Tech-


nisher Systeme nach Prinzipien der Biologischen Evolution. Stuttgart: Fromman-
Holzboog Verlag.

[Reynolds, 1987] Reynolds, C. W. (1987). Flocks, Herds, and Schools: A Distributed


Behavioral Model. Computer Graphics, 21(4):25–34.
304 Bibliografia

[Robertson, 1987] Robertson, G. G. (1987). Parallel implementation of Genetic Algo-


rithms in a Classifier System. In Proceedings of the 2nd International Conference on
Genetic Algorithms, pages 155–161. Lawerence Erlbaum Associates Publishers.

[Sachs, 1984] Sachs, L. (1984). Applied Statistics. Springer Series in Statistics. New
York: Springer-Verlag.

[Saxon and Barry, 2000] Saxon, S. and Barry, A. (2000). XCS and the Monk’s Problems.
In Lanzi, S. and Wilson, editors, Learning Classifier Systems: From Foundations to
Applications, pages 223–242.

[Schwefel, 1965] Schwefel, H. (1965). Kybernetische Evolution als Strategie der Experi-
mentellen Forschung in der Strömungstechnick. Diploma thesis, Technical University
of Berlin.

[Schwefel, 1981] Schwefel, H. (1981). Numerical Optimization of Computer Models.


Chichester: John Wiley.

[Shu and Shaffer, 1991] Shu, L. and Shaffer, J. (1991). HCS: Adding Hierarchies to
Classifier Systems. In Proceedings of the 4th Intenational Conference on Genetic
Algorithms, pages 230–236. Morgan Kaufmann.

[Sigillito et al., 1989] Sigillito, V. G., Wing, S. P., Hutton, L. V., and Baker, K. B.
(1989). Classification of radar returns from the ionosphere using neural networks.
Johns Hopkins APL Technical Digest, 10:262–266.

[Sipper, 1997] Sipper, M. (1997). Evolution of Parallel Cellular Machines: The Cellular
Programming Approach. Lecture Note in Computer Science (1194), Springer.

[Smith, 1987] Smith, A. R. (1987). Formal geometric languages for natural phenomena.
Pixar Technical Memo 182 (San Rafael, CA).

[Smith, 1984] Smith, A. R. (July 1984). Plants, fractals and formal languages. Com-
puter Graphics 18, pages 1–10.

[Smith et al., 1988] Smith, J., Everhart, J., Dickson, W., Knowler, W., and Johannes,
R. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes
mellitus. In Proceedings of the Symposium on Computer Applications and Medical
Care, pages 261–265.

[Smith, 1983] Smith, S. F. (1983). Flexible Learning of Problem Solving Heuristics


through Adaptive Search. In Proceedings of the 8th International Joint Conference
on Artificial Intelligence, pages 422–425.

[Spears et al., 1993] Spears, W. M., De Jong, K. A., and Gordon, D. F. (1993). Using
Genetic Algorithms for Concept Learning. Genetic Algorithms for Machine Learning
(John J.Grefenstette editor), A Special Issue of Machine Learning, 13, 2-3, pages
161–188.

[Ullman, 1988] Ullman, J. D. (1988). Principles of Databases and Knowledge-based


Systems. Volume I: Classical Database Systems. Computer Science Press.
305

[Ullman, 1989] Ullman, J. D. (1989). Principles of Databases and Knowledge-based


Systems. Volume II: The New Technologies. Computer Science Press.

[Utgoff and Brodley, 1990] Utgoff, P. E. and Brodley, C. E. (1990). An incremental


method for finding multivariate splits for decision trees. In Proceedings of the 7th
Intenational Conference on Machine Learning, pages 58–65. Morgan Kaufmann.

[Van de Merckt, 1993] Van de Merckt, T. (1993). Decision trees in numerical attri-
bute spaces. In Proceedings of the 13th Intenational Joint Conference on Artificial
Intelligece, pages 1016–1021. Morgan Kaufmann.

[Vapnik, 1995] Vapnik, V. (1995). The nature of statistical learning theory. Springer-
Verlag.

[Vos, 1996] Vos, C. (1996). Untersuchung von Biopsegewebe zur Klassifizierung von
Brustkrebs mit neuronalen Netzen. Master’s thesis, Master’s Tesis, Universitt Karls-
ruhe, Institut für Nachrichtentechnik, Intitut für Automation and Robotik.

[Weiss and Indurkhya, 1998] Weiss, S. M. and Indurkhya, N. (1998). Predictive Data
Minig: a practical guide. Morgan Kaufmann.

[Wettschereck and Dietterich, 1994] Wettschereck, D. and Dietterich, T. G. (1994). A


hybrid Nearest-Neighbor and Nearest-Hyperrectangle Algorithm. In Proceedings of the
7th European Conference on Machine Learning, LNAI, volume 784, pages 323–335.

[Wettschereck and Dietterich, 1995] Wettschereck, D. and Dietterich, T. G. (1995).


An Experimental Comparasion of the Nearest-Neighbor and Nearest-Hyperrectangle
Algorithms. Machine Learning, 38:5–28.

[Whitley, 1993] Whitley, D. (1993). Cellular Genetic Algorithms. In Proceedings of the


5th International Conference on Genetic Algorithms(ICGA’93), pages 658–662.

[Widrow and Hoff, 1960] Widrow, B. and Hoff, M. (1960). Adaptive Switching Circuits.
In Westens Electronic Show and Convention, volume 4, pages 96–104.

[Wilson and Martinez, 1997] Wilson, R. D. and Martinez, T. R. (1997). Instance Pru-
ning Thecniques. In Proceedings of the 14th International Conference on Machine
Learning, pages 403–411. Morgan Kaufmann.

[Wilson and Martinez, 2000] Wilson, R. D. and Martinez, T. R. (2000). Reduction


Techniques for Instance-based Learning Algorithms. Machine Learning, 38:257–286.

[Wilson, 1994] Wilson, S. W. (1994). ZCS: A Zeroth Level Classifier System. Evoluti-
onary Computation, 2(1):1–18.

[Wilson, 1995] Wilson, S. W. (1995). Classifier Fitness Based on Accuracy. Evolutionary


Computation, 3(2):149–175.

[Wilson, 1996] Wilson, S. W. (1996). Generalization in XCS. Unpublished contribution


to the ICML’96 Workshop on Evolutionary Computing and Machine Learning.
306 Bibliografia

[Wilson, 1998] Wilson, S. W. (1998). Generalization in the XCS Classifier System. In


et al., J., editor, Genetic Programming: Proceedings of the 3rd. Annual Conference,
pages 665–674. San Francisco, CA: Morgan Kaufmann.

[Wilson, 1999a] Wilson, S. W. (1999a). Get Real! XCS with Continuous-Valued Inputs.
In Booker, L., Forrest, S., M., M., and R, R., editors, Festschrift in Honor of John
H. Holland, pages 111–121. Center for the Study of Complex Systems, University of
Michigan.

[Wilson, 1999b] Wilson, S. W. (1999b). State of XCS Classifier System Research. Tech-
nical Report No. 99.1.1, Prediction Dynamics.

[Wilson, 2000] Wilson, S. W. (2000). Mining Oblique Data with XCS. Illigal report no.
2000028, Illinois Genetic Algorithm Lab.

[Witten and Frank, 2000] Witten, I. H. and Frank, E. (2000). Data Mining: practical
machine learning tools and techniques with java implementations. Morgan Kaufmann.

[Wolberg and Mangasarian, 1995] Wolberg, W. H. and Mangasarian, O. L. (1995). Mul-


tisurface method of pattern separation for medical diagnosis applied to breast cytology.
In Proceedings of the National Academy of Sciences, pages 87:9193–9196.

[Wolfram, 1983] Wolfram, S. (1983). Cellular automata. Los Alamos Science 9, pages
2–21.

[Wolfram, 1984a] Wolfram, S. (1984a). Cellular automata as models of complexity.


Physica 10D, pages 1–35.

[Wolfram, 1984b] Wolfram, S. (September 1984b). Computer software in science and


mathematics. Scientific American, pages 188–203.

[Zadeh, 1965] Zadeh, L. A. (1965). Fuzzy Sets. Information and Control, 8:338–353.
Índex de Definicions

Activació d’una regla ⊜ (Def. 35), 145


Arbre de decisió ∆ (Def. 37), 147
Arrel del test enèsim ∆ri (Def. 38), 148
Atribut a (Def. 1), 23
Avaluació d’un individu A (Tij) (Def. 24), 131

Cardinalitat d’un tauler ζ(T ) (Def. 10), 120


Cardinalitat d’una agrupació de testos ∆c (Def. 39), 148
Cardinalitat del veinat ζ(Tijν) (Def. 14), 121
Condició de finalització Ω (Tij) (Def. 20), 129
Condició de finalització estesa Ω∗ (Tij) (Def. 25), 132
Conjunt actiu Φ (Def. 48), 156
Conjunt d’atributs A (Def. 2), 24
Conjunt de cel·les objectiu T P (Def. 33), 141
Conjunt de classes X (Def. 3), 24
Conjunt de classes estès X∗ (Def. 7), 25
Conjunt possible Ψ (Def. 46), 156
Conjunt visible Θ (Def. 47), 156

Encert de classificació E (Tij) (Def. 23), 130


Esquema S (Def. 52), 176
Estat (o cardinalitat) d’una cel·la ζ(Tij) (Def. 9), 120

Fulla d’un arbre de decisió (Def. 41), 149


Funció d’equivalència piramidal de cel·les ⋆(Tij) (Def. 56), 287
Funció d’equivalència triangular inferior de cel·les (Def. 55), 283
Funció de classificació ∇(TijI, e) (Def. 21), 130
Funció de classificació multivariada (Def. 50), 157
Funció de similitud γ (Def. 45), 154
Funció de similitud totalment definida γt (Def. 51), 160
Funció de mapping µ (Def. 15), 122
Funció de mapping piramidal µk p (Def. 18), 126
Funció de mapping uniforme µu (Def. 16), 123
308 Índex de Definicions

Instància e (Def. 4), 24

Llindar de màxima replicació ksp (Def. 29), 136


Llindar de survival sostenible ksr (Def. 32), 139
Longitud de definició δ(S) (Def. 54), 177

Matriu de confusió TijC (Def. 22), 130

Node intern oblic (Def. 42), 151


Node intern ortogonal (Def. 40), 149
Node multivariat (Def. 43), 153

Ocupació d’un tauler O(T ) (Def. 11), 121


Operador de creuament X (TijI, IM
ij ) (Def. 28), 134
Operador de mutació Y(TijI) (Def. 30), 136
Ordre d’un esquema o(S) (Def. 53), 176

Parella de merge IMij (Def. 27), 134


Pertinença a una regió de classificació (Def. 44), 154
Probabilitat d’estat inicial pζ (Def. 19), 128
Probabilitat de merge pM (Def. 26), 133
Probabilitat de split pS (Def. 29), 136
Probabilitat de survival en aillament pa R (Def. 31), 138
Problema de classificació P (Def. 6), 25
Problema de classificació relaxat Pr (Def. 17), 124

Supervivència sostenible (Def. 32), 139

Tauler T (Def. 8), 120


Test test sobre una instància δ (Def. 36), 147

Univers d’instàncies U (Def. 5), 24

Vector de votació B (Def. 34), 142


Veinatge ν (Def. 12), 121
Veinatge actiu νa (Def. 13), 121
Índex d’Exemples

Anàlisi d’agrupacions (Ex. 4), 12


Arbre de decisió oblic pel problema Obliques (Ex. 8), 31
Arbre de decisió pel problema del temps (Ex. 5), 28
Arbre de decisió pel problema Obliques (Ex. 7), 29
Arbre de decisió pel problema Quads (Ex. 6), 29

Càlcul de distàncies donat un conjunt d’instàncies (Ex. 12), 35


Codificació binària de regles de classificació (Ex. 15), 60
Codificació emprada pel GABIL (Ex. 16), 62
Conjunt de regles en FNC pel problema del temps (Ex. 10), 33
Conjunt de regles que descriuen el problema del temps (Ex. 9), 32

Encadenament de regles en un sistema classificador (Ex. 18), 72


Extracció de regles d’un arbre de decisió (Ex. 11), 33

Longitud de definició d’un esquema (Ex. 20), 177

Operador de creuament emprat pel GABIL (Ex. 17), 63


Ordre d’un esquema (Ex. 19), 176

Regles d’associació (Ex. 1), 10


Regles de classificació (Ex. 2), 11
Regressió numèrica (Ex. 3), 12
Representació binària de regles de classificació (Ex. 14), 59

Transformació no lineal basada en kernels polinomials (Ex. 13), 38


310 Índex d’Exemples
Índex d’Autors

Ackley, D.H., 103, 105, 106, 109 Conover, W.J., 250, 276
Aha, D.W., 34, 36, 46, 49, 234, 235, Conway, J.H., 95, 109
275 Corn, D.W., 115, 165
Albert, M.K., 34, 46, 49, 234, 235, 275 Cristianini, N., 38, 49
Anahory, S., 8, 17 Cufı́, X., 228, 275
Andre, D., 52, 87, 147, 165
Araujo, D., 68, 88, 114, 165 Darwin, C., 53, 86
Date, C.J., 7, 15, 17
Back, T., 186, 218 Davidor, Y., 209, 218
Baker, K.B., 226, 275 Davis, L., 52, 87
Baldwin, J.M., 103, 106, 109 De Jong, K.A., 60, 61, 76, 77, 86, 87,
Barry, A., 88, 115, 165 131, 166, 168
Bennett III, F.H., 52, 87, 147, 165 Deb, K., 77, 79, 88, 174, 185, 187, 218
Berlekamp, E.R., 95, 109 Detrano, R., 225, 275
Bernadó, E., 88, 115, 116, 165, 166, Dewdney, A.K., 106, 109
235, 246, 249, 275, 276 Dickson, W.C., 226, 275
Bonelli, P., 85 Dietterich, T.G., 250, 257, 276
Bratko, I., 16, 18 Dixon, P.W., 115, 165
Breiman, L., 30, 48, 142, 166, 222, 242, Domingos, P., 257, 276
275, 276 Emmeche, C., 108
Broadley, C.E., 31, 48, 249, 276 Everhart, J.E., 226, 275
Brooks, R.A., 107 Evett, I.W., 225, 275
Burges, C.J.C., 41, 49
Burks, A.W., 92, 94, 108 Felberg, R., 107, 109
Butz, M.V., 84, 88 Feng, C., 226, 275
Fiorina, M., 227, 275
Canavos, G.C., 8, 37, 41, 49, 246, 249, Fisher, D., 225, 275
276 Fisher, R.A., 226, 275
Cantú-Paz, E., 117, 118, 165, 178, 188, Flockhart, I.A., 68, 88, 114, 165
218 Fogel, D.B., 51, 53, 87, 100, 109
Carsten, K., 107, 109 Forsyth, R.S., 224, 275
Chignell, M., 9, 18 Frank, E., 1, 7, 9, 15, 18, 32, 37, 41–
Clark, J.H., 174, 185, 187, 218 46, 48, 49, 164, 165, 233, 235,
Cohen, F., 107, 109 246–248, 275, 276
312 Índex d’Autors

Freitas, A.A., 68, 88, 114, 165 Janosi, A., 225, 275
Friedman, J., 30, 48, 222, 275 Johannes, R.S., 226, 275
Froelicher, V., 225, 275 John, G.H., 42, 47, 49, 234, 275

Garcia-Molina, H., 7, 15, 17 Kamber, M., 1, 2, 7–9, 11, 15, 18, 32,
Garrell, J.M., 31, 48, 68, 88, 115, 116, 34, 48, 165
153, 158, 163, 165, 166, 223, Kasif, S., 31, 48
275 Keane, M.A., 52, 87, 147, 165
Gennari, J.H., 225, 275 Khoshafian, S., 9, 18
Giordana, A., 68, 87 Kibler, D., 34, 46, 49, 234, 235, 275
Goldberg, D.E., 52, 69, 74, 76, 77, 79, King, S., 226, 275
80, 86, 88, 89, 100, 109, 113, Kirley, M.G., 114, 115, 165
145, 146, 152, 165, 174, 175, Knowler, W.C., 226, 275
177, 178, 182, 185–187, 196, Kodratoff, Y., 19, 32, 48
217, 218 Kovacs, T., 82, 84, 85, 88
Golobardes, E., 231, 275 Koza, J.R., 11, 51, 52, 87, 103, 109,
Gordon, D.F., 61, 87, 168 147, 150, 152, 165
Gorman, R.P., 226, 275 Kubat, M., 16, 18
Green, D.G., 114, 115, 165
Greene, D.F., 68, 87 Langley, P., 19, 21, 42, 47–49, 225, 234,
Guppy, K., 225, 275 275
Guy, R., 95, 109 Langton, C.G., 98, 109
Lanzi, P.L., 82, 88, 115, 165
Hampson, S., 31, 48 Lee, S., 225, 275
Han, J., 1, 2, 7–9, 11, 15, 18, 32, 34, Levy, S., 92, 98, 101, 106–108
48, 165 Lim, T.S., 224, 275
Hart, P.E., 46, 49, 234, 276 Lindenmayer, A., 104, 109
Heath, D., 31, 48 Littman, M., 103, 105, 106, 109
Henery, R., 226, 275 Liu, H., 245, 246, 276
Hindsholm, M., 107, 109 Llorà, X., 31, 48, 68, 88, 115, 116, 153,
Hinton, G.E., 106, 109 158, 159, 163, 165, 166, 223,
Hoff, M., 83, 88 231, 275
Holland, J.H., 51, 52, 54, 69, 73, 74, Lobo, F., 280
76, 86, 88, 100–102, 109, 175, Loh, W.Y., 224, 275
176, 186, 217 Lopes, H.S., 68, 88, 114, 165
Holmes, J.H., 85
Mangasarian, O.L., 224, 275
Holte, R.C., 45, 49, 233, 252, 253, 275
Martı́, J., 228, 275
Hong, H., 9, 18
Martı́nez, E., 227, 228, 275
Hopcroft, J.E., 92
Martinez, T.R., 158, 159, 166, 276
Horn, J., 77, 79, 88
Merz, C.J., 115, 166, 222, 224, 275
Hutton, L.V., 226, 275
Michalewicz, Z., 51–54, 61, 87, 100, 109
Hwang, K., 118, 166, 169
Michalski, R.S., 16, 18
Indurkhya, N., 1, 7, 18 Mitchell, T.M., 20, 48
Motoda, H., 245, 246, 276
Janikow, C.Z., 61, 64, 67, 87 Mowforth, P., 227, 275
Índex d’Autors 313

Muggleton, S., 21, 49, 226, 275 Sipper, M., 114, 165
Murphy, P.M., 115, 166, 222, 224, 275 Smith, A.R., 104, 109
Murray, D., 8, 17 Smith, J.W., 226, 275
Murthy, S., 31, 48 Smith, S.F., 68, 87
Spears, W.M., 60, 61, 87, 131, 166, 168
Neri, F., 68, 87 Spiehler, F., 225, 275
Nowlan S.J., 106, 109 Steinbrunn, W., 225, 275
Stone, C., 30, 48, 222, 275
Oates, M.J., 115, 165
Sutherland, A., 226, 275
Oslhen, R., 30, 48, 222, 275
Oszu, M.T., 7, 15, 17 Ullman, J.D., 7, 15, 17, 18, 92
Utgoff, P.E., 31, 48
Parodi, A., 85
Parsaye, K., 9, 18 Valduriez, P., 7, 15, 17
Pelikan, M., 84, 88, 178, 182, 218 Van de Merckt, T., 30, 48
Perrucci, A., 82, 88 Vapnik, V., 37, 40, 49
Pfisterer, M., 225, 275 Volper, D., 31, 48
Platt, J., 47, 49, 235, 275 Von Neumann, J., 92, 97
Poundstone, W., 96, 109 Vos, C., 227, 228, 275
Prusinkiewicz, P., 104, 109
Wang, L., 77, 89
Quinlan, J.R., 16, 44, 48, 49, 112, 166, Weiss, S.M., 1, 7, 18
234, 275 Wettschereck, D., 257, 276
Whitley, D., 115, 165
Rasmussen, S., 107, 109
Widom, J., 7, 15, 17
Ray, T.S., 104, 109
Widrow, B., 83, 88
Rechenberg, I., 51, 53, 87, 204, 218
Wilson, R.D., 158, 159, 166, 276
Regincós, J., 228, 275
Wilson, S.W., 76, 82, 84, 85, 88, 115,
Reitman, J.S., 69, 73, 88
165, 221, 233, 275
Reynolds, C.W., 98, 99, 109
Wing, S.P., 226, 275
Robertson, G.G., 115, 165
Witten, I.H., 1, 7, 9, 15, 18, 32, 37, 41–
Sachs, L., 249, 276 46, 48, 49, 164, 165, 233, 235,
Salamó, M., 231, 275 246–248, 275, 276
Salzberg, S., 31, 48 Wolberg, W.H., 224, 275
Sampson, S., 108 Wolfram, S., 96, 97, 109
Sandhu, S., 225, 275
Zadeh, L.A., 34, 49
Saxon, S., 88, 115, 165
Schmid, J., 225, 275
Schwefel, H.P., 51, 53, 87
Sejnowski, T.J., 226, 275
Shaffer, J., 77, 78, 88, 255, 276
Shawe-Taylor, J., 38, 49
Shepherd, B., 227, 275
Shih, Y.S., 224, 275
Shu, L., 77, 78, 88, 255, 276
Sigillito, V.G., 226, 275
314 Índex d’Autors
Índex Alfabètic

[A], 83 supervisat, 20, 57


[M], 83 aprenentatge artificial, 1, 2, 7, 9, 19, 47,
[P], 82 48, 51, 56, 85
0-R, 44, 45, 49, 233, 235, 251, 252, 256, arbres AND/OR, 150
263, 268, 273, 275 arbres de decisió, 16, 27
0.632 bootstrap, 246 multivariants, 31
1-R, 44, 45, 49, 233, 235, 251–253, 256, oblics, 30
273, 275 ortogonals, 28
ARN, 54
acció, 32 atribut, 14, 23, 67
accuracy, 84 atribut categòric, 15
action set size, 83 atributs, 9
action set subsumption, 84 Attila, 107
adenina, 54 auction, 73
ADN, 54 autòmat cel·lular, 91, 94
agent, 102 unidimensional, 96
AL, 105 autòmats cel·lulars, 108, 114, 115, 118,
algorisme genètic, 51, 83, 84, 187 165
algorisme paral·lel, 116 auto-replicació, 93
algorismes genètics, 103, 114, 165, 167, avaluació, 56, 58, 83, 84, 116, 131, 289
174–176, 186 avaluació de patrons, 8
algorismes genètics cel·lulars, 115
anàlisi d’agrupacions, 2, 9, 12, 22 bagging, 142, 163, 166, 235, 242, 244,
anàlisi d’associacions, 2, 9 276, 281
anàlisi de relacions, 23 basades en instàncies, 16
antecedent, 16, 32 bases de dades, 1, 7
aparellar-se, 103 Bayes, 41, 47
apportionment of credit, 69 BBA, 81
aprenentatge blocs constructius, 74
incremental, 21 Boids, 98
inductiu, 64, 65 bootstrap, 246
no incremental, 21 bottom-up, 100
no supervisat, 20 bounded deceptive problems, 178
per reforçament, 20, 57 Bucket Brigade Algorithm, 101
316 Índex Alfabètic

Bucket Brigate Algorithm, 73 conjunt


building blocks, 74, 174 d’atributs, 24
d’instàncies , 25
C4.5, 44, 46, 49, 234, 235, 263–266, de cel·les objectiu, 141
268, 273, 275, 279 de classes, 24
còpia de regles, 65 de classes estès, 25
casa de compensació, 73, 81 minimal, 78
cel·la, 119 consistència, 60
CGA, 115 controlador, 92
cicle d’aprenentatge, 83 convex hull, 39
citosina, 54 Core War, 106
clàusules de Horn, 49 Core World, 107
classificació, 2, 9, 11, 23 correctesa, 82
automàtica, 48 covering, 76, 83
cooperativa, 163 creacionista, 53
lineal estesa, 47 creuament, 55, 63, 84
classificació automàtica, 48 cromosomes, 100
classificador, 72, 82 cross-validation, 247
classificadors, 101 crowding, 77, 79
classifier system, 69
data mining, xi, 1
clearing house, 73
deceptive, 88
cluster, 12
functions, 79
CNN, 46, 49, 234
defining length, 177
co-evolució, 79
delta rule, 83, 88
codificació, 160, 161
deme, 118
COGIN, 68, 87
desastres, 115
combat, 103
detector, 86
competència entre espècies, 106
detectors, 69, 80, 101
completesa, 60
disjunció, 32
complexitat
distància euclidiana, 46, 234, 257
arbres de decisió, 240
distribucions de probabilitat, 13
instàncies, 237
duplicador, 92
regles, 237
component D, 92 ecologies artificials, 104
comportament col·lectiu, 103 efecte
comportament emergent, 94, 95 Baldwin, 103, 106
computació evolutiva, 13, 51, 85, 86, Santa-Claus, 93
109, 281 efectors, 71, 80, 86, 101
concepte, 14 elements electromecànics, 92
condensed nearest neighbor, 46, 234, 276 eliminació de regles, 66
condició, 32 encert de classificació, 130
de finalització, 129 enfocament
de finalització estesa, 133 Michigan, 69, 85, 86, 88
condicions sobre els atributs, 10 Pittsburgh, 58, 85, 87, 119
conjunció, 32 entorn, 71, 80
Índex Alfabètic 317

EpiCS, 85 163–171, 173–175, 178, 185–


esborrat per subsumpció, 84 188, 190–194, 196–198, 200, 201,
espècies, 206 203, 204, 206, 209, 210, 212,
especiació, 77 215–217, 219–222, 224, 231, 235–
espacial, 206 237, 240, 242, 244, 250–252,
especialització, 61 254–260, 262–269, 271, 273–
de regles, 66 275, 277–282, 289
esquema, 176 generacional, 56
estı́mul-resposta, 62, 80 generalització, 61, 245
estı́muls, 71 de regles, 66
estadı́stica, 1, 7 generation gap, 76
estimador, 245 Genghis, 107
estdı́stic, 245 genotip, 100
estratègies evolutives, 51, 53, 218 GIL, 64, 87
estructura de les fulles, 149 girders, 92, 93
estructura dels testos, 149, 151, 153 gramàtica, 104
etapa de test, 11 grow, 150, 153, 159
evolució guanina, 54
lamarkisme, 103 guany d’informació, 44, 234
mendeliana, 103
hierarchical if-and-only-if, 180
Evolutionary Reinforcement Learning, 106
hierarchical trap function, 180
experiència, 83
hiperplà, 31, 36, 38
extracció de coneixement, 1, 7, 13
de màxim marge, 39
hold-out, 246
factoria, 92
fase d’entrenament, 11 IB1, 46, 234, 235, 256–258, 262, 271,
fitness, 83, 84, 101, 117, 122 273, 275
folds, 247, 251, 252, 257, 263 IB2, 46, 49, 234, 235, 256–258, 262,
força, 73 276
forma normal IB3, 46, 234, 235, 256–258, 262
conjuntiva, 59 IB4, 46, 234, 235, 256–258, 262
disjuntiva, 33, 68, 114 IB5, 46, 234, 235
formes normals, 9 IBk, 46, 234, 235, 273, 275
formiga, 100 IBL, 44, 49
fragmentació de regles, 66 ID3, 44, 49
funció de classificació, 145, 149, 152, idle, 171
156, 160–163 ILP, 49
funció l’avaluació, 175 immigrants, 114, 118
independent de la representació del co-
GA-MINER, 68, 88, 114 neixement, 112
GABIL, 61, 64, 87 individu, 65
GABL, 64, 168–171 individus, 175
GALE, 3–5, 68, 88, 111, 115–117, 119– inductive logic programming, 49
122, 128–136, 139, 141, 143– informació genètica, 102
147, 150, 152, 153, 159, 161, inicialització, 83
318 Índex Alfabètic

insectes, 107 mapping, 5, 116, 122, 123, 126, 127,


instància, 14, 24 129, 173, 175, 219, 235–237,
instàncies parcialment definides, 262 240, 242, 274, 281
integració de les dades, 8 piramidal, 122, 123, 283
intensional, 1 uniforme, 122
intercanvi de regles, 65 marca temporal, 83, 84
intro-selector, 67 massivament paral·lel, 113
master, 117
jerarquies, 78
master/slave, 117
joc de la vida, 95
master/worker, 117, 118
k-means, 13 match set, 83
k-NN, 36, 46, 163, 234 material genètic, 54
matriu de confusió, 130, 132, 173, 252–
L-System, 104 254, 256, 259, 260, 265–267
lògica matemàtica, 32 merge, 116, 129, 133–135, 170, 175,
lamarkisme, 105, 106 185, 196, 201, 203, 204, 206,
learning systems, 58 209, 278, 281, 289
leave-one-out, 248 messy, 82, 88
LED, 222 mesures, 82
Life, 95 meta-classificador, 142
light emitting diode, 222 Michigan, 56, 85, 86, 88
linealment separables, 38 micro-classificador, 83, 84
llindar mida del conjunt d’acció, 83
de màxima replicació, 136 millor individu, 242
de survival sostenible, 139 mineria de dades, 1, 3, 8, 32, 47, 48, 82,
llista de missatges, 71, 81, 101 111, 119, 141, 164, 174, 244,
llista de regles, 71, 81 248, 277, 279, 281
llistes de classificador, 86 definició, 1, 7
longitud de definició, 177 metodologia, 8
LOO, 248 minimal sequential optimization, 47
Loops, 98 missatges, 71
LS-1, 87
model
món d’Echo, 102 cel·lular, 118
món tancat, 59, 253, 255, 256 cognitiu, 69
màquina auto-replicant, 92 d’illes, 114, 118
màquina universal de Turing, 93 de difusió, 118
màquines de suport vectorial, 37, 38, 49, kinemàtic, 92
275 multipoblacional, 114
màquines de support vectorial, 47 modelització, 107
macro-classificador, 83, 84 mostreig amb reemplaçament, 246
magatzems de dades, 8 moyenne adaptive modifiée, 84
MAM, 83 mutació, 55, 63, 84
mapatge, 122 natural, 75, 84
mapes auto-organitzatius, 13 per nı́nxols, 76, 84
Índex Alfabètic 319

Naive Bayes, 44, 47, 49, 234, 235, 269, població, 84


273, 275 no superposada, 77
Nanobots, 108 polı́gon encerclant, 39
natural mutation, 75, 84 polinomial kernel, 41
nearest neighbor algorithm, 46, 234 ponderació d’atributs, 163
nearest neighbour, 36 posicions fixes, 176
neteja de les dades, 8 PRAM, 169
NewBoole, 85 predicció, 2, 9, 11, 23
niche mutation, 76, 84 de l’error, 83
NN, 36, 46, 234 de la recompensa, 78, 83
nonoverlapping population, 77 presentació del coneixement, 8
nou event pressió de generalització, 76
negatiu, 67 probabilitat
positiu, 65 condicionada de Bayes, 47, 234
NP-Hard, 48 d’estat inicial, 192
nucli de merge, 133
funció radial, 41 de mutació, 273
polinomial, 41 de split, 136
sigmoidal, 41 de survival, 138
problema de classificació, 25
Obliques, 25 problema de superioritat selectiva, 249,
One Max, 177 271, 273, 276
operadors genètics, 58, 150, 152, 159, programació evolutiva, 51
161, 162, 175 programació genètica, 51, 103, 165, 281
optimització programació lògica inductiva, 49
combinatòria, 51, 52, 85 punt significatiu, 153
multimodal, 79
numèrica, 51, 52, 85 Quads, 25
ordre d’un esquema, 176
overlapping population, 77 radial basis function kernel, 41
recombinació, 56
panmı́tic, 118 recompensa, 71
paral·lelisme implı́cit, 54, 74 recursos, 103
paral·lelismes recursos finits, 105
gra fi, 118 Red Code, 106
gra gruixut, 118 reducció de l’emmagatzematge, 163
parallel random access machine, 169 reemplaçament, 56
parameter-less genetic algorithms, 280 referència
parella de merge, 134 canvi, 67
PART, 44, 45, 49, 233, 235, 251–254, extensió, 67
256, 273, 275 restricció, 67
patrons, 15 REGAL, 68, 87
percepció, 107 regla, 66
pesos d’interconnexió, 13 regla condensada del veı́ més pròxim, 46,
Pittsburgh, 56, 58, 85, 87 234
planificació, 51, 85, 107 regla de Bayes, 41
320 Índex Alfabètic

regla del gradient, 88 SMO, 44, 47, 49, 235, 269, 271, 273,
regla delta, 83 275
regles de classificació, 16 soroll, 36
regles de derivació, 104 sostenible, 138, 139
regressió speedup, 118, 168, 170, 172, 216, 217
lineal, 37 split, 116, 129, 135–138, 170, 175, 185,
lineal multiresposta, 37 196, 209, 289
simbòlica, 11 SPMD, 128
repartiment de crèdit, 69, 71, 73 stratified cross-validation, 248
representació del coneixement, 11, 15, stratified ten-fold cross-validation, 248
19, 21, 68, 111, 112, 116, 129, Student, 249, 250, 269, 276
143 subasta, 73
arbres de decisió, 11, 27 subhasta, 81
basada en instàncies, 11, 34 subpoblació, 118
lineal extesa, 37 subsumpció, 107
models estadı́stics, 41 subsumpció dins el conjunt d’acció, 84
regles, 11, 32, 57 subsumption deletion, 84
resolució, 33 sufragi universal, 68, 142
roulette wheel selection, 77, 84 superpoblat, 138, 139
rule system, 69 support vector machines, 37, 38
support vectors, 40
s-expressions, 82 survival, 116, 129, 138, 139, 175, 185,
scheduling, 117 190, 192, 194, 200, 209, 212,
schema, 176 217, 289
SCS, 80 SVM, 37
selecció, 56 sweet spots, 98
selecció de les dades, 8
selecció per competició, 186, 187 take over, 196
selecció proporcional, 77 TAO, 26, 223
selection proportion, 76 taules de decisió, 16
selective superiority problem, 249 ten ten-fold cross-validation, 248
selector drop, 67 test, 116, 235
SGA, 186–188, 190, 191, 217 test de Student, 249
sharing, 79 TGA, 186
co-evolutiu, 89 TGA2, 187, 188, 190, 191, 194, 210,
Simple Classifier System, 80 212, 215
sistema classificador, 233 TGA8, 187, 188, 190, 191, 194, 210,
sistema de regles, 69, 71 212, 215
sistema gestor de basses de dades, 281 Tierra, 104, 106
sistemes time stamp, 83, 84
classificadors, 69, 101, 119, 245, 251, tinina, 54
276 tipus d’atribut, 112
d’aprenentatge, 58 Topologia, 116
sistemes analı́tics, 8 tournament selection, 186
sistemes transaccionals, 7 transformació
Índex Alfabètic 321

d’arbres de decisió, 33
de dades, 8
travelling salesman problem, 54
TSP, 54

univers d’instàncies, 24
utilitat de la categoria, 13

validació creuada
estratificada, 248
validació creuada estratificada, 251, 269
valors desconeguts, 15
veı́ més pròxim, 46, 234, 257, 275
vector de votació, 142
vectors de suport, 40, 273, 280
Venus, 107
vida artificial, 13, 91, 101, 281
virus, 107
votació
classe majoritària, 36

WEKA, 235
Wilcoxon, 249, 250, 269, 271, 273, 276
workers, 117

xarxes neurals, 13, 31, 41, 44, 106


XCS, 82, 221, 233, 235, 251, 252, 254,
256, 271, 273, 275

ZCS, 85
322 Índex Alfabètic

You might also like