You are on page 1of 73

Anlisisinteligentededatos

Mineradedatos
PauloFlixLamas
readeCienciasdaComputacineIntelixencia Artificial
DepartamentodeElectrnicaeComputacin
Resumen
Este seminarioabordalascuestionesmsrelevantesdelanlisisdedatosdesde
laperspectivadelaaplicacindetcnicasdelallamadainteligenciaartificial.
Hablaremosdelprocesodedescubrimientodeconocimiento.
Unadelasetapasmsrelevantesdeesteprocesoeseldelamineradedatos,
muyrelacionadaconlaaplicacindetcnicasdeaprendizajeautomtico.
Alolargodelseminarioseintroducirnydiscutirnalgunosdelostemasms
relevantesenlamineradedatos:estrategias,tareas,entrenamiento,reduccin
deladimensin,generalizacin,evaluacin,yalgunosotros.
Utilizaremosunatcnicabsicaparaexponeraquellosconceptos
fundamentalesdelainduccin:elrboldedecisin,yquetambinsontiles
paracomprenderlasdistintasetapasdelprocesodemineradedatos.
ndice
1. El descubrimiento cientfico
2. Lamineradedatos
3. Tareas delamineradedatos:predictivas ydescriptivas
4. Preparacindelosdatos
5. Aprendizaje inductivo
6. Aprendizaje enlgica proposicional: rboles dedecisin
7. Evaluacin
8. Combinacindeclasificadores
9. Teoracomputacional delaprendizaje
10. Bibliografa
Algunascuestionesprevias
1. Cmodescribiraseldescubrimiento deconocimiento cientfico?
2. Quharas conunconjunto dedatossobreunproblema?
3. Cmodefiniraselaprendizaje computacional?
4. Qutiposdeaprendizaje conoces?
5. Qutcnicasdeaprendizaje conoces?
1.Eldescubrimientocientfico
CharlesS.Peirce (18391914)proponeunmodelodel
descubrimientocientfico,contresformasdistintasde
razonamiento:
1. ABDUCCIN: Formaderazonamientoqueintentainferirlahiptesis
queconstituyalamejorexplicacinparaunconjuntode
observaciones.
2. DEDUCCIN: Formadeinferenciaquepermiteobtenerprediccionesa
partirdelahiptesissugerida.
3. INDUCCIN:Formadeinferenciaquevadeloparticularalogeneral.
Laformalizacindelalgicadeductivaesanterioralasotrasdos.Laformalizacinde
unalgicadelaabduccintodavaesincompleta,yenelcasodelainduccinno
existeunadefinicindeinduccindeaceptacingeneral.
Elrazonamientodeductivopreservalaverdad:todalaverdaddeunaconclusin
establecidamediantededuccinyaestabacontenidaensuspremisas.
Losrazonamientosabductivoeinductivonopreservanlaverdad,laamplan,peroal
mismotiempo,sonfalibles.
1.Eldescubrimientocientfico
1.Eldescubrimientocientfico
RAZONAMIENTODEDUCTIVO
REGLA: Todoslospacientesquesufrendisfuncindelmsculopapilarmanifiestandisneaysoplo
SENTENCIA: ElpacienteFulanosufredisfuncindelmsculopapilar
CONCLUSIN: ElpacienteFulanomanifiestadisneaysoplo
RAZONAMIENTOABDUCTIVO
REGLA: Todoslospacientesquesufrendisfuncindelmsculopapilarmanifiestandisneaysoplo
SENTENCIA: ElpacienteFulanomanifiestadisneaysoplo
CONCLUSIN: ElpacienteFulanosufredisfuncindelmsculopapilar
RAZONAMIENTOINDUCTIVO
SENTENCIA: ElpacienteFulanomanifiestadisneaysoplo.
SENTENCIA: ElpacienteFulanosufredisfuncindelmsculopapilar.
REGLA: Todoslospacientesquesufrendisfuncindelmsculopapilarmanifiestandisneaysoplo
2.Lamineradedatos
Vlidos:lospatronesymodelosdebenseraceptablessobredatosnuevos.
Novedosos:debenproporcionarunainformacinantesdesconocida.
tiles:debencomportaralgntipodepotencialbeneficioparaelusuariofinal.
Comprensibles:debenfacilitarsuinterpretacin,revisin,evaluacinyuso.
Sesueledefinirlamineradedatoscomolatareadeextraccindepatronesomodelos
inteligiblesapartirdelosdatosdisponibles.Lamineradedatosseentiendecomouna
fasedeldescubrimientodeconocimientoenbasesdedatos,yquesedefinecomoel
procesodeidentificacindepatronesomodelosvlidos,novedosos,potencialmente
tilesy,enltimainstancia,comprensiblesapartirdelosdatos.
Datos
Preparacinde
losdatos
Mineradedatos
Validaciny
Evaluacin
Modeloso
patrones
Conocimiento
DescubrimientodeConocimientoenBasesdeDatos
2.Lamineradedatos
Modelo:entendemospormodelounarepresentacintericaqueproporciona
unresumenglobaldelosdatosenelespaciodecaractersticasdelquehansido
extrados.
Ejemplo:laecuacindeunarecta.
Patrn:entendemosporpatrnlarepresentacindeunaregularidadenuna
reginrestringidadelespaciodecaractersticas.
Ejemplo:siX>x1entoncesprob(Y>y1)=p1
Consideramosladisponibilidaddeunconjuntodedatosenformadeejemplosdeun
determinadofenmenooexperimento.Esosdatostienenlaformadeunvector
<v
1
,v
2
,,v
n
>dondev
i
A
i
asignaunvaloraunacaracterstica dedichofenmeno.La
realizacindeunprocesodemineradedatosdalugaradiferentestiposde
representaciones,deentrelasquepodemosdestacarlosmodelos ylospatrones.
3.Tareasdelamineradedatos
TAREASPREDICTIVAS:Elobjetivodelanlisisespredecirunoomsvalorespara
nuevosejemplos.
o Clasificacin
o Categorizacin
o Ordenacinopriorizacin
o Regresin
TAREASDESCRIPTIVAS:Elanlisisorganizaelconjuntodeejemplos,facilitandosu
descripcin.
o Agrupamiento
o Asociacin
o Deteccindeanomalas
SeaE=A
1
xA
2
x...xA
n
elconjuntodeejemplosdequedisponemosrespectoaun
determinadoproblemaplanteado.Unejemploeesunatupla <v
1
,v
2
,...,v
n
>dondev
i
A
i
.
Consideramoslastareasdeanlisisdivididasendosgrupos:
3.Tareasdelamineradedatos
tareaspredictivas
3.Tareasdelamineradedatos
CLASIFICACIN:Elconjuntodeatributossedivideendos,demodoquecada
ejemplosepuedeexpresarcomo<e,s>,dondeeE,ydondesS eselvalorde
clase,valorquehayquepredecir.ElobjetivoesaprenderunafuncinC:ES,
querecibeelnombredeclasificador,ydondeSesunconjuntonominal.
CLASIFICACINSUAVE:AdemsdelafuncinCseaprendeotrafuncinZ:ER
queproporcionaungradodecertezaalaprediccin.Estopermiteordenarlos
resultadosenunranking depredicciones.
ESTIMACINDELAPROBABILIDADDECLASE:Generalizalaclasificacinsuave.
Supongamosquetenemosmclases.SetratadeaprendermfuncionesZ
i
:ES.
Paracadaejemploseproporcionanmvaloresp
i
.Si0p
i
1yp
i
=1hablamosdela
probabilidaddepertenenciaalaclasei.
CATEGORIZACIN:Nosetratadeaprenderunafuncin,sinouna
correspondencia,demodoqueC:ESpuedeasignarvariascategorasaun
mismoejemplo.
tareaspredictivas
3.Tareasdelamineradedatos
ORDENOPRIORIZACIN:Elaprendizajedepreferenciasoprioridadesconsisteen
determinarunordendepreferenciaenunconjuntodeejemplos.Cadaejemplo
esenrealidadunasecuencia<e
1
,e
2
,...,e
n
>.Elconjuntodeejemploses,portanto,
unconjuntodesecuencias.
REGRESIN:LadiferenciarespectoalaclasificacinesqueSesunconjunto
numrico,esdecir,laclasificacinasignaunvalorenteroorealacadaunodelos
ejemplos.Tambinrecibeelnombredeinterpolacin,cuandolaprediccinse
realizaentredosejemplosdesalidaconocida,oestimacin,cuandolaprediccin
serealizaenunejetemporalyconposterioridadatodoslosejemplosconocidos.
tareaspredictivas
3.Tareasdelamineradedatos
tareasdescriptivas
3.Tareasdelamineradedatos
CORRELACIN:SetratadeanalizarsobreelconjuntodeejemplosE,sidosoms
atributosA
i
,,A
k
guardanalgunarelacinentreellos,yasealinealodemayor
complejidad.
AGRUPAMIENTO:Setratadedividirelconjuntodeejemplosengrupos,segn
algncriteriodesimilitud.LafuncindeagrupamientosiguesiendoA:ES.Pero
desconocemosapriorielnmeroycaractersticasdeS.Avecesrecibeelnombre
desumarizacin.
ASOCIACIN:Setratadedetectarocurrenciassimultneasdeciertosvaloresde
losatributosdelosejemplos.As,dadoslosejemplosdelconjuntoE=A
1
xA
2
x...xA
n
,
unaregladeasociacinnospuededecirqueSiA
i
=v
i
A
j
=v
j
A
k
=v
k
entonces
A
p
=v
p
A
q
=v
q
A
r
=v
r
.
DETECCINDEANOMALAS:Sesueleabordarmediantetcnicasde
agrupamiento,analizandoaquellosvaloresquesealejandelosgruposformados.
tareasdescriptivas
3.Tareasdelamineradedatos
TAREASPREDICTIVAS TAREASDESCRIPTIVAS
CLASIFICACIN REGRESIN AGRUPAMIENTO ASOCIACIN
RedesNeuronalesArtificiales

rbolesdeDecisin

RedesBayesianas

Vecinosmsprximos

AlgoritmosGenticosyEvolutivos

MquinasdeVectoresSoporte

tcnicasdeminera
3.Tareasdelamineradedatos
APRENDIZAJESUPERVISADO:Semuestraalagenteelproblemaysucorrecta
resolucin.Seconsideraquequienproporcionaestasolucinejerceelpapelde
supervisordelaprendizaje.
APRENDIZAJENOSUPERVISADO:Elagenteresuelveelproblemadeunmodo
autnomo,basndoseencriteriosdeoptimizacindelarepresentacin.
APRENDIZAJEPORREFUERZO:Consideradotambincomountipodeaprendizaje
supervisado.Elagenterecibealgntipoderecompensaocastigoquecondiciona
elaprendizaje.
Supongamosqueformulamosunagentecomounartefactoinformticoalque
queremosdotardelacapacidaddeaprendery,portanto,deadaptarsu
comportamientoalascondicionescambiantesdelentorno.Variassonlasestrategias
quelaIAhautilizadoparallevaracaboesteaprendizaje:
estrategiasdeaprendizaje
4.Preparacindelosdatos
Raramentelosdatoscontenidosenunabasededatossonapropiadosparasu
inmediataincorporacinaalgunatcnicadeaprendizajeautomtico.Algunosdelos
problemasquepresentanson:
1. Valores anmalosofaltantes.Losvaloresanmalosmsfrecuentessonaquellosque
muestranunadiscordanciaestadstica.Sueleneliminarse.Porotraparte,haytcnicasde
aprendizajequesonrobustasavaloresfaltantes,mientrasqueotrasexigensueliminacino
tratamiento.
2. Tipoinadecuadodelosdatos.Enalgunassituacionespuedeserconvenienteconvertirun
atributonumricoanominal:discretizacin, oconvertirunatributonominalanumrico:
numerizacin.
3. Variabilidadenlosrangosdelosdatos.Unbuennmerodetcnicasdeaprendizaje
automticorequierenunanormalizacin delosatributosalmismorango.
4. Alta dimensionalidad delosdatos.Frecuentementeelnmerodeatributosdelosdatoses
excesivo,yunbuennmerodeellosesirrelevanteparalatareadeaprendizajedeseada,
porloquesellevaacabounaseleccin otransformacin delosatributos.
Esimportantedistinguirunvalorerrneo(edad=XL),deunvaloranmalo(edad=
108).Elvaloranmalosueleseratpicooextremo,ypuedeinfluirgravementeenel
anlisisdelosdatos.Siserealizaunanormalizacinposterior,elvaloranmalopuede
desplazarladistribucindelosdatosdeundeterminadoatributo.
Para sudeteccinsepuedenutilizarmedidasdedistanciamediadecadaejemplocon
elresto,oconunnmerodekvecinos.Tambinsepuedenutilizartcnicasde
agrupamiento parareconocerindividuosaislados,otcnicaspredictivasparaindagar
quindividuosmuestranuncomportamientoquesealejadeloesperado.
Hay tcnicasdemineradedatossensiblesalosdatosanmalos,comoeselcasode
lasredesneuronalesartificiales,mientrasotrassonrobustas,comolosrbolesde
decisin.
En casodeestarobligadosatratarlosvaloresanmalospodemos:(1)eliminar o
reemplazarelatributo;(2)eliminarelejemplo;(3)reemplazarelvaloranmalo,por
unvalornulo,oalgnotrodeconveniencia;(4)discretizar elatributo,loquellevaal
valoranmaloaunacategoramuybajoomuyalto.
4.Preparacindelosdatos
valoresanmalos
Ladiscretizacin eselresultadodeconvertirunvalornumricoenunvalornominal
(porejemplo,calificacin=5,4calificacin=aprobado).
Serealizacuando:(1)elerrorenlasmedidaspuedesermuysignificativo,(2)existen
umbralesmuysignificativosenlainterpretacindelosdatos,(3)serealizauna
interpretacinnolinealdelosvalores.
Cuando noexisteconocimientoapriorisobrelosumbralesdediscretizacin sesuelen
utilizarcriteriosdeseparabilidadyentropaenproblemasdeclasificacin.
Lanumerizacin eselproceso inversoaladiscretizacin.Sesueleaplicarpreviaala
utilizacindetcnicasquesloadmitenatributosnumricos:regresinlineal,
regresinlogstica,anlisisANOVA,discriminantesestadsticos,etc.
La tcnicamsextendidaeslanumerizacin 1an:siunatributonominalA
i
puede
tomarnvalores{a
1
,,a
n
}creamosnvariablenumricas,convalores0o1segnel
valornominalquetomaunejemplodeterminado.
Cuando elatributonominalcomportaciertoorden{delgado,normal,obeso}sesuelen
utilizarescalasnumricas{0,1,2}
4.Preparacindelosdatos
discretizacin ynumerizacin
Ciertastcnicasdemineradedatossonsensiblesalasdiferenciasentrelosrangosde
valoresquetomanlosdistintosatributos,(A
i
=[0.01,0.09]yA
j
=[100,200]),en
particularenaquellastcnicasbasadasenelclculodedistancias.
Existen distintasformasdenormalizacin.Unamuyfrecuenteeslanormalizacin
linealuniforme,quedevuelvevaloresentre0y1:
4.Preparacindelosdatos
normalizacin
min max
min v
v
i
i

=
'
LanormalizacindeStudent introduceunmenorsesgo,yesapropiadacuandolos
parmetrosdeladistribucinnosonconocidos:
s
v v
v
i
i

=
'
Estasnormalizaciones,yotrasmuchas,sonaplicablesenproblemasinvariantesa
escala,dondelorelevanteparasucaracterizacineslaraznentrevalores.
Existenmltiplesformasdenormalizacin,algunasdeellasnolinealescomoel
escaladosigmoidal,apropiadoparalagestindevaloresanmalos.
4.Preparacindelosdatos
Unodelosproblemasmsfrecuentesenelanlisisdebasesdedatoseslaelevada
dimensindelosdatos,estoes,elelevadonmerodeatributos.
Si elnmerodeatributosdelosdatosesdemasiadogranderespectoalnmerode
ejemplos,decimosqueelnmerodegradosdelibertadesexcesivo,ycomo
consecuencia seobtienenpatronescaprichososypocorobustos.
Encontramosdostiposdetcnicasparareducirladimensindelosdatos:
Tcnicasdetransformacindeatributos:entrelasqueestudiaremoselAnlisis
deComponentesPrincipales.
Tcnicasdeseleccindeatributos:dondepodemoscitar:
tcnicasdefiltrado:comoelAnlisisCorrelacional,
ytcnicasbasadasenmodelos:comoelAnlisisdelaVarianza(ANOVA).
TambinllamadomtododeKarhunenLoeve,consisteentransformarlosatributos
originalesx
1
,x
2
,,x
n
delosejemplosenotroconjuntodeatributosy
1
,y
2
,,y
m
,donde
seexigequemn.
Lainterpretacingeomtricadeestatransformacinesuncambiodeejesenla
representacin,oproyeccin enunosnuevosejes.
Queremos quelosnuevosatributosseanindependientesentres,estoes,
ortogonales,yadems,queestnordenados demayoramenorrelevancia.
Supongamosm=n.Elobjetivoesconvertircadaejemplodadoporunvectordevalores
paralosatributosx
1
,x
2
,,x
m
enotrovectorparay
1
,y
2
,,y
m
.Haremosunasuposicin
simplificadora,losnuevosejesserncombinacinlinealdelosprimeros:
x P y

=
DondePesunamatrizdemxm coeficientes.
Lapreguntaes:cmocalcular loscoeficientesp
ij
demodoqueexpresemosla
relevanciadelosatributosynospermitaordenarlos?
4.Preparacindelosdatos
anlisisdecomponentesprincipales
Hacemosunanuevasuposicin:lasdireccionesenlasquelosdatosdepartida
presentanunamayorvarianza estnasociadasalascaractersticas(atributos)ms
relevantesdelproblema.
Repasemos, supongamosdosvectoresdedatosA={a
1
,a
2
,,a
n
}yB={b
1
,b
2
,,b
n
}.Sus
varianzassedefinencomo:
( )

=
i
2
i
2
A
a a
1 n
1
( )

=
i
2
i
2
B
b b
1 n
1

Sucovarianza sedefinecomo:
) b (b ) a (a
1 n
1

i
i
i
2
AB
=

LacovarianzamideelgradodelinealidadenlarelacinentreAyB:sivalecero
entoncesAyBnoguardanrelacin,sitieneunvalorpositivosedicequehayuna
correlacinpositiva,siesnegativolacorrelacinesnegativa.
Definimosennuestroproblemalasiguientematriz decovarianza:

=
=
n
1 i
T
i i X
) x )(x x (x
1 n
1
C
4.Preparacindelosdatos
anlisisdecomponentesprincipales
C
X
esunamatrizmxm.Sudiagonalprincipalmidelavarianzadecadaatributo,ylos
trminosfueradeestadiagonalsontrminosdecovarianzaentreatributos.
Nuestroobjetivoesahora:obtenerunamatrizP,demodoquemultiplicadaporx,
obtengamosytalqueC
Y
seaunamatrizdiagonal,estoes,quelostrminosde
covarianzaseannulos,yadems,queladiagonalestordenadademayoramenor.
Denotamoslamatrizdecovarianzadeunamaneramssimple:
T
X
XX
1 n
1
C =
DondeXesunamatrizmxn.CalculamosasC
Y
deunmodosencillo:
T
X
T T T T T T
Y
P PC P XX
1 n
1
P P PXX
1 n
1
(PX)(PX)
1 n
1
YY
1 n
1
C =

= =
SepuededemostrarqueunamatrizsimtricacomoC
X
sepuedediagonalizar
mediantelaoperacinC
X
=EDE
T
,dondeEesunamatrizdeautovectores ortogonales
deC
X
organizadosencolumnas.
Recordemosquelosautovectores deunamatrizcuadradasonaquellosvectoresque,
multiplicadosporellapermanecen invariantesensudireccin,slocambiandoen
magnitud: v v A

=
4.Preparacindelosdatos
anlisisdecomponentesprincipales
ComoPesunamatrizqueelegimosanuestroantojo,definmoslacomounamatriz
dondecadafilaseaunautovector deC
X
,estoes,P=E
T
,ysabiendoqueunamatriz
ortogonalsatisfaceP
T
=P
1
,calculamos:
D ) )D(PP (PP DPP PP DP)P P(P )P P(EDE P PC C
1 1 T T T T T T T
X Y
= = = = = =

LostrminosdeladiagonaldeDsonlosautovalores deC
X
(observemosqueC
X
E=ED),
ycontienenlainformacindelavarianza,quepodemosordenardemayoramenor.
Porejemplo,sitenemosinicialmente5dimensiones,yhemosobtenidolos
autovalores e=(3.65,0.93,0.22,0.13,0.07)podemosobservarlaimportanciarelativa
decadaunodelosnuevosatributos.
Adems,puestoqueestosvaloressuman5podemosquedarnosconaquellosvalores
quesumanuntantoporcientodelavarianza.Enelejemploanterior,siescogemosel
95%nosquedamosconlostresprimerosatributos.
Cuandolosatributosestnexpresadosendistintasunidadesesimportantenormalizar
losdatosantesdeiniciarelanlisisdecomponentesprincipales.
4.Preparacindelosdatos
anlisisdecomponentesprincipales
Enresumen,elAnlisisdeComponentesPrincipalesobtienenuevosatributosqueson
unacombinacinlinealdelosatributosoriginales,ordenandosuimportanciarespecto
alavarianza.
Esimportante comprenderlassuposicionesincluidasenelusodeestatcnica,yaque
encasocontrarioconduciranaconclusioneserrneas:
1. Hiptesis delinealidad:yaqueencasodequelarelacinentreatributosseano
linealestatcnicanoresultatil.Supongamosquemuestreamoslaposicinde
uncaballodecarrerasenuncircuito.
x
y
x
y

elnguloesmsadecuado
2. Hiptesis devarianza:yaqueencasodequelarelacinsealruidodelos
atributosseapobrelavarianzanodeterminaadecuadamentesurelevancia.
3. Hiptesis deortogonalidad:yaqueencasodequelosatributosmsrelevantes
noseanortogonalesentres,estatcnicageneraratributoscorrelacionados
entres.
4.Preparacindelosdatos
anlisisdecomponentesprincipales
4.Preparacindelosdatos
Prcticamentetodoprocedimientodeobservacinoinferenciarealizadosobreuna
poblacin lohaceapartirdeunsubconjuntodelamisma,omuestra.Esdeseableque
unamuestrasealomsrepresentativaposibledelapoblacindelaquesehaextrado.
Resultafundamentalparaelloelmtododemuestreoseguido:
Muestreoaleatoriosimple:Cualquierejemplotienelamismaprobabilidaddeser
incluidoenlamuestra.Todoelementoextradohadeserreinsertado.
Muestreoaleatorioestratificado:Elobjetivoesobtenerunamuestradondeestn
representadostodoslosestratos,gruposoclasesdelproblema.Paracadaestratose
aplicamuestreoaleatoriosimple.Elnmerodeindividuosencadaestratopuedeser
constanteoproporcionalenlamuestraaldelapoblacin.
Muestreoporgrupos:sepuedeelegir(ydescartar)losgrupospresentesenla
muestra,segnladisponibilidaddelosdatosdepartida.
Muestreoexhaustivo:Segeneraalazarunamuestraenelespaciodecaractersticas
ysebuscalamuestrarealmscercana.Elobjetivoescubrircompletamenteel
espaciodecaractersticasyevitarincluirejemplosenzonasyamuydensas.
muestreodelosdatos
5.Aprendizajeinductivo
Disponemosdeunconjuntodeejemplos representadosenlaforma(v
i
,f(v
i
)).
Desconocemosf(v)salvoencadaunodelosejemplos.
Elcometidodelainduccinesinferirunafuncinh(v)queaproximeaf(v).
Decimosqueh(v)esunaconjeturao hiptesis.
Analizaremosalgunascuestionescomunesalastcnicasquerespondenalaestrategia
deaprendizajesupervisadoapartirdeejemplos.Sufundamentotericolo
encontramosenlaelaboracindemodeloscientficos.
(v
1
,f(v
1
))
h
1
=av+b
Entantoquedeseamosqueh(v)f(v)basamoselaprendizajeenelerror.
Decimosqueunahiptesish(v)esconsistente sih(v
i
)f(v
i
)<.
5.Aprendizajeinductivo
Laprimeraeleccinimportanteeselespaciodehiptesis,definidocomoel
conjuntodehiptesisaconsiderar.Porejemplo:elconjuntodepolinomioscon
gradomenoroigualak.
Podemosencontrarmsdeunahiptesisconsistenteconlosdatos,porejemplo
h
1
yh
2
:culescogemos?
AplicamoslanavajadeOckham:deentretodaslashiptesisconsistentesconlos
datosescogemoslamssencilla.
h
2
=av
5
+bv
4
+cv
3
+dv
2
+ev+f
h
1
=av+b
5.Aprendizajeinductivo
h
5
=asen(v)+bv+c
h
3
h
4
Enlamayorpartedeloscasoslafuncinf(v)quedeseamosaproximartieneun
comportamientonodeterminstico.Enesecaso,esunerrorseguiruna
estrategiadeaprendizajequebusqueelerrormnimo.
Problema:elespaciodehiptesispuedehacerelproblemairresolublesino
contienelahiptesisverdadera.
6.rbolesdedecisin
Unrboldedecisintomacomoentradaunadescripcinrealizadaapartirdela
valoracindeunconjuntodeatributosydevuelveunadecisinovalordesalida.
falso} {cierto, D ), v A ,..., v A , v (A X : ) D , (X
i n n 2 2 1 1 i i i
e = = = =
Introduciremosunatcnicadeaprendizajemuysencilla,quepermiteinferirconjeturas
conunaexpresividadmuysimple:ladelalgicadeproposiciones.
Unrboldedecisindesarrollaunasecuenciadetests sobrecadaunodelos
atributos.Cadanodocorrespondeauntest,ylasramasquesalendecadanodo
secorrespondenconlosposiblesvaloresdelatributoobjetodeltest.
Veremosacontinuacinunpardeejemplossobreladecisindeoperarde
cirugarefractivaapacientesconmiopa,yladecisindeesperarporunamesa
enunrestaurante,apartirdelosvaloresdeunconjuntodecriterios.
Astigmatismo?
no s
no
Edad? Miopa?
no
Miopa?
25 >50
(25,50]
s no
6 >6
no s
no
1.5
>10
(1.5,10]
Operamos?
Si Astigmatismo=noy 25<edad50y 1.5<miopa10entonces S
Si Astigmatismo=sy miopa6entonces S
Enotrocaso NO
6.rbolesdedecisin
unejemplo:cirugarefractiva
6.rbolesdedecisin
unejemplo:esperamosporunamesa
6.rbolesdedecisin
Losatributosdeentradapuedenserdiscretos (porejemplo,Hambriento?con
dosvaloresposibles:sono)ocontinuos (porejemplo,Miopa?conunintervalo
deposiblesvaloresreales).Comenzaremosasumiendovaloresdiscretos.
Elvalordesalidapuedeserasuvezdiscretoocontinuo:
Diremosqueunrbolqueproporcionaasusalidavaloresdiscretosrealiza
unaclasificacin.
Cuandolosvaloresproporcionadossoncontinuosdiremosquerealizauna
regresin.
Cualquierhiptesissobreladecisinasociadaaunrboldedecisinpuede
formularsecomounaasercindelaforma:
(e)) P ... (e) (P ) decisin(e E e
n 1
v v e
CadapredicadoP
i
(e)esunaconjuncindetests quecorrespondeauncamino
desdelarazdelrbolhastaunadecisin.
6.rbolesdedecisin
Elrboldedecisinrealizaladescripcindeunahiptesisenlgicaproposicional.
As,losrbolesdedecisinpuedenexpresarlomismoqueloslenguajesdetipo
proposicional:cualquierfuncinbooleana.
Cmoserepresentaunafuncinbooleanamedianteunrboldedecisin?
Unafuncinbooleanavienedadaportutabladeverdad.
Cadafiladelatabladeverdadsecorrespondeconuncaminodelrbolde
decisincorrespondiente.
Estoconllevauncrecimientoexponencialdelrbol,yaqueelnmerodefilasde
latablaaumentaconelnmerodeatributos.
Unafuncinbooleanadenatributosserepresentamedianteunatabladeverdad
de2
n
filas.Elresultadoesunnmerode2
n
bits,ytenemos2
2
n
funciones
diferentessobrenatributos.
Deseamosunalgoritmoquepermitaencontrarhiptesisconsistentesconlos
datosobservadosenesteespacioenormedesoluciones.
6.rbolesdedecisin
Deseamosconstruirunrboldedecisinmedianteaprendizajeapartirdeejemplos.
Unejemploconsisteenunvectordeatributosvaloradosyunvalordedecisin:
falso} {cierto, D ), v A ,..., v A , v (A X : ) D , (X
i n n 2 2 1 1 i i i
e = = = =
Ejemplo Clientes Espera Alternativa Hambre Reserva Vier/Sab Bar Llueve Decisin
X1 algunos 010 S S S No No No S
X2 lleno 3060 S S No No No No No
X3 algunos 010 No No No No S No S
X4 lleno 1030 S S No S No S S
X5 lleno >60 S No S S No No No
X6 algunos 010 No S S No S S S
X7 ninguno 010 No No No No S S No
X8 lleno >60 No No No S S S No
Losejemplospositivosp
i
sonaquellosX
i
paralosqueD
i
=cierto:{X
1
,X
3
,X
4
,X
6
}
Losejemplosnegativosn
i
sonaquellosX
i
paralosqueD
i
=falso:{X
2
,X
5
,X
7
,X
8
}
aprendizajederbolesdedecisin
6.rbolesdedecisin
Elconjuntototaldeejemplosutilizadosenelaprendizajerecibeelnombrede
conjuntodeentrenamiento.
Elproblemaconsisteenencontrarunrboldedecisinconsistenteconel
conjuntodeentrenamiento.
Existeunasolucintrivial:unrboldedecisinquehacecorresponderacada
ejemplounsolocamino.Elproblemadeestasolucinesqueselimitaa
memorizar lasobservaciones.
Noextraeningnpatrnapartirdelosejemplosy,portanto,noesesperableque
resuelvaningnejemplodistintodeaquellosdelconjuntodeentrenamiento.
Lasolucintrivialnocomportaaprendizaje.
AplicandoelprincipiodelanavajadeOckham buscamoselrbolmspequeo
queseaconsistenteconlosejemplosyquepermitageneralizar ladecisina
nuevosejemplos.
Desafortunadamente,obtenerelrbolmspequeoesunproblemaintratable.
aprendizajederbolesdedecisin
6.rbolesdedecisin
Unposiblecriteriopuedeserrealizarelsiguientetestsobreelatributoms
relevante delosquerestan:aqulquediscriminamsclaramentelosejemplos.
Confiamosrealizarasunnmeropequeodetests,yreducireltamaodelrbol.
Deseamosdisearunalgoritmodeaprendizajesubptimo quepermitaconstruirun
rboldedecisinapartirdeejemplos.Dichoalgoritmodeberautilizaralgncriterio
parahacerqueloscaminosenelrbolseanlomscortosposible.
+:1,3,4,6
:2,5,7,8
Clientes?
+:
:7
+:1,3,6
:
ninguno
algunos
+:4
:2,5,8
lleno
no s
Hambre?
+:
:5,8
+:4
:2
si no
no
+:1,3,4,6
:2,5,7,8
Lloviendo?
+:4,6
:7,8
+:1,3
:2,5
si no
atributopocodiscriminante
aprendizajederbolesdedecisin
6.rbolesdedecisin
Laconstruccindelrbolesunproblemarecursivoconcuatrocasosaconsideraren
cadaunodelosnodos:
Nosquedanejemplospositivosynegativosporclasificar.Debemoselegirel
mejoratributoparasepararlos.
Losejemplosquequedansontodospositivos(onegativos).Laclasificacinha
finalizado.
Noquedanejemplos.Devolvemoslaclasificacinrealizadaporelnodopadre.
Noquedanatributos,perosejemplospositivosynegativos.Estosepuededeber
alapresenciaderuido,aqueelconjuntodeatributosnoessuficientepara
realizarunadescripcindelproblema,oelproblemamismoesnodeterminista.
Unasolucinesutilizarelvotodelamayora.
aprendizajederbolesdedecisin
6.rbolesdedecisin
procedure aprendizaje(ejemplos,atributos,default)
if ejemplos=
return default
else if todoslosejemplosseclasificanigual
return clasificacion
else if atributos=
return valormayoria(ejemplos)
else
mejor elegiratributo(atributos,ejemplos)
arbol nuevorbolconnodorazmejor
m valormayoria(ejemplos)
for all v
i
demejordo
ejemplos
i
{elementosdeejemplosconmejor=v
i
}
subarbol aprendizaje(ejemplos
i
,atributosmejor,m)
aadirsubarbolaarbolconetiquetav
i
return arbol
unalgoritmodeaprendizaje
6.rbolesdedecisin
+:1,3,4,6
:2,5,7,8
Clientes?
+:
:7
+:1,3,6
:
ninguno
algunos
+:4
:2,5,8
lleno
no s
Hambre?
+:
:5,8
+:4
:2
s
no
no
Viernes/Sbado?
+:
:2
+:4
:
si no
no s
resultadodelaprendizaje
6.rbolesdedecisin
Qucriterioutilizamosparamedirlarelevanciadeunatributo?
Elatributoperfectoesaqulquedivideelconjuntodeentrenamientoen
conjuntosconejemplosslopositivosonegativos.
Unamedidaadecuadaeslacantidaddeinformacinproporcionadaporun
atributo.
Segnlateoradelainformacin(Shannon,1949),lacantidaddeinformacin
queproporcionaunenunciadodependedelopredecibledesucontenido.Cuanto
mspredecibleesste,menosinformacincontiene.
Launidaddeinformacineselbit,quecorrespondeaunapreguntaconrespuesta
s/no.
Engeneral,silasrespuestasposiblesv
i
tienenprobabilidadesP(v
i
),lacantidadde
informacinquesuponeresponderalapreguntaplanteadaes:

=
=
n
1 i
i 2 i n 1
)) (P(v )log P(v )) P(v ),..., I(P(v
relevanciadeunatributo
6.rbolesdedecisin
Ejemplo:supongamoslapreguntacaerlamonedadecara?
bit 1 )
2
1
( log
2
1
)
2
1
( log
2
1
)
2
1
,
2
1
I(
2 2
= =
Supongamoslamismapreguntaenunamonedatrucada
bits 0,08 )
100
99
( log
100
99
)
100
1
( log
100
1
)
100
99
,
100
1
I(
2 2
= =
Unrboldedecisinrespondealapreguntaculesladecisinadoptadaparaun
determinadoejemplo?
Culeslacantidaddeinformacinnecesariapararesponderaestapregunta?Si
haypejemplospositivosynejemplosnegativos:
)
n p
n
( log
n p
n
)
n p
p
( log
n p
p
)
n p
n
,
n p
p
I(
2 2
+ +

+ +
=
+ +
Ennuestroproblemaejemplop=n=4,luegonecesitamosunbitdeinformacin.
Podemosmedircuntainformacinproporcionaunatributocalculandocunta
informacinnecesitaremosdespusderealizarsucorrespondientetest.
relevanciadeunatributo
6.rbolesdedecisin
ElsistemaID3(Quinlan,1979)introduceunamedidadelainformacinparalaeleccin
delatributomsdiscriminante.
UnatributoAdivideelconjuntodeentrenamientoEensubconjuntosE
1
,,E
v
,
siendovelnmerodevaloresdistintosdeA.
CadasubconjuntoE
i
tienep
i
ejemplospositivosyn
i
ejemplosnegativos.Surama
correspondienteharnecesarialasiguientecantidaddeinformacinadicional:
)
n p
n
,
n p
p
I(
i i
i
i i
i
+ +
Seaunejemploedelconjuntodeentrenamiento.Suprobabilidaddeque,parael
atributoA,suvalorseai,es:
n p
n p
i i
+
+
DespusdehacereltestsobreAnecesitaremoslasiguienteinformacinpara
clasificarelejemplo:
)
n p
n
,
n p
p
I(
n p
n p
Resto(A)
i i
i
i i
i
v
1 i
i i
+ +

+
+
=

=
6.rbolesdedecisin
DefinimoslagananciadeinformacindelatributoAcomoladiferenciaentrela
necesidaddeinformacinoriginalylanecesidaddeinformacinquerestatras
aplicareltestcorrespondientealatributoA.
Resto(A) )
n p
n
,
n p
p
I( ) Ganancia(A
+ +
=
Lafuncinelegiratributo(atributos,ejemplos)escogeaquelatributoconmayor
ganancia.
Aplicamoslagananciadeatributosanuestroejemplo:
bits 0,59
4
3
,
4
1
I
8
4
I(1,0)
8
3
I(0,1)
8
1
1 lientes) Ganancia(C ~
(

|
.
|

\
|
+ + =
bits 0
4
2
,
4
2
I
8
4
4
2
,
4
2
I
8
4
1 lueve) Ganancia(L =
(

|
.
|

\
|
+
|
.
|

\
|
=
Conloqueconfirmamosformalmentenuestraintuicindequeelatributo
Clientesesunmejordiscriminantedelconjuntodeejemplos.
6.rbolesdedecisin
Lagananciadeinformacinnoresultauncriterioapropiadoparaseleccionar
atributoscuandoalgunodeellostomaunnmeromuyaltodevalores,en
ocasionessimilaralnmerodeejemplosdisponibles.
Ejemplo:supongamoselatributondetarjetadecrditoenunabasededatos
declientes.Lagananciadeinformacinesmximaparaesteatributo,yaquecada
subconjuntotieneunnicovalorysuclasificacinesnica.
Unasolucinesdividirlagananciadeinformacindeunatributoentresu
contenidodeinformacinintrnseco,esdecir,lacantidaddeinformacinque
proporcionalarespuestaalapregunta:culeselvalordeesteatributo?

=
+
+
+
+
= =
v
1 i
i i
2
i i
v 1
)
n p
n p
( log
n p
n p
)) P(E ),..., I(P(E I(A)
Obtenemosaselcriterioderazndegananciadelainformacindeunatributo:
I(A)
) Ganancia(A
RGI(A) =
6.rbolesdedecisin
Criterioscomolagananciadeinformacinolarazndegananciadeinformacin
sepuedenutilizarporsmismoscomomtodosdeseleccindecaractersticasen
problemasdemineradedatos,loquepermitereducirladimensindelproblema
sintransformarsusatributos.
Estosdoscriteriosformanpartedeloquesellamancriteriosdeseleccin
medianteprorrateo,quepermitenordenarelconjuntodeatributos.
Tambinsepuedeutilizarlapropiametodologadeinduccinderbolesde
decisinapartirdeejemplospararealizarlaseleccindecaractersticas.
Recordemosqueelusodeuncriteriodegananciaseharealizadocomopartede
unaestrategiaavaraenlaseleccindeatributos,paraobtenerrbolesconuna
profundidadreducida.
Podemos,encambio,disearunprocedimientodebsquedaqueexplore
distintasopcionesenlaseleccindeatributos,distintossubconjuntosde
atributos,dondelacapacidaddiscriminantedelrbolresultantepermite
seleccionarelsubconjuntomsrelevante.
seleccindecaractersticas
6.rbolesdedecisin
Cmoadaptamoslosrbolesdedecisinaproblemasenlosquelosatributosde
entradason continuos?
Losalgoritmosdeaprendizajebuscanunpuntoderuptura(ej.miopa6)que
proporcionelamximagananciadeinformacin.Lasparticionesnumricas
admitidassondelaformax
i
a,x
i
>a,dondeaesunaconstantenumrica.
Supongamosquedisponemosde6ejemplosconlossiguientesvaloresparax
i
:
{0.2,0.6,0.8,0.1,0.3,0.4}
Ordenamoslosvalores:{0.1,0.2,0.3,0.4,0.6,0.8}.
Calculamoselvalormediodecadadosconsecutivos:{0.05,0.15,0.25,0.35,0.5,0.7}
Tenemos6particionesposibles:(x
i
0.05,x
i
>0.05),
(x
i
0.15,x
i
>0.15),etc.
Laexpresividaddeestasparticionesse
denominaexpresividadproposicional
cuadriculada.
x
i
>0.23
x
i
>0.77
x
i
>0.51
y
i
>0.22 y
i
>0.68
6.rbolesdedecisin
Cmoadaptamoslosrbolesdedecisinaproblemasenlosqueexistendatos
faltantes paraalgunosatributos?
Paraclasificarunejemploconunatributosinvalorpodemossimularquedicho
ejemplotomatodoslosvaloresposibles,conunpesoproporcionalalafrecuencia
delosvaloresdetodoslosejemplosenesepuntodelrbol.
Modificamoselaprendizajecambiandolasexpresionesdelagananciaparaaquellos
ejemplosconvaloresfaltantes.
Cmoconstruimosunrbolderegresin?
Unrbolderegresinasignaacadanodohojaunvalorreal.
Podemosasignaracadanodounamediayunavarianza,seleccionandoaquella
particinqueminimizalavarianza.
Otraopcinesutilizarencadanodounafuncinlineal,utilizandoenlaevaluacinel
errorcuadrticomediodelaregresinlinealdelosejemplosquehayancadoen
cadanodo.
7.Evaluacin
Unprocesodeaprendizajeesbuenosigeneraunahiptesisquerealizapredicciones
correctas,estoeshf.Eshabitualseguirunametodologasegnlacualseseparael
conjuntoinicialdeejemplosentresconjuntosdisjuntos:
Conjuntodeentrenamiento(R):Elconjuntoquehemosutilizadohastaelmomento
yquepermiteinducirlahiptesis.
Conjuntodevalidacin(V):Conjuntoutilizadoparaseleccionarlamejorhiptesisa
partirdelosdatosdelconjuntodeentrenamiento.Seutilizaparaoptimizarlos
parmetrosdelentrenamiento:ciclos,neuronas,arquitectura,etc.
Conjuntodetest (T):Conjuntoutilizadoparacalcularlosresultadosquese
presentandelaevaluacindelahiptesisobtenida.
Sesueleseparar2/3deltamaodelconjuntoinicialparaentrenamientoyvalidacin,y
1/3paratest,aunquenohayreglasfijas.Lasclasesdebenestarrepresentadasenla
proporcincorrecta enlosdistintosconjuntosdeevaluacin.Nodebemosdistorsionarla
probabilidadaprioridecadaclase.Siunaclasetieneun20%deejemplosdelconjunto
total,esaproporcinsedebemantenerenelentrenamiento,validacinytest.
8.Evaluacin
Unfenmenorelativamentefrecuenteesqueelaprendizajeutiliceatributos
irrelevantesparahacerdistincionesfalsasentrelosejemplos:
Supongamosqueenlatiradadeundadoregistramoseldadelasemanadecada
tirada,elcolordeldadoylatemperatura.
Nosgustaraqueelaprendizajegeneraraunconjuntodenodoshojaconuna
probabilidadde1/6paracadaconjetura.
Seproducesobreajuste cuandolahiptesisvienesesgadaporelconjuntode
entrenamiento,apareciendoregularidadespocosignificativas,ysufriendouna
mermalacapacidaddegeneralizacindelaprendizaje.
Comohemosvisto,lagananciadeinformacinnospermitemedirlarelevanciade
unatributo.Podemosintroducirunmnimoenlagananciaparadeterminarqueun
atributoesirrelevante,peroquvalormnimoescogemos?
sobreajuste
8.Evaluacin
Utilizaremosuntestdesignificanciaestadstica:
Suponemosquenoexisteningnpatrnenlosdatos(hiptesisnula).
Analizamoslosdatosparaestudiarsudesviacinrespectodelaausenciadepatrn.
Fijamosunniveldesignificancia(porejemplo,5%)quedeterminalareginde
rechazodelahiptesisnula;buscamosunestadsticoquesesiteenlareginde
rechazosilosdatosmuestranunpatrnsignificativo.
Ennuestrocaso,lahiptesisnulaesqueelatributoesirrelevanteyque,paraun
ejemploinfinitamentegrande,sugananciadeinformacinescero.
Calculamoslaprobabilidaddequeparalosmvaloresdelatributoel
comportamientodelosejemplossedesvedelcomportamientodelahiptesisnula.
Medimosladesviacincomparandoelnmerorealdeejemplospositivosp
i
y
negativosn
i
encadasubconjunto,conlosnmerosesperadosasumiendo
irrelevancia:
n p
n p
p p
i i
i
+
+
=

n p
n p
n n
i i
i
+
+
=

sobreajuste
8.Evaluacin
Unamedidadeladesviacinpuedeser:
( ) ( )
i
2
i i
v
1 i
i
2
i i
n
n n
p
p p
D

=
EnC4.5(Quinlan,1987)seintroducendiversasmejorasenlaconstruccinde
rbolesdedecisin,entrelasquecabecitarlapoda.
Bajolahiptesisnula,elvalordeDsedistribuyedeacuerdoconladistribucin
2
conm1gradosdelibertad.
Laprobabilidaddequeunatributoseairrelevantesecalculaconayudadelastablas
dela
2
estndar.
Lapodaevitaqueelrbolcrezcademasiadoenprofundidadensituacionesderuido
oatributosirrelevantes.Elrbolcometeunmayorerrorenelaprendizajepero
reducesuerrorenlavalidacinyensuusoposterior.
sobreajuste
8.Evaluacin
Unaconsecuenciadelapodaesque,frecuentemente,losnodosfinalesnotienen
ejemplosdeunasolaclase,porloquesepuedenetiquetarsegnlaclasemayoritaria.
sobreajuste
8.Evaluacin
Elprocedimientodevalidacinanteriorfuncionabienconconjuntosmuyampliosde
datos.Sinembargo,conconjuntospequeos,existeunadependenciadelresultado
respectoalaparticinrealizada.
Paraevitarestoseutilizalavalidacincruzada:
1. SedivideelconjuntoEdeejemplosenksubconjuntosdisjuntos(k=10o30)de
igualtamaoE=E
1
E
k
,E
i
E
j
=. Segenerankparejasdeconjuntosde
entrenamientoyvalidacin:
V
1
=E
1
R
1
=E
2
E
3
E
k
V
2
=E
2
R
2
=E
1
E
3
E
k

V
k
=E
k
R
k
=E
1
E
2
E
k1
2. Seobtienenaskhiptesish
1
,,h
k
.Sepuedecalcularunerrorfinalcomomedia
aritmticadeloserroresdelaskhiptesis
Unaventajadelavalidacincruzadaesqueelresultadofinalrecogelamediadelos
experimentosconksubconjuntosdetestindependientes.
8.Evaluacin
Unatcnicamuyutilizadaenlaevaluacindelosresultadosdelaclasificacinesla
elaboracindematricesdeconfusin,queconstituyen unarepresentacindetallada
deladistribucindeerrores.
Siaestamatrizaadimosunamatrizdecostes,C:
Real
Alta Observacin UCI
Estimado
Alta 71 3 1
Observacin 8 7 1
UCI 4 2 3
Real
Alta Observacin UCI
Estimado
Alta 0 5.000 500.000
Observacin 300 0 50.000
UCI 800 500 0
Podemoscalcularelcostedeunclasificadorcomo:

=
j i,
ij ij
m c Coste
8.Evaluacin
ElanlisisROC(ReceiverOperating Characteristic)nospermitecompararentres
distintospredictores oclasificadoresobtenidosparaunmismoproblema.Este
procedimientofueutilizadoenlaIIGuerraMundialparaevaluarlacapacidaddelos
equiposderadarparadistinguirentresealesderuidoylasqueidentifican
correctamenteaunavinenemigo.
Supongamosunproblemadeclasificacinbinaria,conejemplospositivospy
negativosnrespectoalaclaseproblema.
SupongamosquedisponemosdeunclasificadorqueproporcionacomoresultadosS
yNrespectoalaclaseproblema.
Obtenemoslamatrizdeconfusindenuestroclasificador,sobrelaque
introduciremosalgunasnociones:
Real
p n
Estimado
S VP FP
N FN VN
VP=VerdaderosPositivos
VN=VerdaderosNegativos
FP=FalsosPositivos
FN=FalsosNegativos
anlisisROC
8.Evaluacin
Definimosunconjuntodeindicadoresapartirdelaanteriormatrizdeconfusin:
Razndeverdaderospositivos(raz vp)=Sensibilidad =
FN VP
VP
+
Razndefalsospositivos(raz fp)=
VN FP
FP
+
Especificidad =1 Razndefalsospositivos=
VN FP
VN
+
Precisin =Predictividad positiva=
FP VP
VP
+
Exactitud =
FN FP VN VP
VN VP
+ + +
+
Error =
FN FP VN VP
FN FP
+ + +
+
Real
p n
Estimado
S VP FP
N FN VN
anlisisROC
8.Evaluacin
Cadaclasificador,identificadoporsumatrizde
confusin,serepresentamedianteunpuntoen
ungrficoROC:(raz fp,raz vp).
Algunospuntossingulares:
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
razndefalsospositivos
r
a
z

d
e

v
e
r
d
a
d
e
r
o
s

p
o
s
i
t
i
v
o
s
A
B
C
D
E
(0,0):elclasificadornuncaproporcionaunresultado
positivo;(1,1):elclasificadoraceptatodocomo
resultadopositivo;(0,1):elclasificadorperfectoD.
Ladiagonalprincipal(x=y)representaacualquierclasificadoraleatorioC,queno
poseeinformacinsobrelaclase.Pordebajodeella,cualquierclasificadorEest
equivocado,silonegamosobtenemosunclasificadorBcorrectoporencimadela
diagonal.
HacialaizquierdaabajolosclasificadoresAsonmsconservadores,haciaarriba
derechalosclasificadoresBarriesgan ms.
anlisisROC
8.Evaluacin
Supongamosunclasificadorquerealizaunaestimacindelaprobabilidaddeclase.
Eneldiseodeunclasificadoresusualsintonizarsusparmetrosdeclasificacinpara
obtenerelmejorclasificador.LascurvasROCnospuedenayudarenladeterminacin
desumejorversin.Loveremosconunejemplosencillo:
presinocular
n

m
e
r
o

d
e

p
a
c
i
e
n
t
e
s
0 10 20 30 40 50
sanos glaucoma
algunossonsanos,algunostienenglaucoma
todostienen
glaucoma
todosson
sanos
n

m
e
r
o

d
e

p
a
c
i
e
n
t
e
s
grupoglaucoma
umbral=20
verdaderospositivos
falsosnegativos
10%
90%
presinocular
n

m
e
r
o

d
e

p
a
c
i
e
n
t
e
s
0 10 20 30 40 50
verdaderos
negativos
gruposanos
50% 50%
falsospositivos
anlisisROC
8.Evaluacin
ConstruimosunacurvaROCdibujando,paracadaumbral,elpuntoquerepresenta
alclasificador(raz vp,raz fp).
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
razndefalsospositivos
r
a
z

d
e

v
e
r
d
a
d
e
r
o
s

p
o
s
i
t
i
v
o
s
falsos
positivos
verdaderos
positivos
verdaderos
positivos
falsos
positivos
umbral
conservador(30)
umbral
arriesgado(20)
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
razndefalsospositivos
r
a
z

d
e

v
e
r
d
a
d
e
r
o
s

p
o
s
i
t
i
v
o
s
P1+P2+P3
P1+P2
P1
Sesueleutilizarelreabajolacurva(AUC)como
indicadorquepermitecompararclasificadores
entres.
Elumbralptimoparaunapoblacindeterminada
dependedelaprevalenciadelacondicinsobrela
poblacin,elcostedelosfalsospositivos,etc.
anlisisROC
8.Evaluacin
N N N
Ejemplo:undetectordelatidos.
HayproblemasenlosquelanocindeVerdaderoNegativonoesintuitiva.
Enestoscasossustituimos,enlarepresentacinROC,larazndefalsospositivospor
lapredictividad positiva,yaqueambasnospermitenmedirunanocinsimilar,que
esladeespecificidad.
PeroperdemosunaimportantepropiedaddelanlisisROCoriginal:su
independenciarespectoacambiosenladistribucindelasclases.ElanlisisROC
originalnocambiaaunquecambielaproporcindeejemplospositivosynegativos
enelconjuntodetest,yaqueelclculodecadaunodelosejessloinvolucraauna
delascolumnasdelamatrizdeconfusin.
ElanlisisROCoriginalesinsensiblealoscambiosenlasprobabilidadesapriori:por
ejemplo,cambiosdeprevalencia.
anlisisROC
8.Evaluacin
Seaerror(h)=(FP+FN)/(FP+VP+FN+VN)laproporcindeerrorescometidosenel
conjuntodeevaluacin.
Sudistribucinesbinomial,aunqueparaconjuntosconN>30podemosaproximarla
medianteladistribucinnormal,yconstruimosaselintervalodeconfianza
siguiente:
Nospodemospreguntarporlafiabilidaddelerrorcalculadoenlaclasificacin.
Laevaluacinnosproporcionaunerrordemuestraparalahiptesish.
Podemosestimarelerrordepoblacindeh?
|
|
.
|

\
|

+

N
error(h)) error(h)(1
z error(h) ,
N
error(h)) error(h)(1
z error(h)
/2 /2
SupongamosqueN=40ylaclasificacincomete10errores,estoes,error(h)=0.25.
Podemosdecir,conunaconfianzadel95%(z
/2
=1.96)queelintervalodeerrores
0.250.13,esdecir,parael95%delosconjuntosdeevaluacinextradosconel
mismoprocedimientomuestral yN=40,elerrorestardentrodeesteintervalo.
8.Evaluacin
Nodisponemosdeprocedimientosestadsticosquenospermitancontestaraesta
pregunta.TodosrequierenaplicaralgntipodeseparacinalconjuntoE,yaslas
conclusionessonvlidasparauntamaodelconjuntodetestmenorqueeldeE.
Algunosdeestosprocedimientossebasanenelcontrastedehiptesis.Eneste
caso,lahiptesisnulaes:siendoRunconjuntodeentrenamientoextradoapartir
deunadeterminadapoblacinX,losdosalgoritmosAyBcometernelmismoerror
sobrecualquierconjuntodetestextradodeX.
Existenmltiplesestadsticosdecomparacindealgoritmosdeaprendizaje:test
McNemar,testtpareadosobrevalidacincruzada,testsobrediferenciasde
proporciones,etc.
SeanAyBdosalgoritmosdeaprendizaje,yEunconjuntoreducido deejemplos,
culdelosdosalgoritmospermiteobtenerclasificadoresconunamayor
exactitudcuandoambossonentrenadosconconjuntosdelmismotamaoqueE
extradosdelamismapoblacin?
8.Evaluacin
DisponemosdeunconjuntodeentrenamientoRyunodetestT.
UtilizamosdosalgoritmosdeentrenamientoAyB,obteniendolosclasificadoresC
A
y
C
B
.ProbamosC
A
yC
B
concadaejemplodeT.
Construimosunatabladecontingencia:Construimos unatabladecontingencia:
EltestMcNemar evaladosclasificadoresoalgoritmosdeentrenamiento.
n
00
: nmerodeejemplosmal
clasificadosporC
A
yC
B
n
01
: nmerodeejemplosmal
clasificadosporC
A
peronoporC
B
n
10
: nmerodeejemplosmal
clasificadosporC
B
peronoporC
A
n
11
: nmerodeejemploscorrectamente
clasificadosporC
A
yporC
B
Donde|T|=n
00
+n
01
+n
10
+n
11
.
Silahiptesisnulaescierta,entoncesn
01
=n
10
=(n
01
+n
10
)/2.
McNemar proponeelsiguienteestadstico,distribuidosegn
2
:
( )
10 01
2
10 01
n n
1 n n
+

Silahiptesisnulaescierta,laprobabilidaddequeestevalorseamayorque

2
1,095
=3.84esmenorde0.05.
8.Evaluacin
Unamedidadeestadiferenciamuycomneselerrorcuadrticomedio:
Laevaluacindemodelosderegresinsebasaenelclculodeladiferencia de
comportamientoentrelahiptesishylafuncinobjetivof.

=
=
N
1 i
2
i i
)) f(e ) (h(e
N
1
MSE
MSEpuededardemasiadopesoalosmayoreserrores.Siestonoesdeseable
podemosusarelerrorabsolutomedio:

=
=
N
1 i
i i
) f(e ) h(e
N
1
MAE
Sisedeseaqueelerrornoseasensiblealamagnitudy,portanto,sealomismoun
errorde101queunode10010,entoncesdebemosusarelerrorcuadrtico
relativo:

=
N
1 i
2
i i
2
i i
)) (e f ) (f(e
)) f(e ) (h(e
N
1
RSE
donde

=
=
N
1 i
i
) f(e
N
1
f
9.Combinacindeclasificadores
Lacombinacindehiptesisnospermitereducirelerrordeprediccin.
Laraznesqueestacombinacinamplaelespaciodehiptesis,yamenudo,
aumentasuexpresividad.
Hastaahorahemosconsideradolaobtencindeunahiptesis,apartirdeunespacio
dehiptesis.Sinembargo,podemosseleccionarunconjuntodehiptesisycombinar
suspredicciones,porejemplomedianteelvotodelamayora.
+
_
+
+
+
+
+
+
+
+
+
+
+
+
_
_
_
_
_
_
_
_
_
_
_
_
_
_ _
_
_
_
_
_
_
_
Elmtodomsutilizadoparacombinar
hiptesiseselboosting.
Utilizaunconjuntodeentrenamientoen
elquecadaejemplollevaasociadoun
pesow
j
0.Cuantomayoressuvalor,
mayoressuimportanciaenelaprendizaje
deunahiptesis.
Comenzamosasignandow
j
=1atodoslosejemplos.Obtenemosmediante
aprendizajelaprimerahiptesish
1
.
9.Combinacindeclasificadores
Disminuimosacontinuacinelvalordelosejemplosquehansidocorrectamente
clasificados.Obtenemosunanuevahiptesish
2
.
GeneramosasunconjuntodeMhiptesis.
ObtenemosunahiptesisfinalmediantecombinacinponderadadelasM
hiptesis,dondeelpesodecadaunaesfuncindesucalidad.
Lasdistintasvariacionesdeboosting utilizanformasdiferentesdeajustarlospesosy
combinarlashiptesis.
AdaBoost tieneunapropiedadmuyimportante:sipartimosdeunalgoritmode
aprendizajedbil,devuelveunahiptesisqueclasificaperfectamentelosdatosde
entrenamiento paraMsuficientementegrande.
Aprendizajedbil:devuelveunahiptesisunpocomejorquelaqueprocededeuna
suposicinaleatoria.
Esteresultadoesindependientedelespaciodehiptesisoriginalydelacomplejidad
delafuncinquepretendemosaprender.
10.Teoracomputacionaldelaprendizaje
Cmosabemosquelahiptesishestcercadefsinoloconocemos?
Lateoracomputacionaldelaprendizajenosdicequesiunahiptesisesconsistente
conunnmeroaltodeejemplosdeentrenamientoentoncesesunaaproximacin
correctaprobable(PAC).
Resultafundamentallarelacinentreelconjuntodeentrenamientoyelconjuntode
testo,engeneral,eldominiodeaplicacinreal.
Necesitamosunasuposicinestacionaria:Losconjuntosdeentrenamientoy
validacinsonelegidosalazarydeformaindependientesiguiendounamisma
distribucindeprobabilidad.
SeaX elconjuntodelosposiblesejemplos.
Sea ladistribucinapartirdelaqueseescogenejemplos.
SeaH elconjuntodelasposibleshiptesis.
SeaNelnmerodeejemplosenelconjuntodeentrenamiento.
SupongamosquefperteneceaH.
10.Teoracomputacionaldelaprendizaje
Definimoselerrordeunahiptesisconrespectoafcomolaprobabilidaddequeh
seadiferenteafparaunejemplodado:
) mediante obtiene se x | f(x) P(h(x) error(h) = =
Unahiptesissediceaproximadamentecorrectasierror(h),donde esuna
constantepequea.
H
H
mala
f

H
buena
Cuntosejemplosnecesitamosparaquelashiptesisconsistentessean
aproximadamentecorrectas?
Unamalahiptesish
b
perteneceaH
mala
,yerror(h
b
)>.
Laprobabilidaddequeh
b
seaconsistenteconunejemploesdealosumo1.Para
Nejemplos:
N
b
) (1 ejemplos) N con e consistent P(h s
10.Teoracomputacionaldelaprendizaje
LaprobabilidaddequeH
mala
contengaunahiptesisconsistentees:
N N
mala mala
) (1 H ) (1 H e) consistent h una contenga P(H s s
Queremosquelaprobabilidaddequeestosucedaseapequea:
) (1 H
N
s
Puestoque1e

,ydespejando:
|
.
|

\
|
+ > H ln

1
ln

1
N
Esteeselnmerodeejemplosdeentrenamientoquenecesitamosparaqueuna
hiptesishseaaproximadamentecorrectaconprobabilidad1.Nrecibeelnombre
decomplejidaddelamuestra.
Bibliografa
E.Alpaydin,Introduction to MachineLearning.The MITPress,2004.
R.Cao,A.Labora,S.Naya,M.Ros,Mtodosestatsticos enumricos.Baa Edicins,2001.
T.G.Dietterich,Approximate statistical tests for comparing supervised classification
learning algorithms.NeuralComputation,10:18951923,1998.
T.Fawcett,An introduction to ROCanalysis,Pattern Recognition Letters,27:861874,2006.
Y.Freund,R.E.Schapire,Adecisiontheoretic generalization ofonlinelearning andan
application to boosting.Journal ofComputingandSystem Sciences,55(1):119139,1997.
J.Hernndez,M.J.Ramrez,C.Ferri,Introduccinalamineradedatos.Prentice Hall,
2004.
S.Russell,P.Norvig,InteligenciaArtificial.Unenfoquemoderno.Prentice Hall,2003.
J.R.Quinlan,C4.5:programs for machinelearning.MorganKaufmann,1993.
J.A.Swets,R.M.Dawes,J.Monahan,Better decisions through science.Scientific American,
8287,2000.

You might also like