UNIVERSIDAD NACIONAL

AUTÓNOMA DE MÉXICO

FACULTAD DE ESTUDIOS SUPERIORES
ACATLÁN


LAS REDES NEURONALES ARTIFICIALES COMO UNA
HERRAMIENTA ALTERNATIVA O COMPLEMENTARIA A LOS
MÉTODOS DE CLASIFICACIÓN TRADICIONALES

T E S I N A
QUE PARA OBTENER EL TÍTULO DE

A C T U A R I A

P R E S E N T A

ALMA ROSA AGUILAR SÁNCHEZ

ASESOR: VÍCTOR MANUEL ULLOA ARELLANO

AGOSTO, 2008






II

Contenido

Prólogo .................................................................................................... III
Introducción............................................................................................. V
1.- Fundamentos de las Redes Neuronales Artificiales............................ 1
1.1 Introducción .................................................................................................... 1
1.2 Breve introducción biológica......................................................................... 4
1.3 Generación y transmisión de la señal nerviosa ........................................... 6
1.4 Procesos plásticos en la sinapsis ................................................................... 7
1.5 Sistemas paralelos, distribuidos y adaptativos ............................................. 8
1.6 Características generales de los modelos neuronales artificiales ............... 9
1.7 Modelo general de neurona artificial ............................................................ 13
1.8 Modelos de Redes Neuronales (Taxonomía) .............................................. 17
1.9 RNA y Estadística........................................................................................... 29
2.- Los mapas autoorganizados................................................................ 31
2.1 Introducción .................................................................................................... 31
2.2 Algoritmo de aprendizaje............................................................................... 35
2.3 Interpretación del algoritmo de aprendizaje................................................ 38
2.4 Consideraciones prácticas .............................................................................. 38
2.5 Modelos de neuronas de Kohonen – Medidas de similitud...................... 41
2.6 Modelos de aprendizaje en mapas autoorganizados .................................. 43
2.7 Regla de aprendizaje euclídea ........................................................................ 45
2.8 Regla de aprendizaje de Manhattan.............................................................. 46
2.9 Regla de aprendizaje derivada del producto escalar ................................... 47
3.- Ejemplo comparativo........................................................................... 51
3.1 Introducción .................................................................................................... 51
3.2 Descripción del conjunto de datos ............................................................... 54
3.3 Clasificación de lirios mediante mapas autoorganizados........................... 55
3.4 Clasificación de lirios mediante análisis cluster ............................................. 62
3.5 Clasificación de lirios mediante árboles de decisión................................... 68
3.6 Resumen comparativo de los 3 métodos..................................................... 74
Conclusiones............................................................................................. 76
Anexo A. SOM Toolbox en MatLab......................................................... 77
Anexo B. Análisis cluster .......................................................................... 80
Anexo C. Árboles de decisión................................................................... 92
Bibliografía................................................................................................ 103


III

Prólogo

Hasta ahora, los métodos de clasificación más ampliamente utilizados tanto con fines
didácticos como para la solución de problemas reales son, entre otros, el análisis
cluster en cualquiera de sus variantes, los árboles de decisión y el análisis
discriminante. A diferencia del análisis discriminante, los dos primeros métodos
(análisis cluster y árboles de decisión) funcionan tanto para fines de agrupación como
de clasificación; mientras que el análisis discriminante tiene básicamente fines
clasificatorios.

Cuando se desea encontrar una propuesta de solución a un problema de clasificación
se recomienda evaluar diferentes alternativas, es decir, obtener soluciones mediante
diferentes técnicas y con diversos escenarios (por ejemplo en el análisis cluster puede
optarse por los métodos jerárquicos o no jerárquicos) con la finalidad de probar la
consistencia de las soluciones o bien, elegir la que mejor se adecue al problema
planteado.

El objetivo de este trabajo es mostrar que las redes neuronales artificiales
(específicamente, los mapas autoorganizados) pueden ser utilizadas como un método
alternativo o complementario a los métodos de clasificación tradicionales.

Si se puede mostrar que para un mismo problema la solución obtenida mediante
redes neuronales artificiales es semejante o incluso superior a la solución generada
por los métodos tradicionales se podrá entonces contar con la opción de utilizar la
solución de este método (mapas autoorganizados) como un resultado válido o bien,
si se prefiere, complementarla con otros métodos si se desea una solución más
robusta.

Para mostrar una posible semejanza entre métodos, se realizará la comparación de
los resultados arrojados por cada uno identificando las ventajas y desventajas así
como sus principales similitudes y diferencias desde la etapa de implementación
hasta la interpretación de los resultados generados.

En el caso de los métodos tradicionales se contemplará únicamente el análisis cluster y
los árboles de decisión debido a que se realiza primero una agrupación (la cual el
análisis discriminante no realiza) seguida de una clasificación para determinar el
margen de error de cada método.





IV

La teoría presentada se enfocará en las redes neuronales artificiales, en el caso del
análisis cluster y los árboles de decisión se mostrará un anexo estadístico indicando
también las fuentes en donde puede profundizarse la teoría sobre estos métodos.

El trabajo consta de 3 capítulos; en el primero se presentan los fundamentos de las
redes neuronales artificiales así como un breve repaso a la historia del desarrollo de
sistemas y máquinas dotadas de cierta inteligencia y su paralelismo con los sistemas
neuronales biológicos.

Se exponen también las características generales de los modelos neuronales
artificiales y las motivaciones que desembocan en la introducción de éstas como
alternativa o complemento a los sistemas de procesamiento más utilizados en la
actualidad.

Una vez expuestos los conceptos básicos relacionados con las redes neuronales
artificiales, se da paso al capítulo 2 centrado en el modelo de mapas autoorganizados,
uno de los sistemas neuronales no supervisados más conocidos y utilizados. Se
presenta el modelo general de mapas autoorganizados así como algunos de sus
algoritmos de aprendizaje.

Finalmente, en el capítulo 3 se muestran las soluciones generadas por cada uno de
los tres métodos expuestos, se resaltan las ventajas y desventajas de cada uno de tal
forma que el lector pueda decidirse sobre uno de ellos o bien, optar por una
combinación para robustecer la solución generada.




















V

Introducción


El cerebro es un procesador de información con características muy notables. Es
capaz de procesar inmediatamente grandes cantidades de información procedentes
de los sentidos, combinarla o compararla con la información almacenada y dar
respuestas adecuadas incluso en situaciones nuevas. Logra discernir un susurro en
una sala ruidosa, distinguir una cara en una calle mal iluminada o leer entre líneas en
una conversación; pero lo más impresionante de todo es su capacidad de aprender a
representar la información necesaria para desarrollar tales habilidades sin
instrucciones explícitas para ello.

Aunque todavía se ignora mucho sobre la forma en que el cerebro aprende a
procesar la información, se han desarrollado modelos que tratan de mimetizar tales
habilidades; a este tipo de modelos se les conoce como Redes Neuronales
Artificiales. La elaboración de estos modelos supone en primer lugar la deducción de
los rasgos o características esenciales de las neuronas y sus conexiones, y en segundo
lugar, la implementación del modelo computacional de forma que se pueda simular.

Existen varios tipos de modelos de Redes Neuronales Artificiales, cada uno con un
algoritmo y fin específico. Los mapas autoorganizados o mapas de Kohonen
(nombre de su desarrollador) se basan en el hecho de que en algunas partes del
cerebro, las neuronas, están interconectadas siguiendo una misma estructura, el lugar
en donde las conexiones de las neuronas forman una estructura u organización es el
reflejo del entorno sensitivo.

En el cerebro podemos encontrarnos mapas topológicos de los órganos sensoriales
de nuestro cuerpo. En determinadas zonas del cerebro humano se ha encontrado
experimentalmente que las neuronas detectoras de rasgos se encuentran
topológicamente ordenadas. Ante un estímulo proveniente de sensores de la piel
próximos entre sí, se estimulan neuronas del cerebro pertenecientes a una misma
zona.

Estos mapas se organizan de manera autónoma sin una referencia por medio de la
cual se puedan corregir errores; pues el cerebro tiene la capacidad suficiente para
clasificar la información nueva sin tener una referencia anterior en la cual pueda
apoyarse. Así, el cerebro se organiza de manera automática, o dicho de otra manera,
se autoorganiza.

La vida nos proporciona abundantes ejemplos de la autoorganización; cuando los
alumnos asisten a un curso, el primer día se sientan en las sillas de forma aleatoria,
conforme pasan los días se recolocan en el aula, de forma que conforme pasa el


VI

tiempo se sientan juntos según sus afinidades. A menudo hay grupos exclusivamente
formados por chicas o chicos, el grupo de alumnos que se sientan en las últimas filas,
etc.

Algunos problemas reales en los que los mapas autoorganizados han demostrado su
eficacia incluyen tareas de clasificación, reducción de dimensiones y extracción de
rasgos. Su utilidad más importante se relaciona con la clasificación de información o
el agrupamiento de patrones. Este modelo neuronal utiliza una estrategia de
aprendizaje que los humanos utilizamos frecuentemente, el llamado aprendizaje no
supervisado.

Si el aprendizaje supervisado se asemeja al profesor que enseña y corrige al alumno,
el aprendizaje no supervisado o autoorganizado es semejante al alumno que aprende
por sí mismo, sin la ayuda de un profesor, pero disponiendo de material docente,
libros, etc.

Para generar un mejor entendimiento en cuanto a los fines que la autoorganización
persigue, conviene revisar los conceptos de agrupación y clasificación que en algunas
ocasiones son interpretados (erróneamente) como lo mismo.

El agrupamiento o clustering trabaja a partir de una serie de observaciones y determina
si existen clases en la que dichas observaciones puedan ser agrupadas. Es decir,
determina la existencia de clases en las cuales poder agrupar. El número y
características de las clases son desconocidos a priori (aprendizaje no supervisado).

Por su parte, la clasificación trabaja a partir del conocimiento de la existencia de un
conjunto de clases y determina la regla para asignar cada nueva observación (o
ejemplo) a la clase que pertenece. Es decir, determina reglas de asignación a clases
conocidas (aprendizaje supervisado).

Al realizar un agrupamiento, al término de éste podemos generar una regla de
clasificación que permita continuar categorizando la nueva información en las clases
ahora ya existentes.













1

Capítulo 1




1.- Fundamentos de las Redes Neuronales Artificiales

En este capítulo se realizará un breve repaso a la historia del desarrollo de sistemas y
máquinas dotadas de cierta inteligencia así como su paralelismo con los sistemas
neuronales biológicos. Se expondrán las características generales de los modelos
neuronales artificiales y las motivaciones que desembocan en la introducción de éstas
como alternativa o complemento a los sistemas de procesamiento más utilizados en
la actualidad.


1.1 Introducción

Muchos de los desarrollos del hombre se deben a su capacidad para explicar y
emular funciones que son realizadas por seres vivos. Por ejemplo, se puede citar el
radar, que surge como imitación de la forma en la que un murciélago es capaz de
detectar los objetos que están en su camino sin necesidad de verlos, por medio de la
emisión de una onda ultrasónica, la posterior recepción de la señal de eco y su
procesamiento.

Aunque el hombre ha sido capaz de reproducir funciones de los animales, aún se
enfrenta con el reto de poder imitar, la llamada por muchos la máquina perfecta: el
cerebro humano.

Cuando la neurociencia pudo explicar de forma un poco convincente el
funcionamiento de la unidad principal de procesamiento de información que posee
el cerebro, la neurona, surge casi de manera automática la idea de poder imitar dicho
funcionamiento en un elemento artificial, "la neurona artificial".

Una de las metodologías con mayor auge en la última década son los modelos de
Redes Neuronales Artificiales (RNA)
1
, que en esencia son estructuras formales de

1
En Hilera, J. y Martínez, V. (1995). Redes Neuronales Artificiales: Fundamentos, Modelos y aplicaciones. Ra-
ma. Madrid, se define una red neuronal como una nueva forma de computación, inspirada en
modelos biológicos.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

2

carácter matemático y estadístico con la propiedad de aprendizaje, es decir, la
adquisición de conocimientos que en la mayoría de los casos es a partir de ejemplos.

Este aprendizaje se produce mediante un estilo de computación que intenta simular
algunas de las capacidades que posee nuestro cerebro: la capacidad de memorizar y
asociar hechos. Si examinamos con atención aquellos problemas que no pueden
expresarse a través de un algoritmo, nos daremos cuenta de que todos ellos tienen
una característica común: la experiencia.

En definitiva, las redes neuronales artificiales no son más que un modelo artificial y
simplificado del cerebro humano, es decir, un sistema para el tratamiento de la
información, que es capaz de adquirir conocimiento a través de la experiencia y cuya
unidad básica de procesamiento está inspirada en la célula fundamental del sistema
nervioso humano, la neurona.

Los modelos de redes neuronales son variados, al menos 50 diferentes tipos han sido
explorados en investigación o han sido desarrollados para aplicaciones. Se muestran
los principales de uso común en la Tabla 1.1.






















Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

3

Red Año Aplicaciones más
importantes
Comentarios Inventada/
desarrollada por
Perceptrón 1957
Reconocimiento de
caracteres impresos.
La red más antigua. Frank Rosenblatt.
Adaline / Madaline 1960
Filtrado de señales.
Ecualizador adaptativo.
Módems.
Rápida, fácil de
implementar.
Bernard Widrow.
Avalancha 1967
Reconocimiento de habla.
Control de brazos de robot.
Ninguna red sencilla puede
hacer todo esto.
Stephen Grossberg.
Cerebellatron 1969
Control de movimiento de
los brazos de un robot.
Semejante a Avalancha.
David Marr, James
Albus, Andres
Pellionez.
Back Propagation 1974-85
Síntesis de voz desde texto.
Control de robots.
Predicción.
Reconocimiento de
patrones.
Red más popular.
Numerosas aplicaciones con
éxito. Facilidad de
aprendizaje. Potente.
Paul Werbos, David
Parker, David
Rumelhart.
Brain-Estate-in-a-Box 1977
Extracción de
conocimiento de bases de
datos.
Posiblemente mejor
realización que las redes de
Hopfield.
James Anderson.
Neocognitrón 1978-84
Reconocimiento de
caracteres manuscritos.
Insensible a la translación,
rotación y escala.
K. Fukushima.
Self-Organizing-Map
(SOM). Topology-
Preserving- Map (TPM)
1980-84
Reconocimiento de
patrones, codificación de
datos, optimización.
Realiza mapas de
características comunes de
los datos aprendidos.
Teuvo Kohonen.
Hopfield 1982
Reconstrucción de patrones
y optimización.
Fácil de conceptualizar. John Hopfield.
Memoria Asociativa
Bidireccional
1985
Memoria heteroasociativa
de acceso por contenido.
Aprendizaje y arquitectura
simples.
Bart Kosko.
Máquinas de
Boltzmann y Cauchy
1985-86
Reconocimiento de
patrones (imágenes, sonar y
radar). Optimización.
Redes simples. Capacidad de
representación óptima de
patrones.
Jeffrey Hinton, Terry
Sejnowski, Harold
Szu.
Teoría de la
Resonancia Adaptativa
(ART)
1986
Reconocimiento de
patrones (radar, sonar, etc.)
Sofisticada. Poco utilizada.
Gail Carpenter,
Stephen Grossberg.
Counter- propagation 1986 Tratamiento de imágenes.
Combinación de Perceptrón
y TPM.
Robert Hecht-
Nielsen.

Tabla 1.1. Modelos de RNA más conocidos (Fuente: Adaptada de Hetch- Nielsen, 1998)






Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

4

1.2 Breve introducción biológica

Antes de abordar el estudio de las RNA es conveniente exponer algunos conceptos
básicos de los sistemas neuronales biológicos, para poder establecer más fácilmente
el paralelismo entre ambos
2
.

La historia de las redes neuronales artificiales comienza con el científico Santiago
Ramón y Cajal, un gran neuroanatomista español descubridor de la estructura
neuronal del sistema nervioso. A finales del siglo XIX la teoría reticularista
3
, que
sostenía que el sistema nervioso estaba formado por una red continua de fibras
nerviosas, era la creencia extendida.

Sin embargo en 1888, tras años de trabajo, Ramón y Cajal demostró que el sistema
nervioso en realidad estaba compuesto por una red de células individuales, las
neuronas, ampliamente interconectadas entre sí. Pero no sólo observó al
microscopio los pequeños espacios vacíos que separaban unas neuronas de otras,
sino que también estableció que la información fluye de una neurona a otra desde las
dendritas hasta el axón, atravesando el soma, descubrimiento básico para el
desarrollo de las neurociencias en el siglo XX.

Se estima que el sistema nervioso contiene alrededor de cien mil millones de
neuronas, este tipo de células puede presentarse en múltiples formas, aunque muchas
de ellas tienen un aspecto similar muy peculiar (Figura 1.1.), con un cuerpo celular
o soma (de entre 10 y 80 micras de longitud), del que surge un denso árbol de
ramificaciones (árbol dendrítico) compuesto por las dendritas, y del cual parte una
fibra tubular denominada axón que también se ramifica en su extremo final para
conectarse con otras neuronas.


2
Se trata de una visión simplificada (válida para nuestro propósito) del funcionamiento del cerebro,
sin embargo se puede mostrar cómo el sencillo modelo de neurona artificial que se emplea en las
RNA puede derivarse de modelos más complejos, que reflejan más fielmente la realidad biológica.
Para un mejor entendimiento del funcionamiento del cerebro se recomienda leer la obra de Eccles,
J.C. (1973). The understanding of the Brain. McGraw-Hill.
3
Varios investigadores defendieron la concepción reticularista del sistema nervioso. Comparaban la
estructura de la sustancia gris cerebral y de otros territorios nerviosos a un complejo retículo
formado por la fusión de las prolongaciones de las células nerviosas. Esta teoría implicaba negar la
individualidad de estas células. Cajal desmintió la teoría reticularista gracias a sus investigaciones,
demostró que las relaciones entre las células nerviosas o neuronas eran de contigüidad y no de
continuidad, dejando firmemente establecido que la neurona es la unidad histológica y fisiológica del
sistema nervioso. Esta es la llamada Teoría Neuronal, por la que se le concedió el premio Nobel en
1906.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

5












Figura 1.1. Estructura de una neurona biológica típica.


Desde un punto de vista funcional, las neuronas constituyen procesadores de
información sencillos. Como todo sistema de este tipo, poseen un canal de entrada
de información, las dendritas, un órgano de cómputo, el soma, y un canal de salida,
el axón
4
. En el espacio inter neuronal el axón envía la información a otras neuronas,
mientras que en las neuronas motoras lo hace directamente al músculo.

Existe un tercer tipo de neuronas, las receptoras o sensoras, que en vez de recibir la
información de otras neuronas, la reciben directamente del exterior. Se calcula que
una neurona del córtex cerebral recibe información, por término medio, de unas
10, 000 neuronas (convergencia), y envía impulsos a varios cientos de ellas
(divergencias).

En el córtex cerebral se aprecia la existencia de una organización horizontal en capas
(se suelen señalar unas seis capas), coexistiendo una organización vertical en forma
de columnas de neuronas. Hay grupos neuronales, compuestos por millones de
neuronas pertenecientes a una determinada región del cerebro, que constituyen
unidades funcionales especializadas en ciertas tareas (por ejemplo, existe un área
visual, un área auditiva, etc.). Se tiene evidencia de que el procesamiento en el
sistema nervioso involucra la actuación de muchos subsistemas, que intercambian
continuamente información.


4
En realidad, en el árbol dendrítico también se lleva a cabo un cierto procesamiento; por otra parte,
el soma también puede recibir información directamente de otros axones, sin la mediación de las
dendritas.
´´



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

6

1.3 Generación y transmisión de la señal nerviosa

La unión entre dos neuronas se denomina sinapsis
5
. En el tipo de sinapsis más
común no existe un contacto físico entre las neuronas, sino que éstas permanecen
separadas por un pequeño vacío de unas 0.2 micras. En relación a la sinapsis, se
habla de neuronas presinápticas (que envían las señales) y postsinápticas (que las
reciben).

Las señales nerviosas se pueden transmitir eléctrica o químicamente. La transmisión
química prevalece fuera de la neurona y se basa en el intercambio de
neurotransmisores, mientras que la eléctrica lo hace en el interior mediante descargas
que se producen en el cuerpo celular, y que se propagan por el axón.

La forma de comunicación más habitual entre dos neuronas es del tipo químico. La
neurona presináptica libera unas complejas sustancias químicas denominadas
neurotransmisores (como la adrenalina), que atraviesan el vació sináptico. Si la
neurona postsináptica posee en las dendritas o en el soma canales sensibles a los
neurotransmisores liberados, los fijarán, y como consecuencia de ello permitirán el
paso de determinados iones a través de la membrana. Las corrientes iónicas que de
esta manera se crean provocan pequeños potenciales postsinápticos, excitadores o
inhibidores, que se integrarán en el soma; éste es el origen de la existencia de sinapsis
excitatorias y de sinapsis inhibitorias
6
.

Ante un estímulo mayor la frecuencia de respuesta aumenta, hasta que se alcanza una
saturación conforme nos acercamos a la frecuencia máxima (umbral). La señal que es
recibida por la neurona posee diferentes grados de ponderación; cuando la
ponderación es alta, el potencial de membrana de la neurona se vuelve positivo,
rebasa el umbral y envía la correspondiente señal a la siguiente neurona del circuito;
contrariamente cuando la ponderación es baja, el umbral no se rebasa y no se
transmite señal a las otras neuronas.

Para establecer una similitud directa entre la actividad sináptica y la analogía con las
RNA, vamos a fijar los siguientes aspectos: las señales que llegan a la sinapsis son las
entradas a la neurona; éstas son ponderadas (atenuadas o amplificadas) a través de un
parámetro, denominado peso sináptico, asociado a la sinapsis correspondiente.

5
La palabra sinapsis viene del griego “synapto” que significa unión o conexión estrecha.
6
Existen evidencias experimentales que indican que un axón sólo puede generar sinapsis excitatorias
o inhibitorias, pero no de ambos tipos (Ley de Dale).



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

7

Estas señales de entrada pueden excitar a la neurona (sinapsis con peso positivo) o
inhibirla (peso negativo). El efecto es la suma de las entradas ponderadas. Si la suma
es igual o mayor que el umbral de la neurona, entonces la neurona se activa (da
salida). Esta es una situación todo o nada, es decir, cada neurona se activa o no se
activa.


1.4 Procesos plásticos en la sinapsis

Se ha observado que la conectividad entre dos células puede modificarse en función
de la experiencia. A este tipo de procesos se les denomina procesos plásticos en la
sinapsis o simplemente plasticidad sináptica.

Para nuestro estudio de los procesos plásticos vamos a clasificarlos en procesos
presinápticos, si los cambios ocurren en la presinapsis; postsinápticos, cuando los
cambios ocurren en las postsinapsis; transinápticos, cuando los cambios ocurren por
la acción concentrada entre la pre y la postsinapsis. Asimismo, haremos la división
entre los procesos homosinápticos, que sólo ocurren por la acción de una sola
sinapsis, y los heterosinápticos, cuando los cambios plásticos ocurren como
resultado de la interacción de varias sinapsis. A los procesos heterosinápticos
podríamos a su vez clasificarlos como procesos cooperativos y de competencia
7
. Por
último, definiremos que los cambios plásticos pueden ser a corto y a largo plazo.

Los procesos plásticos más ampliamente estudiados son:

1) Habituación. Consiste en una disminución en la cantidad de transmisor
liberado como resultado de la experiencia. Es un proceso homosináptico-
presináptico, que tiene componentes de corto y largo plazo.

2) Potenciación postetánica. Es un incremento en la cantidad de transmisor
liberado como resultado de la actividad repetitiva de una vía, es un proceso
homosináptico-presináptico, con componentes de corto y largo plazo.

3) Sensibilización. Es el incremento de la cantidad de transmisor de una vía
por la acción de otra neurona, es un proceso presináptico-heterosináptico
cooperativo con componentes de corto y largo plazo.


7
Este tipo de procesos son los que se utilizan en los mapas autoorganizados.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

8

4) Inhibición heterosináptica. Es la disminución de la cantidad de transmisor
de una vía por la acción de otra neurona, es un proceso presináptico-
heterosináptico competitivo, con componentes de corto y largo plazo.

5) Condicionamiento. Es la capacidad que se tiene para modificar la conducta
en base a la asociación de dos estímulos, es un proceso presináptico-
heterosináptico cooperativo de corto y largo plazo.


1.5 Sistemas paralelos, distribuidos y adaptativos

Los tres conceptos clave de los sistemas nerviosos que se pretende emular en los
artificiales, son: paralelismo de cálculo, memoria distribuida y adaptabilidad al
entorno. De esta manera, podemos hablar de las RNA como sistemas paralelos,
distribuidos y adaptativos.


1.5.1 Procesamiento paralelo

El cerebro tarda aproximadamente 20ms en preprocesar una imagen compuesta por
millones de píxeles, extraer sus características, analizarla e interpretarla. Ningún
sistema creado por el hombre es capaz de realizar algo semejante. La clave reside en
que en este último caso los miles de millones de neuronas que intervienen en el
proceso de visión están operando en paralelo sobre la totalidad de la imagen.


1.5.2 Memoria distribuida

Mientras que en un procesador la información ocupa posiciones de memoria bien
definidas, en las RNA se encuentra distribuida por las sinapsis de la red, de modo
que si una sinapsis resulta dañada, se pierde sólo una parte muy pequeña de la
información.

Además, los sistemas neuronales biológicos son redundantes, de modo que muchas
neuronas y sinapsis pueden realizar un papel similar; en definitiva, el sistema resulta
tolerante a fallos. Por ejemplo, cada día mueren miles de neuronas en nuestro
cerebro, y sin embargo tienen que pasar muchos años para que se resientan nuestras



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

9

capacidades. La razón por la que las RNA son tolerantes a fallos es que tienen su
información distribuida.

Las RNA son los primeros métodos computacionales con la capacidad inherente de
tolerancia a fallos. Hay dos aspectos distintos respecto a la tolerancia a fallos:
primero, las redes pueden aprender a reconocer patrones con ruido, distorsionados o
incompletos, ésta es una tolerancia a fallos respecto a los datos. Segundo, pueden
seguir realizando su función (con cierta degradación) aunque se destruya parte de la
red.


1.5.3 Aprendizaje adaptativo

Es una de las características más atractivas de las RNA. Esto es, aprenden a llevar a
cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos, es decir, no
es necesario elaborar modelos a priori ni especificar funciones de distribución de
probabilidad. Una RNA no necesita un algoritmo para resolver un problema, ya que
ella puede generar su propia distribución de los pesos de los enlaces mediante
aprendizaje. Las RNA resuelven problemas mediante autoaprendizaje y
autoorganización.


1.6 Características generales de los modelos neuronales artificiales

Los modelos neuronales asumen muchas simplificaciones del modelo biológico para
poder plantear su desarrollo matemático, en esta línea, el primer modelo artificial fue
diseñado por McCulloch-Pitts (1943) (Figura 1.2.), el cual utilizaba unidades de
procesamiento denominadas neuronas que poseían dos estados discretos. Asociados
a cada uno de ellos, se conseguía una salida que se transmitía a lo largo de la
estructura vinculada a la red neuronal, pero con la limitación que sólo permitían
computar funciones booleanas.

El modelo de McCulloch-Pitts se basa en las siguientes hipótesis. En primer lugar, el
estado de una neurona en el tiempo, “ 1 + t ”, depende solamente del estado que
poseía en el período anterior, “t ”.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

10

En segundo lugar, una neurona estará activada o no si supera un umbral θ , y en
último lugar, se asume la sincronía
8
entre las entradas y las salidas.










Figura 1.2. Modelo de neurona McCulloch-Pitts


La formalización del diseño del modelo de McCulloch-Pitts consiste, en primer
lugar, en definir el estado de la entrada, “
t
x ” y en segundo lugar, la salida en el
momento t , “
t
y ”. La expresión que describe su funcionamiento es,


( )
( )
)
`
¹
¹
´
¦ ≥
=
=
|
|
¹
|

\
|
− =

=
c o e
a si
a f
a f x w f y
i
n
j
j ij i
. . 0
0 1
1
θ


En los modelos neuronales la información se genera a partir del aprendizaje de la
estructura interna de los datos, de forma que son las propias conexiones o pesos
donde se retiene el conocimiento. Es de gran importancia notar que no existe a priori
una definición explícita de la forma del conocimiento, el propio algoritmo iterativo
de estimación de los parámetros (pesos) desconocidos, se encarga de extraer la
presencia de regularidades en los datos.



8
La dinámica que rige la actualización de los estados de las neuronas (evolución de la red neuronal)
puede ser de dos tipos: asincrónico y sincrónico. En el primer caso, las neuronas evalúan su estado
continuamente, según les va llegando información, y lo hacen de forma independiente. En el caso
sincrónico aunque la información llega de forma continua, los cambios se realizan simultáneamente.
Los sistemas neuronales biológicos muy probablemente actúan de forma mixta.
( ) a f
1 i
w
2 i
w
3 i
w
in
w
1
x
2
x
3
x
n
x
i
y
( ) a f
1 i
w
2 i
w
3 i
w
in
w
1
x
2
x
3
x
n
x
i
y



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

11

Los aspectos de mayor relevancia en los modelos neuronales son, primeramente, su
arquitectura o topología
9
, en segundo lugar, el tipo de sus unidades de
procesamiento, en tercer lugar, el tipo de conexiones de estas unidades o neuronas, y
en cuarto lugar, los tipos de aprendizaje.

El primer aspecto, la arquitectura de una red neuronal, se refiere a la forma de las
conexiones entre las unidades neuronales. Su forma genera toda una familia de
posibles modelos, cuya gran variedad obliga a la vertebración de los mismos
mediante clasificaciones o taxonomías.

En una primera aproximación, podemos encontrar una clasificación en función a los
tipos de las salidas que genera el modelo, divididos en: modelos deterministas y
modelos estocásticos. Para el caso determinista tenemos que cada neurona sigue una
ley del tipo,

|
¹
|

\
|
=

=
n
i
i i
x w f y
1


donde ( ) ⋅ f es una función de activación
10
, en cambio para las redes con neuronas
estocásticas, la activación de la red se interpreta como una probabilidad de un estado
lógico tal y como se expresa en las siguientes ecuaciones,


( ) |
¹
|

\
|
= =

=
n
i
i i
x w f y P
1
1

y
( ) ( ) |
¹
|

\
|
− = = − = =

=
n
i
i i
x w f y P y P
1
1 1 1 0


donde la salida es un valor continuo entre [ ] 1 , 0 que se interpreta como una
probabilidad.

9
La topología de la red (forma de la red) muestra cómo los diferentes nodos están conectados entre
sí, y la forma en cómo se comunican.
10
Se definirá más a detalle en la siguiente sección.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

12

El segundo aspecto es la tipología existente en las unidades de procesamiento o
neuronas. Existen neuronas visibles y neuronas ocultas. Por neuronas visibles se
entienden tanto las entradas (variables exógenas) como las salidas (variables
endógenas), en cambio las neuronas ocultas, poseen la función de capturar la
representación interna de los datos. Éstas pueden no estar conectadas directamente
con las neuronas visibles (Figura 1.3.).











Figura 1.3. Tipología de las unidades de procesamiento de neuronas


El tercer aspecto descansa en el tipo de conexiones que se establecen entre las
unidades de procesamiento o neuronas. Así tenemos, en primer lugar, los modelos
que se propagan en una sola dirección, denominados feed-forward y en segundo lugar,
los modelos recurrentes, cuyas conexiones se establecen en todas las direcciones
incluso con procesos de realimentación, es decir, las propias neuronas consigo
mismas.

El cuarto aspecto hace referencia a los tipos de aprendizaje. Existen dos tipos de
aprendizaje; supervisado y no supervisado. La diferencia fundamental entre ambos
tipos estriba en la existencia o no de un agente externo (supervisor o maestro) que
controle el proceso de aprendizaje de la red.







Visible
Oculto
Visible
Visible
Oculto
Visible



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

13

1.7 Modelo general de neurona artificial

Los elementos básicos de un modelo de neurona artificial son (Figura 1.4.):

1. Un conjunto de entradas, ( ) t x
j
.
2. Los pesos sinápticos de la neurona i ,
ij
w .
3. La regla de propagación, ( ) ( ) ( ) t x w t h
j ij i
, σ = .
4. La función de activación o transferencia, ( ) ( ) t h g
i i
.
5. Y finalmente la función de salida, ( ) ( ) ( ) t h g f
i i i
.












Figura 1.4. Modelo genérico de neurona artificial



Los elementos descritos posibilitarán una generalización formal, que permitirá
aglutinar tanto los modelos supervisados como los no supervisados. A continuación
se definen cada uno de estos elementos:






( ) t x
j
1
x
2
x
n
x
M
Regla de
propagación
Función de
transferencia
o activación
Función de
salida
ij
w
( ) ( ) ( ) t x w t h
j ij i
, σ = ( ) ( ) t h g
i i
i
y
( ) ( ) ( ) t h g f
i i i
( ) t x
j
1
x
2
x
n
x
M
Regla de
propagación
Función de
transferencia
o activación
Función de
salida
ij
w
( ) ( ) ( ) t x w t h
j ij i
, σ = ( ) ( ) t h g
i i
i
y
( ) ( ) ( ) t h g f
i i i



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

14

1.7.1 Conjunto de entradas

El conjunto de entradas ( ) t x
j
se refiere a un vector de entradas procedentes del
exterior o de otras neuronas, es decir, son las señales que llegan a la sinapsis.


1.7.2 Pesos sinápticos

Los pesos sinápticos de la neurona i ,
ij
w representan la intensidad de interacción
entre cada neurona presináptica j y la neurona postsináptica i , al igual que en una
neurona biológica se establecen sinapsis entre las dendritas de una neurona y el axón
de otra. Si el peso es positivo tenderá a excitar a la neurona postsináptica, si es
negativo tenderá a inhibirla.


1.7.3 La regla de propagación

La regla de propagación ( ) ( ) ( ) t x w t h
j ij i
, σ = , también conocida como función de
ponderación o de excitación, proporciona el valor del potencial postsináptico de la
neurona i en función de sus pesos y entradas. La regla de propagación es un
elemento relevante que puede poseer diferentes formas, en la Figura 1.5. se
muestran algunas de ellas.

La regla de propagación habitual, especialmente en los modelos basados en el cálculo
de distancias entre vectores (como en los mapas autoorganizados) es la distancia
euclídea que representa la distancia (al cuadrado) existente entre el vector de entradas
y el de pesos. Cuando ambos vectores son muy similares, la distancia es muy
pequeña; cuando son muy diferentes, la distancia crece. Se pueden utilizar también
otros tipos de distancias, como la Manhattan o la de Mahalanobis.











Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

15












Figura 1.5. Ejemplo de reglas de propagación



1.7.4 La función de transferencia o activación

La función de activación o transferencia, ( ) ( ) t h g
i i
filtra el valor de la regla de
propagación para comparase con algún valor umbral para determinar la salida final
de la neurona. Si la suma es mayor que el valor umbral, la neurona generará una
señal. Si la suma es menor que el valor umbral, ninguna señal será generada. La
función de activación puede o no existir, siendo en este caso la salida la misma
función de propagación.

En ocasiones los algoritmos de aprendizaje requieren que la función de activación
cumpla con la condición de ser derivable. Las más empleadas en este sentido son las
del tipo sigmoideo, como la del back propagation. Otra función clásica es la gaussiana,
que se utiliza junto con reglas de propagación que involucran el cálculo de cuadrados
de distancias (por ejemplo, la euclídea) entre los vectores de entradas y pesos. Por
último, en ocasiones se emplean funciones sinusoidales, como en aquellos casos en
los que se requiere expresar explícitamente una periodicidad temporal. La Figura
1.6. muestra las principales funciones de activación.






Regla de propagación
Lineal Cuadrática
Distancias
(Ej. Euclídea)
Polinómica
(Ej. Orden 2)
( ) ( ) ( ) t x w t h
j ij i
, σ =
( )

=
=
p
j
j ij i
x w t h
0
( )

=
=
p
j
j ij i
x w t h
0
2
( )

=
− =
p
j
ij j i
w x h
0
2
( )
∑ ∑∑
+ =
2 1 2 1 1 j j j ij j ij i
x x w x w t h
Regla de propagación
Lineal Cuadrática
Distancias
(Ej. Euclídea)
Polinómica
(Ej. Orden 2)
( ) ( ) ( ) t x w t h
j ij i
, σ =
( )

=
=
p
j
j ij i
x w t h
0
( )

=
=
p
j
j ij i
x w t h
0
2
( )

=
− =
p
j
ij j i
w x h
0
2
( )
∑ ∑∑
+ =
2 1 2 1 1 j j j ij j ij i
x x w x w t h



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

16
























Figura 1.6. Funciones de transferencia o activación (Nota: se han considerado en todos los
casos regla de propagación lineal y función de salida identidad).



1.7.5 La función de salida

La función de salida, ( ) ( ) ( ) t h g f
i i i
proporciona la salida global de la neurona
i
y en
función de su estado de activación actual. Muy frecuentemente la función de salida
es simplemente la función identidad, de modo que el estado de activación de la
neurona se considera la propia salida.



Función identidad o lineal
Función lineal a tramos
Función escalón
Función escalón simétrica
Función lineal a tramos simétrica
Función Logística o Log sigmoidea
Función Gaussiana
Función sinusoidal
Función Tangente hiperbólica sigmoidea
a a g ≡ ) (
)
`
¹
¹
´
¦
<

=
0 0
0 1
) (
a
a
a g
)
`
¹
¹
´
¦
< −

=
0 1
0 1
) (
a
a
a g
¦
)
¦
`
¹
¦
¹
¦
´
¦
>
< ≤
<
=
0 1
1 0
0 0
) (
a
a a
a
a g
¦
)
¦
`
¹
¦
¹
¦
´
¦
>
< ≤ −
− < −
=
1 1
1 1
1 1
) (
a
a a
a
a g
( ) a sen a g = ) (
( )
2
exp ) ( a a g − =
( ) a
a g
− +
=
exp 1
1
) (
( ) ( )
( ) ( ) a a
a a
a g
− +
− −
=
exp exp
exp exp
) (
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0 |
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
Función identidad o lineal
Función lineal a tramos
Función escalón
Función escalón simétrica
Función lineal a tramos simétrica
Función Logística o Log sigmoidea
Función Gaussiana
Función sinusoidal
Función Tangente hiperbólica sigmoidea
a a g ≡ ) (
)
`
¹
¹
´
¦
<

=
0 0
0 1
) (
a
a
a g
)
`
¹
¹
´
¦
< −

=
0 1
0 1
) (
a
a
a g
¦
)
¦
`
¹
¦
¹
¦
´
¦
>
< ≤
<
=
0 1
1 0
0 0
) (
a
a a
a
a g
¦
)
¦
`
¹
¦
¹
¦
´
¦
>
< ≤ −
− < −
=
1 1
1 1
1 1
) (
a
a a
a
a g
( ) a sen a g = ) (
( )
2
exp ) ( a a g − =
( ) a
a g
− +
=
exp 1
1
) (
( ) ( )
( ) ( ) a a
a a
a g
− +
− −
=
exp exp
exp exp
) (
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0 |
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0
|
|
¹
|

\
|
=

=
p
j
j ij i
x w g y
0



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

17

1.8 Modelos de Redes Neuronales (Taxonomía)

La gran variedad de modelos de redes neuronales existentes en la actualidad obliga
en cierta medida a la realización de clasificaciones o taxonomías. De esta forma, los
modelos neuronales se pueden clasificar desde una triple óptica: en función de la
arquitectura (“network architecture”), en función del tipo de aprendizaje (“learning
paradigm”), y de acuerdo a sus aplicaciones (Figura 1.7.).



















Figura 1.7. Taxonomías de acuerdo al tipo de arquitectura, aprendizaje y aplicaciones.



1.8.1 Taxonomía de acuerdo con el tipo de arquitectura

La arquitectura o topología de las RNA consiste en la organización y disposición de
las neuronas en la red formando capas o agrupaciones de neuronas más o menos
alejadas de la entrada y la salida de la red. En este sentido, los parámetros
fundamentales de la red son: el número de capas, el número de neuronas por capa, el
grado de conectividad y el tipo de conexión entre neuronas.

Taxonomías
Aprendizaje Arquitectura Aplicaciones
1. Monocapa
Feedforward
2. Multicapa
Feedforward
3. Recurrentes
1. Memoria
asociativa
2. Optimización
3. Reconocimiento
de patrones
4. Mapeo de
características
5. Predicción
6. Clasificación
1. Supervisado
- Reforzado
- Estocástico
- Por corrección de
error
2. No supervisado
- Hebbiano
- Competitivo y
cooperativo
3. Híbrido
Taxonomías
Aprendizaje Arquitectura Aplicaciones
1. Monocapa
Feedforward
2. Multicapa
Feedforward
3. Recurrentes
1. Memoria
asociativa
2. Optimización
3. Reconocimiento
de patrones
4. Mapeo de
características
5. Predicción
6. Clasificación
1. Supervisado
- Reforzado
- Estocástico
- Por corrección de
error
2. No supervisado
- Hebbiano
- Competitivo y
cooperativo
3. Híbrido



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

18

A partir de su ubicación dentro de la red, se pueden distinguir tres tipos de capas:

1. De entrada: Es la capa que recibe directamente la información proveniente
de las fuentes externas de la red. Esta capa no procesa información,
simplemente la distribuye a las demás capas.

2. Ocultas: Son internas a la red y no tienen contacto directo con el entorno
exterior. El número de niveles ocultos puede estar entre cero y un número
elevado. Las neuronas de las capas ocultas pueden estar interconectadas de
distintas maneras, lo que determina, junto con su número, las distintas
topologías de RNA.

3. De salida: Transfieren información de la red hacia el exterior.


La conectividad entre los nodos de una RNA está relacionada con la forma en que
las salidas de las neuronas están canalizadas para convertirse en entradas de otras
neuronas.

Las conexiones entre las neuronas pueden ser excitatorias o inhibitorias: un peso
sináptico negativo define una conexión inhibitoria, mientras que uno positivo
determina una conexión excitatoria. Habitualmente, no se suele definir una conexión
como de un tipo o de otro, sino que por medio del aprendizaje se obtiene un valor
para el peso, que incluye signo y magnitud.

Las conexiones entre los nodos de una red pueden ser:

1) Intercapa. Es la conexión entre nodos de distintas capas.

2) Intracapa. Cuando se conectan nodos dentro de la misma capa.

3) Autoconectadas. Se refiere a la conexión de un nodo a él mismo.

4) Supracapa. Cuando se conectan nodos de capas no adyacentes.





Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

19

Una conexión de alto grado es una conexión que combina entradas de más de un
nodo. El número de entradas determina el grado de la conexión mientras que el
grado de una RNA es el grado de su conexión más grande.

Cuando se realiza una clasificación de las redes en términos topológicos, se suele
distinguir entre redes con una sola capa o nivel de neuronas y las redes con múltiples
capas (2, 3, etc.) Se asume que las RNA son de primer grado a menos que se
especifique lo contrario.


1.8.1.1 Redes monocapa (1 capa)

En las redes monocapa, se establecen conexiones laterales entre las neuronas que
pertenecen a la única capa que constituye la red. También pueden existir conexiones
autorrecurrentes (salida de una neurona conectada a su propia entrada).

Las redes monocapa se utilizan típicamente en tareas relacionadas con lo que se
conoce como autoasociación, por ejemplo, para regenerar informaciones de entrada
que se presentan a la red incompletas o distorsionadas.


1.8.1.2 Redes multicapa

Las redes multicapa son aquellas que disponen de conjuntos de neuronas agrupados
en varios niveles de capas. Normalmente, todas las neuronas de una capa reciben
señales de entrada de otra capa anterior, más cercana a la entrada de la red, y envían
las señales de salida a una capa posterior, más cercana a la salida de la red. A estas
conexiones se les denomina conexiones hacia delante o feedforward.

En las redes feedforward no existen conexiones hacia atrás (ninguna salida de neuronas
de una capa i se aplica a la entrada de neuronas de capas 1, 2,... i i − − ), y
normalmente tampoco son autorrecurrentes (salida de una neurona aplicada a su
propia entrada), ni laterales.

Sin embargo, en un gran número de estas redes también existe la posibilidad de
conectar las salidas de las neuronas de capas posteriores a las entradas de las capas
anteriores, a estas conexiones se les denomina conexiones hacia atrás o feedback.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

20

Y finalmente, están las redes que disponen de conexiones tanto hacia delante como
hacia atrás (feedforward/feedback).

En general las redes feedforward/feedback suelen ser bicapa, existiendo por tanto dos
conjuntos de pesos: los correspondientes a las conexiones feedforward de la primera
capa (capa de entrada) hacia la segunda capa (capa de salida) y los de las conexiones
feedback de la segunda a la primera.


1.8.2 Taxonomía de acuerdo con el tipo de aprendizaje

El término de aprendizaje en las máquinas resulta poco claro. Existen muchas más
definiciones del concepto general de aprendizaje, sin embargo, para nuestros fines,
podemos enfocarnos en la siguiente: “La modificación del comportamiento inducido
por la interacción con el entorno y como resultado de experiencias conducente al
establecimiento de nuevos modelos de respuesta a estímulos externos”
11
. Esta
definición fue enunciada muchos años antes de que surgieran las RNA, sin embargo
puede ser aplicada también a los procesos de aprendizaje de estos sistemas.

Biológicamente, se suele aceptar que la información memorizada en el cerebro está
más relacionada con los valores sinápticos de las conexiones entre las neuronas que
con ellas mismas; es decir, el conocimiento se encuentra en las sinapsis. En el caso
de las RNA, se puede considerar que el conocimiento se encuentra representado en
los pesos de las conexiones entre las neuronas (pesos sinápticos).

Al igual que el funcionamiento de una red depende del número de neuronas de las
que disponga y de cómo estén conectadas entre sí, cada modelo dispone de sus
propias técnicas de aprendizaje.

En el contexto de las RNA puede definirse el aprendizaje como “El proceso por el
cual una red neuronal modifica sus pesos en respuesta a una información de
entrada”
12
. Los cambios que se producen durante el proceso de aprendizaje se
reducen a la destrucción, modificación y creación de conexiones entre las neuronas y

11
Hilera, J.R. y Martínez, V.J. (1995). Redes neuronales artificiales. Fundamentos, modelos y aplicaciones, Ra-
Ma, Madrid. Pp. 63-64.
12
Ibid. Pp. 75-76.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

21

en algunos modelos incluso mediante la creación o muerte neuronal (en este caso se
modifica la propia arquitectura de la red)
13
.

En cualquier caso, en un proceso de aprendizaje la información contenida en los
datos de entrada queda incorporada en la propia estructura de la red.

Este tipo de acciones, en especial la modificación de las intensidades sinápticas
(plasticidad sináptica) serán las que utilicen los sistemas neuronales artificiales para
llevar a cabo el aprendizaje.

De forma general, se suelen considerar dos tipos de reglas de aprendizaje: las que
responden a lo que habitualmente se conoce como aprendizaje supervisado, y las
correspondientes a un aprendizaje no supervisado. Ambas modalidades pretenden
estimar funciones de entrada/salida multivariante o densidades de probabilidad. Las
reglas de aprendizaje supervisadas suelen ser computacionalmente más complejas,
pero también más exactas en sus resultados.

La diferencia fundamental entre ambos tipos estriba en la existencia o no de un
agente externo (supervisor) que controle el proceso de aprendizaje de la red.

La regla de aprendizaje es uno de los atributos más importantes a especificar para
una RNA. Con ella se determina cómo se adaptarán las conexiones de los pesos a fin
de optimizar el funcionamiento de la red y cómo calcular los ajustes en los pesos
durante cada ciclo. Esta regla se suspende después de que el entrenamiento se ha
completado.

Cuando se construye una RNA, se parte de un cierto modelo de neurona y de una
determinada arquitectura de red, estableciéndose los pesos sinápticos iniciales como
nulos o aleatorios. Para que la red pueda operar es necesario entrenarla, lo que
constituye el modo de aprendizaje. El entrenamiento o aprendizaje se puede llevar a
cabo en dos niveles. El más convencional es el modelado de las sinapsis, que
consiste en modificar los pesos sinápticos siguiendo una cierta regla de aprendizaje,
construida normalmente a partir de la optimización de una función de error o costo,
que mide la eficacia actual de la operación de la red.


13
La neurona es una célula muy especial que, en general, únicamente posee capacidad para
reproducirse en los primeros estados de su vida, de modo que si una neurona muere, no nacerá otra
que la reemplace (aunque recientemente se han encontrado evidencias de que en ciertas situaciones
sí podría reproducirse).



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

22

Si denominamos ( )
ij
w t al peso que conecta la neurona presináptica j con la
postsináptica i en la iteración t , el algoritmo de aprendizaje, en función de las
señales que llegan procedentes del entorno en el instante t , proporcionará el valor
( )
ij
w t ∆ que da la modificación que se debe incorporar en dicho peso, el cual quedará
actualizado de la siguiente forma:

( ) ( ) ( ) 1
ij ij ij
w t w t w t ∆ + = + ∆


El proceso de aprendizaje es usualmente iterativo, actualizándose los pesos de la
manera anterior, una y otra vez, hasta que la red alcanza el rendimiento deseado.

Se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los
valores de los pesos permanecen estables ( 0
ij
dw dt = ).

Un aspecto importante respecto al aprendizaje en las redes neuronales es el conocer
cómo se modifican los valores de los pesos; es decir, cuáles son los criterios que se
siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red
aprenda una nueva información. Estos criterios determinan lo que se conoce como
la regla de aprendizaje de la red.

Las reglas de aprendizaje más conocidas son la regla de retropropagación (back
propagation) la cual es una generalización de la regla Delta (empleadas para aprendizaje
supervisado); la regla de aprendizaje Hebbiano y la regla de aprendizaje competitivo.


1.8.2.1 Redes con aprendizaje supervisado

El aprendizaje supervisado se caracteriza porque el proceso de aprendizaje se realiza
mediante un entrenamiento controlado por un agente externo (supervisor o maestro)
que determina la respuesta que debería generar la red a partir de una entrada
determinada.

Este tipo de aprendizaje consiste en construir un modelo neuronal que permita
estimar relaciones entre las entradas y las salidas sin la necesidad de proponer una
cierta forma funcional a priori. La salida no coincidirá generalmente con lo deseado,
de forma que se generará un error de salida
i
e o residuo del modelo (Figura 1.8.).




Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

23








Figura 1.8. Ciclo del aprendizaje supervisado


En este tipo de aprendizaje se suelen considerar, a su vez, tres formas de llevarlo a
cabo que dan lugar a los siguientes aprendizajes supervisados:

1) Aprendizaje por corrección del error. Consiste en ajustar los pesos de las
conexiones de la red en función de la diferencia entre los valores deseados y
los obtenidos en la salida de la red, es decir, en función del error cometido en
la salida. Ejemplos de este tipo de aprendizaje son: la regla de aprendizaje del
perceptrón, utilizada en el aprendizaje de la red perceptrón diseñada por
Rosenblatt en 1957; la regla delta o regla del error cuadrático medio mínimo
(“Least-Mean-squared Error”(LMS)) propuesta por Widrow en 1960, utilizada
en los modelos neuronales Adaline y Madaline (estos modelos mejoran el
modelo de perceptrón ya que incorporan la definición de error global
cometido y mecanismos para reducirlo con mayor rapidez); y la regla delta
generalizada o retropropagación del error.

2) Aprendizaje reforzado. Este método emplea la información del error
cometido (calculado en este caso de forma global y no para cada una de las
salidas), pero sin poseer la salida deseada. Dicho aprendizaje descansa en la
idea dual premio-castigo, donde se refuerza toda aquella acción que permita
una mejora del modelo mediante la definición de una señal crítica (Figura
1.9.).






Figura 1.9. Ciclo del aprendizaje reforzado
Entrada
x
y
d
Red
Neuronal
Error de salida
e
Salida
Salida deseada
Entrada
x
y
d
Red
Neuronal
Error de salida
e
Salida
Salida deseada
Entrada
x
y
Red
Neuronal
Medida del
éxito o fracaso
global
Salida
Señal de
refuerzo
Entrada
x
y
Red
Neuronal
Medida del
éxito o fracaso
global
Salida
Señal de
refuerzo



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

24

3) Aprendizaje estocástico. Consiste en realizar cambios aleatorios en los
valores de los pesos de las conexiones de la red y evaluar el efecto a partir del
objetivo deseado mediante distribuciones de probabilidad.


1.8.2.2 Redes con aprendizaje no supervisado

Las redes con aprendizaje no supervisado (también conocidos como auto
supervisado o autoorganizado) no requieren influencia externa para ajustar los pesos
de las conexiones entre sus neuronas. La red no recibe ninguna información por
parte del entorno que le indique si la salida generada en respuesta a una determinada
entrada es o no correcta; por ello, suele decirse que estas redes son capaces de
autoorganizarse.

Sus principales utilidades son entre otras, descubrir las regularidades presentes en los
datos, extraer rasgos o agrupar patrones según su similitud, a través de la estimación
de la función de densidad de probabilidad “ ( ) x p ” que permite describir la
distribución de patrones " " x pertenecientes al espacio de entrada
n
ℜ (Figura
1.10.).







Figura 1.10. Ciclo del aprendizaje no supervisado


Estas redes deben encontrar las características, regularidades, correlaciones o
categorías que se puedan establecer entre los datos que se presentan en su entrada.
Existen varias posibilidades en cuanto a la interpretación de la salida de estas redes,
las cuales dependen de su estructura y del algoritmo de aprendizaje empleado.

En algunos casos, la salida representa el grado de similitud o proximidad entre la
información que se le está presentando a la entrada y las informaciones que se le han
mostrado hasta entonces (en el pasado). En otro caso se podría realizar un
agrupamiento indicando a la red a qué categoría pertenece la información presentada
Entrada
x
y
Red
Neuronal
Salida
Entrada
x
y
Red
Neuronal
Salida



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

25

a la entrada, siendo la propia red quien deba encontrar las categorías apropiadas a
partir de las correlaciones entre las informaciones presentadas.

El aprendizaje sin supervisión también permite realizar una codificación de la
entrada, generando en la salida una versión codificada de la entrada, con menos bits
pero manteniendo la información relevante de los datos.

Finalmente, lo que realizan algunas redes es un mapeo de características (feature
mapping), obteniéndose en las neuronas de salida una disposición geométrica que
representa un mapa de las características de los datos de entrada, de tal forma que si
se presentan a la red informaciones similares, siempre serán afectadas neuronas de
salida próximas entre sí, en la misma zona del mapa.

En cuanto a los algoritmos de aprendizaje no supervisado, en general se suelen
considerar dos tipos: aprendizaje Hebbiano y aprendizaje competitivo y cooperativo.


1.8.2.2.1 Aprendizaje Hebbiano

En el ámbito de la estrategia no supervisada, encontramos el aprendizaje Hebbiano,
postulado por Hebb (1949), que consiste en el ajuste de los pesos de las conexiones
de acuerdo con la correlación de los valores de las dos neuronas conectadas.

Este tipo de aprendizaje se basa en el siguiente postulado formulado por Donald O.
Hebb: “Cuando un axón de una celda A está suficientemente cerca como para
conseguir excitar una celda B y repetida o no persistentemente toma parte en su
activación, algún proceso de crecimiento o cambio metabólico tiene lugar en una o
ambas celdas, de tal forma que la eficiencia de A, cuando la celda a activar es B,
aumenta”.

Por celda, Hebb entiende un conjunto de neuronas fuertemente conectadas a través
de una estructura compleja. La eficiencia podría identificarse con la intensidad o
magnitud de la conexión; es decir, con el peso.

Se puede decir, por tanto, que el aprendizaje Hebbiano consiste básicamente en el
ajuste de los pesos de las conexiones de acuerdo con la correlación (multiplicación
en el caso de los valores binarios 1 + y 1 − ) de los valores de activación (salidas) de
las dos neuronas conectadas:



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

26


ij i j
w x x ∆ = ⋅


Así, si las dos unidades son activas (positivas), se produce un reforzamiento de la
conexión. Por el contrario, cuando una es activa y la otra pasiva (negativa), se
produce un debilitamiento de la conexión. Se trata de una regla de aprendizaje no
supervisado, pues la modificación de los pesos se realiza en función de los estados
(salidas) de las neuronas obtenidas tras la presentación de cierto estímulo
(información de entrada a la red), sin tener en cuenta si se deseaba obtener o no esos
estados de activación.

Como característica general de las redes no supervisadas Hebbianas puede señalarse
que en ellas un número elevado de neuronas de salida pueden activarse
simultáneamente. Algunos modelos utilizan reglas de aprendizaje directamente
basadas en la regla de Hebb, como las redes PCA (que realizan análisis de
componentes principales).


1.8.2.2.2 Aprendizaje competitivo y cooperativo

En las redes con aprendizaje competitivo y cooperativo, las neuronas compiten o
cooperan unas con otras con el fin de llevar a cabo una tarea dada. Con este tipo de
aprendizaje, se pretende que cuando se presente a la red cierta información de
entrada, sólo una de las neuronas dé salida a la red, o una por cierto grupo de
neuronas, se active (alcance su valor de respuesta máximo).

Por tanto, las neuronas compiten por activarse, quedando finalmente una, o una por
grupo, como neurona vencedora (winner- take- all), quedando anuladas el resto, que
son forzadas a sus valores de respuesta mínimos.

La competición entre neuronas se realiza en todas las capas de la red, existiendo en
estas neuronas conexiones recurrentes de auto excitación y conexiones de inhibición
(signo negativo) por parte de neuronas vecinas. Si el aprendizaje es cooperativo,
estas conexiones con las neuronas vecinas serán de excitación (signo positivo).
El objetivo de este aprendizaje es categorizar los datos que se introducen en la red.
De esta forma, las informaciones similares son clasificadas formando parte de la
misma categoría, y por tanto deben activar la misma neurona de salida.




Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

27

En este tipo de redes, cada neurona tiene asignado un peso total, que es la suma de
todos los pesos de las conexiones que tiene a su entrada. El aprendizaje afecta sólo a
las neuronas ganadoras (activas), redistribuyendo este peso total entre sus
conexiones, sustrayendo una porción a los pesos de todas las conexiones que llegan a
la neurona vencedora y repartiendo esta cantidad por igual entre todas las
conexiones procedentes de unidades activas.

Por tanto, la variación del peso de una conexión entre una unidad i y otra j será
nula si la neurona j no recibe excitación por parte de la neurona i (no vence en
presencia de un estímulo por parte de i ), y se modificará (se reforzará) si es excitada
por dicha neurona i .

Una variación del aprendizaje supervisado aplicado a redes multicapa consiste en
imponer una inhibición mutua entre neuronas únicamente cuando están a cierta
distancia unas de otras (suponiendo que las neuronas se han dispuesto
geométricamente, por ejemplo formando capas bidimensionales).

Existe entonces un área o región de vecindad (vicinity area) alrededor de las neuronas
que constituyen su grupo local.

El aspecto geométrico de la disposición de las neuronas de una red también es la
base de un caso particular de aprendizaje competitivo inducido por Kohonen en
1982, conocido como feature mapping, aplicado en redes con una disposición
bidimensional de las neuronas de salida, que permiten obtener mapas topográficos o
autoorganizados, en los que, de algún modo, estarían representadas las características
principales de la información presentada a la red.

De esta forma, si la red recibe información con características similares, se generarán
mapas parecidos puesto que se afectarían neuronas de salida próximas entre sí (se
profundizará sobre este tema en el siguiente capítulo).

Para concluir este apartado, hay que comentar la existencia de otro caso particular
del aprendizaje competitivo, denominado Teoría de la Resonancia Adaptativa,
desarrollado por Carpenter y Grossberg en 1986 y utilizado en la red
feedforward/feedback de dos capas conocida como ART (en sus dos variantes: ART1,
que trabaja con información binaria, y ART2, que maneja información analógica).




Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

28

Esta red realiza un prototipado de la información que recibe de la entrada,
generando como salida un ejemplar o prototipo que representa a toda la información
que podría considerarse perteneciente a la misma clase o categoría.

La teoría de la resonancia adaptativa se basa en la idea de hacer resonar la
información de entrada con los prototipos de las categorías que reconoce la red; si
entra en resonancia con alguno (es suficientemente similar), la red considera que
pertenece a dicha categoría y únicamente realiza una pequeña adaptación del
prototipado (para que se parezca un poco más al dato presentado).

Cuando no resuena con ningún prototipo (no se parece a ninguno de los existentes
recordados por la red) hasta ese momento, la red se encarga de crear una nueva
categoría con el dato de entrada como prototipo de la misma.


1.8.2.3 Aprendizaje híbrido

Existe un tipo de aprendizaje denominado híbrido, en el cual coexisten en la red los
dos tipos básicos de aprendizaje, el supervisado y el no supervisado, los cuales tienen
lugar normalmente en distintas capas de neuronas. El modelo de Contra-
propagación es un ejemplo de red que hace uso de este tipo de aprendizaje.


1.8.3 Taxonomía de acuerdo al tipo de aplicaciones

Respecto a las diferentes aplicaciones tenemos, en primer lugar, la memoria
asociativa, consistente en reconstruir una determinada información de entrada que se
presenta incompleta o distorsionada, asociando la información de entrada con el
ejemplar más parecido de los almacenados conocidos por la red.

En segundo lugar, la optimización, es decir, la resolución de problemas de
optimización combinatoria.

En tercer lugar, el reconocimiento de patrones, consistente, desde una óptica
general, en la detección de formas simples.
En cuarto lugar, el mapeo de características, que parte de las ideas de Kohonen
simulando la capacidad del cerebro humano de crear mapas topológicos de las
informaciones recibidas del exterior.



Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

29

En quinto lugar, está la predicción y en último lugar, la clasificación. Es importante
señalar que una misma red puede utilizarse en aplicaciones diferentes.


1.9 RNA y Estadística

La estadística comprende un conjunto de métodos que sirven para recoger,
organizar, resumir y analizar datos, así como para extraer conclusiones y tomar
decisiones razonables basadas en tal análisis. Las RNA han sido descritas por
algunos como técnicas de ajuste estadístico inspiradas en la biología. Modelos
procedentes de ambas disciplinas se emplean en ajuste funcional (perceptrón y
regresión), en reducción de la dimensionalidad (mapas de Kohonen y análisis de
componentes principales) y otras tareas.

Se han realizado estudios comparando métodos estadísticos y neuronales, llegándose
a la conclusión de que no se puede realizar la afirmación genérica de que los modelos
neuronales sobrepasen siempre en eficiencia a las técnicas estadísticas. En Sarle
(1994) se señala el claro paralelismo entre ciertos modelos estadísticos y neuronales
sin embargo, hay algunos modelos de RNA para los que no existe una técnica
estadística equiparable. La Tabla 1.2. muestra los más usuales.

La aproximación más común a los problemas de regresión son los perceptrones
multicapa y generalizaciones de perceptrones de una sola capa. Además del análisis
discriminante y la regresión, otra actividad común en la investigación es la que los
estadísticos reconocen como análisis cluster, en la literatura de las RNA esto
representa aprendizaje no supervisado.















Capítulo 1. Fundamentos de las Redes Neuronales Artificiales

30

Modelo Estadístico Modelo de red neuronal
Regresión lineal múltiple Perceptrón simple con función lineal
Regresión Logística Perceptrón simple con función logística
Regresión no lineal múltiple Perceptrón multicapa con función lineal en la salida
Función discriminante lineal Perceptrón simple con función umbral
Función discriminante no lineal
Perceptrón multicapa con función logística en la
salida
Análisis de Componentes Principales (PCA) Perceptrón multicapa autoasociativo
Análisis Cluster Mapas autoorganizados de Kohonen

Tabla 1.2. Equivalencia entre modelos estadísticos y modelos de red neuronal




























31

Capítulo 2




2.- Los mapas autoorganizados

Una vez expuestos en el capítulo anterior los conceptos básicos relacionados con las
redes neuronales artificiales, este capítulo se centrará en los mapas autoorganizados,
uno de los sistemas neuronales no supervisados más conocidos y utilizados. Se
presentará el modelo general de mapas autoorganizados así como algunos de sus
algoritmos de aprendizaje.


2.1 Introducción

Se observa que en muchas regiones del córtex de los animales superiores aparecen
zonas donde las neuronas detectoras de rasgos (o características) se distribuyen
topológicamente ordenadas, circunstancia que el modelo neuronal de mapas
autoorganizados, SOFM (Self-Organizing Feature Maps), SOM (Self-Organizing Maps), o
mapas de Kohonen trata de reproducir.

Los SOM fueron desarrollados a lo largo de la década de los ochenta por el físico
finlandés Teuvo Kohonen, como una continuación natural de la línea de desarrollo
de las redes competitivas iniciada por Von der Malsburg. Aparte de su interés como
una sencilla modelización de redes neuronales naturales, los SOM poseen un gran
potencial de aplicabilidad práctica.

De entre las clases de problemas del mundo real en los que han demostrado su
eficacia cabe citar: clasificación de patrones, cuantificación vectorial, reducción de
dimensiones, extracción de rasgos y visualización. Por ejemplo, los SOM han sido
empleados en reconocimiento del habla, control de robots, monitorización de
procesos industriales, ayuda al diseño de circuitos integrados, reconocimiento de
patrones financieros y minería de grandes bases de datos en Internet.

En este modelo, las neuronas se organizan en una arquitectura unidireccional de dos
capas (Figura 2.1.). La primera es la capa de entrada o sensorial, que consiste en m



Capítulo 2. Los mapas autoorganizados
32

neuronas, una por cada variable de entrada, que se comportan como buffers
14
,
distribuyendo la información procedente del espacio de entrada a las neuronas de la
segunda capa. Las entradas son muestras estadísticas ( )
m
t ∈ℜ x del espacio sensorial.

El procesamiento se realiza en la segunda capa, que forma el mapa de rasgos, y
consiste habitualmente en una estructura rectangular de nx ny × neuronas que operan
en paralelo.

Aunque la arquitectura rectangular es la más común, a veces también se utilizan
capas de una sola dimensión (cadena lineal de neuronas) o de tres dimensiones
(paralelepípedo).

Etiquetaremos las m neuronas de entrada con el índice ( ) 1 k k m ≤ ≤ , y las nx ny ×
neuronas del mapa con un par de índices ( ) , i j ≡ i ( ) 1 , 1 i nx j ny ≤ ≤ ≤ ≤ que
determinarán su localización espacial. Cada neurona de entrada k está conectada a
todas las neuronas ( ) , i j del mapa mediante un peso sináptico
ijk
w .












Figura 2.1 Arquitectura del SOM


14
Un buffer (a veces traducido como "memoria temporal") es un área de datos compartida por
dispositivos de hardware o procesos de programas que operan a distintas velocidades o con diferentes
conjuntos de prioridades. El buffer permite que cada dispositivo o proceso opere sin verse interferido
por otro. Como una memoria caché, un buffer es "un punto intermedio de almacenamiento". Este
término se usa tanto en programación como en hardware. En la programación, el uso del buffer en
ocasiones implica la necesidad filtrar datos de su destino final para poderlos editar o procesar de
alguna otra forma antes de transferirlos a un archivo o base de datos regular.

Neuronas
(i ,j)
x(t)
Mapa
(salida)
Capa sensorial
(entradas)
(i ,j)
ijk
w
ij
w
Sinapsis
Neuronas
(i ,j)
x(t)
Mapa
(salida)
Capa sensorial
(entradas)
(i ,j)
ijk
w
ij
w
Sinapsis



Capítulo 2. Los mapas autoorganizados
33

En resumen, el mapa puede describirse como una matriz de procesadores
elementales ( ) , i j ordenados en dos dimensiones que almacenan un vector de pesos
sinápticos o vector de referencia (codebook) ( )
ij
t w , con

( ) { }
: ,1 ,1
m
ij ij
t i nx j ny ∈ℜ ≤ ≤ ≤ ≤ w w .

En la fase de ejecución (operación normal de la red), los pesos permanecen fijos. En
primer lugar, cada neurona ( ) , i j calcula la similitud entre el vector de entradas
{ }
, 1
k
x k m ≤ ≤ x y su propio vector de pesos sinápticos
ij
w , según una cierta medida
de distancia o criterio de similitud establecido.

A continuación, se declara vencedora la neurona

( )
2 1
, g g = g , cuyo vector de pesos
g
w es más similar al de entradas. De esta manera, cada neurona actúa como un
detector de rasgos específicos, y la neurona ganadora nos indica el rasgo o patrón
detectado en el vector de entradas.

( ) ( ) { }
, min ,
ij
ij
d d =
g
w x w x (2.1)

En la fase de aprendizaje cada neurona del mapa sintoniza con diferentes rasgos del
espacio de entrada. El proceso es el siguiente: tras la presentación y procesamiento
de un vector de entradas ( ) t x , la neurona vencedora modifica sus pesos de manera
que se parezcan un poco más a ( ) t x . De este modo, ante el mismo patrón de
entrada, dicha neurona responderá en el futuro todavía con más intensidad.

El proceso se repite para numerosos patrones de entrada, de forma que al final los
diferentes vectores de referencia sintonizan con dominios específicos de las variables
de entrada, y tienden a representar la función de densidad de probabilidad ( ) p x (o
función de distribución) del espacio sensorial.

Si dicho espacio está dividido en grupos, cada neurona se especializará en uno de
ellos, y la operación esencial de la red se podrá interpretar entonces como un análisis
cluster.

Lo descrito hasta el momento responde a un esquema competitivo clásico de relativa
sencillez, en el que cada neurona actúa en solitario. Sin embargo, el modelo de SOM
aporta una importante novedad, pues incorpora a este esquema relaciones entre las



Capítulo 2. Los mapas autoorganizados
34

neuronas próximas del mapa. Para ello introduce una función de vecindad
15
, su efecto es
que durante el aprendizaje se actualizan tanto los pesos de la vencedora como los de
las neuronas pertenecientes a su entorno.

De esta manera, en el modelo de SOM se logra que neuronas próximas sintonicen
con patrones similares, quedando de esta manera reflejada sobre el mapa una cierta
imagen del orden topológico presente en el espacio de entrada.

En esencia, por medio del proceso descrito los SOM realizan la proyección no lineal
de un espacio multidimensional de entrada
m
ℜ sobre un espacio discreto de salida,
representada por la capa de neuronas. El mapa representa una imagen del espacio
sensorial, pero de menor número de dimensiones, reflejando con mayor fidelidad
aquellas dimensiones del espacio de entrada de mayor varianza (que suelen coincidir
con los rasgos más importantes de las entradas).

La distribución de las neuronas sobre el mapa resulta ser un reflejo de la función de
densidad de probabilidad ( ) p x : regiones en el espacio sensorial cuyos representantes
x aparecen con más frecuencia ( ( ) p x mayor) serán proyectadas sobre un número
mayor de neuronas en el mapa.

La función vecindad representa matemáticamente de una forma sencilla el efecto
global de las interacciones laterales existente entre las neuronas en el cerebro, pues
en vez de considerar en detalle que una neurona trata de activar a sus vecinas y de
inhibir a las alejadas (como sucede en el córtex), esta situación se modela mediante
una sencilla función que define el tamaño de la vecindad en torno a la vencedora,
dentro de la cual todas las neuronas son premiadas actualizando sus pesos, y fuera de
ella son castigadas al no actualizar sus pesos o al hacerlo en sentido contrario.

La utilización de la función vecindad en el modelo de mapas autoorganizados aporta
respecto del modelo competitivo sencillo dos ventajas adicionales: el ritmo efectivo
de convergencia se mejora y el sistema es más robusto frente a variaciones en los
valores iniciales de los pesos.

15
Una función vecindad V=V[n] (n= tiempo discreto) se puede definir de diferentes formas
(cuadrada, circular, rombo, gaussiana o algún híbrido entre ellas). En realidad esta función no tiene
como único argumento el tiempo discreto “n”, si no que también tiene como argumentos a la
posición del nodo ganador y la posición del nodo a actualizar. La función vecindad está centrada en
el nodo ganador y su radio de influencia disminuye monótonamente a medida que avanza el
entrenamiento.




Capítulo 2. Los mapas autoorganizados
35

2.2 Algoritmo de aprendizaje

Como hemos visto, la principal novedad de los SOM consiste en que la modificación
de los pesos no se aplica solamente a una neurona específica (la ganadora), sino
también a su vecindad. Al comienzo del entrenamiento la vecindad comprende una
amplia región del mapa, lo que permite una ordenación global de los pesos
sinápticos. Con el transcurso de las iteraciones, el tamaño de la vecindad se reduce, y
al final solamente se modifican los pesos de la neurona ganadora. Así, el proceso de
aprendizaje comprende dos fases fundamentales: una ordenación global, en la que se
produce el despliegue del mapa; y un ajuste fino, en el que las neuronas se
especializan.


2.2.1 Ejemplo de un algoritmo de aprendizaje autoorganizado

Se debe tener en cuenta que no existe un algoritmo de aprendizaje único ni
totalmente estándar para los SOM. No obstante, el resultado final es bastante
independiente de los detalles de su realización concreta, como pueden ser los pesos
sinápticos de partida, el esquema de actualización del ritmo de aprendizaje, o la
forma establecida para la vecindad. A continuación se expone un algoritmo de
aprendizaje habitual:

1. Inicialización de los pesos sinápticos
ijk
w . Se puede partir en 0 t = de
diferentes configuraciones: pesos nulos, aleatorios de pequeño valor absoluto
(lo más habitual), o con un valor de partida predeterminado.

2. En cada iteración, presentación de un patrón ( ) t x tomado de acuerdo con
la función de distribución ( ) p x del espacio sensorial de entrada. En la muy
habitual situación de disponer solamente de un conjunto pequeño de
patrones de entrenamiento basta con tomar al azar uno de ellos y presentarlo
a la red.

3. Cada neurona ( ) , i j ≡ i en paralelo del mapa calcula la similitud entre su
vector de pesos sinápticos
ij
w y el actual vector de entradas x . Un criterio de
medida de similitud muy utilizado es la distancia euclídea:





Capítulo 2. Los mapas autoorganizados
36

( ) ( )
2
1
,
n
ij ijk k
k
d w x
=
= −

w x (2.2)


4. Determinación de la neurona ganadora ( )
2 1
, g g = g , cuya distancia sea la
menor de todas.

5. Actualización de los pesos sinápticos de la neurona ganadora y de sus
neuronas vecinas. La regla mas empleada es:

( ) ( ) ( ) ( ) ( ) ( ) ( )
1 ,
ijk ijk k ijk
w t w t t h t x t w t α + = + − − i g (2.3)

donde ( ) t α es un parámetro denominado ritmo de aprendizaje. La función
( ) h ⋅ se denomina función de vecindad, puesto que establece qué neuronas
son las actualmente vecinas a la ganadora. Esta función depende de la
distancia entre la neurona i y la ganadora g , valiendo cero cuando i no
pertenece a la vecindad de g (con lo que sus pesos no son actualizados), y un
número positivo cuando sí pertenece (sus pesos sí son modificados). Como
veremos, la vecindad es un conjunto de neuronas centrado en la ganadora.

Tanto α como el radio de la vecindad usualmente disminuyen
monótonamente con t (durante el proceso de ordenamiento)
16
.

6. Si se ha alcanzado el número máximo de iteraciones establecido, entonces el
proceso de aprendizaje finaliza. En caso contrario se vuelve al paso 2.


Se puede realizar a continuación una segunda fase en el aprendizaje, en la que se
produce el ajuste fino del mapa, de modo que la distribución de los pesos sinápticos
se ajuste más a la de las entradas. El proceso es similar al anterior, tomando ( ) t α
constante e igual a un pequeño valor (por ejemplo, 0.01), y un radio de vecindad
constante e igual a uno.




16
Kohonen, T. (1995). Self-Organizing Maps. Springer Series in Information Sciences. Pp. 79.



Capítulo 2. Los mapas autoorganizados
37

En el aprendizaje, el número de iteraciones debe ser suficientemente grande por
requerimientos estadísticos, así como proporcional al número de neuronas del mapa
(a más neuronas, son necesarias más iteraciones), e independiente del número de
componentes de x . Aunque 500 iteraciones por neurona es una cifra adecuada, de
50 a 100 suelen ser suficientes para la mayor parte de los problemas. Entre 20, 000
y 100, 000 iteraciones representan cifras habituales en la simulación por
computadora del entrenamiento de un SOM
17
.

Una cuestión a tener presente es que el criterio de similitud y la regla de aprendizaje
que se utilicen deben ser métricamente compatibles; así ocurre con la distancia
euclídea (2.2) y la regla de aprendizaje (2.3). El empleo de diferentes métricas para la
fase de recuerdo y para la actualización de los pesos puede causar problemas en el
desarrollo del mapa. Más adelante se mostrarán las diferentes posibilidades para la
elección del criterio de distancia o métrica, y los algoritmos de aprendizaje que de
cada una de ellas se derivan. No obstante, podemos adelantar que una medida de
similitud alternativa, más simple que la euclídea, es la correlación o producto escalar

1
n
ij ijk k
k
C w x
=
=

(2.4)

que suele incorporarse al algoritmo, junto con la regla de adaptación (2.3). Sin
embargo, dicha métrica procede de la métrica euclídea, y la correlación solamente es
compatible con esta métrica si se utilizan vectores normalizados de norma 1 (en cuyo
caso la distancia euclídea y la correlación coinciden).

Por esta razón, en ocasiones se hace la afirmación errónea de que el modelo de
Kohonen precisa vectores normalizados. Si utilizamos la distancia euclídea (2.2) y la
regla (2.3), no es necesario tratar con vectores normalizados (otra cuestión diferente
es que en determinados problemas dicha normalización pueda ser aconsejable para
mantener las entradas dentro de un determinado rango dinámico).







17
Pese a parecer cifras muy altas, las simulaciones de un SOM usualmente son rápidas pues su
algoritmo es computacionalmente sencillo.



Capítulo 2. Los mapas autoorganizados
38

2.3 Interpretación del algoritmo de aprendizaje

La siguiente interpretación del proceso de aprendizaje puede resultar interesante para
comprender la operación de los SOM. El efecto de la regla de aprendizaje (2.3) no es
otro que en cada iteración acercar en una pequeña cantidad el vector de pesos w de
la neurona de mayor activación (ganadora) al vector de entrada x , donde la
expresión

( ) ( ) t α ∆ = ⋅ − w x w (2.5)

representa el incremento del vector de pesos de la neurona ganadora ( ) 0 1 α < < . Así,
en cada iteración el vector de pesos de la neurona vencedora, rota hacia el
presentado, y se aproxima a él en una cantidad que depende del ritmo de aprendizaje
α . De modo que podemos observar que en cada iteración se elimina una cierta
fracción del antiguo vector de pesos ( ) t w (es decir, la cantidad α − ⋅ w representa un
término de olvido), el cual es sustituido por una fracción del vector actual α ⋅ x, de
modo que en cada paso el vector de pesos de la neurona ganadora wse parece un
poco más al vector de entradas x que la hace ganar.


2.4 Consideraciones prácticas: ritmo de aprendizaje y función
vecindad

El ritmo de aprendizaje ( ) t α es una función monótonamente decreciente con el
tiempo, siendo habitual su actualización mediante una función lineal

( ) ( )
0 0 f
t
t
t
α
α α α α = + − (2.6)

con
0
α el ritmo de aprendizaje inicial ( ) 1 < ,
f
α el final ( ) 0.01 ≅ y t
α
el máximo
número de iteraciones hasta llegar a
f
α . Una alternativa es usar una función que
decrezca exponencialmente

( )
0
0
t
t
f
t
α
α
α α
α
| |
=
|
\ ¹
(2.7)




Capítulo 2. Los mapas autoorganizados
39

También suele considerarse ( )
( )
0.9 1
1000
t
t α = − como una elección razonable
18
.

El empleo de una u otra función no suele influir demasiado en el resultado final. No
siendo así en el caso de mapas muy largos donde la selección de un ( ) t α

óptimo es
crucial para la convergencia.

La función vecindad
( )
, h t − i g define en cada iteración t si una neurona i
pertenece o no a la vecindad de la neurona vencedora g . La vecindad es simétrica y
centrada en g , de ahí que se represente como uno de sus argumentos la distancia
entre la neurona genérica ( ) , i j = i y la vencedora ( )
2 1
, g g = g , debido a que


( ) ( )
2
2
2
1
g j g i − + − = −g i (2.8)

en general, ( ) h ⋅ decrece con la distancia a la vencedora, y depende de un parámetro
denominado radio de vecindad ( ) R t , que representa el tamaño de la vecindad actual.
En realidad, bajo la forma funcional de ( ) h ⋅ se encapsula el complejo sistema de
interacciones laterales existente entre las neuronas del mapa.

La función de vecindad más simple es del tipo escalón, que denominaremos
rectangular


( )
( )
( )
0
,
1
si R t
h t
si R t
¦ − > ¹
¦ ¦
− =
´ `
− ≤
¦ ¦
¹ )
i g
i g
i g
(2.9)

Por tanto, en este caso una neurona pertenece a la vecindad de la ganadora
solamente si su distancia es inferior a ( ) R t . Con este tipo de función las vecindades
adquieren forma circular, de bordes nítidos, en torno a la vencedora y la ecuación
(2.3) se reduce a

( )
( )
( ) ( ) ( ) ( ) ( )
0
ijk
k ijk
si R t
w t
t x t w t si R t α
¦ − > ¹
¦ ¦
∆ =
´ `
− − ≤
¦ ¦
¹ )
i g
i g
(2.10)

18
Ibid. Pp. 80.



Capítulo 2. Los mapas autoorganizados
40

por lo que en cada iteración únicamente se actualizan las neuronas que distan de la
vencedora en una distancia menor a ( ) R t .

La función de vecindad Gaussiana tiene la siguiente forma:


( ) ( )
( )
2
2
, exp
2
h t t
t
α
σ
| |

− = ⋅ − |
|
\ ¹
i g
i g


donde ( ) t α es otro ritmo de aprendizaje, y el parámetro ( ) t σ define la amplitud de
la vecindad. Tanto ( ) t α como ( ) t σ son funciones monótonamente decrecientes
con el tiempo.

Si la red SOM no es muy grande (digamos, unos cuantos cientos de nodos a lo más),
la selección de los parámetros del proceso no es crucial, y de hecho, se puede usar la
función de vecindad definida en (2.9).

La función de vecindad posee una forma definida, pero su radio ( ) R t varía con el
tiempo. Se parte de un valor inicial
0
R

grande, (incluso puede ser más de la mitad del
diámetro de la red), que determina vecindades amplias, con el fin de lograr la
ordenación global del mapa. ( ) R t disminuye monótonamente con el tiempo, hasta
alcanzar un valor final de 1
f
R = con el que solamente se actualizan los pesos de la
neurona vencedora y las adyacentes. Una posible función de actualización de ( ) R t
es la siguiente:


( ) ( )
0 0 f
R
t
R t R R R
t
= + − (2.11)

donde t es la iteración y
R
t el número de iteraciones para alcanzar
f
R . Existen otras
expresiones, como funciones exponencialmente decrecientes, de aspecto similar a
(2.7).

Si únicamente se dispone de un número relativamente pequeño de muestras,
entonces éstas deberán ser recicladas para alcanzar el número deseado de
iteraciones
19
.

19
Ibidem.



Capítulo 2. Los mapas autoorganizados
41

2.5 Modelos de neuronas de Kohonen - Medidas de similitud

El modelo de neurona de Kohonen se basa en el cálculo de la similitud entre el
vector de entradas y el de pesos. Así, dependiendo del criterio que se seleccione, se
tendrá un modelo u otro.

Uno de los modelos más comunes es la correlación o producto escalar:


1
n
ij ijk k
k
C w x
=
=

(2.16)

según el cual, dos vectores serán más similares cuanto mayor sea su correlación. Es
interesante observar que una neurona SOM que utilice este criterio de distancia
coincide básicamente con el modelo de neurona estándar de las RNA. Sin embargo,
esta medida es sensible al tamaño de los vectores; grandes diferencias en sus
longitudes pueden introducir una importante distorsión en la medida de similitud.

Para resolver este problema puede dividirse por las normas de los vectores, con lo
que se tiene el denominado criterio del coseno


( )
1
cos ,
n
ijk k
k
ij
ij
w x
=
=


w x
w x
(2.17)

su importancia radica en que esta medida se basa en una característica relativa a
ambos vectores, como es su ángulo, independientemente de sus tamaños.

Otro de los criterios de más amplio uso es la distancia euclídea


( ) ( )
2
1
,
n
ij ijk k
k
d w x
=
= −

w x (2.18)

si se utiliza una red de Kohonen para análisis cluster, la distancia euclídea es más
adecuada cuando los grupos a extraer están compuestos por nubes esféricas de
puntos en torno a su centro. Si no es así, el algoritmo tratará de ajustar los datos en
múltiples grupos esféricos.





Capítulo 2. Los mapas autoorganizados
42

La métrica de Minkowski


( )
1
1
, ,
n
ij ijk k
k
d w x
λ
λ
λ
=
| |
= − ∈ℜ
|
\ ¹

w x (2.19)

cuando 1 λ = , se trata de la distancia de Manhattan.

La correlación, el coseno y la distancia euclídea son los criterios más utilizados,
siendo fácil demostrar que coinciden para el caso de vectores normalizados. Por una
parte, si las normas son iguales a uno en la ecuación (2.16) se obtiene (2.17), y por
otra, desarrollando la ecuación de la distancia euclídea (2.18) y haciendo las normas
igual a uno, se obtiene

( ) ( )
2 2
2
2
, 2 2 1
T T
ij ij ij ij ij
d = − = + − ⋅ = − ⋅ w x w x w x w x w x
(2.20)

de lo que se deduce que una correlación máxima corresponde a una distancia
euclídea mínima, luego ambas medidas también coinciden.

Para vectores normalizados se puede realizar una neurona de Kohonen empleando la
correlación y la regla de actualización habitual (2.3), que se deduce del criterio de
distancia euclídea. La forma de este modelo coincide con el de neurona estándar
definida en el capítulo 1, y resulta de gran sencillez.

Existen algunos otros criterios de distancia, como la medida de similitud de
Tanimoto, la de Mahalanobis o la de Hamming, aplicadas para el caso de patrones
cuyas componentes no sean números reales, sino variables lógicas o cadenas de
caracteres.












Capítulo 2. Los mapas autoorganizados
43

2.6 Modelos de aprendizaje en mapas autoorganizados

En primer lugar, se presenta un procedimiento sistemático para la deducción de
reglas de aprendizaje para los SOM.

Se propone una cierta función objetivo o error E , dependiendo de los pesos de la
red, y se obtiene la regla de actualización a partir de su optimización mediante
descenso por el gradiente
20
.

Sea
( )
,
ij
d x w una función de error la cual es una distancia genérica definida en el
espacio de las señales, supondremos que es diferenciable, y que mide el error de
cuantificación para el vector de entrada x . La neurona ganadora g será la que
cumple

( ) { } x w g , min
ij
ij
d = (2.21)

la definición de una función error en el caso supervisado resulta bastante obvia, pues
lo que se pretendía era que las salidas actuales tendieran a las deseadas, con lo cual
una función objetivo a minimizar consiste en la suma de los errores asociados a cada
patrón. En el caso no supervisado la definición no resulta tan evidente, puesto que
no se dispone de un objetivo explícito al que deban tender las salidas de la red.

Aquí, el objetivo será encontrar una función de error que permita deducir
sistemáticamente reglas de aprendizaje. Como se pretende que los pesos ajusten la
distribución de entradas, un objetivo puede ser que los pesos sinápticos tiendan a
ellas, es decir, que los errores de cuantificación sean lo más pequeños posibles. Con
esta premisa, puede definirse una función objetivo global de la red de la siguiente
manera



( ) ( ) ( ) ( ) ,
i
i
E h f d p d = −


i g x w x x (2.22)


20
Es decir, habrá que modificar los pesos en la dirección opuesta al gradiente, esto es
ij
ij
w
E
w


− = ∆ α
. Uno de los algoritmos de optimización de descenso por el gradiente más conocidos
es el algoritmo de back propagation, que modifica los valores de los parámetros proporcionalmente al
gradiente de la función de error con objeto de alcanzar un mínimo local.



Capítulo 2. Los mapas autoorganizados
44

con ( ) p x la función de distribución del espacio sensorial, ( ) f ⋅ una cierta función
del error de cuantificación (introducida por generalidad), y ( ) h ⋅ la función de
vecindad. Esta función objetivo global al mapa se basa en la suma a todas las
neuronas de los errores de cuantificación, ponderada en la vecindad, y promediado
por medio de la función de distribución para todas las posibles entradas.

Para aplicar la aproximación estocástica definiremos la siguiente función

( ) ( ) ( ) ( ) ( ) ( )
1
, ,
i
i
E t h t f d t t = −

i g x w (2.23)

que es una muestra tomada en t de la función global objetivo E . Para esta muestra,
g es constante, una solución aproximada se obtiene mediante descenso por el
gradiente

( ) ( ) ( ) ( )
1
1
i
i i
t t t E t λ + = − ∇
w
w w (2.24)

con ( ) t λ el ritmo de aprendizaje, que debe cumplir las dos condiciones habituales

( ) ( )
2
0 0
,
t t
t t λ λ
∞ ∞
= =
= ∞ < ∞
∑ ∑
(2.25)

al estar realizando descensos por los gradientes locales proporcionados por ( )
1
E t , y
no descensos por la máxima pendiente que proporciona E , se obtienen soluciones
no globalmente óptimas. No obstante, se ha mostrado que el punto que se alcanza
está muy próximo al óptimo, y que puede considerarse que las soluciones que
proporciona son casi óptimas. Este procedimiento permite deducir sistemáticamente
algoritmos de aprendizaje sólo con cambiar el criterio de distancia ( ) d ⋅ y la
función ( ) f ⋅ .









Capítulo 2. Los mapas autoorganizados
45

2.7 Regla de aprendizaje euclídea

Si consideramos como criterio la distancia euclídea


( ) ( )
2
1
,
n
ij ijk k
k
d w x
=
= −

w x (2.26)

y como función ( )
2
f d d = , la muestra ( )
1
E t de la función objetivo queda

( ) ( ) ( )
2
1
1
,
n
ijk k
ij k
E t h t w x
=
(
= − −
(
¸ ¸
∑ ∑
i g (2.27)

si calculamos su gradiente

( ) ( ) ( )
2
1
1
,
ijk
n
w ijk k
ij k ijk
E t h t w x
w
=
¦ ¹
∂ (
∇ = − − =
´ `
(

¸ ¸
¹ )
∑ ∑
i g (2.28)

por ser g constante para la muestra ( )
1
E t , se tiene


( ) ( ) ( )( )
2
1
, 2 ,
n
ijk k ijk k
ij k ijk
h t w x h t w x
w
=
∂ (
= − − = − −
(

¸ ¸
∑ ∑
i g i g
(2.29)

y, llamando ( ) ( ) 2 t t α λ = ⋅ , de (2.29) se obtiene

( ) ( ) ( ) ( )( )
1 ,
i i k ijk
t t t h t x w α + = + − − w w i g (2.30)

que es la regla de aprendizaje de Kohonen (2.3) por lo tanto, la regla
convencionalmente utilizada en el aprendizaje de una red de Kohonen procede de la
métrica euclídea.








Capítulo 2. Los mapas autoorganizados
46

2.8 Regla de aprendizaje de Manhattan

Otro de los criterios de distancia comentados es la norma de Manhattan


( )
1
,
n
ij ijk k
k
d w x
=
= −

w x (2.31)

Para obtener su regla de aprendizaje asociada se toma ( ) f d d = .

( ) ( )
1
1
,
n
ijk k
ij k
E t h t w x
=
(
= − −
(
¸ ¸
∑ ∑
i g (2.32)

y calculando el gradiente


( ) ( )
( )
1
1
,
,
ijk
n
w ijk k
ij k ijk
ijk k
ijk
E t h t w x
w
h t w x
w
=
¦ ¹
∂ ( ¦ ¦
∇ = − − =
´ `
(

¸ ¸ ¦ ¦
¹ )

= − − =

∑ ∑
i g
i g
(2.33)

la función valor absoluto no es derivable en el origen. Considerando el caso 0
ijk
w > ,
se tiene

( ) ( ) ( ) ( )
1
, ,
ijk
w ijk k
ijk
E t h t w x h t
w

∇ = − − = −

i g i g (2.34)

y para el caso 0 ≤
ijk
w


( ) ( ) ( ) ( ) ( )
1
, ,
ijk
w ijk k
ijk
E t h t w x h t
w

∇ = − − − = − −

i g i g
(2.35)

Agrupando ambas expresiones haciendo uso de la función signo

( )
1 0
0 0
1 0
si x
y sign x si x
si x
− < ¦ ¹
¦ ¦
= = =
´ `
¦ ¦
+ >
¹ )
(2.36)



Capítulo 2. Los mapas autoorganizados
47

y llamando ( ) ( ) t t α λ = la regla de aprendizaje queda

( ) ( ) ( ) ( ) ( )
1 ,
i i k ijk
t t t h t sign x w α + = + − − w w i g (2.37)

la fórmula obtenida, aunque con apariencia similar a la euclídea, es mucho más
simple de realizar, como se puede apreciar sólo con rescribirla así

( )
( ) ( )
( ) ( )
( ) ( )
0
k ijk
ijk k ijk
k ijk
h si x t w t
w t si x t w t
h x t w t
α
α
¦ ¹ + >
¦ ¦
∆ = =
´ `
¦ ¦
− <
¹ )
(2.38)

Se ha comparado el modelo basado en la distancia de Manhattan con el
convencional euclídeo, haciendo uso en ambos de la regla de actualización euclídea
(2.3) realizando numerosas simulaciones se llega a la conclusión de que, aunque
ambos alcanzan resultados parecidos, los del modelo euclídeo son alrededor de un
2% mejores (no obstante, esta pequeña diferencia puede deberse a que en la
referencia citada en el modelo de Manhattan se hace uso de (2.3) en lugar de (2.37),
con lo que la regla de aprendizaje no es compatible con la métrica empleada).

En otros estudios se concluye que este modelo proporciona resultados similares a los
de la regla euclídea, aunque es más sensible a la variación de los parámetros de
aprendizaje, que deben ser más cuidadosamente elegidos
21
.


2.9 Regla de aprendizaje derivada de la correlación o producto
escalar

Si se toma como base el criterio de la correlación, la neurona vencedora es aquella
cuyo vector de pesos presenta la máxima correlación con el vector de entrada actual,
dado por (2.16).

Definiremos la muestra de una función error para un tiempo t en la forma

( ) ( ) ( ) ( ) ( ) ( )

− =
i
i ij
t t c f t h t E w x g i , ,
2
(2.39)

21
Martín, B. y Sanz A. (2002). Redes Neuronales y Sistemas Difusos, 2da edición Alfaomega Ra-ma.
Madrid. Pp. 117.



Capítulo 2. Los mapas autoorganizados
48

con ( ) ⋅
ij
c un cierto criterio de similitud, que es mayor cuanto más parecidos sean x y
i
w , y ( ) f ⋅ , una cierta función que se introduce por generalidad. En esta ocasión, se
trata de maximizar ( )
2
E t , y se obtiene una solución aproximada iterando de la forma
conocida

( ) ( ) ( ) ( )
2
1
i
i i
t t t E t λ + = + ∇
w
w w (2.40)

con ( ) t λ el ritmo de aprendizaje. Obsérvese que en este caso hemos cambiado el
signo en el gradiente, puesto que para maximizar debe efectuarse un ascenso por él.

Consideremos que ( )
ij
c c f = , la ecuación (2.39) se convierte en

( ) ( )
2
1
,
n
ijk k
i k
E t h t w x
=
(
= −
(
¸ ¸
∑ ∑
i g (2.41)

y calculando el gradiente


( ) ( ) ( )
2
1
, ,
ijk
n
w ijk k k
k ijk
E t h t w x h t x
w
=
∂ (
∇ = − = −
(

¸ ¸

i g i g
(2.42)

se obtiene la regla de actualización

( ) ( ) ( ) ( )
1 ,
ijk ijk k
w t w t t h t x α + = + − i g (2.43)

Esta regla presenta el problema de que con las sucesivas presentaciones de los x
,
los
pesos pueden crecer indefinidamente, para evitarlo hay que normalizar los pesos en
cada iteración

( )
( ) ( ) ( )
( ) ( ) ( )
,
1
,
ijk k
ijk
i
w t t h t x
w t
t t h t
α
α
+ −
+ =
+ −
i g
w i g x
(2.44)

Esta es, junto con la euclídea, una de las reglas de aprendizaje más conocidas y
empleadas. Un grave problema de este algoritmo de aprendizaje es que la
normalización de los pesos que se debe efectuar en cada paso supone un alto costo
computacional. Por ello, se deducirá a partir de (2.44) un nuevo algoritmo de



Capítulo 2. Los mapas autoorganizados
49

aprendizaje que preserve la norma de los vectores de pesos; así, si están
normalizados inicialmente, también lo estarán en cada iteración, de manera que no
sea preciso normalizarlos en cada paso.

Para ello, suponiendo que ( ) 1
ij
t = w , y pretendiendo obtener una regla para que
también lo estén en 1 t + . La expresión del desarrollo en serie de Taylor de una cierta
función ( ) f x en torno a un punto a es


( ) ( ) ( ) ( ) ( ) ( )
2
' ''
1
...
2!
f x f a f a x a f a x a = + ⋅ − + ⋅ − +
(2.45)

reescribiendo la regla de aprendizaje (2.44) en la forma

( )
( )
( )
( )
( ) ( )
1
ijk k ijk k
ijk
i i
w t hx w t hx
w t
L t h t h
α α
α α
+ +
+ = =
+ + w x w x
(2.46)

considerando la norma ( ) L x como una función dependiente del parámetro α y
desarrollando en serie en torno a 0 α = , resulta


( ) ( ) ( ) ( )
2 2
0 0
0 1
dL dL
L L O O
d d
α α
α α α α α
α α
= =
| | | |
= + ⋅ + = + ⋅ +
| |
\ ¹ \ ¹
(2.47)

donde se han supuesto pesos iniciales normalizados ( ) 0 1 L = .

De la expresión de la norma al cuadrado


( ) ( ) ( )
2
2 2
2 2
2
2 2
2
1 2
T
i i i
T
i i
T
i
L h h h
h h
h h
α α α
α α
α α
+ = + +
= + + ⋅
= + + ⋅
w x w x w x
w x w x
x w x
(2.48)

se obtiene su derivada


2
2
2
2 2
2 2
2 1 2
T
i
T
i
h h
dL
d
h h
α
α
α
+ ⋅
=
+ + ⋅
x w x
x w x




Capítulo 2. Los mapas autoorganizados
50

y por tanto


T
i
dL
h
d
α
α
| |
= ⋅
|
\ ¹
w x
= 0


Así, de (2.47) resulta


( ) ( )
2
1
T
i
L h O α α α = + ⋅ + w x


con lo que los pesos en 1 t + quedan


( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
2
2
1
1
1
ijk k ijk k
ijk
T
i
i
T
ijk k i
w t hx w t hx
w t
L t h
h O
w t hx h O
α α
α
α α
α α α
+ +
+ = =
+
+ ⋅ +
= + − ⋅ +
w x
w x
w x


y desarrollando


( ) ( ) ( ) ( )
( ) ( ) ( )
( )
2
1
T
ijk ijk k ijk i
T
ijk k i ijk
w t w t hx hw t O
w t h x w t
α α α
α
+ = + − ⋅ +
≅ + − ⋅
w x
w x
(2.49)

considerando despreciables los términos
( )
2
O α

por ser α pequeño. La expresión
(2.49) coincide con la regla de aprendizaje que se propone en Kohonen, y que se
puede escribir en la forma


( ) ( ) ( ) ( ) ( )
1
ijk ijk k ij ijk
w t w t h x y t w t α + = + − ⋅


donde se denomina ( )
ij
y t al producto escalar del vector de entradas por el de pesos
de la neurona ( ) , i j , que se consideró como salida de la neurona ( ) , i j .








51

Capítulo 3




3.- Ejemplo comparativo

En este capítulo se mostrarán las soluciones generadas por cada uno de los tres
métodos a comparar, se identificarán las ventajas y desventajas de cada uno desde su
implementación hasta la interpretación de resultados.


3.1 Introducción

Cuando se desea encontrar una propuesta de solución a un problema de clasificación
se recomienda evaluar diferentes alternativas, es decir, obtener soluciones mediante
diferentes técnicas y con diversos escenarios con la finalidad de probar la
consistencia de las soluciones o bien, elegir la que mejor se adecue al problema
planteado.

Tanto el análisis cluster (también conocido como análisis de conglomerados) como
los árboles de decisión son dos herramientas muy utilizadas para la clasificación, sin
embargo, se ha demostrado la eficiencia de los mapas autoorganizados en problemas
reales, incluyendo la clasificación, el reconocimiento de patrones y la reducción de
dimensiones entre otras cosas.

En este capítulo se mostrará mediante un ejemplo clásico que los mapas
autoorganizados pueden ser utilizados como un método alternativo o
complementario a los métodos de clasificación tradicionales (análisis cluster y árboles
de decisión), además de identificar las ventajas y desventajas así como las principales
similitudes y diferencias entre estos tres métodos desde su implementación hasta la
interpretación de los resultados generados.

En la actualidad existe una gran variedad de paquetes para implementar los métodos
estadísticos tradicionales, por otro lado, existen varios paquetes para la
implementación de redes neuronales artificiales, de hecho algunos son de
distribución gratuita. Sin embargo, son pocos los que tienen integrados ambos
métodos (métodos estadísticos y redes neuronales).



Capítulo 3. Ejemplo comparativo

52

Se evaluaron diferentes alternativas para elegir el paquete con el que se realizaría la
implementación tomando en cuenta la limitada oferta de paquetes que cuentan tanto
con módulos estadísticos como de redes neuronales (específicamente mapas
autoorganizados). Se evaluaron las siguientes opciones obteniendo los siguientes
resultados:

1. “Clementine”: se compone de un módulo Base + módulo de Clasificación
(árboles de decisión) + módulo de Segmentación (análisis cluster en sus
diferentes variantes) + módulo de Asociación + módulo de minería de datos
(incluyendo mapas autoorganizados). Es decir, mediante este paquete es
posible desarrollar cada uno de los métodos propuestos en este trabajo, sin
embargo, no cuenta con versiones de prueba o para estudiantes y el costo es
bastante elevado
22
.

2. “MatLab”: ofrece la posibilidad (en su versión completa) de realizar análisis
cluster, redes neuronales y árboles de decisión; sin embargo, no incluye una
amplia variedad de métodos para análisis cluster y de árboles de decisión.

3. “SPSS”: cuenta con diversos métodos para el análisis cluster y árboles de
decisión; sin embargo, la sección de redes neuronales no incluye mapas
autoorganizados (sólo incluye modelos de Función de Base Radial y
perceptrón multicapa).


Debido a que ninguno de los paquetes evaluados cumplía con las características
deseables para poder realizar la implementación de los tres métodos, se optó realizar
el ejercicio en dos de ellos (MatLab y SPSS) de tal forma que la implementación para
los mapas autoorganizados se realizará mediante MatLab, mientras que el análisis
cluster y los árboles de decisión mediante SPSS (los árboles de decisión mediante un
módulo específico denominado AnswerTree).






22
De acuerdo a una cotización en febrero de 2008 por parte de SPSS México, los precios en dólares
para licencias monousuario son: Módulo Base $13,200; Módulo de Clasificación $3,600; Módulo de
Segmentación $3,600; y Módulo de Minería de Datos $14,400. Es decir $34,800 dólares en total.




Capítulo 3. Ejemplo comparativo

53

Se describen a continuación las principales características de los paquetes a utilizar:

MatLab es la abreviatura de MATrix LABoratory. Se trata de un software
matemático muy versátil, entre sus características básicas se encuentran la
manipulación de matrices, la representación de datos y funciones, la implementación
de algoritmos, la creación de interfaces de usuario y la comunicación con programas
en otros lenguajes y con otros dispositivos hardware. MatLab ofrece un entorno de
desarrollo integrado con un lenguaje de programación propio (lenguaje M) así como
ciertas librerías (“Toolboxes”) con las que puede extender aún más sus capacidades. Es
muy usado en universidades y centros de investigación y desarrollo.

SPSS es un programa estadístico informático ampliamente utilizado tanto para fines
educativos como aplicaciones reales. Originalmente SPSS fue creado como el
acrónimo de Statistical Package for the Social Sciences. En la actualidad, la sigla se usa
tanto para designar el programa estadístico como la empresa que lo produce.

Como programa estadístico es muy popular su uso gracias a la capacidad que tiene
para trabajar con bases de datos de gran tamaño. El programa consiste en un
módulo base y módulos adicionales (regresión, tablas, reducción de datos,
tendencias, categorías, etc.) que se han ido actualizando constantemente con nuevos
procedimientos estadísticos. AswerTree es un módulo específico de SPSS que
cuenta con varios métodos para la construcción de árboles de decisión.

Cada uno de estos paquetes por sí mismos proporcionan varias alternativas
(métodos) para realizar el análisis, para el ejemplo comparativo se mostrarán
únicamente los resultados de aquel método que haya arrojado los mejores resultados.

En la mayoría de los problemas reales, se desconoce el número de grupos en los que
los datos tienen que ser clasificados, normalmente se parte de un número que el
investigador considera razonable de acuerdo a su experiencia, incrementándolo o
disminuyéndolo hasta que finalmente (en la mayoría de los casos) se elige el método
cuya clasificación genere un mejor entendimiento y tratamiento de la información.

En nuestro caso, al tratarse de un ejemplo conocido del cual evidentemente ya se
conocen los resultados, es decir, sabemos que hay tres grupos (las tres especies a
clasificar) así como la especie real a la que pertenece cada lirio, la comparación de los
resultados no tiene como propósito encontrar qué método puede determinar el
número ideal de grupos que genere el menor error de clasificación; el objetivo más



Capítulo 3. Ejemplo comparativo

54

bien, está enfocado en determinar qué método genera el menor error de clasificación
partiendo del hecho de que los lirios se tiene que clasificar en tres grupos.

De igual forma, los análisis previos recomendados al realizar cualquier tipo de
análisis multivariado (como gráficos para ver el comportamiento natural de los datos,
correlación entre variables, etcétera), por las características de este ejercicio pueden
omitirse, sin embargo, se recomienda siempre hacer este tipo de pruebas para
aplicaciones reales en las que no sabemos a priori cómo se están comportando los
datos.


3.2 Descripción del conjunto de datos

El conjunto de datos “Iris” (Fisher, 1936) es probablemente el más conocido entre
los textos sobre clasificaciones. Si bien, la clasificación de Fisher es relativamente
simple, su estudio representa un clásico en la materia y con frecuencia se recurre a él
como material de referencia.

El conjunto de datos a estudiar contiene información sobre 3 diferentes especies de
lirios (“setosa”, “versicolor” y “virginica”) (Figura 3.1.), las cuales difieren en la
medida (ancho y longitud) de sus pétalos y sépalos
23
.









Figura 3.1. Tipos de lirios


El archivo de datos para este ejemplo contiene cuatro variables de medida continuas
en cada observación (ancho del pétalo, longitud del pétalo, ancho del sépalo y
longitud del sépalo) y una variable de clasificación denominada “especies” la cual
muestra la especie real a la que pertenece cada lirio.

23
Cada una de las hojas, generalmente de color verde, que forman el cáliz de una flor.

Setosa Versicolor Virginica Setosa Versicolor Virginica



Capítulo 3. Ejemplo comparativo

55

En el caso de SPSS el archivo de datos se encuentra en formato sav (formato
mediante el cual SPSS almacena las bases de datos); en el caso de MatLab se trata de
este mismo archivo pero en formato de archivo de datos (.data).


3.3 Clasificación de lirios mediante mapas autoorganizados

Para poder realizar la implementación de mapas autoorganizados en MatLab es
necesario instalar “SOM Toolbox” la cual contiene las funciones necesarias para la
creación, visualización y análisis de estos mapas
24
.

Esta librería se encuentra disponible sin cargo en la siguiente dirección electrónica:
http://www.cis.hut.fi/projects/somtoolbox/

Al igual que en SPSS, en la librería SOM se pueden insertar etiquetas de texto
asociadas a cada dato de la muestra; estas etiquetas resultan útiles para la
interpretación de los resultados.

El archivo de datos de los lirios debe cargarse en MatLab mediante la función
som_read_data y dado que los datos se encuentran en distintas escalas de medición
deben ser estandarizados de tal forma que cada variable tenga varianza 1. Una vez
que el conjunto de datos está listo, la red es entrenada.

Dado que el conjunto de datos está etiquetado, el mapa también debe ser etiquetado
utilizando som_autolabel. Es importante señalar que aunque se está etiquetando
el mapa, el aprendizaje es no supervisado, es decir, la variable “especies” que es la
que muestra a qué especie pertenece cada lirio no se utiliza durante el análisis ya que
son sólo las 4 variables de medidas las que lo conforman.


% Creación del conjunto de datos
sD = som_read_data(‘iris.data’);
sD = som_normalize(sD,‘var’);
% Creación del mapa autoorganizado SOM
sM = som_make(sD);
sM = som_autolabel(sM,sD,‘vote’);

24
En el Anexo A se detallan las funciones utilizadas para la implementación del ejemplo del
conjunto de datos “Iris” en MatLab.



Capítulo 3. Ejemplo comparativo

56

% Visualización básica
som_show(sM,‘umat’,‘all’,‘comp’,1:
4,‘empty’,‘Labels’,‘norm’,‘d’);
som_show_add(‘label’, sM, ‘subplot’, 6);


La función som_make inicializa y entrena el mapa. El tamaño del mapa, en este caso
es de 6 x 14 de tal forma que el mapa está compuesto por 84 neuronas de salida. El
entrenamiento se realizó en dos etapas. En la primera etapa, cuyo objetivo consiste
en organizar el mapa, se utilizó una tasa de aprendizaje alta igual a 1 y un radio de
vecindad también grande igual al diámetro del mapa.

A medida que avanzada el aprendizaje, tanto la tasa de aprendizaje como el radio de
la vecindad iban reduciéndose de forma lineal hasta alcanzar los valores (mínimos)
0.05 y 1 respectivamente. En la segunda etapa, cuyo objetivo es el ajuste fino de
mapa, se utilizó una tasa de aprendizaje pequeña y constante igual a 0.05 y un radio
de vecindad constante y mínimo igual a 1. La primera fase consto de 1,000
iteraciones mientras que la segunda fase de 2,000 iteraciones.

Una vez entrenado el mapa, se calculó el error de cuantificación promedio el cual es
de 0.0156 lo que representa un error de casi el 2%.

Los mapas autoorganizados ofrecen grandes ventajas de visualización, como lo son
la matriz de distancias
25
y las componentes. Cada componente muestra los valores
de una variable en cada neurona del mapa usando la misma codificación de color
descrita para la matriz de distancias.

Esto da la posibilidad de examinar visualmente cada celda (correspondiente a cada
neurona del mapa). El mapa se puede visualizar utilizando som_show. La matriz de
distancias se muestra junto con las cuatro componentes.

También las etiquetas de cada neurona del mapa se muestran en un bloque de celdas
utilizando som_show_add. Los valores de los componentes se desentandarizan de
modo que los valores mostrados en la barra de colores estén dentro del rango de
valores original.

25
La matriz de distancias nombrada en MatLab como U-matrix “Unified distance matrix” es la matriz
en la que se visualizan las distancias entre las vecindades del mapa, ayuda a visualizar la estructura de
los clusters del mapa de tal forma que las áreas uniformes o niveles bajos en la matriz muestran los
clusters existentes mientras que valores altos valores en esta matriz indican la frontera entre ellos.



Capítulo 3. Ejemplo comparativo

57

La siguiente imagen (Figura 3.2.) representa la matriz de distancias, misma que
muestra en la parte superior izquierda, enseguida se encuentran las cuatro
componentes, finalmente en la parte inferior derecha se ubican las etiquetas del
mapa. En la matriz de distancias existen hexágonos adicionales entre todas las
parejas de neuronas vecinas. Por ejemplo, la neurona en la esquina superior izquierda
tiene valores pequeños para la longitud del sépalo, así como para la longitud y ancho
del pétalo, y valores relativamente grandes para el ancho del sépalo.




Figura 3.2. Visualización del mapa del conjunto de datos de lirios


La etiqueta asociada a estas neuronas es “se” (“setosa”), y podemos ver también en
la matriz de distancias que las neuronas vecinas están muy unidas.

A partir de la matriz de distancias es fácil detectar que las primeras 3 filas del mapa
forman un cluster claramente definido. Al ver las etiquetas se puede ver que
corresponden a la especie “setosa”.



Capítulo 3. Ejemplo comparativo

58

Las otras dos especies, “versicolor” y “virginica”, forman el otro cluster. La matriz U
no muestra una clara separación entre estas últimas dos especies, pero por las
etiquetas parece que corresponden a dos clusters diferentes.

A partir de las cuatro componentes se puede deducir que el largo y el ancho del
pétalo están altamente relacionados el uno con el otro. También existe una
correlación entre ellos y el largo del sépalo. La especie “setosa” exhibe pétalos
pequeños y cortos pero sépalos anchos. El factor de separación entre “versicolor” y
“virginica” es que esta última tiene hojas más grandes.

Las gráficas de las componentes son convenientes cuando se tiene que visualizar
mucha información de una sola vez. No obstante, cuando solo unas pocas variables
son de interés, las gráficas de dispersión son mucho más eficientes. La Figura 3.3.
muestra la proyección de componentes principales tanto del conjunto de datos como
del mapa.


% Proyección de componentes principales de los datos
[Pd, V, me] = pcaproj(sD, 3);
% Genera la gráfica de la proyección del mapa
som_grid(sM, ‘Coord’, pcaproj(sM, V, me), ‘marker’, ‘none’, ...
‘Label’, sM.labels, ‘labelcolor’, ‘k’);
% Gráfica de datos originales con especies diferenciadas por
color
hold on, grid on
colD = [repmat ([1 0 0], 50, 1); ...
repmat ([0 1 0], 50, 1); ...
repmat ([0 0 1], 50, 1)];
som_grid(‘rect’,[150 1], ‘Line’, ‘none’, ‘Coord’ ,Pd, ...
‘markercolor’, colD);


Las tres especies fueron graficadas utilizando distintos colores. El mapa
autoorganizado también es proyectado en el mismo sub espacio. Las neuronas
vecinas en el mapa están conectadas mediante líneas. Se muestran también las
etiquetas de las neuronas asociadas al mapa.




Capítulo 3. Ejemplo comparativo

59

La Figura 3.4. visualiza las cuatro variables del SOM usando marcadores de tamaño
y color. Se muestran tres coordenadas y marcadores de tamaño y color. Los
marcadores de color indican los sub espacios. Los datos se muestran en la parte
superior de la gráfica mediante cruces (x).


% Desestandarización de los pesos de los vectores
M = som_denormalize (sM. Codebook, sM);
colM = zeros (length (sM.codebook), 3);
un = unique(sD.labels);
for i=1:3, ind = find(strcm(sM.labels, un(i))); colM(ind,i) =1;
end
%Gráfica del mapa
som_grid(sM,‘Coord’,M(:,2:4),‘Markersize’,(M(:,1)-4)*5, ...
‘Markercolor’, colM);
% Gráfica de los datos
hold on, grid on
D = som_denormalize (sD.data, sD);
Som_grid(‘rect’, [150 1], ‘Coord’, D(:, 2:4), ‘Marker’, ‘x’,...
‘MarkerSize’,(D(:,1)-4)*5,‘Line’,‘none’,‘Markercolor’,
colD);
% Muestra el mapa y la información de la especie
som_cplane (sM.topol.lattice, sM.topol.msize, colM);
% Muestra las cuatros variables con gráficas de barras
hold on
som_barplane(sM.topol.lattice,sM.topol.msize,M,‘w’,‘unitwise’)















Capítulo 3. Ejemplo comparativo

60




Figura 3.3. Proyección del conjunto de datos





Figura 3.4. Las cuatro variables del SOM usando marcadores de tamaño y color




Capítulo 3. Ejemplo comparativo

61


Figura 3.5. Las cuatro variables se muestran con gráficas de barras en cada neurona.
El color indica la especie.


La Figura 3.5. muestra las cuatro variables del mapa junto con la información de la
especie. En cada uno de los hexágonos del mapa se muestra una gráfica compuesta
por cuatro barras, cada una de las cuales, asociada a las variables usadas para la
clasificación (ancho y largo de los sépalos y pétalos).

















Capítulo 3. Ejemplo comparativo

62

3.4 Clasificación de lirios mediante análisis cluster

El algoritmo a utilizar es k-medias
26
. Este algoritmo (así como los métodos
jerárquicos) depende de distancias y dado que las variables no se encuentran en las
mismas escalas, es necesario estandarizar los datos antes de realizar el análisis.

Para ello, utilizamos la opción “Guardar variables tipificadas” que se encuentra en la
opción de “Estadísticos descriptivos” del menú “Analizar” (Figura 3.6.).

















Figura 3.6. Estandarización de los datos


A continuación se selecciona el algoritmo k-medias ubicado en el menú “Analizar” en
la opción “Clasificar”. Como variables se introducen las cuatro medidas de los lirios y
se establece como número de grupos tres. En este caso sabemos que en realidad se
trata de tres especies diferentes de lirios, si no lo supiéramos de antemano
tendríamos que realizar el análisis con diversos escenarios intercambiando el

26
En el Anexo B se muestran los métodos de los análisis cluster incluidos en SPSS así como una
visión simplificada de sus aspectos teóricos. Para mayor detalle sobre el análisis cluster, se recomienda
consultar el libro de Everitt, B.S., Landau, S., and Leese, M. (2001). Cluster Analysis, Applications and
Programming Techniques. Adison Wesley. USA.




Capítulo 3. Ejemplo comparativo

63

número de grupos o bien utilizando algún otro método de agrupación, por ejemplo,
algún método jerárquico y elegir aquel que arroje los mejores resultados tanto
estadísticos como acordes con el problema planteado (Figura 3.7.).

Dentro de la opción “Guardar” de esta misma pestaña se selecciona “Guardar
conglomerados de pertenencia” y la “Distancia desde el centro del conglomerado” (esta
opción debe seleccionarse sólo cuando se cuenta ya con el número ideal de grupos,
que en este caso sabemos que es tres). Y en la pestaña “Opciones” seleccionar
“Análisis ANOVA”.















Figura 3.7. Selección del método a utilizar y especificación de las opciones


Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
cluster de cuyo centro se encuentra más próximo y comienza un proceso de ubicación
iterativa de los centros. En la primera iteración se reasignan los casos por su
distancia al nuevo centro y, tras la reasignación, se vuelve a actualizar el valor del
centro y así sucesivamente. En la Figura 3.8. se resume el historial de iteraciones (8
en este caso) con indicación del cambio (desplazamiento) experimentado por cada
centro en cada iteración.

Puede observarse que, conforme avanzan las iteraciones, el desplazamiento de los
centros se va haciendo más pequeño, hasta llegar a la octava iteración, en la que ya
no existe ningún desplazamiento.



Capítulo 3. Ejemplo comparativo

64














Figura 3.8. Historial de Iteraciones


La Figura 3.9. muestra los centros de los conglomerados finales, es decir, los
centros de los conglomerados tras el proceso de actualización iterativa. Esta tabla es
de utilidad para interpretar la constitución de los clusters pues resume los valores
centrales en cada cluster en las variables de interés.

La Figura 3.10. indica la distancia entre cada caso y su centro de clasificación. Se
observa que la menor distancia se da entre los tipos de lirios 1 y 2 lo cual puede
generar que el mayor traslape se de entre estos dos grupos; de manera semejante la
mayor distancia se da entre los tipos de lirios 1 y 3 por lo que el traslape entre estos
dos grupos debe ser menor.







Figura 3.9. Centros de los conglomerados finales




Historial de iteraciones
a
1.985 1.786 1.811
.034 .281 .236
.018 .673 .297
.119 .258 .030
.122 .177 .000
.090 .100 .000
.039 .045 .000
.000 .000 .000
Iteraci ón
1
2
3
4
5
6
7
8
1 2 3
Cambi o en los centros
de l os congl omerados
Se ha l ogrado la convergencia debi do a que l os
centros de los conglomerados no presentan ni ngún
cambi o o éste es pequeño. El cambi o máxi mo de
coordenadas absol utas para cual qui er centro es de
.000. La i teraci ón actual es 8. La distanci a míni ma
entre los centros i nici al es es de 5.058.
a.
1 2 3
Puntua: sépalo - longitud 1.03015 -0.16784 -0.99872
Puntua: sépalo - ancho 0.01384 -0.96684 0.89212
Puntua: pétalo - longitud 0.94054 0.25875 -1.29862
Puntua: pétalo - ancho 0.96902 0.17551 -1.25244
Centros de los conglomerados finales

Conglomerado



Capítulo 3. Ejemplo comparativo

65






Figura 3.10. Distancias entre los centros de los conglomerados


La tabla ANOVA (Figura 3.11.) muestra la tabla resumen del análisis de varianza
con un estadístico F univariante para cada una de las variables incluidas en el
análisis. El análisis de varianza se obtiene tomando los grupos definidos por los
grupos como factor y cada una de las variables incluidas en el análisis como variable
dependiente.

Una nota al pie de página de la tabla informa que los estadísticos F sólo deben
utilizarse con una finalidad descriptiva pues los casos no se han asignado
aleatoriamente a los conglomerados sino que se han asignado intentando optimizar
las diferencias entre los conglomerados.

Además, los niveles críticos asociados a los estadísticos F no deben ser
interpretados de manera habitual pues el procedimiento de k medias no aplica ningún
tipo de corrección sobre la tasa de error (es decir, sobre la probabilidad de cometer
errores tipo I cuando se llevan a cabo contrastes). Lógicamente, la tabla de ANOVA
no se muestra cuando todos los casos son asignados a un único cluster.








Figura 3.11. Tabla ANOVA


En la Figura 3.12. se muestra el número de casos que se asignó a cada cluster,
sabemos que en realidad el archivo de datos contiene 50 casos de cada especie, a
simple vista parece que los casos faltantes en los clusters 1 y 2 fueron asignados al
Conglomerado 1 2 3
1 1.869 3.852
2 1.869 2.934
3 3.852 2.934
Distancias entre los centros de los conglomerados
cuadrática gl cuadrática gl
Puntua: sépalo - longitud 54.268 2 0.275 147 197.153 0.000
Puntua: sépalo - ancho 41.004 2 0.456 147 89.975 0.000
Puntua: pétalo - longitud 67.185 2 0.100 147 675.014 0.000
Puntua: pétalo - ancho 64.961 2 0.130 147 500.559 0.000
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para
maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no
pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.
ANOVA

Conglomerado Error
F Sig.



Capítulo 3. Ejemplo comparativo

66

cluster 1, sin embargo debemos realizar pruebas de validación para evaluar el error en
cada asignación de casos.






Figura 3.12. Número de casos en cada conglomerado



3.4.1 Pruebas de validación

Como primera prueba de validación se realizará un análisis de medias en donde la
variable dependiente es la variable de agrupación (SPSS genera esta variable y la
incluye en la base de datos normalmente con el nombre “QCL_1”) y las variables
independientes son las variables usadas para el análisis cluster sin estandarizar
(medidas de ancho y largo de los pétalos y sépalos).










Figura 3.13. Informe sobre el análisis de medias


En la Figura 3.13. observamos que los clusters 1 y 3 son los más diferenciados. El
cluster 1 se encuentra conformado principalmente por aquellos lirios con la mayor
longitud en sus pétalos y sépalos así como con los pétalos más anchos que el resto,
mientras que en el cluster 3 se encuentran los lirios con la longitud de pétalos y
sépalos así como el ancho de sus pétalos, más chicos que el resto, pero el ancho de
1 55.000
2 46.000
3 49.000
150.000
0.000 Perdidos
Número de casos en cada conglomerado
Conglomerado
Válidos
Número inicial de
casos sépalo - longitud sépalo - ancho pétalo - longitud pétalo - ancho
Media 6.6964 3.0600 5.4182 1.9382
N 55 55 55 55
Desv. típ. 0.50807 0.26006 0.63540 0.33802
Media 5.7043 2.6348 4.2152 1.3326
N 46 46 46 46
Desv. típ. 0.42109 0.26265 0.70395 0.31202
Media 5.0163 3.4408 1.4673 0.2429
N 49 49 49 49
Desv. típ. 0.34842 0.34876 0.17367 0.10801
Media 5.8433 3.0540 3.7587 1.1987
N 150 150 150 150
Desv. típ. 0.82807 0.43359 1.76442 0.76316
Informe
1
2
3
Total



Capítulo 3. Ejemplo comparativo

67

sépalos más grande. El cluster 2 de manera general se encuentra en la mitad de estos
dos clusters.

Una segunda prueba de validación consiste en usar una variable externa y compararla
contra la variable de agrupación generada en el análisis. En nuestro caso la variable
de validación es la variable “especies” la cual nos dice el tipo de especie real al que
pertenece cada lirio. En este caso la prueba consiste en generar una tabla de
contingencia con la variable de validación “especies” en las columnas y la variable de
agrupación “QCL_1” en las filas.







Figura 3.14. Tabla de contingencia


Se observa en la Figura 3.14. que el cluster 3 contiene la mayor cantidad de la especie
“setosa”, mientras que los clusters 1 y 2 tuvieron el mayor traslape (tal como se había
sugerido en la Figura 3.10. de acuerdo a las distancias entre los centros de los
conglomerados), a pesar de los casos traslapados, la especie con mayor
concentración en el cluster 2 es “versicolor” mientras que en el cluster 1 es “virginica”.

La tabla de contingencia ayuda a identificar rápidamente cualquier caso clasificado
erróneamente. En nuestro ejemplo, los valores en la diagonal principal (42, 37, 49)
representan aquellos casos que fueron clasificados correctamente. Los valores en
cualquiera de las demás casillas de la matriz representan casos de clasificación
errónea, en total hubo 128 casos clasificados correctamente, representando un 15%
de error.







Iris-virginica Iris-versicolor Iris-setosa
1 Recuento 42 13 0 55
2 Recuento 8 37 1 46
3 Recuento 0 0 49 49
Recuento 50 50 50 150 Total
Número inicial de casos
Tabla de contingencia Número inicial de casos * especie

especie
Total



Capítulo 3. Ejemplo comparativo

68

3.5 Clasificación de lirios mediante árboles de decisión

Como primer paso, se selecciona en la pantalla el método a utilizar (Figura 3.15.),
en nuestro ejemplo el algoritmo a utilizar es C&RT
27
. A continuación, en la siguiente
pantalla se selecciona “especies” como la variable criterio y longitud del pétalo,
ancho del pétalo, longitud del pétalo y ancho del sépalo como las variables
predictoras (Figura 3.16.).

Dado que este conjunto de datos contiene una muestra muy reducida,
estableceremos como reglas de parada que la profundidad máxima del árbol sea de 5
niveles bajo la raíz y que los números mínimos de casos para los nodos parentales y
filiales sean de 25 y 1 respectivamente (Figura 3.17.).



Figura 3.15. Elección del tipo de método a utilizar




27
En el Anexo C se muestran los métodos de árboles de decisión incluidos en AnswerTree así como
una visión simplificada de sus aspectos teóricos. Para mayor detalle, se recomienda consultar la Guía
del usuario de AnswerTree 3.1. de SPSS Inc.



Capítulo 3. Ejemplo comparativo

69


Figura 3.16. Especificación de la variable criterio y las variables predictoras




Figura 3.17. Especificación de las reglas de parada



El nodo raíz o nodo “0” representa las frecuencias de la variable criterio “especies”
(Figura 3.18.).






Capítulo 3. Ejemplo comparativo

70







Figura 3.18. Árbol mínimo


Desarrollando el resto del árbol tenemos 4 niveles debajo del nodo raíz (Figura
3.19.). Resulta interesante estudiar los árboles de decisión ya que en ellos se
encuentra un historial detallado acerca del análisis que hemos realizado. Parte del
desarrollo y de la comprensión que podamos obtener de un análisis basado en un
árbol se deriva de las explicaciones de los resultados que seamos capaces de generar.

Haciendo un zoom en la parte superior del árbol (Figura 3.20.) vemos que para
dividir el nodo raíz, se selecciona la longitud del pétalo; los valores utilizados para la
división son mayores o menores que el valor de la medida 2.450. Todos los casos en
los que la longitud del pétalo sea menor o igual que 2.450 se envían al nodo 1, en
tanto que aquellos cuyo valor sea mayor que 2.450 se envían al nodo 2.

El algoritmo C&RT muestra la importancia relativa de la división de un nodo,
utilizando la disminución en la impureza o mejora, como criterio de evaluación. En
este ejemplo, utilizamos la medida de impureza predeterminada de Gini. En la
primera división del árbol, la mejora corresponde a 0.3333.

Esto significa que la impureza de los dos nodos filiales resultante de la división era
0.3333 menor que la impureza del nodo raíz. El nodo 1 está compuesto por una sola
especie (“setosa”) y contiene todos los casos de dicha especie. En el nodo 2 se
encuentran las 100 observaciones restantes, entre las que se observan todos los lirios
“versicolor” y “virginica”.








Categoría % n
Iris-setosa 33.33 50
Iris-versicolor 33.33 50
Iris-virginica 33.33 50
Total (100.00) 150
Nodo 0
ESPECIE



Capítulo 3. Ejemplo comparativo

71
























Figura 3.19. Árbol desarrollado



Categoría % n
Iris-setosa 33.33 50
Iris-versicolor 33.33 50
Iris-virginica 33.33 50
Total (100.00) 150
Nodo 0
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 50.00 50
Iris-virginica 50.00 50
Total (66.67) 100
Nodo 2
Categoría % n
Iris-setosa 100.00 50
Iris-versicolor 0.00 0
Iris-virginica 0.00 0
Total (33.33) 50
Nodo 1
ESPECIE
pétalo - longitud
Mejora=0.3333
>2.4500000000000002 <=2.4500000000000002


Figura 3.20. Desarrollo en la parte superior (primer nivel del árbol)
Categoría % n
Iris-setosa 33.33 50
Iris-versicolor 33.33 50
Iris-virginica 33.33 50
Total (100.00) 150
Nodo 0
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 50.00 50
Iris-virginica 50.00 50
Total (66.67) 100
Nodo 2
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 2.17 1
Iris-virginica 97.83 45
Total (30.67) 46
Nodo 4
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 0.00 0
Iris-virginica 100.00 43
Total (28.67) 43
Nodo 8
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 33.33 1
Iris-virginica 66.67 2
Total (2.00) 3
Nodo 7
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 90.74 49
Iris-virginica 9.26 5
Total (36.00) 54
Nodo 3
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 33.33 2
Iris-virginica 66.67 4
Total (4.00) 6
Nodo 6
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 97.92 47
Iris-virginica 2.08 1
Total (32.00) 48
Nodo 5
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 0.00 0
Iris-virginica 100.00 1
Total (0.67) 1
Nodo 10
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 100.00 47
Iris-virginica 0.00 0
Total (31.33) 47
Nodo 9
Categoría % n
Iris-setosa 100.00 50
Iris-versicolor 0.00 0
Iris-virginica 0.00 0
Total (33.33) 50
Nodo 1
ESPECIE
pétalo - longitud
Mejora=0.3333
>2.4500000000000002
pétalo - ancho
Mejora=0.2598
>1.75
pétalo - longitud
Mejora=0.0042
>4.8499999999999996 <=4.8499999999999996
<=1.75
pétalo - longitud
Mejora=0.0297
>4.9500000000000002 <=4.9500000000000002
pétalo - ancho
Mejora=0.0131
>1.6499999999999999 <=1.6499999999999999
<=2.4500000000000002
Nivel 0
Raíz
Nivel 1
Nivel 2
Nivel 3
Nivel 4
Categoría % n
Iris-setosa 33.33 50
Iris-versicolor 33.33 50
Iris-virginica 33.33 50
Total (100.00) 150
Nodo 0
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 50.00 50
Iris-virginica 50.00 50
Total (66.67) 100
Nodo 2
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 2.17 1
Iris-virginica 97.83 45
Total (30.67) 46
Nodo 4
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 0.00 0
Iris-virginica 100.00 43
Total (28.67) 43
Nodo 8
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 33.33 1
Iris-virginica 66.67 2
Total (2.00) 3
Nodo 7
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 90.74 49
Iris-virginica 9.26 5
Total (36.00) 54
Nodo 3
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 33.33 2
Iris-virginica 66.67 4
Total (4.00) 6
Nodo 6
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 97.92 47
Iris-virginica 2.08 1
Total (32.00) 48
Nodo 5
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 0.00 0
Iris-virginica 100.00 1
Total (0.67) 1
Nodo 10
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 100.00 47
Iris-virginica 0.00 0
Total (31.33) 47
Nodo 9
Categoría % n
Iris-setosa 100.00 50
Iris-versicolor 0.00 0
Iris-virginica 0.00 0
Total (33.33) 50
Nodo 1
ESPECIE
pétalo - longitud
Mejora=0.3333
>2.4500000000000002
pétalo - ancho
Mejora=0.2598
>1.75
pétalo - longitud
Mejora=0.0042
>4.8499999999999996 <=4.8499999999999996
<=1.75
pétalo - longitud
Mejora=0.0297
>4.9500000000000002 <=4.9500000000000002
pétalo - ancho
Mejora=0.0131
>1.6499999999999999 <=1.6499999999999999
<=2.4500000000000002
Nivel 0
Raíz
Nivel 1
Nivel 2
Nivel 3
Nivel 4



Capítulo 3. Ejemplo comparativo

72

Desarrollando ahora el árbol en 2 niveles (Figura 3.21.), se puede identificar que el
nodo 1 se ha definido como un nodo terminal (no es posible dividir más este nodo).
El nodo 2 se ha dividido utilizando la variable ancho del pétalo y la mejora
corresponde a 0.2598. Los dos nodos filiales del nodo 2 describen a grandes rasgos
los dos tipos restantes de lirios.

El nodo 3 incluye la mayoría de los lirios de la especie “versicolor”, en tanto que el
nodo 4 incluye la mayoría de los de la especie “virginica”. El estudio de las últimas
divisiones ayuda poco a comprender mejor el problema, ya que las divisiones
sucesivas incluyen un número de casos muy reducido.



Categoría % n
Iris-setosa 33.33 50
Iris-versicolor 33.33 50
Iris-virginica 33.33 50
Total (100.00) 150
Nodo 0
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 50.00 50
Iris-virginica 50.00 50
Total (66.67) 100
Nodo 2
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 2.17 1
Iris-virginica 97.83 45
Total (30.67) 46
Nodo 4
Categoría % n
Iris-setosa 0.00 0
Iris-versicolor 90.74 49
Iris-virginica 9.26 5
Total (36.00) 54
Nodo 3
Categoría % n
Iris-setosa 100.00 50
Iris-versicolor 0.00 0
Iris-virginica 0.00 0
Total (33.33) 50
Nodo 1
ESPECIE
pétalo - longitud
Mejora=0.3333
>2.4500000000000002
pétalo - ancho
Mejora=0.2598
>1.75 <=1.75
<=2.4500000000000002


Figura 3.21. Desarrollo en el segundo nivel del árbol










Capítulo 3. Ejemplo comparativo

73

En base a estos resultados podemos concluir que:

Si el lirio tiene pétalos pequeños ( ) 450 . 2 ≤ , probablemente se trate del tipo “setosa”.
Si se tienen en cuenta los lirios con pétalos largos ( ) 450 . 2 > , observaremos que los
pétalos angostos ( ) 750 . 1 ≤ corresponden al tipo “versicolor”, en tanto que los
pétalos anchos ( ) 750 . 1 > , corresponden al tipo “virginica”.

Para valorar la capacidad del modelo a la hora de predecir el tipo de lirio, podemos
examinar el resumen de riesgos (Figura 3.22.). Dicho resumen compara el tipo de
lirio asignado mediante el árbol con el tipo del lirio registrado realmente. La tabla de
estadísticos de riesgo ayuda a identificar rápidamente cualquier caso clasificado
erróneamente. En nuestro ejemplo, los valores en la diagonal principal (50, 49, 48)
representan aquellos casos que fueron clasificados correctamente.

Los valores en cualquiera de las demás casillas de la matriz representan casos de
clasificación errónea. La estimación de riesgo revela la proporción de casos
clasificados de manera incorrecta. Se aprecia que la tasa de clasificación errónea es
bastante baja: todos los casos, salvo tres fueron clasificados correctamente. Esto da
como resultado una estimación de riesgos de 0.02 ya que el 2% de los casos se ha
clasificado de manera errónea.



Iris-setosa Iris-versicolor Iris-virginica
Total
Iris-setosa 50 0 0 50
Iris-versicolor 0 49 2 51
Iris-virginica 0 1 48 49
Total 50 50 50 150
Estmación de riesgo
ET de la estimación de riesgo
0,02
0,011431
Categoría real
Matriz de clasificación errónea
Estadísticos de riesgo
Categoría
estimada


Figura 3.22. Resumen de riesgos








Capítulo 3. Ejemplo comparativo

74

3.6 Resumen comparativo de los 3 métodos

En la Tabla 3.1 se resumen las diferencias de cada método entre los aspectos
evaluados.

Análisis Cluster Árboles de decisión
Aspecto evaluado SOM
( k-medias ) ( C&RT )
Conocimientos previos
recomendados
Análisis multivariado,
Redes neuronales,
Lenguaje M de MatLab.
Análisis multivariado.
Análisis cluster.
Conocimientos medios
de SPSS.
Análisis multivariado.
Árboles de decisión.
Conocimientos básicos
de SPSS.
Tipo de aprendizaje
utilizado
No supervisado. No supervisado. Supervisado.
Dificultad de
implementación
De media a alta. Se
requiere programar la
red y en aplicaciones
reales la mayoría de las
veces se tienen que
modificar los parámetros
manejados por default.
Baja. Cualquiera de los 3
métodos puede
implementarse y
modificarse desde el
menú de herramientas
de SPSS
Baja. La implementación
se lleva a cabo paso por
paso, el usuario sólo
tiene que ir
seleccionando las
opciones que requiera en
el análisis. Puede caerse
en el mal hábito de dejar
en automático las
opciones que pueden
ayudar a generar mejores
árboles.
Tipos de datos con los
que trabaja
(continuos / discretos)
Cualquiera.
Cualquiera, en algunos
casos se requieren
previas adaptaciones.
Cualquiera.
Procesamiento previo
de los datos
Estandarización de las
variables a incluir en el
modelo.
Estandarización de las
variables a incluir en el
modelo.
Ninguno.
Especificación a priori
del número de grupos
No. Sí. No.

Tabla 3.1. Cuadro comparativo entre los tres métodos utilizados







Capítulo 3. Ejemplo comparativo

75

Análisis Cluster Árboles de decisión
Aspecto evaluado SOM
( k-medias ) ( C&RT )
Dificultad de ejecución
Media. En el ejemplo, el
conjunto de datos era
pequeño. Se requirieron
3,000 iteraciones para el
entrenamiento del mapa.
Baja. Se requirieron 8
iteraciones para conseguir
la convergencia del
método.
Baja. El árbol se abrió
sólo en 4 niveles.
Tasa de error
El error de cuantificación
fue de casi el 2%.
15% de error. 2% de error.
Principales resultados /
gráficos de
visualización
Matriz de distancias y de
componentes. Altamente
efectivas y sencillas de
interpretar.
Centros de los
conglomerados finales. Se
dificulta su interpretación
cuando los datos fueron
estandarizados.
Diagrama de árbol muy
fácil de interpretar.
Interpretación de
resultados
Sencilla a media. Sencilla a media. Sencilla.
Manipulación
interactiva de los
resultados
No. No. Sí.
Conclusiones
generadas sobre cada
tipo de lirio
Existe un cluster
claramente definido:
“setosa”. Las otras dos
especies forman otro
cluster. La especie “setosa”
exhibe pétalos pequeños y
cortos pero sépalos
anchos. El factor de
separación entre
“versicolor” y “virginica”
es que esta última tiene
hojas más grandes.
El cluster 3 contiene la
mayor cantidad de la
especie “setosa”, mientras
que los clusters 1 y 2
tuvieron el mayor traslape
(“versicolor” y
“virginica”). A pesar del
traslape, la especie con
mayor concentración en
el cluster 2 es “versicolor”
mientras que en el cluster 1
es “virginica”.
Si el lirio tiene pétalos
pequeños ( ≤2.45)
probablemente se trate
del tipo “setosa”. Si se
tiene en cuenta los lirios
con pétalos largos
(>2.45), observaremos
que los pétalos angostos
( ≤1.75) corresponden al
tipo “versicolor”, en tanto
que los pétalos anchos
(>1.75) corresponden al
tipo “virginica”.
Posibilidad de generar
reglas de decisión
(reglas de clasificación
para un análisis
discriminante posterior)
Sí Sí Sí

Tabla 3.1. …Continuación. Cuadro comparativo entre los tres métodos utilizados



76

Conclusiones


En general las RNA han mostrado una capacidad clasificatoria igual o superior que
las técnicas estadísticas. El modelo mediante análisis cluster obtuvo una tasa de error
del 15%, mientras que, tanto el modelo de mapas autoorganizados como el modelo
de árboles de decisión registraron una tasa de error del 2%; sin embargo, hay que
recordar que este último parte de un método de clasificación supervisado lo cual
representa una ventaja.

Si bien, la dificultad de implementación y ejecución de las RNA es ligeramente
superior que para los métodos estadísticos, la interpretación resulta bastante sencilla.

Entre las propiedades de las RNA que han llamado la atención de los estadísticos
destacan las relativas a su buen rendimiento ante problemas no lineales o datos con
mucho ruido, y el poderse utilizar independientemente del cumplimiento de los
supuestos teóricos relativos a las técnicas estadísticas.

Otro punto a considerar es el fácil acceso a los paquetes estadísticos actuales pues
resultan hoy en día más económicos de aplicar que las RNA en cuanto a los recursos
temporales y computacionales involucrados. Se recomienda valorar dependiendo de
la complejidad de cada problema si vale la pena ganar en capacidad clasificatoria a
costa de incrementar el costo computacional y de recursos involucrados (tanto en
complejidad como en aspectos tecnológicos) en el entrenamiento de las RNA.

La consideración de todo lo dicho nos lleva a sugerir que técnicas estadísticas y
RNA, pueden complementarse adecuadamente (modelos híbridos). De este modo, la
estadística, centrada tradicionalmente en problemas lineales, y las RNA, más
acostumbradas a tratar con problemas de categorías mal definidas, relaciones no
lineales o datos con mucho ruido, se verán mutuamente enriquecidas. No es de
extrañar por ello, que paquetes estadísticos ya comiencen a incorporar en sus últimas
versiones módulos de redes neuronales artificiales.

De esta forma, se cubre satisfactoriamente el objetivo de este trabajo, dejando a
consideración del lector la elección entre un método u otro (o bien la combinación
de ellos). El presente material puede utilizarse como base para nuevos trabajos en los
que se busque la solución a problemas reales.





77

Anexo A


SOM Toolbox en MatLab

A continuación se muestran las principales funciones que se emplean para la
construcción y visualización de los SOM. Para mayor detalle se recomienda consultar
la Guía de Usuario, “Neural Network Toolbox 5”.


1. Construcción de conjuntos de datos

Se pueden utilizar las funciones normales de MatLab tales como load y scan; sin
embargo, SOM Toolbox tiene la función som_read_data la cual puede ser usada
para leer archivos ASCII.


2. Preprocesamiento de los datos

Dado que el algoritmo SOM usa la métrica euclidiana para medir la distancia entre
vectores, los datos deben ser estandarizados en el caso de que las variables no se
encuentren en la misma escala de medición (normalmente se requiere que las
variables sean igualmente importantes, de otra forma las variables con valores más
grandes dominarían la organización del mapa). La función sD = som_normalize
(sD, ‘var’) o D = som_normalize (D, ‘var’) escala las variables de tal
forma que su varianza sea igual a 1.


3. Inicialización y entrenamiento

Se manejan dos formas de inicialización (aleatoria o lineal) y dos formas de
entrenamiento (secuencial y en bloques). Por default se maneja la inicialización lineal y
el entrenamiento por bloques. La forma más simple de inicializar y entrenar un SOM
es mediante la función som_make.

Esta función inicializa y entrena el mapa. El entrenamiento se realiza en dos etapas:
una etapa de organización del mapa con valores grandes (iniciales) para el radio de la



Anexo A. SOM Toolbox en MatLab

78

vecindad y para la tasa de aprendizaje, la segunda etapa comprende el ajuste fino del
mapa para lo cual se utilizan valores pequeños para el radio de la vecindad y la tasa
de aprendizaje.

Esta función también selecciona el tamaño del mapa y los parámetros de
entrenamiento automáticamente, sin embargo, se pueden modificar sus argumentos
de tal forma que se puedan modificar las opciones, como por ejemplo, el tamaño del
mapa.

Si se desea tener control sobre los parámetros de entrenamiento se puede optar por
las funciones som_lininit, som_randinit, som_seqtrain y
som_batchtrain.


4. Visualización y análisis

Las cuadrículas de visualización del SOM pueden ser usadas como una forma
sencilla para mostrar las características de los mapas (y de los datos mismos).


4.1 Visualización de células

La función básica es som_show, por default esta función muestra la matriz de
distancias (U-matrix) calculada en base a todas las variables y a las componentes.

Cada componente muestra los valores de una variable en cada neurona del mapa.
Los valores son mostrados mediante colores. Esta función tiene varios argumentos
de entrada que pueden ser modificados para tener más control sobre el tipo de
planos a mostrar y en qué orden.


4.2 Visualización de gráficas

1. Gráficas de pie (som_pieplane): es ideal para mostrar valores
proporcionales.

2. Gráficas de barras (som_barplane): es ideal para mostrar valores en
diferentes categorías.



Anexo A. SOM Toolbox en MatLab

79

3. Gráficas de señal (som_plotplane): muestra los vectores de códigos como
gráficas de líneas.


En todos los casos, los colores y tamaños de la gráfica pueden ser modificados
mediante la manipulación de sus argumentos.


4.3 Visualización de mallas

La función som_grid puede ser utilizada para crear gráficas de mallas. La función se
basa en la idea de que la visualización de un conjunto de datos, consiste simplemente
en un conjunto de objetos con una única posición, color y tamaño.






























80

Anexo B



Análisis cluster

SPSS incluye tres procedimientos de clusterización: en dos fases, jerárquico o de K-
medias. Cada uno de estos procedimientos emplea un algoritmo distinto en la
creación de grupos y contiene opciones que no están disponibles en los otros.

1. Análisis de K-medias: El uso del procedimiento requiere que el usuario
especifique previamente el número de clusters. Ofrece una serie de funciones que
se detallan a continuación:

• Posibilidad de guardar las distancias desde los centros de los
conglomerados hasta los distintos objetos.
• Posibilidad de leer los centros de los conglomerados iniciales y guardar los
centros de los conglomerados finales desde un archivo SPSS externo.
• Puede analizar archivos con una gran cantidad de datos.

2. Análisis jerárquico: Su uso se limita a archivos de datos más pequeños y ofrece
una serie de funciones que se detallan a continuación:

• Posibilidad de agrupar casos o variables.
• Posibilidad de calcular un rango de soluciones posibles y guardar los
conglomerados de pertenencia para cada una de dichas soluciones.
• Distintos métodos de formación de clusters, transformación de variables y
medida de disimilaridad.
• Siempre que todas las variables sean del mismo tipo, el procedimiento podrá
analizar variables de intervalo (continuas), de recuento o binarias.

3. Análisis en dos fases: Ofrece una serie de funciones que se detallan a
continuación:

• Selección automática del número más apropiado de clusters y medidas para la
selección de los distintos modelos.



Anexo B. Análisis Cluster

81

• Posibilidad de crear modelos basados al mismo tiempo en variables
categóricas y continuas.
• Posibilidad de guardar el modelo en un archivo xml externo y, a continuación,
leer el archivo y actualizar el modelo con datos más recientes. Asimismo, este
procedimiento puede analizar archivos con una gran cantidad de datos.


1. Análisis de K-medias

Este procedimiento intenta identificar grupos de casos relativamente homogéneos
basándose en las características seleccionadas y utilizando un algoritmo que puede
gestionar un gran número de casos. Sin embargo, el algoritmo requiere que el usuario
especifique el número de clusters. Se puede elegir uno de los dos métodos disponibles
para clasificar los casos: la actualización de los centros de los conglomerados de
forma iterativa o sólo la clasificación.

Asimismo, puede guardar la pertenencia a los conglomerados, información de la
distancia y los centros de los conglomerados finales. Si las variables son binarias o
recuentos, se recomienda utilizar el análisis jerárquico.

Las distancias se calculan utilizando la distancia euclídea simple. Si desea utilizar otra
medida de distancia o de similaridad, se recomienda utilizar el procedimiento de
análisis jerárquico. El escalamiento de las variables es una consideración importante.

Así, si las variables utilizan diferentes escalas los resultados podrían ser erróneos. En
estos casos, se debe considerar la estandarización de las variables antes de realizar el
análisis (esta tarea se puede hacer en el menú “Descriptivos”, ya que no está incluida
dentro del mismo procedimiento como en el caso del análisis jerárquico).


1.1 Especificaciones del método

1.1.1 Iterar

Número máximo de iteraciones. Limita el número de iteraciones. La iteración se
detiene después de este número de iteraciones, incluso si no se ha satisfecho el
criterio de convergencia. Este número debe estar entre el 1 y el 999.



Anexo B. Análisis Cluster

82

Criterio de convergencia. Determina cuándo finaliza la iteración. Representa una
proporción de la distancia mínima entre los centros iniciales de los conglomerados,
por lo que debe ser mayor que 0 pero no mayor que 1. Por ejemplo, si el criterio es
igual a 0.02, la iteración cesará si una iteración completa no mueve ninguno de los
centros de los conglomerados en una distancia superior al dos por ciento de la
distancia menor entre cualquiera de los centros iniciales.

Usar medias actualizadas. Permite solicitar la actualización de los centros de los
conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los
nuevos centros de los conglomerados se calcularán después de la asignación de
todos los casos.


1.1.2 Guardar

Puede guardar información sobre la solución como nuevas variables para que
puedan ser utilizadas en análisis posteriores:

Conglomerado de pertenencia. Crea una nueva variable que indica el
conglomerado final al que pertenece cada caso.

Distancia desde centro del conglomerado. Crea una nueva variable que indica la
distancia euclídea entre cada caso y su centro de clasificación.


1.1.3 Opciones

Estadísticos. Puede seleccionar los siguientes estadísticos: “Centros de
conglomerados iniciales”, “Tabla de ANOVA” e “Información del conglomerado para
cada caso”.

• Centros de conglomerados iniciales. Primera estimación de las medias de
las variables para cada uno de los clusters. Los centros iniciales de los
conglomerados se utilizan como criterio para una primera clasificación y, a
partir de ahí, se van actualizando.

• Tabla de ANOVA. Muestra una tabla de análisis de varianza que incluye las
pruebas F univariadas para cada variable de aglomeración.



Anexo B. Análisis Cluster

83

• Las pruebas F son sólo descriptivas y las probabilidades resultantes no
deben ser interpretadas. La tabla de ANOVA no se mostrará si se asignan
todos los casos a un único cluster.

• Información del conglomerado para cada caso. Muestra, para cada caso,
el cluster final asignado y la distancia euclídea entre el caso y el centro del cluster
utilizado para clasificar el caso.


1.2 Orden de casos y centro de conglomerados iniciales

El algoritmo por defecto para elegir centros de conglomerados iniciales no es
invariable con respecto a la ordenación de casos. La opción “Usar medias
actualizadas” del cuadro de diálogo “Iterar” hace que la solución resultante dependa
potencialmente del orden de casos con independencia de cómo se eligen los centros
de conglomerados iniciales.


1.3 Eficacia del análisis de conglomerados de K-medias

El comando de análisis de k-medias es eficaz principalmente porque no calcula las
distancias entre todos los pares de casos, como el utilizado por los procedimientos
jerárquicos.

La principal ventaja del procedimiento radica en que es mucho más rápido que el
análisis jerárquico. Sin embargo, el procedimiento jerárquico permite una mayor
flexibilidad en los análisis: puede utilizar cualquiera de las diversas medidas de
distancia o similaridad, incluidas las opciones para datos binarios o de datos de
frecuencias y no es necesario especificar el número de clusters a priori.

Una vez que haya identificado los grupos, puede construir un modelo útil para la
identificación de nuevos casos utilizando análisis discriminante.








Anexo B. Análisis Cluster

84

2. Análisis jerárquico

Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o
de variables) basándose en las características seleccionadas, mediante un algoritmo
que comienza con cada caso (o cada variable) en un cluster diferente y combina los
clusters hasta que sólo queda uno. Las medidas de distancia o similaridad se generan
mediante el procedimiento “Proximidades”.

Las variables en este método pueden ser cuantitativas, binarias o de frecuencias. La
estandarización de las variables es un aspecto importante, ya que las diferencias en
las escalas pueden afectar a las soluciones de agrupación. Si las variables muestran
grandes diferencias en sus escalas de medición se debe considerar la opción de
estandarizarlas (esto puede llevarse a cabo automáticamente mediante el propio
procedimiento de agrupación jerárquico).


2.1 Método de agrupación y medidas

Las opciones disponibles son: “Vinculación inter-grupos”, “Vinculación intra-grupos”,
“Vecino más próximo”, “Vecino más lejano”, “Agrupación de centroides”, “Agrupación de
medianas” y “Método de Ward”.


2.1.1 Medidas para datos de intervalo

Las siguientes medidas de disimilaridad están disponibles para datos de intervalo:

• Distancia euclídea. La raíz cuadrada de la suma de los cuadrados de las
diferencias entre los valores de los elementos. Ésta es la medida por defecto
para los datos de intervalo.

( ) ( )

− =
i
i i
y x y x EUCLID
2
,

• Distancia euclídea al cuadrado. La suma de los cuadrados de las
diferencias entre los valores de los elementos.

( ) ( )

− =
i
i i
y x y x SEUCLID
2
,



Anexo B. Análisis Cluster

85

• Correlación de Pearson. La correlación producto-momento entre dos
vectores de valores.

( )
( )
N
z Z
y x N CORRELATIO
i
yi xi ∑
= ,

• Coseno. El coseno del ángulo entre dos vectores de valores.

( )
( )
( )( )
∑ ∑

=
i
i
i
i
i
i i
y x
y x
y x COSINE
2 2
,

• Chebychev. La diferencia absoluta máxima entre los valores de los
elementos.

( ) yi x y x CHEVYCHEV
i i
− =max ,

• Bloque. La suma de las diferencias absolutas entre los valores de los
elementos. También se conoce como la distancia de Manhattan.

( )

− =
i
i
yi x y x BLOCK ,

• Minkowski. La raíz p-ésima de la suma de las diferencias absolutas elevada a
la potencia p-ésima entre los valores de los elementos.

( ) ( )
p
p
i
i
yi x y x MINKOWSKY
1
,

− =

• Personalizada. La raíz r-ésima de la suma de las diferencias absolutas
elevada a la potencia p-ésima entre los valores de los elementos.

( ) ( )
r
P
i
i
yi x y x POWER
1
,

− =







Anexo B. Análisis Cluster

86

2.1.2 Medidas para datos de frecuencias

Las siguientes medidas de disimilaridad están disponibles para datos de frecuencias:

• Medida de chi-cuadrado. Esta medida se basa en la prueba de chi-cuadrado
de igualdad para dos conjuntos de frecuencias. Ésta es la medida por defecto
para los datos de recuento.

( )
( ) ( )
( )
( ) ( )
( )
∑ ∑

+

=
i i
i
i i
i
i i
y E
y E y
x E
x E x
y x CHISQ
2 2
,

• Medida de Phi-cuadrado. Esta medida es igual a la medida de chi-cuadrado
normalizada por la raíz cuadrada de la frecuencia combinada.

( )
( )
N
y x CHISQ
y x PH
,
, 2 =


2.1.3 Medidas para datos binarios

A continuación se muestran algunas de las siguientes medidas de similaridad /
disimilaridad que están disponibles para datos binarios:

• Jaccard. Se trata de un índice en el que no se toman en cuenta las ausencias
conjuntas. Se ofrece una ponderación igual a las concordancias y a las
discordancias. Se conoce también como razón de similaridad.

( )
c b a
a
y x JACCARD
+ +
= ,

• Russel y Rao. Se trata de una versión binaria del producto interno (punto).
Se ofrece una ponderación igual a las concordancias y a las discordancias.
Ésta es la medida por defecto para los datos de similaridad binarios.

( )
d c b a
a
y x RR
+ + +
= ,




Anexo B. Análisis Cluster

87

• Ochiai. Este índice es la forma binaria de la medida de similaridad del
coseno. Varía entre 0 y 1.
( )
|
¹
|

\
|
+
|
¹
|

\
|
+
=
c a
a
b a
a
y x OCHIAI ,

• Rogers y Tanimoto. Se trata de un índice en el que se ofrece una
ponderación doble a las discordancias.

( )
( ) c b d a
d a
y x RT
+ + +
+
=
2
,

• Sokal y Sneath. Se trata de un índice en el que se ofrece una ponderación
doble a las concordancias.

( )
( )
( ) c b d a
d a
y x SS
+ + +
+
=
2
2
,



2.2 Gráficos

Dendograma: Representación visual de los pasos de una solución de análisis
jerárquico que muestra, para cada paso, los clusters que se combinan y los valores de
los coeficientes de distancia. El dendrograma re-escala las distancias reales a valores
entre 0 y 25, preservando la razón de las distancias entre los pasos. Los
dendrogramas pueden emplearse para evaluar la cohesión de los grupos que se han
formado y proporcionar información sobre el número adecuado de grupos que
deben conservarse.

Diagrama de témpanos: Muestra cómo se unieron los casos. En la base (la derecha
en los gráficos horizontales), no hay casos unidos todavía; a medida que se recorre
hacia arriba el diagrama (o de derecha a izquierda en los horizontales), los casos que
se unen se marcan con una X o una barra en la columna situada entre ellos, mientras
que los clusters separados se indican con un espacio en blanco entre ellos.






Anexo B. Análisis Cluster

88

2.3 Estadísticos

Historial de conglomeración. Muestra los casos o grupos combinados en cada
etapa, las distancias entre los casos o los grupos que se combinan, así como el último
nivel del proceso de aglomeración en el que cada caso (o variable) se unió a su cluster
correspondiente.

Matriz de distancias. Proporciona las distancias o similaridades entre los
elementos.

Conglomerado de pertenencia. Muestra el cluster al cual se asigna cada caso, en una
o varias etapas de la combinación de los clusters.



3. Análisis en dos fases

El procedimiento Análisis en dos fases es una herramienta de exploración diseñada
para descubrir las agrupaciones naturales (o grupos) de un conjunto de datos que, de
otra manera, no sería posible detectar. Ofrece las siguientes opciones:

• Tratamiento de variables categóricas y continuas. Al suponer que las
variables son independientes, es posible aplicar una distribución normal
multinomial conjunta en las variables continuas y categóricas.

• Selección automática del número de clusters. Mediante la comparación
de los valores de un criterio de selección del modelo para diferentes
soluciones de agrupación, el procedimiento puede determinar
automáticamente el número óptimo de clusters.


3.1 Medida de distancia

Esta opción determina cómo se calcula la similaridad entre dos clusters.

• Log-verosimilitud. La medida de la verosimilitud realiza una distribución de
probabilidad entre las variables. Las variables continuas se supone que tienen



Anexo B. Análisis Cluster

89

una distribución normal, mientras que las variables categóricas se supone que
son multinomiales. Se supone que todas las variables son independientes.

• Euclídea. La medida euclídea es la distancia según una "línea recta" entre
dos clusters. Sólo se puede utilizar cuando todas las variables son continuas.

Las comprobaciones empíricas internas indican que este procedimiento es bastante
robusto frente a las violaciones tanto del supuesto de independencia como de las
distribuciones, pero aún así es preciso tener en cuenta hasta qué punto se cumplen
estos supuestos.


3.2 Número de conglomerados

Esta opción permite especificar cómo se va a determinar el número de grupos.

• Determinar automáticamente. El procedimiento determinará
automáticamente el número "óptimo" de clusters, utilizando el criterio
especificado en el grupo.

• Criterio de conglomeración. Se puede especificar el número máximo de
grupos que el procedimiento debe tener en cuenta. Se puede especificar tanto
el criterio de información bayesiano (BIC) como el criterio de información de
Akaike (AIC).

• Especificar número fijo. Permite fijar el número de clusters de la solución.


3.3 Estadísticos

Proporciona opciones para la presentación de tablas con los resultados de la
agrupación. Se generan los estadísticos descriptivos y las frecuencias de los clusters
para el modelo final, mientras que la tabla de criterio de información muestra los
resultados correspondientes a varias soluciones.

• Descriptivos por conglomerado. Muestra dos tablas que describen las
variables de cada cluster. En una tabla, se informa de las medias y las



Anexo B. Análisis Cluster

90

desviaciones típicas para las variables continuas por cada grupo. La otra tabla
informa de las frecuencias de las variables categóricas por grupo.

• Frecuencias de los conglomerados. Muestra una tabla que informa el
número de observaciones existentes en cada cluster.


3.4 Gráficos

3.4.1 Gráfico del porcentaje intra-conglomerado

Muestra los gráficos que indican la variación dentro del cluster de cada variable. Para
cada variable categórica, se genera un gráfico de barras agrupado, mostrando la
frecuencia de la categoría por identificador de cluster.


3.4.2 Gráfico de sectores de los conglomerados

Muestra un gráfico de sectores que muestra el porcentaje y las frecuencias de
observaciones correspondientes a cada cluster.


3.4.3 Gráfico de la importancia de las variables

Muestra varios gráficos diferentes que indican la importancia de cada variable dentro
de cada grupo. Los resultados se ordenan según el nivel de importancia de cada
variable.

• Ordenar variables. Esta opción determina si los gráficos que se crearán para
cada cluster (por variable) o para cada variable (por cluster).

• Medida de la importancia. Esta opción permite seleccionar la medida de la
importancia de las variables que se van a representar en el gráfico. Chi-
cuadrado o prueba t de significación muestra un estadístico chi-cuadrado de
Pearson como la importancia de una variable categórica y un estadístico t
como importancia de una variable continua.




Anexo B. Análisis Cluster

91

• Nivel de confianza. Esta opción permite establecer el nivel de confianza
para la prueba de igualdad de la distribución de una variable dentro de un
cluster frente a la distribución global de la variable. Se debe especificar un
número inferior a 100 y superior o igual a 50.

• Omitir variables no significativas. Las variables que no son significativas
para el nivel de confianza especificado no aparecen en los gráficos de la
importancia de las variables.




















92

Anexo C



Árboles de decisión

Los árboles de decisión (también llamados árboles de clasificación), es uno de los
métodos de aprendizaje inductivo supervisado no paramétrico. Es muy utilizado
principalmente por su sencillez tanto de generación de árboles como de
interpretación de resultados.

Los árboles de decisión parten de un nodo raíz que contiene todas las observaciones
de la muestra. A medida que se desplaza por el árbol, los datos se ramifican en
subconjuntos de datos que se excluyen mutuamente.


1. Regla de parada

La regla de parada es una regla de decisión para detener el desarrollo de un árbol. Un
nodo no se dividirá si se cumple alguna de las condiciones siguientes:

• Todos los casos de un nodo tienen valores idénticos para todos los
predictores.

• El nodo se vuelve puro; es decir, todos sus casos tienen el mismo valor para
la variable criterio.

• La profundidad del árbol ha alcanzado el valor máximo preestablecido.

• El número de casos que constituye el nodo es menor que el tamaño mínimo
preestablecido para los nodos parentales.

• La división del nodo ha dado como resultado un nodo filial cuyo número de
casos es menor que el tamaño preestablecido para los nodos filiales.






Anexo C. Árboles de decisión

93

2. Métodos de desarrollo de árboles

AnswerTree incluye los siguientes métodos para el desarrollo de árboles: CHAID,
CHAID exhaustivo, C&RT y QUEST. Cada uno de ellos funciona de modo
ligeramente distinto y se utilizan en casos distintos. En esta sección se proporciona
una visión general de todos esos algoritmos, además de una explicación sobre las
ventajas e inconvenientes de cada uno y del modo que tratan los valores perdidos.


2.1 Método CHAID

Las siglas CHAID corresponden al término inglés Chi-square Automatic Interaction
Detector (detector automático de interacciones mediante chi-cuadrado). Es una técnica
estadística desarrollada por Kass (1980) muy eficaz para segmentar o generar árboles.
El método CHAID, que utiliza la significación de una prueba estadística como
criterio, evalúa todos los valores de una variable predictora
28
potencial. Funde los
valores considerados estadísticamente homogéneos respecto a la variable criterio
29
y
conserva inalterados todos los valores heterogéneos.

Como paso siguiente, selecciona la mejor variable predictora para formar la primera
rama del árbol de decisión, de forma que cada nodo esté compuesto por un grupo de
valores homogéneos de la variable seleccionada. Este proceso se repite hasta que el
árbol se ha desarrollado por completo. La prueba estadística utilizada depende del
nivel de medida de la variable criterio. Si la variable criterio es continua, se utiliza la
prueba F; si es categórica se utiliza la prueba
2
χ .

El método CHAID es probablemente el más popular. No se trata de un método
binario, es decir, puede generar más de dos categorías en cualquier nivel del árbol.
Por lo tanto, tiende a crear un árbol más ancho que los métodos de desarrollo
binarios. Funciona con todos los tipos de variables y trata los valores perdidos como
una categoría individual.




28
Las variables predictoras son las que predicen el patrón de la variable criterio. También se denominan
variables independientes.
29
La variable criterio es aquélla cuyo resultado se desea predecir a partir de otras variables. También se
denomina variable dependiente.




Anexo C. Árboles de decisión

94

2.1.1 Algoritmo CHAID

CHAID funciona con todos los tipos de variables continuas y categóricas. Sin
embargo, las variables predictoras continuas se categorizan automáticamente para el
análisis. Algunas de las opciones mencionadas a continuación se pueden definir
mediante las opciones avanzadas de CHAID. Estas opciones incluyen la posibilidad
de seleccionar la prueba
2
χ de Pearson o la de la razón de verosimilitud, el nivel de
merge
α (fusión) y el de
split
α (división).

1. Para cada variable predictora X , buscar el par de categorías de X cuya
diferencia presenta la menor significación (es decir, la que presente el mayor
nivel crítico) respecto a la variable criterio Y . El método utilizado para
calcular el nivel crítico depende del nivel de medida de Y.

a. Si Y es continua utiliza la prueba F .
b. Si Y es nominal, se forma una tabla de contingencia con las
categorías de X como filas y las categorías de Y como columnas.
Utilizar la prueba de chi-cuadrado de Pearson o la prueba de la razón
de verosimilitud.
c. Si Y es ordinal, se ajusta un modelo de asociación de Y . Utilizar la
prueba de la razón de verosimilitud.

2. Para el par de categorías de X con el mayor nivel crítico, se compara el valor
del nivel crítico con el nivel alfa preestablecido,
merge
α .

a. Si el nivel crítico es mayor que
merge
α , fundir este par en una sola
categoría compuesta. Como resultado, se forma un nuevo conjunto de
categorías de X y el proceso se vuelve a iniciar desde el paso 1.
b. Si el nivel crítico es menor que
merge
α , ir al paso 3.

3. Calcular el nivel crítico corregido para el conjunto de las categorías de X y
las categorías de Y , mediante la corrección de Bonferroni
30
correspondiente.


30
Corrección aplicada a los p-values (probabilidades) en pruebas estadísticas cuando se realizan varias
pruebas. Se utiliza para evitar que la tasa de error supere el criterio nominal ( ) α cuando se realizan varias
pruebas. En forma sencilla, permite hacer pruebas sin que se lesione el nivel de significación.



Anexo C. Árboles de decisión

95

4. Seleccionar la variable predictora X cuyo nivel crítico corregido sea el menor
(la que sea más significativa). Comparar su nivel crítico con el nivel alfa
preestablecido,
split
α .

a. Si el nivel crítico es menor o igual que
split
α , dividir el nodo conforme
al conjunto de categorías de X .
b. Si el nivel crítico es mayor que
split
α , no dividir el nodo. Este nodo es
un nodo terminal.

5. Continuar con el proceso de desarrollo del árbol hasta que se cumpla una de
las reglas de parada.


2.2 Método CHAID exhaustivo

El método CHAID exhaustivo es una modificación del método CHAID
desarrollada por Biggs, de Ville y Suen (1991). Se desarrolló para resolver algunos de
los puntos débiles del método CHAID. En concreto, hay ocasiones en las que
CHAID no encuentra la división óptima de una variable, ya que detiene la fusión de
categorías en cuanto constata que todas las categorías restantes son estadísticamente
distintas. Para resolver este problema, CHAID exhaustivo continúa fundiendo las
categorías de la variable predictora hasta que sólo quedan dos supercategorías. A
continuación, examina la serie de fusiones del predictor, busca el conjunto de
categorías que proporciona la mayor asociación con la variable criterio y calcula un
valor p (nivel crítico) corregido para esa asociación. De esta manera, el método
CHAID exhaustivo puede encontrar la mejor división para cada predictor y, a
continuación, elegir el predictor que se va a dividir comparando los niveles críticos
corregidos.

El método CHAID exhaustivo opera exactamente igual que el método CHAID en
las pruebas estadísticas que utiliza y en la forma en que trata los valores perdidos.
Dado que su método de combinación de categorías de variables es más minucioso
que el CHAID, tarda más en realizar los cálculos. No obstante, cuando el tiempo no
es un problema, el uso del método exhaustivo suele ser más seguro que el método
simple. En ocasiones encuentra divisiones más útiles, sin embargo, se debe tener en
cuenta que, dependiendo de los datos utilizados, es posible que no haya ninguna
diferencia en los resultados obtenidos con ambos métodos.




Anexo C. Árboles de decisión

96

2.3 Método C&RT

Las siglas C&RT corresponden al término inglés Classification and Regresión Trees. Es
un algoritmo binario relativamente reciente, desarrollado por Breiman, Friedman,
Losen y Stone (1984). Este método divide los datos en dos subconjuntos, de modo
que los casos comprendidos dentro de cada uno de los subconjuntos, sean más
homogéneos que en el subconjunto anterior. Se trata de un proceso recursivo, que se
repite hasta alcanzar el criterio de homogeneidad o hasta llegar a otro criterio de
parada (como ocurre con todos los otros métodos de desarrollo de árboles). Se debe
tener en cuenta que la misma variable predictora puede ser utilizada varias veces en
distintos niveles del árbol.

Este método es bastante flexible, permite considerar los costes de clasificación
errónea en el proceso de desarrollo del árbol. También permite asignar la
distribución de probabilidades a priori en los problemas de clasificación. No obstante,
el método C&RT presenta algunos inconvenientes. Al ser un algoritmo binario,
tiende a generar árboles de muchos niveles. Por ello, puede ocurrir que el árbol
resultante no presente los resultados de manera eficaz, sobre todo si la misma
variable ha sido utilizada para la división de varios niveles consecutivos.

El método C&RT es complejo; los cálculos pueden ser muy lentos cuando se utilizan
grandes conjuntos de datos.


2.3.1 Algoritmo C&RT

C&RT funciona eligiendo en cada nodo una división, de modo que cada nodo filial
sea más puro que su nodo parental. En este caso, la “pureza” se refiere a los valores
de la variable criterio. En un nodo completamente puro, todos los casos tienen el
mismo valor para la variable criterio. El algoritmo C&RT mide la impureza de la
división de un nodo definiendo una medida de impureza.


2.3.2 Medidas de impureza

Para buscar las divisiones en los modelos C&RT se utilizan cuatro medidas de
impureza distintas, que dependen del tipo de variable criterio. Para las variables



Anexo C. Árboles de decisión

97

categóricas, se puede elegir Gini, binario (para criterios ordinales) o binario
ordenado.


2.3.3 Índice de Gini

El índice de Gini en el nodo t , ( ) t g , se define como:

( ) ( ) ( )


=
i j
t i p t j p t g / /

Donde i y j son categorías de la variable criterio y

( )
( )
( )
( )
( ) ( )
( ) ( )

=
=
=
j
j
j
t j p t p
N
t N j
t j p
t p
t j p
t j p
,
,
,
/
π


donde ( ) j π es el valor de la probabilidad a priori para la categoría j , ( ) t N
j
es el
número de casos en la categoría j del nodo t y
j
N es el número de casos de la
categoría j en el nodo raíz. Se debe tener en cuenta que cuando se utiliza el índice
de Gini para buscar la mejora de una división durante el desarrollo de un árbol, sólo
los casos del nodo t y del nodo raíz con valores válidos para el predictor de división
se utilizan para calcular ( ) t N
j
y
j
N respectivamente.

La ecuación del índice de Gini se puede expresar también como:

( ) ( )

− =
j
t j p t g / 1
2


Para ello, cuando los casos de un nodo están distribuidos uniformemente entre las
categorías, el índice de Gini toma su valor máximo de
k
1
1− , donde k es el número
de categorías de la variable criterio. Cuando todos los casos del nodo pertenecen a la
misma categoría, el índice de Gini es igual a 0 .




Anexo C. Árboles de decisión

98

La función del criterio Gini ( ) t s, Φ para la división s en el nodo t se define como

( ) ( ) ( ) ( )
R R L L
t g p t g p t g t s − − = Φ ,

Donde
L
p es la proporción de casos en t enviados al nodo filial de la izquierda y
R
p es la proporción enviada al nodo filial de la derecha. Las proporciones de
L
p y
R
p se definen como

( )
( )
( )
( ) t p
t p
p
y
t p
t p
p
R
R
L
L
=
=


Se elije la división s para maximizar el valor de ( ) t s, Φ , el cual se considera la
“mejora” en el árbol.

Binario. El índice binario se basa en la división de las categorías criterio en dos
superclases y, después, en la búsqueda de la mejor división de la variable predictora
según estas dos superclases. La función del criterio binario para la división s en el
nodo t se define como

( ) ( ) ( )
2
/ / ,
(
¸
(

¸

− = Φ
∑ R L R L
t j p t j p P p t s

Donde
L
t y
R
t son nodos creados por la división s . La división s se elije como la
división que maximiza este criterio. Este valor, ponderado por la proporción de
todos los casos del nodo t , es el valor que se considera la “mejora” en el árbol. Las
superclases
1
C y
2
C se definen como

( ) ( ) { }
1 2
1
/ / :
C C C
y
t j p t j p j C
R L
− =
≥ =


donde C es el conjunto de categorías de la variable criterio.




Anexo C. Árboles de decisión

99

Binario ordenado. Este índice es una modificación del índice binario para las
variables criterio ordinales. La diferencia consiste en que, con el criterio binario
ordenado, sólo las categorías contiguas se pueden combinar para formar superclases.
Por ejemplo, consideremos la variable criterio “estado de cuenta”, con las categorías

o vencimient de días más o
o vencimient de días
o vencimient de días
a actualizad
90 4
60 3
30 2
1
=
=
=
=


En algunas circunstancias, el criterio binario podría unir las categorías 1 y 4 para
formar una superclase, y formar la otra superclase con las categorías 2 y 3. No
obstante, si consideramos que estas categorías están ordenadas, no es bueno que se
combinen las categorías 1 y 4 (sin incluir también las categorías intermedias) porque
no son contiguas. El índice binario ordenado tiene en cuenta este orden y no
combinará categorías que no sean contiguas como la 1 y la 4.

Desviación cuadrática mínima (LSD). Para variables criterio continuas se utiliza
la medida de impureza LSD. La medida LSD, ( ) t R , es simplemente la varianza
(ponderada) dentro del nodo t , y es igual a la estimación del riesgo mediante
reestimación para dicho nodo. Se define como

( )
( )
( ) ( )


− =
t i
i n n
w
t y y f w
t N
t R
2 1


donde ( ) t N
w
es el número ponderado de casos en el nodo t ,
n
w es el valor de la
variable de ponderación para el caso i (si existe),
n
f es el valor de la variable de
frecuencia (si existe), y
i
y es el valor de la variable criterio y finalmente ( ) t y es la
media (ponderada) para el nodo t .

La función del criterio LSD para la división s en el nodo t se define como

( ) ( ) ( ) ( )
R R L L
t R p t R p t R t s − − = Φ ,

Se elige la división s para maximizar el valor de ( ) t s, Φ . Este valor, ponderado por la
proporción de todos los casos del nodo t , es el valor que se considera la “mejora”
en el árbol.



Anexo C. Árboles de decisión

100

2.3.4 Algoritmo C&RT

1. Para llevar a cabo un análisis C&RT, comenzando por el nodo raíz 1 = t ,
buscar la división

s entre todos los candidatos posibles S que dé lugar a la
mayor reducción de la impureza:

( ) ( ) 1 , max 1 , s s
S s∈

Φ = Φ

A continuación, dividir el nodo 1 ( ) 1 = t en dos nodos 2 = t y 3 = t utilizando
la división

s .

2. Repetir el proceso de búsqueda de divisiones para cada uno de los nodos
2 = t y 3 = t , y así sucesivamente.

3. Continuar con el proceso de desarrollo del árbol hasta alcanzar al menos las
reglas de parada.


2.4 Método QUEST

Las siglas QUEST corresponden al término inglés Quick, Unbiased, Efficient Statistical
Tree. Es un algoritmo binario relativamente reciente, desarrollado por Loh y Shih
(1997). Este método trata por separado la selección de variables y la selección del
punto de división.

La división univariante del método lleva a cabo una selección de variables
aproximadamente insesgada; esto es, si todas las variables predictoras son igualmente
informativas respecto a la variable criterio, QUEST selecciona cualquiera de las
variables predictoras con la misma probabilidad. Este método está creado con vistas
a la eficacia de los cálculos, presenta muchas de las ventajas del método C&RT, pero
al igual que este último, los árboles pueden ser poco manejables.









Anexo C. Árboles de decisión

101

2.4.1 Algoritmo QUEST

El nivel para α a utilizar se puede especificar en las opciones avanzadas de QUEST.
El valor predeterminado es 5 . 0 = α .

1. Para cada variable predictora X , si X es una variable categórica nominal,
calcular el nivel crítico de una prueba de independencia
2
χ de Pearson entre
X y la variable dependiente categórica. Si X es continua u ordinal, utilizar la
prueba F para calcular el nivel crítico.

2. Comparar el menor nivel crítico con el nivel α preestablecido, corregido
mediante Bonferroni.

a. Si el nivel crítico es menor que α , seleccionar la variable predictora
correspondiente para dividir el nodo. Ir al paso 3.
b. Si el nivel crítico es mayor que α , para cada X ordinal o continua,
utilizar la prueba de Levene (F de Levene)
31
sobre varianzas
desiguales, para así calcular su nivel crítico. En otras palabras, intentar
averiguar si X presenta varianzas desiguales en los distintos niveles de
la variable criterio.
c. Comparar el menor nivel crítico de la prueba de Levene con el nuevo
nivel α , corregido mediante Bonferroni.
d. Si el nivel crítico es menor que α , seleccionar la variable predictora
correspondiente con el menor nivel crítico en la prueba de Levene
para dividir el nodo. Ir al paso 3.
e. Si el nivel crítico es mayor que α , seleccionar la variable predictora del
paso 1 cuyo nivel crítico se el menor (ya sea a partir de la prueba de
2
χ o de la prueba F ) para dividir el nodo. Ir al paso 3.

3. Supongamos que X es la variable predictora del paso 2. Si X es continua u
ordinal, ir al paso 4. Si X es nominal, transformar X en una variable ficticia
Z y calcular la mayor coordenada discriminante de Z . De manera general, se
transforma X para maximizar las diferencias entre las categorías de la
variable criterio.


31
Estadístico de prueba utilizado para comprobar las diferencias en la varianza de las variables
predictoras en todas las categorías de la variable criterio.



Anexo C. Árboles de decisión

102

4. Si Y tiene sólo 2 categorías, ir al paso 5. De lo contrario, calcular la media de
X para cada categoría de Y y aplicar un algoritmo de agrupación de dos
medias para obtener dos superclases de Y .

5. Aplicar el análisis discriminante cuadrático (QDA) para determinar el punto
de división. Se debe tener en cuenta que el QDA normalmente genera dos
puntos de corte, se debe elegir el más cercano a la media muestral de cada
clase.


103

Bibliografía



Cheng, B. and Titterington, D.M. (1994). Neural Networks: A Review from a
Statistical Perspective. Statistical Science, 9, No.1, 2-54.

Demuth, H., Beale, M. and Hagan, M. (2007). Neural Network Toolbox 5: User´s Guide.
The MathWorks, Inc.

Eccles, J.C. (1973). The understanding of the Brain. McGraw-Hill.

Everitt, B.S., Landau, S., and Leese, M. (2001). Cluster Analysis, 4
th
ed. Oxford
University Press Inc., New York.

Freeman, J.A. and Skapura, D.M. (1991). Neural Networks. Algorithms, Applications and
Programming Techniques. Adison Wesley. USA.

Hecht-Nielsen, R. (1988). Neurocomputing: picking the human brain. IEEE.
Spectrum, 25, No.3, 36-41.

Hilera, J. y Martínez, V. (1995). Redes Neuronales Artificiales: Fundamentos, Modelos y
aplicaciones. Ra-ma. Madrid.

Johnson, D.E. (2000). Métodos multivariados aplicados al análisis de datos. International
Thomson Editores.

Kohonen, T. (1995). Self-Organizing Maps. Springer Series in Information Sciences.

Martín, B. y Sanz, A. (2002). Redes Neuronales y Sistemas Difusos, 2ª ed. Alfaomega Ra-
ma. Madrid.

SPSS Inc. (2205). Guía del usuario de AnswerTree 3.1. SPSS Inc.

Vesanto, J. and Alhoniemi, E. (2000). Clustering of the Self-Organizing Map. IEEE
Transactions on Neural Networks, 11, No.3, 586-600.

Warner, B. and Misra, M. (1996). Understanding Neural Networks as Statistical
Tools. The American Statistician, 50, No.4, 284-293.

Contenido
Prólogo .................................................................................................... III Introducción.............................................................................................V 1.- Fundamentos de las Redes Neuronales Artificiales............................ 1 1.1 Introducción .................................................................................................... 1 1.2 Breve introducción biológica......................................................................... 4 1.3 Generación y transmisión de la señal nerviosa ........................................... 6 1.4 Procesos plásticos en la sinapsis ................................................................... 7 1.5 Sistemas paralelos, distribuidos y adaptativos ............................................. 8 1.6 Características generales de los modelos neuronales artificiales ............... 9 1.7 Modelo general de neurona artificial ............................................................ 13 1.8 Modelos de Redes Neuronales (Taxonomía) .............................................. 17 1.9 RNA y Estadística........................................................................................... 29 2.- Los mapas autoorganizados ................................................................ 31 2.1 Introducción .................................................................................................... 31 2.2 Algoritmo de aprendizaje ............................................................................... 35 2.3 Interpretación del algoritmo de aprendizaje................................................ 38 2.4 Consideraciones prácticas .............................................................................. 38 2.5 Modelos de neuronas de Kohonen – Medidas de similitud ...................... 41 2.6 Modelos de aprendizaje en mapas autoorganizados .................................. 43 2.7 Regla de aprendizaje euclídea ........................................................................ 45 2.8 Regla de aprendizaje de Manhattan .............................................................. 46 2.9 Regla de aprendizaje derivada del producto escalar ................................... 47 3.- Ejemplo comparativo........................................................................... 51 3.1 Introducción .................................................................................................... 51 3.2 Descripción del conjunto de datos ............................................................... 54 3.3 Clasificación de lirios mediante mapas autoorganizados........................... 55 3.4 Clasificación de lirios mediante análisis cluster ............................................. 62 3.5 Clasificación de lirios mediante árboles de decisión................................... 68 3.6 Resumen comparativo de los 3 métodos..................................................... 74 Conclusiones ............................................................................................. 76 Anexo A. SOM Toolbox en MatLab......................................................... 77 Anexo B. Análisis cluster .......................................................................... 80 Anexo C. Árboles de decisión ................................................................... 92 Bibliografía................................................................................................ 103
II

Prólogo
Hasta ahora, los métodos de clasificación más ampliamente utilizados tanto con fines didácticos como para la solución de problemas reales son, entre otros, el análisis cluster en cualquiera de sus variantes, los árboles de decisión y el análisis discriminante. A diferencia del análisis discriminante, los dos primeros métodos (análisis cluster y árboles de decisión) funcionan tanto para fines de agrupación como de clasificación; mientras que el análisis discriminante tiene básicamente fines clasificatorios. Cuando se desea encontrar una propuesta de solución a un problema de clasificación se recomienda evaluar diferentes alternativas, es decir, obtener soluciones mediante diferentes técnicas y con diversos escenarios (por ejemplo en el análisis cluster puede optarse por los métodos jerárquicos o no jerárquicos) con la finalidad de probar la consistencia de las soluciones o bien, elegir la que mejor se adecue al problema planteado. El objetivo de este trabajo es mostrar que las redes neuronales artificiales (específicamente, los mapas autoorganizados) pueden ser utilizadas como un método alternativo o complementario a los métodos de clasificación tradicionales. Si se puede mostrar que para un mismo problema la solución obtenida mediante redes neuronales artificiales es semejante o incluso superior a la solución generada por los métodos tradicionales se podrá entonces contar con la opción de utilizar la solución de este método (mapas autoorganizados) como un resultado válido o bien, si se prefiere, complementarla con otros métodos si se desea una solución más robusta. Para mostrar una posible semejanza entre métodos, se realizará la comparación de los resultados arrojados por cada uno identificando las ventajas y desventajas así como sus principales similitudes y diferencias desde la etapa de implementación hasta la interpretación de los resultados generados. En el caso de los métodos tradicionales se contemplará únicamente el análisis cluster y los árboles de decisión debido a que se realiza primero una agrupación (la cual el análisis discriminante no realiza) seguida de una clasificación para determinar el margen de error de cada método.

III

La teoría presentada se enfocará en las redes neuronales artificiales, en el caso del análisis cluster y los árboles de decisión se mostrará un anexo estadístico indicando también las fuentes en donde puede profundizarse la teoría sobre estos métodos. El trabajo consta de 3 capítulos; en el primero se presentan los fundamentos de las redes neuronales artificiales así como un breve repaso a la historia del desarrollo de sistemas y máquinas dotadas de cierta inteligencia y su paralelismo con los sistemas neuronales biológicos. Se exponen también las características generales de los modelos neuronales artificiales y las motivaciones que desembocan en la introducción de éstas como alternativa o complemento a los sistemas de procesamiento más utilizados en la actualidad. Una vez expuestos los conceptos básicos relacionados con las redes neuronales artificiales, se da paso al capítulo 2 centrado en el modelo de mapas autoorganizados, uno de los sistemas neuronales no supervisados más conocidos y utilizados. Se presenta el modelo general de mapas autoorganizados así como algunos de sus algoritmos de aprendizaje. Finalmente, en el capítulo 3 se muestran las soluciones generadas por cada uno de los tres métodos expuestos, se resaltan las ventajas y desventajas de cada uno de tal forma que el lector pueda decidirse sobre uno de ellos o bien, optar por una combinación para robustecer la solución generada.

IV

Introducción
El cerebro es un procesador de información con características muy notables. Es capaz de procesar inmediatamente grandes cantidades de información procedentes de los sentidos, combinarla o compararla con la información almacenada y dar respuestas adecuadas incluso en situaciones nuevas. Logra discernir un susurro en una sala ruidosa, distinguir una cara en una calle mal iluminada o leer entre líneas en una conversación; pero lo más impresionante de todo es su capacidad de aprender a representar la información necesaria para desarrollar tales habilidades sin instrucciones explícitas para ello. Aunque todavía se ignora mucho sobre la forma en que el cerebro aprende a procesar la información, se han desarrollado modelos que tratan de mimetizar tales habilidades; a este tipo de modelos se les conoce como Redes Neuronales Artificiales. La elaboración de estos modelos supone en primer lugar la deducción de los rasgos o características esenciales de las neuronas y sus conexiones, y en segundo lugar, la implementación del modelo computacional de forma que se pueda simular. Existen varios tipos de modelos de Redes Neuronales Artificiales, cada uno con un algoritmo y fin específico. Los mapas autoorganizados o mapas de Kohonen (nombre de su desarrollador) se basan en el hecho de que en algunas partes del cerebro, las neuronas, están interconectadas siguiendo una misma estructura, el lugar en donde las conexiones de las neuronas forman una estructura u organización es el reflejo del entorno sensitivo. En el cerebro podemos encontrarnos mapas topológicos de los órganos sensoriales de nuestro cuerpo. En determinadas zonas del cerebro humano se ha encontrado experimentalmente que las neuronas detectoras de rasgos se encuentran topológicamente ordenadas. Ante un estímulo proveniente de sensores de la piel próximos entre sí, se estimulan neuronas del cerebro pertenecientes a una misma zona. Estos mapas se organizan de manera autónoma sin una referencia por medio de la cual se puedan corregir errores; pues el cerebro tiene la capacidad suficiente para clasificar la información nueva sin tener una referencia anterior en la cual pueda apoyarse. Así, el cerebro se organiza de manera automática, o dicho de otra manera, se autoorganiza. La vida nos proporciona abundantes ejemplos de la autoorganización; cuando los alumnos asisten a un curso, el primer día se sientan en las sillas de forma aleatoria, conforme pasan los días se recolocan en el aula, de forma que conforme pasa el
V

El número y características de las clases son desconocidos a priori (aprendizaje no supervisado). etc. etc.tiempo se sientan juntos según sus afinidades. Para generar un mejor entendimiento en cuanto a los fines que la autoorganización persigue. Por su parte. la clasificación trabaja a partir del conocimiento de la existencia de un conjunto de clases y determina la regla para asignar cada nueva observación (o ejemplo) a la clase que pertenece. el aprendizaje no supervisado o autoorganizado es semejante al alumno que aprende por sí mismo. VI . Es decir. determina reglas de asignación a clases conocidas (aprendizaje supervisado). Algunos problemas reales en los que los mapas autoorganizados han demostrado su eficacia incluyen tareas de clasificación. el grupo de alumnos que se sientan en las últimas filas. El agrupamiento o clustering trabaja a partir de una serie de observaciones y determina si existen clases en la que dichas observaciones puedan ser agrupadas. libros. Si el aprendizaje supervisado se asemeja al profesor que enseña y corrige al alumno. Este modelo neuronal utiliza una estrategia de aprendizaje que los humanos utilizamos frecuentemente. Su utilidad más importante se relaciona con la clasificación de información o el agrupamiento de patrones. determina la existencia de clases en las cuales poder agrupar. Al realizar un agrupamiento. sin la ayuda de un profesor. al término de éste podemos generar una regla de clasificación que permita continuar categorizando la nueva información en las clases ahora ya existentes. reducción de dimensiones y extracción de rasgos. A menudo hay grupos exclusivamente formados por chicas o chicos. Es decir. el llamado aprendizaje no supervisado. conviene revisar los conceptos de agrupación y clasificación que en algunas ocasiones son interpretados (erróneamente) como lo mismo. pero disponiendo de material docente.

Una de las metodologías con mayor auge en la última década son los modelos de Redes Neuronales Artificiales (RNA)1. Modelos y aplicaciones. Se expondrán las características generales de los modelos neuronales artificiales y las motivaciones que desembocan en la introducción de éstas como alternativa o complemento a los sistemas de procesamiento más utilizados en la actualidad. "la neurona artificial". J. la llamada por muchos la máquina perfecta: el cerebro humano. que surge como imitación de la forma en la que un murciélago es capaz de detectar los objetos que están en su camino sin necesidad de verlos.Capítulo 1 1. surge casi de manera automática la idea de poder imitar dicho funcionamiento en un elemento artificial.. (1995). y Martínez. Rama. 1 1 . aún se enfrenta con el reto de poder imitar. Por ejemplo. Redes Neuronales Artificiales: Fundamentos. V. Madrid. 1. se define una red neuronal como una nueva forma de computación. por medio de la emisión de una onda ultrasónica. que en esencia son estructuras formales de En Hilera. inspirada en modelos biológicos. Aunque el hombre ha sido capaz de reproducir funciones de los animales. se puede citar el radar.Fundamentos de las Redes Neuronales Artificiales En este capítulo se realizará un breve repaso a la historia del desarrollo de sistemas y máquinas dotadas de cierta inteligencia así como su paralelismo con los sistemas neuronales biológicos. Cuando la neurociencia pudo explicar de forma un poco convincente el funcionamiento de la unidad principal de procesamiento de información que posee el cerebro. la neurona.1 Introducción Muchos de los desarrollos del hombre se deben a su capacidad para explicar y emular funciones que son realizadas por seres vivos. la posterior recepción de la señal de eco y su procesamiento.

es decir. Fundamentos de las Redes Neuronales Artificiales carácter matemático y estadístico con la propiedad de aprendizaje. 2 . Este aprendizaje se produce mediante un estilo de computación que intenta simular algunas de las capacidades que posee nuestro cerebro: la capacidad de memorizar y asociar hechos. la neurona. En definitiva. nos daremos cuenta de que todos ellos tienen una característica común: la experiencia.1. la adquisición de conocimientos que en la mayoría de los casos es a partir de ejemplos. que es capaz de adquirir conocimiento a través de la experiencia y cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano. un sistema para el tratamiento de la información. Los modelos de redes neuronales son variados. es decir.Capítulo 1. las redes neuronales artificiales no son más que un modelo artificial y simplificado del cerebro humano. al menos 50 diferentes tipos han sido explorados en investigación o han sido desarrollados para aplicaciones. Se muestran los principales de uso común en la Tabla 1. Si examinamos con atención aquellos problemas que no pueden expresarse a través de un algoritmo.

Cerebellatron 1969 Semejante a Avalancha. Reconocimiento de caracteres manuscritos. 1985-86 Reconocimiento de Redes simples. Aprendizaje y arquitectura simples. Stephen Grossberg. Back Propagation 1974-85 Red más popular. Harold radar). John Hopfield. aprendizaje. Ninguna red sencilla puede Control de brazos de robot. hacer todo esto. Szu. Control de movimiento de los brazos de un robot. Realiza mapas de características comunes de los datos aprendidos. Predicción. Reconocimiento de patrones (radar. Sofisticada. Fundamentos de las Redes Neuronales Artificiales Red Año Aplicaciones más importantes Reconocimiento de caracteres impresos. Reconocimiento de patrones. Avalancha 1967 Reconocimiento de habla. optimización. Posiblemente mejor realización que las redes de Hopfield. y optimización. Extracción de conocimiento de bases de datos. Filtrado de señales. Control de robots. Potente. David Marr.) Tratamiento de imágenes. Gail Carpenter. sonar. Síntesis de voz desde texto. sonar y representación óptima de Sejnowski. Reconocimiento de patrones. Perceptrón 1957 La red más antigua. Paul Werbos. Neocognitrón 1978-84 K. Self-Organizing-Map (SOM). Memoria heteroasociativa de acceso por contenido. Poco utilizada. Nielsen.Capítulo 1. Ecualizador adaptativo. Rápida.Map (TPM) 1980-84 Teuvo Kohonen. Adaline / Madaline 1960 Bernard Widrow. 1998) 3 . David Numerosas aplicaciones con Parker.propagation 1985 Bart Kosko. Andres Pellionez. etc.1. Facilidad de Rumelhart. James Albus. codificación de datos. Modelos de RNA más conocidos (Fuente: Adaptada de Hetch. David éxito. rotación y escala. Stephen Grossberg. Capacidad de Jeffrey Hinton. Brain-Estate-in-a-Box 1977 James Anderson. Optimización. Módems. fácil de implementar. patrones. Tabla 1. Terry patrones (imágenes. TopologyPreserving.Nielsen. Fukushima. 1986 1986 Combinación de Perceptrón Robert Hechty TPM. Comentarios Inventada/ desarrollada por Frank Rosenblatt. Hopfield 1982 Reconstrucción de patrones Fácil de conceptualizar. Insensible a la translación. Memoria Asociativa Bidireccional Máquinas de Boltzmann y Cauchy Teoría de la Resonancia Adaptativa (ART) Counter.

con un cuerpo celular o soma (de entre 10 y 80 micras de longitud). y del cual parte una fibra tubular denominada axón que también se ramifica en su extremo final para conectarse con otras neuronas. dejando firmemente establecido que la neurona es la unidad histológica y fisiológica del sistema nervioso. Para un mejor entendimiento del funcionamiento del cerebro se recomienda leer la obra de Eccles. Fundamentos de las Redes Neuronales Artificiales 1. era la creencia extendida. La historia de las redes neuronales artificiales comienza con el científico Santiago Ramón y Cajal. que reflejan más fielmente la realidad biológica. Comparaban la estructura de la sustancia gris cerebral y de otros territorios nerviosos a un complejo retículo formado por la fusión de las prolongaciones de las células nerviosas. que sostenía que el sistema nervioso estaba formado por una red continua de fibras nerviosas. Ramón y Cajal demostró que el sistema nervioso en realidad estaba compuesto por una red de células individuales. Sin embargo en 1888. Pero no sólo observó al microscopio los pequeños espacios vacíos que separaban unas neuronas de otras. sino que también estableció que la información fluye de una neurona a otra desde las dendritas hasta el axón. A finales del siglo XIX la teoría reticularista3. descubrimiento básico para el desarrollo de las neurociencias en el siglo XX . por la que se le concedió el premio Nobel en 1906.1. 3 Varios investigadores defendieron la concepción reticularista del sistema nervioso. J. The understanding of the Brain. Esta es la llamada Teoría Neuronal. ampliamente interconectadas entre sí. McGraw-Hill. 2 4 . demostró que las relaciones entre las células nerviosas o neuronas eran de contigüidad y no de continuidad.C. este tipo de células puede presentarse en múltiples formas. Esta teoría implicaba negar la individualidad de estas células.2 Breve introducción biológica Antes de abordar el estudio de las RNA es conveniente exponer algunos conceptos básicos de los sistemas neuronales biológicos. un gran neuroanatomista español descubridor de la estructura neuronal del sistema nervioso. sin embargo se puede mostrar cómo el sencillo modelo de neurona artificial que se emplea en las RNA puede derivarse de modelos más complejos. del que surge un denso árbol de ramificaciones (árbol dendrítico) compuesto por las dendritas. (1973).). para poder establecer más fácilmente el paralelismo entre ambos2. aunque muchas de ellas tienen un aspecto similar muy peculiar (Figura 1. Cajal desmintió la teoría reticularista gracias a sus investigaciones. Se trata de una visión simplificada (válida para nuestro propósito) del funcionamiento del cerebro. Se estima que el sistema nervioso contiene alrededor de cien mil millones de neuronas. atravesando el soma. tras años de trabajo.Capítulo 1. las neuronas.

que constituyen unidades funcionales especializadas en ciertas tareas (por ejemplo. etc. que intercambian continuamente información. 4 5 . y envía impulsos a varios cientos de ellas (divergencias). Estructura de una neurona biológica típica. existe un área visual. En el espacio inter neuronal el axón envía la información a otras neuronas. Se tiene evidencia de que el procesamiento en el sistema nervioso involucra la actuación de muchos subsistemas. Como todo sistema de este tipo. en el árbol dendrítico también se lleva a cabo un cierto procesamiento. el soma. mientras que en las neuronas motoras lo hace directamente al músculo. las dendritas. coexistiendo una organización vertical en forma de columnas de neuronas. Fundamentos de las Redes Neuronales Artificiales ´ Figura 1. En realidad.Capítulo 1. el axón4 . un área auditiva. Existe un tercer tipo de neuronas. En el córtex cerebral se aprecia la existencia de una organización horizontal en capas (se suelen señalar unas seis capas). la reciben directamente del exterior.1. las receptoras o sensoras. Hay grupos neuronales. un órgano de cómputo. el soma también puede recibir información directamente de otros axones. por término medio.). compuestos por millones de neuronas pertenecientes a una determinada región del cerebro. y un canal de salida. de unas 10. Se calcula que una neurona del córtex cerebral recibe información. Desde un punto de vista funcional. por otra parte. sin la mediación de las dendritas. las neuronas constituyen procesadores de información sencillos. poseen un canal de entrada de información. que en vez de recibir la información de otras neuronas. 000 neuronas (convergencia).

los fijarán. La transmisión química prevalece fuera de la neurona y se basa en el intercambio de neurotransmisores. sino que éstas permanecen separadas por un pequeño vacío de unas 0. En el tipo de sinapsis más común no existe un contacto físico entre las neuronas. hasta que se alcanza una saturación conforme nos acercamos a la frecuencia máxima (umbral). 5 6 La palabra sinapsis viene del griego “synapto” que significa unión o conexión estrecha. La señal que es recibida por la neurona posee diferentes grados de ponderación. Existen evidencias experimentales que indican que un axón sólo puede generar sinapsis excitatorias o inhibitorias. La neurona presináptica libera unas complejas sustancias químicas denominadas neurotransmisores (como la adrenalina). que se integrarán en el soma. En relación a la sinapsis. Las señales nerviosas se pueden transmitir eléctrica o químicamente. se habla de neuronas presinápticas (que envían las señales) y postsinápticas (que las reciben). cuando la ponderación es alta. Las corrientes iónicas que de esta manera se crean provocan pequeños potenciales postsinápticos. excitadores o inhibidores. el potencial de membrana de la neurona se vuelve positivo.Capítulo 1.2 micras. y como consecuencia de ello permitirán el paso de determinados iones a través de la membrana. y que se propagan por el axón. contrariamente cuando la ponderación es baja. éste es el origen de la existencia de sinapsis excitatorias y de sinapsis inhibitorias6. La forma de comunicación más habitual entre dos neuronas es del tipo químico. que atraviesan el vació sináptico. mientras que la eléctrica lo hace en el interior mediante descargas que se producen en el cuerpo celular. rebasa el umbral y envía la correspondiente señal a la siguiente neurona del circuito.3 Generación y transmisión de la señal nerviosa La unión entre dos neuronas se denomina sinapsis5. el umbral no se rebasa y no se transmite señal a las otras neuronas. vamos a fijar los siguientes aspectos: las señales que llegan a la sinapsis son las entradas a la neurona. Si la neurona postsináptica posee en las dendritas o en el soma canales sensibles a los neurotransmisores liberados. denominado peso sináptico. Fundamentos de las Redes Neuronales Artificiales 1. pero no de ambos tipos (Ley de Dale). Ante un estímulo mayor la frecuencia de respuesta aumenta. asociado a la sinapsis correspondiente. éstas son ponderadas (atenuadas o amplificadas) a través de un parámetro. 6 . Para establecer una similitud directa entre la actividad sináptica y la analogía con las RNA.

transinápticos. 7 Este tipo de procesos son los que se utilizan en los mapas autoorganizados. A los procesos heterosinápticos podríamos a su vez clasificarlos como procesos cooperativos y de competencia7. Si la suma es igual o mayor que el umbral de la neurona. con componentes de corto y largo plazo. definiremos que los cambios plásticos pueden ser a corto y a largo plazo. 7 . A este tipo de procesos se les denomina procesos plásticos en la sinapsis o simplemente plasticidad sináptica. Por último. Es un incremento en la cantidad de transmisor liberado como resultado de la actividad repetitiva de una vía. 1. que tiene componentes de corto y largo plazo. cada neurona se activa o no se activa. cuando los cambios ocurren por la acción concentrada entre la pre y la postsinapsis. 3) Sensibilización.4 Procesos plásticos en la sinapsis Se ha observado que la conectividad entre dos células puede modificarse en función de la experiencia. Para nuestro estudio de los procesos plásticos vamos a clasificarlos en procesos presinápticos. si los cambios ocurren en la presinapsis. Esta es una situación todo o nada.Capítulo 1. postsinápticos. Los procesos plásticos más ampliamente estudiados son: 1) Habituación. haremos la división entre los procesos homosinápticos. es decir. cuando los cambios ocurren en las postsinapsis. es un proceso homosináptico-presináptico. Fundamentos de las Redes Neuronales Artificiales Estas señales de entrada pueden excitar a la neurona (sinapsis con peso positivo) o inhibirla (peso negativo). es un proceso presináptico-heterosináptico cooperativo con componentes de corto y largo plazo. Es el incremento de la cantidad de transmisor de una vía por la acción de otra neurona. cuando los cambios plásticos ocurren como resultado de la interacción de varias sinapsis. El efecto es la suma de las entradas ponderadas. y los heterosinápticos. que sólo ocurren por la acción de una sola sinapsis. Asimismo. Consiste en una disminución en la cantidad de transmisor liberado como resultado de la experiencia. 2) Potenciación postetánica. entonces la neurona se activa (da salida). Es un proceso homosinápticopresináptico.

analizarla e interpretarla. distribuidos y adaptativos. 1. memoria distribuida y adaptabilidad al entorno. en las RNA se encuentra distribuida por las sinapsis de la red.Capítulo 1. Además. podemos hablar de las RNA como sistemas paralelos. Es la disminución de la cantidad de transmisor de una vía por la acción de otra neurona. el sistema resulta tolerante a fallos.1 Procesamiento paralelo El cerebro tarda aproximadamente 20 ms en preprocesar una imagen compuesta por millones de píxeles. 1. extraer sus características. con componentes de corto y largo plazo. los sistemas neuronales biológicos son redundantes. Fundamentos de las Redes Neuronales Artificiales 4) Inhibición heterosináptica. Por ejemplo. 5) Condicionamiento. Ningún sistema creado por el hombre es capaz de realizar algo semejante.5. es un proceso presinápticoheterosináptico competitivo.5 Sistemas paralelos. 1.2 Memoria distribuida Mientras que en un procesador la información ocupa posiciones de memoria bien definidas. son: paralelismo de cálculo. en definitiva. de modo que si una sinapsis resulta dañada. Es la capacidad que se tiene para modificar la conducta en base a la asociación de dos estímulos. distribuidos y adaptativos Los tres conceptos clave de los sistemas nerviosos que se pretende emular en los artificiales. La clave reside en que en este último caso los miles de millones de neuronas que intervienen en el proceso de visión están operando en paralelo sobre la totalidad de la imagen. cada día mueren miles de neuronas en nuestro cerebro. de modo que muchas neuronas y sinapsis pueden realizar un papel similar. se pierde sólo una parte muy pequeña de la información.5. y sin embargo tienen que pasar muchos años para que se resientan nuestras 8 . De esta manera. es un proceso presinápticoheterosináptico cooperativo de corto y largo plazo.

pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red. aprenden a llevar a cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos.2. el cual utilizaba unidades de procesamiento denominadas neuronas que poseían dos estados discretos. 1. Fundamentos de las Redes Neuronales Artificiales capacidades. ésta es una tolerancia a fallos respecto a los datos. Asociados a cada uno de ellos. “ t +1 ”. es decir.3 Aprendizaje adaptativo Es una de las características más atractivas de las RNA. Hay dos aspectos distintos respecto a la tolerancia a fallos: primero.6 Características generales de los modelos neuronales artificiales Los modelos neuronales asumen muchas simplificaciones del modelo biológico para poder plantear su desarrollo matemático.Capítulo 1. las redes pueden aprender a reconocer patrones con ruido. La razón por la que las RNA son tolerantes a fallos es que tienen su información distribuida. en esta línea.5. pero con la limitación que sólo permitían computar funciones booleanas. El modelo de McCulloch-Pitts se basa en las siguientes hipótesis. Esto es. Una RNA no necesita un algoritmo para resolver un problema. En primer lugar. Las RNA resuelven problemas mediante autoaprendizaje y autoorganización. 9 .). depende solamente del estado que poseía en el período anterior. el estado de una neurona en el tiempo. Las RNA son los primeros métodos computacionales con la capacidad inherente de tolerancia a fallos. el primer modelo artificial fue diseñado por McCulloch-Pitts (1943) (Figura 1. 1. no es necesario elaborar modelos a priori ni especificar funciones de distribución de probabilidad. se conseguía una salida que se transmitía a lo largo de la estructura vinculada a la red neuronal. ya que ella puede generar su propia distribución de los pesos de los enlaces mediante aprendizaje. Segundo. “ t ”. distorsionados o incompletos.

se asume la sincronía8 entre las entradas y las salidas. de forma que son las propias conexiones o pesos donde se retiene el conocimiento. “ xt ” y en segundo lugar.  n  y i = f  ∑ wij x j − θ i  = f (a )  j =1    1 si a ≥ 0 f (a ) =    0 e. las neuronas evalúan su estado continuamente. Es de gran importancia notar que no existe a priori una definición explícita de la forma del conocimiento. una neurona estará activada o no si supera un umbral θ . En el primer caso.Capítulo 1. en definir el estado de la entrada. La expresión que describe su funcionamiento es. los cambios se realizan simultáneamente. el propio algoritmo iterativo de estimación de los parámetros (pesos) desconocidos. se encarga de extraer la presencia de regularidades en los datos. Modelo de neurona McCulloch-Pitts La formalización del diseño del modelo de McCulloch-Pitts consiste. 8 10 . según les va llegando información. x1 x2 x3 xn wi1 wi 2 wi 3 win f (a ) yi Figura 1. En el caso sincrónico aunque la información llega de forma continua. Fundamentos de las Redes Neuronales Artificiales En segundo lugar. Los sistemas neuronales biológicos muy probablemente actúan de forma mixta. y en último lugar. y lo hacen de forma independiente. “ y t ”. la salida en el momento t . La dinámica que rige la actualización de los estados de las neuronas (evolución de la red neuronal) puede ser de dos tipos: asincrónico y sincrónico.2. en primer lugar.o.c  En los modelos neuronales la información se genera a partir del aprendizaje de la estructura interna de los datos.

Capítulo 1. La topología de la red (forma de la red) muestra cómo los diferentes nodos están conectados entre sí. divididos en: modelos deterministas y modelos estocásticos. el tipo de sus unidades de procesamiento. primeramente. El primer aspecto. en segundo lugar. el tipo de conexiones de estas unidades o neuronas.   n y = f  ∑ wi x i    i =1 donde f (⋅) es una función de activación10.  n  P( y = 1) = f  ∑ wi xi   i =1  y  n  P( y = 0) =1 − P( y = 1) =1 − f  ∑ wi xi   i =1  donde la salida es un valor continuo entre [0 . En una primera aproximación. y la forma en cómo se comunican. en cambio para las redes con neuronas estocásticas. Para el caso determinista tenemos que cada neurona sigue una ley del tipo. en tercer lugar. podemos encontrar una clasificación en función a los tipos de las salidas que genera el modelo. la arquitectura de una red neuronal. 10 Se definirá más a detalle en la siguiente sección. cuya gran variedad obliga a la vertebración de los mismos mediante clasificaciones o taxonomías.1] que se interpreta como una probabilidad. Fundamentos de las Redes Neuronales Artificiales Los aspectos de mayor relevancia en los modelos neuronales son. se refiere a la forma de las conexiones entre las unidades neuronales. Su forma genera toda una familia de posibles modelos. y en cuarto lugar. 9 11 . su arquitectura o topología9. la activación de la red se interpreta como una probabilidad de un estado lógico tal y como se expresa en las siguientes ecuaciones. los tipos de aprendizaje.

3. Éstas pueden no estar conectadas directamente con las neuronas visibles (Figura 1. poseen la función de capturar la representación interna de los datos. denominados feed-forward y en segundo lugar. en primer lugar. Existen neuronas visibles y neuronas ocultas. las propias neuronas consigo mismas. Tipología de las unidades de procesamiento de neuronas El tercer aspecto descansa en el tipo de conexiones que se establecen entre las unidades de procesamiento o neuronas. los modelos que se propagan en una sola dirección. El cuarto aspecto hace referencia a los tipos de aprendizaje.). Visible Oculto Visible Figura 1.3. los modelos recurrentes. Así tenemos. Existen dos tipos de aprendizaje.Capítulo 1. Por neuronas visibles se entienden tanto las entradas (variables exógenas) como las salidas (variables endógenas). Fundamentos de las Redes Neuronales Artificiales El segundo aspecto es la tipología existente en las unidades de procesamiento o neuronas. 12 . La diferencia fundamental entre ambos tipos estriba en la existencia o no de un agente externo (supervisor o maestro) que controle el proceso de aprendizaje de la red. supervisado y no supervisado. en cambio las neuronas ocultas. cuyas conexiones se establecen en todas las direcciones incluso con procesos de realimentación. es decir.

4. que permitirá aglutinar tanto los modelos supervisados como los no supervisados.): 1. 3. g i (hi (t )) . Los pesos sinápticos de la neurona i .4. Un conjunto de entradas.7 Modelo general de neurona artificial Los elementos básicos de un modelo de neurona artificial son (Figura 1. f i (g i (hi (t ))) . Fundamentos de las Redes Neuronales Artificiales 1.Capítulo 1. La regla de propagación.4. Y finalmente la función de salida. x j (t ) x1 wij Regla de propagación Función de transferencia o activación Función de salida x2 yi M xn hi (t ) = σ (wij . La función de activación o transferencia. Modelo genérico de neurona artificial Los elementos descritos posibilitarán una generalización formal. 5. 2. x j (t )) g i (h i (t )) fi ( gi ( hi (t ))) Figura 1. x j (t ) . wij . hi (t ) = σ (wij . A continuación se definen cada uno de estos elementos: 13 . x j (t )) .

es decir. se muestran algunas de ellas. proporciona el valor del potencial postsináptico de la neurona i en función de sus pesos y entradas. especialmente en los modelos basados en el cálculo de distancias entre vectores (como en los mapas autoorganizados) es la distancia euclídea que representa la distancia (al cuadrado) existente entre el vector de entradas y el de pesos. cuando son muy diferentes.7. 14 . la distancia crece.5. si es negativo tenderá a inhibirla. como la Manhattan o la de Mahalanobis. Si el peso es positivo tenderá a excitar a la neurona postsináptica. wij representan la intensidad de interacción entre cada neurona presináptica j y la neurona postsináptica i . Fundamentos de las Redes Neuronales Artificiales 1.7. 1. La regla de propagación es un elemento relevante que puede poseer diferentes formas. x j (t )) . son las señales que llegan a la sinapsis. también conocida como función de ponderación o de excitación. La regla de propagación habitual. la distancia es muy pequeña. en la Figura 1.3 La regla de propagación La regla de propagación hi (t ) = σ (wij .2 Pesos sinápticos Los pesos sinápticos de la neurona i . Se pueden utilizar también otros tipos de distancias.7.Capítulo 1.1 Conjunto de entradas El conjunto de entradas x j (t ) se refiere a un vector de entradas procedentes del exterior o de otras neuronas. Cuando ambos vectores son muy similares. 1. al igual que en una neurona biológica se establecen sinapsis entre las dendritas de una neurona y el axón de otra.

que se utiliza junto con reglas de propagación que involucran el cálculo de cuadrados de distancias (por ejemplo. Si la suma es menor que el valor umbral. x j (t )) Lineal Cuadrática Distancias (Ej. siendo en este caso la salida la misma función de propagación. Euclídea) Polinómica (Ej.4 La función de transferencia o activación La función de activación o transferencia. En ocasiones los algoritmos de aprendizaje requieren que la función de activación cumpla con la condición de ser derivable. muestra las principales funciones de activación. Fundamentos de las Redes Neuronales Artificiales Regla de propagación hi (t ) =σ (wij .Capítulo 1. Si la suma es mayor que el valor umbral.7.6. Las más empleadas en este sentido son las del tipo sigmoideo.5. La función de activación puede o no existir. ninguna señal será generada. en ocasiones se emplean funciones sinusoidales. Por último. Otra función clásica es la gaussiana. la euclídea) entre los vectores de entradas y pesos. La Figura 1. como la del back propagation. como en aquellos casos en los que se requiere expresar explícitamente una periodicidad temporal. la neurona generará una señal. 15 . Orden 2) hi (t ) = ∑ wij x j j =0 p hi (t ) = ∑ wij x 2 j j=0 p hi =∑(xj −w ) ij j=0 p 2 hi (t) =∑wij xj1 +∑∑w 1j2 xj1 xj2 ij Figura 1. Ejemplo de reglas de propagación 1. g i (hi (t )) filtra el valor de la regla de propagación para comparase con algún valor umbral para determinar la salida final de la neurona.

de modo que el estado de activación de la neurona se considera la propia salida. 16 .5 La función de salida La función de salida.6. Funciones de transferencia o activación (Nota: se han considerado en todos los casos regla de propagación lineal y función de salida identidad).Capítulo 1. Muy frecuentemente la función de salida es simplemente la función identidad. Fundamentos de las Redes Neuronales Artificiales Función identidad o lineal Función escalón  p  y i = g  ∑ wij x j     j =0  g (a) ≡ a Función lineal a tramos  p  y i = g  ∑ wij x j     j =0  1 a ≥ 0  g (a) =   0 a < 0   p  y i = g  ∑ wij x j     j =0  a < 0 0   g ( a ) =  a 0 ≤ a < 1 1 a > 0   Función escalón simétrica  p  y i = g  ∑ wij x j     j =0  1 a ≥ 0 g (a ) =   − 1 a < 0  Función sinusoidal Función lineal a tramos simétrica  p  y i = g  ∑ wij x j    j =0    p  y i = g  ∑ wij x j    j =0   a < −1 − 1   g (a) =  a − 1 ≤ a < 1  1 a > 1   Función Logística o Log sigmoidea g (a) = sen(a )  p  y i = g  ∑ wij x j     j =0  g (a) = 1 1 + exp (− a ) Función Tangente hiperbólica sigmoidea  p  yi = g  ∑ wij x j   j =0    exp (a ) − exp (− a ) exp (a ) + exp (− a ) Función Gaussiana  p  y i = g  ∑ wij x j     j =0  g (a ) = g (a) = exp (− a 2 ) Figura 1. 1.7. f i (g i (hi (t ))) proporciona la salida global de la neurona y i en función de su estado de activación actual.

el grado de conectividad y el tipo de conexión entre neuronas. 17 .).1 Taxonomía de acuerdo con el tipo de arquitectura La arquitectura o topología de las RNA consiste en la organización y disposición de las neuronas en la red formando capas o agrupaciones de neuronas más o menos alejadas de la entrada y la salida de la red.Capítulo 1. De esta forma. Reconocimiento de patrones 4. Memoria asociativa 2. Taxonomías Arquitectura Aprendizaje Aplicaciones 1. Taxonomías de acuerdo al tipo de arquitectura. No supervisado 3.8 Modelos de Redes Neuronales (Taxonomía) La gran variedad de modelos de redes neuronales existentes en la actualidad obliga en cierta medida a la realización de clasificaciones o taxonomías.8.Competitivo y cooperativo 3. los parámetros fundamentales de la red son: el número de capas. Predicción 6. aprendizaje y aplicaciones.Por corrección de error 2.Estocástico 1. Clasificación 2.7. los modelos neuronales se pueden clasificar desde una triple óptica: en función de la arquitectura (“network architecture”). Supervisado . En este sentido. Fundamentos de las Redes Neuronales Artificiales 1.Reforzado . 1. el número de neuronas por capa.Hebbiano . Optimización 3. Multicapa Feedforward . Mapeo de características 5. en función del tipo de aprendizaje (“learning paradigm”). Monocapa Feedforward 1. Recurrentes .7. y de acuerdo a sus aplicaciones (Figura 1. Híbrido Figura 1.

De entrada: Es la capa que recibe directamente la información proveniente de las fuentes externas de la red. Las conexiones entre los nodos de una red pueden ser: 1) Intercapa. Se refiere a la conexión de un nodo a él mismo. mientras que uno positivo determina una conexión excitatoria. La conectividad entre los nodos de una RNA está relacionada con la forma en que las salidas de las neuronas están canalizadas para convertirse en entradas de otras neuronas. simplemente la distribuye a las demás capas. Es la conexión entre nodos de distintas capas. Fundamentos de las Redes Neuronales Artificiales A partir de su ubicación dentro de la red. que incluye signo y magnitud. 3) Autoconectadas.Capítulo 1. 2. 4) Supracapa. Habitualmente. se pueden distinguir tres tipos de capas: 1. Las conexiones entre las neuronas pueden ser excitatorias o inhibitorias: un peso sináptico negativo define una conexión inhibitoria. junto con su número. las distintas topologías de RNA. sino que por medio del aprendizaje se obtiene un valor para el peso. Esta capa no procesa información. 18 . Cuando se conectan nodos de capas no adyacentes. Cuando se conectan nodos dentro de la misma capa. El número de niveles ocultos puede estar entre cero y un número elevado. 2) Intracapa. 3. no se suele definir una conexión como de un tipo o de otro. Ocultas: Son internas a la red y no tienen contacto directo con el entorno exterior. Las neuronas de las capas ocultas pueden estar interconectadas de distintas maneras. lo que determina. De salida: Transfieren información de la red hacia el exterior.

Capítulo 1. A estas conexiones se les denomina conexiones hacia delante o feedforward. En las redes feedforward no existen conexiones hacia atrás (ninguna salida de neuronas de una capa i se aplica a la entrada de neuronas de capas i − 1. todas las neuronas de una capa reciben señales de entrada de otra capa anterior. Fundamentos de las Redes Neuronales Artificiales Una conexión de alto grado es una conexión que combina entradas de más de un nodo. por ejemplo. Cuando se realiza una clasificación de las redes en términos topológicos. 3. Las redes monocapa se utilizan típicamente en tareas relacionadas con lo que se conoce como autoasociación. Sin embargo.. 1. se establecen conexiones laterales entre las neuronas que pertenecen a la única capa que constituye la red. 19 .. 1.8.1 Redes monocapa (1 capa) En las redes monocapa.) Se asume que las RNA son de primer grado a menos que se especifique lo contrario. y envían las señales de salida a una capa posterior. El número de entradas determina el grado de la conexión mientras que el grado de una RNA es el grado de su conexión más grande. ). i − 2. para regenerar informaciones de entrada que se presentan a la red incompletas o distorsionadas. También pueden existir conexiones autorrecurrentes (salida de una neurona conectada a su propia entrada). Normalmente..1. en un gran número de estas redes también existe la posibilidad de conectar las salidas de las neuronas de capas posteriores a las entradas de las capas anteriores. a estas conexiones se les denomina conexiones hacia atrás o feedback.1. se suele distinguir entre redes con una sola capa o nivel de neuronas y las redes con múltiples capas (2. y normalmente tampoco son autorrecurrentes (salida de una neurona aplicada a su propia entrada). ni laterales. etc.8.2 Redes multicapa Las redes multicapa son aquellas que disponen de conjuntos de neuronas agrupados en varios niveles de capas. más cercana a la salida de la red. más cercana a la entrada de la red.

podemos enfocarnos en la siguiente: “La modificación del comportamiento inducido por la interacción con el entorno y como resultado de experiencias conducente al establecimiento de nuevos modelos de respuesta a estímulos externos”11. 1. es decir. Existen muchas más definiciones del concepto general de aprendizaje. Al igual que el funcionamiento de una red depende del número de neuronas de las que disponga y de cómo estén conectadas entre sí. se suele aceptar que la información memorizada en el cerebro está más relacionada con los valores sinápticos de las conexiones entre las neuronas que con ellas mismas. Madrid. Pp.J. Esta definición fue enunciada muchos años antes de que surgieran las RNA. 75-76. Redes neuronales artificiales. modelos y aplicaciones. Fundamentos de las Redes Neuronales Artificiales Y finalmente. (1995). sin embargo puede ser aplicada también a los procesos de aprendizaje de estos sistemas.Capítulo 1. modificación y creación de conexiones entre las neuronas y 11 Hilera. RaMa. V. Biológicamente. Los cambios que se producen durante el proceso de aprendizaje se reducen a la destrucción. 63-64. existiendo por tanto dos conjuntos de pesos: los correspondientes a las conexiones feedforward de la primera capa (capa de entrada) hacia la segunda capa (capa de salida) y los de las conexiones feedback de la segunda a la primera. se puede considerar que el conocimiento se encuentra representado en los pesos de las conexiones entre las neuronas (pesos sinápticos). 12 Ibid.8. Pp.2 Taxonomía de acuerdo con el tipo de aprendizaje El término de aprendizaje en las máquinas resulta poco claro. y Martínez. J. En el contexto de las RNA puede definirse el aprendizaje como “El proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada”12. En general las redes feedforward/feedback suelen ser bicapa. En el caso de las RNA. sin embargo.R. están las redes que disponen de conexiones tanto hacia delante como hacia atrás (feedforward/feedback). Fundamentos. para nuestros fines. cada modelo dispone de sus propias técnicas de aprendizaje. el conocimiento se encuentra en las sinapsis. 20 .

Cuando se construye una RNA. se suelen considerar dos tipos de reglas de aprendizaje: las que responden a lo que habitualmente se conoce como aprendizaje supervisado. pero también más exactas en sus resultados. y las correspondientes a un aprendizaje no supervisado. Este tipo de acciones. La neurona es una célula muy especial que. De forma general. La regla de aprendizaje es uno de los atributos más importantes a especificar para una RNA. Las reglas de aprendizaje supervisadas suelen ser computacionalmente más complejas. en especial la modificación de las intensidades sinápticas (plasticidad sináptica) serán las que utilicen los sistemas neuronales artificiales para llevar a cabo el aprendizaje. estableciéndose los pesos sinápticos iniciales como nulos o aleatorios. Para que la red pueda operar es necesario entrenarla. En cualquier caso. que consiste en modificar los pesos sinápticos siguiendo una cierta regla de aprendizaje. lo que constituye el modo de aprendizaje. La diferencia fundamental entre ambos tipos estriba en la existencia o no de un agente externo (supervisor) que controle el proceso de aprendizaje de la red. únicamente posee capacidad para reproducirse en los primeros estados de su vida. Esta regla se suspende después de que el entrenamiento se ha completado. se parte de un cierto modelo de neurona y de una determinada arquitectura de red. 13 21 . Fundamentos de las Redes Neuronales Artificiales en algunos modelos incluso mediante la creación o muerte neuronal (en este caso se modifica la propia arquitectura de la red)13.Capítulo 1. El entrenamiento o aprendizaje se puede llevar a cabo en dos niveles. que mide la eficacia actual de la operación de la red. no nacerá otra que la reemplace (aunque recientemente se han encontrado evidencias de que en ciertas situaciones sí podría reproducirse). Con ella se determina cómo se adaptarán las conexiones de los pesos a fin de optimizar el funcionamiento de la red y cómo calcular los ajustes en los pesos durante cada ciclo. en general. El más convencional es el modelado de las sinapsis. Ambas modalidades pretenden estimar funciones de entrada/salida multivariante o densidades de probabilidad. construida normalmente a partir de la optimización de una función de error o costo. de modo que si una neurona muere. en un proceso de aprendizaje la información contenida en los datos de entrada queda incorporada en la propia estructura de la red.

una y otra vez. el algoritmo de aprendizaje. de forma que se generará un error de salida ei o residuo del modelo (Figura 1.2. en función de las señales que llegan procedentes del entorno en el instante t . Un aspecto importante respecto al aprendizaje en las redes neuronales es el conocer cómo se modifican los valores de los pesos. La salida no coincidirá generalmente con lo deseado.). Este tipo de aprendizaje consiste en construir un modelo neuronal que permita estimar relaciones entre las entradas y las salidas sin la necesidad de proponer una cierta forma funcional a priori. hasta que la red alcanza el rendimiento deseado.8. la regla de aprendizaje Hebbiano y la regla de aprendizaje competitivo. Las reglas de aprendizaje más conocidas son la regla de retropropagación (back propagation) la cual es una generalización de la regla Delta (empleadas para aprendizaje supervisado).Capítulo 1. 22 . Se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los valores de los pesos permanecen estables ( dwij dt = 0 ). Fundamentos de las Redes Neuronales Artificiales Si denominamos wij ( t ) al peso que conecta la neurona presináptica j con la postsináptica i en la iteración t .1 Redes con aprendizaje supervisado El aprendizaje supervisado se caracteriza porque el proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor o maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. Estos criterios determinan lo que se conoce como la regla de aprendizaje de la red. cuáles son los criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. el cual quedará actualizado de la siguiente forma: ∆wij ( t + 1) = wij ( t ) + ∆wij ( t ) El proceso de aprendizaje es usualmente iterativo. es decir. actualizándose los pesos de la manera anterior. proporcionará el valor ∆wij ( t ) que da la modificación que se debe incorporar en dicho peso.8. 1.

y la regla delta generalizada o retropropagación del error. 2) Aprendizaje reforzado. a su vez. Ciclo del aprendizaje reforzado 23 .9.9. la regla delta o regla del error cuadrático medio mínimo (“Least-Mean-squared Error”(LMS)) propuesta por Widrow en 1960. en función del error cometido en la salida. utilizada en los modelos neuronales Adaline y Madaline (estos modelos mejoran el modelo de perceptrón ya que incorporan la definición de error global cometido y mecanismos para reducirlo con mayor rapidez). tres formas de llevarlo a cabo que dan lugar a los siguientes aprendizajes supervisados: 1) Aprendizaje por corrección del error.8. Dicho aprendizaje descansa en la idea dual premio-castigo. Ejemplos de este tipo de aprendizaje son: la regla de aprendizaje del perceptrón. es decir. x Entrada Red Neuronal y Salida Medida del éxito o fracaso global Señal de refuerzo Figura 1. donde se refuerza toda aquella acción que permita una mejora del modelo mediante la definición de una señal crítica (Figura 1. Este método emplea la información del error cometido (calculado en este caso de forma global y no para cada una de las salidas). utilizada en el aprendizaje de la red perceptrón diseñada por Rosenblatt en 1957. Fundamentos de las Redes Neuronales Artificiales x Entrada Red Neuronal y Salida Error de salida e d Salida deseada Figura 1. Ciclo del aprendizaje supervisado En este tipo de aprendizaje se suelen considerar. pero sin poseer la salida deseada. Consiste en ajustar los pesos de las conexiones de la red en función de la diferencia entre los valores deseados y los obtenidos en la salida de la red.Capítulo 1.).

extraer rasgos o agrupar patrones según su similitud. regularidades.2 Redes con aprendizaje no supervisado Las redes con aprendizaje no supervisado (también conocidos como auto supervisado o autoorganizado) no requieren influencia externa para ajustar los pesos de las conexiones entre sus neuronas. En otro caso se podría realizar un agrupamiento indicando a la red a qué categoría pertenece la información presentada 24 . Ciclo del aprendizaje no supervisado Estas redes deben encontrar las características.Capítulo 1. la salida representa el grado de similitud o proximidad entre la información que se le está presentando a la entrada y las informaciones que se le han mostrado hasta entonces (en el pasado). Sus principales utilidades son entre otras. La red no recibe ninguna información por parte del entorno que le indique si la salida generada en respuesta a una determinada entrada es o no correcta. correlaciones o categorías que se puedan establecer entre los datos que se presentan en su entrada. suele decirse que estas redes son capaces de autoorganizarse. x Entrada Red Neuronal y Salida Figura 1. las cuales dependen de su estructura y del algoritmo de aprendizaje empleado.10.2. Consiste en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar el efecto a partir del objetivo deseado mediante distribuciones de probabilidad.). descubrir las regularidades presentes en los datos.10. Fundamentos de las Redes Neuronales Artificiales 3) Aprendizaje estocástico. 1. Existen varias posibilidades en cuanto a la interpretación de la salida de estas redes. En algunos casos. a través de la estimación de la función de densidad de probabilidad “ p( x ) ” que permite describir la distribución de patrones " x" pertenecientes al espacio de entrada ℜ n (Figura 1. por ello.8.

generando en la salida una versión codificada de la entrada.2. siempre serán afectadas neuronas de salida próximas entre sí. Finalmente. de tal forma que si se presentan a la red informaciones similares. de tal forma que la eficiencia de A. postulado por Hebb (1949). Se puede decir. El aprendizaje sin supervisión también permite realizar una codificación de la entrada. en general se suelen considerar dos tipos: aprendizaje Hebbiano y aprendizaje competitivo y cooperativo. Hebb: “Cuando un axón de una celda A está suficientemente cerca como para conseguir excitar una celda B y repetida o no persistentemente toma parte en su activación. que el aprendizaje Hebbiano consiste básicamente en el ajuste de los pesos de las conexiones de acuerdo con la correlación (multiplicación en el caso de los valores binarios +1 y −1 ) de los valores de activación (salidas) de las dos neuronas conectadas: 25 . lo que realizan algunas redes es un mapeo de características (feature mapping). 1. encontramos el aprendizaje Hebbiano. Fundamentos de las Redes Neuronales Artificiales a la entrada. Este tipo de aprendizaje se basa en el siguiente postulado formulado por Donald O.1 Aprendizaje Hebbiano En el ámbito de la estrategia no supervisada. La eficiencia podría identificarse con la intensidad o magnitud de la conexión. en la misma zona del mapa. En cuanto a los algoritmos de aprendizaje no supervisado. algún proceso de crecimiento o cambio metabólico tiene lugar en una o ambas celdas. con menos bits pero manteniendo la información relevante de los datos.2.Capítulo 1. obteniéndose en las neuronas de salida una disposición geométrica que representa un mapa de las características de los datos de entrada. con el peso. que consiste en el ajuste de los pesos de las conexiones de acuerdo con la correlación de los valores de las dos neuronas conectadas. por tanto. es decir. cuando la celda a activar es B. Hebb entiende un conjunto de neuronas fuertemente conectadas a través de una estructura compleja. Por celda. siendo la propia red quien deba encontrar las categorías apropiadas a partir de las correlaciones entre las informaciones presentadas.8. aumenta”.

como las redes PCA (que realizan análisis de componentes principales). cuando una es activa y la otra pasiva (negativa). Por el contrario. pues la modificación de los pesos se realiza en función de los estados (salidas) de las neuronas obtenidas tras la presentación de cierto estímulo (información de entrada a la red). las informaciones similares son clasificadas formando parte de la misma categoría. y por tanto deben activar la misma neurona de salida.2. sin tener en cuenta si se deseaba obtener o no esos estados de activación.2.8. o una por grupo. se pretende que cuando se presente a la red cierta información de entrada. como neurona vencedora (winner. o una por cierto grupo de neuronas. existiendo en estas neuronas conexiones recurrentes de auto excitación y conexiones de inhibición (signo negativo) por parte de neuronas vecinas. Con este tipo de aprendizaje. Por tanto. las neuronas compiten por activarse. que son forzadas a sus valores de respuesta mínimos. Algunos modelos utilizan reglas de aprendizaje directamente basadas en la regla de Hebb. estas conexiones con las neuronas vecinas serán de excitación (signo positivo). Fundamentos de las Redes Neuronales Artificiales ∆wij = xi ⋅ x j Así.all). las neuronas compiten o cooperan unas con otras con el fin de llevar a cabo una tarea dada. si las dos unidades son activas (positivas). El objetivo de este aprendizaje es categorizar los datos que se introducen en la red.2 Aprendizaje competitivo y cooperativo En las redes con aprendizaje competitivo y cooperativo. De esta forma. quedando finalmente una. se produce un reforzamiento de la conexión.Capítulo 1. 1. Se trata de una regla de aprendizaje no supervisado. se active (alcance su valor de respuesta máximo). se produce un debilitamiento de la conexión. Si el aprendizaje es cooperativo. sólo una de las neuronas dé salida a la red. 26 .take. La competición entre neuronas se realiza en todas las capas de la red. Como característica general de las redes no supervisadas Hebbianas puede señalarse que en ellas un número elevado de neuronas de salida pueden activarse simultáneamente. quedando anuladas el resto.

estarían representadas las características principales de la información presentada a la red. la variación del peso de una conexión entre una unidad i y otra j será nula si la neurona j no recibe excitación por parte de la neurona i (no vence en presencia de un estímulo por parte de i ). Una variación del aprendizaje supervisado aplicado a redes multicapa consiste en imponer una inhibición mutua entre neuronas únicamente cuando están a cierta distancia unas de otras (suponiendo que las neuronas se han dispuesto geométricamente. De esta forma. que maneja información analógica). cada neurona tiene asignado un peso total. hay que comentar la existencia de otro caso particular del aprendizaje competitivo. denominado Teoría de la Resonancia Adaptativa. y ART2. que trabaja con información binaria. El aprendizaje afecta sólo a las neuronas ganadoras (activas). de algún modo. se generarán mapas parecidos puesto que se afectarían neuronas de salida próximas entre sí (se profundizará sobre este tema en el siguiente capítulo). que es la suma de todos los pesos de las conexiones que tiene a su entrada.Capítulo 1. aplicado en redes con una disposición bidimensional de las neuronas de salida. conocido como feature mapping. en los que. redistribuyendo este peso total entre sus conexiones. y se modificará (se reforzará) si es excitada por dicha neurona i . El aspecto geométrico de la disposición de las neuronas de una red también es la base de un caso particular de aprendizaje competitivo inducido por Kohonen en 1982. desarrollado por Carpenter y Grossberg en 1986 y utilizado en la red feedforward/feedback de dos capas conocida como ART (en sus dos variantes: ART1. sustrayendo una porción a los pesos de todas las conexiones que llegan a la neurona vencedora y repartiendo esta cantidad por igual entre todas las conexiones procedentes de unidades activas. Para concluir este apartado. que permiten obtener mapas topográficos o autoorganizados. 27 . Por tanto. si la red recibe información con características similares. por ejemplo formando capas bidimensionales). Fundamentos de las Redes Neuronales Artificiales En este tipo de redes. Existe entonces un área o región de vecindad (vicinity area) alrededor de las neuronas que constituyen su grupo local.

en el cual coexisten en la red los dos tipos básicos de aprendizaje. en primer lugar. Fundamentos de las Redes Neuronales Artificiales Esta red realiza un prototipado de la información que recibe de la entrada. En cuarto lugar. 1. el reconocimiento de patrones.3 Aprendizaje híbrido Existe un tipo de aprendizaje denominado híbrido. que parte de las ideas de Kohonen simulando la capacidad del cerebro humano de crear mapas topológicos de las informaciones recibidas del exterior. desde una óptica general. asociando la información de entrada con el ejemplar más parecido de los almacenados conocidos por la red. La teoría de la resonancia adaptativa se basa en la idea de hacer resonar la información de entrada con los prototipos de las categorías que reconoce la red. en la detección de formas simples.2. si entra en resonancia con alguno (es suficientemente similar).8.Capítulo 1.8. la red se encarga de crear una nueva categoría con el dato de entrada como prototipo de la misma. la optimización. consistente. los cuales tienen lugar normalmente en distintas capas de neuronas. 1. En segundo lugar. es decir. la memoria asociativa. el supervisado y el no supervisado. Cuando no resuena con ningún prototipo (no se parece a ninguno de los existentes recordados por la red) hasta ese momento. generando como salida un ejemplar o prototipo que representa a toda la información que podría considerarse perteneciente a la misma clase o categoría.3 Taxonomía de acuerdo al tipo de aplicaciones Respecto a las diferentes aplicaciones tenemos. 28 . el mapeo de características. la red considera que pertenece a dicha categoría y únicamente realiza una pequeña adaptación del prototipado (para que se parezca un poco más al dato presentado). El modelo de Contrapropagación es un ejemplo de red que hace uso de este tipo de aprendizaje. En tercer lugar. consistente en reconstruir una determinada información de entrada que se presenta incompleta o distorsionada. la resolución de problemas de optimización combinatoria.

hay algunos modelos de RNA para los que no existe una técnica estadística equiparable. Fundamentos de las Redes Neuronales Artificiales En quinto lugar. En Sarle (1994) se señala el claro paralelismo entre ciertos modelos estadísticos y neuronales sin embargo. Además del análisis discriminante y la regresión. Se han realizado estudios comparando métodos estadísticos y neuronales.Capítulo 1.9 RNA y Estadística La estadística comprende un conjunto de métodos que sirven para recoger. resumir y analizar datos. otra actividad común en la investigación es la que los estadísticos reconocen como análisis cluster. La aproximación más común a los problemas de regresión son los perceptrones multicapa y generalizaciones de perceptrones de una sola capa. Modelos procedentes de ambas disciplinas se emplean en ajuste funcional (perceptrón y regresión). Las RNA han sido descritas por algunos como técnicas de ajuste estadístico inspiradas en la biología. así como para extraer conclusiones y tomar decisiones razonables basadas en tal análisis. organizar. 29 . en la literatura de las RNA esto representa aprendizaje no supervisado. muestra los más usuales. 1. en reducción de la dimensionalidad (mapas de Kohonen y análisis de componentes principales) y otras tareas. Es importante señalar que una misma red puede utilizarse en aplicaciones diferentes. llegándose a la conclusión de que no se puede realizar la afirmación genérica de que los modelos neuronales sobrepasen siempre en eficiencia a las técnicas estadísticas. La Tabla 1.2. la clasificación. está la predicción y en último lugar.

Capítulo 1. Fundamentos de las Redes Neuronales Artificiales Modelo Estadístico Regresión lineal múltiple Regresión Logística Regresión no lineal múltiple Función discriminante lineal Función discriminante no lineal Modelo de red neuronal Perceptrón simple con función lineal Perceptrón simple con función logística Perceptrón multicapa con función lineal en la salida Perceptrón simple con función umbral Perceptrón multicapa con función logística en la salida Análisis de Componentes Principales (PCA) Perceptrón multicapa autoasociativo Análisis Cluster Mapas autoorganizados de Kohonen Tabla 1. Equivalencia entre modelos estadísticos y modelos de red neuronal 30 .2.

cuantificación vectorial. que consiste en m 31 . los SOM han sido empleados en reconocimiento del habla. Se presentará el modelo general de mapas autoorganizados así como algunos de sus algoritmos de aprendizaje. 2. SOFM (Self-Organizing Feature Maps). reducción de dimensiones. En este modelo.. La primera es la capa de entrada o sensorial. los SOM poseen un gran potencial de aplicabilidad práctica. SOM (Self-Organizing Maps). control de robots.1 Introducción Se observa que en muchas regiones del córtex de los animales superiores aparecen zonas donde las neuronas detectoras de rasgos (o características) se distribuyen topológicamente ordenadas. Los SOM fueron desarrollados a lo largo de la década de los ochenta por el físico finlandés Teuvo Kohonen. monitorización de procesos industriales.1. este capítulo se centrará en los mapas autoorganizados. o mapas de Kohonen trata de reproducir. como una continuación natural de la línea de desarrollo de las redes competitivas iniciada por Von der Malsburg. ayuda al diseño de circuitos integrados.). De entre las clases de problemas del mundo real en los que han demostrado su eficacia cabe citar: clasificación de patrones. uno de los sistemas neuronales no supervisados más conocidos y utilizados. Aparte de su interés como una sencilla modelización de redes neuronales naturales.Capítulo 2 2. Por ejemplo. extracción de rasgos y visualización. reconocimiento de patrones financieros y minería de grandes bases de datos en Internet.Los mapas autoorganizados Una vez expuestos en el capítulo anterior los conceptos básicos relacionados con las redes neuronales artificiales. las neuronas se organizan en una arquitectura unidireccional de dos capas (Figura 2. circunstancia que el modelo neuronal de mapas autoorganizados.

En la programación. El procesamiento se realiza en la segunda capa. una por cada variable de entrada.j) Mapa (salida) wij Sinapsis wijk x(t) Capa sensorial (entradas) Figura 2. un buffer es "un punto intermedio de almacenamiento". j ) (1 ≤ i ≤ nx. Los mapas autoorganizados neuronas. Aunque la arquitectura rectangular es la más común. Este término se usa tanto en programación como en hardware. j ) del mapa mediante un peso sináptico wijk . el uso del buffer en ocasiones implica la necesidad filtrar datos de su destino final para poderlos editar o procesar de alguna otra forma antes de transferirlos a un archivo o base de datos regular. 1 ≤ j ≤ ny ) que determinarán su localización espacial. Etiquetaremos las m neuronas de entrada con el índice k (1 ≤ k ≤ m ) .Capítulo 2. Neuronas (i . que se comportan como buffers14.j) (i . a veces también se utilizan capas de una sola dimensión (cadena lineal de neuronas) o de tres dimensiones (paralelepípedo). El buffer permite que cada dispositivo o proceso opere sin verse interferido por otro. y consiste habitualmente en una estructura rectangular de nx × ny neuronas que operan en paralelo. y las nx × ny neuronas del mapa con un par de índices i ≡ ( i.1 Arquitectura del SOM 14 Un buffer (a veces traducido como "memoria temporal") es un área de datos compartida por dispositivos de hardware o procesos de programas que operan a distintas velocidades o con diferentes conjuntos de prioridades. 32 . que forma el mapa de rasgos. Cada neurona de entrada k está conectada a todas las neuronas ( i. distribuyendo la información procedente del espacio de entrada a las neuronas de la segunda capa. Como una memoria caché. Las entradas son muestras estadísticas x ( t ) ∈ ℜm del espacio sensorial.

cada neurona se especializará en uno de ellos. se declara vencedora la neurona g = (g1 . j ) ordenados en dos dimensiones que almacenan un vector de pesos sinápticos o vector de referencia (codebook) wij ( t ) . x ) ij { } (2. ante el mismo patrón de entrada. En primer lugar. cada neurona actúa como un detector de rasgos específicos. El proceso es el siguiente: tras la presentación y procesamiento de un vector de entradas x ( t ) . d ( w g . según una cierta medida de distancia o criterio de similitud establecido. y la neurona ganadora nos indica el rasgo o patrón detectado en el vector de entradas.1 ≤ i ≤ nx. en el que cada neurona actúa en solitario. de forma que al final los diferentes vectores de referencia sintonizan con dominios específicos de las variables de entrada. En la fase de ejecución (operación normal de la red).Capítulo 2. A continuación. la neurona vencedora modifica sus pesos de manera que se parezcan un poco más a x ( t ) . cuyo vector de pesos w g es más similar al de entradas. y tienden a representar la función de densidad de probabilidad p ( x ) (o función de distribución) del espacio sensorial. con {w ( t ) : w ij ij ∈ ℜ m . dicha neurona responderá en el futuro todavía con más intensidad. x ) = min d ( w ij . Lo descrito hasta el momento responde a un esquema competitivo clásico de relativa sencillez. Sin embargo. el mapa puede describirse como una matriz de procesadores elementales ( i. Los mapas autoorganizados En resumen. los pesos permanecen fijos. { xk 1 ≤ k ≤ m} y su propio vector de pesos sinápticos w ij . Si dicho espacio está dividido en grupos. el modelo de SOM aporta una importante novedad.1) En la fase de aprendizaje cada neurona del mapa sintoniza con diferentes rasgos del espacio de entrada. El proceso se repite para numerosos patrones de entrada. pues incorpora a este esquema relaciones entre las 33 . j ) calcula la similitud entre el vector de entradas x. cada neurona ( i. De este modo. g 2 ) . y la operación esencial de la red se podrá interpretar entonces como un análisis cluster. De esta manera.1 ≤ j ≤ ny} .

Capítulo 2. dentro de la cual todas las neuronas son premiadas actualizando sus pesos. pues en vez de considerar en detalle que una neurona trata de activar a sus vecinas y de inhibir a las alejadas (como sucede en el córtex). En realidad esta función no tiene como único argumento el tiempo discreto “n”. circular. en el modelo de SOM se logra que neuronas próximas sintonicen con patrones similares. por medio del proceso descrito los SOM realizan la proyección no lineal de un espacio multidimensional de entrada ℜm sobre un espacio discreto de salida. 15 Una función vecindad V=V[n] (n= tiempo discreto) se puede definir de diferentes formas (cuadrada. si no que también tiene como argumentos a la posición del nodo ganador y la posición del nodo a actualizar. Los mapas autoorganizados neuronas próximas del mapa. 34 . La función vecindad está centrada en el nodo ganador y su radio de influencia disminuye monótonamente a medida que avanza el entrenamiento. representada por la capa de neuronas. rombo. y fuera de ella son castigadas al no actualizar sus pesos o al hacerlo en sentido contrario. pero de menor número de dimensiones. La utilización de la función vecindad en el modelo de mapas autoorganizados aporta respecto del modelo competitivo sencillo dos ventajas adicionales: el ritmo efectivo de convergencia se mejora y el sistema es más robusto frente a variaciones en los valores iniciales de los pesos. De esta manera. gaussiana o algún híbrido entre ellas). esta situación se modela mediante una sencilla función que define el tamaño de la vecindad en torno a la vencedora. quedando de esta manera reflejada sobre el mapa una cierta imagen del orden topológico presente en el espacio de entrada. reflejando con mayor fidelidad aquellas dimensiones del espacio de entrada de mayor varianza (que suelen coincidir con los rasgos más importantes de las entradas). Para ello introduce una función de vecindad15. En esencia. La distribución de las neuronas sobre el mapa resulta ser un reflejo de la función de densidad de probabilidad p ( x ) : regiones en el espacio sensorial cuyos representantes x aparecen con más frecuencia ( p ( x ) mayor) serán proyectadas sobre un número mayor de neuronas en el mapa. La función vecindad representa matemáticamente de una forma sencilla el efecto global de las interacciones laterales existente entre las neuronas en el cerebro. su efecto es que durante el aprendizaje se actualizan tanto los pesos de la vencedora como los de las neuronas pertenecientes a su entorno. El mapa representa una imagen del espacio sensorial.

3. Inicialización de los pesos sinápticos wijk .Capítulo 2. presentación de un patrón x ( t ) tomado de acuerdo con la función de distribución p ( x ) del espacio sensorial de entrada. el tamaño de la vecindad se reduce. la principal novedad de los SOM consiste en que la modificación de los pesos no se aplica solamente a una neurona específica (la ganadora).2. Al comienzo del entrenamiento la vecindad comprende una amplia región del mapa. Cada neurona i ≡ ( i. En cada iteración. j ) en paralelo del mapa calcula la similitud entre su vector de pesos sinápticos w ij y el actual vector de entradas x . No obstante. En la muy habitual situación de disponer solamente de un conjunto pequeño de patrones de entrenamiento basta con tomar al azar uno de ellos y presentarlo a la red. el proceso de aprendizaje comprende dos fases fundamentales: una ordenación global. el esquema de actualización del ritmo de aprendizaje. Con el transcurso de las iteraciones. y un ajuste fino. Se puede partir en t = 0 de diferentes configuraciones: pesos nulos. Así. aleatorios de pequeño valor absoluto (lo más habitual). el resultado final es bastante independiente de los detalles de su realización concreta. 2. en la que se produce el despliegue del mapa. Los mapas autoorganizados 2.1 Ejemplo de un algoritmo de aprendizaje autoorganizado Se debe tener en cuenta que no existe un algoritmo de aprendizaje único ni totalmente estándar para los SOM. como pueden ser los pesos sinápticos de partida. Un criterio de medida de similitud muy utilizado es la distancia euclídea: 35 . o la forma establecida para la vecindad. y al final solamente se modifican los pesos de la neurona ganadora. lo que permite una ordenación global de los pesos sinápticos. en el que las neuronas se especializan. 2. sino también a su vecindad. o con un valor de partida predeterminado. A continuación se expone un algoritmo de aprendizaje habitual: 1.2 Algoritmo de aprendizaje Como hemos visto.

entonces el proceso de aprendizaje finaliza. Como veremos. y un radio de vecindad constante e igual a uno. valiendo cero cuando i no pertenece a la vecindad de g (con lo que sus pesos no son actualizados). g 2 ) . t ) ( xk ( t ) − wijk ( t ) ) (2.Capítulo 2. La función h (⋅) se denomina función de vecindad. en la que se produce el ajuste fino del mapa. tomando α ( t ) constante e igual a un pequeño valor (por ejemplo. 36 . Pp. 16 Kohonen. de modo que la distribución de los pesos sinápticos se ajuste más a la de las entradas. Actualización de los pesos sinápticos de la neurona ganadora y de sus neuronas vecinas. T. Se puede realizar a continuación una segunda fase en el aprendizaje. 79. puesto que establece qué neuronas son las actualmente vecinas a la ganadora.3) donde α ( t ) es un parámetro denominado ritmo de aprendizaje. (1995).01 ). Si se ha alcanzado el número máximo de iteraciones establecido. Los mapas autoorganizados d ( w ij . Tanto α como el radio de la vecindad usualmente disminuyen monótonamente con t (durante el proceso de ordenamiento)16. Esta función depende de la distancia entre la neurona i y la ganadora g . 6. Determinación de la neurona ganadora g = (g1 . cuya distancia sea la menor de todas. Springer Series in Information Sciences. la vecindad es un conjunto de neuronas centrado en la ganadora. El proceso es similar al anterior. x ) = ∑(w k =1 n ijk − xk ) 2 (2. La regla mas empleada es: wijk ( t + 1) = wijk ( t ) + α ( t ) h ( i − g . 0. En caso contrario se vuelve al paso 2.2) 4. 5. y un número positivo cuando sí pertenece (sus pesos sí son modificados). Self-Organizing Maps.

y la correlación solamente es compatible con esta métrica si se utilizan vectores normalizados de norma 1 (en cuyo caso la distancia euclídea y la correlación coinciden). 000 iteraciones representan cifras habituales en la simulación por computadora del entrenamiento de un SOM17. es la correlación o producto escalar Cij = ∑ wijk xk k =1 n (2. Los mapas autoorganizados En el aprendizaje. No obstante.3). así ocurre con la distancia euclídea (2. Una cuestión a tener presente es que el criterio de similitud y la regla de aprendizaje que se utilicen deben ser métricamente compatibles. Sin embargo. El empleo de diferentes métricas para la fase de recuerdo y para la actualización de los pesos puede causar problemas en el desarrollo del mapa. Si utilizamos la distancia euclídea (2.Capítulo 2. Aunque 500 iteraciones por neurona es una cifra adecuada. dicha métrica procede de la métrica euclídea. son necesarias más iteraciones). 17 37 . de 50 a 100 suelen ser suficientes para la mayor parte de los problemas. Pese a parecer cifras muy altas. Más adelante se mostrarán las diferentes posibilidades para la elección del criterio de distancia o métrica.2) y la regla de aprendizaje (2. las simulaciones de un SOM usualmente son rápidas pues su algoritmo es computacionalmente sencillo. e independiente del número de componentes de x .4) que suele incorporarse al algoritmo. más simple que la euclídea. en ocasiones se hace la afirmación errónea de que el modelo de Kohonen precisa vectores normalizados. podemos adelantar que una medida de similitud alternativa.3). 000 y 100.2) y la regla (2. junto con la regla de adaptación (2. Por esta razón. y los algoritmos de aprendizaje que de cada una de ellas se derivan. Entre 20. no es necesario tratar con vectores normalizados (otra cuestión diferente es que en determinados problemas dicha normalización pueda ser aconsejable para mantener las entradas dentro de un determinado rango dinámico). así como proporcional al número de neuronas del mapa (a más neuronas.3). el número de iteraciones debe ser suficientemente grande por requerimientos estadísticos.

6) con α 0 el ritmo de aprendizaje inicial ( < 1) .Capítulo 2. Los mapas autoorganizados 2. De modo que podemos observar que en cada iteración se elimina una cierta fracción del antiguo vector de pesos w ( t ) (es decir.3) no es otro que en cada iteración acercar en una pequeña cantidad el vector de pesos w de la neurona de mayor activación (ganadora) al vector de entrada x . rota hacia el presentado. el cual es sustituido por una fracción del vector actual α ⋅ x . donde la expresión ∆w ( t ) = α ⋅ ( x − w ) (2.5) representa el incremento del vector de pesos de la neurona ganadora ( 0 < α < 1) . de modo que en cada paso el vector de pesos de la neurona ganadora w se parece un poco más al vector de entradas x que la hace ganar.3 Interpretación del algoritmo de aprendizaje La siguiente interpretación del proceso de aprendizaje puede resultar interesante para comprender la operación de los SOM. la cantidad −α ⋅ w representa un término de olvido). y se aproxima a él en una cantidad que depende del ritmo de aprendizaje α . α f el final ( ≅ 0. siendo habitual su actualización mediante una función lineal α ( t ) = α 0 + (α f − α 0 ) t tα (2. 2.01) y tα el máximo número de iteraciones hasta llegar a α f . en cada iteración el vector de pesos de la neurona vencedora.7) 38 . Una alternativa es usar una función que decrezca exponencialmente α  α (t ) = α0  f   α0  t tα (2. El efecto de la regla de aprendizaje (2.4 Consideraciones prácticas: ritmo de aprendizaje y función vecindad El ritmo de aprendizaje α ( t ) es una función monótonamente decreciente con el tiempo. Así.

9 1 − t 1000 como una elección razonable18. 80.Capítulo 2. y depende de un parámetro denominado radio de vecindad R ( t ) . de bordes nítidos. Con este tipo de función las vecindades adquieren forma circular.3) se reduce a  0 si i − g > R ( t )    ∆wijk ( t ) =   α ( t ) ( xk ( t ) − wijk ( t ) ) si i − g ≤ R ( t )    (2. que denominaremos rectangular 0 si i − g > R ( t )    h( i − g .10) 18 Ibid. En realidad. bajo la forma funcional de h (⋅) se encapsula el complejo sistema de interacciones laterales existente entre las neuronas del mapa. Los mapas autoorganizados También suele considerarse α ( t ) = 0. 39 . en torno a la vencedora y la ecuación (2. La función vecindad h ( i − g .9) Por tanto.8) en general. de ahí que se represente como uno de sus argumentos la distancia entre la neurona genérica i = ( i. j ) y la vencedora g = (g1 . La función de vecindad más simple es del tipo escalón. El empleo de una u otra función no suele influir demasiado en el resultado final. t ) define en cada iteración t si una neurona i pertenece o no a la vecindad de la neurona vencedora g . en este caso una neurona pertenece a la vecindad de la ganadora solamente si su distancia es inferior a R ( t ) . que representa el tamaño de la vecindad actual. h (⋅) decrece con la distancia a la vencedora. Pp. La vecindad es simétrica y centrada en g . g 2 ) . No siendo así en el caso de mapas muy largos donde la selección de un α ( t ) óptimo es crucial para la convergencia. debido a que ( ) i −g = (i − g1 )2 + ( j − g 2 )2 (2.t ) =   1 si i − g ≤ R ( t )    (2.

y de hecho. con el fin de lograr la ordenación global del mapa. que determina vecindades amplias. Existen otras expresiones. (incluso puede ser más de la mitad del diámetro de la red).7). como funciones exponencialmente decrecientes. Tanto α ( t ) como σ ( t ) son funciones monótonamente decrecientes con el tiempo. La función de vecindad posee una forma definida. entonces éstas deberán ser recicladas para alcanzar el número deseado de iteraciones19. Se parte de un valor inicial R0 grande. se puede usar la función de vecindad definida en (2. pero su radio R ( t ) varía con el tiempo. y el parámetro σ ( t ) define la amplitud de la vecindad. 19 Ibidem. unos cuantos cientos de nodos a lo más). Si la red SOM no es muy grande (digamos. Los mapas autoorganizados por lo que en cada iteración únicamente se actualizan las neuronas que distan de la vencedora en una distancia menor a R ( t ) .11) donde t es la iteración y t R el número de iteraciones para alcanzar R f . de aspecto similar a (2. Una posible función de actualización de R ( t ) es la siguiente: R ( t ) = R0 + ( R f − R0 ) t tR (2. t ) = α ( t ) ⋅ exp  − 2   2σ ( t )    donde α ( t ) es otro ritmo de aprendizaje. 40 . R ( t ) disminuye monótonamente con el tiempo.9). la selección de los parámetros del proceso no es crucial. hasta alcanzar un valor final de R f = 1 con el que solamente se actualizan los pesos de la neurona vencedora y las adyacentes.Capítulo 2. La función de vecindad Gaussiana tiene la siguiente forma:  i −g 2  h ( i − g . Si únicamente se dispone de un número relativamente pequeño de muestras.

41 . grandes diferencias en sus longitudes pueden introducir una importante distorsión en la medida de similitud. x ) = ∑ (w k =1 n ijk − xk ) 2 (2. con lo que se tiene el denominado criterio del coseno ∑ cos ( w . la distancia euclídea es más adecuada cuando los grupos a extraer están compuestos por nubes esféricas de puntos en torno a su centro.16) según el cual. Otro de los criterios de más amplio uso es la distancia euclídea d ( w ij .Medidas de similitud El modelo de neurona de Kohonen se basa en el cálculo de la similitud entre el vector de entradas y el de pesos. Así. Los mapas autoorganizados 2. Uno de los modelos más comunes es la correlación o producto escalar: Cij = ∑ wijk xk k =1 n (2. dos vectores serán más similares cuanto mayor sea su correlación. x ) = w n ij k =1 ij wijk xk ⋅ x (2. independientemente de sus tamaños. esta medida es sensible al tamaño de los vectores.18) si se utiliza una red de Kohonen para análisis cluster. dependiendo del criterio que se seleccione. Si no es así.Capítulo 2. Es interesante observar que una neurona SOM que utilice este criterio de distancia coincide básicamente con el modelo de neurona estándar de las RNA.17) su importancia radica en que esta medida se basa en una característica relativa a ambos vectores.5 Modelos de neuronas de Kohonen . el algoritmo tratará de ajustar los datos en múltiples grupos esféricos. Sin embargo. Para resolver este problema puede dividirse por las normas de los vectores. como es su ángulo. se tendrá un modelo u otro.

Los mapas autoorganizados La métrica de Minkowski λ   n d ( w ij . y por otra. 42 . y resulta de gran sencillez. luego ambas medidas también coinciden.19) cuando λ = 1 . si las normas son iguales a uno en la ecuación (2. como la medida de similitud de Tanimoto.16) se obtiene (2. el coseno y la distancia euclídea son los criterios más utilizados. aplicadas para el caso de patrones cuyas componentes no sean números reales. sino variables lógicas o cadenas de caracteres. se trata de la distancia de Manhattan. Por una parte. x ) =  ∑ wijk − xk   k =1  1 λ .3). siendo fácil demostrar que coinciden para el caso de vectores normalizados.17).18) y haciendo las normas igual a uno. la de Mahalanobis o la de Hamming. La correlación. desarrollando la ecuación de la distancia euclídea (2. que se deduce del criterio de distancia euclídea. x ) = w ij − x = w ij 2 2 + x − 2w T ⋅ x = 2 (1 − w T ⋅ x ) ij ij 2 (2. La forma de este modelo coincide con el de neurona estándar definida en el capítulo 1. λ ∈ℜ (2. se obtiene d 2 ( w ij . Existen algunos otros criterios de distancia. Para vectores normalizados se puede realizar una neurona de Kohonen empleando la correlación y la regla de actualización habitual (2.20) de lo que se deduce que una correlación máxima corresponde a una distancia euclídea mínima.Capítulo 2.

supondremos que es diferenciable. Con esta premisa. w i ) ) p ( x ) dx i (2. En el caso no supervisado la definición no resulta tan evidente. se presenta un procedimiento sistemático para la deducción de reglas de aprendizaje para los SOM. y se obtiene la regla de actualización a partir de su optimización mediante descenso por el gradiente20. w ij ) una función de error la cual es una distancia genérica definida en el espacio de las señales. que los errores de cuantificación sean lo más pequeños posibles. La neurona ganadora g será la que cumple g = min {d (w ij . que modifica los valores de los parámetros proporcionalmente al gradiente de la función de error con objeto de alcanzar un mínimo local. esto es ∂E . Como se pretende que los pesos ajusten la distribución de entradas.22) 20 Es decir. Sea d ( x. con lo cual una función objetivo a minimizar consiste en la suma de los errores asociados a cada patrón.Capítulo 2. y que mide el error de cuantificación para el vector de entrada x . x )} ij (2. habrá que modificar los pesos en la dirección opuesta al gradiente. puesto que no se dispone de un objetivo explícito al que deban tender las salidas de la red. Los mapas autoorganizados 2.21) la definición de una función error en el caso supervisado resulta bastante obvia.6 Modelos de aprendizaje en mapas autoorganizados En primer lugar. es decir. dependiendo de los pesos de la red. puede definirse una función objetivo global de la red de la siguiente manera E = ∫ ∑ h ( i − g ) f ( d ( x. Aquí. Se propone una cierta función objetivo o error E . el objetivo será encontrar una función de error que permita deducir sistemáticamente reglas de aprendizaje. pues lo que se pretendía era que las salidas actuales tendieran a las deseadas. Uno de los algoritmos de optimización de descenso por el gradiente más conocidos ∆wij = − α ∂wij es el algoritmo de back propagation. 43 . un objetivo puede ser que los pesos sinápticos tiendan a ellas.

24) con λ ( t ) el ritmo de aprendizaje. se ha mostrado que el punto que se alcanza está muy próximo al óptimo. Para esta muestra. 44 .23) i que es una muestra tomada en t de la función global objetivo E . t =0 ∞ ∑ λ (t ) < ∞ 2 t =0 ∞ (2. Esta función objetivo global al mapa se basa en la suma a todas las neuronas de los errores de cuantificación. f ( ⋅) una cierta función del error de cuantificación (introducida por generalidad). ponderada en la vecindad. y promediado por medio de la función de distribución para todas las posibles entradas. w i ( t ) ) ( ) (2. Los mapas autoorganizados con p ( x ) la función de distribución del espacio sensorial. y h (⋅) la función de vecindad. Para aplicar la aproximación estocástica definiremos la siguiente función E1 ( t ) = ∑ h ( i − g .Capítulo 2. g es constante. t ) f d ( x ( t ) . una solución aproximada se obtiene mediante descenso por el gradiente w i ( t + 1) = w i ( t ) − λ ( t ) ∇wi E1 ( t ) (2. Este procedimiento permite deducir sistemáticamente algoritmos de aprendizaje sólo con cambiar el criterio de distancia d (⋅) y la función f ( ⋅) . que debe cumplir las dos condiciones habituales ∑ λ ( t ) = ∞.25) al estar realizando descensos por los gradientes locales proporcionados por E1 ( t ) . y que puede considerarse que las soluciones que proporciona son casi óptimas. se obtienen soluciones no globalmente óptimas. y no descensos por la máxima pendiente que proporciona E . No obstante.

45 .28) por ser g constante para la muestra E1 ( t ) . t ) ( xk − wijk ) (2.30) que es la regla de aprendizaje de Kohonen (2. se tiene 2 ∂  n = ∑ h ( i − g .27) si calculamos su gradiente ∇ wijk E1 ( t ) = 2  ∂   n h ( i − g .26) y como función f ( d ) = d 2 .Capítulo 2. Los mapas autoorganizados 2. t ) ( wijk − xk ) ∂wijk  k =1 ij   (2. la muestra E1 ( t ) de la función objetivo queda 2  n E1 ( t ) = ∑ h ( i − g . x ) = ∑ (w k =1 n ijk − xk ) 2 (2. llamando α ( t ) = 2 ⋅ λ ( t ) . la regla convencionalmente utilizada en el aprendizaje de una red de Kohonen procede de la métrica euclídea. t )  ∑ ( wijk − xk )   = ∑ ∂wijk  ij  k =1  (2.t ) ∑ ( wijk − xk )  = 2h ( i − g .3) por lo tanto.29) y. de (2.29) se obtiene w i ( t + 1) = w i ( t ) + α ( t ) h ( i − g .7 Regla de aprendizaje euclídea Si consideramos como criterio la distancia euclídea d ( w ij . t )  ∑ ( wijk − xk )  ij  k =1  (2.

32) y calculando el gradiente  ∂  n  ∇ wijk E1 ( t ) = ∑ h ( i − g .t ) wijk − xk = ∂wijk    =   (2. Los mapas autoorganizados 2.35) Agrupando ambas expresiones haciendo uso de la función signo −1 si  y = sign ( x ) =  0 si +1 si  x < 0  x = 0 x > 0  (2. x ) = ∑ wijk − xk k =1 n (2.34) y para el caso wijk ≤ 0 ∇ wijk E1 ( t ) = h ( i − g . Considerando el caso wijk > 0 . t ) ∂ − ( wijk − xk ) = −h ( i − g . t )  ∑ wijk − xk  ij  k =1  (2.Capítulo 2.31) Para obtener su regla de aprendizaje asociada se toma f ( d ) = d . t ) ∂ ( wijk − xk ) = h ( i − g . t ) ∑ wijk − xk ∂wijk  k =1   ij  ∂ = h ( i − g . t ) ∂wijk ( ) (2.  n  E1 ( t ) = ∑ h ( i − g .8 Regla de aprendizaje de Manhattan Otro de los criterios de distancia comentados es la norma de Manhattan d ( w ij .33) la función valor absoluto no es derivable en el origen.36) 46 . se tiene ∇ wijk E1 ( t ) = h ( i − g . t ) ∂wijk (2.

3) realizando numerosas simulaciones se llega a la conclusión de que. Pp. esta pequeña diferencia puede deberse a que en la referencia citada en el modelo de Manhattan se hace uso de (2. que deben ser más cuidadosamente elegidos21. B. 117.16). dado por (2.9 Regla de aprendizaje derivada de la correlación o producto escalar Si se toma como base el criterio de la correlación. aunque con apariencia similar a la euclídea. 2. haciendo uso en ambos de la regla de actualización euclídea (2. y Sanz A. 21 47 . Definiremos la muestra de una función error para un tiempo t en la forma E 2 (t ) = ∑ h( i − g . Los mapas autoorganizados y llamando α ( t ) = λ ( t ) la regla de aprendizaje queda w i ( t + 1) = w i ( t ) + α ( t ) h ( i − g . como se puede apreciar sólo con rescribirla así  +α h si  ∆wijk ( t ) =  0 si  −α h  xk ( t ) > wijk ( t )   xk ( t ) = wijk ( t )  xk ( t ) < wijk ( t )   (2. los del modelo euclídeo son alrededor de un 2% mejores (no obstante. w i (t ))) i (2. aunque ambos alcanzan resultados parecidos. la neurona vencedora es aquella cuyo vector de pesos presenta la máxima correlación con el vector de entrada actual. Madrid. es mucho más simple de realizar. t ) sign ( xk − wijk ) (2.3) en lugar de (2. Redes Neuronales y Sistemas Difusos. 2da edición Alfaomega Ra-ma. t ) f (cij (x (t ).37) la fórmula obtenida.Capítulo 2. con lo que la regla de aprendizaje no es compatible con la métrica empleada). aunque es más sensible a la variación de los parámetros de aprendizaje. (2002).37).38) Se ha comparado el modelo basado en la distancia de Manhattan con el convencional euclídeo. En otros estudios se concluye que este modelo proporciona resultados similares a los de la regla euclídea.39) Martín.

puesto que para maximizar debe efectuarse un ascenso por él. se trata de maximizar E2 ( t ) . que es mayor cuanto más parecidos sean x y w i . y se obtiene una solución aproximada iterando de la forma conocida w i ( t + 1) = w i ( t ) + λ ( t ) ∇ wi E2 ( t ) (2.39) se convierte en  n  E2 ( t ) = ∑ h ( i − g .40) con λ ( t ) el ritmo de aprendizaje. t ) x (2. t ) ∂  n   ∑ wijk xk  = h ( i − g . Obsérvese que en este caso hemos cambiado el signo en el gradiente. Los mapas autoorganizados con cij (⋅) un cierto criterio de similitud. junto con la euclídea. Por ello.41) y calculando el gradiente ∇ wijk E2 ( t ) = h ( i − g . una cierta función que se introduce por generalidad.44) un nuevo algoritmo de 48 . la ecuación (2. Un grave problema de este algoritmo de aprendizaje es que la normalización de los pesos que se debe efectuar en cada paso supone un alto costo computacional. En esta ocasión.44) Esta es. y f ( ⋅) . Consideremos que f (c ) = cij . t )  ∑ wijk xk  i  k =1  (2. t ) xk ∂wijk  k =1  (2. los pesos pueden crecer indefinidamente. t ) xk wi (t ) + α (t ) h ( i − g .Capítulo 2. para evitarlo hay que normalizar los pesos en cada iteración wijk ( t + 1) = wijk ( t ) + α ( t ) h ( i − g . se deducirá a partir de (2.43) Esta regla presenta el problema de que con las sucesivas presentaciones de los x . t ) xk (2. una de las reglas de aprendizaje más conocidas y empleadas.42) se obtiene la regla de actualización wijk ( t + 1) = wijk ( t ) + α ( t ) h ( i − g .

así.Capítulo 2.. Para ello. La expresión del desarrollo en serie de Taylor de una cierta función f ( x ) en torno a un punto a es f ( x ) = f (a) + f ' (a ) ⋅( x − a) + 1 '' 2 f ( a ) ⋅ ( x − a ) + . de manera que no sea preciso normalizarlos en cada paso. 2! (2. suponiendo que w ij ( t ) = 1 .47) donde se han supuesto pesos iniciales normalizados L ( 0 ) = 1 . también lo estarán en cada iteración. resulta  dL   dL  2 2 L (α ) = L ( 0 ) +   ⋅α + O (α ) = 1 +   ⋅α + O (α ) dα α =0 dα α =0   (2. Los mapas autoorganizados aprendizaje que preserve la norma de los vectores de pesos. si están normalizados inicialmente.45) reescribiendo la regla de aprendizaje (2. y pretendiendo obtener una regla para que también lo estén en t + 1 .. De la expresión de la norma al cuadrado L2 ( w i + α hx ) = ( w i + α hx ) = wi 2 T ( w i + α hx ) 2 + α 2 h 2 x + 2α hw T ⋅ x i 2 (2.48) = 1 + α 2 h 2 x + 2α hwT ⋅ x i se obtiene su derivada 2α h 2 x + 2hw T ⋅ x dL i = dα 2 1 + α 2 h 2 x 2 + 2hw T ⋅ x i 49 2 .44) en la forma wijk ( t + 1) = wijk ( t ) + α hxk w i ( t ) + α hx = wijk ( t ) + α hxk L ( w i ( t ) + α hx ) (2.46) considerando la norma L ( x ) como una función dependiente del parámetro α y desarrollando en serie en torno a α = 0 .

Los mapas autoorganizados y por tanto  dL  T   = hw i ⋅ x  dα α = 0 Así.47) resulta L (α ) = 1 + α hwT ⋅ x + O (α 2 ) i con lo que los pesos en t + 1 quedan wijk ( t + 1) = wijk ( t ) + α hxk L ( w i ( t ) + α hx ) = wijk ( t ) + α hxk (1 + α hw T i ⋅ x + O (α 2 ) ) = ( wijk ( t ) + α hxk ) 1 − α hwT ⋅ x + O (α 2 ) i ( ) y desarrollando wijk ( t + 1) = wijk ( t ) + α hxk − α hwijk ( t ) w T ⋅ x + O (α 2 ) i ≅ wijk ( t ) + α h xk − ( w T ⋅ x ) wijk ( t ) i ( ) (2. y que se puede escribir en la forma wijk ( t + 1) = wijk ( t ) + α h ( xk − yij ( t ) ⋅ wijk ( t ) ) donde se denomina yij ( t ) al producto escalar del vector de entradas por el de pesos de la neurona ( i. j ) . La expresión (2. de (2.49) considerando despreciables los términos O (α 2 ) por ser α pequeño. 50 . j ) .Capítulo 2. que se consideró como salida de la neurona ( i.49) coincide con la regla de aprendizaje que se propone en Kohonen.

además de identificar las ventajas y desventajas así como las principales similitudes y diferencias entre estos tres métodos desde su implementación hasta la interpretación de los resultados generados. Sin embargo. elegir la que mejor se adecue al problema planteado. de hecho algunos son de distribución gratuita. incluyendo la clasificación.Ejemplo comparativo En este capítulo se mostrarán las soluciones generadas por cada uno de los tres métodos a comparar.. existen varios paquetes para la implementación de redes neuronales artificiales.1 Introducción Cuando se desea encontrar una propuesta de solución a un problema de clasificación se recomienda evaluar diferentes alternativas. se ha demostrado la eficiencia de los mapas autoorganizados en problemas reales. En este capítulo se mostrará mediante un ejemplo clásico que los mapas autoorganizados pueden ser utilizados como un método alternativo o complementario a los métodos de clasificación tradicionales (análisis cluster y árboles de decisión). 51 . el reconocimiento de patrones y la reducción de dimensiones entre otras cosas. se identificarán las ventajas y desventajas de cada uno desde su implementación hasta la interpretación de resultados. Tanto el análisis cluster (también conocido como análisis de conglomerados) como los árboles de decisión son dos herramientas muy utilizadas para la clasificación. sin embargo. es decir. son pocos los que tienen integrados ambos métodos (métodos estadísticos y redes neuronales). En la actualidad existe una gran variedad de paquetes para implementar los métodos estadísticos tradicionales.Capítulo 3 3. 3. por otro lado. obtener soluciones mediante diferentes técnicas y con diversos escenarios con la finalidad de probar la consistencia de las soluciones o bien.

Ejemplo comparativo Se evaluaron diferentes alternativas para elegir el paquete con el que se realizaría la implementación tomando en cuenta la limitada oferta de paquetes que cuentan tanto con módulos estadísticos como de redes neuronales (específicamente mapas autoorganizados). la sección de redes neuronales no incluye mapas autoorganizados (sólo incluye modelos de Función de Base Radial y perceptrón multicapa). Módulo de Segmentación $3. los precios en dólares para licencias monousuario son: Módulo Base $13. mediante este paquete es posible desarrollar cada uno de los métodos propuestos en este trabajo. no incluye una amplia variedad de métodos para análisis cluster y de árboles de decisión. “Clementine”: se compone de un módulo Base + módulo de Clasificación (árboles de decisión) + módulo de Segmentación (análisis cluster en sus diferentes variantes) + módulo de Asociación + módulo de minería de datos (incluyendo mapas autoorganizados). 2. sin embargo. “SPSS”: cuenta con diversos métodos para el análisis cluster y árboles de decisión. redes neuronales y árboles de decisión. “MatLab”: ofrece la posibilidad (en su versión completa) de realizar análisis cluster. sin embargo. y Módulo de Minería de Datos $14. 22 52 . Es decir $34.600.400. Se evaluaron las siguientes opciones obteniendo los siguientes resultados: 1.800 dólares en total.Capítulo 3. 3. Es decir.200. Módulo de Clasificación $3. mientras que el análisis cluster y los árboles de decisión mediante SPSS (los árboles de decisión mediante un módulo específico denominado AnswerTree). De acuerdo a una cotización en febrero de 2008 por parte de SPSS México. se optó realizar el ejercicio en dos de ellos (MatLab y SPSS) de tal forma que la implementación para los mapas autoorganizados se realizará mediante MatLab. no cuenta con versiones de prueba o para estudiantes y el costo es bastante elevado22.600. Debido a que ninguno de los paquetes evaluados cumplía con las características deseables para poder realizar la implementación de los tres métodos. sin embargo.

reducción de datos. la creación de interfaces de usuario y la comunicación con programas en otros lenguajes y con otros dispositivos hardware. Es muy usado en universidades y centros de investigación y desarrollo. tendencias. la implementación de algoritmos. Originalmente SPSS fue creado como el acrónimo de Statistical Package for the Social Sciences.) que se han ido actualizando constantemente con nuevos procedimientos estadísticos. entre sus características básicas se encuentran la manipulación de matrices. la representación de datos y funciones. se desconoce el número de grupos en los que los datos tienen que ser clasificados. MatLab ofrece un entorno de desarrollo integrado con un lenguaje de programación propio (lenguaje M) así como ciertas librerías (“Toolboxes”) con las que puede extender aún más sus capacidades. normalmente se parte de un número que el investigador considera razonable de acuerdo a su experiencia. categorías. etc. la comparación de los resultados no tiene como propósito encontrar qué método puede determinar el número ideal de grupos que genere el menor error de clasificación. AswerTree es un módulo específico de SPSS que cuenta con varios métodos para la construcción de árboles de decisión. Se trata de un software matemático muy versátil. sabemos que hay tres grupos (las tres especies a clasificar) así como la especie real a la que pertenece cada lirio. para el ejemplo comparativo se mostrarán únicamente los resultados de aquel método que haya arrojado los mejores resultados. SPSS es un programa estadístico informático ampliamente utilizado tanto para fines educativos como aplicaciones reales. incrementándolo o disminuyéndolo hasta que finalmente (en la mayoría de los casos) se elige el método cuya clasificación genere un mejor entendimiento y tratamiento de la información. El programa consiste en un módulo base y módulos adicionales (regresión.Capítulo 3. Cada uno de estos paquetes por sí mismos proporcionan varias alternativas (métodos) para realizar el análisis. la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce. En la mayoría de los problemas reales. En la actualidad. En nuestro caso. el objetivo más 53 . Ejemplo comparativo Se describen a continuación las principales características de los paquetes a utilizar: MatLab es la abreviatura de MATrix LABoratory. es decir. Como programa estadístico es muy popular su uso gracias a la capacidad que tiene para trabajar con bases de datos de gran tamaño. tablas. al tratarse de un ejemplo conocido del cual evidentemente ya se conocen los resultados.

los análisis previos recomendados al realizar cualquier tipo de análisis multivariado (como gráficos para ver el comportamiento natural de los datos. De igual forma. las cuales difieren en la medida (ancho y longitud) de sus pétalos y sépalos23. está enfocado en determinar qué método genera el menor error de clasificación partiendo del hecho de que los lirios se tiene que clasificar en tres grupos. la clasificación de Fisher es relativamente simple. Si bien. sin embargo.Capítulo 3. por las características de este ejercicio pueden omitirse.2 Descripción del conjunto de datos El conjunto de datos “Iris” (Fisher. Tipos de lirios El archivo de datos para este ejemplo contiene cuatro variables de medida continuas en cada observación (ancho del pétalo. 3. ancho del sépalo y longitud del sépalo) y una variable de clasificación denominada “especies” la cual muestra la especie real a la que pertenece cada lirio. El conjunto de datos a estudiar contiene información sobre 3 diferentes especies de lirios (“setosa”. longitud del pétalo.1. “versicolor” y “virginica”) (Figura 3. Setosa Versicolor Virginica Figura 3. 23 Cada una de las hojas. que forman el cáliz de una flor. Ejemplo comparativo bien. su estudio representa un clásico en la materia y con frecuencia se recurre a él como material de referencia. 54 .). se recomienda siempre hacer este tipo de pruebas para aplicaciones reales en las que no sabemos a priori cómo se están comportando los datos. generalmente de color verde.1. 1936) es probablemente el más conocido entre los textos sobre clasificaciones. correlación entre variables. etcétera).

el aprendizaje es no supervisado.‘vote’). Una vez que el conjunto de datos está listo. es decir. Dado que el conjunto de datos está etiquetado. el mapa también debe ser etiquetado utilizando som_autolabel.‘var’). la variable “especies” que es la que muestra a qué especie pertenece cada lirio no se utiliza durante el análisis ya que son sólo las 4 variables de medidas las que lo conforman.Capítulo 3.fi/projects/somtoolbox/ Al igual que en SPSS. % Creación del conjunto de datos sD = som_read_data(‘iris.3 Clasificación de lirios mediante mapas autoorganizados Para poder realizar la implementación de mapas autoorganizados en MatLab es necesario instalar “SOM Toolbox” la cual contiene las funciones necesarias para la creación.cis.sD. la red es entrenada. % Creación del mapa autoorganizado SOM sM = som_make(sD). Ejemplo comparativo En el caso de SPSS el archivo de datos se encuentra en formato sav (formato mediante el cual SPSS almacena las bases de datos). Esta librería se encuentra disponible sin cargo en la siguiente dirección electrónica: http://www. 24 En el Anexo A se detallan las funciones utilizadas para la implementación del ejemplo del conjunto de datos “Iris” en MatLab.data’). sM = som_autolabel(sM. estas etiquetas resultan útiles para la interpretación de los resultados. sD = som_normalize(sD. 55 . en el caso de MatLab se trata de este mismo archivo pero en formato de archivo de datos (.hut.data). visualización y análisis de estos mapas24. El archivo de datos de los lirios debe cargarse en MatLab mediante la función som_read_data y dado que los datos se encuentran en distintas escalas de medición deben ser estandarizados de tal forma que cada variable tenga varianza 1. 3. Es importante señalar que aunque se está etiquetando el mapa. en la librería SOM se pueden insertar etiquetas de texto asociadas a cada dato de la muestra.

‘umat’. se utilizó una tasa de aprendizaje alta igual a 1 y un radio de vecindad también grande igual al diámetro del mapa. La matriz de distancias se muestra junto con las cuatro componentes. tanto la tasa de aprendizaje como el radio de la vecindad iban reduciéndose de forma lineal hasta alcanzar los valores (mínimos) 0. Una vez entrenado el mapa. som_show_add(‘label’.05 y 1 respectivamente. También las etiquetas de cada neurona del mapa se muestran en un bloque de celdas utilizando som_show_add. se calculó el error de cuantificación promedio el cual es de 0.000 iteraciones mientras que la segunda fase de 2. Ejemplo comparativo % Visualización básica som_show(sM. 25 56 .Capítulo 3. como lo son la matriz de distancias25 y las componentes.‘comp’. A medida que avanzada el aprendizaje. En la primera etapa. en este caso es de 6 x 14 de tal forma que el mapa está compuesto por 84 neuronas de salida.‘Labels’.1: 4. Cada componente muestra los valores de una variable en cada neurona del mapa usando la misma codificación de color descrita para la matriz de distancias. Los mapas autoorganizados ofrecen grandes ventajas de visualización.05 y un radio de vecindad constante y mínimo igual a 1. ‘subplot’. El entrenamiento se realizó en dos etapas. 6).000 iteraciones. sM. La primera fase consto de 1. La función som_make inicializa y entrena el mapa. se utilizó una tasa de aprendizaje pequeña y constante igual a 0.‘d’).0156 lo que representa un error de casi el 2%. El mapa se puede visualizar utilizando som_show. Esto da la posibilidad de examinar visualmente cada celda (correspondiente a cada neurona del mapa).‘empty’. cuyo objetivo es el ajuste fino de mapa. Los valores de los componentes se desentandarizan de modo que los valores mostrados en la barra de colores estén dentro del rango de valores original. cuyo objetivo consiste en organizar el mapa.‘all’. La matriz de distancias nombrada en MatLab como U-matrix “Unified distance matrix” es la matriz en la que se visualizan las distancias entre las vecindades del mapa.‘norm’. El tamaño del mapa. En la segunda etapa. ayuda a visualizar la estructura de los clusters del mapa de tal forma que las áreas uniformes o niveles bajos en la matriz muestran los clusters existentes mientras que valores altos valores en esta matriz indican la frontera entre ellos.

Figura 3. y podemos ver también en la matriz de distancias que las neuronas vecinas están muy unidas. finalmente en la parte inferior derecha se ubican las etiquetas del mapa. Por ejemplo. Al ver las etiquetas se puede ver que corresponden a la especie “setosa”.2. Ejemplo comparativo La siguiente imagen (Figura 3.2.Capítulo 3. misma que muestra en la parte superior izquierda. la neurona en la esquina superior izquierda tiene valores pequeños para la longitud del sépalo. Visualización del mapa del conjunto de datos de lirios La etiqueta asociada a estas neuronas es “se” (“setosa”). 57 .) representa la matriz de distancias. así como para la longitud y ancho del pétalo. A partir de la matriz de distancias es fácil detectar que las primeras 3 filas del mapa forman un cluster claramente definido. y valores relativamente grandes para el ancho del sépalo. enseguida se encuentran las cuatro componentes. En la matriz de distancias existen hexágonos adicionales entre todas las parejas de neuronas vecinas.

1). me).Capítulo 3. “versicolor” y “virginica”. Se muestran también las etiquetas de las neuronas asociadas al mapa.. repmat ([0 0 1]. A partir de las cuatro componentes se puede deducir que el largo y el ancho del pétalo están altamente relacionados el uno con el otro. forman el otro cluster. . ‘markercolor’. 1)]. . El factor de separación entre “versicolor” y “virginica” es que esta última tiene hojas más grandes. % Genera la gráfica de la proyección del mapa som_grid(sM. repmat ([0 1 0]. V. % Proyección de componentes principales de los datos [Pd. cuando solo unas pocas variables son de interés. 3). No obstante. Las gráficas de las componentes son convenientes cuando se tiene que visualizar mucha información de una sola vez.Pd.labels. 50. las gráficas de dispersión son mucho más eficientes. 1). La especie “setosa” exhibe pétalos pequeños y cortos pero sépalos anchos. ‘Label’.. ‘Coord’. me] = pcaproj(sD.. Ejemplo comparativo Las otras dos especies. La Figura 3. 50. colD). grid on colD = [repmat ([1 0 0]. 58 . Las neuronas vecinas en el mapa están conectadas mediante líneas. ‘marker’. % Gráfica de datos originales con especies diferenciadas por color hold on. Las tres especies fueron graficadas utilizando distintos colores...[150 1]. .. som_grid(‘rect’.. ‘none’. ‘Coord’ . sM. La matriz U no muestra una clara separación entre estas últimas dos especies. pcaproj(sM.. ‘k’). ‘none’. 50. El mapa autoorganizado también es proyectado en el mismo sub espacio. V.3. . pero por las etiquetas parece que corresponden a dos clusters diferentes. ‘Line’. También existe una correlación entre ellos y el largo del sépalo. muestra la proyección de componentes principales tanto del conjunto de datos como del mapa. ‘labelcolor’.

colM). grid on D = som_denormalize (sD. ind = find(strcm(sM. ‘Markercolor’.(D(:. sM. % Muestra el mapa y la información de la especie som_cplane (sM.2:4)..‘Markersize’. colM). ‘Marker’. Codebook. % Muestra las cuatros variables con gráficas de barras hold on som_barplane(sM.M(:.i) =1. un(i))). 2:4). ‘MarkerSize’. ‘x’.M. colM = zeros (length (sM. end %Gráfica del mapa som_grid(sM. % Gráfica de los datos hold on. un = unique(sD.msize.1)-4)*5.labels).4.topol. % Desestandarización de los pesos de los vectores M = som_denormalize (sM..‘w’. colM(ind.codebook). Ejemplo comparativo La Figura 3. Los marcadores de color indican los sub espacios.topol. [150 1].msize.Capítulo 3.‘Coord’..sM. sM). ‘Coord’.labels.‘unitwise’) 59 . D(:. 3).(M(:.1)-4)*5. for i=1:3.‘none’.. Los datos se muestran en la parte superior de la gráfica mediante cruces (x).lattice. colD). Se muestran tres coordenadas y marcadores de tamaño y color.lattice.‘Markercolor’.‘Line’. Som_grid(‘rect’. visualiza las cuatro variables del SOM usando marcadores de tamaño y color. .. sD).topol.topol.data.

4. Ejemplo comparativo Figura 3.3. Las cuatro variables del SOM usando marcadores de tamaño y color 60 .Capítulo 3. Proyección del conjunto de datos Figura 3.

En cada uno de los hexágonos del mapa se muestra una gráfica compuesta por cuatro barras. cada una de las cuales. asociada a las variables usadas para la clasificación (ancho y largo de los sépalos y pétalos). El color indica la especie.5. La Figura 3.5. Las cuatro variables se muestran con gráficas de barras en cada neurona. 61 . muestra las cuatro variables del mapa junto con la información de la especie. Ejemplo comparativo Figura 3.Capítulo 3.

Landau. Para ello. se recomienda consultar el libro de Everitt. B.S. Como variables se introducen las cuatro medidas de los lirios y se establece como número de grupos tres. 26 62 . Applications and Programming Techniques. M. Estandarización de los datos A continuación se selecciona el algoritmo k-medias ubicado en el menú “Analizar” en la opción “Clasificar”.Capítulo 3.6. En este caso sabemos que en realidad se trata de tres especies diferentes de lirios. si no lo supiéramos de antemano tendríamos que realizar el análisis con diversos escenarios intercambiando el En el Anexo B se muestran los métodos de los análisis cluster incluidos en SPSS así como una visión simplificada de sus aspectos teóricos.4 Clasificación de lirios mediante análisis cluster El algoritmo a utilizar es k-medias26. and Leese.. utilizamos la opción “Guardar variables tipificadas” que se encuentra en la opción de “Estadísticos descriptivos” del menú “Analizar” (Figura 3. Figura 3. S. Cluster Analysis. (2001). Este algoritmo (así como los métodos jerárquicos) depende de distancias y dado que las variables no se encuentran en las mismas escalas. Ejemplo comparativo 3. Adison Wesley. USA.6. Para mayor detalle sobre el análisis cluster. es necesario estandarizar los datos antes de realizar el análisis..).

que en este caso sabemos que es tres). se vuelve a actualizar el valor del centro y así sucesivamente. en la que ya no existe ningún desplazamiento.7. se resume el historial de iteraciones (8 en este caso) con indicación del cambio (desplazamiento) experimentado por cada centro en cada iteración. algún método jerárquico y elegir aquel que arroje los mejores resultados tanto estadísticos como acordes con el problema planteado (Figura 3. hasta llegar a la octava iteración. En la primera iteración se reasignan los casos por su distancia al nuevo centro y. el desplazamiento de los centros se va haciendo más pequeño.). Dentro de la opción “Guardar” de esta misma pestaña se selecciona “Guardar conglomerados de pertenencia” y la “Distancia desde el centro del conglomerado” (esta opción debe seleccionarse sólo cuando se cuenta ya con el número ideal de grupos. Ejemplo comparativo número de grupos o bien utilizando algún otro método de agrupación.Capítulo 3. Figura 3. Selección del método a utilizar y especificación de las opciones Una vez seleccionados los centros de los conglomerados. tras la reasignación. 63 . Y en la pestaña “Opciones” seleccionar “Análisis ANOVA”.7. cada caso es asignado al cluster de cuyo centro se encuentra más próximo y comienza un proceso de ubicación iterativa de los centros. Puede observarse que. En la Figura 3. conforme avanzan las iteraciones. por ejemplo.8.

Centros de los conglomerados finales 64 .281 .122 . es decir.17551 3 -0.8. La iteración actual es 8.258 . muestra los centros de los conglomerados finales.ancho 0.99872 0. La distancia mínima entre los centros iniciales es de 5.985 1. los centros de los conglomerados tras el proceso de actualización iterativa.034 .25244 Figura 3.000 .Capítulo 3. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño.03015 -0.01384 -0.058.039 .100 .16784 sépalo . Figura 3. La Figura 3.045 .000 .10.000 . Ejemplo comparativo a Historial de iteraciones Iteración 1 2 3 4 5 6 7 8 Cambio en los centros de los conglomerados 1 2 3 1.000.119 .89212 -1.786 1. Puntua: Puntua: Puntua: Puntua: Centros de los conglomerados finales Conglomerado 1 2 sépalo .673 .9. Esta tabla es de utilidad para interpretar la constitución de los clusters pues resume los valores centrales en cada cluster en las variables de interés.25875 pétalo .longitud 1.177 .96902 0. Historial de Iteraciones La Figura 3.29862 -1.94054 0.000 . El cambio máximo de coordenadas absolutas para cualquier centro es de .96684 pétalo .000 a. indica la distancia entre cada caso y su centro de clasificación.000 . de manera semejante la mayor distancia se da entre los tipos de lirios 1 y 3 por lo que el traslape entre estos dos grupos debe ser menor.9.090 .811 .018 .ancho 0.236 .longitud 0.297 . Se observa que la menor distancia se da entre los tipos de lirios 1 y 2 lo cual puede generar que el mayor traslape se de entre estos dos grupos.030 .

869 3. sabemos que en realidad el archivo de datos contiene 50 casos de cada especie. la tabla de ANOVA no se muestra cuando todos los casos son asignados a un único cluster.961 Error 2 2 2 2 cuadrática 0.000 0.11. Figura 3.185 64.004 67.275 0.10.ancho pétalo .852 2.12. Tabla ANOVA En la Figura 3.11. Una nota al pie de página de la tabla informa que los estadísticos F sólo deben utilizarse con una finalidad descriptiva pues los casos no se han asignado aleatoriamente a los conglomerados sino que se han asignado intentando optimizar las diferencias entre los conglomerados.934 3 3.934 Figura 3.130 gl 147 147 147 147 F 197.456 0.Capítulo 3.000 0.014 500.longitud pétalo . a simple vista parece que los casos faltantes en los clusters 1 y 2 fueron asignados al 65 .268 41. sobre la probabilidad de cometer errores tipo I cuando se llevan a cabo contrastes). Distancias entre los centros de los conglomerados La tabla ANOVA (Figura 3. Además. El análisis de varianza se obtiene tomando los grupos definidos por los grupos como factor y cada una de las variables incluidas en el análisis como variable dependiente. 0. Ejemplo comparativo Distancias entre los centros de los conglomerados Conglomerado 1 2 3 1 1.869 2.) muestra la tabla resumen del análisis de varianza con un estadístico F univariante para cada una de las variables incluidas en el análisis. ANOVA Conglomerado cuadrática gl 54.ancho Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados.100 0.852 2 1. Los niveles críticos no son corregidos. los niveles críticos asociados a los estadísticos F no deben ser interpretados de manera habitual pues el procedimiento de k medias no aplica ningún tipo de corrección sobre la tasa de error (es decir.559 Sig. por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.975 675.000 0.153 89.longitud sépalo .000 Puntua: Puntua: Puntua: Puntua: sépalo . se muestra el número de casos que se asignó a cada cluster. Lógicamente.

0163 3. Número de casos en cada conglomerado 3.63540 4. Ejemplo comparativo cluster 1.ancho 1.9382 55 0. Media N Desv. típ. mientras que en el cluster 3 se encuentran los lirios con la longitud de pétalos y sépalos así como el ancho de sus pétalos.7587 150 1.1 Pruebas de validación Como primera prueba de validación se realizará un análisis de medias en donde la variable dependiente es la variable de agrupación (SPSS genera esta variable y la incluye en la base de datos normalmente con el nombre “QCL_1”) y las variables independientes son las variables usadas para el análisis cluster sin estandarizar (medidas de ancho y largo de los pétalos y sépalos).2429 49 0. Figura 3. pero el ancho de 66 .6964 3.43359 longitud 5.longitud sépalo .50807 0.4408 49 49 0.000 3 49.Capítulo 3.000 Figura 3.2152 46 0. Número de casos en cada conglomerado Conglomerado 1 55.26006 5. sin embargo debemos realizar pruebas de validación para evaluar el error en cada asignación de casos.76316 2 3 Total Media N Desv.6348 46 46 0.31202 0.0600 55 55 0.4.17367 3.000 Válidos 150.000 Perdidos 0.10801 1.7043 2.12.0540 150 150 0. típ. típ.8433 3. Media N Desv. observamos que los clusters 1 y 3 son los más diferenciados. El cluster 1 se encuentra conformado principalmente por aquellos lirios con la mayor longitud en sus pétalos y sépalos así como con los pétalos más anchos que el resto.70395 1.000 2 46.42109 0.4182 55 0.4673 49 0. Informe Número inicial de casos 1 sépalo . típ. más chicos que el resto. Informe sobre el análisis de medias En la Figura 3.76442 pétalo .82807 0.34842 0.ancho pétalo 6. Media N Desv.3326 46 0.33802 1.1987 150 0.26265 5.13.13.34876 5.

Tabla de contingencia Se observa en la Figura 3. En este caso la prueba consiste en generar una tabla de contingencia con la variable de validación “especies” en las columnas y la variable de agrupación “QCL_1” en las filas. representando un 15% de error. Ejemplo comparativo sépalos más grande. mientras que los clusters 1 y 2 tuvieron el mayor traslape (tal como se había sugerido en la Figura 3. la especie con mayor concentración en el cluster 2 es “versicolor” mientras que en el cluster 1 es “virginica”. El cluster 2 de manera general se encuentra en la mitad de estos dos clusters. 67 . de acuerdo a las distancias entre los centros de los conglomerados). 37.10.Capítulo 3. que el cluster 3 contiene la mayor cantidad de la especie “setosa”. los valores en la diagonal principal (42. Número inicial de casos Total Tabla de contingencia Número inicial de casos * especie especie Iris-virginica Iris-versicolor Iris-setosa 1 Recuento 42 13 0 2 Recuento 8 37 1 3 Recuento 0 0 49 Recuento 50 50 50 Total 55 46 49 150 Figura 3. a pesar de los casos traslapados.14. en total hubo 128 casos clasificados correctamente.14. Los valores en cualquiera de las demás casillas de la matriz representan casos de clasificación errónea. Una segunda prueba de validación consiste en usar una variable externa y compararla contra la variable de agrupación generada en el análisis. 49) representan aquellos casos que fueron clasificados correctamente. La tabla de contingencia ayuda a identificar rápidamente cualquier caso clasificado erróneamente. En nuestro caso la variable de validación es la variable “especies” la cual nos dice el tipo de especie real al que pertenece cada lirio. En nuestro ejemplo.

16. de SPSS Inc. 68 .15.5 Clasificación de lirios mediante árboles de decisión Como primer paso. Para mayor detalle. Elección del tipo de método a utilizar 27 En el Anexo C se muestran los métodos de árboles de decisión incluidos en AnswerTree así como una visión simplificada de sus aspectos teóricos. Ejemplo comparativo 3. Dado que este conjunto de datos contiene una muestra muy reducida. longitud del pétalo y ancho del sépalo como las variables predictoras (Figura 3. en la siguiente pantalla se selecciona “especies” como la variable criterio y longitud del pétalo. A continuación. se selecciona en la pantalla el método a utilizar (Figura 3. estableceremos como reglas de parada que la profundidad máxima del árbol sea de 5 niveles bajo la raíz y que los números mínimos de casos para los nodos parentales y filiales sean de 25 y 1 respectivamente (Figura 3. ancho del pétalo.15.Capítulo 3. en nuestro ejemplo el algoritmo a utilizar es C&RT27.). Figura 3.17.). se recomienda consultar la Guía del usuario de AnswerTree 3.).1.

Capítulo 3. Especificación de la variable criterio y las variables predictoras Figura 3.18.16.17.). 69 . Especificación de las reglas de parada El nodo raíz o nodo “0” representa las frecuencias de la variable criterio “especies” (Figura 3. Ejemplo comparativo Figura 3.

En el nodo 2 se encuentran las 100 observaciones restantes. utilizamos la medida de impureza predeterminada de Gini. 70 . En la primera división del árbol.00) 150 Figura 3. los valores utilizados para la división son mayores o menores que el valor de la medida 2.450.450 se envían al nodo 2. entre las que se observan todos los lirios “versicolor” y “virginica”.33 50 Total (100.33 50 Iris-virginica 33.450 se envían al nodo 1. Árbol mínimo Desarrollando el resto del árbol tenemos 4 niveles debajo del nodo raíz (Figura 3. Ejemplo comparativo ESPECIE Nodo 0 Categoría % n Iris-setosa 33. se selecciona la longitud del pétalo.).19. Resulta interesante estudiar los árboles de decisión ya que en ellos se encuentra un historial detallado acerca del análisis que hemos realizado.3333. Haciendo un zoom en la parte superior del árbol (Figura 3.) vemos que para dividir el nodo raíz.33 50 Iris-versicolor 33.Capítulo 3. Todos los casos en los que la longitud del pétalo sea menor o igual que 2.18.3333 menor que la impureza del nodo raíz. El algoritmo C&RT muestra la importancia relativa de la división de un nodo. El nodo 1 está compuesto por una sola especie (“setosa”) y contiene todos los casos de dicha especie. utilizando la disminución en la impureza o mejora.20. En este ejemplo. en tanto que aquellos cuyo valor sea mayor que 2. la mejora corresponde a 0. como criterio de evaluación. Parte del desarrollo y de la comprensión que podamos obtener de un análisis basado en un árbol se deriva de las explicaciones de los resultados que seamos capaces de generar. Esto significa que la impureza de los dos nodos filiales resultante de la división era 0.

0297 >1.00 0 Total (33. Desarrollo en la parte superior (primer nivel del árbol) 71 .33) 50 >2.longitud Mejora=0.9500000000000002 Nodo 5 Categoría % n Iris-setosa 0.2598 n 0 50 50 100 Nivel 1 <=1.00 1 Total (0.0042 Nivel 2 <=4.longitud Mejora=0. Árbol desarrollado ESPECIE Nodo 0 Categoría % Iris-setosa 33.26 5 Total (36.ancho Mejora=0.4500000000000002 Nodo 1 Categoría % n Iris-setosa 100.33 1 Iris-virginica 66.longitud Mejora=0.00 0 Iris-virginica 0.00 Iris-virginica 50.33) 47 >1.08 1 Total (32.00 0 Iris-versicolor 97.19. Ejemplo comparativo ESPECIE Nodo 0 Categoría % Iris-setosa 33.00 43 Total (28.67) 46 pétalo .00 0 Iris-versicolor 90.00) 6 <=4.74 49 Iris-virginica 9.00 0 Iris-versicolor 33.00 0 Iris-virginica 0.67) n 0 50 50 100 Figura 3.33 Iris-virginica 33.67) 43 Nivel 3 <=1.00 47 Iris-virginica 0.00 0 Iris-virginica 100.4500000000000002 Nodo 1 Categoría % n Iris-setosa 100.00 0 Total (33.67) 1 Nivel 4 Figura 3.4500000000000002 Nodo 2 Categoría % Iris-setosa 0.Capítulo 3.00 0 Total (31.00 Iris-virginica 50.8499999999999996 Nodo 8 Categoría % n Iris-setosa 0.33 Total (100.33 Total (100.longitud Mejora=0.00 Iris-versicolor 50.ancho Mejora=0.00 0 Iris-versicolor 2.00) pétalo .92 47 Iris-virginica 2.33 2 Iris-virginica 66.67 4 Total (4.00) pétalo .00) 48 pétalo .00 0 Iris-versicolor 33.00 0 Iris-versicolor 100.00) 54 pétalo .75 Nodo 4 Categoría % n Iris-setosa 0.83 45 Total (30.00 0 Iris-versicolor 0.9500000000000002 Nodo 6 Categoría % n Iris-setosa 0.17 1 Iris-virginica 97.00 50 Iris-versicolor 0.6499999999999999 Nodo 10 Categoría % n Iris-setosa 0.20.8499999999999996 Nodo 7 Categoría % n Iris-setosa 0.3333 n 50 50 50 150 Nivel 0 Raíz <=2.00) 3 >4.00 0 Iris-virginica 100.00 Total (66.33 Iris-versicolor 33.6499999999999999 Nodo 9 Categoría % n Iris-setosa 0.00 Total (66.0131 >4.75 Nodo 3 Categoría % n Iris-setosa 0.33) 50 >2.00 50 Iris-versicolor 0.33 Iris-versicolor 33.3333 n 50 50 50 150 <=2.4500000000000002 Nodo 2 Categoría % Iris-setosa 0.33 Iris-virginica 33.67) pétalo .67 2 Total (2.00 0 Iris-versicolor 0.00 Iris-versicolor 50.

00) 150 pétalo .00 Iris-virginica 0.00 Iris-versicolor 90.21. ESPECIE Nodo 0 Categoría % n Iris-setosa 33.2598 n 50 0 0 50 <=1.75 Nodo 3 Categoría % Iris-setosa 0.00 0 Iris-versicolor 50.33 50 Iris-versicolor 33.17 Iris-virginica 97.3333 <=2. El estudio de las últimas divisiones ayuda poco a comprender mejor el problema.00 50 Total (66.00) >1.00 Iris-versicolor 2.ancho Mejora=0.4500000000000002 Nodo 1 Categoría % Iris-setosa 100.33 50 Total (100.longitud Mejora=0.75 Nodo 4 Categoría % Iris-setosa 0. Desarrollo en el segundo nivel del árbol 72 . El nodo 2 se ha dividido utilizando la variable ancho del pétalo y la mejora corresponde a 0.26 Total (36.33 50 Iris-virginica 33.00 50 Iris-virginica 50.00 Total (33.21. se puede identificar que el nodo 1 se ha definido como un nodo terminal (no es posible dividir más este nodo). en tanto que el nodo 4 incluye la mayoría de los de la especie “virginica”.). El nodo 3 incluye la mayoría de los lirios de la especie “versicolor”.00 Iris-versicolor 0.74 Iris-virginica 9. ya que las divisiones sucesivas incluyen un número de casos muy reducido.2598.83 Total (30.67) n 0 49 5 54 n 0 1 45 46 Figura 3. Ejemplo comparativo Desarrollando ahora el árbol en 2 niveles (Figura 3.67) 100 pétalo .33) >2. Los dos nodos filiales del nodo 2 describen a grandes rasgos los dos tipos restantes de lirios.4500000000000002 Nodo 2 Categoría % n Iris-setosa 0.Capítulo 3.

salvo tres fueron clasificados correctamente.Capítulo 3. 49.02 ya que el 2% de los casos se ha clasificado de manera errónea. Esto da como resultado una estimación de riesgos de 0.750 ) .22. probablemente se trate del tipo “setosa”. en tanto que los pétalos anchos (> 1. La tabla de estadísticos de riesgo ayuda a identificar rápidamente cualquier caso clasificado erróneamente. Si se tienen en cuenta los lirios con pétalos largos (> 2.750 ) corresponden al tipo “versicolor”. Resumen de riesgos 73 . observaremos que los pétalos angostos (≤ 1. Dicho resumen compara el tipo de lirio asignado mediante el árbol con el tipo del lirio registrado realmente.450 ) .011431 Figura 3.450) . podemos examinar el resumen de riesgos (Figura 3. Para valorar la capacidad del modelo a la hora de predecir el tipo de lirio.22. En nuestro ejemplo. los valores en la diagonal principal (50. Matriz de clasificación errónea Categoría real Iris-setosa Categoría estimada Iris-setosa Iris-versicolor Iris-virginica Total 50 0 0 50 Iris-versicolor 0 49 1 50 Iris-virginica 0 2 48 50 Total 50 51 49 150 Estmación de riesgo ET de la estimación de riesgo Estadísticos de riesgo 0. Se aprecia que la tasa de clasificación errónea es bastante baja: todos los casos.). La estimación de riesgo revela la proporción de casos clasificados de manera incorrecta. Ejemplo comparativo En base a estos resultados podemos concluir que: Si el lirio tiene pétalos pequeños (≤ 2.02 0. Los valores en cualquiera de las demás casillas de la matriz representan casos de clasificación errónea. 48) representan aquellos casos que fueron clasificados correctamente. corresponden al tipo “virginica”.

Puede caerse modificarse desde el veces se tienen que menú de herramientas en el mal hábito de dejar modificar los parámetros de SPSS en automático las manejados por default. Cualquiera. No supervisado.1. Conocimientos medios de SPSS. Tabla 3.6 Resumen comparativo de los 3 métodos En la Tabla 3. del número de grupos No. Análisis cluster. en algunos casos se requieren previas adaptaciones. Ejemplo comparativo 3. Conocimientos básicos de SPSS. Aspecto evaluado SOM Análisis Cluster Árboles de decisión ( k-medias ) Análisis multivariado. Árboles de decisión. Cuadro comparativo entre los tres métodos utilizados 74 . Dificultad de implementación Baja. el usuario sólo De media a alta. ( C&RT ) Análisis multivariado. Estandarización de las variables a incluir en el modelo. Cualquiera. Tipos de datos con los Cualquiera.Capítulo 3. Cualquiera de los 3 tiene que ir requiere programar la seleccionando las métodos puede red y en aplicaciones implementarse y opciones que requiera en reales la mayoría de las el análisis. Conocimientos previos Redes neuronales.1 se resumen las diferencias de cada método entre los aspectos evaluados. Especificación a priori No. Procesamiento previo de los datos Ninguno. que trabaja (continuos / discretos) Estandarización de las variables a incluir en el modelo. Sí. Supervisado. Se Baja. recomendados Lenguaje M de MatLab. opciones que pueden ayudar a generar mejores árboles. Tipo de aprendizaje utilizado No supervisado. Análisis multivariado. La implementación se lleva a cabo paso por paso.

000 iteraciones para el entrenamiento del mapa. En el ejemplo. Se requirieron 3. Sí. Tasa de error Baja. es “virginica”. El factor de separación entre mayor concentración en ( ≤ 1. Si se especies forman otro que los clusters 1 y 2 tiene en cuenta los lirios cluster.45). la especie con anchos. Posibilidad de generar reglas de decisión (reglas de clasificación Sí para un análisis discriminante posterior) Sí Sí Tabla 3.75) corresponden al tipo “versicolor”.75) corresponden al hojas más grandes.1. Cuadro comparativo entre los tres métodos utilizados 75 . Ejemplo comparativo Análisis Cluster Árboles de decisión Aspecto evaluado SOM ( k-medias ) ( C&RT ) Media. Conclusiones generadas sobre cada tipo de lirio Si el lirio tiene pétalos Existe un cluster El cluster 3 contiene la pequeños ( ≤ 2. Se requirieron 8 iteraciones para conseguir Baja. Se Diagrama de árbol muy componentes. Interpretación de resultados Manipulación interactiva de los resultados Sencilla a media. Altamente gráficos de dificulta su interpretación efectivas y sencillas de fácil de interpretar. 2% de error. en tanto “versicolor” y “virginica” el cluster 2 es “versicolor” que los pétalos anchos es que esta última tiene mientras que en el cluster 1 (>1. fue de casi el 2%. No. No.45) claramente definido: mayor cantidad de la probablemente se trate “setosa”. mientras del tipo “setosa”. el conjunto de datos era Dificultad de ejecución pequeño. observaremos cortos pero sépalos “virginica”). estandarizados. El árbol se abrió la convergencia del sólo en 4 niveles. Sencilla.Capítulo 3. método. La especie “setosa” tuvieron el mayor traslape con pétalos largos exhibe pétalos pequeños y (“versicolor” y (>2. A pesar del que los pétalos angostos traslape. tipo “virginica”. El error de cuantificación 15% de error. visualización cuando los datos fueron interpretar. …Continuación. Sencilla a media. Centros de los Matriz de distancias y de Principales resultados / conglomerados finales. Las otras dos especie “setosa”.

pueden complementarse adecuadamente (modelos híbridos). Entre las propiedades de las RNA que han llamado la atención de los estadísticos destacan las relativas a su buen rendimiento ante problemas no lineales o datos con mucho ruido. 76 .Conclusiones En general las RNA han mostrado una capacidad clasificatoria igual o superior que las técnicas estadísticas. centrada tradicionalmente en problemas lineales. y las RNA. Se recomienda valorar dependiendo de la complejidad de cada problema si vale la pena ganar en capacidad clasificatoria a costa de incrementar el costo computacional y de recursos involucrados (tanto en complejidad como en aspectos tecnológicos) en el entrenamiento de las RNA. El modelo mediante análisis cluster obtuvo una tasa de error del 15%. la dificultad de implementación y ejecución de las RNA es ligeramente superior que para los métodos estadísticos. la interpretación resulta bastante sencilla. más acostumbradas a tratar con problemas de categorías mal definidas. relaciones no lineales o datos con mucho ruido. De este modo. La consideración de todo lo dicho nos lleva a sugerir que técnicas estadísticas y RNA. tanto el modelo de mapas autoorganizados como el modelo de árboles de decisión registraron una tasa de error del 2%. y el poderse utilizar independientemente del cumplimiento de los supuestos teóricos relativos a las técnicas estadísticas. dejando a consideración del lector la elección entre un método u otro (o bien la combinación de ellos). No es de extrañar por ello. que paquetes estadísticos ya comiencen a incorporar en sus últimas versiones módulos de redes neuronales artificiales. Otro punto a considerar es el fácil acceso a los paquetes estadísticos actuales pues resultan hoy en día más económicos de aplicar que las RNA en cuanto a los recursos temporales y computacionales involucrados. hay que recordar que este último parte de un método de clasificación supervisado lo cual representa una ventaja. De esta forma. se cubre satisfactoriamente el objetivo de este trabajo. la estadística. El presente material puede utilizarse como base para nuevos trabajos en los que se busque la solución a problemas reales. sin embargo. Si bien. se verán mutuamente enriquecidas. mientras que.

La forma más simple de inicializar y entrenar un SOM es mediante la función som_make.Anexo A SOM Toolbox en MatLab A continuación se muestran las principales funciones que se emplean para la construcción y visualización de los SOM. SOM Toolbox tiene la función som_read_data la cual puede ser usada para leer archivos ASCII. 3. Esta función inicializa y entrena el mapa. los datos deben ser estandarizados en el caso de que las variables no se encuentren en la misma escala de medición (normalmente se requiere que las variables sean igualmente importantes. Inicialización y entrenamiento Se manejan dos formas de inicialización (aleatoria o lineal) y dos formas de entrenamiento (secuencial y en bloques). 2. El entrenamiento se realiza en dos etapas: una etapa de organización del mapa con valores grandes (iniciales) para el radio de la 77 . La función sD = som_normalize (sD. “Neural Network Toolbox 5”. Construcción de conjuntos de datos Se pueden utilizar las funciones normales de MatLab tales como load y scan. ‘var’) o D = som_normalize (D. de otra forma las variables con valores más grandes dominarían la organización del mapa). Preprocesamiento de los datos Dado que el algoritmo SOM usa la métrica euclidiana para medir la distancia entre vectores. sin embargo. Para mayor detalle se recomienda consultar la Guía de Usuario. 1. ‘var’) escala las variables de tal forma que su varianza sea igual a 1. Por default se maneja la inicialización lineal y el entrenamiento por bloques.

4. como por ejemplo. la segunda etapa comprende el ajuste fino del mapa para lo cual se utilizan valores pequeños para el radio de la vecindad y la tasa de aprendizaje. Gráficas de pie (som_pieplane): es ideal para mostrar valores proporcionales.1 Visualización de células La función básica es som_show. Esta función tiene varios argumentos de entrada que pueden ser modificados para tener más control sobre el tipo de planos a mostrar y en qué orden. som_seqtrain y som_batchtrain. por default esta función muestra la matriz de distancias (U-matrix) calculada en base a todas las variables y a las componentes. sin embargo. Gráficas de barras (som_barplane): es ideal para mostrar valores en diferentes categorías.2 Visualización de gráficas 1. Cada componente muestra los valores de una variable en cada neurona del mapa. el tamaño del mapa. Visualización y análisis Las cuadrículas de visualización del SOM pueden ser usadas como una forma sencilla para mostrar las características de los mapas (y de los datos mismos). 2. SOM Toolbox en MatLab vecindad y para la tasa de aprendizaje. Si se desea tener control sobre los parámetros de entrenamiento se puede optar por las funciones som_lininit.Anexo A. 78 . Los valores son mostrados mediante colores. 4. se pueden modificar sus argumentos de tal forma que se puedan modificar las opciones. 4. Esta función también selecciona el tamaño del mapa y los parámetros de entrenamiento automáticamente. som_randinit.

En todos los casos. color y tamaño. La función se basa en la idea de que la visualización de un conjunto de datos.Anexo A.3 Visualización de mallas La función som_grid puede ser utilizada para crear gráficas de mallas. 79 . consiste simplemente en un conjunto de objetos con una única posición. SOM Toolbox en MatLab 3. Gráficas de señal (som_plotplane): muestra los vectores de códigos como gráficas de líneas. los colores y tamaños de la gráfica pueden ser modificados mediante la manipulación de sus argumentos. 4.

• Siempre que todas las variables sean del mismo tipo. transformación de variables y medida de disimilaridad.Anexo B Análisis cluster SPSS incluye tres procedimientos de clusterización: en dos fases. Posibilidad de leer los centros de los conglomerados iniciales y guardar los centros de los conglomerados finales desde un archivo SPSS externo. Análisis en dos fases: Ofrece una serie de funciones que se detallan a continuación: • Selección automática del número más apropiado de clusters y medidas para la selección de los distintos modelos. de recuento o binarias. Cada uno de estos procedimientos emplea un algoritmo distinto en la creación de grupos y contiene opciones que no están disponibles en los otros. 80 . Análisis jerárquico: Su uso se limita a archivos de datos más pequeños y ofrece una serie de funciones que se detallan a continuación: • Posibilidad de agrupar casos o variables. • Distintos métodos de formación de clusters. 1. Puede analizar archivos con una gran cantidad de datos. Ofrece una serie de funciones que se detallan a continuación: • • • Posibilidad de guardar las distancias desde los centros de los conglomerados hasta los distintos objetos. 2. • Posibilidad de calcular un rango de soluciones posibles y guardar los conglomerados de pertenencia para cada una de dichas soluciones. 3. el procedimiento podrá analizar variables de intervalo (continuas). jerárquico o de Kmedias. Análisis de K-medias: El uso del procedimiento requiere que el usuario especifique previamente el número de clusters.

ya que no está incluida dentro del mismo procedimiento como en el caso del análisis jerárquico). Sin embargo. información de la distancia y los centros de los conglomerados finales. El escalamiento de las variables es una consideración importante. Análisis de K-medias Este procedimiento intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos. Así. Análisis Cluster • Posibilidad de crear modelos basados al mismo tiempo en variables categóricas y continuas. Las distancias se calculan utilizando la distancia euclídea simple. 1. La iteración se detiene después de este número de iteraciones. puede guardar la pertenencia a los conglomerados. En estos casos.1. Asimismo. este procedimiento puede analizar archivos con una gran cantidad de datos. incluso si no se ha satisfecho el criterio de convergencia. se recomienda utilizar el análisis jerárquico. 1. Limita el número de iteraciones. Asimismo. Si desea utilizar otra medida de distancia o de similaridad.1 Especificaciones del método 1. Se puede elegir uno de los dos métodos disponibles para clasificar los casos: la actualización de los centros de los conglomerados de forma iterativa o sólo la clasificación. • Posibilidad de guardar el modelo en un archivo xml externo y. el algoritmo requiere que el usuario especifique el número de clusters. leer el archivo y actualizar el modelo con datos más recientes. si las variables utilizan diferentes escalas los resultados podrían ser erróneos. a continuación. 81 . se recomienda utilizar el procedimiento de análisis jerárquico.1 Iterar Número máximo de iteraciones. se debe considerar la estandarización de las variables antes de realizar el análisis (esta tarea se puede hacer en el menú “Descriptivos”. Este número debe estar entre el 1 y el 999.Anexo B. Si las variables son binarias o recuentos.

3 Opciones Estadísticos. la iteración cesará si una iteración completa no mueve ninguno de los centros de los conglomerados en una distancia superior al dos por ciento de la distancia menor entre cualquiera de los centros iniciales. Si no selecciona esta opción. Por ejemplo. 82 • .Anexo B. Análisis Cluster Criterio de convergencia.2 Guardar Puede guardar información sobre la solución como nuevas variables para que puedan ser utilizadas en análisis posteriores: Conglomerado de pertenencia. por lo que debe ser mayor que 0 pero no mayor que 1. Usar medias actualizadas. Permite solicitar la actualización de los centros de los conglomerados tras la asignación de cada caso. “Tabla de ANOVA” e “Información del conglomerado para cada caso”. Crea una nueva variable que indica la distancia euclídea entre cada caso y su centro de clasificación. Distancia desde centro del conglomerado.1. Primera estimación de las medias de las variables para cada uno de los clusters. Puede seleccionar los siguientes estadísticos: “Centros de conglomerados iniciales”. Crea una nueva variable que indica el conglomerado final al que pertenece cada caso. Representa una proporción de la distancia mínima entre los centros iniciales de los conglomerados. se van actualizando. 1. • Centros de conglomerados iniciales. Tabla de ANOVA.1. los nuevos centros de los conglomerados se calcularán después de la asignación de todos los casos. 1. Determina cuándo finaliza la iteración. a partir de ahí. si el criterio es igual a 0. Muestra una tabla de análisis de varianza que incluye las pruebas F univariadas para cada variable de aglomeración.02. Los centros iniciales de los conglomerados se utilizan como criterio para una primera clasificación y.

2 Orden de casos y centro de conglomerados iniciales El algoritmo por defecto para elegir centros de conglomerados iniciales no es invariable con respecto a la ordenación de casos. • 1. La principal ventaja del procedimiento radica en que es mucho más rápido que el análisis jerárquico.Anexo B. puede construir un modelo útil para la identificación de nuevos casos utilizando análisis discriminante. el procedimiento jerárquico permite una mayor flexibilidad en los análisis: puede utilizar cualquiera de las diversas medidas de distancia o similaridad. como el utilizado por los procedimientos jerárquicos. Una vez que haya identificado los grupos. el cluster final asignado y la distancia euclídea entre el caso y el centro del cluster utilizado para clasificar el caso. 83 . La tabla de ANOVA no se mostrará si se asignan todos los casos a un único cluster. para cada caso.3 Eficacia del análisis de conglomerados de K-medias El comando de análisis de k-medias es eficaz principalmente porque no calcula las distancias entre todos los pares de casos. Sin embargo. Muestra. incluidas las opciones para datos binarios o de datos de frecuencias y no es necesario especificar el número de clusters a priori. Información del conglomerado para cada caso. 1. La opción “Usar medias actualizadas” del cuadro de diálogo “Iterar” hace que la solución resultante dependa potencialmente del orden de casos con independencia de cómo se eligen los centros de conglomerados iniciales. Análisis Cluster • Las pruebas F son sólo descriptivas y las probabilidades resultantes no deben ser interpretadas.

“Agrupación de medianas” y “Método de Ward”. 2. La estandarización de las variables es un aspecto importante. Las variables en este método pueden ser cuantitativas. y ) = ∑ (x i i − yi ) 2 • Distancia euclídea al cuadrado.1 Método de agrupación y medidas Las opciones disponibles son: “Vinculación inter-grupos”. La suma de los cuadrados de las diferencias entre los valores de los elementos. Si las variables muestran grandes diferencias en sus escalas de medición se debe considerar la opción de estandarizarlas (esto puede llevarse a cabo automáticamente mediante el propio procedimiento de agrupación jerárquico). “Vecino más próximo”. y ) = ∑i ( xi − y i ) 2 84 . La raíz cuadrada de la suma de los cuadrados de las diferencias entre los valores de los elementos. “Agrupación de centroides”. 2. SEUCLID( x. EUCLID( x. “Vecino más lejano”. binarias o de frecuencias.1. Las medidas de distancia o similaridad se generan mediante el procedimiento “Proximidades”.Anexo B. mediante un algoritmo que comienza con cada caso (o cada variable) en un cluster diferente y combina los clusters hasta que sólo queda uno. Ésta es la medida por defecto para los datos de intervalo. Análisis Cluster 2.1 Medidas para datos de intervalo Las siguientes medidas de disimilaridad están disponibles para datos de intervalo: • Distancia euclídea. “Vinculación intra-grupos”. Análisis jerárquico Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas. ya que las diferencias en las escalas pueden afectar a las soluciones de agrupación.

La diferencia absoluta máxima entre los valores de los elementos. y ) = ∑i xi − yi • Minkowski. CORRELATION ( x. También se conoce como la distancia de Manhattan. y ) = (∑ x − yi ) p i i 1 p • Personalizada. y ) = max i xi − yi • Bloque. La correlación producto-momento entre dos vectores de valores. CHEVYCHEV ( x. POWER( x. Análisis Cluster • Correlación de Pearson. La suma de las diferencias absolutas entre los valores de los elementos. La raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos. COSINE ( x. y ) = ∑ (Z i xi z yi ) N • Coseno. El coseno del ángulo entre dos vectores de valores. BLOCK ( x. MINKOWSKY ( x. y ) = ∑ (x y ) (∑ x )(∑ y ) i i i 2 2 i i i i • Chebychev.Anexo B. La raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos. y ) = (∑ x − yi ) P i i 1 r 85 .

y ) = CHISQ( x. CHISQ( x. y ) = a a+b+c+d 86 . Ésta es la medida por defecto para los datos de similaridad binarios. Se trata de un índice en el que no se toman en cuenta las ausencias conjuntas. y ) = a a+b+c • Russel y Rao. Esta medida es igual a la medida de chi-cuadrado normalizada por la raíz cuadrada de la frecuencia combinada.1.1.2 Medidas para datos de frecuencias Las siguientes medidas de disimilaridad están disponibles para datos de frecuencias: • Medida de chi-cuadrado. RR( x.Anexo B. JACCARD( x. Ésta es la medida por defecto para los datos de recuento. Análisis Cluster 2. Se ofrece una ponderación igual a las concordancias y a las discordancias.3 Medidas para datos binarios A continuación se muestran algunas de las siguientes medidas de similaridad / disimilaridad que están disponibles para datos binarios: • Jaccard. y ) = (xi − E (xi ))2 + ( yi − E ( yi ))2 ∑i E ( x ) ∑i E ( y ) i i • Medida de Phi-cuadrado. Se ofrece una ponderación igual a las concordancias y a las discordancias. Esta medida se basa en la prueba de chi-cuadrado de igualdad para dos conjuntos de frecuencias. PH 2( x. y ) N 2. Se trata de una versión binaria del producto interno (punto). Se conoce también como razón de similaridad.

los clusters que se combinan y los valores de los coeficientes de distancia. SS ( x. preservando la razón de las distancias entre los pasos. mientras que los clusters separados se indican con un espacio en blanco entre ellos. En la base (la derecha en los gráficos horizontales). y ) = a+d a + d + 2(b + c ) • Sokal y Sneath.  a  a  OCHIAI ( x. no hay casos unidos todavía.2 Gráficos Dendograma: Representación visual de los pasos de una solución de análisis jerárquico que muestra. para cada paso. Este índice es la forma binaria de la medida de similaridad del coseno. El dendrograma re-escala las distancias reales a valores entre 0 y 25. Se trata de un índice en el que se ofrece una ponderación doble a las discordancias.Anexo B. RT ( x. a medida que se recorre hacia arriba el diagrama (o de derecha a izquierda en los horizontales). Diagrama de témpanos: Muestra cómo se unieron los casos. Se trata de un índice en el que se ofrece una ponderación doble a las concordancias. Varía entre 0 y 1. y ) =     a + b  a + c  • Rogers y Tanimoto. Los dendrogramas pueden emplearse para evaluar la cohesión de los grupos que se han formado y proporcionar información sobre el número adecuado de grupos que deben conservarse. los casos que se unen se marcan con una X o una barra en la columna situada entre ellos. 87 . y ) = 2(a + d ) 2(a + d ) + b + c 2. Análisis Cluster • Ochiai.

3 Estadísticos Historial de conglomeración. Matriz de distancias. las distancias entre los casos o los grupos que se combinan. Ofrece las siguientes opciones: • Tratamiento de variables categóricas y continuas. Selección automática del número de clusters. el procedimiento puede determinar automáticamente el número óptimo de clusters. 3. no sería posible detectar.Anexo B. Análisis en dos fases El procedimiento Análisis en dos fases es una herramienta de exploración diseñada para descubrir las agrupaciones naturales (o grupos) de un conjunto de datos que. • Log-verosimilitud. Conglomerado de pertenencia. de otra manera. • 3. Las variables continuas se supone que tienen 88 . en una o varias etapas de la combinación de los clusters. es posible aplicar una distribución normal multinomial conjunta en las variables continuas y categóricas. Al suponer que las variables son independientes. Análisis Cluster 2. Mediante la comparación de los valores de un criterio de selección del modelo para diferentes soluciones de agrupación. Muestra el cluster al cual se asigna cada caso. Muestra los casos o grupos combinados en cada etapa.1 Medida de distancia Esta opción determina cómo se calcula la similaridad entre dos clusters. Proporciona las distancias o similaridades entre los elementos. La medida de la verosimilitud realiza una distribución de probabilidad entre las variables. así como el último nivel del proceso de aglomeración en el que cada caso (o variable) se unió a su cluster correspondiente.

mientras que la tabla de criterio de información muestra los resultados correspondientes a varias soluciones. Sólo se puede utilizar cuando todas las variables son continuas. Se supone que todas las variables son independientes. Análisis Cluster una distribución normal. Se puede especificar el número máximo de grupos que el procedimiento debe tener en cuenta. Muestra dos tablas que describen las variables de cada cluster. • Determinar automáticamente.3 Estadísticos Proporciona opciones para la presentación de tablas con los resultados de la agrupación. Especificar número fijo. Permite fijar el número de clusters de la solución. Se puede especificar tanto el criterio de información bayesiano (BIC) como el criterio de información de Akaike (AIC). Criterio de conglomeración. mientras que las variables categóricas se supone que son multinomiales. En una tabla. • Descriptivos por conglomerado.2 Número de conglomerados Esta opción permite especificar cómo se va a determinar el número de grupos. Las comprobaciones empíricas internas indican que este procedimiento es bastante robusto frente a las violaciones tanto del supuesto de independencia como de las distribuciones. Se generan los estadísticos descriptivos y las frecuencias de los clusters para el modelo final. se informa de las medias y las 89 . La medida euclídea es la distancia según una "línea recta" entre dos clusters. • Euclídea.Anexo B. 3. • • 3. El procedimiento determinará automáticamente el número "óptimo" de clusters. utilizando el criterio especificado en el grupo. pero aún así es preciso tener en cuenta hasta qué punto se cumplen estos supuestos.

Esta opción determina si los gráficos que se crearán para cada cluster (por variable) o para cada variable (por cluster).4. Esta opción permite seleccionar la medida de la importancia de las variables que se van a representar en el gráfico. Los resultados se ordenan según el nivel de importancia de cada variable. La otra tabla informa de las frecuencias de las variables categóricas por grupo. • 90 . Para cada variable categórica.4.4.1 Gráfico del porcentaje intra-conglomerado Muestra los gráficos que indican la variación dentro del cluster de cada variable. Medida de la importancia. 3. se genera un gráfico de barras agrupado. 3. Muestra una tabla que informa el número de observaciones existentes en cada cluster.Anexo B. Chicuadrado o prueba t de significación muestra un estadístico chi-cuadrado de Pearson como la importancia de una variable categórica y un estadístico t como importancia de una variable continua.2 Gráfico de sectores de los conglomerados Muestra un gráfico de sectores que muestra el porcentaje y las frecuencias de observaciones correspondientes a cada cluster. 3. mostrando la frecuencia de la categoría por identificador de cluster.3 Gráfico de la importancia de las variables Muestra varios gráficos diferentes que indican la importancia de cada variable dentro de cada grupo. Análisis Cluster desviaciones típicas para las variables continuas por cada grupo.4 Gráficos 3. • Frecuencias de los conglomerados. • Ordenar variables.

Las variables que no son significativas para el nivel de confianza especificado no aparecen en los gráficos de la importancia de las variables. • 91 . Omitir variables no significativas.Anexo B. Se debe especificar un número inferior a 100 y superior o igual a 50. Análisis Cluster • Nivel de confianza. Esta opción permite establecer el nivel de confianza para la prueba de igualdad de la distribución de una variable dentro de un cluster frente a la distribución global de la variable.

Un nodo no se dividirá si se cumple alguna de las condiciones siguientes: • Todos los casos de un nodo tienen valores idénticos para todos los predictores. 92 . 1. es decir. Los árboles de decisión parten de un nodo raíz que contiene todas las observaciones de la muestra.Anexo C Árboles de decisión Los árboles de decisión (también llamados árboles de clasificación). • El número de casos que constituye el nodo es menor que el tamaño mínimo preestablecido para los nodos parentales. los datos se ramifican en subconjuntos de datos que se excluyen mutuamente. es uno de los métodos de aprendizaje inductivo supervisado no paramétrico. A medida que se desplaza por el árbol. • La profundidad del árbol ha alcanzado el valor máximo preestablecido. • La división del nodo ha dado como resultado un nodo filial cuyo número de casos es menor que el tamaño preestablecido para los nodos filiales. todos sus casos tienen el mismo valor para la variable criterio. Regla de parada La regla de parada es una regla de decisión para detener el desarrollo de un árbol. • El nodo se vuelve puro. Es muy utilizado principalmente por su sencillez tanto de generación de árboles como de interpretación de resultados.

Por lo tanto. si es categórica se utiliza la prueba χ 2 . C&RT y QUEST. 2. de forma que cada nodo esté compuesto por un grupo de valores homogéneos de la variable seleccionada. Métodos de desarrollo de árboles AnswerTree incluye los siguientes métodos para el desarrollo de árboles: CHAID. Árboles de decisión 2. es decir. que utiliza la significación de una prueba estadística como criterio. El método CHAID. También se denomina variable dependiente. Funde los valores considerados estadísticamente homogéneos respecto a la variable criterio29 y conserva inalterados todos los valores heterogéneos. CHAID exhaustivo. evalúa todos los valores de una variable predictora28 potencial.1 Método CHAID Las siglas CHAID corresponden al término inglés Chi-square Automatic Interaction Detector (detector automático de interacciones mediante chi-cuadrado). También se denominan variables independientes. selecciona la mejor variable predictora para formar la primera rama del árbol de decisión. se utiliza la prueba F. además de una explicación sobre las ventajas e inconvenientes de cada uno y del modo que tratan los valores perdidos. tiende a crear un árbol más ancho que los métodos de desarrollo binarios. Si la variable criterio es continua. Cada uno de ellos funciona de modo ligeramente distinto y se utilizan en casos distintos. puede generar más de dos categorías en cualquier nivel del árbol. Como paso siguiente. El método CHAID es probablemente el más popular. 28 93 . 29 La variable criterio es aquélla cuyo resultado se desea predecir a partir de otras variables. No se trata de un método binario. En esta sección se proporciona una visión general de todos esos algoritmos.Anexo C. Funciona con todos los tipos de variables y trata los valores perdidos como una categoría individual. La prueba estadística utilizada depende del nivel de medida de la variable criterio. Es una técnica estadística desarrollada por Kass (1980) muy eficaz para segmentar o generar árboles. Las variables predictoras son las que predicen el patrón de la variable criterio. Este proceso se repite hasta que el árbol se ha desarrollado por completo.

a.1. Utilizar la prueba de chi-cuadrado de Pearson o la prueba de la razón de verosimilitud.Anexo C. Algunas de las opciones mencionadas a continuación se pueden definir mediante las opciones avanzadas de CHAID. se forma un nuevo conjunto de categorías de X y el proceso se vuelve a iniciar desde el paso 1. Se utiliza para evitar que la tasa de error supere el criterio nominal (α ) cuando se realizan varias pruebas. Si el nivel crítico es mayor que α merge . Estas opciones incluyen la posibilidad de seleccionar la prueba χ 2 de Pearson o la de la razón de verosimilitud. En forma sencilla. se forma una tabla de contingencia con las categorías de X como filas y las categorías de Y como columnas. Árboles de decisión 2. la que presente el mayor nivel crítico) respecto a la variable criterio Y . Calcular el nivel crítico corregido para el conjunto de las categorías de X y las categorías de Y . Para el par de categorías de X con el mayor nivel crítico. fundir este par en una sola categoría compuesta. se ajusta un modelo de asociación de Y . el nivel de α merge (fusión) y el de α split (división). El método utilizado para calcular el nivel crítico depende del nivel de medida de Y.1 Algoritmo CHAID CHAID funciona con todos los tipos de variables continuas y categóricas. 2. Si Y es continua utiliza la prueba F . Si Y es ordinal. mediante la corrección de Bonferroni30 correspondiente. buscar el par de categorías de X cuya diferencia presenta la menor significación (es decir. 1. b. c. Como resultado. 3. α merge . 94 . Sin embargo. ir al paso 3. Si Y es nominal. permite hacer pruebas sin que se lesione el nivel de significación. Utilizar la prueba de la razón de verosimilitud. las variables predictoras continuas se categorizan automáticamente para el análisis. Para cada variable predictora X . se compara el valor del nivel crítico con el nivel alfa preestablecido. a. 30 Corrección aplicada a los p-values (probabilidades) en pruebas estadísticas cuando se realizan varias pruebas. b. Si el nivel crítico es menor que α merge .

dependiendo de los datos utilizados. Para resolver este problema. el método CHAID exhaustivo puede encontrar la mejor división para cada predictor y. Seleccionar la variable predictora X cuyo nivel crítico corregido sea el menor (la que sea más significativa). Si el nivel crítico es menor o igual que α split . No obstante. En concreto. Continuar con el proceso de desarrollo del árbol hasta que se cumpla una de las reglas de parada. cuando el tiempo no es un problema. Si el nivel crítico es mayor que α split . b. 95 . de Ville y Suen (1991). Se desarrolló para resolver algunos de los puntos débiles del método CHAID. hay ocasiones en las que CHAID no encuentra la división óptima de una variable. sin embargo. CHAID exhaustivo continúa fundiendo las categorías de la variable predictora hasta que sólo quedan dos supercategorías. 5. dividir el nodo conforme al conjunto de categorías de X .Anexo C. En ocasiones encuentra divisiones más útiles. a continuación. es posible que no haya ninguna diferencia en los resultados obtenidos con ambos métodos. Árboles de decisión 4. tarda más en realizar los cálculos. 2. se debe tener en cuenta que. no dividir el nodo. elegir el predictor que se va a dividir comparando los niveles críticos corregidos. Comparar su nivel crítico con el nivel alfa preestablecido. El método CHAID exhaustivo opera exactamente igual que el método CHAID en las pruebas estadísticas que utiliza y en la forma en que trata los valores perdidos. ya que detiene la fusión de categorías en cuanto constata que todas las categorías restantes son estadísticamente distintas. A continuación. a. Este nodo es un nodo terminal. busca el conjunto de categorías que proporciona la mayor asociación con la variable criterio y calcula un valor p (nivel crítico) corregido para esa asociación. Dado que su método de combinación de categorías de variables es más minucioso que el CHAID. De esta manera. α split .2 Método CHAID exhaustivo El método CHAID exhaustivo es una modificación del método CHAID desarrollada por Biggs. el uso del método exhaustivo suele ser más seguro que el método simple. examina la serie de fusiones del predictor.

Anexo C. Árboles de decisión

2.3 Método C&RT
Las siglas C&RT corresponden al término inglés Classification and Regresión Trees. Es un algoritmo binario relativamente reciente, desarrollado por Breiman, Friedman, Losen y Stone (1984). Este método divide los datos en dos subconjuntos, de modo que los casos comprendidos dentro de cada uno de los subconjuntos, sean más homogéneos que en el subconjunto anterior. Se trata de un proceso recursivo, que se repite hasta alcanzar el criterio de homogeneidad o hasta llegar a otro criterio de parada (como ocurre con todos los otros métodos de desarrollo de árboles). Se debe tener en cuenta que la misma variable predictora puede ser utilizada varias veces en distintos niveles del árbol. Este método es bastante flexible, permite considerar los costes de clasificación errónea en el proceso de desarrollo del árbol. También permite asignar la distribución de probabilidades a priori en los problemas de clasificación. No obstante, el método C&RT presenta algunos inconvenientes. Al ser un algoritmo binario, tiende a generar árboles de muchos niveles. Por ello, puede ocurrir que el árbol resultante no presente los resultados de manera eficaz, sobre todo si la misma variable ha sido utilizada para la división de varios niveles consecutivos. El método C&RT es complejo; los cálculos pueden ser muy lentos cuando se utilizan grandes conjuntos de datos.

2.3.1 Algoritmo C&RT
C&RT funciona eligiendo en cada nodo una división, de modo que cada nodo filial sea más puro que su nodo parental. En este caso, la “pureza” se refiere a los valores de la variable criterio. En un nodo completamente puro, todos los casos tienen el mismo valor para la variable criterio. El algoritmo C&RT mide la impureza de la división de un nodo definiendo una medida de impureza.

2.3.2 Medidas de impureza
Para buscar las divisiones en los modelos C&RT se utilizan cuatro medidas de impureza distintas, que dependen del tipo de variable criterio. Para las variables

96

Anexo C. Árboles de decisión categóricas, se puede elegir Gini, binario (para criterios ordinales) o binario ordenado.

2.3.3 Índice de Gini
El índice de Gini en el nodo t , g (t ) , se define como:
g (t ) = ∑ p ( j / t ) p(i / t )
j ≠i

Donde i y j son categorías de la variable criterio y
p( j / t ) = p( j , t ) = p ( j, t ) p (t ) π ( j )N j (t ) Nj

p(t ) = ∑ p ( j, t )
j

donde π ( j ) es el valor de la probabilidad a priori para la categoría j , N j (t ) es el número de casos en la categoría j del nodo t y N j es el número de casos de la categoría j en el nodo raíz. Se debe tener en cuenta que cuando se utiliza el índice de Gini para buscar la mejora de una división durante el desarrollo de un árbol, sólo los casos del nodo t y del nodo raíz con valores válidos para el predictor de división se utilizan para calcular N j (t ) y N j respectivamente. La ecuación del índice de Gini se puede expresar también como:
g (t ) = 1 − ∑ p 2 ( j / t )
j

Para ello, cuando los casos de un nodo están distribuidos uniformemente entre las categorías, el índice de Gini toma su valor máximo de 1 − , donde k es el número de categorías de la variable criterio. Cuando todos los casos del nodo pertenecen a la misma categoría, el índice de Gini es igual a 0 .
97

1 k

Anexo C. Árboles de decisión La función del criterio Gini Φ (s, t ) para la división s en el nodo t se define como
Φ (s, t ) = g (t ) − p L g (t L ) − p R g (t R )

Donde p L es la proporción de casos en t enviados al nodo filial de la izquierda y p R es la proporción enviada al nodo filial de la derecha. Las proporciones de p L y p R se definen como
pL = y pR = p (t R ) p(t ) p(t L ) p (t )

Se elije la división s para maximizar el valor de Φ (s, t ) , el cual se considera la “mejora” en el árbol. Binario. El índice binario se basa en la división de las categorías criterio en dos superclases y, después, en la búsqueda de la mejor división de la variable predictora según estas dos superclases. La función del criterio binario para la división s en el nodo t se define como
  Φ (s, t ) = p L PR ∑ p( j / t L ) − p ( j / t R )   
2

Donde t L y t R son nodos creados por la división s . La división s se elije como la división que maximiza este criterio. Este valor, ponderado por la proporción de todos los casos del nodo t , es el valor que se considera la “mejora” en el árbol. Las superclases C1 y C 2 se definen como
C1 = { j : p( j / t L ) ≥ p( j / t R )} y C 2 = C − C1

donde C es el conjunto de categorías de la variable criterio.

98

No obstante. El índice binario ordenado tiene en cuenta este orden y no combinará categorías que no sean contiguas como la 1 y la 4. Por ejemplo. Para variables criterio continuas se utiliza la medida de impureza LSD. no es bueno que se combinen las categorías 1 y 4 (sin incluir también las categorías intermedias) porque no son contiguas. La función del criterio LSD para la división s en el nodo t se define como Φ(s. y y i es el valor de la variable criterio y finalmente y (t ) es la media (ponderada) para el nodo t . con el criterio binario ordenado. Este valor.Anexo C. Este índice es una modificación del índice binario para las variables criterio ordinales. es el valor que se considera la “mejora” en el árbol. y formar la otra superclase con las categorías 2 y 3. y es igual a la estimación del riesgo mediante reestimación para dicho nodo. t ) . el criterio binario podría unir las categorías 1 y 4 para formar una superclase. con las categorías 1 = actualizada 2 = 30 días de vencimiento 3 = 60 días de vencimiento 4 = 90 o más días de vencimiento En algunas circunstancias. ponderado por la proporción de todos los casos del nodo t . R(t ) . si consideramos que estas categorías están ordenadas. es simplemente la varianza (ponderada) dentro del nodo t . Se define como R(t ) = 1 Nw w f (y (t ) ∑ n n i∈t i − y (t )) 2 donde N w (t ) es el número ponderado de casos en el nodo t . 99 . La diferencia consiste en que. f n es el valor de la variable de frecuencia (si existe). La medida LSD. Desviación cuadrática mínima (LSD). wn es el valor de la variable de ponderación para el caso i (si existe). Árboles de decisión Binario ordenado. consideremos la variable criterio “estado de cuenta”. t ) = R(t ) − p L R(t L ) − p R R(t R ) Se elige la división s para maximizar el valor de Φ (s. sólo las categorías contiguas se pueden combinar para formar superclases.

Efficient Statistical Tree. QUEST selecciona cualquiera de las variables predictoras con la misma probabilidad.4 Método QUEST Las siglas QUEST corresponden al término inglés Quick. Es un algoritmo binario relativamente reciente. dividir el nodo 1 (t = 1) en dos nodos t = 2 y t = 3 utilizando la división s ∗ . si todas las variables predictoras son igualmente informativas respecto a la variable criterio. Este método está creado con vistas a la eficacia de los cálculos.4 Algoritmo C&RT 1. Repetir el proceso de búsqueda de divisiones para cada uno de los nodos t = 2 y t = 3 . pero al igual que este último. comenzando por el nodo raíz t = 1 . La división univariante del método lleva a cabo una selección de variables aproximadamente insesgada. presenta muchas de las ventajas del método C&RT. 2.Anexo C. Árboles de decisión 2.3. esto es. y así sucesivamente.1 = max Φ (s . Continuar con el proceso de desarrollo del árbol hasta alcanzar al menos las reglas de parada. 2. Este método trata por separado la selección de variables y la selección del punto de división.1) s∈S ( ) A continuación. 3. desarrollado por Loh y Shih (1997). buscar la división s ∗ entre todos los candidatos posibles S que dé lugar a la mayor reducción de la impureza: Φ s ∗ . Para llevar a cabo un análisis C&RT. 100 . Unbiased. los árboles pueden ser poco manejables.

seleccionar la variable predictora correspondiente con el menor nivel crítico en la prueba de Levene para dividir el nodo. para así calcular su nivel crítico. Si el nivel crítico es menor que α . 2. ir al paso 4. si X es una variable categórica nominal. Comparar el menor nivel crítico de la prueba de Levene con el nuevo nivel α . intentar averiguar si X presenta varianzas desiguales en los distintos niveles de la variable criterio. Si X es continua u ordinal. a.5 . 31 101 . para cada X ordinal o continua. utilizar la prueba de Levene (F de Levene)31 sobre varianzas desiguales. se transforma X para maximizar las diferencias entre las categorías de la variable criterio. utilizar la prueba F para calcular el nivel crítico. e. Para cada variable predictora X . transformar X en una variable ficticia Z y calcular la mayor coordenada discriminante de Z . 1. Si el nivel crítico es menor que α . Si el nivel crítico es mayor que α . 3. Supongamos que X es la variable predictora del paso 2. Si X es continua u ordinal. seleccionar la variable predictora correspondiente para dividir el nodo. Ir al paso 3. Árboles de decisión 2. corregido mediante Bonferroni.Anexo C. El valor predeterminado es α = 0. Si X es nominal. calcular el nivel crítico de una prueba de independencia χ 2 de Pearson entre X y la variable dependiente categórica. corregido mediante Bonferroni. Si el nivel crítico es mayor que α . seleccionar la variable predictora del paso 1 cuyo nivel crítico se el menor (ya sea a partir de la prueba de χ 2 o de la prueba F ) para dividir el nodo. b.1 Algoritmo QUEST El nivel para α a utilizar se puede especificar en las opciones avanzadas de QUEST. Ir al paso 3. d. En otras palabras. Ir al paso 3. Comparar el menor nivel crítico con el nivel α preestablecido. De manera general. Estadístico de prueba utilizado para comprobar las diferencias en la varianza de las variables predictoras en todas las categorías de la variable criterio.4. c.

Si Y tiene sólo 2 categorías. Se debe tener en cuenta que el QDA normalmente genera dos puntos de corte. calcular la media de X para cada categoría de Y y aplicar un algoritmo de agrupación de dos medias para obtener dos superclases de Y .Anexo C. Árboles de decisión 4. ir al paso 5. 5. 102 . Aplicar el análisis discriminante cuadrático (QDA) para determinar el punto de división. se debe elegir el más cercano a la media muestral de cada clase. De lo contrario.

E. Modelos y aplicaciones. Johnson. T. (2205). J. H. S. 586-600. Algorithms. V.Bibliografía Cheng. 103 . and Misra. Redes Neuronales Artificiales: Fundamentos. R. (1996). D. 36-41. B. (2000). y Martínez. Demuth. No. (2007). Beale. 284-293. No.M.. SPSS Inc.3. Clustering of the Self-Organizing Map. 25. No. Cluster Analysis. Madrid. Inc. 9. and Skapura.S. Springer Series in Information Sciences. McGraw-Hill.. (1994).1. J. D. B. Madrid. 2ª ed. USA. B. Vesanto. Spectrum.4. (2000). IEEE. Everitt. y Sanz. (1973). Guía del usuario de AnswerTree 3. (1995). Hilera. (1988). New York. Martín. Landau. M.C. Neural Networks.. and Titterington. Métodos multivariados aplicados al análisis de datos. The American Statistician. (1995). 4th ed. International Thomson Editores. Statistical Science.E. Neural Networks: A Review from a Statistical Perspective. The understanding of the Brain. Neural Network Toolbox 5: User´s Guide. Adison Wesley..M. M. D. and Alhoniemi. Understanding Neural Networks as Statistical Tools. Redes Neuronales y Sistemas Difusos. Alfaomega Rama. and Hagan. (2001). Eccles. 50. B. J. A. Kohonen. J. Freeman. Oxford University Press Inc. M. 11. Self-Organizing Maps. Ra-ma. IEEE Transactions on Neural Networks. (1991). M. No. The MathWorks.1.A. Applications and Programming Techniques. 2-54. SPSS Inc.3. and Leese. Warner. Hecht-Nielsen. Neurocomputing: picking the human brain. (2002).

Sign up to vote on this title
UsefulNot useful