Professional Documents
Culture Documents
p : Nmero de variables.
OBJETIVOS
Mtodos de dependientes:
Suponen que las variables analizadas estn divididas en dos grupos: las variables
dependientes y las independientes o explicativas. El objetivo de estos mtodos consiste en
determinar si conjunto de variables independientes afecta al de dependientes y de qu
forma.
Se pueden clasificar en dos grandes grupos, segn que las variables dependientes sean
cuantitativas o cualitativas.
Anlisis de Regresin
Anlisis Discriminante
Sujeto Grupo X2 X3 X4 X5
1 1
2 1
3 2
4 2
Objetivos:
- Calcular la verosimilitud de que los individuos pertenezcan a uno u otro de los grupos
a partir del conjunto de predictores.
- Determinar cules de las variables predictoras son realmente tiles para hacer la
prediccin. La idea en este caso es que algunas de las predictoras pueden ser
irrelevantes para determinar la pertenencia a un grupo.
- Encontrar la combinacin lineal de las variables independientes que mejor permite
diferenciar (discriminar) a los grupos. Una vez encontrada esa combinacin (la funcin
discriminante) podr ser utilizada para clasificar nuevos casos.
Ejemplo1:
En el banco con el que trabaja una agencia de viajes se desea determinar de antemano la
probabilidad de que el prstamo que un cliente ha solicitado para pagar sus vacaciones, sea
fallido o no. Para ello se aplica el anlisis discriminante en el que la variable cualitativa es el
hecho de ser fallido o no y las variables independientes son caractersticas del cliente, tales
como ingresos, patrimonio, deudas pendientes, etc.
Ejemplo 2:
El anlisis discriminante clasificara a un banco comercial como de utilidades bajas o de
utilidades altas, dos poblaciones diferentes, en funcin de los niveles de las variables x. Es
decir, el anlisis discriminante probablemente asocie a la condicin de bancos con bajas
utilidades a aquellos con mrgenes de intermediacin financiera elevados, con depsitos
altamente concentrados en el corto plazo o con una alta injerencia poltica. Es decir, el
anlisis definira las caractersticas para pertenecer a un grupo o a otros.
Ejemplo 3:
El anlisis discriminante es aplicable a muy diversas reas de conocimiento. Se ha aplicado
para la seleccin de personal para realizar un filtrado de los curriculums, previo a la
entrevista personal.
Mtodos de independientes:
Objetivos:
- Simplificar un conjunto de datos, reduciendo el nmero de variables, bien por un
exceso de variables que dificulta el anlisis de la informacin, bien por representar
las mismas informacin redundante
- Encontrar la estructura subyacente en los datos.
Ejemplo:
Un analista financiero que colabora con una cadena hotelera desea saber cul es el estado
de salud financiero de ella, para ello utilizar un n de ratios financieros (observables) que
definan su situacin (tratar de quedarse con el menor n posible).
Anlisis factorial
El anlisis factorial es una tcnica del Anlisis Multivariado que permite obtener a partir de
un conjunto de variables un grupo menor de nuevas variables denominadas factores, los
mismos que estaran explicando la variacin conjunta o dependencia mutua entre dichas
variables. Estos factores denominados tambin variables "latentes" se caracterizan por no
estar correlacionados entre s. Con esta reduccin se hace ms sencillo el anlisis de los
resultados.
Ejemplo:
Un psiclogo quiere determinar los factores (no observables) que caracterizan la inteligencia
de un individuo para su adecuacin o no a un puesto de responsabilidad en una empresa
hotelera. Lo realizar a partir de sus respuestas a un test
Anlisis de Conglomerados
Es una tcnica que se utiliza para clasificar los objetos, individuos o variables semejantes
entre s en las variables que hemos medido sin un criterio de clasificacin a priori; en
grupos relativamente homogneos llamados conglomerados (clusters). Los objetos en cada
grupo (conglomerado) tienden a ser similares entre s (alta homogeneidad interna, dentro del
cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, entre
clusters).
Sujeto X1 X2 X3 X4 X5
1
2
3
4
Objetivos:
Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y
diferentes de los objetos de otros grupos.
Ejemplos:
Agrupar los establecimientos hoteleros de una ciudad en grupos segn el grado de
satisfaccin de los clientes en ellos durante su estancia.
El Anlisis Factorial es una tcnica de interdependencia que consiste en resumir los datos
mediante un nmero pequeo de nuevas variables construidas como transformaciones de
las originales, con la mnima prdida de informacin. A las nuevas variables se les llama
factores, dimensiones, Variables latentes o no observadas. El nmero de factores ser aquel
que nos permita describir las correlaciones entre las variables observadas con la mnima
entre prdida de informacin.
El argumento que permite sustituir un nmero elevado de variables observadas (p) por un
nmero menor de variables latentes (k) es la existencia de grupos de variables con
correlaciones altas entre s y bajas con las variables de otros grupos. Cada grupo de
variables altamente correlacionadas representa a un factor.
Reduccin de la dimensin
( X1 , ... , X p ( F1 , ... , Fk ) k p
El anlisis factorial es un procedimiento que agrupa variables de tal forma que las variables
de cada grupo estn altamente correlacionadas mientras que los grupos estn relativamente
incorrelacionados.
Objetivos:
- Reducir la complejidad de un conjunto de datos multivariante, perdiendo un cierto
porcentaje de explicacin de la varianza de la muestra.
- Encontrar, a partir de la matriz de covarianzas o correlaciones de las variables, un
conjunto reducido de variables latentes que expliquen un porcentaje apreciable de la
varianza de la muestra. Dichas variables latentes reciben el nombre de factores.
- Encontrar conjuntos de individuos con valores semejantes de las variables, con la
finalidad de determinar un nmero reducido de agrupamientos, de los que se espera
que los individuos contenidos en cada uno de ellos tengan alguna propiedad comn.
Matriz de correlaciones
Es una matriz cuadrada y simtrica que est formada por unos en la diagonal y fuera de
ella los coeficientes de correlacin entre las variables.
Dado que el anlisis factorial se basa en el estudio de la matriz de correlaciones hay que ver
si se dan las condiciones adecuadas para poder aplicar un anlisis de este tipo; es decir hay
que ver si las variables estn altamente correlacionadas y la matriz de correlacin tiene
cierta estructura.
Una vez que se dispone de esta matriz se procede a examinarla para comprobar si sus
caractersticas son adecuadas para realizar un Anlisis Factorial. Uno de los requisitos que
deben cumplirse para que el Anlisis Factorial tenga sentido es que las variables estn
altamente correlacionadas.
Ejemplo:
DA DB CM CB
DA 1 0 -0.083 0.8392
R= DB 0 1 0.4714 -0.161
CM -0.083 0.4714 1 -0.152
CB 0.8392 -0.161 -0.152 1
Un examen simple de la matriz R indica que hay variables que correlacionan muy alto entre
s (DA con CB), otras que correlacionan de forma moderada (por encima de 0.30, CM con
DB) y que el resto de correlaciones son muy bajas. Esto parece indicar que el nmero de
factores que ser posible extraer es de dos. Sin embargo, una inspeccin visual no es
adecuada cuando el nmero de variables medidas, que es lo frecuente, es muy elevado.
Matriz Factorial
A partir de una matriz de correlaciones, el Anlisis Factorial extrae otra matriz que
reproduce la primera de forma ms sencilla. Esta nueva matriz se denomina matriz factorial
y adopta la siguiente forma:
F1 F2
X1 P11 P21
X2 P12 P22
Cada columna es un factor.
X3 P13 P23 Cada fila es una variable original.
X4 P14 P24
X5 P15 P25
X6 P16 P26
Los elementos Pij se interpretan como ndices de correlacin entre el factor i y la variable j,
aunque estrictamente slo son correlaciones cuando los factores no estn correlacionados
entre s. Estos coeficientes reciben el nombre de pesos, cargas, ponderaciones o
saturaciones factoriales. Los pesos factoriales indican el peso de cada variable en cada
factor. Lo ideal es que cada variable cargue alto en un factor y bajo en los dems.
La matriz factorial presenta un nmero de factores superior al necesario para explicar la
estructura de los datos. Generalmente hay un conjunto reducido de factores, los primeros,
que son los que explican la mayor parte de la variabilidad total. Los otros factores suelen
contribuir relativamente poco.
i
= var ianza exp licada por el i simo factor.
n
Comunalidades
F1 F2
X1 P11 P21
X2 P12 P22 h 2 = P12j + P22j + ..... + Pkp
2
X3 P13 P23
X4 P14 P24
X5 P15 P25
X6 P16 P26
Extraccin de Factores
Despus de comprobar que el anlisis factorial podra ser una buena solucin para analizar
nuestro problema, se pasa a la parte tcnica de la extraccin de dichos factores.
Una vez obtenida la matriz de datos (individuos o variables), el primer paso del anlisis
factorial consiste en la estimacin de los factores, que comprende dos fases:
- Valorar cul es el nmero de factores a retener para el anlisis: un nmero
excesivamente bajo sera poco representativo de la variabilidad observada, y un
nmero demasiado alto reducira la utilidad del anlisis factorial.
- La solucin obtenida por cada uno de los mtodos no es nica. Sin embargo, el resto
de soluciones se puede obtener a partir de una rotacin de la solucin original.
Existen diversos criterios para determinar el nmero de factores a conservar. Uno de los
ms utilizados es la regla de Kaiser: "conservar aquellos factores cuyos valores propios
(eigenvalues) son mayores a la unidad". Este criterio tiende a sobreestimar el nmero de
factores.
Para facilitar la interpretacin se utiliza la siguiente propiedad que tienen las cargas
factoriales
Una vez calculados los factores podemos rotarlos para conseguir unos pesos ms sencillos.
Para rotar los factores se utiliza la rotacin Varimax que tiende a dar pesos mayores a las
variables de mayor peso en el factor y menores a las de menor peso. De esta manera
conseguimos mejores contrastes entre las variables. Las comunalidades se mantienen.
Clic en Aceptar.
Datos - Mostrar Datos
Clic en Aceptar.
Clic en Aceptar.
ANLISIS DE CONGLOMERADOS
Matriz de datos
(n sujetos P variables) x 11 ..... x 1 j ...... x 1p
.............................
X = x i1 ..... x ij ...... x ip
.............................
x n1 ...... x nj ..... x
np
La i-sima fila de la matriz X contiene los valores de cada variable para el i-simo sujeto,
mientras que la j-sima columna muestra los valores pertenecientes a la j-sima
variable a lo largo de todos los sujetos de la muestra.
La condicin que se impone es que los distintos conglomerados creados sean mutuamente
excluyentes; es decir, que los casos o variables que constituyan un conglomerado han de ser
lo ms similar posible entre s (con respecto a un criterio de seleccin determinado
previamente) y diferente respecto a los integrantes de los otros conglomerados.
La obtencin de dichos clusters depende del criterio o distancia considerados. Por ejemplo,
una baraja de cartas espaolas se podra dividir de distintos modos: en cuatro clusters (los
cuatro palos), en ocho clusters (los cuatro palos y segn sean figuras o nmeros), en dos
clusters (figuras y nmeros). Es decir, todo depende de lo que consideremos como similar.
Ejemplo 1:
Se aplica una encuesta a una muestra amplia de personas sobre cuestiones ideolgicas y
queremos identificar a las personas que comparten caractersticas. Lgicamente lo que
haramos sera comparar a unos encuestados con otros y pondramos juntos, en el mismo
grupo, cluster o conglomerado, a los que fuesen similares en su patrn de respuestas. El
objetivo fundamental es, asignar individuos a grupos de manera que se cumplan dos
criterios importantes. Por una parte, los individuos asignados a un mismo grupo deben ser
lo ms semejantes posibles entre s, y por otra parte, cada grupo debe ser lo ms diferente
posible de los dems grupos.
En definitiva se trata de que cada grupo sea lo ms homogneo posible, los individuos
dentro de un grupo se parezcan mucho entre s, y los grupos sean heterogneos unos
respecto de otros, es decir los individuos de un grupo se parezcan poco a los de los dems
grupos.
Ejemplo 2:
Una empresa desea clasificar a sus consumidores en tipos segn sus distintas
percepciones de determinados atributos de la marca: calidad global, nivel de servicio, precio,
servicio postventa y variedad. (Objetivo).
Para ello, se disea una muestra con 100 compradores a los que les pregunta sobre su
percepcin, en una escala de intervalo, de las anteriores 5 caractersticas de los productos
de la empresa. (Diseo).
En otras reas encontramos la misma necesidad, abarcando desde las ciencias fsicas
(por ejemplo, clasificacin de varios grupos de animales, como insectos o mamferos) a
las ciencias sociales (por ejemplo, anlisis de varios perfiles psiquitricos).
Seleccionar las p variables que van a ser medidas a un grupo de N sujetos, estas
variables van a favorecer la agrupacin de los datos. sta es una decisin clave y previa a
cualquier anlisis de conglomerados. Las variables finalmente elegidas son las que
determinan las caractersticas de clasificacin (aquellas que identifican a cada
conglomerado).
Presentacin e interpretacin de los resultados, tanto en sus forma numrica (la tabla
de conglomerados) como grfica (el dendrograma y el grfico de carmbanos o de tmpanos).
1.- Encontrar la similitud o disimilitud entre cada par de objetos en la base de datos. En
este paso, se debe calcular las distancias entre objetos usando una funcin de
distancia. La mtrica ms utilizada en la euclidiana la cual mide la distancia entre
dos puntos en el espacio.
2.- Agrupar los objetos en un rbol de jerarqua de cmulos. En este paso, se debe
agrupar los objetos que se encuentran prximos. Una forma de hacer esto es ordenar
las distancias entre pares de objetos de acuerdo a la proximidad que existe.
Evalan el grado de diferencia o lejana existente entre dos elementos. Los valores ms altos
indican mayor diferencia o lejana entre los elementos comparados, cuando dos elementos
se encuentran juntos, la distancia es nula. Se conocen como medidas de distancia
Cuando se elige una distancia como medida de asociacin los grupos formados contendrn
individuos parecidos de forma que la distancia entre ellos ha de ser pequea.
Pero cuando la muestra es mayor a 200 unidades, la magnitud del dendrograma crece,
llegando a ocupar varias pginas, lo que, en vez de ayudar, dificulta la lectura e
interpretacin de la solucin de conglomerados.
En el eje positivo de las abscisas se representan los elementos a agrupar y en el eje positivo
de ordenadas se representan las distancias correspondientes a los diferentes niveles de
agregacin denominadas tambin ndices de particin o coeficientes de agregacin.
Ejemplo 1:
En este dendrograma se
observa como el caso 14 se
asemeja al 16 y ambos al 21.
Ejemplo 2:
Se observa que existen 4 grupos bien diferenciados, la decisin de este nmero de grupos se
basara en la experiencia del investigador o en algn criterio estadstico.
Este grfico puede enriquecerse encerrando los grupos en elipses coloreadas, escribiendo el
nombre dado a cada grupo.
Distancia eucldea: d ij
Es uno de los criterios posibles para medir distancias entre sujetos o variables. Mide el
parecido entre unidades de anlisis que han sido evaluadas en un conjunto de variables
cuantitativas. La distancia eucldea para dos sujetos se calcula mediante:
di j = ( X i k X j k )2
Una vez calculadas todas las distancias, se construye la matriz de distancias:
Ejemplo:
Calcular el parecido entre tres alumnas de Negocios Internacionales a partir de sus notas en
las asignaturas de: Finanzas, Economa, Estadstica Aplicada a los Negocios y Anlisis de
Estados Financieros utilizando la distancia eucldea. La matriz de datos para las tres
alumnas es la siguiente:
F E EAN AEF
A1 : 13 15 12 14
A2 : 11 12 13 15
A3 : 16 10 14 11
Solucin:
d12 = d 21 = (13 11)2 + (15 12)2 + (12 13)2 + (14 15)2 = 3.87
d13 = d 31 = (13 16)2 + (15 10)2 + (12 14)2 + (14 11)2 = 6.86
Matriz de Distancias
Las alumnas 1 y 2 presentan notas
A1 A2 A3
ms parecidas (3.87).
A1 0 3.87 6.86
A2 0 6.78 Las alumnas 1 y 3 presentan ms
A3 0 diferencias en sus notas (6.86).
Ejemplo:
Supongamos que estamos interesados en agrupar a una muestra de cinco familias en base
al nmero de hijos, al sueldo en dlares al mes y al tamao de la casa en metros cuadrados.
La matriz de datos es la siguiente:
N Hijos Salario ($) metros 2
F1 1 723 60
F2 1 900 60
F3 4 800 80
F4 0 1205 50
F5 2 600 65
Solucin:
Antes de calcular las distancias entre los sujetos (familias) debemos estandarizar los datos
de cada variable utilizando su media y desviacin estndar:
N Hijos Salario ($) metros 2
Xj 1.6 846 63
Sj 1.517 229 10.95
Todos los datos se estandarizan para convertir las variables a una escala comn, mediante:
Datos estandarizados
N Hijos Salario ($) metros 2
Xi j X j F1 -0.3955 -0.5371 -0.2740
Zi j = F2 -0.3955 0.2358 -0.2740
Sj
F3 1.5821 -0.2009 1.5525
F4 -1.0547 1.5677 -1.1872
F5 0.2637 -1.0742 0.1826
Matriz de distancias
F1 F2 F3 F4 F5
F1 0.0000 0.7729 2.7129 2.3871 0.9651
F2 0.0000 2.7272 1.7443 1.5359
F3 0.0000 4.1936 2.0922
F4 0.0000 3.2549
F5 0.0000
Con las puntuaciones estandarizadas las familias ms parecidas son la primera con la
segunda (0.7729). Le siguen las familias 1 y 5 (0.9651), y as sucesivamente, hasta llegar a
las familias menos parecidas que son la 3 y la 4 (4.1936).
Clic en Personalizar
Dendrograma
Enlace simple; Distancia euclediana
2,09
1,39
Distancia
0,70
0,00
1 2 5 4 3
Familias
ALGORITMOS DE CLASIFICACIN
Tienen por objetivo agrupar clusters para formar uno nuevo (aglomeracin) o bien separar
alguno ya existente para dar origen a otros dos (divisin), de tal forma que, si sucesivamente
se va efectuando este proceso de aglomeracin o divisin, se minimice alguna distancia o
bien se maximice alguna medida de similitud.
Los anlisis se realizan a partir de una matriz de distancias, con entradas para cada par de
objetos (casos o variables). Su volumen aumenta con el tamao de la muestra. Lo mismo
sucede con la lectura e interpretacin de los resultados grficos.
La caracterstica general ms importante de los mtodos jerrquicos es que una vez que un
individuo ha sido asignado a un cluster no puede ser reasignado a otro diferente.
Se empieza el anlisis con tantos grupos como individuos o casos haya. A partir de estas
unidades de anlisis (elementos) iniciales se van formando grupos mediante la utilizacin de
algn criterio, de forma ascendente, hasta que al final del proceso todos los casos tratados
estn englobados en un mismo conglomerado.
Etapas:
Mtodos:
Los principales mtodos para determinar el nmero de conglomerados son los siguientes:
- Distancias mnimas.
- Distancias mximas.
Los grupos se unen considerando la menor de las distancias existentes entre los dos
miembros ms cercanos, uno en cada conglomerado.
Los dos primeros objetos que se combinan son los ms prximos entre s. Los otros objetos
van, uno a uno, combinndose en un nuevo conglomerado, o unindose a un conglomerado
ya existente, depende del conglomerado hacia el que se site a menor distancia.
Los grupos se unen considerando la distancia mxima existentes entre los dos miembros
ms alejados, uno en cada conglomerado.
Se considera que la distancia o similitud entre dos clusters hay que medirla atendiendo a
sus elementos ms dispares, o sea, la distancia o similitud entre clusters viene dada,
respectivamente, por la mxima distancia (o mnima similitud) entre sus componentes.
Esta consideracin de las distancias hacia los miembros ms distantes del conglomerado
(que supone la valoracin de todos sus integrantes) supone, inevitablemente, la aplicacin
de un criterio para la formacin de conglomerados ms riguroso que el aplicado en el
algoritmo de distancias mnimas.
Se comienza con un conglomerado que engloba a todos los casos o elementos tratados y, a
partir de este grupo inicial y segn algn criterio, a travs de sucesivas divisiones, se van
formando grupos cada vez ms pequeos; llegando, en la ltima etapa del procedimiento, a
considerar a cada elemento del grupo inicial como el conglomerado ms simple y de mxima
homogeneidad. Es decir, al final del proceso se tienen tantas agrupaciones como casos han
sido tratados.
En este mtodo, se forman k grupos siendo k un nmero que el investigador decide a priori.
Para decidir acerca del nmero de conglomerados se utiliza el conocimiento que se tiene de
investigaciones previas. Fijar un nmero muy pequeo puede llevar a conclusiones pobres,
mientras que fijar un nmero demasiado grande complica la interpretacin. Lo ideal es
repetir el anlisis con distintos valores de k y seleccionar el que ms satisfaga las
expectativas del investigador.
Este tipo de algoritmos comienzan con una seleccin de tantos sujetos como conglomerados
queremos formar. Los sujetos inicialmente seleccionados constituyen los centros de las
clases e inducen una primera particin por asignacin del resto de los sujetos al centro ms
prximo.
Este tipo de anlisis nos permite identificar grupos de consumidores con actitudes, hbitos
y comportamientos similares entre si, a los que se les llama segmentos. As mismo,
determina cules son los factores que diferencian un grupo de los dems. Una vez obtenidos
los diferentes segmentos, se puede definir sus respectivos perfiles en variables
sociodemogrficas y/o socioeconmicas, ayudando as a la estrategia de Marketing de la
empresa.
El anlisis discriminante permite construir una regla de decisin que asigne con cierto
grado de riesgo un objeto nuevo, que no sabemos clasificar previamente, a uno de los
grupos prefijados.
La idea bsica del Anlisis Discriminante es determinar si unos grupos difieren en funcin
de la media de una variable, y emplear luego esa variable para predecir la pertenencia de
una nueva observacin a determinado grupo.
Ejemplo 1:
Se desea caracterizar el perfil de los compradores de un determinado producto en un
determinado establecimiento. Para ello, se disea una muestra con 100 compradores y 100
no compradores y se toman datos de renta, edad y cercana al establecimiento de venta. El
anlisis discriminante establecer la importancia relativa de cada uno de estos atributos en
la decisin de compra permitiendo orientar mejor la poltica promocional o de distribucin
del producto.
Ejemplo 2
Una empresa est interesada en analizar la opinin de sus clientes con respecto a su labor
comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos en las
que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin entre 0
y 10: Velocidad de Entrega, Nivel de Precios, Flexibilidad de Precios, Imagen de la Empresa,
Servicio, Imagen de Ventas y Calidad de Producto. Adems, tiene clasificados a sus clientes
en dos grupos de acuerdo al tamao de la empresa en la que trabajan: Empresas Pequeas
y Empresas Grandes. El nmero de clientes pertenecientes a empresas pequeas es igual a
60 y el de empresas grandes es igual a 40.
En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a discriminar
(q=2). El tamao de la muestra es n=100 con n1 = 60 y n 2 = 40 .
Caractersticas
La principal diferencia del anlisis cluster consiste en que los grupos se establecen a priori,
es decir, que los individuos (u observaciones) analizados se encuentran ya clasificados antes
de comenzar el anlisis discriminante.
Aplicaciones
Funcin Discriminante
Se desarrolla en varias etapas o fases en las que se introducen y rechazan las distintas
variables.
A medida que se introducen nuevas variables puede darse la situacin de que se eliminen
otras de las variables consideradas anteriormente discriminantes, debido a que como las
funciones discriminantes son combinaciones lineales de las variables originales, las nuevas
variables pueden estar correlacionadas con las anteriores, restando as su capacidad
discriminante. Proporciona directamente las variables que cumpliendo con las condiciones
seleccionadas, tienen un mayor carcter discriminante.
Visto de otra forma, se desea construir un modelo de cmo se puede lograr predecir de la
mejor forma a cul grupo pertenece una observacin o caso particular.
Para comprobar que es coherente realizar con los datos un anlisis discriminante, debemos
realizar siempre un anlisis previo; MANOVA (Multivariant ANalysis Of VAriance). Debemos
suponer normalidad y homocedasticidad. Este MANOVA es similar al anlisis ANOVA para
un factor, pero con varias variables distintas. Para i grupos definidos por j variables, siendo
ij la media de cada variable para cada grupo, el contraste de hiptesis que resuelve
MANOVA es el siguiente:
H 0 : Las medias de todas las var iables en todos los grupos son iguales
H1 : No es cierta la hiptesis nula.
Si aceptamos la hiptesis nula, todas las variables tienen la misma media en todos los
grupos y no son capaces de discriminar entre grupos; no tiene sentido realizar un anlisis
discriminante.
Si rechazamos la hiptesis nula significa que al menos una variable puede discriminar entre
grupos, en cuyo caso s tiene sentido proceder a realizar un anlisis discriminante
La Lambda de Wilks
Es el estadstico ms til para resolver anlisis MANOVA. Vara entre 0 y 1. Mide el poder
discriminante de un conjunto de variables. Cuanto ms prximo a 0, ms potente ser el
anlisis discriminante, puesto que la varianza entre grupos ser muy alta, mientras que la
varianza dentro de los grupos ser muy baja. La frmula de este estadstico es
aproximadamente:
Clic en Opciones
Interpretacin:
Para identificar un nuevo sujeto, se puede calcular las funciones discriminantes lineales
asociadas con el grupo A y con el grupo B e identificar el nuevo sujeto como perteneciente a
uno de estos grupos dependiendo de cul es el valor de la funcin discriminante ms alto.
Cada uno de los valores que aparecen en esta matriz es el promedio de los
correspondientes al grupo A y al grupo B.
PRCTICA N 7
Anlisis Multivariado
1.- Queremos agrupar a 6 sujetos en base a sus notas en las asignaturas X1, X2, X3, X4,
X5. Para ello se ha obtenido la siguiente matriz:
Sujetos X1 X2 X3 X4 X5
S1 8 9 7 8 6
S2 7 8 7 8 8
S3 2 3 8 7 2
S4 1 2 6 7 1
S5 1 1 1 9 8
S6 2 3 1 8 9
V1 V2 V3 Grupo
15 41 32 1
17 40 56 1
32 35 46 2
16 42 50 1
30 33 45 2
32 32 33 2
33 30 37 2
21 39 35 1
20 38 44 1
30 31 45 2
32 40 50 1
20 30 38 2
26 35 36 1
33 38 42 1