You are on page 1of 37

UNIF Administracin de Negocios Internacionales

Estadstica Aplicada a los Negocios

ANLISIS MULTIVARIADO O MULTIVARIANTE

El anlisis multivariante es el conjunto de tcnicas estadsticas cuya finalidad es analizar


simultneamente diversas variables en cada individuo u objeto sobre el cual se investiga.
Cualquier anlisis simultneo de ms de dos variables, puede considerarse anlisis
multivariable.
Matriz de datos
(n sujetos P variables) x 11 ..... x 1 j ...... x 1p

.............................

X = x i1 ..... x ij ...... x ip
.............................

x n1 ...... x nj ..... x
np

p : Nmero de variables.

n : Nmero de sujetos, individuos u objetos.


x ij : Valor observado de la j-sima variable del i-simo sujeto.

Las tcnicas multivariadas son aplicables tanto en contextos experimentales como no


experimentales. Sin embargo, su uso e interpretacin dependen precisamente del contexto
en que se apliquen.
Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio
obteniendo informacin que los mtodos estadsticos univariantes y bivariantes no pueden
proporcionar.

OBJETIVOS

- Proporcionar mtodos cuya finalidad es el estudio conjunto de datos multivariantes


que el anlisis estadstico unidimensional y bidimensional no pueden conseguir.
- Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que
se encuentre, teniendo en cuenta la informacin disponible por el conjunto de datos
analizado.

TCNICAS DE ANLISIS MULTIVARIADO

Las tcnicas o mtodos de anlisis multivariado se clasifican en:

Mtodos de dependientes:

Suponen que las variables analizadas estn divididas en dos grupos: las variables
dependientes y las independientes o explicativas. El objetivo de estos mtodos consiste en
determinar si conjunto de variables independientes afecta al de dependientes y de qu
forma.
Se pueden clasificar en dos grandes grupos, segn que las variables dependientes sean
cuantitativas o cualitativas.

Dependencia cuantitativa: Anlisis de regresin mltiple y anlisis de varianza.

Anlisis de Regresin

Es la tcnica adecuada si en el anlisis hay una o varias variables dependientes mtricas


cuyo valor depende de una o varias variables independientes mtricas.

Gladys Enrquez Mantilla 267


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Dependencia cualitativa: Anlisis discriminante.

Anlisis Discriminante

Es una tcnica multivariante de clasificacin de individuos, en la que se presupone la


existencia de dos o ms grupos bien definidos a priori (por ejemplo, ejemplares de la misma
especie en dos localidades diferentes, clientes solventes y no solventes; votantes de uno u
otro partido; compradores y no compradores de un producto; etc).

Sujeto Grupo X2 X3 X4 X5
1 1
2 1
3 2
4 2

El anlisis discriminante enfoca un problema de identificacin relacionado con la pregunta


a cul grupo, de entre varios, pertenece la variable o unidad estadstica en observacin.
El anlisis discriminante es una tcnica til, siempre que los predictores o variables
independientes sean variables cualitativas. Proporciona reglas de clasificacin en los grupos
establecidos en la variable dependiente para las observaciones nuevas, basndose en los
valores que en ellas toman las variables independientes.

Objetivos:
- Calcular la verosimilitud de que los individuos pertenezcan a uno u otro de los grupos
a partir del conjunto de predictores.
- Determinar cules de las variables predictoras son realmente tiles para hacer la
prediccin. La idea en este caso es que algunas de las predictoras pueden ser
irrelevantes para determinar la pertenencia a un grupo.
- Encontrar la combinacin lineal de las variables independientes que mejor permite
diferenciar (discriminar) a los grupos. Una vez encontrada esa combinacin (la funcin
discriminante) podr ser utilizada para clasificar nuevos casos.

Ejemplo1:
En el banco con el que trabaja una agencia de viajes se desea determinar de antemano la
probabilidad de que el prstamo que un cliente ha solicitado para pagar sus vacaciones, sea
fallido o no. Para ello se aplica el anlisis discriminante en el que la variable cualitativa es el
hecho de ser fallido o no y las variables independientes son caractersticas del cliente, tales
como ingresos, patrimonio, deudas pendientes, etc.

Ejemplo 2:
El anlisis discriminante clasificara a un banco comercial como de utilidades bajas o de
utilidades altas, dos poblaciones diferentes, en funcin de los niveles de las variables x. Es
decir, el anlisis discriminante probablemente asocie a la condicin de bancos con bajas
utilidades a aquellos con mrgenes de intermediacin financiera elevados, con depsitos
altamente concentrados en el corto plazo o con una alta injerencia poltica. Es decir, el
anlisis definira las caractersticas para pertenecer a un grupo o a otros.

Ejemplo 3:
El anlisis discriminante es aplicable a muy diversas reas de conocimiento. Se ha aplicado
para la seleccin de personal para realizar un filtrado de los curriculums, previo a la
entrevista personal.

Gladys Enrquez Mantilla 268


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Mtodos de independientes:

No distinguen entre variables dependientes e independientes y su objetivo consiste en


identificar qu variables estn relacionadas, cmo lo estn y por qu.
Se pueden clasificar en dos grandes subgrupos, segn que el tipo de datos que se analicen
sean cuantitativos o no:

Independencia cuantitativa: Anlisis de componentes principales, Anlisis factorial.

Se utilizan para analizar interrelaciones entre un nmero elevado de variables cuantitativas,


explicando dichas interrelaciones en trminos de un nmero menor de variables
denominadas factores (si no son observables) o componentes principales (si son
observables).

Independencia cualitativa: Anlisis de conglomerados.

Su objetivo es agrupar una muestra de individuos o variables en un nmero pequeo de


grupos de forma que las observaciones de un mismo grupo sean muy similares entre s y
muy diferentes del resto. A diferencia del anlisis discriminante se desconoce el nmero y la
composicin de dichos grupos.

Anlisis de componentes principales


Es una tcnica estadstica de sntesis de la informacin, o reduccin de la dimensin
(nmero de variables). Es decir, ante un banco de datos con muchas variables, el objetivo
ser reducirlas a un menor nmero, perdiendo la menor cantidad de informacin posible.
Los nuevos componentes principales o factores sern una combinacin lineal de las
variables originales, y adems sern independientes entre s.
El anlisis de componentes principales es un procedimiento matemtico que transforma un
conjunto de variables posiblemente correlacionadas en un conjunto menor de variables no
correlacionadas llamadas componentes principales.

15 variables originales Se reduce a 3 CP


Caso X1 X2 X15 Caso CP1 CP2 CP3
1 1
2 2
3 3
. .
150 150

Las CPi explicarn la mayor variabilidad de las variables originales.


Las CPi presentan incorrelacin entre ellas.

Objetivos:
- Simplificar un conjunto de datos, reduciendo el nmero de variables, bien por un
exceso de variables que dificulta el anlisis de la informacin, bien por representar
las mismas informacin redundante
- Encontrar la estructura subyacente en los datos.

Ejemplo:
Un analista financiero que colabora con una cadena hotelera desea saber cul es el estado
de salud financiero de ella, para ello utilizar un n de ratios financieros (observables) que
definan su situacin (tratar de quedarse con el menor n posible).

Gladys Enrquez Mantilla 269


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Anlisis factorial

El anlisis factorial es una tcnica del Anlisis Multivariado que permite obtener a partir de
un conjunto de variables un grupo menor de nuevas variables denominadas factores, los
mismos que estaran explicando la variacin conjunta o dependencia mutua entre dichas
variables. Estos factores denominados tambin variables "latentes" se caracterizan por no
estar correlacionados entre s. Con esta reduccin se hace ms sencillo el anlisis de los
resultados.

Ejemplo:
Un psiclogo quiere determinar los factores (no observables) que caracterizan la inteligencia
de un individuo para su adecuacin o no a un puesto de responsabilidad en una empresa
hotelera. Lo realizar a partir de sus respuestas a un test

Anlisis de Conglomerados

Es una tcnica que se utiliza para clasificar los objetos, individuos o variables semejantes
entre s en las variables que hemos medido sin un criterio de clasificacin a priori; en
grupos relativamente homogneos llamados conglomerados (clusters). Los objetos en cada
grupo (conglomerado) tienden a ser similares entre s (alta homogeneidad interna, dentro del
cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, entre
clusters).

Sujeto X1 X2 X3 X4 X5
1
2
3
4

Objetivos:
Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y
diferentes de los objetos de otros grupos.

Ejemplos:
Agrupar los establecimientos hoteleros de una ciudad en grupos segn el grado de
satisfaccin de los clientes en ellos durante su estancia.

Clasificar grupos de alimentos (pescados, carnes, vegetales y leche) en funcin de sus


valores nutritivos.

Gladys Enrquez Mantilla 270


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

ETAPAS DE UN ANALISIS MULTIVARIANTE

1.- Objetivos del anlisis


Se define el problema especificando los objetivos y las tcnicas multivariantes que se
van a utilizar
El investigador debe establecer el problema en trminos conceptuales definiendo los
conceptos y las relaciones fundamentales que se van a investigar. Se deben
establecer si dichas relaciones van a ser relaciones de dependencia o de
interdependencia. Con todo esto se determinan las variables a observar.

2.- Diseo del anlisis.


Se determina el tamao muestral, las ecuaciones a estimar (si procede), las
distancias a calcular (si procede) y las tcnicas de estimacin a emplear. Una vez
determinado todo esto se proceden a observar los datos.

3.- Hiptesis del anlisis


Se evalan las hiptesis subyacentes a la tcnica multivariante. Dichas hiptesis pueden
ser de normalidad, linealidad, independencia, homocedasticidad, etc. Tambin se debe
decidir qu hacer con los datos Messing.

4.- Realizacin del anlisis


Se estima el modelo y se evala el ajuste a los datos. En este paso pueden aparecer
observaciones atpicas (outliers) o influyentes cuya influencia sobre las estimaciones
y la bondad de ajuste se debe analizar.

5.- Interpretacin de los resultados


Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las
variables o del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4).

6.- Validacin del anlisis


Consiste en establecer la validez de los resultados obtenidos analizando si los
resultados obtenidos con la muestra se generalizan a la poblacin de la que procede.
Para ello se puede dividir la muestra en varias partes en las que el modelo se vuelve
a estimar y se comparan los resultados.

APLICACIONES DEL ANALISIS MULTIVARIANTE

- En la investigacin de mercados para identificar caractersticas de los individuos con


el propsito de determinar qu tipo de personas compran determinado producto.
- En el sistema de educacin de cualquier tipo de especialidad para conocer los
estudiantes que tendrn xito y concluirn satisfactoriamente sus estudios.
- En la agricultura al estudiar la resistencia de determinado tipo de cosechas a daos
por plagas y sequas.
- En el deporte para conocer a partir de medidas antropomtricas las posibilidades de
obtener buenos resultados en un deporte especfico.
- En la psicologa al estudiar la relacin entre el comportamiento de adolescentes y
actitudes de los padres.
- En la economa para conocer el nivel de desarrollo de un territorio en relacin con
otros y realizar inferencias a partir de variables econmicas fundamentales, entre
otros.

Gladys Enrquez Mantilla 271


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios
ANLISIS FACTORIAL

El Anlisis Factorial es una tcnica de interdependencia que consiste en resumir los datos
mediante un nmero pequeo de nuevas variables construidas como transformaciones de
las originales, con la mnima prdida de informacin. A las nuevas variables se les llama
factores, dimensiones, Variables latentes o no observadas. El nmero de factores ser aquel
que nos permita describir las correlaciones entre las variables observadas con la mnima
entre prdida de informacin.

El argumento que permite sustituir un nmero elevado de variables observadas (p) por un
nmero menor de variables latentes (k) es la existencia de grupos de variables con
correlaciones altas entre s y bajas con las variables de otros grupos. Cada grupo de
variables altamente correlacionadas representa a un factor.

Reduccin de la dimensin


( X1 , ... , X p ( F1 , ... , Fk ) k p

Poca prdida de informacin

El anlisis factorial es un procedimiento que agrupa variables de tal forma que las variables
de cada grupo estn altamente correlacionadas mientras que los grupos estn relativamente
incorrelacionados.

Objetivos:
- Reducir la complejidad de un conjunto de datos multivariante, perdiendo un cierto
porcentaje de explicacin de la varianza de la muestra.
- Encontrar, a partir de la matriz de covarianzas o correlaciones de las variables, un
conjunto reducido de variables latentes que expliquen un porcentaje apreciable de la
varianza de la muestra. Dichas variables latentes reciben el nombre de factores.
- Encontrar conjuntos de individuos con valores semejantes de las variables, con la
finalidad de determinar un nmero reducido de agrupamientos, de los que se espera
que los individuos contenidos en cada uno de ellos tengan alguna propiedad comn.

Etapas del Anlisis Factorial

- Calcular la matriz de correlaciones entre todas las variables y luego examinarla.


- Extraer el nmero ptimo de factores; es decir los factores necesarios para representar
los datos.
- Rotacin de de los factores para facilitar su interpretacin. Representaciones grficas.
- Calcular los coeficientes para obtener las puntuaciones cada individuo en cada factor.

Matriz de correlaciones
Es una matriz cuadrada y simtrica que est formada por unos en la diagonal y fuera de
ella los coeficientes de correlacin entre las variables.

1 r12 ... r1k



r21 1 ... r2k
R =
... ... ... ...

rk1 rk 2 ... 1

Gladys Enrquez Mantilla 272


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Dado que el anlisis factorial se basa en el estudio de la matriz de correlaciones hay que ver
si se dan las condiciones adecuadas para poder aplicar un anlisis de este tipo; es decir hay
que ver si las variables estn altamente correlacionadas y la matriz de correlacin tiene
cierta estructura.

Una vez que se dispone de esta matriz se procede a examinarla para comprobar si sus
caractersticas son adecuadas para realizar un Anlisis Factorial. Uno de los requisitos que
deben cumplirse para que el Anlisis Factorial tenga sentido es que las variables estn
altamente correlacionadas.

La comprobacin de esta condicin se puede hacer utilizando las siguientes tcnicas:


- Mediante la visualizacin de la matriz de correlaciones.
- Mediante el estudio del determinante de la matriz de correlaciones. Si el valor es bajo
entonces hay una alta adecuacin del anlisis factorial.
- Coeficiente de correlacin mltiple: Valor alto alta adecuacin del anlisis factorial.

Ejemplo:

Se tiene la siguiente matriz de correlaciones:

DA DB CM CB
DA 1 0 -0.083 0.8392
R= DB 0 1 0.4714 -0.161
CM -0.083 0.4714 1 -0.152
CB 0.8392 -0.161 -0.152 1

Un examen simple de la matriz R indica que hay variables que correlacionan muy alto entre
s (DA con CB), otras que correlacionan de forma moderada (por encima de 0.30, CM con
DB) y que el resto de correlaciones son muy bajas. Esto parece indicar que el nmero de
factores que ser posible extraer es de dos. Sin embargo, una inspeccin visual no es
adecuada cuando el nmero de variables medidas, que es lo frecuente, es muy elevado.

Matriz Factorial
A partir de una matriz de correlaciones, el Anlisis Factorial extrae otra matriz que
reproduce la primera de forma ms sencilla. Esta nueva matriz se denomina matriz factorial
y adopta la siguiente forma:

F1 F2
X1 P11 P21
X2 P12 P22
Cada columna es un factor.
X3 P13 P23 Cada fila es una variable original.
X4 P14 P24
X5 P15 P25
X6 P16 P26

Los elementos Pij se interpretan como ndices de correlacin entre el factor i y la variable j,
aunque estrictamente slo son correlaciones cuando los factores no estn correlacionados
entre s. Estos coeficientes reciben el nombre de pesos, cargas, ponderaciones o
saturaciones factoriales. Los pesos factoriales indican el peso de cada variable en cada
factor. Lo ideal es que cada variable cargue alto en un factor y bajo en los dems.
La matriz factorial presenta un nmero de factores superior al necesario para explicar la
estructura de los datos. Generalmente hay un conjunto reducido de factores, los primeros,
que son los que explican la mayor parte de la variabilidad total. Los otros factores suelen
contribuir relativamente poco.

Gladys Enrquez Mantilla 273


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Eigenvalues (Valores Propios)


La suma de los cuadrados de los pesos de cualquier columna de la matriz factorial es lo que
denominamos eigenvalues. Indica la cantidad total de varianza que explica ese factor para
las variables consideradas como grupo.
Las cargas factoriales pueden tener como valor mximo 1, por tanto el valor mximo que
puede alcanzar el valor propio es igual al nmero de variables. Si dividimos el valor propio
entre el nmero de variables nos indica la proporcin de las varianza de las variables que
explica el factor.
F1 F2
X1 P11 P21
X2 P12 P22
2
1 = P11 2
+ P12 2
+ P13 + ...... + P12p
X3 P13 P23
X4 P14 P24 2
2 = P21 2
+ P22 2
+ P23 + ...... + P22p
X5 P15 P25
X6 P16 P26

i
= var ianza exp licada por el i simo factor.
n
Comunalidades

Se denomina "comunalidad" a la proporcin de la varianza explicada por los factores


comunes en una variable. La comunalidad (h) es la suma de los pesos factoriales al
cuadrado en cada una de las filas.
El Anlisis Factorial comienza sus clculos a partir de lo que se conoce como matriz
reducida compuesta por los coeficientes de correlacin entre las variables y con las
comunalidades en la diagonal.
Como la comunalidad no se puede saber hasta que se conocen los factores, este resulta ser
uno de los problemas del Anlisis Factorial.
Se utilizan diferentes modos de estimar la comunalidad inicial:
_ Estimando la comunalidad por la mayor correlacin en la fila i-sima de la matriz de
correlaciones.
_ Estimando la comunalidad por el cuadrado del coeficiente de correlacin mltiple entre x
y las dems variables. (Es el que da el programa SPSS por defecto).
_ El promedio de los coeficientes de correlacin de una variable con todas las dems.
_ Calculando a partir de los dos coeficientes de correlacin mayores de esa variable la
siguiente operacin:
rxy rxz
h2 =
ryz

La comunalidad final de cada variable est dada por:

F1 F2
X1 P11 P21
X2 P12 P22 h 2 = P12j + P22j + ..... + Pkp
2

X3 P13 P23
X4 P14 P24
X5 P15 P25
X6 P16 P26

Gladys Enrquez Mantilla 274


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Extraccin de Factores

Despus de comprobar que el anlisis factorial podra ser una buena solucin para analizar
nuestro problema, se pasa a la parte tcnica de la extraccin de dichos factores.
Una vez obtenida la matriz de datos (individuos o variables), el primer paso del anlisis
factorial consiste en la estimacin de los factores, que comprende dos fases:
- Valorar cul es el nmero de factores a retener para el anlisis: un nmero
excesivamente bajo sera poco representativo de la variabilidad observada, y un
nmero demasiado alto reducira la utilidad del anlisis factorial.
- La solucin obtenida por cada uno de los mtodos no es nica. Sin embargo, el resto
de soluciones se puede obtener a partir de una rotacin de la solucin original.

Existen diversos criterios para determinar el nmero de factores a conservar. Uno de los
ms utilizados es la regla de Kaiser: "conservar aquellos factores cuyos valores propios
(eigenvalues) son mayores a la unidad". Este criterio tiende a sobreestimar el nmero de
factores.

Rotacin de los factores

El anlisis factorial es intil si no se pueden interpretar los factores. Esto es importante ya


que los factores son variables no observables y si no los podemos interpretar, no podemos
extraer conclusiones sobre entes que no sabemos lo que significan.

Para facilitar la interpretacin se utiliza la siguiente propiedad que tienen las cargas
factoriales

La estructura del problema no cambia si se le aplica una rotacin ortogonal


(transformacin rgida que respeta los ngulos)

Una vez calculados los factores podemos rotarlos para conseguir unos pesos ms sencillos.
Para rotar los factores se utiliza la rotacin Varimax que tiende a dar pesos mayores a las
variables de mayor peso en el factor y menores a las de menor peso. De esta manera
conseguimos mejores contrastes entre las variables. Las comunalidades se mantienen.

La rotacin factorial pretende seleccionar la solucin ms sencilla e interpretable. En


sntesis consiste en hacer girar los ejes de coordenadas, que representan a los factores,
hasta conseguir que se aproxime al mximo a las variables en que estn saturados.

La saturacin de factores transforma la matriz factorial inicial en otra denominada matriz


factorial rotada, de ms fcil interpretacin. La matriz factorial rotada es una combinacin
lineal de la primera y explica la misma cantidad de varianza inicial.

Gladys Enrquez Mantilla 275


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Digitar los datos correspondientes a las variables, en columnas diferentes:

Estadsticas Estadsticas Bsicas Correlacin

Clic en Aceptar.
Datos - Mostrar Datos

Clic en Aceptar.

Gladys Enrquez Mantilla 276


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Estadsticas Anlisis Multivariado Anlisis Factorial

Clic en Aceptar.

Gladys Enrquez Mantilla 277


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Estadsticas Anlisis Multivariado Anlisis Factorial

Gladys Enrquez Mantilla 278


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

ANLISIS DE CONGLOMERADOS

Sean X1 , X 2 , ....... , X p p variables cuantitativas observadas en n objetos. El punto de


partida para el anlisis de conglomerados es, en general, una matriz X que proporciona los
valores de las variables para cada uno de los individuos objeto de estudio.

Matriz de datos
(n sujetos P variables) x 11 ..... x 1 j ...... x 1p

.............................

X = x i1 ..... x ij ...... x ip
.............................

x n1 ...... x nj ..... x
np

La i-sima fila de la matriz X contiene los valores de cada variable para el i-simo sujeto,
mientras que la j-sima columna muestra los valores pertenecientes a la j-sima
variable a lo largo de todos los sujetos de la muestra.

El anlisis de conglomerados consiste en agrupar un conjunto de datos multidimensionales


(filas de la matriz de datos X) en un conjunto de grupos homogneos, llamados
conglomerados o clusters.

El anlisis de conglomerados tambin puede utilizarse para agrupar variables (columnas de


la matriz de datos X), las cuales han sido medidas sin un criterio de clasificacin a priori.
Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones.

El grfico muestra un anlisis de


conglomerado en base a dos
variables X1 y X 2

El anlisis de conglomerados se ubica dentro de las tcnicas analticas multivariables de


clasificacin o de interdependencia, al tener como objetivo principal la agrupacin de datos.
Concretamente, la clasificacin de una serie de individuos, objetos o variables en un
nmero reducido de grupos, llamados conglomerados.

La condicin que se impone es que los distintos conglomerados creados sean mutuamente
excluyentes; es decir, que los casos o variables que constituyan un conglomerado han de ser
lo ms similar posible entre s (con respecto a un criterio de seleccin determinado
previamente) y diferente respecto a los integrantes de los otros conglomerados.

La obtencin de dichos clusters depende del criterio o distancia considerados. Por ejemplo,
una baraja de cartas espaolas se podra dividir de distintos modos: en cuatro clusters (los
cuatro palos), en ocho clusters (los cuatro palos y segn sean figuras o nmeros), en dos
clusters (figuras y nmeros). Es decir, todo depende de lo que consideremos como similar.

Gladys Enrquez Mantilla 279


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Objetivo del Anlisis de Conglomerados

El objetivo del anlisis de conglomerados o Analysis Cluster es encontrar agrupamientos de


tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de
otros grupos.

Ejemplo 1:

Se aplica una encuesta a una muestra amplia de personas sobre cuestiones ideolgicas y
queremos identificar a las personas que comparten caractersticas. Lgicamente lo que
haramos sera comparar a unos encuestados con otros y pondramos juntos, en el mismo
grupo, cluster o conglomerado, a los que fuesen similares en su patrn de respuestas. El
objetivo fundamental es, asignar individuos a grupos de manera que se cumplan dos
criterios importantes. Por una parte, los individuos asignados a un mismo grupo deben ser
lo ms semejantes posibles entre s, y por otra parte, cada grupo debe ser lo ms diferente
posible de los dems grupos.

En definitiva se trata de que cada grupo sea lo ms homogneo posible, los individuos
dentro de un grupo se parezcan mucho entre s, y los grupos sean heterogneos unos
respecto de otros, es decir los individuos de un grupo se parezcan poco a los de los dems
grupos.

Ejemplo 2:

Una empresa desea clasificar a sus consumidores en tipos segn sus distintas
percepciones de determinados atributos de la marca: calidad global, nivel de servicio, precio,
servicio postventa y variedad. (Objetivo).

Para ello, se disea una muestra con 100 compradores a los que les pregunta sobre su
percepcin, en una escala de intervalo, de las anteriores 5 caractersticas de los productos
de la empresa. (Diseo).

La idea final consiste en disear distintas estrategias de promocin en funcin de sus


diversos perfiles, si es que estos existen. (Resultado)

Aplicaciones del Anlisis de conglomerados:

El anlisis de cluster se utiliza en la investigacin de mercados para diversos propsitos,


entre los que podemos destacar:
 La segmentacin de mercados. Por ejemplo, los consumidores pueden agruparse
empleando como base los beneficios derivados de la compra de un producto. Cada
grupo consistir en consumidores relativamente homogneos en trminos de los
beneficios que buscan.
 Comprensin del comportamiento del comprador (identificacin de grupos de
compradores homogneos para analizar el comportamiento de cada grupo por
separado).

Gladys Enrquez Mantilla 280


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

 Identificacin de oportunidades para productos nuevos. Al agrupar marcas y


productos, pueden determinarse los conjuntos competitivos dentro del mercado. Las
marcas en el mismo grupo compiten ms entre s que con las de los otros grupos. Una
empresa puede analizar sus ofertas actuales en comparacin con aqullas de sus
competidores a fin de identificar las oportunidades potenciales de los nuevos
productos.

 Seleccionar mercados de prueba. Al dividir las ciudades en grupos homogneos, es


posible seleccionar ciudades comparables a fin de probar diversas estrategias de
mercadotecnia.

 Reduccin de datos con el fin de facilitar el manejo de la informacin. Se puede


utilizarse como instrumento de reduccin general de datos a fin de desarrollar
subgrupos de datos que sean ms fciles de manejar que las observaciones
individuales.

 Acadmicos e investigadores de mercado a menudo encuentran la mejor solucin


para resolver sus estudios mediante la definicin de grupos homogneos de objetos, ya
sean ellos individuos, firmas, productos, o incluso comportamientos.

 Opciones estratgicas basadas en la identificacin de grupos dentro de la


poblacin tales como la segmentacin o el marketing de objetivos no seran posibles
sin un objetivo metodolgico.

 En otras reas encontramos la misma necesidad, abarcando desde las ciencias fsicas
(por ejemplo, clasificacin de varios grupos de animales, como insectos o mamferos) a
las ciencias sociales (por ejemplo, anlisis de varios perfiles psiquitricos).

Fases principales en su aplicacin

Seleccionar las p variables que van a ser medidas a un grupo de N sujetos, estas
variables van a favorecer la agrupacin de los datos. sta es una decisin clave y previa a
cualquier anlisis de conglomerados. Las variables finalmente elegidas son las que
determinan las caractersticas de clasificacin (aquellas que identifican a cada
conglomerado).

Eleccin del procedimiento de conglomeracin a seguir (jerrquico o no jerrquico),


junto al algoritmo de clasificacin para la creacin de los conglomerados.

Eleccin de medidas de distancia y proximidad para proceder a la formacin de los


conglomerados. Esta eleccin est determinada, en gran medida, por la naturaleza de las
variables incluidas en el anlisis. Si se trata de variables en su mayora cualitativas
(nominales u ordinales), la eleccin se limita a las llamadas medidas de co-ocurrencia. En
cambio, para las variables cuantitativas (discretas o continuas), las posibilidades se
amplan. Adems de las variables, incide el algoritmo que se haya escogido para la
formacin de los conglomerados y el procedimiento de conglomeracin a seguir.

Decisin sobre el nmero de conglomerados que se van a constituir.

Presentacin e interpretacin de los resultados, tanto en sus forma numrica (la tabla
de conglomerados) como grfica (el dendrograma y el grfico de carmbanos o de tmpanos).

Validacin de los resultados del anlisis. Si stos no logran alcanzar la calificacin de


vlidos, habr que introducir modificaciones que ayuden a su mejora. La consecuencia
inmediata ser la repeticin de todo el proceso, comenzando con el replanteamiento de las
decisiones adoptadas con anterioridad a la ejecucin del anlisis.

Gladys Enrquez Mantilla 281


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Procedimiento para encontrar los conglomerados.

1.- Encontrar la similitud o disimilitud entre cada par de objetos en la base de datos. En
este paso, se debe calcular las distancias entre objetos usando una funcin de
distancia. La mtrica ms utilizada en la euclidiana la cual mide la distancia entre
dos puntos en el espacio.

2.- Agrupar los objetos en un rbol de jerarqua de cmulos. En este paso, se debe
agrupar los objetos que se encuentran prximos. Una forma de hacer esto es ordenar
las distancias entre pares de objetos de acuerdo a la proximidad que existe.

Medidas de Disimilaridad (para variables cuantitativas)

Evalan el grado de diferencia o lejana existente entre dos elementos. Los valores ms altos
indican mayor diferencia o lejana entre los elementos comparados, cuando dos elementos
se encuentran juntos, la distancia es nula. Se conocen como medidas de distancia

Cuando se elige una distancia como medida de asociacin los grupos formados contendrn
individuos parecidos de forma que la distancia entre ellos ha de ser pequea.

Dado que el objeto fundamental de un anlisis de conglomerados es realizar una particin


de la muestra en grupos similares, el punto de partida es una matriz de similitudes o de
distancias entre pares de sujetos, objetos o variables que queremos agrupar.

Esta matriz permite cuantificar su grado de similitud-semejanza en el caso de las


proximidades o su grado de disimilitud-desemejanza en el caso de las distancias.

- Ejemplo: Distancia Eucldea

Medidas de Similitud o similaridad (variables nominales binarias: medidas de asociacin)

Evalan el grado de proximidad existente entre dos elementos.


Los valores ms altos indican mayor proximidad entre los pares de sujetos o variables
comparados, cuando dos elementos se encuentran juntos, el valor de las medidas es
mximo.

- Ejemplo: Coeficiente de correlacin de Pearson

Gladys Enrquez Mantilla 282


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

EL DENDROGRAMA O RBOL DE JERARQUA

Es un grfico tpico de los mtodos jerrquicos de conglomerados. Su visualizacin ayuda


bastante a comprender cmo se han ido formando los distintos conglomerados en las
distintas etapas del anlisis, mostrando qu grupos se van uniendo, en qu nivel concreto lo
hacen, as como el valor de la medida de asociacin entre los grupos cuando stos se
agrupan.

Pero cuando la muestra es mayor a 200 unidades, la magnitud del dendrograma crece,
llegando a ocupar varias pginas, lo que, en vez de ayudar, dificulta la lectura e
interpretacin de la solucin de conglomerados.

En el eje positivo de las abscisas se representan los elementos a agrupar y en el eje positivo
de ordenadas se representan las distancias correspondientes a los diferentes niveles de
agregacin denominadas tambin ndices de particin o coeficientes de agregacin.

Ejemplo 1:

En este dendrograma se
observa como el caso 14 se
asemeja al 16 y ambos al 21.

Ejemplo 2:

Se observa que existen 4 grupos bien diferenciados, la decisin de este nmero de grupos se
basara en la experiencia del investigador o en algn criterio estadstico.

Este grfico puede enriquecerse encerrando los grupos en elipses coloreadas, escribiendo el
nombre dado a cada grupo.

Gladys Enrquez Mantilla 283


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Eleccin de una medida de asociacin

Un paso importante en cualquier agrupacin consiste en seleccionar una medida de


distancia, lo que determinar la forma en la similitud de los dos elementos que se calcula.
Esto influir en la forma de los clusters, ya que algunos elementos pueden estar cerca o
lejos el uno del uno otro en funcin de una distancia.

Distancia eucldea: d ij

Es uno de los criterios posibles para medir distancias entre sujetos o variables. Mide el
parecido entre unidades de anlisis que han sido evaluadas en un conjunto de variables
cuantitativas. La distancia eucldea para dos sujetos se calcula mediante:

di j = ( X i k X j k )2
Una vez calculadas todas las distancias, se construye la matriz de distancias:

0 d (1,2) d (1,3) ........ d (1, N)



d (2,1) 0 d (2,3) ........ d (2, N)
d ij = d (3,1) d (3,2) 0 ........ d (3, N)

........ ........ ........ ........ ........

d (N,1) d (N,2) d (N,3 ........ 0

Ejemplo:
Calcular el parecido entre tres alumnas de Negocios Internacionales a partir de sus notas en
las asignaturas de: Finanzas, Economa, Estadstica Aplicada a los Negocios y Anlisis de
Estados Financieros utilizando la distancia eucldea. La matriz de datos para las tres
alumnas es la siguiente:
F E EAN AEF
A1 : 13 15 12 14
A2 : 11 12 13 15
A3 : 16 10 14 11
Solucin:

d12 = d 21 = (13 11)2 + (15 12)2 + (12 13)2 + (14 15)2 = 3.87

d13 = d 31 = (13 16)2 + (15 10)2 + (12 14)2 + (14 11)2 = 6.86

d 23 = d 32 = (11 16)2 + (12 10)2 + (13 14)2 + (15 11)2 = 6.78

Matriz de Distancias
Las alumnas 1 y 2 presentan notas
A1 A2 A3
ms parecidas (3.87).
A1 0 3.87 6.86
A2 0 6.78 Las alumnas 1 y 3 presentan ms
A3 0 diferencias en sus notas (6.86).

Gladys Enrquez Mantilla 284


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Digitar los datos en la hoja de trabajo.

Estadstica Anlisis Multivariado Conglomerados de observaciones

Al hacer clic en aceptar:

El dendrograma correspondiente al estudio de las tres alumnas, muestra cmo la alumna 1


y la alumna 2 se agrupan en un primer cluster. En el paso siguiente el primer cluster se
une con la alumna 3 para formar el segundo y ltimo cluster.

Gladys Enrquez Mantilla 285


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios
Desventaja
Un problema de la distancia eucldea, como medida de similaridad, es su dependencia de
las diferentes escalas en que estn medidas las variables. Escalas y rangos de variacin
diferentes pueden afectar al anlisis de conglomerados. Este problema se soluciona si en vez
de calcular la distancia eucldea con puntuaciones directas se calcula con puntuaciones
normalizadas. Estandarizar las puntuaciones de los sujetos en las variables es uno de los
procedimientos de normalizacin ms frecuentes en anlisis de datos.

Ejemplo:
Supongamos que estamos interesados en agrupar a una muestra de cinco familias en base
al nmero de hijos, al sueldo en dlares al mes y al tamao de la casa en metros cuadrados.
La matriz de datos es la siguiente:
N Hijos Salario ($) metros 2
F1 1 723 60
F2 1 900 60
F3 4 800 80
F4 0 1205 50
F5 2 600 65
Solucin:
Antes de calcular las distancias entre los sujetos (familias) debemos estandarizar los datos
de cada variable utilizando su media y desviacin estndar:
N Hijos Salario ($) metros 2
Xj 1.6 846 63
Sj 1.517 229 10.95

Todos los datos se estandarizan para convertir las variables a una escala comn, mediante:
Datos estandarizados
N Hijos Salario ($) metros 2
Xi j X j F1 -0.3955 -0.5371 -0.2740
Zi j = F2 -0.3955 0.2358 -0.2740
Sj
F3 1.5821 -0.2009 1.5525
F4 -1.0547 1.5677 -1.1872
F5 0.2637 -1.0742 0.1826

Matriz de distancias
F1 F2 F3 F4 F5
F1 0.0000 0.7729 2.7129 2.3871 0.9651
F2 0.0000 2.7272 1.7443 1.5359
F3 0.0000 4.1936 2.0922
F4 0.0000 3.2549
F5 0.0000

d12 = ( 0.3955 + 0.3955)2 + (0.5371 0.2358)2 + (0.2740 + 0.2740)2 = 0.7729

d13 = ( 0.3955 1.5821)2 + (0.5371 + 0.2009)2 + (0.2740 1.5525)2 = 2.7129

d14 = ( 0.3955 + 1.0547)2 + (0.5371 1.5677)2 + (0.2740 + 1.1872)2 = 2.3871

Gladys Enrquez Mantilla 286


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

d15 = ( 0.3955 0.2637)2 + (0.5371 + 1.0742)2 + (0.2740 0.1826)2 = 0.9651

d 23 = ( 0.3955 1.5821)2 + (0.2358 + 0.2009)2 + (0.2740 1.5525)2 = 2.7272

d 24 = ( 0.3955 + 1.0547)2 + (0.2358 1.5677)2 + (0.2740 + 1.1872)2 = 1.7443

d 25 = ( 0.3955 0.2637)2 + (0.2358 + 1.0742)2 + (0.2740 0.1826)2 = 1.5359

d 34 = (1.5821 + 1.0547)2 + (0.2009 1.5677)2 + (1.5525 + 1.1872)2 = 4.1936

d 35 = (1.5821 0.2637)2 + (0.2009 + 1.0742)2 + (1.5525 0.1826)2 = 2.0922

d 45 = ( 1.0547 0.2637)2 + (1.5677 + 1.0742)2 + (1.1872 0.1826)2 = 3.2549

Con las puntuaciones estandarizadas las familias ms parecidas son la primera con la
segunda (0.7729). Le siguen las familias 1 y 5 (0.9651), y as sucesivamente, hasta llegar a
las familias menos parecidas que son la 3 y la 4 (4.1936).

Digitar los datos en la hoja de trabajo.

Estadstica Anlisis Multivariado Conglomerados de observaciones

Clic en Personalizar

Gladys Enrquez Mantilla 287


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Clic en Aceptar y luego en Aceptar.

Dendrograma
Enlace simple; Distancia euclediana

2,09

1,39
Distancia

0,70

0,00
1 2 5 4 3
Familias

En el dendrograma queda reflejada la formacin de los conglomerados, as como las


distancias entre ellos.
Se puede apreciar que la observacin ms distante al resto es la de la familia 3, ya que es la
ltima (mayor distancia) en incorporarse al cluster final.
Por el contrario, las observaciones ms cercanas entre s son las familias 1 y 2, que forman
el primer cluster (distancia ms prxima a 0).

Coeficiente de correlacin de Pearson

Es uno de los criterios para medir proximidades entre variables.

Gladys Enrquez Mantilla 288


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

ALGORITMOS DE CLASIFICACIN

Una vez que se ha obtenido la matriz de similitudes (o de distancias), el paso siguiente es


aplicar una regla que nos permita agrupar a los sujetos o variables similares. Al conjunto de
tales reglas se les denomina algoritmos de clasificacin.

Los algoritmos o mtodos de clasificacin son de dos tipos:


 Algoritmos de clasificacin jerrquicos.
 Algoritmos de clasificacin no jerrquicos.

ALGORITMOS JERQUICOS (Mtodos Jerrquicos)

Tienen por objetivo agrupar clusters para formar uno nuevo (aglomeracin) o bien separar
alguno ya existente para dar origen a otros dos (divisin), de tal forma que, si sucesivamente
se va efectuando este proceso de aglomeracin o divisin, se minimice alguna distancia o
bien se maximice alguna medida de similitud.

Los mtodos jerrquicos son los procedimientos ms aplicados para la formacin de


conglomerados, cuando el tamao de la muestra no es elevado ( 200 unidades). Si la
muestra supera las 200 unidades, la simplicidad que caracteriza a los mtodos jerrquicos
se convierte en dificultad de clculo y de interpretacin.

Los anlisis se realizan a partir de una matriz de distancias, con entradas para cada par de
objetos (casos o variables). Su volumen aumenta con el tamao de la muestra. Lo mismo
sucede con la lectura e interpretacin de los resultados grficos.

La caracterstica general ms importante de los mtodos jerrquicos es que una vez que un
individuo ha sido asignado a un cluster no puede ser reasignado a otro diferente.

Mtodo jerrquico aglomerativo, acumulativo o ascendente

Se empieza el anlisis con tantos grupos como individuos o casos haya. A partir de estas
unidades de anlisis (elementos) iniciales se van formando grupos mediante la utilizacin de
algn criterio, de forma ascendente, hasta que al final del proceso todos los casos tratados
estn englobados en un mismo conglomerado.

La formacin de conglomerados es gradual y ascendente. En cada paso se constituye un


nuevo conglomerado, ya sea como resultado de la unin de dos objetos que permanecen
todava aislados (sin pertenecer a ningn conglomerado), o por la anexin de un objeto a un
conglomerado ya constituido, o por la conjuncin de dos conglomerados ya existentes. El
proceso de conglomeracin concluye cuando se llega a un nico conglomerado que rene a
todos los objetos.

Constituyen la variedad ms popular de los mtodos jerrquicos, por su mayor aplicacin y


desarrollo; son los que incorporan los paquetes estadsticos.

La caracterstica distintiva de este mtodo de conglomeracin es que una vez que el


conglomerado se ha constituido no puede dividirse en etapas posteriores. Al contrario, slo
puede ampliarse por la anexin de nuevos miembros, algunos de ellos pertenecientes a
conglomerados ya existentes.

Gladys Enrquez Mantilla 289


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Etapas:

1.- Trata al conjunto de N elementos como una primera particin ( C 0 ) en


conglomerados de mxima homogeneidad o parecido. En esta primera etapa hay
tantos conglomerados como sujetos a agrupar.

2.- Se agrupan las clases (conglomerados) de la primera particin ( C 0 ) que estn ms


prximas (o que sean ms parecidas) segn la medida de similaridad o disimilaridad
que se haya definido entre los N elementos. La segunda particin ( C1 ) contiene un
conglomerado menos que la primera.

Se recalculan las distancias entre la nueva clase y el resto y nos encontramos en la


misma situacin que en la etapa 1 pero con N-1 conglomerados.

El proceso se repite hasta que en la ltima particin ( C N 1 ) se obtiene un solo grupo


que contiene a todos los elementos. El resultado de este proceso es lo que se llama
una jerarqua indexada y su representacin grfica es el dendrograma.

Mtodos:

Los principales mtodos para determinar el nmero de conglomerados son los siguientes:
- Distancias mnimas.
- Distancias mximas.

Mtodo de distancias mnimas (vecino ms prximo)

Los grupos se unen considerando la menor de las distancias existentes entre los dos
miembros ms cercanos, uno en cada conglomerado.

Es uno de los procedimientos ms sencillos para formar conglomerados de manera


jerrquica. De acuerdo con este criterio, los objetos que se agrupan son aquellos que
presentan la menor distancia entre ellos y por consiguiente una mayor similitud. Es decir,
se busca la mayor semejanza entre los elementos o grupos ms cercanos.

Los dos primeros objetos que se combinan son los ms prximos entre s. Los otros objetos
van, uno a uno, combinndose en un nuevo conglomerado, o unindose a un conglomerado
ya existente, depende del conglomerado hacia el que se site a menor distancia.

El Mtodo de distancias mnimas presenta las siguientes caractersticas:

- No es til para resumir datos.


- til para detectar outliers (estarn entre los ltimos en unirse a la jerarqua).
- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters demasiado grandes y sin sentido.
- Invariante bajo transformaciones montonas de la matriz de distancias.

Gladys Enrquez Mantilla 290


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios
Mtodo de distancias mximas (vecino ms lejano)

Los grupos se unen considerando la distancia mxima existentes entre los dos miembros
ms alejados, uno en cada conglomerado.

Se considera que la distancia o similitud entre dos clusters hay que medirla atendiendo a
sus elementos ms dispares, o sea, la distancia o similitud entre clusters viene dada,
respectivamente, por la mxima distancia (o mnima similitud) entre sus componentes.

Esta consideracin de las distancias hacia los miembros ms distantes del conglomerado
(que supone la valoracin de todos sus integrantes) supone, inevitablemente, la aplicacin
de un criterio para la formacin de conglomerados ms riguroso que el aplicado en el
algoritmo de distancias mnimas.

El Mtodo de distancias mximas presenta las siguientes caractersticas:

- til para detectar outliers.


- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters pequeos y compactos.
- Invariante bajo transformaciones montonas de la matriz de distancias.

Mtodo jerrquico divisivo, disociativo o descendente

Se comienza con un conglomerado que engloba a todos los casos o elementos tratados y, a
partir de este grupo inicial y segn algn criterio, a travs de sucesivas divisiones, se van
formando grupos cada vez ms pequeos; llegando, en la ltima etapa del procedimiento, a
considerar a cada elemento del grupo inicial como el conglomerado ms simple y de mxima
homogeneidad. Es decir, al final del proceso se tienen tantas agrupaciones como casos han
sido tratados.

ESQUEMA del Mtodo Jerrquico aglomerativo y Mtodo Jerrquico divisivo:

Gladys Enrquez Mantilla 291


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

ALGORITMOS NO JERRQUICOS (Mtodos no Jerrquicos)

En este mtodo, se forman k grupos siendo k un nmero que el investigador decide a priori.
Para decidir acerca del nmero de conglomerados se utiliza el conocimiento que se tiene de
investigaciones previas. Fijar un nmero muy pequeo puede llevar a conclusiones pobres,
mientras que fijar un nmero demasiado grande complica la interpretacin. Lo ideal es
repetir el anlisis con distintos valores de k y seleccionar el que ms satisfaga las
expectativas del investigador.

Para llegar a la formacin de conglomerados se sigue un proceso iterativo que intenta


optimizar una funcin criterio. Uno de los procesos ms eficaces consiste en la reasignacin
de una observacin al centro ms prximo.

Este tipo de algoritmos comienzan con una seleccin de tantos sujetos como conglomerados
queremos formar. Los sujetos inicialmente seleccionados constituyen los centros de las
clases e inducen una primera particin por asignacin del resto de los sujetos al centro ms
prximo.

Este tipo de anlisis nos permite identificar grupos de consumidores con actitudes, hbitos
y comportamientos similares entre si, a los que se les llama segmentos. As mismo,
determina cules son los factores que diferencian un grupo de los dems. Una vez obtenidos
los diferentes segmentos, se puede definir sus respectivos perfiles en variables
sociodemogrficas y/o socioeconmicas, ayudando as a la estrategia de Marketing de la
empresa.

La segmentacin de clientes ms all de las variables tradicionales, nos aporta informacin


de valiosa utilidad para la definicin de estrategias comerciales y comunicacin.

Mediante la segmentacin de mercados se identifica o selecciona un grupo de consumidores


homogneos, y acto seguido se divide el mercado en varios submercados o segmentos de
acuerdo a los diferentes hbitos de compra y requerimientos de los consumidores.

A continuacin se cumple un proceso que consiste en:


- Conocer las necesidades del consumidor
- Crear un producto y un programa de mercadotecnia para alcanzar ese submercado y
satisfacer sus necesidades
- Producir una variedad distinta del mismo producto para cada mercado.

Gladys Enrquez Mantilla 292


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios
ANLISIS DISCRIMINANTE

Supongamos que un conjunto de objetos est ya clasificado en una serie de grupos, es


decir, se sabe previamente a qu grupos pertenecen. El Anlisis Discriminante se puede
considerar como un anlisis de regresin donde la variable dependiente es categrica y tiene
como categoras la etiqueta de cada uno de los grupos, y las variables independientes son
continuas y determinan a qu grupos pertenecen los objetos. Se pretende encontrar
relaciones lineales entre las variables continuas que mejor discriminen en los grupos dados
a los objetos.

El anlisis discriminante permite construir una regla de decisin que asigne con cierto
grado de riesgo un objeto nuevo, que no sabemos clasificar previamente, a uno de los
grupos prefijados.

El anlisis discriminante ayuda a identificar las caractersticas que diferencian


(discriminan) a dos o ms grupos y a crear una funcin capaz de distinguir con la mayor
precisin posible a los miembros de uno u otro grupo. El anlisis discriminante es una
tcnica estadstica capaz de decirnos qu variables permiten diferenciar a los grupos y
cuntas de estas variables son necesarias para alcanzar la mejor clasificacin posible.

La pertenencia a los grupos, conocida de antemano, se utiliza como variable dependiente.


Las variables en las que suponemos que se diferencian los grupos se utilizan como variables
independientes o variables de clasificacin (variables discriminantes); stas deben ser
variables cuantitativas continuas con distribucin normal multivariante.

En este contexto, el Anlisis Discriminante se emplea para determinar cul o cules


variables contribuyen a discriminar entre dos o ms grupos que se observan en la prctica.
Por ejemplo, si se tiene una medida de la estatura de un grupo de individuos, 50 hombres y
50 mujeres. En promedio, la estatura de las mujeres es inferior a la de los hombres, de
forma que esta diferencia puede reflejarse en la diferencia entre las medias de ambos
grupos. As, la variable estatura permite discriminar entre hombres y mujeres de forma
ms adecuada: si una persona es alta, entonces es probable que sea un hombre; si una
persona es baja, es posible que sea una mujer.

La idea bsica del Anlisis Discriminante es determinar si unos grupos difieren en funcin
de la media de una variable, y emplear luego esa variable para predecir la pertenencia de
una nueva observacin a determinado grupo.

Ejemplo 1:
Se desea caracterizar el perfil de los compradores de un determinado producto en un
determinado establecimiento. Para ello, se disea una muestra con 100 compradores y 100
no compradores y se toman datos de renta, edad y cercana al establecimiento de venta. El
anlisis discriminante establecer la importancia relativa de cada uno de estos atributos en
la decisin de compra permitiendo orientar mejor la poltica promocional o de distribucin
del producto.

Gladys Enrquez Mantilla 293


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Ejemplo 2
Una empresa est interesada en analizar la opinin de sus clientes con respecto a su labor
comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos en las
que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin entre 0
y 10: Velocidad de Entrega, Nivel de Precios, Flexibilidad de Precios, Imagen de la Empresa,
Servicio, Imagen de Ventas y Calidad de Producto. Adems, tiene clasificados a sus clientes
en dos grupos de acuerdo al tamao de la empresa en la que trabajan: Empresas Pequeas
y Empresas Grandes. El nmero de clientes pertenecientes a empresas pequeas es igual a
60 y el de empresas grandes es igual a 40.

El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de su


labor empresarial entre los clientes de un grupo y del otro y, en caso de que existan,
analizar en qu sentido se dan dichas diferencias.

En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a discriminar
(q=2). El tamao de la muestra es n=100 con n1 = 60 y n 2 = 40 .

Caractersticas

La principal diferencia del anlisis cluster consiste en que los grupos se establecen a priori,
es decir, que los individuos (u observaciones) analizados se encuentran ya clasificados antes
de comenzar el anlisis discriminante.

Objetivos del Anlisis Discriminante

- Se realiza un anlisis discriminante cuando tenemos un conjunto de observaciones,


con varias variables que las definen (igual que en componentes principales y cluster)
para dos objetivos distintos (pero nunca para formar grupos).
- Comprobar que las variables utilizadas discriminan entre grupos ya establecidos, y
distinguir cul o cules discriminan mejor.
- Predecir la pertenencia de una observacin a un grupo de los establecidos naturales.
- El objetivo final del anlisis discriminante es encontrar la combinacin lineal de las
variables independientes que mejor permita diferenciar (discriminar) a los grupos. Una
vez encontrada esa combinacin lineal (funcin discriminante) podr ser utilizada para
clasificar nuevos casos.

Aplicaciones

- Se aplica en diversas reas de conocimiento.


- Se ha utilizado para distinguir grupos de sujetos patolgicos y normales a partir de los
resultados obtenidos en pruebas diagnsticas.
- En el campo de los recursos humanos se aplica a la seleccin de personal para
realizar un filtrado de los curriculums previo a la entrevista personal.
- En banca se ha utilizado para atribuir riesgos crediticios.
- En las compaas aseguradoras para predecir la siniestralidad.

Gladys Enrquez Mantilla 294


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Funcin Discriminante

El propsito del anlisis discriminante consiste en aprovechar la informacin contenida en


las variables independientes para crear una funcin D la cual es combinacin lineal de X1 ,
X 2 , X p capaz de diferenciar lo ms posible a ambos grupos. La funcin discriminante
es de la forma:
D = b 0 + b1 X1 + b 2 X 2 + .... + b p X p

Las b i son los coeficientes estimados a partir de la matriz de datos.

Una vez hallada la funcin discriminante D, carece de sentido intentar representar la


situacin de los grupos en el espacio definido por las variables X1 , X 2 , , X p .

La funcin discriminante minimiza la probabilidad de equivocarse al clasificar los individuos


en cada grupo.

Mtodos de estimacin de la funcin

Stepwise o mtodo paso a paso:

Se desarrolla en varias etapas o fases en las que se introducen y rechazan las distintas
variables.

A medida que se introducen nuevas variables puede darse la situacin de que se eliminen
otras de las variables consideradas anteriormente discriminantes, debido a que como las
funciones discriminantes son combinaciones lineales de las variables originales, las nuevas
variables pueden estar correlacionadas con las anteriores, restando as su capacidad
discriminante. Proporciona directamente las variables que cumpliendo con las condiciones
seleccionadas, tienen un mayor carcter discriminante.

Visto de otra forma, se desea construir un modelo de cmo se puede lograr predecir de la
mejor forma a cul grupo pertenece una observacin o caso particular.

Forward o mtodo hacia delante:

Se basa en la introduccin de nuevas variables en la funcin discriminante, aunque tiene la


particularidad de que una vez introducida una variable en la funcin discriminante nunca
puede ser rechazada en un paso posterior. Es decir, en algunas ocasiones podemos tener
variables redundantes o correlacionadas dentro de las funciones discriminantes.

Cundo realizar un Anlisis Discriminante

Para comprobar que es coherente realizar con los datos un anlisis discriminante, debemos
realizar siempre un anlisis previo; MANOVA (Multivariant ANalysis Of VAriance). Debemos
suponer normalidad y homocedasticidad. Este MANOVA es similar al anlisis ANOVA para
un factor, pero con varias variables distintas. Para i grupos definidos por j variables, siendo
ij la media de cada variable para cada grupo, el contraste de hiptesis que resuelve
MANOVA es el siguiente:
H 0 : Las medias de todas las var iables en todos los grupos son iguales
H1 : No es cierta la hiptesis nula.

Si aceptamos la hiptesis nula, todas las variables tienen la misma media en todos los
grupos y no son capaces de discriminar entre grupos; no tiene sentido realizar un anlisis
discriminante.

Si rechazamos la hiptesis nula significa que al menos una variable puede discriminar entre
grupos, en cuyo caso s tiene sentido proceder a realizar un anlisis discriminante

Gladys Enrquez Mantilla 295


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

La Lambda de Wilks

Es el estadstico ms til para resolver anlisis MANOVA. Vara entre 0 y 1. Mide el poder
discriminante de un conjunto de variables. Cuanto ms prximo a 0, ms potente ser el
anlisis discriminante, puesto que la varianza entre grupos ser muy alta, mientras que la
varianza dentro de los grupos ser muy baja. La frmula de este estadstico es
aproximadamente:

Varianza dentro de los grupos


Lambda de Wilks =
Varianza dentro de los grupos + Varianza entre los grupos

Digitar los datos:

Estadsticas Anlisis multivariado Anlisis discriminante

Clic en Opciones

Gladys Enrquez Mantilla 296


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Clic en Aceptar y luego en Aceptar.

Interpretacin:

El anlisis discriminante identific correctamente 11 de 16 objetos, aunque la probabilidad


de clasificar correctamente un objeto de A fue ms bajo (0.625) que la probabilidad de
clasificar correctamente un objeto de B (0.750).

Para identificar un nuevo sujeto, se puede calcular las funciones discriminantes lineales
asociadas con el grupo A y con el grupo B e identificar el nuevo sujeto como perteneciente a
uno de estos grupos dependiendo de cul es el valor de la funcin discriminante ms alto.

D1 = 28.236 + 2.227 X1 + 1.371X 2 + 0.172X 3 + 0.002X 4 11.135 X 5

D 2 = 25.656 + 2.050 X1 + 1.314X 2 + 0.162X 3 + 0.012X 4 10.554X 5

Esto se puede hacer realizando el anlisis discriminante nuevamente y pronosticando la


membresa del grupo para nuevas observaciones.

Gladys Enrquez Mantilla 297


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

Cada uno de los valores que aparecen en esta matriz es el promedio de los
correspondientes al grupo A y al grupo B.

11.36 + 0.55 1.50 + 1.96


= 5.96 = 1.73
2 2

En la diagonal aparecen las varianzas de cada variable correspondientes a cada grupo, es


decir:

Gladys Enrquez Mantilla 298


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

La tabla de Resumen de las observaciones clasificadas errneamente muestra las distancias


cuadradas desde cada punto clasificado errneamente hasta los centroides de los grupos y
las probabilidades posteriores. El valor de la distancia cuadrada es el valor desde la
observacin hasta el centroide del grupo o vector medio. El valor de probabilidad es la
probabilidad posterior.

Las observaciones se asignan al grupo con la probabilidad posterior ms alta. De las 16


observaciones clasificadas 11 estn identificadas correctamente por lo tanto hay cinco
clasificadas errneamente (aparecen con dos asteriscos al lado del nmero de la
observacin).

Gladys Enrquez Mantilla 299


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

PRCTICA N 7
Anlisis Multivariado

1.- Queremos agrupar a 6 sujetos en base a sus notas en las asignaturas X1, X2, X3, X4,
X5. Para ello se ha obtenido la siguiente matriz:

Sujetos X1 X2 X3 X4 X5

S1 8 9 7 8 6

S2 7 8 7 8 8

S3 2 3 8 7 2

S4 1 2 6 7 1

S5 1 1 1 9 8

S6 2 3 1 8 9

Con los datos de la matriz anterior calcular:


a) La matriz de distancias eucldeas entre los sujetos.
b) Dibuja el dendrograma.
c) Hallar la matriz de correlaciones.

2.- Se analiza la leche de las hembras de 20 mamferos, obtenindose los porcentajes en


agua, protenas, grasa y lactosa siguientes:
Mamfero Agua Protenas Grasa Lactosa
Caballo 90.1 2.6 1.0 6.9
Burro 90.3 1.7 1.4 6.2
Cebra 86.2 3.0 4.8 5.3
Hamster 81.9 7.4 7.2 2.7
Rata 72.5 9.2 12.6 3.3
Oveja 82.0 5.6 6.4 4.7
Reno 64.8 10.7 20.3 2.5
Mula 90.0 2.0 1.8 5.5
Cerdo 82.2 7.1 5.1 3.7
Camello 87.7 3.5 3.4 4.8
Bfalo 82.1 5.9 7.9 4.7
Zorro 81.6 6.6 5.9 4.9
Conejo 71.3 12.3 13.1 1.9
Llama 86.5 3.9 3.2 5.6
Ciervo 65.9 10.4 19.7 2.6
Bisonte 86.9 4.8 1.7 5.7
Gato 81.6 10.1 6.3 4.4
Perro 76.3 9.3 9.5 3.0
Foca 46.4 9.7 42.0 0.0
Delfn 44.9 10.6 34.9 0.9

Clasificar estos mamferos de forma jerrquica atendiendo a dichas variables


realizando el estudio de acuerdo a la distancia eucldea. Hallar la matriz de
distancias y el dendrograma.

Gladys Enrquez Mantilla 300


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

3.- Se tienen ejemplares en los que se han medido dos variables X1 y X 2 . El


investigador supone que provienen de dos especies distintas, y sospecha que las tres
primeras observaciones son de la misma especie. La matriz de datos es:
3 7
2 4

4 7
X =
6 9
5 7

4 8

a) Obtener las distancias eucldeas entre cada para de observaciones.


b) Realizar el anlisis de las observaciones.
c) Trazar el dendrograma.

4.- Considerando los siguientes datos:


Individuos Gastos Aos Educac.
1 5 5
2 6 6
3 15 14
4 16 12
5 25 18
6 30 16
7 18 19
8 20 18
9 35 20
10 28 19
a) Realizar el anlisis de conglomerados.
b) Obtener las distancias eucldeas.
c) Trazar un dendrograma con dos conglomerados.

5.- Se tienen dos grupos definidos, tres variables explicativas V1 , V2 y V3 y catorce


individuos de los que se conoce su perfil y su asignacin.

V1 V2 V3 Grupo
15 41 32 1
17 40 56 1
32 35 46 2
16 42 50 1
30 33 45 2
32 32 33 2
33 30 37 2
21 39 35 1
20 38 44 1
30 31 45 2
32 40 50 1
20 30 38 2
26 35 36 1
33 38 42 1

Calcular las funciones discriminantes lineales asociadas con el grupo 1 y con el


grupo 2.

Gladys Enrquez Mantilla 301


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

6.- El departamento de recursos humanos de una empresa quiere realizar un estudio


sobre la motivacin de sus ejecutivos. Los treinta ejecutivos responden a doce
preguntas en las que tienen que indicar en una escala de 1 a 10 su grado de acuerdo
(1: desacuerdo total, 10: acuerdo total). Los datos son los siguientes:

Sujeto P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12


1 7 4 3 7 4 6 4 5 7 7 6 4
2 5 3 3 4 6 4 3 4 4 6 7 6
3 4 4 4 5 5 5 3 3 4 6 7 4
4 7 6 6 6 3 7 7 7 6 3 3 3
5 3 3 4 7 3 7 4 3 7 7 6 3
6 4 7 7 3 7 3 6 7 4 4 4 7
7 6 7 7 7 3 6 6 7 7 3 3 3
8 5 3 3 5 6 5 3 4 5 6 7 5
9 3 5 5 6 4 7 5 5 7 6 5 4
10 7 7 6 3 6 4 7 7 3 3 4 7
11 3 6 7 6 3 7 6 6 7 4 3 3
12 3 4 4 7 3 6 6 6 7 5 5 3
13 6 5 6 7 4 7 5 5 6 3 4 4
14 7 4 4 4 7 4 3 3 4 7 6 7
15 7 6 5 6 4 6 6 6 7 6 3 3
16 5 7 6 3 6 3 7 7 3 3 7 7
17 4 7 7 5 4 4 6 6 5 3 5 5
18 3 6 7 4 7 3 7 7 3 4 6 7
19 5 5 5 4 7 4 5 5 4 5 7 6
20 6 7 6 5 8 6 6 4 3 6 8 7
21 3 5 6 5 7 3 5 3 4 7 7 7
22 5 4 6 4 6 4 6 7 5 5 5 4
23 4 7 5 7 8 5 4 5 7 4 7 6
24 3 6 4 7 7 7 7 4 6 6 4 5
25 5 4 7 5 5 8 6 3 6 3 7 4
26 6 3 6 6 4 6 4 4 7 4 6 3
27 7 6 3 4 6 7 7 5 4 4 4 7
28 5 7 5 3 8 5 5 5 7 5 4 7
29 4 6 4 4 7 3 3 6 3 5 6 6
30 6 5 6 7 6 4 7 7 5 6 7 5

a) Detectar 4 factores que pueden explicar la motivacin de los ejecutivos.


Realice una rotacin Varimax.
b) Obtener un dendrograma de observaciones con dos conglomerados con
mtodo completo y medicin euclidiano. Indicar qu sujetos perteneceran a
cada cluster.
c) Obtener un dendrograma de observaciones con tres conglomerados.

Gladys Enrquez Mantilla 302


UNIF Administracin de Negocios Internacionales
Estadstica Aplicada a los Negocios

7.- En una investigacin se analizan doce variables, procedentes de la analtica


sangunea, medidas en 34 enfermos. El objetivo del anlisis es encontrar unas
funciones discriminantes capaces de clasificar a estos pacientes en distintos grupos
segn sus expectativas de supervivencia. Las variables consideradas son:
V1 : LHD V7 : Fosfatasa alcalina
V2 : Protenas Totales V8 : GGTP
V3 : cido rico V9 : GOT
V4 : Hemoglobina V10 : GPT
V5 : Leucocitos V11 : Br
V6 : Plaquetas V12 : Ca

Adems, el seguimiento posterior de cada paciente ha proporcionado un tiempo de


supervivencia que permite incluirlo en uno de estos tres grupos:
A: supervivencia inferior a 1 ao.
B: supervivencia entre 1 y 2 aos.
C: supervivencia mayor a 2 aos.
La tabla que se utiliza para el anlisis es la siguiente:
N V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 Gr.
1 560 7,4 3,2 8,3 8900 512000 390 248 48 58 0,5 9,9 A
2 1258 6,5 5,5 14,8 9700 365000 576 229 69 96 1,3 10,0 A
3 600 7,4 5,1 13,2 11000 126000 300 120 42 52 0,9 9,8 C
4 1090 7,2 3,8 11,9 10500 130000 320 35 30 68 0,3 10,3 A
5 1020 7,5 5,5 8,6 13500 114000 118 39 66 8 0,4 8,4 A
6 340 6,7 6,3 8,4 6500 122000 260 71 70 62 1,4 10,7 A
7 520 8,5 6,5 13,6 4500 329000 169 120 40 46 0,6 9,0 C
8 360 7,2 6,0 12,0 11200 140000 315 74 17 51 0,7 8,3 B
9 1310 6,8 3,3 14,0 8400 267000 490 236 21 92 0,6 10,6 A
10 980 7,6 4,1 8,8 12200 400000 660 38 13 56 0,5 9,5 A
11 690 7,4 5,8 14,0 8000 125000 262 150 23 25 0,4 9,9 B
12 650 7,4 8,8 11,8 11100 321000 290 130 43 48 0,7 9,8 C
13 420 7,3 4,4 11,6 9800 608000 318 48 47 21 0,5 9,9 B
14 750 6,5 4,1 13,0 8500 409000 114 160 18 55 0,7 10,3 B
15 450 6,1 2,6 8,6 12800 254000 250 180 68 84 1,3 10,2 A
16 1140 6,4 6,4 14,4 10000 124000 410 120 56 90 0,7 10,8 A
17 540 6,7 6,1 11,7 6000 212000 179 140 46 15 0,5 9,0 C
18 350 8,2 6,8 13,1 11000 128000 310 140 26 50 0,6 8,2 C
19 700 7,7 6,1 18,0 13000 360000 314 78 47 48 0,8 8,5 B
20 490 8,0 3,0 9,0 11600 342000 160 96 66 64 0,3 10,5 A
21 380 6,3 3,2 11,8 9500 128000 140 100 45 32 0,6 8,7 C
22 510 6,9 4,3 13,5 6400 322000 310 98 44 36 0,8 8,2 C
23 960 7,3 4,8 13,0 12400 117000 424 64 18 19 0,5 10,6 A
24 630 6,2 3,7 9,2 11400 130000 412 210 62 82 0,9 8,7 A
25 933 6,0 2,2 8,5 5600 193000 412 263 70 86 0,7 10,5 A
26 580 7,6 5,7 11,6 6300 127000 220 145 50 54 0,6 9,4 B
27 480 7,5 4,8 11,5 12100 257000 140 190 65 70 1,1 8,3 A
28 780 6,7 4,6 11,5 9600 150000 318 35 22 25 1,0 10,1 B
29 420 6,9 2,9 11,6 10800 120000 610 309 47 72 0,4 10,9 A
30 1070 7,5 6,6 10,2 5800 119000 210 170 60 46 0,6 9,6 A
31 450 6,8 6,2 15,8 11200 144000 180 155 62 54 0,8 9,2 B
32 890 6,2 2,6 15,6 13500 116000 689 294 64 58 0,8 9,2 A
33 640 7,3 3,1 10,4 5000 155000 280 115 68 64 0,7 10,7 A
34 470 8,1 4,9 16,0 6200 125000 316 76 40 50 0,7 8,3 B

Gladys Enrquez Mantilla 303

You might also like