You are on page 1of 46

Profesores: Jess Varela Mallou

Antonio Rial Boubeta


www.usc.es/psicom
1
ANLISIS MULTIVARIANTE
rea de Metodologa de las Ciencias del
Comportamiento
Facultad de Psicologa
Universidad de Santiago de Compostela
Curso 2011-2012
Anlisis Multivariante 2
1. Contextualizacin y Revisin General de las
Tcnicas Multivariantes
2. El Anlisis Preliminar de los Datos
3. Anlisis de Regresin Lineal Mltiple
5. Anlisis de Regresin Logstica
TEMARIO
4. Anlisis Conjunto
6. Anlisis de Supervivencia
TEMA II TEMA II
EL ANLISIS PRELIMINAR
DE LOS DATOS
Anlisis Multivariantes
Modelos Multivariantes 4 Modelos Multivariantes 4
Preparacin del Archivo de Datos. En Rial, A. y Varela, J.
(2008). Estadstica Prctica para la Investigacin en
Ciencias de la Salud. Corua: Netbiblo. Pginas 17-27.
Anlisis de Datos para una sola variable. En Rial, A. y Varela, J.
(2008). Estadstica Prctica para la Investigacin en
Ciencias de la Salud. Corua: Netbiblo. Pginas 31-57.
RECOMENDADA
Rial, A.; Varela, J. y Rojas, A. (2001). Depuracin y Anlisis
Preliminares de Datos en SPSS . Ra-ma. Madrid
LECTURA OBLIGATORIA
Modelos Multivariantes 5
Desde que se recogen los datos hasta que stos son procesados,
se experimentan una serie de procesos que pueden escaparse del
control del investigador
Algunos de los errores ms frecuentes:
Utilizacin de un valor invlido
Ausencia de valores dentro del rango de la distribucin. ser porque nadie
tiene tales ingresos?, o se trata de un problema de seleccin muestral?.
Nos alerta de un fenmeno extrao. Missing
Outliers. 3 sujetos tienen ingresos que cuadriplican el ingreso medio !!!
Exploratory Data Analysis (EDA): Tcnicas grficas y analticas
para conseguir un conocimiento previo de los datos, propugnando
un cambio de actitud y enfoque metodolgico ante el anlisis de la
informacin. Tukey, 1977
Anlisis Preliminar de los Datos
Modelos Multivariantes 6
Todo Anlisis Estadstico de los datos debe iniciarse con la
preparacin y realizacin de un estudio detallado del archivo
o base de datos
La aplicacin de cualquier Tcnica Multivariante carece de
validez alguna si el archivo de datos contiene errores o
incoherencias, casos perdidos de manera no aleatoria o
variables que no se adecuan a los supuestos de las tcnicas
empleadas
Preparar la informacin recogida tambin significa llevar a
cabo transformaciones o creaciones de nuevas variables a
partir de las empricas o directas (ej.: el ndice de Masa
Corporal, IMC (peso/talla2); o la segmentacin del archivo)
Anlisis Preliminar de los Datos
Modelos Multivariantes 7
O Depurar errores e incoherencias y Transformacin de Variables: Preparar el
archivo de datos
O Missing: Resolver el problema de la falta de respuesta: tamao de la muestra
(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)
O Outliers: Tratar los casos anmalos: eleccin de la prueba o estadstico
adecuado
O Comprobacin de supuestos paramtricos: pruebas paramtricas vs. no
paramtricas, eleccin de la tcnica multivariante concreta
O Y, en general, Resumir la informacin que contienen los datos, informar de las
tendencias, (anlisis univariable)
5 Razones para el Anlisis Preliminar de los datos
Modelos Multivariantes 8
Errores de introduccin de datos:
Razn 1. La depuracin de Errores e Incoherencias
Valores fuera de rango o no permitidos:
Ej. Sexo (1: hombre, 2: mujer. No deberamos de encontrar ningn 3
Tablas de Frecuencias para todas las variables
Depuracin de Incoherencias entre respuestas (preguntas filtro):
Ej. Variable uno: nmero de cigarrillos que fuma al da (=7)
Variable dos: Es fumador (1=si; 2=no)
Tablas de Contingencia para pares de variables
Errores durante la recogida:
Modelos Multivariantes 9
Crear una nueva variable que sea la combinacin de dos variables
originales como puede ser el ndice de Masa Corporal (Peso/Altura
2
)
Otro tipo de transformacin es el clculo de las puntuaciones Diferenciales
(de desviacin) y Tpicas (Estandarizadas), reescalar,
Las puntuaciones tpicas no tienen una unidad de media particular. Su
unidad siempre es la misma (indica cuntas desviaciones tpicas por
encima o por debajo de la media se sita una puntuacin determinada).
Por ello son comparables entre s, independientemente de la unidad de
medida de la puntuacin original
Tambin sirven para detectar puntuaciones anmalas o outliers:
sujetos que tienen un comportamiento que se aleja de la normalidad. El
95% de los casos tienen puntuaciones Z comprendidas entre 1.96
Anlisis Preliminar de los Datos tambin significa CREAR
y TRANSFORMAR Variables
Modelos Multivariantes 10
Hay que conocer la base de respuestas para saber si estamos ante una
prdida de representatividad. La reduccin excesiva del tamao de la
muestra condiciona las estimaciones (INTERVALOS DE CONFIANZA) y las
comparaciones (SIGNIFICACIN ESTADSTICA).
LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en
principio era una muestra adecuada se convierte en inadecuada y no
representativa). Atentamos contra la validez externa
LOS MISSING. Tenemos que preguntarnos: Son iguales los que responden
a una encuesta que los que no responden?, de quin estamos informando
realmente?, siguen algn patrn o se distribuyen de manera aleatoria?,
estn sesgados los resultados?
Razn 2. Determinacin de la base de
Respuesta (MISSING)
Modelos Multivariantes 11
Identificar los sujetos con missing (filas)
Identificar las variables con missing (columnas)
SPSS: Anlisis de Valores Perdidos
IDENTIFICACIN DE LA NO RESPUESTA O MISSING
Modelos Multivariantes 12
Varias estrategias:
Comprobar si los distintos segmentos presentan un porcentaje
similar de falta de repuesta (Provincia, Centro, Grupos de Edad,
...)
2
Estudiar posibles patrones o tendencias
Identificar variables relacionadas y comprobar que los que
responden y los missing se comportan igual, que no existen
diferencias estadsticamente significativas t
EN CASO DE QUE INFLUYAN o presenten diferencias, qu
hacer con ellos?: Sustitucin vs. Imputacin
Ahora debemos preguntamos Se distribuyen al azar?
Modelos Multivariantes 13
2 POSIBILIDADES:
SUSTITUIR: TRANSFORMAR / REEMPLAZAR por
Media de la serie
Media de puntos adyacentes
Mediana de puntos adyacentes
IMPUTAR: ANALIZAR LOS VALORES PERDIDOS con el fin de examinar
patrones en diferentes variables relacionadas con la variable con missing
Mtodo de Regresin, Fichero caliente (hot deck)
Cmo hacerlo en SPSS?
Modelos Multivariantes 14
Valores que caen fuera del rango normal de los datos
Ej. Media edad en el aula
CRITERIO de OUTLIER: son aquellos valores que se alejan del
cuerpo central de la distribucin entre 1.5 y 3 veces el valor del IQR
IQR: Recorrido o Amplitud Intercuartlica se trata de una medida
de variabilidad de los datos. Si los valores se alejan ms de tres
unidades del cuerpo central de los datos entonces es un caso
EXTREMO ( 3 IQR)
Razn 3: Los valores ANMALOS o atpicos
Amplitud intercuartlica = tercer cuartil - primer cuartil = Q3 - Q1
Modelos Multivariantes 15
A nivel univariante:
IQR
Grficos de Caja o Boxplot
Grficos de Tallo y Hojas
A nivel bivariado: Grficos de Dispersin
A nivel multivariado:
Residuos (tipificados, studentizados, etc.)
Distancia de Mahalanobis
Distancia de Cook
Outliers: Cmo detectarlos?
Modelos Multivariantes 16
Lmites inferior y superior
son los percentiles 25 y 75
respectivamente
La lnea horizontal indica
la mediana o percentil 50. Si
est en el centro de la caja
ndica que se trata de una
distribucin simtrica
20 N =
INGRESOS
600000
500000
400000
300000
200000
100000
0
9
10
Grficos de caja o BOXPLOT
Outlier
Extremo
Modelos Multivariantes 17
10 10 N =
SEXO
MUJER HOMBRE
I
N
G
R
E
S
O
S
600000
500000
400000
300000
200000
100000
0
10
Comparar la distribucin de dos o
ms grupos
Asimtrica negativa (prxima
al tercer cuartil) y Asimtrica
Positiva (si aproxima al
primero)
Modelos Multivariantes 18
SOLUCIONES:
Acudir a estadsticos distintos de los habituales y
RESISTENTES (Mediana, Media reducida, M-estimadores:
Andres, Huber, Tukey, Hampel)
Utilizar Contrastes no paramtricos: Mann-Withney, Prueba
de la Mediana, Kruskal-Wallis
Detectarlos y eliminarlos de la muestra, recurrir a un
procedimiento de remuestreo o a procedimientos de
estimacin robustos
Qu hacer ante la presencia de casos anmalos?
Modelos Multivariantes 19
Para elegir la prueba estadstica adecuada en cada
caso
t de Student Mann-Withney
Anova Kruskal-Wallis
Discriminante o Regresin Logstica
Pruebas Paramtricas y No Paramtricas
Razn 4: comprobacin de supuestos paramtricos
Modelos Multivariantes 20
NORMALIDAD: que la VD se distribuya normalmente
ALEATORIEDAD o Independencia de las medidas: que los
sujetos hayan sido seleccionados al azar (ANOVA)
HOMOCEDASTICIDAD u Homogeneidad de varianzas:
que los distintos grupos posean una variabilidad similar
LINEALIDAD: Relacin lineal entre las variables analizadas
Cules son esos SUPUESTOS?
Modelos Multivariantes 21
NORMALIDAD: Prueba K-S de Lilliefors
(SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos)
ALEATORIEDAD: Prueba de las Rachas
(SPSS: ANALIZAR / Pruebas no paramtricas / Rachas)
HOMOCEDASTICIDAD: Prueba de Levene
(SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos)
LINEALIDAD: Grfico de dispersin
(SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos)
Cmo se comprueban?
Modelos Multivariantes 22
Grfico Q-Q normal de INGRESOS
Valor observado
500000 400000 300000 200000 100000 0 -100000
N
o
r
m
a
l

e
s
p
e
r
a
d
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Pruebas de normalidad
,257 20 ,001 ,717 20 ,010**
INGRESOS
Estadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnov
a
Shapiro-Wilk
Este es un lmite superior de la significacin verdadera.
**.
Correccin de la significacin de Lilliefors
a.
NORMALIDAD
Lilliefors: se desconoce la
varianza poblacional
(habitual)
Shapiro-Wilk: muestras
pequeas (n<30)
Hiptesis nula: la poblacin de la que se ha estrado la muestra es normal
Se rechaza
Ho (p<0.05)
Modelos Multivariantes 23
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetra Positiva FUERTE: -1/X
3
,
-1/X
SUAVE: log X X
Asimetra Negativa FUERTE: antilog X
SUAVE: X
2
X
3
Recurrir a una prueba no paramtrica o a tcnicas
multivariantes ms robustas
y... si no se distribuye NORMALMENTE
Modelos Multivariantes 24
* En el que lo primero es realizar un anlisis detallado de las
variables incluidas en la matriz de datos:
O Estudiando grficamente la forma de cada distribucin
O Detectar posibles valores extremos
O Distribuciones asimtricas, varianzas desiguales, etc
* Y lo segundo es preguntarnos si es conveniente realizar
alguna transformacin de las variables con el fin de preparar
el camino para la correcta aplicacin de las tcnicas
confirmatorias
EDA, un cambio de actitud
Modelos Multivariantes
25
UN REPASO MEDIANTE UN EJEMPLO
O Supongamos que deseamos relacionar
el nivel de renta del hogar con el lugar
de residencia (hbitat rural, semirrural,
semiurbano y urbano) y el nmero de
miembros en el hogar
O Supongamos que una vez recogida la
informacin elaboramos una matriz de
datos donde expresamos los ingresos
brutos de la unidad familiar (en miles).
O Veamos los datos correspondientes a
los 16 primeros entrevistados:
Ing: 150, 81, 102,195, 375, 99, 147, 171, 87, 192, 75,
147, 159, 252, 57, 201
Lug: 4, 4, 4, 4, 4, 4, 4, 4, 2, 3, 4, 4, 4, 4, 2, 4
Miemb: 2, 2, 3, 5, 4, 3, 5, 5, 3, 3, 3, 2, 5, 2, 4, 2
Modelos Multivariantes 26
Para realizar un anlisis exploratorio es necesario pulsar
Analizar, a continuacin Estadsticos descriptivos y, por
ltimo Explorar.
seleccionamos
la variable
Ingresos
unidad familiar
y la colocamos
en el recuadro
de Variables
Dependientes:
Modelos Multivariantes 27
1. Estadsticos Descriptivos:
a) Medidas de localizacin y tendencia central:
media, mediana, media recortada al 5%,
intervalo de confianza
b) Medidas de dispersin: errores tpicos,
varianza, mnimo, amplitud intercuartlica
c) Medidas de forma de la distribucin:
asimetra, curtosis y sus errores tpicos
2. Estimadores Robustos Centrales:
alternativas robustas a la mediana y a la media
como son el estimador M de Huber, onda de
Andrews, M de Hampel y bioponderado de
Tukey
3. Valores atpicos: muestra los 5 valores
mayores y menores
4. Percentiles: los valores que aparecen
situados en los percentiles 5, 10, 25, 50, 75, 90 y
95
Botn Estadsticos:
Modelos Multivariantes 28
1. Diagramas de Caja: Grficos de caja
para el estudio de las colas de la
distribucin (los extremos). Es posible
elegir entre dos formas de
representacin : niveles de factores,
dependientes juntas
2. Grficos descriptivos de tallo y
hojas e histogramas: tiles para el
anlisis del centro de la distribucin
3. Grficos con pruebas de
normalidad: presenta los diagramas
de probabilidad normal y de
probabilidad sin tendencias. El
programa realiza tambin el test de
Kolmogorov-Smirnov con el nivel de
significacin de Lilliefors, o el test de
Shapiro-Wilk cuando la muestra tiene
menos de 50 observaciones
4. Grficos de dispersin por nivel
con pruebas de Levene: /
Botn Grficos:
Modelos Multivariantes 29
4. Grficos de dispersin por
nivel con pruebas de Levene:
slo disponible cuando en el cuadro
anterior se selecciona una variable
FACTOR. Y se utiliza para controlar la
transformacin de los datos para los
grficos de dispersin por nivel. En
cada grfico se muestra la pendiente
de la recta de regresin y las pruebas
de Levene de igualdad de varianzas.
Estos grficos presentan 3
opciones: Estimacin de potencia,
no transformados y transformados
(permite llevar a cabo diversas
transformaciones como
logartmicas, raz cuadradas,
cubo, inversa, etc.)
Botn Grficos:
Modelos Multivariantes 30
Botn Opciones:
Opciones: Est dedicado al
tratamiento de los valores perdidos
Excluir casos segn pareja:
permite trabajar con los sujetos que
tienen valores perdidos para cada par
de variables
Excluir casos segn lista: Incluye
nicamente aquellos que disponen de
valores vlidos para todas las
variables analizadas
Mostrar Valores: En lugar de
eliminar los valores perdidos, los
considera como una categora
diferente
VISUALIZACIN DE LA DISTRIBUCIN DE LA VARIABLE ing
(EXMEN GRFICO DE LOS DATOS
31
Si ejecutamos todo cul es la visualizacin de la
distribucin o examen grfico de los datos?:
Recomendamos
pulsar el botn Pegar
para mostrar los
comandos de sintaxis
del programa SPSS para
el procedimiento
EXAMINE
Modelos Multivariantes 32
PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LA
DISTRIBUCCIN: El histograma, los grficos
descriptivos de tallo y hojas y los grficos de pruebas
de normalidad.
INTERPRETACIN
Histograma: representa las
frecuencias obtenidas por cada
categora
Hay 15 rectngulos de amplitud
50.000
Casi 300 personas viven en
hogares con ingresos entre 125 y
175.000
Fijmonos ahora en las 200
personas con ingresos inferiores a
75.000 se distribuyen
uniformemente en todo el intervalo
o puede ser que prcticamente
todos ganen 74.000. Ello nos lo
permite saber el grfico de tallo y
hojas
Modelos Multivariantes 33
PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LA
DISTRIBUCCIN: El grfico de caja, los grficos
descriptivos de tallo y hojas, el histograma y los
grficos de pruebas de normalidad.
En el histograma vimos que menos
de 200 entrevistados tienen ingresos
inferiores a las 75.000.
Tallo y hojas: Vemos que de los
200 (64+100+72) con ingresos
inferiores a 74.000:
64 ganan entre 54 y 57
100 ganan entre 60 y 69
y el resto entre 72 y 75.000
Nota: cada hoja representa a tres
casos
En la ltima lnea aparecen 4
casos extremos con ingresos
superiores a 280.000
Modelos Multivariantes 34
VENTAJAS DEL GRFICO TALLO Y HOJAS
Tallo y hojas:
1. Mantiene los valores originales y no los agrupa en intervalos
2. es muy sencillo localizar los valores centrales de la distribucin
3. facilita la identificacin de concentraciones de datos y posibilita la
localizacin de saltos o discontinuidades en la serie de datos (ausencia
de determinados niveles de ingresos)
4. Permite la identificacin de aquellos valores poco frecuentes y los
valores desviados del conjunto
5. Facilita el estudio de la forma de la distribucin
PUNTOS DBILES
Tallo y hojas informa de los valores centrales de las distribuci, pero
contribuye poco al estudio de los casos extremos. El DIAGRAMA DE
CAJA o boxplot permite solventar este problema con informacin del
centro de la distribucin, pero tambin permite un anlisis detallado de
las colas
35
GRFICO DE CAJA O BOXPLOT
La parte oscura dividida por una lnea
horizontal informa de:
Lmites inferior y superior de la caja son los
percentiles 25 y 75 respectivamente
La lnea horizontal indica la mediana o
percentil 50. Si est en el centro de la caja
ndica que se trata de una distribucin
simtrica
Asimtrica negativa la media est por debajo
de la mediana (si la mediana est prxima al
tercer cuartil) y asimtrica positiva si
aproxima al primero y, en ese caso, la media
est por encima de la mediana
Entre los percentiles 25 y 75 se concentra el
50% de los casos y esta distancia indica la
dispersin (similar al recorrido intercuartlico)
Pero dnde est el resto de casos de
la distribucin?
La T invertida informa del menor
valor observado que no es un atpico
La parte ms alta de la T indica el
mayor valor observado, sin atpicos
El resto son ATPICOS, con valores
extremos en la variable
Modelos Multivariantes 36
LOS CASOS ATPICOS
Definicin: Son observaciones con
valores extremos, observaciones muy
diferentes del resto de valores de la
distribucin y que tienen un importante
efecto sobre las medidas de tendencia
central y variabilidad
Dos tipos de casos atpicos:
Extremos: smbolo * los que se
encuentran a una distancia de la mediana
tres veces superior a la longitud de la caja o
recorrido intercuartlico
Outliers: smbolo 0, separados de la
mediana entre 1,5 y 3 veces la longitud de
la caja
En la grfica se observan 4 casos atpicos
(1 outlier y 3 extremos)
Modelos Multivariantes 37
Grfico de caja con varias
variables dependientes
La opcin de dependientes
juntas permite comparar fcilmente
varias distribuciones
examinar la situacin del 50%
central de la distribucin definido
por la longitud de la caja
Examinar la forma del 50%
central de la distribucin en
funcin de la posicin que ocupa
la mediana dentro de la caja
evaluar el posible sesgo en las
colas de la distribucin en
funcin de la longitud de las
patas
detectar posibles valores
atpicos
38
Grfico Q-Q normal de INGRESOS
Valor observado
500000 400000 300000 200000 100000 0 -100000
N
o
r
m
a
l

e
s
p
e
r
a
d
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Pruebas de normalidad
,257 20 ,001 ,717 20 ,010** INGRESOS
Estadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnov
a
Shapiro-Wilk
Este es un lmite superior de la significacin verdadera.
**.
Correccin de la significacin de Lilliefors
a.
Test de Normalidad: Contraste de Lilliefors
Grfico Q-Q: La distribucin Normal se
representa con una recta inclinada. Los datos
desvelan una diferencia o falta de ajuste
entre la Normal y la dibujada por la variable.
No coinciden o se superponen.
SPSS tambin ofrece el contraste de
Lilliefors basado en el test de Kolmogorov
Smirnov, cuando las medias y las
varianzas son desconocidas:
Prueba de Normalidad para Ingresos Unidad
Familiar
Hiptesis nula: la poblacin de la que se ha
extrado la muestra es normal
El nivel de significacin indica la probabilidad de
equivocarnos cuando rechazamos la Ho y sta es
verdadera (error tipo I). (p<.05)
El valor obtenido es 0.257, que con 20 grados de
libertad presenta una significacin del 0.001. Por
lo que rechazamos que esa variable tenga una
distribucin normal, con una probabilidad de
equivocarnos del 0.0%
Modelos Multivariantes
39
Grfico Q-Q normal de INGRESOS
Valor observado
500000 400000 300000 200000 100000 0 -100000
N
o
r
m
a
l

e
s
p
e
r
a
d
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Transformaciones para la Normalidad
EL PROBLEMA ES QUE CUANDO TENEMOS
DISTRIBUCIONES NO NORMALES, entonces
no deberamos utilizar determinados test
estadsticos como, por ejemplo, la F de Snedecor.
As que deberamos adaptar o ajustar esta variable
a este requisito, mediante transformaciones
No obstante, antes de TRANSFORMACIONES
hemos de saber que la ausencia de normalidad
puede deberse a la violacin de otros
supuestos. Por ello, ANTES debemos comprobar
todos los supuestos multivariantes. Muchas veces,
remediar estos supuestos solucionan el problema
de la no normalidad.
Pero si no es as, entonces recurrimos a la
Transformacin de la distribucin
Modelos Multivariantes 40
Transformaciones de la distribucin
El ADE busca realizar transformaciones en las distribuciones para conseguir
cambios en la distribucin de las variables, para obtener modelos ms ajustados
4 tipos de Transformaciones sobre los datos observados:
1. Cambios lgicos originados por la Unin de Categoras para reducir la
amplitud de la variable. Uniendo unas categoras con otras, eliminando
categoras sin respuestas, convirtiendo variables de intervalo en ordinales o
nominales, creando variables ficticias o dummy, etc. (SPSS:
Transformar/Recodificar)
2. Transformaciones Lineales. Al sumar, restar, multiplicar o dividir los datos
originales por una contante no se cambia la distribucin, ni las distancias entre
valores, ni el orden porque es una combinacin lineal de los datos originales.
Con ello mejoramos la interpretacin sin generar cambios importantes en las
variables
Modelos Multivariantes 41
Transformaciones de la distribucin
3. Transformaciones algebraicas o no lineales monotnicas. Al aplicar
operaciones como la raz cuadrada, cbica, logaritmos. Cambian las distancias
entre los valores originales modificando la forma de la distribucin aunque
mantienen el orden.
Segn la funcin aplicada produciremos una DISPERSIN en una parte
de la distribucin. Su eleccin depender de dnde deseamos efectuar
dichos cambios
Tukey propone una escalera de las transformaciones donde se muestra
el tipo de transformacin ms conveniente atendiendo al grado de
asimetra de la distribucin original, y al lugar (izquierda o derecha)
donde se produce esa asimetra
Asimetra negativa se corrige mediante antilogaritmos
distribuciones asimtricas positivas se corrigen con races
cuadradas
4. Transformaciones no lineales no monotnicas: cambian las distancias y el
orden entre los valores. Son las ms difciles de utilizar porque cambian
totalmente la informacin original
Comprendiendo la distribucin utilizando
Medidas de Tendencia Central
Adems de representaciones grficas, los estadsticos univariantes completan el
conocimiento de la distribucin de una variable:
De Tendencia Central: moda, mediana y media
Error tpico de la media es la desviacin de la distribucin muestral del
estadstico. Se utiliza para calcular el valor de la media de la poblacin de la que
se han extrado los datos. Cuanto menor sea, mayor es la probabilidad de que un
estadstico extrado de una muestra aleatoria se acerque al valor poblacional
Intervalo de confianza para la media: Son los valores entre lo que se situar la
media en la poblacin, con un nivel de confianza del 95%
Media truncada o trimedia: media de los casos centrales de la distribucin
recortada al 5%, eliminando casos inferiores y superiores. Un estadstico ms
resistente porque elimina la influencia de posibles valores extremos
La mediana, el valor central de la distribucin. Por debajo y encima el 50%. La
distribucin normal es simtrica de modo que deben coincidir los valores de la
moda, media y mediana
Los cuartiles: valores que dividen la distribucin en cuatro partes iguales
Un percentil, es el valor de la variable que deja por debajo a un correspondiente
porcentaje de datos, y por encima el resto. Los percentiles 10, 20, 30., 90
reciben el nombre de deciles. Primer cuartil es el percentil 25.
Adems de la media truncada, otros estadsticos que no estn afectados por los
casos atpicos son los M-estimadores. Estimadores Robustos centrales
Modelos Multivariantes 43
Los M-estimadores reducen la influencia de los casos extremos ponderando cada
valor en funcin de su distancia al centro de la distribucin. Las observaciones
centrales se ponderan por el mximo valor (1) y el coeficiente de ponderacin
disminuye cuanto ms se aleje se encuentre reducindose as su contribucin en el
clculo del estadstico correspondiente. Pudiendo llegar a recibir, incluso, una
ponderacin nula (0).
La diferencia entre los M-estimadores est en el tipo de ponderacin:
Huber pondera con un valor de 1 todos los valores situados a menos de 1,339 de la
mediana. Se recomienda cuando la distribucin se acerca a la normalidad sin valores
extremos
Tukey y Andrews ponderan con un valor de 0 los valores situados a 4,385 y 4,2 de la
mediana. Se recomienda cuando hay valores extremos o atpicos
Hampel, utiliza tres coeficientes de ponderacin segn cada valor se encuentre a una
distancia de la mediana de 1,7; 3,4 y 8,5
Comprendiendo la distribucin utilizando
Medidas de Tendencia Central
Modelos Multivariantes
44
Reflejan el grado en el que los datos tienden a extenderse respecto a un valor
medio. Dos tipos de medidas de variabilidad:
1. Segn la amplitud de la escala en la que se distribuyen las puntuaciones
Rango o amplitud total: diferencia entre el valor ms alto y ms bajo. Muy
sensible a la presencia de valores atpicos y depende de los valores
extremos
Recorrido Intercuartlico: elimina estos problemas. Es la diferencia entre
el tercer y el primer cuartil. Es menos sensible a la presencia de datos
extremos
2. Segn la variacin producida entre todos los valores de la distribucin y un
ndice de tendencia central:
Desviacin media: promedio desviaciones absolutas respecto a la media
La varianza: media de los cuadrados de las desviaciones de los datos
Desviacin tpica: la raz cuadrada de la varianza. Es, sin duda, la ms
utilizada. (El 68.26% 1Sx; el 95,44% 2Sx; y el 99% entre 3Sx)
La mejor forma de saber si una desviacin tpica es alta o baja, es
calcular el cociente de la desviacin tpica entre la media. Una
puntuacin lejana de la unidad est indicando homogeneidad o escasa
diferenciacin
Comprendiendo la distribucin utilizando
MEDIDAS DE DISPERSIN O VARIABILIDAD
Modelos Multivariantes
45
Grado de Simetra: Hasta qu punto la median divide una
distribucin en dos partes con formas iguales
Asimetra positiva: muchas puntuaciones en la izquierda.
media > mediana
Asimetra negativa: muchas puntuaciones altas.
media < mediana
Otros estadsticos de asimetra ms robustos son los ndices de
simetra Yulle y Kelley
Kelley utiliza los deciles primero y noveno, que son sumados y
divididos entre dos. El valor resultante es restado de la mediana.
Un valor negativo significa una asimetra positiva (hacia la
derecha); es decir, el promedio de deciles supera la mediana
Comprendiendo la distribucin utilizando
MEDIDAS DE FORMA O ASIMETRA
Modelos Multivariantes
46
O Potenciar el uso de tcnicas grficas. Observar el grfico de la distribucin de
las variables proporciona informacin excelente
O Durante el Anlisis de los Datos, tenemos que detenernos en el anlisis de las
diferencias entre los datos reales y el ajuste del modelo (residuales). El EDA
tambin contribuye a reducir los residuos al mnimo y as encontrar el mejor
ajuste a los datos. Los residuales no siempre significan un error de prediccin
del modelo estadstico!!
O Utiliza transformaciones de los datos para conseguir modelos ms ajustados
O Cuestionar las propiedades de algunos estadsticos. En ocasiones stos
pueden resultar inservibles ante la presencia de datos alejados de la mayora
de los valores de la distribucin (ej. Media Aritmtica)
O Existen otros estadsticos ms robustos ante posibles desviaciones de los
supuestos modelos probabilsticos. Por ejemplo, la mediana y la amplitud
intercuartlica frente a la media y la varianza
EDA, Un cambio de actitud en el que
debemos

You might also like