TEMA 1: TEMA 1: TEMA 1: TEMA 1

:
ANALISIS EXPLORATORIO DE ANALISIS EXPLORATORIO DE
DATOS MULTIVARIANTES DATOS MULTIVARIANTES
Resúmenes numéricos Resúmenes numéricos
DATOS MULTIVARIANTES DATOS MULTIVARIANTES
Resúmenes numéricos Resúmenes numéricos
Gráficos Gráficos multivariantes multivariantes
Distancias estadísticas Distancias estadísticas Distancias estadísticas Distancias estadísticas
Outliers Outliers multivariantes multivariantes
Ana Justel - 2011
1
Análisis Análisis exploratorio de datos exploratorio de datos multivariantes multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas Distancias estadísticas
Datos atípicos multivariantes.
Ana Justel - 2011
2
Univariantes
i d d i d d
Multivariantes
Bivariantes
Multivariantes
Tipo de datos Tipo de datos
Dicotómicos o binarios
Cualitativos o
categóricos
Politómicos
Dicotómicos o binarios
Nominales
Ordinales o
Tipo de datos Tipo de datos
Politómicos
Ordinales o
semicuantitativos
Discretos o discontinuos
Cuantitativos
Continuos
Ana Justel - 2011
3
Resúmenes núméricos de los datos Resúmenes núméricos de los datos
Para datos categóricos o discretos: Para datos categóricos o discretos:
Resúmenes núméricos de los datos Resúmenes núméricos de los datos
Para datos categóricos o discretos: Para datos categóricos o discretos:
Tabla de frecuencias
Para datos cuantitativos Para datos cuantitativos::
Medidas de posición media, mediana, moda, media recortada
ó í
Medidas de dispersión
varianza, desviación típica, rango,
rango intercuartílico, MEDA
Medidas de forma
Coeficiente de asimetría
Coeficiente de curtosis o apuntamiento
Medidas de asociación Coeficiente de correlación de Pearson
Ana Justel - 2011
4
Resumenes gráficos de los datos. Resumenes gráficos de los datos.
Para datos Para datos univariantes univariantes: :
Resumenes gráficos de los datos. Resumenes gráficos de los datos.
0
50
100
150
200
250
Diagrama de barras
Diagrama de sectores
Mapas estadísticos
Datos categóricos o discretos
Greatly A lot Something Little Nothing
p
Serie temporal
Histograma
120,00
130,56
g
Gráficos probabilísticos
Barras de error
Box-plot
Datos cuantitativos
40,00
60,00
80,00
100,00
363 64
538,46
1351,35
Di d b últi l
Box plot
Para datos Para datos multivariantes multivariantes: :
Datos categóricos o discretos
clorofila
0,00
20,00
110,51
126,67
363,64
Casos ponderados por nºcelulas
Diagrama de barras múltiple
Box-plot múltiple
Datos categóricos o discretos
Diagrama de dispersión
Matriz de diagramas de dispersión
Gráficos de estrellas y caras
Datos cuantitativos
Ana Justel - 2011
y
5
MATRIZ DE DATOS MATRIZ DE DATOS
Los DATOS DATOS consisten en observaciones de nn individuos individuos en los
que se miden pp características o variables características o variables, las mismas en todos.
Los datos se disponen ordenadamente en la MATRIZ DE MATRIZ DE DATOS DATOS
X(nxp)
Variables en columnas
I
n
Variables en columnas
|
|

|
p
x x x 
1 12 11
n
d
i
v
i
d
u
o
s
|
|
|

=
p
x x x
X
   

2 22 21
s

e
n

f
i
l
a
s
|
|
|
.

\
X
   
s
|
.

\
np n n
x x x 
2 1
x
ij
es el valor de la variable j para el individuo i
Ana Justel - 2011
6
Cuestiones importantes sobre la organización de los datos: Cuestiones importantes sobre la organización de los datos:
El formato debe ser compatible con los requerimientos del
p g p g
El formato debe ser compatible con los requerimientos del
software que se vaya a usar para el análisis.
EXCEL admite casi cualquier organización posible El problema EXCEL admite casi cualquier organización posible. El problema
está en cómo analizamos los datos con EXCEL!
El “Editor de Datos del SPSS” almacena los datos en una El Editor de Datos del SPSS almacena los datos en una
matriz que siempre tiene las variables en las columnas. Cada
fila contiene la información completa disponible sobre un
individuo individuo.
Cuando hay datos faltantes (“missing data”):
Se interpola el valor faltante.
Se elimina la variable para todos los individuos.
Se excluye del análisis al individuo.
Ana Justel - 2011
7
Ejemplo: Ejemplo: Medidas de cráneos de cocodrilos (alligator.txt)
Valores de 11 medidas físicas en un ejemplar de cada especie:
La matriz de datos es 44x11
Medida de la variable 6 en
el crocodrilo 3
Ana Justel - 2011
8
Ejemplo: Ejemplo: Calidad del aire en la ciudad de Madrid
Para establecer un “Ranking “Ranking de de calidad calidad del del aire” aire” por distritos en la
ciudad de Madrid disponemos de la información registrada en 19
estaciones de medición atmosférica, que proporcionan datos de C0,
SO2, NOX, P10 y O3.
12-5-09 9:00
CO
(mg/m3)
SO2
(µg/m3)
NOX
(µg/m3)
P10
(µg/m3)
O3
(µg/m3)
PLAZA DEL CARMEN 0,52 10,67 91,43 36,66 15,92
PLAZA ESPAÑA 0 87 13 37 157 76 72 75 17 08 PLAZA ESPAÑA 0,87 13,37 157,76 72,75 17,08
BARRIO DEL PILAR 0,35 7,58 37,47 35,03 19,55
MARAÑON 1,14 13,4 166,81 55,45 14,96
MARQUES DE SALAMANCA 0,79 12,66 135,1 51,55 13,5
ESCUELAS AGUIRRE 0,65 10,99 96,57 51,72 9,43
LUCA DE TENA 0,86 6,65 186,72 50,85 10,97
CUATRO CAMINOS 0,49 7,66 63,35 35,33 18,18
AVDA. RAMON Y CAJAL 0,36 11,03 66,87 35,63 9,54
MANUEL BECERRA 0,76 9,71 161,1 43,5 9,73
VALLECAS 0,48 8,46 72,42 38,85 7,6 VALLECAS 0,48 8,46 72,42 38,85 7,6
PLAZA FERNANDEZ LADREDA 0,49 9,59 106,28 36,85 1,64
ARTURO SORIA 0,57 11,2 143,47 44,42 10,97
GRAL.RICARDOS 0,50 13,55 49,89 64,8 9,47
Pº EXTREMADURA 0,69 10,95 114,09 61,54 8,93
MORATALAZ 0 59 11 55 72 49 38 75 11 46 MORATALAZ 0,59 11,55 72,49 38,75 11,46
ISAAC PERAL 0,50 14,71 117,57 30,7 4,65
Pº PONTONES 0,60 10,91 170,42 83,31 7,37
SANTA EUGENIA 0,35 0,7 41,31 29,16 17,18
Ana Justel - 2011
9
Ejemplo: Ejemplo: Lirios (iris.txt)
En 1936, el biólogo y estadístico Sir R.A. Fisher, recopila los datos
de 150 lirios para cuantificar la variación geografica de estas flores
l P í l d G é C d en la Península de Gaspé, Canada.
La muestra contiene 50 lirios de cada una de
las t es especies i is setosa setosa i is e sicolo e sicolo e las tres especies: iris setosa setosa, iris versicolor versicolor e
iris virginica virginica. Para cada flor se mire el anco y
el largo del pétalo y el sépalo, en
í centrímetros.
La matriz de
datos es 150x4
Ana Justel - 2011
10
datos es 150x4
Análisis Análisis exploratorio de datos exploratorio de datos multivariantes multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Ana Justel - 2011
11
Resumen numérico de datos Resumen numérico de datos multivariantes multivariantes: : Posición Posición
VECTOR DE MEDIAS MUESTRAL: VECTOR DE MEDIAS MUESTRAL:
|
|

|
x
|
|
|
|

|
=
x
x
X
2
1
es la media muestral
de la variable X :
j
x
|
|
|
.

\
=
p
x
X

de la variable X
j
:
¿
=
=
n
i
ij j
x
n
x
1
1
. \
p
= i
n
1
Es un vector de dimensión p x 1.
El vector de medias muestral es
el centro de la nube de puntos en
dimensión p
Media de la variable x
2
dimensión p.
Media de la variable x
1
Ana Justel - 2011
12
Resumen numérico de datos Resumen numérico de datos multivariantes multivariantes: : Dispersión y forma Dispersión y forma
MATRIZ DE COVARIANZAS: MATRIZ DE COVARIANZAS:
|
|
|

|
p
s s s
s s s


1 12 11
es la varianza muestral
de la variable X :
jj
s
|
|
|
|

=
p
s s s
S
   

2 22 21
de la variable X
j
:
¿
=
÷ = =
n
i
j ij j jj
x x
n
s s
1
2 2
) (
1
|
|
.

\
pp p p
s s s 
2 1
es la covarianza muestral
jk
s
S contiene las varianzas varianzas en la
es la covarianza muestral
entre las variables X
j
y X
k
:
¿
÷ ÷ =
n
k ik j ij jk
x x x x s ) )( (
1
jk
S contiene las varianzas varianzas en la
diagonal y todas las covarianzas covarianzas
en el resto de los elementos
(medidas de asociación lineal
¿
= i
k ik j ij jk
n
1
) )( (
(medidas de asociación lineal
entre dos variables).
S es siempre una matriz cuadrada y simétrica p x p
Ana Justel - 2011
13
S es siempre una matriz cuadrada y simétrica p x p
Resumen numérico de datos Resumen numérico de datos multivariantes multivariantes: : Dispersión y forma Dispersión y forma
La covarianza depende de las unidades de medida. Para medir el
grado de asociación lineal entre dos variables es más habitual grado de asociación lineal entre dos variables, es más habitual
usar el coeficiente de correlación de Pearson y la MATRIZ DE
CORRELACIONES R:
|
|
|

|
1
1
1 12

p
r r
|
|
|
|

=
1
2 21
   

p
r r
R
es la correlación muestral
jk
r
|
|
.

\
1
2 1

p p
r r
es la correlación muestral
entre las variables X
j
y X
k
:
jk
jk
s
r =
jk
k j
j
s s
El coeficiente de correlación no depende de las unidades de medida El coeficiente de correlación no depende de las unidades de medida.
Toma valores entre -1 y 1.
El signo indica si la relación es positiva o negativa.
Ana Justel - 2011
14
Resumen numérico de datos Resumen numérico de datos multivariantes multivariantes: : Dispersión y forma Dispersión y forma
Ejemplo: Ejemplo: Ocho conjuntos de datos con coeficiente de correlación
r = 0.70 (Chambers et al., 1983). ( , )
AA
BB CC
DD
EE
FF
GG
HH
Ana Justel - 2011
15
Ejemplo Ejemplo: : Lirios
ÓÓ Matrices de COVARIANZA y CORRELACIÓN: Matrices de COVARIANZA y CORRELACIÓN:
Ana Justel - 2011
16
Ejemplo: Ejemplo: Salida de SPSS para descriptivos multivariantes Ejemplo: Ejemplo: Salida de SPSS para descriptivos multivariantes
Ana Justel - 2011
17
Ejemplo: Ejemplo: Gases contaminantes (pollution.txt) j p j p (p )
Ana Justel - 2011
18
Análisis Análisis exploratorio de datos exploratorio de datos multivariantes multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Herramientas gráficas que nos ayudan a estudiar las Herramientas gráficas que nos ayudan a estudiar las
relaciones entre variables (forma, fuerza, etc.), a
identificar grupos, y detectar outliers.
Ana Justel - 2011
19
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Barras de error Barras de error
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Media + 2 desviaciones Media + 2 desviaciones típicas típicas
oo
+ 2 tí i ( /√ ) + 2 tí i ( /√ ) + 2 errores típicos (s/√n) + 2 errores típicos (s/√n)
Media Media
95% de los datos 95% de los datos
Media Media -- 2 desviaciones 2 desviaciones típicas típicas
oo
-- 2 errores típicos (s/√n) 2 errores típicos (s/√n)
•• La desviación típica es muy sensible a los datos atípicos La desviación típica es muy sensible a los datos atípicos
•• Siempre es un gráfico simétrico Siempre es un gráfico simétrico
•• Es una buena herramienta cuando los datos son normales Es una buena herramienta cuando los datos son normales
Ana Justel - 2011
•• Es una buena herramienta cuando los datos son normales Es una buena herramienta cuando los datos son normales
20
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Diagrama de cajas o Diagrama de cajas o Boxplot Boxplot
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
1. Ordenar la muestra
2. Calcular la mediana, el
primer y el tercer cuartil primer y el tercer cuartil
3. Calcular el rango
intercuartílico intercuartílico
Ana Justel - 2011
21
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
¿ Box ¿ Box- -plot o barra de error ? plot o barra de error ?
UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN
DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES
C. NUÑO, C. DE HOYOS, A. JUSTEL
12,50
Óptimos y rangos de tolerancia
de especies fitoplactónicas
5,00
7,50
10,00
En la mayor parte de los casos la
barra de error y el box-plot dan
el mismo resultado
clorofila
0,00
2,50
Casos ponderados por nºcelulas
100,00
120,00
1351,35
130,56
Algunas especies no son
id d i di d
40,00
60,00
80,00
126 67
363,64
538,46
consideradas indicadoras
debido al amplio rango de
tolerancia (barra de error)
Si utilizamos la mediana y el
clorofila
0,00
20,00
110,51
126,67
Casos ponderados por nºcelulas
Si utilizamos la mediana y el
rango intercuartílico pasan a
ser especies indicadoras
Ana Justel - 2011
22
Box Box- -plot plot múltiple múltiple
Se usa para comparar:
bl d f
pp pp
Una variable en grupos diferentes.
Varias variables solo cuando las unidades de medida
son “compatibles”
Ejemplo: Ejemplo: Impacto humano en los suelos antárticos (Tejedo et al. 2005)
son compatibles .
j p j p p ( j )
Ana Justel - 2011
23
Box Box- -plot plot múltiple múltiple pp pp
Ejemplo: Ejemplo: Predicción
meteorológica
Predicción meteorológica: Predicción meteorológica:
En cada diagrama de cajas En cada diagrama de cajas
múltiple se muestra para una
característica meteorológica,
las predicciones con distintos las predicciones con distintos
modelos (individuos) en
distintos días (variables)
Ana Justel - 2011
24
Box Box- -plot plot múltiple múltiple pp pp
Ejemplo: Ejemplo: Predicción meteorológica
Ana Justel - 2011
25
Box Box- -plot plot múltiple múltiple
Ejemplo: Ejemplo: Concentración de nitratos por uso del suelo y alcantarillado.
pp pp
Ana Justel - 2011
26
Diagrama de dispersión ( Diagrama de dispersión (scatterplot scatterplot))
Ilustra sobre cómo es la relación entre dos variables (la forma y la
fuerza de la relación) Los datos son pares de medidas para cada
g p ( g p ( pp ))
fuerza de la relación). Los datos son pares de medidas para cada
individuo.
Relación lineal
R
2
= 0.69
0.3
0.4
d


R
2
= 0.69
0.3
0.4
d


Relación lineal
R 0.69
0.0
0.1
0.2
o
n
-
I
n
f
e
r
r
e
d
o
r
o
p
h
y
l
l
R 0.69
0.0
0.1
0.2
o
n
-
I
n
f
e
r
r
e
d
o
r
o
p
h
y
l
l
-0.3
-0.2
-0.1
h
y
t
o
p
l
a
n
k
t
o
A
d
j
.
C
h
l
o
-0.3
-0.2
-0.1
h
y
t
o
p
l
a
n
k
t
o
A
d
j
.
C
h
l
o
-0.5
-0.4
0 0.5 1 1.5 2 2.5
P
h
-0.5
-0.4
0 0.5 1 1.5 2 2.5
P
h
Log Chlorophyll (µg/l) Log Chlorophyll (µg/l)
Ana Justel - 2011
27
Diagrama de dispersión ( Diagrama de dispersión (scatterplot scatterplot))
El interés principal se centra en analizar si la relación es lineal o
curva, si los datos presentan una estructura de grupos
g p ( g p ( pp ))
, p g p
separados, o si la variabilidad es o no constante a lo largo de
todo el rango de valores.
Ana Justel - 2011
28
Diagrama de dispersión (scatterplot) Diagrama de dispersión (scatterplot)
Para más de dos dimensiones:
g p ( p ) g p ( p )
Matriz de diagramas de Matriz de diagramas de
dispersión dispersión
Scatterplot Scatterplot 3 3--dimensional dimensional
Datos de calidad de aguas
Impacto humano en los suelos
antárticos (Tejedo et al. 2005)
Ana Justel - 2011
29
Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Se construye una cuadrícula con tantas filas y columnas como variables.
En la diagonal se da información de cada una de las variables.
En el resto de casillas se construyen los gráficos de dispersión entre
Todos los gráficos de la misma FILA
En el resto de casillas se construyen los gráficos de dispersión entre
todos los pares de variables.
Use level Use level
Todos los gráficos de la misma FILA
comparten la misma variable en el
EJE VERTICAL (la que se indique
en l di gon l)
Use level
X
1
X
1
Resistance to compre Resistance to compre
en la diagonal)
Todos los gráficos de la misma
Resistance to compre
X
2
COLUMNA comparten la misma
variable en el EJE HORIZONTAL (la
que se indique en la diagonal)
2
Apparent density Apparent density
que se indique en la diagonal)
Informa de cómo son las relaciones
entre variables, pero sólo dos a dos,
Apparent density
X
3
X
3
entre variables, pero sólo dos a dos,
no se puede saber como son todas
las relaciones.
L t i i ét i l di l j
Ana Justel - 2011
30
La matriz es simétrica, la diagonal es como un espejo.
Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Ejemplo: Ejemplo: Lirios
Ana Justel - 2011
31
Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Ejemplo: Ejemplo: Lirios
Ana Justel - 2011
32
Gráfico de estrellas Gráfico de estrellas
Cada individuo se representa en una estrella, con tantos rayos o
ejes como variables queramos representar.
Cada eje representa el valor de la variable re-escalada de manera
independiente entre variables. Para re-escalar se utilizan todos los
datos. En todas las estrellas se usa siempre el mismo eje para
representar la misma variable.
El eje j en la estrella del individuo El eje j en la estrella del individuo
i depende de x
ij
(en valor
absoluto o relativo)
Para facilitar la inspección
l visual que nos permita
distinguir entre individuos, se
suelen representar
Composición de aguas
basálticas.
p
características similares en
rayos próximos.
Ana Justel - 2011
33
Gráfico de estrellas Gráfico de estrellas
MEDIAS POR ESPECIES MEDIAS POR ESPECIES
Ejemplo: Ejemplo: Medidas de cráneos de cocodrilos
Conclusión: Hay cocodrilos grandes y pequeños de todas las especies,
así que el tamaño no sirve para distinguir unas especies de otras así que el tamaño no sirve para distinguir unas especies de otras.
Usando todas las medidas de los cráneos a la vez parece que
podremos distinguir bastante bien si un cocodrilo es de la especies cn cn y
cp cp o de las op op y am am pero no podremos distinguir bien entre las cuatro
Ana Justel - 2011
34
cp cp o de las op op y am am, pero no podremos distinguir bien entre las cuatro.
Gráfico de estrellas Gráfico de estrellas
Ejemplo: Ejemplo: Lirios
Ana Justel - 2011
35
Gráfico de estrellas Gráfico de estrellas
Ejemplo: Ejemplo: Producción de investigación por disciplinas en países.
Ana Justel - 2011
36
Gráfico de caras de Gráfico de caras de Chernoff Chernoff
Es como un gráfico de estrellas, pero cada individuo ahora se
representa en una CARA y las variables en los rasgos físicos.
Variables en
1.- Tamaño de la cara, 1. Tamaño de la cara,
2.- Forma de la cara,
3.- Tamaño de la nariz,
4 Posición de la boca 4.- Posición de la boca,
5.- Tamaño de la sonrisa
6.- Grosor de la boca,
7 P i ió d l j 7.- Posición de los ojos,
8.- Separación de los ojos,
9.- Inclinación de los ojos,
10.- Tamaño de los ojos
11.- Forma de los ojos
Ana Justel - 2011
37
Gráfico de caras de Gráfico de caras de Chernoff Chernoff
Ejemplo: Ejemplo: Producción de investigación por disciplinas en países.
Ana Justel - 2011
38
Análisis Análisis exploratorio de datos exploratorio de datos multivariantes multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas. Distancias estadísticas.
Ana Justel - 2011
39
Distancias estadísticas Distancias estadísticas
¿
p
Distancia euclidea
Distancias estadísticas Distancias estadísticas
¿
=
÷ =
j
kj ij k i E
x x x x d
1
2
) ( ) , (
Distancia de Manhattan (o city block)
¿
=
p
x x x x d ) (
Di t i d Mi k ki
¿
=
÷ =
j
kj ij k i CB
x x x x d
1
) , (
Distancia de Minkowski
r
p
r
kj ij k i CB
x x x x d
/ 1
) , (
|
|
.
|

\
|
÷ =
¿
Distancia de Mahalanobis
j
kj ij k i CB
1
) (
|
.

\
¿
=
) ( )' ( ) , (
1
k i k i k i M
x x S x x x x d ÷ ÷ =
÷
Ana Justel - 2011
40
Distancias estadísticas Distancias estadísticas Distancias estadísticas Distancias estadísticas
Intuitivamente es la distancia más
natural, la línea recta!. natural, la línea recta!.
Problema de la distancia euclídea:
No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad
d
E
(A,0)=d
E
(B,0)
d (A 0)=d (B 0)
Ana Justel - 2011
41
d
E
(A,0) d
E
(B,0)
Distancias estadísticas Distancias estadísticas
Para resolver este problema podemos estandarizar los datos por
columnas para evitar el efecto de la escala A continuación se calcula
Distancias estadísticas Distancias estadísticas
columnas para evitar el efecto de la escala. A continuación se calcula
la distancia euclídea.
¿
|
|
|

|
÷
p
kj ij
x x
x x d
2
) (
¿
=
|
|
.

\
=
j
j
j j
k i SE
s
x x d
1
) , (
Problema de la distancia euclídea:
No tiene en cuenta la correlación No tiene en cuenta la correlación
d
E
(A
stnd
,0) >> d
E
(B
stnd
,0)
d
E
(A
stnd
,0) = = d
E
(B
stnd
,0)
Ana Justel - 2011
42
Distancias estadísticas Distancias estadísticas
Distancia de Mahalanobis
) ( ) ( ) (
1
d
Distancias estadísticas Distancias estadísticas
) ( )' ( ) , (
1
x x S x x x x d
M
÷ ÷ =
÷
Consiste en sustituir la matriz D que sólo tiene información de
las varianzas por la matriz S de varianzas-covarianzas
d
M
(A,0) > > d
M
(B,0)
Geométricamente equivale a girar la
nube de puntos hasta eliminar las
correlaciones y luego calcular la y g
distancia para los datos estandarizados
La distancia de Mahalanobis es adimensional
Es la distancia más estadística, la que
tiene en cuenta la relación estadística tiene en cuenta la relación estadística
entre las variables.
Ana Justel - 2011
43
Análisis Análisis exploratorio de datos exploratorio de datos multivariantes multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas. Distancias estadísticas.
Datos atípicos multivariantes.
Ana Justel - 2011
44
Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos)
Los outliers son observaciones con valores muy diferentes del
resto de los datos de la muestra.
o Errores de medida o registro.
o Observaciones procedentes de una población diferente de
l d l í d l d la de la mayoría de los datos
o Un caso raro de una población en la que se pueden dar
valores alejados aunque con baja probabilidad. j q j p
Cuando aparecen outliers:
1 Verificar que no se ha cometido ningún error obvio en la 1. Verificar que no se ha cometido ningún error obvio en la
transcripción, en la posición de los decimales, etc.
2. Si es posible, procesar de nuevo la muestra en el laboratorio.
3 Tomar logaritmos o hacer alguna otra transformación que 3. Tomar logaritmos o hacer alguna otra transformación que
simetrice los datos.
4. Utilizar procedimientos resistentes a los outliers (medianas
l d di t t d l d t t t t ) en lugar de medias, test de rangos en lugar de test t, etc.)
Los outliers no se deben descartar por el sólo hecho de que
parezcan datos raros
Ana Justel - 2011
45
parezcan datos raros.
Los outliers no se deben descartar por el sólo hecho de que
Los Los outliers outliers en la historia del “agujero de la capa de ozono” en la historia del “agujero de la capa de ozono”
Los outliers no se deben descartar por el sólo hecho de que
parezcan datos raros.
Los Los outliers outliers en la historia del agujero de la capa de ozono en la historia del agujero de la capa de ozono
de la Antártida: de la Antártida:
Durante aproximadamente 10 años antes del
descubrimiento del agujero en 1985 por Farman descubrimiento del agujero en 1985 por Farman,
Gardiner y Shanklin a partir de observaciones in
situ, los satélites estuvieron registrando los datos
d l A tá tid ¿Có f ibl ¿Có f ibl de ozono en la Antártida. ¿Cómo fue posible que ¿Cómo fue posible que
no detectaran el agujero? no detectaran el agujero?
Las concentraciones de ozono registradas por los
satélites eran tan bajas que el software los
consideraba como valores extremos “imposibles”, consideraba como valores extremos imposibles ,
¡¡¡y los descartaba!!!. Así, todos estos datos
inusuales no fueron vistos ni estudiados por los
científicos mientras el agujero seguía creciendo
Si se eliminan los outliers, el riesgo al que nos enfrentamos es
al de que solo veamos lo que esperamos ver.
científicos, mientras el agujero seguía creciendo.
Ana Justel - 2011
46
al de que solo veamos lo que esperamos ver.
Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos
Examinar los estadísticos de resumen (n, media, min, max,
etc ) y comprobar que no hay nada “irregular” etc.) y comprobar que no hay nada irregular .
¿Dónde están
los datos?
¿Es un valor
poco realista?
Actuación: corregir los errores en los datos en bruto Actuación: corregir los errores en los datos en bruto.
Ana Justel - 2011
47
Detección de outliers Detección de outliers
En datos En datos univariantes univariantes: : Se asume que
Detección de outliers Detección de outliers
En datos En datos univariantes univariantes: : Se asume que
los datos vienen de una normal y,
para comprobar si un dato es outlier
se calcula su valor tipificado se calcula su valor tipificado
eliminándolo del cálculo de la media y
la desviación típica. El dato será un
d d l b
-2 2
Dato tipificado
candidato a outlier si obtenemos un
valor fuera del rango [-2,2].
Dato tipificado
En datos En datos multivariantes multivariantes: Los outliers
pueden ser por una combinación
inusual de los valores de varias inusual de los valores de varias
variables. Para comprobar si un dato
es outlier se calcula la distancia de
Mahalanobis del dato al centro del Mahalanobis del dato al centro del
grupo formado por el resto de los
datos.
Ana Justel - 2011