You are on page 1of 34

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

02 - Estudio Exploratorio de
Datos: Univariable y
Multivariable
Despliegue de datos
Tablas de frecuencia e histogramas
Estadsticas bsicas
Distribucin normal y lognormal
Grfico de dispersin
Q-q plot
Coeficiente de correlacin
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Objetivos del Estudio
Exploratorio De Datos
Desplegar los datos en diferentes formas
Entender los datos: poblaciones estadsticas vs.
poblaciones geolgicas
Seleccionar poblaciones geolgicas
Decisin de estacionaridad
Identificar deriva en los datos
Asegurar la calidad de los datos
Resumir parte de la informacin contenida en los
datos
Familiarizarse con los datos y la geologa
Desagrupar datos para modelamiento geoestadstico
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Despliegue de Datos
Anlisis utilizando plantas y secciones
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Despliegue de Datos
Visualizacin en 3-D interpretacin
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Despliegue de Datos
Otras formas de desplegar los datos:
Mapas codificados con color
Mapas de indicadores (Deteccin de deriva en la
variable media mvil)
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Histogramas
Histograma: despliegue de
frecuencia de ocurrencia de
datos en clases
Histograma acumulado:
despliegue de la frecuencia
acumulada bajo un valor
de corte (que define una
clase)

Histograma
0
20
40
60
80
100
120
140
160
180
200
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
Clase
F
r
e
c
u
e
n
c
i
a
Histograma acumulado
0%
20%
40%
60%
80%
100%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
Clase
F
r
e
c
u
e
n
c
i
a

a
c
u
m
u
l
a
d
a
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Histogramas
Histogramas:
Computa el nmero de muestras en cada clase.
Ancho de clase suele ser constante la altura de cada
barra del histograma es proporcional a la frecuencia de la clase
Entrega estadsticas de las muestras (no de la poblacin)
Escala logartmica puede ser til
Media y varianza son muy sensibles a valores extremos
Mediana y rango intercuartil son medidas ms robustas
Cmo construirlo?
Dependiendo del nmero de muestras, escoger un nmero de
clases
Desplegar el rango importante de los datos (colas no se ven bien)
Desplegar estadsticas con un nmero razonable de decimales
F
r
e
c
u
e
n
c
i
a

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Histogramas
Histograma Acumulado:
Puede servir para distinguir poblaciones estadsticas
Puede utilizarse para comparar la distribucin de datos con
modelos paramtricos (normal / lognormal)
Se utiliza para transformar la distribucin de muestras a
cualquier otra distribucin deseada
Puede utilizarse para ver el efecto de compositar a un
determinado largo
Cuntas muestras vamos a cortar?
F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
d
a

1
0
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Histogramas
El histograma de frecuencias acumuladas no requiere definir un ancho
de clase; pueden crearse a la resolucin de los datos
Una valiosa herramienta descriptiva y usada para inferencia





Un cuantil es el valor de la variable que corresponde a una frecuencia
acumulada dada
primer cuartil = cuantil 0.25
segundo cuartil = mediana = cuantil 0.5
tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del grfico de frecuencia acumulativa
Se puede tambin leer los intervalos de probabilidad desde el grafico
de frecuencia acumulativa
0 2 4 6 8 10 12 14 16
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
G(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
0 2 4 6 8 10 12 14 16
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
G(z)
z
Histogramas
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Medidas de posicin:
Media
Mediana
Moda, mnimo y mximo
Rango
Cuartil inferior y superior
Deciles, percentiles y cuantiles: el cuantil p de la
distr. es el valor z
p
tal que p% de los datos esta
bajo z
p

+ =
+
+
impar es n si
2
)) ( ) ( (
par es n si ) (
1 ) 2 / ( 2 /
2 / ) 1 (
n n
n
u z u z
u z
M

=
=
n
u z
n
m
1
) (
1
o
o
du u z ) (
1
}
=
D
D

] 1 , 0 [ } { Prob ) ( e = s = p z Z z F
p p
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Medidas de dispersin:
Varianza
Desviacin estndar
Rango intercuartil
Coeficiente de variacin

=
=
n
m u z
n
s
1
2 2
) ) ( (
1
o
o
}
=
D
D
du u z
2 2
) ) ( (
1
o
2
s s =
2
o = o
1 3
Q Q IQR =
m
s
CV
. exp
=

o
=
. pobl
CV
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Yacimiento tipo prfido
cuprfero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Medidas de forma:
Coeficiente de asimetra (skewness)


Positivo Cercano a 0 Negativo
3
1
3
) ) ( (
n
1
asimetra de e Coeficient
s
m u z
n

=

=
o
o
Frec.
z(x)
m M
z(x)
Frec.
M
m
Frec.
z(x)
m M
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Coeficiente de aplanamiento (Kurtosis)



Da una idea del aplanamiento de la
distribucin (relacin entre altura y ancho
de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)

4
1
4
) ) ( (
n
1
to aplanamien de e Coeficient
s
m u z
n

=

=
o
o
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Normal
Propiedades:
Completamente definida por su media y
varianza
Tiene una descripcin matemtica concisa
Favorable para enfoques tericos de
estimacin
Funcin de densidad de probabilidad:

2
z
2
1
e
2
1
) z ( g
|
.
|

\
|
o

o t
=
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Normal
Estandarizacin:
Distribucin normal estndar N(0,1)


Funcin de distribucin acumulada:



corresponde al rea bajo la curva
o

=
z
y
2
2
y
e
2
1
) y ( g

t
=
}

=
y
dy ) y ( g ) y ( G
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Normal
Funcin de densidad
de probabilidad
Distribucion de
probabilidad
acumulada
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
0 2 4 6 8 10 12 14 16
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
G(z)
z
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Normal
Intervalos de confianza
68% 95%
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
68%
16% 16%
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
95 %
2.5% 2.5%
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Normal
-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(y)
y
90 %
0 2 4 6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Lognormal
Una poblacin es lognormal si los logaritmos de los
datos estn distribudos como una normal
Propiedades:
En Ciencias de la Tierra es comn encontrar variables cuya
distribucin es cercana a una lognormal
Relacin con la distribucin normal la hace fcil de utilizar
Tambin es favorable para enfoques tericos de estimacin
Funcin de densidad de probabilidad:

2
) z ln(
) z ln(
2
1
) z ln(
e
z
1
2
1
) z ( g
|
|
.
|

\
|
o
, | +

| +
| +

| +

o t
=
0 2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Distribucin Lognormal
0 2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
z
G(z)
0 2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grficos de Probabilidad
Q-q plot de una distribucin normal o
lognormal con la distribucin de las muestras
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grficos de Probabilidad
Son tiles para chequear la presencia de dos
poblaciones
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grficos de Probabilidad
Son tiles para chequear la presencia de dos
poblaciones
Debe confirmarse con informacin geolgica
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grfico de Dispersin
Anlisis bivariable
Pares deben corresponder a la misma
ubicacin en el espacio (co-localizados)
Grfico de Dispersin
0
0,5
1
1,5
2
2,5
3
0 0,5 1 1,5 2 2,5 3
Variable 1
V
a
r
i
a
b
l
e

2
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
El coeficiente de correlacin es una medida de la
dependencia lineal entre las dos variables



Una correlacin de |
XY
| = 1 implica que X e Y estn
perfectamente correlacionadas.
Independencia entre dos variables implica que el
coeficiente de correlacin es cero:
XY
= 0. Sin
embargo, la inversa no es siempre cierta. Correlacin
cero no implica necesariamente independencia entre
las dos variables.
Correlacin
2 1
2 1
Z Z
n
1
Z 2 Z 1
) m z )( m z (
n
1
o o

=

= o
o o
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Correlacin
Muy sensible a valores aberrantes
El coeficiente de correlacin cambia incluso
de signo
Correlacin con valor aberrante
= 0,73
X
Y
Correlacin sin valor aberrante
= -0,68
X
Y
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Correlacin
Diferentes
ejemplos de
coeficiente de
correlacin

Caso 1
= 1
X
Y
Caso 2
= 0,68
X
Y
Caso 3
= 0
X
Y
Caso 4
= 0
X
Y
Caso 5
= -0,87
X
Y
Caso 6
= -1
X
Y
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grficos de dispersin
Despliegue bivariable, estimado-verdadero, dos
variables, o la misma variable separada por algn
vector distancia (h-scatterplot)
El coeficiente de correlacin lineal vara entre -1 y +1
y es sensible a valores extremos (puntos fuera de la
nube principal)
El coeficiente de correlacin de posicin es un
complemento til:
si
rank
> entonces unos pocos outliers daan la que en
otro caso seria una buena correlacin
si
rank
< entonces unos pocos outliers mejoran la que en
otro caso seria una pobre correlacin
si
rank
= 1 entonces una transformacin no lineal de una
variable puede hacer = 1
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Q-q Plot
Grfico Q-Q: para comparar
dos distribuciones F1 y F2
cuantil a cuantil.

No se utiliza para comparar la
relacin par a par que hay
entre las variables.

Escoger una serie de valores de
probabilidad
p
k
, k = 1, 2, , K

Graficar q
1
(p
k
) versus q
2
(p
k
), k
= 1, 2, , K
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Q-q Plot
Si todos los puntos caen en una lnea de 45
o
, las dos
distribuciones son exactamente iguales
Si la lnea esta desplazada de los 45
o
, las dos
distribuciones tienen la misma forma pero diferentes
medias
Si la inclinacin de la lnea no es 45
o
, las dos
distribuciones tienen diferentes varianzas
Si hay un carcter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el
histograma

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Q-q Plot
Histogramas de ley DDH y ley por RC
Muestreo preferencial explica la diferencia. No son muestras
pareadas por lo que no podemos detectar sesgo en las
muestras
F
r
e
c
u
e
n
c
i
a

F
r
e
c
u
e
n
c
i
a

a
c
u
m
u
l
a
d
a

F
r
e
c
u
e
n
c
i
a

F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
d
a

Ley RC Ley DDH
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Q-q Plot
Leer los cuantiles correspondientes de los grficos de
distribucin de frecuencia acumulada en la pgina
anterior.
Trazar esos cuantiles en el grfico
Ley RC
L
e
y

D
D
H

You might also like