You are on page 1of 45

ANLISIS GEOESTADSTICO

Origen de la Geoestadstica Geoestadstica: definicin y objeto Datos geogrficos y anlisis estadstico Conceptos bsicos de Estadstica Tcnicas bsicas de Estadstica para el Anlisis Exploratorio de Datos

Concepcin Gonzlez Garca (2008)


Imagen de la NASA

Origen de la Geoestadstica Geoestadstica (i) La Geoestadstica tiene su origen en la bsqueda, exploracin y evaluacin de yacimientos minerales tiles. Se ha consolidado y desarrollado en los ltimos 30 aos como ciencia aplicada casi exclusivamente en el campo minero. La gran diversidad de formas en que se presentan los datos ha llevado a la utilizacin de tcnicas matemticas y estadsticas para resolver un nico problema: estimar

valores desconocidos a partir de los conocidos, para l estimacin la ti i y caracterizacin t i i de d l los recursos y reservas.

Origen de la Geoestadstica Geoestadstica (ii) Las investigaciones han buscado los mtodos ms eficientes que proporcionen la mayor informacin posible d l de los d datos di disponibles. ibl Mediante el mejor estimador que minimice la varianza del error de estimacin (error cuadrtico medio) surge la Geoestadstica por los trabajos de G. Matheron en la Escuela Superior de Minas de Pars (1949) Entre los mtodos ms recientes se pueden citar los geomatemticos: El Inverso de la Distancia, g Splines, p etc. Triangulacin,

Origen de la Geoestadstica Geoestadstica (antecedentes) Sichel (1947), (1947) 1949) observ la naturaleza asimtrica de la distribucin del contenido de oro en las minas surafricanas, f , la equipar q p a una distribucin de probabilidad lognormal y desarroll las frmulas bsicas para esta distribucin. D.G. Krige (1951) desarroll la aplicacin del anlisis de g entre muestras m y bloques q de mena m (Mineral regresin

metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).

De la minera, , las tcnicas geoestadsticas, g , se han exportado a ms campos como la hidrologa, fsica del suelo, ciencias de la tierra y ms recientemente a la gestin i ambiental bi l y al l procesado d d de i imgenes d de satlite. li

Geoestadstica : D fi i i y Obj Definicin Objeto t (i)

La geoestadstica es una rama de la estadstica que trata f fenmenos espaciales i l (J (Journel l&H Huijbregts, ijb t 1978) 1978). Su inters primordial es la estimacin, estimacin prediccin y simulacin de dichos fenmenos (Myers, 1987). Se reconoce como una rama de la estadstica tradicional, que parte de la observacin de que la variabilidad o continuidad i id d espacial i ld de l las variables i bl di distribuidas ib id en el l espacio tienen una estructura particular que se estudia mediante las depencias entre ellas ellas.

Geoestadstica : D fi i i y Obj Definicin Objeto t (ii) > Matheron (1970) denomin a estas variables dependientes p entre si, variables regionalizadas, adems de elaborar su teora. [Journel y Huijbregts (1978), David (1977) y de Fouquet (1996)]. En resumen, la aplicacin de la teora de los procesos estocsticos a los problemas de evaluacin de reservas de distintos tipos de materias primas minerales y en general a las ciencias naturales en el anlisis de datos distribuidos espacial y temporalmente dio origen a lo que hoy se conoce como Geoestadstica.

D t s geogrficos Datos fi s y anlisis lisis estadstico st dsti

Los SIG actuales incluyen y posibilidades p de exploracin p y anlisis de datos. Las tcnicas L i ms elementales l l son de d Estadstica E d i descriptiva (Anlisis Exploratorio de Datos, EDA). La Estadstica Descriptiva: para una, dos y hasta 3 variables, i bl permite i resumir i conjuntos j d de valores l y visualizar estructuras de distribuciones de probabilidad.

D t s geogrficos Datos fi s y anlisis lisis estadstico st dsti

Caractersticas de los datos geogrficos: en un punto, t adems d de d sus coordenadas, d d se di dispone d de informacin multivariante (altitud, precipitacin, profundidad del suelo suelo, tipo de vegetacin vegetacin,) ) El denominado Anlisis exploratorio espacial de datos (ESDA), es una ampliacin y desarrollo del EDA. El ESDA incluye, junto a tcnicas exploratorias, muchas ideas tomadas del Anlisis espacial o Estadstica espacial.

Datos geogrficos y anlisis estadstico

Existen algunas dificultades fundamentales para que las tcnicas estadsticas convencionales manejen correctamente datos geogrficos: El empleo de las Tcnicas clsicas de Inferencia Estadstica, suponen, en los datos de partida : > la l independencia d d d l de las observaciones b > la distribucin en curva de Gauss (distribucin Normal) lo cual a menudo no se cumple p en datos geogrficos. g g f

Conceptos p bsicos de Estadstica Revisin de Tcnicas estadsticas Muestreo M t y anlisis li i Exploratorio E l t i d de datos d t Conceptos de Inferencia Estadstica paramtrica: Una variable: Estimador, propiedades, intervalos de confianza y tests de hiptesis. Dos ms variables: modelos lineales (regresin, Anlisis de la varianza) Conceptos de procesos estocsticos (variables dependientes, medidas de dependencia espacial)

Conceptos p bsicos de Estadstica Muestreo y anlisis Exploratorio de datos Poblacin (Universo) y Muestra. Muestreo (Obtencin de datos) Variables y tipos Antes de comenzar un estudio geoestadstico se deben discutir todos los elementos que aporten conocimientos del problema a resolver, fenmeno en estudio, estud o, organizacin y verificacin de la informacin disponible y finalmente realizar el anlisis exploratorio de los datos.

Conceptos p bsicos de Estadstica

Poblacin estadstica o universo es el conjunto de referencia sobre el cual van a recaer las observaciones. Muestra: es el subconjunto de la poblacin en el que se mide una o ms variables de inters. inters -a partir de este subconjunto se obtienen conclusiones sobre las caractersticas de la poblacin. p - la muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la poblacin. bl i Unidad muestral: elementos de la poblacin, no solapados en los que
se mide. Cada elemento de la poblacin pertenecer a una y slo una unidad muestral.

Estadstica bsica Tipos de muestras Muestra probabilstica: se elige mediante ciertas reglas de manera que la probabilidad de seleccin de reglas, cada unidad es conocida de antemano. Muestra no probabilstica: no se rige por las reglas matemticas de la probabilidad. en las muestras probabilsticas es posible calcular la magnitud del error muestral, muestral no es factible hacerlo en el caso de las muestras no probabilsticas (puntos p p de fcil acceso, estaciones de medicin de la calidad del aire en una ciudad)

Estadstica bsica Mtodos de muestreo Muestreo aleatorio simple: todos los componentes o unidades de la p poblacin tienen la misma m m probabilidad p de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.

Representacin grfica del muestreo aleatorio simple

Estadstica bsica Mtodos de muestreo Muestreo sistemtico:


Se selecciona al azar un punto de partida y un intervalo muestral. muestral As si el punto de partida fuera el 11 y el intervalo el 6 se elegiran el 11, 16, 21, 16 hasta recorrer toda la poblacin.

Representacin grfica del muestreo sistemtico

Estadstica bsica Mtodos de muestreo Muestreo estratificado (i): -la l poblacin bl i en estudio t di se subb divide di id en estratos t t o subpoblaciones que tienen cierta homogeneidad en el terreno y en cada estrato se realiza un muestreo aleatorio simple (o sistemtico). -requisito requisito principal para aplicar este mtodo de muestreo: conocimiento previo de informacin que permita subdividir la poblacin,
Por ejemplo: divisin que se puede realizar con base en la topografa, los horizontes del suelo, suelo la mancha del contaminante contaminante, los cambios de color en el suelo, el crecimiento irregular de las plantas, etc.

Estadstica bsica Mtodos de muestreo Muestreo estratificado (ii): - garantiza ti que l los puntos t d de muestreo t se encuentren t repartidos ms uniformemente en toda la zona en funcin del tamao del estrato; - permite conocer de forma independiente las caractersticas t ti particulares ti l d de cada d estrato t t
-recomendable recomendable para reas mayores de diez hectreas y cuando el terreno no es homogneo (Mason 1992, Valencia y Hernndez 2002).

Estadstica bsica Mtodos de muestreo

Esquemas de tipos de muestreo:


a) ) aleatorio simple; mp ; b) aleatorio estratificado; c) sistemtico rejilla rectangular; d) sistemtico rejilla polar

Estadstica bsica Otros Mtodos de muestreo

Muestreo por conglomerados


En poblaciones E bl i muy extensas, t d d la donde l localizacin l li i y medicin de la muestra seleccionada supone grandes desplazamientos se suelen agrupar las unidades elementales en conglomerados o unidades primarias
C Caractersticas t ti del d l conglomerado l d :

> Conjunto de unidades muestrales elementales. > Heterogeneidad de la variable a medir > El nmero total de conglomerados en la poblacin es conocido

Estadstica bsica Muestreo por conglomerados C Caractersticas: t ti


Divisin previa de la poblacin en conglomerados o reas convenientes, de las cuales se selecciona un cierto nmero convenientes para la muestra

Ventajas: Ahorro de costes y tiempo al efectuar visitas a las unidades seleccionadas. Disminucin de necesidad de desplazamientos al concentrar unidades elementales. elementales Inconvenientes: Menor precisin M i i en l las estimaciones, ti i sobre b t todo d con conglomerados de gran tamao

Conceptos de Estadstica bsica Diferencias entre tipos de muestreo


ALEATORIO ESTRATIFICADO CONGLOMERADOS

(Adaptado de Pea, 2001

Estadstica bsica Variables y Tipos de variables Variable: cada una de las caractersticas de los elementos de una poblacin y que varan de una unidad a otra. Variables cualitativas (o categricas): aquellas que no tienen medida numrica; se representan p por p categoras o atributos (tipo de suelo, de vegetacin, textura,). Variables cuantitativas: las que pueden expresarse numricamente (temperatura, precipitacin, profundidad suelo, altitud, pendiente, p p .)

Estadstica bsica Variables cuantitativas Variables discretas: son el resultado de contar y slo toman valores enteros (nmero de puntos, de cuadrculas, de pxeles). Variables continuas: son el resultado de medir, y pueden contener decimales (temperatura, (temperatura profundidad, altura). Se pueden subdividir a voluntad. Pueden tomar, tomar entonces, entonces cualquier valor de un determinado intervalo

Estadstica bsica Estadstica Descriptiva Objetivo: conocer la informacin disponible. Clculos Cl l estadsticos d i o estadstica d i descriptiva. d i i Permiten determinar si la distribucin de los datos es normal lognormal, normal, lognormal o si no se ajustan a una distribucin estadstica conocida. Implica tener conocimiento de: Nmero de casos: representado por n, es el nmero de valores muestreados del fenmeno en estudio los datos representados por xi estudio, xi, i = 1 1, . . . , n n. Frecuencia de cada xi n de veces que aparece el mismo valor medido.

Estadstica bsica Distribuciones de frecuencias Los valores de cada xi medidos y su frecuencia de aparicin p en los n datos se conoce como m la distribucin de la variable estudiada. Valores resumen: Medidas de posicin Media: Es la media aritmtica de la distribucin,

1 n xi xn = n i =1

Estadstica bsica Valores resumen: Medidas de posicin Moda: Es el valor ms frecuente de la distribucin Mediana: Es el valor para el cual la mitad de los d t son menores y la datos l otra t mitad it d estn t por encima i de d este valor. La mediana es tambin llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la mediana di como. X(n+1)/2 si n es impar. M = (Xn/2 + Xn/2+1)/2 si n es par.

Estadstica bsica V l Valores resumen: Medidas M did de d posicin i i Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y Q3 = percentil 75. Deciles si los datos se dividen en 10. De forma general estas medidas se pueden calcular por: [p(n+1)/100] sima observacin de los datos ordenados ascendentemente, , donde p es el p percentil que se desea calcular.

Valores resumen: Medidas de posicin

Interpretacin de los Cuartiles


Se forman cuatro g grupos p con igual g cantidad de datos
Un cuarto de los datos toman valores iguales o inferiores a 2,2 La mitad de los datos (dos cuartos) toman valores iguales o inferiores a 3,6 3 6 Tres cuartos de los datos toman valores iguales o inferiores a 7,6

Q2= Me=3,6 Q1=2,2 =2 2 xmin=1,1

Q3=7,6 Rango Intercuartil RI=Q3-Q1

xmax=9,9

Escala graduada de la variable en estudio

10

Estadstica bsica Valores resumen: Dispersin Rango de la distribucin: Es la diferencia entre el valor
mximo y el mnimo observados.

Varianza: Describe la variabilidad de la distribucin. Es la


medida de la desviacin o dispersin de la distribucin.

2 n 1

1 n = n 1 i=1

(xi x n )

Se divide por (n-1) y no por n y se representa por S2 cuando se calcula con una muestra observada porque proporciona mejor estimacin i i de d la l varianza i de d la l poblacin. bl i (estimacin ( i i i insesgada) d ) Esto significa que si un experimento fuera repetido muchas veces se podra esperar que el promedio de los valores as obtenidos para S2 (valor muestral) igualara a 2.

Estadstica bsica Valores resumen Desviacin estndar: Tambin describe dispersin de la distribucin. distribucin Es la raz de la medida de desviacin alrededor de la media, 2 n 1
En las mismas unidades de medida que la variable estudiada.

Normal con n-1 pequea

Normal con n-1 n 1 grande

Estadstica bsica Valores resumen Error estndar: que se comete al estimar la media de la variable medida con los n n observaciones de la muestra. A mayor tamao muestral menor error,

2 n 1

Coeficiente de variacin: Es una medida de la variacin relativa de los datos en porcentaje, porcentaje

n 1 CV % = 100 Xn

Estadstica bsica Valores resumen: De forma

Coeficiente de asimetra (de Fisher): Describe D ib l la simetra i t d de l la di distribucin t ib i relativa l ti a l la distribucin normal.

1 n 3 3 = (xi Xn ) 3 n i=1

Estadstica bsica Valores resumen: De forma Coeficiente de asimetra (cont):

3 = 0

3 < 0

3 > 0

Asimetra A i t negativa ti = mayor concentracin t i de d valores l a la l izquierda de la media. Asimetra positiva = mayor concentracin de valores a la derecha de la media.

Estadstica bsica Valores resumen: De forma Curtosis (o apuntamiento): Describe el grado de esbeltez de la distribucin, , en relacin a una distribucin normal, 1 n 4 4 = (x i X n ) 4 n i=1
Eje de simetra

> 3

= 3

< 3

Estadstica bsica Grficos estadsticos


Permiten ilustrar y entender las distribuciones de los datos, identificar datos errados, valores extremos, tendencias en la variacin de los datos, relaciones entre variables,
Plot of Dimetro vs Copa 1
30 25

Dimetro

Grfico de dispersin
(scatterplot X X-Y) Y)

20 15 10 5 0 0 2 4 6 8

Copa 1

Exploracin p de datos
Grficos estadsticos Grficos descriptivos para una variable (i)
Histogram
12

fre equency

Histogramas

10 8 6 4 2 0 0 2 4 6 8

Copa 1

Grficos de cuantiles:
Percentiles for Copa 1 1,0% = 1,2 5,0% = 1,4 10,0% = 1,6 25,0% = 2,4 50 0% = 3,2 50,0% 3 2 75,0% = 4,3 90,0% = 5,1
proportion n

Quantile Plot
1 0,8 0,6 0,4 0,2 0 0 2 4 6 8

Copa 1

Exploracin p de datos
Grficos estadsticos Grficos descriptivos para una variable (ii) Grfico de cuantiles para verificar el ajuste de los datos a la distribucin Normal: (Q-Q Normal)
Eje vertical: Ej ti l: valores l de d l la funcin f n in de d di distribucin t ib in d de l la N Normal. m l Recta: grfico de los valores de la variable con los valores de probabilidad acumulada de ocurrencia segn la distribucin Normal.
N Normal lP Probability b bilit Pl Plot t

La proximidad de los valores observados a la recta indica q que los datos se pueden considerar con distribucin Normal

99,9 99 95 80 50 20 5 1 0,1 0 2 4 6 8

percenta age

Copa 1

Exploracin p de datos
Grficos estadsticos Grficos descriptivos para una variable (iii) Grficos de cajas (box-plot) (box plot)
Box-and-Whisker Plot

Media

2 cuartil 50% 2

(mediana)

Anmalo (outlier)

mn

Copa 1

Mx.
3er cuartil 75%

1er cuartil 25%

Exploracin p de datos
Grficos estadsticos Comparacin grfica de la variable silt (sedimento) en los distintos puntos de muestreo (1 a 4):
Box-and-Whisker Plot
1

Locatio on

2 3 4 15 25 35 45 55

Silt

T Transformaciones f i
Para modelos de interpolacin del tipo regresin, las hiptesis p requieren, q , entre otras condiciones: Normalidad de los datos Homogeneidad en la varianza Si en el anlisis exploratorio no se observa simetra en el histograma y con un contraste de bondad de ajuste (prueba chi-cuadrado o Kolmogorov-Smirnov) (p g ) se confirma la falta de normalidad, se tendr que recurrir a algn tipo de transformacin normalizante de los datos.

Transformaciones Box-Cox o de potencia

X 1 0 T(X ) = Y = =0 ln X
=2, Y=X2 =1/2 1/2, Y=X Y X1/2 Se busca que la variable transformada se parezca a una distribucin normal

YX

( )

~ N ( , )
2

Ejemplo: X ~ Exp(3)
Rango: [0, 10] pasos de 0.05. j fue = 3.05 La mejor
Exponencial( 3 ) QQPlot normalizado. Desv. Tipica = 0.364
1.5

Tran. Box-Cox con SD min. QQPlot norm. (lambda = 3.05 , Desv. Tip. = 0.221 )
1.5 Y

1.0

0.5

0.0

-2

-1

0.0

0.5

1.0

-2

-1

Quantiles of Standard Normal

Quantiles of Standard Normal

Exponencial( 3 ) Histograma
40 1.0 log(SD) 0.0 0.5 X 1.0 1.5 0.3 0.5 0.7 0

Lambda vs. Desv. Tipica. (lambda = 3.05 , Desv. Tip. = 0.221 )

10

20

30 3

4 Lambda

10

Ejemplo: X ~ Beta(5, 2.5)


Rango: [-10, 10] pasos de 1. j fue >= 10 La mejor
Beta( 5 , 2.5 ) QQPlot normalizado. Desv. Tipica = 0.165 Tran. Box-Cox con SD min. QQPlot norm. (lambda = 10 , Desv. Tip. = 0.0138 )

1.0

0.8

0.6

0.4

Y -2 -1 0 1 2

0.2 2

0.0

0.0

0.2 2

0.4

0.6

0.8

1.0

-2

-1

Quantiles Qua t es o of Sta Standard da d Normal o a

Quantiles Qua t es o of Sta Standard da d Normal o a

25

10

log(SD)

0.2

0.4 X

0.6

0.8

1.0

10^-2 -10

10^1

10^3

15

10 0^5

20 2

10^7

Beta( 5 , 2.5 ) Histograma

Lambda vs. Desv. Tipica. (lambda = 10 , Desv. Tip. = 0.0138 )

-5

0 Lambda

10

Ejemplo: j p X ~ U(0.01, ( , 1) )
Rango: [-10, 10] pasos de 0.5. L mejor La j f fue >= > 10
Uniforme( 0.01 , 1 ) QQPlot normalizado. Desv. Tipica = 0.286
1.0 0 0.8

Tran. Box-Cox con SD min. QQPlot norm. (lambda = 10 , Desv. Tip. = 0.0222 )
0.8 Y 1.0 0

0.6

0.4

0.2

0.0

-2

-1

0.0

0.2

0.4

0.6

-2

-1

Quantiles of Standard Normal

Quantiles of Standard Normal

Uniforme( 0.01 , 1 ) Histograma


10 12 14 10^7 10^10 log(SD) 0.0 0.2 0.4 X 0.6 0.8 1.0 10^-2 10^1 1 10^4

Lambda vs. Desv. Tipica. (lambda = 10 , Desv. Tip. = 0.0222 )

-10

-5

0 Lambda

10

REFERENCIAS - ENLACES WEB


http://descargas.cervantesvirtual.com/servlet/SirveObras/4686017510402683 9600080/006458_8.pdf _ p Cap.7: Sistemas de Informacin Geogrfica: Pasado, presente y futuro (tesis doctoral) www.geogra.uah.es/~joaquin/curso-quito/ h / j i / it /SIG-OdelT.pdf Od lT df http://ares.unimet.edu.ve/postgrado/mpi002/Estadistica%20Descriptiva/256,1, Estadstica Descriptiva ttp://www.elagrimensor.net/elearning/lecturas/sig-capitulo%206.pdf Interpolacin p a partir p de mapas p e isolneas ( (aplicaciones p estadsticas a datos geogrficos, diseos de muestreo.,en regin de Murcia) http://www.ine.gob.mx/ueajei/publicaciones/libros/459/cap3.html D d Diseos de muestreo para suelos. l Ejemplo E l de d sistemtico en contaminacin de d suelos. www.monografas www monografas .com. com Elementos de Geoestadstica. Geoestadstica CUADOR GIL, GIL J.Q. JQ Universidad de Pinar del Ro (Cuba).

You might also like