You are on page 1of 36

Análisis geoestadístico con ArcGIS parte 1.

Estadística
descriptiva
Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es
necesario recordar algunos conceptos de estadística, en particular de estadística
descriptiva, que son necesarios para realizar un análisis geoestadístico con el
software.

La estadística descriptiva, se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos de estudio.
Para analizar los datos usualmente se construyen las tablas de frecuencias y se
utilizan: la media, mediana, moda, desviación estándar, la varianza, coeficiente de
curtosis, coeficiente de sesgo, coeficiente de variación, cuartiles, deciles y
percentiles. Estos parámetros se agrupan en varias categorías conocidas como
medidas de tendencia central, medidas de dispersión y medidas de forma.

Tablas de Frecuencias
Una forma de presentar ordenadamente un grupo de observaciones, es a través de
tablas de distribución de frecuencias. Para construir una tabla de frecuencia se
deben ordenar los datos de menor a mayor e incluir los siguientes parámetros.

Frecuencia Absoluta (ni)
Es el número de datos que están
en un mismo intervalo.
Frecuencia Relativa (fi)
Es la frecuencia absoluta dividida
por el número total de datos.
Frecuencia Absoluta
Acumulada (Ni)
Es la suma de las frecuencias
absolutas de todos los valores
inferiores o iguales al valor
considerado. La última frecuencia
absoluta acumulada es igual al
número de casos.
Frecuencia Relativa
Acumulada (Fi)
Es el resultado de dividir cada
frecuencia absoluta acumulada
por el número total de datos.
Numero de clases
Indica el número de intervalos en
que se agruparan los datos.
Amplitud de la clase o
intervalo
Se obtiene al dividir por dos, la
diferencia del valor máximo y
mínimo de los datos.
Marca de clase
Es el promedio de la suma del
límite superior e inferior de cada
intervalo o clase.


En el caso de datos agrupados se deberán determinar el número de intervalos, la
amplitud de los mismos y la marca de clase, de la siguiente forma:



Distribución normal
Una distribución de probabilidad sigue una distribución normal, cuando la
representación gráfica de su función de densidad es una curva positiva continua,
simétrica respecto a la media, de máximo en la media, y que tiene 2 puntos de
inflexión situados a ambos lados de la media y a distancia igual a la desviación
estándar, es decir de la forma:


Propiedades.
 Tiene una única moda, que coincide con su media y su mediana.
 La curva normal es asintótica al eje de abscisas.
 Es simétrica con respecto a su media. Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que la
media, y un 50% de observar un dato menor.
 Cuanto mayor sea la desviación estándar, más se dispersarán los datos en
torno a la media y la curva será más plana. Un valor pequeño de este parámetro
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio
de la distribución.
 El coeficiente de sesgo es igual a cero (0).
 La curtosis es igual a cero (0).
Para la aplicación de los métodos geoestadísticos es necesario verificar la función
de probabilidad del conjunto de datos se aproximen a un comportamiento normal,
esto lo veremos más adelante en el análisis exploratorio de los datos.

Con el fin de que este sea un ejemplo práctico para abordar el análisis
geoestadistico con ArcGIS, ilustraremos todo los conceptos con un ejemplo a partir
de datos de monitoreo de niveles piezométricos de agua subterránea que se
presentan en la tabla siguiente. Para ello se seguirán los siguientes pasos.

1. Organizar los datos de menor a mayor.
2. Calcular la tabla de frecuencia.
3. Realizar el histograma de frecuencias.
4. Calcular los parámetros geoestadístico.

Paso 1. Organizar los datos de menor a mayor
Pozo X Y Nivel Pz

Pozo X Y Nivel Pz
(msnm) (msnm)
1 1.038.638 1.368.620 2,0

28 1.044.694 1.371.405 6,00
2 .034.835 1.344.198 2,1

29 1.041.841 1.363.397 6,1
3 1.039.637 1.368.963 2,2

30 1.040.838 1.356.677 8,0
4 1.039.628 1.368.960 2,2

31 1.044.135 1.364.301 8,07
5 1.042.236 1.377.584 2,44

32 1.046.740 1.377.526 8,08
6 1.039.030 1.370.440 2,49

33 1.046.626 1.374.772 9,02
7 .036.835 1.354.454 2,9

34 1.042.604 1.360.903 9,21
8 1.043.217 1.357.777 2,99

35 1.039.466 1.348.279 10,1
9 1.040.082 1.373.095 3,2

36 1.041.429 1.333.870 10,3
10 1.039.392 1.374.231 3,3

37 1.045.207 1.363.183 10,8
11 1.040.434 1.368.119 3,33

38 1.044.733 1.360.337 11,5
12 1.039.720 1.368.500 3,35

39 1.048.893 1.374.744 11,82
13 1.042.060 1.376.470 3,43

40 1.040.383 1.355.006 12,2
14 1.041.545 1.369.212 3,7

41 1.042.263 1.354.636 12,3
15 1.042.045 1.371.752 3,8

42 1.039.411 1.336.953 12,8
16 1.040.269 1.377.908 3,97

43 1.048.342 1.369.941 14,62
17 1.040.731 1.371.643 4,0

44 1.046.214 1.355.644 14,9
18 1.042.360 1.376.070 4,29

45 1.044.935 1.336.931 16,6
19 1.040.390 1.376.776 4,5

46 1.041.256 1.339.628 18,16
20 1.035.335 1.356.941 4,5

47 1.048.313 1.360.466 19,14
21 1.047.035 1.371.548 4,62

48 1.044.224 1.348.328 24,1
22 1.042.020 1.370.310 4,66

49 1.044.765 1.341.254 24,2
23 1.033.716 1.352.675 5,0

50 1.046.735 1.356.327 25,57
24 1.042.570 1.377.470 5,10

51 1.045.454 1.346.959 27,15
25 1.035.564 1.343.433 5,2

52 1.050.523 1.361.111 30,08
26 1.042.520 1.368.530 5,38

53 1.052.106 1.361.728 35,32
27 1.042.932 1.368.255 5,87




Paso 2. Calcular la tabla de frecuencia.



Luego la tabla de frecuencias queda como la siguiente
No Intervalo Marca de
clase
frecuencia
absoluta
frecuencia
absoluta
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
1 2,0076 - 6,1776 4,0926 29 29 0,55 0,55
2 6,1776 - 10,3476 8,2626 7 36 0,13 0,68
3 10,3476 - 14,5176 12,4326 6 42 0,11 0,79
4 14,5176 - 18,6876 16,6026 4 46 0,08 0,87
5 18,6876 - 22,8576 20,7726 1 47 0,02 0,89
6 22,8576 - 27,0276 24,9426 4 51 0,08 0,96
7 27,0276 - 31,1976 29,1126 1 52 0,02 0,98
8 31,1976 - 35,3676 33,2826 1 53 0,02 1,00

Paso 3. Realizar el histograma de frecuencias.

A partir de la tabla anterior se construye el histograma de frecuencias, el cual nos
da una idea del comportamiento de los datos. Como primer acercamiento, se
observa que los datos están dispersos, sesgados y la moda, la media y la mediana
son diferentes, por tanto los datos no obedecen a una distribución normal.



Paso 4. Calcular los parámetros geoestadístico

a. Medidas de tendencia central
Intentan identificar el dato más representativo de la distribución del conjunto. Son
las siguientes.

Media. Se le suele llamar promedio, se define como la suma de los valores de
todas las observaciones divididas por el número total de datos. Se denota con µ o
X.

En su cálculo intervienen todos los datos, por lo tanto, se ven influenciados por la
variación de cualquiera de ellos. En particular, es sensible a los valores extremos,
pues estos producen grandes modificaciones.


Para los datos agrupados del ejemplo, tenemos lo siguiente….

No Intervalo Marca de
clase
frecuencia
absoluta
producto
1 2,0076 - 6,1776 4,0926 29 118,685
2 6,1776 - 10,3476 8,2626 7 57,838
3 10,3476 - 14,5176 12,4326 6 74,596
4 14,5176 - 18,6876 16,6026 4 66,410
5 18,6876 - 22,8576 20,7726 1 20,773
6 22,8576 - 27,0276 24,9426 4 99,770
7 27,0276 - 31,1976 29,1126 1 29,113
8 31,1976 - 35,3676 33,2826 1 33,283
Suma 500,468
Media (suma/53) 9,443
Para los datos no agrupados

Pozo NP Pozo NP
1 2,0076 28 6,0000
2 2,1313 29 6,1496
3 2,2000 30 8,0054
4 2,2100 31 8,0724
5 2,4449 32 8,0827
6 2,4946 33 9,0188
7 2,8554 34 9,2078
8 2,9876 35 10,1156
9 3,2347 36 10,2553
10 3,2930 37 10,8373
11 3,3317 38 11,5066
12 3,3506 39 11,8241
13 3,4291 40 12,2268
14 3,6896 41 12,3280
15 3,7990 42 12,8004
16 3,9651 43 14,6244
17 3,9980 44 14,9301
18 4,2921 45 16,6351
19 4,4900 46 18,1630
20 4,5286 47 19,1410
21 4,6227 48 24,0632
22 4,6637 49 24,2354
23 5,0499 50 25,5698
24 5,1009 51 27,1534
25 5,2438 52 30,0800
26 5,3826 53 35,3188
27 5,8690

Suma 497,0104
Media (suma/53) 9,3776

Mediana. Es el valor de la serie de datos que deja la mitad de las observaciones
por debajo de ella y la otra mitad por encima, es decir, divide al conjunto de datos
en dos partes iguales y se denota por Me.

Dado que sólo depende del orden de los datos, tiene la ventaja de que no es
sensible a los valores extremos.

En datos agrupados se calcula de la siguiente forma.

1. Calcular: n/2
2. La mediana será el valor de la variable cuya frecuencia absoluta acumulada
primero iguale o supere a N/2. Este será el intervalo en el que se encuentra la
mediana.

3. Aplicar la formula sustituyendo los valores correspondientes.



Para datos agrupados, tenemos lo siguiente….

Se calcula n/2 = 53/2 = 26.5, se busca este valor en la columna de la frecuencia
acumulada de la tabla de frecuencia. Si no se encuentra, tomamos el valor
siguiente, el cual es 29, por lo cual el intervalo donde se encuentra la moda es
(2.0076 – 6.1776].

Fi=29
Fi-1=8
Li= 2.0076
a= 4.17



Para datos no agrupados, tenemos lo siguiente….
Como el número de datos de la muestra es impar e igual a 53, la mediana es el
dato que ocupa el puesto 27(divide la muestra en dos partes iguales), el cual
es: Me= 5.8690

Moda. Es el dato que más veces se repite, es decir, aquel dato o rango que
presenta mayor frecuencia absoluta. Puede haber más de una moda en una
distribución. Se denota por Mo.


Para datos agrupados, tenemos lo siguiente….

De los datos agrupados en la tabla de frecuencia, se observa que la mayor
frecuencia absoluta es 29, por lo tanto el intervalo donde está la moda es (2.0076 –
6.1776].

Li=2.0076
a=4.17
d2=29-7 = 22
d1=29-0 = 29



b. Medidas de dispersión
Las medidas de dispersión indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización. Nos dan una idea sobre la homogeneidad
o que tan agrupado están los datos.

Desviación estándar. Indica cuánto tienden a alejarse los valores puntuales de la
media. Se suele representar por una S. Una desviación estándar grande indica que
los puntos están lejos de la media, y una desviación pequeña indica que los datos
están agrupados cerca de la media.



Para datos agrupados, tenemos lo siguiente….
No Intervalo Marca de
clase (Xi)
frecuencia
absoluta
(Xi-X)²*fi
1 2,0076 - 6,1776 4,0926 29 830,111
2 6,1776 - 10,3476 8,2626 7 9,750
3 10,3476 - 14,5176 12,4326 6 53,634
4 14,5176 - 18,6876 16,6026 4 205,052
5 18,6876 - 22,8576 20,7726 1 128,365
6 22,8576 - 27,0276 24,9426 4 960,977
7 27,0276 - 31,1976 29,1126 1 386,901
8 31,1976 - 35,3676 33,2826 1 568,337
Suma 3143,12
n-1 52
S 7,774

Para datos no agrupados….
Pozo NP (Xi-X)² Pozo NP (Xi-X)²
1 2,0076 54,3169 28 6,000 11,4082
2 2,1 52,5089 29 6,150 10,4200
3 2,2 51,5179 30 8,005 1,8829
4 2,2 51,3745 31 8,072 1,7035
5 2,44 48,0623 32 8,083 1,6768
6 2,49 47,3757 33 9,019 0,1287
7 2,9 42,5391 34 9,208 0,0288
8 2,99 40,8321 35 10,116 0,5446
9 3,2 37,7352 36 10,255 0,7704
10 3,3 37,0224 37 10,837 2,1307
11 3,33 36,5529 38 11,507 4,5326
12 3,35 36,3247 39 11,824 5,9854
13 3,43 35,3852 40 12,227 8,1179
14 3,7 32,3533 41 12,328 8,7049
15 3,8 31,1208 42 12,800 11,7156
16 3,97 29,2952 43 14,624 27,5289
17 4,0 28,9401 44 14,930 30,8303
18 4,29 25,8628 45 16,635 52,6713
19 4,5 23,8886 46 18,163 77,1833
20 4,5 23,5128 47 19,141 95,3240
21 4,62 22,6091 48 24,063 215,6668
22 4,66 22,2209 49 24,235 220,7542
23 5,0 18,7290 50 25,570 262,1873
24 5,10 18,2902 51 27,153 315,9791
25 5,2 17,0883 52 30,080 428,5894
26 5,38 15,9600 53 35,319 672,9459
27 5,87 12,3103
suma 3.363,14
n-1 52
S 8,042

Varianza. Describe la variabilidad de la distribución. Es la medida de la desviación
o dispersión de la distribución. Se calcula mediante la ecuación.


Para datos agrupados, tenemos lo siguiente….

S² = 7.774² = 60.44

Para datos no agrupados, tenemos lo siguiente….
S² = 8.042² = 64.675

Coeficiente de variación. Mide la representatividad de la media. Valores
extremos del mismo nos llevarán a concluir que la media no es representativa, es
decir, existirán valores entre las observaciones que se separan significativamente
de las demás.



Para datos agrupados, tenemos lo siguiente….
C.V = 7.74/9.443*100 = 82%

Para datos no agrupados, tenemos lo siguiente….
C.V = 8.042/9.3776*100 = 85.8%
c. Medidas de forma
Miden el grado de deformación respecto a una curva patrón (distribución normal).

Coeficiente de curtosis. Mide el grado de aplastamiento o apuntamiento de la
gráfica de la distribución de la variable estadística. Datos concentrados respecto a
la media (desviación estándar pequeña) dará una grafica alargada; si los datos
están dispersos la gráfica será achatada o aplastada.




Nota: El valor calculado a través de la herramienta Geostatistical Analyst de ArcGIS
no le resta 3 como aparece en la ecuación anterior.



Para datos no agrupados tenemos, lo siguiente:
Pozo NP (Xi-X)
4
Pozo NP (Xi-X)
4

1 2,0076 2.950,3256 28 6,000 130,1466
2 2,1 2.757,1808 29 6,150 108,5761
3 2,2 2.654,0983 30 8,005 3,5454
4 2,2 2.639,3382 31 8,072 2,9021
5 2,44 2.309,9875 32 8,083 2,8115
6 2,49 2.244,4559 33 9,019 0,0166
7 2,9 1.809,5744 34 9,208 0,0008
8 2,99 1.667,2604 35 10,116 0,2966
9 3,2 1.423,9469 36 10,255 0,5935
10 3,3 1.370,6549 37 10,837 4,5400
11 3,33 1.336,1150 38 11,507 20,5448
12 3,35 1.319,4859 39 11,824 35,8246
13 3,43 1.252,1157 40 12,227 65,9010
14 3,7 1.046,7389 41 12,328 75,7746
15 3,8 968,5028 42 12,800 137,2543
16 3,97 858,2062 43 14,624 757,8409
17 4,0 837,5292 44 14,930 950,5047
18 4,29 668,8854 45 16,635 2.774,2665
19 4,5 570,6668 46 18,163 5.957,2546
20 4,5 552,8518 47 19,141 9.086,6611
21 4,62 511,1702 48 24,063 46.512,1891
22 4,66 493,7663 49 24,235 48.732,4260
23 5,0 350,7750 50 25,570 68.742,2017
24 5,10 334,5301 51 27,153 99.842,7699
25 5,2 292,0101 52 30,080 183.688,8444
26 5,38 254,7224 53 35,319 452.856,1270
27 5,87 151,5428
suma 954.116,25
n-1 52
S
4
4182,95
K 1,38

Coeficiente de sesgo o asimetría. Evalúa el grado de distorsión o inclinación que
adopta la distribución de los datos respecto a su valor promedio tomado como
centro de gravedad. El coeficiente de simetría de Pearson es:



Si CS = 0, la distribución es simétrica, en ese caso las desviaciones a la derecha y a
la izquierda de la media se compensan.

Si CS < 0, la distribución es asimétrica negativa. La mayoría de las observaciones
están a la derecha de la proyección de la media.

Si CS > 0 la distribución es asimétrica positiva. La mayoría de las observaciones
están a la izquierda de la proyección de la media.


Para datos no agrupados tenemos, lo siguiente:

Pozo NP (Xi-X)
3
Pozo NP (Xi-X)
3

1 2,0076 -400,3156 28 6,000 -38,5323
2 2,1 -380,4950 29 6,150 -33,6357
3 2,2 -369,7752 30 8,005 -2,5838
4 2,2 -368,2318 31 8,072 -2,2235
5 2,44 -333,2017 32 8,083 -2,1712
6 2,49 -326,0869 33 9,019 -0,0462
7 2,9 -277,4485 34 9,208 -0,0049
8 2,99 -260,9171 35 10,116 0,4019
9 3,2 -231,8037 36 10,255 0,6761
10 3,3 -225,2662 37 10,837 3,1102
11 3,33 -220,9952 38 11,507 9,6500
12 3,35 -218,9291 39 11,824 14,6432
13 3,43 -210,4909 40 12,227 23,1296
14 3,7 -184,0258 41 12,328 25,6828
15 3,8 -173,6104 42 12,800 40,1000
16 3,97 -158,5600 43 14,624 144,4387
17 4,0 -155,6861 44 14,930 171,1850
18 4,29 -131,5267 45 16,635 382,2620
19 4,5 -116,7581 46 18,163 678,0858
20 4,5 -114,0136 47 19,141 930,6861
21 4,62 -107,5039 48 24,063 3.167,1971
22 4,66 -104,7469 49 24,235 3.279,9221
23 5,0 -81,0534 50 25,570 4.245,3899
24 5,10 -78,2215 51 27,153 5.616,7807
25 5,2 -70,6396 52 30,080 8.872,8285
26 5,38 -63,7603 53 35,319 17.457,0231
27 5,87 -43,1918
suma 39.576,74
n-1 52
S
3
520,13
Sesgo 1,46

A continuación se muestran los resultados obtenidos a través de las ecuaciones de
datos agrupados y no agrupados, también se incluyen los resultados arrojados por
la herramienta Geostatistical Analyst (la cual se verá más adelante). Se observa
que los resultados obtenidos tanto por las ecuaciones aplicadas a datos no
agrupados y los obtenidos por la herramienta Geostatistical Analyst son similares.
Parámetro
Datos
agrupados
Datos no
agrupados
Módulo
Geostatistical
analyst de
ArcGIS
Observaciones
Media 9.443 9.3776 9.3776

Mediana 4.6678 5.869 5.869

Moda 4.378

Desviación
estándar
7.74 8.0421 8.0421

Varianza 60.44 64.675 64.675

Coeficiente
de Variación
82% 85.8% 85.75%

Curtosis

1.38 1.4709
A la curtosis que
calcula ArcGIS se le
debe restar 3
Sesgo o
asimetría
1.46 1.4773


En el artículo Análisis geoestadístico con ArcGIS parte 2. Análisis exploratorio de los
datos veremos el análisis exploratorio de los datos para después abordar el tutorial
de la herramienta Geostatistical Analyst.

Análisis geoestadístico con ArcGIS parte 2. Análisis
exploratorio de los datos
Según Matheron (1992), la Geoestadística es la aplicación de la teoría de las
variables regionalizadas a la estimación de los depósitos. A su vez una variable
regionalizada, es una variable distribuida en el espacio de forma que presenta una
estructura espacial de correlación. En fin cuando hablemos de Geoestadística se
debe pensar en la variable y su relación espacial.

Ejemplo de variables regionalizadas en hidrogeología son la trasmisividad y
conductividad hidráulica, la porosidad y el nivel piezométrico; a este último
hacemos referencia en el presente artículo.

La mayoría de los métodos geoestadísticos sólo son óptimos si la variable de
estudio sigue una distribución normal. Recordemos que la distribución normal tiene
las siguientes propiedades:

 Tiene una única moda, que coincide con su media y su mediana.
 La curva normal es asintótica al eje de abscisas.
 Es simétrica con respecto a su media. Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que la
media, y un 50% de observar un dato menor.
 Cuanto mayor sea la desviación estándar, más se dispersarán los datos en
torno a la media y la curva será más plana. Un valor pequeño de este parámetro
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio
de la distribución.
 El coeficiente de sesgo es igual a cero (0).
 La curtosis es igual a cero (0).
Para determinar si la variable sigue una distribución se deben aplicar alguna de las
pruebas de normalidad como Prueba X², Kolmogorov, cálculo del coeficiente de
asimetría, curtosis, mediana, mediana y la moda y su comparación de con los de la
distribución normal.

Si a través de estas pruebas se concluye que la variable puede ser aceptada o se
aproxima a una distribución normal, el problema se simplifica y se puede continuar
con el análisis geoestadístico; de lo contrario, es necesario realizar una
transformación de los datos que puede ser de raíz cuadrada o logarítmica (Carrera,
1990) y hacer nuevamente las verificaciones.

Este es un tema extenso y la idea de estos artículos es hacerlos algo prácticos, por
ello al final dejaré bibliografía a la cual se puede consultar.

Para resumir, los pasos a seguir en el análisis exploratorio de los datos son los
siguientes.

1. Organizar los datos de menor a mayor.
2. Calcular la tabla de frecuencia.
3. Realizar el histograma de frecuencias.
4. Calcular los parámetros geoestadístico.
5. Verificación de la normalidad con respecto a la media, moda y mediana.
6. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de
sesgo).
7. Verificación de la normalidad con respecto al coeficiente de variación.
8. Realización de la transformación de los datos, si es necesario.
9. Recalculo de los parámetros estadísticos y comparación para verificar la
normalidad de los datos.

Los pasos 1 al 4 fueron realizados en el tutorial “Módulo de Geostadística Analyst
con ArcGIS parte 1. Estadística descriptiva”, aquí se continuará con los pasos
siguientes

Se continua con el ejemplo de los datos del monitoreo de niveles piezométricos que
se muestran en la siguiente tabla.

Pozo X Y NP
1 1.038.638 1.368.620 2,0076
2 1.034.835 1.344.198 2,1313
3 1.039.637 1.368.963 2,2000
4 1.039.628 1.368.960 2,2100
5 1.042.236 1.377.584 2,4449
6 1.039.030 1.370.440 2,4946
7 1.036.835 1.354.454 2,8554
8 1.043.217 1.357.777 2,9876
9 1.040.082 1.373.095 3,2347
10 1.039.392 1.374.231 3,2930
11 1.040.434 1.368.119 3,3317
12 1.039.720 1.368.500 3,3506
13 1.042.060 1.376.470 3,4291
14 1.041.545 1.369.212 3,6896
15 1.042.045 1.371.752 3,7990
16 1.040.269 1.377.908 3,9651
17 1.040.731 1.371.643 3,9980
18 1.042.360 1.376.070 4,2921
19 1.040.390 1.376.776 4,4900
20 1.035.335 1.356.941 4,5286
21 1.047.035 1.371.548 4,6227
22 1.042.020 1.370.310 4,6637
23 1.033.716 1.352.675 5,0499
24 1.042.570 1.377.470 5,1009
25 1.035.564 1.343.433 5,2438
26 1.042.520 1.368.530 5,3826
27 1.042.932 1.368.255 5,8690
28 1.044.694 1.371.405 6,0000
29 1.041.841 1.363.397 6,1496
30 1.040.838 1.356.677 8,0054
31 1.044.135 1.364.301 8,0724
32 1.046.740 1.377.526 8,0827
33 1.046.626 1.374.772 9,0188
34 1.042.604 1.360.903 9,2078
35 1.039.466 1.348.279 10,1156
36 1.041.429 1.333.870 10,2553
37 1.045.207 1.363.183 10,8373
38 1.044.733 1.360.337 11,5066
39 1.048.893 1.374.744 11,8241
40 1.040.383 1.355.006 12,2268
41 1.042.263 1.354.636 12,3280
42 1.039.411 1.336.953 12,8004
43 1.048.342 1.369.941 14,6244
44 1.046.214 1.355.644 14,9301
45 1.044.935 1.336.931 16,6351
46 1.041.256 1.339.628 18,1630
47 1.048.313 1.360.466 19,1410
48 1.044.224 1.348.328 24,0632
49 1.044.765 1.341.254 24,2354
50 1.046.735 1.356.327 25,5698
51 1.045.454 1.346.959 27,1534
52 1.050.523 1.361.111 30,0800
53 1.052.106 1.361.728 35,3188

Los parámetros estadísticos calculados anteriormente se resumen en la siguiente
tabla.

Parámetro
Datos no
agrupados
Observaciones
Media 9.3776

Mediana 5.869

Moda 4.378
Se tomó la moda calculada
a través de la ecuación
datos agrupados.
Desviación
estándar
8.0421

Varianza 64.675

Coeficiente de
Variación
85.8%

Curtosis 1.38

Sesgo o asimetría 1.46


5. Verificación de la normalidad con respecto a la media, moda y mediana.

Para que la distribución sea normal o se aproxime, la media, la moda y la mediana
deben ser similares, se acepta una diferencia de una unidad entre ella.

Para el ejemplo de estudio tenemos.
Media = 9.3776
Mediana = 5.869
Moda = 4.378

Se observa la media, la mediana y la moda son diferentes, por lo cual los datos no
cumplen el criterio de verificación con respecto a estos parámetros.

6. Verificación de la normalidad con respecto a la asimetría horizontal
(coeficiente de sesgo).

Como el coeficiente de sesgo permite verificar la normalidad de los datos, en caso
de existir asimetría horizontal, es decir los datos no se ajustan a una distribución
normal, Wester-Oliver proponen evaluar lo siguiente.

 0<|CS|<0.5, se acepta la función de distribución de probabilidad como
normal, se puede aplicar el método geoestadístico a los datos.
 0.5<|CS|<1, es necesario realizar una transformación de datos
(normalización) de tipo raíz cuadrada.
 |CS|>1, es necesario hacer una transformación de tipo logarítmico (ln o log)
En nuestro caso CS = 1.46, valor mayor que 1, por lo tanto es necesario aplicar
una transformación de tipo logarítmico a los datos.

7. Verificación de la normalidad con respecto al coeficiente de variación.

Tanto la función de distribución de los datos como la varianza son funciones de la
media la cual es altamente sensible a los valores extremos. En consecuencia se
debe tener conocimiento de la afectación de estos valores extremos sobre la media,
para ello se calcula el coeficiente de variación. En todo caso se debe verificar lo
siguiente.

 Si CV < 100, no hay problema con los valores extremos de los datos
 Si 100<CV<=200, Los efectos causados por los valores extremos de los
datos son tolerables
 Si CV>200, se tiene problemas severos con los valores extremos de los
datos.
Esto es importante, pues en caso de que los valores extremos de los datos afecten
a la muestra o a la distribución de los mismos, se deberá analizar si es conveniente
eliminarlos en caso que obedezcan a un error en la medición o hacer una
transformación de los datos para reducir su influencia en la muestra.

En nuestro caso CV = 85.8 < 100, lo cual indica que no hay problemas con valores
extremos.

En resumen, la función de distribución de los datos no se asemeja a una
distribución normal dado que la media, la mediana y la moda son diferentes y
además el CS>1. De acuerdo a los cálculos anteriores, es necesario realizar una
transformación logarítmica (la cual consiste en tomar el dato y sacarle el logaritmo
ya sea en base 10 o logaritmo natural), una vez realizada la transformación se
vuelven a calcular todos los parámetros para realizar las respectivas verificaciones.

8. Realización de la transformación de los datos, si es necesario.

Transformación de los datos (ln).
Pozo X Y NP ln
1 1.038.638 1.368.620 2,0076 0,697
2 1.034.835 1.344.198 2,1313 0,757
3 1.039.637 1.368.963 2,2000 0,788
4 1.039.628 1.368.960 2,2100 0,793
5 1.042.236 1.377.584 2,4449 0,894
6 1.039.030 1.370.440 2,4946 0,914
7 1.036.835 1.354.454 2,8554 1,049
8 1.043.217 1.357.777 2,9876 1,094
9 1.040.082 1.373.095 3,2347 1,174
10 1.039.392 1.374.231 3,2930 1,192
11 1.040.434 1.368.119 3,3317 1,203
12 1.039.720 1.368.500 3,3506 1,209
13 1.042.060 1.376.470 3,4291 1,232
14 1.041.545 1.369.212 3,6896 1,306
15 1.042.045 1.371.752 3,7990 1,335
16 1.040.269 1.377.908 3,9651 1,378
17 1.040.731 1.371.643 3,9980 1,386
18 1.042.360 1.376.070 4,2921 1,457
19 1.040.390 1.376.776 4,4900 1,502
20 1.035.335 1.356.941 4,5286 1,510
21 1.047.035 1.371.548 4,6227 1,531
22 1.042.020 1.370.310 4,6637 1,540
23 1.033.716 1.352.675 5,0499 1,619
24 1.042.570 1.377.470 5,1009 1,629
25 1.035.564 1.343.433 5,2438 1,657
26 1.042.520 1.368.530 5,3826 1,683
27 1.042.932 1.368.255 5,8690 1,770
28 1.044.694 1.371.405 6,0000 1,792
29 1.041.841 1.363.397 6,1496 1,816
30 1.040.838 1.356.677 8,0054 2,080
31 1.044.135 1.364.301 8,0724 2,088
32 1.046.740 1.377.526 8,0827 2,090
33 1.046.626 1.374.772 9,0188 2,199
34 1.042.604 1.360.903 9,2078 2,220
35 1.039.466 1.348.279 10,1156 2,314
36 1.041.429 1.333.870 10,2553 2,328
37 1.045.207 1.363.183 10,8373 2,383
38 1.044.733 1.360.337 11,5066 2,443
39 1.048.893 1.374.744 11,8241 2,470
40 1.040.383 1.355.006 12,2268 2,504
41 1.042.263 1.354.636 12,3280 2,512
42 1.039.411 1.336.953 12,8004 2,549
43 1.048.342 1.369.941 14,6244 2,683
44 1.046.214 1.355.644 14,9301 2,703
45 1.044.935 1.336.931 16,6351 2,812
46 1.041.256 1.339.628 18,1630 2,899
47 1.048.313 1.360.466 19,1410 2,952
48 1.044.224 1.348.328 24,0632 3,181
49 1.044.765 1.341.254 24,2354 3,188
50 1.046.735 1.356.327 25,5698 3,241
51 1.045.454 1.346.959 27,1534 3,302
52 1.050.523 1.361.111 30,0800 3,404
53 1.052.106 1.361.728 35,3188 3,564

9. Recalculo de los parámetros estadísticos y comparación para verificar la
normalidad de los datos.


a. Organizar los datos de menor a mayor.
Ya están organizados en la tabla anterior

b. Calcular la tabla de frecuencia.

No Intervalo Marca
de clase
frecuencia
absoluta
frecuencia
absoluta
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
1 0,6969 - 1,0569 0,88 7 7 0,13 0,13
2 1,0569 - 1,4153 1,24 10 17 0,19 0,32
3 1,4153 - 1,7737 1,59 10 27 0,19 0,51
4 1,7737 - 2,1321 1,95 5 32 0,09 0,60
5 2,1321 - 2,4905 2,31 7 39 0,13 0,74
6 2,4905 - 2,8489 2,67 6 45 0,11 0,85
7 2,8489 - 3,2073 3,03 4 49 0,08 0,92
8 3,2073 - 3,5657 3,39 4 53 0,08 1,00


c. Realizar el histograma de frecuencias


d. Calcular los parámetros geoestadístico.
Los parámetros estadísticos se realizarán por la metodología de datos no agrupados
a excepción de la moda, para ello se utilizará Excel.

Pozo NP ln Media (xi-
media)
2

(xi-
media)
4

(xi-
media)³
1 2,0076 0,697 1,92 1,508 2,273 -1,851
2 2,1313 0,757 1,92 1,364 1,862 -1,594
3 2,2000 0,788 1,92 1,291 1,668 -1,468
4 2,2100 0,793 1,92 1,281 1,641 -1,450
5 2,4449 0,894 1,92 1,063 1,129 -1,095
6 2,4946 0,914 1,92 1,022 1,044 -1,033
7 2,8554 1,049 1,92 0,767 0,588 -0,671
8 2,9876 1,094 1,92 0,690 0,475 -0,573
9 3,2347 1,174 1,92 0,564 0,318 -0,423
10 3,2930 1,192 1,92 0,537 0,289 -0,394
11 3,3317 1,203 1,92 0,520 0,271 -0,375
12 3,3506 1,209 1,92 0,512 0,262 -0,367
13 3,4291 1,232 1,92 0,480 0,230 -0,332
14 3,6896 1,306 1,92 0,384 0,147 -0,238
15 3,7990 1,335 1,92 0,348 0,121 -0,205
16 3,9651 1,378 1,92 0,300 0,090 -0,164
17 3,9980 1,386 1,92 0,291 0,084 -0,157
18 4,2921 1,457 1,92 0,219 0,048 -0,103
19 4,4900 1,502 1,92 0,179 0,032 -0,076
20 4,5286 1,510 1,92 0,172 0,029 -0,071
21 4,6227 1,531 1,92 0,155 0,024 -0,061
22 4,6637 1,540 1,92 0,148 0,022 -0,057
23 5,0499 1,619 1,92 0,093 0,009 -0,029
24 5,1009 1,629 1,92 0,087 0,008 -0,026
25 5,2438 1,657 1,92 0,072 0,005 -0,019
26 5,3826 1,683 1,92 0,058 0,003 -0,014
27 5,8690 1,770 1,92 0,024 0,001 -0,004
28 6,0000 1,792 1,92 0,018 0,000 -0,002
29 6,1496 1,816 1,92 0,012 0,000 -0,001
30 8,0054 2,080 1,92 0,024 0,001 0,004
31 8,0724 2,088 1,92 0,027 0,001 0,004
32 8,0827 2,090 1,92 0,027 0,001 0,004
33 9,0188 2,199 1,92 0,075 0,006 0,021
34 9,2078 2,220 1,92 0,087 0,008 0,026
35 10,1156 2,314 1,92 0,152 0,023 0,059
36 10,2553 2,328 1,92 0,162 0,026 0,065
37 10,8373 2,383 1,92 0,210 0,044 0,096
38 11,5066 2,443 1,92 0,268 0,072 0,139
39 11,8241 2,470 1,92 0,297 0,088 0,162
40 12,2268 2,504 1,92 0,335 0,112 0,194
41 12,3280 2,512 1,92 0,345 0,119 0,202
42 12,8004 2,549 1,92 0,390 0,152 0,244
43 14,6244 2,683 1,92 0,574 0,330 0,435
44 14,9301 2,703 1,92 0,606 0,367 0,472
45 16,6351 2,812 1,92 0,786 0,618 0,697
46 18,1630 2,899 1,92 0,950 0,902 0,926
47 19,1410 2,952 1,92 1,055 1,112 1,083
48 24,0632 3,181 1,92 1,577 2,487 1,981
49 24,2354 3,188 1,92 1,595 2,544 2,015
50 25,5698 3,241 1,92 1,733 3,004 2,282
51 27,1534 3,302 1,92 1,895 3,592 2,609
52 30,0800 3,404 1,92 2,187 4,785 3,235
53 35,3188 3,564 1,92 2,688 7,226 4,407

suma 102,02

32,205 40,295 8,510



e. Verificación de la normalidad con respecto a la media, moda y mediana.
Media = 1.92
Mediana = 1.77
Moda = 1.41

La diferencia entre la media, la mediana y la moda es menor que 1, por lo tanto la
distribución de los datos cumple con esta condición.

f. Verificación de la normalidad con respecto a la asimetría horizontal
(coeficiente de sesgo).

CS = 0.34 se cumple que 0<|CS|<0.5.

g. Verificación de la normalidad con respecto al coeficiente de variación.

CV = 41%, se cumple que CV<100

Por tanto la distribución de los datos se puede aceptar como normal, dado que la
moda, la mediana y la media son similares; CS está entre 0 y 0.5 y
CV<100. Por ello se puede continuar con el análisis geoestadístico.

La tercera parte de esta trilogía que corresponde a la herramienta Geostadistical
Analyst la puedes consultar aquí.


Geostatistical Analyst. Análisis geoestadístico con ArcGIS
parte 3
Con Geostatistical Analyst es posible explorar la variabilidad de datos, examinar
tendencias globales e investigar la autocorrelación y la correlación entre los datos,
de igual forma se pueden crear predicciones y calcular errores de predicciones.

Lo primero que se tiene que hacer para iniciar un análisis geoestadístico con Arcgis
es el análisis exploratorio de los datos, lo cual hemos visto en dos artículos
anteriores y por último el análisis estructural de los datos.


1. Análisis Exploratorio de los datos (ver artículo)
Paso 1
Lo primero que se debe hacer es crear un shape de puntos a partir de datos de
coordenadas geográficas o planas.

En este caso utilizaré, el shape de puntos donde se tiene datos del monitoreo de
niveles del acuífero del golfo de Urabá, el cual se denomina Niveles.shp.


Paso 2
Una vez creado o agregado el shape en Arcmap, damos clic en Geostatistical
Analyst, seguido de Explore Data y finalmente en Histogram, tal como se
muestra en la figura.


Aparece la siguiente ventana…


En la parte inferior de la ventana,

Bars: Permite elegir el número de intervalos, la herramienta automáticamente
calcula la longitud de cada intervalo.

Transformation: Permite realizar una transformación logarítmica a los datos en
caso de que estos no sigan una distribución normal (tal como fue explicado aquí).

Layer: Aquí aparece el nombre del Shape, el cual es Niveles, cuando hay varios
shpe agregados en Arcmap la herramienta elige el primero de la lista.

Attribute: Aquí aparece por defecto el primer campo que tenemos en la tabla de
atributos de nuestro shape… en este caso es el campo pozos. Automáticamente la
herramienta calcula los parámetros geoestadísticos que se muestran en la parte
superior.

Paso 3
Lo que sigue es seleccionar el atributo con el cual queremos hacer el análisis
geoestadístico, en este caso es el nivel piezométrico, para ello damos clic en la
pestaña que está debajo del Attribute y seleccionamos el campo “NP” (nivel
piezométrico).


Se observa que inmediatamente cambia la grafica y recalcula los valores de los
parámetros estadísticos mostrados en la parte superior, los cuales son los
siguientes:

Count (numero de datos): 53
Min (dato menor): 2.0076
Max (dato mayor): 35.319
Mean (Media): 9.3776
Std Dev (Desviación estándar): 8.0421
Skewness (Coeficiente de sesgo o asimetría): 1.4773
Kurtosis (curtosis): 4.4709
Median (Mediana): 5.69

Aquí, la moda se calcula como la marca de clase del intervalo con mayor
frecuencia…
Moda = (0.2+0.53)/2 = 0.365.

El coeficiente de variación se calcula como: CV=S/media*100
CV=8.0421/9.3776*100 = 85.7%

A estos parámetros le aplicamos las condiciones necesarias para verificar si los
datos siguen la distribución normal. Vemos que la media, la moda y la mediana son
diferentes y su diferencia es mayor a uno, el coeficiente de sesgo es mayor a 1, por
lo cual es necesario realizar una transformación de los datos, de acuerdo a la
literatura y lo hablado anteriormente se recomienda una transformación
logarítmica…pero no los preocupemos estos lo hace ArcGis, simplemente en la
pestaña Transformationseleccionamos “Log”. En la pestaña Bars colocamos 8
intervalos. El resultado es el siguiente.


Observamos nuevamente los parámetros…

Count (numero de datos): 53
Min (dato menor): 0.69694
Max (dato mayor): 3.5644
Mean (Media): 1.9248
Std Dev (Desviación estándar): 0.78698
Skewness (Coeficiente de sesgo o asimetría): 0.33899
Kurtosis (curtosis): 2.0591
Median (Mediana): 1.7697

El coeficiente de variación se calcula como: CV=S/media*100
CV=0.78698/1.9248*100 = 40.88%

El coeficiente de variación mejoró y es igual a 40.88%, por lo cual no hay problema
con los valores extremos de los datos.

De lo anterior se concluye que la media y la mediana son similares, su diferencia es
menor a 1 y el coeficiente de sesgo está entre 0 y 0.5, por lo cual la distribución de
los datos se acepta como normal…se sigue con el análisis geoestadístico.

Paso 4
Después de haber analizado los parámetros estadísticos y concluir que la
distribución de los datos se puede tomar como normal, cerramos la ventana del
Histogram y volvemos a dar clic en Geostatistical Analyst, seguido de Explore
Data y finalmente en Trend Analysis, tal como se muestra en la figura.


Se abre la siguiente ventana…


Esta ventana nos ayuda a ver qué tendencia siguen los datos para que luego en el
análisis estrutural le indiquemos a la herramienta que sea removida. En Graph
options, damos clic en Projected Data, Sticks, Input Data Points para que
desaparezcan de la gráfica… el resultado debe ser el siguiente.


Es importante analizar si los datos manifiestan tendencias direccionales que
permitan establecer correlaciones en esas direcciones, y formular modelos de
comportamiento. La tendencia más fuerte se tendrá sobre aquella dirección en la
que la línea de tendencia es más gruesa; para nuestro ejemplo se ve claramente
una fuerte tendencia en la dirección este-oeste (línea verde) y una débil tendencia
en la dirección norte-sur (línea azul).

Con la barra de desplazamiento resaltada en rojo en la figura anterior se empiezan
a desplazar las líneas de tendencias (verde y azul de la misma figura)… y se
observa si estas siguen una línea recta, en caso tal la tendencia es lineal; una curva
con una concavidad, la tendencia es cuadrática o si es una línea con más de una
concavidad, la tendencia será de orden 3.

Como conclusión del análisis exploratorio y que se debe tener en cuenta durante la
realización del análisis estructural de los datos, tenemos:
 Los datos originales no siguen una distribución normal, por lo tanto se aplica
una transformación logarítmica.
 Es necesario remover una tendencia de segundo orden

2. Análisis estructural de los datos
Paso 5
Una vez identificada la tendencia de los datos, el siguiente paso es el análisis
estructural y realización del modelo geoestadístico con los datos…para ello damos
clic en Geostatistical Analyst, seguido de Geostatistical Winzard, aparece la
una ventana donde debemos rellanar la siguiente información.

Medthod: Se debe seleccionar el método con el cual se quieren analizar los datos,
en este caso es Kriging
Input data: el shape al cual se le debe aplicar el análisis geoestadístico en este
caso es Niveles.
Attibute: El campo con el que se quiere realizar el análisis geoestadístico. En esta
caso es el nivel piezométrico (NP).



Damos clic en el botó Next>. Aparece la siguiente ventana, donde rellenamos la
siguiente información.
 En Geostatistical methods, se selecciona Ordinary Kriging-Prediction
Map.
 En Transformation, se selecciona Log, pues ya habíamos concluido que es necesario
realizar transformación logarítmica.
 En Order of trend removal, se selecciona la opción Second, pues habíamos visto que
los datos siguen una tendencia de segundo orden.

Damos clic en Next>, aparece una ventana que permite concluir si los datos
presentan anisotropía direccional o no la presentan. Si en la grafica aparece un
círculo, no hay anisotropía direccional y si aparece otra cosa como la de la figura,
se concluye que existe anisotropía direccional la cual se debe tener presente, ya
que en la ventana siguiente se le deberá indicar a la herramienta este parámetro.


Damos clic en Next>, aparece la siguiente ventana.


En la ventana anterior rellenamos la siguiente información

1. Model: 1. Aquí debemos elegir el modelo geoestadístico que deseemos usar
para modelar los datos; para el caso del ejemplo, elegiremos el modelo Spherical.

2. En el paso anterior concluimos que hay anisotropía estructural, por lo tanto,
debemos seleccionar Anisotropy.

3. Damos clic en Show search Direction, se habilitarán inmediatamente las
opciones de más abajo, las cuales son Angle direction y Bandwidth (lags).


En la grafica anterior vemos que fueron habilitadas Angle direction y Bandwidth
(lags), para seguir se procede de la siguiente forma.

Angle direction: Debemos cambiar el Angulo hasta que las líneas que se muestran
a la izquierda de la figura coincidan con la dirección de la elipse en su parte
superior.

Bandwidth (lags): una vez realizado el paso anterior, los puntos o parte inferior
de las líneas deben cortar a la elipse, para ello se aumenta o disminuye el valor
deBandwidth.

…lo dicho anteriormente se resumen en la siguiente imagen.



Después de dar clic en Next>, se muestra la siguiente ventana.


Volvemos a dar clic en Next>, en la siguiente ventana se muestra:
 Un recalculo de los datos en comparación con los valores medidos para
verificar obtenido.
 Cálculo de los errores:
Root-Mean-Square: 3.774
Average Standard Error: 4.361
Mean Standardized: -0.04804
Root-Mean-Square Standardized: 0.9609
 Un gráfico de comparación de datos medidos y datos calculados, en la que
se puede ver que los datos que más se alejan de la línea, son los que mayores
errores presentan en su predicción.


Damos clic en finish y aparece un resumen del método utilizado.


Damos clic en Ok y aparece el mapa de predicción de niveles piezométrico a partir
del método geoestadístico Kriging esférico.


Pero aun no se termina …la ventajas de los métodos geoestadísticos es que nos
permite realizar un mapa de errores. Para ello en el panel del navegador, damos
clic derecho sobre el mapa creado y elegimos la opción Create Prediction
Estándar error Map.


El resultado es el siguiente.


En la figura anterior observamos que el máximo error es del 58.16%, el cual es
muy alto. La confiabilidad del modelo se calcula como 100 menos el error máximo,
para el ejemplo: confiabilidad = 100-58.16 = 41.84%. Para aceptar un modelo
geoestadístico es necesario tener una confiabilidad superior al 90%, por lo tanto se
concluye que es necesario mejorar la densidad de las medidas.

En la gráfica también se observa que los errores mayores en la predicción se
producen donde existe menos información. Para el caso del monitoreo de niveles de
un acuífero esto es indicativo que en estos sitios se deben perforar piezómetros o
pozos de monitoreo con el fin de optimizar la red existente.

Para seleccionar el modelo que mejor modela nuestros datos, es necesario
aplicarles cada uno de ellos y escoger el que presente menor Root-Mean-Square,
menorAverage Standard Error, Root-Mean-Square Standardized más cercano
a uno y mayor porcentaje de confiabilidad.

Como resumen del modelo aplicado tenemos lo siguiente:

Parámetro Valor
Root-Mean-Square 3.774
Average Standard Error 4.361
Root-Mean-Square Standardized 0.9609
Confiabilidad
41.84


Existen otros conceptos que son muy importantes, pero de los cuales no fue posible
mencionar en este artículo: efecto pepita, efecto pepita puro, discontinuidad en el
origen, meseta, anisotropía estructural, anisotropía direccional, variograma y partial
sill, entre otros. Para profundizar en este tema recomiendo revisar la siguiente
bibliografía.
Webster, Richard. Oliver Margaret. 2001. Geostatistics for environmental
scientists.Great Britain. John Wiley & Sons Inc.
Sampe Javier y Jesús carrera. 1990. Geoestadistica, aplicaciones a la hidrogeología
subterránea. Centro Internacional de métodos nuéricos en Ingeniería. Barcelona