You are on page 1of 18

REVISIÓN DE ESTADISTICA

1.1. OBJETIVO DEL CURSO


El objetivo del curso es que el alumno comprenda los fundamentos y
domine los procedimientos de estimación de variables o propiedades.

La Ingeniería de Minas en su quehacer diario necesita cuantificar variables,


para diseñar y desarrollar diferentes actividades. Por ejemplo: ley de
metales, resistencia (a la compresión, tracción, corte), capacidad portante,
plasticidad, porosidad, humedad, potencia de veta, etc.

En el campo de la minería la variable más importante a estimar son las


reservas minerales. Los proyectos mineros se financian sobre la base de las
reservas del yacimiento a explotar, por tal razón gran parte del curso está
orientado a los diversos métodos de estimación de reservas.

1.2. LA GEOESTADÍSTICA Y LA ESTADÍSTICA CLÁSICA


La Estadística es la parte de las Matemáticas que se encarga del estudio de
una determinada característica en una población, recogiendo los datos,
organizándolos en tablas, representándolos gráficamente y analizándolos
para obtener información relevante de dicha población. En el campo de la
ingeniería la información obtenida sirve de base para hacer diseños y tomar
decisiones.

La Geoestadística es una rama de la Estadística, pero se diferencia de la


Estadística Clásica en que toma en cuenta la posición de los datos y la
relación entre datos vecinos (continuidad). Estudia variables regionalizadas,
es decir, que se extienden en el espacio y están relacionadas con su posición
en el espacio.

Algunos ejemplos de variables regionalizadas son:

• Leyes de cobre, molibdeno, arsénico, etc., en un yacimiento


• Número de árboles en un área forestal
• Cantidad de nitrato en muestras de suelo
• Concentración de un elemento contaminante en la atmósfera

Ing. Alejandro Vásquez Arrieta Página 1


1.3. REVISIÓN DE CONCEPTOS ESTADÍSTICOS BÁSICOS
POBLACIÓN: Se denomina población al conjunto de todos los elementos
en estudio.

Usualmente conformada por un número elevado de elementos, pero


también tenemos poblaciones con pocos elementos. Específicamente
cuando se determina la ecuación de regresión lineal para un conjunto de
datos, se considera al conjunto de datos una población.

Ejemplo:

Si estudiamos la minería artesanal en Piura, la población sería todos los


mineros artesanales de Piura.

MUESTRA: La muestra es una parte representativa de la población, la cual


sirve para inferir valores sobre toda la población. Se toman muestras por
razones prácticas y económicas; normalmente es imposible u oneroso
estudiar todos los elementos de la población.

Ejemplo: La zona delimitada por la línea verde es el yacimiento (población)


y tomamos solamente un conjunto de datos o muestra (puntos negros) para
definir propiedades del yacimiento.

Ing. Alejandro Vásquez Arrieta Página 2


Muestra

HISTOGRAMA: Usualmente se recolecta una gran cantidad de datos, los


cuales en conjunto son inmanejables e incomprensibles. Se denomina
histograma a los datos agrupados en intervalos, de manera que se facilita
su manipulación y entendimiento. Ejemplo:

 40 datos de P2O5 (%)

8,1 11,3 13,4 14,7 17,4


8,6 11,6 13,6 14,8 17,9
9,1 11,6 13,7 15,2 18,5
9,4 11,9 13,8 15,5 19,4
9,5 12,1 14,2 15,8 20,2
10,2 12,5 14,3 16,0 22,7
10,5 12,9 14,5 16,3 25,6
10,7 13,1 14,5 16,8 29,1

Solución:

-Los intervalos se definen partiendo del rango, así tenemos:

Rango= Xmáx – Xmin

Rango= 29,1 – 8,1 = 21,0


Ing. Alejandro Vásquez Arrieta Página 3
- Posteriormente al rango se divide entre 10 y 15, ya que en un
histograma usual el número de intervalos varía entre 10 a 15
intervalos. Tenemos:

21,0/10 = 2,1 21,0/15 = 1,4

2,0

- Los valores obtenidos son la amplitud del intervalo para 10 y 15


intervalos respectivamente, esto es 2,1 y 1,4 respectivamente.
Escogemos un valor entre 2,1 y 1,4 que sea práctico de manejar y que
permita un histograma de fácil entendimiento, que en este caso es
2,0.
- Se debe definir cuál es el límite cerrado y el límite abierto de cada
intervalo, para evitar superposiciones entre ellos.
- El límite de inicio del primer intervalo también se escoge de manera
que sea más práctico de manejar y que permita un histograma de
fácil entendimiento, en este caso es 8,0.

Definiendo los intervalos:

• 8 a 10 ]8,1 8,6 9,1 9,4 9,5] Tiene 5


datos
• 10 a 12 ]10,2 10,5 10,7 11,3 11,6 11,6 11,9] Tiene 7
datos
• 12 a 14 ]12,1 12,5 12,9 13,1 13,4 13,6 13,7 13,8] Tiene 8
datos
• 14 a 16 ]14,2 14,3 14,5 14,5 14,7 14,8 15,2 15,5 15,8 16,0]
Tiene
10 datos
• 16 a 18 ]16,3 16,8 17,4 17,9] Tiene 4
datos
Ing. Alejandro Vásquez Arrieta Página 4
• 18 a 20 ]18,5 19,4] Tiene 2
datos
• 20 a 22 ]20,2] Tiene 1
dato
• 22 a 24 ]22,7] Tiene 1
dato
• 24 a 26 ]25,6] Tiene 1
dato
• 26 a 28 Tiene 0
datos
• 28 a 30 ]29,1] Tiene 1
dato

Histograma
10
10
9 8
8 7
7
Frecuencia

6 5
5 4
4
3 2
2 1 1 1 1
1 0
0
8-10 10-12 12-14 14-6 16-18 18-20 20-22 22-24 24-26 26-28 28-30
Ley de Fosfato

Ing. Alejandro Vásquez Arrieta Página 5


DISTRIBUCIÓN ESTADÍSTICA
Se denomina distribución estadística al conjunto de datos que analizamos
estadísticamente.

PARÁMETROS ESTADÍSTICOS
Los parámetros estadísticos son números que se obtienen a partir de los
datos de una distribución estadística y que sirven para sintetizar alguna
característica relevante de la misma.

a) Parámetros o Medidas de Centralización


Son parámetros estadísticos alrededor de los cuales se distribuyen los
datos analizados y se toman como el centro de los mismos.

1. Media

1.1. Media Aritmética

Ejemplo:

 Se tienen los siguientes datos.

12 14 18 22 25 28 85

12  14  18  22  25  28  85
x
7

𝑥̅ = 29,14

Ing. Alejandro Vásquez Arrieta Página 6


1.2. Media Geométrica

𝑥𝐺 = 𝑛√𝑥1 ∗ 𝑥2 ∗ … ∗ 𝑥𝑛
̅̅̅

xG  7
12  14  18  22  25  28  85

xG  23.5
- Se observa que cuando hay datos extremos la media geométrica cumple
mejor la definición de medida de centralización.

12 14 18 22 25 28 85

23.5 29.14

NOTA La media geométrica es más robusta que


la media aritmética, esto es menos
sensible a la presencia de datos extremos
o disparados (outlier).

2. Mediana

Es el dato que ocupa la posición central cuando estos se encuentran


ordenados.

Ejemplo: Tenemos los siguientes datos:

3, 13, 7, 5, 21, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29

-Si los ordenamos queda:


3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56

Ing. Alejandro Vásquez Arrieta Página 7


-Hay quince números. El del medio es el octavo número:

3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56

-La mediana de este conjunto de valores es 23.

3. Moda
Es el dato que se presenta con mayor frecuencia en la distribución.
Cuando los datos están agrupados en intervalos, se define el intervalo
modal, que es el Intervalo con mayor número de datos.

Una distribución puede tener más de una moda, denominándose


distribución multimodal. Usualmente estos casos reflejan la presencia
de diferentes fenómenos geológicos.

b) Parámetros o Medidas de Dispersión


Son parámetros estadísticos que indican cuando se alejan del centro de
los parámetros de distribución.

1. Varianza  2 

Población:

Ing. Alejandro Vásquez Arrieta Página 8


Muestra:

Si: n  30

Si: n  30

2. Desviación Estándar  

Población:

Muestra:

Si: n  30

Si: n  30

Ejemplo: Calcular  de la siguiente muestra.

28 34 43 58 65 73 85

Calculando:

Ing. Alejandro Vásquez Arrieta Página 9


x  55.14   21.00

3. Coeficiente de Variación (CV)

Ejemplo: Calcular CV de los siguientes datos

228 314 385 476 619 714 821

Calculando:

x  509   217 CV=0.43

NOTA
Solo con el Coeficiente de variación
(CV) se puede comparar dos
conjuntos de diferente naturaleza.

Ejemplo: Mostrar la diferencia de dispersión de ZnA y ZnB graficándolos


sobre una recta numérica en los siguientes datos:

Ing. Alejandro Vásquez Arrieta Página 10


ZnA % ZnB% Ag g/TM
9.18 17.23 75.59
8.25 15.88 73.15
7.58 8.13 67.26
7.77 5.28 61.98
6.93 4.16 57.14
5.45 2.15 50.08
5.26 1.44 44.33
4.1 0.25 38.28

Solución:

-Calculando:

• ZnA %

x  6.815   1.724 CV=0.25

• ZnB%

x  6.815   6.498 CV=0.95

• Ag g/TM

x  58.48   13.51 CV=0.23

-Ordenamos los datos:

• ZnA %

4.1 5.26 5.45 6.93 7.58 7.77 8.25 9.18

  1.724 x  6.815

• ZnB%

0.25 1.44 2.15 4.16 5.28 8.13 15.88 17.23

x  6.815

  6.498

Ing. Alejandro Vásquez Arrieta Página 11


• Ag g/TM

38.28 44.33 50.08 57.14 61.98 67.26 73.15 75.59

  13.51 x  58.48

-Como el Coeficiente de Variación (CV) sirve para comparar dos conjuntos


diferentes tomaremos ZnA y Ag, resultando más disperso el conjunto ZnA.

• ZnA CV=0.25
• Ag CV=0.23
c) Parámetros o Medidas de Posición
Son valores que dividen el conjunto de datos en partes iguales.
1. Cuartiles
2. Percentiles
Ejemplo:
Q1 Q2 Q3

2 5 8 13 18 25 29 32 38 43 55 63

P25 P50 P75

d) Parámetros o Medidas de Forma


Nos brinda la forma de la distribución.
1. Coeficiente de Asimetría: Llamada también SKEWNESS
(oblicuidad), nos da la simetría o la asimetría.

- 0 +
Distribución Normal

Ing. Alejandro Vásquez Arrieta Página 12


2. Coeficiente de Aplastamiento: También llamada curtosis.

2.1. Mesocúrtica: Ni muy levantada, ni muy aplastada.

3
Distribución Normal

2.2. Planicúrtica: Cuando es aplastada o dispersa.

<3

2.3. Leptocúrtica: Cuando es levantada.

>3

PARÁMETROS ESTADÍTICOS BIVARIADOS


1. Covarianza Indica la relación entre 2 variables, pero no se puede
utilizar para comparaciones cuando los pares de datos son de
diferente naturaleza.

Ing. Alejandro Vásquez Arrieta Página 13


 Relación Directa (signo + de la covarianza)
+2.83

Cu

X2Y2

X1Y1

Pb

 Relación Inversa (signo negativo de la covarianza)


-2.15

Ag

Au

2. Coeficiente de Correlación: Indica la correlación entre dos variables.


Puede utilizarse para comparar cualesquier par de variables,
indicando la calidad de la correlación.

Ing. Alejandro Vásquez Arrieta Página 14


Si:

 1 Buena correlación.

 1 Perfecta correlación.

 0 Mala correlación.

Donde:

1    1

NOTA
El valor de referencia para una buena o mala correlación depende de:
-El número de datos.
-La precisión del estudio.

Para fines del curso se tomará a partir de 0.7

Ejemplo:

 AuAg  0.82  AuAg  0.82  Buena correlación

 CuAu  0.74  CuAu  0.74  Buena correlación

RECTA DE REGRESIÓN LINEAL

La regresión lineal o ajuste lineal es un método matemático que modela la


relación entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio.

𝑦 = 𝑏 + 𝑚𝑥

Ing. Alejandro Vásquez Arrieta Página 15


Donde:

b = Intersección de la recta con el eje vertical.

m = Pendiente de la recta
𝜎𝑥𝑦
𝑚=
𝜎𝑥2

Donde:
𝜎𝑥2 = Varianza de la variable independiente.

𝑦̅ = 𝑏 + 𝑚𝑥̅

𝑏 = 𝑦̅ − 𝑚𝑥̅

Ejemplo: Comparar Cu y Au para hallar la ecuación de regresión lineal


(tomar como población).

Cu% Ag g/TM Pb%


1.654 0.375 3.280
1.014 3.133 2.010
1.371 2.840 2.290
0.835 3.703 1.580
1.917 2.601 3.750
1.403 2.131 0.913
1.089 3.141 0.403

x =1.326 x =2.561 x =2.032


 =0.350  =1.001  =1.114

Ing. Alejandro Vásquez Arrieta Página 16


-Calculando:

 CuPb  0.281

 CuPb  0.719

-Tomamos Cu como variable dependiente y al Pb como independiente.

𝑦 = 𝑏 + 𝑚𝑥

𝐶𝑢 = 𝑏 + 𝑚𝑃𝑏 ……….. (1)


𝜌𝐶𝑢𝑃𝑏
𝑚= 2 = 0.226
𝜌𝑃𝑏

𝑏 = ̅̅̅̅ ̅̅̅̅
𝐶𝑢 − 𝑚𝑃𝑏
𝑏 = 1.326 − 0.226 × 2.032
𝑏 = 0.867

-Reemplazando en (1)

𝐶𝑢 = 0.867 + 0.226𝑃𝑏

DISTRIBUCIÓN NORMAL

La distribución normal es la distribución de mayor uso en la estadística


que se caracteriza por agrupar la mayor parte de los datos alrededor de la
media, siendo los datos extremos bastante escaso.

Ing. Alejandro Vásquez Arrieta Página 17


Donde:

𝑥̅ ± 𝜎 68%

𝑥̅ ± 2𝜎 95%

𝑥̅ ± 2𝜎 99.7%

Ing. Alejandro Vásquez Arrieta Página 18

You might also like