You are on page 1of 19

CURSO DE ACTUALIZACION PARA EGRESADOS

PROCESAMIENTO DE DATOS
1. INTRODUCCION
1.1 EXPECTATIVAS.
El contenido del curso esta basado en una experiencia de 28 años de haberse
dictado en la ciencia de la Ingeniería de Minas, Geología, Hidrología, Petróleo,
climatología, Meteorología, istemas de In!ormación Geogr"!ica, istemas
Expertos # $iencias de la $omputación%
$ada año &iene acompañado de una actuali'ación de conocimientos #
aplicaciones pr"cticas en el campo de la Estadística # Geoestadística # con una
re!erencia mu# amplia de la bibliogra!ía existente, (ue nos permitir"n resol&er
problemas de lo m"s simple a lo m"s comple)o%
Para una me)or comprensión del curso, se re(uiere (ue el alumno posea
conocimientos elementales del *lgebra lineal, Matrices, $"lculo di!erencial e
integral e in!orm"tica%
1.2 EL PROBLEMA A SER RESUELTO
El an"lisis # el procesamiento de los datos mineros, est"n basados en las
herramientas (ue nos o!rece la Geoestadística, la misma (ue incorpora la
locali'ación de las muestras en el espacio%
El problema a resol&er implica dos pasos !undamentales+
1ro. $aracteri'ar e interpretar el comportamiento de los datos re!eridos a las
muestras existentes%
2do. ,sar la interpretación para predecir los &alores probables respecto a
situaciones desconocidas%
• -er !igura sobre pro#ecto
1.3 CONJUNTO DE DATOS
.as aplicaciones cortas (ue se presentar"n en el desarrollo del curso, est"n
compuestos por datos mineros, de geología, hidrología # casos de estudio
medioambientales%
.as aplicaciones potenciales inclu#en medidas de datos en el espacio # su relación
insitu, en di!erentes campos, así por e)emplo podemos mencionar los siguientes
casos+
• CARBON: $on)unto de datos simulados sobre un estrato real de carbón en
el /!rica el ur% .os taladros per!orados sobre el estrato de carbón son
medidos para encontrar la siguiente in!ormación+ espesor 0mts1, contenido de
energía o &alor calorí!ico del carbón 0expresado en Mega)oules por 2on%1,
contenido de ceni'a 031 # contenido de sul!uros 031%

.as tres coordenadas expresadas en metros son medidas desde arriba 0collar1
del estrato del carbón donde es intersectado por el taladro%
• GASA: Este con)unto de datos es llamado así por la /sociación
Geoestadística de ud /!rica # !ue usado en una ilustración de las t4cnicas
Geoestadísticas% .as muestras son tomadas desde la pro!undidad de los
taladros per!orados, en un típico arreci!e de oro%
.as medidas de inter4s son la le# de oro expresado en gr5ton 0partes por
millon1 # el espesor entre la intersección del arreci!e con los taladros
0centímetros1% .os 26 taladros miden aproximadamente 7 8ilómetro #
constitu#en un típico con)unto de datos para el planeamiento # diseño de un
nue&o ingenio de una mina de oro% .os &alores se han ocultado por un !actor,
pero esto no altera los mismos% .as coordenadas est"n expresadas en metros%
• SCALLOPS: .os datos !ueron recolectados durante el año 799:, en un
crucero de estudio por la costa oriental de norte am4rica%
El n;mero de escamas 0gr"nulos1 !ueron obtenidos usando una draga%
$ual(uier gr"nulo mas pe(ueño a 6: mm% <ue tomado como un precolectado%
.a suma total de precolectados # colectados cu#as medidas se inclu#en en los
datos, son los siguientes+
= Identi!icador de estratos dentro de las muestras tomadas%
= >;mero de muestras por año, desde 7 a ?@: aproximadamente%
= .ocali'ación en t4rminos de latitud # longitud de cada muestra en el
oc4ano atl"ntico%
= >;mero total de gr"nulos en la locali'ación de la muestra%
= >;mero de gr"nulos alrededor de la longitud m"s pe(ueña (ue 6:
mm%
= >;mero de gr"nulos de longitud mas all" de 6: mm%
1.4 SOFTARE
Para el procesamiento de datos de acuerdo al caso en in&estigación, puede
utili'arse so!tAare estadístico o geoestadístico, seg;n la necesidad del
pro#ecto% En el mercado se dispone de so!tAare integrado de alta
especiali'ación, algunos de ellos son los siguientes+ Gemcom, Meds#stem,
-ulcan, Isatis, etc%
Para los e)emplos del curso puede utili'arse el so!tAare Geosto8os 0Ecosse1
diseñado especialmente para la enseñan'a # (ue corre ba)o la plata!orma de
AindoAs 9852::: # >2% Este programa puede ba)arse desde internet en la
siguiente dirección+
http+55AAA%geoecosse%h#permart%net
Btras herramientas alternati&as son los siguientes so!tAare+ Geoeas, -arioAin,
ur!er, Excel, Etc% /simismo existen en Internet una di&ersidad de programas
# demos de libre disposición, a los cuales puede acudir el alumno%
2. POR!UE UN ANALISIS ESTADISTICO
/l inicio hablamos de di!erentes problemas # la necesidad de predecir las
&ariables donde no tenemos in!ormación de muestreo% Esto implica buscar una
aproximación estadísticaC% E!ecti&amente dentro del marco conceptual del traba)o
par un an"lisis estadístico%%
>osotros podemos en!ocar el problema de la siguiente manera+
= Detalles a considerarse dentro del caso de estudio
= $aracteri'ación e interpretación del comportamiento de las muestras
de los datos alrededor de la &ecindad espacial%
= $ombinar las &ariables asumidas, la interpretación # la teoría
estadística para producir el EMe)orE estimador para el &alor
desconocido%
= ,sar la base teórica para pro&eer medidas de incertidumbre o
con!ian'a en la EMe)orE estimación%
.a base teórica de la Geoestadística incorpora a la teoría de la estadística cl"sica
# obtiene los mismos resultados cuando la &ariable asume un comportamiento
aleatorio%
3. AGRUPAMIENTO DE DATOS
3.1 D"#$r"%&'"() d* Fr*'&*)'"+#
Despu4s de haberse recopilado la in!ormación de campo # organi'ado en una
base de datos, se elige la &ariable a ser anali'ada # se procede a construir una
Distribución de <recuencias, para !acilitar el an"lisis # la interpretación
correspondiente% .a estructura de la tabla es la siguiente+
INTERVALO X
"
,
"
-
"
F
"
.
"
-
"
/100 .
"
/100
F.
7
,.
2
1
F.
2
,.
G
1
H
F.
8=7
,.
8
I
• Pro'*d"1"*)$o d* '23'&3o
1. Determinar el rango 0J1 de &ariación de los datos
J K Lmax = Lmin 0di!erencia entre el dato m"ximo # mínimo1
2. Determinar el n;mero de inter&alos 0M1 en !orma directa, seleccionando un
n;mero entre @ # G: inter&alos, o calcularlo mediante la !órmula de turges,
cu#o resultado debe ser redondeado al entero inmediato superior%
M K 7 N G%Glog0n1 n OK 7:
3. Determinar la amplitud o ancho del inter&alo 0P1
P K J 5 M
4. Determinar los límites de los inter&alos
.
7
K FL
min
, L
min
N P1
.
2
K FL
min
N P, L
min
N 2P1
.
G
K FL
min
N 2P, L
min
NGP1
H
.
8
K FL
min
N 08=71P, L
min
N MPI
3.2 Pr*#*)$+'"() d* d+$o#
.os datos pueden ser presentados mediante los siguientes gr"!icos+
• Histograma de !recuencias
• Polígono de !recuencias
• Histograma acumulado
• Gr"!icos de &ariabilidad
• Gra!ico de probabilidad
• Btros
3.3 C+#o d* *#$&d"o: M")+ d* '+r%()
COAL PROJET DATA
MUESTRA
4ID5
EST
E
41$#5
NORTE
41$#.5
ELEVACION
41$#5
POTENCIA
41$#5
VALOR
CALORIFICO
4MJ5
CENIZA
465
SULFUROS
465
:7 9@:: 72Q:: Q:@,9: 7,8? 22,2Q 79,29 :,8G
:2 9Q@: 72Q:: Q:@,7: 7,6G 27,GQ 79,96 :,68
%%%
%%%
9Q 77::: 7?7:: Q:Q,9: 7,Q9 2@,@6 7?,QG 7,:G
• DISTRIBUCION DE FRECUENCIAS
C23'&3o 7r*3"1")+r
-/JI/R.E -/.BJ
n 9Q
min 79,92
max G:,?Q
Jango 7:,@?
8 8
A 7,G2
D"#$r"%&'"() d* Fr*'&*)'"+#
INTERVALOS
X" ," -" F" ." -"/100 ."/100
L" L#
79,92: 27,2?: 2:,@8: 9 :,:9? 9,::: :,:9? 9,G6@ 9,G6@
27,2?: 22,@Q: 27,9:: 7G :,7G@ 22,::: :,229 7G,@?2 22,976
22,@Q: 2G,88: 2G,22: 7@ :,7@Q G6,::: :,G8@ 7@,Q2@ G8,@?2
2G,88: 2@,2:: 2?,@?: 27 :,279 @8,::: :,Q:? 27,86@ Q:,?76
2@,2:: 2Q,@2: 2@,8Q: 7@ :,7@Q 6G,::: :,6Q: 7@,Q2@ 6Q,:?2
2Q,@2: 26,8?: 26,78: 77 :,77@ 8?,::: :,86@ 77,?@8 86,@::
26,8?: 29,7Q: 28,@:: 8 :,:8G 92,::: :,9@8 8,GGG 9@,8GG
29,7Q: G:,?8: 29,82: ? :,:?2 9Q,::: 7,::: ?,7Q6 7::,:::
• PRESENTACION
HISTORAMA
0
5
10
15
20
25
20,580 21,900 23,220 24,540 25,860 27,180 28,500 29,820
HISTOGRAMA ACUMULADO
0,000
20,000
40,000
60,000
80,000
100,000
120,000
2
0
,
5
8
0
2
1
,
9
0
0
2
3
,
2
2
0
2
4
,
5
4
0
2
5
,
8
6
0
2
7
,
1
8
0
2
8
,
5
0
0
2
9
,
8
2
0
Variabilidad
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
9
5
0
0
9
6
5
0
9
5
0
0
1
0
7
0
0
1
0
4
0
0
1
0
2
5
0
1
0
2
5
0
9
8
0
0
1
0
1
0
0
9
8
0
0
9
6
5
0
9
8
0
0
GRAFICO DE PROBABILIDAD
4. MEDIDAS ESTADISTICAS
4.1 MEDIDAS DE TENDENCIA CENTRAL
on medidas (ue señalan de una manera elegante el &alor medio del con)unto de
datos% Este primer tipo de medidas estadísticas, nos sir&en para determinar un
&alor tipo o representati&o del &olumen de datos% $ada una de las siguientes
medidas tienen un propósito b"sico di!erente en la descripción de los datos%
• MODA
Es el &alor (ue ocurre con ma#or !recuenciaS es decir, el &alor m"s !recuente% .a
moda puede no existir, e incluso no ser ;nica en caso de existir%
E)emplo+ El con)unto 2,2,@,6,9,9,9,7:,7:,77,72 # 78 tiene moda 9%
E)emplo+ El con)unto G,@,8,7:,72,7@ # 7Q no tiene moda%
E)emplo+ El con)unto 2,G,?,?,?,@,@,6,6,6 # 9 tiene dos modas, ? # 6 # se llama
bimodal%
,na distribución con moda ;nica se dice unimodal.
En el caso de datos agrupados donde se ha#a construido una cur&a de
!recuencias para a)ustar los datos, la moda ser" el &alor 0o &alores1 de L
correspondiente al m"ximo 0o m"ximos1 de la cur&a% Ese &alor de L se denota
por %
.a moda puede deducirse de una distribución de !recuencias o de un histograma
a partir de la !órmula+

donde+

L
1
K !rontera in!erior de la clase modal 0clase (ue contiene a la moda1%
K exceso de la !recuencia modal sobre la de la clase in!erior inmediata%
K exceso de la !recuencia modal sobre la de la clase superior nmediata%
cK anchura del int4r&alo de clase modal%
E)emplo+ ea la siguiente distribución de !recuencias%
I>2EJ-/.B
Li !i
lim% In!erior lim% uperior
2?,@ 29,@ 26 7
29,@ G?,@ G2 8
G?,@ G9,@ G6 22
G9,@ ??,@ ?2 2Q
??,@ ?9,@ ?6 2:
?9,@ @?,@ @2 72
@?,@ @9,@ @6 Q
@9,@ Q?,@ Q2 @
Moda K G9,@ N @T?50?NQ1U K ?7,@
0
5
10
15
20
25
30
27 32 37 42 47 52 57 62
Marcas de clase
F
r
e
c
u
e
n
c
i
a

(
f
i
)
• MEDIANA
.a mediana de un con)unto de n;meros ordenados en magnitud es o el &alor
central o la media de los dos &alores centrales, Es decir +

2
7 +
·
n
X Mediana
i EnE es impar
2
7
2 2
÷
1
]
1

¸

+ ·
+
n n
X X Mediana
i EnEes par
E)emplo+ El con)unto de n;meros G,?,?,@,Q,8,8,8 # 7: tiene mediana Q%
E)emplo+ El con)unto de n;meros @,@,6,9,77,72,7@ #78 tiene mediana%
Para datos agrupados, la mediana obtenida por interpolación &iene dada por+

MedianaK

Donde+

.
i
K !rontera in!erior de la clase de la mediana%
>K n;mero de datos 0!recuencia total1%
K suma de !recuencia de las clases in!eriores a la de la mediana
!
mediana
K !recuencia de la clase de la mediana
cK anchura del int4r&alo de la clase de la mediana%
E8*173o: Jetomando los datos del e)emplo de la moda, tenemos+
I>2EJ-/.B
Li !i <i
lim% In!erior lim% uperior
2?,@ 29,@ 26 7 7
29,@ G?,@ G2 8 9
G?,@ G9,@ G6 22 G7
G9,@ ??,@ ?2 2Q @6
??,@ ?9,@ ?6 2: 66
?9,@ @?,@ @2 72 89
@?,@ @9,@ @6 Q 9@
@9,@ Q?,@ Q2 @ 7::
7@ , ?G @ V
2Q
G7 @:
@ , G9 ·
1
]
1

¸
+
+ · Mediana
0
20
40
60
80
100
120
27 32 37 42 47 52 57 62
Marcas de clase
F
i
G*o19$r"'+1*)$* 3+ 1*d"+)+ *# *3 :+3or d* X 4+%#'"#+5 ;&* 'orr*#7o)d* + 3+
r*'$+ :*r$"'+3 ;&* d":"d* &) -"#$o<r+1+ *) do# 7+r$*# d* "<&+3 2r*+. E#*
:+3or d* X #* #&*3* d*)o$+r 7or %
• MEDIA :
.a media de un con)unto de > n;meros, L
7
, L
2
, L
G
, %% L
>
% e de!ine por+
i las L se agrupan en M int4r&alos, con puntos medios m
7
,m
2
,%%%, m
8
#
!recuencias !
7
,!
2
,%%%,!
8
, la media aritm4tica &iene dada por+

donde iK7,2,%%%,8%
• RELACION EMPIRICA ENTRE MEDIA= MEDIANA > MODA
P+r+ '&r:+# d* ,r*'&*)'"+ &)"1od+3*# ;&* #*+) 7o'o +#"19$r"'+# $*)*1o# 3+
#"<&"*)$* r*3+'"() *17?r"'+
Media W Moda K G0media= mediana1
Po#"'"o)*# r*3+$":+# d* 3+ 1*d"+= 3+ 1*d"+)+ @ 3+ 1od+ 7+r+ '&r:+# d*
,r*'&*)'"+ +#"19$r"'+ + d*r*'-+ * "A;&"*rd+= r*#7*'$":+1*)$*= 7+r+ '&r:+#
#"19$r"'+# 3o# $r*# :+3or*# 'o")'"d*).
4.2 MEDIDAS DE DISPERSION
on medidas (ue sir&en para cuanti!icar la &ariación de los datos o la ma#or o
menor concentración de los mismos en torno a un &alor central, generalmente
la media aritm4tica%
• RANGO
Es la medida mas simple de &ariabilidad # su c"lculo esta basado en los
&alores mínimo # m"ximo de los datos%
J K M/L = MI>
• RECORRIDO INTERCUARTIL 4I!R5
Esta basado en el c"lculo del cuartil G 0!
3
1 # el cuartil 7 0!
1
1 # es una
medida de la dispersión de la muestra%
I!R B X
0.CD
E X
0.2D
B !
3
E !
1

Para datos agrupados suele utili'arse la siguiente expresión+
1
]
1

¸

+ ·

i
i
i i j
f
F n j
W L Q
7
1 0 ? 5
para ) K 7,2,G
X
2
K Mediana%
• VARIANZA
.a &arian'a constitu#e una medida de dispersión con respecto a la media # es
un n;mero ma#or o igual a cero% En el ;nico caso en (ue la &arian'a es igual
a cero, es a(uel de una muestra del tipo+
M K T a,a,a,a%%%%%%,aU con a K cte%
Es decir una muestra sin &ariación% .a !órmula de la &arian'a es la siguiente+
( )

·
− ·
n
i
i
x x
n
7
2 2
7 
ο
,na expresión recomendada en programas computacionales es+

·
− ·
n
i
i
x x
n
7
2 2 2
Y
7
ο
Para datos agrupados las !ormulas cambian a la siguiente !orma+
( )

·
− ·
n
i
i i
x x f
n
7
2 2
7 
ο

·
− ·
n
i
i i
x x f
n
7
2 2 2
Y
7
ο
• DESVIACION ESTANDAR O TIPICA
Debido a (ue la &arian'a es una suma de cuadrados, la unidad de
2
ο es igual
a la unidad de la muestra ele&ada al cuadrado, es decir si L se mide en 3 de
$u,
2
ο se mide en 03 de $u1
2
% Por esta ra'ón se de!ine la des&iación
est"ndar típica ο %
2
ο ο ·
.a des&iación est"ndar est" expresada en las mismas unidades de la &ariable
estadística%
• COEFICIENTE DE VARIACION 4CV5
El coe!iciente de &ariación o dispersión relati&a, es un n;mero abstracto,
generalmente se expresa en porcenta)e 031% Es ;til para hacer comparaciones
cuando se usan unidades de medida di!erente% u expresión de c"lculo es+
x
CV
ο
·
4.3 MEDIDAS DE FORMA
• COEFICIENTE DE SIMETRIA 4SF5
El coe!iciente de simetría sir&e para caracteri'ar comportamientos sesgados
de la distribución de datos% e de!ine de la siguiente manera+
G
G
ο
µ
· sk
( )
n
x x
n
i
i ∑
·

·
7
G
G
µ
e demuestra (ue+
8 Z : /simetría negati&a
8 O : /simetría positi&a
8 K : /simetría nula K imetría
• EL COEFICIENTE DE EXCESO O DE FURTOSIS 4E5
El coe!iciente de 8urtosis E es una medida del EachatamientoE de un
histograma con respecto al modelo teórico de Gauss, el cual tiene por
ecuación+
2
2
7
2
7
1 0

,
_

¸
¸ −

Π
·
ο
ο
m x
e x f
G
?
?
− ·
ο
µ
E
( )

·
− ·
n
i
i
x x
n
7
?
?
7
µ
/l comparar un cierto histograma con la !unción !0x1, se demuestra lo
siguiente+
E O : Histograma m"s EpuntiagudoE (ue la .e# de Gauss
E Z : Histograma m"s EachatadoE (ue la .e# de Gauss
E K : Histograma sin achatamiento, igual (ue la .e# de Gauss%
D. EJEMPLOS DE APLICACIGN
D.1 DATOS REFERIDOS A UNA MINA DE ORO
.as muestras tomadas en un #acimiento de oro, con!iguran los siguientes datos
expresados en gr5ton%
:,7 :,2 :,@ 7,: 7,2 2,7 2,@ G,: @,7 7:
$alcular las medidas estadísticas%
Estructura de datos para un c"lculo manual
ID X" 4X" E M*d"+5H2 4X" E M*d"+5H3 4X" E M*d"+5H4 ."/100
7 :,7 Q,7:7 =7@,:Q9 G6,22:987 7:
2 :,2 @,Q76 =7G,G72 G7,@?9@QQ 2:
G :,@ ?,28@ =8,86: 78,GQ:GQ8 G:
? 7 2,?Q@ =G,86: Q,:6@6G2 ?:
@ 7,2 7,866 =2,@67 G,@226@? @:
Q 2,7 :,227 =:,7:? :,:?8696 Q:
6 2,@ :,::@ :,::: :,::::2? 6:
8 G :,78@ :,:8: :,:G?788 8:
9 @,7 Q,?:7 7Q,79? ?:,967@27 9:
7: 7: @@,2:@ ?7:,762 G:?6,@8:98? 7::
M*d"d+ V+3or
media 2,@6:
mediana 7,Q@:
-ar 8,2GQ
des& std 2,86:
$- 031 777,QQ8
X7 :,G@:
XG 2,6@:
IXJ 2,?::
momentG G8,2Q@
moment? G78,@GQ
s8 7,Q79
E 7,Q9Q
his!"ra#a
0
1
2
3
4
5
6
1 3 5 7 9 $i
f
i
Eliminando el dato mas alto 07: gr5ton1, las nue&as medidas estadísticas cambian
a los siguientes &alores%
M*d"d+ V+3or
Media 7,6??
Mediana 7,2::
-ar 2,GGQ
des& std 7,@28
$- 031 86,Q77
X7 :,26@
XG 2,?::
IXJ 2,72@
MomentG G,29:
Moment? 7Q,7@Q
8 :,927
E =:,:G9
his!"ra#a
0
1
2
3
4
5
6
1 3 5 7 9 $i
f
i
D.2 COAL PROJECT DATA
Jetomando la data de la mina de carbón, cu#a &ariable anali'ada es E$alori!ic
&aluesE % us medidas estadísticas calculadas son las siguientes+
I. MJTODO DE LA JIECUADRADO
Este m4todo constitu#e la ;nica !orma de testi!icar el car"cter normal de una
distribución con una determinada !iabilidad estadística% Es un m4todo m"s
comple)o # costoso en tiempo (ue los anteriores, pero debe lle&arse a cabo
cuando la necesidad de conocer la normalidad de una distribución se hace
imprescindible% En sí, el m4todo consiste en establecer una serie de rebanadas
para la distribución normal establecida estadísticamente # las mismas rebanadas
para la distribución cu#a testi!icación se (uiere lle&ar a cabo, para, a
continuación, comparar ambos grupos de rebanadas # comprobar su parecido,
comparación (ue se reali'a con un estadístico de!inido como [i=cuadrado% .os
pasos a seguir para este proceso serían los siguientes+
a1 e calculan la media aritm4tica # la des&iación est"ndar del con)unto de datos%
b1 e tipi!ican los &alores, es decir, a cada &alor se le resta la media # se di&ide este
resultado por la des&iación est"ndar, con lo (ue los datos anteriores se
con&ierten en un grupo de &alores (ue oscilan, en su ma#or parte, alrededor de
=G # NG% El &alor cero correspondería, por de!inición, a la media aritm4tica%
c1 e establece un n;mero de inter&alos 0correspondientes a las rebanadas citadas
anteriormente1 en los (ue se calcula la !recuencia relati&a para los datos
estudiados% El n;mero de inter&alos es libre, siendo seis 0tres &alores de la
des&iación est"ndar a cada lado de la media1 un &alor aceptable%
d1 e constru#e una tabla con las !recuencias obtenidas 0las calculadas en el paso
anterior1 # las esperadas, estas ;ltimas correspondientes a las (ue serían de
esperar si se tratase de una distribución normal de!inida matem"ticamente
02abla Q%71%
e1 e calcula el estadístico [i=cuadrado 0L
2
1, de!inido como+
( ) [ ] ( ) [ ] ( ) [ ] ( )

− · − + − + − ·
i i i n n n
e e e e e e e e x 5 2 : 5 : %%%% 5 : 5 :
2
7 2
2
2 2 7
2
7 7
2
donde+
L
2
K Estadístico [i=cuadrado
e
7
e
2
, %%% e
n
K <recuencias esperadas
o
7
, o
2
, %%% o
n
K <recuencias obtenidas%
Este estadístico representaría la medida de la discrepancia ent re
ambas distribuciones 0la (ue se estudia # la normal1%
!1 Por ;ltimo, se compara el &alor de la [i=cuadrado con otro obtenido en \a tabla
de este estadístico 02abla Q%21, (ue se calcula entrando por dos &alores+ a1 el
n;mero de grados de libertad, (ue se de!ine como el n;mero de inter&alos
establecidos menos el &alor G # b1 el ni&el de signi!icancia, (ue se de!ine como
la probabilidad m"xima de cometer un error cuando se recha'a una hipótesis
(ue debería ser aceptada% i el &alor de la [i=cuadrado es menor (ue el &alor de
la tabla, se puede asumir, entonces, (ue el con)unto de datos estudiado se a)usta
a una distribución normal% Ha# (ue hacer constar (ue, en estadística, esta
ase&eración no es correcta, es decir, nunca se puede llegar a a!irmar (ue un
con)unto de datos es una distribución normal% De !orma estricta, en estadística
se plantea la hipótesis nula+ no se a)usta a una distribución normal, para, a
continuación, recha'ar la hipótesis nula+ >o ha# ra'ones para recha'ar la
hipótesis nula% /un(ue a e!ectos pr"cticos, \o (ue interesa es saber si un
con)unto da datos puede ser tratado como si !uese una distribución normal, es
importante siempre tener en cuenta esta mati'ación de car"cter estadístico%
E8*173o I.1. ean los &alores mostrados a continuación las le#es en ]n 031 de
GG muestras tomadas en un #acimiento estrati!orme de Pb=]n% $omprobar% a
tra&4s de los m4todos descritos anteriormente, si dichos &alores se asustan a
una distribución normal%
Q,? @,? ?,6 8,2 Q,8 Q,2 Q,G G,9 Q,2
6,7 ?,9 @,6 Q,7 Q,2 6,? 6,@ Q,7 @,Q
@,? 6,@ @,8 2,8 @,9 9,7 6,G G,G @,7
@,9 @,8 @,8 ?,Q ?,9 Q,2
So3&'"()
En primer lugar, para la construcción del histograma de !recuencias se de!inen los
inter&alos% Puesto (ue las le#es oscilan, aproximadamente, entre el 23 # el 7:3,
se pueden establecer 8 inter&alos, de uno en uno por ciento% $on ello, las
!recuencias absolutas para obtener el histograma serían+
23=G3 K 7
G3=?3 K 2
?3=@3 K ?
@3=Q3 K 7:
Q3=63 K 9
63=83 K @
83=93 K 7
93=7:3 K 7
En la !igura Q%G se puede obser&ar el histograma de !recuencias correspondiente%
/ su &e', en la !igura Q%?% se muestra el con)unto de datos representados en escala
probabilística% En ambas !iguras se pone de mani!iesto (ue no se comete un error
excesi&o si se considera la población como una distribución normal%
<ig% Q%G Histograma de !recuencias par las .e#es de ]inc%
<ig% Q%? $ur&a de Probabilidad 0m4todo de la recta de Henri1
2abla Q%7 Probabilidades acumuladas para la distribución normal estandari'ada
DESVIACIONES
ESTANDAR DESDE
LA MEDIA
PROBABILIDAD
ACUMULADA
DESVIACIONES
ESTANDAR DESDE
LA MEDIA
PROBABILIDAD
ACUMULADA
=G,: :%::7? N:%: :%@:::
=2,9 :%::79 N:%7 :%@G98
=2,8 :%::2Q N:%2 :%@69G
=2,6 :%::G@ N:%G :%Q769
=2,Q :%::?6 N:%? :%@@@?
=2,@ :%::Q2 N:%@ :%Q97@
=2,? :%::82 N:%Q :%62@6
=2,G :%:7:6 N:%6 :%6@8:
=2,2 :%:7G9 N:%8 :%6887
=2,7 :%:769 N:%9 :%87@9
=2,: :%:228 N7%: :%8?7G
=7,9 :%:286 N7%7 :%8Q?G
=7,8 :%:G@9 N7%2 :%88?9
=7,6 :%:??Q N7%G :%9:G2
=7,Q :%:@?8 N7%? :%9792
=7,@ :%:QQQ N7%@ :%9G92
=7,? :%:8:8 N7%Q :%9?@2
=7,G :%:9Q8 N7%6 :%9@@?
=7,2 :%77@7 N7%8 :%9Q?7
=7,7 :%7G@6 N7%9 :%967G
=7,: :%7@86 N2%: :%966G
=:,9 :%78?7 N2%7 :%9827
=:,8 :%2779 N2%2 :%98Q7
=:,6 :%2?2: N2%G :%989G
=:,Q :%26?G N2%? :%9978
=:,@ :%G:8@ N2%@ :%99G8
=:,? :%G??Q N2%Q :%99@G
=:,G :%G827 N2%6 :%99Q@
=:,2 :%?2:6 N2%8 :%996?
=:,7 :%?Q:2 N2%9 :%9987
=:,: :%@::: NG%: :%9986
2abla Q% 2 &alores de la [i=cuadrado para det erminados grados de libertad
# ni&eles de signi!icancia
NUMERO DE
GRADOS DE
LIBERTAD
NIVEL DE SIGNIFICANCIA465
20 10 D 2.D 1
7 7%Q? 2%67 G%8? @%:2 Q%QG
2 G%22 ?%Q7 @%99 6%G8 9%27
G ?%Q? Q%2@ 6%87 9%G@ 77%G?
? @%99 6%68 9%?9 77%7? 7G%28
@ 6%29 9%2? 77%:6 72%8G 7@%:9
Q 8%@Q 7:%Q? 72%@9 7?%?@ 7Q%87
6 9%8: 72%:2 7?%:6 7Q%:7 78%?8
8 77%:G 7G%GQ 7@%@7 76%@G 2:%:9
9 72%2? 7?%Q8 7Q%92 79%:2 27%Q6
7: 7G%?? 7@%99 78%G7 2:%?8 2G%27
Xuedaría, por tanto, para completar el an"lisis, la testi!icación a tra&4s de la [i=cuadrado%
Para ello, # de acuerdo con los pasos a seguir descritos anteriormente, lo primero sería
tipi!icar la &ariable 0media K @,9? # des&iación est"ndar K 7,G71% / continuación se
muestran \os &alores de las le#es tipi!icados%
N:,G@ =:,?7 =:,9@ N7,6G N:,QQ N:,2: N:,26 =7,@Q N:,2: N:,89 =:,69 =:,78 N:,72 N:,2:
N7,77 N7,79 N:,72 =:,2Q
=:,?7 N7,79 =:,77 =2,?: =:,:G N2,?7 N7,:? =2,:2 =:,Q=G
=:%:G =:,77 =:,77 =7,:2 =:,69 N:,2:
Posteriormente se de!ine la tabla de !recuencias obtenidas # !recuencias esperadas 02abla
Q%G1+
2abla Q%G% <recuencias obtenidas # esperadas para el e)emplo Q% 7%
INTERVALOS
0E1σ 0E1σ 1σE2σ E1σE2σ 2σE3σ E2σE3σ
FRECUENCIA
OBTENIDA
7: 7G @ 2 7 2
FRECUENCIA
ESPERADA
77%2Q 77%2Q ?%?9 ?%?9 :%67 :%67
.a !recuencias esperadas se calculan a partir de la tabla correspondiente a las
probabilidades acumuladas de la Distribución normal 0Etabla Q%71% Por e)emplo, para el
primer inter&alo, (ue corresponde a los &alores incluidos entre : # N lσ, en la 2abla Q%7 se
buscaría el &alor d+ : 0:,@ en tanto por uno K @: 31 # el &alor de Nlσ 0:,8?7G en tanto
por uno K 8?,7G31% Jestando ambos 0G?,7G31 se obtendría el porcenta)e de datos
incluido entre la media # una Des&iación est"ndar% /hora bien, este &alor seria para 7::
datos, como en el problema se tienen GG, el nue&o &alor sería G?,7G x :,GG K 77,2Q, (ue
es el (ue !igura en la casilla de las !recuencias esperadas, tanto para el inter&alo antes
citado corno para el siguiente 0entre cero # menos una des&iación est"ndar1, pues la
distribución normal es sim4trica respecto a la media% El resto de !recuencias se
calcularían de !orma similar%
/ continuación se estima el &alor del estadístico [i=cuadrado utili'ando la !órmula
correspondiente+
L
2
K 07:=77,2Q1
2
577,2Q N 07G=77,2Q1
2
577,2Q N 0@=?,?91
2
5?,?9 N 02=?,?91
2
5?,?9 N 07=
:%671
2
5:,67N 02=:,671
2
5:,67 K :,7? N :,G: N :,:Q N 7,G8 N :,72 N 2,G? K ?,G?
es decir, el &alor de [i=cuadrado es ?%G?% /hora se entra en la 2abla Q%2% considerando G
grados de libertad 0Q inter&alos = G1 # un ni&el de signi!icancia, por e)emplo, del 7:3% e
tendría el &alor Q,2@% Puesto (ue este &alor es superior al de la [i=cuadrado, se podr"
considerar la población como una distribución normal%