Professional Documents
Culture Documents
Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se
realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado
nmero de elementos de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el
D:\Libros digitales y Manuales\Libros-Castellano-Hansi-Libroz-Com-Ar\A\Alvarez J A\ALVAREZ J A - Repaso De
Conceptos Basicos De Estadistica.DOC
Pgina 2 de 15
Cuantitativas discretas. Aquellas a las que se les puede asociar un nmero entero, es decir, aquellas que por
su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un
libro, etc.
Cuantitativas continuas: Aquellas que no se pueden expresar mediante un nmero entero, es decir, aquellas
que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor
intermedio, por ejemplo peso, tiempo. etc.
No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen
continuas y viceversa.
Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un
nmero. Por ejemplo Sexo Profesin, Estado Civil, etc.
A su vez las podemos clasificar en:
-
Ordenables: Aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, El nivel de estudios,
etc.
No ordenables: Aquellas que slo admiten una mera ordenacin alfabtica pero no establece orden por su
naturaleza, por ejemplo el color de pelo, seco, estado civil, etc.
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que
resumamos estos datos quedando la siguiente tabla:
Personas Activas
1
2
3
4
Total
Nmero de Familias
16
20
9
5
50
1152
180
250
200
300
675
175
500
80
375
25 2680
1500 205
605
985
785
185
Evidentemente, la variable estadstica tiene un recorrido muy grande, 4998 pesetas, por lo que s queremos hacer una tabla
con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos
intervalos queremos?. Normalmente se suele trabajar con no ms de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la prdida de informacin sea mayor.
Los intervalos sern siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisin de intervalos los valores observados no coincidan con los valores de los extremos del
intervalo y si esto ocurre que no sea en ms de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li )
[ 0,500)
[ 500, 1000)
[ 1000,1500)
[ 1500, 2000)
[ 2000, 2500)
[ 2500, 3000)
[ 3000, 3500)
[ 3500, 4000)
[ 4000, 4500)
[ 4500, 5000)
[ 5000,5500)
Frecuencia
16
6
3
2
1
1
0
0
0
0
1
Aunque el mtodo ms utilizado o conocido sea el primero, quizs el ms cmodo de utilizar es el 2 en la mayora de los
casos.
n
N
Porcentaje:
La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos
por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.
p= f
i
100 %
N
F=N
Porcentaje Acumulado:
D:\Libros digitales y Manuales\Libros-Castellano-Hansi-Libroz-Com-Ar\A\Alvarez J A\ALVAREZ J A - Repaso De
Conceptos Basicos De Estadistica.DOC
Pgina 5 de 15
P = F 100 %
i
Veamos esto con un ejemplo: Tomamos para ello los datos relativos a las personas activas.
Personas Activas Nmero Familias
Xi
ni
1
16
2
20
3
9
4
5
Total
50
Fi
16/50
20/50
9/50
5/50
pi
32%
40%
18%
10%
Ni
16
36
45
50
Fi
Pi
16/50 32%
36/50 72%
45/50 90%
50/50 100%
x = xi
i=1
f = = x n
N
n
i=1
Propiedades:
Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por
dicho numero.
Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad.
Adems de la media aritmtica existen otros conceptos de media, como son la media geomtrica y la media armnica.
Media geomtrica:
La media geomtrica de N observaciones es la raz de ndice N del producto de todas las observaciones. La representaremos
por G.
G=N
x n x n . .... x n
1
Solo se puede calcular si no hay observaciones negativas. Es una medida estadstica poco o nada usual.
Media armnica:
La media armnica de N observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por
H
H=
i=1
1
1
x n
Mediana:
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el
valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.
Clculo de la mediana en el caso discreto:
Tendremos en cuenta el tamao de la muestra.
X
Si N es Par, hay dos trminos centrales, X , X
N +1
2
N
+1
2
Veamos un ejemplo.
N par
1,4,6,7,8,9,12,16,20, 24,25,27 N=12
Trminos Centrales el 6 y 7 9 y 12
N Impar
1,4,6,7,8,9,12,16,20, 24,25,27,30 N=13
Trmino Central el 7 , 12
Me=
Me=12
9 + 12
= 10,5
2
i 1
+x
AD
DE
=
SE
TIENE QUE J A\ALVAREZ J A - Repaso De
D:\Libros digitales y Manuales\Libros-Castellano-Hansi-Libroz-Com
-Ar\A\Alvarez
AB BC
Conceptos Basicos De Estadistica.DOC
Pgina 7 de 15
AD = x
AB = Li Li.1 = a i
N
De donde la mediana vale: Me =
i 1
2 N
N N
i
i . 1
i 1
Moda:
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de
centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo.
Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma
frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso.
Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin
embargo, debemos detenernos un poco en el clculo de la moda para distribuciones cuantitativas continuas.
Para ello veamos como se obtiene de modo grfico y posteriormente llegaremos a su determinacin analtica
Para ello vamos a utilizar el siguiente sistema de referencia: Como Origen el Punto Li-1 Como eje horizontal la recta
horizontal que contiene al punto Li-1 y como eje vertical la recta AB.
Segn este sistema de referencia las coordenadas de los puntos ABCD son las siguientes:
A(0,ni-1), B(0,ni), C(ay, ni) y D(ay, ni+1) . Queremos calcula el valor de x, que es la abscisa del punto P interseccin de las
rectas AC y BD.
Recta AC
Recta BD
D:\Libros digitales y Manuales\Libros-Castellano-Hansi-Libroz-Com-Ar\A\Alvarez J A\ALVAREZ J A - Repaso De
Conceptos Basicos De Estadistica.DOC
Pgina 8 de 15
x
a
=
y n
n n
x
a
i 1
=
i
x .( n n
a
i
i 1
+ ni1
=
i
y n
n n
i
i+1
x .( n n
a
i
i+1
+ ni
n n
x = ( n )( n ) a
n
n
i
i+1
i+1
i 1
Mo = L
+
i 1
n n
( n n )( n n ) a
i
i+1
i+1
i
i 1
Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente expresin:
Mo = L
i 1
i+1
i+1
+ ni1
ai
Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior
.
Li-1
Li
ni Ni
19 10
Mo = 65 +
10 = 70,29
45
55
6 6
(19 10 ) + (19 11)
55
65
10 16
Utilizando la frmula aproximada
65
75
19 35
11
75
85
11 46
Mo = 65 +
10 = 70,24
10 + 11
85
95
4 50
Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin con respecto a cualquiera de
ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviacin: Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di .
No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin, por
lo que precisaremos una medida que resuma dicha informacin.
La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de
todas las desviaciones y calculamos su media. Pero esta solucin es mala pues como veremos siempre va a ser 0.
d n = (x x ) n = x n n =
N
N
N
N x x x
D=
i=1
i=1
i=1
=0
i=1
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas.
Para resolver este problema, tenemos dos caminos:
Tomar el valor absoluto de las desviaciones. Desviacin media
Elevar al cuadrado las desviaciones. Varianza.
Desviacin media:
Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.
n
dm =
i=1
d n = x x n
N
N
n
i=1
Varianza:
Es la media de los cuadrados de las desviaciones, y la denotaremos por
d n = ( xi x) n
=
2
x
o tambin por
2
x
S =
2
i=1
i=1
Sx = x
x n
=
n
i=1
( x i x ) = x 2x x + x De donde
2
n =x n
x n 2 = x n 2 + 2
se obtiene: ( x i x )
2
2x x
x
x
N
N
N
N
2
i=1
i=1
i=1
Luego queda
i=1
probado.
Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por
ejemplo, si la variable viene dada en cm. La varianza vendr en cm2.
Desviacin tpica:
Es la raz cuadrada de la varianza, se denota por Sx o x.
S =
x
d n
n
i=1
x n
n
i=1
Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.
Otros dos estadsticos importantes son la cuasivarianza y la cuasidesviacin tpica, que como veremos cuando estudiemos el
tema de estimacin estadstica, son los estimadores de la varianza y desviacin tpica poblacionales respectivamente.
Cuasivarianza:
Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por N-1, la representaremos por
o
2
N 1
(
xi x) n
n
d
x n
=
=
=
N 1
N 1
N 1
2
2
N 1
= N 1
2
i=1
i=1
i=1
2
N
N
2
x =
S
N 1
N 1 x
Cuasidesviacin tpica:
La raz cuadrada de la cuasivarianza y la denotaremos por SN1 o N-1.
N 1
= N 1 =
N 1 x
2
N 1
C.V . =
100 %
L L n N
i 1
45
55
65
75
85
55
65
75
85
95
N=
6
10
19
11
4
50
6
16
35
46
50
n x
50
60
70
80
90
d n d n d
i
300 -19,4
600 -9,4
1330
0,6
880 10,6
360 20,6
3470
2
i
n x
116,4 2258,16
94
883,6
11,4
6,84
116,6 1235,96
82,4 1697,44
420,8
6082
2
i
15000
36000
93100
70400
32400
246900
x = 3470 = 69.4
50
Dm= 420.8
= 8.416
50
2
246900
x = 6082 = 12164
. =
69.42 = 12164
.
50
50
. = 11029
.
x = 12164
2
N 1 = 50 12164
. = 124122
.
49
.
= 11141
.
N 1 = 124122
11029
.
100 = 15.892 %
C.V.=
69.4
Cuartiles
Medida de localizacin que divide la poblacin o muestra en cuatro partes iguales.
Q1= Valor de la variable que deja a la izquierda el 25% de la distribucin.
Q2= Valor de la variable que deja a la izquierda el 50% de la distribucin = mediana.
Q3= Valor de la variable que deja a la izquierda el 75% de la distribucin.
D:\Libros digitales y Manuales\Libros-Castellano-Hansi-Libroz-Com-Ar\A\Alvarez J A\ALVAREZ J A - Repaso De
Conceptos Basicos De Estadistica.DOC
Pgina 11 de 15
N/2 IMPAR
N1
n1
n2
N
4
N
+1
4
Q=x
n1
N
+
2 n1
Q=x
3
N
+1
2
2
Q1 = x n1
+ xn2
2
N 1
4
Q=x
N 1
+1
4
n1
N
+
2 n2
n1
N IMPAR
(N-1)/2 PAR
(N-1)/2 IMPAR
n1
n2
n1
+ xn2
2
N
+1
2
+ n1
2
Q =x
3
n1
N +1
+
2 n1
Q=x
3
n1
N +1
4
+ xn2
2
Q=x
N+1
+
2 n2
N +1
+ n1
2
+ xn2
2
Q =x
n1
n1
ni-1
ni
Ny-1
Ny
N
Q1 = Li 1 + 4 i 1 a i
N i N i 1
3N
N
Q3 = Li 1 + 4 i 1 a i
N i N i 1
Deciles
Medida de localizacin que divide la poblacin o muestra en 10 partes iguales
No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables
continuas.
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin.
[Li-2 -- Li-1)
[Li-1 -- Li)
d =L
k
+
i 1
ni-1
ny
Ny-1
Ny
kN
10 N i1
N i N i1 ai
k = 1 .. 9
Percentiles:
Medida de localizacin que divide la poblacin o muestra en 100 partes iguales
ni-1
ni
p =L
k
+
i 1
Ny-1
Ny
kN
100 N i 1
N i N i1 ai
k=1 .. 99
Como se puede observar la forma de calcular estas medidas es muy similar a la del clculo de la mediana.
Veamos el clculo de algunas de estas medidas en el ejemplo que estamos estudiando.
Vamos a calcular Q1,Q, d7, y p45
Li-1
Li
ni Ni
45
55
6 6
55
65
10 16
65
75
19 35
75
85
11 46
85
95
4 50
Clculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde
al 2 intervalo.(50/4=12.5)
50 6
4
10 = 615
.
16 6
Q1 = 55 +
Anlogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el
4 intervalo (3.50/4=37.5)
3.50 35
Q3 = 75 + 46 4 35 10 = 77.27
Veamos ahora el decil 3. (corresponde al 30 % 3 50 / 10 = 15) sera el 2 intervalo.
= 55 +
3
3.50
10 6 10 = 64
16 6
p45 = 65 +
45.50
100 16 10 = 68.421
35 16
Una vez estudiadas las medidas de localizacin surgen dos nuevas medidas de dispersin, que son:
-
Recorrido intercuartlico:
Semirecorrido intercuartlico:
Recorrido interdeclico:
Recorrido intercentilico:
R = Q Q
Q Q
=
SR 2
R = d d
R = c c
Q
99
x M
es positiva, diremos que hay asimetra positiva o a la derecha, en el caso de que sea negativa
diremos que hay asimetra negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida
relativa, ya que esta influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetra como:
As =
x Mo
Esta medida es muy fcil de calcular, pero menos precisa que el coeficiente de asimetra de Pearson.
El coeficiente de asimetra de Pearson se basa en la comparacin con la media de todos los valores de la variable, as que es
una medida que se basar en las diferencias
desviaciones sera nulas, si las elevamos al cuadrado, seran siempre positivas por lo que tampoco serviran, por lo tanto
precisamos elevar esas diferencias al cubo.
Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de
su desviacin tpica. Con lo que resulta la siguiente exopresin:
(
xi x) n
As =
i=1
N
3
x
Curtosis nula
Mesocrtica
Curtosis Positiva
Leptocrtica
(
xi x) n
K=
i=1
N
4
Veamos por ltimo el clculo de estos dos ltimos coeficientes en el ejemplo que estamos estudiando.
L L n N
i 1
45
55
65
75
85
55
65
75
85
95
N=
6
10
19
11
4
50
n x
6
16
35
46
50
50
60
70
80
90
n d
i
n d
4
i
849881,098
78074,896
2,4624
138872,466
720325,638
1787156,56
x = 3470 = 69.4
50
Mo= 70.24
.
= 11029
69.4 70.24
= -0,892
As=
11029
.
Coeficiente de Asimetra de 40416
.
50 = -0,06025162
Pearson As=
3
11029
.
1787156.566
50 3 = -0,58431795
K=
4
11029
.
x