You are on page 1of 86

ESTADSTICA

Lic. Jorge Luis Gonzales Lafosse

OBJETIVO
Conocer los procesos
que nos permitan la
comprensin de un
fenmeno econmico,
social, poltico,etc., a
travs del anlisis de
un conjunto de datos.

POBLACIN
Es el conjunto de
personas o cosas
acerca de las cuales se
desea informacin.
A sus elementos se les
denomina datos y una
parte finita de sta se
le denomina muestra.

Poblacin
muestra

DEFINICIN
La Estadstica es una
disciplina que nos brinda
un conjunto de mtodos y
procedimientos que
permiten recopilar,
clasificar, presentar y
describir datos para tomar
decisiones frente a la
incertidumbre.

CLASIFICACIN
La Estadstica Descriptiva trata de la recopilacin, clasificacin
presentacin y descripcin de los datos.
La Estadstica Inferencial nos proporciona la teora para afirmar
algo acerca de la poblacin a partir del anlisis de los datos.
Estadstica Descriptiva
Poblacin
muestra

Recopilacin

Clasificacin,
Presentacin,
muestra Descripcin de
datos

Estadstica Inferencial

VARIABLES
VARIABLE DISCRETA
Slo puede tomar valores enteros.
Ej.:N de hijos de una familia, N de objetos producidos por
una
mquina, etc. x = 1; 2; 3; 4;etc.
VARIABLE CONTINUA
Puede tomar un conjunto de valores reales pertenecientes a
un
Ej.:
pesos de personas, estaturas, medidas de longitud, etc.
intervalo.

1 x 2

ESTADSTICA DESCRIPTIVA
RECOPILACIN
todos los elementos de la poblacin
Censo
algunos elementos de la poblacin
Muestra
Muestreo aleatorio
recopilacin de datos al azar
CLASIFICACIN
Los datos deben ser organizados de acuerdo a su magnitud
o agruparlos de acuerdo a sus caractersticas.
PRESENTACIN DE DATOS
Se realiza a travs de cuadros numricos denominados tablas
y se presentan mediante grficas

DEFINICIONES

EJEMPLO
Clasificar los siguientes datos recopilados del nmero de
cabezas de ganado vacuno que poseen 40 familias, tomados
al azar.

14230335512110048310210
00490131313

RANGO

(A
;13
A
aA)

;0b

Es el intervalo definido por los datos de mayor y menor valor


a: menor valor
b: mayor valor

La longitud del alcance

En el ejemplo:

( A ) se define como:

1L3i;,log1n
Iki

INTERVALO DE CLASE (Ii)

Representa una de las particiones en que el alcance ha sido


dividido.
i = 1;2;3;........;k

Li: Lmite de clase

Nota: El intervalo Ik puede ser cerrado

Para calcular k podemos usar la Regla de Sturges:

n: # total de datos

5k16k238,1l5og640

REGLA DE STURGES

Cuando el nmero de datos es menor que 100, el nmero


de intervalos se debe tomar menor que 10.
Para un nmero de datos bastante grande, el nmero de
intervalos es mayor que 10.
En la prctica:
En el ejemplo:

Luego k podr tomar: 5; 6 7


Tomamos: k = 7

(W
IW
)
L

i
i
i1

1
i

(7
)3
A
k,857W
2

ANCHO DE CLASE (Wi)


Es la longitud de un intervalo de clase

Para anchos de clase iguales W se tiene:

En el ejemplo:

FRECUENCIA ABSOLUTA(ni)
Es el nmero de datos contenidos en cada intervalo
de clase.
ni : frecuencia absoluta de la i-sima clase
DISTRIBUCIN DE FRECUENCIAS ABSOLUTAS
Esta se realiza a travs de una tabla donde intervienen
los intervalos de clase y las frecuencias absolutas.

TABLA N1

CIntaegbravenazlaodssoddee Tabulacin
clseIi

Total

NFrpedocerufcealnmcsiileaass
absoltasni

0;;;12864024
II7I652134

TABLA N1

CIntaegbravenazlaodssoddee Tabulacin
clseIi

Total

NFrpedocerufcealnmcsiileaass
abso1l4tasni

97
14
32
40

n
1
4
i
k
n

9
7

.
2

4
0
n
ii
1
2
3
7
1I1I

;L
,1L
0
2
IL
;2L

2
43,I3L

;46,.7712;4
4
2
DISTRIBUCIN DE
FRECUENCIAS
ABSOLUTAS
En el ejemplo: n = 40; k = 7
Se cumple que:

n3 = 7, se lee. la frecuencia absoluta de la tercera clase es 7

Los intervalos de clase son:

Los lmites de clase son:

i
i

1
x

i
2
0

2
12
2
x21L

1
2343

MARCA DE CLASE (xi)


Es el punto medio de un intervalo de clase

i = 1;2;3;....;k

x3 = 5; se lee: la marca de clase del tercer intervalo de clase


es 5

n
i
h

ih
n149
0,325

FRECUENCIA RELATIVA (hi)

1212

Es el cociente entre la frecuencia absoluta de una clase


y
la cantidad total de datos.
Nota:

* 0 hi 1

* h1 h 2 h 3 ...... h k 1

II7I652134

0;;;12864024

TABLA N2

Cagbaenzadsode NFrdce.faAbmsiloal.s dMearclase FrRecluaetinvacisas RFrleac.uAcenucmiausl. AbFresc.uAcenucmiausl. RFrelac.uPoenrciaesn. RFre.cAcueun.cPiaosr.


Clases 1n4i xi hi Hi Ni 10hi% 10Hi%
97
14
32
Totales 40

II7I652134

0;;;12864024

TABLA N2

Cagbaenzadsode NFrdce.faAbmsiloal.s dMearclase FrRecluaetinvacisas RFrleac.uAcenucmiausl. AbFresc.uAcenucmiausl. RFrelac.uPoenrciaesn. RFre.cAcueun.cPiaosr.


Clases 1n4i x1i 0,3h5i0 0,3H5i0 1N4i 1035hi% 103H5i%
97 35 00,,21755 00,,577550 2330 217,,55 5775,5
14 79 00,,01205 00,,78755 3315 21,05 787,,55
32 113 00,,007550 0,9150 3480 75,5 1905
Totales 40
1
10

FRECUENCIA RELATIVA
PORCENTUAL
La frecuencia relativa porcentual (100hi%) nos permite
apreciar estos mismos datos, pero en porcentaje.
En la tabla 2:
Qu porcentaje de familias de las 40 bajo
estudio,
tienen 4 5 cabezas de ganado?
Respuesta: 17,5%

N
n132n3110,.1422N

.7490ni23
iN

FRECUENCIA ABSOLUTA
ACUMULADA (Ni)

Nos dice el nmero de datos que hay igual al considerado


e inferiores a l.

* 0 Ni n

i = 1;2;3;......;k

* Nk N7 n

N
iiH
H

.132nh170,23.5H
h

h
1
2
i7
1
7

FRECUENCIA RELATIVA
ACUMULADA (Hi)
Es el resultado de dividir cada frecuencia acumulada
por el nmero total de datos.

* 0 Hi 1

* Hk H7 1

i = 1;2;3;.....;k

FRECUENCIA RELATIVA
ACUMULADA PORCENTUAL
La frecuencia relativa acumulada porcentual(100Hi%)
nos brinda la misma informacin pero en porcentaje.
En la tabla 2:
Qu porcentaje de familias de las 40 bajo estudio,
tienen menos de 8 cabezas de ganado?
Respuesta: 77,5%

GRFICAS

HISTOGRAMAS
ni
15

14

Son grficas de barras


o rectngulos cuyas bases
representan los intervalos 10
de clase(Ii) y las alturas las
frecuencias absolutas(ni)
5
o relativas(hi)

9
7
4
3
2

1
0

10

12

14

Ii

POLGONO DE
FRECUENCIAS
n
15

Son poligonales construidas


uniendo los puntos medios
de los techos de los
rectngulos del histograma.

14

10

9
7

4
3
2

1
0

10

12

14

Ii

FUNCIN ESCALONADA
N

Son grficas de barras 40


cuyas bases representan
los intervalos de clase 30
(Ii) y las alturas, las
frecuencias absolutas 20
(Ni) o relativas
10
acumuladas(Hi)
0

40

38

35
31

30
23
14

10

12

14

Ii

OJIVAS
Son poligonales asociadas a distribuciones de frecuencias
absolutas o relativas acumuladas
N

40

35
31

30

30

40

38

23
20
14
10

10

12

14

Ii

DESCRIPCIN DE DATOS

ESTADGRAFOS
Son nmeros que describen alguna caracterstica de la muestra.
Pueden ser de dos tipos:
1) ESTADGRAFOS DE POSICIN
Localizan el centro de la distribucin de frecuencias.
Ejemplos: media, mediana, moda, cuartiles, etc.
2) ESTADGRAFOS DE DISPERSIN
Miden el grado de variabilidad de los datos alrededor de
los datos alrededor de alguna medida de tendencia central.
Ejemplos: rango, desviacin media, varianza, desviacin
tpica, etc.

MEDIA

(X
X
)
n
x
ii
1n

Se denomina tambin media aritmtica o promedio aritmtico,


su funcin es localizar el centro de la distribucin. Se obtiene
del siguiente modo:
A) Para datos no clasificados
Siendo x1, x2,........, xn los datos muestrales:


X
x.h

k
.X
x
n
i
i

1
k
ii
1

MEDIA

B) Para datos clasificados


Sean x1, x2,........., xk las marcas de clase y n1, n2,......,nk las
frecuencias absolutas:

n: # de datos

Tambin:

hi: frecuencias
relativas

MEDIA

k
.X
x
P
i
i
1

C) Media ponderada

Sean P1, P2,........, Pk, los pesos asociados a las variables


x1, x2,........., xk, respectivamente:

MEDIA
D) Media global

k
.X
n
x
i
i

Si una muestra de tamao n se particiona en k submuestras


y x1 , x 2 ,....., x n son las medias de las k submuestras de
tamaos n1, n2,........, nk, respectivamente:

A) Media de datos no clasificados


x1 9; x2 5; x3 3; x4 10; x5 8
5

x1 x2 x3 x4 x5
5
5
9 5 3 10 8

i 1

X 7

B) Media de datos clasificados


Halle la velocidad media de los 30 carros que pasaron
por un punto de control de velocidad, del problema 1
Tabla N3
Ii

10; 26
26; 42
42; 58
58; 74
74; 90

90;106
Total

n
4
12
7
4
2
1

xi

x i .n

x i .h

.X
x
n

1
3
5
6

x.h45,1
0
45,2X

Solucin

ki
k1i
i1 i

C) Media ponderada
Tabla N4
Notas

Pesos

xi

Pi

Ex. Parcial

05

Ex. Final

13

xi .Pi

.X
x
P

4
1

Solucin

ki
i1
Notas

Ex. Parcial
Ex. Final

Pesos

xi

Pi

xi .Pi

05

13

39

44

.X
n
x

(X
8)761305

(28,)14
(126)0
(9)8
(13)

ki
i1

D) Media global

Si una muestra de tamao 60 se particiona en 5 submuestras


de tamaos 8;18;12;9;13 con medias 15;14;12;8;11.
Entonces la media global ser:

;m
s122n2i
x
"xnne2sim
a;"rnespar
p
X
n

MEDIANA(Xm)

Es un estadgrafo que localiza el centro de la distribucin en


base a la posicin central que ocupa.
A) Para datos no clasificados

Siendo x1, x2,........, xn los datos muestrales:

Ejemplo
i ) 10;9;3;6;14
Ordenamos:

x1 3; x2 6; x3 9; x4 10; x5 14
Como n es impar(n = 5)

X m X 51 X 3 9
2

Ejemplo
ii ) 5;10;29;43;21;17
Ordenamos:

x1 5; x2 10; x3 17; x4 21; x5 29; x6 43


Como n es par(n = 6)

1
1
1
X m X 6 X 8 X 3 X 4 (17 21)
2 2
2
2
2
X m 19

n
X
m

N
L
m
m

1
2
W
m

MEDIANA

B) Para datos clasificados

1
N
n
m

1
ii

MEDIANA

Lm:
Lmite inferior de la clase mediana
n:
Nmero total de datos
Nm-1: Frecuencia absoluta acumulada hasta la clase
inmediata anterior a la clase mediana

nm:
Wm:

Frecuencia absoluta de la clase mediana: nm = Nm - Nm-1


Ancho de clase de la clase mediana: Wm = Lm+1 - Lm

CLASE MEDIANA
Es el intervalo de clase que contiene el dato que ocupa la
posicin central. Se identifica en la tabla de frecuencias como
la que acumul la mitad del nmero de datos(n/2 o 0,5) o
super por primera vez esa mitad.

Clase mediana = [Lm; Lm+1>


Xm [Lm; Lm+1>

Ejemplo
Tabla N5
Ii

10; 26
26; 42
42; 58
58; 74
74; 90

90;106
Total

n
4
12
7
4
2
1

Ii

10; 26
26; 42
42; 58
58; 74
74; 90

90;106
Total

n 30

15
2 2

0,133

12

16

0,533

23

0,766

27

0,899

29

0,966

30

30

N 2 15

N 2 16

H 2 0,5

H 2 0,533

Luego la clase mediana es:

26; 42

Lm 26

nm 12

n 30

N m 1 4

Wm 16

3
0
X
m

4
26
1 0,67
2

Ni
30
25
20
15
10
5
10

26

40,67

42

58

74

90

106

Ii

MODA(Mo)
Es un estadgrafo que localiza al dato cuya frecuencia es mxima
Distribucin unimodal
Distribucin multimodal
Distribucin uniforme

un solo mximo
varios mximos relativos
frecuencias iguales
(no tiene moda)

A) Para datos no clasificados


Slo basta analizar en la tabla de frecuencias si es que hay
mximo o no.

2;135;495;206375;4;7986132

Ejemplos

1) Determinar la moda en el conjunto de datos:

La moda es el nmero 7

(se repite 3 veces)

2) El siguiente conjunto de datos:

No tiene moda

;4;89;1513;;2018201;;243240;;37840;890
8

Ejemplos

3) La siguiente distribucin:

Es multimodal dado que tiene dos modas

M 0 24

M 0 13

4) La siguiente distribucin:

Es multimodal dado que tiene tres modas

M0 8

M 0 21

M 0 40

M
0

1
2
L
W
i
i

MODA

B) Para datos clasificados

IiL
lasem
odal
i;1c

MODA

La Clase modal es aquella que tiene la frecuencia mxima

Li:
Lmite inferior de la clase modal
Wi:
Ancho de clase de la clase modal
1 = ni - ni-1: Exceso de la frecuencia modal sobre la frecuencia
de la clase contigua inferior.
2 = ni - ni+1: Exceso de la frecuencia modal sobre la frecuencia
de la clase contigua superior

Ejemplo
Determinar la moda de la siguiente distribucin
Ii

12,5; 20,5
20,5; 28,5
28,5; 36,5
36,5; 44,5
44,5; 52,5
52,5; 60,5
60,5; 68,5
68,5; 76,5
Totales

1
8
22
26
20
12
6
5
100

Tabla N6

La clase modal ser:

I 36,5; 44,5

Adems es una distribucin unimodal


1 26 22 4

1
4
36,5 8
39,7
46
1 2

M 0 36,5 W

2 26 20 6
W 8

ni

25
20
15
10
5

12,5

20,5

28,5

36,5

44,5
39,7

52,5

60,5

68,5

76,5

Ii

Cuartiles(Qi)
Son medidas de posicin que dividen en cuatro partes
iguales al conjunto de valores ordenados en una distribucin
de frecuencias.
Estas medidas son: el primer Cuartil Q1, el segundo cuartil
Q2 y el tercer cuartil Q3.
25%

Q
25%

75%

n
Q
Q

N
31

1
4
L
W
1
i 3
L
n
1

N
W
i

1
4
i

Cuartiles

Para el primer cuartil:

Para el tercer cuartil:

Ejemplo
A partir de la siguiente tabla determinar el 25% inferior
y el 25% superior
Tabla N7
Altura en pulg

60; 63
63; 66
66; 69
69; 72
72; 75
Total

n
5
18
42
27
8

Solucin
Altura en pulg

60; 63
63; 66
66; 69
69; 72
72; 75
Total

0,05

18

23

0,23

42

65

0,65

27

92

0,92

100

100

n
1
0
Q
1
L
6

2
3
3
W
3432
3 4
6,14

Solucin

Para determinar el 25% inferior calculamos el 1er cuartil


Para determinar el 25% superior calculamos el 3er cuartil
Clculo de Q1
n 100

25
4
4

I 66; 69

i3

3
n
3

1
0
Q
3
L
69 427

6
5
4
W
4 443
70,1

Solucin

Clculo de Q3
3n 3 100

75
4
4

I 69; 72

i4

Deciles(Di)
Son medidas de posicin que dividen en 10 partes iguales al
conjunto de valores ordenados en una distribucin de frecuencias.
Estas medidas son: el primer Decil D1, el segundo Decil D2 y
as sucesivamente hasta el noveno Decil D9.
30%

D
10%

90%

Deciles

r
n
D
rLiW
i10N
i1

La fmula para calcular deciles es:

Dr el decil buscado

Li lmite inferior del intervalo decil

r indica el decil
rn
indica la clase donde est el decil
10

Ejemplo
Se presenta la distribucin de frecuencias de los puntajes de
250 alumnos en una prueba de Fsica.
Intervalos

40; 45
45; 50
50; 55
55; 60
60; 65
65; 70
70; 75
75; 80
80; 85
85; 90
Totales

4
10
18
25
46
53
37
29
18
10
250

Tabla N8

Determinar qu puntajes deben tener los que se hallen en el


20% inferior y cules puntajes en el dcimo superior
Intervalos

40; 45
45; 50
50; 55
55; 60
60; 65
65; 70
70; 75
75; 80
80; 85
85; 90
Totales

10

14

18

32

25

57

46

103

53

156

37

193

29

222

18

240

10

250

250

Solucin

5
0

3
2
D
2 58,6

Determinamos el segundo decil, a fin de calcular el 20% inferior


Clculo de D2
2n 2 250

50
10
10

I 55; 60

i4

Solucin

2
5

2
D
890 1880,3

Para hallar los que se encuentran en el dcimo superior


calculamos el noveno decil
Clculo de D9

9n 9 250

225
10
10

I 80; 85

i9

MEDIDAS DE DISPERSIN

n
V
2
((x)
x

)
iik11nii2n
tiS
D
a
o2xsnclaM
si[f(x
d
os)2]

VARIANZA V(x)

Se define como la media aritmtica de los cuadrados de


las desviaciones de las xi con respecto a x

Tambin se representa como:

n
x

X
k
2
i
i(x)
12

Varianza

A menudo el clculo de la varianza es muy laborioso, sobre


todo si la media no es entera, para facilitar los clculos
usaremos una segunda forma:

Datos clasificados

SxV
x

Desviacin tpica o estndar(Sx)

Vx : Varianza

S
x
C
.V
X

Coeficiente de variacin(C.V.)

Generalmente se expresa en porcentajes. Es til para la


comparacin en trminos relativos del grado de concentracin
en torno a la media de dos distribuciones distintas.

eL

l904(5A

)0
ke
1

Rango o extensin(e)

Indica la extensin del intervalo en donde se halla toda


la poblacin estudiada.

En la tabla N8

9
1
D

2
5
0
9

1
4

80,3
1

5,0
6
8
27,
91

Rango interdeclico
Rango interdeclico:
En la tabla N8:

3
1
Q
730
1
76
7
5
0
2
5
0

Q
4743,
21660,2

7
01
3,9 413
31

Rango intercuartlico
Rango interintercuatlico:
En la tabla N8:

Si:X

D
i
s
t
r
b
u
c
i

n
s
m

t
r
i
c
a
m
o

a
mM
M
XX
o
o
m

ASIMETRA

Mo

Xm

Asimetra a la derecha
o positiva

Xm

Mo

Asimetra a la izquierda
o negativa

M
A
S1Sxo

Coeficiente de asimetra de
Pearson

El primer coeficiente de asimetra de Pearson nos indica el


tipo de asimetra que tendr la curva.

Media Moda
AS1
Desviacin estandar

Ejemplo
De la tabla del problema 1, calcule: la varianza, desviacin
tpica, coeficiente de variacin, rango, rango intercuartil,
rango interdeclico e indicar el tipo de simetra de la curva.
Ii

10; 26
26; 42
42; 58
58; 74
74; 90

90;106
Total

n
4
12
7
4
2
1
30

xi

xi X 2 ni

x i .n

ni xi2

Solucin
Ii

10; 26
26; 42
42; 58
58; 74
74; 90

90;106
Total

xi

xi X 2 ni

x i .n

18

2959,36

72

1296

12

34

1505,28

408

13872

50

161,28

350

17500

66

1730,56

264

17424

82

2708,48

164

13448

98

2787,84

98

9604

11852,8

1356

73144

30

ni xi2

,V
1
8
5
2
7
3
1
4
2

3
9
5
,
0
V

5
,
2

3
9
5
,
0
(C
xS
)x.V
(
x
)
3
0
0
5
6
9
1
8
X

S
,el
8

0
,
4
M
2

3
5
,
8

0
X
4
5
2

(A
)1095

Solucin

3
0
R
Q

4
Q
IQ31

2
6

3
0
,
6
7
2

423
9
0

1Q

1
6
61
457,86
,3078

5
6
26,19

Solucin

3
0
D
D

R
91ID
1

1580D

2
4

9
074
61217

3
2
754

Solucin

M
o
A
S

1
S
x
,112935,8
4
5
0,47

Solucin

Asimetra a la derecha
o positiva