You are on page 1of 14

Gua

Matemtica

MARZO 2010

Nombre del Profesor: Francisco Arratia Camus

Gua N 1

Nombre del Estudiante: ___________________________________

Nivel: NM4

Sector de Aprendizaje: Matemtica.


Unidad: Estadstica y probabilidad.
Para tener xito en el desarrollo de este nuevo tema, debemos tener en cuenta los conceptos: de
Estadstica Descriptiva y Probabilidades, como: Medidas de tendencia central, grficos de
frecuencias, manejo de la informacin, probabilidad compuesta, probabilidad total y frmula de
Laplace en el clculo de las probabilidades.

En esta Unidad:
Francisco Arratia Camus

Pgina
1

Estadstica y Probabilidad

Estadstica Descriptiva
Aplicars conceptos estadsticos: muestra, poblacin y tipos de variables.
Ordenars y organizars la informacin.
Analizars y construirs tablas y grficos.
Determinars medidas de tendencia central: media aritmtica, moda y mediana.
Calculars medidas de dispersin: rango, desviacin estndar y varianza.
Conocers e interpretars las medidas de posicin: cuartiles, quintiles, deciles y percentiles.
Estadstica Inferencial
Determinars la homogeneidad y heterogeneidad de una muestra.
Comparars distribuciones de distintas muestras de poblaciones dependiendo del tipo de muestreo
aplicado.
Determinars y calculars funciones de probabilidad y distribucin de una variable aleatoria discreta.
Estudiars la correlacin y regresin lineal de distribuciones bidimensionales.
Reconocers distribuciones normales y binominales. Y calculars probabilidades con ellas.

Introduccin
Existen diferentes razones por las cuales los profesionales deben conocer los fundamentos de la
estadstica como instrumento del trabajo cotidiano. En esta gua se pretende dar a conocer algunas
nociones estadsticas que nos ayudarn a explorar y describir, en un primer momento, nuestros datos.
Poblaciones y Muestras
Cuando se realiza un estudio de investigacin, se pretende generalmente inferir o generalizar resultados
de una muestra a una poblacin. Se estudia en particular a un reducido nmero de individuos a los que
tenemos acceso con la idea de poder generalizar los hallazgos a la poblacin de la cual esa muestra procede.
Este proceso de inferencia se efecta por medio de mtodos estadsticos basados en la probabilidad.
La poblacin representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser
inaccesible. Es, en definitiva, un colectivo homogneo que rene unas caractersticas determinadas.
La muestra es el conjunto menor de individuos (subconjunto de la poblacin accesible y limitado sobre el
que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la
poblacin). El individuo es cada uno de los componentes de la poblacin y la muestra. La muestra debe ser
representativa de la poblacin y con ello queremos decir que cualquier individuo de la poblacin en estudio
debe haber tenido la misma probabilidad de ser elegido.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos sealar:
Francisco Arratia Camus

Pgina
2

Estadstica y Probabilidad

a.

Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.

b. Como consecuencia del punto anterior ahorraremos costes.


c.

Estudiar la totalidad de los pacientes o personas con una caracterstica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.

d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las observaciones y


mediciones realizadas a un reducido nmero de individuos pueden ser ms exactas y plurales que si
las tuvisemos que realizar a una poblacin.
e.

La seleccin de muestras especficas nos permitir reducir la heterogeneidad de una poblacin al


indicar los criterios de inclusin y/o exclusin.

Tipos de datos
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensin arterial
sistlica, etctera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es
medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos adems concretar la
escala de medida que aplicaremos a cada variable.
La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms
apropiado para abordar su anlisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos
3-5
: variables cuantitativas o variables cualitativas.
a.

Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse
numricamente. Las variables cuantitativas pueden ser de dos tipos:
o

Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango


numrico determinado (edad, peso, talla).

Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango.


Suelen tomar solamente valores enteros (nmero de hijos, nmero de partos, nmero de
hermanos, etc).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a
cada caso en una de varias categoras. La situacin ms sencilla es aquella en la que se clasifica cada
caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos
dicotmicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es
suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo,
profesin, etctera).
Francisco Arratia Camus

Pgina
3

Estadstica y Probabilidad

En el proceso de medicin de estas variables, se pueden utilizar dos escalas:


o

Escalas nominales: sta es una forma de observar o medir en la que los datos se ajustan
por categoras que no mantienen una relacin de orden entre s (color de los ojos, sexo,
profesin, presencia o ausencia de un factor de riesgo o enfermedad, etctera).

Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre las
categoras (grados de disnea, estadiaje de un tumor, etctera).

Estadstica descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos
al anlisis descriptivo de los mismos. Para variables categricas, como el sexo o la estatura, se quiere
conocer el nmero de casos en cada una de las categoras, reflejando habitualmente el porcentaje que
representan del total, y expresndolo en una tabla de frecuencias.
Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se ha de
optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas:
a.

Alrededor de qu valor se agrupan los datos?

b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy
dispersos?

a. Medidas de tendencia central


Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que
podemos calcular para describir un conjunto de observaciones numricas es su valor medio. La media no es
ms que la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se
dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media
de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en
cuestin, el valor medio vendr dado por:
Francisco Arratia Camus

Pgina
4

Estadstica y Probabilidad

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observacin


equidistante de los extremos.
La mediana del ejemplo anterior sera el valor que deja a la mitad de los datos por encima de dicho valor y a
la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se
encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su
vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribucin de la variable es simtrica. La media es muy sensible a
la variacin de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.

Clculo de la mediana para datos agrupados


La m e d i a n a se encuentra en el i n t e r v a l o donde la f r e c u e n c i a a c u m u l a d a llega hasta la m i t a d d e
la suma de las frecuencias absolutas .
Es decir tenemos que buscar el intervalo en el que se encuentre
.

L i es el lmite inferior de la clase donde se encuentra la mediana.


es la semisuma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase mediana.
Francisco Arratia Camus

Pgina
5

Estadstica y Probabilidad

a i es la amplitud de la clase.
La m e d i a n a es i n d e p e n d i e n t e de las a m p l i t u d e s de los i n t e r v a l o s .
Por ltimo, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo ste el
valor de la variable que presenta una mayor frecuencia.
En el ejemplo anterior el valor que ms se repite es 60, que es la moda

Clculo de la moda para datos agrupados

L i es el lmite inferior de la clase modal.


f i es la frecuencia absoluta de la clase modal.
f i - 1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
f i + 1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
a i es la amplitud de la clase.

b. Medidas de dispersin
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la
dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la
varianza (S2) de los datos es la ms utilizada. Es la media de los cuadrados de las diferencias entre cada
valor de la variable y la media aritmtica de la distribucin.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene
como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
En el ejemplo anterior la varianza sera:

Sx2=
La desviacin tpica (S) es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se
expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin
ms utilizada en estadstica.
Francisco Arratia Camus

Pgina
6

Estadstica y Probabilidad

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa
para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasidesviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones.
En los clculos del ejercicio previo, la desviacin tpica muestral, que tiene como denominador n, el valor
sera 20.678. A efectos de clculo lo haremos como n-1 y el resultado seria 21,79.
El haber cambiado el denominador de n por n-1 est en relacin al hecho de que esta segunda frmula es
una estimacin ms precisa de la desviacin estndar verdadera de la poblacin y posee las propiedades
que necesitamos para realizar inferencias a la poblacin.
Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud como
medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y
desviacin tpica:
Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy
alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica
lo sern.
Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la
mitad la desviacin tpica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a
0.
Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor
ser detectado.
Francisco Arratia Camus

Pgina
7

Estadstica y Probabilidad

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa
de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cuociente
por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos.
As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su
desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166
mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la
tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin
arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variacin:
CV de la variable peso =

CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersin.
Cuando los datos se distribuyen de forma simtrica (y ya hemos dicho que esto ocurre cuando los valores
de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica. En
el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se
suelen utilizar adems los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posicin. El percentil es el
valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra.
As, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de s al 80% del
total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de s el 25%,
50% y el 75% del total de las puntuaciones y as tenemos por tanto el primer cuartil (Q1), el segundo (Q2)
y el tercer cuartil (Q3).

Clculo de los cuartiles


1 O r d e n a m o s los d a t o s de m e n o r a m a y o r .
2 Buscamos el lugar que ocupa cada c u a r t i l mediante la expresin

Nmero impar de datos


2, 5, 3, 6, 7, 4, 9

Francisco Arratia Camus

Pgina
8

Estadstica y Probabilidad

Nmero par de datos


2, 5, 3, 4, 6, 7, 1, 9

Clculo de los cuartiles para datos agrupados


En primer lugar buscamos la c l a s e donde se encuentra

, en la t a b l a d e l a s

frecuencias acumuladas .

L i es el lmite inferior de la clase donde se encuentra el cuartil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase d e l c u a r t i l .
a i es la amplitud de la clase.

Los d e c i l e s son los n u e v e v a l o r e s que d i v i d e n la serie de d a t o s en d i e z p a r t e s i g u a l e s .


Los d e c i l e s dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.

Clculo de los deciles


En primer lugar buscamos la clase donde se encuentra

, en la tabla de las

frecuencias acumuladas.
Francisco Arratia Camus

Pgina
9

Estadstica y Probabilidad

L i es el lmite inferior de la clase donde se encuentra el decil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase e l d e c i l .
a i es la amplitud de la clase.

Los p e r c e n t i l e s son los 9 9 v a l o r e s que d i v i d e n la serie de d a t o s en 1 0 0 p a r t e s i g u a l e s .


Los p e r c e n t i l e s dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Clculo de los percentiles
En primer lugar buscamos la clase donde se encuentra
, en la tabla de las

frecuencias acumuladas.

L i es el lmite inferior de la clase donde se encuentra el percentil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase d e l p e r c e n t i l .
a i es la amplitud de la clase.

Ejercicios
Leer atentamente el siguiente resumen, del artculo de investigacin titulado:
Competencias docentes en los profesores de medicina de la Universidad
Michoacana de San Nicols de Hidalgo

Resumen
Para la identificacin de un grupo de competencias docentes bsicas en los profesores que se desempean
en la licenciatura en medicina en la Facultad de Medicina Dr. Ignacio Chvez, objetivo fundamental del
presente trabajo, se utilizaron mtodos tericos y empricos. Se aplic una encuesta a una muestra
seleccionada de docentes y alumnos. Se emplearon procedimientos estadsticos para el anlisis de los
resultados y se elaboraron
tablas. A partir de la identificacin de las necesidades de aprendizaje de los profesores estudiados, en
relacin con la direccin del proceso enseanza-aprendizaje y los referentes tericos sobre el tema, se
realiz un anlisis integrador para valorar los datos obtenidos, lo que permiti la caracterizacin de los
docentes objeto de investigacin, en relacin con las competencias docentes bsicas propias de una gestin
Francisco Arratia Camus

Pgina
10

Estadstica y Probabilidad

formativa pertinente. Se tomaron en consideracin los principios metodolgicos ms actuales acerca de la


formacin de recursos humanos en la educacin superior en sentido general y en particular en la educacin
mdica superior.
A partir de este resumen:
a. Define la poblacin.
b. Define la muestra.
c. Define la(s) variable(s) aleatoria(s).

1 . Indica que v a r i a b l e s son c u a l i t a t i v a s y cuales c u a n t i t a t i v a s :


1
2
3
4
5
6

Comida Favorita.
Profesin que te gusta.
Nmero de goles marcados por tu equipo favorito en la ltima temporada.
Nmero de alumnos de tu Instituto.
El color de los ojos de tus compaeros de clase.
Coeficiente intelectual de tus compaeros de clase.

2 . De las siguientes v a r i a b l e s indica cules son d i s c r e t a s y cuales c o n t i n u a s .


1 Nmero de acciones vendidas cada da en la Bolsa.
2 Temperaturas registradas cada hora en un observatorio.
3 Perodo de duracin de un automvil.
4 El dimetro de las ruedas de varios coches.
5 Nmero de hijos de 50 familias.
6 Censo de la poblacin chilena.

3 . Clasificar las siguientes v a r i a b l e s en c u a l i t a t i v a s y c u a n t i t a t i v a s d i s c r e t a s o c o n t i n u a s .


1
2
3
4
5
6

La nacionalidad de una persona.


Nmero de litros de agua contenidos en un depsito.
Nmero de libros en un estante de librera.
Suma de puntos tenidos en el lanzamiento de un par de dados.
La profesin de una persona.
El rea de las distintas baldosas de un edificio.

Francisco Arratia Camus

Pgina
11

Estadstica y Probabilidad

4 . Las puntuaciones obtenidas por un grupo en una prueba han sido:


15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
Construir la tabla de distribucin de frecuencias y dibuja el grfico ms adecuado.

5 . El nmero de estrellas de los hoteles de una ciudad viene dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1.
Construir la tabla de distribucin de frecuencias y dibuja el grfico ms adecuado.

6 . Las calificaciones de 50 alumnos en Matemticas han sido las siguientes:


5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9,
6, 1, 4, 6, 3, 5, 5, 6, 7.
Construir la tabla de distribucin de frecuencias y dibuja el grfico ms adecuado.

7 . Los pesos de los 65 empleados de una fbrica vienen dados por la siguiente tabla:
Peso

[50, 60)

[60, 70)

[70, 80)

[80,90)

[90, 100)

[100, 110)

[110, 120)

fi

10

16

14

10

8 . Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de
Fsica.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39,
37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1 Construir la t a b l a d e f r e c u e n c i a s .
2 Dibujar el h i s t o g r a m a y el p o l g o n o d e f r e c u e n c i a s .

9 . Sea una distribucin estadstica que viene dada por la siguiente tabla:
xi

61

64

67

70

73

fi

18

42

27

Calcular:
1 La m o d a , m e d i a n a y m e d i a .
2 El r a n g o , v a r i a n z a y d e s v i a c i n t p i c a .
Francisco Arratia Camus

Pgina
12

Estadstica y Probabilidad

1 0 . Considrense los siguientes datos: 3, 8, 4, 10, 6, 2. Se pide:

tpica.

1 . Calcular su media y su varianza.


2 . Si los todos los datos anteriores los multiplicamos por 3, cul ser la nueva media y desviacin

1 1 . El resultado de lanzar dos dados 120 veces viene dado por la t a b l a :


Sumas

10

11

12

Veces

11

20

19

16

13

11

1 . Calcular la m e d i a y la d e s v i a c i n t p i c a .
2 . Hallar el porcentaje de valores comprendidos en el intervalo ( x , x + ) .
1 2 . De esta distribucin de frecuencias absolutas acumuladas, calcular:
Edad

Fi

[0, 2)

[2, 4)

11

[4, 6)

24

[6, 8)

34

[8, 10)

40

1. Media aritmtica y desviacin tpica.


2 . Entre qu valores se encuentran las 1 0 e d a d e s c e n t r a l e s ?
3 . Representar el p o l g o n o d e f r e c u e n c i a s a b s o l u t a s a c u m u l a d a s .

Francisco Arratia Camus

Pgina
13

Estadstica y Probabilidad

Informacin recopilada en:

Estadstica Descriptiva Vitutor 2010 Espaa, 14 de marzo de 2010.


http://www.vitutor.com/estadistica.html

Estadstica descriptiva de los datos Pita Fernndez S, Prtega Daz, S. Unidad de Epidemiologa Clnica y
Bioestadstica. Complexo Hospitalario Universitario de A Corua (Espaa).
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.asp

Francisco Arratia Camus

Pgina
14

Estadstica y Probabilidad