You are on page 1of 121

Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.

com
PROBABILIDAD
2
El Azar
Consideremos el proceso de tirar una moneda al aire: Se
puede saber en el momento de tirarla si caer cara o ceca?
Podramos contestar, con la misma certeza que los Fsicos,
que si conocemos exactamente la geometra y densidad de la
moneda, la posicin inicial, medimos exactamente el impulso
inicial y su punto de aplicacin, consideramos adecuadamente
la resistencia del aire y estamos seguros en que punto de su
trayectoria ser interceptada por el dorso de la mano,
estaremos en condiciones de prever cuantas vueltas dar
antes de caer, y con ello predecir si la cara o la ceca
aparecern arriba o abajo.
3
El Azar
Es decir que controlando el tiro podremos
apostar estar seguros de ganar.
De igual manera, cuando nos jugamos unas
cuantas fichas al negro el once confiamos que
el crupi no est en condiciones de sincronizar el
momento en que tira la bola con la posicin y
velocidad de la ruleta, y que por lo tanto no es
responsable de que salga colorado el treinta y
dos.
4
El Azar
As, el azar resulta en principio algo que engloba una
serie de causas complejas que no se puede determinar
y estudiar en todas sus dimensiones por difciles de
precisar, porque desconocemos o porque no tenemos
ganas ni tiempo.
La probabilidad expresa el grado de certeza de que
ocurrir un determinado suceso al hacer un
determinado experimento aleatorio.
Cuanto ms alta es la probabilidad de un suceso,
mayor es el grado de certeza de que ocurrir.
5
Estadstica y Probabilidad
Los sucesos con componente azaroso se llaman
casuales, aleatorios o probabilsticos.
Su resultado no se puede determinar o predecir con
certeza absoluta.
Se habla de probabilidad de ocurrencia, representada
con un nmero que va desde cero (ninguna posibilidad
de que pase) a uno (certeza total de que ocurrir).
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Probabilidad matemtica,
terica o a priori
Definicin de Laplace
7
La probabilidad Terica o matemtica se define como
el cociente entre el o los casos favorables (nmero de
veces en que se puede presentar un acontecimiento)
dividido el nmero de casos igualmente posibles (total
de veces que se puede presentar o no el
acontecimiento).
La probabilidad de ocurrencia de un suceso A se define
como el cociente entre el nmero esperado de veces
que ocurra un suceso (NA) y el nmero total de casos
posibles (N).
8
Siempre hay que calcular la cantidad de casos o
evento seleccionados divido nmero total de
eventos posibles.
N
NA
A P = ) (
9
posibles casos de Nmero
A evento al favorables casos de Nmero
A P
_
) ( =
Sea un evento A, se define a la probabilidad del evento A,
P(A), como el cociente siguiente:
Muestral Espacio del Tamao
A evento al favorables casos de Nmero
A P
_
) ( =
Definicin Clsica de Probabilidad
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
10
ALGUNAS
DEFINICIONES
11
Experimento Aleatorio
1. Es posible repetirlo en forma indefinida
sin cambiar esencialmente las
condiciones.
2. Podemos describir el conjunto de todos
los resultados posibles del experimento.
3. Al repetir el experimento un gran nmero
de veces aparece un patrn definido.
12
Espacio Muestral (E): Es el conjunto de
todos los resultados posibles del experimento
aleatorio.
E
13
Evento o Suceso: Es el resultado
o conjunto de resultados de un
experimento aleatorio.
E
A
14
Evento Imposible: Cuando un suceso no
puede ocurrir no contiene elementos y, por lo
tanto, es un conjunto vaco.
Por lo tanto un evento imposible tiene
una probabilidad igual a 0.
Evento seguro: Cuando un suceso siempre
ocurre contiene todos los elementos posibles
del experimento.
Por lo tanto un evento seguro tiene una
probabilidad igual a 1.
15
Cundo es alta o cuando es baja una probabilidad?
Por ejemplo si al levantarnos a la maana el pronosticador del
tiempo dice que hay 90% de probabilidades de que llueva,
seguramente consideraremos que es muy probable que, o por
lo menos lo suficientemente, como para tomarnos la molestia
de llevar el paraguas para ir al trabajo.
En cambio si la probabilidad de que un avin complete un viaje
sin caerse fuera del 10%, dudo mucho que alguien quisiera
viajar en avin.
Entonces cundo una probabilidad es o no alta o baja depende
en gran medida del contexto. Es decir, a qu est asociada
esa probabilidad.
16
Interseccin:
B A
S
A B
A B
Se llama suceso interseccin de A y B, AB o simplemente AB, al
formado por los elementos que estn en A y B
17
Unin: B A
S
A B
( ) ( ) ( ) ( ) B A P B P A P B A P + =
B A
18
A
B
Mutuamente Excluyentes:
19
A
Complementario:
A
C
20
Regla de la Adicin:
P (A B) = P(A) + P(B) - P(A B)
En el caso de eventos excluyentes: Si los
eventos no tienen elementos en comn, no
hay interseccin:
A B =
> P (A B) = P(A) + P(B)
21
Regla de la Multiplicacin:
P (A B) = P(A) x P(B / A)
Eventos Independientes: Cuando la
realizacin de un evento no influye en el otro
evento.
P (A B) = P(A) x P(B)
22
Ejemplo:
El experimento consiste en tirar un dado equilibrado (igual
probabilidad de que caiga sobre cualquier cara).
El espacio muestral (EM) sera el universo:
EM = { 1, 2, 3, 4, 5, 6}
Pregunta: cul es la probabilidad de que al tirar el dado una
vez salga el nmero 2?
Casos Favorables: 1 (que salga el dos)
Casos Posibles: 6 (EM).
23
La probabilidad siempre es la
relacin entre los casos favorables
(los que deseo que salgan) y los
casos posibles (todas las
posibilidades, EM ).
24
Por lo tanto en este caso sera:
167 . 0
6
1
) ( = = x P
25
La probabilidad de obtener una bolilla blanca extrada
de una urna que contiene seis blancas, ocho rojas y
cuatro negras es:
El espacio muestral sera:
EM = { 6B, 8R, 4N}
3
1
18
6
) (
4 8 6
6
) (
= =
+ +
=
x P
x P
26
Si el experimento consiste en hallar la probabilidad de que al tirar un
dado equilibrado salga el 2 o el 6. Esto indica que los casos
favorables son 2.
En la teora de conjuntos equivale a una unin, por lo tanto se suman
las probabilidades. Tambin se puede pensar que se tienen 2 casos
favorables sobre 6 casos posibles.
333 . 0
3
1
6
2
) (
333 . 0
6
2
6
1
6
1
) 6 ( ) 2 ( ) 6 2 (
= = =
= = + = + =
x P
P P o P
27
Desde el punto de vista matemtico, la
distribucin de probabilidades de una variable
consiste en asignar una probabilidad asociada a
cada uno de los valores o categoras que toma.
La probabilidad de un valor o categora de una
variable ser un nmero entre 0 y 1.
La suma de las probabilidades de todos los
valores o categoras de una variable es igual a 1.
28
Por ejemplo: Si X es una variable que toma
4 valores posibles o categoras:
P(x
1
) + P(x
2
) + P(x
3
) + P(x
4
) = 1
o
P(x
i
) = 1
29
En el ejemplo de la urna que contiene seis blancas,
ocho rojas y cuatro negras, la distribucin de
probabilidades sera:
EM = { 6B, 8R, 4N}
1
9
9
9
2 4 3
9
2
9
4
3
1
) (
9
2
18
4
) ( ;
9
4
18
8
) ( ;
3
1
18
6
) (
= =
+ +
= + + =
= = = = = =

x P
N P R P B P
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Ejemplo
31
En una determinada poblacin, el 60% de las
personas son mujeres, el 35% de la gente tiene
ojos claros y el 25% de la gente es rubia. El 20%
de la poblacin son mujeres de ojos claros. El
10% de la poblacin son mujeres rubias. El 15%
de la poblacin son personas rubias y de ojos
claros. El 5% de la poblacin son mujeres rubias
de ojos claros.
32
1. Calcule las probabilidades de que al elegir una persona al
azar, esta:
a) sea mujer, o sea rubia o tenga ojos claros (es decir, que tenga
por lo menos una de esas 3 caractersticas.
b) tener ojos oscuros.
c) sea un hombre no rubio y adems de ojos oscuros.
d) tenga cabello rubio o no tenga cabello rubio (alguna de las dos
cosas).
e) tenga ojos claros y ojos oscuros (las dos cosas
simultneamente).
2. La probabilidad de encontrar a una mujer rubia, es menor,
igual, o mayor, que la de encontrar a una mujer rubia de ojos
claros?
33
Definiremos los sucesos:
M: la persona es mujer
R: la persona es rubia
C: la persona tiene ojos claros
Entonces los datos son:
P(M) = 0.6
P(C) = 0.35
P(R) = 0.25
P(M C) = 0.2
P(M R) = 0.1
P(R C) = 0.15
P(M C R) = 0.05
34
a) Probabilidad de mujer o que sea rubia o tenga ojos claros.
Nos piden P(M C R).
Sabemos que:
P(M C R) = P(M) + P(C) + P(R) - P(M C) - P(M R) P (C R) + P(M C R)
Entonces obtenemos:
P(M C R) = 0,6 + 0,35 + 0,25 - 0,2 - 0,1 - 0,15 + 0,05 = 0,8
Por lo tanto la probabilidad de encontrar una mujer o rubia o de ojos claros
es de 0,8.
35
b) El suceso "tener ojos oscuros" es la negacin del
suceso "tener ojos claros". Es decir, es el complemento
de C.
P(C) + P( No C ) = 1, con lo cual:
P( No C ) = 1 - P(C) = 1 - 0.35 = 0.65
36
c) La persona elegida es hombre, no-rubio, y de ojos oscuros.
No tiene ninguna de las 3 caractersticas M, C y R, y sali el
complemento del conjunto M C R (lo de afuera de los
tres crculos del diagrama de Venn).
La segunda consecuencia dice que P(A) + P( No A ) = 1, con
lo cual si llamamos:
A = M C R
NoA = NoM NoC NoR
Lo que estamos buscando es P( NoA ), y como conocemos
P(A), hacemos:
P( No A ) = 1 - P(A) = 1 - 0.8 = 0.2
37
d) Estamos buscando P(R NoR ). Como los sucesos
complementarios son disjuntos, porque necesariamente A
NoA = C (conjunto vaco), por lo tanto:
P(R NoR ) = P(R) + P( NoR ).
P(R) + P( R ) = 1
Este resultado era evidente, porque slo se puede ser
rubio o no rubio.
Por lo tanto la probabilidad de que suceda alguna de las
dos cosas es necesariamente = 1
38
e) Nos piden P(C NoC )
C y su complemento no pueden ocurrir al mismo
tiempo, porque una persona no puede tener ojos
claros y ojos no-claros simultneamente (supongamos
que las personas tienen los dos ojos del mismo color).
Entonces como las dos cosas no pueden ocurrir al
mismo tiempo, la probabilidad de su interseccin es
necesariamente cero.
39
2. Las mujeres rubias pueden tener ojos claros u ojos oscuros. Siempre
que una mujer sea rubia y de ojos claros, ser necesariamente mujer
rubia, pero no al revs, porque el hecho de que una mujer sea rubia no
garantiza que adems tenga ojos claros. Entonces la probabilidad de
encontrar una mujer rubia que adems tenga ojos claros es menor que
la probabilidad de simplemente encontrar a una mujer rubia.
Sera:
(M R C) c (M R) => P(M R C) < P(M R)
(usamos < y no s porque s es para el caso particular en el cual un
conjunto est incluido en otro porque ambos conjuntos son iguales
(recordemos que A = B => A c B y B c A)
40
Resumiendo los resultados
0.2
0.2
41
Probabilidad emprica
La probabilidad observada o emprica de
ocurrencia de un suceso A es aproximadamente
igual a su frecuencia relativa (FrA).
Es el cociente entre el nmero de veces en que
ocurri el suceso A (frecuencia absoluta, FA) y el
nmero total de experimentos (N).
42
CLASES Y TABLAS DE FRECUENCIAS
Los resultados numricos de las observaciones realizadas en
un conjunto de datos forman una serie estadstica; tras su
ordenacin y clasificacin se presentan los resultados
agrupados en una tabla estadstica. Se trata de una serie de
columnas paralelas en las que se sita la informacin
necesaria.
Frecuencia es el nmero de veces en que una modalidad o un
valor de la variable se presenta en una prueba de un
experimento dado. Es decir, por ejemplo, el nmero de veces
que ha aparecido el 2 despus de haber lanzado un dado 50
veces.
43
Distinguimos entre frecuencia absoluta, que es el nmero
de veces que aparece la caracterstica, y frecuencia
relativa, que es la relacin o razn que existe entre la
frecuencia absoluta y el nmero de observaciones
realizadas; o lo que es lo mismo: la relacin entre la
frecuencia absoluta y el nmero de individuos de la
muestra.
A partir de ahora utilizaremos la letra fa para simbolizar
frecuencias absolutas y la letra fr para simbolizar
frecuencias relativas.
As tenemos:
N
fa
fr =
44
La frecuencia relativa indica la proporcin en que
se presenta una categora o valor de una
variable, respecto del total de la poblacin o la
muestra.
Si observamos la columna de la frecuencia
relativa vemos que toma valores siempre
menores que 1.
La suma de los valores de esa columna es igual
a 1. Lo que determinamos con el clculo de la
frecuencia relativa es el reparto de la unidad en
las diferentes modalidades o valores.
45
Sin embargo, la frecuencia relativa se expresa
habitualmente a travs del porcentaje.
Qu relacin existe entre la frecuencia relativa y el
porcentaje?
Simplemente cambia la referencia sobre el total.
Siendo el total para la frecuencia relativa=1 y
Para el porcentaje = 100 ( o base 100).
46
Frecuencia acumulada de un valor de la variable es igual a la
suma de las frecuencias hasta un determinado valor o
categora de la variable. No tiene sentido hablar de frecuencia
acumulada cuando la variable es cualitativa nominal porque no
se pueden sumar las modalidades.
Podemos distinguir entre frecuencias absolutas acumuladas
(faa) y frecuencias relativas acumuladas (fra).
En las tablas seguiremos el siguiente orden: datos o
categoras - frecuencias absolutas - fr. abs. acumuladas -
fr. relativas - fr. rel. acumuladas.
47
Supongamos que construimos una tabla de
frecuencias a partir del nmero de hijos que se
observan en un grupo de 50 familias:
fa faa
fr
fra
48
Ejercitacin N 1:
abrir archivo: probabilidad empirica.xls
Utilizar el archivo de Excel (probabilidad empirica.xls para:
Clculo de frecuencias relativas, frecuencias porcentuales o
porcentajes.
En el caso de variables cualitativas ordinales tambin calcular
frecuencias porcentuales acumuladas.
Analizar la hoja en la cual contiene escolaridad, en donde se
calcula el intervalo de confianza para la muestra. Para qu
sirve esta cosa llamada Intervalo de confianza al 95%?
Para l@s alumn@s que no manejan excel les recomiendo
consultar: Estadstica con Excel.pdf
49
Variable cualitativa nominal
Tipo de Vivienda CBA Frecuencia Absoluta
Casa
387295
Departamento
844124
Vivienda en lugar de trabajo
7366
Inquilinato
3858
Sin fines habitacionales
4500
Vivienda en villa
16760
Total
1263903
EPH: ao 2003 CBA
50
Frmulas utilizadas
51
EPH: ao 2003 CBA
Frmulas utilizadas
Tipo de Vivienda
CBA
Frecuencia
Absoluta
Frecuencia
Relativa
Porcentaje
Casa
387295 =B2/B$8$
=B2/$B$8*100
Departamento
844124 =B3/B$8$
=B3/$B$8*100
Vivienda en lugar de trabajo
7366 =B4/B$8$
=B4/$B$8*100
Inquilinato
3858 =B5/B$8$
=B5/$B$8*100
Sin fines habitacionales
4500 =B6/B$8$
=B6/$B$8*100
Vivienda en villa
16760 =B7/B$8$
=B7/$B$8*100
Total
=SUMA(B2:B7) =SUMA(C2:C7) =SUMA(D2:D7)
52
EPH: ao 2003 CBA
Clculo de frecuencias relativas y %
Tipo de Vivienda CBA
Frecuencia
Absoluta
Frecuencia
Relativa
Porcentaje
Casa
387295 0,306 30,6
Departamento
844124 0,668 66,8
Vivienda en lugar de trabajo
7366 0,006 0,6
Inquilinato
3858 0,003 0,3
Sin fines habitacionales
4500 0,004 0,4
Vivienda en villa
16760 0,013 1,3
Total
1263903 1 100,0
53
EPH: ao 2003 CBA
Cantidad de habitaciones Frecuencia Absoluta
1 92116
2 353830
3 481519
4 213829
5 74964
6 28282
7 15006
8-11 2521
12 o ms 1836
Total 1263903
Variable cuantitativa discreta
54
Frmulas utilizadas
55
Cantidad de
habitaciones
Frecuencia
Absoluta
Frecuencia
relativa
Porcentaje
Porcentaje
acumulado
1 92116 =B2/$B$11 =B2/$B$11*100 =D2
2 353830 =B3/$B$11 =B3/$B$11*100 =E2+D3
3 481519 =B4/$B$11 =B4/$B$11*100 =E3+D4
4 213829 =B5/$B$11 =B5/$B$11*100 =E4+D5
5 74964 =B6/$B$11 =B6/$B$11*100 =E5+D6
6 28282 =B7/$B$11 =B7/$B$11*100 =E6+D7
7 15006 =B8/$B$11 =B8/$B$11*100 =E7+D8
8 a 11 2521 =B9/$B$11 =B9/$B$11*100 =E8+D9
12 o ms 1836 =B10/$B$11 =B10/$B$11*100 =E9+D10
Total 1263903 =SUMA(C2:C10) =SUMA(D2:D10)
Frmulas utilizadas
56
Clculo de frecuencias relativas, % y % acumulado
Cantidad de
habitaciones
Frecuencia Absoluta Frecuencia relativa Porcentaje
Porcentaje
acumulado
1
92116
? ? ?
2
353830
? ? ?
3
481519
? ? ?
4
213829
? ? ?
5
74964
? ? ?
6
28282
? ? ?
7
15006
? ? ?
8 a 11
2521
? ? ?
12 o ms
1836
? ? ?
Total
1263903
? ? ?
57
EPH: ao 2003 CABA
Cantidad de personas en el hogar Frecuencia absoluta
1 282066
2 345931
3 277774
4 213572
5 84021
6 32403
7 10862
8 6790
9 4208
10 1878
11 2022
12 o ms 2376
Total 1263903
58
EPH: ao 2003 CABA
Cantidad de personas
en el hogar
Frecuencia
absoluta
Frecuencia
relativa
Porcentaje
Porcentaje
acumulado
1
282066
2
345931
3
277774
4
213572
5
84021
6
32403
7
10862
8
6790
9
4208
10
1878
11
2022
12 o ms
2376
Total 1263903
59
EPH: ao 2003 CABA
Frecuencia
Absoluta
Menos de 3 personas por
habitacin
1208272
3 o ms personas por
habitacin
55631
Total
1263903
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Para practicar y
discutir en el Foro
61
Encuesta Educativa en Bajo Flores. Ao 2002
Nivel de estudios alcanzado
por el encuestado:
Frecuencia
No concurri a la escuela 12
Primaria Incompleta 86
Primaria Completa 141
Medio Incompleta 158
Medio Completa 59
Terciario/Universitario Incompleta 15
Terciario/Universitario Completa 8
Total de encuestados 479
Ejercitacin N 2:
abrir archivo: Nivel de estudios alcanzado.xls
62
1. Cul es la Frecuencia relativa de no concurrir a
la escuela?
2. Cul es la Frecuencia relativa de todos los
encuestados que finalizaron el nivel medio?
3. Cul es la Frecuencia relativa de los que no
comenzaron el nivel medio?
4. Cul es la Frecuencia relativa de los que
continuaron estudiando luego de finalizar el nivel
medio?
63
1. Fr (no concurrir a la escuela)= 12/479
2. Fr (finalizaron el nivel medio)= (59+15+8)/479
Tambin podra ser: 1 Fr acumulada hasta Medio
incompleto = 1 ((12+ 86+141+158)/479)
3. Fr (no finalizaron nivel medio)=(12+ 86+141+158)/479
Tambin podra ser: 1 Fr acumulada finalizaron el nivel
medio) = 1 ((59+15+8)/479)
4. Fr ( Terc./Univ. incomp./compl.)= (15+8)/479
64
Si en nmero total de hogares, segn el ltimo
censo realizado es de 12.345:
1. Cul es la cantidad total de personas que no fueron a
la escuela?
2. Cul es el total de todas las personas que finalizaron
el nivel medio o la escuela secundaria?
3. Cul es el total de los que no comenzaron la escuela
secundaria?
4. Cul es el total de los que continuaron estudiando al
finalizar la escuela secundaria?
Ejercitacin N3:
siguiendo con la encuesta anterior
65
Para resolver esta ejercitacin abrir el archivo
de Excel Nivel de estudios alcanzado.xls.
Obsrvese que para la estimacin puntual se
resuelve extrapolando los datos de la poblacin a
los de la encuesta: (12.345/479 x Frecuencia
absoluta).
Tambin est desarrollado, a modo de ejemplo, el
clculo del intervalo de confianza al 95% (IC95%)
para cada nivel educativo. Esto nos indica si el
estimador puntual resultado de la extrapolacin es
bueno o no (ver amplitud del IC95%).
Tambin pueden jugar cambiando el Nmero de
datos de la encuesta (en las celdas G3 a G9) y
observar como cambia la amplitud del IC95%.
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Relacin entre la
Probabilidad terica y la
frecuencia relativa
67
La probabilidad matemtica de ocurrencia de
un acontecimiento est ligada a la frecuencia
relativa con que ste se presenta en la
prctica.
Si se elige una muestra de la poblacin que
rene todos los individuos o casos posibles,
obtendremos la Frecuencia relativa del
evento.
68
El matemtico suizo Jacobo Bernouilli (1655-1705), fue el primero
en estudiar este tema en forma sistemtica con un enfoque
cientfico.
Observando los resultados del lanzamiento de una moneda un
nmero grande de veces, not que el nmero de caras y secas
tenda a igualarse; que la frecuencia relativa de caras se
acercaba ms al nmero de secas, al aumentar el nmero de
lanzamientos. Las frecuencias relativas se acercaban cada vez
ms a 0,5.
Otro tanto le ocurra en el lanzamiento de dados: la frecuencia
relativa de un as tenda a 1/6.
69
Imagin haber encontrado un fenmeno ms general y as
dio comienzo la teora de probabilidades.
Sus resultados tericos se corresponden razonablemente
con la realidad, sin embargo, debe marcarse siempre una
clara distincin entre los resultados empricos y los tericos.
De tal modo, en el caso de que el universo posible no se
modifique, frecuencia y probabilidad estn ligadas a travs
de lo que se dio en llamar la ley de los grandes nmeros,
trmino que no se refiere a la magnitud de las cifras puestas
en juego sino a la gran cantidad de veces con que se
presentan.
70
Ley de los Grandes Nmeros
Se considera el primer teorema fundamental de
la teora de la probabilidad.
Bsicamente el teorema establece que la
frecuencia relativa de los resultados de un cierto
experimento aleatorio, tienden a estabilizarse en
cierto nmero, que es precisamente la
probabilidad, cuando el experimento se repite un
nmero suficiente de veces.
71
P(A) Fr
N
A


N
FrA
A P ~ ) (
Cuando trabajamos con una muestra la frecuencia relativa (o
proporcin) es la "probabilidad" de encontrar un elemento de una
categora determinada en la muestra. Es el estimador de la
probabilidad en la poblacin.
La probabilidad es el valor poblacional que generalmente no lo
no se conoce (a menos que se haga un censo). Por lo tanto la
proporcin (frecuencia relativa) es el estimador de la
probabilidad.
A medida que aumenta el numero de la muestra la Frecuencia
relativa tiende al valor de la probabilidad; dado que el error
debido al muestreo tiende a cero.
73
Experimento:
Tirar una moneda y anotar si sale cara.
0,450
0,460
0,470
0,480
0,490
0,500
0,510
0,520
0,530
0,540
0,550
0,560
0,570
0,580
0,590
0 1000 2000 3000 4000 5000 6000
Nmero de experimentos
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
74
Experimento:
Tirar un dado y anotar si sale el 2.
0,120
0,130
0,140
0,150
0,160
0,170
0,180
0,190
0,200
0,210
0,220
0,230
0 1000 2000 3000 4000 5000 6000
Nmero de experimentos
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
75
Aceptada esta ley, se comprende que el resultado
de un suceso al azar se pueda modelizar con la
extraccin de una bolilla de una urna o bolillero de
composicin adecuada.
Por ejemplo, datos mundiales revelan que nacen
un poco ms de varones que de mujeres. La
frecuencia para el nacimiento de varones es 105
varones por cada 100 mujeres.
76
De tal manera, una urna que podra funcionar simulando
los nacimientos que ocurren en la poblacin mundial
debera cargarse con 105 bolillas negras (que
representaran a hombres) y 100 bolillas blancas
(mujeres).
En un gran nmero de extracciones, la frecuencia de
extraccin de negras se acercara a 105/205, es decir un
poco ms que , aproximndose a lo que sucede en la
realidad.
77
Un problema en el clculo de probabilidades a
partir de la frecuencia relativa es que en
ocasiones se la utiliza sin evaluar un nmero
suficiente de experimentos.
En el caso de una muestra el nmero total
relevado, no es suficiente para aproximarse con la
certeza requerida a la probabilidad de la poblacin
estudiada.
78
Esto lleva a otro tema de gran importancia
que es el clculo de el nmero de resultados
necesarios para que, al extrapolar los datos
de la muestra a la poblacin, el error propio
del muestreo sea mnimo.
Habra que calcular el tamao de la muestra
tal que el error de muestreo sea razonable
(ej: 0,05).
79
Procesos con azar inherente
El anlisis hecho hasta ahora induce a pensar que
siempre el azar es un factor introducido por
comodidad o desconocimiento en detalle del
proceso que se estudia, y que un mayor anlisis lo
va acotando, transformando casualidad en
causalidad.
Sin embargo muchos fenmenos estudiados a fondo
tienen aun una cuota de azar inherente.
80
Ejemplo:
En la desintegracin radiactiva, los tomos de un cierto
elemento inestable van transmutndose individualmente en
elementos mas livianos, al expulsar de su ncleo partculas
elementales. A lo que se sabe hasta este momento, este
proceso es absolutamente aleatorio, no pudindose determinar
cual de los tomos del material en cuestin, todos ellos idnticos
entre si, ser el prximo en emitir una partcula (una parte de su
ncleo).
Mas bien esta establecido por leyes estadsticas cuantos sern
los que aproximadamente lo harn en el prximo minuto.
81
Ejemplos:
La aleatoriedad es, en este caso, una parte
insoslayable del proceso ya que no se ha
encontrado causa aparente que determine que
sea uno y no otro tomo el que primero decaiga.
Muchos otros fenmenos a microescala como el
descripto se explican solo admitiendo que regulan
su ocurrencia funciones de probabilidad.
82
Los complejos procesos mentales, como los volitivos,
impredecibles a ciencia cierta an por los neurlogos y
psiclogos mas atrevidos, pueden sin embargo estudiarse
como hechos que ocurren colectivamente con determinada
probabilidad bajo ciertas circunstancias.
As estadsticamente se pueden predecir, siempre dentro de
ciertos limites de imprecisin o dispersin, los efectos de la
propaganda sobre la demanda general de un cierto
producto, o la inclinacin de los gustos de los jvenes de
una comunidad por una determinada moda.
83
El azar estadstica
Tambin, hay procesos que tienen una ocurrencia y desarrollo
ligado a una gran cantidad de otros acontecimientos anteriores
relacionados o no entre si, y que resultan absolutamente
imposibles de desentraar por su complejidad y nmero, por
mas que pudieran responder en ltimo caso a relaciones causa-
efecto.
Por ejemplo, se sabe que la interaccin mecnica en el espacio
de solo tres cuerpos es un problema ya harto complicado de
resolver por ms que las relaciones causa-efecto sean las
sencillas leyes de la mecnica clsica. Quin se atrevera a
abordar por este mtodo la interaccin de millones de molculas
en un botelln de gas?
84
Solo mtodos estadsticos dan en este caso un resultado de
conjunto muy ajustado, prediciendo variables macroscpicas
como presin, temperatura y funciones de distribucin de
velocidades de las molculas, es decir que porcentaje del total
de molculas tienen velocidades comprendidas en un intervalo
dado.
Veremos que una sociedad no se comporta a escala estadstica
muy diferente que a las molculas de un litro de gas, aunque
sea bastante menor en nmero y distinta en naturaleza que
sta. Desde este punto de vista, la estadstica es una
herramienta que nivela y rebaja de categora al individuo, y sus
conclusiones deben aplicarse a la poblacin estudiada en
general.
85
Probabilidad bajo condiciones de
Independencia
Cuando se presentan dos eventos, el resultado del
primero puede, o no, tener un efecto en el resultado
del segundo.
Por lo tanto, los eventos pueden ser dependientes o
independientes.
Los eventos son estadsticamente independientes,
cuando la presentacin de uno de ellos no afecta la
probabilidad de que ocurra cualquier otro.
86
Experimento: Tirar tres veces un moneda equilibrada.
Cul es la probabilidad de que salga en las tres tiradas
cara?
Se modifica la probabilidad para cada tirada de la
moneda?
Si en la primera sali cara en la segunda tirada cambia
la probabilidad de que salga cara?
87
Desde el punto de vista de teora de conjuntos,
equivale a interseccin.
Por lo tanto las y significa multiplicar el resultado
de las probabilidades individuales.
Tambin se puede pensar como que son tres
experimento estadsticamente independientes
entre si y por lo tanto tienen que multiplicarse.
88
Decimos que dos eventos A y B son
independientes si el hecho de que ocurra uno de
ellos no afecta la probabilidad de que ocurra el
otro.
( )
125 , 0
8
1
) (
2
1
2
1
*
2
1
*
2
1
) (
3
= =
= =
x P
x P
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Probabilidad Conjunta
Probabilidad Marginal
Probabilidad Condicional
90
As como en las variables aleatorias unidimensionales nos
interesa estudiar cmo se distribuye la probabilidad de cada uno
de los valores posibles, en las variables aleatorias
bidimensionales nos interesa lo mismo, con la salvedad de que
ahora los valores posibles son pares de valores, o bien vectores
de dimensin 2.
Notemos que:
1) la probabilidad de un determinado par de valores no puede
ser menor que cero.
2) la suma de las probabilidades de todos los pares de valores
es igual a 1, porque al hacer el experimento siempre sale uno
de los pares posibles.
91
Cuando comparamos ms de una variable, se
define la probabilidad conjunta de las mismas al
cruzamiento realizado entre las categoras de las
dos variables.
La tabla resultante, se denomina:
Tabla de Contingencia
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Tablas bivariadas o
Tablas de contingencia
93
Una tabla de contingencia se obtiene cuando se
clasifican las unidades de anlisis de una muestra con
respecto a dos variables cualitativas con M y N
categoras respectivamente. Esta clasificacin debe
ser exhaustiva y mutuamente exclusiva, lo que
significa que cada individuo ha de poder asignarse a
una de estas M x N categoras y solo a una.
En general, la cuestin ms importante que se plantea
ante una tabla de contingencia es si las variables son
independientes o no.
94
Centro de
Salud
Das de la semana
LU MA MI JU VI SA Total
Centro A 350 87 65 12 23 23 560
Centro B 120 43 38 6 10 12 229
Centro C 426 67 34 7 45 67 646
Centro D 267 49 35 5 18 18 392
Total
pacientes
1.163 246 172 30 96 120 1.827
La pregunta sera:
Hay independencia entre los diferentes Centro de Salud y la cantidad de
pacientes que atienden por da? (ver: Centros de salud resuelto.xls)
95
PROBABILIDAD CONJUNTA
Supongamos que tenemos dos variables binarias X e Y; la
probabilidad conjunta puede venir dada por la siguiente tabla:


+x -x
Marginal
de Y
+y

+x +y

-x +y

+Y
-y

+x -y

-x -y

-Y
Marginal
de X

+X

-X
Total

XY

96
Podemos definir la probabilidad conjunta cuando
comparamos 2 o mas variables, con la condicin de
que las suma de todas las probabilidades debe ser 1.
Si por ejemplo tenemos 2 variables binarias X e Y
tenemos:

= =
=
m
1 j
n
1 i
) ( y) P(x,
j i
y x P
1 P(-x,-y) y) P(-x, x,-y) P( y) x, P( y) P(x, = + + + + + + + =
97
A partir de la probabilidad conjunta de
dos o ms variables podemos definir
la probabilidad marginal para un
subconjunto de la probabilidad total,
de la siguiente forma:
PROBABILIDAD MARGINAL
98
Las probabilidades marginales seran:
P(+x) = P(+x +y)+ P(+x -y)
P(-x) = P(-x +y) + P(-x -y)
P(+y) = P(+x +y)+ P(-x +y)
P(-y) = P(+x -y) + P(-x -y)
99
La independencia estadstica es cuando la
probabilidad de que se presente algn
evento, no modifica la probabilidad de algn
otro evento.
La dependencia estadstica es cuando la
probabilidad de que se presente algn
evento, modifica la probabilidad de algn
otro evento.
100
La probabilidad de dos o ms eventos
independientes se presenten juntos o en
sucesin, es igual al producto de sus
probabilidades marginales.
) ( ) ( ) (
) ( ) ( ) (
) ( ) ( ) (
) ( ) ( ) (
y P x P y x P
y P x P y x P
y P x P y x P
y P x P y x P
+ = +
+ = +
=
+ + = + +
101
La probabilidad de dos o ms eventos
que son dependientes, no es igual al
producto de sus probabilidades
marginales.
) ( ) ( ) (
) ( ) ( ) (
) ( ) ( ) (
y P x P y x P
y P x P y x P
y P x P y x P
+ + ( + +
+ + ) + +
+ + = + +
Dependencia positiva
Dependencia negativa
102
PROBABILIDAD CONDICIONAL
La probabilidad condicional es la probabilidad de
que ocurra el suceso X, dado que ya ocurri el
suceso Y.
Cul es la probabilidad de que ocurra A dado que
ya ocurri B.
La notacin es la siguiente:
P(A/B) = P(A,B)
P(B)
103
A
) (
) (
) / (
B P
B A P
B A P

=
E espacio muestral
B
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Ejemplos y
Aplicaciones
105
Encuesta Educativa en Bajo Flores
Variable Sexo de los nios encuestados
VARIABLE 1
Frecuencia Porcentaje
Masculino
717 52,6
Femenino
647 47,4
Total
1364 100,0
Ver archivo: base nios flores.sav base nios flores.xls
106
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los nios
VARIABLE 2
Frecuencia Porcentaje
Ciudad de Bs As
1133 83,0
Gran Bs As
49 3,6
Interior del Pas
40 2,9
Otros Pases
143 10,5
Total 1365 100,0
107
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2
Sexo
Total
Masculino Femenino
Lugar de
nacimiento
Ciudad Bs As 600 532 1132
Gran Bs As 23 26 49
Interior del Pas 18 22 40
Otros Pases 76 67 143
Total 717 647 1364
Frecuencia Marginal de Sexo
Frecuencia Marginal de Lugar de nacimiento
Frecuencias conjuntas
108
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2:
% por filas (Probabilidad condicional por lugar de nacimiento)
Sexo
Total
Masculino Femenino
Lugar de
nacimiento
Ciudad Bs As 53,0% 47,0% 100% (1132)
Gran Bs As 46,9% 53,1% 100% (49)
Interior del Pas 45,0% 55,0% 100% (40)
Otros Pases 53,1% 46,9% 100% (143)
Total
52,6% 47,4% 100% (1364)
109
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2:
% por columna (Probabilidad condicional por sexo)
Sexo
Total
Masculino Femenino
Lugar de
nacimiento
Ciudad Bs As
83,7% 82,2% 83,0%
Gran Bs As
3,2% 4,0% 3,6%
Interior del Pas
2,5% 3,4% 2,9%
Otros Pases
10,6% 10,4% 10,5%
Total
100% (717) 100% (647) 100% (1364)
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Ejemplo
111
Se quiere estudiar la exposicin al tabaco como factor de riesgo
en el desarrollo de una enfermedad en una determinada
poblacin.
Para ello se dise un estudio retrospectivo: Se seleccion una
muestra de 180 sujetos, siendo los resultados los siguientes:
Frecuencias Observadas o Experimentales
Enfermos Sanos
Fumadores 60 10 70
No Fumadores 20 90 110
80 100 180
112
Considerando toda la muestra, la probabilidad de desarrollar la
enfermedad (E) en la poblacin de estudio es:
Las probabilidades condicionales son:
Probabilidad de estar enfermo dado que es fumador:
Probabilidad de estar enfermo dado que no fuma:
% 7 , 85 857 , 0
70
60
) / ( = = = F E P
% 2 , 18 182 , 0
110
20
) / ( = = = F E P
% 4 , 44 444 , 0
180
80
) ( = = = E P
113
Una forma de evaluar la independencia es la siguiente:
Las probabilidades condicionales por filas ( o por
columnas) si son iguales o similares a la
probabilidad total podramos aproximar a que son
independientes.
En el caso anterior se observa que las
probabilidades condicionales de estar enfermo de
los que fuman, no fuman o total son diferentes,
entonces podramos sospechar que hay una
relacin entre variables y que la variable
independiente o factor (tabaquismo) afecta a la
variable dependiente (enfermedad).
114
Tambin se pueden calcular las frecuencias conjuntas a partir
de las frecuencias marginales suponiendo completa
independencia entre variables (frecuencias esperadas) y
compararlas con las frecuencias observadas.
Frecuencias observadas: son las experimentales, las que
obtengo contando de la investigacin.
Frecuencias esperadas: son las frecuencias proporcionales
a las frecuencias marginales de la distribucin bivariada (de
cada una de las variables). Se obtienen multiplicando a las
frecuencias relativas marginales correspondientes a la celda o
multiplicando las frecuencias absolutas marginales
correspondientes a la celda dividido el total de casos (N).
115
Son las frecuencias tericas o esperadas en el caso de que las
dos variables son completamente independientes.
Por lo que las probabilidades condicionales tanto por filas o
columnas no difieren de la probabilidad total (fila o columna).
Cuando se alejan las frecuencias observadas de las frecuencias
esperadas implica un alejamiento de la independencias entre las
variables.
A partir de la diferencia entre las frecuencias esperada y la
observadas podemos decir con un nivel de confianza (alfa=0,05)
si las dos variables son independientes o dependientes usando
la prueba de Chi cuadrado.
116
Cules son las Frecuencia Esperadas si el hbito de
fumar fuera independiente del riesgo de desarrollo de
una enfermedad?
Enfermos Sanos
Fumadores
X
EF
X
SF
70
No Fumadores
X
ENF
X
SNF
110
80 100 180
......... ..........
88 , 48
180
110 80
180
110
80
11 , 31
180
70 80
180
70
80
=

= =
=

= =

NF E
NF E
F E
F E
X
X
X
X
117
Enfermos Sanos
Fumadores 31 39 70
No Fumadores 49 61 110
80 100 180
Enfermos Sanos
Fumadores 60 10 70
No Fumadores 20 90 110
80 100 180
F
r
e
c
u
e
n
c
i
a
s
O
b
s
e
r
v
a
d
a
s
F
r
e
c
u
e
n
c
i
a
s
E
s
p
e
r
a
d
a
s
v
a
r
i
a
b
l
e
s

i
n
d
e
p
e
n
d
i
e
n
t
e
s
Archivo: Test de chi cuadrado 2x2.xls
Archivo: Ejemplo de tabla de contingencia de 2x2.sav (Para SPSS)
Archivo: Ejemplo de tabla de contingencia de 2x2.xls (Para Excel)
118
Abrir Epidat 3.1
En la ventana desplegable de Mtodos, seleccionar:
Tablas de contingencia / tablas de 2 x 2 / simples:
En Tipo de estudio se refiere al diseo experimental:
Trasversal (no hay un seguimiento, foto del momento)
Cohorte (seguimiento en el tiempo)
Caso control es un tipo de trasversal
Caso control emparejado
Seleccionar el que corresponde y llenar los casilleros
Luego apretar el icono que tiene forma de calculadora.
Tablas de M x N (M filas y N columnas)
Jugar con ensayo error o abrir archivo:
Archivo: Uso epidat tablas de 2x2. pdf
Pablo A. Salgado email: cursos-estadistica@centroredes.org.ar estadisticaymetodologia@gmail.com
Ejercitacin
para practicar y discutir en el foro
120
Un total de 130 ratones fue seleccionado para probar la
penicilina, luego de haber sido inyectados con un
Sthaphylococcus aureus cultivado en un caldo
enriquecido. La tabla de supervivencia obtenida fue la
siguiente.
Verificar si la penicilina tuvo incidencia en la cura.
Vivos Muertos
Control 8 12 20
Penicilina 48 62 110
56 74 130
Resuelto en el archivo: Ratones y penicilina.xls
121
En tres turnos de produccin en una fbrica:
Maana, Tarde y Noche, se producen accidentes
laborales. De acuerdo con los datos siguientes,
probar la Ho que la proporcin de accidentes es la
misma para los tres turnos laborales.
Maana Tarde Noche
Total
Accidentes
Sin accidentes 210 180 120 510
Accidentes producidos 4 6 10 20
Total Turnos 214 186 130 530
Resuelto en el archivo: Ejercicio turnos y accidentes.xls