You are on page 1of 13

Clase N° 6. Probabilidades. Fundamentos de la inferencia estadística.

Los temas que vimos en las clases anteriores corresponden al campo de la Estadística
Descriptiva, y como se ha visto, permiten la presentación y resumen de los datos recogidos del
análisis de una población o de una muestra en una investigación.
Sin embargo, la Estadística tiene como principal objetivo ser una guía del
investigador en la toma de decisiones que exceden a los datos de la muestra. Esto significa que
las conclusiones respecto de la muestra se generalizan a la población que la misma representa.
Las técnicas y procedimientos que se utilizan para tal generalización corresponden a
la Estadística Inferencial o Inductiva.
Algunas de los procedimientos inferenciales que se estudiarán son: Pruebas de
Hipótesis o de Significación y Técnicas de Estimación de Parámetros.
Parámetros y Estadísticos
En clases anteriores se llamaron Índices estadísticos o simplemente Estadísticos a las
medidas que representan al conjunto de valores de una variable en una muestra. Si esta
muestra es perfectamente representativa de la población estos índices deberían tener los
mismos valores que en la población, pero es fácilmente comprensible que esto sucederá con
certeza solo si se toman todos los datos de la población. Los índices tomados de esta forma se
denominan Parámetros de la población.
Los mismos índices, determinados sobre la muestra de una población son los
Estadísticos de la misma y representan una estimación de los parámetros. Cómo es
prácticamente imposible investigar todas las unidades experimentales de la población, se
investiga sobre muestras representativas de la misma y, a partir de las técnicas de la estadística
inferencial se estiman los parámetros de la población.
Para diferenciar los conceptos de estadísticos y parámetros, en la literatura estadística
se realiza una diferenciación en los símbolos que los representan. Los parámetros se
simbolizan con letras del alfabeto griego:

1
Conceptos básicos de la teoría de probabilidades (definiciones y ejemplos)

• Probabilidad teórica o matemática (también llamada: a priori de un suceso):


Es el cociente entre el número de casos favorables a mis condiciones y la totalidad de casos
que pueden ocurrir.
Por ejemplo, la probabilidad de que la condición sea que salga cara al arrojar una moneda es
igual a: P(cara) = Casos favorables / Totalidad de casos = 1(cara) / 2 (cara y ceca) = 0,5
y si expresáramos la probabilidad en % será equivalente al 50%.
Otro ejemplo: ¿Cuál será la probabilidad de obtener un as al arrojar un dado? Veamos:
P(as) = Casos favorables / Totalidad de casos = 1(as) / 6 (6 caras del dado) = 0,16
y si expresáramos la probabilidad en % será equivalente al 16%.
• Probabilidad experimental (también llamada empírica o a posteriori de un suceso)
La probabilidad experimental es el resultado de un experimento consistente en contabilizar los
casos favorables a mis condiciones durante la realización de un número determinado de
ensayos.
Se expresa como el cociente entre los casos favorables a mis condiciones y la totalidad de
ensayos realizados.
Por ejemplo ¿Cuál será la probabilidad experimental de obtener un as al arrojar un dado 50
veces? En el caso que se obtuvieran 10 ases la probabilidad experimental sería:
P(as) = Casos favorables / Totalidad de ensayos = 10(as) / 50(ensayos) = 0,20
y si expresáramos la probabilidad en % será equivalente al 20%.
En este caso vemos que difiere con la probabilidad teórica P(as) = 0,16 pero, según la ley de
los grandes números (“al incrementar el número de ensayos la probabilidad experimental se
va aproximando a la probabilidad teórica hasta alcanzarla como límite cuando el número de
ensayos tiende a infinito”) al incrementar el número de ensayos la probabilidad experimental
cada vez se aproximará más al valor 0.16.
Para tener presente:
• La probabilidad se da siempre como un número entre 0 y 1, donde 0 y 1 implican que
el evento nunca ocurrirá y el evento seguramente ocurrirá, respectivamente.
• La probabilidad de un evento siempre quedará expresada como un valor entre 0 y 1 y
en porcentajes como un valor entre 0% y 100%.

La teoría de las probabilidades y las técnicas inferenciales


Ante la imposibilidad de contar con2 todos los datos del comportamiento de una
variable en la población, el investigador deberá recurrir a considerar una probable
distribución de los valores de la variable en la población.
Para adoptar una distribución probable de la variable y dependiendo del carácter de
ésta, se recurre a los modelos matemáticos (teóricos) que ofrece la teoría de las
probabilidades.
El modelo más utilizado y que, en general, se adapta exitosamente a la mayoría de las
variables cuantitativas de una investigación psicológica es el modelo normal de
probabilidades que estudiaremos en la unidad siguiente. Es también llamado distribución
normal, distribución de Gauss o distribución gaussiana.
Este modelo matemático utiliza variables cuantitativas continuas y es el que con más
frecuencia aparece en estadística y en la teoría de probabilidades.
La razón de su importancia radica en que es un modelo teórico que presenta similitud
con numerosos fenómenos naturales, sociales y psicológicos de la vida real y por lo tanto
permite realizar simulaciones de ellos
Asimismo, es la base sobre la cual se asientan numerosas pruebas estadísticas que
permiten poner a prueba diferentes hipótesis, siguiendo los lineamientos del método
científico.
Los científicos realizan investigaciones partiendo de una hipótesis de trabajo que, de
ser confirmada, probaría, por ejemplo: la efectividad de alguna nueva metodología de
abordaje terapéutico o la eficacia de alguna droga. Esta hipótesis de investigación sólo podrá
aprobarse con seguridad a partir de lo que se denomina Prueba de Hipótesis, que es un
procedimiento estadístico esencial y del cual hablaremos más adelante.
Como se verá en los temas siguientes, siempre el investigador debe decidir
previamente el nivel de error que está dispuesto a asumir al realizar una Prueba de Hipótesis.
A este nivel de error posible se lo llama el nivel de significación de la prueba. Y se lo
simboliza con la letra griega α. Este error generalmente se estipula en el 1% o el 5%, pero
puede adoptar otros valores.
En otras palabras: este error es la probabilidad que asume el investigador de
equivocarse en las conclusiones a las que arribe después de realizar la Prueba de Hipótesis.
Teoría de probabilidades
Como ya hemos señalado, la gran contribución de la estadística va más allá de la
descripción de una o más muestras. Tiene que ver con la población, ya que permite conocer,
mediante muestras representativas y con algún grado de certidumbre, las característi cas de las
poblaciones de las cuales fueron obtenidas dichas muestras. El capítulo de la estadística que se
3
ocupa de las técnicas que permiten estas determinaciones, como hemos visto se denomina
estadística inferencial o inductiva.
El objeto de toda inferencia estadística está en decir algo acerca de las diversas
características de la población estudiada, sobre la base de hechos conocidos a propósito de una
muestra sacada de dicha población.
Como se señaló anteriormente toda inferencia estadística se realiza en base a un
modelo probabilístico, lo que hace necesario que nos aboquemos al estudio de la Teoría de las
Probabilidades como fuente de dichos modelos.
El azar y su estudio sistemático
Las variaciones que se pueden observar en la medición de una variable se producen por dos
razones principales:
1. El error en la medición, que incluye la variabilidad debida a clasificaciones equivocadas, la
variabilidad de los instrumentos que se usan y la variabilidad entre los que hacen las
mediciones.
2. La variabilidad inherente a todos los sistemas biológicos. Existen diferencias entre las
especies, entre individuos dentro de una especie y entre partes de un mismo individuo.
Por estas razones, se denomina a toda variable que es observada como parte de un
experimento: variable aleatoria. Como se señaló, la aleatoriedad de la variable deviene del
concepto de azar en la manifestación del fenómeno, al que entendemos como el suceso o caso
fortuito, es decir aquello que sucede imprevistamente, es decir, sin "intencionalidad"
conocida.
Pero el azar es posible de sistematizar a partir de la Teoría de las Probabilidades que
permite contrastarlo permanentemente utilizando herramientas apropiadas.
La estadística inferencial se constituye en una de esas herramientas, permitiendo al
científico, en cualquier campo "predecir y prever" con relación a los fenómenos que le
conciernen, acotando así el impacto de lo que llamamos "lo imprevisto".
El cálculo de probabilidades se atribuye a los matemáticos Pascal y Fermat, a partir del
siglo XVII, cuando estudiaban responder a las preguntas que surgían en los juegos de azar.
Posteriormente Laplace, a fines del siglo XVIII - principios del XIX, le da una
estructuración definitiva al Cálculo de Probabilidades, permitiendo además su unificación con
la Estadística, hasta ese momento disciplinas separadas, de tal manera, que se constituye la
Probabilidad como una estructura matemática de base de la Estadística.
Como ya hemos visto anteriormente la probabilidad de un suceso o evento está
comprendida entre 0 y 1 (o entre 0 y 100%)
4
Probabilidad = 0 (Nula). Ejemplo: La probabilidad de encontrar un alumno, en una
comisión de Bioestadística, del turno noche, en agosto de 2020, en la Universidad
Kennedy, que tenga 6 años.
Probabilidad = 0,20 (20%). Ejemplo: La probabilidad de que llueva en algún día del
mes de octubre.
Probabilidad = 1 (Segura). Ejemplo: La probabilidad de que un alumno universitario
tenga el nivel primario completo.
Es importante destacar que no todos los problemas son tan sencillos como para poder
resolverlos conociendo la definición de probabilidad. Hay sucesos que requieren, para
conocer su probabilidad de ocurrencia un conocimiento más profundo de la disciplina
denominada Cálculo de Probabilidades. A continuación, veremos algunos casos sencillos en
que se requiere un conocimiento más profundo del tema.
En el caso de los denominados eventos compuestos.
Ante eventos compuestos, es necesario tener en cuenta de qué forma se arriba a la
estimación cuantitativa de la probabilidad, siempre teniendo en cuenta delimitar exactamente
el suceso.
Puede analizarse a través de un ejemplo: En una población de escasos recursos
económicos se toma una muestra de 100 niños entre 5 y 7 años, para investigar distintas
situaciones posibles.
Si se quiere saber la probabilidad P (A) de encontrar un niño con síntomas de
desnutrición por un lado y por otro, la probabilidad P (B) de que un niño presente un
deficiente rendimiento escolar, sería un evento sencillo el cálculo de la probabilidad de
cualquiera de las dos situaciones por separado. Pero si se plantea la probabilidad de encontrar
niños con problemas de desnutrición “y” que simultáneamente presenten bajo rendimiento
escolar, estaríamos frente a un evento compuesto.
La conjunción “y” determina una probabilidad de eventos compuestos, es decir,
que ambos se tienen que dar juntos, matemáticamente responde a la ley de la
multiplicación, que significa que la probabilidad simultánea de ambos es igual al producto de
cada probabilidad individual de cada evento. La fórmula es:

P (A y B) = P (A). P (B)

Otro tipo de casos es el de la probabilidad en sucesos mutuamente excluyentes, es


decir cuando la presencia de un suceso anula la posibilidad de la presencia del otro, es decir
5
que no pueden ocurrir al mismo tiempo. El ejemplo más sencillo es el de la moneda. Al arrojar
una moneda ya salga cara o ceca, cada uno de los sucesos anula al otro. En este caso la
conjunción “o” plantea el sentido excluyente de la probabilidad, y matemáticamente
responde a la ley de la suma, y se interpreta, como que la probabilidad de que se produzca un
evento A o B, es igual a la suma de sus probabilidades individuales
P (A o B) = P (A) + P (B)
Ejemplo: ¿Cuál es la probabilidad de que al arrojar un dado salga el 2 ó el 4?
Aplicando la ley de la suma:
P (2 ó 4) = P (2) + P (4) = 1/6 + 1/6 = 2/6 = 1/3 = 0,33 o 33%
Una importante consecuencia de la definición de probabilidades es que, si se suman
las probabilidades de todos los sucesos posibles, la suma es siempre 1 (uno) pues tenemos la
certeza (la seguridad) de que alguno de los resultados se dará.
Modelos probabilísticas
Estos modelos probabilísticos (matemáticos) nos permiten a través de la simulación
llevada a cabo en ellos la interpretación de los sucesos que investigamos. Muchas veces la
interpretación no resulta correcta y esto no depende de errores del modelo elegido, sino
precisamente en el error al elegir el modelo. Este debe responder a los fines de la investigación
para permitir la lectura e interpretación adecuada de los resultados y para lograr tener cierta
predictibilidad sobre el comportamiento de las variables la población, en relación el fenómeno
estudiado.
Las distribuciones que se describirán a continuación son, por lo tanto, teóricas; aunque ellas
tienen gran importancia y utilidad en la práctica.
En este curso se estudiarán dos tipos de distribuciones: la distribución normal y la distribución
binomial.
Distribución normal
El modelo de distribución de variables cuantitativas continuas, llamada distribución
normal o gaussiana responde a la siguiente ecuación:

Esta función está definida en todo el campo real y la representación gráfica responde a
una curva en forma de campana simétrica al eje de las ordenadas p.

6
Ejemplo: Gráfico de la función normal
La mayoría de las variables en
los fenómenos objeto de
estudio en las ciencias sociales
y biológicas, cumplen con las
características consignadas en
el gráfico adjunto. Por lo tanto,
guardan simetría respecto a los
valores promedios de la
variable, es decir de su media
aritmética µ.
Asimismo, el MODO y la
MEDIANA concuerdan con la
media aritmética µ

Volviendo a su expresión gráfica, debe tenerse presente que el área total comprendida
entre la curva y el eje horizontal representa el 100% de los casos (la totalidad de éstos), o en
otras palabras que la probabilidad de hallar algún caso en dicha área es igual a 1.
Asimismo, el área de la región encerrada entre los valores Xi y X2, (área en rojo en el
gráfico) es la probabilidad (ó % de casos) de que la variable aleatoria continua X, se encuentre
entre esos valores de X.

Puntuación estándar o reducida: Los valores de las variables cuantitativas pueden


expresarse de una forma que facilita la realización de cálculos para la solución de problemas y
consiste en transformar la variable X, que corresponde a la curva del Modelo Normal de
Gauss, en otra variable que se denomina puntuación estándar o reducida, y que se simboliza
por la letra Z.
Dicha transformación (conversión) de X a Z se muestra a continuación:

Es decir que a través de esa fórmula hemos transformado el puntaje X1 en el puntaje


reducido Z1.

Distribución normal estandarizada


El pasaje de la variable X a la variable reducida Z implica simultáneamente un cambio a otro
modelo que denominaremos: Distribución Normal Estandarizada o Modelo Normal
Estandarizado. 7
Este nuevo modelo, producto de la transformación comentada, es un modelo simplificado y
estandarizado, que permite trabajar con cálculos matemáticos sencillos, resolviendo la
dificultad de trabajar con la curva Normal de Gauss, ya que en él se hallan representadas todas
las posibles curvas normales y no depende de los parámetros de la población µ y σ que se
requieren en el Modelo Normal de Gauss.

El MODELO NORMAL STANDARIZADO también tiene forma de campana y presenta las


siguientes características:
• Igual que la distribución NORMAL es una curva con ordenadas p siempre positivas y
decreciente hacia ambos lados del máximo representado en el eje de simetría.

• Igual que la distribución NORMAL es simétrica respecto al eje de ordenadas p y


asintótica con el eje de las abscisas Z (quiere decir, que se acerca indefinidamente al
eje Z, pero jamás lo toca).

• Tanto en la distribución NORMAL como en la NORMAL STANDARIZADA, el área


comprendida entre la curva y el eje horizontal representa el 100% de los casos (la
totalidad de éstos), o en otras palabras que la probabilidad de hallar algún caso en
dicha área es igual a 1.

• La única diferencia con la distribución NORMAL es que el MODELO NORMAL


STANDARIZADO tiene una probabilidad máxima, en el valor de Z = 0 que
corresponde a X = µ en la curva Normal. Y es esta característica, como veremos en los
ejercicios que realizaremos, la que permite resolver problemas de diferentes
distribuciones independientemente de las µ y σ de cada una de ellas.

Procedimiento de pasaje del Modelo Normal al Modelo Normal Estandarizado.

Los valores de probabilidades del MODELO NORMAL STANDARIZADO están


calculados y representados en una Tabla a la que se puede recurrir transformando los valores
de X en Z.
Cuando se trabaja con una distribución poblacional, que responde a la
DISTRIBUCIÓN NORMAL se pueden simplificar diferentes operaciones utilizando el
MODELO NORMAL STANDARIZADO, efectuando previamente la conversión de X a Z
arriba mencionada.

8
Ejemplo de la utilización del Modelo Normal Estandarizado

El Gráfico muestra cómo el valor X1 de la Distribución Normal se convierte en Z1 en la


Distribución Normal Estandarizada mediante la fórmula de conversión.:
Esto permite calcular las probabilidades en función de Z, transformando las infinitas
curvas posibles según los parámetros de la población µ y σ, en una sola curva normal
estándar con parámetros 0 y 1. Los matemáticos calcularon las probabilidades con todos los
valores de z posibles con dos decimales y las registraron en una Tabla de Z.

PROCEDIMIENTO GENERAL para resolver problemas de probabilidades en poblaciones


que se ajustan a una Distribución Normal de Gauss:

1. Convertir los datos de la variable X de la Distribución Normal (Son los datos de la


realidad) en datos sobre la variable Z de la Distribución Normal Estandarizada.

2. Una vez efectuada la operación anterior ya se puede utilizar la tabla de Z para hallar
cualquier probabilidad de la población, consideradas como áreas entre cada par de valores
de Z que se desee conocer.

3. Con los resultados obtenidos sobre la variable Z se formulan las conclusiones sobre la
variable X.

En base a los contenidos de esta clase realizaremos ejercicios para consolidar el tema.

9
UTILIZACIÓN DE LAS TABLAS DEL MODELO NORMAL STANDARIZADO

1. Contenido de las Tablas:

TABLA I /A) para valores negativos de Z TABLA I /B) para valores positivos de Z

2. Interpretación del contenido:


La columna izquierda en ambas tablas contiene los valores de Z (unidad y primer decimal).
El encabezamiento de las restantes columnas (0,00 a 0,09) los valores de Z del 2°decimal).

Por ejemplo, en la TABLA I/A: para Z=-1,54 le corresponde una P=0,06178 que es
equivalente al 6,178%.
Esto se interpreta como que el área rayada a la izquierda de Z=-1,54 contiene el 6,178% del
total de casos de la población o también que la probabilidad de encontrar un valor a la
izquierda de Z=-1,54 es P=0,06178.
Otro ejemplo en la TABLA I/B: para Z=1,07 le corresponde una P=0,85769 que es
equivalente al 85,76%.
Esto se interpreta como que el área rayada a la izquierda de Z=1,07 contiene el 85,76% del
total de casos de la población o también que la probabilidad de encontrar un valor a la
izquierda de Z=1,07 es P=0,85769.

3. Utilización en la resolución de problemas: (Tener presente que la utilización del modelo


Estandarizado de Gauss es de aplicación exclusiva a las distribuciones que se ajustan a dicho modelo).
Una población de individuos que tiene una media aritmética de estatura µ = 170 cm y un
desvío standard σ = 10 cm.
Se desea conocer lo siguiente:
a. ¿Qué % de personas miden menos de 160 cm?
b. ¿Cuál es la probabilidad de que una persona mida más de 185 cm?
c. ¿Qué % de personas se encuentra comprendidas entre 160 cm y 185 cm?
d. ¿Qué altura tiene el individuo más bajo de aquellos que pertenecen al 10% de la
10
población más alta?
Resolución del ejercicio a) ¿Qué % de personas miden menos de 160 cm?

1°) Convertimos el valor de x=160 del


Modelo Normal al valor Z del Modelo
Standard con la formula

Reemplazando: z = (160 -170) / 10 = -1

2°) Ingresamos a la TABLA I/A por ser z


negativo y buscamos con z = -1 el área
situada a su izquierda y vemos que la
probabilidad es p= 0,15866 lo que equivale
a que el 15, 86% de las personas miden
menos de 160 cm.

Resolución del ejercicio b) ¿Cuál es la probabilidad de que una persona mida más de
185 cm?

Es decir que lo que nos están solicitando (ver el Gráfico de abajo) es el área en rojo.
Tener presente que las tablas siempre dan área a la izquierda del valor Z.
Por lo tanto, tenemos primero que encontrar el área a la izquierda del valor Z que se
corresponde con X= 185 para luego, por diferencia con la totalidad de la superficie bajo la
curva en el plano Z, que es siempre p =1, encontrar el valor del área roja.

1°) Convertimos el valor de x=185 del


Modelo Normal al valor Z del Modelo
Standard con la formula

Reemplazando: z = (185 -170) / 10 = 1,5

2°) Ingresamos a la TABLA I/B por ser z


positivo y buscamos con z = 1,5 el área
situada a su izquierda y vemos que la
probabilidad es p= 0,93319.

3°) Si toda la superficie entre la curva del


Modelo Estandarizado y el eje horizontal
es p=1, el área roja es: 1- 0,93319 =
0,06681

4°) La probabilidad de que una persona


mida más de 185 cm es p = 0,06681.

Con otras palabras, podríamos decir también que el porcentaje de individuos que miden más
de 185 cm, en esa población, es del 6,68%
11
Resolución ejercicio c) ¿Qué % de personas se encuentran comprendidas entre 160 cm y
185 cm?
Dado que en este caso nos solicitan determinar qué área está comprendida entre las cotas de
160 cm y de 185 cm y dado que las tablas siempre determinan superficies desde un valor de z
hasta – infinito (recuerden que la curva es asintótica), el procedimiento de resolución consiste
en: Restar al área definida a la izquierda del valor de z para x=185 el valor del área definida a
la izquierda del valor de z para x=160.

1°) Convertir los valores de x en valores de z.


(Ambos valores de Z ya fueron calculados en
los ejercicios anteriores y fueron z = 1,5 para
x=185 y z = -1 para x=160).
2°) Determinar el área a la izquierda de z = 1,5
es p= 0,93319.
3°) Determinar el área a la izquierda de z = - 1
es p= 0,15866.
4°) El porcentaje de personas comprendidas
entre 160 cm y 185 cm será igual a la
diferencia entre ambas áreas.
O sea, p = 0,93319 - 0,15866 = 0,77453 y por
lo tanto el % de personas que se encuentran
comprendidas entre 160 cm y 185 cm 77, 45 %

Resolución del ejercicio d) ¿Qué altura tiene el individuo más bajo de aquellos que
pertenecen al 10% de la población más alta?
En este ejercicio, contrariamente a los anteriores, los datos suministrados no son valores de x
sino el % de la población de mayor estatura. Teniendo presente que los porcentajes equivalen
a áreas, debemos considerar dónde se encuentra el área que corresponde al 10% más alto de
la población, que obviamente se halla en el extremo derecho de la curva.
Entonces, para encontrar el valor de z que define a su derecha ese 10% del área en cuestión
ahora, a diferencia de los ejercicios previos, debemos entrar por el cuerpo de la TABLA I /B)
para hallar ese valor positivo de Z que define el margen izquierdo de la superficie del 10%.
Veamos el procedimiento:

12
Dado que la Tabla suministra valores de áreas a la izquierda de cualquier z que se considere y
siendo que el área que representa al 10% de mayor estatura se encuentra en el extremo derecho
de la curva para determinar el valor de z que deja a la derecha el 10%.

El procedimiento es:
1°) Debemos buscar en la tabla el valor de
z que deja al 90% de la población a su
izquierda. El valor más próximo al 90% es,
en probabilidades, p= 0,89973 tal como se
muestra en la TABLA arriba.
2°) A partir de ese valor de p= 0,89973
vemos que el z que lo define es z = 1,28.
3°) Ahora debemos convertir z en x
despejando x de la fórmula de conversión y
reemplazando valores:

X = 170 + 1,28*10 = 182,8.


Por lo tanto, la altura del individuo más
bajo de aquellos que pertenecen al 10% de
la población más alta es 182,8 cm

13

You might also like