You are on page 1of 41

Ingeniería Civil

Ing. Belkis Cañizales Perdomo MSc.


belkis.canizalesp@ug.edu.ec
Unidad # 4 : Inferencia Estadística
Objetivo: Determinar un conjunto de métodos y técnicas que
permiten inducir, a partir de la información empírica proporcionada
por una muestra, cual es el
comportamiento de una determinada población con un riesgo de
error medibles en términos de probabilidad.

4.1 Inferencias relacionadas con la proporción.


4.2 Inferencias relacionadas con la varianza.
4.3 Inferencias relacionadas con la diferencia de dos medias.
4.4 Inferencia relacionada para diferencia entre dos
proporciones.
4.5 Inferencia para dos varianzas.
4.6 Prueba para la diferencia de medias con muestra pareadas.
4.7 Tablas de contingencia.
4.8 Pruebas de bondad de ajustes.
Estimadores
Media (𝑥)ҧ y la Varianza (S2)

Parámetros
Media (𝝁) y Varianza (𝝈𝟐) Estadísticos
Media (ഥ𝒙) , Proporción y la
Varianza (S2)

Media muestral: 3,
Media poblacional 3 (estimación puntual)

(3-error tipico; 3+error tipico)= (2,95; 3,05)


INFERENCIA ESTADÍSTICA

La inferencia estadística es el conjunto de métodos y


técnicas que permiten inducir, a partir de la información
empírica proporcionada por una muestra, cual es el
comportamiento de una determinada población con un
riesgo de error medible en términos de probabilidad.

Los métodos paramétricos de la inferencia estadística se


pueden dividir, básicamente, en dos: métodos de
estimación de parámetros y métodos de contraste de
hipótesis. Ambos métodos se basan en el conocimiento
teórico de la distribución de probabilidad del estadístico
muestral que se utiliza como estimador de un parámetro.
Asignar un valor concreto al parámetro o
La estimación de parámetros que caracterizan la distribución de
parámetros probabilidad de la población

Error de estimación que es la diferencia entre


la estimación y el verdadero valor del
parámetro

El error de estimación es
desconocido por lo cual es
Intervalo de confianza
imposible saber en cada caso
cual ha sido la magnitud o el
la probabilidad de que éste contenga al signo del error.
verdadero valor del parámetro puede fijarse
tan grande como se quiera. Esta probabilidad
se denomina grado de confianza del
intervalo, y la amplitud de éste constituye
una medida del grado de precisión con el que
se estima el parámetro.
Ejemplo

Estimar el gasto familiar medio anual en alimentación en una región a partir de


una muestra de 200 familias.

El parámetro de interés seria el valor promedio de dicho gasto en la región

Un estadístico relevante en este caso seria la suma de los gastos de todas las
familias en la muestra

El estimador más razonable sería el promedio del gasto familiar en la muestra

Si para una muestra concreta el promedio de gasto en alimentación es de 3.500


euros, la estimación del gasto medio anual en la región sería de $3.500.
En la inferencia sobre una proporción el problema se
concreta en estimar y contrastar la proporción p de
individuos de una población que presentan una
determinada característica A. El problema se modeliza
mediante una variable dicotómica que toma el valor 1 si
se presenta la característica de interés y 0 en caso
contrario, esto es, una variable de Bernoulli, , de la que
se dispone de una muestra de tamaño n. Entonces, la
proporción poblacional p no es otra cosa que la media
poblacional de dicha variable, estimándose con la
correspondiente proporción muestral o media muestral,
𝑝Ƹ = 𝑋ത .
De los 30 días del mes de junio 14 días fueron lluviosos ,
indique la proporción de días no lluviosos.

Solución:
N=30 días
días no lluviosos = 30-14 = 16
p (días no lluviosos) = 16/30 = 0,5333; 53,33% variable de
interés, proporción de éxito.
q (días lluviosos) = 1 – p = 1- 0,5333= 0,4667
En el caso de dos poblaciones, se trata de comparar la proporción en la
que se presenta una cierta característica A en las mismas. El problema se
modeliza mediante dos variables de Bernoulli independientes, de las que
se dispone de sendas muestras aleatorias de tamaño n1 y n2,
respectivamente.
PROPORCIÓN POBLACIONAL 𝝅
Población dicotómica con ÉXITOS
una proporción: FRACASOS
Tabla normal

El intervalo de confianza para la


proporción poblacional está centrado en
la proporción muestral; siendo sus límites
superior e inferior:

donde z 𝛼 /2 es el valor crítico


correspondiente al grado de confianza 1-𝛼
de la distribución normal tipificada y

es el error típico de la proporción


PRUEBAS DE HIPÓTESIS

Las pruebas de proporciones son adecuadas cuando los


datos que se están analizando constan de cuentas o
frecuencias de elementos de dos o más clases. El objetivo
de estas pruebas es evaluar las afirmaciones con respecto
a una proporción (o Porcentaje) de población.

Se considerará el problema de probar la hipótesis de que


la proporción de éxito en un experimento binomial sea
igual a un cierto valor especifico.

p=p0, donde p es el parámetro de la distribución binomial


y p0 es el valor poblacional.
Con el nivel de significancia se dibuja la región de rechazo
en la curva normal, indicando el valor de Z.

El estadístico de pruebas es:


𝑝−𝑝
Zc =
𝑝𝑞
𝑛
X: característica de interés

𝑥−𝑛𝑝
Zc =
𝑛𝑝𝑞
EJEMPLO:
En una muestra de 200 alumnos se ha observado dificultad
en la materia matemáticas en 38 de los mismos. Se pide
que calcules un intervalo de confianza al 99% para la
proporción de estudiantes en la población que pueden
tener dificultades con esta materia. Adicionalmente, se
requiere verificar si el 25% de los alumnos tienen dificultad
con la materia matemáticas.
Solución:
n= 200
p = 38/200 = 0,19
q= 162/200= 0,81
P(𝛼) = 0,99
𝛼 = 1-P(𝛼) = 1-0,99 = 0,01
𝛼/2 = 0,01/2 = 0,005
po = 𝜋 = 0,25
Para calcular el intervalo de confianza se usa la siguiente
fórmula

Tabla normal

𝒑(𝟏−𝒑) 0,19(1−0,19)
p ± Z𝜶/𝟐 = 0,19 ± -2,57 ( )
𝒏 200

0,19 ± -2,57 * 0,0277 = 0,19 ± -0,0712

ESTIMACIÓN: INTERVALO DE CONFIANZA AL 99%


P0 = (0,1188; 0,2612)
PRUEBA DE HIPÓTESIS: PASO 4: DECISIÓN
H0 se acepta.
PASO1: Declarar las hipótesis
H0: po = 0,25; H1: po ≠ 0,25 PASO5: CONCLUSIÓN
Se verifica que el 25% de los
PASO 2: Curva de decisión alumnos tienen dificultad con la
materia matemáticas

Zona de
aceptación

-2,57 2,57
PASO 3: Puntos críticos y estadístico de pruebas
Puntos críticos:
𝛼/2 = 0,01/2 = 0,005 y se obtiene Z de la tabla normal

Estadístico de pruebas:
𝑝−𝑝𝑜 0,19−0,25
Zc = 𝑝𝑞
= = -2,16
0,19∗0,81
𝑛 200
PRUEBA BINOMIAL

La prueba binomial analiza variables dicotómicas y compara las


frecuencias observadas en cada categoría con las que cabría
esperar según una distribución binomial de parámetro
especificado en la hipótesis nula. El nivel de significación crítico
de esta prueba indica la probabilidad de obtener una
discrepancia igual o superior a la observada a partir de la
muestra si la distribución es la postulada por la hipótesis nula.

El nivel de significación crítico (bilateral) de este contraste debe


interpretarse como:

el número de éxitos en la muestra


Ejemplo: El 20 % de los alumnos de una cierta universidad
son padres. Se elige una muestra al azar de 50 alumnos.
Determinar un intervalo de probabilidad del 95 % para la
proporción de alumnos con bebes en la muestra.

Solución:
P(𝛼)= 0,95
𝛼 = 1- P(𝛼) = 1-0,95 = 0,05
𝛼/2 =
p = 0,2
q = 0,8
n= 50
Para calcular el intervalo de confianza se usa la siguiente
fórmula

Tabla normal

𝒑(𝟏−𝒑) 0,2(1−0,2)
p ± Z𝜶/𝟐 = 0,2 ± -1,96 ( )
𝒏 50

0,20 ± -1,96 * 0,0566 = 0,20 ± -0,1109

ESTIMACIÓN: INTERVALO DE CONFIANZA AL 99%


P0 = (0,0891; 0,3109)
Teniendo en cuenta el estadístico bajo H0, se rechaza
esta hipótesis cuando:
Ayuda a determinar una franja de confianza, con base en
la cual se podrían tomar decisiones al respecto.
PRUEBA DE HIPÓTESIS PARA UNA VARIANZA

La función Chi cuadrado tiene una distribución de datos de la


siguiente forma:

A diferencia de las distribuciones normales y t Student, la Chi


cuadrado no es simétrica, es por esto que cuando hallamos los
limites para una prueba de hipótesis a dos colas, debemos hallar
el chi cuadrado de y ,a diferencia de las otras dos distribuciones
mencionadas anteriormente, en las cuales solo era necesario
calcular uno de estos valores y el otro limite se conocería
multiplicando el hallado por -1.

Para manejar la tabla de la distribución Chi cuadrado. Se dan dos


parámetros, el primero es en el que nos relaciona ∝, y el
segundo que representa los grados de libertad, para efectos
prácticos.
Planteamiento de hipótesis

Ho: 𝜎2 = 𝜎2o ; H1: 𝜎2 ≠ 𝜎2o

Puntos críticos: (cuando se trata de una curva de


2 colas 2
2 𝜎 o
h1 = X 1- 2 * 𝑛
∝/
𝜎2o
h2 = X2 *
∝/2 𝑛

Se acepta la Ho si se encuentra entre h1 y h2.


El estadístico de la Varianza es:

El estadístico s2 que se utilizará para conocer la σ2, mediante


una variable aleatoria chi cuadrada con “n-1” grados de
libertad.

si s2 es la varianza de una muestra aleatoria de tamaño “n”


que se toma de una población normal que tiene varianza σ2,
entonces el estadístico:
Para estimar por intervalos de confianza se usa la
distribución Chi-cuadrada

𝑛−1 𝑆2
X2(1-𝛼 ) ≤ ≤ X2(𝛼 )
𝜎2

Chi-cuadrada
(tabla)
La distribución de chi-cuadrada es una distribución continua
que se especifica por los grados de libertad y el parámetro
de no centralidad. La distribución es positivamente
asimétrica, pero la asimetría disminuye al aumentar los
grados de libertad.

Interpretación. El estadístico chi-cuadrado tomará un valor


igual a 0 si existe concordancia perfecta entre las frecuencias
observadas y las esperadas; por contra, el estadístico tomará
un valor grande si existe una gran discrepancia entre estas
frecuencias, y consecuentemente se deberá rechazar la
hipótesis nula.
Cuando los grados de libertad son 30 o más, la distribución de chi-cuadrada puede
aproximarse razonablemente con una distribución normal, como se ilustra en las
siguientes gráficas:

Distribución de chi-cuadrada con 20


grados de libertad

Distribución de chi-cuadrada con 40


grados de libertad
EJEMPLO:
Un fabricante de baterías garantiza que su producto dura en
promedio 2,5 años con una desviación estándar de 0,8
años. Si se tomó una muestra aleatoria de 8 baterías y
resultó que la media es de 2,8 y la desviación estándar es
1,2. Use inferencia relacionada con la Varianza. Indique si
el fabricante tiene la razón.

Solución:
𝜇= 2,5 años
𝜎 = 0,8
n=8
𝑥ҧ = 2,8
S = 1,2
Se estima un nivel del confianza 95%
𝛼 = 0,05; 𝛼/2 = 0,025
ESTIMACIÓN DE INTERVALO DE CONFIANZA
V= grados de
𝑛−1 𝑆2 libertad= n-1=8-1=7
X2(1-𝛼 ) ≤ ≤ X2(𝛼 )
𝜎2

8−1 1,22
X2(1-0,05) ≤ ≤ X2(0,05)
0,82

8−1 1,22
X2(0,95) ≤ ≤ X2(0,05)
0,82

10,08/2,1673 ≤ 𝜎2 ≤ 10,08/14,0671
0,72 ≤ 𝜎2 ≤ 4,65
PASO 3: DETERMINACIÓN DE
PRUEBA DE HIPÓTESIS PUNTOS CRITICOS Y ESTADISTICO
DE PRUEBAS
PASO1: DECLARAMOS HIPOTESIS
2
2 𝜎 o 0,64
Ho: 𝜎2 = 0,64; H1: 𝜎2 ≠ 0,64 h1 = X 1- ∝/2 * = X2 0,975 * 8 =
𝑛

PASO2: SELECCIÓN DE LA CURVA 1,6899*0,08= 0,135


pruebas 0,64
X2
h2 = 0,025 * =
8
15,75 Región de 16,0128*0,08= 1,281
aceptación
PASO4: DECISIÓN
H0: SE RECHAZA
1,281 0,135
PASO5: CONCLUSIÓN
NO se verifica la garantía que el fabricante
expone
EJEMPLO:
Se considera que la llegada al terminal de Guayaquil de
un metrobus del centro es de 45 segundos con una
varianza de 5 segundos. Se toma una muestra de 16
metrobuses y se tiene como promedio 45 segundos y
varianza 7,91. Se podría afirmar que se mantiene una
varianza de 5 segundos? Use nivel de confianza 95%.
MUESTRAS INDEPENDIENTES
Si puede suponerse que las varianzas de ambas poblaciones son
iguales, el intervalo de confianza para la diferencia de medias
poblacionales está centrado en la diferencia de las medias
muestrales, siendo sus límites superior e inferior:

t 𝛼 /2 es el valor crítico correspondiente al grado de


confianza 1- 𝛼 de la distribución t de Student con n1+ n2-2
grados de libertad y
Si las varianzas poblacionales no pueden suponerse iguales
los límites del intervalo de confianza son:

El valor crítico t/2 corresponde a una distribución t cuyos


grados de libertad se calculan en base a ambos tamaños
muestrales y a las desviaciones típicas de cada grupo según
la corrección propuesta por Dixon y Massey:
MUESTRAS DEPENDIENTES

En este caso las muestras están formadas por parejas de valores,


uno de cada población y el estadístico se obtiene a partir de las
diferencias de los valores de las dos variables correspondientes a
cada caso o di que se define como:
di= xi-yi.

Al aceptar se obtienen para cada par de variables, los siguientes


resultados:
- Media, desviación tipo y error típico de la media de las di.
- Intervalo de confianza, por defecto al 95%, para la diferencia de
medias poblacionales que viene dado por:
ҧ 𝑆𝑑
(𝑑 ± t𝛼/2 𝑛 ) donde t𝛼/2 es el valor de la distribución t de
Student con n-1 grados de libertad que deja por encima una
probabilidad de 𝛼/2.
Se emplea para determinar si la variabilidad de una
población difiere de otra.
asumiendo que la hipótesis nula es cierta el estadístico de
prueba

sigue una distribución F con n-1 grados de libertad en el


numerador y n-1 grados de libertad en el denominador.
Además S_{1}^{2}$ es la varianza muestral mayor.
Algunas características importantes son:

1. Hay infinidad de variables F, cada una identificada por dos


parámetros m y n llamados grados de libertad. Estos
parámetros son siempre enteros positivos. La notación
F{m,n} representa una variable aleatoria F con m y n grados
de libertad.

2. La variable F no toma valores negativos.

3. La curva de densidad es asimétrica positiva, pero a


medida que m y n crecen se vuelve menos asimétrica.

Esta distribución es muy importante en análisis estadísticos


de diseños experimentales.

You might also like