You are on page 1of 49

Universidad Peruana de

Ciencias Aplicadas

Cuaderno de casos resueltos


Contenido
Tema: Intervalos de confianza........................................................................................................................... 3
Tema: Prueba de hipótesis ................................................................................................................................ 4
Tema: ANOVA de un factor ............................................................................................................................. 19
Tema: ANOVA de dos factores ........................................................................................................................ 23
Tema: Regresión lineal simple ......................................................................................................................... 26
Tema: Regresión no lineal simple .................................................................................................................... 29
Tema: Regresión lineal múltiple ...................................................................................................................... 33
Tema: Suavización exponencial simple ........................................................................................................... 39
Tema: Método de descomposición ................................................................................................................. 44

2
Tema: Intervalos de confianza
1. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 25 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Construya e
interprete un intervalo de confianza de 95% para el tiempo medio real que lleva ensamblar el
componente de la computadora.

Punto crítico: T(n-1,α/2) = T(24,0.025) = 2.0639 este es el valor crítico

2.06 2.06
12.73 − 2.0639 × ≤ 𝜇 ≤ 12.73 + 2.0639 ×
√25 √25

12.73 − 0.8503 ≤ 𝜇 ≤ 12.73 + 0.8503

11.8797 ≤ 𝜇 ≤ 13.5803

• La notación estadística del intervalo de confianza se expresa formalmente:

IC95%(µ) = [11.8797, 13.5803]

• La interpretación estadística del intervalo es: Existe un 95% de confianza de que el intervalo de
11.8797 minutos a 13.5803 minutos contiene al verdadero valor de la media del tiempo que lleva
ensamblar el componente de la computadora.

2. Para verificar si más del 10% de estudiantes están a favor del aborto, se entrevistó a 60 estudiantes y
se obtuvó que 18 estaban a favor. Construya e interprete un intervalo de confianza de 99% para la
proporción de estudiantes que están a favor del aborto y comente los resultados.

Punto crítico: Z(1-α/2) = Z(0.995) = 2.58 este es el valor crítico

18 18 18 18
18 √60 × (1 − 60) 18 √60 × (1 − 60)
− 2.58 × ≤𝑃≤ + 2.58 ×
60 60 60 60

0.3 − 0.1526 ≤ 𝑃 ≤ 0.3 + 0.1526

0.1474 ≤ 𝑃 ≤ 0.4526

• La notación estadística del intervalo de confianza se expresa formalmente:

IC99%(P) = [0.1474,0.4526]

• La interpretación estadística del intervalo es: Con un 99% de confianza, el intervalo de 14.74% a 45.26%
contiene al verdadero porcentaje de estudiantes a favor del aborto.

• Lectura del intervalo es: Se puede confirmar que más del 10% de estudiantes están a favor del aborto,
porque todo el intervalo sobrepasa al valor de 10%.

3
Tema: Prueba de hipótesis
Caso: PERULAX S.A.
El ingeniero de producción de PERULAX S.A., considera que se está produciendo en promedio por debajo de
mil artículos por día, el ingeniero sospecha que la máquina no está bien calibrada y tendrá que ser
recalibrada. Para verificar lo afirmado se ha registrado el número de artículos producidos por la máquina por
8 días.

1020 980 1010 978 1010 1008 980 975

Asuma que el número de artículos producidos se distribuye normalmente. Con un nivel de significancia del
0.03 ¿El ingeniero de producción recalibrará la máquina?

SOLUCIÓN:
Queremos averiguar si recalibrará la máquina por el ingeniero

Se define la variable para el análisis: X: número de artículos producidos por día


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para una media,
asumiendo que se cumplen los supuestos para usar esta técnica:

Supuestos: Población distribuida normalmente, Muestras tomadas al azar.

Se plantean las hipótesis: H0:  ≥ 1000


H1:  < 1000

El nivel de significación es  = 0,03

Se calcula el valor del estadístico de prueba:


De la muestra: n = 8; X ̅ = 995.13; S = 18.45
X̅ -μ0 995.13-1000
TCal = = =-0.75
s/√n 18.45/√8

Se grafican las regiones críticas:


Gráfica de distribución
T; df=7
0.4

Punto crítico= -T (, n-1)= -T (7, 0.03)


0.3 Valor crítico=-2.241
Densidad

0.2 Zona de rechazo H0:


tcalc < tcrítico = -t (7; 0,03) = -2,241
0.1

0.03
0.0
-2.241 0
X

Como: tcalc = -0.75 > tcrítico = -t (7; 0,03) = -2,241


La decisión estadística es: No se Rechaza H0
La conclusión estadística es: Con un 3% de nivel de significación, no se puede afirmar que el número de
artículos promedio producidos por día es menor a 1000.

Por lo tanto a partir de los resultados obtenidos, el ingeniero de producción no tendrá sustento para
recalibrar la máquina.

4
Caso: Producción de PCB
Una empresa manufacturera importante produce bifenilo ploriclorado (PCB), como aislante eléctrico. Como
parte de su proceso de producción, descarga pequeñas cantidades del mismo en un río. La gerencia de calidad
de la compañía, en un intento por controlar la cantidad de PCB en sus descargas, ha dado instrucciones de
detener la producción si la cantidad media de PCB en el efluente es superior a 3 ppm. Un muestreo aleatorio
de 50 especímenes de agua produjo las siguientes estadísticas: promedio de 3.1 ppm y desviación estándar
de 0.5 ppm. ¿Proporcionan tales estadísticas suficientes pruebas para detener el proceso? Utilice nivel de
significación de 1%

SOLUCIÓN:
Queremos averiguar si se detendrá la producción de PCB en el efluente

Se define la variable para el análisis: X: cantidad media de PCB en el efluente

Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para una media,
asumiendo que se cumplen los supuestos para usar esta técnica:
Supuestos: Población distribuida normalmente, Muestras tomadas al azar.

Se plantean las hipótesis: H0:  ≤ 3


H1:  > 3

El nivel de significación es  = 0,01

Se calcula el valor del estadístico de prueba


Se usa los datos muestrales que se muestra en el contexto del problema

(X̄ - μ) (3,1 - 3)
tcal = S⁄ = 0,5 =1,4142

√n √50

Gráfica de distribución
T; df=49

0.4

Punto crítico = T (, n-1) = T (49, 0.01)


0.3 Valor crítico = 2.405
Densidad

0.2 Zona de rechazo H0:


tcalc > tcrítico = t (49; 0,01) = 2.40489
0.1

0.01
0.0
0 2.405
X

Como: tcalc = 1,4142 < tcrítico = t (49; 0,01) = 2,40489

La decisión estadística es: No se Rechaza H0

La conclusión estadística es: Con 1% de nivel de significación, no se puede afirmar que la cantidad media de
PCB en el efluente es superior a 3 ppm.

A partir de los resultados obtenidos, la gerencia no debe detener la producción de PCB

5
Caso: Articulos defectuosos
Se debe decidir si los lotes que llegan a una fábrica deben ser aceptados o devueltos al proveedor. Los
artículos de este lote vienen con una garantía de 10% de artículos defectuosos. Si hay evidencia que es más
de 10% se rechazará el lote. Para tomar una decisión se elige una muestra aleatoria de 625 artículos y se
encuentran que 550 no son defectuosos. ¿Cuál será la decisión? Utilizar un nivel de significación del 5%.

SOLUCIÓN:
Queremos averiguar si se rechazará el lote.

Se define la variable para el análisis: X: Cantidad de artículos defectuosos en la muestra

Se plantean las hipótesis: H0: p ≤ 0,1


H1: p > 0,1

El nivel de significación es  = 0,05

Supuestos:
nP = 625x0.1 = 62.5 ≥ 5 y n (1 - P) = 625*0.9 = 562.5 ≥ 5 y
la muestra ha sido seleccionada al azar.

Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para una
proporción, asumiendo que se cumplen los supuestos para usar esta técnica:

Se calcula el valor del estadístico de prueba:


75
De la muestra se estima la proporción muestral: p̂ = 625
=0.12
75
-0.10
625
Zcal = =1.6667
0.10 (1-0.10)

625

Se grafican las regiones críticas:


Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0.4

Punto crítico= Z(1-)=Z(0.95)


0.3
Valor crítico=1.64
Densidad

0.2
Zona de rechazo H0:
Zcalc > Zcrítico = Z (0.95) = 1.64
0.1

0.05
0.0
0 1.645
X

Como: Zcalc = 1,6667 > Zcritico (0,95) = 1,64

La decisión estadística es: Se Rechaza H0


La conclusión estadística es: Con un 5% de nivel de significación, se puede afirmar que la proporción de
artículos defectuosos es superior a 0,1.

A partir de los resultados obtenidos, hay sustento para rechazar el lote al proveedor.
6
Caso: PERUCAR S.A.
PERUCAR S.A. es una empresa fundada como taller automotriz en el año 1999, cubre todas las exigencias de
un servicio automotriz moderno, enfocándose en ofrecer a sus clientes un trato personalizado, en un taller
equipado con tecnología de punta y con altos estándares de calidad. Actualmente se dedica a la conversión
de motores de autos de gasolina a gas GNV o GLP. El ingeniero de producción afirma que los motores
convertidos a GLP producen un menor rendimiento de kilómetros por galón que los convertidos a GNV. Si se
corrobora lo indicado por el ingeniero, éste tomará la decisión de prescindir los servicios de conversión de
gasolina a GLP. Por tal razón, se registraron los kilómetros recorridos por galón de gas de 9 autos que usan
combustible GLP y de 12 autos que usan combustible GNV, los datos se muestran a continuación:

GLP 44 27 35 25 44 47 44 35 40

GNV 31 41 40 42 28 24 39 41 27 36 26 38

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del
10%.

SOLUCIÓN:
Determinar si es necesario prescindir los servicios de conversión de gasolina a GLP.
o
¿El Ingeniero de producción tomará la decisión de prescindir los servicios de conversión de gasolina a GLP?

Se definen las variables para el análisis,


X1: Número de kilómetros por galón con GLP
X2: Número de kilómetros por galón con GNV
µ1: Número promedio de kilómetros por galón con GLP
µ2: Número promedio de kilómetros por galón con GNV


H 0 :  1 =  2
2 2


 H1 :  1   2
 2 2

El nivel de significación es  = 0,10

IMPORTANTE: Para responder el problema de investigación, previamente se analizan (a) las varianzas
poblacionales (PH del cociente o razón de las varianzas), para determinar si estamos en el caso de varianzas
homogéneas (iguales) o heterogéneas (diferentes), luego se procederá al (b) análisis de la prueba de hipótesis
para la diferencia de medias para muestras independientes.

Supuestos: Población distribuida normalmente, Muestras tomadas al azar, Muestras independientes.

a. Para responder el problema de investigación, se utilizará el análisis de la Prueba de hipótesis de


homogeneidad de dos varianzas.

Se calcula el valor del estadístico de prueba:

7
Prueba F para varianzas de dos muestras

GLP GNV
Media 37.89 34.42
Varianza 62.61 45.36
Observaciones 9 12
Grados de libertad 8 11
F 1.3804
P(F<=f) una cola 0.3030
Valor crítico para F (una cola) 2.3040

F críticos (percentiles de la tabla)


Fcritico1 = F (0,95;11;8) = 1 / F (0,05;11;8) = 1/3,313 = 0,302
Fcritico2 = F (0,05;8;11) = 2,948

Se grafican las regiones críticas: Zonas de rechazo y no rechazo H0

Criterios:
Si Fcritico1 = 0,302 ≤ Fcal = 1,3804 ≤ Fcritico2 = 2,948 No rechazar Ho
Si Fcal = 1,3804 < Fcritico1 = 0,302 o Fcal = 1,3804 > Fcritico2 = 2,948 Rechazar Ho

Como Fcritico1 = 0,204 ≤ Fcal = 1,3804 ≤ Fcritico2 = 2,948


La decisión estadística es: No Rechazar Ho
La conclusión estadística es: Con 5% de nivel de significación, la evidencia muestral es insuficiente para
afirmar que las varianzas de Número de kilómetros por galón con GLP y el Número de kilómetros por galón
con GNV, sean heterogéneas. Luego, se asume que las varianzas son homogéneas.

b. Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la


diferencia de medias para muestras independientes y varianzas homogéneas.

Ho: µ1 ≥ µ2
H1: µ1 < µ2
El nivel de significación es  = 0,10
Supuestos: Población distribuida normalmente, Muestras tomadas al azar, Muestras independientes.

Cálculo del Estadístico de prueba: Para Diferencia de Medias con VARIANZAS HOMOGÉNEAS:

8
Prueba t para dos muestras suponiendo varianzas iguales

GLP GNV
Media 37.89 34.42
Varianza 62.61 45.36
Observaciones 9 12
Varianza agrupada 52.6213
Diferencia hipotética de las medias 0
Grados de libertad 19
Estadístico t 1.0855
P(T<=t) una cola 0.1456
Valor crítico de t (una cola) 1.3277
P(T<=t) dos colas 0.2913
Valor crítico de t (dos colas) 1.7291

Se grafican las regiones críticas: Zonas de rechazo y no rechazo H0

Valor Crítico: -T (0.10, 19) = -1.3277


Como Tcal = 1.0855 > Tcritico = -1.3277
La decisión estadística es: No Rechazar Ho
La conclusión estadística es: Al 10% de nivel de significancia, la evidencia muestral es insuficiente para
afirmar que los motores convertidos a GLP producen un menor rendimiento de kilómetros por galón que los
convertidos a GNV.

Por lo tanto, el Ingeniero de producción NO tomará la decisión de prescindir los servicios de conversión de
gasolina a GLP.

9
Caso: VINOS PERÚ S.A.C.
Vinos Perú S.A.C. es una empresa que se dedica a la fabricación y embotellamiento de vinos en la provincia
de Cañete, el Ingeniero de Producción de la empresa ha recibido un informe donde se indica que, la
producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná (1) que en la
de Imperial Cañete (2). Encarga a un grupo de ingenieros industriales de dicha empresa la verificación de la
conclusión del informe. Si se corrobora lo indicado en el informe, el Ingeniero tomará la decisión de modificar
el programa de producción de vino de las máquinas destiladoras de la planta de Imperial Cañete, caso
contrario, se mantendrá el programa de producción en ambas plantas. Por tal razón, registró la producción
de la planta Lunahuaná durante 8 días y de la planta Imperial Cañete durante 9 días, los datos se muestran a
continuación:
Producción docenas de Producción docenas de vino
vino Planta Lunahuaná Planta Imperial Cañete
46 72
104 51
107 72
94 64
44 42
54 40
100 56
36 34
41

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del 5%.

SOLUCIÓN:
Determinar si es necesario modificar el programa de producción de vino de las máquinas destiladoras de la
planta de Imperial Cañete, caso contrario, se mantendrá el programa de producción en ambas plantas.
o
¿El Ingeniero de producción tomará la decisión de modificar el programa de producción de vino de las
máquinas destiladoras de la planta de Imperial Cañete, caso contrario, se mantendrá el programa de
producción en ambas plantas?

Se define la variable para el análisis,


X1: Cantidad de producción de vinos en la Planta de Lunahuaná
X2: Cantidad de producción de vinos en la Planta de Imperial Cañete
µ1: Cantidad de producción promedio de vinos en la Planta de Lunahuaná
µ2: Cantidad de producción promedio de vinos en la Planta de Imperial Cañete


H 0 :  1 =  2
2 2


 H1 :  1   2
 2 2

El nivel de significación es  = 0,05

IMPORTANTE: Para responder el problema de investigación, previamente se analizan las varianzas


poblacionales (PH del cociente o razón de las varianzas), para determinar si estamos en el caso de varianzas
homogéneas (iguales) o heterogéneas (diferentes). Luego se procederá al análisis de la prueba de hipótesis
para la diferencia de medias para muestras independientes.

Supuestos: Poblaciones distribuidas normalmente, Muestras tomadas al azar, Muestras independientes

10
a. Para responder el problema de investigación, se utilizará el análisis de la Prueba de hipótesis de
homogeneidad de dos varianzas.

Se calcula el valor del estadístico de prueba:

Prueba F para varianzas de dos muestras

Producción docenas de Producción docenas de vino


vino Planta Lunahuaná Planta Imperial Cañete
Media 73.125 52.444
Varianza 940.982 206.028
Observaciones 8 9
Grados de libertad 7 8
F 4.5673
P(F<=f) una cola 0.0244
Valor crítico para F (una cola) 3.5005

F críticos (percentiles de la tabla)


Fcritico1 = F (0,975;8;7) = 1 / F (0,025;8;7) = 1/4,899 = 0,204
Fcritico2 = F (0,025;7;8) = 4,529

Se grafican las regiones críticas: Zonas de rechazo y no rechazo H0

Criterios:
Si Fcritico1 = 0,2041 ≤ Fcal = 4,5673 ≤ Fcritico2 = 4,529 No rechazar Ho
Si Fcal = 4,5673 < Fcritico1 = 0,2041 o Fcal = 4,5673 > Fcritico2 = 4,529 Rechazar Ho

Como Fcal = 4,5673 > Fcritico2 = 4,529


La decisión estadística es: Rechazar Ho
La Conclusión estadística es: Con 5% de nivel de significación y en base a la información muestral, existe
evidencia para afirmar que las varianzas de la Cantidad de producción de vinos en la Planta de Lunahuaná y
la Cantidad de producción de vinos en la Planta de Imperial Cañete son heterogéneas. Luego, se asume que
las varianzas son heterogéneas.

b. Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la


diferencia de medias para muestras independientes y varianzas heterogéneas.
Ho: µ1 ≤ µ2

H1: µ1 > µ2

11
El nivel de significación es  = 0,05

Supuestos: Poblaciones distribuidas normalmente, Muestras tomadas al azar, Muestras independientes.

Cálculo del Estadístico de prueba: para Diferencia de Medias con VARIANZAS HETEROGÉNEAS:

Prueba t para dos muestras suponiendo varianzas desiguales

Producción docenas de vino Producción docenas de vino


Planta Lunahuaná Planta Imperial Cañete
Media 73.125 52.444
Varianza 940.982 206.028
Observaciones 8 9
Diferencia hipotética de las medias 0
Grados de libertad 10
Estadístico t 1.7446
P(T<=t) una cola 0.0558
Valor crítico de t (una cola) 1.8125
P(T<=t) dos colas 0.1116
Valor crítico de t (dos colas) 2.2281

Se grafican las regiones críticas: Zonas de rechazo y no rechazo H0

Valor Crítico: T (0.05, 10) = 1.8125

Como Tcal = 1.7446 < Tcritico = 1.8125


La decisión estadística es: No Rechazar Ho

La Conclusión estadística es: Al 5% de nivel de significancia, la evidencia muestral es insuficiente para afirmar
que la producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná que
en la planta de Imperial Cañete.
Por lo tanto, el Ingeniero de producción se mantendrá el programa de producción en ambas plantas.

SE USÓ EN EL DESARROLLO DE LOS EJERCICIOS:


Valores críticos para una prueba de hipótesis bilateral para el cociente de varianzas
Cálculo del valor crítico cola izquierda Cálculo del valor crítico cola derecha
1 α
FCrit-izq = FCrit-der = Ftab [ ;(n1 -1);(n2 -1)]
α 2
Ftab [ ;(n2 -1);(n1 -1)]
2

Criterio basado en el valor p (aplicada para cualquier tipo de hipótesis):


Si valor p ≤ α → Se rechaza H0
Si valor p > α → No se rechaza H0

12
Caso: SYSCOM S.A
El Ingeniero de la empresa SYSCOM S.A. desea comprar uno de los sistemas de gestión Alfa o Beta. El
proveedor del sistema Alfa indica que su sistema emplea menos tiempo en promedio que el de su
competencia Beta en el procesamiento de la información. El gerente afirma que de ser cierto ello, comprará
dicho sistema; caso contrario, comprará el sistema Beta. Para verificarlo, se realizan pruebas y se emplean
11 conjuntos de datos, procesándose con ambos sistemas de forma aleatoria. El tiempo de procesamiento
del análisis, en minutos, se muestran a continuación:

Conjunto
Software
1 2 3 4 5 6 7 8 9 10 11
Alfa (1) 26 24 26 22 25 23 18 25 19 29 25
Beta (2) 29 32 24 33 28 27 25 26 33 33 33

Con un nivel de significación del 5%, ¿Qué software recomendaría comprar al gerente de la empresa? Asuma
normalidad en las variables.

SOLUCIÓN:
El proveedor del sistema Alfa indica que su sistema emplea menos tiempo en promedio que el de su
competencia Beta en el procesamiento de la información.

¿Qué software recomendaría comprar al gerente de la empresa?

Se define la variable para el análisis,


X1 = Tiempo empleado en el análisis utilizando el software Alfa
X2 = Tiempo empleado en el análisis utilizando el software Beta
µ1 = Tiempo promedio empleado en el análisis utilizando el software Alfa
µ2 = Tiempo promedio empleado en el análisis utilizando el software Beta

Unidad elemental: Un conjunto de datos

Hipótesis:
Ho: µ1 - µ2 ≥ 0 → Ho: µd ≥ 0
H1: µ1 - µ2 < 0 → H1: µd < 0

El nivel de significación es  = 0,05

Supuestos: Poblaciones distribuidas normalmente, Muestras tomadas al azar.


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la
diferencia de medias con muestras relacionadas.

13
Prueba t para medias de dos muestras emparejadas
Alfa (1) Beta (2)
Media 23.8182 29.3636
Varianza 10.1636 12.6545
Observaciones 11 11
Coeficiente de correlación de Pearson 0.0770
Diferencia hipotética de las medias 0
Grados de libertad 10
Estadístico t -4.0066
P(T<=t) una cola 0.0012
Valor crítico de t (una cola) 1.8125
P(T<=t) dos colas 0.0025
Valor crítico de t (dos colas) 2.2281

Valor de la Estadística de prueba: (cálculos previos)

Alfa (1) 26 24 26 22 25 23 18 25 19 29 25
Beta (2) 29 32 24 33 28 27 25 26 33 33 33
d = X1 – X2 -3 -8 2 -11 -3 -4 -7 -1 -14 -4 -8

Donde obtenemos: d̅ =-5.5455 sd =4.5905 n = 11

-5.5455 - 0
tcal = 4.5905 = -4.0066
√11

Método Tradicional: Método de la Regla de p - value (valor - p ó p - valor):


Valor crítico = T(0,05;10) = -1,81246
Como valor – p = 0.0012 < α= 0.05
Como Tcal = -4,0066 < Tcritico = -1,81246

La decisión estadística es: Se Rechaza H0


La conclusión estadística es: A un nivel de significación del 5%, se tiene evidencia estadística suficiente para
afirmar que el tiempo promedio empleado en el procesamiento de los datos utilizando el software Alfa es
menor al software Beta.

De acuerdo a los resultados obtenidos, se recomienda utilizar software Alfa.

14
Caso: ELECTRIX S.A.
La compañía ELECTRIX S.A. experimenta con un nuevo método para grabar circuitos, este método debe
reducir la proporción de circuitos defectuosos. Se considera que el método nuevo es más rentable que el
método antiguo, si la proporción de defectuosos con el método nuevo es inferior al del método antiguo. La
información sobre el número de circuitos defectuosos registrados con cada método es la siguiente:

Método Nuevo (1) Método Antiguo (2)


Tamaño de muestra (n) 100 50
Número de circuitos defectuosos 4 8

Con los resultados encontrados, ¿La compañía deberá implementar el nuevo método? Utilice un nivel de
significación del 1%.

SOLUCIÓN:
¿La compañía deberá implementar el nuevo método en la planta de Lurín?

Se define la variable para el análisis,


X1 = Número de circuitos defectuosos con el método nuevo.
X2 = Número de circuitos defectuosos con el método antiguo.
P1 = Proporción de circuitos defectuosos con el método nuevo.
P2 = Proporción de circuitos defectuosos con el método antiguo.

Hipótesis:
HO: p1 – p2 ≥ 0
H1: p1 – p2 < 0

El nivel de significación es  = 0.01

Supuestos: Poblaciones distribuidas normalmente, Muestras tomadas al azar, np ≥ 5 y n (1 - p) ≥ 5 para cada


una de las muestras

Para responder el problema de investigación, se utilizará la prueba de hipótesis para la diferencia de


proporciones con k = 0.

Valor de la Estadística de prueba: (cálculos previos)


4 8 4+8
p̂ 1 = 100 = 0.04 p̂ 2 = 50 = 0.16 p̅ = 100 + 50 = 0.08

0.04 - 0.16
Zcalc = 1 1
=-2.5538
√0.08(1 - 0.08)( + )
100 50

15
Valor crítico = Zcritico (0.01) = −2,33
Como Zcal = -2.5538 < Zcritico = −2.33
La decisión estadística es: Se Rechaza H0
La conclusión estadística es: A un nivel de significación del 1%, existe evidencia estadística suficiente para
afirmar que la proporción de circuitos defectuosos obtenidos con el método nuevo es inferior que el obtenido
con el método antiguo.

De acuerdo a los resultados obtenidos, se deberá implementar el método nuevo, ya que la proporción de
circuitos defectuosos obtenidos con el método nuevo es inferior que el obtenido con el método antiguo.

16
Caso: FUNDIX S.A.C.
Una compañía FUNDIX S.A.C. que tiene dos fundidoras, una en Ate y la otra Lurín, de tamaños similares,
dedicadas a las mismas operaciones de producción. Se implementa un nuevo programa experimental de
producción en la planta de Ate y antes de aplicar el programa en la planta de Lurín, los ingenieros desean
comparar la proporción de piezas defectuosas en la planta de Ate con la planta de Lurín. El responsable del
área sostiene que: debe aplicarse el programa experimental a la planta de Lurín, solo si la proporción de
piezas defectuosas en la planta de Lurín es superior que en la planta de Ate en más de 0.05.
Al término de la prueba, se registró 24 piezas defectuosas de un total de 263 producidas en la planta de Lurín
y 5 defectuosas de 250 producidas en la planta de Ate. A un nivel de significación del 3%, ¿debería aplicarse
el programa en la planta de Lurín?

SOLUCIÓN:
Se desea comparar la proporción de piezas defectuosas en la planta de Ate con la de Lurín. ¿Debería aplicarse
el programa en la planta de Lurín?

Se define la variable para el análisis,


X1 = Número de piezas defectuosas en la planta Lurín
X2 = Número de piezas defectuosas en la planta de Ate
P1 = Proporción de piezas defectuosas en la planta Lurín
P2 = Proporción de piezas defectuosas en la planta de Ate

Hipótesis:
HO: P1 - P2 ≤ 0.05
H1: P1 - P2 > 0.05
El nivel de significación: α = 0.03
Supuestos: Muestras tomadas al azar, np ≥ 5 y n(1 - p) ≥ 5 para cada una de las muestras.

Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la


diferencia de proporciones con k ≠ 0.

Valor de la Estadística de prueba: (cálculos previos)

24 5
p̂ 1 = p̂ 2 =
263 250
24 5
( - )-0.05
263 250
Zcal = =1.0712
24 24 5 5
√263 (1 - 263)+ 250 (1 - 250)
263 250

17
Valor crítico = Zcritico (0.97) = 1.88
Como Zcal = 1.0733 < 1.88
La decisión estadística es: No Se Rechaza H0
La conclusión estadística es: A un nivel de significación del 3%, existe evidencia estadística insuficiente para
afirmar que la proporción de piezas defectuosas en la planta de Lurín es superior que en la planta de Ate en
más de 0.05.

De acuerdo a los resultados obtenidos, no debería ampliarse el programa a la planta de Lurín.

18
Tema: ANOVA de un factor

Caso: Aceite de vehículos


El jefe de investigación y desarrollo de una empresa que fabrica aceites
para vehículos pesados ha presentado a la gerencia, los resultados de su
investigación sobre tres nuevas alternativas de aceites (denominados B-
POWER, EFIXX y MAX3) que mejorarían el rendimiento de los vehículos.
Se asigna a un grupo de ingenieros la tarea de corroborar las ventajas que
ofrecen estos productos. Como parte del desarrollo del experimento, se
seleccionaron 15 vehículos pesados de similares características y, a cada uno, se le asignó de manera
aleatoria un tipo de aceite. Seguidamente, se registró la cantidad de kilómetros recorridos (expresados en
cientos) hasta que el aceite perdiera su viscosidad. Los datos se muestran a continuación:

B-POWER EFIXX MAX3


24.0 20.5 29.0
26.2 20.6 30.0
28.5 23.0 26.5
23.8 19.8 28.7
24.3 29.6
27.6

Nota: Y.. = 382.1 ∑ ∑ Y2ij = 9902.13

La gerencia iniciará la producción masiva del aceite o aceites que presente(n) mayor rendimiento. Realice las
pruebas correspondientes utilizando un 5% de nivel de significación, ¿Qué decisión tomará la gerencia?
Complemente en el análisis con los resultados en el laboratorio con el software Minitab

Interpretación
Determinar qué tipo de aceite genera mayor rendimiento para recomendar a la gerencia

Representación
Factor: Tipo de aceite
Tratamientos (niveles del factor): B - Power, EFixx, Max3
Variable respuesta: kilómetros recorridos (en cientos)
Unidad experimental: Un vehículo pesado
Número de réplicas por tratamiento: n1=6, n2=4, n3=5 n.=15
Modelo: Yij = µ + Ꚍi + eij
Hipótesis de investigación:
H1: Al menos un tipo de aceite es diferente ó El tipo de aceite afecta la cantidad de kilómetros recorridos
Técnica estadística: DCA

Cálculo y Análisis

PASO 1: Verificación de supuestos del modelo

Normalidad de residuos
H0: Los residuos siguen una distribución normal
H1: Los residuos no siguen una distribución normal
p-value=0.897> alfa=0.05 NRH0
Con un 5% de nivel de significación, los residuos siguen una distribución normal. Cumple el supuesto 1

19
Homogeneidad de varianzas de los errores (Bartlett)
H0: σ21 = σ22 = σ23
H1: Al menos una varianza es diferente
p-value=0.684> alfa=0.05 NRH0
Con un 5% de nivel de significación, las varianzas de los errores son iguales. Cumple el supuesto 2.
Como cumplen los supuestos del análisis de varianza, procedemos a realizar la prueba estadística:

Prueba de igualdad de varianzas: RESID vs. tipo de aceite


Prueba de Bartlett
Valor p 0.684
B-POWER
tipo de aceite

EFIXX

MAX3

0 1 2 3 4 5 6 7 8
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Importante: La prueba de Bartlett es usada cuando se cumple el supuesto de normalidad de errores,


mientras que la prueba de Levene, es usada cuando no cumple dicho supuesto.

PASO 2: Análisis de varianza


Hipótesis
H0: µ1 = µ2 = µ3 (El tipo de aceite no influye en los kilómetros recorridos)
H1: Al menos un µi es diferente (El tipo de aceite influye en los kilómetros recorridos)

Nivel de significación = 0.05

Estadístico de prueba: Fcal = CMTr / CME = 24.31


Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
tipo de aceite 2 135.36 67.678 24.31 0.000

Error 12 33.41 2.784


Total 14 168.77

20
Gráfica de distribución
F; df1=2; df2=12

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 3.885
X

El análisis lo puedes realizar usando valores críticos o p-value:


Usando valores críticos Usando p-value
Como F=24.31 >3.885 (Valor crítico: F (2,12,0.05)) P-value=0 es menor que alfa=0.05
Rechazo H0 Rechazo H0

Con un 5% de nivel de significación, al menos un µi es diferente, lo que significa que al menos un tipo de
aceite presenta un kilometraje promedio diferente.

Por lo tanto, corresponde hacer el análisis de comparaciones por pares de Tukey, para identificar cuál
presenta mayor o menor kilometraje.

PASO 3: Comparaciones de Tukey


Agrupar información utilizando el método de Tukey y una confianza de 95%

tipo de aceite N Media Agrupación


MAX3 5 28.7600 A
B-POWER 6 25.7333 B
EFIXX 4 20.9750 C
Las medias que no comparten una letra son significativamente diferentes.

▪ Primero, se identifican la cantidad de grupos formados. En este reporte se muestran tres letras que son
A, B y C, que identifican a tres grupos: grupo A, grupo B y grupo C.
▪ Segundo, se deduce que: como los tipos de aceite pertenecen a grupos diferentes se puede
inferencialmente afirmar que los tres tipos de aceite presentan tres promedios de kilometraje diferentes
entre sí.
▪ Tercero, se lee las medias muestrales para identificar cual presenta mayor promedio, así el tipo de aceite
que presenta mayor promedio de kilometraje es el tipo de aceite MAX3, y el que presenta menor
promedio de kilometraje es el tipo de aceite EFIXX.

Pruebas simultáneas de Tukey para diferencias de las medias


IC
Diferencia de tipo Diferencia EE de simultáneo Valor p
de aceite niveles de medias diferencia de 95% Valor T ajustado
EFIXX - B-POWER -4.76 1.08 (-7.63; -1.89) -4.42 0.002
MAX3 - B-POWER 3.03 1.01 (0.33; 5.72) 3.00 0.028
MAX3 - EFIXX 7.78 1.12 (4.80; 10.77) 6.95 0.000
Nivel de confianza individual = 97.94%

21
Comparaciones de cada par:
EFIXX - B-POWER
H0: µEFIXX = µB-POWER
H1: µEFIXX ≠ µB-POWER

• p-valµe=0.002 < alfa=0.05 Rechazo H0 Con µn 5% de ns.: µEFIXX ≠ µB-POWER


• Diferencia de medias es negativa, por lo tanto: µB-POWER > µEFIXX

MAX3 - B-POWER
H0: µMAX3 = µB-POWER
H1: µMAX3 ≠ µB-POWER

• p-valµe=0.028 < alfa=0.05 Rechazo H0 Con µn 5% de ns.: µMAX3 ≠ µB-POWER


• Diferencia de medias es positiva, por lo tanto: µMAX3 > µB-POWER

MAX3 - EFIXX
H0: µMAX3 = µEFIXX
H1: µMAX3 ≠ µEFIXX

• p-valµe=0.000 < alfa=0.05 Rechazo H0 Con µn 5% de ns.: µMAX3 ≠ µE-FIXX


• Diferencia de medias es positiva, por lo tanto: µMAX3 > µE-FIXX

µEFIXX < µB-POWER < µMAX3

Argumentación y Comunicación: Según los resultados, el tipo de aceite que genera mayor rendimiento es
MAX3 por lo tanto se recomienda a la gerencia este tipo de aceite.

22
Tema: ANOVA de dos factores

Caso: Pegamentos PEGAFORTE


PEGAFORTE es un pegamento en polvo para pegar mayólicas sobre
superficies de cemento u otros materiales, siendo una de sus
características más importantes la duración de las mayólicas en la
superficie sin ser removidas. Un ingeniero industrial desea evaluar si la
temperatura (°C) a la que está expuesta y el tipo de superficie (cemento,
losetas y madera) donde fue aplicado el pegamento, influyen en la
duración (meses). Para esto, se diseña un experimento con tres temperaturas (°C) y tres tipos de superficie.
Las pruebas se realizan en tres lugares y se mide la duración del pegamento, los resultados se muestran en
la siguiente tabla:

Tipo de Temperatura
superficie 24°C 28°C 32°C
35 25 42
Cemento 38 24 41
37 20 39
47 35 40
Losetas 46 36 44
48 30 39
55 35 48
Madera 54 38 46
52 37 49

Con 5% de significación, indique qué temperatura y qué tipo de superficie o qué combinación recomienda
para que la mejora en la duración del pegamento.

Interpretación
Determinar si la temperatura y el tipo de superficie influye en la duración (meses) donde fue aplicado el
pegamento

Representación
Factor 1: Tipo de superficie.
Niveles del factor 1: Cemento, losetas, madera.
Factor 2: Temperatura.
Niveles del factor 2: 24°C, 28°C, 32°C.
Tratamientos: 3 x 3 = 9
Cemento a 24 °C, Cemento a 28°C, Cemento a 32°C
losetas a 24 °C, losetas a 28°C, losetas a 32°C
madera a 24 °C, madera a 28°C, madera a 32°C
Variable respuesta: Tiempo de duración (meses) del pegamento
Unidad experimental: un lugar ó área en donde se aplica el pegamento en polvo.
Tamaño de muestra: n = 27
Herramienta estadística: Diseño experimental → Diseño factorial (dos factores)
α = 0.05

23
Cálculo y Análisis

PASO 1: Verificación de supuestos del modelo

Normalidad de residuos
H0: Los residuos siguen una distribución normal
H1: Los residuos no siguen una distribución normal
p – value = 0.411 > α = 0.05 NRH0
Con un 5% de nivel de significación, se asume que los residuos siguen una distribución normal. Cumple el
supuesto 1

Homogeneidad de varianzas de los errores (Bartlett)


H0: σ21 = σ22 = … = σ29
H1: Al menos una varianza es diferente
p – value = 0.874 > α = 0.05 NRH0
Con un 5% de nivel de significación, se asume que las varianzas de los errores son iguales. Cumple el supuesto 2.
Pruebas
Estadística
Método de prueba Valor p
Bartlett 3.813 0.874

Como cumplen los supuestos del análisis de varianza, procedemos a realizar la prueba estadística:

PASO 2: Análisis de varianza


H0: No existe interacción entre los niveles del Tipo de superficie y la temperatura sobre el tiempo promedio
de duración del pegamento

H1: Existe interacción entre los niveles del Tipo de superficie y la temperatura sobre el tiempo promedio de
duración del pegamento.

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Temperatura 2 1098.67 549.333 133.62 0.000
Tipo superficie 2 713.56 356.778 86.78 0.000
Temperatura*Tipo superficie 4 129.78 32.444 7.89 0.001
Error 18 74.00 4.111
Total 26 2016.00

Fcal = 7.89 p – valor = 0.001 α = 0.05


24
Decisión: Como el p – valor < α
Conclusión: Con 5% de significación, la evidencia muestral es suficiente para afirmar que existe interacción
entre los niveles del tipo de superficie y la temperatura sobre tiempo promedio de duración del pegamento.

PASO 3: Comparaciones de Tukey


Comparaciones por parejas de Tukey: Temperatura*Tipo superficie
Agrupar información utilizando el método de Tukey y una confianza de 95%
Temperatura*Tipo superficie N Media Agrupación
24C Madera 3 53.6667 A
32C Madera 3 47.6667 B
24C Loseta 3 47.0000 B
32C Loseta 3 41.0000 C
32C Cemento 3 40.6667 C
28C Madera 3 36.6667 C D
24C Cemento 3 36.6667 C D
28C Loseta 3 33.6667 D
28C Cemento 3 23.0000 E

Las medias que no comparten una letra son significativamente diferentes.

Con un nivel de confianza del 95%, el tratamiento o combinación de la superficie de madera con la
temperatura de 24 °C se obtiene el mayor tiempo promedio de duración del pegamento que el resto de
tratamientos.

Argumentación y Comunicación: Bajo las evidencias recogidas, se recomienda utilizar el pegamento a una
temperatura de 24 °C en superficies de madera, para mejorar la duración del pegamento.

25
Tema: Regresión lineal simple
ELECTRIC SERVICE S.A. es una empresa dedicada a la ingeniería, construcción y logística de proyectos
eléctricos del Perú teniendo como compromiso la seguridad, responsabilidad social y la excelencia operativa.
Su actividad prioritaria es el mantenimiento de postes eléctricos instalados en la ciudad. Carlos, Ingeniero de
costos del área de proyectos, considera que el costo por mantenimiento (cientos de soles), de los postes
eléctricos está en función del tiempo de ejecución (en días) que los trabajadores se demoran en hacer el
servicio.

Se contratará nuevos operarios, si el costo de mantenimiento, cuando el tiempo de ejecución de un proyecto


de 90 días, es mayor a 45 mil soles. Por tal motivo se selecciona una muestra de 10 servicios de
mantenimiento de postes eléctricos, los datos se muestran a continuación:

Costo de mantenimiento
(cientos de soles)
16.0 44.0 28.0 70.5 34.0 37.5 40.5 53.8 18.5 18.0
Tiempo de ejecución
(días)
50 160 125 195 105 132 118 154 56 41

De ser necesario use un nivel de significación de 5% y un nivel de confianza del 95%.

Interpretación: Determinar se contratará a nuevos operarios.

Representación:
▪ Queremos averiguar si se contratará nuevos operarios
▪ Variable independiente (X): tiempo de ejecución en días
▪ Variable dependiente (Y): costo de mantenimiento, en cientos de soles.
▪ El modelo es: Yi = β0+ β1Xi+ ei
▪ Supuestos de los errores:
Tener distribución normal.
No presentar autocorrelación.
Deben presentar varianza constante.
▪ Plan de analisis:
1. Estimación del modelo
2. Medidas de bondad de ajuste
3. Verificación de supuestos
4. Validación del modelo
5. Cálculo del pronóstico.

Cálculo y análisis:
1. Estimación del modelo
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.19 5.20 0.04 0.972
X: Tiempo de ejecución 0.3160 0.0421 7.50 0.000 1.00

Ŷ = 0.19 + 0.3160X

β̂ 1 = 0.3160: Por cada día adicional en el tiempo de ejecución del servicio, el costo de mantenimiento
aumenta en promedio en 0.3160 cientos de soles.

26
2. Medidas de bondad de ajuste
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
6.47150 87.55% 86.00% 79.14%

▪ El 87.55% de la variabilidad en los costos por mantenimiento se explican por el tiempo de


ejecución de los servicios.
▪ La variabilidad de los valores muestrales (y) alrededor de la recta de regresión estimada (ŷ) es
6.47150.

3. Verificación del cumplimiento de los supuestos


Normalidad de los errores
H0: Los errores se distribuyen normalmente
H1: Los errores No se distribuyen normalmente
α = 0.05

AD = 0.269 p – valor =0.595


Decisión: el p – valor > α, no se rechaza H0.
Conclusión: A un nivel de significación de 5%, no se descarta que los errores provengan de una
distribución normal. Por lo tanto, se asume que el supuesto se cumple.
No autocorrelación de los errores y Homocedasticidad (varianzas constantes):
H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.00396

Como DW =2.00396  [1.5,2.5], entonces se asume que los errores son independientes o no existe
autocorrelación de los errores. Además, se asume que los errores tienen varianzas constantes.

4. Validación del modelo


Prueba individual (coeficiente)
H0: β1 = 0
H1: β 1 ≠ 0
α = 0.05
27
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.19 5.20 0.04 0.972
X: Tiempo de ejecución 0.3160 0.0421 7.50 0.000 1.00

Tcal= 7.50 Tcrítico = T (n - 2, α/2) = T (8,0.025) = 2.7515 p – valor = 0.000

Decisión: Como el Tcal > Tcritico o p – valor < α, se rechaza H0


Conclusión: Con un nivel de significación del 5%, la información muestral permite afirmar que existe
relación lineal entre el tiempo de ejecución y el costo de mantenimiento. Por lo tanto, el modelo de
regresión es válido.

Otra alternativa para validar el modelo: Prueba conjunta (ANOVA)


H0: β1 = 0
H1: β 1 ≠ 0
α = 0.05

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 2356.7 2356.73 56.27 0.000
X: Tiempo de ejecución 1 2356.7 2356.73 56.27 0.000
Error 8 335.0 41.88
Total 9 2691.8

Fcal= 56.27 Fcrítico = F (1, n - 2, α) = F (1, 8, 0.05) = 5.3177 p – valor = 0.000

Decisión: Como el Fcal > fcritico o p – valor < α, se rechaza H0


Conclusión: Con un nivel de significación del 5%, la información muestral permite afirmar que existe
relación lineal entre el tiempo de ejecución y el costo de mantenimiento. Por lo tanto, el modelo de
regresión es válido.

5. Cálculo del pronóstico.


Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
28.6232 2.27511 (23.3768; 33.8696) (12.8045; 44.4419)

Con un nivel de confianza del 95%, el intervalo de 12.8045 a 44.4419 miles de soles contiene el costo
de mantenimiento cuando el tiempo de ejecución de un proyecto es de 90 días.

Argumentación y comunicación: A partir de los resultados obtenidos, no se debe contratar nuevos operarios,
porque el costo de mantenimiento, cuando el tiempo de ejecución de un proyecto es de 90 dias, no es mayor
a 45 mil soles.

28
Tema: Regresión no lineal simple

Una empresa conocida de chocolates afirma que las ventas de canal no tradicional
existen una relación entre las ventas y el gasto en publicidad. Se registraron el monto
de las ventas semanales y el gasto de publicidad de las últimas 10 semanas en los
supermercados. El gerente de la empresa desea iniciar una campaña publicitaria si el
monto de las ventas no supera los 17 mil soles, cuando en una semana se realice un
gasto en publicidad de 8 mil soles. ¿El gerente de la empresa iniciará una campaña
publicitaria? Donde sea necesario utilice un nivel de significación del 5% y nivel de
confianza de 95%.

Semana 1 2 3 4 5 6 7 8 9 10
Ventas 8750 11250 12000 1500 5500 500 1550 6000 1250 3000
Gasto en
9900 9460 10560 3960 6600 1100 1980 8140 1320 3410
publicidad

SOLUCIÓN:
Interpretación: Determinar si el gerente de la empresa iniciará una campaña publicitaria

Representación:
Variable dependiente Y: Monto de ventas semanal (en soles)
Variable independiente X: Gasto en publicidad semanal (en soles)

Plan de análisis:
1. Ranking de modelos (Estimación de los modelos y medidas de bondad de ajuste)
2. Verificación de validez y cumplimiento de los supuestos del mejor modelo
3. Empleo del modelo válido en pronósticos

Cálculo y análisis:

Paso 1: Ranking de modelos (Estimación de los modelos y medidas de bondad de ajuste)

Modelo lineal Modelo cuadrático


Resumen del modelo Resumen del modelo

R-cuad. R-cuad. R-cuad. R-cuad.


S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
1383.71 90.75% 89.60% 85.55% 1170.64 94.21% 92.56% 89.39%

Coeficientes Coeficientes
EE del EE del Valor Valor
Término Coef coef. Valor T Valor p FIV Término Coef coef. T p FIV
Constante -1069 825 -1.30 0.231 Constante 960 1214 0.79 0.455
X 1.099 0.124 8.86 0.000 1.00 X -0.031 0.563 -0.06 0.957 28.79
X^2 0.000098 0.000048 2.04 0.080 28.79

29
Modelo exponencial Modelo potencia

Resumen del modelo Resumen del modelo

R-cuad. R-cuad. R-cuad. R-cuad.


S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
0.359534 90.10% 88.86% 84.12% 0.344980 90.88% 89.74% 85.77%

Coeficientes Coeficientes
EE del Valor Valor EE del
Término Coef coef. T p FIV Término Coef coef. Valor T Valor p FIV
Constante 6.561 0.214 30.60 0.000 Constante -1.89 1.13 -1.68 0.131
X 0.000275 0.000032 8.53 0.000 1.00 Ln(X) 1.197 0.134 8.93 0.000 1.00

Modelo Ecuación R2 Ranking


Lineal ŷ = -1069 + 1.099X 90.75 % 3
Cuadrático ŷ = 960 - 0.031X + 0.000098X2 94.21 % 1
Exponencial ̂ = 6.561 + 0.000275X
Ln(y) 90.10 % 4
Potencia ̂ = -1.89 + 1.197Ln(X)
Ln(y) 90.88 % 2

Paso 2: Validación del modelo y verificación del cumplimiento de los supuestos

Modelo cuadrático

Prueba global Prueba individual


H0: β1 = β2 = 0 H0: β2 = 0
H1: Al menos un βi ≠ 0 H1: β2 ≠ 0

Análisis de Varianza Coeficientes


Fuente GL SC Ajust. MC Ajust. Valor F Valor p Término Coef EE del coef. Valor T Valor p FIV
Regresión 2 156078225 78039112 56.95 0.000 Constante 960 1214 0.79 0.455
X 1 4257 4257 0.00 0.957 X -0.031 0.563 -0.06 0.957 28.79
X^2 1 5724350 5724350 4.18 0.080 X^2 0.000098 0.000048 2.04 0.080 28.79
Error 7 9592775 1370396
Total 9 165671000

T cal = 2.04 T crítico = ± T (α/2 = 0.025, n – p = 7) = ± 2.3646


F cal = 56.95 F crítico = F (α = 0.05, p – 1 = 2, n – p = 7) = 4.7374

Decisión: Como Tcrítico1 < Tcal < Tcrítico 2 o p – valor > α,


Decisión: Como el Fcal > Fcrítico o p – valor < α, se
no se rechaza H0
rechaza H0
Conclusión: Al 5% de nivel de significación, la información
Conclusión: Al 5% de nivel de significación, la
información muestral es suficiente para afirmar que muestral es insuficiente para afirmar que el coeficiente del
existe un modelo cuadrático que relacione el monto término cuadrático es significativo. Por lo tanto, el modelo
mensual de las ventas con el monto de publicidad cuadrático no es válido.
semanal

30
Modelo Potencia

Prueba individual
H0: β1 = 0
H1: β1 ≠ 0

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -1.89 1.13 -1.68 0.131
Ln(X) 1.197 0.134 8.93 0.000 1.00

Tcal = 8.93 Tcrítico = ± T (α/2 = 0.025, n – p = 8) = ± 2.3060 p – valor = 0.0000

Decisión: Como el Tcal > Tcrítico2 o p – valor < α, se rechaza H0


Conclusión: Con un nivel de significación del 5%, la información muestral es suficiente para afirmar que el
coeficiente de regresión es significativo. Por lo tanto, el modelo potencia es válido.

Otra forma de verificar la validación es: Prueba global


H0: β1 = 0
H1: β1 ≠ 0

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 9.4921 9.4921 79.76 0.000
Ln(X) 1 9.4921 9.4921 79.76 0.000
Error 8 0.9521 0.1190
Total 9 10.4442

Fcal = 79.76 Fcrítico = F (α = 0.05; p – 1 = 1, n – p = 8) = 5.3177 p – valor = 0.0000

Decisión: Como el Fcal > Fcrítico o p – valor < α, se rechaza H0


Conclusión: Con un nivel de significación del 5%, la información muestral es suficiente para afirmar que el
coeficiente de regresión es significativo. Por lo tanto, el modelo potencia es válido.

Verificación del cumplimiento de los supuestos


Normalidad de los errores
H0: Los errores siguen una distribución normal
H1: Los errores no siguen una distribución normal

AD = 0.339 p – valor = 0.421

Decisión: Como el p – valor > α, no se rechaza H0


Conclusión: Al 5% de nivel de significación, se asume
que los errores siguen una distribución normal. Por
lo tanto, el supuesto se cumple.

31
No autocorrelación de los errores y homoscedasticidad
H0: Los errores no están autocorrelacionados
H1: Los errores están autocorrelacionados

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.30169

Como el valor de DW = 2.30169 está contenido en el intervalo [1.5, 2.5], entonces se asume que los errores
no están autocorrelacionados, a su vez se asume que la varianza de los errores es constante
(homoscedasticidad). Por lo tanto, se cumples con los supuestos.

Al verificar la validez del modelo y el cumplimiento de los supuestos, el modelo potencia será utilizado
para realizar el pronóstico.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -1.89 1.13 -1.68 0.131
Ln(X) 1.197 0.134 8.93 0.000 1.00

̂ = -1.89+1.197Ln(X)
Modelo potencia linealizado: Ln(Y)
1.197
Modelo potencia: Ŷ = e-1.89 *X = 0.1512*X1.197

Paso 3: Estimación de la variable dependiente a través de un intervalo de confianza


… si el monto de las ventas no supera los 17 mil soles, cuando en una semana se realice un gasto en publicidad
de 8 mil soles …

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
8.86047 0.137563 (8.54325; 9.17770) (8.00403; 9.71691)

IC (Y/ X = 8000) = [e800403, e9.71691] = [2992.995487, 16595.88414] soles

El intervalo que va desde 2992.995487 a 16595.88414 soles tiene un 95% de confianza de contener el monto
de las ventas, cuando los gastos en publicidad son de 8 mil soles. Lo cual se observa que el monto de las
ventas es menor a 17 mil soles

Argumentación y comunicación: Bajo las evidencias recogidas, se puede concluir que el gerente de la
empresa debe iniciar una campaña publicitaria, porque el monto de las ventas no supera los 17 mil soles.

32
Tema: Regresión lineal múltiple
Natur Confort S.A. es una de las empresas líder en la industria del descanso, confort y bienestar, cuenta con
la certificación internacional ISO 9001, que compromete a la empresa a mantener y mejorar de forma
continua la eficiencia y adecuación del proceso de producción.
Este año Natur confort invirtió en la compra de una máquina prensadora automática de alta tecnología
modelo CR-2500, para incrementar su productividad. Debido a la alta complejidad para poder manejar este
equipo se necesita contar con un operario calificado cuyo puntaje de desempeño sea óptimo. El desempeño
es evaluado a través de un puntaje que se calcula en base a la cantidad de tiempo invertido en una tarea
específica y es considerado óptimo, cuando logra superar los 110 puntos. Estudios realizados por otra
empresa han determinado que este puntaje depende de: (1) la experiencia del operador en máquinas
prensadoras (años), (2) la calificación en la prueba de aptitud mecánica y (3) su edad (años).
Para un operario con 9 años de experiencia, una calificación en actitud mecánica de 325 y 42 años de edad,
¿se puede afirmar que presenta un desempeño óptimo?
La base de datos de una muestra aleatoria de 25 operarios se presenta a continuación.
Use un nivel de significación del 5% y un nivel de confianza del 95% (alfa a entrar 0.01 y alfa a retirar 0.01)

Desempeño en la Experiencia en Calificación en aptitud


Operario Edad
prensadora prensadora mecánica
1 111 5 310 40
2 125 11 365 55
3 110 6 325 38
4 115 8 330 46
5 114 5 324 39
6 114 7 318 50
7 125 9 352 48
8 119 8 327 46
9 121 10 336 48
10 117 6 318 41
11 118 5 332 48
12 120 8 330 55
13 118 10 328 49
14 121 11 335 52
15 120 7 330 45
16 105 2 310 35
17 125 13 348 50
18 125 9 349 48
19 119 8 327 36
20 121 10 336 38
21 117 6 318 41
22 118 5 332 48
23 120 9 330 55
24 115 8 345 46
25 118 5 324 39

SOLUCIÓN:
▪ Queremos averiguar si un operario con 9 años de experiencia, una calificación en actitud mecánica
de 325 y 42 años de edad, presenta un desempeño óptimo en la prensadora.

33
▪ Variables independientes:
X1: Experiencia del operario en máquinas prensadoras (años)
X2: Calificación del operario en la prueba de aptitud mecánica
X3: Edad del operario (años)
▪ Variable dependiente (Y): Desempeño en la prensadora

▪ El modelo es: Y = β0+ β1X1+ β2X2 + β3X3 + ei

▪ Supuestos de los errores:


Tener distribución normal.
No presentar autocorrelación.
Deben presentar varianza constante.
Ausencia de colinealidad entre las variables independientes

▪ Ausencia de datos influyentes

▪ Plan de analisis:
1. Estimación del modelo completo y medidas de bondad de ajuste
2. Validación del modelo completo, verificación del cumplimiento de supuestos y detección de
puntos influyentes
3. Si el modelo completo no es válido o incumple con algún supuesto se realiza la estimación de un
modelo reducido mediante el método de selección de modelo paso a paso.
4. Verificación del cumplimiento de los supuestos y detección de puntos influyentes del modelo
reducido
5. Cálculo del pronóstico.

1. Estimación del modelo completo

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 52.9 19.0 2.79 0.011

X1 0.767 0.344 2.23 0.037 2.30

X2 0.1672 0.0643 2.60 0.017 2.17

X3 0.087 0.121 0.72 0.479 1.64

Ŷ = 52.9 + 0.767X1 + 0.1672X2 + 0.087X3

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.77597 71.66% 67.61% 60.74%

▪ El 67.61% de la variabilidad del desempeño en la prensadora es explicada por la experiencia del


operario, la calificación del operario en la prueba de aptitud mecánica y la edad del operario.
▪ La variabilidad de los valores muestrales (y) alrededor de la recta de regresión estimada (ŷ) es
2.77597.

34
2. Validación del modelo completo, verificación del cumplimiento de supuestos y detección de puntos
influyentes

Validación conjunta:
H0: β1 =β2 =β3 = 0
H1: Al menos uno de los βi es diferente de cero

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 409.134 136.378 17.70 0.000

X1 1 38.359 38.359 4.98 0.037

X2 1 52.166 52.166 6.77 0.017

X3 1 3.995 3.995 0.52 0.479


Error 21 161.826 7.706

Falta de ajuste 18 153.826 8.546 3.20 0.184

Error puro 3 8.000 2.667

Total 24 570.960

Estadístico de prueba: Fcal = 17.70 Valor p = 0.000

Decisión: Como el valor p < α, se rechaza H0


Conclusión: Al 5% de nivel de significación, la evidencia muestral es suficiente para afirmar que existe un
modelo que relacione el desempeño de los obreros en la prensadora con la experiencia del operario en
máquinas prensadoras, la calificación del operario en la prueba de aptitud mecánica y la edad del
operario.

Validación de los coeficientes de regresión:


Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 52.9 19.0 2.79 0.011

X1 0.767 0.344 2.23 0.037 2.30


X2 0.1672 0.0643 2.60 0.017 2.17

X3 0.087 0.121 0.72 0.479 1.64

H0: β1 = 0 H0: β2 = 0 H0: β3 = 0


H1: β1 ≠ 0 H1: β2 ≠ 0 H1: β3 ≠ 0
Tcal = 2.23 Tcal = 2.60 Tcal = 0.72
valor – p = 0.037 valor – p = 0.017 valor – p = 0.479
Decisión: RH0 Decisión: RH0 Decisión: NRH0

Conclusión: Al 5% del nivel de significación, la evidencia muestral es suficiente para afirmar que solo
experiencia del operario en máquinas prensadoras y la calificación del operario en la prueba de aptitud
mecánica influye en la explicación del desempeño del operario en la maquina prensadora. Por lo tanto, el
modelo no es válido

3. Si el modelo completo no es válido o incumple con algún supuesto se realiza la estimación de un


modelo reducido mediante el método de selección paso a paso.
35
Selección de términos escalonada
Términos candidatos: X1; X2; X3
-----Paso 1---- -----Paso 2----

Coef P Coef P

Constante 20.3 52.5

X2 0.2952 0.000 0.1783 0.008


X1 0.850 0.015

S 3.08491 2.74542

R-cuad. 61.66% 70.96%


R-cuad.(ajustado) 60.00% 68.32%

R-cuad. (pred) 52.36% 61.88%

Cp de Mallows 7.40 2.52


α a entrar = 0.05; α a retirar = 0.05

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV

Constante 52.5 18.8 2.80 0.010

X1 0.850 0.320 2.65 0.015 2.04


X2 0.1783 0.0617 2.89 0.008 2.04

Ŷ = 52.5 + 0.850X1 + 0.1783X2

Interpretación de los coeficientes de regresión:


β̂ 1 = 0.850 ; Si la experiencia del operario en prensadora se incrementa en un año, el desempeño en
prensadora se incrementará en 0.850 puntos, manteniendo constante la calificación en la prueba de
aptitud mecánica.

β̂ 2 = 0.1783 ; Si la calificación en la prueba de aptitud mecánica se incrementa en un punto, el


desempeño en prensadora del operario se incrementará en 0.1783 puntos, manteniendo constante la
experiencia del operario en prensadora.

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.74542 70.96% 68.32% 61.88%

▪ El 68.32% de la variabilidad del desempeño en la prensadora es explicada por la experiencia del


operario y la calificación del operario en la prueba de aptitud mecánica.
▪ La variabilidad de los valores muestrales (y) alrededor de la recta de regresión estimada (ŷ) es
2.74542.

4. Verificación del cumplimiento de los supuestos y detección de puntos influyentes del modelo
reducido
36
Normalidad de los errores:
H0: Los errores siguen se distribuyen normalmente
H1: Los errores no se distribuyen normalmente

AD = 0.721 p – valor = 0.052

Decisión: Como el p – valor > α, NRH0


Conclusión: Al 5% del nivel de significación, la evidencia muestral es insuficiente para afirmar que los
errores no se distribuyen normalmente. Por lo tanto, se asume que los errores se distribuyen
normalmente.

No autocorrelación de los errores y homocedasticidad


H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.75614

Como DW = 1.75614 pertenece al intervalo [1.5; 2.5], existe independencia de los errores y
homocedasticidad. Por lo tanto, se cumplen ambos supuestos.

Ausencia de colinealidad:
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 52.5 18.8 2.80 0.010

X1 0.850 0.320 2.65 0.015 2.04

X2 0.1783 0.0617 2.89 0.008 2.04

Como el FIV es menor que 10 en todas las variables independientes, se puede concluir que
no hay problemas de multicolinealidad entre las variables X1 y X2.

37
Detección de datos influyentes:
Estadísticas
Variable N N* Mínimo Máximo
COOK 25 0 0.0000 0.3995

Se puede observar que no existe observaciones influyentes, todas las distancias de cook son menores
que 1. Por lo tanto, se cumplen todos los supuestos del modelo.

Finalmente, el segundo modelo queda listo para utilizarlo en el pronóstico

5. Cálculo del pronóstico.


Para un trabajador con 9 años de experiencia, una calificación en actitud mecánica de 325 y 42 años
de edad

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%

118.098 0.933877 (116.161; 120.034) (112.084; 124.112)

IC (Y/X1=9, X2=325) = [112.084; 124.112]

Con un 95% de confianza, el intervalo de 112.084 a 124.112 puntos contiene el desempeño de un


operario en la prensadora, cuando la experiencia del operario es de 9 años y su calificación de aptitud
mecánica es de 325 puntos.

A partir de los resultados obtenidos, se puede concluir que un trabajador con 9 años de experiencia y con
una calificación en aptitud mecánica de 325 presente un desempeño óptimo.

38
Tema: Suavización exponencial simple
Caso: Restaurante “El Álamo”
El restaurante turístico El Álamo, ubicado en el distrito de Lurín, ofrece a sus clientes desayunos y almuerzos
tradicionales de la zona, y atiende a sus clientes todos los días de la semana. En este, su quinto año de
funcionamiento está considerando la posibilidad de no abrir el local un día a la semana. El Gerente de
Operaciones de dicho restaurante piensa que los lunes son los días ideales para no abrir y dar descanso a
todo su personal. Para ello ha recolectado información diaria del número de clientes que han asistido a su
restaurante en las últimas 3 semanas completas. Los datos se muestran a continuación:

Nro. de Nro. de Nro. de


Semana Dia Semana Dia Semana Dia
clientes clientes clientes
1 Lunes 24 2 Lunes 20 3 Lunes 24
1 Martes 28 2 Martes 28 3 Martes 28
1 Miércoles 38 2 Miércoles 24 3 Miércoles 34
1 Jueves 32 2 Jueves 24 3 Jueves 22
1 Viernes 16 2 Viernes 20 3 Viernes 20
1 Sábado 12 2 Sábado 32 3 Sábado 26
1 Domingo 28 2 Domingo 32 3 Domingo 29

Analice la serie y de ser necesario utilice un alfa igual a 0.3, 0.5 y 0.7 para obtener el mejor pronóstico. El
gerente tomará dicha decisión si el número de clientes que asistirían el lunes de la cuarta semana sería menor
a 20. Considere el PEMA como medida del error. Use el nivel de significación de 0.05.

Interpretación: ¿El gerente de operaciones decidirá no abrir el local los días lunes?

Representación:
Y: Número de clientes que asistieron al restaurante
X: Tiempo (días)

Datos en minitab

39
En minitab:
Para obtener la gráfica de la serie
Estadísticas/serie de tiempo/gráfica de serie de tiempo

En el gráfico de la serie no se observa


tendencia ni estacionalidad, por lo tanto,
no existe tendencia. La serie es
estacionaria por lo que se usará el
modelo de suavización exponencial
simple.

40
Cálculo y Análisis:
Calcular los pronósticos para las constantes de suavización de 0.3, 0.5 y 0.7

Estadísticas / Series de tiempo / Suavizado exp. Simple


Para una constante de suavización (α = 0.3)

Este mismo procedimiento se replica para alfa: 0.5 y 0.7. Las salidas son:

Tabla resumen
Constante de suavización Pronósticos PEMA (MAPE)
α = 0.3 26.3376 24.4814
α = 0.5 26.7932 25.5277
α = 0.7 27.6952 26.5493

41
Calcular el CEF y la señal de rastreo (SR) para cada constante de suavización.

α= 0.3 0.5 0.7

Para hallar el CEF


ESTADISTICAS /ESTADISTICAS BÁSICAS/

Estadísticos descriptivos: RESID1; RESID2; RESID3


Estadísticas
Variable Suma
RESID1 7.79
RESID2 5.59
RESID3 5.28

42
Dando como resultado lo siguiente:

Constante de suavización CEF DAM Señal de rastreo


α = 0.3 7.79 5.4185 7.79 / 5.4185 = 1.4377
α = 0.5 5.59 5.6824 5.59 / 5.6824 = 0.9838
α = 0.7 5.28 6.0876 5.28 / 6.0876 = 0.8673

Comentario: Analizando la señal de rastreo para α = 0.3, 0.5 y 0.7 se observa que éstos se encuentran dentro
de los límites admisibles; [-2;2] por lo que no se descarta ningún pronóstico.

Mejor modelo de pronóstico.

Constante de suavización Pronósticos PEMA (MAPE)


α = 0.3 26.3376 24.4814
α = 0.5 26.7932 25.5277
α = 0.7 27.6952 26.5493

▪ El mejor modelo de pronóstico del número de clientes que asisten a restaurante es la suavización
exponencial simple con un alfa de 0.3, dado que el PEMA en este caso es el menor entre los tres.
▪ El número de clientes que asistirían al restaurante el próximo lunes sería de 26.33 clientes.

Argumentación: El gerente decidirá seguir atendiendo los días lunes en vista que se espera más de 20 clientes
para ese día.

43
Tema: Método de descomposición
Caso: Gas natural
Gas natural húmedo: La producción de gas natural en Tacna ha ido incrementando en los últimos cuatro
años por la demanda del mercado local según el Ministerio de Energía y Minas (MEM), específicamente por
el sector eléctrico. Luis Arredondo, ingeniero de la planta de producción del lote 99, considera que la
producción correspondiente al II trimestre del 2020 será superior a 425 millones de pies cúbicos por día. De
confirmarse su pronóstico, se procedería a la exportación del producto.

El ingeniero Arredondo revisa la información histórica de la producción por trimestre de gas natural húmedo
(en millones de pies cúbicos por día), desde el primer trimestre del año 2016 al primer trimestre del 2020.
Los datos del histórico de la producción de gas húmedo (en millones de pies cúbicos por día) se presentan a
continuación:

Producción de gas húmedo (millones


Año Trimestre Tiempo
de pies cúbicos por día)
I 1 360
II 2 360
2016
III 3 365
IV 4 380
I 5 370
II 6 384
2017
III 7 400
IV 8 410
I 9 385
II 10 396
2018
III 11 402
IV 12 425
I 13 405
II 14 412
2019
III 15 418
IV 16 430
2020 I 17 422

Utilice para las pruebas necesarias, un nivel de significación del 1%.

Datos en Minitab:

44
Para obtener la gráfica de la serie
Estadísticas/serie de tiempo/gráfica de serie de tiempo

45
Interpretación: Determinar si el Ingeniero Arredondo, jefe de planta, procederá a la exportación de gas
natural.

Representación.
Variable dependiente: Producción de gas (en millones de pies cúbicos al día)
Variable independiente: Tiempo (trimestre)

Componentes que presenta la serie:


Tendencia: En gráfico de la serie de tiempo se observa tendencia positiva es decir se observa un
crecimiento a medida que el tiempo avanza.

Estacional: En el gráfico de la serie hay un patrón que se repite al inicio del I trimestre en cada año.

Serie no estacionaria y se usará el modelo multiplicativo.

Cálculo y Análisis:
Cálculo de los índices estacionales ajustados
Estadísticas/serie de tiempo/Descomposición
Tener en cuenta que:

• Si una serie mensual tiene un patrón que se repite cada año, la longitud estacional es 12 (MA=12).
• Si una serie trimestral tiene un patrón que se repite cada año, la longitud estacional es 4 (MA=4).
. Si una serie bimestral tiene un patrón que se repite cada año, la longitud estacional es 6 (MA=6)

Los índices estacionales ajustados son:

Índices estacionales Ajustados


Período Índice

1 0.97633
2 0.99168
3 0.99687
4 1.03512

46
Interpretaciones de los índices estacionales ajustados:
Índice estacional para el trimestre I: (1 - 0.97633) x 100 % = 2.37%
En el I trimestre, la producción de gas natural húmedo está por debajo en un 2.37% con respecto al promedio
de la producción del año.

Índice estacional para el trimestre IV: (1.0351 – 1) x 100 % = 3.51%


En el IV trimestre la producción de gas natural húmedo está por encima en un 3.51% con respecto al
promedio de la producción del año.

Obtener la serie desestacionalizada, Y sin estacionalidad = DAjE1

Estime el mejor modelo de tendencia a partir de Y sin estacionalidad (DAjE1) usando regresión simple.

Ruta: Calc / Calculadora:


Para generar: las variables que se usaran en los modelos cuadrático, potencia y exponencial
Para obtener Tcuad Para obtener LN_ DAjE1

Para obtener LN_T

47
Se obtienen los modelos: Lineal, cuadrático, potencia y exponencial:

Estadísticas / Regresión / Regresión / Ajustar modelo de regresión


Teniendo en cuenta las salidas del MINITAB, el ranking en función del coeficiente de determinación de los
modelos generados es el siguiente:

Modelo R2 Ranking
Lineal 93.42% 2°
Cuadrático 93.80% 1°
Exponencial 93.03% 3°
Potencia 83.61% 4°

Modelo Lineal Modelo cuadrático

Modelo Exponencial Modelo Potencia

48
El primer modelo a validar es el modelo cuadrático.

Validación del modelo cuadrático:


Prueba Global
H0: β1 = β2 = 0
H1: Al menos un βi ≠ 0

P valor = 0.00 < α = 0.01, Se Rechaza Ho


Al nivel de significación del 1 %, la evidencia muestral es suficiente para afirmar que al menos un coeficiente
de regresión es significativo.

Prueba individual
Ho: β2 = 0
H1: β2 ≠ 0

P valor = 0.372 > α = 0.01, No se Rechaza Ho


Al nivel de significación del 1 %, la evidencia muestral es suficiente para afirmar que el coeficiente del término
cuadrático no es significativo. Por lo tanto, el modelo cuadrático no es válido.

Según el ranking, el segundo modelo a validar es el modelo lineal.

Validación del modelo lineal:


Prueba individual
Ho: β1 = 0
H1: β1 ≠ 0

P valor = 0.00 < α = 0.01, se rechaza H0.


Al nivel de significación del 1%, la evidencia muestral es suficiente para afirmar que el coeficiente de regresión
es significativo. Por lo tanto, el modelo lineal es válido.

Estimando la ecuación de tendencia: Ŷ sin estacionalidad = 359.54 + 4.059t

Pronóstico para el II trimestre del 2020:

Reemplazando en la ecuación: Ŷ sin estacionalidad = 359.54 + 4.059(18) = 432.602

Año Trimestre Tiempo Ŷ sin estacionalidad IEA Pronóstico

2020 II 18 432.602 0.9917 429.011

▪ El mejor modelo de estimación para la tendencia es el modelo de regresión lineal simple.


▪ El pronóstico para el segundo trimestre del 2020 es 429 millones de pies cúbicos por día, mayor a 425
millones de pies cúbicos por día.

Argumentación y Comunicación: Sí se procederá a la exportación de gas natural, pues el pronóstico para el


segundo trimestre del 2020 es mayor a 425 millones de pies cúbicos por día.

49

You might also like