Professional Documents
Culture Documents
RHEA.S.M
PGPDSBA Online Sep_B 2021
1
Índice
1. Problema 1:....................................................................................................................................................
1.1. Objetivo..........................................................................................................................................................
1.2. Análisis descriptivo y exploratorio de datos...................................................................................................
1.2.1. Análisis descriptivo de datos:..................................................................................................................
1.2.2. Datos de series temporales:....................................................................................................................
1.2.3. Análisis exploratorio de datos:................................................................................................................
1.3. División de los datos de entrenamiento y prueba..........................................................................................
1.4. Construcción de diferentes modelos y comprobación del RMSE..................................................................
1.4.1. Regresión lineal:....................................................................................................................................
1.4.2. Modelo Naïve Bayes:............................................................................................................................
1.4.3. Previsión media simple:........................................................................................................................
1.4.4. Previsión de medias móviles:................................................................................................................
1.4.5. Suavizado exponencial simple:.............................................................................................................
1.4.6. Suavizado exponencial doble:...............................................................................................................
1.4.7. Suavizado exponencial triple:...............................................................................................................
1.4.8. Suavizado exponencial triple (multiplicativo):......................................................................................
1.5. Comprobación de la estacionariedad...........................................................................................................
1.6. ARIMA y SARIMA utilizando el método AIC más bajo:..................................................................................
1.7. ARIMA y SARIMA basados en los puntos de corte de ACF y PACF:...............................................................
1.8. Comparación de los valores RMSE................................................................................................................
1.9. Construcción del modelo óptimo y previsión a 12 meses.............................................................................
1.10. Conclusiones y sugerencias...................................................................................................................
2
Lista de figuras
Figura Nombre Nº de
No. página
Figura Gráfico de series temporales -Venta de zapatos 5
1
Figura Trama mensual de ventas de calzado 6
2
Figura Ventas mensuales de calzado a lo largo de los años 6
3
Figura Gráfico de series temporales con media y mediana 6
4
Figura Descomposición multiplicativa del conjunto de datos 7
5
Figura Descomposición aditiva del conjunto de datos 8
6
Figura Venta de calzado- Formación y prueba dividida 9
7
Figura Regresión lineal 10
8
Figura Modelo Naïve Bayes 11
9
Figura Previsión media simple 11
10
Figura Previsión de la media móvil final 12
11
Figura Suavizado exponencial simple 13
12
Figura Suavizado exponencial simple y doble 13
13
Figura Alisamiento exponencial simple, doble y triple 14
14
Figura Alisamiento exponencial simple, doble y triple (multiplicativo) 14
15
Figura Estacionariedad de las ventas de calzado en el lag 1 16
16
Figura AIC-ARIMA(2,1,3) A. Resumen, B. Gráfico y C. Diagnóstico 18
17
Figura AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Resumen, B. Gráfico y C. Diagnóstico 20
18
Figura Autocorrelación de datos diferenciados 21
19
Figura Autocorrelación parcial de datos diferenciados 21
20
Figura ACF/PACF- ARIMA(3,1,1) A. Resumen, B. Gráfico y C. Diagnóstico 22
21
Figura Figura-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Resumen, B. Gráfico y C. 24
22
Diagnóstico
Figura Modelo óptimo Previsión para los próximos 12 meses 25
3
23
Lista de cuadros
Tabla No. Nombre Nº de página
Cuadro 1 Resumen de la información estadística descriptiva 4
Cuadro 2 Formar y probar la división 9
Cuadro 3 Resumen de los resultados de todos los modelos 24
1. Problema 1:
1.1. Objetivo
El objetivo del problema es construir un modelo óptimo para predecir las ventas de
pares de zapatos en los próximos 12 meses a partir de los datos actuales.
Además, tenemos que comentar el modelo así construido e informar de nuestras
conclusiones y sugerir las medidas que la empresa debería adoptar para futuras
ventas.
Cabeza del conjunto de Cola del conjunto de Información del conjunto de datos:
datos: datos:
4
Describir la función en el conjunto de datos: No hay valores nulos en el conjunto de
datos.
5
En la siguiente Figura-2 podemos ver las gráficas de caja mensuales de las
ventas de calzado. Podemos ver que hay valores atípicos en abril y mayo.
Esto nos indica que en esos meses se realizaron algunas ventas fuera de lo
habitual.
Vemos que las ventas tienden a repuntar en la segunda mitad del año más
que en la primera. Diciembre registra las mayores ventas de calzado.
El repunte puede deberse a la temporada de vacaciones, y quizá los zapatos
se compren y utilicen mucho, ya sea para consumo propio o para regalar.
En la Figura 3 se muestra la tendencia mensual y anual. Una vez más,
diciembre es el mes más popular para la venta de calzado, así como el año en
que se alcanzó el máximo de ventas, entre 1986 y 1988. Este pico puede
deberse al interés generalizado y a la gran cantidad de innovaciones
realizadas para atraer a los clientes a la compra de sus productos, impulsando
así las ventas.
La Figura 4 nos muestra la serie temporal trazada junto con los valores de la
media y la mediana trazados a lo largo del mismo gráfico, para comprender
la fluctuación de los datos a partir de estas dos medidas de tendencia central.
Además, la media es superior a la mediana, lo que lleva a la conclusión de
que la distribución está sesgada positivamente.
6
Figura 3 Ventas mensuales de calzado a lo largo de los años
7
Figura-5 Descomposición multiplicativa del conjunto de datos
8
Figura-6 Descomposición aditiva del conjunto de datos
Dado que estamos estudiando el cambio en la cantidad absoluta para este conjunto de
datos concreto, pasamos a utilizar el modelo aditivo.
9
Datos de entrenamiento Cola del conjunto de Datos de prueba Cola del conjunto de datos:
datos:
10
Se nos ha pedido que construyamos varios modelos de suavizado
exponencial en los datos de entrenamiento y que evaluemos el modelo
utilizando el RMSE en los datos de prueba.
También vamos a elaborar otros modelos, como la regresión lineal, los
modelos de previsión ingenuos, los modelos de media simple, etc., y
comprobar el rendimiento en los datos de prueba mediante el RMSE.
El objetivo principal de construir tantos modelos es asegurarnos de que
elegimos un modelo óptimo con los valores RMSE y MAPE más bajos.
MAPE son las siglas en inglés de error medio porcentual absoluto. Es el
efecto multiplicativo medio entre cada media estimada y el resultado
observado. RMSE son las siglas en inglés de error cuadrático medio, es
decir, la desviación estándar.
11
Figura-9 Modelo Naïve Bayes
Los valores de RMSE parecen ser los más bajos para Naïve Bayes hasta el
momento. Pero como la previsión es constante a lo largo de los años, no es un
modelo ideal para nuestro conjunto de datos.
El método es muy sencillo. Hacemos la media de los datos por meses, trimestres
o años y luego calculamos la media del periodo. A continuación, procedemos a
averiguar qué porcentaje representa respecto a la media general.
12
Tipo de modelo RMSE
RegresiónEnTiempo 266.276
5
Modelo ingenuo 245.121
3
SimpleAverageModel 63.9845
7
Hasta ahora, los valores de RMSE parecen ser los más bajos para el método de la
media simple. Pero como la previsión es constante a lo largo de los años, no es
un modelo ideal para nuestro conjunto de datos.
13
Hasta ahora, los valores de RMSE parecen ser los más bajos para el método de la
media móvil móvil de 2 puntos.
14
Figura-13 Suavizado exponencial simple y doble
15
El valor alfa o nivel de suavizado al que se traza el gráfico es 0,571, mientras
que el beta o tendencia de suavizado es 0,0001 y el gamma o estacional de
suavizado es 0,202.
Hasta ahora, los valores de RMSE parecen ser los más bajos para el método de la
media móvil móvil de 2 puntos.
16
H1: La serie temporal no tiene raíz unitaria y, por tanto, es
estacionaria.
Queremos que las series sean estacionarias para construir modelos ARIMA y,
por lo tanto, queremos que el valor p de esta prueba sea inferior al valor
Alpha.
Al aplicar el ADF al modelo, obtuvimos un valor p de 0,801, que es superior a
0,5, por lo que no rechazamos la hipótesis nula. Concluyendo que la serie no
es estacionaria.
Ahora tenemos que hacer una diferenciación de niveles en el conjunto de datos
y comprobar la estacionariedad.
El valor p tras la diferenciación de nivel 1 es 0,0361<0,05, por lo que ahora
rechazamos la hipótesis nula y concluimos que la serie es estacionaria con un
desfase de 1.
A continuación se ofrece una representación gráfica de la misma. El valor del
estadístico de prueba es -3,532, mientras que el número de rezagos utilizado es
12.
Ahora que los datos son estacionarios, podemos pasar a construir los modelos
ARIMA y SARIMA.
17
Los lenguajes de codificación prueban diferentes órdenes de 'p' y 'q' para llegar a esta
conclusión. Recuerde que, incluso para esta forma de elegir los valores "p" y "q",
debemos asegurarnos de que la serie es estacionaria.
La fórmula para calcular el AIC es 2k - 2ln(L), donde k es el número de parámetros
que hay que estimar y L es la estimación de la verosimilitud.
Para los modelos SARIMA, también podemos estimar 'p', 'q' , 'P' y 'Q' fijándonos en
los valores AIC más bajos.
ARIMA:
i. Primero creamos una cuadrícula con todos los resultados posibles (p,d,q). El
rango de 'p' y 'q' es (0,4) y 'd' una constante = 1.
Modelo: (0, 1, 1)
Modelo: (0, 1, 2)
Modelo: (0, 1, 3)
Modelo: (1, 1, 0)
Modelo: (1, 1, 1)
Modelo: (1, 1, 2)
Modelo: (1, 1, 3)
Modelo: (2, 1, 0)
Modelo: (2, 1, 1)
Modelo: (2, 1, 2)
Modelo: (2, 1, 3)
Modelo: (3, 1, 0)
Modelo: (3, 1, 1)
Modelo: (3, 1, 2)
Modelo: (3, 1, 3)
param AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
18
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. El AIC más bajo para ARIMA es claramente (2, 1, 3) con un AIC de 1480,80.
Ahora ajustamos los datos de entrenamiento con el modelo y realizamos la
previsión en el conjunto de pruebas. Y obtenemos el Resumen ARIMA, el
gráfico y los resultados del diagnóstico.
A.
B.
19
C.
iv. Por último, comprobamos la precisión del modelo con ayuda del RMSE y el
MAPE calculados.
SARIMA:
20
Modelo: (1, 1, 1)(1, 0, 1, 12)
Modelo: (1, 1, 2)(1, 0, 2, 12)
Modelo: (2, 1, 0)(2, 0, 0, 12)
Modelo: (2, 1, 1)(2, 0, 1, 12)
Modelo: (2, 1, 2)(2, 0, 2, 12)
iii. El AIC más bajo para SARIMA es claramente (0, 1, 2) (1, 0, 2, 12) con un
AIC de 1156,165429. Ahora ajustamos los datos de entrenamiento con el
modelo y realizamos la previsión en el conjunto de pruebas. Y obtenemos el
Resumen SARIMA, el gráfico y los resultados del diagnóstico. Esto puede
verse en la Figura 18.
iv. Por último, comprobamos la precisión del modelo con ayuda del RMSE y el
MAPE calculados. AIC-SARIMA tiene el RMSE y el MAPE más bajos hasta
ahora.
A.
21
B.
C.
22
Además, en el caso de los modelos estacionales, los gráficos ACF y PACF se
comportarán de forma diferente y no siempre seguirán disminuyendo a medida
que aumente el número de retardos.
ARIMA:
i. Debemos observar los gráficos ACF y PACF. Obtenemos el valor 'p' del
PACF y el valor 'q' del gráfico ACF. A continuación se muestran los gráficos
con d=1:
A.
23
B.
C.
iii. Por último, comprobamos la precisión del modelo con ayuda del RMSE y el
MAPE calculados. AIC-SARIMA tiene el RMSE y el MAPE más bajos hasta
ahora.
24
9 9
SARIMA:
i. Debemos observar los gráficos ACF y PACF. Obtenemos el valor 'p' del
PACF y el valor 'q' del gráfico ACF. De los gráficos anteriores, las figuras 19
y 20 para d=1, frecuencia= 12. A partir del gráfico anterior, también podemos
hallar P, D y Q buscando picos estacionales.
A.
B.
25
C.
iii. Por último, comprobamos la precisión del modelo con ayuda del RMSE y el
MAPE calculados. AIC-SARIMA tiene el RMSE y el MAPE más bajos hasta
ahora.
26
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
AIC-ARIMA(2,1,3) 184.648 85.73498
SimpleExponentialSmoothing 196.404
8
NaiveModel 245.121
3
AlisadoExponencialDoble 266.161
2
RegresiónEnTiempo 266.276
5
Vemos que el mejor modelo con menor RMSE es la media móvil de 2 puntos, seguida
de todas las demás medias móviles y también de la media simple. En6º lugar vemos
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12).
Dado que los valores de RMSE no están demasiado alejados entre el 1º y el 6º lugar
para facilitar el cálculo y lograr una predicción precisa, elegimos AIC-SARIMA(0, 1,
2)(1, 0, 2, 12). Además, los modelos ARIMA son más eficientes desde el punto de
vista computacional y nos ofrecen predicciones precisas.
También tiene en cuenta el MAPE, y siempre es buena idea tener más de un
parámetro de precisión.
Los modelos de suavización exponencial y ARIMA son más populares en el sector
cuando se trata de construir modelos. Mientras que la técnica de suavizado
exponencial depende de la suposición de la disminución exponencial de los pesos de
los datos pasados y ARIMA se emplea mediante la transformación de una serie
temporal a una serie estacionaria y el estudio de la naturaleza de la serie estacionaria a
través de ACF y PACF y, a continuación, teniendo en cuenta los efectos
autorregresivos y de media móvil en una serie temporal, si están presentes.
27
Figura-23 Previsión del modelo óptimo para los próximos 12 meses
28
Con el lanzamiento de los nuevos zapatos pueden atraer a los clientes y
hacerles creer que tienen que comprarlos porque son únicos. Esto da a los
fabricantes la ventaja de ser los primeros.
Esto garantizará un aumento de las ventas durante un tiempo y luego se
podrá tomar la decisión de dejar de fabricar los tipos de calzado que no sean
tan populares. Esto ayudará a ahorrar importantes recursos que pueden
utilizarse en otros ámbitos.
Hay esperanzas de que el repunte interanual vuelva a ser máximo, porque el
calzado es un bien de primera necesidad y nunca perderá su importancia.
29