You are on page 1of 28

PROIECT EXTINS

PROGNOZA SERIILOR DE TIMP

VÂNZĂRI DE ÎNCĂLȚĂMINTE - RAPORT DE


AFACERI

RHEA. S.M

1
PGPDSBA Online Sep_B 2021

Cuprins

1. Problema 1:....................................................................................................................................................
1.1. Obiectiv...........................................................................................................................................................
1.2. Analiza descriptivă și exploratorie a datelor...................................................................................................
1.2.1. Analiza descriptivă a datelor:..................................................................................................................
1.2.2. Datele seriilor de timp - reprezentate grafic:..........................................................................................
1.2.3. Analiza datelor exploratorii:....................................................................................................................
1.3. Divizarea datelor trenului și a datelor de încercare........................................................................................
1.4. Construirea diferitelor modele și verificarea RMSE......................................................................................
1.4.1. Regresie liniară:....................................................................................................................................
1.4.2. Naivul model Bayes:..............................................................................................................................
1.4.3. Prognoza medie simplă:........................................................................................................................
1.4.4. Prognoza medie mobilă:.......................................................................................................................
1.4.5. Netezire exponențială simplă:..............................................................................................................
1.4.6. Netezire exponențială dublă:................................................................................................................
1.4.7. Netezire triplă exponențială:................................................................................................................
1.4.8. Netezire triplă exponențială (multiplicativă):........................................................................................
1.5. Verificarea staționarității..............................................................................................................................
1.6. ARIMA și SARIMA utilizând metoda IC cea mai scăzută:...............................................................................
1.7. ARIMA și SARIMA pe baza punctelor-limită ale ACF și PACF:........................................................................
1.8. Compararea valorilor RMSE..........................................................................................................................
1.9. Construirea modelului optim și prognoza pe 12 luni....................................................................................
1.10. Constatări și sugestii.............................................................................................................................

2
Lista figurilor
Figura Nume Pagina
nr. nr.
Fig. 1 Plot serie de timp - Vânzări de pantofi 5
Fig. 2 Parcela lunară a vânzărilor de încălțăminte 6
Fig. 3 Vânzări lunare de încălțăminte de-a lungul anilor 6
Fig. 4 Graficul seriilor de timp împreună cu media și mediana 6
Fig. 5 Descompunerea multiplicativă a setului de date 7
Fig. 6 Aditiv Descompunerea setului de date 8
Fig. 7 Vânzări de încălțăminte - Împărțirea trenurilor și a testelor 9
Fig. 8 Regresie liniară 10
Fig. 9 Naivul model Bayes 11
Fig. 10 Prognoza medie simplă 11
Fig. 11 Prognoza mediei mobile finale 12
Fig. 12 Netezire exponențială unică 13
Fig. 13 Netezire exponențială simplă și dublă 13
Fig. 14 Netezire exponențială simplă, dublă și triplă 14
Fig. 15 Netezire exponențială simplă, dublă și triplă (multiplicativă) 14
Fig. 16 Staționaritatea vânzărilor de încălțăminte la decalajul 1 16
Fig. 17 AIC-ARIMA (2,1,3) A. Rezumat, B. Grafic și C. Diagnostic 18
Fig. 18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Rezumat, B. Grafic și C. Diagnosticare 20
Fig. 19 Autocorelarea datelor diferențiate 21
Fig. 20 Autocorelarea parțială a datelor diferențiate 21
Fig. 21 ACF/PACF- ARIMA(3,1,1) A. Rezumat, B. Grafic și C. Diagnosticare 22
Fig. 22 Figura-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Rezumat, B. Grafic și C. 24
Diagnosticare
Fig. 23 Prognoza modelului optim pentru următoarele 12 luni 25

Lista tabelelor
Tabelul nr. Nume Pagina nr.
Tabelul 1 Rezumatul informațiilor statistice descriptive 4
Tabelul 2 Divizarea trenurilor și a testelor 9
Tabelul 3 Rezumat Rezultatele tuturor modelelor 24

3
1. Problema 1:
1.1. Obiectiv

 Obiectivul problemei este de a construi un model optim, de a prognoza vânzările


perechilor de pantofi pentru următoarele 12 luni de unde se termină datele în prezent.
 În plus, trebuie să comentăm modelul astfel construit și să raportăm constatările
noastre și să sugerăm măsurile pe care compania ar trebui să le ia pentru vânzările
viitoare.

1.2. Analiza descriptivă și exploratorie a datelor

Fond: Sunteți analist în compania de încălțăminte IJK și este de așteptat să


prognozați vânzările perechilor de pantofi pentru următoarele 12 luni, de unde se
termină datele. Datele pentru vânzările de perechi de pantofi v-au fost oferite din
ianuarie 1980 până în iulie 1995.
Dicționar de date:
AnulLuna: Luna și anul vânzărilor de încălțăminte
Shoe_Sales: Vânzarea lunară de încălțăminte
1.2.1. Analiza descriptivă a datelor:

 Setul de date a fost citit și stocat ca un cadru de date pentru analize


suplimentare.
 Setul de date furnizat este format dintr-un total de 2 coloane și are 187 de
intrări care sunt de natură numerică. Nu există valori nule.
 Prima coloană reprezintă data la care au fost înregistrate vânzările de
încălțăminte. În timp ce a doua coloană reprezintă vânzările în sine.
 Următorul tabel 1 constă în cap(), coadă(), info() și descrierea setului de date
la îndemână.

Tabelul-1: Rezumatul informațiilor statistice descriptive

Șeful setului de date: Coada setului de date: Informații despre setul de date:

4
Descrieți funcția pe setul de date: Nu există valori nule în setul de date.

1.2.2. Datele seriilor de timp - reprezentate grafic:

 O serie de timp este o serie de măsurători pe aceeași variabilă colectate în


timp. Aceste măsurători se fac la intervale regulate de timp. O serie de timp
este o serie de puncte de date indexate în ordine temporală. Cel mai frecvent,
o serie de timp este o secvență luată la momente succesive egal distanțate în
timp. Astfel, este o secvență de date discrete în timp.
 Putem vedea clar o tendință anuală a vânzărilor de încălțăminte în figura 1
reprezentată mai jos. Acest grafic ne oferă o imagine de ansamblu a datelor
fără a fi nevoie să verificăm efectiv fiecare număr din setul de date.

Figura 1 Graficul seriilor de timp – Vânzări de încălțăminte

1.2.3. Analiza datelor exploratorii:

 Analiza exploratorie a datelor se referă la procesul critic de efectuare a


investigațiilor inițiale asupra datelor, astfel încât să se descopere modele, să
se identifice anomalii și să se testeze ipoteze.
 În următoarea figură-2 putem vedea parcelele lunare ale vânzărilor de
încălțăminte. Putem vedea că există valori aberante prezente în aprilie și mai.
Acest lucru ne spune că au existat unele vânzări realizate în acele luni care
au fost în afara obișnuitului.
 Vedem că vânzările tind să crească în a doua jumătate a anului mai mult
decât în prima. Decembrie înregistrează cele mai mari vânzări de
încălțăminte.

5
 Creșterea se poate datora sezonului de sărbători și poate că pantofii sunt
foarte popular cumpărați și folosiți fie pentru autoconsum, fie în scopuri de
cadouri.
 Putem vedea tendința lunară, precum și cea anuală prezentată în figura 3.
Din nou, arătându-ne că decembrie este cea mai populară lună pentru
vânzările de încălțăminte, precum și anul în care a atins vârful vânzărilor
între 1986 și 1988.Acest vârf se poate datora interesului larg răspândit și
multor inovații făcute pentru a atrage clienții să-și cumpere produsele,
sporind astfel vânzările.
 Figura 4 ne arată seriile de timp reprezentate grafic împreună cu valorile
medii și mediane reprezentate grafic de-a lungul aceluiași grafic, pentru a
înțelege fluctuația datelor din aceste două măsuri ale tendinței centrale.
 În plus, deoarece media se dovedește a fi mai mare decât mediana, ceea ce
duce la concluzia că distribuția este distorsionată pozitiv.

Figura-2 Graficul lunar al vânzărilor de încălțăminte

Figura-3 Vânzări lunare de încălțăminte de-a lungul anilor

6
Graficul seriei de timp Figura-4 împreună cu media și mediana
 DESCOMPUNEREA SETULUI DE DATE:

Descompunerea seriilor de timp implică gândirea unei serii ca o combinație


de componente de nivel, tendință, sezonalitate și zgomot. Descompunerea
oferă un model abstract util pentru gândirea seriilor de timp în general și
pentru o mai bună înțelegere a problemelor în timpul analizei și prognozării
seriilor de timp. Ele sunt de două tipuri: în general multiplicative și aditive.

(i) Descompunerea multiplicativă a setului de date:


Datele sunt reprezentate în termeni de multiplicare a componentelor
sezoniere, de tendință, ciclice și reziduale. Se utilizează unde
modificarea este măsurată în procente (%) de modificare.

7
Figura-5 Descompunerea multiplicativă a setului de date

(ii) Descompunerea aditivă a setului de date:


Datele sunt reprezentate prin adăugarea componentelor sezoniere, de
tendință, ciclice și reziduale. Se utilizează unde variația este măsurată
în cantitate absolută.

Figura-6 Descompunerea aditivă a setului de date

Deoarece ne uităm la schimbarea cantității absolute pentru acest set de date


particular, mergem mai departe cu utilizarea modelului aditiv.

1.3. Divizarea datelor trenului și a datelor de încercare

8
Împărțirea tren-test este utilizată pentru a estima performanța algoritmilor de învățare
automată care sunt aplicabili algoritmilor/aplicațiilor bazate pe predicție. Această
metodă este o procedură rapidă și ușor de efectuat, astfel încât să putem compara
propriile noastre rezultate ale modelului de învățare automată cu rezultatele mașinii.
Ambele seturi de date au fost împărțite la anul 1991. Aceasta înseamnă că datele
testului încep din 1991.

Tabelul-2: Împărțirea trenului și a încercărilor

Datele trenului Șeful setului de date: Date de testare Șeful setului de date:

Datele trenului Coada setului de date: Date de testare Coada setului de date:

Forma datelor trenului = (132, 1) Forma datelor de testare = (55, 1)

Reprezentarea grafică a trenului și a părții de încercare:

9
Figura-7 Vânzări de încălțăminte - Tren și test divizat

1.4. Construirea diferitelor modele și verificarea RMSE

 Ni s-a cerut să construim diferite modele de netezire exponențială pe datele


de antrenament și să evaluăm modelul folosind RMSE pe datele de testare.
 De asemenea, trebuie să facem alte modele, cum ar fi regresia liniară,
modelele naive de prognoză, modelele medii simple etc. și verificați
performanța datelor de testare utilizând RMSE.
 Obiectivul principal al construirii atât de multor modele este de a ne asigura
că alegem un model optim cu cele mai mici valori RMSE și MAPE.
 MAPE reprezintă eroarea procentuală absolută medie. Este efectul
multiplicativ mediu dintre fiecare medie estimată și rezultatul observat.
RMSE reprezintă eroarea medie pătratică a rădăcinii, adică abaterea
standard.

1.4.1. Regresie liniară:

 Regresia liniară este un algoritm de învățare automată bazat pe învățarea


supravegheată. Efectuează o sarcină de regresie. Este un instrument excelent
pentru prognoză. Putem vedea din figura de mai jos că regresia liniară în timp
este într-o creștere constantă.

10
Figura-8 Regresie liniară

Tip model RMSE


Regresie la timp 266.2765

1.4.2. Naivul model Bayes:

 Clasificatorii, cum ar fi Naive Bayes, folosesc un model lingvistic pentru


clasificarea și realizarea predicțiilor privind datele seriilor de timp. Figura-9
afirmă că prognoza naivă privind datele de testare este în mod constant aceeași
pentru toate datele, ceea ce nu este ideal.

Figura-9 Modelul Bayes naiv

Tip model RMSE


Regresie la timp 266.2765

11
Model naiv 245.1213

Valorile RMSE par a fi cele mai scăzute pentru Naïve Bayes până acum. Dar,
deoarece prognoza este constantă de-a lungul anilor, nu este un model ideal
pentru setul nostru de date.

1.4.3. Prognoza medie simplă:

Metoda este foarte simplă. Facem media datelor pe luni, trimestre sau ani și apoi
calculăm media pentru perioada respectivă. Mai târziu vom continua să aflăm, ce
procent este la marea medie.

Figura-10 Prognoza medie simplă

Tip model RMSE


RegressionOnTime 266.276
5
Model naiv 245.121
3
SimpleAverageModel 63.9845
7

Valorile RMSE par a fi cele mai scăzute pentru metoda medie simplă de până
acum. Dar, deoarece prognoza este constantă de-a lungul anilor, nu este un
model ideal pentru setul nostru de date.

1.4.4. Prognoza medie mobilă:

 Prognoza medie mobilă este o tehnică naivă și eficientă în prognozarea seriilor


de timp.
 Calcularea unei medii mobile implică crearea unei noi serii în care valorile
sunt compuse din media observațiilor brute din seria de timp originală.

12
 O medie mobilă necesită specificarea unei dimensiuni a ferestrei numită lățime
fereastră. Aceasta definește numărul de observații brute utilizate pentru a
calcula valoarea mediei mobile. Am folosit metoda mediei mobile finale.

Figura-11 Prognoza mediei mobile finale

Tip model RMSE


RegressionOnTime 266.2765
Model naiv 245.1213
SimpleAverageModel 63.98457
2pointTrailingMovingAverage 45.94874
4pointTrailingMovingAverage 57.87269
6pointTrailingMovingAverage 63.45689
9pointTrailingMovingAverage 67.72365

Valorile RMSE par a fi cele mai mici pentru metoda mediei mobile finale de 2
puncte de până acum.

1.4.5. Netezire exponențială simplă:

 Netezirea exponențială unică, SES pe scurt, numită și netezire exponențială


simplă, este o metodă de prognoză a seriilor de timp pentru date univariate
fără tendință sau sezonalitate. Este nevoie de un singur parametru, numit alfa
(a), numit și factor de netezire sau coeficient de netezire.
 Valoarea alfa sau nivelul de netezire la care este reprezentat graficul este
0,605.

13
Figura-12 Netezire exponențială simplă

1.4.6. Netezire exponențială dublă:

 Netezirea exponențială dublă utilizează o componentă de nivel și o


componentă de tendință în fiecare perioadă. Netezirea exponențială dublă
utilizează două greutăți (numite și parametri de netezire), pentru a actualiza
componentele la fiecare perioadă.
 Valoarea alfa sau nivelul de netezire la care este reprezentat graficul este
0,594, în timp ce tendința beta sau de netezire este 0,0002.

Figura-13 Netezire exponențială simplă și dublă

1.4.7. Netezire triplă exponențială:

 Netezirea exponențială triplă este utilizată pentru a gestiona datele seriilor de


timp care conțin o componentă sezonieră. Această metodă se bazează pe trei
ecuații de netezire: componentă staționară, tendință și sezonieră. Atât

14
sezonul, cât și tendința pot fi aditive sau multiplicative. Acesta este modelul
aditiv.
 Valoarea alfa sau nivelul de netezire la care este reprezentat graficul este
0,570, în timp ce tendința beta sau de netezire este 0,0001, iar gama sau
netezirea sezonieră este 0,293.

Figura-14 Netezire exponențială simplă, dublă și triplă

1.4.8. Netezire triplă exponențială (multiplicativă):

 Această metodă se bazează pe trei ecuații de netezire: componentă staționară,


tendință și sezonieră. Acesta este modelul multiplicativ.
 Valoarea alfa sau nivelul de netezire la care este reprezentat graficul este
0,571, în timp ce beta sau tendința de netezire este 0,0001, iar gama sau
netezirea sezonieră este 0,202.

Figura-15 Netezire exponențială simplă, dublă și triplă (multiplicativă)


Tip model RMSE
RegressionOnTime 266.2765
Model naiv 245.1213

15
SimpleAverageModel 63.98457
2pointTrailingMovingAverage 45.94874
4pointTrailingMovingAverage 57.87269
6pointTrailingMovingAverage 63.45689
9pointTrailingMovingAverage 67.72365
SimpleExponențialNetezire 196.4048
DoubleExponențialNetezire 266.1612
TripleExponențialNetezire 128.9925
TripleExponențialNetezireMultiplicativ 83.73405

Valorile RMSE par a fi cele mai mici pentru metoda mediei mobile finale de 2
puncte de până acum.

1.5. Verificarea staționarității

 Testul Augmented Dickey-Fuller este un test rădăcină unitate care determină


dacă există o rădăcină unitate și, ulterior, dacă seria este non-staționară.
 Ipoteza într-o formă simplă pentru testul ADF este:
H0: Seria de timp are o rădăcină unitară și, prin urmare, nu este
staționară.
H1: Seria de timp nu are o rădăcină unitate și, prin urmare, este
staționară.
 Am dori ca seria să fie staționară pentru construirea modelelor ARIMA și, prin
urmare, am dori ca valoarea p a acestui test să fie mai mică decât valoarea
Alpha.
 Când ADF a fost aplicat pe model, am obținut o valoare p de 0,801, care este
mai mare decât 0,5, prin urmare nu reușim să respingem ipoteza nulă.
Concluzionând că seria nu este staționară.
 Acum trebuie să facem o diferență de nivel pe setul de date și să verificăm
staționaritatea.
 Valoarea p după diferențierea nivelului 1 este 0,0361<0,05, prin urmare
respingem acum ipoteza nulă și concluzionăm că seria este staționară cu un
decalaj de 1.
 Mai jos este o reprezentare grafică a acestuia. Valoarea statisticii testului este
de -3,532, în timp ce numărul de decalaje utilizate este de 12.
 Acum că datele sunt staționare, putem trece la construirea modelelor ARIMA
și SARIMA.

16
Figura-16 Staționaritatea vânzărilor de încălțăminte la decalajul 1

1.6. ARIMA și SARIMA utilizând metoda IC cea mai scăzută:

 Un model ARIMA constă din partea Autoregresivă (AR) și partea Media mobilă
(MA) după ce am făcut seria de timp staționară, luând gradul/ordinea corectă a
diferențierii.
 Modelele ARIMA pot fi construite ținând cont și de criteriul informațional Akaike
(AIC). În acest caz, alegem valorile "p" și "q" pentru a determina comenzile AR și,
respectiv, MA, ceea ce ne oferă cea mai mică valoare AIC. Coborâți AIC mai bine
este modelul.
 Limbajele de codare încearcă diferite ordine de "p" și "q" pentru a ajunge la această
concluzie. Amintiți-vă, chiar și pentru un astfel de mod de a alege valorile "p" și "q",
trebuie să ne asigurăm că seria este staționară.
 Formula de calcul a AIC este 2k – 2ln(L), unde k este numărul de parametri care
trebuie estimați și L este estimarea probabilității.
 Pentru modelele SARIMA, putem estima, de asemenea, "p", "q", "P" și "Q" analizând
cele mai mici valori AIC.

 ARIMA:
i. Mai întâi creăm o grilă cu toate rezultatele posibile (p, d, q). Intervalul dintre
"p" și "q" fiind (0,4) și "d" a constantă = 1.

Următoarea este grila tuturor rezultatelor posibile:

Model: (0, 1, 1)
Model: (0, 1, 2)
Model: (0, 1, 3)
Model: (1, 1, 0)
Model: (1, 1, 1)
Model: (1, 1, 2)
Model: (1, 1, 3)
Model: (2, 1, 0)

17
Model: (2, 1, 1)
Model: (2, 1, 2)
Model: (2, 1, 3)
Model: (3, 1, 0)
Model: (3, 1, 1)
Model: (3, 1, 2)
Model: (3, 1, 3)

ii. Apoi trecem la încadrarea modelului ARIMA în fiecare dintre combinațiile de


mai sus și ajungem să o alegem pe cea cu cea mai mică valoare AIC.

Param AIC

11 (2, 1, 3) 1480.805493

15 (3, 1, 3) 1482.566450

5 (1, 1, 1) 1492.487187

6 (1, 1, 2) 1494.423859

9 (2, 1, 1) 1494.431498

2 (0, 1, 2) 1494.964605

3 (0, 1, 3) 1495.148474

14 (3, 1, 2) 1495.655855

13 (3, 1, 1) 1496.346864

7 (1, 1, 3) 1496.385878

10 (2, 1, 2) 1496.410739

1 (0, 1, 1) 1497.050322

12 (3, 1, 0) 1498.930309

8 (2, 1, 0) 1498.950483

4 (1, 1, 0) 1501.643124

0 (0, 1, 0) 1508.283772

iii. Cel mai mic AIC pentru ARIMA este în mod clar (2, 1, 3) cu un AIC de
1480,80. Acum potrivim datele trenului cu modelul și prognoza din setul de
testare. Și obținem rezumatul ARIMA, graficul și rezultatele diagnosticului.

18
Un.

B.

C.

Figura-17 AIC-ARIMA(2,1,3) A. Rezumat, B. Grafic și C. Diagnostic

19
iv. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate.

Tip model RMSE MAPE


AIC-ARIMA(2,1,3) 184.648 85.73498

 SARIMA:

i. Creăm o grilă cu toate combinațiile posibile de (p, d, q) împreună cu sezonier


(P, D, Q) și sezonalitatea de 12. Intervalul dintre "p" și "q" fiind (0,4) și "d" a
constantă = 1.

Următoarea este grila tuturor rezultatelor posibile:

Model: (0, 1, 1)(0, 0, 1, 12)


Model: (0, 1, 2)(0, 0, 2, 12)
Model: (1, 1, 0)(1, 0, 0, 12)
Model: (1, 1, 1)(1, 0, 1, 12)
Model: (1, 1, 2)(1, 0, 2, 12)
Model: (2, 1, 0)(2, 0, 0, 12)
Model: (2, 1, 1)(2, 0, 1, 12)
Model: (2, 1, 2)(2, 0, 2, 12)

ii. Apoi trecem la încadrarea modelului SARIMA în fiecare dintre combinațiile


de mai sus și ajungem să o alegem pe cea cu cea mai mică valoare AIC.

Param sezonier AIC


23 (0, 1, 2) (1, 0, 2, 12) 1156.165429
50 (1, 1, 2) (1, 0, 2, 12) 1157.082589
26 (0, 1, 2) (2, 0, 2, 12) 1157.772313
77 (2, 1, 2) (1, 0, 2, 12) 1158.490996
80 (2, 1, 2) (2, 0, 2, 12) 1158.630324

iii. Cel mai mic AIC pentru SARIMA este clar (0, 1, 2) (1, 0, 2, 12) cu un AIC de
1156,165429. Acum potrivim datele trenului cu modelul și prognoza din setul
de testare. Și obținem rezumatul SARIMA, graficul și rezultatele
diagnosticului. Acest lucru poate fi văzut în figura 18 de mai jos.

iv. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.

Tip model RMSE MAPE


AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.03066 26.45588

20
Un.

B.

C.

Figura-18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Rezumat, B. Grafic și C. Diagnosticare

21
1.7. ARIMA și SARIMA pe baza punctelor-limită ale ACF și PACF:

 Un model ARIMA constă din partea Autoregresivă (AR) și partea Media mobilă
(MA) după ce am făcut seria de timp staționară, luând gradul/ordinea corectă a
diferențierii.
 Ordinea AR este selectată analizând locul în care sunt reprezentate grafic PACF
întreruperile (pentru benzile de intervale de încredere adecvate), iar ordinea APP
este selectată analizând locul în care graficele ACF sunt întrerupte (pentru benzile
de interval de încredere adecvate).
 Gradul sau ordinea de diferență corectă ne dă valoarea lui "d", în timp ce valoarea
"p" este de ordinul modelului AR, iar valoarea "q" este de ordinul modelului MA.
 Pentru SARIMA, parametrul sezonier "F" poate fi determinat prin examinarea
parcelelor ACF. Graficul ACF este de așteptat să arate o creștere la multipli de
"F", indicând astfel o prezență a sezonalității.
 De asemenea, pentru modelele sezoniere, parcelele ACF și PACF se vor comporta
puțin diferit și nu vor continua întotdeauna să se descompună pe măsură ce
numărul de decalaje crește.

 ARIMA:

i. Trebuie să observăm parcelele ACF și PACF. Obținem valoarea "p" din PACF
și valoarea "q" din graficul ACF. Următoarele sunt parcelele de la d = 1:

Figura-19 Autocorelarea datelor diferențiate

Figura-20 Autocorelarea parțială a datelor diferențiate

ii. Apoi trecem la încadrarea modelului ARIMA în (3,1,1). Aceste valori au fost
găsite din parcelele ACF și PACF. Și obținem rezumatul ARIMA, graficul și
rezultatele diagnosticului.

22
Un.

B.

C.

Figura-21 ACF/PACF- ARIMA(3,1,1) A. Rezumat, B. Grafic și C. Diagnosticare

iii. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.

Tip model RMSE MAPE


AIC-ARIMA(2,1,3) 184.648 85.7349
8
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.4558
6 8

23
ACF/PACF-ARIMA(3,1,1) 144.183 66.9104
9 9
 SARIMA:

i. Trebuie să observăm parcelele ACF și PACF. Obținem valoarea "p" din PACF
și valoarea "q" din graficul ACF. Din graficele de mai sus figurile 19 și 20 la
d = 1, frecvență = 12. În plus, găsim P, D, Q din graficul de mai sus căutând
vârfuri sezoniere.

ii. Apoi trecem la încadrarea modelului SARIMA în (3,1,1) (2, 0, 4, 12). Aceste
valori au fost găsite din parcelele ACF și PACF. Și obținem rezumatul
SARIMA, graficul și rezultatele diagnosticului.

Un.

B.

24
C.

Figura-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Rezumat, B. Grafic și


C. Diagnosticare

iii. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.

Tip model RMSE MAPE


AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2

1.8. Compararea valorilor RMSE

Tabelul 3- Rezumat Rezultatele tuturor modelelor RMSE


Tip model RMSE MAPE
2pointTrailingMovingAverage 45.9487
4
4pointTrailingMovingAverage 57.8726
9
6pointTrailingMovingAverage 63.4568
9
SimpleAverageModel 63.9845
7
9pointTrailingMovingAverage 67.7236
5
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
TripleExponențialNetezireMultiplicativ 83.7340
5
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2
TripleExponențialNetezire 128.992
5

25
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
AIC-ARIMA(2,1,3) 184.648 85.73498
SimpleExponențialNetezire 196.404
8
Model naiv 245.121
3
DoubleExponențialNetezire 266.161
2
RegressionOnTime 266.276
5

 Vedem că cel mai bun model cu cel mai mic RMSE în media mobilă de 2 puncte,
urmată de toate celelalte medii mobile și media simplă. Pelocul 6 vedem AIC-
SARIMA(0, 1, 2)(1, 0, 2, 12).
 Deoarece valorile RMSE nu sunt prea departe de locul 1 la locul 6 pentru ușurința
calculului și predictibilitatea precisă, alegem AIC-SARIMA (0, 1, 2)(1, 0, 2, 12). În
plus, modelele ARIMA sunt mai eficiente din punct de vedere computațional și ne
oferă predicții precise.
 De asemenea, ia în considerare MAPE și este întotdeauna o idee bună să aveți mai
mult de un parametru de precizie.
 Netezirea exponențială la nivel de industrie și modelele ARIMA sunt mai populare
atunci când vine vorba de construirea modelelor. În timp ce tehnica de netezire
exponențială depinde de ipoteza scăderii exponențiale a ponderilor pentru datele
anterioare și ARIMA este utilizată prin transformarea unei serii de timp în serii
staționare și studierea naturii seriilor staționare prin ACF și PACF și apoi
contabilizarea efectelor medii autoregresive și mobile într-o serie de timp, dacă există.

1.9. Construirea modelului optim și prognoza pe 12 luni

Vom construi modelul optim cu AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) conform explicațiilor


deja furnizate mai sus.

26
Figura-23 Prognoza modelului optim pentru următoarele 12 luni

1.10. Constatări și sugestii

 Setul de date conține un total de 187 de intrări, dintre care 2 variabile. Prima
coloană reprezintă data la care au fost înregistrate vânzările de încălțăminte.
În timp ce a doua coloană reprezintă vânzările în sine. Nu există valori nule
în setul de date.
 Există valori aberante prezente în aprilie și mai. Acest lucru ne spune că au
existat unele vânzări realizate în acele luni care au fost în afara obișnuitului.
 Vânzările tind să crească în a doua jumătate a anului mai mult decât în
prima. Decembrie înregistrează cele mai mari vânzări de încălțăminte.
 Creșterea se poate datora sezonului de sărbători și poate că pantofii sunt
foarte popular cumpărați și folosiți fie pentru autoconsum, fie în scopuri de
cadouri.
 În tendința lunară, precum și anuală, vedem că decembrie este cea mai
populară lună pentru vânzările de încălțăminte, precum și anul în care a atins
vârful vânzărilor între 1986 și 1988. Acest vârf se poate datora interesului
larg răspândit și multor inovații făcute pentru a atrage clienții să cumpere
produsele lor, stimulând astfel vânzările.
 Din prognoză vedem un vârf clar, prezentând vânzări mai bune decât în anul
precedent. Prin urmare, producătorii trebuie să se asigure că au suficient și
mai mult decât anul precedent.
 Compania poate crește vânzările mai mari decât cele prognozate dacă se
concentrează pe publicitate și lansarea unui nou tip unic de încălțăminte.
 Odată cu lansarea noilor pantofi, aceștia pot atrage clienții și îi pot ademeni
să creadă că trebuie să cumpere pantofii pentru că sunt unici. Oferind
producătorilor un avantaj de prim venit.
 Acest lucru va asigura creșterea vânzărilor pentru o vreme și apoi se poate
lua și decizia de a întrerupe fabricarea tipurilor de încălțăminte care nu sunt
atât de populare. Acest lucru va ajuta la economisirea unor resurse
importante care pot fi utilizate în altă parte.
 Există speranța ca vârful de la an la an să atingă din nou vârful, deoarece
pantofii sunt o necesitate și marfa nu își va pierde niciodată importanța.

27
28

You might also like