Professional Documents
Culture Documents
RHEA. S.M
1
PGPDSBA Online Sep_B 2021
Cuprins
1. Problema 1:....................................................................................................................................................
1.1. Obiectiv...........................................................................................................................................................
1.2. Analiza descriptivă și exploratorie a datelor...................................................................................................
1.2.1. Analiza descriptivă a datelor:..................................................................................................................
1.2.2. Datele seriilor de timp - reprezentate grafic:..........................................................................................
1.2.3. Analiza datelor exploratorii:....................................................................................................................
1.3. Divizarea datelor trenului și a datelor de încercare........................................................................................
1.4. Construirea diferitelor modele și verificarea RMSE......................................................................................
1.4.1. Regresie liniară:....................................................................................................................................
1.4.2. Naivul model Bayes:..............................................................................................................................
1.4.3. Prognoza medie simplă:........................................................................................................................
1.4.4. Prognoza medie mobilă:.......................................................................................................................
1.4.5. Netezire exponențială simplă:..............................................................................................................
1.4.6. Netezire exponențială dublă:................................................................................................................
1.4.7. Netezire triplă exponențială:................................................................................................................
1.4.8. Netezire triplă exponențială (multiplicativă):........................................................................................
1.5. Verificarea staționarității..............................................................................................................................
1.6. ARIMA și SARIMA utilizând metoda IC cea mai scăzută:...............................................................................
1.7. ARIMA și SARIMA pe baza punctelor-limită ale ACF și PACF:........................................................................
1.8. Compararea valorilor RMSE..........................................................................................................................
1.9. Construirea modelului optim și prognoza pe 12 luni....................................................................................
1.10. Constatări și sugestii.............................................................................................................................
2
Lista figurilor
Figura Nume Pagina
nr. nr.
Fig. 1 Plot serie de timp - Vânzări de pantofi 5
Fig. 2 Parcela lunară a vânzărilor de încălțăminte 6
Fig. 3 Vânzări lunare de încălțăminte de-a lungul anilor 6
Fig. 4 Graficul seriilor de timp împreună cu media și mediana 6
Fig. 5 Descompunerea multiplicativă a setului de date 7
Fig. 6 Aditiv Descompunerea setului de date 8
Fig. 7 Vânzări de încălțăminte - Împărțirea trenurilor și a testelor 9
Fig. 8 Regresie liniară 10
Fig. 9 Naivul model Bayes 11
Fig. 10 Prognoza medie simplă 11
Fig. 11 Prognoza mediei mobile finale 12
Fig. 12 Netezire exponențială unică 13
Fig. 13 Netezire exponențială simplă și dublă 13
Fig. 14 Netezire exponențială simplă, dublă și triplă 14
Fig. 15 Netezire exponențială simplă, dublă și triplă (multiplicativă) 14
Fig. 16 Staționaritatea vânzărilor de încălțăminte la decalajul 1 16
Fig. 17 AIC-ARIMA (2,1,3) A. Rezumat, B. Grafic și C. Diagnostic 18
Fig. 18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Rezumat, B. Grafic și C. Diagnosticare 20
Fig. 19 Autocorelarea datelor diferențiate 21
Fig. 20 Autocorelarea parțială a datelor diferențiate 21
Fig. 21 ACF/PACF- ARIMA(3,1,1) A. Rezumat, B. Grafic și C. Diagnosticare 22
Fig. 22 Figura-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Rezumat, B. Grafic și C. 24
Diagnosticare
Fig. 23 Prognoza modelului optim pentru următoarele 12 luni 25
Lista tabelelor
Tabelul nr. Nume Pagina nr.
Tabelul 1 Rezumatul informațiilor statistice descriptive 4
Tabelul 2 Divizarea trenurilor și a testelor 9
Tabelul 3 Rezumat Rezultatele tuturor modelelor 24
3
1. Problema 1:
1.1. Obiectiv
Șeful setului de date: Coada setului de date: Informații despre setul de date:
4
Descrieți funcția pe setul de date: Nu există valori nule în setul de date.
5
Creșterea se poate datora sezonului de sărbători și poate că pantofii sunt
foarte popular cumpărați și folosiți fie pentru autoconsum, fie în scopuri de
cadouri.
Putem vedea tendința lunară, precum și cea anuală prezentată în figura 3.
Din nou, arătându-ne că decembrie este cea mai populară lună pentru
vânzările de încălțăminte, precum și anul în care a atins vârful vânzărilor
între 1986 și 1988.Acest vârf se poate datora interesului larg răspândit și
multor inovații făcute pentru a atrage clienții să-și cumpere produsele,
sporind astfel vânzările.
Figura 4 ne arată seriile de timp reprezentate grafic împreună cu valorile
medii și mediane reprezentate grafic de-a lungul aceluiași grafic, pentru a
înțelege fluctuația datelor din aceste două măsuri ale tendinței centrale.
În plus, deoarece media se dovedește a fi mai mare decât mediana, ceea ce
duce la concluzia că distribuția este distorsionată pozitiv.
6
Graficul seriei de timp Figura-4 împreună cu media și mediana
DESCOMPUNEREA SETULUI DE DATE:
7
Figura-5 Descompunerea multiplicativă a setului de date
8
Împărțirea tren-test este utilizată pentru a estima performanța algoritmilor de învățare
automată care sunt aplicabili algoritmilor/aplicațiilor bazate pe predicție. Această
metodă este o procedură rapidă și ușor de efectuat, astfel încât să putem compara
propriile noastre rezultate ale modelului de învățare automată cu rezultatele mașinii.
Ambele seturi de date au fost împărțite la anul 1991. Aceasta înseamnă că datele
testului încep din 1991.
Datele trenului Șeful setului de date: Date de testare Șeful setului de date:
Datele trenului Coada setului de date: Date de testare Coada setului de date:
9
Figura-7 Vânzări de încălțăminte - Tren și test divizat
10
Figura-8 Regresie liniară
11
Model naiv 245.1213
Valorile RMSE par a fi cele mai scăzute pentru Naïve Bayes până acum. Dar,
deoarece prognoza este constantă de-a lungul anilor, nu este un model ideal
pentru setul nostru de date.
Metoda este foarte simplă. Facem media datelor pe luni, trimestre sau ani și apoi
calculăm media pentru perioada respectivă. Mai târziu vom continua să aflăm, ce
procent este la marea medie.
Valorile RMSE par a fi cele mai scăzute pentru metoda medie simplă de până
acum. Dar, deoarece prognoza este constantă de-a lungul anilor, nu este un
model ideal pentru setul nostru de date.
12
O medie mobilă necesită specificarea unei dimensiuni a ferestrei numită lățime
fereastră. Aceasta definește numărul de observații brute utilizate pentru a
calcula valoarea mediei mobile. Am folosit metoda mediei mobile finale.
Valorile RMSE par a fi cele mai mici pentru metoda mediei mobile finale de 2
puncte de până acum.
13
Figura-12 Netezire exponențială simplă
14
sezonul, cât și tendința pot fi aditive sau multiplicative. Acesta este modelul
aditiv.
Valoarea alfa sau nivelul de netezire la care este reprezentat graficul este
0,570, în timp ce tendința beta sau de netezire este 0,0001, iar gama sau
netezirea sezonieră este 0,293.
15
SimpleAverageModel 63.98457
2pointTrailingMovingAverage 45.94874
4pointTrailingMovingAverage 57.87269
6pointTrailingMovingAverage 63.45689
9pointTrailingMovingAverage 67.72365
SimpleExponențialNetezire 196.4048
DoubleExponențialNetezire 266.1612
TripleExponențialNetezire 128.9925
TripleExponențialNetezireMultiplicativ 83.73405
Valorile RMSE par a fi cele mai mici pentru metoda mediei mobile finale de 2
puncte de până acum.
16
Figura-16 Staționaritatea vânzărilor de încălțăminte la decalajul 1
Un model ARIMA constă din partea Autoregresivă (AR) și partea Media mobilă
(MA) după ce am făcut seria de timp staționară, luând gradul/ordinea corectă a
diferențierii.
Modelele ARIMA pot fi construite ținând cont și de criteriul informațional Akaike
(AIC). În acest caz, alegem valorile "p" și "q" pentru a determina comenzile AR și,
respectiv, MA, ceea ce ne oferă cea mai mică valoare AIC. Coborâți AIC mai bine
este modelul.
Limbajele de codare încearcă diferite ordine de "p" și "q" pentru a ajunge la această
concluzie. Amintiți-vă, chiar și pentru un astfel de mod de a alege valorile "p" și "q",
trebuie să ne asigurăm că seria este staționară.
Formula de calcul a AIC este 2k – 2ln(L), unde k este numărul de parametri care
trebuie estimați și L este estimarea probabilității.
Pentru modelele SARIMA, putem estima, de asemenea, "p", "q", "P" și "Q" analizând
cele mai mici valori AIC.
ARIMA:
i. Mai întâi creăm o grilă cu toate rezultatele posibile (p, d, q). Intervalul dintre
"p" și "q" fiind (0,4) și "d" a constantă = 1.
Model: (0, 1, 1)
Model: (0, 1, 2)
Model: (0, 1, 3)
Model: (1, 1, 0)
Model: (1, 1, 1)
Model: (1, 1, 2)
Model: (1, 1, 3)
Model: (2, 1, 0)
17
Model: (2, 1, 1)
Model: (2, 1, 2)
Model: (2, 1, 3)
Model: (3, 1, 0)
Model: (3, 1, 1)
Model: (3, 1, 2)
Model: (3, 1, 3)
Param AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. Cel mai mic AIC pentru ARIMA este în mod clar (2, 1, 3) cu un AIC de
1480,80. Acum potrivim datele trenului cu modelul și prognoza din setul de
testare. Și obținem rezumatul ARIMA, graficul și rezultatele diagnosticului.
18
Un.
B.
C.
19
iv. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate.
SARIMA:
iii. Cel mai mic AIC pentru SARIMA este clar (0, 1, 2) (1, 0, 2, 12) cu un AIC de
1156,165429. Acum potrivim datele trenului cu modelul și prognoza din setul
de testare. Și obținem rezumatul SARIMA, graficul și rezultatele
diagnosticului. Acest lucru poate fi văzut în figura 18 de mai jos.
iv. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.
20
Un.
B.
C.
21
1.7. ARIMA și SARIMA pe baza punctelor-limită ale ACF și PACF:
Un model ARIMA constă din partea Autoregresivă (AR) și partea Media mobilă
(MA) după ce am făcut seria de timp staționară, luând gradul/ordinea corectă a
diferențierii.
Ordinea AR este selectată analizând locul în care sunt reprezentate grafic PACF
întreruperile (pentru benzile de intervale de încredere adecvate), iar ordinea APP
este selectată analizând locul în care graficele ACF sunt întrerupte (pentru benzile
de interval de încredere adecvate).
Gradul sau ordinea de diferență corectă ne dă valoarea lui "d", în timp ce valoarea
"p" este de ordinul modelului AR, iar valoarea "q" este de ordinul modelului MA.
Pentru SARIMA, parametrul sezonier "F" poate fi determinat prin examinarea
parcelelor ACF. Graficul ACF este de așteptat să arate o creștere la multipli de
"F", indicând astfel o prezență a sezonalității.
De asemenea, pentru modelele sezoniere, parcelele ACF și PACF se vor comporta
puțin diferit și nu vor continua întotdeauna să se descompună pe măsură ce
numărul de decalaje crește.
ARIMA:
i. Trebuie să observăm parcelele ACF și PACF. Obținem valoarea "p" din PACF
și valoarea "q" din graficul ACF. Următoarele sunt parcelele de la d = 1:
ii. Apoi trecem la încadrarea modelului ARIMA în (3,1,1). Aceste valori au fost
găsite din parcelele ACF și PACF. Și obținem rezumatul ARIMA, graficul și
rezultatele diagnosticului.
22
Un.
B.
C.
iii. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.
23
ACF/PACF-ARIMA(3,1,1) 144.183 66.9104
9 9
SARIMA:
i. Trebuie să observăm parcelele ACF și PACF. Obținem valoarea "p" din PACF
și valoarea "q" din graficul ACF. Din graficele de mai sus figurile 19 și 20 la
d = 1, frecvență = 12. În plus, găsim P, D, Q din graficul de mai sus căutând
vârfuri sezoniere.
ii. Apoi trecem la încadrarea modelului SARIMA în (3,1,1) (2, 0, 4, 12). Aceste
valori au fost găsite din parcelele ACF și PACF. Și obținem rezumatul
SARIMA, graficul și rezultatele diagnosticului.
Un.
B.
24
C.
iii. Verificăm în cele din urmă acuratețea modelului cu ajutorul RMSE și MAPE
calculate. AIC-SARIMA are cel mai mic RMSE și MAPE până acum.
25
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
AIC-ARIMA(2,1,3) 184.648 85.73498
SimpleExponențialNetezire 196.404
8
Model naiv 245.121
3
DoubleExponențialNetezire 266.161
2
RegressionOnTime 266.276
5
Vedem că cel mai bun model cu cel mai mic RMSE în media mobilă de 2 puncte,
urmată de toate celelalte medii mobile și media simplă. Pelocul 6 vedem AIC-
SARIMA(0, 1, 2)(1, 0, 2, 12).
Deoarece valorile RMSE nu sunt prea departe de locul 1 la locul 6 pentru ușurința
calculului și predictibilitatea precisă, alegem AIC-SARIMA (0, 1, 2)(1, 0, 2, 12). În
plus, modelele ARIMA sunt mai eficiente din punct de vedere computațional și ne
oferă predicții precise.
De asemenea, ia în considerare MAPE și este întotdeauna o idee bună să aveți mai
mult de un parametru de precizie.
Netezirea exponențială la nivel de industrie și modelele ARIMA sunt mai populare
atunci când vine vorba de construirea modelelor. În timp ce tehnica de netezire
exponențială depinde de ipoteza scăderii exponențiale a ponderilor pentru datele
anterioare și ARIMA este utilizată prin transformarea unei serii de timp în serii
staționare și studierea naturii seriilor staționare prin ACF și PACF și apoi
contabilizarea efectelor medii autoregresive și mobile într-o serie de timp, dacă există.
26
Figura-23 Prognoza modelului optim pentru următoarele 12 luni
Setul de date conține un total de 187 de intrări, dintre care 2 variabile. Prima
coloană reprezintă data la care au fost înregistrate vânzările de încălțăminte.
În timp ce a doua coloană reprezintă vânzările în sine. Nu există valori nule
în setul de date.
Există valori aberante prezente în aprilie și mai. Acest lucru ne spune că au
existat unele vânzări realizate în acele luni care au fost în afara obișnuitului.
Vânzările tind să crească în a doua jumătate a anului mai mult decât în
prima. Decembrie înregistrează cele mai mari vânzări de încălțăminte.
Creșterea se poate datora sezonului de sărbători și poate că pantofii sunt
foarte popular cumpărați și folosiți fie pentru autoconsum, fie în scopuri de
cadouri.
În tendința lunară, precum și anuală, vedem că decembrie este cea mai
populară lună pentru vânzările de încălțăminte, precum și anul în care a atins
vârful vânzărilor între 1986 și 1988. Acest vârf se poate datora interesului
larg răspândit și multor inovații făcute pentru a atrage clienții să cumpere
produsele lor, stimulând astfel vânzările.
Din prognoză vedem un vârf clar, prezentând vânzări mai bune decât în anul
precedent. Prin urmare, producătorii trebuie să se asigure că au suficient și
mai mult decât anul precedent.
Compania poate crește vânzările mai mari decât cele prognozate dacă se
concentrează pe publicitate și lansarea unui nou tip unic de încălțăminte.
Odată cu lansarea noilor pantofi, aceștia pot atrage clienții și îi pot ademeni
să creadă că trebuie să cumpere pantofii pentru că sunt unici. Oferind
producătorilor un avantaj de prim venit.
Acest lucru va asigura creșterea vânzărilor pentru o vreme și apoi se poate
lua și decizia de a întrerupe fabricarea tipurilor de încălțăminte care nu sunt
atât de populare. Acest lucru va ajuta la economisirea unor resurse
importante care pot fi utilizate în altă parte.
Există speranța ca vârful de la an la an să atingă din nou vârful, deoarece
pantofii sunt o necesitate și marfa nu își va pierde niciodată importanța.
27
28