You are on page 1of 14

ESERCIZIO SULLA REGRESSIONE LINEARE MULTIPLA.

Sviluppare il modello di regressione multipla come estensione del modello di regressione semplice
Stimare i parametri della regressione
Calcolare gli indici di adattamento del modello ai dati
Valutare la significativit della relazione lineare e dei singoli coefficienti
Valutare il contributo di ciascuna variabile indipendente
Effettuare una previsione

Dal modello di regressione lineare semplice, in cui una sola variabile indipendente o esplicativa X viene
usata per prevedere il valore della variabile dipendente o risposta Y. si pu ottenere un modello migliore
prendendo in considerazione pi di una variabile esplicativa.
Per questo motivo, intendiamo affrontare lanalisi introducendo il modello di regressione multipla in cui si
fa ricorso a pi variabili esplicative per effettuare previsioni su una variabile dipendente.

APPLICAZIONE: Previsione delle vendite di Omnipower

Il prezzo e la spesa in attivit promozionali sono due dei fattori che determinano in maniera preponderante le
vendite di un prodotto. Supponete che una grande catena di negozi alimentari operante su scala nazionale
intenda introdurre una barretta energetica di basso prezzo, chiamata Omnipower. Le barrette energetiche
contengono grassi, carboidrati e calorie e forniscono rapidamente energie ai corridori, agli scalatori e agli
atleti in genere impegnati in lunghe ed estenuanti attivit sportive. Le vendite delle barrette energetiche sono
esplose negli ultimi anni e il grande magazzino ritiene che vi possa essere un buon mercato per la
Omnipower. Prima di introdurre la barretta in tutti i magazzini, la divisione di marketing della catena intende
stabilire leffetto che il prezzo e le promozioni allinterno dei negozi possono avere sulle vendite.

1.SVILUPPARE IL MODELLO DI REGRESSIONE MULTIPLA

Un campione di 34 negozi della catena viene selezionato per una ricerca di mercato sulla Omnipower. I
negozi hanno tutti approssimativamente il medesimo volume di vendite mensili. Si prendono in
considerazioni due variabili indipendenti il prezzo in centesimi di una barretta Omnipower (X1) e la spesa
mensile per le attivit promozionali, espressa in dollari, (X2). La spesa promozionale comprende la spesa per
i cartelli pubblicitari, i tagliandi di sconto e i campioni gratuiti. La variabile dipendente Y il numero di
barrette di Omnipower vendute in un mese. Nella Tabella di seguito si riportano i valori osservati per le tre
variabili considerate.

1
Tabella 1 Vendite mensili, prezzo e spese promozionali di Ominipower

Negozio Vendite Prezzo Promozione


1 4141 59 200
2 3842 59 200
3 3056 59 200
4 3519 59 200
5 4226 59 400
6 4630 59 400
7 3507 59 400
8 3754 59 400
9 5000 59 600
10 5120 59 600
11 4011 59 600
12 5015 59 600
13 1916 79 200
14 675 79 200
15 3636 79 200
16 3224 79 200
17 2295 79 400
18 2730 79 400
19 2618 79 400
20 4421 79 400
21 4113 79 600
22 3746 79 600
23 3532 79 600
24 3825 79 600
25 1096 99 200
26 761 99 200
27 2088 99 200
28 820 99 200
29 2114 99 400
30 1882 99 400
31 2159 99 400
32 1602 99 400
33 3354 99 600
34 2927 99 600

1.1 la stima dei coefficienti della regressione

Al fine di tener conto di pi di una variabile indipendente, estendiamo il modello di regressione lineare
semplice, supponendo che tra la variabile dipendente e ciascuna delle variabili esplicative vi sia una
relazione lineare. Nel caso di p variabili esplicative, la relazione di dipendenza lineare della Y dai regressori
X1,X2,Xp formalizzabile nel modo seguente:

Yi = 0 + 1 X1i +2 X2i +3 X3i + . . . p Xpi +i


dove

0 = intercetta
1 = inclinazione di Y rispetto alla variabile X1 tenendo costanti le variabili X2, X3, . . . , Xp.
2 = inclinazione di Y rispetto alla variabile X2 tenendo costanti le variabili X1, X3, . . . , Xp
3 = inclinazione di Y rispetto alla variabile X3 tenendo costanti le variabili X1, X2, X4, . . . , Xp.
p = inclinazione di Y rispetto alla variabile Xp tenendo costanti le variabili X1, X2, X3, . . Xp-1.
i = errore in corrispondenza dellosservazione i.

2
inoltre una variabile casuale che esprime la variabilit di Y non spiegata dalla relazione lineare con i
regressori si suppone che tale termine non abbia effetto sistematico e che quindi la sua distribuzione
normale con valore atteso nullo e la varianza finita .

~N(0 , 2)

Da ci deriva che anche la variabile dipendente Y sia una variabile casuale che condizionatamente ai
regressori ha distribuzione anchessa normale con valore atteso

E(Y|X1,Xp)= 0 + 1 X1i+2 X2 +3 X3i+ . . . p Xp


E varianza che non dipende dai regressori.

Var(Y|X1,Xp)=Var( 0 + 1 X1i+2 X2 +3 X3i+ . . . p Xp+)=Var()=2


Nel caso di due variabili esplicative, il modello di regressione multipla espresso come segue

1.2 Il modello di regressione multipla con due variabili indipendenti

Yi = 0 + 1 X1i +2 X2i +i

dove
0 = intercetta
1 = inclinazione di Y rispetto alla variabile X1 tenendo costanti le variabili X2.
2 = inclinazione di Y rispetto alla variabile X2 tenendo costanti le variabili X1
i = errore in corrispondenza dellosservazione i.

Confrontiamo questo modello con il modello di regressione lineare semplice dellequazione dato da:

Yi = 0 + 1 X1i +i

Nel modello lineare semplice, linclinazione 1 rappresenta la variazione che la variabile Y presenta in
corrispondenza di una variazione unitaria di X. Non si prende in considerazione nessunaltra variabile oltre
allunica variabile indipendente inclusa nel modello. Nel modello di regressione multipla dellequazione
linclinazione 1 ci dice come varia Y in corrispondenza di una variazione unitaria della variabile X1, quando,
tuttavia, si tiene conto anche degli effetti della variabile X2.
Come nella regressione semplice, i coefficienti di regressione campionari (b0, b1 e b2) vengono usati come
stimatori dei corrispondenti parametri della popolazione (0, 1 e 2). Pertanto, lespressione campionaria
dellequazione di un modello di regressione multipla con due variabili esplicative ha la forma seguente.

Lequazione della regressione multipla con due variabili esplicative

Y i = b0 + b1X1i + b2X2i
I valori dei coefficienti di regressione campionari si possono calcolare con il metodo dei minimi quadrati,
ricorrendo a pacchetti statistici o a fogli elettronici come Microsoft Excel.
La formula ottenuta minimizzando il quadrato degli errori che viene quindi calcolata la seguente:

b = X ' X X ' y
1

In cui la matrice X da dimensioni (34x3); la prima colonna sar formata da tutti 1 necessaria per il calcolo
dellordinata allorigine (intercetta).

3
[ ]
1 x 11 x 12
X= 1 . .
1 x n1 x n2

1
Avendo a disposizione la matrice X ' X e la matrice X ' y possibile ricavare il vettore dei
coefficienti utilizzando il prodotto matriciale:

0. 9692 -0. 0094 -0. 0005 105355


-0. 0094 0 .0001 0 . 0000 7702685
-0. 0005 0 .0000 0 . 0000 44515800

righ righ



[ ][ ] [ ][ ]
X ' X 1= X ' y =

b0=(0.9692*105355-0.0094*7702685-0.0005*44515800)=5837.5
b1=(-0.0094*105355+0.0001*7702685+0.0000*44515800)=-53.21
b2=(-0.0005*105355+0.0000*7702685+0.0000*44515800)=3.61

Pertanto, il modello di regressione multipla stimato :

Y i = 5837.52 -53.2173X1i + 3.6131X2i


in cui:
Y i =vendite mensili medie di Omnipower stimate per il negozio i
X1i = prezzo (in centesimi) di Omnipower per il negozio i
X2i = spesa (in dollari) per la promozione della Omnipower nel negozio i

Lintercetta campionaria b0, pari a 5837.52, rappresenta il numero di barrette di Omnipower che ci si
aspetterebbe di vendere ogni mese se il prezzo e lammontare totale speso per lattivit promozionale fossero
entrambi uguali a $ 0.00. Tali valori tuttavia, al di fuori del range dei valori osservati sia per il prezzo che per
la spesa promozionale, non hanno alcun senso.
Linclinazione delle vendite di Omnipower rispetto al prezzo (b1 = 53.2173) ci dice che, per un dato
ammontare della spesa per lattivit promozionale, si dovrebbero vendere 53.2173 barrette in meno per ogni
centesimo di aumento del prezzo. Linclinazione delle vendite rispetto alla spesa per lattivit promozionale
(b2 = 3.6131) ci dice che, per un dato prezzo, si dovrebbero vendere 3.6131 barrette in pi per ogni
centesimo speso in pi in attivit promozionali. Tali stime permettono alla divisione di marketing di
prevedere leffetto che eventuali decisioni in merito al prezzo e allattivit promozionale possono avere sulle
vendite della barretta Omnipower. Per esempio, in base al modello stimato, si ritiene che per un dato
ammontare della spesa promozionale, una riduzione di 10 centesimi del prezzo
della barretta determinerebbe un aumento del numero di barrette vendute pari a 532.173. Dallaltro lato, per
un dato prezzo, un aumento della spesa promozionale di $ 100 determinerebbe un aumento del numero di
barrette vendute pari a 361.31 barrette.

4
COMMENTO: Interpretazione delle inclinazioni nel modello di regressione multipla

Abbiamo visto che i coefficienti in un modello di regressione multipla si devono considerare come coefficienti di
regressione netti: essi misurano la variazione della variabile risposta Y in corrispondenza della variazione di una
delle variabili esplicative, quando si tengono costanti le altre. Per esempio, nello studio delle vendite della
barretta Omnipower, abbiamo affermato che, per un dato negozio, in corrispondenza di una riduzione di un
centesimo del prezzo si venderebbero 53.22 barrette in pi, per un dato ammontare della spesa promozionale.
Analogamente, i valori dei coefficienti di regressione si potrebbero interpretare prendendo in considerazione pi
negozi simili, tutti con un medesimo ammontare della spesa promozionale. Per tali negozi, si prevede che una
riduzione del prezzo della barretta aumenterebbe le vendite di 53.22 barrette.
In maniera analoga, linclinazione delle vendite rispetto alla spesa promozionale, pu essere interpretata nella
prospettiva di diversi negozi simili, in cui la Omnipower ha un medesimo prezzo. Per questi negozi si ritiene che
la vendita di barrette Omnipower aumenterebbe di 3.61 barrette al mese per ogni dollaro in pi speso in attivit
promozionali.

1.2 Calcolo degli indici di adattamento del modello ai dati

Una volta stimata la relazione lineare fondamentale considerare la bont di adattamento del modello ai dati.
Ci viene misurata tramite R2

SSR SSE
R2= = 1
SST SST

che per la sua facilit dinterpretazione 1 viene spesso utilizzato come unica grandezza di riferimento. Nel
nostro caso il modello presenta un discreto adattamento ai dati R 2=0.75. Il coefficiente di determinazione
uguale a 0.7577 e, quindi, ci dice che il 75.77% della variabilit delle vendite di Omnipower spiegato dal
prezzo e dalle spese promozionali.

Tabella 2 Tabella riassuntiva indici di adattamento del modello

Poich noto che linclusione nel modello di una variabile X i anche se a basso contenuto
esplicativo fa aumentare R2 necessario confrontare tale valore con quello di R2 corretto;
questultimo infatti non risente delle inefficienze appena menzionate.
La formula che permette il passaggio dal primo al secondo indice la seguente:

[
R 2=1 1 R 2
n1
n p1 ]
1
Il valore di R2 viene ottenuto calcolando il rapporto tra 2 quantit la devianza di regressione ottenuta come somma dei quadrati
n
2
degli scarti tra i valori stimati della y e la media della variabile osservata SSR= y j y e la devianza totale ottenuta come
j=1
n
2
somme dei quadrati degli scarti tra y osservate e la loro media SST = y j y .
j=1
n
2 SSE 2
Nel caso si utilizzi la formula R = 1
SST utilizziamo la devianza di dispersione SSE= y j y j data
j=1
dalla somma dei quadrati delle differenze tra valori osservati della y e valori stimati.

5
In cui n sono il numero di osservazioni e p il numero delle variabili esplicative della regressione
stimata.
Per i dati relativi alle vendite della barretta Omnipower, poich R2 = 0.7577, n = 34 e p = 2,

[ 34 1
]
2
R adj
=1 1 R 2
34 2 1

[
=1 1 0. 7577
33
31 ]
=1-0.2579

=0.7421

Pertanto il 74.21% della variabilit delle vendite pu essere spiegato dal modello proposto, tenuto conto delle
numero di regressori e dellampiezza campionaria.

1.3. Il test per la velica della significativit del modello di regressione lineare multipla

Una volta valutata, sulla base dellanalisi dei residui, ladeguatezza del modello di regressione lineare
multipla, passiamo a verificare se ci sia una relazione significativa tra la variabile dipendente e linsieme
delle variabili esplicative. Dal momento che siamo in presenza di pi di una variabile esplicativa, lipotesi
nulla e quella alternativa vanno specificate nella maniera seguente:

H0: 1 = 2 = 0 (Non vi una relazione lineare tra la variabile dipendente e le variabili esplicative.)

H1: Almeno un j 0 (Vi una relazione lineare tra la variabile dipendente e almeno una delle
variabili esplicative.)

Come nel caso del modello di regressione lineare semplice, tale problema di verifica di ipotesi viene risolto
ricorrendo al test F, riassunto nella seguente:

Il test F sullintero modello nel modello di regressione multipla


La statistica F data dal rapporto tra la media dei quadrati della regressione (Varianza di regressione
VREG) e la media dei quadrati dellerrore (Varianza di dispersione VDISP) dove

VREG
F=
VDISP

p = numero delle variabili esplicative nel modello di regressione

F = la statistica test F avente una distribuzione F con p e n p 1 gradi di libert

La regola decisionale in questo caso :

Rifiutare H0 se F > Ft,

dove Ft il valore critico sulla coda di destra di una distribuzione F con p e n p 1 gradi di libert;
altrimenti accettare H0.

Per il calcolo della F ci serviamo dunque dei dati della tabella che sintetizza lANOVA (Analysis of
Variance) del modello stimato. (Tabella 3).

6
Tabella 3 ANOVA per il test per la verifica della significativit dellinsieme dei coefficienti di regressione nel modello di
regressione multipla con p _ 2 variabili esplicative

Fonte Gdl Somma dei Quadrati Media dei quadrati F


(VARIANZA)
Regressione SSR VREG
p SSR
VREG = F=
p VDISP
Residuo n-p-1 SSE SSE
VDISP =
n p 1
Totale n-1 SST

La Tabella 3 riporta tutti i calcoli necessari per la costruzione del test F per lesempio relativo alle vendite
della Omnipower.
Se il livello di significativit scelto 0.05, dalla Tabella della distribuzione della F ricaviamo che il valore
critico (per una distribuzione F con 2 e 31 gradi di libert) approssimativamente uguale a 3.32, come
illustrato nella Figura. Il valore di F pu essere calcolato come visto in precedenza sulla base dei valori letti
nella tabella ANOVA.
Poich F = 48.48 > Ft = 3.32 o ancora poich il p-value = 0.000 < 0.05, possiamo rifiutare H0 e quindi
concludere che vi una relazione lineare tra almeno una variabile esplicativa (il prezzo e/o le spese di
promozione) e le vendite (Tabella 4)

Tabella 4 ANOVA nel caso Omnipower

Figura 1 Verifica della significativit dellinsieme dei coefficienti di regressione con un livello di significativit pari a 0.05 e 2
e 31 gradi di libert.

1.4 Inferenza sui coefficienti di regressione della Popolazione

Nel Paragrafo precedente abbiamo introdotto un test di ipotesi sulla verifica della significativit della
relazione tra X e Y. In questo paragrafo introduciamo un test di ipotesi sullinclinazione della retta e
definiamo lintervallo di confidenza per la stima dellinclinazione

7
1.4.1 Test di ipotesi

La statistica test per la verifica dellipotesi 1 = 0 nel modello di regressione semplice per lequazione:

b1
t=
Sb
1

Generalizzando al caso del modello di regressione multipla, otteniamo la seguente espressione:

Il test t per la verifica di ipotesi sullinclinazione nel modello di regressione multipla

bk
t=
Sb
k

dove
p = numero di variabili esplicative
bk = inclinazione di Y rispetto alla variabile k tenendo costanti le altre variabili
Sbk=errore standard del coefficiente di regressione bk
t = statistica test con distribuzione t con n p 1 gradi di libert.

I risultati del test t per ciascuna delle variabili esplicative sono riportati nelloutput di SAS (Tabella 5)

Tabella 5 Stima dei coefficienti della regressione e valori dei test t

Pertanto, se vogliamo stabilire se la variabile X2 (ammontare delle spese promozionali) ha un effetto


significativo sulle vendite, tenendo conto del prezzo della barretta OmniPower, lipotesi nulla e quella
alternativa sono:
H0: 2 = 0

H1: 2 0

In base allequazione (10.7) abbiamo:

b2
t=
Sb
2

e con riferimento ai dati relativi allesempio considerato:

b2 = 3.6131 e Sb2 = 0.6852


Pertanto:
3 .6131
t= = 5 . 27
0 .6852

Per un livello di significativit pari a 0.05, dalla Tabella ricaviamo che i valori della statistica t per 31 gradi
di libert sono 2.0395 e +2.0395 (cfr. Figura). Osserviamo inoltre che il p-value pari a 0.00000982 (9.2E-
06 in notazione scientifica).

8
Poich t = 5.27 > t31 = 2.0395 o ancora poich p-value = 0.00000982 > 0.05, rifiutiamo H0 e possiamo
concludere che vi una relazione significativa tra la variabile X2 (spese promozionali) e le vendite, tenendo
conto del prezzo X1.

Figura 2 Verifica della significativit del coefficiente di regressione con un livello di significativit pari a 0.05 e
31 gradi di libert

Verificare la significativit di un particolare coefficiente di regressione equivale a verificare la significativit


dellinserimento della variabile corrispondente nel modello di regressione,date le variabile gi presenti.
Pertanto, il test t su un coefficiente di regressione equivale al test sul contributo della variabile esplicativa
corrispondente.

1.4.2 La stima per intervalli di confidenza

Si pu essere interessati a stimare uno dei coefficienti di regressione, anzich a valutarne la significativit.
Nel caso del modello di regressione multipla, lintervallo di confidenza per il generico coefficiente di
regressione k assume la seguente espressione

Stima per intervallo di confidenza per linclinazione

bk tn-p-1Sbk

Per esempio, lintervallo di confidenza per il coefficiente 1 in base allequazione dato dalla seguente
espressione:

b1 t31Sb1
Poich il valore critico di t per un livello di significativit pari a 0.95 e 31 gradi di libert uguale a 2.0395
(cfr. Tavola E.3), si ha:

-53.21573(2.0395)(6.8522)

-53.2157313.9752
-67.1925 1 -39.2421

Pertanto riteniamo che, dato leffetto della spesa promozionale, laumento di un centesimo del prezzo della
barretta Omnipower determini una riduzione del numero delle barrette vendute compresa tra 67.2 e 39.2.

9
Riteniamo che, per un livello di confidenza pari a 95%, questo intervallo stimi correttamente la vera
relazione esistente tra le variabili considerate.
Daltro canto, poich lintervallo trovato non comprende lo zero, possiamo concludere che X1 abbia un
effetto significativo sulla variabile dipendente.

1.5 La Mulitcollinearit

Uno dei problemi che si pu presentare nellanalisi di un modello di regressione multipla la


multicollinearit delle variabili esplicative, che consiste nella presenza di una elevata correlazione tra le
variabili esplicative. In questo caso, le variabili collineari non forniscono delle informazioni aggiuntive e
risulta difficile individuare leffetto che ciascuna di esse ha sulla variabile risposta. I valori dei coefficienti di
regressione per queste variabili potrebbero variare in maniera elevata a seconda di quali delle variabili
indipendenti sono incluse nel modello.
Un metodo per la misurazione della multicollinearit si basa sul variance inflationary factor (VIF), che si
pu calcolare per ciascuna delle variabili esplicative. Il VIFj corrispondente alla variabile j, di

Variance Inflationary Factor

1
VIF j = 2
1 R j

dove il coefficiente di determinazione che caratterizza il modello in cui la variabile dipendente Xj e


tutte le altre variabili esplicative sono incluse nel modello.

seguito definito.
In presenza di due sole variabili esplicative, il coefficiente di determinazione della regressione di X1 su X2
ed identico a , il coefficiente di determinazione della regressione di X2 su X1. Se, ad esempio, vi sono tre
variabili esplicative, il coefficiente di determinazione della regressione di X1 su X2 e X3; il coefficiente di
determinazione della regressione di X2 su X1 e X3 e il coefficiente di determinazione di X3 con X1 e X2.Se le
variabili esplicative non sono correlate, il VIFj uguale a 1. Se le variabili esplicative sono altamente
correlate tra di loro, il VIFj elevato e potrebbe eccedere 10. Altri studiosi hanno una posizione pi prudente
e suggeriscono di correre a metodi di stima diversi dai minimi quadrati quando si in presenza di un VIFj
maggiore di 5.Tornando ai dati relativi alle vendite della barretta Omnipower, la correlazione tra le due
variabili esplicative, prezzo e spese promozionali, uguale a 0.0968. Pertanto, in base allequazione

1
VIF 1=VIF 2= 2
=1. 009
1 0 . 0968

Concludiamo che non vi prova della presenza di multicollinearit tra le variabili.

1.6 La previsione

Una volta stimati i valori dei parametri della regressione la previsione viene calcolata semplicemente
applicando la relazione lineare trovata nel nostro caso:

Y i = 5837.52 -53.2173X1i + 3.6131X2i

Ci significa che per ottenere Y 1 cio il primo valore previsto della matrice di dati a nostra disposizione
(Tabella 1) dobbiamo semplicemente effettuare il seguente calcolo

Y 1 = 5837.52 -53.2173*59+ 3.6131*200=3420.31

1
Lerrore dunque ricavato per differenza

e 1 =Y 1 Y 1 =4141-3420.31=720.69

Cos per tutte le osservazioni in modo da ottenere la seguente tabella:

Tabella 6 Valori previsti e residui


Negozio P_Vendite R_Vendite
1 3420.31 720.69
2 3420.31 421.69
3 3420.31 -364.31
4 3420.31 98.6905
5 4142.921 83.0789
6 4142.921 487.079
7 4142.921 -635.92
8 4142.921 -388.92
9 4865.533 134.467
10 4865.533 254.467
11 4865.533 -854.53
12 4865.533 149.467
13 2355.963 -439.96
14 2355.963 -1681
15 2355.963 1280.04
16 2355.963 868.037
17 3078.574 -783.57
18 3078.574 -348.57
19 3078.574 -460.57
20 3078.574 1342.43
21 3801.186 311.814
22 3801.186 -55.186
23 3801.186 -269.19
24 3801.186 23.814
25 1291.616 -195.62
26 1291.616 -530.62
27 1291.616 796.384
28 1291.616 -471.62
29 2014.228 99.7723
30 2014.228 -132.23
31 2014.228 144.772
32 2014.228 -412.23
33 2736.839 617.161
34 2736.839 190.161

Inoltre se diamo una rappresentazione grafica ai residui vediamo che questi si dispongono casualmente.

1
1
Infine si potrebbe ipotizzare la scelta di un modello ridotto nel nostro caso quindi una regressione semplice
(utilizziamo come unica esplicativa la variabile Prezzo) al posto di quella multipla stimata in precedenza?
Per rispondere a tale domanda bisogna stimare la regressione lineare semplice.

Ora lipotesi da verificare (eliminazione dal modello di un gruppo di variabili) la seguente:


H0: i = i+1 = =p =0

Per quanto riguarda la scelta tra i due modelli, si procede con un test F.

Dev Disp _mod ello ridotto Dev Disp _mod ello completo / p1 p2
F=
Dev Disp _mod ello completo / n p11

Dove p1=numero di coefficienti del modello completo (nel nostro caso 2) e p 2=numero di coefficienti del
modello ridotto (nel nostro caso 1).

23940191 .312620946. 7 / 21 11319244 .6


= =27 . 8
12620946 .7 / 34 21 407127 . 31

Il valore della F con 2 e 31 gradi di libert per un alfa pari a 0,05 3,32.

Il valore calcolato superiore al valore critico pertanto si rifiuta il modello ridotto.

1
1