You are on page 1of 25

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 7: Regression

Ελένη Γάκη
Τμήμα Διοίκησης Επιχειρήσεων
Άδειες Χρήσης
• Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
χρήσης Creative Commons.
• Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται
σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης
αναφέρεται ρητώς.

2
Χρηματοδότηση
• Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια
του εκπαιδευτικού έργου του διδάσκοντα.
• Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο
Πανεπιστήμιο Αιγαίου» έχει χρηματοδοτήσει μόνο τη
αναδιαμόρφωση του εκπαιδευτικού υλικού.
• Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού
Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και
συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό
Κοινωνικό Ταμείο) και από εθνικούς πόρους.

3
Περιεχό μενα Διά λεξης

 Συσχέτιση - Παλινδρό μηση


 Απλή Γραμμική Παλινδρό μηση
 Πολλαπλή Παλινδρό μηση
Συσχέτιση - Παλινδρό μηση

Η ανά λυση παλινδρό μησης ( regression analysis) έχει ως αντικειμενικό σκοπό την
πρό βλεψη. Επιδίωξη μας δηλαδή είναι η επιλογή κατά λληλου στοχαστικού μοντέλου
το οποίο θα χρησιμοποιηθεί για την πρό βλεψη των τιμώ ν μιας εξαρτημένης
μεταβλητής (dependent random variable) Υ από τις τιμές μιας τουλά χιστον
ανεξάρτητης τυχαίας μεταβλητής (Independent random variable) Χ.

Η εξαρτημένη τυχαία μεταβλητή Υ ονομά ζεται και ενδογενής (endogenous) ενώ η


ανεξά ρτητη τυχαία μεταβλητή ονομά ζεται εξωγενής (exogenous) ή ακό μα
ερμηνευτική (explanatory).
Συσχέτιση - Παλινδρό μηση
Η συσχέτιση (correlation analysis) χρησιμοποιείται για τη μέτρηση του βαθμού
εξά ρτησης ή την ένταση της συμμεταβολή ς που υπά ρχει μεταξύ των τυχαίων
μεταβλητώ ν Χ και Υ.

Είναι δυνατό ν να μελετή σουμε μία παρά μετρο της κατανομή ς που μπορεί να
χρησιμοποιηθεί ως μέτρο της ισχυρό τητας της γραμμική ς εξά ρτησης των Χ και Υ. Η
παρά μετρος αυτή είναι ο γνωστό ς συντελεστής συσχέτισης (correlation coefficient)
ο οποίος ορίζεται ως εξή ς:
Coν(X, Y) Δείκτης Γραμμικής Συσχέτισης του Pearson
ρ
σXσY

ό που Coν(X,Y)  E  X-μείναι


X   Y η  
μ Yσυνδιακύ μανση των Χ και Y και οι μέσες τιμές και οι τυπικές
αποκλίσεις των κατανομώ ν των Χ και Y αντίστοιχα.
i) 1    1

ii)   1  X, Y είναι γραμμικά εξαρτημένα.


Όπως είναι γνωστό :
iii) ρ= - 1 : πλήρης αρνητική συσχέτιση

ρ= + 1 : πλήρης θετική συσχέτιση

ρ= 0 : ασυσχέτιστα
Απλή Γραμμική Παλινδρό μηση

Η απλή ανά λυση παλινδρό μησης μας δίνει πληροφορίες για το πως μια μεταβλητή
σχετίζεται με μια ά λλη και μας δίνει την εξίσωση γραμμική ς παλινδρό μησης που επιτρέπει
τον υπολογισμό της ά γνωστης μεταβλητή ς αν οι τιμές των υπολοίπων είναι γνωστές.

Το μοντέλο της απλή ς παλινδρό μησης είναι

Υ=α+βX +ε

Οι συντελεστές α και β ονομά ζονται συντελεστές γραμμικής παλινδρόμησης.

Το α είναι το σημείο στο οποίο η ευθεία παλινδρό μησης τέμνει τον ά ξονα των y, είναι
δηλαδή η τιμή της Υ που αντιστοιχεί στο x=0 , το δε β είναι η κλίση της ευθείας
παλινδρό μησης και εκφρά ζει την αύ ξηση (μείωση) της y που αντιστοιχεί σε αύ ξηση της x
κατά μία μονά δα.

Το ε παριστά νει το σφά λμα της εκτίμησης.


Απλή Γραμμική Παλινδρό μηση

Θα χρησιμοποιή σουμε το αρχείο money.sav στο οποίο έχουν καταγραφεί για


δεκατέσσερις μαθητές διαφορετικώ ν ηλικιώ ν που φοιτού ν σε 4 διαφορετικά
σχολεία της Αθή νας τα χρή ματα που λαμβά νουν από τους γονείς τους το μή να για
χαρτζιλίκι. Οι μεταβλητές που χρησιμοποιού νται είναι οι ακό λουθες:

• Money: Μηνιαίο Χαρτζιλίκι μαθητώ ν


• School: Σχολείο που φοιτού ν (Σχολείο Α, Β, Γ, Δ)
• Age: Ηλικία μαθητώ ν
• Income: Ετή σιο Οικογενειακό Εισό δημα

Θα κατασκευά σουμε ένα γραμμικό μοντέλο με εξαρτημένη μεταβλητή το


χαρτζιλίκι και ανεξάρτητη μεταβλητή την ηλικία.
Απλή Γραμμική Παλινδρό μηση
Απλή Γραμμική Παλινδρό μηση

Εά ν η σταθερά δεν πρέπει να


εμφανίζεται στο μοντέλο, από -
επιλέγουμε το αντίστοιχο πεδίο.
Απλή Γραμμική Παλινδρό μηση

Ο Συντελεστή ς Συσχέτισης του Pearson έχει την τιμή 0,974, αυτό σημαίνει ό τι υπά ρχει έντονα θετική
συσχέτιση (πολύ κοντά στο +1) μεταξύ των δύ ο μεταβλητώ ν

Το sig αναφέρεται στον εξή ς έλεγχο:


Η0 : ρ = 0 (δηλαδή οι δύ ο μεταβλητές είναι ασυσχέτιστες)
Η1 : ρ ≠ 0 (δηλαδή οι δύ ο μεταβλητές συσχετίζονται)
Εδώ sig = 0,000 <0,05 ά ρα απορρίπτουμε τη μηδενική υπό θεση, δηλαδή οι δύ ο μεταβλητές
συσχετίζονται και μά λιστα, αφού ο δείκτης έχει τιμή 0,974, υπά ρχει έντονη θετική συσχέτιση.
Απλή Γραμμική Παλινδρό μηση

Στον πίνακα παρουσιά ζονται κά ποιοι δείκτες του μοντέλου:

 Το R είναι ο συντελεστή ς συσχέτισης. Άρα εδώ φαίνεται ό τι υπά ρχει μεγά λη θετική συσχέτιση μεταξύ
των δύ ο μεταβλητώ ν.

 Το R2 είναι ο συντελεστή ς προσδιορισμού ο οποίος χρησιμοποιείται, ουσιαστικά , ως κριτή ριο καλή ς


προσαρμογή ς των δεδομένων στο γραμμικό μοντέλο. Εξετά ζει δηλαδή πό ση είναι η μεταβλητό τητα της
Υ που εξηγείται από την παλινδρό μηση και πό ση μένει ανερμή νευτη, δηλαδή οφείλεται σε τυχαίους
παρά γοντες. Στη συγκεκριμένη περίπτωση το 94,9% της μεταβλητό τητας της Υ εξηγείται από την
παλινδρό μηση.

 Το R2 Adjusted λαμβά νει υπό ψη του τον αριθμό των μεταβλητώ ν που έχουμε στο μοντέλο. Είναι
καλύ τερο από το απλό R2.

 Το Standard Error of the Estimate είναι το τυπικό σφά λμα εκτίμησης και είναι ένα μέτρο του πό σο η
τιμή διαφέρει από δείγμα σε δείγμα.
Απλή Γραμμική Παλινδρό μηση

Ο Πίνακας ANOVA αναφέρεται στον έλεγχο:

Η0 : β1 = 0 (εά ν είχαμε πολλές ανεξά ρτητες μεταβλητές ο έλεγχος θα αφορού σε ό λους τους
συντελεστές των ανεξά ρτητων μεταβλητώ ν ό τι ή ταν 0)
Η0 : β1 ≠ 0

Δηλαδή ο έλεγχος εξετά ζει αν η μεταβλητή Χ είναι στατιστικά σημαντική , δηλαδή εά ν το μοντέλο
μας είναι το σταθερό μοντέλο Y=α.

Εδώ sig = 0,000 ά ρα απορρίπτουμε την Η0 δηλαδή υπά ρχει σχέση μεταξύ Χ και Υ.
Απλή Γραμμική Παλινδρό μηση

Tα B είναι ο συντελεστή ς β της ανεξά ρτητης μεταβλητή ς και ο σταθερό ς ό ρος α

Υ = -231,788 + 23,485Χ

Επομένως εά ν η ηλικία (Χ) είναι 0 τό τε το χαρτζιλίκι (Υ) είναι -231,788. Προφανώ ς στο συγκεκριμένο παρά δειγμα δεν
έχει νό ημα αυτό . Εννοείται ό τι σε μηδενική ηλικία το χαρτζιλίκι δεν υπά ρχει.
Για κά θε επιπλέον αύ ξηση της ηλικίας κατά μία μονά δα, το χαρτζιλίκι αυξά νεται κατά 23,485.

Οι έλεγχοι του πίνακα αφορού ν τις παραμέτρους και είναι οι εξή ς:

Για Constant Η0 : β0 = 0. Εδώ sig =0,000, απορρίπτω τη μηδενική υπό θεση ά ρα η τιμή της σταθερά ς δεν μπορεί να
υποτεθεί 0.

Για την Ηλικία Η0 : β1 = 0. Εδώ sig =0,000, απορρίπτω τη μηδενική υπό θεση ά ρα η τιμή της παραμέτρου για τη Χ δεν
μπορεί να υποτεθεί 0.
Πολλαπλή Παλινδρό μηση

Η πολλαπλή ανά λυση παλινδρό μησης μας δίνει πληροφορίες για το πως μια μεταβλητή σχετίζεται μ’ ά λλες
μεταβλητές και μας δίνει την εξίσωση γραμμική ς παλινδρό μησης που επιτρέπει τον υπολογισμό της
ά γνωστης μεταβλητή ς αν οι τιμές των υπολοίπων είναι γνωστές.

Το μοντέλο της πολλαπλή ς ανά λυσης παλινδρό μησης είναι

Υ=α+β1Χ1+β2Χ2+…βνΧν+ ε

Ο σταθερό ς αριθμό ς α είναι η τιμή που παίρνει το Υ ό ταν οι μεταβλητές Χ1,…,Χν είναι μηδέν.

Τα β1,β2,…βν παριστά νουν την συνεισφορά κά θε μίας από τις μεταβλητές Χ1,…,Χν στο Υ

Το ε παριστά νει το σφά λμα της εκτίμησης

Τα β1,β2,…βν εκτιμώ νται με την μέθοδο των ελαχίστων τετραγώ νων


Πολλαπλή Παλινδρό μηση

Επανερχό μαστε στο προηγού μενο παρά δειγμα και θέλουμε να κατασκευά σουμε
ένα γραμμικό μοντέλο με εξαρτημένη μεταβλητή το χαρτζιλίκι και
ανεξάρτητες μεταβλητές την ηλικία και το οικογενειακό εισό δημα.
Πολλαπλή Παλινδρό μηση

Θα χρησιμοποιή σουμε τη μέθοδο Enter


Πολλαπλή Παλινδρό μηση
Πολλαπλή Παλινδρό μηση

Ο Συντελεστή ς Συσχέτισης του Pearson για τις ανά δύ ο συγκρίσεις των μεταβλητώ ν.

Χαρτζιλίκι και Ηλικία: r = 0,974 έντονα θετική συσχέτιση


Χαρτζιλίκι και Ετή σιο Οικογενειακό εισό δημα : r = 0,915 έντονα θετική συσχέτιση
Ηλικία και Ετή σιο Οικογενειακό εισό δημα : r = 0,896 θετική συσχέτιση

Αντίστοιχα για τους ελέγχους και για τις τρεις περιπτώ σεις έχουμε:
Η0 : ρ = 0 (δηλαδή οι δύ ο μεταβλητές είναι ασυσχέτιστες)
Η1 : ρ ≠ 0 (δηλαδή οι δύ ο μεταβλητές συσχετίζονται)
sig = 0,000 <0,05 ά ρα απορρίπτουμε τη μηδενική υπό θεση, δηλαδή οι δύ ο μεταβλητές συσχετίζονται
Πολλαπλή Παλινδρό μηση

Ο Πίνακας ANOVA αναφέρεται στον έλεγχο:

Η 0 : βi = 0
Η 0 : βi ≠ 0

Εδώ sig = 0,000 ά ρα απορρίπτουμε την Η0.


To μοντέλο μας δεν είναι το σταθερό .
Πολλαπλή Παλινδρό μηση

H σταθερά είναι στατιστικά σημαντική (0.000<0.05), γι αυτό θα περιέχεται στην εξίσωση της
Παλινδρό μησης με συντελεστή -171,866

H μεταβλητή Ηλικία είναι στατιστικά σημαντική (0.000<0.05), γι αυτό θα περιέχεται στην εξίσωση της
Παλινδρό μησης 18,935

H μεταβλητή Ετή σιο Οικογενειακό Εισό δημα δεν είναι στατιστικά σημαντική (0,159>0,05 και δεν θα
εμφανίζεται στην εξίσωση της Παλινδρό μησης.

Άρα θα πρέπει να ξανατρέχουμε την παλινδρό μηση χωρίς τη μεταβλητή Ετή σιο Οικογενειακό Εισό δημα .
Πολλαπλή Παλινδρό μηση

Ξανατρέχουμε τώ ρα την παλινδρό μηση χρησιμοποιώ ντας τη μέθοδο Backward


Πολλαπλή Παλινδρό μηση

O Πίνακας δείχνει τη μέθοδο που χρησιμοποιή θηκε


καθώ ς και το ποιες μεταβλητές περιέχονται ή ό χι στο
μοντέλο

Το τελικό μοντέλο είναι το δεύ τερο για το οποίο το R2 είναι 0,949.


Πολλαπλή Παλινδρό μηση

Το τελικό μοντέλο

Άρα η ευθεία της παλινδρό μησης είναι


y= -213,788 +23,485 xηλικία
Πολλαπλή Παλινδρό μηση

Η μεταβλητή Ετή σιο Οικογενειακό Εισό δημα αποκλείστηκε από την εξίσωση της παλινδρό μησης, με
την μέθοδο Backward.

You might also like