Professional Documents
Culture Documents
Διάλεξη10 ενότητα7
Διάλεξη10 ενότητα7
Ενότητα 7: Regression
Ελένη Γάκη
Τμήμα Διοίκησης Επιχειρήσεων
Άδειες Χρήσης
• Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
χρήσης Creative Commons.
• Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται
σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης
αναφέρεται ρητώς.
2
Χρηματοδότηση
• Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια
του εκπαιδευτικού έργου του διδάσκοντα.
• Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο
Πανεπιστήμιο Αιγαίου» έχει χρηματοδοτήσει μόνο τη
αναδιαμόρφωση του εκπαιδευτικού υλικού.
• Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού
Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και
συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό
Κοινωνικό Ταμείο) και από εθνικούς πόρους.
3
Περιεχό μενα Διά λεξης
Η ανά λυση παλινδρό μησης ( regression analysis) έχει ως αντικειμενικό σκοπό την
πρό βλεψη. Επιδίωξη μας δηλαδή είναι η επιλογή κατά λληλου στοχαστικού μοντέλου
το οποίο θα χρησιμοποιηθεί για την πρό βλεψη των τιμώ ν μιας εξαρτημένης
μεταβλητής (dependent random variable) Υ από τις τιμές μιας τουλά χιστον
ανεξάρτητης τυχαίας μεταβλητής (Independent random variable) Χ.
Είναι δυνατό ν να μελετή σουμε μία παρά μετρο της κατανομή ς που μπορεί να
χρησιμοποιηθεί ως μέτρο της ισχυρό τητας της γραμμική ς εξά ρτησης των Χ και Υ. Η
παρά μετρος αυτή είναι ο γνωστό ς συντελεστής συσχέτισης (correlation coefficient)
ο οποίος ορίζεται ως εξή ς:
Coν(X, Y) Δείκτης Γραμμικής Συσχέτισης του Pearson
ρ
σXσY
ρ= 0 : ασυσχέτιστα
Απλή Γραμμική Παλινδρό μηση
Η απλή ανά λυση παλινδρό μησης μας δίνει πληροφορίες για το πως μια μεταβλητή
σχετίζεται με μια ά λλη και μας δίνει την εξίσωση γραμμική ς παλινδρό μησης που επιτρέπει
τον υπολογισμό της ά γνωστης μεταβλητή ς αν οι τιμές των υπολοίπων είναι γνωστές.
Υ=α+βX +ε
Το α είναι το σημείο στο οποίο η ευθεία παλινδρό μησης τέμνει τον ά ξονα των y, είναι
δηλαδή η τιμή της Υ που αντιστοιχεί στο x=0 , το δε β είναι η κλίση της ευθείας
παλινδρό μησης και εκφρά ζει την αύ ξηση (μείωση) της y που αντιστοιχεί σε αύ ξηση της x
κατά μία μονά δα.
Ο Συντελεστή ς Συσχέτισης του Pearson έχει την τιμή 0,974, αυτό σημαίνει ό τι υπά ρχει έντονα θετική
συσχέτιση (πολύ κοντά στο +1) μεταξύ των δύ ο μεταβλητώ ν
Το R είναι ο συντελεστή ς συσχέτισης. Άρα εδώ φαίνεται ό τι υπά ρχει μεγά λη θετική συσχέτιση μεταξύ
των δύ ο μεταβλητώ ν.
Το R2 Adjusted λαμβά νει υπό ψη του τον αριθμό των μεταβλητώ ν που έχουμε στο μοντέλο. Είναι
καλύ τερο από το απλό R2.
Το Standard Error of the Estimate είναι το τυπικό σφά λμα εκτίμησης και είναι ένα μέτρο του πό σο η
τιμή διαφέρει από δείγμα σε δείγμα.
Απλή Γραμμική Παλινδρό μηση
Η0 : β1 = 0 (εά ν είχαμε πολλές ανεξά ρτητες μεταβλητές ο έλεγχος θα αφορού σε ό λους τους
συντελεστές των ανεξά ρτητων μεταβλητώ ν ό τι ή ταν 0)
Η0 : β1 ≠ 0
Δηλαδή ο έλεγχος εξετά ζει αν η μεταβλητή Χ είναι στατιστικά σημαντική , δηλαδή εά ν το μοντέλο
μας είναι το σταθερό μοντέλο Y=α.
Εδώ sig = 0,000 ά ρα απορρίπτουμε την Η0 δηλαδή υπά ρχει σχέση μεταξύ Χ και Υ.
Απλή Γραμμική Παλινδρό μηση
Υ = -231,788 + 23,485Χ
Επομένως εά ν η ηλικία (Χ) είναι 0 τό τε το χαρτζιλίκι (Υ) είναι -231,788. Προφανώ ς στο συγκεκριμένο παρά δειγμα δεν
έχει νό ημα αυτό . Εννοείται ό τι σε μηδενική ηλικία το χαρτζιλίκι δεν υπά ρχει.
Για κά θε επιπλέον αύ ξηση της ηλικίας κατά μία μονά δα, το χαρτζιλίκι αυξά νεται κατά 23,485.
Για Constant Η0 : β0 = 0. Εδώ sig =0,000, απορρίπτω τη μηδενική υπό θεση ά ρα η τιμή της σταθερά ς δεν μπορεί να
υποτεθεί 0.
Για την Ηλικία Η0 : β1 = 0. Εδώ sig =0,000, απορρίπτω τη μηδενική υπό θεση ά ρα η τιμή της παραμέτρου για τη Χ δεν
μπορεί να υποτεθεί 0.
Πολλαπλή Παλινδρό μηση
Η πολλαπλή ανά λυση παλινδρό μησης μας δίνει πληροφορίες για το πως μια μεταβλητή σχετίζεται μ’ ά λλες
μεταβλητές και μας δίνει την εξίσωση γραμμική ς παλινδρό μησης που επιτρέπει τον υπολογισμό της
ά γνωστης μεταβλητή ς αν οι τιμές των υπολοίπων είναι γνωστές.
Υ=α+β1Χ1+β2Χ2+…βνΧν+ ε
Ο σταθερό ς αριθμό ς α είναι η τιμή που παίρνει το Υ ό ταν οι μεταβλητές Χ1,…,Χν είναι μηδέν.
Τα β1,β2,…βν παριστά νουν την συνεισφορά κά θε μίας από τις μεταβλητές Χ1,…,Χν στο Υ
Επανερχό μαστε στο προηγού μενο παρά δειγμα και θέλουμε να κατασκευά σουμε
ένα γραμμικό μοντέλο με εξαρτημένη μεταβλητή το χαρτζιλίκι και
ανεξάρτητες μεταβλητές την ηλικία και το οικογενειακό εισό δημα.
Πολλαπλή Παλινδρό μηση
Ο Συντελεστή ς Συσχέτισης του Pearson για τις ανά δύ ο συγκρίσεις των μεταβλητώ ν.
Αντίστοιχα για τους ελέγχους και για τις τρεις περιπτώ σεις έχουμε:
Η0 : ρ = 0 (δηλαδή οι δύ ο μεταβλητές είναι ασυσχέτιστες)
Η1 : ρ ≠ 0 (δηλαδή οι δύ ο μεταβλητές συσχετίζονται)
sig = 0,000 <0,05 ά ρα απορρίπτουμε τη μηδενική υπό θεση, δηλαδή οι δύ ο μεταβλητές συσχετίζονται
Πολλαπλή Παλινδρό μηση
Η 0 : βi = 0
Η 0 : βi ≠ 0
H σταθερά είναι στατιστικά σημαντική (0.000<0.05), γι αυτό θα περιέχεται στην εξίσωση της
Παλινδρό μησης με συντελεστή -171,866
H μεταβλητή Ηλικία είναι στατιστικά σημαντική (0.000<0.05), γι αυτό θα περιέχεται στην εξίσωση της
Παλινδρό μησης 18,935
H μεταβλητή Ετή σιο Οικογενειακό Εισό δημα δεν είναι στατιστικά σημαντική (0,159>0,05 και δεν θα
εμφανίζεται στην εξίσωση της Παλινδρό μησης.
Άρα θα πρέπει να ξανατρέχουμε την παλινδρό μηση χωρίς τη μεταβλητή Ετή σιο Οικογενειακό Εισό δημα .
Πολλαπλή Παλινδρό μηση
Το τελικό μοντέλο
Η μεταβλητή Ετή σιο Οικογενειακό Εισό δημα αποκλείστηκε από την εξίσωση της παλινδρό μησης, με
την μέθοδο Backward.