Cor

Συνδιασπορά-συντελεστής συσχέτισης
Ας ξεκινήσουμε με ένα παράδειγμα.
Δίνονται δύο ποσοτικές μεταβλητές Χ και Υ με 5 παρατηρήσεις η κάθε μία. Οι παρατηρήσεις

συνήθως είναι (και πρέπει να είναι) πολύ περισσότερες, αλλά επιλέγουμε αυτό το
παράδειγμα για ευκολία. Στον πίνακα που ακολουθεί περιγράφουμε τις παρατηρήσεις.
x y
1 7
2 7
2 8
4 3
5 4
Κατασκευάζουμε το «διάγραμμα διασποράς» των δύο μεταβλητών σε ένα σύστημα αξόνων

βάζοντας τη Χ στον οριζόντιο άξονα και την Υ στον κατακόρυφο (θα μπορούσε και
αντίστροφα αφού προς το παρόν η σχέση των δύο μεταβλητών είναι συμμετρική).
Παρατηρήστε ότι τα 5 σημεία (με συντεταγμένες τις παρατηρήσεις στις δύο μεταβλητές),
σχηματίζουν ένα γραμμικό σχήμα (για έμφαση έχει τοποθετηθεί και μια ευθεία γραμμή
ώστε να αναγνωρίσετε τη γραμμικότητα), με αρνητική κλίση. Παρατηρώντας και τον
παραπάνω πίνακα, μπορούμε να δούμε ότι όσο αυξάνεται η Χ, η Υ μειώνεται. Αυτό
εκφράζει μια αρνητική γραμμική συσχέτιση ανάμεσα στις δύο μεταβλητές (γι αυτό και η
αρνητική κλίση στο γράφημα).
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6
Ορίζουμε ως Συνδιασπορά των Χ και Υ το

1 ∑
∙ ∑

1

Η συνδιασπορά μπορεί να είναι και αρνητική. Εκφράζει τη διάχυση του νέφους των
σημείων αλλά και την κλίση.
Υπολογίζουμε και τις διασπορές των Χ και Υ

1 ∑

1

1 ∑

1

Οπότε συνδυάζοντας τα τρία παραπάνω υπολογίζουμε τον συντελεστή συσχέτισης του

Pearson r

Ας κάνουμε τους υπολογισμούς για το παράδειγμά μας. Για ευκολία επεκτείνουμε τον
πίνακα των δεδομένων με μερικές βοηθητικές στήλες ώστε να μπορούμε εύκολα να
κάνουμε αντικαταστάσεις στους τύπους. Υπολογίζουμε τα τετράγωνα της Χ και της Υ και τα
γινόμενα Χ επί Υ. Στην τελευταία γραμμή υπολογίζουμε τα αθροίσματα.
x y x2 y2 xy
1 7 1 49 7
2 7 4 49 14
2 8 4 64 16
4 3 16 9 12
5 4 25 16 20
Σx=14 Σy=29 Σx2=50 Σy2=187 Σxy =69

1 ∑
∙ ∑ 1 14 29

69 3,05
1 51 5

Η συνδιασπορά είναι αρνητική και δεν μπορούμε να την αξιολογήσουμε ως προς το

μέγεθός της, αν είναι μεγάλη ή μικρή.
Υπολογίζουμε και τις διασπορές των Χ και Υ

1 ∑
1 14

!50 " 2,7
1 51 5

1 ∑ 1 29

!187 " 4,7
1 51 5

Οπότε
3,05
0,86
√2,7√4,7
Ο συντελεστής συσχέτισης εκφράζει μια υψηλή αρνητική συσχέτιση.
Γενικά, ο συντελεστής συσχέτισης παίρνει τιμές από -1 έως και 1 και ανάλογα με το
πρόσημο έχουμε αρνητική ή θετική συσχέτιση, (ή μηδενική συσχέτιση αν ισούται με
μηδέν). Ανάλογα με το μέγεθος και το πρόσημο του συντελεστή μπορούμε να έχουμε μια
εικόνα του διαγράμματος διασποράς. Για παράδειγμα, ο συγκριμένος συντελεστής -0,86
δηλώνει αρνητική κλίση του νέφους και γραμμικό σχήμα. Το πρώτο δηλώνεται από το
πρόσημο και το δεύτερο από τον αριθμό που πλησιάζει τη μονάδα (γραμμικότητα). Αν
όμως ο συντελεστής είναι κοντά στο μηδέν ή ίσος με μηδέν τότε βέβαια δεν έχουμε
γραμμικότητα, αλλά δεν μπορούμε και να ξέρουμε ποιο είναι το σχήμα αν δεν
σχηματίσουμε το διάγραμμα διασποράς. Αυτό γίνεται γιατί διάφορα διαφορετικά
διαγράμματα διασποράς παράγουν συντελεστή συσχέτισης ίσο ή κοντά στο μηδέν.
Προσοχή πρέπει να δοθεί στο γεγονός ότι ένας υψηλός συντελεστής συσχέτισης δεν
εκφράζει κατ ανάγκη σχέση μεταξύ δύο μεταβλητών με την έννοια ότι η Χ προκαλεί την Υ.
Μπορεί απλά και οι δύο να προκαλούνται από μια τρίτη μεταβλητή. Αν ωστόσο υπάρχει
σχέση αιτίου αποτελέσματος, που τεκμηριώνεται είτε από τη βιβλιογραφία είτε με βάση τη
λογική σκέψη, τότε μπορούμε να προχωρήσουμε στη δημιουργία μοντέλων
παλινδρόμησης.
Απλή Παλινδρόμηση
Ένα μοντέλο απλής παλινδρόμησης, επιδιώκει να εκφράσει μια εξαρτημένη μεταβλητή Υ ως

γραμμική συνάρτηση μιας ανεξάρτητες μεταβλητής Χ. Αν είχαμε περισσότερες ανεξάρτητες
μεταβλητές δεν θα μιλούσαμε πια για απλή αλλά για πολλαπλή παλινδρόμηση.
& '( ) ' *
Το '( ονομάζεται σταθερός όρος ή σταθερά του μοντέλου και το ' συντελεστής της Χ. Να
θυμάστε ότι ο ' είναι αυτός που ενδιαφέρει ιδιαίτερα γιατί εκφράζει πόσο η Χ επηρεάζει
την Υ.
Οι συντελεστές υπολογίζονται

'+

'+( , '+
̅
Στα παραπάνω, οι δύο συντελεστές έχουν το καπελάκι γιατί έτσι συμβολίζουμε τα
στατιστικά που αποτελούν εκτιμήσεις. Επειδή γραμμές μπορούν να υπάρχουν πολλές, αλλά
εμείς έχουμε επιλέξει μια γραμμή, την ευθεία ελαχίστων τετραγώνων, οι δύο συντελεστές
είναι οι εκτιμήσεις με χρήση αυτής της προσέγγισης, της ευθείας ελαχίστων τετραγώνων. Η
ευθεία ελαχίστων τετραγώνων έχει την ιδιότητα ότι ελαχιστοποιεί το άθροισμα των
τετραγώνων των αποστάσεων της ευθείας από τα σημεία y.
Υπολογισμός των εκτιμώμενων τιμών της Υ
Έχοντας το μοντέλο πια υπολογισμένο μπορούμε να βάλουμε διαδοχικά τις 5 τιμές τις Χ στο
. και δεν είναι κατ ανάγκη ίσα με τα πραγματικά y, αλλά όσο πιο κοντά τους είναι τόσο
παράδειγμά μας και να πάρουμε τα εκτιμώμενα y από το μοντέλο. Αυτά συμβολίζονται
καλύτερη είναι η γραμμική παλινδρόμηση.
. '+( ) '+

. '+( ) '+

./ '+( ) '+
/
. 0 '+( ) '+
0
. '+( ) '+

Σφάλματα ή υπόλοιπα ή κατάλοιπα
Μετά υπολογίζουμε τα σφάλματα e της παλινδρόμησης που δεν είναι τίποτε άλλο από τις
διαφορές των πραγματικών y μείον τις εκτιμήσεις των y. Τα σφάλματα λέγονται και
υπόλοιπα ή κατάλοιπα.
1 .
Το άθροισμά τους ισούται με μηδέν. Υπολογίζουμε το

1

Αυτό είναι το μικρότερο δυνατόν επειδή επιλέξαμε την ευθεία ελαχίστων τετραγώνων.
Αυτά είναι τα ελάχιστα τετράγωνα.
Συντελεστής προσδιορισμού
των y, υπολογίζουμε τον συντελεστή προσδιορισμού 2 ο οποίος εκφράζει κατά πόσο οι

Αν διαιρέσουμε το άθροισμα τετραγώνων των εκτιμήσεων δια το άθροισμα τετραγώνων
ανεξάρτητες (μία στην περίπτωσή μας) ερμηνεύουν την Υ. (Να θυμάστε ότι η Υ είναι πάντα
μία).
∑ . , 334
2

∑ , 335
Ειδικά για απλά μοντέλα παλινδρόμησης (μία ανεξάρτητη μεταβλητή) ο συντελεστής

προσδιορισμού ισούται με τον συντελεστή συσχέτισης των Χ, Υ στο τετράφωνο
2
Τυπικό σφάλμα εκτίμησης

Υπολογίζουμε το τυπικό σφάλμα εκτίμησης
∑ .
6
2
Έλεγχος σημαντικότητας των συντελεστών των ανεξάρτητων μεταβλητών
Η διασπορά του συντελεστή της Χ είναι

78
19
Στη συνέχεια μπορούμε να εκτελέσουμε t-Test σημαντικότητας για το ' . Αυτό που
ελέγχουμε εδώ είναι κατά πόσο ο συντελεστής της Χ μπορεί να είναι μηδέν ή διάφορος από
το μηδέν στην γενική περίπτωση κι όχι μόνο με τα δεδομένα τους δείγματός μας. Είναι
ιδιαίτερα σημαντικό αυτό γιατί ο μη μηδενικός (στατιστικά σημαντικός) συντελεστής
σημαίνει ότι η Χ πολλαπλασιάζεται με μη μηδενική ποσότητα και πράγματι επηρεάζει την Υ.
Υπολογίζουμε λοιπόν
'+
:78
78
κατανομής Student : 0;(,(< συμπεραίνουμε ότι ο συντελεστής της Χ είναι στατιστικά

Και αν η απόλυτη τιμή αυτής της ποσότητας είναι μεγαλύτερη από την κρίσιμη τιμή της
σημαντικός σε επίπεδο σημαντικότητας α=0,05=5%.

Παράδειγμα
x y x2 xy . e e2
-0,834 0,695556
1 7 1 7 7,834
0,296 0,087616
2 7 4 14 6,704
1,296 1,679616
2 8 4 16 6,704
-1,444 2,085136
4 3 16 12 4,444
0,686 0,470596
5 4 25 20 3,314
5,01852
14 29 50 69
Το παράδειγμά μας ξεκινά με τις δύο πρώτες στήλες. Οι υπόλοιπες προστίθενται από εμάς
για διευκόλυνση στις πράξεις.

1 ∑
∙ ∑ 1 14 29

69 3,05
1 51 5

1 ∑
1 14

!50 " 2,7
1 51 5

3,05
'+ 1,13
2,7
29 14
'+( , '+
̅ 1,13 8,964
5 5
Άρα το μοντέλο είναι
& '+( ) '+ * 8,964 1,13=
Στη συνέχεια υπολογίζουμε την εκτιμώμενες τιμές της Υ ή τις εκτιμήσεις της Υ, δηλαδή τα ..
. '+( ) '+
8,964 1,13 ∙ 1 7,834
. '+( ) '+
8,964 1,13 ∙ 2 6,704
./ '+( ) '+
/ 8,964 1,13 ∙ 2 6,704
.? '+( ) '+
? 8,964 1,13 ∙ 4 4,444
.< '+( ) '+

< 8,964 1,13 ∙ 5 3,314
Συμπληρώνουμε την αντίστοιχη στήλη του πίνακα και μετά υπολογίζουμε τα σφάλμα (ή
υπόλοιπα ή κατάλοιπα e)
1 .
1 5,01852

2 0,86 0,74 74%
Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως

το 1 και εκφράζει (όταν αναφέρεται ως ποσοστό) το ποσοστό της ερμηνείας της
εξαρτημένης μεταβλητής από το σύνολο των εξαρτημένων μεταβλητών (της μίας
εξαρτημένης μεταβλητής στην περίπτωσή μας). Μόνο όταν έχουμε μία ανεξάρτητη
μεταβλητή ο συντελεστής προσδιορισμού ισούται με το τετράγωνο του συντελεστή
συσχέτισης της Χ με την Υ.
Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης
∑ . 5,01852
6 6 1,29
2 52
Στη συνέχεια υπολογίζουμε τη διασπορά του συντελεστή της Χ
1,29
78 0,12
19 5 12,7

Για το t-Test για το ' υπολογίζουμε
'+ 1,13
:78 3,26
78 √0,12
Η απόλυτη τιμή αυτού συγκρίνεται με την τιμή
: 0;(,(< :<0;(,(< :/;(,(< 3,18
Επειδή A:78 A 3,26 B 3,18 : 0;(,(<
ο συντελεστής είναι στατιστικά σημαντικός.

Πολλαπλή παλινδρόμηση
Θα επιχειρήσουμε ένα μεταβατικό στάδιο στο οποίο με τα ίδια δεδομένα της απλής
παλινδρόμησης θα εφαρμόσουμε μια νέα τεχνική υπολογισμού των συντελεστών του
μοντέλου που κάνει χρήση πινάκων. Σημειώστε ότι η τεχνική αυτή εκτιμά μόνο τους
συντελεστές του μοντέλου. Μόλις υπολογιστεί το μοντέλο, όλα τα υπόλοιπα (συντελεστής
προσδιορισμού, έλεγχος σημαντικότητας των συντελεστών, κλπ, γίνονται κανονικά όπως
και πριν).
x y
1 7
2 7
2 8
4 3
5 4
Σx=14 Σy=29
x y x2 xy
1 7 1 7
2 7 4 14
2 8 4 16
4 3 16 12
5 4 25 20
Σx=14 Σy=29 Σ x2=50 Σxy =69
Για τα δεδομένα του παραδείγματός μας ορίζουμε τους πίνακες Χ, Υ και Β ως εξής:
1 1
E1 2H
D G
= D1 2G
D1 4G
C1 5F
7
E7H
I DD8GG
D3G
C4F
Δηλαδή δημιουργούμε έναν πίνακα Χ με μονάδες στην πρώτη στήλη και τη μεταβλητή Χ
στην άλλη και έναν πίνακα Υ με τις τιμές της μεταβλητής Υ.
Τότε οι εκτιμήσεις των συντελεστών του μοντέλου είναι

'
J K ( L * M *0 * M &
'
Υπολογίζουμε τον ανάστροφο του Χ
1 1 1 1 1
*M N O
1 2 2 4 5
και
1 1
E1 2H
1 1 1 1 1 D G
*M* N O
2 4 5 D1
2G
1 2
D1 4G
C1 5F
11)11)11)11)11 11)12)12)14)15
N O
11)12)12)14)15 11)22)22)44)55

5 14
P QN O

14 50
Υπολογίζουμε την ορίζουσα του * M *
|* M *| S 5 14S 5 50 14 14 54 T 0
14 50
Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U * M *
Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.
U 1X 50 50
U 1X 14 14
U 1X 14 14
U 1X 5 5
ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε
αντίστροφός τους είναι συμμετρικοί.
1 U U 1 50 14
* M *0 K L N O
|* *| U
M U 54 14 5
Υπολογίζουμε τώρα τον * M &
7
E7H
1 1 1 1 1 D G 17)17)18)13)14 29
*M& N O D8G N OP QN O
1 2 2 4 5 D3G 17)27)28)43)54
69
C4F
Οπότε
' 1 50 14 29 1 50 29 14 69
J K ( L * M *0 * M & N ON O N O
' 54 14 5 69 54 14 29 ) 5 69
50 29 14 69
54 8,96
P QN O
14 29 ) 5 69 1,13
54
Δηλαδή το μοντέλο παλινδρόμησης είναι
I 8,96 1,13=
Θυμίζουμε ότι ο συντελεστής της Χ (που είναι και αυτός που χρήζει ανάλυσης) εκφράζει
πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα (στην περίπτωση μειώνεται κατά
1,13).
Όταν έχουμε μια απλή παλινδρόμηση μπορούμε αλλά συνήθως δεν κάνουμε χρήση της
μεθόδου των πινάκων. Αντίθετα όπως είπαμε υπολογίζουμε απλά τα

'+

'+( , '+
̅
Στη περίπτωσή μας εφαρμόσαμε τη μέθοδο των πινάκων για να μάθουμε τη λειτουργία της
ώστε να μπορούμε αργότερα να τη χρησιμοποιούμε σε πολλαπλές παλινδρομήσεις. Στις
πολλαπλές παλινδρομήσεις η μέθοδος των πινάκων είναι η μόνο λύση.
Ας υπολογίσουμε τώρα ένα μοντέλο πολλαπλής παλινδρόμησης κάνοντας χρήση της

μεθόδου των πινάκων. Έστω το παρακάτω παράδειγμα με δύο ανεξάρτητες μεταβλητές Χ1
και Χ2 και μία (πάντα μία) εξαρτημένη μεταβλητή Υ.
x1 x2 y
3 3 7
6 7 8
4 5 3
6 5 8
2 2 3
Επεκτείνουμε τον παραπάνω πίνακα
2 2
x1 x2 y (x1) (x2) x1x2 x1y x2y
3 3 7 9 9 9 21 21
6 7 8 36 49 42 48 56
4 5 3 16 25 20 12 15
6 5 8 36 25 30 48 40
2 2 3 4 4 4 6 6
2 2
Σ x1=21 Σ x2=22 Σ y =29 Σ(x1) =101 Σ(x2) =112 Σ x1x2=105 Σ x1y =135 Σ x2y =138
Ο Χ τώρα έχει τρεις στήλες, δύο για τις ανεξάρτητες μεταβλητές και μία με μονάδες (αυτή
αντιστοιχεί στον σταθερό όρο του μοντέλου).
1 3 3
E1 6 7H
D G
= D1 4 5G
D1 6 5G
C1 2 2F
7
E8H
I DD3GG
D8G
C3F
'(
J Z' [ * M *0 * M &
'
1 1 1 1 1
* M \3 6 4 6 5]
3 7 5 5 2
1 3 3 E
1
2 H
1 1 1 1 1 D1 E 6 H
7G D G
* M * \3 6 4 6 5] D1 4 5G D
1
1
1
2G
3 7 5 5 2 D1 6 5G DD G
G
C1 2 2F C
2
1
2
2 F

5 21 22
Z21 101 105[
22 105 112
Υπολογίζουμε την ορίζουσα του * M *
5 21 22
|* M *| ^21 101 105^ 5 S101 105S 21 S21 105S ) 22 S21 101S
105 112 22 112 22 105
22 105 112
5 101 112 105 105 21 21 112 22 105 ) 22 21
105 22 101 179 T 0
Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U * M *
Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.
101 105
U 1X S S 101 112 105 105 287
105 112
21 105
U 1X S S 21 112 22 105 42
22 112
21 101
U/ 1X/ S S 21 105 22 101 17
22 105
21 22
U 1X S S 21 112 22 105 42
105 112
5 22
U 1X S S 5 112 22 22 76
22 112
5 21
U/ 1X/ S S 5 ∗ 105 22 21 63
22 105
21 22
U/ 1/X S S 21 105 22 101 17
101 105
5 22
U/ 1/X S S 5 105 22 21 63
21 105
5 21
U// 1/X/ S S 5 101 21 21 64
21 101
ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε, τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε
αντίστροφός τους είναι συμμετρικοί.
1 U U U/ 1 287 42 17

* M *0 U
M Z U U/ [ Z42 76 63[
|* *| U U/ U// 179
/ 17 63 64
Υπολογίζουμε τον πίνακα
7 E H
1 1 1 1 1 E8H 17)18)13)18)13 D G
* M & \3 6 4 6 5] DD3GG \3 7 ) 6 8 ) 4 3 ) 6 8 ) 5 3] D
1 G
3 7 5 5 2 D8G 37)78)53)58)23 D G
C3F D G
C
2 F
29
\135]
138
Τέλος, υπολογίζουμε
'( 287 42 17 29

1
J Z' [ * M *0 * M & Z42 76 63[ \135]
179 138
' 17 63 64
287 29 42 135 17 138
E H
D 179 G 1,715
D42 29 ) 76 135 63 138G
Z 1,944 [
D 179 G 0,927
D17 29 63 135 ) 64 138G
C 179 F
Δηλαδή το μοντέλο παλινδρόμησης είναι
I 1,715 ) 1,944 =1 0,927 *2
Θυμίζουμε ότι ο συντελεστής της κάθε ανεξάρτητης μεταβλητής Χ (που είναι και αυτός που
χρήζει ανάλυσης) εκφράζει πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα. Στην
περίπτωση μας αυξάνεται κατά 1,944 με κάθε αύξηση μιας μονάδας της Χ1 και μειώνεται
κατά 0,927 με αύξηση μιας μονάδας της Χ2.
Υπολογίζουμε τώρα τις εκτιμήσεις των Υ, μετά τα κατάλοιπα και όλα τα στατιστικά που
αφορούν τη στατιστική σημαντικότητα των συντελεστών. Να θυμάστε ότι οι εκτιμήσεις
έχουν τον ίδιο μέσο όρο με τα πραγματικά y και η παλινδρόμηση επειδή εκτιμήθηκε με την
μέθοδο ελαχίστων τετραγώνων, περνάει από το σημείων με συντεταγμένες τους μέσους
όρους των ανεξάρτητων μεταβλητών και της εξαρτημένης μεταβλητής (κέντρο βάρους του
νέφους).
Υπολογίζουμε επίσης τον συντελεστή προσδιορισμού του μοντέλου (όχι ως τετράγωνο
κάποιου συντελεστή συσχέτισης αυτή τη φορά).
. 1,715 ) 1,944
1 0,927
2
. 1,715 ) 1,944
1 0,927
2
./ 1,715 ) 1,944
1/ 0,927
2/
.? 1,715 ) 1,944
1? 0,927
2?
.< 1,715 ) 1,944

1< 0,927
2<
Δηλαδή
4,766 1,715 ) 1,944 3 0,927 3
6,89 1,715 ) 1,944 6 0,927 7
4,856 1,715 ) 1,944 4 0,927 5
8,744 1,715 ) 1,944 6 0,927 5
3,749 1,715 ) 1,944 2 0,927 2
Υπολογίζουμε λοιπόν 1 . , 1 και y2 και τα αθροίσματα των στηλών επεκτείνοντας τον

πίνακα του παραδείγματος
x1 x2 y . 1 . 1 y
2
.
3 3 7 4,766 2,234 4,990756 49 22,71476
6 7 8 6,89 1,11 1,2321 64 47,4721
4 5 3 4,856 -1,856 3,444736 9 23,58074
6 5 8 8,744 -0,744 0,553536 64 76,45754
2 2 3 3,749 -0,749 0,561001 9 14,055
Σ1 =10,78213 Σ. =184,28
2
Σ x1=21 Σ x2=22 Σ y =29 Σ y =195
Οπότε

1 10,78213

∑ . 292
∑
. , ∑
.
184,28
2
5
0,6 60%

∑ , ∑ 29
∑
2

195
5
Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως

το 1 και εκφράζει (όταν αναφέρεται ως ποσοστό) το ποσοστό της ερμηνείας της
εξαρτημένης μεταβλητής από το σύνολο των εξαρτημένων μεταβλητών (της μίας
εξαρτημένης μεταβλητής στην περίπτωσή μας). Μόνο όταν έχουμε μία ανεξάρτητη
μεταβλητή ο συντελεστής προσδιορισμού ισούται με το τετράγωνο του συντελεστή
συσχέτισης της Χ με την Υ. Στην περίπτωσή μας ισούται με 0,6 ή 60%. Και οι δύο
ανεξάρτητες μεταβλητές ερμηνεύουν το 60% της εξαρτημένης, ή πιο αυστηρά η διασπορά
της Υ ερμηνεύεται κατά 60% από τη διασπορά της παλινδρόμησης (των εκτιμήσεων της Υ).
Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης (προσέξτε ότι διαιρούμε με n-3
δηλαδή n-κ-1 όπου κ=2 ο αριθμός των ανεξάρτητων μεταβλητών)
∑ . 10,78213
6 6 2,32
3 53
Στη συνέχεια υπολογίζουμε τις διασπορές 78 , 7`
78 a
7` a
287 42 17

Όπου a είναι τα διαγώνια στοιχεία του πίνακα * M *0 Z 42 76 63[

bc
17 63 64
Δηλαδή τα 76/179=0,42 και 64/179=0,36 αντίστοιχα. Ως a(( θεωρούμε το 287/179.
Άρα
78 0,42 2,32 2,26
'+ 1,944
:78 1,29
78 √2,26
Η απόλυτη τιμή της συγκρίνεται με την τιμή
: 0/;(,(< :<0/;(,(< :;(,(< 4,303
Επειδή A:78 A 1,29 d 4,303 : 0/;(,(< ο συντελεστής ΔΕΝ είναι στατιστικά σημαντικός.
7` 0,36 2,32 1,94
'+ 0,927
:7` 0,67
7` √1,94
Η απόλυτη τιμή της συγκρίνεται με την τιμή
: 0/;(,(< :<0/;(,(< :;(,(< 4,303
Επειδή A:7` A 0,67 d 4,303 : 0/;(,(< ο συντελεστής είναι ΔΕΝ είναι στατιστικά
σημαντικός.

Cor

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cor

Uploaded by

Copyright:

Available Formats

Συνδιασπορά-συντελεστής συσχέτισης

Ας ξεκινήσουμε με ένα παράδειγμα.

Δίνονται δύο ποσοτικές μεταβλητές Χ και Υ με 5 παρατηρήσεις η κάθε μία. Οι παρατηρήσεις

Κατασκευάζουμε το «διάγραμμα διασποράς» των δύο μεταβλητών σε ένα σύστημα αξόνων

Ορίζουμε ως Συνδιασπορά των Χ και Υ το

Υπολογίζουμε και τις διασπορές των Χ και Υ

Οπότε συνδυάζοντας τα τρία παραπάνω υπολογίζουμε τον συντελεστή συσχέτισης του

Η συνδιασπορά είναι αρνητική και δεν μπορούμε να την αξιολογήσουμε ως προς το

Υπολογίζουμε και τις διασπορές των Χ και Υ

Ένα μοντέλο απλής παλινδρόμησης, επιδιώκει να εκφράσει μια εξαρτημένη μεταβλητή Υ ως

& '( ) ' *

Υπολογισμός των εκτιμώμενων τιμών της Υ

καλύτερη είναι η γραμμική παλινδρόμηση.

Το άθροισμά τους ισούται με μηδέν. Υπολογίζουμε το

των y, υπολογίζουμε τον συντελεστή προσδιορισμού 2  ο οποίος εκφράζει κατά πόσο οι

Ειδικά για απλά μοντέλα παλινδρόμησης (μία ανεξάρτητη μεταβλητή) ο συντελεστής

Τυπικό σφάλμα εκτίμησης

Έλεγχος σημαντικότητας των συντελεστών των ανεξάρτητων μεταβλητών

Η διασπορά του συντελεστή της Χ είναι

κατανομής Student : 0;(,(< συμπεραίνουμε ότι ο συντελεστής της Χ είναι στατιστικά

σημαντικός σε επίπεδο σημαντικότητας α=0,05=5%.

Άρα το μοντέλο είναι

& '+( ) '+ * 8,964  1,13=

.< '+( ) '+

2    0,86 0,74 74%

Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως

Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης

Για το t-Test για το ' υπολογίζουμε

Η απόλυτη τιμή αυτού συγκρίνεται με την τιμή

: 0;(,(< :<0;(,(< :/;(,(< 3,18

Επειδή A:78 A 3,26 B 3,18 : 0;(,(<

ο συντελεστής είναι στατιστικά σημαντικός.

Τότε οι εκτιμήσεις των συντελεστών του μοντέλου είναι

Υπολογίζουμε τον ανάστροφο του Χ

Υπολογίζουμε την ορίζουσα του * M *

Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U * M *

U 1X  14 14

U 1X  14 14

αντίστροφός τους είναι συμμετρικοί.

Υπολογίζουμε τώρα τον * M &

Δηλαδή το μοντέλο παλινδρόμησης είναι

Ας υπολογίσουμε τώρα ένα μοντέλο πολλαπλής παλινδρόμησης κάνοντας χρήση της

Επεκτείνουμε τον παραπάνω πίνακα

Υπολογίζουμε την ορίζουσα του * M *

Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U * M *

αντίστροφός τους είναι συμμετρικοί.

1 U U U/ 1 287 42 17

'( 287 42 17 29

Δηλαδή το μοντέλο παλινδρόμησης είναι

I 1,715 ) 1,944  =1  0,927  *2

.< 1,715 ) 1,944

4,766 1,715 ) 1,944  3  0,927  3

6,89 1,715 ) 1,944  6  0,927  7

4,856 1,715 ) 1,944  4  0,927  5

8,744 1,715 ) 1,944  6  0,927  5

3,749 1,715 ) 1,944  2  0,927  2

Υπολογίζουμε λοιπόν 1  . , 1  και y2 και τα αθροίσματα των στηλών επεκτείνοντας τον

6 7 8 6,89 1,11 1,2321 64 47,4721

4 5 3 4,856 -1,856 3,444736 9 23,58074

6 5 8 8,744 -0,744 0,553536 64 76,45754

2 2 3 3,749 -0,749 0,561001 9 14,055

Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως

Στη συνέχεια υπολογίζουμε τις διασπορές 78 , 7`

287 42 17

& '( ) ' *

των y, υπολογίζουμε τον συντελεστή προσδιορισμού 2 ο οποίος εκφράζει κατά πόσο οι

κατανομής Student : 0;(,(< συμπεραίνουμε ότι ο συντελεστής της Χ είναι στατιστικά

& '+( ) '+ * 8,964 1,13=

.< '+( ) '+

2 0,86 0,74 74%

Για το t-Test για το ' υπολογίζουμε

: 0;(,(< :<0;(,(< :/;(,(< 3,18

Επειδή A:78 A 3,26 B 3,18 : 0;(,(<

U 1X 14 14

U 1X 14 14

1 U U U/ 1 287 42 17

'( 287 42 17 29

I 1,715 ) 1,944 =1 0,927 *2

4,766 1,715 ) 1,944 3 0,927 3

6,89 1,715 ) 1,944 6 0,927 7

4,856 1,715 ) 1,944 4 0,927 5

8,744 1,715 ) 1,944 6 0,927 5

3,749 1,715 ) 1,944 2 0,927 2

Υπολογίζουμε λοιπόν 1 . , 1 και y2 και τα αθροίσματα των στηλών επεκτείνοντας τον

Στη συνέχεια υπολογίζουμε τις διασπορές 78 , 7`

287 42 17

78 0,42 2,32 2,26

Για το t-Test για το ' υπολογίζουμε

: 0/;(,(< :<0/;(,(< :;(,(< 4,303

Για το t-Test για το ' υπολογίζουμε

7` 0,36 2,32 1,94

: 0/;(,(< :<0/;(,(< :;(,(< 4,303