Professional Documents
Culture Documents
Cor
Cor
x y
1 7
2 7
2 8
4 3
5 4
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6
1 ∑
∙ ∑
1
Η συνδιασπορά μπορεί να είναι και αρνητική. Εκφράζει τη διάχυση του νέφους των
σημείων αλλά και την κλίση.
1 ∑
1
1 ∑
1
x y x2 y2 xy
1 7 1 49 7
2 7 4 49 14
2 8 4 64 16
4 3 16 9 12
5 4 25 16 20
Σx=14 Σy=29 Σx2=50 Σy2=187 Σxy =69
1 ∑
∙ ∑
1 14 29
69 3,05
1 51 5
1 ∑
1 14
!50 " 2,7
1 51 5
1 ∑
1 29
!187 " 4,7
1 51 5
Οπότε
3,05
0,86
√2,7√4,7
Ο συντελεστής συσχέτισης εκφράζει μια υψηλή αρνητική συσχέτιση.
Γενικά, ο συντελεστής συσχέτισης παίρνει τιμές από -1 έως και 1 και ανάλογα με το
πρόσημο έχουμε αρνητική ή θετική συσχέτιση, (ή μηδενική συσχέτιση αν ισούται με
μηδέν). Ανάλογα με το μέγεθος και το πρόσημο του συντελεστή μπορούμε να έχουμε μια
εικόνα του διαγράμματος διασποράς. Για παράδειγμα, ο συγκριμένος συντελεστής -0,86
δηλώνει αρνητική κλίση του νέφους και γραμμικό σχήμα. Το πρώτο δηλώνεται από το
πρόσημο και το δεύτερο από τον αριθμό που πλησιάζει τη μονάδα (γραμμικότητα). Αν
όμως ο συντελεστής είναι κοντά στο μηδέν ή ίσος με μηδέν τότε βέβαια δεν έχουμε
γραμμικότητα, αλλά δεν μπορούμε και να ξέρουμε ποιο είναι το σχήμα αν δεν
σχηματίσουμε το διάγραμμα διασποράς. Αυτό γίνεται γιατί διάφορα διαφορετικά
διαγράμματα διασποράς παράγουν συντελεστή συσχέτισης ίσο ή κοντά στο μηδέν.
Προσοχή πρέπει να δοθεί στο γεγονός ότι ένας υψηλός συντελεστής συσχέτισης δεν
εκφράζει κατ ανάγκη σχέση μεταξύ δύο μεταβλητών με την έννοια ότι η Χ προκαλεί την Υ.
Μπορεί απλά και οι δύο να προκαλούνται από μια τρίτη μεταβλητή. Αν ωστόσο υπάρχει
σχέση αιτίου αποτελέσματος, που τεκμηριώνεται είτε από τη βιβλιογραφία είτε με βάση τη
λογική σκέψη, τότε μπορούμε να προχωρήσουμε στη δημιουργία μοντέλων
παλινδρόμησης.
Απλή Παλινδρόμηση
Το '( ονομάζεται σταθερός όρος ή σταθερά του μοντέλου και το ' συντελεστής της Χ. Να
θυμάστε ότι ο ' είναι αυτός που ενδιαφέρει ιδιαίτερα γιατί εκφράζει πόσο η Χ επηρεάζει
την Υ.
Οι συντελεστές υπολογίζονται
'+
'+( , '+
̅
Στα παραπάνω, οι δύο συντελεστές έχουν το καπελάκι γιατί έτσι συμβολίζουμε τα
στατιστικά που αποτελούν εκτιμήσεις. Επειδή γραμμές μπορούν να υπάρχουν πολλές, αλλά
εμείς έχουμε επιλέξει μια γραμμή, την ευθεία ελαχίστων τετραγώνων, οι δύο συντελεστές
είναι οι εκτιμήσεις με χρήση αυτής της προσέγγισης, της ευθείας ελαχίστων τετραγώνων. Η
ευθεία ελαχίστων τετραγώνων έχει την ιδιότητα ότι ελαχιστοποιεί το άθροισμα των
τετραγώνων των αποστάσεων της ευθείας από τα σημεία y.
Έχοντας το μοντέλο πια υπολογισμένο μπορούμε να βάλουμε διαδοχικά τις 5 τιμές τις Χ στο
. και δεν είναι κατ ανάγκη ίσα με τα πραγματικά y, αλλά όσο πιο κοντά τους είναι τόσο
παράδειγμά μας και να πάρουμε τα εκτιμώμενα y από το μοντέλο. Αυτά συμβολίζονται
. '+( ) '+
. '+( ) '+
./ '+( ) '+
/
.
0 '+( ) '+
0
.
'+( ) '+
Σφάλματα ή υπόλοιπα ή κατάλοιπα
Μετά υπολογίζουμε τα σφάλματα e της παλινδρόμησης που δεν είναι τίποτε άλλο από τις
διαφορές των πραγματικών y μείον τις εκτιμήσεις των y. Τα σφάλματα λέγονται και
υπόλοιπα ή κατάλοιπα.
1 .
1
Αυτό είναι το μικρότερο δυνατόν επειδή επιλέξαμε την ευθεία ελαχίστων τετραγώνων.
Αυτά είναι τα ελάχιστα τετράγωνα.
Συντελεστής προσδιορισμού
ανεξάρτητες (μία στην περίπτωσή μας) ερμηνεύουν την Υ. (Να θυμάστε ότι η Υ είναι πάντα
μία).
∑
. , 334
2
∑ , 335
2
∑
.
6
2
78
19
Στη συνέχεια μπορούμε να εκτελέσουμε t-Test σημαντικότητας για το ' . Αυτό που
ελέγχουμε εδώ είναι κατά πόσο ο συντελεστής της Χ μπορεί να είναι μηδέν ή διάφορος από
το μηδέν στην γενική περίπτωση κι όχι μόνο με τα δεδομένα τους δείγματός μας. Είναι
ιδιαίτερα σημαντικό αυτό γιατί ο μη μηδενικός (στατιστικά σημαντικός) συντελεστής
σημαίνει ότι η Χ πολλαπλασιάζεται με μη μηδενική ποσότητα και πράγματι επηρεάζει την Υ.
Υπολογίζουμε λοιπόν
'+
:78
78
x y x2 xy . e e2
-0,834 0,695556
1 7 1 7 7,834
0,296 0,087616
2 7 4 14 6,704
1,296 1,679616
2 8 4 16 6,704
-1,444 2,085136
4 3 16 12 4,444
0,686 0,470596
5 4 25 20 3,314
5,01852
14 29 50 69
Το παράδειγμά μας ξεκινά με τις δύο πρώτες στήλες. Οι υπόλοιπες προστίθενται από εμάς
για διευκόλυνση στις πράξεις.
1 ∑
∙ ∑
1 14 29
69 3,05
1 51 5
1 ∑
1 14
!50 " 2,7
1 51 5
3,05
'+ 1,13
2,7
29 14
'+( , '+
̅ 1,13 8,964
5 5
Στη συνέχεια υπολογίζουμε την εκτιμώμενες τιμές της Υ ή τις εκτιμήσεις της Υ, δηλαδή τα ..
. '+( ) '+
8,964 1,13 ∙ 1 7,834
. '+( ) '+
8,964 1,13 ∙ 2 6,704
./ '+( ) '+
/ 8,964 1,13 ∙ 2 6,704
.? '+( ) '+
? 8,964 1,13 ∙ 4 4,444
Συμπληρώνουμε την αντίστοιχη στήλη του πίνακα και μετά υπολογίζουμε τα σφάλμα (ή
υπόλοιπα ή κατάλοιπα e)
1 .
1 5,01852
∑
. 5,01852
6 6 1,29
2 52
Στη συνέχεια υπολογίζουμε τη διασπορά του συντελεστή της Χ
1,29
78 0,12
19 5 12,7
'+ 1,13
:78 3,26
78 √0,12
Θα επιχειρήσουμε ένα μεταβατικό στάδιο στο οποίο με τα ίδια δεδομένα της απλής
παλινδρόμησης θα εφαρμόσουμε μια νέα τεχνική υπολογισμού των συντελεστών του
μοντέλου που κάνει χρήση πινάκων. Σημειώστε ότι η τεχνική αυτή εκτιμά μόνο τους
συντελεστές του μοντέλου. Μόλις υπολογιστεί το μοντέλο, όλα τα υπόλοιπα (συντελεστής
προσδιορισμού, έλεγχος σημαντικότητας των συντελεστών, κλπ, γίνονται κανονικά όπως
και πριν).
x y
1 7
2 7
2 8
4 3
5 4
Σx=14 Σy=29
x y x2 xy
1 7 1 7
2 7 4 14
2 8 4 16
4 3 16 12
5 4 25 20
Σx=14 Σy=29 Σ x2=50 Σxy =69
Για τα δεδομένα του παραδείγματός μας ορίζουμε τους πίνακες Χ, Υ και Β ως εξής:
1 1
E1 2H
D G
= D1 2G
D1 4G
C1 5F
7
E7H
I DD8GG
D3G
C4F
Δηλαδή δημιουργούμε έναν πίνακα Χ με μονάδες στην πρώτη στήλη και τη μεταβλητή Χ
στην άλλη και έναν πίνακα Υ με τις τιμές της μεταβλητής Υ.
1 1 1 1 1
*M N O
1 2 2 4 5
και
1 1
E1 2H
1 1 1 1 1 D G
*M* N O
2 4 5 D1
2G
1 2
D1 4G
C1 5F
11)11)11)11)11 11)12)12)14)15
N O
11)12)12)14)15 11)22)22)44)55
5 14
P QN O
14 50
|* M *| S 5 14S 5 50 14 14 54 T 0
14 50
Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.
U 1X 50 50
U 1X 5 5
ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε
1 U U 1 50 14
* M *0 K L N O
|* *| U
M U 54 14 5
7
E7H
1 1 1 1 1 D G 17)17)18)13)14 29
*M& N O D8G N OP QN O
1 2 2 4 5 D3G 17)27)28)43)54
69
C4F
Οπότε
' 1 50 14 29 1 50 29 14 69
J K ( L * M *0 * M & N ON O N O
' 54 14 5 69 54 14 29 ) 5 69
50 29 14 69
54 8,96
P QN O
14 29 ) 5 69 1,13
54
I 8,96 1,13=
Θυμίζουμε ότι ο συντελεστής της Χ (που είναι και αυτός που χρήζει ανάλυσης) εκφράζει
πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα (στην περίπτωση μειώνεται κατά
1,13).
Όταν έχουμε μια απλή παλινδρόμηση μπορούμε αλλά συνήθως δεν κάνουμε χρήση της
μεθόδου των πινάκων. Αντίθετα όπως είπαμε υπολογίζουμε απλά τα
'+
'+( , '+
̅
Στη περίπτωσή μας εφαρμόσαμε τη μέθοδο των πινάκων για να μάθουμε τη λειτουργία της
ώστε να μπορούμε αργότερα να τη χρησιμοποιούμε σε πολλαπλές παλινδρομήσεις. Στις
πολλαπλές παλινδρομήσεις η μέθοδος των πινάκων είναι η μόνο λύση.
x1 x2 y
3 3 7
6 7 8
4 5 3
6 5 8
2 2 3
2 2
x1 x2 y (x1) (x2) x1x2 x1y x2y
3 3 7 9 9 9 21 21
6 7 8 36 49 42 48 56
4 5 3 16 25 20 12 15
6 5 8 36 25 30 48 40
2 2 3 4 4 4 6 6
2 2
Σ x1=21 Σ x2=22 Σ y =29 Σ(x1) =101 Σ(x2) =112 Σ x1x2=105 Σ x1y =135 Σ x2y =138
Ο Χ τώρα έχει τρεις στήλες, δύο για τις ανεξάρτητες μεταβλητές και μία με μονάδες (αυτή
αντιστοιχεί στον σταθερό όρο του μοντέλου).
1 3 3
E1 6 7H
D G
= D1 4 5G
D1 6 5G
C1 2 2F
7
E8H
I DD3GG
D8G
C3F
'(
J Z' [ * M *0 * M &
'
1 1 1 1 1
* M \3 6 4 6 5]
3 7 5 5 2
1 3 3 E
1
2 H
1 1 1 1 1 D1 E 6 H
7G D G
* M * \3 6 4 6 5] D1 4 5G D
1
1
1
2G
3 7 5 5 2 D1 6 5G DD G
G
C1 2 2F C
2
1
2
2 F
5 21 22
Z21 101 105[
22 105 112
5 21 22
|* M *| ^21 101 105^ 5 S101 105S 21 S21 105S ) 22 S21 101S
105 112 22 112 22 105
22 105 112
5 101 112 105 105 21 21 112 22 105 ) 22 21
105 22 101 179 T 0
Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.
101 105
U 1X S S 101 112 105 105 287
105 112
21 105
U 1X S S 21 112 22 105 42
22 112
21 101
U/ 1X/ S S 21 105 22 101 17
22 105
21 22
U 1X S S 21 112 22 105 42
105 112
5 22
U 1X S S 5 112 22 22 76
22 112
5 21
U/ 1X/ S S 5 ∗ 105 22 21 63
22 105
21 22
U/ 1/X S S 21 105 22 101 17
101 105
5 22
U/ 1/X S S 5 105 22 21 63
21 105
5 21
U// 1/X/ S S 5 101 21 21 64
21 101
ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε, τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε
7 E H
1 1 1 1 1 E8H 17)18)13)18)13 D G
* M & \3 6 4 6 5] DD3GG \3 7 ) 6 8 ) 4 3 ) 6 8 ) 5 3] D
1 G
3 7 5 5 2 D8G 37)78)53)58)23 D G
C3F D G
C
2 F
29
\135]
138
Τέλος, υπολογίζουμε
Θυμίζουμε ότι ο συντελεστής της κάθε ανεξάρτητης μεταβλητής Χ (που είναι και αυτός που
χρήζει ανάλυσης) εκφράζει πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα. Στην
περίπτωση μας αυξάνεται κατά 1,944 με κάθε αύξηση μιας μονάδας της Χ1 και μειώνεται
κατά 0,927 με αύξηση μιας μονάδας της Χ2.
Υπολογίζουμε τώρα τις εκτιμήσεις των Υ, μετά τα κατάλοιπα και όλα τα στατιστικά που
αφορούν τη στατιστική σημαντικότητα των συντελεστών. Να θυμάστε ότι οι εκτιμήσεις
έχουν τον ίδιο μέσο όρο με τα πραγματικά y και η παλινδρόμηση επειδή εκτιμήθηκε με την
μέθοδο ελαχίστων τετραγώνων, περνάει από το σημείων με συντεταγμένες τους μέσους
όρους των ανεξάρτητων μεταβλητών και της εξαρτημένης μεταβλητής (κέντρο βάρους του
νέφους).
Υπολογίζουμε επίσης τον συντελεστή προσδιορισμού του μοντέλου (όχι ως τετράγωνο
κάποιου συντελεστή συσχέτισης αυτή τη φορά).
. 1,715 ) 1,944
1 0,927
2
. 1,715 ) 1,944
1 0,927
2
./ 1,715 ) 1,944
1/ 0,927
2/
.? 1,715 ) 1,944
1? 0,927
2?
Δηλαδή
x1 x2 y . 1 . 1 y
2
.
3 3 7 4,766 2,234 4,990756 49 22,71476
Σ1 =10,78213 Σ. =184,28
2
Σ x1=21 Σ x2=22 Σ y =29 Σ y =195
Οπότε
1 10,78213
∑ . 292
∑
. , ∑
.
184,28
2
5
0,6 60%
∑ , ∑ 29
∑
2
195
5
Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης (προσέξτε ότι διαιρούμε με n-3
δηλαδή n-κ-1 όπου κ=2 ο αριθμός των ανεξάρτητων μεταβλητών)
∑
. 10,78213
6 6 2,32
3 53
78 a
7` a
Άρα
'+ 1,944
:78 1,29
78 √2,26
Η απόλυτη τιμή της συγκρίνεται με την τιμή
Επειδή A:78 A 1,29 d 4,303 : 0/;(,(< ο συντελεστής ΔΕΝ είναι στατιστικά σημαντικός.
'+ 0,927
:7` 0,67
7` √1,94
Επειδή A:7` A 0,67 d 4,303 :
0/;(,(< ο συντελεστής είναι ΔΕΝ είναι στατιστικά
σημαντικός.