You are on page 1of 20

Συνδιασπορά-συντελεστής συσχέτισης

Ας ξεκινήσουμε με ένα παράδειγμα.

Δίνονται δύο ποσοτικές μεταβλητές Χ και Υ με 5 παρατηρήσεις η κάθε μία. Οι παρατηρήσεις


συνήθως είναι (και πρέπει να είναι) πολύ περισσότερες, αλλά επιλέγουμε αυτό το
παράδειγμα για ευκολία. Στον πίνακα που ακολουθεί περιγράφουμε τις παρατηρήσεις.

x y
1 7
2 7
2 8
4 3
5 4

Κατασκευάζουμε το «διάγραμμα διασποράς» των δύο μεταβλητών σε ένα σύστημα αξόνων


βάζοντας τη Χ στον οριζόντιο άξονα και την Υ στον κατακόρυφο (θα μπορούσε και
αντίστροφα αφού προς το παρόν η σχέση των δύο μεταβλητών είναι συμμετρική).
Παρατηρήστε ότι τα 5 σημεία (με συντεταγμένες τις παρατηρήσεις στις δύο μεταβλητές),
σχηματίζουν ένα γραμμικό σχήμα (για έμφαση έχει τοποθετηθεί και μια ευθεία γραμμή
ώστε να αναγνωρίσετε τη γραμμικότητα), με αρνητική κλίση. Παρατηρώντας και τον
παραπάνω πίνακα, μπορούμε να δούμε ότι όσο αυξάνεται η Χ, η Υ μειώνεται. Αυτό
εκφράζει μια αρνητική γραμμική συσχέτιση ανάμεσα στις δύο μεταβλητές (γι αυτό και η
αρνητική κλίση στο γράφημα).
9

8
7

6
5

4
3

2
1

0
0 1 2 3 4 5 6

Ορίζουμε ως Συνδιασπορά των Χ και Υ το


1 ∑ 
 ∙ ∑  
  
 
1 


Η συνδιασπορά μπορεί να είναι και αρνητική. Εκφράζει τη διάχυση του νέφους των
σημείων αλλά και την κλίση.

Υπολογίζουμε και τις διασπορές των Χ και Υ


1 ∑ 

  
  
1 



1 ∑  
     
1 


Οπότε συνδυάζοντας τα τρία παραπάνω υπολογίζουμε τον συντελεστή συσχέτισης του


Pearson r


 
Ας κάνουμε τους υπολογισμούς για το παράδειγμά μας. Για ευκολία επεκτείνουμε τον
πίνακα των δεδομένων με μερικές βοηθητικές στήλες ώστε να μπορούμε εύκολα να
κάνουμε αντικαταστάσεις στους τύπους. Υπολογίζουμε τα τετράγωνα της Χ και της Υ και τα
γινόμενα Χ επί Υ. Στην τελευταία γραμμή υπολογίζουμε τα αθροίσματα.

x y x2 y2 xy
1 7 1 49 7
2 7 4 49 14
2 8 4 64 16
4 3 16 9 12
5 4 25 16 20
Σx=14 Σy=29 Σx2=50 Σy2=187 Σxy =69


1 ∑ 
 ∙ ∑   1 14  29
  
  69    3,05
1  51 5


Η συνδιασπορά είναι αρνητική και δεν μπορούμε να την αξιολογήσουμε ως προς το


μέγεθός της, αν είναι μεγάλη ή μικρή.

Υπολογίζουμε και τις διασπορές των Χ και Υ


1 ∑ 
 1 14
  
   !50  "  2,7
1  51 5



1 ∑   1 29
 

 

 !187  "  4,7
1  51 5


Οπότε

 3,05
   0,86
  √2,7√4,7
Ο συντελεστής συσχέτισης εκφράζει μια υψηλή αρνητική συσχέτιση.

Γενικά, ο συντελεστής συσχέτισης παίρνει τιμές από -1 έως και 1 και ανάλογα με το
πρόσημο έχουμε αρνητική ή θετική συσχέτιση, (ή μηδενική συσχέτιση αν ισούται με
μηδέν). Ανάλογα με το μέγεθος και το πρόσημο του συντελεστή μπορούμε να έχουμε μια
εικόνα του διαγράμματος διασποράς. Για παράδειγμα, ο συγκριμένος συντελεστής -0,86
δηλώνει αρνητική κλίση του νέφους και γραμμικό σχήμα. Το πρώτο δηλώνεται από το
πρόσημο και το δεύτερο από τον αριθμό που πλησιάζει τη μονάδα (γραμμικότητα). Αν
όμως ο συντελεστής είναι κοντά στο μηδέν ή ίσος με μηδέν τότε βέβαια δεν έχουμε
γραμμικότητα, αλλά δεν μπορούμε και να ξέρουμε ποιο είναι το σχήμα αν δεν
σχηματίσουμε το διάγραμμα διασποράς. Αυτό γίνεται γιατί διάφορα διαφορετικά
διαγράμματα διασποράς παράγουν συντελεστή συσχέτισης ίσο ή κοντά στο μηδέν.

Προσοχή πρέπει να δοθεί στο γεγονός ότι ένας υψηλός συντελεστής συσχέτισης δεν
εκφράζει κατ ανάγκη σχέση μεταξύ δύο μεταβλητών με την έννοια ότι η Χ προκαλεί την Υ.
Μπορεί απλά και οι δύο να προκαλούνται από μια τρίτη μεταβλητή. Αν ωστόσο υπάρχει
σχέση αιτίου αποτελέσματος, που τεκμηριώνεται είτε από τη βιβλιογραφία είτε με βάση τη
λογική σκέψη, τότε μπορούμε να προχωρήσουμε στη δημιουργία μοντέλων
παλινδρόμησης.

Απλή Παλινδρόμηση

Ένα μοντέλο απλής παλινδρόμησης, επιδιώκει να εκφράσει μια εξαρτημένη μεταβλητή Υ ως


γραμμική συνάρτηση μιας ανεξάρτητες μεταβλητής Χ. Αν είχαμε περισσότερες ανεξάρτητες
μεταβλητές δεν θα μιλούσαμε πια για απλή αλλά για πολλαπλή παλινδρόμηση.

&  '( ) ' *

Το '( ονομάζεται σταθερός όρος ή σταθερά του μοντέλου και το ' συντελεστής της Χ. Να
θυμάστε ότι ο ' είναι αυτός που ενδιαφέρει ιδιαίτερα γιατί εκφράζει πόσο η Χ επηρεάζει
την Υ.

Οι συντελεστές υπολογίζονται

'+ 


'+(  ,  '+
̅
Στα παραπάνω, οι δύο συντελεστές έχουν το καπελάκι γιατί έτσι συμβολίζουμε τα
στατιστικά που αποτελούν εκτιμήσεις. Επειδή γραμμές μπορούν να υπάρχουν πολλές, αλλά
εμείς έχουμε επιλέξει μια γραμμή, την ευθεία ελαχίστων τετραγώνων, οι δύο συντελεστές
είναι οι εκτιμήσεις με χρήση αυτής της προσέγγισης, της ευθείας ελαχίστων τετραγώνων. Η
ευθεία ελαχίστων τετραγώνων έχει την ιδιότητα ότι ελαχιστοποιεί το άθροισμα των
τετραγώνων των αποστάσεων της ευθείας από τα σημεία y.

Υπολογισμός των εκτιμώμενων τιμών της Υ

Έχοντας το μοντέλο πια υπολογισμένο μπορούμε να βάλουμε διαδοχικά τις 5 τιμές τις Χ στο

. και δεν είναι κατ ανάγκη ίσα με τα πραγματικά y, αλλά όσο πιο κοντά τους είναι τόσο
παράδειγμά μας και να πάρουμε τα εκτιμώμενα y από το μοντέλο. Αυτά συμβολίζονται

καλύτερη είναι η γραμμική παλινδρόμηση.

.  '+( ) '+


.  '+( ) '+


./  '+( ) '+
/

. 0  '+( ) '+
0

.  '+( ) '+

Σφάλματα ή υπόλοιπα ή κατάλοιπα

Μετά υπολογίζουμε τα σφάλματα e της παλινδρόμησης που δεν είναι τίποτε άλλο από τις
διαφορές των πραγματικών y μείον τις εκτιμήσεις των y. Τα σφάλματα λέγονται και
υπόλοιπα ή κατάλοιπα.

1   .

Το άθροισμά τους ισούται με μηδέν. Υπολογίζουμε το


1 


Αυτό είναι το μικρότερο δυνατόν επειδή επιλέξαμε την ευθεία ελαχίστων τετραγώνων.
Αυτά είναι τα ελάχιστα τετράγωνα.

Συντελεστής προσδιορισμού

των y, υπολογίζουμε τον συντελεστή προσδιορισμού 2  ο οποίος εκφράζει κατά πόσο οι


Αν διαιρέσουμε το άθροισμα τετραγώνων των εκτιμήσεων δια το άθροισμα τετραγώνων

ανεξάρτητες (μία στην περίπτωσή μας) ερμηνεύουν την Υ. (Να θυμάστε ότι η Υ είναι πάντα
μία).

∑  .  , 334
2 


∑   , 335

Ειδικά για απλά μοντέλα παλινδρόμησης (μία ανεξάρτητη μεταβλητή) ο συντελεστής


προσδιορισμού ισούται με τον συντελεστή συσχέτισης των Χ, Υ στο τετράφωνο

2  

Τυπικό σφάλμα εκτίμησης


Υπολογίζουμε το τυπικό σφάλμα εκτίμησης

∑   .
6
2

Έλεγχος σημαντικότητας των συντελεστών των ανεξάρτητων μεταβλητών

Η διασπορά του συντελεστή της Χ είναι


78 
  19

Στη συνέχεια μπορούμε να εκτελέσουμε t-Test σημαντικότητας για το ' . Αυτό που
ελέγχουμε εδώ είναι κατά πόσο ο συντελεστής της Χ μπορεί να είναι μηδέν ή διάφορος από
το μηδέν στην γενική περίπτωση κι όχι μόνο με τα δεδομένα τους δείγματός μας. Είναι
ιδιαίτερα σημαντικό αυτό γιατί ο μη μηδενικός (στατιστικά σημαντικός) συντελεστής
σημαίνει ότι η Χ πολλαπλασιάζεται με μη μηδενική ποσότητα και πράγματι επηρεάζει την Υ.
Υπολογίζουμε λοιπόν

'+
:78 
78

κατανομής Student : 0;(,(< συμπεραίνουμε ότι ο συντελεστής της Χ είναι στατιστικά


Και αν η απόλυτη τιμή αυτής της ποσότητας είναι μεγαλύτερη από την κρίσιμη τιμή της

σημαντικός σε επίπεδο σημαντικότητας α=0,05=5%.


Παράδειγμα

x y x2 xy . e e2
-0,834 0,695556
1 7 1 7 7,834
0,296 0,087616
2 7 4 14 6,704
1,296 1,679616
2 8 4 16 6,704
-1,444 2,085136
4 3 16 12 4,444
0,686 0,470596
5 4 25 20 3,314
5,01852
14 29 50 69

Το παράδειγμά μας ξεκινά με τις δύο πρώτες στήλες. Οι υπόλοιπες προστίθενται από εμάς
για διευκόλυνση στις πράξεις.


1 ∑ 
 ∙ ∑   1 14  29
  
  69    3,05
1  51 5



1 ∑ 
 1 14
  
   !50  "  2,7
1  51 5


 3,05
'+    1,13
 2,7

29 14
'+(  ,  '+
̅   1,13  8,964
5 5

Άρα το μοντέλο είναι

&  '+( ) '+ *  8,964  1,13=

Στη συνέχεια υπολογίζουμε την εκτιμώμενες τιμές της Υ ή τις εκτιμήσεις της Υ, δηλαδή τα ..
.  '+( ) '+
  8,964  1,13 ∙ 1  7,834

.  '+( ) '+
  8,964  1,13 ∙ 2  6,704

./  '+( ) '+
/  8,964  1,13 ∙ 2  6,704

.?  '+( ) '+
?  8,964  1,13 ∙ 4  4,444

.<  '+( ) '+


<  8,964  1,13 ∙ 5  3,314

Συμπληρώνουμε την αντίστοιχη στήλη του πίνακα και μετά υπολογίζουμε τα σφάλμα (ή
υπόλοιπα ή κατάλοιπα e)

1   .

1   5,01852


2      0,86  0,74  74%

Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως


το 1 και εκφράζει (όταν αναφέρεται ως ποσοστό) το ποσοστό της ερμηνείας της
εξαρτημένης μεταβλητής από το σύνολο των εξαρτημένων μεταβλητών (της μίας
εξαρτημένης μεταβλητής στην περίπτωσή μας). Μόνο όταν έχουμε μία ανεξάρτητη
μεταβλητή ο συντελεστής προσδιορισμού ισούται με το τετράγωνο του συντελεστή
συσχέτισης της Χ με την Υ.

Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης

∑   . 5,01852
 6 6  1,29
2 52
Στη συνέχεια υπολογίζουμε τη διασπορά του συντελεστή της Χ

 1,29
78    0,12
  19 5  12,7


Για το t-Test για το ' υπολογίζουμε

'+ 1,13
:78    3,26
78 √0,12

Η απόλυτη τιμή αυτού συγκρίνεται με την τιμή

: 0;(,(<  :<0;(,(<  :/;(,(<  3,18

Επειδή A:78 A  3,26 B 3,18  : 0;(,(<

ο συντελεστής είναι στατιστικά σημαντικός.


Πολλαπλή παλινδρόμηση

Θα επιχειρήσουμε ένα μεταβατικό στάδιο στο οποίο με τα ίδια δεδομένα της απλής
παλινδρόμησης θα εφαρμόσουμε μια νέα τεχνική υπολογισμού των συντελεστών του
μοντέλου που κάνει χρήση πινάκων. Σημειώστε ότι η τεχνική αυτή εκτιμά μόνο τους
συντελεστές του μοντέλου. Μόλις υπολογιστεί το μοντέλο, όλα τα υπόλοιπα (συντελεστής
προσδιορισμού, έλεγχος σημαντικότητας των συντελεστών, κλπ, γίνονται κανονικά όπως
και πριν).

x y
1 7
2 7
2 8
4 3
5 4
Σx=14 Σy=29

x y x2 xy
1 7 1 7
2 7 4 14
2 8 4 16
4 3 16 12
5 4 25 20
Σx=14 Σy=29 Σ x2=50 Σxy =69

Για τα δεδομένα του παραδείγματός μας ορίζουμε τους πίνακες Χ, Υ και Β ως εξής:

1 1
E1 2H
D G
=  D1 2G
D1 4G
C1 5F
7
E7H
I  DD8GG
D3G
C4F

Δηλαδή δημιουργούμε έναν πίνακα Χ με μονάδες στην πρώτη στήλη και τη μεταβλητή Χ
στην άλλη και έναν πίνακα Υ με τις τιμές της μεταβλητής Υ.

Τότε οι εκτιμήσεις των συντελεστών του μοντέλου είναι


'
J  K ( L  * M *0 * M &
'

Υπολογίζουμε τον ανάστροφο του Χ

1 1 1 1 1
*M  N O
1 2 2 4 5

και

1 1
E1 2H
1 1 1 1 1 D G
*M*  N O
2 4 5 D1
2G
1 2
D1 4G
C1 5F
11)11)11)11)11 11)12)12)14)15
N O
11)12)12)14)15 11)22)22)44)55


5 14
P QN O


 14 50

Υπολογίζουμε την ορίζουσα του * M *

|* M *|  S 5 14S  5  50  14  14  54 T 0
14 50

Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U  * M *

Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1 XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.

U  1X  50  50

U  1X  14  14

U  1X  14  14

U  1X  5  5
ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε

αντίστροφός τους είναι συμμετρικοί.

1 U U 1 50 14
* M *0   K  L N O
|* *| U
M U 54 14 5

Υπολογίζουμε τώρα τον * M &

7
E7H
1 1 1 1 1 D G 17)17)18)13)14 29
*M&  N O  D8G  N OP QN O
1 2 2 4 5 D3G 17)27)28)43)54
69
C4F

Οπότε

' 1 50 14 29 1 50  29  14  69
J  K ( L  * M *0 * M &  N ON O N O
' 54 14 5 69 54 14  29 ) 5  69
50  29  14  69
54 8,96
P QN O
14  29 ) 5  69 1,13
54

Δηλαδή το μοντέλο παλινδρόμησης είναι

I  8,96  1,13=

Θυμίζουμε ότι ο συντελεστής της Χ (που είναι και αυτός που χρήζει ανάλυσης) εκφράζει
πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα (στην περίπτωση μειώνεται κατά
1,13).

Όταν έχουμε μια απλή παλινδρόμηση μπορούμε αλλά συνήθως δεν κάνουμε χρήση της
μεθόδου των πινάκων. Αντίθετα όπως είπαμε υπολογίζουμε απλά τα

'+ 


'+(  ,  '+
̅

Στη περίπτωσή μας εφαρμόσαμε τη μέθοδο των πινάκων για να μάθουμε τη λειτουργία της
ώστε να μπορούμε αργότερα να τη χρησιμοποιούμε σε πολλαπλές παλινδρομήσεις. Στις
πολλαπλές παλινδρομήσεις η μέθοδος των πινάκων είναι η μόνο λύση.

Ας υπολογίσουμε τώρα ένα μοντέλο πολλαπλής παλινδρόμησης κάνοντας χρήση της


μεθόδου των πινάκων. Έστω το παρακάτω παράδειγμα με δύο ανεξάρτητες μεταβλητές Χ1
και Χ2 και μία (πάντα μία) εξαρτημένη μεταβλητή Υ.

x1 x2 y
3 3 7
6 7 8
4 5 3
6 5 8
2 2 3

Επεκτείνουμε τον παραπάνω πίνακα

2 2
x1 x2 y (x1) (x2) x1x2 x1y x2y
3 3 7 9 9 9 21 21
6 7 8 36 49 42 48 56
4 5 3 16 25 20 12 15
6 5 8 36 25 30 48 40
2 2 3 4 4 4 6 6
2 2
Σ x1=21 Σ x2=22 Σ y =29 Σ(x1) =101 Σ(x2) =112 Σ x1x2=105 Σ x1y =135 Σ x2y =138

Ο Χ τώρα έχει τρεις στήλες, δύο για τις ανεξάρτητες μεταβλητές και μία με μονάδες (αυτή
αντιστοιχεί στον σταθερό όρο του μοντέλου).
1 3 3
E1 6 7H
D G
=  D1 4 5G
D1 6 5G
C1 2 2F
7
E8H
I  DD3GG
D8G
C3F

'(
J  Z' [  * M *0 * M &
'

1 1 1 1 1
* M  \3 6 4 6 5]
3 7 5 5 2

1 3 3 E 
1
2 H
1 1 1 1 1 D1 E 6 H
7G D G
* M *  \3 6 4 6 5]  D1 4 5G  D
1 
1 
1
2G
3 7 5 5 2 D1 6 5G DD G
G
C1 2 2F C
2 
1
2 
2 F


5 21 22
 Z21 101 105[
22 105 112

Υπολογίζουμε την ορίζουσα του * M *

5 21 22
|* M *|  ^21 101 105^  5  S101 105S  21  S21 105S ) 22  S21 101S
105 112 22 112 22 105
22 105 112
 5  101  112  105  105  21  21  112  22  105 ) 22  21
 105  22  101  179 T 0

Υπολογίζουμε τα αλγεβρικά συμπληρώματα του πίνακα U  * M *

Για κάθε στοιχείο του πίνακα που βρίσκεται στη θέση V, W το αλγεβρικό συμπλήρωμα
υπολογίζεται πολλαπλασιάζοντας το 1 XY επί την ελάσσονα που παράγεται αν
διαγράψουμε τη στήλη και τη γραμμή που βρίσκεται το συγκεκριμένο στοιχείο.
101 105
U  1X  S S  101  112  105  105  287
105 112

21 105
U  1X  S S  21  112  22  105  42
22 112

21 101
U/  1X/  S S  21  105  22  101  17
22 105

21 22
U  1X  S S  21  112  22  105  42
105 112

5 22
U  1X  S S  5  112  22  22  76
22 112

5 21
U/  1X/  S S  5 ∗ 105  22  21  63
22 105

21 22
U/  1/X  S S  21  105  22  101  17
101 105

5 22
U/  1/X  S S  5  105  22  21  63
21 105

5 21
U//  1/X/  S S  5  101  21  21  64
21 101

ανάστροφη τοποθέτηση και διαιρούμε με την ορίζουσα. Να θυμάστε, τόσο ο * M * όσο και ο
Για τον αντίστροφο κατασκευάζουμε ένα πίνακα με τα αλγεβρικά συμπληρώματα σε

αντίστροφός τους είναι συμμετρικοί.

1 U U U/ 1 287 42 17


* M *0 U
 M  Z  U U/ [   Z42 76 63[
|* *| U U/ U// 179
/ 17 63 64
Υπολογίζουμε τον πίνακα

7 E H
1 1 1 1 1 E8H 17)18)13)18)13 D G
* M &  \3 6 4 6 5]  DD3GG  \3  7 ) 6  8 ) 4  3 ) 6  8 ) 5  3]  D
1  G
3 7 5 5 2 D8G 37)78)53)58)23 D G
C3F D G
C
2  F
29
 \135]
138

Τέλος, υπολογίζουμε

'( 287 42 17 29


1
J  Z' [  * M *0 * M &   Z42 76 63[  \135]
179 138
' 17 63 64
287  29  42  135  17  138
E H
D 179 G 1,715
D42  29 ) 76  135  63  138G
  Z 1,944 [
D 179 G 0,927
D17  29  63  135 ) 64  138G
C 179 F

Δηλαδή το μοντέλο παλινδρόμησης είναι

I  1,715 ) 1,944  =1  0,927  *2

Θυμίζουμε ότι ο συντελεστής της κάθε ανεξάρτητης μεταβλητής Χ (που είναι και αυτός που
χρήζει ανάλυσης) εκφράζει πώς μεταβάλλεται η Υ όταν η Χ αυξηθεί κατά μία μονάδα. Στην
περίπτωση μας αυξάνεται κατά 1,944 με κάθε αύξηση μιας μονάδας της Χ1 και μειώνεται
κατά 0,927 με αύξηση μιας μονάδας της Χ2.

Υπολογίζουμε τώρα τις εκτιμήσεις των Υ, μετά τα κατάλοιπα και όλα τα στατιστικά που
αφορούν τη στατιστική σημαντικότητα των συντελεστών. Να θυμάστε ότι οι εκτιμήσεις
έχουν τον ίδιο μέσο όρο με τα πραγματικά y και η παλινδρόμηση επειδή εκτιμήθηκε με την
μέθοδο ελαχίστων τετραγώνων, περνάει από το σημείων με συντεταγμένες τους μέσους
όρους των ανεξάρτητων μεταβλητών και της εξαρτημένης μεταβλητής (κέντρο βάρους του
νέφους).
Υπολογίζουμε επίσης τον συντελεστή προσδιορισμού του μοντέλου (όχι ως τετράγωνο
κάποιου συντελεστή συσχέτισης αυτή τη φορά).

.  1,715 ) 1,944
1  0,927
2

.  1,715 ) 1,944
1  0,927
2

./  1,715 ) 1,944
1/  0,927
2/

.?  1,715 ) 1,944
1?  0,927
2?

.<  1,715 ) 1,944


1<  0,927
2<

Δηλαδή

4,766  1,715 ) 1,944  3  0,927  3

6,89  1,715 ) 1,944  6  0,927  7

4,856  1,715 ) 1,944  4  0,927  5

8,744  1,715 ) 1,944  6  0,927  5

3,749  1,715 ) 1,944  2  0,927  2

Υπολογίζουμε λοιπόν 1   . , 1  και y2 και τα αθροίσματα των στηλών επεκτείνοντας τον


πίνακα του παραδείγματος

x1 x2 y . 1   . 1 y
2
. 
3 3 7 4,766 2,234 4,990756 49 22,71476

6 7 8 6,89 1,11 1,2321 64 47,4721

4 5 3 4,856 -1,856 3,444736 9 23,58074

6 5 8 8,744 -0,744 0,553536 64 76,45754

2 2 3 3,749 -0,749 0,561001 9 14,055

Σ1  =10,78213 Σ .  =184,28
2
Σ x1=21 Σ x2=22 Σ y =29 Σ y =195

Οπότε

1   10,78213

∑ .  292
∑ 
.  , ∑
. 
 184,28 
2  
 5
   0,6  60%

∑   , ∑  29
∑ 
2



195 
5

Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού, παίρνει τιμές από το 0 έως


το 1 και εκφράζει (όταν αναφέρεται ως ποσοστό) το ποσοστό της ερμηνείας της
εξαρτημένης μεταβλητής από το σύνολο των εξαρτημένων μεταβλητών (της μίας
εξαρτημένης μεταβλητής στην περίπτωσή μας). Μόνο όταν έχουμε μία ανεξάρτητη
μεταβλητή ο συντελεστής προσδιορισμού ισούται με το τετράγωνο του συντελεστή
συσχέτισης της Χ με την Υ. Στην περίπτωσή μας ισούται με 0,6 ή 60%. Και οι δύο
ανεξάρτητες μεταβλητές ερμηνεύουν το 60% της εξαρτημένης, ή πιο αυστηρά η διασπορά
της Υ ερμηνεύεται κατά 60% από τη διασπορά της παλινδρόμησης (των εκτιμήσεων της Υ).

Στη συνέχεια υπολογίζουμε το τυπικό σφάλμα εκτίμησης (προσέξτε ότι διαιρούμε με n-3
δηλαδή n-κ-1 όπου κ=2 ο αριθμός των ανεξάρτητων μεταβλητών)

∑   . 10,78213
6  6  2,32
3 53

Στη συνέχεια υπολογίζουμε τις διασπορές 78 , 7`

78  a  

7`  a  

287 42 17


Όπου a είναι τα διαγώνια στοιχεία του πίνακα * M *0   Z 42 76 63[

bc
17 63 64

Δηλαδή τα 76/179=0,42 και 64/179=0,36 αντίστοιχα. Ως a(( θεωρούμε το 287/179.

Άρα

78  0,42  2,32  2,26

Για το t-Test για το ' υπολογίζουμε

'+ 1,944
:78    1,29
78 √2,26
Η απόλυτη τιμή της συγκρίνεται με την τιμή

: 0/;(,(<  :<0/;(,(<  :;(,(<  4,303

Επειδή A:78 A  1,29 d 4,303  : 0/;(,(< ο συντελεστής ΔΕΝ είναι στατιστικά σημαντικός.

Για το t-Test για το ' υπολογίζουμε

7`  0,36  2,32  1,94

'+ 0,927
:7`    0,67
7` √1,94

Η απόλυτη τιμή της συγκρίνεται με την τιμή

: 0/;(,(<  :<0/;(,(<  :;(,(<  4,303

Επειδή A:7` A  0,67 d 4,303  : 0/;(,(< ο συντελεστής είναι ΔΕΝ είναι στατιστικά
σημαντικός.

You might also like