You are on page 1of 16

Α.Π.Θ.

: Σχολή Οικονομικών & Πολιτικών Επιστημών


Τμήμα Οικονομικών Επιστημών

ΣΤΑΤΙΣΤΙΚΗ II

5ο Φύλλο έργου
Ανάλυση συσχέτισης

Παράδειγμα 10
Στον επόμενο πίνακα παρουσιάζεται η διαφημιστική δαπάνη (Χ) και τα καθαρά
κέρδη (Υ) δώδεκα επιχειρήσεων ενός κλάδου, όπως αυτά διαμορφώθηκαν στην τελευταία
διαχειριστική χρήση (τα ποσά είναι σε χιλιάδες €).

Διαφημιστική δαπάνη (Χ) 1 2 2 3 4 3 5 4 3 6 7 5


Καθαρά κέρδη (Υ) 6 8 9 8 11 9 12 10 9 13 13 12

α) Να βρεθεί ο συντελεστής (γραμμικής) συσχέτισης του Pearson ανάμεσα στη


διαφημιστική δαπάνη (Χ) και τα καθαρά κέρδη (Υ).
β) Να ελεγχθεί, σε επίπεδο 0,05, η στατιστική σημαντικότητα του συντελεστή συσχέτισης.
(Υποθέτουμε ότι οι δώδεκα επιχειρήσεις αποτελούν ένα τυχαίο δείγμα του συνόλου των
επιχειρήσεων του κλάδου και η κοινή κατανομή των Χ και Υ είναι η διμεταβλητή
κανονική).
γ) Να σχολιάσετε τα σχετικά αποτελέσματα.
Λύση
α) Στον πίνακα που ακολουθεί παρουσιάζονται τα δεδομένα και ορισμένοι βοηθητικοί
υπολογισμοί.
Διαφημιστική δαπάνη και καθαρά κέρδη σε 12 επιχειρήσεις
Διαφημ. δαπάνη Καθαρά κέρδη
xi2 yi2 xi yi
(Χ) (Υ)
1 6 1 36 6
2 8 4 64 16
2 9 4 81 18
3 8 9 64 24
4 11 16 121 44
3 9 9 81 27
5 12 25 144 60
4 10 16 100 40
3 9 9 81 27
6 13 36 169 78
7 13 49 169 91
5 12 25 144 60
45 120 203 1254 491

Σύμφωνα με τα στοιχεία του πίνακα έχουμε:


1 n 1 1 n 1
x 
n i1
x i 
12
 45  3,75 και y  
n i1
yi  120  10 ,
12
οπότε o συντελεστής συσχέτισης είναι:

Νικόλαος Ταμπάκης -1- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

n
 x i yi  n  x  y
i 1
rXY  
n n
 x i2 nx 2
 yi2 ny 2

i 1 i 1

491  12  3,75 10 41


   0,9534 .
203  12  3,752  1254  12 102 34,25  54

β) Για τον έλεγχο σημαντικότητας του συντελεστή συσχέτισης θα πρέπει να καθοριστούν


τα εξής:
 Η μηδενική υπόθεση
H0 : XY  0
 Η εναλλακτική υπόθεση
H1 : XY  0
 Το κριτήριο απόφασης
Δόθηκε ότι η κοινή κατανομή των Χ και Υ είναι η διμεταβλητή κανονική, οπότε
μπορούμε να χρησιμοποιήσουμε τη σχέση:
rXY n  2
t , (1)
1  rXY
2

η οποία ακολουθεί την κατανομή t-Student με   n  2 βαθμούς ελευθερίας.


Αν, με βάση τα στοιχεία του τυχαίου δείγματος, το αποτέλεσμα που θα προκύψει από
την (1) είναι σε απόλυτη τιμή μεγαλύτερο της κριτικής τιμής t (,  2) , όπου   0,05 ,
δηλαδή αν t  t (,  2) ή ισοδύναμα αν t  t (  ,  2) ή t   t (  ,  2) , τότε θα απορρίψουμε
τη μηδενική υπόθεση.
Λαμβάνοντας υπόψη την τιμή του rXY , που βρήκαμε στο προηγούμενο ερώτημα,
έχουμε:
0,9534 12  2
t  9,988 . (2)
1  0,95342

 Η απόφαση
Για   0,05 και   n  2  10 βαθμούς ελευθερίας, από τον πίνακα της κατανομής t-
Student, βρίσκουμε την τιμή:
t ( ,  2)  t (10, 0.05 2)  t (10, 0.025)  2, 228
και επειδή:
t  9,988  t (,  2)  2,228
απορρίπτουμε τη μηδενική υπόθεση υπέρ της εναλλακτικής της σε επίπεδο σημαντικότητας
0,05.
Εναλλακτικά, προκειμένου να αποφασίσουμε, μπορούμε να χρησιμοποιήσουμε το
επόμενο σχήμα.

Νικόλαος Ταμπάκης -2- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

 t (  ,  2) t (,  2)
(-2,228) (2,228) 9,988

γ) Το γεγονός ότι ο συντελεστής συσχέτισης είναι κοντά στη μονάδα, μας οδηγεί στο
συμπέρασμα ότι υπάρχει ισχυρή συσχέτιση ανάμεσα στα καθαρά κέρδη και στη
διαφημιστική δαπάνη. Επίσης, η θετική τιμή του συντελεστή υποδηλώνει θετική συσχέτιση,
δηλαδή, όταν αυξάνεται ή μειώνεται η διαφημιστική δαπάνη, μεταβάλλονται προς την ίδια
κατεύθυνση και τα κέρδη της επιχείρησης. Αυτά ισχύουν για το δείγμα που δόθηκε. Για να
δούμε εάν ισχύουν και για τον πληθυσμό, δηλαδή για το σύνολο των επιχειρήσεων του
κλάδου, ελέγξαμε αν ο συντελεστής συσχέτισης είναι στατιστικά σημαντικός, δηλαδή
στατιστικά διάφορος του μηδενός. Από το σχετικό έλεγχο προέκυψε ότι ο εν λόγω
συντελεστής είναι πράγματι στατιστικά διάφορος του μηδενός και κατά συνέπεια υπάρχει
σαφής ένδειξη ότι η διαφημιστική δαπάνη και τα καθαρά κέρδη της επιχείρησης κινούνται
προς την ίδια κατεύθυνση στο σύνολο των επιχειρήσεων του κλάδου.

Νικόλαος Ταμπάκης -3- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Παράδειγμα 2ο
Στις τρεις πρώτες στήλες του πίνακα που ακολουθεί παρουσιάζονται οι βαθμοί στα
μαθηματικά (Χ), τη στατιστική (Υ) και το μάρκετινγκ (Ζ) πέντε φοιτητών, οι οποίοι
υποθέτουμε ότι αποτελούν ένα τυχαίο δείγμα από το σύνολο των φοιτητών ενός τμήματος.
Επιπλέον, παρουσιάζονται ορισμένοι βοηθητικοί υπολογισμοί.

Βαθμοί στα μαθηματικά, τη στατιστική και το μάρκετινγκ

(Χ) (Υ) (Ζ) xi2 yi2 zi2 xi yi xi zi yi zi


2 3 4 4 9 16 6 8 12
4 6 6 16 36 36 24 24 36
5 7 8 25 49 64 35 40 56
8 8 5 64 64 25 64 40 40
9 10 4 81 100 16 90 36 40
28 34 27 190 258 157 219 148 184

α) Να βρεθούν οι συντελεστές συσχέτισης μεταξύ μαθηματικών-στατιστικής, μαθημα-


τικών-μάρκετινγκ και στατιστικής-μάρκετινγκ και να σχηματιστεί ο αντίστοιχος πίνακας
συσχετίσεων.
β) Να εκτιμηθεί ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των Χ, Υ, Ζ. Ποιος θα ήταν ο
αντίστοιχος πίνακας αν υποθέταμε ότι οι πέντε φοιτητές αποτελούν τον πληθυσμό ενός
μικρού μεταπτυχιακού τμήματος;
Λύση
α) Σύμφωνα με τα στοιχεία του πίνακα έχουμε:
1 n 1 1 n 1 1 n 1
x 
n i1
x i 
5
 28  5,6 , y  
n i1
yi 
5
 34  6,8 και z  
n i1
zi   27  5,4 .
5
Έτσι, ο συντελεστής συσχέτισης μεταξύ μαθηματικών (Χ)-στατιστικής (Υ) είναι:
n
 x i y i  n x  y
i 1
rXY  
n n
 x i2 nx 2
 yi2 ny 2

i 1 i 1

219  5  5,6  6,8 28,6


   0,9588 .
190  5  5,6  258  5  6,8
2 2 33,2  26,8

Ο συντελεστής συσχέτισης μεταξύ μαθηματικών (Χ)-μάρκετινγκ (Ζ) είναι:


n
 x i z i  n x  z
i 1
rXZ  
n n
 x i2  n  x 2  zi2  n  z 2
i 1 i 1

148  5  5,6  5,4 3,2


   0,1659 ,
190  5  5,62  157  5  5,42 33,2  11,2

και ο συντελεστής συσχέτισης μεταξύ στατιστικής (Υ)-μάρκετινγκ (Ζ) είναι:

Νικόλαος Ταμπάκης -4- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

n
 yi z i  n  y  z
i 1
rYZ  
n n
 yi2 ny 2
 zi2 nz 2

i 1 i 1

184  5  6,8  5,4 0,4


   0,0231 .
258  5  6,82  157  5  5,42 26,8  11,2

Οι πιο πάνω συντελεστές συσχέτισης μπορούν να τοποθετηθούν σ’ έναν πίνακα που


λέγεται πίνακας (ή μήτρα) συσχετίσεων (correlation matrix), συμβολίζεται με το R και για
το συγκεκριμένο παράδειγμα έχει τη μορφή:

 rXX rXY rXZ   1 0,9588 0,1659 


R   rYX rYY  
rYZ    0,9588 1 0,0231  .
 rZX rZY rZZ   0,1659 0,0231 1 

β) Βρέθηκε ότι:
1 n 1
x 
n i1
x i   28  5,6 , y  6,8 και z  5,4 .
5
οπότε η εκτίμηση της συνδιακύμανσης μεταξύ των Χ και Υ είναι:
1 n  1
sXY   xi yi  n  x  y    219  5  5,6  6,8  7,15 .
n  1  i1  4
Παρόμοια, βρίσκουμε:
s XZ  0,8 και s YZ  0,1 .
Για τον υπολογισμό των διακυμάνσεων θα χρησιμοποιήσουμε τη σχέση:
1 N 2 2 1
s2X   x i  n  x   190  5  5,6   8,3 .
2
n  1  i1  4
Παρόμοια, βρίσκουμε:
s2Y  6,7 και s2Z  2,8 .
Έτσι, η εκτίμηση του πίνακα διακυμάνσεων-συνδιακυμάνσεων των Χ, Υ και Ζ θα
είναι:
 s 2X s XY s XZ   8,3 7,15 0,8
 
VCM  s YX s Y 2
s YZ    7,15 6,7 0,1  .
 2   
 s ZX s ZY s Z   0,8 0,1 2,8 

Για να βρούμε τον αντίστοιχο πίνακα, αν υποθέταμε ότι οι πέντε φοιτητές αποτελούν
τον πληθυσμό ενός μικρού μεταπτυχιακού τμήματος, θα εργαστούμε ως εξής:
Έχουμε:
1 N 1
X  
N i 1
x i   28  5,6 ,  Y  6,8 και  Z  5, 4 .
5

οπότε η συνδιακύμανση μεταξύ των Χ και Υ είναι:


Νικόλαος Ταμπάκης -5- Ακαδημαϊκό έτος: 2017-18
Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

1 N 1
Cov  X, Y  ή XY   x i yi  XY   219  5,6  6,8  5,72 .
N i1 5
Παρόμοια, βρίσκουμε:
Cov  X, Z  0,64 και Cov  Y, Z  0,08 .
Για τον υπολογισμό των διακυμάνσεων χρησιμοποιούμε τη σχέση:
1 N 2 1
Var(X) ή 2  
N i1
x i  X
2
 190  5,62  6,64 .
5
Παρόμοια, βρίσκουμε:
2Y  5,36 και 2Z  2,24 .
Έτσι, ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των Χ, Υ και Ζ θα είναι:
 Var(X) Cov(X, Y) Cov(X, Z)   6,64 5,72 0,64 
VCM  Cov(Y, X) Var(Y) Cov(Y, Z)    5,72 5,36 0,08  .
Cov(Z, X) Cov(Z, Y) Var(Z)   0,64 0,08 2, 24 

Σημείωση
Το excel, όταν χρησιμοποιούμε το εργαλείο Covariance, βρίσκει τον πίνακα
διακυμάνσεων-συνδιακυμάνσεων υποθέτοντας ότι τα δεδομένα αποτελούν τον πληθυσμό.
Αντίθετα, το SPSS με την εντολή Correlate (Analyze/Correlate/Bivariate/Options/Cross-
product deviations and covariances) βρίσκει τον πίνακα διακυμάνσεων-συνδιακυμάνσεων
υποθέτοντας ότι τα δεδομένα αποτελούν ένα δείγμα.

Νικόλαος Ταμπάκης -6- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Παράδειγμα 3ο
Στον πίνακα που ακολουθεί παρουσιάζονται οι ετήσιες αποδοχές (X) ενός τυχαίου
δείγματος 14 υπαλλήλων μιας μεγάλης επιχείρησης και η εργασιακή τους απόδοση, όπως
αυτή εκφράζεται με τη βαθμολογία (Υ) που παίρνουν από τον προϊστάμενό τους στην
κλίμακα 1-20. Για διευκόλυνση, κατατάξαμε τα δεδομένα σε αύξουσα σειρά ως προς τις
αποδοχές. Στον ίδιο πίνακα, εμφανίζονται και ορισμένες βοηθητικές στήλες, η δημιουργία
των οποίων θα εξηγηθεί στη συνέχεια.

Δεδομένα για ετήσιες αποδοχές και


βαθμολογία με τους βοηθητικούς υπολογισμούς

Υπάλ- Αποδοχές Βαθμολο-


ληλος
Rxi Ryi di =Rxi - Ryi d i2
(X) γία (Υ)
Α 8.500 12 1 5 -4 16
Β 10.000 7 2 1 1 1
Γ 12.300 8 3 2,5 0,5 0,25
Δ 13.200 8 4 2,5 1,5 2,25
Ε 14.000 13 5 6 -1 1
Ζ 15.000 11 6 4 2 4
Η 16.700 15 7 8,5 -1,5 2,25
Θ 19.000 18 8 12 -4 16
Ι 21.000 15 9 8,5 0,5 0,25
Κ 25.600 16 10 10 0 0
Λ 28.000 20 11 14 -3 9
Μ 29.500 14 12 7 5 25
Ν 31.000 17 13 11 2 4
Ξ 32.700 19 14 13 1 1
Αθροίσματα 105 105 0 82

α) Να βρεθεί ο συντελεστής συσχέτισης κατά τάξεις του Spearman.


β) Να ελεγχθεί, σε επίπεδο 0,05, η στατιστική σημαντικότητα του συντελεστή συσχέτισης.
Λύση
α) Για να βρούμε το συντελεστή συσχέτισης του Spearman προσδιορίζουμε για τις δυο
μεταβλητές Χ και Υ την τάξη που έχει η κάθε παρατήρηση, οπότε δημιουργούμε τις στήλες
με τις ενδείξεις Rxi και Ryi . Επειδή οι τιμές της Χ είναι σε αύξουσα σειρά εύκολα
προσδιορίζεται η τάξη τους. Έτσι, ο υπάλληλος Α, που έχει τις πιο χαμηλές αποδοχές, θα
έχει τάξη 1 ως προς τις αποδοχές του, ο Β τάξη 2, κ.ο.κ. Σχετικά με την τάξη που θα έχει
κάθε μία από τις τιμές της Υ εργαζόμαστε ως εξής: Ο υπάλληλος με την πιο χαμηλή
βαθμολογία είναι ο Β, επομένως θα έχει τάξη 1 ως προς τη βαθμολογία του. Οι Γ και Δ
έχουν την αμέσως επόμενη βαθμολογία, επειδή όμως αυτή είναι ίδια θα αντιστοιχήσουμε σ’
αυτούς την τάξη 2,5 που είναι ο μέσος όρος της 2ης και 3ης θέσης. Κάτι ανάλογο συμβαίνει
και με τους Η και Ι, στους οποίους αντιστοιχούμε την τάξη 8,5 γιατί η θέση που κατέχουν,
αν βάλουμε τις βαθμολογίες σε αύξουσα σειρά, είναι η 8η και η 9η.
Αφού βρούμε την τάξη που έχει η κάθε παρατήρηση, δηλαδή αφού δημιουργήσουμε
τις στήλες με τις ενδείξεις Rxi και R yi , στη συνέχεια βρίσκουμε τις διαφορές των

Νικόλαος Ταμπάκης -7- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

αντίστοιχων τάξεων και τα τετράγωνα των διαφορών, δηλαδή δημιουργούμε τις στήλες με
τις ενδείξεις di  Rxi  Ryi και d i2 .
Από τα στοιχεία του πίνακα βρίσκουμε ότι:
14 14 14 14 14
 R xi  105  R yi  105  di2  82  R 2xi  1015  R 2y i
 1014
i 1 i 1 i 1 i 1 i 1

14
1 14 1
 R xi R yi  973,5 RX  
14 i1
R xi  105  7,5
14
R Y  7,5 .
i 1

Ο συντελεστής συσχέτισης κατά τάξεις μπορεί να υπολογιστεί με δύο τρόπους. Έτσι,


αν χρησιμοποιήσουμε τον τύπο (5), που υπάρχει στο τυπολόγιο, έχουμε:
n
Rx Ry i i
 nR X R Y
973,5  14  7,5  7,5
i 1
rs    0,8194 ,
n n
1015  14  7,5 2
1014  14  7,5 2
 R 2x i
 nR 2X  R 2y i
 nR 2Y
i 1 i 1

ενώ με τον τύπο (6) θα πάρουμε:


n
6 di2
i 1 6  82
rs  1   1  0,8198 .

n n 1 2
 
14 142  1 
Όπως φαίνεται από τα αποτελέσματα, η διαφορά στην τιμή του rs , χρησιμοποιώντας
τους δυο τύπους, είναι πολύ μικρή (0,0004) και οφείλεται στο γεγονός ότι υπάρχουν λίγες
επαναλαμβανόμενες τιμές.

Σημείωση
Για τις τάξεις R x i και R yi ισχύει ότι:
n n
Rx  Ry i i
 n(n  1) 2 ,
i 1 i 1
n
οπότε και: R X  R Y . Επίσης:  di  0 , διότι:
i 1

 di    R x 
n n n n

i
 R yi   R x i   R yi  0 .
i 1 i 1 i 1 i 1

Οι σχέσεις αυτές αποτελούν έναν έμμεσο τρόπο για να ελέγξουμε την ορθότητα των
πράξεών μας.

β) Για τον έλεγχο σημαντικότητας του συντελεστή συσχέτισης κατά τάξεις θα πρέπει να
καθοριστούν τα εξής:
 Η μηδενική υπόθεση
H0 : s  0
 Η εναλλακτική υπόθεση
H1 : s  0
 Το κριτήριο απόφασης

Νικόλαος Ταμπάκης -8- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Από τη θεωρία είναι γνωστό ότι όταν το n είναι μεγάλο1 και ισχύει ότι s  0 , τότε η
τυχαία μεταβλητή:
rs n  2
t , (1)
1  rs2
ακολουθεί την κατανομή t-Student με   n  2 βαθμούς ελευθερίας.
Αν, με βάση τα στοιχεία του τυχαίου δείγματος, το αποτέλεσμα που θα προκύψει από
την (1) είναι σε απόλυτη τιμή μεγαλύτερο της κριτικής τιμής t (,  2) , δηλαδή αν
t  t (,  2) ή ισοδύναμα αν t  t (  ,  2) ή t   t (  ,  2) , τότε θα απορρίψουμε τη μηδενική
υπόθεση.
Λαμβάνοντας υπόψη την τιμή του rs , που βρήκαμε στο προηγούμενο ερώτημα,
έχουμε:
0,8194 14  2
t  4,952 . (2)
1  0,81942

 Η απόφαση
Για  = 0,05 και   n  2  12 βαθμούς ελευθερίας, από τον πίνακα της κατανομής
t-Student, βρίσκουμε την τιμή:
t ( ,  2)  t (12, 0.05 2)  t (12, 0.025)  2,179
και επειδή:
t  4,952  t (,  2)  2,179
απορρίπτουμε τη μηδενική υπόθεση υπέρ της εναλλακτικής της σε επίπεδο σημαντικότητας
0,05, δηλαδή δεχόμαστε ότι ο συντελεστής συσχέτισης κατά τάξεις είναι στατιστικά
διάφορος του μηδενός. Αυτό σημαίνει ότι πράγματι υπάρχει συνάφεια ανάμεσα στις
αποδοχές των εργαζομένων και την εργασιακή τους απόδοση, όπως αυτή εκφράζεται με τη
βαθμολογία που παίρνουν.

1
Ακόμη και για n  10 η προσέγγιση με την κατανομή t-Student είναι ικανοποιητική.

Νικόλαος Ταμπάκης -9- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Τυπολόγιο
Ανάλυση συσχέτισης
Δειγματικός συντελεστής συσχέτισης
n
  x i  x  yi  y 
i 1
rXY  (1)
n n
  xi  x    yi  y 
2 2

i 1 i 1
ή
n
 x i y i  n x  y
i 1
rXY  (2)
n n
 x i2 nx 2
 yi2 ny 2

i 1 i 1

Έλεγχος της στατιστικής σημαντικότητας του συντελεστή συσχέτισης


Ο δειγματικός συντελεστής συσχέτισης rXY , είναι ένας εκτιμητής του συντελεστή
συσχέτισης  XY του πληθυσμού από τον οποίο έχει ληφθεί το δείγμα. Ο έλεγχος της
υπόθεσης ότι η τιμή του θεωρητικού συντελεστή είναι μηδέν γίνεται ως εξής:
1) H0 : XY  0
2) α) H1 : XY  0 β) H1 : XY  0 γ) H1 : XY  0

rXY n  2
3) t t  Student με v  n  2 βαθμούς ελευθερίας (3)
1  rXY
2

4) Η Η0 απορρίπτεται, για τα τρία είδη ελέγχου που τέθηκαν στο 2ο στάδιο, αν ισχύουν
αντίστοιχα τα εξής:
α) t  t (,  2) β) t  t (  ,  ) γ) t   t (,  )

Στα πιο πάνω,  είναι το επίπεδο σημαντικότητας, ενώ t ( ,  ) και t (,  2) είναι οι
τιμές από τον πίνακα της κατανομής t-Student για   n  2 βαθμούς ελευθερίας.

Συντελεστής συσχέτισης κατά τάξεις του Spearman

Rx  
n

i
 R X R yi  R Y
i 1
rs  (4)
Rx  R y 
n 2 n 2
i
 RX i
 RY
i 1 i 1
ή
n
Rx Ry i i
 nR X R Y
i 1
rs  (5)
n n
 R 2x i  nR X2  R 2yi  nR Y2
i 1 i 1

Νικόλαος Ταμπάκης -10- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Όταν δεν υπάρχουν επαναλαμβανόμενες τιμές, οι σχέσεις (4) και (5) είναι
ισοδύναμες προς την:
n
6 di2
i 1
rs  1  (6)

n n 1 2

όπου: di  R xi  R yi , i  1, 2, ,n .

Ο έλεγχος της στατιστικής σημαντικότητας του συντελεστή συσχέτισης κατά τάξεις,


μπορεί να γίνει όπως και ο έλεγχος για τον απλό συντελεστή συσχέτισης  XY .

Η συνδιακύμανση δύο τυχαίων μεταβλητών


Cov  X, Y  ή Y  E  X  X  Y  Y    E  XY   X Y (7)

1 N 1 N
Cov  X, Y  ή Y    xi  X   yi  y  
 i1
  xi yi  X Y
 i 1
(8)

Σημείωση: Η διακύμανση της Χ (και ανάλογα και της Υ) δίνεται από τη σχέση:
1 N 1 N 2
Var(X) ή 2    x i   X 2    x i   X 
2
(9)
 i1  i 1

Δειγματική συνδιακύμανση
1 n 1 n 
sXY    xi  x  yi  y  
n  1 i1
  xi yi  n  x  y 
n  1  i1
(10)

Σημείωση: Η δειγματική διακύμανση της Χ (και ανάλογα και της Υ) δίνεται από τη σχέση:
1 n 1 n 2 2
s2    x i  x 2    x i  n  x  (11)
n  1 i1 n  1  i1 

Νικόλαος Ταμπάκης -11- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Ανάλυση συσχέτισης με τη βοήθεια του Excel


Στο αρχείο Στατιστική ΙI [5ο Φύλλo έργου].xls και στο φύλλο εργασίας που έχει την
ένδειξη «Παράδειγμα 1ο», παρουσιάζεται η λύση του 1ου παραδείγματος με τη βοήθεια του
excel. Το εν λόγω παράδειγμα αναφέρεται στην εκτίμηση του συντελεστή συσχέτισης και
στον έλεγχο της στατιστικής σημαντικότητάς του. Το 2ο παράδειγμα, που αναφέρεται στην
εύρεση του πίνακα συσχετίσεων και του πίνακα διακυμάνσεων-συνδιακυμάνσεων τριών
μεταβλητών, λύνεται με τη βοήθεια του excel στο φύλλο εργασίας που έχει την ένδειξη
«Παράδειγμα 2ο». Όπως προαναφέρθηκε, το excel, όταν χρησιμοποιούμε το εργαλείο
Covariance, βρίσκει τον πίνακα διακυμάνσεων-συνδιακυμάνσεων υποθέτοντας ότι τα
δεδομένα αποτελούν τον πληθυσμό.
Η μελέτη των συναρτήσεων που χρησιμοποιούνται για την κάθε περίπτωση αφήνεται
ως άσκηση.

Ανάλυση συσχέτισης με τη βοήθεια του SPSS


Το SPSS διαθέτει την εντολή Correlate για την εύρεση, μεταξύ άλλων, του
συντελεστή συσχέτισης του Pearson και του συντελεστή συσχέτισης κατά τάξεις του
Spearman. Στην εντολή αυτή θα αναφερθούμε στη συνέχεια.

Ανάλυση συσχέτισης με την εντολή Correlate


Στο βασικό μενού του Data Editor του SPSS χρησιμοποιούμε διαδοχικά τις επιλογές:
Analyze
Correlate
Bivariate…
 Στo πεδίο Variables εισάγουμε τις μεταβλητές που μας ενδιαφέρουν. Αν επιλέξουμε
περισσότερες από δύο μεταβλητές, τότε υπολογίζονται οι συντελεστές συσχέτισης για
κάθε ζεύγος μεταβλητών. Για ποσοτικές μεταβλητές με κανονικές ή περίπου κανονικές
κατανομές προτείνεται ο υπολογισμός του συντελεστή συσχέτισης του Pearson, ενώ για
ποσοτικές μεταβλητές με έντονα ασύμμετρες κατανομές ή στην περίπτωση που η μία
τουλάχιστον μεταβλητή είναι μεταβλητή διάταξης προτείνεται ο υπολογισμός του
συντελεστή συσχέτισης κατά τάξεις του Spearman (ή του συντελεστή του Kendall).
 Μέσω της ένδειξης Options… μπορούμε να ζητήσουμε να υπολογιστεί η μέση τιμή και
η τυπική απόκλιση για κάθε μεταβλητή, οι συνδιακυμάνσεις για κάθε ζεύγος
μεταβλητών, κ.λπ.
Ενδεικτικά είναι τα αποτελέσματα που ακολουθούν. Tα δεδομένα υπάρχουν στο
αρχείο Ερωτηματολόγιο1.sav και θέλουμε να βρούμε τους (απλούς) συντελεστές συσχέ-
τισης ανάμεσα στις μεταβλητές «Αριθμός διαλέξεων που παρακολούθησε στη Στατιστική»,
«Βαθμός στη Στατιστική», «Συχνότητα διασκέδασης ανά μήνα» και να ελέγξουμε τη
στατιστική σημαντικότητά τους.

Νικόλαος Ταμπάκης -12- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Correlations
Αριθμός
Συχνότητα
διαλέξεων που Βαθμός στη
διασκέδασης ανά
παρακολούθησε Στατιστική
μήνα
στη Στατιστική
** *
Pearson Correlation 1 ,894 ,301
Αριθμός διαλέξεων που
παρακολούθησε στη Sig. (2-tailed) ,000 ,047
Στατιστική
N 44 44 44
** *
Pearson Correlation ,894 1 ,374
Βαθμός στη Στατιστική Sig. (2-tailed) ,000 ,012
N 44 44 44
* *
Pearson Correlation ,301 ,374 1
Συχνότητα διασκέδασης
Sig. (2-tailed) ,047 ,012
ανά μήνα
N 44 44 44
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).

Ο συντελεστής συσχέτισης ανάμεσα στις μεταβλητές «Αριθμός διαλέξεων που


παρακολούθησε στη Στατιστική» και «Βαθμός στη Στατιστική» είναι 0,894, ο συντελεστής
συσχέτισης ανάμεσα στις μεταβλητές «Αριθμός διαλέξεων που παρακολούθησε στη
Στατιστική» και «Συχνότητα διασκέδασης ανά μήνα» είναι 0,301 και τέλος, ο συντελεστής
συσχέτισης ανάμεσα στις μεταβλητές «Βαθμός στη Στατιστική» και «Συχνότητα
διασκέδασης ανά μήνα» είναι 0,374. Και στις τρεις περιπτώσεις οι συντελεστές συσχέτισης
είναι στατιστικά σημαντικοί, σε επίπεδο σημαντικότητας 0,05, δεδομένου ότι η αντίστοιχη
τιμή πιθανότητας είναι μικρότερη από το 0,05.
Σημειώνεται ότι ο διαγραμματικός προσδιορισμός της σχέσης μεταξύ δύο ποσοτικών
μεταβλητών που αναφέρονται στο ίδιο σύνολο παρατηρήσεων γίνεται με το διάγραμμα
διασποράς (Graphs/Legacy Dialogs/Scatter-dot…), όπως φαίνεται στο επόμενο σχήμα:

Στη συνέχεια παρουσιάζεται η λύση με το SPSS των τριών παραδειγμάτων που


υπάρχουν στο φυλλάδιο.

Νικόλαος Ταμπάκης -13- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Λύση του 1ου παραδείγματος με το SPSS


Στο 1ο παράδειγμα, που υπάρχει στο φυλλάδιο αυτό, δίνονται η διαφημιστική δαπάνη
(Χ) και τα καθαρά κέρδη (Υ) δώδεκα επιχειρήσεων ενός κλάδου και ζητείται ο συντελεστής
συσχέτισης του Pearson και ο έλεγχος της στατιστικής σημαντικότητάς του.
Για να λύσουμε το συγκεκριμένο παράδειγμα με το SPSS χρησιμοποιούμε διαδοχικά
τις επιλογές:
Analyze/Correlate/Bivariate…
και στo πεδίο Variables εισάγουμε τις δύο μεταβλητές. Στη συνέχεια, στο πεδίο
Correlation Coefficients επιλέγουμε την ένδειξη Pearson. Τα σχετικά αποτελέσματα έχουν
ως εξής:

Correlations
Διαφημιστική
Καθαρά κέρδη
δαπάνη (σε
(σε χιλιάδες €)
χιλιάδες €)
**
Διαφημιστική δαπάνη (σε Pearson Correlation 1 ,953
χιλιάδες €)
Sig. (2-tailed) ,000

N 12 12
**
Καθαρά κέρδη (σε χιλιάδες Pearson Correlation ,953 1
€)
Sig. (2-tailed) ,000

N 12 12

**. Correlation is significant at the 0.01 level (2-tailed).

Ο συντελεστής συσχέτισης του Pearson ανάμεσα στις μεταβλητές «Διαφημιστική


δαπάνη» και «Καθαρά κέρδη» ανέρχεται στο 0,953 και είναι στατιστικά σημαντικός (η
αντίστοιχη τιμή πιθανότητας είναι μικρότερη από το 0,05).

Λύση του 2ου παραδείγματος με το SPSS


Στο 2ο παράδειγμα, που υπάρχει στο φυλλάδιο αυτό δίνονται οι βαθμοί στα
μαθηματικά (Χ), τη στατιστική (Υ) και το μάρκετινγκ (Ζ) πέντε φοιτητών και ζητείται ο
πίνακας συσχετίσεων μεταξύ των τριών μεταβλητών καθώς και ο αντίστοιχος πίνακας
διακυμάνσεων-συνδιακυμάνσεων.
Για να λύσουμε το συγκεκριμένο παράδειγμα με το SPSS χρησιμοποιούμε διαδοχικά
τις επιλογές:
Analyze/Correlate/Bivariate…
και στo πεδίο Variables εισάγουμε τις τρεις μεταβλητές. Στη συνέχεια, μέσω της ένδειξης
Options… και της επιλογής Cross-product deviations and covariances ζητάμε να
υπολογιστούν οι συνδιακυμάνσεις για κάθε ζεύγος των μεταβλητών που έχουμε εισάγει.
Όπως προαναφέρθηκε, το SPSS με τη σχετική διαδικασία, βρίσκει τον πίνακα
διακυμάνσεων-συνδιακυμάνσεων υποθέτοντας ότι τα δεδομένα αποτελούν ένα δείγμα. Τα
αποτελέσματα έχουν ως εξής:

Νικόλαος Ταμπάκης -14- Ακαδημαϊκό έτος: 2017-18


Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Correlations
Βαθμοί στα Βαθμοί στη Βαθμοί στο
Μαθηματικά Στατιστική Μάρκετινγκ
**
Βαθμοί στα Pearson Correlation 1 ,959 -,166
Μαθηματικά
Sig. (2-tailed) ,010 ,790

Sum of Squares and Cross-products 33,200 28,600 -3,200


Covariance 8,300 7,150 -,800
N 5 5 5
**
Βαθμοί στη Pearson Correlation ,959 1 ,023
Στατιστική Sig. (2-tailed) ,010 ,971
Sum of Squares and Cross-products 28,600 26,800 ,400
Covariance 7,150 6,700 ,100
N 5 5 5
Βαθμοί στο Pearson Correlation -,166 ,023 1
Μάρκετινγκ
Sig. (2-tailed) ,790 ,971

Sum of Squares and Cross-products -3,200 ,400 11,200


Covariance -,800 ,100 2,800
N 5 5 5

**. Correlation is significant at the 0.01 level (2-tailed).

Στις γραμμές με την ένδειξη «Pearson Correlation» του πιο πάνω πίνακα
παρουσιάζονται οι συντελεστές συσχέτισης, ενώ στις γραμμές με την ένδειξη «Covariance»
εμφανίζονται οι δειγματικές διακυμάνσεις και συνδιακυμάνσεις (τα διαγώνια στοιχεία του
πίνακα είναι οι διακυμάνσεις και τα μη διαγώνια οι συνδιακυμάνσεις). Τέλος, στις γραμμές
με την ένδειξη «Sum of Squares and Cross-products» παρουσιάζονται τα αθροίσματα
τετραγώνων των μεταβλητών καθώς και τα αθροίσματα των γινομένων των μεταβλητών
ανά δύο (ως αποκλίσεις από τους αντίστοιχους μέσους), δηλαδή με βάση τα στοιχεία του
πίνακα έχουμε:
n n n
  xi  x   33,2   yi  y   26,8   zi  z 
2 2 2
 11,2
i 1 i 1 i 1

n n n
  xi  x  yi  y   28,6   xi  x  zi  z   3,2   yi  y  zi  z   0,4 .
i 1 i 1 i 1

Λύση του 3ου παραδείγματος με το SPSS


Στο 3ο παράδειγμα, που υπάρχει στο φυλλάδιο αυτό, δίνονται οι ετήσιες αποδοχές
(X) ενός τυχαίου δείγματος 14 υπαλλήλων μιας επιχείρησης και η εργασιακή τους
απόδοση, όπως αυτή εκφράζεται με τη βαθμολογία (Υ) που παίρνουν από τον προϊστάμενό
τους στην κλίμακα 1-20 και ζητείται ο συντελεστής συσχέτισης κατά τάξεις του Spearman
και ο έλεγχος της στατιστικής σημαντικότητάς του.
Για να λύσουμε το συγκεκριμένο παράδειγμα με το SPSS χρησιμοποιούμε διαδοχικά
τις επιλογές:
Analyze/Correlate/Bivariate…
και στo πεδίο Variables εισάγουμε τις δύο μεταβλητές. Στη συνέχεια, στο πεδίο
Correlation Coefficients επιλέγουμε την ένδειξη Spearman. Τα σχετικά αποτελέσματα
έχουν ως εξής:
Νικόλαος Ταμπάκης -15- Ακαδημαϊκό έτος: 2017-18
Α.Π.Θ. : Σχολή Οικονομικών & Πολιτικών Επιστημών
Τμήμα Οικονομικών Επιστημών

Correlations
Εργασιακή
Ετήσιες
απόδοση
αποδοχές
(Βαθμολογία)
**
Spearman's rho Ετήσιες αποδοχές Correlation Coefficient 1,000 ,819
Sig. (2-tailed) . ,000
N 14 14
**
Εργασιακή απόδοση Correlation Coefficient ,819 1,000
(Βαθμολογία)
Sig. (2-tailed) ,000 .
N 14 14

**. Correlation is significant at the 0.01 level (2-tailed).

Ο συντελεστής συσχέτισης κατά τάξεις του Spearman ανάμεσα στις μεταβλητές


«Ετήσιες αποδοχές» και «Εργασιακή απόδοση» ανέρχεται στο 0,819 και είναι στατιστικά
σημαντικός (η αντίστοιχη τιμή πιθανότητας είναι μικρότερη από το 0,05).

Νικόλαος Ταμπάκης -16- Ακαδημαϊκό έτος: 2017-18

You might also like