Professional Documents
Culture Documents
ΣΤΑΤΙΣΤΙΚΗ II
5ο Φύλλο έργου
Ανάλυση συσχέτισης
Παράδειγμα 10
Στον επόμενο πίνακα παρουσιάζεται η διαφημιστική δαπάνη (Χ) και τα καθαρά
κέρδη (Υ) δώδεκα επιχειρήσεων ενός κλάδου, όπως αυτά διαμορφώθηκαν στην τελευταία
διαχειριστική χρήση (τα ποσά είναι σε χιλιάδες €).
n
x i yi n x y
i 1
rXY
n n
x i2 nx 2
yi2 ny 2
i 1 i 1
Η απόφαση
Για 0,05 και n 2 10 βαθμούς ελευθερίας, από τον πίνακα της κατανομής t-
Student, βρίσκουμε την τιμή:
t ( , 2) t (10, 0.05 2) t (10, 0.025) 2, 228
και επειδή:
t 9,988 t (, 2) 2,228
απορρίπτουμε τη μηδενική υπόθεση υπέρ της εναλλακτικής της σε επίπεδο σημαντικότητας
0,05.
Εναλλακτικά, προκειμένου να αποφασίσουμε, μπορούμε να χρησιμοποιήσουμε το
επόμενο σχήμα.
t ( , 2) t (, 2)
(-2,228) (2,228) 9,988
γ) Το γεγονός ότι ο συντελεστής συσχέτισης είναι κοντά στη μονάδα, μας οδηγεί στο
συμπέρασμα ότι υπάρχει ισχυρή συσχέτιση ανάμεσα στα καθαρά κέρδη και στη
διαφημιστική δαπάνη. Επίσης, η θετική τιμή του συντελεστή υποδηλώνει θετική συσχέτιση,
δηλαδή, όταν αυξάνεται ή μειώνεται η διαφημιστική δαπάνη, μεταβάλλονται προς την ίδια
κατεύθυνση και τα κέρδη της επιχείρησης. Αυτά ισχύουν για το δείγμα που δόθηκε. Για να
δούμε εάν ισχύουν και για τον πληθυσμό, δηλαδή για το σύνολο των επιχειρήσεων του
κλάδου, ελέγξαμε αν ο συντελεστής συσχέτισης είναι στατιστικά σημαντικός, δηλαδή
στατιστικά διάφορος του μηδενός. Από το σχετικό έλεγχο προέκυψε ότι ο εν λόγω
συντελεστής είναι πράγματι στατιστικά διάφορος του μηδενός και κατά συνέπεια υπάρχει
σαφής ένδειξη ότι η διαφημιστική δαπάνη και τα καθαρά κέρδη της επιχείρησης κινούνται
προς την ίδια κατεύθυνση στο σύνολο των επιχειρήσεων του κλάδου.
Παράδειγμα 2ο
Στις τρεις πρώτες στήλες του πίνακα που ακολουθεί παρουσιάζονται οι βαθμοί στα
μαθηματικά (Χ), τη στατιστική (Υ) και το μάρκετινγκ (Ζ) πέντε φοιτητών, οι οποίοι
υποθέτουμε ότι αποτελούν ένα τυχαίο δείγμα από το σύνολο των φοιτητών ενός τμήματος.
Επιπλέον, παρουσιάζονται ορισμένοι βοηθητικοί υπολογισμοί.
i 1 i 1
n
yi z i n y z
i 1
rYZ
n n
yi2 ny 2
zi2 nz 2
i 1 i 1
β) Βρέθηκε ότι:
1 n 1
x
n i1
x i 28 5,6 , y 6,8 και z 5,4 .
5
οπότε η εκτίμηση της συνδιακύμανσης μεταξύ των Χ και Υ είναι:
1 n 1
sXY xi yi n x y 219 5 5,6 6,8 7,15 .
n 1 i1 4
Παρόμοια, βρίσκουμε:
s XZ 0,8 και s YZ 0,1 .
Για τον υπολογισμό των διακυμάνσεων θα χρησιμοποιήσουμε τη σχέση:
1 N 2 2 1
s2X x i n x 190 5 5,6 8,3 .
2
n 1 i1 4
Παρόμοια, βρίσκουμε:
s2Y 6,7 και s2Z 2,8 .
Έτσι, η εκτίμηση του πίνακα διακυμάνσεων-συνδιακυμάνσεων των Χ, Υ και Ζ θα
είναι:
s 2X s XY s XZ 8,3 7,15 0,8
VCM s YX s Y 2
s YZ 7,15 6,7 0,1 .
2
s ZX s ZY s Z 0,8 0,1 2,8
Για να βρούμε τον αντίστοιχο πίνακα, αν υποθέταμε ότι οι πέντε φοιτητές αποτελούν
τον πληθυσμό ενός μικρού μεταπτυχιακού τμήματος, θα εργαστούμε ως εξής:
Έχουμε:
1 N 1
X
N i 1
x i 28 5,6 , Y 6,8 και Z 5, 4 .
5
1 N 1
Cov X, Y ή XY x i yi XY 219 5,6 6,8 5,72 .
N i1 5
Παρόμοια, βρίσκουμε:
Cov X, Z 0,64 και Cov Y, Z 0,08 .
Για τον υπολογισμό των διακυμάνσεων χρησιμοποιούμε τη σχέση:
1 N 2 1
Var(X) ή 2
N i1
x i X
2
190 5,62 6,64 .
5
Παρόμοια, βρίσκουμε:
2Y 5,36 και 2Z 2,24 .
Έτσι, ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των Χ, Υ και Ζ θα είναι:
Var(X) Cov(X, Y) Cov(X, Z) 6,64 5,72 0,64
VCM Cov(Y, X) Var(Y) Cov(Y, Z) 5,72 5,36 0,08 .
Cov(Z, X) Cov(Z, Y) Var(Z) 0,64 0,08 2, 24
Σημείωση
Το excel, όταν χρησιμοποιούμε το εργαλείο Covariance, βρίσκει τον πίνακα
διακυμάνσεων-συνδιακυμάνσεων υποθέτοντας ότι τα δεδομένα αποτελούν τον πληθυσμό.
Αντίθετα, το SPSS με την εντολή Correlate (Analyze/Correlate/Bivariate/Options/Cross-
product deviations and covariances) βρίσκει τον πίνακα διακυμάνσεων-συνδιακυμάνσεων
υποθέτοντας ότι τα δεδομένα αποτελούν ένα δείγμα.
Παράδειγμα 3ο
Στον πίνακα που ακολουθεί παρουσιάζονται οι ετήσιες αποδοχές (X) ενός τυχαίου
δείγματος 14 υπαλλήλων μιας μεγάλης επιχείρησης και η εργασιακή τους απόδοση, όπως
αυτή εκφράζεται με τη βαθμολογία (Υ) που παίρνουν από τον προϊστάμενό τους στην
κλίμακα 1-20. Για διευκόλυνση, κατατάξαμε τα δεδομένα σε αύξουσα σειρά ως προς τις
αποδοχές. Στον ίδιο πίνακα, εμφανίζονται και ορισμένες βοηθητικές στήλες, η δημιουργία
των οποίων θα εξηγηθεί στη συνέχεια.
αντίστοιχων τάξεων και τα τετράγωνα των διαφορών, δηλαδή δημιουργούμε τις στήλες με
τις ενδείξεις di Rxi Ryi και d i2 .
Από τα στοιχεία του πίνακα βρίσκουμε ότι:
14 14 14 14 14
R xi 105 R yi 105 di2 82 R 2xi 1015 R 2y i
1014
i 1 i 1 i 1 i 1 i 1
14
1 14 1
R xi R yi 973,5 RX
14 i1
R xi 105 7,5
14
R Y 7,5 .
i 1
Σημείωση
Για τις τάξεις R x i και R yi ισχύει ότι:
n n
Rx Ry i i
n(n 1) 2 ,
i 1 i 1
n
οπότε και: R X R Y . Επίσης: di 0 , διότι:
i 1
di R x
n n n n
i
R yi R x i R yi 0 .
i 1 i 1 i 1 i 1
Οι σχέσεις αυτές αποτελούν έναν έμμεσο τρόπο για να ελέγξουμε την ορθότητα των
πράξεών μας.
β) Για τον έλεγχο σημαντικότητας του συντελεστή συσχέτισης κατά τάξεις θα πρέπει να
καθοριστούν τα εξής:
Η μηδενική υπόθεση
H0 : s 0
Η εναλλακτική υπόθεση
H1 : s 0
Το κριτήριο απόφασης
Από τη θεωρία είναι γνωστό ότι όταν το n είναι μεγάλο1 και ισχύει ότι s 0 , τότε η
τυχαία μεταβλητή:
rs n 2
t , (1)
1 rs2
ακολουθεί την κατανομή t-Student με n 2 βαθμούς ελευθερίας.
Αν, με βάση τα στοιχεία του τυχαίου δείγματος, το αποτέλεσμα που θα προκύψει από
την (1) είναι σε απόλυτη τιμή μεγαλύτερο της κριτικής τιμής t (, 2) , δηλαδή αν
t t (, 2) ή ισοδύναμα αν t t ( , 2) ή t t ( , 2) , τότε θα απορρίψουμε τη μηδενική
υπόθεση.
Λαμβάνοντας υπόψη την τιμή του rs , που βρήκαμε στο προηγούμενο ερώτημα,
έχουμε:
0,8194 14 2
t 4,952 . (2)
1 0,81942
Η απόφαση
Για = 0,05 και n 2 12 βαθμούς ελευθερίας, από τον πίνακα της κατανομής
t-Student, βρίσκουμε την τιμή:
t ( , 2) t (12, 0.05 2) t (12, 0.025) 2,179
και επειδή:
t 4,952 t (, 2) 2,179
απορρίπτουμε τη μηδενική υπόθεση υπέρ της εναλλακτικής της σε επίπεδο σημαντικότητας
0,05, δηλαδή δεχόμαστε ότι ο συντελεστής συσχέτισης κατά τάξεις είναι στατιστικά
διάφορος του μηδενός. Αυτό σημαίνει ότι πράγματι υπάρχει συνάφεια ανάμεσα στις
αποδοχές των εργαζομένων και την εργασιακή τους απόδοση, όπως αυτή εκφράζεται με τη
βαθμολογία που παίρνουν.
1
Ακόμη και για n 10 η προσέγγιση με την κατανομή t-Student είναι ικανοποιητική.
Τυπολόγιο
Ανάλυση συσχέτισης
Δειγματικός συντελεστής συσχέτισης
n
x i x yi y
i 1
rXY (1)
n n
xi x yi y
2 2
i 1 i 1
ή
n
x i y i n x y
i 1
rXY (2)
n n
x i2 nx 2
yi2 ny 2
i 1 i 1
rXY n 2
3) t t Student με v n 2 βαθμούς ελευθερίας (3)
1 rXY
2
4) Η Η0 απορρίπτεται, για τα τρία είδη ελέγχου που τέθηκαν στο 2ο στάδιο, αν ισχύουν
αντίστοιχα τα εξής:
α) t t (, 2) β) t t ( , ) γ) t t (, )
Στα πιο πάνω, είναι το επίπεδο σημαντικότητας, ενώ t ( , ) και t (, 2) είναι οι
τιμές από τον πίνακα της κατανομής t-Student για n 2 βαθμούς ελευθερίας.
Rx
n
i
R X R yi R Y
i 1
rs (4)
Rx R y
n 2 n 2
i
RX i
RY
i 1 i 1
ή
n
Rx Ry i i
nR X R Y
i 1
rs (5)
n n
R 2x i nR X2 R 2yi nR Y2
i 1 i 1
Όταν δεν υπάρχουν επαναλαμβανόμενες τιμές, οι σχέσεις (4) και (5) είναι
ισοδύναμες προς την:
n
6 di2
i 1
rs 1 (6)
n n 1 2
όπου: di R xi R yi , i 1, 2, ,n .
1 N 1 N
Cov X, Y ή Y xi X yi y
i1
xi yi X Y
i 1
(8)
Σημείωση: Η διακύμανση της Χ (και ανάλογα και της Υ) δίνεται από τη σχέση:
1 N 1 N 2
Var(X) ή 2 x i X 2 x i X
2
(9)
i1 i 1
Δειγματική συνδιακύμανση
1 n 1 n
sXY xi x yi y
n 1 i1
xi yi n x y
n 1 i1
(10)
Σημείωση: Η δειγματική διακύμανση της Χ (και ανάλογα και της Υ) δίνεται από τη σχέση:
1 n 1 n 2 2
s2 x i x 2 x i n x (11)
n 1 i1 n 1 i1
Correlations
Αριθμός
Συχνότητα
διαλέξεων που Βαθμός στη
διασκέδασης ανά
παρακολούθησε Στατιστική
μήνα
στη Στατιστική
** *
Pearson Correlation 1 ,894 ,301
Αριθμός διαλέξεων που
παρακολούθησε στη Sig. (2-tailed) ,000 ,047
Στατιστική
N 44 44 44
** *
Pearson Correlation ,894 1 ,374
Βαθμός στη Στατιστική Sig. (2-tailed) ,000 ,012
N 44 44 44
* *
Pearson Correlation ,301 ,374 1
Συχνότητα διασκέδασης
Sig. (2-tailed) ,047 ,012
ανά μήνα
N 44 44 44
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).
Correlations
Διαφημιστική
Καθαρά κέρδη
δαπάνη (σε
(σε χιλιάδες €)
χιλιάδες €)
**
Διαφημιστική δαπάνη (σε Pearson Correlation 1 ,953
χιλιάδες €)
Sig. (2-tailed) ,000
N 12 12
**
Καθαρά κέρδη (σε χιλιάδες Pearson Correlation ,953 1
€)
Sig. (2-tailed) ,000
N 12 12
Correlations
Βαθμοί στα Βαθμοί στη Βαθμοί στο
Μαθηματικά Στατιστική Μάρκετινγκ
**
Βαθμοί στα Pearson Correlation 1 ,959 -,166
Μαθηματικά
Sig. (2-tailed) ,010 ,790
Στις γραμμές με την ένδειξη «Pearson Correlation» του πιο πάνω πίνακα
παρουσιάζονται οι συντελεστές συσχέτισης, ενώ στις γραμμές με την ένδειξη «Covariance»
εμφανίζονται οι δειγματικές διακυμάνσεις και συνδιακυμάνσεις (τα διαγώνια στοιχεία του
πίνακα είναι οι διακυμάνσεις και τα μη διαγώνια οι συνδιακυμάνσεις). Τέλος, στις γραμμές
με την ένδειξη «Sum of Squares and Cross-products» παρουσιάζονται τα αθροίσματα
τετραγώνων των μεταβλητών καθώς και τα αθροίσματα των γινομένων των μεταβλητών
ανά δύο (ως αποκλίσεις από τους αντίστοιχους μέσους), δηλαδή με βάση τα στοιχεία του
πίνακα έχουμε:
n n n
xi x 33,2 yi y 26,8 zi z
2 2 2
11,2
i 1 i 1 i 1
n n n
xi x yi y 28,6 xi x zi z 3,2 yi y zi z 0,4 .
i 1 i 1 i 1
Correlations
Εργασιακή
Ετήσιες
απόδοση
αποδοχές
(Βαθμολογία)
**
Spearman's rho Ετήσιες αποδοχές Correlation Coefficient 1,000 ,819
Sig. (2-tailed) . ,000
N 14 14
**
Εργασιακή απόδοση Correlation Coefficient ,819 1,000
(Βαθμολογία)
Sig. (2-tailed) ,000 .
N 14 14