02 SPSSLABNOTES 2013 PART-1 2in1

Στατιστική µε το SPSS 1
4η έκδοση, 2013 Κριτσωτάκης Ι. Ευάγγελος
T.E.I. ΚΡΗΤΗΣ Περιεχόµενα:

Πρόλογος 1ης Έκδοσης ........................................................................................................................ 2
ΣΧΟΛΗ ΕΠΑΓΓΕΛΜΑΤΩΝ ΥΓΕΙΑΣ & ΠΡΟΝΟΙΑΣ 1. Καταχώριση ∆εδοµένων και Οργάνωση Αρχείου ∆εδοµένων στο SPSS........................................ 3
ΤΜΗΜΑ ΚΟΙΝΩΝΙΚΗΣ ΕΡΓΑΣΙΑΣ 1.1 Επεξεργαστής ∆εδοµένων (Data Editor) ........................................................................................ 3
1.2 Καταχώριση και Οργάνωση των ∆εδοµένων στην Data View....................................................... 4
1.3 Καθορισµός Ιδιοτήτων των Μεταβλητών και των Τιµών τους στην Οθόνη Μεταβλητών
(Variable View)................................................................................................................................... 10
1.4 Εµφάνιση Πληροφοριών για τις Μεταβλητές που περιέχει ένα αρχείο δεδοµένων ..................... 18
1.5 Σύνοψη Βασικών Εννοιών και ∆ιαδικασιών της Ενότητας 1 ....................................................... 19
1.6 Αγγλική Ορολογία για την Ενότητα 1 .......................................................................................... 20
1.7 Άσκηση 1η .................................................................................................................................... 21
2. Πίνακες Κατανοµής Συχνοτήτων..................................................................................................... 23
2.1 Πίνακες Συχνοτήτων για Μεµονωµένες Μεταβλητές (Frequencies)............................................ 23
ΣΤΑΤΙΣΤΙΚΗ: 2.2 Επεξεργασία Πινάκων του SPSS και Μεταφορά τους σε Προγράµµατα Office.......................... 27
2.3 Οµαδοποίηση Ποσοτικών ∆εδοµένων (Recode) .......................................................................... 30
2.4 Καταχώριση Έτοιµων Πινάκων Συχνοτήτων στο SPSS (Weight Cases) ..................................... 35
2.6 Αγγλική Ορολογία για την Ενότητα 2 .......................................................................................... 38
ΕΦΑΡΜΟΓΕΣ ΜΕ ΤΟ SPSS 2.7 Άσκηση 2η .................................................................................................................................... 39
3. Στατιστικά ∆ιαγράµµατα για 1 Μεταβλητή ................................................................................... 40
3.1 Εισαγωγή....................................................................................................................................... 40
3.2 Κυκλικό ∆ιάγραµµα (Pie) ............................................................................................................. 41
3.3 Ραβδόγραµµα (Bar, simple) .......................................................................................................... 44
3.4 Ιστόγραµµα (Histogram)............................................................................................................... 46
3.5 Ιστογράµµατα και Μορφές Κατανοµών Συχνοτήτων................................................................... 49
Μέρος 1ο: Περιγραφική Στατιστική 3.7 Βασική Ορολογία στα Αγγλικά για την Ενότητα 3....................................................................... 56
3.8 Άσκηση 3η .................................................................................................................................... 57
4. Στατιστικές Συνοπτικής Περιγραφής Ποσοτικών ∆εδοµένων...................................................... 58
4η Έκδοση 4.1 Εισαγωγή....................................................................................................................................... 58
4.2 Υπολογισµός Στατιστικών Μέτρων µε την Εντολή Frequencies.................................................. 61
4.3 Υπολογισµός Στατιστικών Μέτρων µε την Εντολή Explore ........................................................ 68
4.4. Επιλογή Περιπτώσεων µε την Εντολή Select Cases .................................................................... 76
4.5. Θηκόγραµµα (Boxplot): διάγραµµα που συνοψίζει 5 βασικές στατιστικές................................. 82
4.6 Σύνοψη Βασικών Εννοιών της Ενότητας 4................................................................................... 88
4.7 Άσκηση 4η .................................................................................................................................... 89
5. Περιγραφή της Σχέσης ∆ύο Μεταβλητών....................................................................................... 91
5.1 Εισαγωγή....................................................................................................................................... 91
5.2 Συσχέτιση µιας Ποσοτικής και µιας Ποιοτικής Μεταβλητής (Explore)....................................... 93
5.3 Συσχέτιση ∆ύο Ποιοτικών Μεταβλητών (Crosstabs) ................................................................... 96
Κριτσωτάκης Ι. Ευάγγελος, MSc, PhD 5.3.1 Κατασκευή Πίνακα Συνάφειας µε την εντολή Crosstabs ..................................................................... 98
5.3.1 Υπολογισµός Ποσοστών σε έναν Πίνακα Συνάφειας......................................................................... 101
5.3.2 Κατασκευή Σύνθετου Ραβδογράµµατος από το µενού Graphs .......................................................... 105
5.3.4 Καταχώριση Έτοιµων Πινάκων Συνάφειας στο SPSS (Weight Cases, Crosstabs) ............................ 109
5.4 Συσχέτιση ∆ύο Ποσοτικών Μεταβλητών ................................................................................... 114
5.4.1 Εισαγωγή ............................................................................................................................................ 114
5.4.2 Κατασκευή ∆ιαγράµµατος ∆ιασποράς (Scatter Plot) ......................................................................... 115
5.4.3 Υπολογισµός Συντελεστών Συσχέτισης Pearson και Spearman (Correlate, Bivariate)...................... 119
5.5 ∆ευτερογενείς Συσχετίσεις και Συγχυτικοί Παράγοντες ............................................................ 128
5.5 Άσκηση 5η .................................................................................................................................. 130
Ηράκλειο, 2004 - 2013

Στατιστική µε το SPSS 2 Στατιστική µε το SPSS 3
4η έκδοση, 2013 Κριτσωτάκης Ι. Ευάγγελος 4η έκδοση, 2013 Κριτσωτάκης Ι. Ευάγγελος
Πρόλογος 1ης Έκδοσης 1. Καταχώριση ∆εδοµένων και Οργάνωση Αρχείου ∆εδοµένων στο SPSS
Η Στατιστική, προσαρµοσµένη για τις ανάγκες των Εφαρµοσµένων Κοινωνικών Επιστηµών, έχει πλέον 1.1 Επεξεργαστής ∆εδοµένων (Data Editor)
καθιερωθεί ως βασικό και απαραίτητο τµήµα σε όλα τα προγράµµατα σχετικών σπουδών παγκοσµίως.
Είναι γνωστό ότι η Στατιστική έχει αναπτυχθεί ραγδαία κατά τα τελευταία χρόνια και οι σύγχρονες
Για την επεξεργασία των δεδοµένων µιας έρευνας, το πρώτο βήµα είναι η καταχώρηση και οργάνωσή
στατιστικές τεχνικές απαιτούν εξειδικευµένες γνώσεις εφαρµοσµένων µαθηµατικών και χρησιµοποίηση
τους στον Data Editor (Επεξεργαστής ∆εδοµένων) του SPSS. Ο Data Editor εµφανίζεται µε την
ειδικού λογισµικού. Τις γνώσεις και την ευχέρεια χρήσης τέτοιων τεχνικών κατέχουν µεν επιστήµονες
εκκίνηση του προγράµµατος και έχει τη µορφή της εικόνας 1.
εξειδικευµένοι στα µαθηµατικά και τη στατιστική, αλλά οι εφαρµογές τους δεν αφορούν µόνον αυτούς.
Οι σπουδαστές πρέπει να συνειδητοποιήσουν ότι οι βασικές γνώσεις στη στατιστική έχουν πρακτική
αξία όχι µόνο για την εκπόνηση ερευνητικών ή διπλωµατικών εργασιών κατά τη διάρκεια των σπουδών
τους αλλά και για την µετέπειτα επαγγελµατική απασχόλησή τους.
Τέτοιες ανάγκες έχουν οδηγήσει στη δηµιουργία λογισµικού ικανού να υποστηρίξει την επεξεργασία
µεγάλου όγκου δεδοµένων σε σύντοµο χρονικό διάστηµα, και παράλληλα εύκολου στη χρήση του
ακόµη και από µη-εξειδικευµένους χρήστες. Το Στατιστικό Πακέτο για τις Κοινωνικές Επιστήµες,
γνωστό ως SPSS (Statistical Package for Social Sciences), διαθέτει αυτές τις δυνατότητες και έχει
καθιερωθεί ως ένα από τα παγκοσµίως δηµοφιλέστερα στατιστικά πακέτα.
Οι σηµειώσεις αυτές γράφτηκαν για την υποστήριξη του εργαστηριακού µέρους του µαθήµατος της
Στατιστικής στο Τµήµα Κοινωνικής Εργασίας του Τ.Ε.Ι. Κρήτης. ∆εν αποτελούν πλήρες εγχειρίδιο
στατιστικής, και δεν φιλοδοξούν ούτε στοχεύουν στην παράθεση όλων των εξειδικευµένων γνώσεων
και τεχνικών που µπορεί να υποστηρίξει το SPSS. Παρουσιάζουν µόνο τα βασικότερα και απλούστερα
εργαλεία που είναι απαραίτητα και µπορούν να γίνουν κατανοητά σε σπουδαστές που παρακολουθούν
το εισαγωγικό µάθηµα της Στατιστικής και έχουν στοιχειώδη ευχέρεια στη χρήση των Windows.
Εικόνα 1: Το παράθυρο εργασίας του Data Editor
Η δυνατότητα αυτοδιδασκαλίας υπήρξε ένας από τους στόχους των σηµειώσεων. Γι’ αυτό
καταβλήθηκε ιδιαίτερη προσπάθεια ώστε η παρουσίαση των θεµάτων να επιτρέπει στους σπουδαστές, Παρατηρείστε στο κάτω αριστερά τµήµα της οθόνης ότι υπάρχουν δύο επιλογές στον Data Editor: η
στο βαθµό του εφικτού, να χρησιµοποιήσουν τις σηµειώσεις αυτές µόνοι τους, µπροστά στον Data View (Οθόνη ∆εδοµένων) και η Variable View (Οθόνη Μεταβλητών). Το παράθυρο που βλέπετε
προσωπικό υπολογιστή τους ή µέσα στα εργαστήρια Η/Υ της σχολής κατά τις ώρες ελεύθερης χρήσης. ενεργό στην εικόνα 1 είναι το Data View, το οποίο χρησιµοποιείται για την καταχώριση, τροποποίηση
Είναι ευνόητο ότι η παρακολούθηση των σχετικών παραδόσεων και η επαφή µε τα διδασκόµενα και εµφάνιση των δεδοµένων της έρευνάς σας. Η επιλογή Variable View χρησιµοποιείται για να
θέµατα υπό την εποπτεία και καθοδήγηση εξειδικευµένου διδακτικού προσωπικού είναι καθορίσουµε τα χαρακτηριστικά των µεταβλητών της έρευνας και γενικά το περιβάλλον της βάσης
αναντικατάστατη. δεδοµένων που θέλουµε να κατασκευάσουµε στο SPSS. Παρόλο που στην πράξη πρώτα ετοιµάζουµε
το περιβάλλον Variable View και έπειτα εισάγουµε τα δεδοµένα µας στη Data View του SPSS, για
Οκτώβριος 2004 διδακτικούς σκοπούς παρουσιάζουµε πρώτα τις λειτουργίες της Data View.
Κριτσωτάκης Ευάγγελος
1.2 Καταχώριση και Οργάνωση των ∆εδοµένων στην Data View

Ονοµατ/νο Ηλικία Φύλο Ευχέρεια χρήσης SPSS
Η οθόνη Data View χρησιµοποιείται για την καταχώριση, την τροποποίηση και την εµφάνιση των ΑΝΤ.Κ 38 Άνδρας Πολύ µεγάλη
δεδοµένων της έρευνάς µας στο SPSS.
ΣΤΕ.Κ 41 Γυναίκα Καθόλου
Ο βασικός κανόνας καταχώρισης δεδοµένων στην Data View είναι: ΜΑΡ.Σ 26 Γυναίκα Μικρή
Κάθε στήλη (column) της Data View αντιστοιχεί σε µία µεταβλητή (variable ή για συντοµία var), ενώ ΜΑΡ.Π 35 Γυναίκα Πολύ µεγάλη
κάθε γραµµή (row) αντιστοιχεί στις απαντήσεις ενός ατόµου ή σε µια “παρατήρηση” (case) όπως
ΑΘΑ.Σ 29 Άνδρας Μεγάλη
συνηθίζουµε να λέµε στη Στατιστική.
ΕΛΕ.Ε 39 Άνδρας Καθόλου
Column ↔ Variable , Row ↔ Case
Με άλλα λόγια, σε κάθε στήλη καταχωρίζουµε τις απαντήσεις της ίδιας ερώτησης από το ΒΑΣ.Μ Γυναίκα Μικρή
ερωτηµατολόγιο της έρευνας, ενώ σε κάθε γραµµή καταχωρίζουµε ένα διαφορετικό ερωτηµατολόγιο ΝΙΚ.Π 44 Γυναίκα Μέτρια
(τις απαντήσεις ενός ατόµου). Έτσι, αν π.χ. κάνουµε µια έρευνα σε 50 άτοµα χρησιµοποιώντας ένα
ερωτηµατολόγιο 8 ερωτήσεων, η Data View θα είναι ένας πίνακας δεδοµένων µε 8 στήλες και 50 Στα παραπάνω δεδοµένα έχουµε 4 µεταβλητές και 8 άτοµα, οπότε στην Data View θα
γραµµές.. χρησιµοποιήσουµε 4 στήλες και 8 γραµµές. Για το φύλο και την ευχέρεια χρήσης του SPSS, θα
αποφύγουµε την καταχώριση κειµένου χρησιµοποιώντας τις κωδικοποιήσεις: Άνδρας = 1, Γυναίκα =
Οι πιο συνηθισµένοι τύποι δεδοµένων που εισάγουµε σε ένα κελί της Data View περιλαµβάνουν: 2, και Καθόλου = 1, Μικρή = 2, Μέτρια = 3, Μεγάλη = 4, Πολύ µεγάλη = 5, αντίστοιχα.
Αριθµούς (π.χ. όταν καταχωρίζουµε δεδοµένα ηλικίας), Ηµεροµηνίες (π.χ. ηµεροµηνίες γέννησης), ή Κωδικοποίηση των ονοµατεπώνυµων δεν θα είχε νόηµα (αφού θα έπρεπε να δώσουµε τόσους κωδικούς
Κείµενο σε συνδυασµό ενδεχοµένως µε αριθµούς («αλφαριθµητικά δεδοµένα») (π.χ. καταχώριση όσα και τα ονοµατεπώνυµα), οπότε θα καταχωρίσουµε τα στοιχεία αυτά σε µορφή κειµένου.
ονοµατεπωνύµων ή ταχυδροµικών διευθύνσεων).
Η καταχώριση των δεδοµένων για το ονοµατεπώνυµο ξεκινάει από το κελί [1,1] (1η στήλη, 1η γραµµή)
Η τελευταία περίπτωση, δηλαδή η καταχώριση δεδοµένων µε τη µορφή κειµένου, θα πρέπει γενικά να της Data View, στο οποίο πληκτρολογούµε ΑΝΤ.Κ (αφού πρώτα ρυθµίσουµε το πληκτρολόγιο σε
αποφεύγεται γιατί µπορεί να προκαλέσει πολλά πρακτικά προβλήµατα. Για παράδειγµα, θα ελληνικά και κεφαλαία). Έπειτα πατάµε Return ή Enter ή το πλήκτρο κάτω βέλους ↓. Το όνοµα της
µπορούσαµε να καταχωρίσουµε τα δεδοµένα για το φύλο των ατόµων που συµµετείχαν στην έρευνά στήλης θα αλλάξει από “var” σε “VAR00001” και το έντονο περίγραµµα θα µετακινηθεί στο κελί [1,2],
µας µε τη µορφή κειµένου ως «Άνδρας» και «Γυναίκα». Όµως, εκτός του ότι η πληκτρολόγηση δηλαδή στο επόµενο προς κάτω κελί. Το νέο κελί είναι τώρα ενεργό και πληκτρολογούµε ΣΤΕ.Κ.
κειµένου είναι εξαιρετικά χρονοβόρα, µικρές διαφορές στο κείµενο που για ΄µας δεν έχουν καµία Οµοίως καταχωρίζουµε τα ονοµατεπώνυµα των υπολοίπων 6 ατόµων.
σηµασία, όπως π.χ. «άνδρας» ή «ανδρας» ή «Άντρας» λαµβάνονται από το SPSS ως διαφορετικές τιµές
της µεταβλητής. Επίσης, η καταχώριση δεδοµένων στη µορφή κειµένου περιορίζει τις δυνατότητες Η καταχώριση των τιµών της ηλικίας ξεκινάει από το κελί [2,1] (2η στήλη, 1η γραµµή), στο οποίο
στατιστικής ανάλυσης στο SPSS. Μπορούµε να αποφύγουµε αυτά τα προβλήµατα ορίζοντας µια πηγαίνουµε χρησιµοποιώντας το ποντίκι ή τα πλήκτρα βέλους, πληκτρολογούµε την τιµή 38 και πατάµε
αριθµητική κωδικοποίηση των τιµών της µεταβλητής, όπως π.χ. 1 = Άνδρας και 2 = Γυναίκα, και Return ή Enter ή το πλήκτρο κάτω βέλους. Το όνοµα της δεύτερης στήλης θα αλλάξει από “var” σε
καταχωρίζοντας τα δεδοµένα ως 1 και 2 αντί του κειµένου «Άνδρας» και «Γυναίκα». “VAR00002” και το έντονο περίγραµµα θα µετακινηθεί στο κελί [2,2], δηλαδή στο επόµενο προς κάτω
κελί. Το νέο κελί είναι τώρα ενεργό και πληκτρολογούµε την τιµή 41. Οµοίως καταχωρίζουµε τις
Παράδειγµα 1Α: υπόλοιπες τιµές της ηλικίας. Παρατηρήστε ότι για το 7ο άτοµο δεν έχει καταγραφεί η ηλικία, και
Θα καταχωρίσουµε τα δεδοµένα που συλλέξαµε για τους 8 Κοινωνικούς Λειτουργούς που εργάζονται έχουµε όπως λέµε µια απούσα τιµή (missing value). Για το αντίστοιχο κελί [2,7] έχουµε δύο επιλογές:
σε ένα νοσοκοµείο και τα οποία αφορούν το ονοµατεπώνυµο (τα αρχικά του), την ηλικία, το φύλο και είτε να αφήσουµε το κελί κενό, είτε να καταχωρίσουµε έναν κωδικό που θα υποδεικνύει την απουσία
την ευχέρεια στη χρήση του SPSS (σε 5-βαθµη κλίµακα Likert: Καθόλου, Μικρή, Μέτρια, Μεγάλη, τιµής. Ο κωδικός αυτός θα πρέπει να είναι ένας αριθµός που να µπορεί να διακριθεί εύκολα από τις
Πολύ µεγάλη), όπως δίνονται στον παρακάτω πίνακα δεδοµένων: τιµές της ηλικίας, όπως π.χ. 999. Θα πρέπει βέβαια να ενηµερώσουµε το SPSS ότι η τιµή 999 δεν είναι
κάποια ηλικία που θα ληφθεί υπόψη στους υπολογισµούς και αυτό θα γίνει στην οθόνη Variable View, Αν ξεχάσατε να εισάγετε τα δεδοµένα κάποιου ατόµου, τα οποία θα θέλατε να καταχωρίσετε π.χ.
όπως θα δούµε στην επόµενη ενότητα. στην 5η γραµµή, τότε επιλέξτε την 5η γραµµή κάνοντας κλικ πάνω στη στήλη αρίθµησης της Data
View και µε δεξί κλικ επιλέξτε: Insert Case.
Για τα δεδοµένα του φύλου, καταχωρίζουµε στο κελί [3,1] τον κωδικό 1 (που, όπως έχουµε Αν θέλετε να διαγράψετε τα δεδοµένα κάποιου ατόµου, π.χ. στην 4η γραµµή, τότε επιλέξτε την 4η
συµφωνήσει, σηµαίνει «Άνδρας»), στο κελί [3,2] εισάγουµε τον κωδικό 2 (που σηµαίνει «Γυναίκα»), γραµµή κάνοντας κλικ πάνω στη στήλη αρίθµησης της Data View και µε δεξί κλικ επιλέξτε: Clear.
στο κελί [3,3] τον κωδικό 2, κλπ. Με όµοιο τρόπο, εισάγουµε στην τέταρτη στήλη της Data View τα Προσοχή: Μην σβήνετε τα δεδοµένα χρησιµοποιώντας το Delete σε ένα-ένα κελί. Αν το κάνετε
(κωδικοποιηµένα) δεδοµένα για την ευχέρεια στη χρήση του SPSS. αυτό, πέρα ότι θα σας πάρει πολύ χρόνο, θα παρατηρήσετε ότι το SPSS αφήνει µια τελίτσα σε κάθε
κελί και η στήλη αρίθµησης παραµένει ενεργοποιηµένη. ∆ηλαδή, το SPSS θα θεωρήσει ότι
Η εικόνα 2 δείχνει τη µορφή που θα έχει πάρει η οθόνη Data View έπειτα από την παραπάνω εξακολουθεί να υπάρχει το άτοµο στην έρευνά σας (και θα το µετράει στις στατιστικές), το οποίο
διαδικασία: όµως δεν έχει απαντήσει σε καµιά από τις ερωτήσεις σας!
Αποθήκευση Αρχείου ∆εδοµένων:
Τα δεδοµένα αποθηκεύονται σε αρχεία συστήµατος. Το όνοµα ενός αρχείου αποτελείται από 2 µέρη:
1) Ένα πρόθεµα, που µπορεί να περιλαµβάνει χαρακτήρες και αριθµούς, το οποίο ακολουθείται από
µια τελεία. Πρόκειται για το όνοµα που εµείς ορίζουµε. Στο δικό µας παράδειγµα θα
χρησιµοποιήσουµε το πρόθεµα “παράδειγµα1α”.
2) Μια κατάληξη (επίθεµα) τριών χαρακτήρων, που αντιστοιχεί στον τύπο του αρχείου. Για τα
αρχεία δεδοµένων του SPSS το επίθεµα είναι “sav”. Για τα αρχεία εξόδου αποτελεσµάτων
(output), τα οποία περιέχουν τα αποτελέσµατα της στατιστικής ανάλυσης (πίνακες,
διαγράµµατα, στατιστικές κλπ), το επίθεµα είναι “spo” σε εκδόσεις του SPSS <= 16 και “spv”
σε νεότερες εκδόσεις. Οι καταλήξεις αυτές προστίθενται αυτόµατα στα αρχεία του SPSS. Τα
αρχεία εξόδου µε κατάληξη sav διαβάζονται µόνο µε εκδόσεις του SPSS µέχρι και την 16η,
ενώ τα αρχείο εξόδου µε κατάληξη spv χρειάζονται την 17η ή µεταγενέστερη έκδοση.
Εικόνα 2: Καταχώριση δεδοµένων του παραδείγµατος 1Α στην Data View.

Η πρώτη αποθήκευση γίνεται µε την εντολή Save As... (γραµµή µενού: File → Save As...), όπου
καθορίζουµε τόσο το όνοµα του αρχείου, όσο και την τοποθεσία αποθήκευσής του (φάκελος στον
Παρατηρείστε ότι οι αριθµοί εµφανίζονται µε δύο δεκαδικά ψηφία στην Data View. Το SPSS το κάνει σκληρό δίσκο ή συσκευή αποθήκευσης / κάρτα µνήµης). Οι µετέπειτα αποθηκεύσεις τροποποιήσεων ή
αυτό αυτόµατα (by default), εκτός αν του ορίσουµε κάτι άλλο (µέσω της Variable View, όπως θα δούµε διορθώσεων γίνονται µε την εντολή Save και το όνοµα του αρχείου παραµένει ίδιο (γραµµή µενού: File
στην επόµενη ενότητα). Στο παράδειγµά µας, οι τιµές είναι ακέραιες οπότε τα δύο δεκαδικά ψηφία → Save).
είναι µηδενικά και δεν παίζουν κανένα ρόλο.
Για το παράδειγµα 1Α, δώστε όνοµα αρχείου “παράδειγµα1α.sav” και αποθηκεύστε στο USB stick /
Λάθη στις καταχωρίσεις και διορθώσεις στη Data View: κάρτα µνήµης σας (Εικόνα 3).
Αν πληκτρολογήσατε λάθος κάποια τιµή, µετακινηθείτε µε το ποντίκι στο αντίστοιχο κελί και
πληκτρολογείστε τη σωστή τιµή (δεν χρειάζεται να σβήσετε τη λανθασµένη, απλώς πληκτρολογείτε
πάνω της τη σωστή τιµή). Χρήσιµες σε τέτοιες περιπτώσεις είναι οι εντολές cut-copy-paste που
παίρνουµε µε δεξί κλικ στο ποντίκι.
Κλείσιµο Αρχείων SPSS:
Το αρχείο εξόδου αποτελεσµάτων που πήραµε στο Παράδειγµα 1Α, δεν µας είναι χρήσιµο οπότε
µπορούµε να το κλείσουµε (πατώντας το κόκκινο Χ) χωρίς να το αποθηκεύσουµε. Το SPSS θα δώσει
Τοποθεσία αποθήκευσης στον Η/Υ
µήνυµα προειδοποίησης ρωτώντας αν θέλετε να αποθηκεύσετε το αρχείο εξόδου, όπου θα επιλέξουµε
“No”(συνήθως επιλέγουµε “Yes”, αλλά εδώ δεν επιθυµούµε να γίνει αποθήκευση). Το αρχείο εξόδου
Όνοµα αρχείου δεδοµένων θα κλείσει, αλλά το αρχείο δεδοµένων (Data Editor) θα παραµείνει ανοικτό.
Για να κλείσουµε και το αρχείο δεδοµένων, πατάµε το κόκκινο Χ στον Data Editor. Το SPSS θα δώσει
πάλι µήνυµα προειδοποίησης, ρωτώντας αν θέλετε να προχωρήσετε στο κλείσιµο του προγράµµατος,
στο οποίο θα επιλέξουµε «Yes» (εκδόσεις SPSS >= 16), όπως δείχνει η Εικόνα 5. Το αρχείο δεδοµένων
(και το SPSS συνολικά) θα κλείσει, εκτός και αν δεν έχει γίνει αποθήκευση οπότε θα πάρουµε δεύτερο
προειδοποιητικό µήνυµα (Εικόνα 6).
Εικόνα 3: Αποθήκευση αρχείου δεδοµένων µε την εντολή Save as.
Επίθεµα αρχείου δεδοµένων (sav)
Μετά την αποθήκευση του αρχείου δεδοµένων, το SPSS θα ανοίξει παράθυρο εξόδου αποτελεσµάτων
(output), το οποίο θα δίνει τα αποτελέσµατα της εργασίας (δηλ. της αποθήκευσης) που ζητήσατε να
κάνει το SPSS (Εικόνα 4).
Εικόνα 5: Μήνυµα προειδοποίησης του SPSS κατά το κλείσιµο αρχείου δεδοµένων
Εικόνα 4: Αρχείο εξόδου αποτελεσµάτων (output) του SPSS
Εικόνα 6: ∆εύτερο µήνυµα προειδοποίησης του SPSS κατά το κλείσιµο αρχείου δεδοµένων που δεν έχει αποθηκευτεί.
Γενικά, το παράθυρο εξόδου του SPSS περιέχει τα αποτελέσµατα οποιασδήποτε εργασίας ζητήσουµε,
όπως π.χ. κατασκευή πινάκων και διαγραµµάτων, υπολογισµό στατιστικών µέτρων κλπ. Θα πρέπει να
τονιστεί ότι το Οutput δεν συνδέεται δυναµικά µε τον Data Editor. ∆ηλαδή, αν κάνετε αλλαγές στα
δεδοµένα που έχετε εισάγει στην Data View δεν θα ενηµερωθούν αυτόµατα τα διαγράµµατα, τα
στατιστικά στοιχεία ή όποια άλλα αποτελέσµατα έχετε στο Output.
να αρχίζει από αριθµό. Απαγορεύονται επίσης λέξεις κλειδιά όπως and, or, to κλπ. Χρησιµοποιούµε,
1.3 Καθορισµός Ιδιοτήτων των Μεταβλητών και των Τιµών τους στην Οθόνη εποµένως, ένα σύντοµο όνοµα για τη µεταβλητή µας, χωρίς κενά ή σύµβολα, το οποίο συνήθως
Μεταβλητών (Variable View)
προσπαθούµε να είναι ενδεικτικό της µεταβλητής στην οποία αναφέρεται.1 Για το παράδειγµα µας,
Θα µας εξυπηρετήσει να δώσουµε ετικέτες (ονόµατα) στις µεταβλητές και στις τιµές τους για να µπορούµε να χρησιµοποιήσουµε τα ονόµατα ΟΝΟΜΑΤΕΠ, ΗΛΙΚΙΑ, ΦΥΛΟ, ΕΥΧΕΡΕΙΑ (Εικόνα 8).
αποφύγουµε τη σύγχυση. Τα ονόµατα αυτά θα εµφανίζονται στην έξοδο αποτελεσµάτων του SPSS,
δηλαδή σε πίνακες, διαγράµµατα και στατιστικές που θα ζητήσουµε αργότερα. Ακόµη, είναι χρήσιµο
να καθορίσουµε το είδος κάθε µεταβλητής (ποσοτική, ποιοτική ονοµαστική ή ποιοτική διατάξιµη), το
οποίο παίζει σηµαντικό ρόλο στην επιλογή της κατάλληλης στατιστικής τεχνικής για την ανάλυση των
δεδοµένων µας. Για τους σκοπούς αυτούς χρησιµοποιούµε την οθόνη Variable View του Data Editor.
Εκτός από τον καθορισµό των ιδιοτήτων των µεταβλητών (ονόµατα, ετικέτες, είδη), η Variable View
µας δίνει και επιλογές για τον τρόπο που θα εµφανίζονται τα δεδοµένα µας στη Data View.
Παράδειγµα 1Β:
Ανοίξτε το αρχείο δεδοµένων παράδειγµα1α.sav κάνοντας διπλό κλικ πάνω του (ή εκκινήστε πρώτα Εικόνα 8: Ορισµός ονοµάτων µεταβλητών στη Variable View.
το SPSS και µετά ανοίξτε το αρχείο µέσω των επιλογών File → Open → Data). Επιλέξτε την οθόνη
Variable View κάτω αριστερά στον Data Editor. Στην Εικόνα 7 εµφανίζονται οι προεπιλεγµένες Στη δεύτερη επιλογή µε τίτλο Type, καθορίζουµε το είδος των δεδοµένων που είχαµε καταχωρίσει στη
(default) ρυθµίσεις των µεταβλητών για το Παράδειγµα 1Α. Data View, δηλαδή αν πρόκειται για αριθµούς (numeric), ηµεροµηνίες (date) ή κείµενο (string).
Παρατηρείστε (εικόνα 8) ότι αυτές οι επιλογές γίνονται αυτόµατα από το SPSS. Θυµηθείτε ότι είχαµε
Κάθε γραµµή της Variable View αντιστοιχεί σε µια µεταβλητή (η οποία βρίσκεται σε στήλη στην Data καταχωρίσει τα ονοµατεπώνυµα ως κείµενο (οπότε το SPSS επέλεξε string), ενώ για όλες τις υπόλοιπες
View). Έτσι, η πρώτη γραµµή της Variable View (που αρχίζει µε όνοµα VAR00001) αντιστοιχεί στην µεταβλητές είχαµε καταχωρίσει τα δεδοµένα ως αριθµούς (και το SPSS επέλεξε numeric). Σε
πρώτη στήλη της Data View, δηλαδή στο Ονοµατεπώνυµο. Η δεύτερη γραµµή της Variable View περίπτωση που δεν γίνουν οι σωστές επιλογές από το SPSS ή όταν ετοιµάζουµε πρώτα τη Variable
η η
αφορά τη δεύτερη µεταβλητή που είχαµε στη Data View, δηλαδή την Ηλικία. Η 3 και η 4 γραµµή της View πριν να εισάγουµε τα δεδοµένα µας, µπορούµε να κάνουµε την απαραίτητη ρύθµιση, κάνοντας
Variable View αφορούν το Φύλο και την Ευχέρεια Χρήσης του SPSS, αντίστοιχα. πρώτα κλικ στο αντίστοιχο κελί και έπειτα κλικ πάνω στο µικρό γκρι τετράγωνο που θα εµφανιστεί
(Εικόνα 9).
Εκτός από τις τρεις συνηθισµένες επιλογές (numeric, date, string), το SPSS µας δίνει τη δυνατότητα
άλλων 5 επιλογών για το είδος των δεδοµένων, που είναι όµως εξαιρετικά σπάνιο να συναντήσετε στην
πράξη και δεν θα µας απασχολήσουν.
Εικόνα 7: Αυτόµατες ρυθµίσεις της Variable View
1
Στην πρώτη επιλογή µε τίτλο Name, καθορίζουµε το όνοµα µε το οποίο θα εµφανίζεται η αντίστοιχη Πρέπει να τονιστεί ότι το SPSS δεν υποστηρίζει εν γένει τη χρήση Ελληνικών. Σε µερικές εκδόσεις του SPSS (ή
σε µη-ενηµερωµένες εκδόσεις, χωρίς τα απαραίτητα “fix packs”) η χρήση ελληνικών χαρακτήρων στα ονόµατα
µεταβλητή στη Data View (στην κορυφή της 1ης στήλης της Data View), αντικαθιστώντας την ετικέτα των µεταβλητών (NAME) ενδέχεται να δηµιουργήσει προβλήµατα στην οµαλή λειτουργία του προγράµµατος,
Ακόµη, οι παλαιότερες εκδόσεις του SPSS επιτρέπουν µέχρι 8 χαρακτήρες στα ονόµατα των µεταβλητών. Έτσι,
VAR0000X. Το όνοµα που θα δώσουµε θα χρησιµοποιηθεί από το SPSS για την αναγνώριση της πολλοί ερευνητές και χρήστες του SPSS προτιµούν να χρησιµοποιούν µέχρι 8 λατινικούς χαρακτήρες στη θέση
µεταβλητής στον κώδικα προγραµµατισµού και γι’ αυτό δεν επιτρέπεται να περιέχει κενά, σύµβολα ή NAME. Στις επιλογές LABEL και VALUES είναι εξαιρετικά σπάνιο να παρουσιαστεί πρόβληµα µε τη χρήση
ελληνικών, οπότε εκεί η χρήση των ελληνικών συστήνεται ανεπιφύλακτα.
Η επιλογή Width (πλάτος), αφορά το µέγιστο πλήθος των χαρακτήρων που µπορούν να
καταχωριστούν στη Data View. Για µια µεταβλητή κειµένου (string), το width ρυθµίζεται αυτόµατα
από το SPSS ως το πλήθος των χαρακτήρων της πρώτης λέξης που εισάγουµε στη στήλη της Data
View. Έτσι, αν σε µια στήλη της Data View εισάγουµε π.χ. το κείµενο Μαρία, τότε το width θα τεθεί
αυτόµατα σε 5 και το SPSS δεν θα επιτρέπει την καταχώριση λέξεων µε περισσότερους από 5
χαρακτήρες στη στήλη αυτή. Αν έπειτα θέλουµε να καταχωρίσουµε π.χ. το κείµενο Βαγγέλης, το SPSS
θα κρατήσει µόνον Βαγγέ αφού έχει καθοριστεί width = 5, και θα πρέπει να αυξήσουµε το width για να
µπορέσουµε να εισάγουµε λέξεις µε περισσότερους χαρακτήρες. Σηµειώνουµε ακόµη ότι τα
αλφαριθµητικά δεδοµένα αποθηκεύονται εσωτερικά στο SPSS µε ακριβώς τόσους χαρακτήρες όσους
έχουµε ορίσει στο width. Για παράδειγµα, αν έχουµε ορίσει width = 8, τότε η λέξη Άκης θα
Εικόνα 9: Ρυθµίσεις του είδους των δεδοµένων µε την επιλογή Type στη Variable View.
καταχωριστεί ως «Άκης » (θα περιλαµβάνει 4 κενούς χαρακτήρες στο τέλος).
Στην τέταρτη επιλογή, µε τίτλο Decimals, καθορίζουµε τον αριθµό των δεκαδικών ψηφίων που
Για αριθµητικά δεδοµένα (numeric), η ρύθµιση του width δεν έχει κάποια ιδιαίτερη επίδραση στους
θέλουµε να εµφανίζουν οι αριθµοί στη Data View. Η προεπιλογή στο SPSS είναι 2 δεκαδικά ψηφία.
αριθµούς που µπορούµε να καταχωρίσουµε στη Data View. Αν π.χ. έχουµε ορίσει width = 2, τότε η
Προφανώς, η επιλογή αυτή αφορά µόνον αριθµητικά δεδοµένα (numeric). Απενεργοποιείται αυτόµατα
καταχώριση του αριθµού π.χ. 2034 δεν θα έχει κανένα πρόβληµα, παρόλο που ο αριθµός αυτός έχει
από το SPSS για δεδοµένα κειµένου (string) και ηµεροµηνίες (date), στα οποία η δήλωση δεκαδικών
πλάτος 4 ψηφίων. Ωστόσο, για την σωστή κατασκευή του αρχείου δεδοµένων συνίσταται η ρύθµιση
ψηφίων δεν έχει νόηµα. Σηµειώνουµε ότι η επιλογή Decimals καθορίζει τον αριθµό των δεκαδικών
του width και για τα αριθµητικά δεδοµένα. Σηµειώνουµε ότι το width προσµετράει και την
ψηφίων που θα εµφανίζονται στη Data View, χωρίς όµως να επηρεάζει τον τρόπο µε τον οποίο
υποδιαστολή και τα δεκαδικά ψηφία, οπότε ρυθµίζουµε το width µετά από τη ρύθµιση του decimals.
αποθηκεύεται ο αριθµός στη µνήµη του προγράµµατος. Για παράδειγµα, αν έχετε καταχωρίσει τον
αριθµό 10,237 σε ένα κελί της Data View, τότε µε decimals = 4 ο αριθµός θα εµφανιστεί ως 10,2370, µε
Για το παράδειγµά µας, παρατηρείστε (Εικόνα 10) ότι το width είχε ρυθµιστεί αυτόµατα σε 5 για το
decimals = 3 θα εµφανιστεί ως 10,237, µε decimals = 2 θα εµφανιστεί ως 10,24 και µε decimals = 1 θα
Ονοµατεπώνυµο, αφού η πρώτη µας καταχώριση ήταν ΑΝΤ.Κ. Επειδή όλες οι υπόλοιπες καταχωρίσεις
φαίνεται ως 10,2. Σε κάθε περίπτωση, ανεξάρτητα της επιλογής decimals, το SPSS θα έχει κρατήσει
ήταν επίσης λέξεις µε 5 χαρακτήρες, δεν χρειάστηκε στη συνέχεια να ρυθµίσουµε το width σε άλλον
στη µνήµη του και θα χρησιµοποιήσει στους υπολογισµούς τον αρχικό µη-στρογγυλοποιηµένο αριθµό
αριθµό. Για την ηλικία, το µέγιστο πλήθος ψηφίων που χρειαζόµαστε είναι 3 (θυµηθείτε ότι είχαµε
10,237. Γενικά, το SPSS αποθηκεύει τους αριθµούς στη µνήµη του µε ακρίβεια έως και 16 δεκαδικών
καταχωρίσει κωδικό 999 για την απούσα τιµή), ενώ για το φύλο και την ευχέρεια χρήσης εισάγουµε
ψηφίων, ώστε οι παραγόµενοι υπολογισµοί να είναι ιδιαίτερα ακριβείς. Για το παράδειγµά µας, στο
µονοψήφιους αριθµούς. Έτσι, µπορούµε να ρυθµίσουµε το width σε 3, 1 και 1, αντίστοιχα (Εικόνα 10).
οποίο όλα τα αριθµητικά δεδοµένα είναι ακέραιοι αριθµοί, µπορούµε να δηλώσουµε Decimals = 0 για
Σηµειώνουµε ότι δεν θα υπήρχε κανένα πρόβληµα αν διατηρούσαµε την προεπιλογή width = 8 στα
την ηλικία, το φύλο και την ευχέρεια χρήσης (Εικόνα 10).
αριθµητικά δεδοµένα µας.
Η πέµπτη στήλη της Variable View µε τίτλο Label, αφορά το όνοµα (ετικέτα) µε το οποίο θα
εµφανίζεται η µεταβλητή στην έξοδο των αποτελεσµάτων (σε πίνακες και διαγράµµατα που θα
παράγουµε αργότερα). Με το Label ουσιαστικά δίνουµε µια µεγαλύτερη έκδοση της ετικέτας που
χρησιµοποιήσαµε στο Name, δηλαδή µια πλήρη περιγραφή που µπορεί να περιλαµβάνει αρκετά µεγάλο
κείµενο, κενά και σύµβολα (το πολύ µέχρι 256 χαρακτήρες). Για το παράδειγµα 1Β, θα
χρησιµοποιήσουµε τις ακόλουθες labels: «Ονοµατεπώνυµο (αρχικά)», «Ηλικία (έτη)», «Φύλο», και
«Ευχέρεια χρήσης του SPSS» (Εικόνα 11).
Εικόνα 10: Ρυθµίσεις Decimals και Width στη Variable View
Εικόνα 11: Καθορισµός ετικετών για τις µεταβλητές µας (Label) στη Variable View
Παρατηρείστε ότι µπορούµε να δούµε τόσο το όνοµα όσο και την ετικέτα κάθε µεταβλητής στη Data
View, αφήνοντας τον κέρσορα να παραµείνει για λίγο πάνω στην επικεφαλίδα της στήλης (Εικόνα 12).
Εικόνα 13: Καθορισµός ετικετών (values) σε

κωδικοποιηµένες τιµές των µεταβλητών
Στο πλαίσιο διαλόγου Value Labels, δίνουµε τον κωδικό στη θέση Value (π.χ. 1), την περιγραφή στη
θέση Label (π.χ. Άνδρας) και πατάµε Add (ή Enter) να γίνει η καταχώριση (Εικόνα 13).
Επαναλαµβάνουµε για τις υπόλοιπες τιµές της µεταβλητής και ολοκληρώνουµε τη διαδικασία
Εικόνα 12: Εµφάνιση ετικετών των µεταβλητών στη Data View
πατώντας ΟΚ.
Τα ονόµατα και οι ετικέτες των µεταβλητών που καταχωρίσαµε στις επιλογές Name και Label θα
Παρόµοια διαδικασία πρέπει να γίνει για την ευχέρεια χρήσης, ώστε να δηλώσουµε την κωδικοποίηση
εµφανίζονται σε όλα τα παράθυρα εργασίας και όλα τα πλαίσια διαλόγου του SPSS που θα
1 = Καθόλου, 2 = Μικρή, 3 = Μέτρια , 4 = Μεγάλη, 5 = Πολύ µεγάλη (Εικόνα 14).
χρησιµοποιούµε στη συνέχεια. Στους πίνακες και τα διαγράµµατα θα εµφανίζονται οι ετικέτες των
µεταβλητών (αν δεν καθορίσουµε labels, θα εµφανίζονται τα names).
Η έκτη στήλη της Variable View µε τίτλο Values, αφορά τα ονόµατα µε τα οποία θα εµφανίζονται οι
τιµές της µεταβλητής σε Data View και Output. Η επιλογή αυτή αφορά προφανώς τις µεταβλητές, των
οποίων οι τιµές έχουν κωδικοποιηθεί. Στο παράδειγµά µας, αυτό έχει συµβεί για το φύλο και την
ευχέρεια χρήσης. Για να ορίσουµε ότι στο φύλο έχουν χρησιµοποιηθεί οι κωδικοί 1 = Άνδρας και 2 =
Γυναίκα, κάνουµε κλικ στη θέση “none” στην 3η γραµµή της στήλης Values, και ξανά κλικ στο γκρι
πλαίσιο που θα εµφανιστεί, παίρνοντας το πλαίσιο διαλόγου “Value Labels” της Εικόνας 13.
Εικόνα 14: Ετικέτες για τις τιµές της µεταβλητής «Ευχέρεια χρήσης του SPSS»
∆ιόρθωση ή τροποποίηση µιας καταχώρισης στο Value Labels µπορεί να γίνει κάνοντας κλικ πάνω
στην καταχώριση, διορθώνοντάς την και πατώντας Change. Πλήρης διαγραφή της καταχώρισης γίνεται
χρησιµοποιώντας την επιλογή Remove.
Στην έβδοµη στήλη, µε τίτλο Missing, δηλώνουµε τους κωδικούς για τις απούσες τιµές, δηλαδή Η όγδοη επιλογή στη Variable View, µε τίτλο Columns, χρησιµοποιείται για τη ρύθµιση του πλάτους
αριθµητικές τιµές που δεν θέλουµε να λαµβάνονται υπόψη στην επεξεργασία και την παρουσίαση των της αντίστοιχης µεταβλητής – στήλης στη Data View. Η ρύθµιση αυτή µπορεί να γίνει απευθείας από
δεδοµένων. Στο παράδειγµά µας, έχουµε απούσες τιµές στην ηλικία, για τις οποίες είχαµε συµφωνήσει τη Data View, πιάνοντας και σύροντας την αντίστοιχη στήλη. Η ένατη επιλογή µε τίτλο Align,
να δίνουµε κωδικό 999. Για να µην συµπεριληφθεί η τιµή 999 σε οποιοδήποτε υπολογισµό που αφορά χρησιµοποιείται για τη στοίχιση των δεδοµένων στις µεταβλητές - στήλες της Data View. Οι
την ηλικία (π.χ. για τον µέσο όρο ηλικίας) πρέπει αυτό να δηλωθεί στη στήλη Missing. Κάνοντας κλικ δυνατότητες είναι Left, Right ή Center. Στο παράδειγµά µας, έχουµε αριστερή στοίχιση για το
στην αντίστοιχη θέση της στήλης missing, παίρνουµε το πλαίσιο διαλόγου Missing Values και ονοµατεπώνυµο, και δεξιά στοίχιση για τις υπόλοιπες µεταβλητές (Εικόνες 2 και 16).
δηλώνουµε το 999 ως κωδικό απούσας τιµής όπως δείχνει η Εικόνα 15.
Στην τελευταία επιλογή µε τίτλο Measure, ορίζουµε το είδος κάθε µεταβλητής. Επιλέγουµε Scale για
ποσοτική µεταβλητή, Nominal για ονοµαστική ποιοτική µεταβλητή και Ordinal για διατάξιµη ποιοτική
µεταβλητή. Στο παράδειγµά µας, το ονοµατεπώνυµο και το φύλο είναι ονοµαστικές µεταβλητές
(nominal), η ευχέρεια χρήσης είναι διατάξιµη (ordinal), και η ηλικία είναι ποσοτική (scale). Η Εικόνα
16 δείχνει την τελική µορφή της Variable View, µετά από τη διαδικασία αυτή.
Εικόνα 15: Ορισµός κωδικού για απούσες τιµές στην επιλογή Missing της Variable View
Οι επιλογές που µας δίνει το πλαίσιο διαλόγου Missing Values (Εικόνα 15) είναι οι εξής:
• No missing values: Ως απούσες τιµές θεωρούνται µόνον τα κελιά που έχουν αφεθεί κενά στη
Data View. Εικόνα 16: Καθορισµός του είδους µεταβλητής στην επιλογή Measure της Variable View.
• Discrete missing values: Ως απούσες τιµές θεωρούνται οι συγκεκριµένες τιµές που ορίζουµε
Η τελική µορφή της Data View µετά τον ορισµό ετικετών των µεταβλητών και των τιµών τους
εδώ. Μπορούµε να ορίσουµε µέχρι 3 τιµές, όπως φαίνεται στην Εικόνα 15. Αυτό είναι χρήσιµο
δείχνεται στην Εικόνα 17. Μπορούµε να επιλέξουµε να φαίνονται είτε οι αρχικές τιµές των µεταβλητών
στην περίπτωση που θέλουµε να καταχωρίσουµε πληροφορία σχετικά µε την αιτία για την
οποία δεν έχουν καταγραφεί τα δεδοµένα, π.χ. «-9 = το άτοµο δεν ήθελε να απαντήσει», «-99 = είτε οι ετικέτες που δώσαµε στις τιµές αυτές χρησιµοποιώντας το εικονίδιο ή το µενού: View
το άτοµο δεν ήξερε να απαντήσει», και «-999 = το άτοµο δεν πρέπει να απαντήσει» (π.χ. όταν Value Labels.
είναι άνδρας και η ερώτηση αφορά µόνον τις γυναίκες). Σε τέτοια περίπτωση θα δηλώναµε
µόνον τις τιµές -9, -99 και -999 στο πλαίσιο διαλόγου Missing Values, και θα
χρησιµοποιούσαµε την επιλογή Values για να καταχωρίσουµε τις ετικέτες τους.
• Range plus one optional discrete missing value: Ως απούσες λαµβάνονται όλες οι τιµές εντός
του εύρους τιµών που καθορίζονται στα κελιά Low και High (Εικόνα 15). Αν είναι απαραίτητο
µπορεί να χρησιµοποιηθεί το κελί Discrete value για να καθοριστεί ως απούσα τιµή µία
επιπλέον τιµή που βρίσκεται έξω από το προκαθορισµένο εύρος (π.χ. οι κωδικοί απουσών
τιµών είναι οι 100 έως 105 και το 999).
Εικόνα 17: Εναλλαγή ανάµεσα στην εµφάνιση των αρχικών τιµών και των ετικετών των τιµών στη Data
View.
1.4 Εµφάνιση Πληροφοριών για τις Μεταβλητές που περιέχει ένα αρχείο δεδοµένων 1.5 Σύνοψη Βασικών Εννοιών και ∆ιαδικασιών της Ενότητας 1
Ενότητα 1.1:
Μετά το άνοιγµα ενός αρχείου δεδοµένων του SPSS, µπορούµε να πάρουµε πληροφορίες για τις
Η καταχώριση δεδοµένων στο SPSS γίνεται στην οθόνη Data View µε τρόπο ώστε κάθε στήλη να
µεταβλητές που περιέχονται στο αρχείο (ονόµατα, ετικέτες, κωδικοποιήσεις, απούσες τιµές, κλίµακες
αντιστοιχεί σε µια µεταβλητή και κάθε γραµµή να αντιστοιχεί σε ένα άτοµο.
µέτρησης) χρησιµοποιώντας τη Variable View. Εναλλακτικά, µπορούµε να δούµε τις πληροφορίες
Οι συνηθισµένοι τύπου δεδοµένων που καταχωρίζονται στην Data View είναι: Αριθµητικά
αυτές για κάθε µεταβλητή ξεχωριστά, επιλέγοντας από τη γραµµή µενού: Utilities → Variables … που
δεδοµένα, Ηµεροµηνίες και Αλφαριθµητικά δεδοµένα (κείµενο µαζί µε αριθµούς). Η καταχώριση
δίνει το πλαίσιο διαλόγου της Εικόνας 18, για το παράδειγµα1α.sav:
των δεδοµένων σε µορφή κειµένου αποφεύγεται κωδικοποιώντας αριθµητικά τις τιµές των
αντίστοιχων µεταβλητών.
Τα αρχεία δεδοµένων του SPSS αποθηκεύονται µε κατάληξη .sav
Τα αρχεία εξόδου του SPSS αποθηκεύονται µε κατάληξη .spv (ή .spo σε παλαιότερες εκδόσεις).
Ενότητα 1.2:
Η καταχώριση πληροφοριών για τις µεταβλητές του αρχείου δεδοµένων γίνεται στην οθόνη
VARIABLE VIEW. Κάθε γραµµή της Variable View αντιστοιχεί σε µια µεταβλητή. Οι επιλογές
(στήλες) της Variable View εξυπηρετούν τις ακόλουθες λειτουργίες:
NAME: Όνοµα µεταβλητής. Μπαίνει επικεφαλίδα στην αντίστοιχη στήλη της Data View.
Χρησιµοποιείται από το SPSS για την αναγνώριση της στήλης στον κώδικα προγραµµατισµού,
οπότε δεν επιτρέπεται να περιέχει κενά, σύµβολα ή να αρχίζει από αριθµό. Απαγορεύονται επίσης
Εικόνα 18: Πληροφορίες για τις µεταβλητές από το Utilities και Variables
λέξεις κλειδιά όπως and, or, to κλπ. Χρήση ελληνικών χαρακτήρων µε επιφύλαξη. Το όνοµα αυτό
Ακόµη, µπορούµε να ζητήσουµε από το SPSS να παράγει αρχείο εξόδου (output) µε τις παραπάνω θα εµφανίζεται σε όλα τα πλαίσια διαλόγου του SPSS.
πληροφορίες για όλες τις µεταβλητές που περιέχονται στο αρχείο δεδοµένων µας, επιλέγοντας: File → LABEL: Ετικέτα µεταβλητής. Πλήρης λεκτική περιγραφή της µεταβλητής (επιτρέπονται κενά,
Display File Information → Working File. Αυτό θα παράγει την έξοδο της Εικόνας 19: σύµβολα και σχετικά µεγάλο κείµενο). Η περιγραφή αυτή θα εµφανίζεται στους τίτλους πινάκων,
διαγραµµάτων, αναλύσεων και πλαισίων διαλόγου του SPSS.
[DataSet1] D:\παράδειγµα1α.sav
VALUES: Ετικέτες (περιγραφές) για τις κωδικοποιηµένες τιµές των µεταβλητών (π.χ. 1 = Άνδρας,
2 = Γυναίκα).
Variable Information
Variable Position Label Measurement Role Column Alignment Print Write Missing MISSING: Κωδικοποίηση των απουσών τιµών (missing values).
Level Width Format Format Values
Ονοµατεπώνυ MEASURE: Είδος της µεταβλητής, µε επιλογές: scale (ποσοτική), ordinal (ποιοτική διατάξιµη),
ΟΝΟΜΑΤΕΠ 1 Nominal Input 9Left A5 A5
µο (αρχικά)
ΗΛΙΚΙΑ 2 Ηλικία (έτη) Scale Input 6Right F3 F3 999 και nominal (ποιοτική ονοµαστική).
ΦΥΛΟ 3 Φύλο Nominal Input 8Right F1 F1
Ευχέρεια TYPE: Τύπος των δεδοµένων που καταχωρίστηκαν στην αντίστοιχη στήλη της Data View. Οι πιο
ΕΥΧΕΡΕΙΑ 4 χρήσης του Ordinal Input 11Right F1 F1
SPSS συνηθισµένοι τύποι δεδοµένων είναι numeric (αριθµοί), date (ηµεροµηνίες) και string (κείµενο),
Variables in the working file
και συνήθως αναγνωρίζονται αυτόµατα από το SPSS.
Variable Values DECIMALS: Μέγιστος αριθµός δεκαδικών ψηφίων που θα εµφανίζονται σε αριθµητικά δεδοµένα
Value Label
1 Άνδρας στη Data View.
ΦΥΛΟ
2 Γυναίκα
1 Καθόλου WIDTH: Μέγιστος αριθµός των αριθµητικών ψηφίων ή των χαρακτήρων που καταχωρίζονται στη
2 Μέτρια
ΕΥΧΕΡΕΙΑ 3 Μέτρια Data View. Απαραίτητο να ρυθµίζεται για την καταχώριση δεδοµένων κειµένου.
4 Μεγάλη
5 Πολύ µεγάλη COLUMNS: Πλάτος (άνοιγµα) της αντίστοιχης στήλης της Data View.
ALIGN: Στοίχιση των δεδοµένων στην αντίστοιχη στήλη της Data View.
Εικόνα 19: Πληροφορίες για τις µεταβλητές από File → Display File Information → Working File
Ενότητα 1.3:
Πληροφορίες για τις µεταβλητές που περιέχει το αρχείο δεδοµένων µπορούµε να πάρουµε από: 1.7 Άσκηση 1η
Variable View ή Utilities → Variables … ή File → Display File Information → Working File. Ο παρακάτω πίνακας δεδοµένων δίνει µερικά χαρακτηριστικά για ένα τυχαίο δείγµα 50 µαθητών της Γ΄
τάξης κάποιου Λυκείου της χώρας.
Αριθµός Φύλο* Κυριότερη Ασχολία στον Αριθµός Βαθµός Β΄ Ύψος Βάρος Ύψος πατέρα Ύψος µητέρας
1.6 Αγγλική Ορολογία για την Ενότητα 1 Ερωτ/γίου Ελεύθερο Χρόνο αδερφών λυκείου (cm) (Kg) (cm)# (cm)#
1 Κ Χορός / µουσική 1 15,3 170 60 172 169
2 Α Υπολογιστές 0 17,4 175 68 170 163
Add: Προσθήκη / καταχώριση
3 Κ Χορός / µουσική 2 18,6 176 62 180 170
Align: Ευθυγράµµιση / στοίχιση 11 Κ Χορός / µουσική 1 17,7 152 58 999 999
29 Κ ∆εν απάντησε 0 15,5 149 45 166 163
Case: Άτοµο / περίπτωση TV-Κινηµατογράφος
4 Κ 1 18,5 165 47 175 160
Column: Στήλη 5 Κ TV-Κινηµατογράφος 0 16,0 169 56 172 167
6 Κ Χορός / µουσική 3 16,0 168 56 180 166
Column: Στήλη 7 Κ Χορός / µουσική 2 15,3 175 58 173 171
Data Editor: Επεξεργαστής ∆εδοµένων 8 Α Χορός / µουσική 1 15,2 175 72 172 164
9 Α Αθλητισµός 3 18,6 173 67 174 162
Data View: Οθόνη ∆εδοµένων 10 Κ Χορός / µουσική 1 13,6 162 50 167 160
Date: Ηµεροµηνία 12 Κ Αθλητισµός 1 15,7 160 47 170 160
13 Α Αθλητισµός 1 11,5 170 58 169 163
Decimals / decimal places: ∆εκαδικά ψηφία 14 Κ ∆ιάβασµα εξωσχ. βιβλίων 3 20,0 167 50 170 164
20 Κ Χορός / µουσική 1 14,2 165 55 180 162
Display File Information: Επίδειξη πληροφοριών αρχείου
16 Α Υπολογιστές 0 17,6 180 77 170 165
Label: Ετικέτα 17 Κ Αθλητισµός 2 19,3 170 63 174 165
18 Α Αθλητισµός 0 14,3 182 75 170 170
Missing value: Απούσα τιµή
19 Α Αθλητισµός 2 17,8 178 84 174 165
Name: Όνοµα 15 Α Υπολογιστές 1 18,3 177 81 174 168
21 Α TV-Κινηµατογράφος 1 16,2 174 74 170 164
Nominal (variable): Ονοµαστική (µεταβλητή) 22 Κ ∆εν απάντησε 1 19,5 150 43 999 999
Numeric (data): Αριθµητικά (δεδοµένα) 23 Κ TV-Κινηµατογράφος 1 12,2 156 44 168 157
24 Κ TV-Κινηµατογράφος 1 13,3 172 53 175 166
Ordinal (variable): ∆ιατάξιµη (µεταβλητή) 25 Α TV-Κινηµατογράφος 2 18,5 172 60 169 162
Output: Έξοδος αποτελεσµάτων 26 Κ ∆ιάβασµα εξωσχ. βιβλίων 0 16,2 173 70 175 173
27 Κ Αθλητισµός 2 14,7 160 55 172 162
Row: Γραµµή 28 Α Αθλητισµός 0 14,2 187 91 178 170
30 Κ ∆ιάβασµα εξωσχ. βιβλίων 1 18,1 170 62 174 163
Save (As): Αποθήκευση (ως)
43 Κ Χορός / µουσική 0 15,0 170 63 172 167
Scale (variable): Ποσοτική (µεταβλητή) 32 Α Χορός / µουσική 0 15,1 178 77 173 169
33 Α Αθλητισµός 1 10,0 196 95 182 173
String (data): ∆εδοµένα κειµένου ή αλφαριθµητικά
34 Α Αθλητισµός 0 18,4 176 65 172 165
Type: Τύπος / είδος 35 Κ Χορός / µουσική 1 12,5 163 57 170 166
36 Κ Χορός / µουσική 2 13,5 161 61 175 159
Utilities: χρήσιµα εργαλεία 37 Κ Υπολογιστές 1 18,2 164 60 170 165
Value Labels: Ετικέτες τιµών 38 Α Αθλητισµός 1 19,2 179 80 175 160
39 Α Χορός / µουσική 3 17,2 165 70 165 160
Values: Τιµές 47 Κ Υπολογιστές 0 18,7 160 50 170 162
Variable: Μεταβλητή 41 Α TV-Κινηµατογράφος 1 18,5 185 88 183 166
Variable View: Οθόνη Μεταβλητών 31 Α Αθλητισµός 1 19,3 173 70 170 163
44 Κ Χορός / µουσική 1 14,8 170 67 173 168
Width: Πλάτος
45 Α Υπολογιστές 1 15,9 166 69 999 999
Working File: Αρχείο εργασίας 46 Α Υπολογιστές 2 18,3 170 69 167 161
40 Α Χορός / µουσική 1 17,8 178 72 176 162
49 Α ∆ιάβασµα εξωσχ. βιβλίων 2 20,0 171 72 170 163
* Κ = Κορίτσι, Α = Αγόρι.
#
999: Άγνωστο / δεν καταγράφηκε
Ζητούµενα:
2. Πίνακες Κατανοµής Συχνοτήτων
(α) Κατασκευάστε κατάλληλη βάση δεδοµένων στη Variable View του SPSS για την καταχώριση του
παραπάνω πίνακα δεδοµένων, ορίζοντας τις βασικές πληροφορίες για κάθε µεταβλητή (όνοµα, τύπος 2.1 Πίνακες Συχνοτήτων για Μεµονωµένες Μεταβλητές (Frequencies)
δεδοµένων, ετικέτα, ετικέτες τιµών, είδος µεταβλητής κλπ).
Η πρώτη βασική εργασία µας µετά τη συλλογή δεδοµένων σε µια έρευνα είναι η καταχώρισή τους στον
Data Editor του SPSS υπό τη µορφή ενός πίνακα δεδοµένων, όπως είδαµε στην προηγούµενη ενότητα.
(β) Καταχωρίστε τα παραπάνω δεδοµένα για τους 50 µαθητές στη Data View του SPSS.
Παρόλο που αυτή η εργασία είναι µια πρώτη βασική οργάνωση των δεδοµένων, τα δεδοµένα
εξακολουθούν να είναι σε “ακατέργαστη” µορφή, που δεν µας επιτρέπει εύκολα να βγάλουµε
(γ) Αποθηκεύστε το αρχείο δεδοµένων σε USB stick / κάρτα µνήµης µε όνοµα 50µαθητές.sav.
οποιοδήποτε συµπέρασµα. Για παράδειγµα, κοιτώντας τον πίνακα δεδοµένων για τους 50 µαθητές της
Άσκησης 1 είναι δύσκολο ή εξαιρετικά χρονοβόρο να απαντήσουµε σε απλά ερωτήµατα όπως π.χ.
(δ) Εξάγετε ένα αρχείο αποτελεσµάτων του SPSS (output) το οποίο να περιλαµβάνει συνοπτικά τις
πόσα αγόρια πήραν µέρος στην έρευνά µας ή ποιος ήταν ο συχνότερος βαθµός των µαθητών του
πληροφορίες του ερωτήµατος (β). Αποθηκεύστε το αρχείο εξόδου στο USB stick / κάρτα µνήµης σας
δείγµατος ή πόσοι µαθητές είχαν βαθµό µικρότερο από 15, κλπ.
µε όνοµα 50µαθητές.spv.
Ένα από τα βασικότερα εργαλεία για την περιγραφή των δεδοµένων µας είναι ο Πίνακας Συχνοτήτων
(Frequency Table) των τιµών µιας µεταβλητής (απευθυνθείτε στις παραδόσεις της θεωρίας για
περισσότερες λεπτοµέρειες).
Για κάθε τιµή της εξεταζόµενης µεταβλητής, ο Πίνακας Συχνοτήτων που παράγει το SPSS αναγράφει:
Τη συχνότητά της (frequency), δηλαδή το πλήθος των εµφανίσεων της τιµής στα δεδοµένα,
Τη σχετική συχνότητά της σε ποσοστό % (percent), δηλαδή το ποσοστό των εµφανίσεων της
τιµής στο συνολικό δείγµα,
Τo “έγκυρο” ποσοστό % (valid percent), δηλαδή το ποσοστό των εµφανίσεων της τιµής στο
σύνολο των ατόµων που έδωσαν απαντήσεις, και
Το αθροιστικό ποσοστό της (cumulative percent), δηλαδή το ποσοστό των εµφανίσεων όλων
των τιµών της µεταβλητής µέχρι και τη συγκεκριµένη τιµή (εξαιρώντας τις απούσες τιµές).
Οι αθροιστικές συχνότητες προϋποθέτουν την τοποθέτηση των τιµών της µεταβλητής σε αύξουσα
σειρά, πράγµα που µπορεί να γίνει για ποσοτικά και για ποιοτικά διατάξιµα δεδοµένα. Αυτό όµως δεν
έχει κανένα νόηµα για δεδοµένα προερχόµενα από ποιοτική ονοµαστική µεταβλητή και, εποµένως, οι
αθροιστικές συχνότητες δεν πρέπει να χρησιµοποιούνται για τέτοια δεδοµένα (παρόλο που το SPSS
υπολογίζει τα αθροιστικά ποσοστά σε ονοµαστικές µεταβλητές).
Για την κατασκευή ενός πίνακα συχνοτήτων στο SPSS, δίνουµε την εξής σειρά εντολών:
Analyze → Descriptive Statistics → Frequencies...
Παράδειγµα 2: το αρχείο αποτελεσµάτων του SPSS (output) µε τους πίνακες συχνοτήτων για τις µεταβλητές που
καθορίσαµε, όπως δείχνει η Εικόνα 21.
Χρησιµοποιώντας τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) θα ζητήσουµε από το SPSS την
παραγωγή πινάκων συχνοτήτων για τις τιµές του Φύλου, της Κυριότερης Ασχολίας στον Ελεύθερο
Χρόνο, και του Αριθµού των Αδερφών.
Επιλέγουµε από το µενού του SPSS: Analyze → Descriptive Statistics → Frequencies... Παίρνουµε
τότε το πλαίσιο διαλόγου Frequencies, όπως φαίνεται στην Εικόνα 20:
Εικόνα 20: Πλαίσιο διαλόγου Frequencies για την κατασκευή πινάκων συχνοτήτων
Στο αριστερό παράθυρο εµφανίζονται όλες οι µεταβλητές-στήλες του αρχείου δεδοµένων. Το SPSS
δείχνει τόσο τα ονόµατα όσο και τις ετικέτες των µεταβλητών που είχαµε ορίσει στη Variable View, µε
τη σειρά που εµφανίζονται στο αρχείο δεδοµένων (εκτός αν έχει γίνει διαφορετική ρύθµιση από το Edit
→ Options). Μπορούµε επί τόπου να ρυθµίσουµε την εµφάνιση της λίστας των µεταβλητών στα
αριστερά, κάνοντας δεξί κλικ και επιλέγοντας Display Variable Names για να εµφανίζονται µονάχα τα
σύντοµα ονόµατα των µεταβλητών ή Display Variable Labels για να εµφανίζονται οι αναλυτικές
περιγραφές των µεταβλητών.
Από τις µεταβλητές στα αριστερά, επιλέγουµε εκείνη ή εκείνες για τις οποίες επιθυµούµε να
κατασκευαστούν πίνακες συχνοτήτων και τις εισάγουµε στο δεξί παράθυρο. Μπορούµε να
Εικόνα 21: Έξοδος αποτελεσµάτων (output) της εντολής Frequencies
µετακινήσουµε τις µεταβλητές προς τα δεξιά επιλέγοντάς τις και πατώντας το ενδιάµεσο πλήκτρο
βέλους ή πιάνοντας – και – σύροντάς τις προς τα δεξιά ή κάνοντας διπλό-κλικ πάνω τους. Με τον ίδιο
Ο πρώτος πίνακας, µε τίτλο Statistics, µας ενηµερώνει για τον αριθµό των έγκυρων περιπτώσεων (Ν
τρόπο µπορούµε να τις επαναφέρουµε στην αρχική τους θέση στα αριστερά. Έπειτα, τσεκάρουµε την
valid) και τον αριθµό των απουσών τιµών (Ν missing). Για το Φύλο και τον Αριθµό Αδερφών έχουµε N
επιλογή Display frequency tables (αν δεν είναι ήδη τσεκαρισµένη) και πατάµε ΟΚ. Εµφανίζεται τότε
valid = 50 και N missing = 0, δηλαδή διαθέτουµε τα στοιχεία αυτά για όλα τα άτοµα του δείγµατός
µας. Για την Κυριότερη Ασχολία στον Ελεύθερο Χρόνο είναι N valid = 48 και N missing = 2, δηλαδή υπάρχουν απούσες τιµές, δηλαδή αν διαθέτουµε δεδοµένα για όλα τα άτοµα στο δείγµα µας,
διαθέτουµε τις απαντήσεις των 48 από τους 50 µαθητές της έρευνάς µας. τότε προφανώς η στήλη Valid Percent ταυτίζεται µε την προηγούµενη στήλη Percent, όπως
Οι επόµενοι τρεις πίνακες αποτελούν τους πίνακες συχνοτήτων (Frequency Tables) για το Φύλο, την συµβαίνει π.χ. στους πίνακες συχνοτήτων για το Φύλο και τον Αριθµό Αδερφών. Στην
Κυριότερη Ασχολία και τον Αριθµό των Αδερφών, αντίστοιχα. Σε αυτούς τους πίνακες: περίπτωση όµως της Κυριότερης Ασχολίας, για την οποία υπάρχουν απούσες τιµές, οι δύο
Η επικεφαλίδα του πίνακα συχνοτήτων αντιστοιχεί στην ετικέτα που είχαµε ορίσει για τη στήλες Percent και Valid Percent είναι διαφορετικές. Τα ποσοστά στη στήλη Percent
µεταβλητή µας στη θέση Label της Variable View. υπολογίστηκαν για το συνολικό δείγµα (= 50), ενώ τα ποσοστά της στήλης Valid Percent
Η 1η στήλη του πίνακα συχνοτήτων δίνει τις ετικέτες των τιµών της µεταβλητής, όπως αυτές υπολογίστηκαν για το σύνολο των ατόµων για τα οποία διαθέτουµε δεδοµένα (= 48). Για
είχαν οριστεί στη θέση Values της Variable View. Για τον Αριθµό των Αδερφών δεν είχαµε παράδειγµα, το ποσοστό των µαθητών που δήλωσαν ότι ασχολούνται κυρίως µε υπολογιστές
ορίσει ετικέτες τιµών, οπότε βλέπουµε απευθείας τις αριθµητικές τιµές της µεταβλητής. Για το είναι 14% στο σύνολο των 50 µαθητών που ρωτήθηκαν (7 στους 50, στήλη Percent), ενώ είναι
Φύλο βλέπουµε τις ετικέτες “Κορίτσι” και “Αγόρι”, και για την Κυριότερη Ασχολία τις 14,6% στο σύνολο των 48 µαθητών που απάντησαν την ερώτηση (7 στους 48, στήλη Valid
ετικέτες “Υπολογιστές”, “Αθλητισµός”, κλπ. H 1η στήλη περιλαµβάνει ακόµη µια θέση για Percent) [Εικόνα 21]. Στην πράξη, δίνουµε τα ποσοστά της στήλης Valid Percent για να
Σύνολο ή Άθροισµα (Total) και µπορεί να περιλαµβάνει και µια θέση για τις Απούσες Τιµές αναφέρουµε τα αποτελέσµατα της έρευνάς µας, σηµειώνοντας όµως την ύπαρξη απουσών
(Missing). [Εικόνα 21] τιµών, συνήθως βάζοντας µια υποσηµείωση στον πίνακα συχνοτήτων. Η πρακτική να
Η 2η στήλη, µε επικεφαλίδα Frequency, δίνει τις συχνότητες (αριθµός ατόµων) για κάθε τιµή υπολογίζουµε και να δίνουµε τα ποσοστά µετά από την εξαίρεση των ατόµων µε απούσες τιµές
της µεταβλητής. Έτσι, π.χ. στο δείγµα µας έχουµε 28 κορίτσια και 22 αγόρια, η κυριότερη (δηλ. να δίνουµε τα valid percents) είναι εύλογη, γιατί µόνον στα άτοµα για τα οποία
ασχολία στον ελεύθερο χρόνο που δηλώθηκε από τους περισσότερους µαθητές ήταν “Μουσική διαθέτουµε δεδοµένα µπορούµε να δηλώσουµε µε ακρίβεια τις πληροφορίες που πήραµε.
/ χορός” και η επόµενη πιο συχνή επιλογή ήταν “Αθλητισµός” (δηλώθηκαν από 15 και 12 Παρατηρήστε ότι, σε αντίθεση µε τις προηγούµενες στήλες, η στήλη Valid Percent
άτοµα, αντίστοιχα), και οι περισσότεροι µαθητές (25 άτοµα) είχαν 1 αδέρφι. Το σύνολο (Total) περιλαµβάνει µόνο ένα total (αφού εξαιρεί τις απούσες τιµές), το οποίο είναι το άθροισµα όλων
της στήλης Frequency δίνει το άθροισµα των συχνοτήτων για όλες τις τιµές της µεταβλητής των “έγκυρων” ποσοστών και προφανώς είναι πάντα ίσο µε 100%.
συµπεριλαµβανοµένων των απουσών τιµών και, άρα, είναι ίσο µε το µέγεθος του δείγµατος (= Η 5η στήλη, µε τίτλο Cumulative Percent, δίνει την ποσοστιαία σχετική αθροιστική συχνότητα
50). Στην περίπτωση που υπάρχουν απούσες τιµές, όπως συµβαίνει µε τον πίνακα συχνοτήτων ή αθροιστικό ποσοστό, εξαιρώντας τις απούσες τιµές. Τα αθροιστικά ποσοστά, όπως έχουµε
για την Κυριότερη Ασχολία, παρατηρήστε ότι το SPSS εµφανίζει δύο Totals: το πρώτο δεν ήδη τονίσει, δεν έχουν νόηµα σε ποιοτικές ονοµαστικές µεταβλητές. Έτσι, παρόλο που το
περιλαµβάνει τις απούσες τιµές, ενώ το δεύτερο τις περιλαµβάνει [Εικόνα 21]. SPSS τα υπολόγισε, αγνοούµε τα αθροιστικά ποσοστά για το Φύλο και την Κυριότερη
Η 3η στήλη, µε τίτλο Percent, δίνει την ποσοστιαία σχετική συχνότητα (ποσοστό των ατόµων) Ασχολία. Στην περίπτωση του Αριθµού Αδερφών, που είναι ποσοτική µεταβλητή, τα
για κάθε τιµή της µεταβλητής. Σε αυτό το ποσοστό περιλαµβάνονται οι απούσες τιµές αθροιστικά ποσοστά έχουν νόηµα και µπορούµε να τα χρησιµοποιήσουµε. Για παράδειγµα,
(missing), δηλαδή τα ποσοστά στη στήλη Percent υπολογίζονται µε βάση το συνολικό µέγεθος βλέπουµε στην Εικόνα 21, ότι το 92% των µαθητών στο δείγµα µας έχουν µέχρι και 2 αδέρφια.
δείγµατος (= 50). Έτσι, π.χ. το 56% των ατόµων στο δείγµα µας είναι κορίτσια (28 στους 50) Το 92% υπολογίστηκε προσθέτοντας τα ποσοστά (valid percents) όσων ατόµων είχαν 0 ή 1 ή 2
και το 44% είναι αγόρια (22 στους 50). Το 14% των µαθητών στο δείγµα µας (7 στους 50) αδέρφια (92% = 24% + 50% +18%).
δήλωσαν τους υπολογιστές ως την κυριότερη ασχολία τους, το 24% δήλωσαν τον αθλητισµό
(12 στους 50), κλπ. Για το 4% των µαθητών (2 στους 50) δεν καταγράφηκε ή δεν απαντήθηκε η Αποθηκεύστε το αρχείο εξόδου (της εικόνας 21) δίνοντας το όνοµα παράδειγµα_2.spν. (ή
κυριότερη ασχολία στον ελεύθερο χρόνο. Το σύνολο (Total) της στήλης Percent δίνει το παράδειγµα_2.spο, αν έχετε έκδοση του SPSS παλαιότερη της 16).
άθροισµα των ποσοστών για όλες τις τιµές της µεταβλητής συµπεριλαµβανοµένων των ■
απουσών τιµών και, άρα, είναι ίσο µε 100%. Παρατηρήστε πάλι την εµφάνιση δύο totals, χωρίς
και µε τις απούσες τιµές αντίστοιχα, στον πίνακα συχνοτήτων για την Κυριότερη Ασχολία
2.2 Επεξεργασία Πινάκων του SPSS και Μεταφορά τους σε Προγράµµατα Office
[Εικόνα 21].
Όλοι οι πίνακες στο output του SPSS, όπως π.χ. οι πίνακες συχνοτήτων που κατασκευάσαµε στην
Η 4η στήλη, µε επικεφαλίδα Valid Percent, δίνει το ποσοστό των ατόµων σε κάθε κατηγορία
προηγούµενη ενότητα, είναι πλήρως επεξεργάσιµοι. ∆ηλαδή µπορείτε να αλλάξετε τους τίτλους, τη
της µεταβλητής, εξαιρώντας τις απούσες τιµές. ∆ηλαδή, τα ποσοστά της στήλης Valid Percent
γραµµατοσειρά, το µέγεθος των χαρακτήρων, να διαγράψετε στήλες ή γραµµές, κλπ.
υπολογίζονται µε βάση το σύνολο των ατόµων για τα οποία διαθέτουµε δεδοµένα. Αν δεν
Η διαδικασία επεξεργασίας των πινάκων είναι πολύ απλή: κάνετε διπλό κλικ πάνω στον πίνακα που Μπορείτε ακόµη να µεταφέρετε έναν πίνακα από το output του SPSS σε προγράµµατα του Office,
θέλετε να τροποποιήσετε, και µε δεξί κλικ µπορείτε να προχωρήσουµε στις καρτέλες Table Properties, όπως το Word, το Excel ή το Power Point, και να τον επεξεργαστείτε εκεί, αν το βρίσκετε ευκολότερο.
Cell Properties, Table Looks, ή στις επιλογές Hide, Cut, Copy, Paste και Clear / Delete (Εικόνα 22). Απλώς πρέπει να κάνετε δεξί κλικ πάνω στον πίνακα που θέλετε να µεταφέρετε και να επιλέξετε Copy
Μπορείτε ακόµα να πιάσετε – και – σύρετε τις στήλες του πίνακα για να µεγαλώσετε ή να µικρύνετε το (αντιγραφή). Έπειτα, µπορείτε να κάνετε επικόλληση (paste) σε έγγραφο του Word ή του Power Point,
πλάτος τους. Αν θέλετε να αλλάξετε κάτι σε συγκεκριµένο σηµείο του πίνακα (π.χ. την επικεφαλίδα) και να επεξεργαστείτε τον πίνακα µε τα εργαλεία των προγραµµάτων αυτών.
κάνετε δεύτερο διπλό κλικ πάνω στο συγκεκριµένο σηµείο.
Αν θέλετε να µεταφέρετε πολλούς πίνακες σε Word, Excel ή Power Point, π.χ. όλους τους πίνακες της
εικόνας 21, µπορείτε να αποφύγετε τα διαδοχικά copy – paste, ζητώντας από το SPSS να κάνει
εξαγωγή (export) ολόκληρου του output σε αντίστοιχο αρχείο doc, xls, ppt κλπ. Αυτό γίνεται από το
µενού: File → Export …, που δίνει το πλαίσιο διαλόγου Export Output της Εικόνας 24, µε προφανείς
επιλογές για τη διαδικασία της εξαγωγής.
Εικόνα 22: Επεξεργασία πίνακα στο output του SPSS.
Ο καλύτερος τρόπος για να εξοικειωθείτε µε τις διαδικασίες της επεξεργασίας πινάκων στο SPSS είναι
να πειραµατιστείτε! Για παράδειγµα, δοκιµάστε να επεξεργαστείτε τον πίνακα της Εικόνας 22 ώστε να
προκύψει ο πίνακας της Εικόνας 23:
Εικόνα 24: Εξαγωγή (µεταφορά) του Output προς άλλα προγράµµατα µε την επιλογή File → Export
Εικόνα 23: Τροποποιήσεις στον πίνακα της προηγούµενης εικόνας

Αφού αποφασίσουµε τόσο για το πλήθος όσο και για τα άκρα των οµάδων τιµών που χρειαζόµαστε για
2.3 Οµαδοποίηση Ποσοτικών ∆εδοµένων (Recode) την παρουσίαση των δεδοµένων µας, µπορούµε να πραγµατοποιήσουµε την οµαδοποίηση επιλέγοντας
από τη γραµµή µενού του SPSS:
Συχνά οι τιµές µιας µεταβλητής είναι τόσες πολλές ώστε κρίνεται απαραίτητη η οµαδοποίησή τους,
Transform → Recode → Into Different Variables...
πριν την κατασκευή ενός πίνακα συχνοτήτων. Απευθυνθείτε στις παραδόσεις θεωρίας για περισσότερες
Με αυτές τις εντολές ανακωδικοποίησης µπορούµε να δηµιουργήσουµε µια νέα µεταβλητή, της οποίας
λεπτοµέρειες σχετικά µε την οµαδοποίηση ποσοτικών δεδοµένων.
οι τιµές να αποτελούν οµάδες τιµών της αρχικής µεταβλητής.
Για το θέµα αυτό, σηµειώνουµε µόνον εδώ, ότι η οµαδοποίηση των τιµών µιας µεταβλητής για σκοπούς
Σηµειώνουµε ότι το SPSS µας δίνει και την επιλογή Transform → Recode → Into Same Variables ...,
παρουσίασης των δεδοµένων γίνεται µε βάση την κρίση µας και την εµπειρία που διαθέτουµε.
µε την οποία µπορούµε να τροποποιήσουµε µια υπάρχουσα µεταβλητή (που σηµαίνει ότι θα χάσουµε
Μπορούµε να κατασκευάσουµε όσες οµάδες τιµών κρίνουµε απαραίτητες και να χρησιµοποιούµε
τα αρχικά δεδοµένα). Η επιλογή Into Same Variables είναι χρήσιµη σε περιπτώσεις που θέλουµε να
άνισα πλάτη οµάδων αν αυτό κριθεί σκόπιµο. Ωστόσο, για σκοπούς ανάλυσης, όπως π.χ. για να
επανα-κωδικοποιήσουµε τις τιµές µιας µεταβλητής. Για παράδειγµα, στο αρχείο δεδοµένων της
εξετάσουµε τη µορφή της κατανοµής των δεδοµένων µέσω ιστογραµµάτων (θα δούµε τι ακριβώς
άσκησης 1 (50µαθητές.sav) είχαµε χρησιµοποιήσει για την Κυριότερη Ασχολία την ακόλουθη
σηµαίνει αυτό και πως γίνεται σε επόµενη ενότητα), είναι βολικό να χρησιµοποιούµε οµάδες τιµών
κωδικοποίηση: 1=Υπολογιστές, 2=Αθλητισµός, 3=Χορός/µουσική, 4=Τηλεόραση-Κινηµατογράφος,
ίσου πλάτους και να αφήνουµε το SPSS να επιλέγει αυτόµατα τον κατάλληλο αριθµό των οµάδων που
5=∆ιάβασµα εξωσχολικών βιβλίων, και 9=∆εν απάντησε. Θα χρησιµοποιούσαµε την επιλογή Into Same
θα κατασκευαστούν. Το SPSS διαθέτει το δικό του αλγόριθµο για το σκοπό αυτό, ο οποίος είναι λίγο
Variables αν θέλαµε να αλλάξουµε, για την ίδια µεταβλητή, την κωδικοποίηση των τιµών της, π.χ. σε
διαφορετικός από τον τύπο Sturges που έχουµε δει στη θεωρία, αλλά αρκετά καλός για τις
1=Χορός/µουσική, 2=Αθλητισµός, 3=Υπολογιστές, 5=∆ιάβασµα εξωσχολικών βιβλίων, 4=Τηλεόραση-
περισσότερες πρακτικές εφαρµογές.
Κινηµατογράφος, και 0=∆εν απάντησε.
Βαθµός Β΄λυκείου
Cumulative Παράδειγµα 3:
Valid 10,0
Frequency Percent Valid Percent Percent Για παράδειγµα, η Εικόνα 25 δίνει τον
1 2,0 2,0 2,0
11,5 1 2,0 2,0 4,0
12,2 1 2,0 2,0 6,0
πίνακα συχνοτήτων για το Βαθµό Β΄
12,5 1 2,0 2,0 8,0 Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav), για να κατασκευάσουµε
13,3 1 2,0 2,0 10,0 Λυκείου των 50 µαθητών της άσκησης 1
13,5 1 2,0 2,0 12,0 µια νέα µεταβλητή µε οµαδοποιηµένες τιµές για το Βαθµό Β΄ Λυκείου. Οι τέσσερις οµάδες των
13,6 1 2,0 2,0 14,0
(αρχείο δεδοµένων: 50µαθητές.sav). Είναι
14,2
14,3
2
1
4,0
2,0
4,0
2,0
18,0
20,0
βαθµών που θα φτιάξουµε, θα είναι οι: 10 - 13, 13,1 - 16, 16,1 - 18 και 18,1 - 20,2 οι οποίες
14,7 1 2,0 2,0 22,0 προφανές ότι ο πίνακας αυτός είναι
14,8 1 2,0 2,0 24,0 χρησιµοποιούνται στην πράξη για το χαρακτηρισµό της βαθµολογικής επίδοσης των µαθητών ως
15,0 1 2,0 2,0 26,0 υπερβολικά λεπτοµερής για να βοηθήσει την
15,1 1 2,0 2,0 28,0 «Σχεδόν καλώς», «Καλώς», «Λίαν καλώς» και «Άριστα» αντίστοιχα.
15,2 1 2,0 2,0 30,0
15,3 2 4,0 4,0 34,0
παρουσίαση των δεδοµένων µας. Είναι
15,5 1 2,0 2,0 36,0
15,7 1 2,0 2,0 38,0 εξαιρετικά αµφίβολο αν οι αναγνώστες µας,
15,9 1 2,0 2,0 40,0 Επιλέγουµε Transform → Recode → Into Different Variables ... από τη γραµµή µενού, για να πάρουµε
16,0 2 4,0 4,0 44,0
ή ακόµη κι εµείς οι ίδιοι, θα µπορούσαµε να
16,2
17,2
2
1
4,0
2,0
4,0
2,0
48,0
50,0
το πλαίσιο διαλόγου της Εικόνας 26:
17,4 1 2,0 2,0 52,0 συγκρατήσουµε οποιαδήποτε πληροφορία
17,6 1 2,0 2,0 54,0
17,7 1 2,0 2,0 56,0 από τον πίνακα αυτό. Εξάλλου, έχει
17,8 2 4,0 4,0 60,0
18,1 1 2,0 2,0 62,0
18,2 1 2,0 2,0 64,0
ελάχιστο ή καθόλου ενδιαφέρον να δείξουµε
18,3 2 4,0 4,0 68,0
18,4 1 2,0 2,0 70,0 πόσοι µαθητές πήραν βαθµό π.χ. 20 ή 19,7 ή
18,5 3 6,0 6,0 76,0
18,6
18,7
2
1
4,0
2,0
4,0
2,0
80,0
82,0
19,4 κλπ. Αυτοί οι µαθητές θα µπορούσαν
19,2 1 2,0 2,0 84,0
19,3 3 6,0 6,0 90,0 να κατηγοριοποιηθούν σε µία µόνον οµάδα
19,4 1 2,0 2,0 92,0
19,5 1 2,0 2,0 94,0 και να χαρακτηριστούν ως «άριστοι».
19,7 1 2,0 2,0 96,0
20,0 2 4,0 4,0 100,0
Total 50 100,0 100,0
Εικόνα 25: Ένας υπερβολικά µεγάλος πίνακας συχνοτήτων! 2

Σύµφωνα µε τα όσα έχουµε δει στο θεωρητικό µέρος του µαθήµατος, θα µπορούσαµε να χρησιµοποιήσουµε τον
µαθηµατικό συµβολισµό: [10, 13], (13, 16], (16, 18] και (18, 20]. Είναι προφανές ότι πρόκειται για οµάδες
βαθµών µε άνισα πλάτη.
Εικόνα 26: Πλαίσιο διαλόγου για την επανα-κωδικοποίηση σε νέα µεταβλητή (recode into different variables)
Τα επόµενα βήµατά µας είναι:

• Στο ενδιάµεσο πλαίσιο (Numeric Variable --> Output Variable) µεταφέρουµε τη µεταβλητή
ΒΑΘΜΟΣ, την οποία πρόκειται να οµαδοποιήσουµε. Εικόνα 27: Πλαίσιο διαλόγου Old and New Values την επανα-κωδικοποίηση µεταβλητών
• Στην επιλογή Name στα δεξιά (Output Variable), ορίζουµε το όνοµα της νέας µεταβλητής που
θα δηµιουργήσουµε και µπορούµε, αν κρίνουµε απαραίτητο, να δώσουµε µια εκτενέστερη • Για την αποφυγή προβληµάτων µε την κωδικοποίηση απουσών τιµών, συνιστούµε να
περιγραφή στη θέση Label. Εδώ, δίνουµε το όνοµα ΕΠΙ∆ΟΣΗ. ορίζεται πάντοτε η αντιστοίχιση System- or user-missing ↔ System –missing.
• Πατάµε Change για να ληφθούν υπόψη οι καταχωρίσεις µας. Στο ενδιάµεσο πλαίσιο θα πρέπει • Μετά την εκτέλεση της εντολής Recode, θα εµφανιστεί παράθυρο εξόδου του SPSS για να µας
να αναγράφεται ΒΑΘΜΟΣ --> ΕΠΙ∆ΟΣΗ. Το SPSS γνωρίζει τώρα, ότι θα πρέπει να ενηµερώσει για την εκτέλεση της παραπάνω διαδικασίας:
χρησιµοποιήσει την υπάρχουσα στήλη ΒΑΘΜΟΣ για να φτιάξει µια νέα στήλη µε όνοµα RECODE ΒΑΘΜΟΣ (10 thru 13=1) (13.1 thru 16=2) (16.1 thru 18=3) (18.1 thru 20=4)
ΕΠΙ∆ΟΣΗ στη Data View. (MISSING=SYSMIS) INTO ΕΠΙ∆ΟΣΗ. EXECUTE.
• Πρέπει ακόµη να καθορίσουµε τη διαδικασία µε την οποία θέλουµε να οµαδοποιήσουµε τις • Στη Data View θα έχει δηµιουργηθεί νέα µεταβλητή – στήλη, µε όνοµα ΕΠΙ∆ΟΣΗ, στην οποία
τιµές της µεταβλητής ΒΑΘΜΟΣ. Αυτό γίνεται µε το πλήκτρο Old and New Values, που οδηγεί κάθε µαθητής θα έχει πάρει κωδικό 1, 2, 3, ή 4 ανάλογα µε το βαθµό του (Εικόνα 28).
στο πλαίσιο διαλόγου της Εικόνας 27. Οι Old Values στα αριστερά είναι οι βαθµοί των
µαθητών που ήδη υπάρχουν στα δεδοµένα µας, ενώ οι New Values θα είναι οι κωδικοί των
τεσσάρων οµάδων (π.χ. 1, 2, 3 και 4) που θέλουµε να κατασκευάσουµε. ∆ηλαδή, θα πρέπει
πρώτα να καθορίσουµε ως old values τις 10 – 13 στη θέση Range στα αριστερά, και ως new
value να δηλώσουµε το 1 στα δεξιά (καταχωρίζουµε πατώντας Add). Έπειτα, δηλώνουµε Old
Value Range = 13,1 – 16, New Value = 2 και καταχωρίζουµε µε Add. Συνεχίζουµε τη διαδικασία
για να δηλώσουµε και τις υπόλοιπες οµάδες τιµών, δηλαδή τις 16,1 – 18 → 3 και 18,1 – 20 → 4,
ώστε να πάρουµε την Εικόνα 27, όπου πατάµε Continue. Επιστρέφουµε στο προηγούµενο
πλαίσιο διαλόγου και πατάµε ΟΚ.3
3
Θα µπορούσαµε να χρησιµοποιήσουµε την επιλογή Range, LOWEST through value = 13 για να δηλώσουµε την
πρώτη οµάδα (10 – 13), και την επιλογή Range, value through HIGHEST = 18,1 για να δηλώσουµε την τελευταία
Εικόνα 28
οµάδα (18,1 – 20).
• Πρέπει ακόµη να ορίσουµε τις ιδιότητες της νέας µεταβλητής ΕΠΙ∆ΟΣΗ στη Variable View:
Type = Numeric, Decimals = 0, Width = 1, Label = Επίδοση Β΄ Λυκείου, Values = (1 = Σχεδόν Καλώς,
2.4 Καταχώριση Έτοιµων Πινάκων Συχνοτήτων στο SPSS (Weight Cases)
2 = Καλώς, 3 = Λίαν Καλώς, 4 = Άριστα), Missing = None, Align = Left και Measure = Ordinal Συχνά δεν διαθέτουµε τα αρχικά δεδοµένα µιας έρευνας αλλά µόνον έτοιµους πίνακες συχνοτήτων,
(Εικόνα 29). τους οποίους θα θέλαµε να καταχωρίσουµε στο SPSS προκειµένου να προχωρήσουµε σε περαιτέρω
ανάλυση των δεδοµένων (π.χ. υπολογισµό ποσοστών, κατασκευή διαγραµµάτων ή υλοποίηση ενός
ελέγχου στατιστικής σηµαντικότητας). Για την καταχώριση ενός έτοιµου πίνακα συχνοτήτων
χρησιµοποιούµε τις εντολές:
Data → Weight Cases
Παράδειγµα 4:
Ο παρακάτω πίνακας δίνει το µορφωτικό επίπεδο 200 εργαζοµένων σε έρευνα που έγινε σε
συγκεκριµένη εταιρεία:
Μορφωτικό επίπεδο Συχνότητα
Μεταπτυχιακός Τίτλος 19
Εικόνα 29 Πτυχίο 85
Μέση Εκπαίδευση 80
Μπορούµε, τέλος, να ζητήσουµε τη δηµιουργία πίνακα συχνοτήτων για την ΕΠΙ∆ΟΣΗ µε την εντολή Κατώτερη Εκπαίδευση 16
Frequencies. O παραγόµενος πίνακας συχνοτήτων δίνεται στην Εικόνα 30.

Για να καταχωρίσουµε στον Data Editor αυτό τον έτοιµο πίνακα ακολουθούµε την εξής διαδικασία:
Επίδοση Β΄Λυκείου Ορίζουµε έναν κωδικό για κάθε µία από τις κατηγορίες του µορφωτικού επιπέδου, π.χ. 1=
Cumulative «Μεταπτυχιακός Τίτλος», 2 = «Πτυχίο», 3 = «Μέση Εκπαίδευση» και 4 = «Κατώτερη Εκπαίδευση».

Frequency Percent Valid Percent Percent
Καταχωρίζουµε τους κωδικούς αυτούς σε κάθε ένα από τα πρώτα 4 κελιά της πρώτης στήλης στην
Valid Σχεδόν καλώς 4 8,0 8,0 8,0
Καλώς 18 36,0 36,0 44,0 Data View. Στη δεύτερη στήλη εισάγουµε τις αντίστοιχες συχνότητες (Εικόνα 31).
Λίαν καλώς 8 16,0 16,0 60,0
Άριστα 20 40,0 40,0 100,0
Total 50 100,0 100,0
Εικόνα 30
Παρατηρούµε ότι οι περισσότεροι µαθητές στο δείγµα µας είχαν χαρακτηρισµό βαθµολογικής επίδοσης
Άριστα (40%) ή Καλώς (36%). Το 16% των µαθητών είχαν επίδοση Λίαν καλώς, και το 8% των
µαθητών είχαν πολύ φτωχή επίδοση που ταξινοµήθηκε ως Σχεδόν καλώς.
Η πληροφορία που παίρνουµε από τον πίνακα συχνοτήτων των οµαδοποιηµένων βαθµών (Εικόνα 30)
είναι προφανώς καταλληλότερη για σκοπούς περιγραφής των δεδοµένων συγκριτικά µε τον πίνακα
συχνοτήτων για τα αρχικά, µη-οµαδοποιηµένα, δεδοµένα της Εικόνας 25.
Αποθηκεύστε το αρχείο δεδοµένων µε όνοµα 50µαθητές-επίδοση.sav και το αρχείο εξόδου ως

50µαθητές-επίδοση.spv. ■ Εικόνα 31
Χρησιµοποιώντας τη Variable View ορίζουµε τις ιδιότητες των δύο µεταβλητών-στηλών, όπως Μπορούµε, τώρα, να ζητήσουµε την παραγωγή πίνακα συχνοτήτων για το Μορφωτικό Επίπεδο µε
δείχνει η Εικόνα 32. Για τη µεταβλητή ΜΟΡΦΩΣΗ έχουµε χρησιµοποιήσει τις ετικέτες τιµών την εντολή Frequencies. Το αποτέλεσµα έχει ως εξής:
(Values): 1 = Μεταπτυχιακός τίτλος, 2 = Πτυχίο, 3 = Μέση εκπαίδευση, 4 = Κατώτερη
Μορφωτικό Επίπεδο
εκπαίδευση).
Cumulative
Frequency Percent Valid Percent Percent
Valid Μεταπτυχιακός τίτλος 19 9,5 9,5 9,5
Πτυχίο 85 42,5 42,5 52,0
Μέση εκπαίδευση 80 40,0 40,0 92,0
Κατώτερη εκπαίδευση 16 8,0 8,0 100,0
Total 200 100,0 100,0
Μπορούµε, έπειτα, να ζητήσουµε παραγωγή διαγραµµάτων και στατιστικών µέτρων από τον έτοιµο
πίνακα συχνοτήτων.
Εικόνα 32
Αποθηκεύστε το αρχείο δεδοµένων µε όνοµα Παράδειγµα4.sav και το αρχείο εξόδου ως

Η καταχώριση των δεδοµένων µας έχει ολοκληρωθεί, αλλά το SPSS, “βλέποντας” συµπληρωµένες
Παράδειγµα4.spv.
2 στήλες και 4 γραµµές, θεωρεί ότι έχουµε 2 µεταβλητές και 4 άτοµα. Ωστόσο, εµείς έχουµε µόνο
■
1 µεταβλητή και 200 άτοµα. Πρέπει εποµένως να δηλώσουµε στο SPSS ότι η δεύτερη στήλη στη
Data View δεν είναι µια µεταβλητή αλλά δίνει τις συχνότητες για τις τιµές της πρώτης στήλης. Για
2.5 Σύνοψη Βασικών Εννοιών και ∆ιαδικασιών της Ενότητας 2
το σκοπό αυτό επιλέγουµε Data → Weight Cases για να πάρουµε το παράθυρο της Εικόνας 33:
Για την κατασκευή ενός πίνακα συχνοτήτων για µία µεταβλητή χρησιµοποιούµε την εντολή
Frequencies (Analyze → Descriptive Statistics → Frequencies...). Ο παραγόµενος πίνακας µας
δίνει για κάθε τιµή της µεταβλητής: τη συχνότητά της (frequency), το ποσοστό της στο σύνολο του
δείγµατος (percent), το έγκυρο ποσοστό όταν εξαιρεθούν οι απούσες τιµές (valid percent), και το
αθροιστικό ποσοστό (cumulative percent).
Όλοι οι πίνακες στο output του SPSS είναι πλήρως επεξεργάσιµοι και µπορούν να µεταφερθούν σε
προγράµµατα του Office, όπως το Word, το Excel ή το Power Point, ένας-ένας µε copy - paste ή
πολλοί µαζί µε Export.
Για µεταβλητές που δέχονται πολλές τιµές (όπως συµβαίνει κυρίως µε τις συνεχείς ποσοτικές
µεταβλητές), οµαδοποιούµε τις τιµές τους πριν κατασκευάσουµε πίνακα συχνοτήτων.
Εικόνα 33 Χρησιµοποιούµε τις εντολές Transform → Recode → Into Different Variables..., µε τις οποίες
µπορούµε να δηµιουργήσουµε µια νέα µεταβλητή, της οποίας οι τιµές να αποτελούν οµάδες τιµών
Τσεκάρουµε την επιλογή Weight cases by και µεταφέρουµε στο αντίστοιχο κελί τη µεταβλητή της αρχικής µεταβλητής.
ΣΥΧΝΟΤΗΤΑ (Εικόνα 33). Πατάµε OK, και πλέον το SPSS αναγνωρίζει ότι η δεύτερη στήλη Για την καταχώριση ενός έτοιµου πίνακα συχνοτήτων στο SPSS χρησιµοποιούµε τις εντολές Data
δίνει τις συχνότητες των τιµών της πρώτης στήλης. Παρατηρήστε ότι ανοίγει αρχείο εξόδου που → Weight Cases για να δηλώσουµε τη στήλη της Data View στην οποία έχουµε καταχωρίσει τις
µας ενηµερώνει ότι η διαδικασία που ζητήσαµε εκτελέστηκε (WEIGHT BY ΣΥΧΝΟΤΗΤΑ), καθώς συχνότητες.
και ότι έχει εµφανιστεί η ένδειξη Weight On κάτω αριστερά στον Data Editor. Σηµειώνουµε ότι η
εντολή Weight Cases δεν συνοδεύει µόνιµα το αρχείο δεδοµένων µας, αλλά διαγράφεται όταν
κλείσουµε το SPSS και θα πρέπει να εκτελείται ξανά κάθε φορά που ανοίγουµε το αρχείο.
2.6 Αγγλική Ορολογία για την Ενότητα 2 2.7 Άσκηση 2η
Add: προσθήκη, καταχώριση

Το αρχείο “social_tv3.sav” περιέχει µέρος των αποτελεσµάτων µιας έρευνας που αφορούσε τη
Analyze: ανάλυσε διερεύνηση διαφόρων κοινωνικών οµάδων σε σχέση µε τη συνήθεια παρακολούθησης τηλεόρασης. Το
Cell Properties: ιδιότητες κελιού δείγµα αποτελούσαν 120 ενήλικες που επιλέχθηκαν µε απλή τυχαία δειγµατοληψία από µια αστική
Change: αλλαγή περιοχή. Το αρχείο δεδοµένων βρίσκεται αποθηκευµένο στο δίκτυο aretousa και στο eclass.
Clear / Delete: διαγραφή Χρησιµοποιώντας κατάλληλα το SPSS ζητείται να απαντήσετε στα ακόλουθα θέµατα:
Continue: συνέχισε
Copy: αντιγραφή (1) Συµπληρώστε στον ακόλουθο πίνακα τις πλήρεις περιγραφές, τις κωδικοποιήσεις και τα είδη των
Cumulative percent: αθροιστικό ποσοστό µεταβλητών που περιέχει το αρχείο social_tv3.sav.
Cut: αποκοπή Όνοµα Περιγραφή Κωδικοποίηση Είδος Μεταβλητής
Descriptive statistics: περιγραφικές στατιστικές ΦΥΛΟ
Frequency table: πίνακας (κατανοµής) συχνοτήτων ΗΛΙΚ
Frequency: συχνότητα
ΜΟΡΦ
Hide: απόκρυψη
Into Different Variable: σε άλλη µεταβλητή
ΟΙΚΚ
New values: νέες τιµές
Old values: παλιές (υπάρχουσες) τιµές
ΤΗΛ
Paste: επικόλληση
ΝΤΗΛ
Percent: ποσοστό (σχετική συχνότητα %)
Range: εύρος (2) Συµπληρώστε τους ακόλουθους πίνακες συχνοτήτων:
Recode: ανακωδικοποίηση
Μεταβλητή Συχνότητα Ποσοστό (%)
Table Looks: εµφανίσεις (µορφές) πίνακα Φύλο Άνδρες
Table Properties: ιδιότητες πίνακα Γυναίκες
Σύνολο
Thru: έως Μορφωτικό Επίπεδο
Total: σύνολο, άθροισµα <= Λυκείου
Τριτοβάθµια Εκ/ση
Transform: µετασχηµατισµός, µετατροπή Σύνολο
Valid percent: έγκυρο ποσοστό Οικογενειακή Κατάσταση
Παντρεµένος
Weight cases (by): στάθµιση παρατηρήσεων (από)
Ανύπαντρος
∆ιαζευγµένος
Σύνολο
Αριθµός TV στο σπίτι
Μέχρι 2
Πάνω από 2
Σύνολο
(3) Χρησιµοποιώντας κατάλληλα την εντολή recode, συµπληρώστε τον ακόλουθο πίνακα συχνοτήτων:
Ώρες Παρακολούθησης ΤV Συχνότητα Ποσοστό (%)
την ηµέρα
0
(0, 1]
(1, 2]
(2, 3]
>3
Σύνολο
3. Στατιστικά ∆ιαγράµµατα για 1 Μεταβλητή

3.2 Κυκλικό ∆ιάγραµµα (Pie)
3.1 Εισαγωγή
Το κυκλικό διάγραµµα χρησιµοποιείται για την απεικόνιση της κατανοµής συχνοτήτων µιας ποιοτικής
Συχνά είναι πολύ βολικό να παρουσιάζουµε τα δεδοµένα µας µε γραφικές παραστάσεις, που καλούνται µεταβλητής, η οποία µπορεί να δεχθεί λίγες τιµές. Η κατασκευή κυκλικού διαγράµµατος στο SPSS
στατιστικά διαγράµµατα (graphs, charts, plots). Ο τύπος διαγράµµατος που θα επιλέξουµε εξαρτάται µπορεί να γίνει µε πολλούς τρόπους, χρησιµοποιώντας της εντολή Frequencies που είδαµε στο
από το είδος της µεταβλητής. Για ποιοτικές µεταβλητές που δέχονται λίγες τιµές, χρησιµοποιούµε τα προηγούµενο κεφάλαιο, αλλά και αυτόνοµα από το µενού Graphs. Ειδικότερα, για την κατασκευή
κυκλικά διαγράµµατα (pie charts). Για ποιοτικές µεταβλητές µε πολλές τιµές και για ποσοτικές κυκλικού διαγράµµατος επιλέγουµε:
διακριτές µεταβλητές, επιλέγουµε τα ραβδογράµµατα (bar charts). Για ποσοτικές µεταβλητές των Graphs → Legacy Dialogs → Pie,
οποίων οι τιµές έχουν οµαδοποιηθεί, κατάλληλα είναι τα ιστογράµµατα (histograms). Για ποσοτικές Summaries for groups of cases, Define
µεταβλητές µπορούµε ακόµη να χρησιµοποιήσουµε τα Θηκόγραµµατα (Box plots), µε τα οποία θα για να οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 34.
ασχοληθούµε σε επόµενο κεφάλαιο.
Απευθυνθείτε στις παραδόσεις θεωρίας για περισσότερες λεπτοµέρειες σχετικά µε τα στατιστικά

διαγράµµατα.
Υπάρχουν πολλοί τρόποι να ζητήσουµε την παραγωγή διαγραµµάτων στο SPSS. Σχεδόν όλα τα
πλαίσια διαλόγου στο µενού Analyze περιλαµβάνουν επιλογές για την κατασκευή διαγραµµάτων. Για
παράδειγµα, το πλαίσιο διαλόγου της εντολής Frequencies έχει την επιλογή Charts, η οποία µας δίνει
τη δυνατότητα κατασκευής των προαναφερθέντων διαγραµµάτων. Ακόµη, το SPSS διαθέτει το µενού
Graphs αποκλειστικά για την κατασκευή διαγραµµάτων. Στο µενού αυτό, υπάρχουν διάφοροι τρόποι
εργασίας: Chart Builder, Legacy Dialogs και Interactive4. Θα συζητήσουµε την κατασκευή
διαγραµµάτων µε την επιλογή Legacy Dialogs, η οποία είναι η “παραδοσιακή” διαδικασία κατασκευής
διαγραµµάτων, διαθέσιµη ήδη από τις πρώτες εκδόσεις του SPSS.
Εποµένως, για την κατασκευή ενός στατιστικού διαγράµµατος η επιλογή µας θα είναι:
Graphs → Legacy Dialogs
Η επεξεργασία ενός διαγράµµατος (αλλαγή χρωµάτων, εισαγωγή τίτλων, τρισδιάστατα εφέ κλπ) γίνεται
µετά την παραγωγή του στο output. Με διπλό κλικ πάνω στο διάγραµµα, ανοίγουµε το παράθυρο
Chart Editor, το οποίο περιλαµβάνει διάφορα εργαλεία για την επεξεργασία διαγραµµάτων όπως θα
Εικόνα 34: Πλαίσιο διαλόγου Define Pie για την κατασκευή κυκλικού διαγράµµατος
δούµε στις επόµενες ενότητες.
Στο παραπάνω πλαίσιο διαλόγου πρέπει: 1) να δηλώσουµε τη µεταβλητή για την οποία θέλουµε να
γίνει το διάγραµµα µεταφέροντάς τη στη θέση Define Slices by (όρισε τα κοµµάτια του κύκλου από),
και 2) να δηλώσουµε στη θέση Slices Represent αν οι κυκλικοί τοµείς θέλουµε να παριστάνουν
συχνότητες (N of cases) ή ποσοστά (% of cases). Σηµειώνουµε ότι θα πάρουµε ακριβώς την ίδια όψη
στο διάγραµµα είτε επιλέξουµε συχνότητες είτε ποσοστά. Περαιτέρω επεξεργασία του διαγράµµατος
4
Η επιλογή Interactive απαλείφθηκε από τις νεότερες εκδόσεις του SPSS, στις οποίες συµπεριλήφθηκε η επιλογή
Graphboard Template Chooser. θα γίνει αφότου αυτό παραχθεί στο output µε τα εργαλεία του Chart Editor.
Παράδειγµα 5 Με διπλό κλικ πάνω στο διάγραµµα του Chart Editor, ανοίγουµε την καρτέλα Properties (Εικόνα 37).
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav), για να κατασκευάσουµε Η υπο-καρτέλα Fill & Border µας δίνει δυνατότητες αλλαγής χρωµάτων στους κυκλικούς τοµείς (Fill)
ένα κυκλικό διάγραµµα ποσοστιαίων συχνοτήτων για το Φύλο. Από το µενού Graphs, επιλέγουµε ή στο περίγραµµα (Border), καθώς και
Legacy Dialogs, Pie, Summaries for groups of cases και Define. Τοποθετούµε στη θέση Define Slices εισαγωγής µοτίβων (Pattern). Για να
by τη µεταβλητή ΦΥΛΟ και επιλέγουµε % of cases (Εικόνα 34). Πατάµε ΟΚ, και παίρνουµε στο Output ενεργοποιηθεί η επιλογή Fill, θα πρέπει να
το κυκλικό διάγραµµα της Εικόνας 35: έχουµε επιλέξει ένα συγκεκριµένο κυκλικό
τοµέα (µε ένα κλικ πάνω του, ώστε να µπει
περίγραµµα µε διπλή γραµµή). Οποιαδήποτε
τροποποίηση κάνουµε, εφαρµόζεται πατώντας
το Apply. H υπο-καρτέλα Depth & Angle µας
δίνει δυνατότητες εισαγωγής εφέ µε σκιά
(Shadow) ή τρισδιάστατου εφέ (3-D).
Από το µενού Options του Chart Editor

µπορούµε να εισάγουµε τίτλο στο διάγραµµα
επιλέγοντας Title, υποσηµείωση επιλέγοντας
Footnote ή πλαίσιο κειµένου επιλέγοντας Text
Box. Μπορούµε ακόµη να ζητήσουµε να
εµφανίζεται ή όχι το υπόµνηµα στο διάγραµµα
Εικόνα 35: Κυκλικό ∆ιάγραµµα (Legacy Dialogs → Pie) µε αυτόµατες επιλογές µορφοποίησης µε την επιλογή Show / Hide Legend.
Για την επεξεργασία του διαγράµµατος (αλλαγή χρωµάτων, εισαγωγή τίτλων, τρισδιάστατα εφέ κλπ), Εικόνα 37: Καρτέλα Properties στον Chart Editor
κάνουµε διπλό κλικ πάνω στο κυκλικό διάγραµµα για να πάρουµε το παράθυρο Chart Editor, όπως Από το µενού Elements του Chart Editor µπορούµε να ζητήσουµε να εµφανίζονται ετικέτες πάνω στους
δείχνει η Εικόνα 36: κυκλικούς τοµείς επιλέγοντας Show Data Labels και να διασπάσουµε το διάγραµµα επιλέγοντας
Explode Slice (πρέπει να είναι επιλεγµένο το διάγραµµα στον Chart Editor για να ενεργοποιηθούν
αυτές οι επιλογές).
Για να τροποποιήσουµε ένα πλαίσιο κειµένου (αλλαγή γραµµατοσειράς, µέγεθος χαρακτήρων, χρώµα),
κάνουµε διπλό κλικ πάνω στο πλαίσιο κειµένου και χρησιµοποιούµε την καρτέλα Text Style για να
ορίσουµε τις επιλογές Font Family, Size, Style, Text Color.
Αφού κάνουµε τις τροποποιήσεις που επιθυµούµε στο διάγραµµα, κλείνουµε το παράθυρο του Chart
Editor και το τροποποιηµένο διάγραµµα ενσωµατώνεται στο Output.
Ο καλύτερος τρόπος για να εξοικειωθείτε µε την επεξεργασία διαγραµµάτων µε τον Chart Editor του
SPSS είναι να πειραµατιστείτε! Για παράδειγµα, δοκιµάστε να επεξεργαστείτε το κυκλικό διάγραµµα
της Εικόνας 35 ώστε να προκύψει το διάγραµµα της Εικόνας 38:
Εικόνα 36: Το παράθυρο του επεξεργαστή γραφηµάτων (Chart Editor)
Στο παραπάνω πλαίσιο διαλόγου πρέπει: 1) να µεταφέρουµε τη µεταβλητή για την οποία θέλουµε να
γίνει το ραβδόγραµµα στη θέση Category Axis, και 2) να δηλώσουµε στη θέση Bars Represent αν οι
ορθογώνιες ράβδοι του διαγράµµατος θέλουµε να παριστάνουν συχνότητες (N of cases) ή ποσοστά (%
of cases). Σηµειώνουµε ότι θα πάρουµε ακριβώς την ίδια όψη στο διάγραµµα είτε επιλέξουµε
συχνότητες είτε ποσοστά (θα αλλάξουν βέβαια οι ενδείξεις στον Υ-άξονα). Περαιτέρω επεξεργασία του
διαγράµµατος θα γίνει αφότου αυτό παραχθεί στο output µε τα εργαλεία του Chart Editor.
Παράδειγµα 6
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav), για να κατασκευάσουµε

ένα ραβδόγραµµα ποσοστιαίων συχνοτήτων για την Κυριότερη ασχολία στον ελεύθερο χρόνο. Από το
Εικόνα 38: Το κυκλικό διάγραµµα της εικόνας 35 έπειτα από επεξεργασία στον Chart Editor µενού Graphs, επιλέγουµε Legacy Dialogs, Bar, Simple και Summaries for groups of cases, Define.
■ Τοποθετούµε στη θέση Category Axis τη µεταβλητή ΑΣΧΟΛΙΑ και επιλέγουµε % of cases (Εικόνα 39).
3.3 Ραβδόγραµµα (Bar, simple) Πατάµε ΟΚ, και παίρνουµε στο Output το ραβδόγραµµα της Εικόνας 40:
Το ραβδόγραµµα µπορεί να χρησιµοποιηθεί για την απεικόνιση της κατανοµής συχνοτήτων ποιοτικών
ή διακριτών ποσοτικών µεταβλητών. Η κατασκευή ραβδογράµµατος στο SPSS µπορεί να γίνει µε µέσω
της εντολής Frequencies ή από το µενού Graphs. Ειδικότερα, για την κατασκευή απλού
ραβδογράµµατος επιλέγουµε:
Graphs → Legacy Dialogs → Βar,
Simple και Summaries for groups of cases, Define
για να οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 39.
Εικόνα 40: Αυτόµατα Παραγόµενο Ραβδόγραµµα (Legacy Dialogs → Bar, Simple)
Κάνοντας διπλό κλικ πάνω στο ραβδόγραµµα, ανοίγουµε τον Chart Editor για να επεξεργαστούµε το
διάγραµµα. Πειραµατιστείτε µε τα διάφορα εργαλεία του Chart Editor για να πάρετε το τροποποιηµένο
ραβδόγραµµα της Εικόνας 41:
Εικόνα 39: Πλαίσιο διαλόγου Define Simple Bar για την κατασκευή ραβδογράµµατος
Εικόνα 41: Το ραβδόγραµµα της εικόνας 40 έπειτα από επεξεργασία στον Chart Editor
■ Εικόνα 42: Πλαίσιο διαλόγου Histogram για την κατασκευή ιστογράµµατος
3.4 Ιστόγραµµα (Histogram)
Το ιστόγραµµα είναι το διάγραµµα επιλογής για την απεικόνιση της κατανοµής συχνοτήτων µιας
συνεχούς ποσοτικής µεταβλητής, της οποίας οι τιµές είναι οµαδοποιηµένες. Η οµαδοποίηση των τιµών
της µεταβλητής γίνεται αυτόµατα από το SPSS, αλλά είναι τροποποιήσιµη µέσω του Chart Editor. Η
κατασκευή ιστογράµµατος στο SPSS µπορεί να γίνει µε πολλούς τρόπους, όπως π.χ. µέσω των εντολών
Frequencies και Explore, αλλά και αυτόνοµα από το µενού Graphs. Ειδικότερα, για την κατασκευή
ιστογράµµατος από το µενού Graphs επιλέγουµε:
Graphs → Legacy Dialogs → Histogram,
για να οδηγηθούµε στο πλαίσιο διαλόγου Histogram της Εικόνας 42, όπου µεταφέρουµε στη θέση
Variable τη µεταβλητή για την οποία θέλουµε να γίνει το διάγραµµα. Το παραγόµενο ιστόγραµµα
παριστάνει συχνότητες, αλλά µπορεί να τροποποιηθεί ώστε να παριστάνει ποσοστά µέσω του Chart
Editor.
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να κατασκευάσουµε
ένα ιστόγραµµα ποσοστιαίων συχνοτήτων για το Ύψος των µαθητών, το οποίο θέλουµε να δίνεται µε Εικόνα 43: Ιστόγραµµα (Legacy Dialogs → Histogram) µε αυτόµατες επιλογές µορφοποίησης
τις εξής οµάδες: [140, 150), [150, 160), [160, 170), [170, 180), [180, 190) και [190, 200).
Επιλέγουµε Graphs → Legacy Dialogs → Histogram, µεταφέρουµε στη θέση Variable τη µεταβλητή Παρατηρήστε ότι το SPSS καθορίζει αυτόµατα τόσο τον αριθµό των οµάδων ύψους όσο και το πλάτος
ΥΨΟΣ και πατάµε ΟΚ. To παραγόµενο ιστόγραµµα φαίνεται στην Εικόνα 43. κάθε οµάδας (στην Εικόνα 43 έχουν χρησιµοποιηθεί 11 οµάδες ύψους, µε πλάτος 5 cm η κάθε µία). Οι
επιλογές αυτές δεν αντιστοιχούν στην οµαδοποίηση του ύψους που θα θέλαµε (6 οµάδες των 10 cm).
Μπορούµε να επεξεργαστούµε το ιστόγραµµα και να αλλάξουµε αυτές τις επιλογές οµαδοποίησης
χρησιµοποιώντας τον Chart Editor, ο οποίος εµφανίζεται µε διπλό – κλικ πάνω στο διάγραµµα.
Ειδικότερα, για να αλλάξουµε την οµαδοποίηση του ιστογράµµατος στον Chart Editor, κάνουµε διπλό
κλικ πάνω στα ορθογώνια του ιστογράµµατος και χρησιµοποιούµε την καρτέλα Binning. Ορίζουµε
Custom Value for Anchor = 140 (το αριστερό άκρο της 1ης οµάδας) και Number of Intervals = 6
(αριθµός των οµάδων) ή Interval Width = 10 (πλάτος οµάδας) [αρκεί να ορίσουµε µόνο τη µία από τις
επιλογές αυτές]. Το τροποποιηµένο ιστόγραµµα φαίνεται στην Εικόνα 44:
Εικόνα 46: Το ιστόγραµµα της εικόνας 45 έπειτα από αλλαγή από συχνότητα σε ποσοστό στον Υ-άξονα
Περαιτέρω µορφοποιήσεις στο ιστόγραµµα (αλλαγή χρωµάτων, εισαγωγή τίτλων και υποσηµειώσεων,
κλπ) µπορούν να γίνουν µε τα διάφορα εργαλεία του Chart Editor.
■
Εικόνα 44: Το ιστόγραµµα της εικόνας 43
έπειτα από αλλαγές των επιλογών
οµαδοποίησης του x-άξονα
3.5 Ιστογράµµατα και Μορφές Κατανοµών Συχνοτήτων
Παρατηρήστε ακόµη ότι ο Υ-άξονας του ιστογράµµατος παριστάνει απόλυτες συχνότητες, ενώ εµείς θα Το ιστόγραµµα µπορεί να χρησιµοποιηθεί για να διερευνήσουµε τη µορφή της κατανοµής συχνοτήτων
θέλαµε να παριστάνει σχετικές συχνότητες (ποσοστά). των δεδοµένων (κανονική, θετικά ασύµµετρη, αρνητικά ασύµµετρη, πολυκόρυφη). Η µορφή της
κατανοµής παίζει ρόλο στην επιλογή των κατάλληλων στατιστικών µέτρων για τη συνοπτική
Για την αλλαγή αυτή, κάνουµε διπλό κλικ πάνω στα παρουσίαση των δεδοµένων µας. Για παράδειγµα, χρησιµοποιούµε τη µέση τιµή (µέσο όρο) για να
ορθογώνια του ιστογράµµατος και χρησιµοποιούµε την συνοψίσουµε δεδοµένα µε προσεγγιστικά κανονική κατανοµή, ενώ για δεδοµένα µε ασύµµετρη
καρτέλα Variables. Πατάµε στο κενό κελί ακριβώς κατανοµή χρησιµοποιούµε τη διάµεσο, όπως θα δούµε σε επόµενη ενότητα (απευθυνθείτε στις
δίπλα στην ένδειξη Percent, και επιλέγουµε Y Axis από παραδόσεις θεωρίας για περισσότερες λεπτοµέρειες).
τη λίστα (Εικόνα 45). Το παραγόµενο ιστόγραµµα
δίνεται στην Εικόνα 46. Οι καµπύλες συχνοτήτων και τα ιστογράµµατα που αντιστοιχούν στις βασικές µορφές κατανοµών
συχνοτήτων των δεδοµένων, δίνονται στις Εικόνες 47-50:
Εικόνα 45: Καρτέλα Variables για την εναλλαγή συχνοτήτων

µε ποσοστά στον Υ-άξονα του ιστογράµµατος
Εικόνα 47: Κανονική Κατανοµή Εικόνα 49: Θετικά Ασύµµετρη Κατανοµή
Σε µια θετικά ασύµµετρη κατανοµή (positevely skewed distribution), oι περισσότερες παρατηρήσεις

Στην κανονική κατανοµή (normal distribution / normal curve), oι περισσότερες παρατηρήσεις συγκεντρώνονται στα αριστερά της κατανοµής, ενώ υπάρχει σταδιακά µικρότερη συχνότητα τιµών
συγκεντρώνονται γύρω από µία κεντρική τιµή, ενώ υπάρχει σταδιακά µικρότερη συχνότητα τιµών τόσο προς τα δεξιά της κατανοµής. Υπάρχουν “ασυνήθιστα µεγάλες τιµές” στα δεδοµένα (Εικόνα 49). Τα
προς τα αριστερά όσο και προς τα δεξιά της κεντρικής τιµής. Υπάρχει ισορροπία στις συχνότητες δεδοµένα µπορούν να συνοψιστούν χρησιµοποιώντας τη διάµεσο και το ενδοτεταρτηµοριακό εύρος.
εµφάνισης των µικρών και µεγάλων τιµών των δεδοµένων (Εικόνα 47). Τα δεδοµένα µπορούν να
συνοψιστούν χρησιµοποιώντας τη µέση τιµή (µέσο όρο) και την τυπική απόκλιση, όπως θα δούµε σε
επόµενη ενότητα.
Εικόνα 50: Πολυκόρυφη Κατανοµή (εδώ, δικόρυφη)
Σε µια πολυκόρυφη κατανοµή (multimodal distribution) τα δεδοµένα συγκεντρώνονται γύρω από

Εικόνα 48: Αρνητικά Ασύµµετρη Κατανοµή πολλές διαφορετικές τιµές µε αποτέλεσµα το ιστόγραµµα να εµφανίζει πολλαπλές κορυφώσεις. Αυτό
συνήθως είναι ένδειξη ανοµοιογένειας του δείγµατος, δηλαδή ύπαρξης πολλών οµάδων ατόµων για τις
Σε µια αρνητικά ασύµµετρη κατανοµή (negatively skewed distribution), oι περισσότερες
οποίες τα δεδοµένα θα πρέπει ίσως να αναλυθούν ξεχωριστά. Εποµένως, σε πολυκόρυφες κατανοµές
παρατηρήσεις συγκεντρώνονται στα δεξιά της κατανοµής, ενώ υπάρχει σταδιακά µικρότερη συχνότητα
αποφεύγουµε να δώσουµε συγκεντρωτικές στατιστικές για το σύνολο των δεδοµένων, αλλά δίνουµε τις
τιµών προς τα αριστερά της κατανοµής. Υπάρχουν “ασυνήθιστα µικρές τιµές” στα δεδοµένα (Εικόνα
στατιστικές ξεχωριστά για τις διάφορες υποοµάδες που υπάρχουν στα δεδοµένα.
48). Τα δεδοµένα µπορούν να συνοψιστούν χρησιµοποιώντας τη διάµεσο και το ενδοτεταρτηµοριακό
εύρος, όπως θα δούµε σε επόµενη ενότητα.
Για παράδειγµα, ένα ιστόγραµµα για το ύψος ενηλίκων ατόµων θα περιµέναµε να εµφανίζει µια
δικόρυφη κατανοµή όπως στην Εικόνα 50, µε την πρώτη καµπύλη να αντιστοιχεί στα ύψη των
γυναικών και τη δεύτερη στα ύψη των ανδρών. Στην περίπτωση αυτή δεν θα δίναµε π.χ. το µέσο όρο Για το βαθµό των µαθητών:
ύψους όλων των ατόµων του δείγµατος µας, αφού αυτός θα ήταν υψηλός για τις γυναίκες και χαµηλός Επιλέγουµε Graphs → Legacy Dialogs → Histogram, εισάγουµε στη θέση Variable τη µεταβλητή
για τους άνδρες. Αντίθετα, θα περιγράφαµε τα δεδοµένα δίνοντας δύο µέσους όρους, έναν για τα ύψη ΒΑΘΜΟΣ και πατάµε ΟΚ.
των γυναικών και έναν για τα ύψη των ανδρών. Το παραγόµενο ιστόγραµµα δίνεται στην Εικόνα
52, και αντιστοιχεί σε αρνητικά ασύµµετρη
Σηµειώνουµε ότι η διερεύνηση της µορφής της κατανοµής των δεδοµένων µε ιστογράµµατα εξαρτάται κατανοµή. Αυτό σηµαίνει ότι οι περισσότεροι
από την οµαδοποίηση των τιµών της µεταβλητής που έχει χρησιµοποιηθεί για την κατασκευή του µαθητές στο δείγµα µας συγκεντρώνονται στα
ιστογράµµατος. Αν χρησιµοποιηθούν οµάδες µε πολύ µεγάλο ή πολύ µικρό πλάτος τότε το παραγόµενο δεξιά της κατανοµής των βαθµών (έχουν σχετικά
ιστόγραµµα µπορεί να είναι παραπλανητικό. Το πρόβληµα αυτό είναι ιδιαίτερα έντονο στην περίπτωση µεγάλους βαθµούς), ενώ υπάρχουν µερικοί
της πολυκόρυφης κατανοµής, όπου µεγάλο πλάτος οµαδοποίησης των τιµών της µεταβλητής µπορεί να µαθητές µε ασυνήθιστα µικρούς βαθµούς. Οι
οδηγήσει στην όψη µιας µονοκόρυφης κατανοµής. Αντίθετα, πολύ µικρό πλάτος οµαδοποίησης µπορεί βαθµοί των µαθητών µπορούν να περιγραφούν
να οδηγήσει µια µονοκόρυφη κατανοµή να δείχνει σαν πολυκόρυφη. Η αυτόµατη οµαδοποίηση που συνοπτικά χρησιµοποιώντας τη διάµεσο, αλλά όχι
χρησιµοποιεί το SPSS για την κατασκευή ιστογραµµάτων δουλεύει ικανοποιητικά στις περισσότερες το µέσο όρο.
πρακτικές εφαρµογές. Όταν έχουµε αµφιβολίες για το είδος της κατανοµής των δεδοµένων µας από την Εικόνα 52
εικόνα του ιστογράµµατος, µπορούµε να χρησιµοποιούµε και το θηκόγραµµα, όπως θα δούµε σε
επόµενη ενότητα. Ακόµη, υπάρχουν ειδικά διαγράµµατα για τη διερεύνηση της µορφής της κατανοµής Για το ύψος των µαθητών:
των δεδοµένων που καλούνται Normality Plots (τα τελευταία είναι εκτός της διδακτέας ύλης). Επιλέγουµε Graphs → Legacy Dialogs → Histogram, εισάγουµε στη θέση Variable τη µεταβλητή
ΥΨΟΣ και πατάµε ΟΚ. Το παραγόµενο
Παράδειγµα 8 ιστόγραµµα δίνεται στην Εικόνα 43 (όπως και
στην ενότητα 3.4) και δείχνει να αντιστοιχεί σε
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να διερευνήσουµε, προσεγγιστικά κανονική κατανοµή.
µέσω ιστογραµµάτων, τη µορφή της κατανοµής των δεδοµένων για το Βάρος, το Βαθµό, και το Ύψος
των µαθητών. Θα περιµέναµε να δούµε δικόρυφη κατανοµή στα
ύψη των µαθητών, αφού από την εµπειρία µας
Για το βάρος των µαθητών: γνωρίζουµε ότι υπάρχει έντονη διαφοροποίηση
Επιλέγουµε Graphs → Legacy Dialogs → Histogram, εισάγουµε στη θέση Variable τη µεταβλητή του ύψους ανάµεσα σε κορίτσια και αγόρια. Στο
ΒΑΡΟΣ και πατάµε ΟΚ. διπλανό ιστόγραµµα δείχνουν να υπάρχουν δύο
κορυφές, αλλά αυτό δεν είναι απολύτως
Το παραγόµενο ιστόγραµµα δίνεται στην Εικόνα 53 προφανές (η αναγνώριση πολυκόρυφων
Εικόνα 51 και αντιστοιχεί σε προσεγγιστικά κατανοµών είναι συχνά δύσκολη µέσω των ιστογραµµάτων).
κανονική κατανοµή. Αυτό σηµαίνει ότι οι
µεγάλες τιµές βάρους είναι περίπου Μπορούµε να ελέγξουµε την υποψία µας για ύπαρξη δικόρυφης κατανοµής εξαιτίας της
ισορροπηµένες µε τις µικρές τιµές βάρους διαφοροποίησης του ύψους ανά φύλο ζητώντας από το SPSS να κατασκευάσει δύο ξεχωριστά
στους µαθητές του δείγµατός µας. Τα βάρη ιστογράµµατα, το ένα για τα κορίτσια και το άλλο για τα αγόρια. Για το σκοπό αυτό, επιλέγουµε
των µαθητών µπορούν να περιγραφούν Graphs → Legacy Dialogs → Histogram, εισάγουµε στη θέση Variable τη µεταβλητή ΥΨΟΣ και στη
συνοπτικά δίνοντας το µέσο όρο τους. θέση Rows τη µεταβλητή ΦΥΛΟ και πατάµε ΟΚ. Το SPSS χρησιµοποιεί την ίδια οµαδοποίηση στα
παραγόµενα ιστογράµµατα, ώστε αυτά να µπορούν εύκολα να συγκριθούν, όπως δείχνει η Εικόνα 53.
Εικόνα 51
Γίνεται φανερό από την Εικόνα 53 ότι η κατανοµή του ύψους των µαθητών είναι πράγµατι δικόρυφη,
µε µια πρώτη οµάδα µικρότερων υψών να αντιστοιχεί στα κορίτσια και µια δεύτερη οµάδα
3.6 Σύνοψη Βασικών Εννοιών και ∆ιαδικασιών της Ενότητας 3
µεγαλύτερων υψών να αντιστοιχεί στα αγόρια. Οι δύο οµάδες έχουν αρκετή επικάλυψη στα ύψη 162
Τα βασικά διαγράµµατα συχνοτήτων για µία µεταβλητή είναι το κυκλικό διάγραµµα (για
έως 176 cm.
ποιοτική µεταβλητή µε λίγες τιµές), το ραβδόγραµµα (για ποιοτική µεταβλητή ή για διακριτή
ποσοτική µεταβλητή) και το ιστόγραµµα (για ποσοτική µεταβλητή µε οµαδοποιηµένες τιµές).
Υπάρχουν πολλοί τρόποι να ζητήσουµε την παραγωγή διαγραµµάτων στο SPSS. Σχεδόν όλα τα
πλαίσια διαλόγου στο µενού Analyze (π.χ. Frequencies και Explore) περιλαµβάνουν επιλογές
για την κατασκευή διαγραµµάτων. Tο µενού Graphs → Legacy Dialogs αφορά αποκλειστικά
την κατασκευή διαγραµµάτων. Μπορούµε να επεξεργαστούµε ένα διάγραµµα (αλλαγή
χρωµάτων, εισαγωγή τίτλων, τρισδιάστατα εφέ κλπ) χρησιµοποιώντας τον Chart Editor, τον
οποίο παίρνουµε κάνοντας διπλό κλικ πάνω στο διάγραµµα του output.
Για την κατασκευή κυκλικού διαγράµµατος, επιλέγουµε: Graphs → Legacy Dialogs → Pie,
και Summaries for groups of cases, Define. ∆ηλώνουµε τη µεταβλητή για την οποία θέλουµε
να γίνει το διάγραµµα µεταφέροντάς τη στη θέση Define Slices by. Στη θέση Slices Represent
δηλώνουµε αν οι κυκλικοί τοµείς θέλουµε να παριστάνουν συχνότητες (N of cases) ή ποσοστά
(% of cases). Περαιτέρω επεξεργασία του διαγράµµατος γίνεται µε τον Chart Editor.
Για την κατασκευή απλού ραβδογράµµατος, επιλέγουµε: Graphs → Legacy Dialogs → Βar,
Simple και Summaries for groups of cases, Define. Μεταφέρουµε τη µεταβλητή για την οποία
θέλουµε να γίνει το ραβδόγραµµα στη θέση Category Axis, και στη θέση Bars Represent
Εικόνα53: Συγκριτικά ιστογράµµατα για τα ύψη αγοριών και κοριτσιών δηλώνουµε αν οι ορθογώνιες ράβδοι του διαγράµµατος θέλουµε να παριστάνουν συχνότητες
(N of cases) ή ποσοστά (% of cases). Περαιτέρω επεξεργασία του διαγράµµατος γίνεται µε τον
■ Chart Editor.
Για την κατασκευή ιστογράµµατος επιλέγουµε Graphs → Legacy Dialogs → Histogram.
Μεταφέρουµε στη θέση Variable τη µεταβλητή για την οποία θέλουµε να γίνει το διάγραµµα.
Για να κατασκευάσουµε πολλαπλά ιστογράµµατα για διάφορες υπο-οµάδες στο δείγµα µας
(π.χ. ανά φύλο), τοποθετούµε τη µεταβλητή που ορίζει τις οµάδες στη θέση Rows. Τα
παραγόµενα ιστογράµµατα παριστάνουν συχνότητες (N of cases), αλλά µπορεί να
τροποποιηθούν ώστε να παριστάνουν ποσοστά µέσω της καρτέλας Variables του Chart Editor.
Μπορούµε να αλλάξουµε την οµαδοποίηση τιµών στον x – άξονα που έχει κάνει αυτόµατα το
SPSS χρησιµοποιώντας την καρτέλα Binning στον Chart Editor.
Το ιστόγραµµα µας βοηθάει να δούµε τη µορφή της κατανοµής των δεδοµένων µας (κανονική,
θετικά ασύµµετρη, αρνητικά ασύµµετρη, πολυκόρυφη). Η µορφή της κατανοµής των δεδοµένων
παίζει ρόλο στην επιλογή των κατάλληλων στατιστικών µέτρων για τη συνοπτική παρουσίαση
των δεδοµένων µας.
3.7 Βασική Ορολογία στα Αγγλικά για την Ενότητα 3 3.8 Άσκηση 3η
% of cases ποσοστό ατόµων

Bar chart: ραβδόγραµµα διερεύνηση διαφόρων κοινωνικών οµάδων σε σχέση µε τη συνήθεια παρακολούθησης τηλεόρασης. Το
Binning: οµαδοποίηση τιµών στο x-άξονα ιστογράµµατος δείγµα αποτελούσαν 120 τυχαία επιλεγµένοι ενήλικες από µια αστική περιοχή. Το αρχείο δεδοµένων
Box plot: θηκόγραµµα βρίσκεται αποθηκευµένο στο δίκτυο aretousa και στο eclass. Χρησιµοποιώντας κατάλληλα το SPSS
Chart Editor: επεξεργαστής διαγραµµάτων ζητείται να απαντήσετε στα ακόλουθα θέµατα:
Chart: διάγραµµα / γράφηµα
Custom Value for Anchor: το αριστερό άκρο της 1ης οµάδας για την οµαδοποίηση τιµών στο x-άξονα (1) Αναπαράγετε το παρακάτω κυκλικό διάγραµµα όπως ακριβώς δείχνεται στην εικόνα:
ιστογράµµατος
Define Slices by: όρισε τα κοµµάτια του κύκλου από
Depth & Angle: βάθος & γωνία (εισαγωγή σκιάς /Shadow ή τρισδιάστατου εφέ /3-D, σε διάγραµµα)
Fill & Border: γέµισµα & περίγραµµα (αλλαγή χρωµάτων στα διαγράµµατα)
Graph: διάγραµµα / γράφηµα
Histogram: ιστόγραµµα
Interval Width: πλάτος διαστήµατος / οµάδας τιµών
Legacy Dialogs: παραδοσιακοί διάλογοι (κατασκευή διαγραµµάτων)
Multimodal distribution: πολυκόρυφη κατανοµή
N of cases: αριθµός ατόµων
Negatively skewed distribution: αρνητικά ασύµµετρη κατανοµή
Normal curve: κανονική καµπύλη
(2) Αναπαράγετε το παρακάτω ραβδόγραµµα όπως ακριβώς δείχνεται στην εικόνα:
Normal distribution: κανονική κατανοµή
Number of Intervals: αριθµός διαστηµάτων / οµάδων τιµών
Pattern: µοτίβο (εισαγωγή µοτίβων στα διαγράµµατα)
Pie chart: κυκλικό διάγραµµα / πίτα
Plot: διάγραµµα / γράφηµα
Positively skewed distribution: θετικά ασύµµετρη κατανοµή
Slices Represent: τα κοµµάτια του κύκλου παριστάνουν
Summaries for groups of cases: σύνοψη για οµάδες ατόµων
(3) Κατασκευάστε ένα ιστόγραµµα για τις Ώρες Παρακολούθησης Τηλεόρασης. Ποια είναι η µορφή
της κατανοµής των δεδοµένων; (κανονική, θετικά ή αρνητικά ασύµµετρη, πολυκόρυφη).
(4) Κατασκευάστε δύο ιστογράµµατα για τις Ώρες Παρακολούθησης Τηλεόρασης, το ένα για τις
γυναίκες και το άλλο για τους άνδρες του δείγµατος, τα οποία να έχουν την ίδια οµαδοποίηση τιµών
στον x - άξονα. Υπάρχει διαφοροποίηση στο χρόνο παρακολούθησης τηλεόρασης ανά φύλο; Αν ναι,
προσδιορίστε τις διαφορές. ■
4. Στατιστικές Συνοπτικής Περιγραφής Ποσοτικών ∆εδοµένων καθένα. Συµβολίζονται µε P1, P2, …, P99. Γενικά, το κ-εκατοστηµόριο Pκ είναι η τιµή
αριστερά της οποίας βρίσκεται το κ% των δεδοµένων. Τα εκατοστηµόρια
χρησιµοποιούνται συχνά για να εξετάσουµε τα άκρα της κατανοµής των δεδοµένων (π.χ.
P10, P25 για το αριστερό άκρο, και P75, P90 για το δεξί άκρο). Τρία συγκεκριµένα
Στις προηγούµενες ενότητες χρησιµοποιήσαµε πίνακες συχνοτήτων και διαγράµµατα για να εκατοστηµόρια, τα P25, P50 και P75, χωρίζουν τα δεδοµένα σε 4 µέρη µε ίση συχνότητα
περιγράψουµε τα δεδοµένα από µία µεταβλητή. Στην ενότητα αυτή θα ασχοληθούµε µε τα (25%) παρατηρήσεων στο καθένα, και καλούνται τεταρτηµόρια (quartiles). Το πεντηκοστό
σηµαντικότερα αριθµητικά µέτρα (στατιστικές) που µπορούν να χρησιµοποιηθούν για τη συνοπτική εκατοστηµόριο (2ο τεταρτηµόριο), P50, ταυτίζεται µε τη διάµεσο.
περιγραφή ποσοτικών δεδοµένων. Ειδικότερα, θα αναφερθούµε στις ακόλουθες κατηγορίες
στατιστικών: Μέτρα ∆ιασποράς / Μεταβλητότητας (Dispersion):
• Εύρος (range):
Μέτρα Κεντρικής Τάσης (Central Tendency):
Το εύρος είναι η απόσταση ανάµεσα στη µικρότερη τιµή (minimum) και τη µεγαλύτερη
• Μέση τιµή (mean):
τιµή (maximum) των δεδοµένων. Μπορεί να δοθεί σε µορφή διαστήµατος (από ... έως …) ή
Πρόκειται για το γνωστό µας µέσο όρο. Υπολογίζεται µε την άθροιση των τιµών και τη
να δοθεί ως η διαφορά των δύο ακραίων παρατηρήσεων. Το βασικό µειονέκτηµα του
διαίρεση µε το πλήθος τους. Το βασικό µειονέκτηµα της µέσης τιµής είναι ότι επηρεάζεται
εύρους ως µέτρου της διασποράς των δεδοµένων είναι ότι στηρίζεται µόνο στις 2 ακραίες
πολύ από ακραίες τιµές στα δεδοµένα (ασυνήθιστα µεγάλες ή ασυνήθιστα µικρές).
παρατηρήσεις, χωρίς να λαµβάνει υπόψη τη διασπορά των ενδιάµεσων παρατηρήσεων.
Εποµένως, η χρήση της µέσης τιµής για την περιγραφή της κεντρικής τάσης πρέπει να
Έτσι, το εύρος µπορεί συχνά να οδηγήσει σε παραπλανητική εικόνα για τη διασπορά των
αποφεύγεται όταν τα δεδοµένα έχουν έντονα ασύµµετρη κατανοµή. Η µέση τιµή αποτελεί
δεδοµένων. Το εύρος δίνεται σχεδόν πάντα κατά την περιγραφή ενός συνόλου δεδοµένων,
τη στατιστική κεντρικής τάσης που χρησιµοποιούµε για ποσοτικά δεδοµένα µε
αλλά για την περιγραφή της διασποράς προτιµάται ένα από τα παρακάτω µέτρα.
προσεγγιστικά κανονική κατανοµή (ή, γενικότερα, προσεγγιστικά συµµετρική κατανοµή).
• Τυπική απόκλιση (standard deviation):
• ∆ιάµεσος ή διάµεση τιµή (median):
Η τυπική απόκλιση δίνει τη διασπορά των δεδοµένων γύρω από τη µέση τιµή. Έτσι,
Πρόκειται για την τιµή που βρίσκεται στο µέσο της κατανοµής των δεδοµένων, όταν αυτά
χρησιµοποιείται για να συνοδεύσει τη µέση τιµή, δηλαδή για την περιγραφή της διασποράς
ταξινοµηθούν κατά σειρά µεγέθους, από τη µικρότερη προς τη µεγαλύτερη τιµή. Είναι η
ποσοτικών δεδοµένων που έχουν προσεγγιστικά κανονική κατανοµή. Σε αυτή την
“µεσαία τιµή”, η οποία έχει από αριστερά της το ≈50% των δεδοµένων και από δεξιά της
περίπτωση, εντός µίας τυπικής απόκλισης γύρω από τη µέση τιµή βρίσκεται το ≈ 68% των
το υπόλοιπο ≈50%. Συγκριτικά µε το µέσο όρο, η διάµεσος επηρεάζεται πολύ λιγότερο από
δεδοµένων, εντός δύο τυπικών αποκλίσεων γύρω από τη µέση τιµή βρίσκεται το ≈95% των
ακραίες τιµές στα δεδοµένα. Εποµένως, η διάµεσος χρησιµοποιείται για την περιγραφή της
δεδοµένων, και εντός τριών τυπικών αποκλίσεων γύρω από τη µέση τιµή βρίσκεται το
κεντρικής τάσης ποσοτικών δεδοµένων µε ασύµµετρη (θετικά ή αρνητικά) κατανοµή.
σύνολο των δεδοµένων (≈ 99,7%). Έτσι, το συνολικό εύρος είναι περίπου ίσο µε 6 τυπικές
Μπορεί ακόµη να χρησιµοποιηθεί και στην περίπτωση διατάξιµων ποιοτικών δεδοµένων.
αποκλίσεις.
• Επικρατέστερη τιµή ή κορυφή (mode):
• Ενδοτεταρτηµοριακό Εύρος (interquartile range):
Πρόκειται για την πιο συχνά εµφανιζόµενη τιµή (τη συχνότερη τιµή) στα δεδοµένα. Σε
Το ενδοτεταρτηµοριακό εύρος είναι η απόσταση ανάµεσα στο 1ο τεταρτηµόριο (P25) και το
ποσοτικά συνεχή δεδοµένα, είναι συχνό το φαινόµενο να υπάρχουν περισσότερες από µία
τρίτο τεταρτηµόριο (P75). Μπορεί να δοθεί σε µορφή διαστήµατος (από ... έως …) ή να
επικρατέστερες τιµές. Έτσι, η χρήση της επικρατέστερης τιµής αποφεύγεται για ποσοτικά
δοθεί ως η διαφορά των δύο τεταρτηµορίων. Όταν δίνουµε το ενδοτεταρτηµοριακό εύρος
δεδοµένα. Ωστόσο, η επικρατέστερη τιµή είναι η µοναδική στατιστική που έχει νόηµα για
αγνοούµε το κάτω 25% και το πάνω 25% των δεδοµένων και αναφερόµαστε στο κεντρικό
ποιοτικά ονοµαστικά δεδοµένα.
50% των δεδοµένων (που επηρεάζεται πολύ λιγότερο από ασυνήθιστα µεγάλες ή µικρές
τιµές ή από την ασυµµετρία της κατανοµής). Το ενδοτεταρτηµοριακό εύρος
Μέτρα Θέσης:
χρησιµοποιείται για να συνοδεύσει τη διάµεσο, δηλαδή για τη συνοπτική περιγραφή
• Εκατοστηµόρια (percentiles) και Τεταρτηµόρια (quartiles).
δεδοµένων µε ασύµµετρη (θετικά ή αρνητικά) κατανοµή.
Τα εκατοστηµόρια (percentiles) είναι 99 τιµές που χωρίζουν τα δεδοµένα (όταν αυτά έχουν
τεθεί σε αύξουσα διάταξη) σε 100 µέρη µε ίση συχνότητα (1%) των παρατηρήσεων στο
Εκτός από την επικρατούσα τιµή, οι προαναφερθέντες στατιστικές είναι κατάλληλες εφόσον η
εξεταζόµενη µεταβλητή είναι ποσοτική. Η επιλογή των κατάλληλων στατιστικών για τα δεδοµένα µας
4.2 Υπολογισµός Στατιστικών Μέτρων µε την Εντολή Frequencies
εξαρτάται τόσο από το είδος της εξεταζόµενης µεταβλητής όσο και από τη µορφή της κατανοµής των
Η εντολή Frequencies έχει ως κύριο σκοπό την παραγωγή πινάκων συχνοτήτων για µεµονωµένες
δεδοµένων (Εικόνα 54).
µεταβλητές, όπως είδαµε στην ενότητα 2.1. ∆ίνει όµως και τη δυνατότητα υπολογισµού στατιστικών
µέτρων για ποσοτικές µεταβλητές.
Ονοµαστική Επικρατέστερη τιµή

Για το σκοπό αυτό επιλέγουµε Analyze → Descriptive Statistics → Frequencies και τοποθετούµε στη
θέση Variable(s) τις µεταβλητές για τις οποίες θέλουµε να υπολογίσουµε τις στατιστικές. Αν δεν
Ποιοτική επιθυµούµε την παραγωγή πίνακα συχνοτήτων, ξετσεκάρουµε το Display frequency tables.
Επικρατέστερη τιµή, Χρησιµοποιούµε την επιλογή Statistics για να ζητήσουµε τον υπολογισµό στατιστικών µέτρων, όπως
∆ιατάξιµη ∆ιάµεσος δείχνει η Εικόνα 55. Επειδή η επιλογή των στατιστικών που τελικά θα παρουσιάσουµε εξαρτάται από
τη µορφή της κατανοµής των δεδοµένων, µπορούµε ακόµη να χρησιµοποιήσουµε την επιλογή Charts
Μεταβλητή για να ζητήσουµε την παραγωγή ιστογράµµατος (Εικόνα 55).
Προσεγγιστικά Μέση Τιµή,

Συµµετρική Τυπική Απόκλιση,
(Κανονική) Εύρος
Κατανοµή
Ποσοτική
Έντονα ∆ιάµεσος,
Ασύµµετρη Ενδοτεταρτηµοριακό Εύρος,
Κατανοµή Εύρος
Εικόνα 54: Επιλογή Στατιστικών Σύνοψης των ∆εδοµένων
Για περισσότερες λεπτοµέρειες και παραδείγµατα σχετικά τα ως άνω στατιστικά µέτρα απευθυνθείτε στις
διαφάνειες παραδόσεων της θεωρίας.
Εικόνα 55: Χρήση της Frequencies για την παραγωγή στατιστικών (Statistics) και διαγραµµάτων (Charts)
Παράδειγµα 9 Τα αποτελέσµατα εµφανίζονται στο output, όπως δείχνει η Εικόνα 56:
Statistics
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να υπολογίσουµε, Βαθµός Βάρος µαθητή Ύψος µαθητή
µέσω της εντολής Frequencies, στατιστικές κεντρικής τάσης, θέσης και διασποράς για το Βαθµό, το Β΄λυκείου (kg) (cm)
Βάρος, και το Ύψος των µαθητών. Ειδικότερα, για κάθε µία από τις µεταβλητές αυτές, θα ζητήσουµε Valid 50 50 50
N
τον υπολογισµό της µέσης τιµής, της διαµέσου, της επικρατέστερης τιµής, των εκατοστηµορίων P10, Missing 0 0 0
P25, P50, P75 και P90, του ενδοτεταρτηµοριακού εύρους, του συνολικού εύρους και της τυπικής Mean 16,6 63,6 169
Median 17,3 62,0 170
απόκλισης. Ακόµη, θα ζητήσουµε την παραγωγή ιστογραµµάτων ώστε να ελέγξουµε τη µορφή της a a
Mode 18,5 50,0 170
κατανοµής των δεδοµένων και να επιλέξουµε τις κατάλληλες στατιστικές για την περιγραφή τους.
Std. Deviation 2,4 12,5 10
Range 10,0 52,0 47
Η διαδικασία έχει ως εξής: Minimum 10,0 43,0 149
Maximum 20,0 95,0 196
10 13,3 47,0 156
Επιλέγουµε Analyze → Descriptive Statistics → Frequencies και τοποθετούµε στη θέση
25 15,0 55,0 163
Variable(s) τις µεταβλητές ΒΑΘΜΟΣ, ΒΑΡΟΣ και ΥΨΟΣ.
Percentiles 50 17,3 62,0 170
Ξετσεκάρουµε την επιλογή Display frequency tables αφού δεν επιθυµούµε την παραγωγή
75 18,5 72,0 175
πινάκων συχνοτήτων (οι πίνακες αυτοί θα ήταν άλλωστε υπερβολικά µεγάλοι και άρα
90 19,4 80,9 180
δύσχρηστοι, γιατί οι µεταβλητές µας είναι ποσοτικές µε πολλές τιµές).
a. Multiple modes exist. The smallest value is shown
Από το πλαίσιο διαλόγου Statistics:
Στα δεξιά έχουµε επιλογές για τα µέτρα κεντρικής τάσης (Central Tendency), και
τσεκάρουµε τις επιλογές Mean, Median και Mode για πάρουµε τη µέση τιµή, τη
διάµεσο και την επικρατέστερη τιµή, αντίστοιχα.
Στα αριστερά (Percentile Values), τσεκάρουµε την επιλογή Quartiles για να πάρουµε
τα τεταρτηµόρια P25, P50 και P75 (το P50, βέβαια, το έχουµε ήδη ζητήσει αφού ταυτίζεται
µε τη διάµεσο). Τσεκάρουµε την επιλογή Percentile(s) για να ζητήσουµε τον
υπολογισµό οποιονδήποτε άλλων εκατοστηµορίων. Γράφουµε 10 στο κενό πλαίσιο και
πατάµε Add για να πάρουµε το P10. Επαναλαµβάνουµε γράφοντας 90 και πατώντας
Add για να πάρουµε το P90. Σηµειώνουµε ότι το ενδοτεταρτηµοριακό εύρος µπορεί να
εξαχθεί από τα παραπάνω, αφού ορίζεται ως το εύρος µεταξύ των P25 και P75.
Κάτω αριστερά µας δίνονται επιλογές για τα µέτρα διασποράς (Dispersion).
Τσεκάρουµε Minimum, Maximum και Range για να πάρουµε το συνολικό εύρος των
δεδοµένων. Τσεκάρουµε, ακόµη, Std. deviation για να πάρουµε την τυπική απόκλιση.
Πατάµε Continue.
Στο πλαίσιο διαλόγου Charts, τσεκάρουµε την επιλογή Histograms ώστε να πάρουµε τρία
ιστογράµµατα, ένα για κάθε µία από τις τρεις µεταβλητές µας. Τσεκάρουµε ακόµη την επιλογή Εικόνα 56: Αποτελέσµατα (output) της Frequencies στο Παράδειγµα 9
“With normal curve”, η οποία θα εµφανίσει την κανονική καµπύλη πάνω σε κάθε ιστόγραµµα
ώστε να δούµε πόσο καλά ταιριάζει η κανονική κατανοµή για τα δεδοµένα µας. Στο παραπάνω output έχουµε έναν πίνακα µε τίτλο “Statistics” ο οποίος περιλαµβάνει τις στατιστικές
που ζητήσαµε για τους βαθµούς, τα ύψη και τα βάρη των µαθητών, και ακολουθούν τα αντίστοιχα τρία
ιστογράµµατα. Ειδικότερα:
Για το Βαθµό Β’ Λυκείου: µαθητών. Εποµένως, η σύνοψη των βαθµών των 50 µαθητών θα πρέπει να γίνει δίνοντας τη
η
Οι στατιστικές του βαθµού περιλαµβάνονται στη 2 στήλη του πίνακα “Statistics” (Εικόνα 56): διάµεσο και το ενδοτεταρτηµοριακό εύρος (βλ. Εικόνα 54).
Ν Valid = 50, Missing = 0 : το δείγµα µας περιλαµβάνει 50 άτοµα και δεν υπάρχουν απούσες τιµές Σύνοψη των αποτελεσµάτων: οι 50 µαθητές του δείγµατος είχαν βαθµούς στη β’ λυκείου που
για το βαθµό. κυµάνθηκαν από 10 έως 20, µε διάµεσο βαθµό 17,3 και ενδοτεταρτηµοριακό εύρος 15 έως 18,5.
Mean = 16,6 : ο µέσος βαθµός (µέσος όρος των βαθµών) των 50 µαθητών του δείγµατος είναι 16,6.
Median = 17,3 : ο διάµεσος βαθµός των 50 µαθητών του δείγµατος είναι 17,3. ∆ηλαδή, οι µισοί Για το Βάρος των µαθητών:
µαθητές στο δείγµα είχαν βαθµούς κάτω από 17,3 (και προφανώς, οι άλλοι µισοί είχαν βαθµούς Οι στατιστικές βάρους περιλαµβάνονται στην 3η στήλη του πίνακα “Statistics” της Εικόνας 56 και
πάνω από 17,3). ακολουθεί το ιστόγραµµα. Παρατηρούµε ότι οι τιµές του µέσου όρου (mean) και της διαµέσου
a
Mode = 18,5 : ο επικρατέστερος βαθµός στο δείγµα των 50 µαθητών ήταν το 18,5. Ωστόσο, το (median) είναι πρακτικά παρόµοιες (63,6 έναντι 62 kg, αντίστοιχα), γεγονός που αποτελεί µια πρώτη
SPSS δίνει υποσηµείωση ότι “Multiple modes exist. The smallest value is shown”, δηλαδή ένδειξη ότι η κατανοµή βάρους είναι περίπου κανονική. Η ύπαρξη προσεγγιστικά κανονικής κατανοµής
υπάρχουν πολλές επικρατέστερες τιµές και µας δείχνει τη µικρότερη από αυτές. Άρα, το 18,5 είναι για τα δεδοµένα του βάρους επιβεβαιώνεται από το αντίστοιχο ιστόγραµµα, στο οποίο βλέπουµε µια
ένας από πολλούς επικρατέστερους βαθµούς στο δείγµα µας. αρκετά καλή προσαρµογή της κανονικής καµπύλης. Εποµένως, µπορούµε να χρησιµοποιήσουµε το
Std. Deviation = 2,4 : η τυπική απόκλιση των βαθµών των 50 µαθητών είναι 2,4 δηλαδή η µέσο όρο (mean) και την τυπική απόκλιση (std. deviation) για να συνοψίσουµε τα δεδοµένα του
πλειοψηφία των µαθητών είχαν βαθµούς ανάµεσα στο 16,6 – 2,4 και το 16,6 + 2,4 (14,2 έως 19). βάρους. Σηµειώνουµε ότι η τυπική απόκλιση είναι ίση µε 12,5 kg, και αυτό δείχνει ότι η πλειοψηφία
[Η “πλειοψηφία” αυτή θα ήταν το 68% περίπου των µαθητών αν η κατανοµή των βαθµών ήταν των µαθητών στο δείγµα µας (περίπου το 68% των µαθητών) είχαν βάρη ανάµεσα στο 63,6 – 12,5 και
κανονική.] το 63,6 + 12,5 (51 έως 76 kg, περίπου). Τα βάρη όλων των µαθητών στο δείγµα µας κυµάνθηκαν από
Minimum = 10, Maximum = 20 και Range = 10 : Ο µικρότερος βαθµός στο δείγµα ήταν 10 και ο 43 έως 95 kg (minimum και maximum). Σύνοψη των αποτελεσµάτων: οι 50 µαθητές του δείγµατος
µεγαλύτερος ήταν 20, µε συνολικό εύρος βαθµών 10 µονάδες. είχαν βάρη που κυµάνθηκαν από 43 έως 95 kg, µε µέση τιµή βάρους 63,6 kg και τυπική απόκλιση 12,5
Percentile 10 = 13,3 : το 10ο εκατοστηµόριο (P10) των βαθµών ήταν 13,3 δηλαδή το 10% των kg.5
µαθητών του δείγµατος είχαν βαθµούς κάτω από 13,3.

Για το Ύψος των µαθητών:
Percentile 25 = 15,0 : το 25ο εκατοστηµόριο (1ο τεταρτηµόριο, P25) των βαθµών ήταν 15 δηλαδή το
Οι στατιστικές ύψους περιλαµβάνονται στην 4η στήλη του πίνακα “Statistics” της Εικόνας 56 και
25% των µαθητών του δείγµατος είχαν βαθµούς κάτω από 15.
ακολουθεί το ιστόγραµµα. Παρατηρούµε ότι οι τιµές του µέσου όρου (mean), της διαµέσου (median)
Percentile 50 = 17,3 : το 50ο εκατοστηµόριο (2ο τεταρτηµόριο, διάµεσος, P50) των βαθµών ήταν
και της επικρατέστερης τιµής (mode) είναι σχεδόν ίσες, γεγονός που αποτελεί µια πρώτη ένδειξη ότι η
17,3 δηλαδή το 50% των µαθητών του δείγµατος είχαν βαθµούς κάτω από 17,3. [η πληροφορία
κατανοµή ύψους είναι κανονική. Το ιστόγραµµα, µε µια πρώτη µατιά, φαίνεται και αυτό να ταιριάζει
αυτή έχει δοθεί ήδη µε τη διάµεσο].
σε περίπου κανονική κατανοµή. Μπορούµε, εποµένως, να συνοψίσουµε τα δεδοµένα ύψους των
Percentile 75 = 18,5 : το 75ο εκατοστηµόριο (3ο τεταρτηµόριο, P75) των βαθµών ήταν 18,5 δηλαδή
µαθητών του δείγµατος δίνοντας το µέσο όρο και την τυπική απόκλιση τους. Σύνοψη των
το 75% των µαθητών του δείγµατος είχαν βαθµούς κάτω από 18,5. Ισοδύναµα, το 25% των
αποτελεσµάτων: οι 50 µαθητές του δείγµατος είχαν ύψη που κυµάνθηκαν από 149 έως 196 cm, µε µέσο
µαθητών του δείγµατος είχαν βαθµούς πάνω από 18,5.
όρο ύψους 169 cm και τυπική απόκλιση 10 cm.
Percentile 90 = 19,4 : το 90ο εκατοστηµόριο (P90) των βαθµών ήταν 19,4 δηλαδή το 90% των
µαθητών του δείγµατος είχαν βαθµούς κάτω από 19,4. Ισοδύναµα, το 10% των µαθητών του
Ωστόσο, µε µια πιο προσεκτική µατιά στο ιστόγραµµα, ίσως να διακρίνετε µια δικόρυφη κατανοµή στα
δείγµατος είχαν βαθµούς πάνω από 19,4.
ύψη των µαθητών. Όπως είχαµε συζητήσει στην ενότητα 3.5, η δικόρυφη κατανοµή οφείλεται στη
Το ενδοτεταρτηµοριακό εύρος των βαθµών είναι από 15 έως 18,5 (P25 έως P75), δηλαδή το κεντρικό
διαφοροποίηση του ύψους ανά φύλο. Θυµηθείτε ότι µπορούµε να ζητήσουµε την κατασκευή
50% των βαθµών των µαθητών ήταν ανάµεσα στο 15 και το 18,5.
ξεχωριστών ιστογραµµάτων για τα ύψη των αγοριών και των κοριτσιών, όπως δείχνει η Εικόνα 53, τα
Παρατηρείστε ότι ο µέσος όρος είναι αρκετά µικρότερος από τη διάµεσο (16,6 έναντι 17,3),
οποία επιβεβαιώνουν την ύπαρξη δικόρυψης κατανοµής. Εποµένως, η παρουσίαση των στατιστικών
γεγονός που αποτελεί µια πρώτη ένδειξη ότι η κατανοµή των βαθµών είναι αρνητικά ασύµµετρη
ύψους για το σύνολο των µαθητών δεν ενδείκνυται. Θα πρέπει να υπολογίσουµε και να παρουσιάσουµε
και, εποµένως, η διάµεσος είναι προτιµότερη από το µέσο όρο για την περιγραφή των δεδοµένων.
5
Το αντίστοιχο ιστόγραµµα επιβεβαιώνει την ύπαρξη αρνητικής ασυµµετρίας στους βαθµούς των Στην πραγµατικότητα, η κατανοµή του βάρους των µαθητών είναι δικόρυφη, κάτι που δύσκολα φαίνεται από το
ιστόγραµµα του παραδείγµατος 9. Όπως για το ύψος των µαθητών, έτσι και για το βάρος τους υπάρχει έντονη
διαφοροποίηση ανάµεσα στα δεδοµένα των κοριτσιών και των αγοριών.
τις στατιστικές ύψους ξεχωριστά για τα κορίτσια και για τα αγόρια. Όµως η εντολή Frequencies δεν δείκτης Skewness έχει τιµή κοντά στο µηδέν τότε η κατανοµή των δεδοµένων είναι περίπου
µας δίνει τέτοια δυνατότητα. Θα πρέπει να χρησιµοποιήσουµε µια άλλη εντολή, την Explore, την οποία κανονική. Αν έχει θετική τιµή, µακριά από το µηδέν, τότε η κατανοµή των δεδοµένων είναι
συζητάµε στην επόµενη ενότητα. θετικά ασύµµετρη, και αν έχει αρνητική τιµή, µακριά από το µηδέν, τότε η κατανοµή των
■ δεδοµένων είναι αρνητικά ασύµµετρη. Γενικά, όµως, η ερµηνεία του δείκτη skewness πρέπει
Σηµείωση: Άλλες στατιστικές που µπορούν να παραχθούν από τη Frequencies: Statistics να γίνεται λαµβάνοντας υπόψη το τυπικό του σφάλµα, και αυτό προϋποθέτει αρκετή εµπειρία
στη στατιστική. Γι’ αυτό, στις παρούσες σηµειώσεις, θα προτιµούµε τη χρήση διαγραµµάτων
Εκτός από τις επιλογές για τα βασικά στατιστικά µέτρα που συζητήσαµε παραπάνω, το πλαίσιο για να αναγνωρίζουµε την ύπαρξη ασυµµετρίας στην κατανοµή των δεδοµένων µας.
διαλόγου Frequencies: Statistics (Εικόνα 55) παρέχει και άλλες επιλογές, τις οποίες αναφέρουµε
σύντοµα παρακάτω. Στη θέση Distribution υπάρχει ακόµη η επιλογή “Kurtosis” (κύρτωση). Πρόκειται για έναν
δείκτη της κύρτωσης στην κατανοµή των δεδοµένων. ∆εδοµένα µε περίπου κανονική
Στα Percentiles Values υπάρχει η επιλογή “Cut points for: Χ equal groups”. Με την επιλογή κατανοµή έχουν δείκτη κύρτωσης κοντά στο 0. Θετική τιµή του δείκτη κύρτωσης, µακριά από
αυτή µπορούµε να ζητήσουµε τον υπολογισµό των τιµών που χωρίζουν τα δεδοµένα σε Χ µέρη το µηδέν, υποδεικνύει πλατύκυρτη κατανοµή δεδοµένων, µε επεκταµένα άκρα στα δεξιά και τα
µε την ίδια συχνότητα στο καθένα. Για παράδειγµα, ορίζοντας Χ = 10 θα πάρουµε τις τιµές που αριστερά της. Αρνητική τιµή του δείκτη κύρτωσης, µακριά από το µηδέν, υποδεικνύει
χωρίζουν τα δεδοµένα σε 10 µέρη µε συχνότητα 10% στο καθένα, δηλαδή θα πάρουµε τα λεπτόκυρτη κατανοµή δεδοµένων, µε περιορισµένα άκρα στα δεξιά και τα αριστερά της (δείτε
δεκατηµόρια (deciles) P10, P20, P30, P40, P50, P60, P70, P80, και P90. Ορίζοντας Χ = 5 θα πάρουµε και τις σηµειώσεις / διαφάνειες της θεωρίας). Όπως και στην περίπτωση του δείκτη skewness, η
τις τιµές που χωρίζουν τα δεδοµένα σε 5 µέρη µε συχνότητα 20% στο καθένα, δηλαδή τις P20, ερµηνεία του δείκτη kurtosis πρέπει να γίνεται λαµβάνοντας υπόψη το τυπικό του σφάλµα, και
P40, P60 και P80, κλπ. αυτό προϋποθέτει αρκετή εµπειρία στη στατιστική. Γι’ αυτό, στις παρούσες σηµειώσεις, θα
προτιµούµε τη χρήση διαγραµµάτων για να αναγνωρίζουµε τη µορφή (κύρτωση και
Στο Dispersion υπάρχει η επιλογή “Variance” (διακύµανση). Πρόκειται για το τετράγωνο της ασυµµετρία) της κατανοµής των δεδοµένων µας.
2
τυπικής απόκλισης. ∆ηλαδή, Variance = ( Std . deviation ) ή Std . deviation = Variance . Η
Variance είναι πολύ χρήσιµη κατά τον υπολογισµό της τυπικής απόκλισης “µε το χέρι” (δείτε
τις παραδόσεις θεωρίας). Αποτελεί, δε, ένα πολύ χρήσιµο στατιστικό µέτρο για πολλές
προχωρηµένες στατιστικές τεχνικές. Ωστόσο, σε αντίθεση µε την τυπική απόκλιση, η
διακύµανση δεν έχει µια απλή πρακτική ερµηνεία για την περιγραφή των δεδοµένων µας.
Το Dispersion παρέχει ακόµη επιλογή για τον υπολογισµό του “S.E. mean”. Πρόκειται για
σύντµηση του όρου “Standard error of the mean” (τυπικό σφάλµα της µέσης τιµής). Το τυπικό
σφάλµα δίνει το µέσο µέγεθος κατά το οποίο αποκλίνουν οι µέσοι όροι των δειγµάτων από το
µέσο όρο ολόκληρου του πληθυσµού. Μεγάλο τυπικό σφάλµα δείχνει ότι ο µέσος όρος στο
συγκεκριµένο δείγµα ενδέχεται να αποκλίνει πολύ από τον “πραγµατικό” µέσο όρο στον
πληθυσµό, ενώ µικρό τυπικό σφάλµα δείχνει ότι ο µέσος όρος στο δείγµα παρέχει µια καλή
εκτίµηση για το µέσο όρο στον πληθυσµό. Το τυπικό σφάλµα χρησιµοποιείται για την
κατασκευή διαστηµάτων εµπιστοσύνης, και θα το συζητήσουµε περισσότερο στην αντίστοιχη
ενότητα της θεωρίας.
Στη θέση Distribution (κατανοµή) υπάρχει η επιλογή “Skewness” (λοξότητα / ασυµµετρία).

Πρόκειται για έναν δείκτη της ασυµµετρίας στην κατανοµή των δεδοµένων. Ειδικότερα, αν
Στο πλαίσιο διαλόγου Explore (Εικόνα 57):

4.3 Υπολογισµός Στατιστικών Μέτρων µε την Εντολή Explore
Στη θέση Dependent List τοποθετούµε την ποσοτική µεταβλητή για την οποία θέλουµε να
Συχνά είναι επιθυµητός ο υπολογισµός στατιστικών µέτρων για διάφορες υπο-οµάδες στο δείγµα της
υπολογίσουµε τα στατιστικά µέτρα. Μπορούµε να ορίσουµε περισσότερες από µία µεταβλητές
έρευνάς µας. Στο παράδειγµα 9, λόγου χάριν, είδαµε ότι έχουµε έντονη διαφοροποίηση του ύψους ανά
στη θέση αυτή, όµως αυτό χρειάζεται λίγη προσοχή όταν υπάρχουν απούσες τιµές στις
φύλο και θα πρέπει να υπολογίσουµε και να παρουσιάσουµε τις στατιστικές του ύψους ξεχωριστά για
µεταβλητές (δείτε τη σηµείωση στο τέλος της ενότητας).
τα κορίτσια και για τα αγόρια στο δείγµα των 50 µαθητών. Σε τέτοιες περιπτώσεις είναι χρήσιµη η
Στη θέση Factor List τοποθετούµε την ποιοτική µεταβλητή η οποία ορίζει τις υπο-οµάδες
εντολή Explore, η οποία µας δίνει τη δυνατότητα να υπολογίσουµε τις στατιστικές για µια ποσοτική
ατόµων για τις οποίες θα υπολογιστούν ξεχωριστά οι στατιστικές των µεταβλητών που
µεταβλητή είτε για όλα τα άτοµα στο δείγµα µας (όπως κάνει και η εντολή Frequencies) είτε ξεχωριστά
ορίστηκαν στη Dependent List. Αν αφήσουµε κενή τη θέση Factor List, τότε οι στατιστικές θα
για τις κατηγορίες που ορίζονται από µια δεύτερη ποιοτική µεταβλητή (π.χ. στατιστικές ύψους ανά
υπολογιστούν για όλα τα άτοµα του δείγµατός µας.
φύλο, που δεν µπορεί να γίνει µε τη Frequencies).
Στο πλαίσιο διαλόγου Statistics καθορίζουµε τις στατιστικές που θέλουµε να υπολογιστούν. Σε
αντίθεση µε το πλαίσιο διαλόγου Frequencies: Statistics στο οποίο έπρεπε να καθορίσουµε µία
Για να χρησιµοποιήσουµε την εντολή Explore, επιλέγουµε
– µία τις στατιστικές που θα θέλαµε να υπολογιστούν, το πλαίσιο διαλόγου Explore: Statistics
Analyze → Descriptive Statistics → Explore
παρέχει την προ-επιλογή Descriptives που παράγει αυτόµατα µια µεγάλη λίστα στατιστικών
ώστε να πάρουµε το πλαίσιο διαλόγου της Εικόνας 57:
µέτρων. Οι µοναδικές στατιστικές που πρέπει να ζητηθούν ξεχωριστά είναι τα εκατοστηµόρια,
τσεκάροντας την επιλογή Percentiles. Η επιλογή Percentiles παράγει αυτόµατα επιλεγµένα
εκατοστηµόρια και, συγκεκριµένα, δίνει τα P5, P10, P25, P50, P75, P90 και P95. Τέλος,
τσεκάροντας την επιλογή Outliers, µπορούµε να ζητήσουµε την εµφάνιση ακραίων τιµών,
δηλαδή ασυνήθιστα µεγάλων ή/και ασυνήθιστα µικρών τιµών στα δεδοµένα µας. Η ανίχνευση
των outliers είναι χρήσιµη στα αρχικά στάδια της ανάλυσης για να ανιχνεύσουµε ενδεχοµένως
λανθασµένες καταχωρίσεις στα δεδοµένα µας ή, γενικότερα, για να εντοπίσουµε τιµές που
επηρεάζουν πολύ τα παραγόµενα στατιστικά µέτρα και οι οποίες ενδεχοµένως να πρέπει να
εξαιρεθούν από την ανάλυση.
Τα διαγράµµατα που θα κατασκευαστούν καθορίζονται από το πλαίσιο διαλόγου Plots.
Υπάρχει προεπιλογή για την παραγωγή θηκογραµµάτων (Boxplots), και µπορούµε να
ζητήσουµε ακόµη την κατασκευή ιστογραµµάτων τσεκάροντας το Histogram. Ακόµη, υπάρχει
προεπιλογή για την κατασκευή διαγραµµάτων Steam-and-leaf, τα οποία όµως είναι δεν είναι
στην ύλη του µαθήµατός µας. Τέλος, µπορούµε να ζητήσουµε την κατασκευή Normality Plots,
τα οποία είναι ειδικά διαγράµµατα για τον έλεγχο της ύπαρξης κανονικής κατανοµής ή
ασυµµετρίας στα δεδοµένα µας (κάτι που µπορεί να γίνει χρησιµοποιώντας ιστογράµµατα και
θηκογράµµατα). Μαζί µε τα Normality Plots παράγονται και ειδικοί στατιστικοί έλεγχοι (tests),
οι οποίοι όµως είναι εκτός της διδακτέας ύλης.
Σηµειώνουµε ότι αν θέλουµε µόνο τον υπολογισµό στατιστικών µέτρων χωρίς την παραγωγή
διαγραµµάτων ορίζουµε Statistics στην επιλογή Display του πλαισίου διαλόγου Explore. Αν
θέλουµε µόνο την παραγωγή διαγραµµάτων χωρίς να υπολογιστούν στατιστικές, ορίζουµε
Plots. Αν επιθυµούµε τόσο τον υπολογισµό στατιστικών µέτρων όσο και την παραγωγή
Εικόνα 57: Το πλαίσιο διαλόγου Explore µε τις επιλογές Statistics και Plots διαγραµµάτων, ορίζουµε Both στην επιλογή Display.
Παράδειγµα 10 Τα αποτελέσµατα της Explore εµφανίζονται στο output, όπως δείχνει η Εικόνα 59:
Explore
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να υπολογίσουµε, Case Processing Summary
Φύλο Cases
µέσω της εντολής Explore, στατιστικές κεντρικής τάσης, θέσης και διασποράς για το Ύψος των Valid Missing Total
N Percent N Percent N Percent
µαθητών, ξεχωριστά για τα αγόρια και τα κορίτσια. Ειδικότερα θα ζητήσουµε τον υπολογισµό: της
Κορίτσι 28 100,0% 0 0,0% 28 100,0%
Ύψος µαθητή (cm)
µέσης τιµής, της διαµέσου, των εκατοστηµορίων P10, P25, P50, P75 και P90, του ενδοτεταρτηµοριακού Αγόρι 22 100,0% 0 0,0% 22 100,0%
Descriptives
εύρους, του συνολικού εύρους και της τυπικής απόκλισης των υψών. Ακόµη, θα ζητήσουµε την
Φύλο Statistic Std. Error
παραγωγή ιστογραµµάτων ώστε να ελέγξουµε τη µορφή της κατανοµής των δεδοµένων και να Κορίτσι Mean 164 1,4
95% Confidence Interval for Lower Bound 161
επιλέξουµε τις στατιστικές που είναι οι καταλληλότερες για τη συνοπτική περιγραφή του ύψους των Mean Upper Bound 167
κοριτσιών και των αγοριών. Η διαδικασία έχει ως εξής (Εικόνα 58): 5% Trimmed Mean 164
Median 165
Επιλέγουµε Analyze → Descriptive Statistics → Explore. Variance 58
Std. Deviation 8
Τοποθετούµε στη θέση Dependent List τη µεταβλητή ΥΨΟΣ για να πάρουµε στατιστικές για το
Minimum 149
ύψος των µαθητών του δείγµατος. Maximum 176
Range 27
Τοποθετούµε στη θέση Factor List τη µεταβλητή ΦΥΛΟ για να πάρουµε τις στατιστικές του
Interquartile Range 10
ύψους ξεχωριστά για τα κορίτσια και τα αγόρια του δείγµατός µας. Skewness -,5 ,4
Kurtosis -,5 ,9
Στο πλαίσιο διαλόγου Explore: Statistics, πρέπει να έχουµε τσεκαρισµένη την επιλογή Ύψος µαθητή (cm)
Αγόρι Mean 176 1,5
Descriptives, η οποία θα µας δώσει µεταξύ άλλων τη µέση τιµή (mean), τη διάµεσο (median) 95% Confidence Interval for Lower Bound 173
Mean Upper Bound 179
την τυπική απόκλιση (std. deviation) και το συνολικό εύρος (range). Για τον υπολογισµό 5% Trimmed Mean 176
εκατοστηµορίων τσεκάρουµε το Percentiles. Πατάµε Continue. Median 176
Variance 49
Στο πλαίσιο διαλόγου Explore: Plots, τσεκάρουµε το Histogram για να κατασκευαστούν Std. Deviation 7
Minimum 165
ιστογράµµατα. Ξετσεκάρουµε την επιλογή Steam-and-leaf και ορίζουµε None στα Boxplots,
Maximum 196
αφού δεν θέλουµε αυτά τα διαγράµµατα6. Πατάµε Continue. Range 31
Εικόνα 58: Επιλογές Explore για Skewness 1,0 ,5
το Παράδειγµα 10 Kurtosis 1,8 1,0
Percentiles
Φύλο Percentiles
5 10 25 50 75 90 95
Weighted Ύψος µαθητή Κορίτσι 149 150 160 165 170 173 176
Average(Definition 1) (cm) Αγόρι 165 167 172 176 179 186 195
Ύψος µαθητή Κορίτσι 160 165 170
Tukey's Hinges
(cm) Αγόρι 172 176 179
Εικόνα 59: Αποτελέσµατα (output) από την Explore για το παράδειγµα 10

Σηµείωση: Οι πίνακες Descriptives και Percentiles έχουν υποστεί µικρή επεξεργασία ώστε να δείχνουν τους αριθµούς
6
Τα θηκογράµµατα είναι πολύ χρήσιµα διαγράµµατα όπως θα δούµε στις επόµενες ενότητες και συνήθως στρογγυλοποιηµένους στον πλησιέστερο ακέραιο. Στα ιστογράµµατα έχει τεθεί πλάτος οµαδοποίησης 5cm µέσω του Chart Editor.
αφήνουµε την επιλογή Boxplots τσεκαρισµένη.
Στο παραπάνω output (εικόνα 59): Σηµείωση: Προσοχή στη χρήση της Explore για πολλές µεταβλητές µε απούσες τιµές
Ο Πίνακας µε τίτλο “Case Processing Summary” µας ενηµερώνει ότι έχουµε καταγράψει το
ύψος 28 κοριτσιών και 22 αγοριών (Valid N) και ότι δεν υπάρχουν απούσες τιµές (Missing N). Η χρήση της Explore για τον υπολογισµό στατιστικών µέτρων για πολλές µεταβλητές (που
O Πίνακας µε τίτλο “Descriptives” περιλαµβάνει τις στατιστικές ύψους, ξεχωριστά για τα τοποθετούνται στη θέση Dependent List) χρειάζεται προσοχή όταν µία τουλάχιστον από τις µεταβλητές
κορίτσια (πάνω µέρος) και για τα αγόρια (κάτω µέρος). έχει απούσες τιµές. Αυτό γιατί η υπάρχουσα προεπιλογή του SPSS (Exclude Cases Listwise) εξαιρεί τα
O Πίνακας µε τίτλο “Percentiles” περιλαµβάνει τις τιµές επιλεγµένων εκατοστηµορίων άτοµα που έχουν απούσες τιµές για όλες ταυτόχρονα τις µεταβλητές που τοποθετούνται στη θέση
ξεχωριστά για τα ύψη των κοριτσιών και των αγοριών. Σηµειώνουµε ότι το SPSS δίνει τα Dependent List. Έτσι, αν π.χ. τοποθετηθούν δύο µεταβλητές στη Dependent List, από τις οποίες η
αποτελέσµατα χρησιµοποιώντας δύο µεθόδους υπολογισµού: τη µέθοδο “Weighted Average” πρώτη δεν έχει απούσες τιµές και η δεύτερη έχει 5 απούσες τιµές, τότε τα 5 άτοµα µε απούσες τιµές θα
και τη µέθοδο “Tukey’s Hinges”. Η πρώτη µέθοδος υπολογίζει τα εκατοστηµόρια µε εξαιρεθούν από τον υπολογισµό των στατιστικών και για τις δύο µεταβλητές, παρόλο που για την
µεγαλύτερη ακρίβεια, αλλά τα αποτελέσµατα των δύο µεθόδων είναι γενικά παρόµοια. Για πρώτη µεταβλητή δεν θα έπρεπε. Ως δεύτερο παράδειγµα, αν στη Dependent List τοποθετηθούν τρεις
παράδειγµα, το P75 για τα ύψη των αγοριών είναι 179,3 σύµφωνα µε την πρώτη µέθοδο, ενώ µεταβλητές µε αντίστοιχα 2, 10 και 15 απούσες τιµές σε διαφορετικά άτοµα, τότε θα εξαιρεθούν
είναι 179,0 µε τη δεύτερη µέθοδο. Προφανώς, αυτή η µικρή διαφορά στους δύο υπολογισµούς συνολικά 27 τιµές από την ανάλυση και των τριών µεταβλητών, παρόλο που θα έπρεπε να εξαιρεθούν
(0,3) δεν έχει καµία πρακτική σηµασία. Σηµειώνουµε, ακόµη, ότι η µέθοδος υπολογισµού µόνον 2 άτοµα για την πρώτη µεταβλητή, µόνο 10 για τη δεύτερη και 15 για την τρίτη µεταβλητή. Για
εκατοστηµορίων που συζητήσαµε στη θεωρία είναι η µέθοδος “Tukey’s Hinges”. να διορθώσουµε αυτό το πρόβληµα, χρησιµοποιούµε την καρτέλα Options της Explore, στην οποία
Ακολουθεί το ιστόγραµµα για τα ύψη των κοριτσιών (µε την ένδειξη ΦΥΛΟ = Κορίτσι) και το ορίζουµε την επιλογή Exclude Cases Pairwise (αντί για Listwise).
ιστόγραµµα για τα ύψη των αγοριών (µε την ένδειξη ΦΥΛΟ = Αγόρι).
Σχετικά µε τα στατιστικά αποτελέσµατά µας:
Για το ύψος των κοριτσιών: Χρησιµοποιώντας τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) Θα υπολογίσουµε στατιστικές
Τα ύψη των 28 κοριτσιών στο δείγµα µας κυµάνθηκαν µεταξύ 149 και 176cm (minimum και του ύψους των µαθητών, καθώς και των µητέρων και πατέρων τους.
maximum), µε συνολικό εύρος 27cm (range). Ο µέσος όρος ύψους των κοριτσιών ήταν 164cm,
και η διάµεσος ήταν 164,5cm (mean και median, αντίστοιχα). Οι δύο στατιστικές έχουν πολύ Χρησιµοποιούµε την εντολή Explore, και τοποθετούµε στη θέση Dependent List τις µεταβλητές ΥΨΟΣ,
κοντινές τιµές, γεγονός που υποδεικνύει την ύπαρξη προσεγγιστικά κανονικής κατανοµής ΥΜΟΣΜ και ΥΨΟΣΠ. Επιλέγουµε Statistics στη θέση Display (δεν θέλουµε διαγράµµατα) και
(αυτό επιβεβαιώνεται και στο ιστόγραµµα). Άρα, µπορούµε να χρησιµοποιήσουµε το µέσο όρο φροντίζουµε να είναι τσεκαρισµένη η επιλογή Descriptives στην καρτέλα Statistics. Πατάµε Continue
και την τυπική απόκλιση (std. deviation = 8 cm) ως τις πιο κατάλληλες στατιστικές για τη στο πλαίσιο διαλόγου Explore: Statistics και ΟΚ στο πλαίσιο διαλόγου Explore, για να πάρουµε τα
συνοπτική περιγραφή των δεδοµένων ύψους των κοριτσιών (εξάλλου η διαφορά του µέσου αποτελέσµατα στο output.
όρου από τη διάµεσο είναι µόλις 1cm). Συνοψίζοντας, τα 28 κορίτσια στο δείγµα µας είχαν ύψη
που κυµάνθηκαν µεταξύ 149 και 176cm, µε µέση τιµή 164cm και τυπική απόκλιση 8cm. Παρατηρείστε στα παραγόµενα αποτελέσµατα (Εικόνα 60) ότι ο πίνακας “Case Processing Summary”
Για το ύψος των αγοριών: αναφέρει 3 απούσες τιµές για κάθε µία από τις τρεις µεταβλητές. Για τον υπολογισµό των στατιστικών
Τα ύψη των 22 αγοριών στο δείγµα µας κυµάνθηκαν µεταξύ 165 και 196cm (minimum και του πίνακα “Descriptives” έχουν εποµένως εξαιρεθεί 3 άτοµα και για τις τρεις µεταβλητές. Ωστόσο,
maximum), µε συνολικό εύρος 31cm (range). Ο µέσος όρος ύψους και το διάµεσο ύψος των είδαµε στα παραδείγµατα 9 και 10 ότι δεν υπάρχουν καθόλου απούσες τιµές για το ύψος των µαθητών.
176cm (mean και median, αντίστοιχα). Η ταύτιση των δύο στατιστικών είναι ένδειξη Παρατηρείστε ακόµη ότι οι στατιστικές για το ύψος των µαθητών στον πίνακα “Descriptives” δεν
κανονικής κατανοµής στα ύψη των αγοριών, που επιβεβαιώνεται και στο αντίστοιχο συµφωνούν µε εκείνες που είχαµε υπολογίσει στο παράδειγµα 9 (Εικόνα 56). Το πρόβληµα είναι ότι
ιστόγραµµα. Άρα, µπορούµε να χρησιµοποιήσουµε το µέσο όρο και την τυπική απόκλιση (std. υπάρχουν απούσες τιµές για το ύψος της µητέρας και για το ύψος του πατέρα για τρία άτοµα, και η
deviation = 7cm) για να περιγράψουµε συνοπτικά τα δεδοµένα ύψους των αγοριών. προεπιλογή Exclude Cases Listwise της Explore εξαιρεί αυτά τα τρία άτοµα και από τους υπολογισµούς
Συνοψίζοντας, τα 22 αγόρια στο δείγµα µας είχαν ύψη που κυµάνθηκαν µεταξύ 165 και 196 cm, που αφορούν το ύψος των µαθητών.
µε µέση τιµή ύψους 176 cm και τυπική απόκλιση 7 cm.
■
Case Processing Summary

Cases
Cases
Valid Missing Total
Valid Missing Total
Ύψος µαθητή (cm) 50 100,0% 0 0,0% 50 100,0%
Ύψος µαθητή (cm) 47 94,0% 3 6,0% 50 100,0%
Ύψος πατέρα (cm) 47 94,0% 3 6,0% 50 100,0%
Ύψος πατέρα (cm) 47 94,0% 3 6,0% 50 100,0%
Ύψος µητέρας (cm) 47 94,0% 3 6,0% 50 100,0%
Ύψος µητέρας (cm) 47 94,0% 3 6,0% 50 100,0%
Descriptives
Descriptives
Statistic Std. Error
Mean 169 1,4
Mean 170 1,3
5% Trimmed Mean 169
5% Trimmed Mean 170
Median 170
Median 170
Variance 92
Variance 82
Ύψος µαθητή (cm) Std. Deviation 10
Ύψος µαθητή (cm) Std. Deviation 9
Minimum 149
Minimum 149
Maximum 196
Maximum 196
Range 47
Range 47
Skewness ,0 ,3
Skewness ,1 ,3
Kurtosis ,5 ,7
Kurtosis ,8 ,7
Mean 173 ,6
Mean 173 1
5% Trimmed Mean 172
5% Trimmed Mean 172
Median 172
Median 172
Variance 20
Variance 20
Ύψος πατέρα (cm) Std. Deviation 4
Ύψος πατέρα (cm) Std. Deviation 4
Minimum 165
Minimum 165
Maximum 184
Maximum 184
Range 19
Range 19
Skewness ,8 ,3
Skewness ,8 ,3
Kurtosis ,4 ,7
Kurtosis ,4 ,7
Mean 164 ,6
Mean 164 1
5% Trimmed Mean 164
5% Trimmed Mean 164
Median 164
Median 164
Variance 15
Variance 15
Ύψος µητέρας (cm) Std. Deviation 4
Ύψος µητέρας (cm) Std. Deviation 4
Minimum 156
Minimum 156
Maximum 173
Maximum 173
Range 17
Range 17
Skewness ,3 ,3
Skewness ,3 ,3
Kurtosis -,2 ,7
Kurtosis -,2 ,7
Εικόνα 60: Αποτελέσµατα της Explore για το παράδειγµα 11, µε επιλογή Exclude Cases Listwise
Εικόνα 61: Αποτελέσµατα της Explore για το παράδειγµα 11, µε επιλογή Exclude Cases Pairwise
Για να αποφύγουµε το παραπάνω πρόβληµα, επαναλαµβάνουµε την εντολή Explore και

χρησιµοποιούµε το πλαίσιο διαλόγου Options, στο οποίο επιλέγουµε Exclude Cases Pairwise (αντί για Στα παραπάνω αποτελέσµατα (εικόνα 61), εµφανίζονται σωστά οι απούσες τιµές (καµία για το ύψος
Listwise). Τα αποτελέσµατά µας, έπειτα, θα είναι αυτά που δείχνει η Εικόνα 61. µαθητή, και από τρεις για τα ύψη µητέρας και πατέρα), και οι υπολογισµοί των στατιστικών ύψους των
µαθητών έχουν γίνει για 50 άτοµα (αντί για 47).
■
πλήκτρο If… για να πάρουµε το πλαίσιο διαλόγου Select Cases: If (εικόνα 62), στο οποίο θα δώσουµε
4.4. Επιλογή Περιπτώσεων µε την Εντολή Select Cases τις συνθήκες που ορίζουν την οµάδα ατόµων µε την οποία θέλουµε να εργαστούµε (π.χ. αγόρια που
ασχολούνται µε αθλητισµό και έχουν βαθµό πάνω από 16). Η δήλωση των συνθηκών αυτών γίνεται
Συχνά θέλουµε να κάνουµε υπολογισµούς µόνο για υπο-οµάδες στο δείγµα µας. Αν αυτές οι υπο-
χρησιµοποιώντας τα ονόµατα των µεταβλητών που έχουµε ορίσει στη θέση Name της Variable View
οµάδες ορίζονται από τις κατηγορίες µιας ποιοτικής µεταβλητής η οποία υπάρχει στα δεδοµένα µας,
και τους κωδικούς των τιµών των µεταβλητών που έχουµε καθορίσει στη θέση Values της Variable
τότε µπορούµε να χρησιµοποιήσουµε την εντολή Explore που συζητήσαµε στην προηγούµενη ενότητα.
View.
Αν, όµως, οι υπο-οµάδες καθορίζονται από διασταυρώσεις πολλών µεταβλητών (π.χ. αγόρια που
ασχολούνται µε αθλητισµό και έχουν βαθµό πάνω από 16), τότε η εντολή Explore δεν µπορεί να µας
Οι πράξεις και οι λογικοί τελεστές που παρέχει το πλαίσιο διαλόγου Select Cases: If, έχουν ως εξής:
βοηθήσει. Σε τέτοιες περιπτώσεις, µπορούµε να χρησιµοποιήσουµε την εντολή Select Cases (επιλογή
+ Πρόσθεση
περιπτώσεων), που είναι µια εντολή διαχείρισης των δεδοµένων στο µενού Data.
- Αφαίρεση
* Πολλαπλασιασµός
Για να κάνουµε επιλογή περιπτώσεων / ατόµων επιλέγουµε:
/ ∆ιαίρεση
Data → Select Cases → If condition is satisfied
** Ύψωση σε δύναµη
που οδηγεί στο πλαίσιο διαλόγου της Εικόνας 62.
= Ίσον
~= Όχι ίσο (διάφορο)
< Μικρότερο
> Μεγαλύτερο
<= Μικρότερο ή ίσο
>= Μεγαλύτερο ή ίσο
& Λογικός τελεστής ΚΑΙ
| Λογικός τελεστής Η΄
~ Λογικός τελεστής ΟΧΙ
() Εισαγωγή παρένθεσης
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να υπολογίσουµε,

χρησιµοποιώντας κατάλληλα τις εντολές Select Cases, Frequencies και Explore, τα ακόλουθα:
(α) την κατανοµή ποσοστιαίων συχνοτήτων για την κυριότερη ασχολία στον ελεύθερο χρόνο των
κοριτσιών,
(β) την κατανοµή ποσοστιαίων συχνοτήτων για την κυριότερη ασχολία στον ελεύθερο χρόνο των
µαθητών που δεν έχουν αδέλφια,
(γ) την κατανοµή ποσοστιαίων συχνοτήτων για την κυριότερη ασχολία στον ελεύθερο χρόνο των
Εικόνα 62: Πλαίσια διαλόγου Select Cases και Select Cases: If
αγοριών που έχουν βαθµό µεγαλύτερο ή ίσο του 17,
Η προεπιλογή στο πλαίσιο διαλόγου της Select Cases είναι All cases, δηλαδή να γίνουν οι υπολογισµοί (δ) στατιστικές κεντρικής τάσης και διασποράς για το ύψος των αγοριών που δήλωσαν ως κυριότερη
για όλα τα άτοµα που υπάρχουν στο αρχείο δεδοµένων µας. Για να επιλέξουµε µια συγκεκριµένη υπο- ασχολία τους τον αθλητισµό,
οµάδα ατόµων τσεκάρουµε το If condition is satisfied (αν η συνθήκη πληρείται). Πατάµε έπειτα το (ε) στατιστικές κεντρικής τάσης και διασποράς για το βαθµό των κοριτσιών που δήλωσαν ως κυριότερη
ασχολία τους είτε τους υπολογιστές είτε το διάβασµα εξωσχολικών βιβλίων.
(α) Θα χρησιµοποιήσουµε πρώτα την εντολή Select Cases για να επιλέξουµε τα κορίτσια και έπειτα θα
USE ALL.
χρησιµοποιήσουµε την εντολή Frequencies για κατασκευάσουµε έναν πίνακα συχνοτήτων για τη COMPUTE filter_$=(ΦΥΛΟ = 1).
VARIABLE LABELS filter_$ 'ΦΥΛΟ = 1 (FILTER)'.
µεταβλητή ΑΣΧΟΛΙΑ. Επιλέγουµε Data → Select Cases → If condition is satisfied και πατάµε το VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
πλήκτρο If. Περνάµε στα δεξιά τη µεταβλητή Φύλο (ή πληκτρολογούµε ΦΥΛΟ) και γράφουµε = 1 (το 1 FILTER BY filter_$.
EXECUTE.
είναι ο κωδικός των κοριτσιών), ώστε να έχουµε τελικά τη συνθήκη ΦΥΛΟ = 1. Πατάµε Continue στο FREQUENCIES VARIABLES=ΑΣΧΟΛΙΑ
/ORDER=ANALYSIS.
πλαίσιο διαλόγου Select Cases: If και ΟΚ στο πλαίσιο διαλόγου Select Cases. Παρατηρήστε ότι στο
Frequencies
output παίρνουµε, µεταξύ άλλων, την ένδειξη COMPUTE filter_$=(ΦΥΛΟ = 1). Παρατηρήστε, ακόµη,
Statistics
τις αλλαγές που έχουν γίνει στη Data View όπως δείχνει η Εικόνα 63. Κυριότερη ασχολία στον ελεύθερο χρόνο
Valid 26
N
Missing 2
Κυριότερη ασχολία στον ελεύθερο χρόνο

Frequency Percent Valid Percent Cumulative
Percent
Υπολογιστές 2 7,1 7,7 7,7
Αθλητισµός 3 10,7 11,5 19,2
Μουσική / χορός 11 39,3 42,3 61,5
Valid
Τηλεόραση / Κιν/φος 4 14,3 15,4 76,9
∆ιάβασµα εξωσχολικών βιβλίων 6 21,4 23,1 100,0
Total 26 92,9 100,0
Missing Άγνωστο / δεν καταγράφηκε 2 7,1
Total 28 100,0
Εικόνα 64: Αποτελέσµατα για το Παράδειγµα 12(α).
(β) Θα χρησιµοποιήσουµε πρώτα την εντολή Select Cases για να επιλέξουµε τους µαθητές που δεν
έχουν αδέρφια και έπειτα θα χρησιµοποιήσουµε την εντολή Frequencies για κατασκευάσουµε έναν
πίνακα συχνοτήτων για τη µεταβλητή ΑΣΧΟΛΙΑ. Επιλέγουµε Data → Select Cases → If condition is
satisfied, πατάµε Reset για να διαγράψουµε τις επιλογές που είχαµε κάνει προηγούµενα, και µετά
πατάµε το πλήκτρο If. Μεταφέρουµε στα δεξιά τη µεταβλητή Αριθµός Αδερφών (ή πληκτρολογούµε
Α∆ΕΛΦΙΑ) και γράφουµε = 0, ώστε να έχουµε τελικά τη συνθήκη Α∆ΕΛΦΙΑ = 0. Πατάµε Continue
Εικόνα 63: Εµφάνιση της Data View µετά από επιλογή περιπτώσεων (select cases) στο πλαίσιο διαλόγου Select Cases: If και ΟΚ στο πλαίσιο διαλόγου Select Cases. Επιλέγουµε Analyze
→ Descriptive Statistics → Frequencies, εισάγουµε τη µεταβλητή ΑΣΧΟΛΙΑ στη θέση Variable(s) και
Στην αρίθµηση της Data View στα αριστερά, έχουν διαγραφεί όλα τα αγόρια και παραµένουν πατάµε ΟΚ. Ο παραγόµενος πίνακας συχνοτήτων δίνει την κατανοµή ποσοστιαίων συχνοτήτων (στήλη
επιλεγµένα µόνο τα κορίτσια. Επίσης, έχει προστεθεί µια νέα µεταβλητή – στήλη µε όνοµα filter_$ η Valid Percent) για την κυριότερη ασχολία στον ελεύθερο χρόνο των 12 µαθητών που δεν έχουν
οποία αναγράφει ποια άτοµα έχουν επιλεγεί (Selected) και ποια έχουν εξαιρεθεί (Not Selected). αδέλφια (Εικόνα 65).
Μπορούµε, τώρα, να ζητήσουµε την κατασκευή πίνακα συχνοτήτων για την ασχολία των κοριτσιών.
Επιλέγουµε Analyze → Descriptive Statistics → Frequencies, εισάγουµε τη µεταβλητή ΑΣΧΟΛΙΑ στη
θέση Variable(s) και πατάµε ΟΚ. Τα παραγόµενα αποτελέσµατα φαίνονται στην Εικόνα 64. Από τα
αποτελέσµατα αυτά, βλέπουµε ότι στο σύνολο των 26 κοριτσιών τα οποία έδωσαν απάντηση για την
κυριότερη ασχολία στον ελεύθερο χρόνο τους, η πιο συχνή απάντηση ήταν “µουσική/χορός” (42,3%),
ακολουθούµενη από “διάβασµα εξωσχολικών βιβλίων” (23,1%), “τηλεόραση – κιν/φος” (15,4%),
“αθλητισµός” (11,5%), και “υπολογιστές” (7,7%).
Κυριότερη ασχολία στον ελεύθερο χρόνο Descriptives

Cumulative Statistic Std. Error
Frequency Percent Valid Percent Percent Ύψος µαθητή (cm) Mean 179,33 2,698
Valid Υπολογιστές 3 25,0 27,3 27,3 95% Confidence Interval for Mean Lower Bound 173,11
Αθλητισµός 3 25,0 27,3 54,5 Upper Bound 185,55
Μουσική / χορός 2 16,7 18,2 72,7
5% Trimmed Mean
Τηλεόραση / Κιν/φος 1 8,3 9,1 81,8 178,93
∆ιάβασµα εξωσχολικών βιβλίων 2 16,7 18,2 100,0 Median 178,00
Total 11 91,7 100,0 Variance 65,500
Missing Άγνωστο / δεν καταγράφηκε 1 8,3
Std. Deviation 8,093
Total 12 100,0
Minimum 170
Εικόνα 65: Αποτελέσµατα για το Παράδειγµα 12(β). Maximum 196
Range 26
Interquartile Range
12
(γ) Επιλέγουµε Data → Select Cases → If condition is satisfied, πατάµε Reset για να διαγράψουµε τις
Skewness 1,133 ,717
επιλογές που είχαµε κάνει προηγούµενα, και στο πλαίσιο διαλόγου Select Cases: If δηλώνουµε τη Kurtosis 1,147 1,400
συνθήκη: (ΦΥΛΟ = 2) & (ΒΑΘΜΟΣ >=17), ώστε να επιλέξουµε τα αγόρια (κωδικός αγοριών = 2), που Εικόνα 67: Αποτελέσµατα για το Παράδειγµα 12(δ).
έχουν βαθµό µεγαλύτερο ή ίσο του 17. Πατάµε Continue στο πλαίσιο διαλόγου Select Cases: If και ΟΚ
στο πλαίσιο διαλόγου Select Cases. Επιλέγουµε Analyze → Descriptive Statistics → Frequencies, (ε) Επιλέγουµε Data → Select Cases → If condition is satisfied, πατάµε Reset για να διαγράψουµε τις
εισάγουµε τη µεταβλητή ΑΣΧΟΛΙΑ στη θέση Variable(s) και πατάµε ΟΚ. Ο παραγόµενος πίνακας επιλογές που είχαµε κάνει προηγούµενα, και στο πλαίσιο διαλόγου Select Cases: If δηλώνουµε τη
συχνοτήτων δίνει την κατανοµή ποσοστιαίων συχνοτήτων (στήλη Percent) για την κυριότερη ασχολία συνθήκη: (ΦΥΛΟ = 1) & (ΑΣΧΟΛΙΑ = 1 | ΑΣΧΟΛΙΑ = 5), ώστε να επιλέξουµε τα κορίτσια (κωδικός =
στον ελεύθερο χρόνο των 14 αγοριών που έχουν βαθµό µεγαλύτερο ή ίσο του 17 (Εικόνα 66). 1) που δήλωσαν ως κυριότερη ασχολία τους υπολογιστές (κωδικός = 1) ή το διάβασµα εξωσχολικών
βιβλίων (κωδικός = 5). Πατάµε Continue στο πλαίσιο διαλόγου Select Cases: If και ΟΚ στο πλαίσιο
διαλόγου Select Cases. Επιλέγουµε Analyze → Descriptive Statistics → Explore, εισάγουµε τη
Κυριότερη ασχολία στον ελεύθερο χρόνο
µεταβλητή ΒΑΘΜΟΣ στη θέση Dependent List και πατάµε ΟΚ. Ο παραγόµενος πίνακας “Descriptives”
Cumulative
Frequency Percent Valid Percent Percent δίνει τις στατιστικές κεντρικής τάσης και διασποράς για το βαθµό των 8 κοριτσιών που δήλωσαν ως
Valid Υπολογιστές 4 28,6 28,6 28,6
Αθλητισµός 5 35,7 35,7 64,3 κυριότερη ασχολία τους είτε τους υπολογιστές είτε το διάβασµα εξωσχολικών βιβλίων (Εικόνα 68).
Μουσική / χορός 2 14,3 14,3 78,6
Τηλεόραση / Κιν/φος 2 14,3 14,3 92,9 Descriptives
∆ιάβασµα εξωσχολικών βιβλίων 1 7,1 7,1 100,0
Total 14 100,0 100,0
Βαθµός Β΄λυκείου Mean 18,700 ,4309
Εικόνα 66: Αποτελέσµατα για το Παράδειγµα 12(γ). 95% Confidence Lower Bound 17,681
Interval for Mean Upper Bound
19,719
(δ) Επιλέγουµε Data → Select Cases → If condition is satisfied, πατάµε Reset για να διαγράψουµε τις 5% Trimmed Mean 18,767
επιλογές που είχαµε κάνει προηγούµενα, και στο πλαίσιο διαλόγου Select Cases: If δηλώνουµε τη Median 19,000
Variance 1,486
συνθήκη: (ΦΥΛΟ = 2) & (ΑΣΧΟΛΙΑ = 2), ώστε να επιλέξουµε τα αγόρια (κωδικός αγοριών = 2) που
Std. Deviation 1,2189
δήλωσαν ως κυριότερη ασχολία τους τον αθλητισµό (κωδικός αθλητισµού = 2). Πατάµε Continue στο Minimum 16
Maximum 20
πλαίσιο διαλόγου Select Cases: If και ΟΚ στο πλαίσιο διαλόγου Select Cases. Επιλέγουµε Analyze →
Range 3,8
Descriptive Statistics → Explore, εισάγουµε τη µεταβλητή ΥΨΟΣ στη θέση Dependent List και πατάµε Interquartile Range 1,5
Skewness -1,284 ,752
ΟΚ. Ο παραγόµενος πίνακας “Descriptives” δίνει τις στατιστικές κεντρικής τάσης και διασποράς για το
Kurtosis 1,854 1,481
ύψος των 9 αγοριών που δήλωσαν ως κυριότερη ασχολία τους τον αθλητισµό (Εικόνα 67).
Εικόνα 68: Αποτελέσµατα για το Παράδειγµα 12(ε).
■
4.5. Θηκόγραµµα (Boxplot): διάγραµµα που συνοψίζει 5 βασικές στατιστικές Η µορφή του θηκογράµµατος µας πληροφορεί ακόµη για το είδος της κατανοµής των δεδοµένων
(Εικόνες 71 έως 74). Ειδικότερα,
Σε αντίθεση µε τα διαγράµµατα συχνοτήτων για µία µεταβλητή τα οποία συζητήσαµε στις
προηγούµενες ενότητες (ραβδόγραµµα, κυκλικό διάγραµµα και ιστόγραµµα), το θηκόγραµµα • Σε κανονική κατανοµή δεδοµένων το θηκόγραµµα είναι συµµετρικό: οι αποστάσεις [minimum
(boxplot) δεν είναι διάγραµµα που παρουσιάζει τις συχνότητες των τιµών µιας µεταβλητής, αλλά έως P25] και [P75 έως maximum] είναι ίσες, και οι αποστάσεις [P25 έως P50] και [P50 έως P75]
συνοψίζει 5 βασικές στατιστικές για την περιγραφή ποσοτικών δεδοµένων. Ειδικότερα, για την είναι επίσης ίσες µε τη γραµµή της διαµέσου να εµφανίζεται στη µέση του ορθογωνίου (Εικόνα
κατασκευή του θηκογράµµατος χρησιµοποιούνται: το ελάχιστο, τα τεταρτηµόρια (P25, P50, P75) και το 71).
µέγιστο των δεδοµένων (Εικόνα 69). Έτσι, το θηκόγραµµα µας πληροφορεί για την κεντρική τάση
απεικονίζοντας τη διάµεσο (P50), καθώς και για τη διασπορά των δεδοµένων απεικονίζοντας το
ενδοτεταρτηµοριακό εύρος (P25 έως P75) και το συνολικό εύρος (min έως max).
min P25 P50 P75 max
Εικόνα 71: Η Όψη του Θηκογράµµατος σε Κανονική Κατανοµή
• Σε θετικά ασύµµετρη κατανοµή το θηκόγραµµα είναι ασύµµετρο προς τα δεξιά: η απόσταση

[minimum έως P25] είναι πολύ µικρότερη από την [P75 έως maximum], και η απόσταση [P25 έως
Εικόνα 69: Η µορφή του θηκογράµµατος
P50] είναι πολύ µικρότερη από την [P50 έως P75] µε τη γραµµή της διαµέσου να εµφανίζεται στα
αριστερά του ορθογωνίου (Εικόνα 72).
Εικόνα 70: Θηκόγραµµα µε εµφάνιση outliers
Το SPSS παρουσιάζει στο θηκόγραµµα και τις ακραίες τιµές (outliers), δηλαδή τις ασυνήθιστα µικρές
ή/και µεγάλες τιµές στα δεδοµένα, όταν υπάρχουν τέτοιες. Οι ακραίες τιµές συµβολίζονται µε κύκλους,
ενώ οι εξαιρετικά ακραίες τιµές συµβολίζονται µε αστερίσκους (Εικόνα 70). Η ανίχνευση των outliers
είναι χρήσιµη στα αρχικά στάδια της ανάλυσης για να εντοπίσουµε ενδεχοµένως λανθασµένες
καταχωρίσεις στα δεδοµένα µας ή, γενικότερα, για να εντοπίσουµε τιµές που επηρεάζουν πολύ τα
παραγόµενα στατιστικά µέτρα και οι οποίες ενδεχοµένως να πρέπει να εξαιρεθούν από την ανάλυση.
min max
P25 P50 P75
Εικόνα 72: Η Όψη του Θηκογράµµατος σε Θετικά Ασύµµετρη Κατανοµή

• Σε αρνητικά ασύµµετρη κατανοµή το θηκόγραµµα είναι ασύµµετρο προς τα αριστερά: η Τα θηκογράµµατα χρησιµοποιούνται συχνά για την παρουσίαση της σχέσης ανάµεσα σε µια ποσοτική
απόσταση [minimum έως P25] είναι πολύ µεγαλύτερη από την [P75 έως maximum], και η και µια ποιοτική µεταβλητή. Μπορούν δηλαδή να χρησιµοποιηθούν για τη σύγκριση δύο ή
απόσταση [P25 έως P50] είναι πολύ µεγαλύτερη από την [P50 έως P75] µε τη γραµµή της περισσοτέρων οµάδων ατόµων ως προς την κατανοµή µιας ποσοτικής µεταβλητής (π.χ. για τη
διαµέσου να εµφανίζεται στα δεξιά του ορθογωνίου (Εικόνα 73). σύγκριση της κατανοµής του ύψους ανάµεσα σε αγόρια και κορίτσια). Τέτοια θηκογράµµατα
ονοµάζονται σύνθετα θηκογράµµατα.
Η κατασκευή θηκογραµµάτων στο SPSS µπορεί να γίνει από το µενού Graphs ή µε τη βοήθεια της
εντολής Explore. Για κατασκευή θηκογράµµατος µέσω του µενού Graphs επιλέγουµε: Graphs →
Legacy Dialogs → Boxplot. Τόσο για την κατασκευή απλού (µία µεταβλητή) όσο και για την
κατασκευή σύνθετου (δύο µεταβλητές) θηκογράµµατος δίνουµε την επιλογή Simple. Για ένα απλό
θηκόγραµµα πρέπει να επιλέξουµε Summaries of separate variables και να τοποθετήσουµε τη
µεταβλητή στη θέση Boxes Represent. Για ένα σύνθετο θηκόγραµµα πρέπει να επιλέξουµε Summaries
for groups of cases και να τοποθετήσουµε την ποσοτική µεταβλητή στη θέση Variable και την ποιοτική
µεταβλητή στη θέση Category Axis.
min max
P25 P50 P75
Ουσιαστικά, η όλη διαδικασία που χρησιµοποιείται στο µενού Graphs του SPSS βασίζεται στην εντολή
Εικόνα 73: Η Όψη του Θηκογράµµατος σε Αρνητικά Ασύµµετρη Κατανοµή Explore, την οποία συνήθως χρησιµοποιούµε απευθείας για την κατασκευή των θηκογραµµάτων.
Η Εικόνα 74 συνοψίζει τις τρεις παραπάνω περιπτώσεις, δείχνοντας τα θηκογράµµατα κατακόρυφα Παράδειγµα 13
όπως κατασκευάζονται συνήθως στο SPSS. Aν το θηκόγραµµα που έχουµε κατασκευάσει δεν ταιριάζει
σε καµία από αυτές τις τρεις όψεις, τότε ενδέχεται τα δεδοµένα µας να έχουν άλλη µορφή κατανοµής, Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να διερευνήσουµε,
όπως π.χ. πολυκόρυφη. Παράλληλη κατασκευή ιστογραµµάτων είναι χρήσιµη σε τέτοιες περιπτώσεις. µέσω θηκογραµµάτων, τη µορφή της κατανοµής των δεδοµένων για το Βάρος, το Βαθµό, και το Ύψος
των µαθητών (το είχαµε κάνει αυτό στο Παράδειγµα 8 της ενότητας 3.5 µε τη βοήθεια
ιστογραµµάτων).
Επιλέγουµε Analyze → Descriptive Statistics → Explore. Στη θέση Dependent List µεταφέρουµε τις
µεταβλητές ΒΑΡΟΣ, ΒΑΘΜΟΣ και ΥΨΟΣ. Στο Display επιλέγουµε Plots, αφού θέλουµε να
κατασκευαστούν µόνο διαγράµµατα. Στο πλαίσιο διαλόγου Explore: Plots φροντίζουµε να είναι
επιλεγµένο το Factor levels together για το Boxplot, ενώ ξετσεκάρουµε την επιλογή Steam-and-leaf.
Στο πλαίσιο διαλόγου Explore: Options επιλέγουµε Exclude cases pairwise για να µην έχουµε
ενδεχόµενα προβλήµατα µε την εξαίρεση απουσών τιµών (δες, σηµείωση ενότητας 4.3 και παράδειγµα
11). Οι επιλογές αυτές δείχνονται στην Εικόνα 75, και τα παραγόµενα θηκογράµµατα στην Εικόνα 76.
Θετικά
Αρνητικά Κανονική ασύµµετρη
ασύµµετρη κατανοµή κατανοµή
κατανοµή
Εικόνα 74: Όψεις Θηκογράµµατος και Μορφές Κατανοµών ∆εδοµένων
βέβαια, µια θετική ασυµµετρία η οποία όµως είναι µικρή και µπορεί να αγνοηθεί). Στο ίδιο
συµπέρασµα είχαµε καταλήξει χρησιµοποιώντας ιστόγραµµα (Παράδειγµα 8, Εικόνα 51).
Το θηκόγραµµα για τους βαθµούς των µαθητών έχει έντονη ασυµµετρία προς τα κάτω και η γραµµή
της διαµέσου είναι τραβηγµένη προς την πάνω βάση του ορθογωνίου, άρα η κατανοµή των βαθµών
των 50 µαθητών του δείγµατός µας είναι αρνητικά ασύµµετρη (το ίδιο συµπέρασµα είχαµε µε
ιστόγραµµα στο Παράδειγµα 8, Εικόνα 52).
Στο θηκόγραµµα για το ύψος των µαθητών έχει σηµειωθεί µία ακραία τιµή, η οποία είναι ασυνήθιστα
µεγάλη. Αυτή αντιστοιχεί στο άτοµο µε νούµερο 33 στην αρίθµηση της Data View. Το θηκόγραµµα
δείχνει αρκετά συµµετρικό, οπότε µπορούµε να θεωρήσουµε ότι η κατανοµή των υψών των µαθητών
είναι προσεγγιστικά κανονική (όπως είχαµε δει και µε ιστόγραµµα στο Παράδειγµα 8).
■
Εικόνα 75: Επιλογές στην Explore για το Παράδειγµα 13
Εικόνα 76: Παραγόµενα θηκογράµµατα για το Παράδειγµα 13 (βάρος, βαθµός, ύψος)
Παρατηρείστε ότι το θηκόγραµµα για το βάρος είναι περίπου συµµετρικό, που οδηγεί στο συµπέρασµα
προσεγγιστικά κανονικής κατανοµής για τα βάρη των 50 µαθητών του δείγµατός µας (διακρίνεται,
4.6 Σύνοψη Βασικών Εννοιών της Ενότητας 4 4.7 Άσκηση 4η
Στατιστικές για τη συνοπτική περιγραφή ποσοτικών δεδοµένων µπορούµε να πάρουµε:
Με την εντολή Frequencies (Analyze → Descriptive Statistics → Frequencies), διερεύνηση διαφόρων κοινωνικών οµάδων σε σχέση µε τη συνήθεια παρακολούθησης τηλεόρασης. Το
χρησιµοποιώντας το πλαίσιο διαλόγου Frequencies: Statistics όπου πρέπει να τσεκάρουµε δείγµα αποτελούσαν 120 τυχαία επιλεγµένοι ενήλικες από µια αστική περιοχή. Το αρχείο δεδοµένων
µία-µία τις στατιστικές που θέλουµε να µας υπολογίσει το SPSS. Από το πλαίσιο διαλόγου βρίσκεται αποθηκευµένο στο δίκτυο aretousa και στο eclass. Χρησιµοποιώντας κατάλληλα το SPSS
Frequencies: Charts µπορούµε να ζητήσουµε την παραγωγή ιστογραµµάτων που θα µας ζητείται να απαντήσετε στα ακόλουθα θέµατα:
βοηθήσουν να δούµε τη µορφή της κατανοµής των δεδοµένων και, άρα, να επιλέξουµε τις
κατάλληλες στατιστικές για την περιγραφή τους. (1) Χρησιµοποιώντας κατάλληλα τις εντολές Explore ή/και Frequencies, συµπληρώστε τον ακόλουθο
Με την εντολή Explore (Analyze → Descriptive Statistics → Explore), χρησιµοποιώντας το πίνακα στατιστικών µέτρων (µε ακρίβεια 1 δεκαδικού ψηφίου).
πλαίσιο διαλόγου Explore: Statistics το οποίο παράγει αυτόµατα µια ευρεία λίστα Μεταβλητή Απούσες Μέση Τυπική ∆ιάµεσος Ενδοτεταρτηµ. Εύρος
στατιστικών µέτρων (προ-επιλογή Descriptives), εκτός από τα εκατοστηµόρια τα οποία Τιµές (αρ.) Τιµή Απόκλιση Εύρος (P25-P75) (Min.-Max.)
πρέπει να ζητήσουµε τσεκάροντας την επιλογή Percentiles. Από το πλαίσιο διαλόγου Ηλικία (έτη)
Explore: Plots µπορούµε να ζητήσουµε την παραγωγή θηκογραµµάτων και ιστογραµµάτων,
τα οποία θα µας βοηθήσουν να δούµε τη µορφή της κατανοµής των δεδοµένων και, άρα, να Παρακολούθηση
επιλέξουµε τις κατάλληλες στατιστικές για την περιγραφή τους. Τηλεόρασης

(ώρες / ηµερ.)
Η εντολή Explore δίνει περισσότερες δυνατότητες από τη Frequencies και γι’ αυτό αποτελεί την
εντολή επιλογής για την παραγωγή στατιστικών µέτρων για ποσοτικά δεδοµένα. Με την Explore (2) Χρησιµοποιώντας κατάλληλα τις εντολές Explore ή/και Frequencies, συµπληρώστε στον ακόλουθο
µπορούµε να ζητήσουµε τον υπολογισµό στατιστικών µέτρων για µια ποσοτική µεταβλητή πίνακα τη µορφή της κατανοµής των δεδοµένων για κάθε µεταβλητή (κανονική, θετικά ασύµµετρη,
(Dependent List), ξεχωριστά για διάφορες υπο-οµάδες ατόµων στα δεδοµένα µας που ορίζονται αρνητικά ασύµµετρη) και την επιλογή των κατάλληλων στατιστικών µέτρων από το (1) για τη συνοπτική
από τις κατηγορίες µιας ποιοτικής µεταβλητής (Factor List). Ακόµη, η Explore µας δίνει παρουσίαση των δεδοµένων.
περισσότερες επιλογές κατασκευής διαγραµµάτων: µπορεί να παράγει ιστογράµµατα, Μεταβλητή Μορφή Κατανοµής Ποιες Στατιστικές θα δοθούν ;
θηκογράµµατα και normality plots. ∆εδοµένων στο δείγµα
Ηλικία (έτη)
Η χρήση της Explore για τον υπολογισµό στατιστικών µέτρων για πολλές µεταβλητές (που
Παρακολούθηση
τοποθετούνται στη θέση Dependent List) χρειάζεται προσοχή όταν µία τουλάχιστον από τις Τηλεόρασης
µεταβλητές έχει απούσες τιµές. Για να µην εξαιρεθούν τα άτοµα µε απούσες τιµές από όλες τις (ώρες / ηµερ.)
µεταβλητές που θέτουµε στη Dependent List, χρησιµοποιούµε το πλαίσιο διαλόγου Explore:
Options και επιλέγουµε Exclude Cases Pairwise (αντί για Listwise).
(3) Γράψτε µια σύντοµη παράγραφο που να συνοψίζει, µε βάση το (2), τα δεδοµένα της Ηλικίας και
του Χρόνου Παρακολούθησης Τηλεόρασης για τα άτοµα του δείγµατος.
Αν θέλουµε να κάνουµε υπολογισµούς στατιστικών µέτρων για υπο-οµάδες στο δείγµα µας, οι
Ηλικία: …………………………………………………………………………………………………...
οποίες δεν ορίζονται από µία ποιοτική µεταβλητή αλλά από τις διασταυρώσεις πολλών µεταβλητών
……………………………………………………………………………………………………………
στα δεδοµένα µας, τότε είναι χρήσιµη η εντολή Select Cases (Data → Select Cases → If condition
…………………………………………………………………………………………………..………...
is satisfied). Με την Select Cases µπορούµε να δηλώσουµε τις συνθήκες που ορίζουν την οµάδα
ατόµων µε την οποία θέλουµε να εργαστούµε. Η δήλωση των συνθηκών αυτών γίνεται Χρόνος Παρακολούθησης TV: …………………………………………………………………………
χρησιµοποιώντας τα ονόµατα των µεταβλητών και τους κωδικούς των τιµών τους που έχουµε ……………………………………………………………………………………………………………
ορίσει αντίστοιχα στις Name και Values της Variable View. ……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
(4) Συµπληρώστε τον παρακάτω πίνακα που αφορά βασικές στατιστικές για την κατανοµή του αριθµού 5. Περιγραφή της Σχέσης ∆ύο Μεταβλητών
των ωρών παρακολούθησης τηλεόρασης την ηµέρα σε σχέση µε το φύλο στο δείγµα µας (µε ακρίβεια 1
δεκαδικού ψηφίου):
Φύλο Όλοι οι Γυναίκες Άνδρες
Στατιστικές Παρακολ. TV Συµµετέχοντες Στις προηγούµενες ενότητες ασχοληθήκαµε µε τους τρόπους συνοπτικής περιγραφής και παρουσίασης
Ελάχιστος & Μέγιστος αριθµός ωρών των δεδοµένων από µία µόνο µεταβλητή. Τα δεδοµένα αυτά – που προέρχονται από µία µόνο
παρακολούθησης TV / ηµέρα.
µεταβλητή – ονοµάζονται µονοµεταβλητά δεδοµένα (univariate data). Αν και η περιγραφή των
Μέσος αριθµός ωρών παρακολούθησης
TV / ηµέρα. δεδοµένων ξεχωριστά για κάθε µία από τις µεταβλητές που εξετάζουµε στην εργασία µας είναι
Τυπική απόκλιση ωρών θεµελιώδους σηµασίας, το αντικείµενο των περισσότερων ερευνών περιλαµβάνει τη διερεύνηση της
παρακολούθησης TV / ηµέρα. σχέσης µεταξύ δύο ή περισσότερων µεταβλητών.
∆ιάµεσος αριθµός ωρών
Ενδοτεταρτηµοριακό εύρος ωρών Παραδείγµατα τέτοιων ερωτηµάτων µπορούν να είναι: Μπορεί η κατάθλιψη να οδηγήσει στην
παρακολούθησης TV / ηµέρα. αυτοκτονία; Υπάρχει συσχέτιση ανάµεσα στην ηλικία και την εξασθένηση της µνήµης; Συνδέεται η
10ο εκατοστηµόριο ωρών ευφυΐα µε το εισόδηµα; Σχετίζεται το κάπνισµα στα παιδιά µε την οικογενειακή κατάσταση των γονέων
(διαζευγµένοι ή όχι); Υπάρχει σύνδεση ανάµεσα στην επιθετική συµπεριφορά µικρών παιδιών και την
90ο εκατοστηµόριο ωρών
παρακολούθησης TV / ηµέρα. παρακολούθηση τηλεοπτικών προγραµµάτων µε βίαιο περιεχόµενο;
(5) Κατασκευάστε ένα σύνθετο θηκόγραµµα το οποίο να δείχνει τη διαφοροποίηση του χρόνου Όλα τα παραπάνω παραδείγµατα αφορούν µια σύνδεση ή, µε άλλα λόγια, µια σχέση µεταξύ δύο
παρακολούθησης τηλεόρασης (ώρες / ηµέρα) ανά µορφωτικό επίπεδο (<= λυκείου ή τριτοβάθµια µεταβλητών. Υπάρχουν και άλλες ερωτήσεις στην έρευνα που µπορεί επιφανειακά να µην
εκπ/ση) στο δείγµα µας. υποδηλώνουν την ύπαρξη µιας σχέσης, αλλά που αν τις εξετάσουµε προσεκτικά θα δούµε ότι τα
πράγµατα είναι διαφορετικά: για παράδειγµα, «υπάρχει διαφορά στη συχνότητα παραβατικής
(6) Χρησιµοποιώντας κατάλληλα τις εντολές Select Cases, Explore ή/και Frequencies, συµπληρώστε συµπεριφοράς στα παιδιά διαζευγµένων γονέων και στα παιδιά που οι γονείς τους έχουν φυσιολογικό
τον ακόλουθο πίνακα: γάµο;». Συχνά ένα ερώτηµα για την ύπαρξη σχέσης / σύνδεσης µεταξύ δύο µεταβλητών είναι
Γυναίκες Άνδρες που είναι Άτοµα που δεν είναι ισοδύναµο µε ένα ερώτηµα για την ύπαρξη διαφοράς µεταξύ δύο ή περισσότερων οµάδων ατόµων.
που είναι απόφοιτοι το ανύπαντρα και έχουν
ανύπαντρες πολύ Λυκείου ηλικία άνω των 35 ετών
Μέσος αριθµός ωρών Πριν συνεχίσουµε την παρουσίαση των στατιστικών εργαλείων για τη διερεύνηση και περιγραφή της
παρακολούθησης TV / σχέσης δύο µεταβλητών, είναι σκόπιµο να διευκρινίσουµε τη σχετική ορολογία. Τα δεδοµένα που
ηµέρα. λαµβάνουµε για να εξετάσουµε τη σχέση δύο µεταβλητών ονοµάζονται διµεταβλητά δεδοµένα
∆ιάµεσος αριθµός ωρών
παρακολούθησης TV / (bivariate data). Τα δεδοµένα αυτά λαµβάνονται µε την παρατήρηση ή µέτρηση και των δύο
ηµέρα. µεταβλητών σε κάθε άτοµο που συµµετέχει στην έρευνά µας. Η κύρια µεταβλητή στην οποία εστιάζει
Αθροιστικό Ποσοστό η έρευνα, το ‘αποτέλεσµα’ που θέλουµε να µάθουµε από τι επηρεάζεται ή καθορίζεται, ονοµάζεται
ατόµων που παρακολουθούν
µέχρι και 2,5 ώρες TV / εξαρτηµένη µεταβλητή ή µεταβλητή απόκρισης (dependent variable ή response variable). Οι
ηµέρα. µεταβλητές των οποίων την επίδραση πάνω στην εξαρτηµένη µεταβλητή θέλουµε να διερευνήσουµε,
Ποσοστό ατόµων µε πάνω
αναφέρονται ως ανεξάρτητες µεταβλητές ή παράγοντες ή εκθέσεις (independent variables, factors,
από δύο τηλεοράσεις στο
σπίτι τους exposures). Γενικά, η εξαρτηµένη µεταβλητή είναι αυτή που επηρεάζεται και η ανεξάρτητη µεταβλητή
είναι εκείνη που επηρεάζει. Για παράδειγµα, στο ερώτηµα «µπορεί η κατάθλιψη να οδηγήσει στην
■ αυτοκτονία;», η εξαρτηµένη µεταβλητή είναι η αυτοκτονία και η ανεξάρτητη µεταβλητή είναι η
κατάθλιψη. Στο ερώτηµα «σχετίζεται το κάπνισµα στα παιδιά µε την οικογενειακή κατάσταση των
γονέων;», η εξαρτηµένη µεταβλητή είναι το κάπνισµα στα παιδιά και η ανεξάρτητη µεταβλητή είναι η
οικογενειακή κατάσταση των γονέων. Στα παραδείγµατα αυτά, στα οποία εµπλέκονται δύο µεταβλητές Εξαρτηµένη Ανεξάρτητη Παράδειγµα Εργαλεία
(µία εξαρτηµένη και µία ανεξάρτητη), λέµε ότι κάνουµε διµεταβλητή ανάλυση (bivariable analysis). Μεταβλητή Μεταβλητή Περιγραφικής Στατιστικής
Επειδή µελετάµε την επίδραση µόνο µίας ανεξάρτητης µεταβλητής (µόνο ενός παράγοντα), συχνά
1 Ποσοτική Ποιοτική Επίδοση (βαθµός) στο Σύγκριση µέσων τιµών,
αναφέρουµε τον όρο µονο-παραγοντική ανάλυση (univariate analysis). σχολείο και φύλο διαµέσων ή άλλων
στατιστικών,
Σύνθετο Θηκόγραµµα
Συχνά µια εξαρτηµένη µεταβλητή (ένα αποτέλεσµα) µπορεί να επηρεάζεται από πολλές ανεξάρτητες
µεταβλητές, οι οποίες ενδέχεται να αλληλεπιδρούν µεταξύ τους και να έχουν συνδυαστική επίδραση 2 Ποιοτική Ποιοτική Παιδική Πίνακας Συνάφειας,
παραβατικότητα και Σύγκριση ποσοστών,
πάνω στην εξαρτηµένη µεταβλητή. Όταν ο στόχος της στατιστικής ανάλυσης είναι η διερεύνηση της οικογενειακή Σύνθετο ραβδόγραµµα
κατάσταση γονέων
σχετικής επίδρασης πολλών ανεξάρτητων µεταβλητών πάνω σε µία εξαρτηµένη, λαµβάνοντας υπόψη
τις συνδυαστικές επιδράσεις µεταξύ τους, τότε η ανάλυση λέγεται πολύ-µεταβλητή ή πολύ-
3 Ποσοτική Ποσοτική Ώρες παρακολούθησης ∆ιάγραµµα διασποράς,
παραγοντική ανάλυση (multivariable analysis). Για παράδειγµα, σε µια µελέτη που αφορά την παιδική τηλεόρασης και ηλικία Συντελεστής συσχέτισης
Pearson ή Spearman
παραβατικότητα, µπορεί να θέλουµε να διερευνήσουµε αν έχουν επίδραση το µορφωτικό επίπεδο της
µητέρας, το µορφωτικό επίπεδο του πατέρα και η κατάσταση γάµου των γονέων (π.χ. διαζευγµένοι ή Εικόνα 77: Εργαλεία διερεύνησης και περιγραφής της σχέσης δύο µεταβλητών
όχι). Ενδέχεται να υπάρχουν συνδυαστικές επιδράσεις των τριών αυτών παραγόντων στην παιδική
παραβατικότητα, και θα θέλαµε να µάθουµε ποια είναι η ανεξάρτητη επίδραση κάθε παράγοντα (η
επίδραση που έχει από µόνος του κάθε παράγοντας), αφού πρώτα λάβουµε υπόψη τις αλληλεπιδράσεις
5.2 Συσχέτιση µιας Ποσοτικής και µιας Ποιοτικής Μεταβλητής (Explore)
µεταξύ τους. Για το σκοπό αυτό θα µας βοηθούσαν τεχνικές πολύ-µεταβλητής στατιστικής ανάλυσης.
Ωστόσο, οι τεχνικές αυτές είναι ιδιαίτερα πολύπλοκες και βρίσκονται εκτός των στόχων του
Η διερεύνηση της σχέσης ανάµεσα σε µια ποσοτική µεταβλητή (εξαρτηµένη) και µια ποιοτική
εισαγωγικού µας µαθήµατος.
µεταβλητή (ανεξάρτητη), ανάγεται στη σύγκριση στατιστικών µέτρων για την ποσοτική µεταβλητή
ανά κατηγορία της ποιοτικής µεταβλητής. Tα αποτελέσµατα µπορούν να παρουσιαστούν γραφικά µε
Στις παρούσες σηµειώσεις, θα συζητήσουµε µόνον τη διεξαγωγή διµεταβλητών (µονο-παραγοντικών)
ένα σύνθετο θηκόγραµµα.
αναλύσεων. Έτσι, αναφορικά µε το προηγούµενο παράδειγµα, θα συζητήσουµε τους τρόπους µε τους
οποίους µπορούµε να διερευνήσουµε αν υπάρχει συσχέτιση ανάµεσα στο µορφωτικό επίπεδο της
Τα εργαλεία αυτά είναι διαθέσιµα στο SPSS µέσω της εντολής Explore, όπως είχαµε δει στην ενότητα
µητέρας και την παιδική παραβατικότητα, ανάµεσα στο µορφωτικό επίπεδο του πατέρα και την παιδική
4.3. Ειδικότερα, στο πλαίσιο διαλόγου της Explore, τοποθετούµε την ποσοτική µεταβλητή στη θέση
παραβατικότητα, ή ανάµεσα στην κατάσταση του γάµου των γονιών και την παιδική παραβατικότητα
Dependent List, και την ποιοτική µεταβλητή στη θέση Factor List. Στο πλαίσιο διαλόγου Explore:
(κάθε µία συσχέτιση ξεχωριστά). ∆εν θα συζητήσουµε όµως τους τρόπους µε τους οποίους θα
Statistics τσεκάρουµε τις επιλογές Descriptives και Percentiles, ώστε να πάρουµε όλη τη λίστα
µπορούσαµε να διερευνήσουµε συνδυαστικές επιδράσεις των τριών µεταβλητών στην παιδική
στατιστικών µέτρων που έχουµε συζητήσει µέχρι τώρα. Στο πλαίσιο διαλόγου Explore: Plots µπορούµε
παραβατικότητα.
να ζητήσουµε την παραγωγή ιστογραµµάτων και σύνθετου θηκογράµµατος.
Υπάρχουν πολλές στατιστικές τεχνικές για να ερευνήσουµε και να περιγράψουµε τη σχέση µεταξύ δύο
µεταβλητών. Θα ασχοληθούµε µε πίνακες, διαγράµµατα και στατιστικές που µας βοηθούν να κάνουµε
µια βασική διµεταβλητή ανάλυση. Η επιλογή των κατάλληλων στατιστικών εργαλείων εξαρτάται από
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να διερευνήσουµε αν
το είδος των εµπλεκόµενων µεταβλητών. Ειδικότερα, θα εστιάσουµε σε τρεις περιπτώσεις, όπως
υπάρχει σχέση ανάµεσα στο Φύλο και το Βαθµό των µαθητών, και αν ναι, να περιγράψουµε αυτή τη
δείχνει ο πίνακας της Εικόνας 77.
σχέση. Εποµένως, θα συγκρίνουµε τις στατιστικές του βαθµού µεταξύ των κοριτσιών και των αγοριών,
και θα κατασκευάσουµε κατάλληλο σύνθετο θηκόγραµµα.
Επιλέγουµε Analyze → Descriptive Statistics → Explore. Στη θέση Dependent List µεταφέρουµε τη Explore
µεταβλητή ΒΑΘΜΟΣ. Στη θέση Factor List µεταφέρουµε τη µεταβλητή ΦΥΛΟ. Στο πλαίσιο διαλόγου Φύλο Cases
Valid Missing Total
Explore: Statistics φροντίζουµε να είναι επιλεγµένα τα Descriptives και Percentiles. Στο πλαίσιο N Percent N Percent N Percent
διαλόγου Explore: Plots φροντίζουµε να είναι επιλεγµένο το Factor levels together για το Boxplot, και Κορίτσι 28 100% 0 0% 28 100%
Αγόρι 22 100% 0 0% 22 100%
ξετσεκάρουµε την επιλογή Steam-and-leaf. Τέλος, στο πλαίσιο διαλόγου Explore: Options επιλέγουµε Descriptives
Φύλο Statistic Std. Error
Exclude cases pairwise για να µην έχουµε ενδεχόµενα προβλήµατα µε την εξαίρεση απουσών τιµών Κορίτσι Mean 16,5 ,5
(δες σηµείωση ενότητας 4.3 και παράδειγµα 11). Το παραγόµενο output του SPSS φαίνεται στην 95% Confidence Interval for Lower Bound 15,5
Mean Upper Bound 17,4
Εικόνα 78. 5% Trimmed Mean 16,5
Median 16,0
Variance 5,8
Std. Deviation 2,4
Από τα αποτελέσµατα της Εικόνας 78, παρατηρούµε ότι µέσοι όροι βαθµολογίας είναι παρόµοιοι στα
Minimum 12,2
κορίτσια και τα αγόρια (16,5 έναντι 16,8 αντίστοιχα). Στα θηκογράµµατα, παρατηρούµε ότι τα δύο Maximum 20,0
Range 7,8
ορθογώνια (που αντιπροσωπεύουν το ενδοτεταρτηµοριακό εύρος) βρίσκονται σχεδόν στο ίδιο ύψος και Interquartile Range 4,0
Skewness -,1 ,4
έχουν παρόµοιο µήκος. Εποµένως, γενικά δεν φαίνεται να υπάρχουν κάποιες έντονες διαφορές στους
Kurtosis -1,3 ,9
βαθµούς των κοριτσιών και των αγοριών του δείγµατός µας. Τα θηκογράµµατα, ακόµη, δεν δείχνουν Αγόρι Mean 16,8 ,5
95% Confidence Interval for Lower Bound 15,7
κάποια διαφοροποίηση στους υψηλούς βαθµούς σε σχέση µε το φύλο. Φαίνεται όµως να υπάρχουν Mean Upper Bound 17,9
5% Trimmed Mean 17,0
διαφορές στα κάτω άκρα των θηκογραµµάτων, δηλαδή διαφορές στους χαµηλούς βαθµούς µεταξύ των Median 17,7
αγοριών και των κοριτσιών. Variance 6,4
Std. Deviation 2,5
Minimum 10,0
Maximum 20,0
Μπορούµε να χρησιµοποιήσουµε τα εκατοστηµόρια για να περιγράψουµε τις διαφορές (ή οµοιότητες) Range 10,0
στα δύο άκρα των κατανοµών των βαθµών των κοριτσιών και των αγοριών. Πράγµατι, παρατηρείστε Interquartile Range 3,3
Skewness -1,3 ,5
στον πίνακα “Percentiles ”ότι τα P75, P90 και P95 έχουν παρόµοιες τιµές για τα δύο φύλα, άρα δεν Kurtosis 1,4 1,0
Percentiles
υπάρχει κάποια διαφορά στους καλούς µαθητές (υψηλούς βαθµούς). Αντίθετα, τα P5 και P10 έχουν πολύ Φύλο Percentiles
5 10 25 50 75 90 95
χαµηλότερες τιµές για τα αγόρια συγκριτικά µε τα κορίτσια, δηλαδή φαίνεται να υπάρχει
Weighted Average Βαθµός Κορίτσι 12,3 13,2 14,7 16,0 18,7 19,5 19,9
διαφοροποίηση των χαµηλών βαθµών σε σχέση µε το φύλο στους µαθητές του δείγµατός µας. (Definition 1) Β΄λυκείου Αγόρι 10,2 12,3 15,2 17,7 18,5 19,3 19,9
Βαθµός Κορίτσι 14,8 16,0 18,7
Tukey's Hinges
Ειδικότερα, στις πολύ χαµηλές βαθµολογικές επιδόσεις, φαίνεται τα αγόρια να αποδίδουν ακόµη Β΄λυκείου Αγόρι 15,2 17,7 18,5
χειρότερα από τα κορίτσια.
Από τα παραπάνω στοιχεία, συµπεραίνουµε ότι στο δείγµα των 50 µαθητών που µελετήσαµε, δεν
φάνηκε γενικά να υπάρχει σχέση (διαφοροποίηση) του Βαθµού µε το Φύλο. Εντοπίσαµε µόνο µια
µικρή διαφορά στα δύο φύλα στις πολύ χαµηλές βαθµολογίες.
Προσοχή: Το παραπάνω συµπέρασµα είναι περιγραφικό και όχι επαγωγικό. ∆ηλαδή, αφορά το δείγµα
µας (τους συγκεκριµένους 50 µαθητές) και όχι απαραίτητα ολόκληρο τον πληθυσµό των µαθητών στον
οποίο κάναµε τη δειγµατοληψία. Κατά πόσο το συµπέρασµά µας µπορεί να γενικευτεί για ολόκληρο
τον πληθυσµό (αν είναι όπως λέµε “στατιστικά σηµαντικό”) είναι ζήτηµα επαγωγικής στατιστικής, και
εξαρτάται από τον τρόπο δειγµατοληψίας, το µέγεθος του δείγµατος και τη διασπορά των δεδοµένων
του δείγµατος. Επίσης, πρέπει να εξετάσουµε αν υπάρχουν συγχυτικές επιδράσεις από άλλες
Εικόνα 78: Αποτελέσµατα Explore για το Παράδειγµα 14. ■
µεταβλητές (δες ενότητα 5.5 παρακάτω).
5.3 Συσχέτιση ∆ύο Ποιοτικών Μεταβλητών (Crosstabs) Στον παραπάνω πίνακα:

α = αριθµός παιδιών (απόλυτη συχνότητα) µε επιθετική συµπεριφορά που παρακολουθούν τηλεοπτικά
Στην περίπτωση της διερεύνησης της σχέσης ανάµεσα σε δύο ποιοτικές µεταβλητές, δεν έχει νόηµα η προγράµµατα µε βίαιο περιεχόµενο,
χρησιµοποίηση στατιστικών µέτρων όπως οι µέσοι όροι, οι διάµεσες τιµές, τα εκατοστηµόρια κλπ, β = αριθµός παιδιών (απόλυτη συχνότητα) χωρίς επιθετική συµπεριφορά που παρακολουθούν τηλεοπτικά
αφού αυτά τα στατιστικά µέτρα µπορούν να χρησιµοποιηθούν µόνον για ποσοτικές µεταβλητές. προγράµµατα µε βίαιο περιεχόµενο,
γ = αριθµός παιδιών (απόλυτη συχνότητα) µε επιθετική συµπεριφορά που δεν παρακολουθούν τηλεοπτικά
Αντίθετα, η εύρεση της πιθανής σχέσης µεταξύ δύο ποιοτικών µεταβλητών, επιτυγχάνεται µέσω της
προγράµµατα µε βίαιο περιεχόµενο,
σύγκρισης ποσοστών.
δ = αριθµός παιδιών (απόλυτη συχνότητα) χωρίς επιθετική συµπεριφορά που δεν παρακολουθούν τηλεοπτικά
προγράµµατα µε βίαιο περιεχόµενο.
Για παράδειγµα, ας υποθέσουµε ότι θέλουµε να ερευνήσουµε αν υπάρχει σύνδεση ανάµεσα στην
εκδήλωση επιθετικής συµπεριφοράς (ποιοτική µεταβλητή, µε τιµές ναι/ όχι) και την παρακολούθηση
Ο πίνακας συνάφειας, περιλαµβάνει σύνολα (αθροίσµατα) γραµµών (row totals) και σύνολα στηλών
τηλεοπτικών προγραµµάτων µε βίαιο περιεχόµενο (επίσης ποιοτική µεταβλητή, µε τιµές ναι/ όχι), σε
(column totals):
παιδιά προσχολικής ηλικίας. Στην περίπτωση αυτή, έχουµε δύο οµάδες παιδιών προς σύγκριση: (Α) τα
α + β = συνολικός αριθµός παιδιών που παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο περιεχόµενο,
παιδιά που παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο περιεχόµενο, και (Β) τα παιδιά που δεν γ + δ = συνολικός αριθµός παιδιών που δεν παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο περιεχόµενο,
παρακολουθούν τέτοια προγράµµατα. Αυτό που πρέπει να συγκρίνουµε ανάµεσα στις δύο οµάδες είναι α + γ = συνολικός αριθµός παιδιών µε επιθετική συµπεριφορά,
η συχνότητα εκδήλωσης επιθετικής συµπεριφοράς. Επειδή οι δύο οµάδες ενδέχεται να µην β + δ = συνολικός αριθµός παιδιών χωρίς επιθετική συµπεριφορά.
περιλαµβάνουν τον ίδιο αριθµό ατόµων (άνισα δειγµατικά µεγέθη), η σύγκριση θα πρέπει να γίνει Ο πίνακας συνάφειας περιλαµβάνει ακόµη το γενικό σύνολο (total) των ατόµων (το µέγεθος
χρησιµοποιώντας ποσοστά. Έτσι, θα πρέπει να υπολογίσουµε και να συγκρίνουµε το ποσοστό των δείγµατος):
παιδιών µε επιθετική συµπεριφορά στην οµάδα Α µε το ποσοστό των παιδιών µε επιθετική α + β + γ + δ = συνολικός αριθµός παιδιών που συµπεριλήφθηκαν στην έρευνα.
συµπεριφορά στην οµάδα Β. Αν τα δύο ποσοστά που θα προκύψουν είναι πολύ διαφορετικά (π.χ. η
οµάδα Α έχει πολύ µεγαλύτερο ποσοστό παιδιών µε επιθετική συµπεριφορά συγκριτικά µε την οµάδα Από τις παραπάνω συχνότητες µπορούµε εύκολα να υπολογίσουµε τα ποσοστά που θα µας βοηθήσουν
Β), τότε θα έχουµε ενδείξεις για την ύπαρξη σχέσης ανάµεσα στις δύο µεταβλητές. Αν, αντίθετα, να απαντήσουµε αν οι δύο µεταβλητές συσχετίζονται. Για παράδειγµα, το ποσοστό εκδήλωσης
προκύψουν παρόµοια ποσοστά στις δύο συγκρινόµενες οµάδες, θα συµπεράνουµε ότι δεν υπάρχει επιθετικής συµπεριφοράς θα υπολογιστεί ως:
σχέση ανάµεσα στις δύο µεταβλητές. α
⋅100 για τα παιδιά που παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο περιεχόµενο,
α +β
Για τον υπολογισµό των κατάλληλων ποσοστών που θα πρέπει να συγκριθούν κατά τη διερεύνηση της γ
⋅100 για τα παιδιά που δεν παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο περιεχόµενο.
γ +δ
σχέσης δύο ποιοτικών µεταβλητών, είναι χρήσιµη η κατασκευή ενός πίνακα συνάφειας (cross-
tabulation ή contingency table), στον οποίο οι τιµές της µίας µεταβλητής τοποθετούνται κατά γραµµές
Γραφικά, µπορούµε να απεικονίσουµε τα αποτελέσµατα χρησιµοποιώντας ένα σύνθετο ραβδόγραµµα
(rows) και οι τιµές της άλλης µεταβλητής τοποθετούνται κατά στήλες (columns). Έτσι, ο πίνακας θα
(clustered bar chart).
περιλαµβάνει συχνότητες για όλες τις διασταυρώσεις των τιµών των δύο µεταβλητών.
Η παραγωγή ενός πίνακα συνάφειας στο SPSS γίνεται µέσω της εντολής Crosstabs, η οποία µπορεί να
Σε σχέση µε το προηγούµενο παράδειγµα, η µορφή του πίνακα συνάφειας θα έχει ως εξής:
παράγει και το αντίστοιχο σύνθετο ραβδόγραµµα. Ωστόσο, η προεπιλογή της Crosstabs για το σύνθετο
Εκδήλωση Επιθετικής Συµπεριφοράς
ραβδόγραµµα χρησιµοποιεί απόλυτες συχνότητες (αριθµός ατόµων, counts) και όχι ποσοστά, γεγονός
ΝΑΙ ΌΧΙ Σύνολο που µπορεί να δηµιουργήσει προβλήµατα στις συγκρίσεις. Γι’ αυτό είναι προτιµότερο να
Παρακολούθηση
ΝΑΙ α β α+β χρησιµοποιείται το µενού Graphs για την παραγωγή σύνθετων ραβδογραµµάτων.
τηλεοπτικών
προγραµµάτων µε
βίαιο περιεχόµενο ΟΧΙ γ δ γ+δ
Για περισσότερες λεπτοµέρειες και παραδείγµατα σχετικά µε την διερεύνηση και περιγραφή της σχέσης
Σύνολο α+γ β+δ α+β+γ+δ δύο ποιοτικών µεταβλητών απευθυνθείτε στις παραδόσεις της θεωρίας.
5.3.1 Κατασκευή Πίνακα Συνάφειας µε την εντολή Crosstabs Παράδειγµα 15
Για την κατασκευή ενός πίνακα συνάφειας µεταξύ δύο ποιοτικών µεταβλητών, επιλέγουµε: Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να διερευνήσουµε αν
Analyze → Descriptive Statistics → Crosstabs υπάρχει σχέση ανάµεσα στο Φύλο και την Ασχολία στον ελεύθερο χρόνο των µαθητών, δηλαδή θα
ώστε να οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 79. κατασκευάσουµε έναν πίνακα συνάφειας για τις δύο αυτές ποιοτικές µεταβλητές.
Επιλέγουµε Analyze → Descriptive Statistics → Crosstabs. Μεταφέρουµε τη µεταβλητή ΑΣΧΟΛΙΑ στη
θέση Row(s), τη µεταβλητή ΦΥΛΟ στη θέση Column(s) και πατάµε ΟΚ. Το παραγόµενο output του
SPSS φαίνεται στην Εικόνα 80.
Εικόνα 79: Το πλαίσιο διαλόγου της εντολής Crosstabs

Εικόνα 80: Αποτελέσµατα της Crosstabs για το Παράδειγµα 15
Στο πλαίσιο διαλόγου Crosstabs, µεταφέρουµε στη θέση Row(s) τη µεταβλητή που θέλουµε να
εµφανίζεται στις γραµµές του πίνακα, και στη θέση Column(s) τη µεταβλητή που θα αντιστοιχεί στις Ο πρώτος πίνακας “Case Processing Summary” µας ενηµερώνει ότι από το σύνολο των 50 ατόµων στο
στήλες του πίνακα. Είναι βολικό να τοποθετούµε κατά γραµµές τη µεταβλητή µε τις περισσότερες δείγµα µας (N Total), έχουµε απούσες τιµές για 2 άτοµα (Ν Missing), οπότε τα αποτελέσµατα που θα
τιµές, αλλά αυτό δεν είναι υποχρεωτικό. Ο παραγόµενος πίνακας συνάφειας θα δείχνει απόλυτες δοθούν αφορούν 48 άτοµα (Ν Valid).
συχνότητες (αριθµό ατόµων), αλλά µπορούµε να χρησιµοποιήσουµε την επιλογή Cells … αν θέλουµε
να ζητήσουµε την εµφάνιση ποσοστών. Μπορούµε ακόµη να ζητήσουµε την παραγωγή σύνθετου Ακολουθεί ο πίνακας συνάφειας (Crosstabulation) ανάµεσα στην Κυριότερη ασχολία στον ελεύθερο
ραβδογράµµατος τσεκάροντας την επιλογή Display clustered bar charts, αλλά το ραβδόγραµµα θα χρόνο και το Φύλο. Από τον πίνακα συνάφειας µπορούµε να δούµε τις συχνότητες (counts) για
κατασκευαστεί µε βάση απόλυτες συχνότητες και όχι µε ποσοστά. Για τη διευκόλυνση των συγκρίσεων διασταυρώσεις των τιµών των δύο µεταβλητών. Για παράδειγµα, υπάρχουν 3 κορίτσια που δήλωσαν ως
είναι απαραίτητη η χρήση ποσοστών, οπότε θα απευθυνόµαστε στο µενού Graphs του SPSS για να κυριότερη ασχολία τον αθλητισµό, 5 αγόρια που δήλωσαν ως κυριότερη ασχολία τους υπολογιστές,
κατασκευάζουµε σύνθετα ραβδογράµµατα. κλπ. Τα σύνολα γραµµών δίνουν την κατανοµή συχνοτήτων για την ασχολία (συνολικά 7 άτοµα
ασχολούνται µε υπολογιστές, 12 άτοµα µε αθλητισµό, 15 άτοµα µε µουσική / χορό, κλπ). Τα σύνολα
στηλών δίνουν την κατανοµή συχνοτήτων του φύλου (26 κορίτσια και 22 αγόρια). Το γενικό σύνολο
στην κάτω δεξιά γωνία (διασταύρωση των δύο Total) είναι 48, δηλαδή στον πίνακα περιλαµβάνονται
5.3.1 Υπολογισµός Ποσοστών σε έναν Πίνακα Συνάφειας
συνολικά 48 άτοµα.
Ο απευθείας παραγόµενος πίνακας συνάφειας της Crosstabs δείχνει απόλυτες συχνότητες (αριθµό
Παρατηρούµε από τον παραπάνω πίνακα συνάφειας, ότι η ασχολία που δηλώθηκε από τα περισσότερα
ατόµων), αλλά µπορούµε να χρησιµοποιήσουµε την επιλογή Cells … για να ζητήσουµε την εµφάνιση
κορίτσια στο δείγµα µας ήταν “ουσική / χορός”, ακολουθούµενη από “∆ιάβασµα εξωσχολικών
ποσοστών. Για κάθε συγκεκριµένο κελί (cell) του πίνακα συνάφειας, το SPSS µπορεί να υπολογίσει
βιβλίων”. Αντίθετα, για τα αγόρια οι δύο συχνότερες ασχολίες ήταν ο Αθλητισµός και οι Υπολογιστές.
τρία ποσοστά: (α) το ποσοστό των ατόµων επί του συνόλου γραµµής (row percentage), (β) το ποσοστό
Έτσι, στους µαθητές του δείγµατός µας, η επιλογή ασχολίας διαφοροποιήθηκε ανάµεσα σε κορίτσια
των ατόµων επί του συνόλου στήλης (column percentage), και (γ) το ποσοστό των ατόµων επί του
και αγόρια. Με άλλα λόγια, υπάρχει σχέση ασχολίας και φύλου στο δείγµα µας.
γενικού συνόλου (total percentage), όπως φαίνεται στην Εικόνα 81.
Προσοχή χρειάζεται στις συγκρίσεις ανάµεσα στις επιλογές των κοριτσιών και των αγοριών, γιατί ο
Για την τελική παρουσίαση των δεδοµένων µας δεν
παραπάνω πίνακας δίνει απόλυτες συχνότητες και τα κορίτσια στο δείγµα µας είναι περισσότερα από
επιβαρύνουµε τον πίνακα συνάφειας και µε τα τρία
τα αγόρια. Η διεξαγωγή συγκρίσεων θα πρέπει να γίνει µε τη χρήση ποσοστών.
ποσοστά, αλλά επιλέγουµε να δώσουµε ένα από
αυτά, ανάλογα µε το που θέλουµε να εστιάσουµε
Προσοχή χρειάζεται επίσης στην ερµηνεία των αποτελεσµάτων µας. Το συµπέρασµα που δώσαµε
την ανάλυσή µας ή µε το ποιο από τα ποσοστά έχει
παραπάνω, ότι υπάρχει σχέση ασχολίας και φύλου, είναι περιγραφικό και αφορά το συγκεκριµένο
νόηµα να παρουσιάσουµε.
δείγµα (τους συγκεκριµένους 50 µαθητές που αναλύσαµε). Κατά πόσο το συµπέρασµά µας µπορεί να
γενικευτεί για ολόκληρο τον πληθυσµό (αν είναι όπως λέµε “στατιστικά σηµαντικό”) είναι ζήτηµα
Λόγου χάριν, για το παράδειγµα µε την επιθετική
επαγωγικής στατιστικής, και εξαρτάται από τον τρόπο δειγµατοληψίας, το µέγεθος του δείγµατος και
συµπεριφορά και την παρακολούθηση τηλεοπτικών
τη διασπορά των δεδοµένων του δείγµατος. ■
προγραµµάτων µε βίαιο περιεχόµενο που
αναφέραµε στην αρχή της ενότητας 5.3, θα θέλαµε
να παρουσιάσουµε και να συγκρίνουµε τα ποσοστά
εκδήλωσης επιθετικής συµπεριφοράς στα παιδιά που
παρακολουθούν και σε εκείνα που δεν
Εικόνα 81: Πλαίσιο διαλόγου Crosstabs: Cells παρακολουθούν τηλεοπτικά προγράµµατα µε βίαιο
Display περιεχόµενο. Αν ζητούσαµε την κατασκευή του
πίνακα συνάφειας όπως στη µορφή της ενότητας
5.3, δηλαδή θέτοντας τη µεταβλητή της παρακολούθησης βίαιων τηλεοπτικών προγραµµάτων στις
γραµµές του πίνακα, τότε τα ποσοστά που θέλουµε να παρουσιάσουµε θα ήταν ποσοστά επί των
συνόλων γραµµής (row percentages).

έναν πίνακα συνάφειας ανάµεσα στο Φύλο και την Κυριότερη Ασχολία στον ελεύθερο χρόνο των
µαθητών, στον οποίο όµως θα χρησιµοποιήσουµε ποσοστά αντί για απόλυτες συχνότητες.
Επιλέγουµε Analyze → Descriptive Statistics → Crosstabs. Μεταφέρουµε τη µεταβλητή ΑΣΧΟΛΙΑ στη • Το 85,7% των ατόµων που έχουν κυριότερη ασχολία το διάβασµα βιβλίων είναι κορίτσια (6
θέση Row(s), και τη µεταβλητή ΦΥΛΟ στη θέση Column(s). Στο πλαίσιο διαλόγου Cells… τσεκάρουµε στους 7).
τις επιλογές Row, Column και Total. Πατάµε Continue και έπειτα ΟΚ. O παραγόµενος πίνακας • Το 23,1% των κοριτσιών επέλεξαν ως κυριότερη ασχολία το διάβασµα βιβλίων (6 στις 28).
συνάφειας στο output του SPSS φαίνεται στην Εικόνα 82. • Το 12,5% των µαθητών στο δείγµα µας ήταν κορίτσια µε κυριότερη ασχολία το διάβασµα
εξωσχολικών βιβλίων (6 στους 48).
Κυριότερη ασχολία στον ελεύθερο χρόνο * Φύλο Crosstabulation
Φύλο Total
Κορίτσι Αγόρι Για την τελική παρουσίαση των στοιχείων µας ο πίνακας συνάφειας της Εικόνας 82 δεν είναι βολικός,
Κυριότερη Υπολογιστές Count 2 5 7
ασχολία στον % within Κυριότερη ασχολία 28,6% 71,4% 100,0% αφού είναι παραφορτωµένος µε πολλά νούµερα και ποσοστά. Επειδή θέλουµε να δείξουµε τις διαφορές
ελεύθερο
% within Φύλο 7,7% 22,7% 14,6%
χρόνο στις επιλογές ασχολιών ανάµεσα στα κορίτσια και τα αγόρια, θα µπορούσαµε να παρουσιάσουµε µόνο
% of Total 4,2% 10,4% 14,6%
Αθλητισµός Count 3 9 12 τα ποσοστά των κοριτσιών και τα ποσοστά των αγοριών που επέλεξαν την κάθε ασχολία. Το φύλο έχει
% within Κυριότερη ασχολία 25,0% 75,0% 100,0%
% within Φύλο 11,5% 40,9% 25,0% τοποθετηθεί κατά στήλες, οπότε τα ποσοστά που θα θέλαµε είναι ποσοστά στηλών (% within φύλο,
% of Total 6,2% 18,8% 25,0%
Μουσική / χορός Count 11 4 15
column percentage). Επαναλαµβάνουµε την Crosstabs και στο πλαίσιο διαλόγου Cells Display
% within Κυριότερη ασχολία 73,3% 26,7% 100,0% αφήνουµε τσεκαρισµένη µόνο την επιλογή για Column percentages. Ξετσεκάρουµε και την επιλογή
% within Φύλο 42,3% 18,2% 31,2%
% of Total 22,9% 8,3% 31,2% Observed, αν δεν θέλουµε να εµφανίζεται ο αριθµός των ατόµων στα κελιά του πίνακα συνάφειας. Ο
Τηλεόραση / Κιν/φος Count 4 3 7
% within Κυριότερη ασχολία 57,1% 42,9% 100,0%
παραγόµενος πίνακας συνάφειας φαίνεται στην Εικόνα 83:
% within Φύλο 15,4% 13,6% 14,6%
% of Total 8,3% 6,2% 14,6%
∆ιάβασµα εξωσχολικών Count 6 1 7 Κυριότερη ασχολία στον ελεύθερο χρόνο * Φύλο Crosstabulation
βιβλίων % within Κυριότερη ασχολία 85,7% 14,3% 100,0% % within Φύλο
% within Φύλο 23,1% 4,5% 14,6% Φύλο Total
% of Total 12,5% 2,1% 14,6% Κορίτσι Αγόρι
Total Count 26 22 48 Κυριότερη ασχολία στον Υπολογιστές 7,7% 22,7% 14,6%
% within Κυριότερη ασχολία 54,2% 45,8% 100,0% ελεύθερο χρόνο Αθλητισµός 11,5% 40,9% 25,0%
% within Φύλο 100,0% 100,0% 100,0%
Μουσική / χορός 42,3% 18,2% 31,2%
% of Total 54,2% 45,8% 100,0%
Τηλεόραση / Κιν/φος 15,4% 13,6% 14,6%
Εικόνα 82: Πίνακας συνάφειας µε ποσοστά για το Παράδειγµα 16
∆ιάβασµα εξωσχολικών
23,1% 4,5% 14,6%
βιβλίων
Total 100,0% 100,0% 100,0%
Παρατηρείστε ότι κάθε κελί του παραπάνω πίνακα περιλαµβάνει µία απόλυτη συχνότητα που δείχνει Εικόνα 83: Πίνακας συνάφειας µε Column Percentages (%within Φύλο) για το παράδειγµα 16
πόσα άτοµα στο δείγµα µας βρίσκονται στη συγκεκριµένη διασταύρωση των δύο µεταβλητών, καθώς
και τρία ποσοστά που είναι υπολογισµένα στο σύνολο γραµµής (% within Κυριότερη ασχολία), στο Από τον παραπάνω πίνακα µπορούµε να δούµε ότι π.χ. το 22,7% των αγοριών δήλωσαν τους
σύνολο στήλης (% within Φύλο), και στο γενικό σύνολο των 48 µαθητών (% of Total). υπολογιστές ως την κυριότερη ασχολία τους, ενώ το αντίστοιχο ποσοστό για τα κορίτσια ήταν πολύ
µικρότερο (7,7%). Το 23,1% των κοριτσιών δήλωσαν ως κυριότερη ασχολία το διάβασµα βιβλίων, ενώ
Λόγου χάριν, κοιτώντας το κελί στη διασταύρωση Αθλητισµός και Αγόρι, έχουµε ότι: το αντίστοιχο ποσοστό για τα αγόρια ήταν πολύ µικρότερο (4,5%), κλπ.
• Το δείγµα µας περιλαµβάνει 9 αγόρια που έχουν κυριότερη ασχολία τον αθλητισµό.
• Το 75% των ατόµων µε κυριότερη ασχολία τον αθλητισµό είναι αγόρια (9 στους 12). Σηµειώνουµε ότι αν παρουσιάζαµε µόνο τα ποσοστά γραµµών, τα συµπεράσµατά µας δεν θα άλλαζαν.
• Το 40,9% των αγοριών έχουν κυριότερη ασχολία τους τον αθλητισµό (9 στους 22). Θα άλλαζε µόνον ο τρόπος της παρουσίασης των ποσοστών. ∆ηλαδή, αντί για ποσοστά αγοριών και
• Το 18,8% των ατόµων της έρευνάς µας ήταν αγόρια που ασχολούνται µε τον αθλητισµό (9 κοριτσιών, θα µιλούσαµε για ποσοστά ατόµων που επέλεξαν µια ασχολία. Ο πίνακας µε τα Row
στους 48). Percentages (% within Κυριότερη ασχολία) φαίνεται στην Εικόνα 84.
Κοιτώντας το κελί που διασταυρώνει τη γραµµή “∆ιάβασµα εξωσχολικών βιβλίων” µε τη στήλη

“Κορίτσι” (6 άτοµα), βλέπουµε ότι:
Κυριότερη ασχολία στον ελεύθερο χρόνο * Φύλο Crosstabulation 5.3.2 Κατασκευή Σύνθετου Ραβδογράµµατος από το µενού Graphs
% within Κυριότερη ασχολία στον ελεύθερο χρόνο
Φύλο Total
Κορίτσι Αγόρι Η γραφική απεικόνιση της σχέσης µεταξύ δύο ποιοτικών µπορεί να γίνει µε ένα σύνθετο
Κυριότερη ασχολία στον Υπολογιστές 28,6% 71,4% 100,0%
ελεύθερο χρόνο ραβδόγραµµα. Πρόκειται για συγκριτικό διάγραµµα, οπότε θα πρέπει να κατασκευάζεται µε βάση
Αθλητισµός 25,0% 75,0% 100,0%
Μουσική / χορός 73,3% 26,7% 100,0% ποσοστά (γραµµών ή στηλών) γιατί ενδέχεται οι συγκρινόµενες οµάδες ατόµων να µην είναι
Τηλεόραση / Κιν/φος 57,1% 42,9% 100,0%
ισοµεγέθεις. Επειδή η επιλογή Display clustered bar charts στην Crosstabs, παράγει σύνθετο
∆ιάβασµα εξωσχολικών
85,7% 14,3% 100,0%
βιβλίων ραβδόγραµµα απολύτων συχνοτήτων και όχι ποσοστών, είναι προτιµότερο να χρησιµοποιούµε το
Total 54,2% 45,8% 100,0%
µενού Graphs του SPSS για να κατασκευάζουµε σύνθετα ραβδογράµµατα.
Εικόνα 84: Πίνακας συνάφειας µε Row Percentages (%within Κυριότερη Ασχολία) για το παράδειγµα 16 Ειδικότερα, για την κατασκευή σύνθετου ραβδογράµµατος επιλέγουµε:
Graphs → Legacy Dialogs → Bar
Από τον παραπάνω πίνακα µπορούµε να δούµε π.χ. ότι µεταξύ των ατόµων που ασχολούνται µε ώστε να οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 85:
υπολογιστές επικρατούν τα αγόρια µε ποσοστό 71,4%, ενώ τα κορίτσια αποτελούν µόνο το 28,6%
όσων ασχολούνται µε υπολογιστές. Το 85,7% των ατόµων που έχουν ως κυριότερη ασχολία το
διάβασµα βιβλίων είναι κορίτσια και µόνο το 14,3% είναι αγόρια, κλπ. Το πλαίσιο διαλόγου Bar Charts µας δίνει την επιλογή
■ Simple για την κατασκευή απλού ραβδογράµµατος για µία
µεταβλητή (που είχαµε δει στην ενότητα 3.3), και τις
επιλογές Clustered και Stacked για την κατασκευή
σύνθετου ραβδογράµµατος. Η διαφορά των επιλογών
Clustered και Stacked, απεικονίζεται γραφικά στο πλαίσιο
διαλόγου: Με την επιλογή Clustered τοποθετούνται οι
µπάρες του ραβδογράµµατος δίπλα – δίπλα, ενώ µε την
επιλογή Stacked οι µπάρες τοποθετούνται η µία πάνω στην
άλλη. Γενικά, η επιλογή Clustered διευκολύνει, οπτικά, τη
διεξαγωγή συγκρίσεων.
Εικόνα 85:
Αρχικό πλαίσιο διαλόγου Bar Charts για
την κατασκευή ραβδογράµµατος
Όπως είχαµε δει και στις περιπτώσεις του απλού ραβδογράµµατος και του κυκλικού διαγράµµατος
(ενότητες 3.2 και 3.3), συνεχίζουµε µε τις επιλογές Summaries for groups of cases και Define, ώστε να
οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 86:
cases. Τα ποσοστά που θα χρησιµοποιηθούν στο διάγραµµα θα είναι υπολογισµένα επί του συνόλου
των τιµών της µεταβλητής που ορίζει τις µπάρες, δηλαδή θα αφορούν τη µεταβλητή που τοποθετήσαµε
στη θέση Define Clusters by. Για παράδειγµα, αν ορίσουµε Define Clusters by ΦΥΛΟ, το διάγραµµα θα
απεικονίζει ποσοστά κοριτσιών και ποσοστά αγοριών. Αν ορίσουµε Define Clusters by ΑΣΧΟΛΙΑ, το
διάγραµµα θα απεικονίζει ποσοστά ατόµων για την κάθε επιλογή ασχολίας.

ένα σύνθετο (clustered) ραβδόγραµµα, το οποίο θα απεικονίζει τη διαφοροποίηση της Κυριότερης
Ασχολίας στον ελεύθερο χρόνο των µαθητών σε σχέση µε το Φύλο.
Επιλέγουµε: Graphs → Legacy Dialogs → Bar, Clustered, Summaries for groups of cases και Define.
Στη θέση Category Axis µεταφέρουµε τη µεταβλητή ΑΣΧΟΛΙΑ και στη θέση Define Clusters by
τοποθετούµε τη µεταβλητή ΦΥΛΟ. Επιλέγουµε % of cases στο Bars represent και πατάµε OK. To
παραγόµενο σύνθετο ραβδόγραµµα φαίνεται στην Εικόνα 87. Μπορούµε να επεξεργαστούµε το
διάγραµµα (αλλαγή χρωµάτων, τρισδιάστατα εφέ, εισαγωγή τίτλων και υποσηµειώσεων, κλπ)
χρησιµοποιώντας τον Chart Editor όπως είχαµε δει στην ενότητα 3.
Εικόνα 86: Πλαίσιο διαλόγου για την κατασκευή σύνθετου (clustered) ραβδογράµµατος.
Στο παραπάνω πλαίσιο διαλόγου πρέπει: 1) να µεταφέρουµε στη θέση Category Axis τη µεταβλητή που
ορίζει τις συγκρινόµενες κατηγορίες, 2) να µεταφέρουµε στη θέση Define Clusters by τη µεταβλητή
που ορίζει τις µπάρες του ραβδογράµµατος, και 3) να δηλώσουµε στη θέση Bars Represent αν οι
ορθογώνιες ράβδοι του διαγράµµατος θέλουµε να παριστάνουν συχνότητες (N of cases) ή ποσοστά (%
of cases).
Σηµειώνουµε ότι οι συγκρίσεις θα διευκολυνθούν οπτικά αν ορίσουµε τις µπάρες του ραβδογράµµατος
από τη µεταβλητή µε τις λιγότερες τιµές (λιγότερες ράβδοι και λιγότερα χρώµατα). Αυτό είναι βολικό
αλλά όχι υποχρεωτικό, αφού το ποια µεταβλητή θα ορίσει τις µπάρες του ραβδογράµµατος εξαρτάται
και από το ποια είναι η σύγκριση στην οποία θέλουµε να εστιάσει η παρουσίασή µας.
Σηµειώνουµε, ακόµη, ότι το σύνθετο ραβδόγραµµα θα πρέπει να γίνει µε βάση ποσοστά ώστε να Εικόνα 87: Σύνθετο (clustered) ραβδόγραµµα για το παράδειγµα 17.
διευκολύνονται οι συγκρίσεις. Εποµένως, η επιλογή στο Bars Represent θα πρέπει να είναι η % of
Στο παραπάνω ραβδόγραµµα, οι ράβδοι αντιστοιχούν στο φύλο και το ύψος κάθε ράβδου δείχνει το 5.3.4 Καταχώριση Έτοιµων Πινάκων Συνάφειας στο SPSS (Weight Cases, Crosstabs)
ποσοστό των κοριτσιών ή το ποσοστό των αγοριών που δήλωσαν την κάθε ασχολία. Ουσιαστικά, το
Συχνά δεν διαθέτουµε τα αρχικά δεδοµένα της έρευνας αλλά µόνον έτοιµους πίνακες συχνοτήτων ή
διάγραµµα απεικονίζει γραφικά τον πίνακα συνάφειας της Εικόνας 83 (%within φύλο). Για
πίνακες συνάφειας, τους οποίους θα θέλαµε να καταχωρίσουµε στο SPSS προκειµένου να
παράδειγµα, βλέπουµε στην Εικόνα 87 ότι το 8% περίπου των κοριτσιών και το 23% περίπου των
προχωρήσουµε σε περαιτέρω ανάλυση ή παρουσίαση των δεδοµένων (π.χ. υπολογισµό ποσοστών,
αγοριών δήλωσαν ότι ασχολούνται µε υπολογιστές (για τα ακριβή ποσοστά δείτε την εικόνα 83).
κατασκευή διαγραµµάτων ή υλοποίηση ενός ελέγχου στατιστικής σηµαντικότητας). Στην ενότητα 2.4,
είδαµε πως µπορούµε να χρησιµοποιήσουµε την εντολή Weight Cases για να καταχωρίσουµε στο SPSS
Μπορούµε να κατασκευάσουµε το σύνθετο ραβδόγραµµα µε εναλλαγή των δύο µεταβλητών, δηλαδή
έναν απλό πίνακα συχνοτήτων, για µία µεταβλητή. Εδώ, θα δούµε πως γίνεται η καταχώριση ενός
ορίζοντας Category Axis = ΦΥΛΟ και Define Clusters by = ΑΣΧΟΛΙΑ. Επαναλαµβάνοντας την
πίνακα συνάφειας για δύο µεταβλητές, καταχωρίζοντας µε κατάλληλο τρόπο τα δεδοµένα στην Data
προηγούµενη διαδικασία µε αυτή την εναλλαγή, θα πάρουµε το ραβδόγραµµα της Εικόνας 88:
View και χρησιµοποιώντας έπειτα την εντολή Weight Cases.
Ο παρακάτω πίνακας συνάφειας δίνει το Μορφωτικό Επίπεδο 200 εργαζοµένων σε µια εταιρεία, σε
σχέση µε τη Μισθολογική Κατάστασή τους (χαµηλόµισθοι ή υψηλόµισθοι).
Μεταπτυχιακό Πτυχίο Μέση Εκπ/ση Κατώτερη Εκπ/ση

Χαµηλόµισθοι 14 28 40 24
Υψηλόµισθοι 18 32 26 18
Θέλουµε να καταχωρίσουµε τον παραπάνω πίνακα στο SPSS ώστε:

(α) να αναπαράγουµε τον πίνακα στο output, εµφανίζοντας όµως και τα ποσοστά γραµµών και
στηλών,
(β) να κατασκευάσουµε ένα σύνθετο (clustered) ραβδόγραµµα που θα απεικονίζει τη
διαφοροποίηση της µισθολογικής κατάστασης ανά κατηγορία του µορφωτικού επίπέδου.
Καταχωρίζουµε τον παραπάνω πίνακα στο SPSS ακολουθώντας την εξής διαδικασία:
Εικόνα 88: Σύνθετο (clustered) ραβδόγραµµα για το παράδειγµα 17 (β επιλογή).
Ορίζουµε έναν κωδικό για κάθε µία από τις κατηγορίες του µορφωτικού επιπέδου, π.χ. 1=
Στο παραπάνω ραβδόγραµµα, οι ράβδοι αντιστοιχούν στις ασχολίες, και το ύψος κάθε ράβδου δείχνει
«Μεταπτυχιακό», 2 = «Πτυχίο», 3 = «Μέση Εκπαίδευση» και 4 = «Κατώτερη Εκπαίδευση», καθώς
στο ποσοστό των ατόµων που δήλωσαν την αντίστοιχη ασχολία. Ουσιαστικά, το διάγραµµα απεικονίζει
και για κάθε κατηγορία της µισθολογικής κατάστασης: 1 = «Χαµηλόµισθοι», 2 = «Υψηλόµισθοι».
γραφικά τον πίνακα συνάφειας της Εικόνας 84 (%within Κυριότερη Ασχολία). Για παράδειγµα,
Μεταπτυχιακό (1) Πτυχίο (2) Μέση Εκπ/ση (3) Κατώτερη Εκπ/ση (4)
κοιτώντας τις µπλε µπάρες βλέπουµε ότι µεταξύ των ατόµων που δήλωσαν ως κυριότερη ασχολία τους
Χαµηλόµισθοι (1) 14 28 40 24
υπολογιστές, το 30% περίπου ήταν κορίτσια και το 70% περίπου ήταν αγόρια (για τα ακριβή ποσοστά
Υψηλόµισθοι (2) 18 32 26 18
δείτε την εικόνα 84).
Είναι φανερό ότι το διάγραµµα της Εικόνας 88 δεν διευκολύνει τις συγκρίσεις. Το διάγραµµα της
Εικόνας 87 θα ήταν προτιµότερο για να χρησιµοποιηθεί στην παρουσίασή των δεδοµένων µας.
■
Αναδιατάσσουµε τον παραπάνω πίνακα ώστε να περιλαµβάνει σε τρεις στήλες όλους τους
συνδυασµούς κωδικών και τις αντίστοιχες συχνότητες:
Συχνότητα Μορφωτικό Μισθολογική
Επίπεδο Κατάσταση
14 1 1
28 2 1
40 3 1
24 4 1
18 1 2
32 2 2
26 3 2 Εικόνα 90
18 4 2
Εισάγουµε στην Data View τα δεδοµένα, µε τη µορφή του παραπάνω πίνακα, όπως φαίνεται Η καταχώριση των δεδοµένων µας έχει ολοκληρωθεί, αλλά το SPSS, βλέποντας συµπληρωµένες 3
στην Εικόνα 89: στήλες και 8 γραµµές στην Data View, θεωρεί ότι έχουµε 3 µεταβλητές και 8 άτοµα. Ωστόσο, εµείς
έχουµε 2 µεταβλητές και 200 άτοµα. Πρέπει να δηλώσουµε στο SPSS ότι η πρώτη στήλη στην
Data View δεν είναι µια µεταβλητή αλλά δίνει τις συχνότητες για τις τιµές των επόµενων στηλών.
Για το σκοπό αυτό επιλέγουµε Data → Weight Cases για δηλώσουµε ότι Frequency Variable =
ΣΥΧΝΟΤΗΤΑ (Εικόνα 91):
Εικόνα 89 Εικόνα 91
Χρησιµοποιώντας τη Variable View ορίζουµε τις ιδιότητες των τριών µεταβλητών (Εικόνα 90). Παρατηρήστε ότι ανοίγει αρχείο εξόδου που µας ενηµερώνει ότι η διαδικασία που ζητήσαµε
Για την πρώτη µεταβλητή: εκτελέστηκε (WEIGHT BY ΣΥΧΝΟΤΗΤΑ), καθώς και ότι έχει εµφανιστεί η ένδειξη Weight On
Name = ΣΥΧΝΟΤΗΤΑ, Type = Numeric, Decimals = 0, Width = 2, Label = -, Values = None -, Missing = κάτω αριστερά στον Data Editor. Όπως σηµειώσαµε και στην ενότητα 2.4, η εντολή Weight Cases
None, Align = Center, Measure = Scale. δεν συνοδεύει µόνιµα το αρχείο δεδοµένων µας, αλλά διαγράφεται όταν κλείσουµε το SPSS και θα
Για τη δεύτερη µεταβλητή: πρέπει να εκτελείται ξανά κάθε φορά που ανοίγουµε το αρχείο.
Name = ΜΟΡΦΩΣΗ, Type = Numeric, Decimals = 0, Width = 1, Label = Μορφωτικό Επίπεδο, Values = (1 =
Μεταπτυχιακό, 2 = Πτυχίο, 3 = Μέση εκπαίδευση, 4 = Κατώτερη εκπαίδευση), Missing = None, Align = Left
Μπορούµε, τώρα, να ζητήσουµε την παραγωγή πίνακα συνάφειας για το Μορφωτικό επίπεδο και
Measure = Ordinal.
τη Μισθολογική κατάσταση µε την εντολή Crosstabs. Επιλέγουµε Analyze → Descriptive Statistics
Για την τρίτη µεταβλητή:
→ Crosstabs, και µεταφέρουµε τη µεταβλητή ΜΟΡΦΩΣΗ στη θέση Row(s) και τη µεταβλητή
Name = ΜΙΣΘΟΣ, Type = Numeric, Decimals = 0, Width = 1, Label = Μισθολογική Κατάσταση, Values =
ΜΙΣΘΟΣ στη θέση Column(s). Στο Cells, τσεκάρουµε τα Row και Column Percentages, ώστε να
(1 = Χαµηλόµισθοι 2 = Υψηλόµισθοι), Missing = None, Align = Left Measure = Ordinal. (Εικόνα 90).
πάρουµε ποσοστά γραµµών και στηλών. Πατάµε Continue και έπειτα OK. Ο παραγόµενος πίνακας Για να κατασκευάσουµε ένα σύνθετο ραβδόγραµµα για τα παραπάνω δεδοµένα, επιλέγουµε:
συνάφειας στο output έχει ως εξής: Graphs → Legacy Dialogs → Bar, Clustered, Summaries for groups of cases και Define. Στη
θέση Category Axis µεταφέρουµε τη µεταβλητή ΜΟΡΦΩΣΗ και στη θέση Define Clusters by
τοποθετούµε τη µεταβλητή ΜΙΣΘΟΣ. Επιλέγουµε % of cases στο Bars represent και πατάµε OK.
To παραγόµενο σύνθετο ραβδόγραµµα φαίνεται στην Εικόνα 93.
Εικόνα 92
Από τον πίνακα συνάφειας της Εικόνας 92 µπορούµε να δούµε ότι:

Μεταξύ των χαµηλόµισθων στο δείγµα µας, το 13,2% των ατόµων είναι κάτοχοι µεταπτυχιακού,
το 26,4% κάτοχοι πτυχίου, το 37,7% απόφοιτοι µέσης εκπ/σης, και το 22,6% απόφοιτοι
κατώτερης εκπαίδευσης. Εικόνα 93
Μεταξύ των υψηλόµισθων στο δείγµα µας, το 19,1% των ατόµων είναι κάτοχοι µεταπτυχιακού, ■
το 34% κάτοχοι πτυχίου, το 27,7% απόφοιτοι µέσης εκπ/σης, και το 19,1% απόφοιτοι κατώτερης
εκπαίδευσης.
Οι κάτοχοι µεταπτυχιακού στο δείγµα µας, είναι κατά 43,8% χαµηλόµισθοι και κατά 56,3%
υψηλόµισθοι.
Οι κάτοχοι πτυχίου στο δείγµα µας, είναι κατά 46,7% χαµηλόµισθοι και κατά 53,3%
Οι απόφοιτοι µέσης εκπαίδευσης στο δείγµα µας, είναι κατά 60,6% χαµηλόµισθοι και κατά 39,4%
Οι απόφοιτοι κατώτερης εκπαίδευσης στο δείγµα µας, είναι κατά 57,1% χαµηλόµισθοι και κατά
42,9% υψηλόµισθοι.
Στην ενότητα αυτή θα παρουσιάσουµε την υλοποίηση στο SPSS δύο µεθόδων για τη διερεύνηση της
5.4 Συσχέτιση ∆ύο Ποσοτικών Μεταβλητών συσχέτισης µεταξύ δύο ποσοτικών µεταβλητών. Η πρώτη µέθοδος είναι γραφική και στηρίζεται στο
διάγραµµα διασποράς ή στικτόγραµµα (scatter plot). Η δεύτερη µέθοδος είναι αριθµητική και
5.4.1 Εισαγωγή στηρίζεται στον υπολογισµό ενός αριθµού που καλείται συντελεστής συσχέτισης (correlation
coefficient).
Ας υποθέσουµε ότι Χ και Υ είναι δύο ποσοτικές µεταβλητές (ή ποιοτικές διατάξιµες), για τις οποίες
έχουν γίνει µετρήσεις σε δείγµα Ν ατόµων. Λέµε ότι οι δύο µεταβλητές συσχετίζονται εάν Για περισσότερες λεπτοµέρειες και παραδείγµατα σχετικά µε την διερεύνηση και περιγραφή της σχέσης
συµπεριφέρονται µε τέτοιο τρόπο ώστε να εµφανίζονται συνδεδεµένες - δηλαδή, όταν µεταβολές στις δύο ποσοτικών µεταβλητών απευθυνθείτε στις παραδόσεις της θεωρίας.
τιµές της µιας µεταβλητής τείνουν να συµπίπτουν µε µεταβολές στις τιµές της άλλης µεταβλητής.
Γενικά, µπορούµε να διακρίνουµε 4 περιπτώσεις για την κατεύθυνση της συσχέτισης ανάµεσα σε δύο
5.4.2 Κατασκευή ∆ιαγράµµατος ∆ιασποράς (Scatter Plot)
διατάξιµες ή σε δύο ποσοτικές µεταβλητές Χ και Υ:
1) Οι δύο µεταβλητές µεταβάλλονται προς την ίδια κατεύθυνση, δηλαδή χαµηλές τιµές της Υ
Το διάγραµµα διασποράς (scatter plot) µας βοηθά να διαπιστώσουµε αν υπάρχει συσχέτιση ανάµεσα σε
τείνουν να αντιστοιχούν µε χαµηλές τιµές της X (ισοδύναµα, υψηλές τιµές της Υ τείνουν να
δύο ποσοτικές µεταβλητές και στη συνέχεια να διαπιστώσουµε την κατεύθυνση αυτής της συσχέτισης.
αντιστοιχούν µε υψηλές τιµές της Χ). Στην περίπτωση αυτή λέµε ότι οι δύο µεταβλητές
έχουν θετική συσχέτιση (positive correlation).
Το διάγραµµα διασποράς έχει δύο ορθογώνιους άξονες, οι οποίοι αντιστοιχούν στις τιµές των δύο
2) Οι δύο µεταβλητές µεταβάλλονται προς αντίθετη κατεύθυνση, δηλαδή χαµηλές τιµές της Υ
µεταβλητών. Συνήθως οι τιµές της εξαρτηµένης µεταβλητής παριστάνονται γραφικά στον κατακόρυφο
τείνουν να αντιστοιχούν µε υψηλές τιµές της X και αντίστροφα. Στην περίπτωση αυτή λέµε
άξονα και οι τιµές της ανεξάρτητης µεταβλητής στον οριζόντιο άξονα. Έπειτα, τα ζεύγη των
ότι οι δύο µεταβλητές έχουν αρνητική συσχέτιση (negative correlation).
παρατηρήσεων (xi, yi) από τις δύο µεταβλητές Χ και Υ παριστάνονται ως σηµεία στο διάγραµµα. Η
3) Οι δύο µεταβλητές έχουν µια πολύπλοκη συσχέτιση, που µπορεί να είναι συνδυασµός
Εικόνα 94 δείχνει τέσσερα διαγράµµατα διασποράς, τα οποία αντιστοιχούν σε τέσσερις διαφορετικές
θετικών και αρνητικών συσχετίσεων.
περιπτώσεις συσχέτισης µεταξύ των δύο µεταβλητών:
4) Οι δύο µεταβλητές δεν παρουσιάζουν συσχέτιση, δηλαδή δεν έχουν κάποια κοινή
συµπεριφορά καθώς µεταβάλλονται οι τιµές τους. Στην περίπτωση αυτή λέµε ότι οι δύο
µεταβλητές είναι ασυσχέτιστες ή ανεξάρτητες. Θετική Γραµµική Συσχέτιση Αρνητική Γραµµική Συσχέτιση Μη-γραµµική Συσχέτιση Ανεξαρτησία
Ως ένα απλό παράδειγµα, ας υποθέσουµε ότι µας ενδιαφέρει να ελέγξουµε αν υπάρχει συσχέτιση yi yi yi yi
ανάµεσα στην ηλικία µας και το χρόνο που αφιερώνουµε στην παρακολούθηση τηλεόρασης (δεδοµένα
για το σκοπό αυτό διαθέτουµε στο αρχείο social_tv3.sav της άσκησης 2). Αν στα δεδοµένα µας
παρατηρούσαµε ότι τα άτοµα µεγαλύτερων ηλικιών τείνουν να παρακολουθούν περισσότερο
τηλεόραση (ή, ισοδύναµα, τα άτοµα µικρότερων ηλικιών τείνουν να παρακολουθούν λιγότερο
τηλεόραση), τότε θα λέγαµε ότι ο χρόνος παρακολούθησης τηλεόρασης έχει θετική συσχέτιση µε την
ηλικία. Αν, αντίθετα, τα δεδοµένα µας έδειχναν ότι τα άτοµα µεγαλύτερων ηλικιών τείνουν να
xi xi xi xi
Τα σηµεία ακολουθούν µια Τα σηµεία ακολουθούν µια Συνδυασµός µιας αρνητικής Οι τιµές της Υ δεν
παρακολουθούν λιγότερο τηλεόραση (και αντίστροφα), τότε θα είχαµε µια αρνητική συσχέτιση ανοδική ευθεία. Οι τιµές καθοδική ευθεία. Οι τιµές συσχέτισης ακολουθούµενης εµφανίζονται
ανάµεσα στις δύο µεταβλητές. Θα µπορούσε όµως να υπάρχει µια πιο πολύπλοκη συσχέτιση ανάµεσα της Υ αυξάνουν γραµµικά της Υ µειώνονται από µια θετική συσχέτιση συνδεδεµένες µε τις τιµές
καθώς αυξάνουν οι τιµές γραµµικά καθώς αυξάνουν της Χ
στις δύο µεταβλητές, π.χ. αν παρατηρούσαµε ότι µειώνεται ο χρόνος παρακολούθησης τηλεόρασης της Χ οι τιµές της Χ
καθώς αυξάνει η ηλικία µέχρι τα 60 έτη, ενώ µετά την ηλικία των 60 ετών συµβαίνει το αντίθετο, τότε Εικόνα 94: Τέσσερις διαφορετικές περιπτώσεις συσχέτισης και τα αντίστοιχα διαγράµµατα διασποράς
θα είχαµε µια αρνητική συσχέτιση ακολουθούµενη από µια θετική συσχέτιση. Θα µπορούσε, ακόµη, να
µην συµβαίνει τίποτα από τα προηγούµενα και ο χρόνος παρακολούθησης τηλεόρασης να είναι
ανεξάρτητος από την ηλικία.
Για την κατασκευή ενός διαγράµµατος διασποράς στο SPSS, επιλέγουµε: αναµένουµε να υπάρχει καθόλου συσχέτιση, και για τα (γ) και (δ) περιµένουµε να δούµε θετικές
Graphs → Legacy Dialogs → Scatter / Dot … συσχετίσεις.
ώστε να οδηγηθούµε στο πλαίσιο διαλόγου Scatter/Dot, όπου επιλέγουµε Simple Scatter και πατάµε
Define. Παίρνουµε το πλαίσιο διαλόγου για την κατασκευή απλού διαγράµµατος διασποράς της (α) Ύψος και Βάρος Μαθητών: Επιλέγουµε: Graphs → Legacy Dialogs → Scatter / Dot. Στο πλαίσιο
Εικόνας 95: διαλόγου Scatter/Dot επιλέγουµε Simple Scatter και πατάµε Define. Στο πλαίσιο διαλόγου Simple
Scatterplot θέτουµε Y Axis = ΥΨΟΣ, X Axis = ΒΑΡΟΣ και πατάµε ΟΚ. Το διάγραµµα διασποράς που θα
πάρουµε στο output του SPSS φαίνεται στην Εικόνα 96. Είναι φανερή µια έντονη θετική γραµµική
συσχέτιση ανάµεσα στο ύψος και το βάρος των µαθητών του δείγµατός µας. Όπως ήταν αναµενόµενο,
το διάγραµµα µας δείχνει ότι οι ψηλότεροι µαθητές τείνουν να έχουν µεγαλύτερο βάρος.
Εικόνα 96: ∆ιάγραµµα διασποράς για το παράδειγµα 19(α)
Εικόνα 95: Πλαίσια διαλόγου Scatter/Dot

και Simple Scatterplot για την κατασκευή (β) Βαθµός και Ύψος Μαθητών
διαγράµµατος διασποράς
Επαναλαµβάνουµε την προηγούµενη διαδικασία θέτοντας Y Axis = ΒΑΘΜΟΣ, X Axis = ΥΨΟΣ. Το
παραγόµενο διάγραµµα διασποράς δίνεται στην Εικόνα 97. Είναι φανερό ότι ο βαθµός των µαθητών
Στο πλαίσιο διαλόγου Simple Scatterplot πρέπει απλώς να µεταφέρουµε τις δύο µεταβλητές στις θέσεις του δείγµατός µας είναι ανεξάρτητος από το ύψος τους. Όπως ήταν αναµενόµενο, το διάγραµµα µας
Y Axis και X Axis και να πατήσουµε OK. Συνηθίζουµε να τοποθετούµε στον Υ-άξονα την εξαρτηµένη δείχνει ότι δεν υπάρχει σύνδεση ανάµεσα στο βαθµό και το ύψος των µαθητών.
µεταβλητή και στον Χ-άξονα την ανεξάρτητη µεταβλητή, αλλά αυτό δεν είναι υποχρεωτικό.

διαγράµµατα διασποράς για τη διερεύνηση της συσχέτισης µεταξύ: (α) του βάρους και του ύψους των
µαθητών, (β) του βαθµού και του ύψους των µαθητών, (γ) του ύψους των µαθητών και του ύψους των
µητέρων τους, και (δ) του ύψους των µαθητών και του ύψους των πατέρων τους. Σε όλες τις
περιπτώσεις είναι φανερό, από την εµπειρία µας, ποια θα πρέπει να είναι η συσχέτιση των δύο
µεταβλητών. Για το (α) περιµένουµε να έχουµε µια έντονη θετική συσχέτιση, για το (β) δεν
Εικόνα 97: ∆ιάγραµµα διασποράς για το παράδειγµα 19(β)
(γ) Ύψος Μαθητών και Ύψος Μητέρων 5.4.3 Υπολογισµός Συντελεστών Συσχέτισης Pearson και Spearman (Correlate, Bivariate)
Επαναλαµβάνουµε την προηγούµενη διαδικασία θέτοντας Y Axis = ΥΨΟΣ, X Axis = ΥΨΟΣΜ. Το
παραγόµενο διάγραµµα διασποράς δίνεται στην Εικόνα 98. Το ύψος των µαθητών του δείγµατός µας Το διάγραµµα διασποράς παρέχει µια ποιοτική αξιολόγηση της συσχέτισης ανάµεσα σε δύο ποσοτικές
δείχνει να έχει µια αρκετά έντονη θετική γραµµική συσχέτιση µε το ύψος των µητέρων τους, όπως ήταν µεταβλητές και εποµένως έχει κάποιους περιορισµούς. Πρώτον, παρόλο που µας βοηθάει να
αναµενόµενο. διαπιστώσουµε εύκολα την κατεύθυνση της συσχέτισης των δύο µεταβλητών, δεν µας διευκολύνει
ιδιαίτερα για την αξιολόγηση της έντασης (ισχύος) της συσχέτισης αυτής. Έτσι, εάν είχαµε δύο
διαφορετικά διαγράµµατα διασποράς δεν θα ήταν πάντα εύκολο να διαπιστώσουµε ποιο από τα δύο
παρουσιάζει ισχυρότερη συσχέτιση µεταξύ των δειγµατικών παρατηρήσεων. ∆εύτερον, το διάγραµµα
διασποράς µπορεί να χρησιµοποιηθεί για την περιγραφή µιας συσχέτισης στο συγκεκριµένο δείγµα µε
το οποίο δουλεύουµε, αλλά δεν θα µας βοηθήσει για σκοπούς επαγωγικής στατιστικής. ∆ηλαδή, το
διάγραµµα διασποράς δεν µας επιτρέπει να εξάγουµε κάποιο συµπέρασµα για την πιθανή συσχέτιση
των δύο µεταβλητών σε ολόκληρο τον πληθυσµό από τον οποίο λήφθηκε το δείγµα µας.
Για τους παραπάνω λόγους, εκτός του διαγράµµατος διασποράς, χρησιµοποιούµε και ένα αριθµητικό
µέτρο που καλείται συντελεστής συσχέτισης (correlation coefficient). ∆ύο ευρέως χρησιµοποιούµενοι
Εικόνα 98: ∆ιάγραµµα διασποράς για το παράδειγµα 19(γ) συντελεστές συσχέτισης είναι ο συντελεστής συσχέτισης του Pearson (Pearson correlation) και ο
συντελεστής συσχέτισης του Spearman (Spearman’s rho). Και οι δύο συντελεστές µετρούν το βαθµό
(δ) Ύψος Μαθητών και Ύψος Πατέρων της γραµµικής συσχέτισης ανάµεσα σε δύο µεταβλητές και συµβολίζονται µε το ελληνικό γράµµα ρ αν
Επαναλαµβάνουµε την προηγούµενη διαδικασία θέτοντας Y Axis = ΥΨΟΣ, X Axis = ΥΨΟΣΠ. Το έχουν υπολογιστεί σε ολόκληρο τον πληθυσµό και µε το αγγλικό r αν έχουν υπολογιστεί σε ένα δείγµα.
παραγόµενο διάγραµµα διασποράς δίνεται στην Εικόνα 99. Το ύψος των µαθητών του δείγµατός µας Ουσιαστικά µετρούν τη διασπορά των σηµείων στο διάγραµµα διασποράς γύρω από µια νοητή ευθεία
δείχνει να έχει µια θετική γραµµική συσχέτιση µε το ύψος των πατέρων τους, όπως ήταν αναµενόµενο. γραµµή µεταξύ των σηµείων, και όσο µεγαλύτερη είναι η διασπορά των σηµείων, τόσο µικρότερος (σε
Η συσχέτιση του ύψους των µαθητών µε το ύψος των πατέρων τους δείχνει ίσως να είναι λιγότερο απόλυτη τιµή) είναι ο συντελεστής συσχέτισης.
ισχυρή από τη συσχέτιση µε το ύψος των µητέρων τους που είδαµε στο (γ).
Ερµηνεία του συντελεστή συσχέτισης:
Ο συντελεστής συσχέτισης r (είτε του Pearson, είτε του Spearman) είναι κατασκευασµένος µε τρόπο
ώστε:
• Ο συντελεστής r δέχεται τιµές στο διάστηµα [-1 , +1].
• Αρνητικές τιµές του r δηλώνουν αρνητική γραµµική συσχέτιση των δύο µεταβλητών. Τιµή r
ακριβώς ίση µε -1 παίρνουµε όταν υπάρχει τέλεια αρνητική συσχέτιση µεταξύ των δύο
µεταβλητών (κάτι που στην πράξη είναι πολύ σπάνιο). Τιµές του r κοντά στο -1 (π.χ. -0,90 ή
-0,82 ή -0,77) υποδεικνύουν έντονη αρνητική γραµµική συσχέτιση, και όσο πιο κοντά η τιµή
του r στο -1 τόσο πιο ισχυρή η αρνητική συσχέτιση.
y
r = −1 y r ≈ −0,8 y r ≈ −0,2
Εικόνα 99: ∆ιάγραµµα διασποράς για το παράδειγµα 19(δ)

■
x x x
• Θετικές τιµές του r δηλώνουν θετική γραµµική συσχέτιση των δύο µεταβλητών. Τιµή r Τιµές του r και ισχύς θετικής συσχέτισης στο δείγµα:
ακριβώς ίση µε +1 παίρνουµε όταν υπάρχει τέλεια θετική συσχέτιση µεταξύ των δύο
µεταβλητών (κάτι που στην πράξη είναι πολύ σπάνιο). Τιµές του r κοντά στο +1 (π.χ. +0,90,
+0,82, +0,77) υποδεικνύουν έντονη θετική γραµµική συσχέτιση, και όσο πιο κοντά η τιµή του r
στο +1 τόσο πιο ισχυρή η θετική συσχέτιση.
y r = +1 y r ≈ +0,8 y r ≈ +0,2
x x x
• Τιµές του r κοντά στο 0 (r → 0) δηλώνουν ότι δεν υπάρχει γραµµική συσχέτιση µεταξύ των Τιµές του r και ισχύς αρνητικής συσχέτισης στο δείγµα:
δύο µεταβλητών. Αυτό µπορεί να αντιστοιχεί είτε σε ανεξαρτησία των δύο µεταβλητών, είτε
στην ύπαρξη µιας πολύπλοκης (µη-γραµµικής) συσχέτισης.
Το τι συνιστά ισχυρή συσχέτιση αποτελεί αµφιλεγόµενο ζήτηµα µεταξύ των ερευνητών, αλλά Οι δύο συντελεστές συσχέτισης, του Pearson και του Spearman, είναι εννοιολογικά όµοιοι, δηλαδή οι
µπορούµε συµβατικά να θεωρούµε ότι: παραπάνω ερµηνείες των τιµών τους είναι ίδιες. Η διαδικασία υπολογισµού τους είναι όµως
• Αν r ≥ 0 ,75 , τότε υπάρχει µια ισχυρή γραµµική συσχέτιση στο δείγµα µας. διαφορετική και, κυρίως, οι προϋποθέσεις εφαρµογής τους είναι διαφορετικές.
• Αν 0,50 ≤ r < 0 ,75 , τότε υπάρχει µια µέτρια γραµµική συσχέτιση στο δείγµα µας.
Επιλογή συντελεστή συσχέτισης (Pearson ή Spearman;)
• Αν 0,25 ≤ r < 0,50 , τότε υπάρχει µια αµυδρή γραµµική συσχέτιση στο δείγµα µας.
• Αν 0 ≤ r < 0,25 , τότε δεν υπάρχει γραµµική συσχέτιση στο δείγµα µας. Η ορθή χρήση του συντελεστή συσχέτισης Pearson προϋποθέτει ότι:
Οι δύο µεταβλητές είναι συνεχείς ποσοτικές.
Οι παραπάνω παραδοχές δείχνονται γραφικά ως εξής: Οι δύο µεταβλητές δεν έχουν πολλές παράτυπες (ακραίες) τιµές.
Οι δύο µεταβλητές έχουν περίπου κανονικές κατανοµές7
7
Η προϋπόθεση ύπαρξης κανονικών κατανοµών είναι απαραίτητη για τον υπολογισµό διαστηµάτων
εµπιστοσύνης και τον έλεγχο της “στατιστικής σηµαντικότητας” του r, όπως θα δούµε σε επόµενες ενότητες.
Εάν µία ή περισσότερες από τις παραπάνω τρεις προϋποθέσεις δεν πληρείται, τότε χρησιµοποιούµε τον
συντελεστή συσχέτισης του Spearman. Σηµειώνουµε ότι ο συντελεστής του Spearman µπορεί να
χρησιµοποιηθεί και στην περίπτωση που µία από τις µεταβλητές είναι ποιοτική διατάξιµη ή ποσοτική
διακριτή. Ακόµη, όταν η σχέση µεταξύ των δυο µεταβλητών είναι µια σχέση καµπύλης (µη-γραµµική),
τότε ο συντελεστής συσχέτισης του Pearson υποεκτιµά την ισχύ της σχέσης δίνοντας τιµή πολύ κοντά
στο 0, ενώ ο συντελεστής συσχέτισης του Spearman συνήθως δίνει µια καλύτερη εικόνα της
κατάστασης.
Από τα παραπάνω ίσως να φαίνεται ότι ο συντελεστής του Spearman µπορεί να χρησιµοποιηθεί υπό
γενικότερες συνθήκες απ’ ότι ο συντελεστής του Pearson. Γιατί τότε δεν χρησιµοποιούµε πάντα τον
συντελεστή Spearman; Η απάντηση είναι ότι ο συντελεστής Spearman δεν χρησιµοποιεί όλη την
πληροφορία που περιέχεται στα δεδοµένα (αλλά βασίζεται σε διατάξεις), και έχει γενικά µικρότερη
ισχύ τεκµηρίωσης µιας ενδεχόµενης συσχέτισης απ’ ότι ο συντελεστής Pearson. Με άλλα λόγια, ο
συντελεστής Pearson δουλεύει καλύτερα όταν πληρούνται οι προϋποθέσεις εφαρµογής του, αλλά είναι
χειρότερος από τον συντελεστή Spearman όταν δεν πληρούνται οι προϋποθέσεις εφαρµογής του.
Εικόνα 100: Το πλαίσιο διαλόγου Bivariate Correlations για τον υπολογισµό συντελεστών συσχέτισης
Στην πράξη, χρησιµοποιούµε πρώτα ιστογράµµατα και θηκογράµµατα για να ελέγξουµε την ύπαρξη
Στο παραπάνω πλαίσιο διαλόγου, µεταφέρουµε τις δύο µεταβλητές για τις οποίες θέλουµε να
παράτυπων τιµών (outliers) και την κανονικότητα στις κατανοµές των δύο µεταβλητών. Αν δεν
υπολογιστεί ο συντελεστής συσχέτισης στη θέση Variable(s). Τσεκάρουµε την ένδειξη Pearson (που
υπάρχουν πολλές παράτυπες τιµές στις δύο µεταβλητές και οι κατανοµές των δεδοµένων είναι περίπου
είναι προεπιλεγµένη) και την ένδειξη Spearman, για να υπολογιστούν οι δύο αντίστοιχοι συντελεστές,
κανονικές, τότε προχωρούµε στον υπολογισµό του συντελεστή συσχέτισης του Pearson. Σε
και πατάµε ΟΚ.
διαφορετική περίπτωση, χρησιµοποιούµε το συντελεστή του Spearman.
Αξίζει να σηµειωθεί ότι µπορεί να φανεί εάν οι µεταβλητές έχουν κανονική κατανοµή από το
διάγραµµα διασποράς. Εάν και οι δύο µεταβλητές έχουν κανονική κατανοµή, τότε τα σηµεία στο
Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να υπολογίσουµε τους
διάγραµµα διασποράς θα δείχνουν περίπου το σχήµα µιας έλλειψης (σαν την µπάλα του ράγκπυ), και
συντελεστές συσχέτισης ανάµεσα σε 5 ζεύγη µεταβλητών και να συµπληρώσουµε τον παρακάτω
όσο πιο επιµήκης είναι η έλλειψη, τόσο µεγαλύτερη θα είναι η ισχύς της συσχέτισης. Όµως δεν είναι
πίνακα αποτελεσµάτων:
πάντοτε εύκολο να φανεί το σχήµα της έλλειψης στο διάγραµµα διασποράς, ιδιαίτερα όταν το µέγεθος
Τιµή του Συντελεστή Συσχέτισης στο δείγµα Ποιος από τους δύο συντελεστές
Ζευγάρι Μεταβλητών
του δείγµατος είναι µικρό, και ο έλεγχος της κανονικότητας γίνεται για κάθε µεταβλητή χωριστά µέσω Pearson Spearman πρέπει να χρησιµοποιηθεί;
Βάρος µαθητών, Ύψος
ιστογραµµάτων ή/και θηκογραµµάτων. µαθητών
Βαθµός µαθητών, Αριθµός
Αδελφών
Υπολογισµός συντελεστή συσχέτισης στο SPSS Βαθµός µαθητών, Ύψος
µαθητών
Ύψος µαθητών, Ύψος
Για τον υπολογισµό του συντελεστή συσχέτισης (Pearson ή Spearman) στο SPSS επιλέγουµε: µητέρων τους
Ύψος µαθητών, Ύψος
Analyze → Correlate → Bivariate πατέρων τους
ώστε να οδηγηθούµε στο πλαίσιο διαλόγου της Εικόνας 100:
Πριν προχωρήσουµε στον υπολογισµό των συντελεστών συσχέτισης, θα χρησιµοποιήσουµε την εντολή
Explore για να ζητήσουµε την παραγωγή θηκογραµµάτων για κάθε µία από τις µεταβλητές του
παραπάνω πίνακα, ώστε να ελέγξουµε την ύπαρξη παράτυπων τιµών και κανονικών κατανοµών.
Επιλέγουµε Analyze → Descriptive Statistics → Explore. Μεταφέρουµε στη θέση Dependent List τις Από τα παραπάνω θηκογράµµατα παρατηρούµε ότι δεν υπάρχουν πολλές παράτυπες τιµές στα
µεταβλητές Α∆ΕΛΦΙΑ, ΒΑΘΜΟΣ, ΥΨΟΣ, ΒΑΡΟΣ, ΥΨΟΣΠ και ΥΨΟΣΜ. Επιλέγουµε την ένδειξη Plots δεδοµένα για καµία από τις έξι µεταβλητές. Οι κατανοµές για το ύψος και το βάρος των µαθητών, το
στο Display. Στο πλαίσιο διαλόγου Explore: Plots, αφήνουµε τσεκαρισµένη µόνο την ένδειξη Boxplots. ύψος των µητέρων τους και το ύψος των πατέρων τους είναι περίπου κανονικές. Η κατανοµή για το
Στο διαλόγου Explore: Options, επιλέγουµε το Exclude cases pairwise για να µην έχουµε προβλήµατα βαθµό των µαθητών είναι αρνητικά ασύµµετρη. Η κατανοµή για τον αριθµό των αδερφών δείχνει
µε την εξαίρεση απουσών τιµών. Τα αποτελέσµατα που θα πάρουµε στο output του SPSS φαίνονται θετικά ασύµµετρη (αλλά ο αριθµός των αδερφών είναι διακριτή ποσοτική µεταβλητή). Οι πληροφορίες
στην Εικόνα 101. αυτές θα µας βοηθήσουν για την επιλογή του κατάλληλου συντελεστή συσχέτισης (Pearson ή
Spearman) για την περιγραφή της συσχέτιση καθενός από τα 5 ζευγάρια µεταβλητών.
Προχωράµε τώρα στον υπολογισµό των συντελεστών συσχέτισης, επιλέγοντας Analyze → Correlate
→ Bivariate. Μεταφέρουµε στη θέση Variable(s) τις µεταβλητές Α∆ΕΛΦΙΑ, ΒΑΘΜΟΣ, ΥΨΟΣ, ΒΑΡΟΣ,
ΥΨΟΣΠ και ΥΨΟΣΜ. Τσεκάρουµε την ένδειξη Pearson (αν δεν είναι ήδη προεπιλεγµένη) και την
ένδειξη Spearman και πατάµε ΟΚ. Τα παραγόµενα αποτελέσµατα φαίνονται στις Εικόνες 102Α και
102β.
Αριθµός Βαθµοί µαθητών
αδερφών
Ύψη µαθητών Βάρη µαθητών
Ύψη πατέρων Ύψη µητέρων
Εικόνα 102Α: Αποτελέσµατα της Correlate – Bivariate (συντελεστές Pearson) για το παράδειγµα 20
Εικόνα 101: Αποτελέσµατα της Explore για το παράδειγµα 20

καταλληλότερος είναι ο συντελεστής του Pearson (αλλά, ούτως ή αλλιώς, οι δύο συντελεστές έχουν
σχεδόν ίσες τιµές). Συντελεστής συσχέτισης r = 0,86 δείχνει ότι το βάρος έχει µια ισχυρή θετική
γραµµική συσχέτιση µε το ύψος των µαθητών στο δείγµα µας (πλήρως αναµενόµενο αποτέλεσµα, το
οποίο είχαµε διαπιστώσει και στο παράδειγµα 19 µε τη χρήση διαγράµµατος διασποράς).
Συσχέτιση του Βαθµού µαθητών και Αριθµού αδελφών:

Κοιτώντας τη διασταύρωση ανάµεσα στις µεταβλητές “Βαθµός Β΄ λυκείου” και “Αριθµός αδερφών”,
βλέπουµε ότι η τιµή του συντελεστή συσχέτισης Pearson στο δείγµα µας είναι 0,179 (πρώτος πίνακας,
εικόνα 102Α), ενώ η τιµή του συντελεστή Spearman είναι 0,187 (δεύτερος πίνακας, εικόνα 102Β).
Επειδή είδαµε ότι ο αριθµός αδερφών δεν έχει κανονική κατανοµή (εξάλλου δεν είναι συνεχής
ποσοτική µεταβλητή), καταλληλότερος είναι ο συντελεστής του Spearman. Συντελεστής συσχέτισης r
= 0,19 δείχνει ότι ο βαθµός των µαθητών δεν συσχετίζεται µε τον αριθµό των αδελφών τους.
Συσχέτιση Βαθµού και Ύψους µαθητών:

Κοιτώντας τη διασταύρωση ανάµεσα στις µεταβλητές “Βαθµός Β΄ λυκείου” και “Ύψος µαθητή”,
βλέπουµε ότι η τιµή του συντελεστή συσχέτισης Pearson στο δείγµα µας είναι -0,147 (πρώτος πίνακας,
εικόνα 102Α), ενώ η τιµή του συντελεστή Spearman είναι -0,051 (δεύτερος πίνακας, εικόνα 102Β).
Εικόνα 102Β: Αποτελέσµατα της Correlate – Bivariate (συντελεστές Spearman) για το παράδειγµα 20
Επειδή είδαµε ότι ο βαθµός των µαθητών δεν έχει κανονική κατανοµή, καταλληλότερος είναι ο
συντελεστής του Spearman. Συντελεστής συσχέτισης r = -0,05 δείχνει ότι ο βαθµός των µαθητών δεν
συσχετίζεται µε το ύψος τους (πλήρως αναµενόµενο αποτέλεσµα, το οποίο είχαµε διαπιστώσει και στο
Στον πρώτο πίνακα αποτελεσµάτων µε επικεφαλίδα “Correlations” (εικόνα 102Α) έχει υπολογιστεί ο
παράδειγµα 19 µε τη χρήση διαγράµµατος διασποράς).
συντελεστής συσχέτισης του Pearson για κάθε ζευγάρι µεταβλητών. Κάθε κελί του πίνακα αντιστοιχεί
σε ένα ζευγάρι µεταβλητών (οπότε τα αποτελέσµατα αναφέρονται από δύο φορές). Τα κελιά της
Συσχέτιση Ύψους µαθητών και Ύψους µητέρων τους:
διαγωνίου διασταυρώνουν κάθε µεταβλητή µε τον εαυτό της και τα αγνοούµε. Σε κάθε κελί
Κοιτώντας τη διασταύρωση ανάµεσα στις µεταβλητές “Ύψος µαθητή” και “Ύψος µητέρας”, βλέπουµε
αναφέρονται τρεις αριθµοί: (1) η τιµή του συντελεστή Pearson, µε την ένδειξη Pearson Correlation
ότι η τιµή του συντελεστή συσχέτισης Pearson στο δείγµα µας είναι 0,588 (πρώτος πίνακας), ενώ η
στα αριστερά της, (2) η p-τιµή για τον έλεγχο της στατιστικής σηµαντικότητας του συντελεστή (θα το
τιµή του συντελεστή Spearman είναι 0,538 (δεύτερος πίνακας). Επειδή οι δύο µεταβλητές είδαµε ότι
συζητήσουµε αυτό σε επόµενη ενότητα), µε την ένδειξη Sig. (2-tailed) στα αριστερά της, και (3) το
έχουν περίπου κανονικές κατανοµές χωρίς πολλές παράτυπες τιµές, καταλληλότερος είναι ο
µέγεθος του δείγµατος µετά την εξαίρεση των απουσών τιµών, µε την ένδειξη Ν στα αριστερά του.
συντελεστής του Pearson. Συντελεστής συσχέτισης r = 0,59 δείχνει ότι τα ύψη των µαθητών στο δείγµα
µας έχουν µια θετική γραµµική συσχέτιση, µέτριας ισχύος, µε τα ύψη των µητέρων τους (αναµενόµενο
Ο δεύτερος πίνακας αποτελεσµάτων µε επικεφαλίδα “Nonparametric Correlations” (εικόνα 102B) έχει
αποτέλεσµα, το οποίο είχαµε διαπιστώσει και στο παράδειγµα 19 µε διάγραµµα διασποράς).
παρόµοια µορφή µε τον προηγούµενο, αλλά δίνει την τιµή του συντελεστή Spearman για κάθε ζευγάρι
µεταβλητών.
Συσχέτιση Ύψους µαθητών και Ύψους πατέρων τους:
Κοιτώντας τη διασταύρωση ανάµεσα στις µεταβλητές “Ύψος µαθητή” και “Ύψος πατέρα”, βλέπουµε
Συσχέτιση Βάρους και Ύψους µαθητών:
ότι η τιµή του συντελεστή συσχέτισης Pearson στο δείγµα µας είναι 0,481 (πρώτος πίνακας, εικόνα
Κοιτώντας τη διασταύρωση ανάµεσα στις µεταβλητές “Βάρος µαθητή” και “Ύψος µαθητή”, βλέπουµε
102Α), ενώ η τιµή του συντελεστή Spearman είναι 0,425 (δεύτερος πίνακας, εικόνα 102Β). Επειδή οι
ότι η τιµή του συντελεστή συσχέτισης Pearson στο δείγµα µας είναι 0,860 (πρώτος πίνακας, εικόνα
δύο µεταβλητές είδαµε ότι έχουν περίπου κανονικές κατανοµές χωρίς πολλές παράτυπες τιµές,
102Α), ενώ η τιµή του συντελεστή Spearman είναι 0,849 (δεύτερος πίνακας, εικόνα 102Β). Επειδή οι
καταλληλότερος είναι ο συντελεστής του Pearson. Συντελεστής συσχέτισης r = 0,48 δείχνει ότι τα ύψη
δύο µεταβλητές είδαµε ότι έχουν περίπου κανονικές κατανοµές χωρίς πολλές παράτυπες τιµές,
των µαθητών στο δείγµα µας έχουν µια µικρή θετική γραµµική συσχέτιση µε τα ύψη των πατέρων τους
(η ισχύς της οποίας φαίνεται να είναι µικρότερη από την ισχύ της συσχέτισης µε το ύψος µητέρας στο Ωστόσο, είναι σηµαντικό να τονίσουµε ότι η στατιστική συσχέτιση µεταξύ δυο µεταβλητών δεν
δείγµα µας). σηµαίνει απαραίτητα και αιτιολογική σχέση, δηλαδή δεν είναι απαραίτητο να είναι η µία µεταβλητή
το αίτιο και η άλλη το αποτέλεσµα.
Συνοπτικά τα παραπάνω αποτελέσµατα έχουν ως εξής:
Για παράδειγµα, ας υποθέσουµε ότι έχουµε καταγράψει την κατανάλωση καφέ (ποτήρια ανά ηµέρα)
Ζευγάρι Μεταβλητών
Τιµή του Συντελεστή Συσχέτισης στο δείγµα Ποιος από τους δύο συντελεστές και την εκδήλωση καρκίνου του πνεύµονα σε ένα µεγάλο αριθµό ατόµων. Αν βρούµε συσχέτιση
Pearson Spearman πρέπει να χρησιµοποιηθεί;
Βάρος µαθητών, Ύψος 0,860 0,849 Pearson µεταξύ κατανάλωσης καφέ και καρκίνου του πνεύµονα, αυτό δεν σηµαίνει απαραίτητα ότι η
µαθητών κατανάλωση καφέ προκαλεί τον καρκίνο του πνεύµονα. Η συσχέτιση αυτή µπορεί να είναι
Βαθµός µαθητών, Αριθµός 0,179 0,187 Spearman
Αδελφών δευτερογενής και να οφείλεται στο ότι το ποσοστό καπνιστών µεταξύ των ατόµων που καταναλώνουν
Βαθµός µαθητών, Ύψος -0,147 -0,051 Spearman
καφέ είναι υψηλότερο από ότι µεταξύ αυτών που δεν καταναλώνουν (και είναι γνωστό ότι το κάπνισµα
µαθητών
Ύψος µαθητών, Ύψος 0,588 0,538 Pearson σχετίζεται αιτιολογικά µε τον καρκίνο του πνεύµονα). Μια τέτοια τρίτη µεταβλητή -όπως το κάπνισµα
µητέρων τους
Ύψος µαθητών, Ύψος 0,481 0,425 Pearson στο παράδειγµα- η οποία συγχέει την παρατηρούµενη σχέση ανάµεσα στις δύο µεταβλητές που
πατέρων τους εξετάζουµε, ονοµάζεται συγχυτικός παράγοντας (confounder).
Γενικά, αν η µεταβλητή Α (π.χ. κάπνισµα) σχετίζεται αιτιολογικά τόσο µε τη µεταβλητή Β (π.χ.

Όπως και σε προηγούµενες ενότητες, θα τονίσουµε για µία ακόµη φορά ότι τα συµπεράσµατα για τις
κατανάλωση καφέ) όσο και µε τη µεταβλητή Γ (π.χ. καρκίνος του πνεύµονα), τότε τα χαρακτηριστικά
συσχετίσεις µεταβλητών που δώσαµε παραπάνω είναι περιγραφικά και όχι επαγωγικά. Αφορούν
Β και Γ (κατανάλωση καφέ και καρκίνος πνεύµονα) θα εµφανίζουν στατιστική συσχέτιση παρά την
δηλαδή το δείγµα µας (τους συγκεκριµένους 50 µαθητές) και όχι απαραίτητα ολόκληρο τον πληθυσµό
απουσία οποιασδήποτε αιτιολογικής σχέσης µεταξύ τους (πλασµατική, δευτερογενής συσχέτιση).
των µαθητών στον οποίο κάναµε τη δειγµατοληψία. Κατά πόσο το συµπέρασµά µας είναι απλώς
αποτέλεσµα της δειγµατοληψίας που µπορεί να συναντήθηκε τυχαία στο δείγµα µας ή είναι ένα
Η εξουδετέρωση των πλασµατικών δευτερογενών συσχετίσεων είναι δυνατή τόσο µε κατάλληλες
συµπέρασµα που µπορεί να γενικευτεί για ολόκληρο τον πληθυσµό (είναι όπως λέµε “στατιστικά
στατιστικές µεθόδους πολυµεταβλητής ανάλυσης (π.χ. µοντέλα πολλαπλής γραµµικής παλινδρόµησης
σηµαντικό”) είναι ζήτηµα µεθόδων επαγωγικής στατιστικής που θα δούµε σε επόµενες ενότητες.
και λογαριθµικής παλινδρόµησης), όσο και µε κατάλληλο σχεδιασµό της έρευνας (π.χ. µελέτες
εξοµοίωσης, χρήση οµάδων ελέγχου). Αυτές οι µέθοδοι είναι αρκετά προχωρηµένες, βρίσκονται εκτός
Προσοχή ακόµη χρειάζεται στα συµπεράσµατά για τη συσχέτιση δύο µεταβλητών, χωρίς να έχουµε
των στόχων του εισαγωγικού µας µαθήµατος και δεν θα τις συζητήσουµε στις παρούσες σηµειώσεις.
λάβει υπόψη ότι ενδέχεται να υπάρχουν συγχυτικές επιδράσεις από τρίτες µεταβλητές, όπως τονίζουµε
στην αµέσως επόµενη ενότητα.
Ακόµη, υπάρχουν µια σειρά από συνθήκες που πρέπει να ικανοποιούνται για να αποδείξουµε την
■
ύπαρξη σχέσης αιτίου-αποτελέσµατος ανάµεσα σε δύο µεταβλητές. Αυτές περιλαµβάνουν τη συνέπεια
(επαναληψιµότα) στην παρατήρηση της ίδιας σχέσης σε διαφορετικές µελέτες, τη βιολογική
5.5 ∆ευτερογενείς Συσχετίσεις και Συγχυτικοί Παράγοντες ευλογοφάνεια του µηχανισµού µεταξύ αιτίας και αποτελέσµατος, την ύπαρξη σχέσης δόσης-απόκρισης
κ.α.
Τα στατιστικά εργαλεία που παρουσιάσαµε στις προηγούµενες ενότητες µας επιτρέπουν να
διερευνήσουµε την ύπαρξη κάποιας στατιστικής συσχέτισης µεταξύ δύο µεταβλητών, η οποία Συνοψίζοντας, η ερµηνεία της συσχέτισης δύο µεταβλητών µε τα εργαλεία που παρουσιάσαµε στις
αντιστοιχεί είτε σε µια διαφορά µέσων τιµών ή διαµέσων τιµών (1 ποσοτική και 1 ποιοτική προηγούµενες ενότητες θα πρέπει να γίνεται µε προσοχή: οι στατιστικές συσχετίσεις που µάθαµε να
µεταβλητή), είτε σε µια διαφορά ποσοστών (2 ποιοτικές µεταβλητές), είτε σε µια κοινή συµπεριφορά εντοπίζουµε δεν είναι απαραίτητο ότι ισοδυναµούν µε αιτιολογικές σχέσεις ανάµεσα στις µεταβλητές.
στη µεταβολή των τιµών δύο µεταβλητών (2 ποσοτικές µεταβλητές).
■
(5) Ζητούµενα ποσοστά:

5.5 Άσκηση 5η Ποσοστό των διαζευγµένων που έχουν πάνω από δύο τηλεοράσεις στο σπίτι: ................%
ΘΕΜΑ Α Ποσοστό των ανύπαντρων που έχουν πάνω από δύο τηλεοράσεις στο σπίτι: .................%
Χρησιµοποιήστε το αρχείο δεδοµένων social_tv3.sav για να απαντήσετε στα ερωτήµατα 1 έως 3. Ποσοστό των ατόµων µε πάνω από 2 τηλεοράσεις στο σπίτι που είναι διαζευγµένοι..............%
Ποσοστό των ατόµων µε πάνω από 2 τηλεοράσεις στο σπίτι που είναι ανύπαντροι.................%
(1) Συµπληρώστε τον ακόλουθο πίνακα των στατιστικών ηλικίας, ξεχωριστά για τους άνδρες και τις Ποσοστό των ατόµων του δείγµατος που είναι διαζευγµένοι και έχουν πάνω από 2 TV: ..............%
γυναίκες που συµµετείχαν στην έρευνα: Ποσοστό των ατόµων του δείγµατος που είναι παντρεµένοι και έχουν µέχρι 2 TV: ................%
Στατιστικές Μέση Τυπική ∆ιάµεσος Ενδοτεταρτηµοριακό Εύρος
Ηλικίας Τιµή Απόκλιση Εύρος (P25-P75) (Min.-Max.) (6) Κατασκευάστε ένα σύνθετο (clustered) ραβδόγραµµα ποσοστιαίων συχνοτήτων για να δείξετε τη
Για τις Γυναίκες διαφοροποίηση του πλήθους τηλεοράσεων στο σπίτι ανά οικογενειακή κατάσταση.
Για τους Άνδρες

ΘΕΜΑ Γ
Ανοίξετε ένα νέο κενό αρχείο δεδοµένων στο SPSS για να απαντήσετε στα ερωτήµατα 7 έως 11.
(2) Κατασκευάστε ένα σύνθετο θηκόγραµµα το οποίο να δείχνει τη διαφοροποίηση της ηλικίας ανά
Στον παρακάτω πίνακα παρουσιάζονται τα αποτελέσµατα µιας έρευνας για τη στάση απέναντι στον
φύλο στο δείγµα της έρευνας.
πολιτικό γάµο. Τέθηκε η ερώτηση «Προτιµάτε να κάνετε πολιτικό ή θρησκευτικό γάµο» σε νέους
άνδρες και γυναίκες και λήφθηκαν τα ακόλουθα αποτελέσµατα:
(3) Συµπληρώστε στον ακόλουθο πίνακα τη µορφή της κατανοµής των δεδοµένων της ηλικίας
(κανονική, θετικά ασύµµετρη, αρνητικά ασύµµετρη) ξεχωριστά για τις γυναίκες και τους άνδρες του Φύλο Άνδρες Γυναίκες
Προτίµηση
δείγµατος. Επίσης, συµπληρώστε ποιες είναι οι κατάλληλες συνοπτικές στατιστικές που πρέπει να
Πολιτικός γάµος 84 50
δοθούν για τη σύγκριση της ηλικίας ανάµεσα στις δύο οµάδες φύλου.
Θρησκευτικός γάµος 58 79
∆εδοµένα Μορφή Κατανοµής ∆εδοµένων Ποιες Στατιστικές θα δοθούν για τη Αναποφάσιστοι 28 36
Ηλικίας στο δείγµα σύγκριση της Ηλικίας στα 2 φύλα;
Για τις Γυναίκες
(7) Αφού καταχωρίσετε µε κατάλληλο τρόπο τα δεδοµένα του παραπάνω πίνακα συνάφειας στο SPSS,
Για τους Άνδρες ζητήστε την αναπαραγωγή του πίνακα στο output.
(8) Πόσοι συνολικά νέοι ρωτήθηκαν στην έρευνα; Πόσοι ήταν οι άνδρες και πόσες οι γυναίκες; Πόσοι
συνολικά νέοι δήλωσαν αναποφάσιστοι;
ΘΕΜΑ Β (9) Ζητήστε την παραγωγή του παραπάνω πίνακα στο SPSS, ο οποίος όµως θα περιλαµβάνει και
Χρησιµοποιήστε το αρχείο δεδοµένων social_tv3.sav για να συµπληρώσετε τις συχνότητες στον ποσοστά γραµµών και στηλών.
παρακάτω πίνακα συνάφειας ανάµεσα στην κατηγορία πλήθους τηλεοράσεων στο σπίτι και την (10) Με βάση τον πίνακα που πήρατε στο ερώτηµα (9), δώστε τα ζητούµενα ποσοστά:
οικογενειακή κατάσταση, να βρείτε τα ποσοστά του ερωτήµατος (5) και να κατασκευάσετε το σύνθετο Ποσοστό των ανδρών που προτιµούν πολιτικό γάµο ……… %
ραβδόγραµµα του ερωτήµατος (6). Ποσοστό των γυναικών που προτιµούν πολιτικό γάµο ……. %
(4) Πίνακας Συνάφειας: Ποσοστό των αναποφάσιστων που είναι άνδρες ……….%
Πλήθος τηλεορ. Από τους νέους που προτιµούν θρησκευτικό γάµο, ……… % είναι γυναίκες.
Μέχρι δύο Πάνω από δύο Σύνολα
Οικ. Καταστ. (11) Κατασκευάστε ένα σύνθετο (clustered) ραβδόγραµµα ποσοστιαίων συχνοτήτων για να δείξετε τη
Παντρεµένοι
Ανύπαντροι διαφοροποίηση των προτιµήσεων γάµου σε σχέση µε το φύλο. Σχολιάστε σύντοµα το διάγραµµά σας.
∆ιαζευγµένοι ■
Σύνολα

02 SPSSLABNOTES 2013 PART-1 2in1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

02 SPSSLABNOTES 2013 PART-1 2in1

Uploaded by

Copyright:

Available Formats

Στατιστική µε το SPSS 1

4η έκδοση, 2013 Κριτσωτάκης Ι. Ευάγγελος

T.E.I. ΚΡΗΤΗΣ Περιεχόµενα:

Ηράκλειο, 2004 - 2013

1.2 Καταχώριση και Οργάνωση των ∆εδοµένων στην Data View

Αποθήκευση Αρχείου ∆εδοµένων:

Εικόνα 2: Καταχώριση δεδοµένων του παραδείγµατος 1Α στην Data View.

Κλείσιµο Αρχείων SPSS:

Εικόνα 5: Μήνυµα προειδοποίησης του SPSS κατά το κλείσιµο αρχείου δεδοµένων

Εικόνα 4: Αρχείο εξόδου αποτελεσµάτων (output) του SPSS

Εικόνα 7: Αυτόµατες ρυθµίσεις της Variable View

Εικόνα 13: Καθορισµός ετικετών (values) σε

Εικόνα 22: Επεξεργασία πίνακα στο output του SPSS.

Εικόνα 23: Τροποποιήσεις στον πίνακα της προηγούµενης εικόνας

Εικόνα 25: Ένας υπερβολικά µεγάλος πίνακας συχνοτήτων! 2

Τα επόµενα βήµατά µας είναι:

ΕΠΙ∆ΟΣΗ στη Data View. (MISSING=SYSMIS) INTO ΕΠΙ∆ΟΣΗ. EXECUTE.

Frequencies. O παραγόµενος πίνακας συχνοτήτων δίνεται στην Εικόνα 30.

Cumulative «Μεταπτυχιακός Τίτλος», 2 = «Πτυχίο», 3 = «Μέση Εκπαίδευση» και 4 = «Κατώτερη Εκπαίδευση».

Αποθηκεύστε το αρχείο δεδοµένων µε όνοµα 50µαθητές-επίδοση.sav και το αρχείο εξόδου ως

Αποθηκεύστε το αρχείο δεδοµένων µε όνοµα Παράδειγµα4.sav και το αρχείο εξόδου ως

2.6 Αγγλική Ορολογία για την Ενότητα 2 2.7 Άσκηση 2η

Add: προσθήκη, καταχώριση

3. Στατιστικά ∆ιαγράµµατα για 1 Μεταβλητή

Απευθυνθείτε στις παραδόσεις θεωρίας για περισσότερες λεπτοµέρειες σχετικά µε τα στατιστικά

Από το µενού Options του Chart Editor

Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav), για να κατασκευάσουµε

Εικόνα 40: Αυτόµατα Παραγόµενο Ραβδόγραµµα (Legacy Dialogs → Bar, Simple)

3.4 Ιστόγραµµα (Histogram)

3.5 Ιστογράµµατα και Μορφές Κατανοµών Συχνοτήτων

Εικόνα 45: Καρτέλα Variables για την εναλλαγή συχνοτήτων

Εικόνα 47: Κανονική Κατανοµή Εικόνα 49: Θετικά Ασύµµετρη Κατανοµή

Σε µια θετικά ασύµµετρη κατανοµή (positevely skewed distribution), oι περισσότερες παρατηρήσεις

Εικόνα 50: Πολυκόρυφη Κατανοµή (εδώ, δικόρυφη)

Σε µια πολυκόρυφη κατανοµή (multimodal distribution) τα δεδοµένα συγκεντρώνονται γύρω από

% of cases ποσοστό ατόµων

Ονοµαστική Επικρατέστερη τιµή

Προσεγγιστικά Μέση Τιµή,

Εικόνα 54: Επιλογή Στατιστικών Σύνοψης των ∆εδοµένων

Παράδειγµα 9 Τα αποτελέσµατα εµφανίζονται στο output, όπως δείχνει η Εικόνα 56:

µαθητών του δείγµατος είχαν βαθµούς κάτω από 13,3.

Στη θέση Distribution (κατανοµή) υπάρχει η επιλογή “Skewness” (λοξότητα / ασυµµετρία).

Στο πλαίσιο διαλόγου Explore (Εικόνα 57):

Εικόνα 59: Αποτελέσµατα (output) από την Explore για το παράδειγµα 10

Case Processing Summary

Για να αποφύγουµε το παραπάνω πρόβληµα, επαναλαµβάνουµε την εντολή Explore και

Θα χρησιµοποιήσουµε τα δεδοµένα της Άσκησης 1 (αρχείο: 50µαθητές.sav) για να υπολογίσουµε,

Κυριότερη ασχολία στον ελεύθερο χρόνο

Εικόνα 64: Αποτελέσµατα για το Παράδειγµα 12(α).

Κυριότερη ασχολία στον ελεύθερο χρόνο Descriptives

min P25 P50 P75 max

Εικόνα 71: Η Όψη του Θηκογράµµατος σε Κανονική Κατανοµή

• Σε θετικά ασύµµετρη κατανοµή το θηκόγραµµα είναι ασύµµετρο προς τα δεξιά: η απόσταση

Εικόνα 70: Θηκόγραµµα µε εµφάνιση outliers

Εικόνα 72: Η Όψη του Θηκογράµµατος σε Θετικά Ασύµµετρη Κατανοµή

Εικόνα 75: Επιλογές στην Explore για το Παράδειγµα 13

Εικόνα 76: Παραγόµενα θηκογράµµατα για το Παράδειγµα 13 (βάρος, βαθµός, ύψος)

4.6 Σύνοψη Βασικών Εννοιών της Ενότητας 4 4.7 Άσκηση 4η

επιλέξουµε τις κατάλληλες στατιστικές για την περιγραφή τους. Τηλεόρασης

χειρότερα από τα κορίτσια.

5.3 Συσχέτιση ∆ύο Ποιοτικών Μεταβλητών (Crosstabs) Στον παραπάνω πίνακα:

5.3.1 Κατασκευή Πίνακα Συνάφειας µε την εντολή Crosstabs Παράδειγµα 15

Εικόνα 79: Το πλαίσιο διαλόγου της εντολής Crosstabs