ΠΕΡΙΓΡΑΦΙΚΗ Και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Δαφέρμος Βασίλειος ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΠΕΡΙΓΡΑΦΙΚΗ
και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Δαφέρμος Βασίλειος
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ
ΕΙΣΗΓΗΣΗ 1
ΠΕΡΙΓΡΑΦΙΚΗ ΚΑΙ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
 Η έννοια της μεταβλητής

 Είδη μεταβλητών
 Η έννοια της παρατηρησιακής μονάδας
 Πληθυσμός Ενδιαφέροντος, Δείγμα, Μέγεθος Δείγματος,
 Τυχαιότητα, Αντιπροσωπευτικότητα, Σφάλματα.
 Τεχνικές Δειγματοληψίας που υπαινίσσεται ο τρόπος λήψης του
Δείγματος
 ΚΛΙΜΑΚΕΣ ΜΕΤΡΗΣΗΣ
 Η κατανόηση των κλιμάκων μέτρησης μέσα από την κωδικοποίηση
 Δείκτες κεντρικής τάσης (measures of central tendency)
 Δείκτες διασποράς (measures of variation) ή μεταβλητότητας
(variability) ή διασκόρπισης (dispersion)
 Δείκτες ασυμμετρίας
 Δείκτες ομοιογένειας
======================== ================ ============= ====
2
 Η έννοια της μεταβλητής

 Αποτελείται από 2 μέρη: το όνομα και την τιμή της. Για παράδειγμα όταν
δηλώνουμε : V1 = 7 είναι σαφές ότι πρόκειται για μια μεταβλητή της οποίας το
όνομα είναι V1 και η τιμή που τώρα της αποδίδεται, είναι 7.

================ ==================== ============== =======
 Είδη μεταβλητών
 Στις ποιοτικές μεταβλητές κατατάσσονται το φύλο, (άνδρας ή
γυναίκα), η θρησκεία (Χριστιανός, Μουσουλμάνος, κτλ.), ο τόπος
διαμονής (αστικός, ημιαστικός, αγροτικός), η οικογενειακή
κατάσταση (έγγαμος, άγαμος, διαζευγμένος, χήρος).
 Στις ποσοτικές μεταβλητές κατατάσσονται η ηλικία, το βάρος, το
ύψος, το εισόδημα, ο βαθμός ευφυΐας κτλ.
 Μια συνεχής ποσοτική μεταβλητή συνήθως κινείται ανάμεσα σε μια
ελάχιστη και σε μια μέγιστη τιμή από το σύνολο των πραγματικών
αριθμών (real numbers).
 Οι διακριτές ποσοτικές μεταβλητές δεν διατρέχουν όλες τις δυνατές
τιμές ανάμεσα σε ένα ελάχιστο και σε μέγιστο, αλλά λαμβάνουν
ορισμένες, διακριτές ή απαριθμητές τιμές, οι οποίες προκύπτουν
από τις μετρήσεις και είναι πάντα ακέραιοι αριθμοί. Για παράδειγμα,
μια οικογένεια δεν μπορεί να έχει 2,5 παιδιά.
 Θα λέμε ανεξάρτητη (independent) μια μεταβλητή, όταν αυτή έχει
εισαχθεί από τον ερευνητή για να εκτιμηθεί η επίδρασή της πάνω σε
μια άλλη που την χαρακτηρίζομε ως εξαρτημένη. Π.χ. Χρόνος-
Πυρετός.
 Θα λέμε τυχαία μεταβλητή (random variable), τη μεταβλητή της
οποίας οι τιμές δεν μπορούν να προσδιορισθούν με ακρίβεια, αλλά
μέσω μιας διαδικασίας στην οποία σε κάθε τιμή της μεταβλητής
αντιστοιχεί μια τιμή πιθανότητας.
 θα λέμε μη τυχαία μεταβλητή (fixed variable), τη μεταβλητή της
οποίας οι τιμές μπορούν με ακρίβεια να προσδιοριστούν πριν από τη
μέτρησή τους. Για παράδειγμα, η ταχύτητα ενός αυτοκινήτου το
οποίο κινείται με σταθερή επιτάχυνση είναι γνωστή ανά πάσα στιγμή
από γνωστούς μαθηματικούς τύπους.
3
================ =========== ==== ================ ==== =

 Τι εννοούμε με τον όρο παρατηρησιακή μονάδα;
 Αυτό που παρατηρούμε, ως ερευνητές, μέσα σε μια έρευνα, είναι
δυνατόν να είναι ένας άνθρωπος, ένα μικρόβιο, ένα πειραματόζωο,
ένα πολιτικό υποκείμενο, ένας ασθενής, ένα μαθητευόμενο άτομο,
ένα φυτό, ένας αθλητής ή ένα βρέφος. Όλα αυτά ονομάζονται
παρατηρησιακές μονάδες, διότι οι επιδόσεις τους (σκόρ), ως προς
κάποιο χαρακτηριστικό ή ιδιότητά τους, είναι αυτό που ενδιαφέρει
την έρευνά μας.
 ================= ================ ======= =
 Πληθυσμός Ενδιαφέροντος, Δείγμα, Μέγεθος Δείγματος,
 Τυχαιότητα, Αντιπροσωπευτικότητα, Σφάλματα.
Οι στατιστικομαθηματικές τεχνικές, που θα αναπτύξουμε λεπτομερώς
στα επόμενα, αναλαμβάνουν το ‘πέρασμα’ από το δείγμα στον
πληθυσμό και προσδιορίζουν με ακρίβεια το πιθανό σφάλμα των
μετρήσεών μας. Ωστόσο,
 Το δείγμα θα πρέπει να είναι τυχαίο, πράγμα που σημαίνει ότι
κάθε στοιχείο (παρατηρησιακή μονάδα) του πληθυσμού, θα πρέπει
να έχει ίσες δυνατότητες (πιθανότητα) να συμπεριληφθεί στο
δείγμα.
 Το δείγμα θα πρέπει να είναι αντιπροσωπευτικό, που σημαίνει ότι
το δείγμα θα πρέπει να έχει τα χαρακτηριστικά και τις ιδιότητες
του πληθυσμού από τον οποίο προέρχεται.
 Ο πληθυσμός θα πρέπει να καθορίζεται στην αρχή της κάθε
έρευνας με τη μεγαλύτερη δυνατή ακρίβεια. Μόνο τότε, είναι
δυνατή η επιλογή αντιπροσωπευτικού δείγματος.
 ================ =========== === ======= ====
 Κάθε συγκεκριμένος τρόπος λήψης ενός δείγματος συνιστά και
μια τεχνική δειγματοληψίας, δηλ. μια επιστημονική μέθοδο
συγκρότησης του δείγματός μας από ένα καθορισμένο πληθυσμό.
Στις Κοινωνικές Επιστήμες συνήθως χρησιμοποιούνται πέντε
τεχνικές δειγματοληψίας ίσων, όπως λέγεται, πιθανοτήτων:
 α) η απλή τυχαία δειγματοληψία,
 β) η συστηματική δειγματοληψία,
 γ) η δειγματοληψία κατά στρώματα,
 δ) η δειγματοληψία κατά ομάδες, και τέλος,
 ε) η δειγματοληψία κατά στάδια.
 Θα αναφερθούμε σε αυτές τις τεχνικές στα παρακάτω …
4
 ΚΛΙΜΑΚΕΣ ΜΕΤΡΗΣΗΣ
 Ονομαστικές ή Κατηγορικές Κλίμακες (nominal scales)
 Τακτικές κλίμακες (ordinal scales)
 Αριθμητικές ή ισοδιαστημικές κλίμακες (interval scales)
 Αναλογικές κλίμακες (ratio scales)
 ============= ================ ========== ===
 Θα λέμε ονομαστικές τις κλίμακες μέτρησης στις οποίες η
κατάταξη των υποκειμένων γίνεται σε καλά προσδιορισμένες,
σαφώς διακρίσιμες μεταξύ τους, ισοδύναμες, και οπωσδήποτε
αμοιβαία αποκλειόμενες, αν έχουμε διχοτομική κλίμακα
μέτρησης, κατηγορίες. Π.χ. Το φύλο, η αστικότητα, η θρησκεία
κτλ.
 =========== ==================== ======== ====
 Θα λέμε τακτικές κλίμακες μέτρησης εκείνες στις οποίες η
ένταξη των υποκειμένων γίνεται σε κατηγορίες σαφείς,
ισοδύναμες, αλλά και διατεταγμένες μεταξύ τους. Π.χ. Η σειρά
προτεραιότητας στο ΙΚΑ, η κατάταξη σε κάποιο αγώνισμα-
πρώτος, δεύτερος, τρίτος κτλ.
 ================== ============ ========== ====
 Θα λέμε αριθμητικές ή (ισο)διαστημικές τις κλίμακες μέτρησης
στις οποίες τα υποκείμενα εντάσσονται σε σαφώς καθορισμένες,
αμοιβαία αποκλειόμενες, διατεταγμένες κατηγορίες, και οι οποίες
όμως έχουν και το εξής, επιπλέον χαρακτηριστικό: χρησιμοποιούν
σταθερή μονάδα μέτρησης. Ο χρόνος (με μονάδες μέτρησης το
λεπτό, το δευτερόλεπτο, την ώρα κτλ., η απόσταση, η ηλικία, η
θερμοκρασία, σε κλίμακα Celsius ή Fahrenheit κτλ., είναι κλασικά
παραδείγματα αριθμητικών κλιμάκων.
 ============= =========== ============ == ====
 Και τέλος, Θα λέμε αναλογικές κλίμακες μέτρησης, εκείνες που
διατηρούν όλα τα χαρακτηριστικά των διαστημικών κλιμάκων, και
επιπλέον διαθέτουν πραγματικό σημείο αναφοράς το οποίο
αντιστοιχεί στο απόλυτο μηδέν. Το σημείο αυτό είναι ένα γνήσιο
σημείο, είναι ένα εναρκτήριο σημείο, με την έννοια ότι το
χαρακτηριστικό ή η ιδιότητα που μετράει η κλίμακα στο σημείο
αυτό, δεν υπάρχει. Κλασικά παραδείγματα αναλογικής κλίμακας
είναι η ταχύτητα, η απόλυτη θερμοκρασία (βαθμοί Kelvin), η
πίεση του αίματος, το βάρος, η επιτάχυνση, η μάζα κτλ.
5
================= ======================== ============== ====
 Η κατανόηση των κλιμάκων μέτρησης μέσα από την

κωδικοποίηση
Ας πάρουμε το παρακάτω ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ και ας προσπαθήσουμε μαζί να το
κωδικοποιήσουμε:
Telephone number……….. ……
Code Questionnaire………
Code Interviewer......…….
ΑΝΩΝΥΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ
Καλημέρα. Σας παίρνουμε από το τμήμα Πολιτικής Επιστήμης του Π. Κ., κάνουμε μια εργασία
στο μάθημα της Κοινωνικής Στατιστικής και θα θέλαμε τη γνώμη σας για το ρόλο των
Τραπεζών στη σημερινή συγκυρία. Θα θέλατε να μας απαντήσετε;
================================================== ====
1)Κατά τη γνώμη σας, οι ΤΡΑΠΕΖΕΣ, σε ποιο βαθμό βοηθούν την οικονομική ανάπτυξη
της χώρας; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
==================================================================
2)Εσείς ο ίδιος/α , το Νοικοκυριό σας, ή η Επιχείρησή σας, σε ποιο βαθμό είστε

ευχαριστημένος από την πολιτική των ΤΡΑΠΕΖΩΝ απέναντί σας :
⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
===============================================================
3) Σε ποιό βαθμό πιστεύετε ότι η σημερινή Κυβέρνηση είναι σε θέση να ελέγξει τις
ΤΡΑΠΕΖΕΣ; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
===============================================================
4) Εσείς ο ίδιος/α έχετε την αίσθηση ότι οι ΤΡΑΠΕΖΕΣ βάζουν πανωτόκια;
⌂ ΝΑΙ ⌂ ΟΧΙ ⌂ ΔΓ/ΔΑ
=============== ============== ================== ======== =====
5) Σε ποιό βαθμό είστε ικανοποιημένος/η από τα μέτρα που έλαβε πρόσφατα η σημερινή
Κυβέρνηση για την πρώτη κατοικία; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ
============ =================== ============= ========== ======

6) Σε ποιό βαθμό πιστεύετε ότι οι ΤΡΑΠΕΖΕΣ πειθαρχούν στις αποφάσεις των
Δικαστηρίων; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
=============== ===================== ================== =====

7) Κατά τη γνώμη σας ποιά από τις παρακάτω μελλοντικές Κυβερνήσεις μπορεί να ασκήσει
αυστηρό/αποτελεσματικό έλεγχο πάνω στις ΤΡΑΠΕΖΕΣ (μια απάντηση παρακαλώ);
⌂ μια Κυβέρνηση με κορμό τη ΝΔ
⌂ μια Κυβέρνηση με κορμό το ΣΥΡΙΖΑ
⌂ μια Κυβέρνηση της Κεντροαριστεράς
⌂ μια Κυβέρνηση της Χρυσής Αυγής
⌂ μια Κυβέρνηση Εθνικής Ενότητας
⌂ καμία Κυβέρνηση
=========================== ================= =================
6
ΦΥΛΟ: άνδρας γυναίκα

--------------------------------------------------------------------------------------------------------------
ΜΟΡΦΩΤΙΚΟ ΕΠΙΠΕΔΟ: Στοιχειώδης Εκπαίδευση Μέση Εκπαίδευση Ανώτερη
/Ανώτατη
-------------------------------------------------------------------------------------------------------------
ΕΠΑΓΓΕΛΜΑ: Αγρότης Ιδιωτικός Υπάλληλος Δημόσιος Υπάλληλος
Ελεύθερος Επαγγελματίας Φοιτητής/τρια Συνταξιούχος Νοικοκυρά
Άνεργος
--------------------------------------------------------------------------------
ΗΛΙΚΙΑ :………….. 18-30 31-45 46-60 60 και άνω
----------------------------------------------------------------------------------------------------------
ΝΟΜΟΣ (που ψηφίζετε): Χανίων Ρεθύμνης Ηρακλείου Λασιθίου
============================= ======================== ====== = ==

======================= ===================== ================ ===
7
============================ ======================= =============
ΠΡΟΒΛΗΜΑ 1
========================= ================ ================= ===
Ο Καθηγητής κ. Δεληβοριάς είχε στο σεμινάριό του, 6 φοιτητές

και 9 φοιτήτριες. Οι βαθμοί που έλαβαν οι φοιτητές στο τέλος του
εξαμήνου ήταν οι εξής:
5,6,6,7,7,8,
ενώ των φοιτητριών ήταν οι εξής:
4,5,6,7,7,7,8,9,10.
Να βρείτε όλους τους δείκτες Κεντρικής τάσης, Διασποράς,
Ασυμμετρίας και Ομοιογένειας.
======================= ===================== =================
8
 ΔΕΙΚΤΕΣ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ (measures of central

tendency)
 (Μέσος όρος=mean, Διάμεσος=Median, Δεσπόζουσα τιμή=Mode).
 Θα λέμε αριθμητικό μέσο όρο ή μέση τιμή (mean) ενός δείγματος n
παρατηρήσεων x1, x2, x3,…,xn μιας μεταβλητής Χ και θα το
συμβολίζουμε με X , το πηλίκο του αθροίσματος όλων τιμών της
μεταβλητής δια του πλήθους τους:

k
f1 x1  f 2 x2  ...  f k xk fx i i
 X  i 1
(1)
f1  f 2  ...  f k k
f
i 1
i
 Εφαρμόζουμε στη σχέση (1) τα δεδομένα του Προβλήματος (1) και λαμβάνουμε:
fx i i
1  4  2  5  3  6  5  7  2  8  1  9  1  10 102
X  i 1
   6,8
k
1 2  3  5  2 11 15
f
i 1
i
 Ιδιότητες Μέσης τιμής:

1) Η μέση τιμή είναι ένας δείκτης εύκολα κατανοητός. Οι τιμές
του παραδείγματός μας ήταν οι βαθμοί φοιτητών με βάση την
γνωστή στο Πανεπιστήμιο κλίμακα 1-10, οπότε εύκολα
προκύπτει το συμπέρασμα, ότι πρόκειται για μια ομάδα μάλλον
χαμηλών αποδόσεων.
2) Για τον υπολογισμό της μέσης τιμής, όπως κι ίδιοι
παρατηρήσαμε στο παράδειγμά μας, έλαβαν μέρος όλες οι τιμές
του δείγματός μας. Αυτό κάνει τον εν λόγω δείκτη
‘δημοκρατικότερο’ από όλους τους δείκτες κεντρικής τάσης.
Διότι κανένας άλλος δείκτης κεντρικής τάσης, όπως θα δούμε
παρακάτω, δεν λαμβάνει υπ’ όψιν του όλες μα όλες και κάθε
μια με το ιδιαίτερο βάρος (αξία) που έχει, τις τιμές του
δείγματος από το οποίο προήλθε.
3) Για κάθε ομάδα παρατηρήσεων υπάρχει μία και μόνο μέση
τιμή. Δηλ. αυτός ο δείκτης έχει το χαρακτηριστικό της
μοναδικότητας.
4) Ωστόσο, η μέση τιμή επηρεάζεται, από ακραίες τιμές (outliers).
Για παράδειγμα, αυτό το 10 αν το είχαν οι 5 καλύτεροι φοιτητές
του προηγούμενου δείγματος, η μέση τιμή θα επηρεάζονταν
σοβαρά (7,33).
5) Η μέση τιμή, όπως είναι λογικό, δεν έχει νόημα για κατηγορικά,
αλλά κυρίως ή μόνον για αριθμητικά και γενικά για ποσοτικά
δεδομένα.
9
6) Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο σταθερό

αριθμό C, τότε η μέση τιμή του δείγματος αυξάνει κατά C. Δηλ.
αν ήταν X γίνεται X  C .
7) Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί τον ίδιο
σταθερό αριθμό C, τότε και η μέση τιμή του δείγματος
πολλαπλασιάζεται με C. Δηλ. αν ήταν X γίνεται X  C .
8) Η μέση τιμή έχει γραμμική συμπεριφορά. Αυτό σημαίνει ότι αν
X 1 , X 2 ,..., X k είναι, αντίστοιχα, οι μέσες τιμές k ομάδων
παρατηρήσεων με μεγέθη n1, n2,…,nk, τότε το σύνολο που
περιλαμβάνει όλες αυτές τις παρατηρήσεις, δηλ. που έχει
μέγεθος n=n1+n2+…+nk , έχει μέση τιμή ίση με:
n1 X 1  n2 X 2  ...  nk X k
X (3.3)
n1  n2  ...  nk
================================ ========================== ======
 Θα λέμε διάμεσο (median) ενός δείγματος n παρατηρήσεων,

οι οποίες έχουν διαταχθεί σε αύξουσα σειρά και θα το
συμβολίζουμε με Δμ, τη μεσαία παρατήρηση αν ο n είναι
περιττός ή το ημιάθροισμα των δύο μεσαίων παρατηρήσεων αν
ο n είναι άρτιος.
Παράδειγμα
Σκόπιμα παίρνουμε πάλι, ως παράδειγμα, το ίδιο δείγμα που πήραμε
και στην περίπτωση του μέσου όρου δηλ. το
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Προφανώς, αφού οι παρατηρήσεις είναι 15, δηλ. περιττός αριθμός η
μεσαία παρατήρηση δηλ, αυτή που έχει δεξιά και αριστερά της ίσο
αριθμό παρατηρήσεων, αυτή είναι η διάμεσος, το 7.
Αν λάβουμε το ίδιο δείγμα αλλά χωρίς την τιμή 10 στο τέλος, δηλ.
το δείγμα
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9
Τότε προφανώς το ημιάθροισμα των δύο μεσαίων παρατηρήσεων
77
δηλ. =7 θα ήταν και πάλι η διάμεσος του δείγματός μας.
2
Ιδιότητες της διαμέσου

1) Η διάμεσος, όπως έδειξαν και τα προηγούμενα
παραδείγματα, δεν επηρεάζεται από ακραίες τιμές.
2) Στον υπολογισμό της τιμής της, όπως έδειξαν και τα
προηγούμενα παραδείγματα, η διάμεσος δεν χρησιμοποιεί
10
όλες τις τιμές του δείγματος. Ως εκ τούτου είναι λιγότερο

‘δημοκρατικός’ δείκτης, από τη μέση τιμή.
3) Η διάμεσος δεν έχει νόημα για ποιοτικά δεδομένα.
4) Η διάμεσος, όπως και η μέση τιμή, υπολογίζεται εύκολα.
5) Η διάμεσος έχει μοναδικότητα για κάθε ομάδα
παρατηρήσεων.
6) Η διάμεσος είναι, όπως και η μέση τιμή, εύκολα κατανοητή.
7) Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο
σταθερό αριθμό C, τότε η διάμεσος του δείγματος αυξάνει
κατά C.
8) Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί τον ίδιο
σταθερό αριθμό C, τότε και η διάμεσος του δείγματος
πολλαπλασιάζεται με C.
9) Η διάμεσος, πολύ σπάνια ή καθόλου απαντάται σε απλές ή
σύνθετες στατιστικές αναλύσεις.
======================== ============ ========= ====
Θα λέμε δεσπόζουσα ή επικρατούσα τιμή (mode), ενός
δείγματος n παρατηρήσεων και θα τη συμβολίζουμε με Δσπ, την
παρατήρηση που εμφανίζεται με τη μεγαλύτερη συχνότητα.
Σκόπιμα παίρνουμε πάλι, ως παράδειγμα, το ίδιο δείγμα που πήραμε
και στην περίπτωση του μέσου όρου και της διαμέσου δηλ. το
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Ιδιότητες της δεσπόζουσας τιμής
 Η δεσπόζουσα τιμή, δεν επηρεάζεται από ακραίες τιμές
 Η δεσπόζουσα τιμή, όπως έδειξαν και τα προηγούμενα
παραδείγματα, είναι δυνατόν να υπολογισθεί, ακόμη κι όταν
έχουμε ελλιπή δεδομένα.
 Στη διαμόρφωση της τιμής της, η δεσπόζουσα τιμή, δεν
χρησιμοποιεί όλες τις τιμές από το δείγμα που προέρχεται,
αλλά τις λιγότερες, συγκριτικά με τους άλλους δύο δείκτες
κεντρικής τάσης. Ως εκ τούτου, είναι ο λιγότερο
‘δημοκρατικός’ δείκτης, από τους όλους δείκτες κεντρικής
τάσης.
 Η δεσπόζουσα τιμή δεν έχει πάντα μοναδικότητα. Για
παράδειγμα, το δείγμα 2,3,4,4,4,7,7,7,9,9 έχει δύο
δεσπόζουσες τιμές: το 4 και το 7. Το SPSS αποκαλεί μια
τέτοια περίπτωση δείγματος multiple Mode.
 Η δεσπόζουσα τιμή ορίζεται και σε ποιοτικά και σε
ποσοτικά δεδομένα.
 Η δεσπόζουσα τιμή υπολογίζεται και είναι πολύ εύκολα
κατανοητή.
11
 Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο

σταθερό αριθμό C, τότε και η δεσπόζουσα τιμή του δείγματος
αυξάνει κατά C.
 Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί τον ίδιο
σταθερό αριθμό C, τότε και η δεσπόζουσα τιμή του δείγματος
πολλαπλασιάζεται με C.
 Η δεσπόζουσα τιμή πολύ σπάνια ή καθόλου απαντάται σε
απλές ή σύνθετες στατιστικές αναλύσεις.
================== ===================== ==========

ΔΕΙΚΤΕΣ ΔΙΑΣΠΟΡΑΣ (measures of variation) ή μεταβλητότητας
(variability), ή διασκόρπισης (dispersion)
Όπως μαρτυρεί και το όνομά τους, οι δείκτες αυτοί δείχνουν κατά
πόσο ‘απλώνεται’ μια κατανομή δεδομένων, κατά πόσον δηλαδή
διασπείρονται οι τιμές της .
 Θα λέμε διασπορά ή διακύμανση, ή μέση τετραγωνική
απόκλιση (variance) n παρατηρήσεων x1, x2, x3,…,xn μιας
μεταβλητής Χ και θα τη συμβολίζουμε με s2, τον αριθμό που
προκύπτει από τους δύο παρακάτω τύπους:
n
(X i  X )2
s2  i 1
αν n < 30 (2)
n 1
n
(X i  X )2
s2  i 1
αν n > 30 (3)
n
Ωστόσο, αν έχουμε μια άλλη κατανομή δεδομένων την x1, x2, x3,…, xk
στην οποία όμως η παρατήρηση x1 έχει συχνότητα εμφάνισης f1, η x2
συχνότητα εμφάνισης f2, …, η xk συχνότητα εμφάνισης fk , τότε για τη
διασπορά ισχύουν οι σχέσεις:
k
 f (X i i  X )2 k
s2  i 1
k
αν f i  30 (4)
f
i 1
i 1 i 1
12
 f (X i i  X )2 k
s2  i 1
k
αν f i  30 (5)
f
i 1
i
i 1
Θα επιλέξουμε, σκόπιμα και πάλι, το ίδιο παράδειγμα, δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Η μέση τιμή γι αυτά τα δεδομένα είναι, όπως είδαμε X =6,8
Προφανώς η σχέση η οποία πρέπει να εφαρμόσουμε είναι η (4) από
την οποία προκύπτει:
 f (X i i  X )2
s2  i 1
k

f
i 1
i 1
1(4  6,8) 2  2(5  6,8) 2  3(6  6,8) 2  5(7  6,8) 2  2(8  6,8) 2  1(9  6,8) 2  1(10  6,8) 2

1  2  3  5  2  11 1
34,398
=  2, 457
14
Ιδιότητες της διασποράς

1) Η διασπορά είναι ένα μέτρο που μας δείχνει πόσο πολύ
απέχουν δηλ συγκεντρώνονται ή απομακρύνονται οι τιμές μιας
κατανομής από τη μέση τιμή. Έτσι, αν οι τιμές μιας μεταβλητής
δεν διαφέρουν πολύ από τη μέση τιμή, τότε είναι σαφές ότι η
διασπορά είναι μικρή. Αντίθετα, όταν οι τιμές διαφέρουν πολύ
από τη μέση τιμή, τις βλέπουμε δηλ., να διασκορπίζονται σε
μεγάλη απόσταση, εκατέρωθεν τη μέσης τιμής, τότε η
διασπορά είναι μεγάλη.
2) Η διασπορά είναι μια αξιόπιστη παράμετρος μεταβλητότητας
των δεδομένων μας.
3) Η διασπορά δεν έχει τις ίδιες μονάδες μέτρησης με τη μέση
τιμή, ούτε και με τις ίδιες τις παρατηρήσεις μας. Για την
ακρίβεια η διασπορά εκφράζεται σε μια μονάδα που είναι το
τετράγωνο της μονάδας μέτρησης του χαρακτηριστικού.
13
4) Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο σταθερό

αριθμό C, η διασπορά του δείγματος παραμένει αμετάβλητη.
5) Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί με τον ίδιο
σταθερό αριθμό C, τότε η διασπορά του δείγματος
2
πολλαπλασιάζεται με C .
================== ==================== ===========
 Θα λέμε τυπική απόκλιση (standard deviation) ενός
δείγματος, τη θετική τετραγωνική ρίζα της διασποράς. Δηλ.
ισχύει:
s  s2 (6)
Αν πάρουμε το προηγούμενο δείγμα παρατηρήσεων δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
δεδομένου ότι έχουμε υπολογίσει γι’ αυτό τη διασπορά, είναι
εύκολο να υπολογίσουμε άμεσα και την τυπική του απόκλιση.
Πράγματι, από τη σχέση (6) έχουμε:
s  s 2  2, 457 =1,568
Ιδιότητες της τυπικής απόκλισης

 Η τυπική απόκλιση είναι το πιο αξιόπιστο και πιο χρήσιμο
μέτρο από όλα τα μέτρα μεταβλητότητας.
 Η τυπική απόκλιση αποτελεί το σταθερότερο δείκτη
μεταβλητότητας, πράγμα που σημαίνει ότι αν από ένα
πληθυσμό λάβουμε πολλά όμοια δείγματα και υπολογίσουμε
για κάθε ένα από αυτά όλους τους δείκτες μεταβλητότητας,
τότε θα διαπιστώσουμε ότι οι τυπικές αποκλίσεις όλων
αυτών των δειγμάτων, θα διαφέρουν μεταξύ τους, λιγότερο
από ότι θα διαφέρουν μεταξύ τους οι τιμές των άλλων
δεικτών μεταβλητότητας.
 Η τυπική απόκλιση διαθέτει ίδιες μονάδες μέτρησης, τόσο
με τη μέση τιμή, όσο και με τις ίδιες τις παρατηρήσεις μας.
 Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο
σταθερό αριθμό C, η τυπική απόκλιση του δείγματος παραμένει
αμετάβλητη.
14
 Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί με τον ίδιο

σταθερό αριθμό C, τότε η τυπική απόκλιση του δείγματος
πολλαπλασιάζεται με την απόλυτη τιμή αυτού του αριθμού | C | .
============= ============== ============ ======== =
Η αναπαραστατική ερμηνεία της τυπικής απόκλισης
15
==================== ===================== ============= ======= ==
 Θα λέμε εύρος(range) ενός δείγματος και θα το συμβολίζουμε

με R, τη διαφορά ανάμεσα στη μεγαλύτερη και στη μικρότερη
τιμή του. Δηλ. αν min είναι η μικρότερη και max είναι η
μεγαλύτερη τιμή ενός δείγματος, τότε για το εύρος του θα έχουμε:
R=max-min.
Λαμβάνουμε και πάλι το ίδιο δείγμα παρατηρήσεων, το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Τότε, προφανώς R=max-min=10-4=6
Ιδιότητες του εύρους

 Το εύρος είναι ένα κατανοητό και εύκολα υπολογίσιμο μέτρο
μεταβλητότητας.
 Το εύρος δεν είναι ένας αξιόπιστος δείκτης διασποράς, καθώς
βασίζεται σε δύο μόνο ακραίες παρατηρήσεις.
===================== ========== ====== ===== ==
 Θα λέμε τεταρτημόρια (Quartiles), τρεις τιμές, ή αλλιώς, τρία
σημεία, τα οποία διαιρούν την κατανομή του δείγματός μας σε
τέσσερα ίσα τμήματα. Το πρώτο τεταρτημόριο (Q1), είναι το
σημείο της κατανομής (σημείο πάνω στον οριζόντιο άξονα,
φυσικά), κάτω από το οποίο βρίσκεται το 25 % των τιμών της
κατανομής. Το δεύτερο τεταρτημόριο (Q2), είναι το σημείο κάτω
(αριστερά) από το οποίο βρίσκεται το 50% των τιμών της
κατανομής. Άρα ισούται με τη διάμεσο δηλ. έχουμε Q2=Δμ . Το
τρίτο τεταρτημόριο είναι το σημείο της κατανομής, κάτω από το
οποίο βρίσκεται το 75% των παρατηρήσεών μας.
Η διαφορά Q3-Q1 ονομάζεται ενδοτεταρτημοριακό εύρος
(interquartile range) και προφανώς αναφέρεται στο 50 % των
μεσαίων τιμών της κατανομής.
==================== ========= ======== ===== = =
 Θα λέμε εκατοστημόρια (Percentiles), τις τιμές P1, P2, …,P99 , οι
οποίες χωρίζουν την κατανομή του δείγματός μας σε 100 ίσα μέρη.
To Pk εκατοστημόριο επομένως, θα είναι η τιμή για την οποία το
k% των παρατηρήσεων είναι μικρότερες του Pk , ενώ το (100-k)
% των παρατηρήσεων είναι μεγαλύτερες του Pk .
16
Με βάση τα παραπάνω τα εκατοστημόρια P25, P50, P75 θα

συμπίπτουν με τα τεταρτημόρια Q1, Q2, Q3, και βέβαια το
εκατοστημόριο P50 θα συμπίπτει με τη διάμεσο.
Παραδείγματα
Ας λάβουμε ξανά το αρχικό μας δείγμα, το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
→ Είναι σαφές ότι P50=Δμ=7.
→ Επίσης είναι σαφές ότι η διάμεσος των παρατηρήσεων αριστερά της
διαμέσου, δηλ. των παρατηρήσεων 4, 5, 5, 6, 6, 6, 7 είναι το 6,
επομένως P25=Q3=6.
→ Ακόμη, είναι σαφές ότι η διάμεσος των παρατηρήσεων δεξιά της
διαμέσου, δηλ. των παρατηρήσεων 7, 7, 7, 8, 8, 9, 10 είναι το 8, οπότε
P75=Q3=8.
============ ============= ========== ======= ====
 Θα λέμε τυπικό σφάλμα του μέσου όρου (standard error of mean)
και θα το συμβολίζουμε με s X το πηλίκο της τυπικής απόκλισης του
δείγματος, προς την τετραγωνική ρίζα του μεγέθους του δείγματος.
Δηλ.
s
sX  (7)
n
Ας λάβουμε και πάλι το ίδιο δείγμα, δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Επειδή η τυπική απόκλιση γι αυτό το δείγμα έχει υπολογισθεί και είναι

s=1,568 και το μέγεθός του είναι n=15 , η σχέση (7) μας δίνει:
17
s 1,568 1,568
sX     0,405
n 15 3,88
========== =========== ============= ==============
 Θα λέμε στρεβλότητα ή λοξότητα (skewness), μιας κατανομής
x1, x2, x3,…, xk στην οποία όμως η παρατήρηση x1 έχει συχνότητα
εμφάνισης f1, η x2 συχνότητα εμφάνισης f2, …, η xk συχνότητα
εμφάνισης fk , το μέγεθος που ορίζεται από τη σχέση:
 f (X
i 1
i i  X )3
k
f i
SK  i 1
(8)
s3
Η στρεβλότητα, είναι ένα μέτρο που μας δείχνει την έκταση στην
οποία μια κατανομή τιμών αποκλίνει από τη συμμετρία, γύρω από το
μέσο όρο. Έτσι:
 Αν σε μια κατανομή έχουμε SK > 0  η κατανομή μας είναι
ασύμμετρη δεξιά ( positive skewed), δηλ. έχει την ουρά της στα
δεξιά (βλ. Σχ.3.1). Αυτό σημαίνει ότι στα δεξιά υπάρχει έλλειμμα
τιμών, ενώ προς την άλλη μεριά, δηλ. προς τα αριστερά, υπάρχει
πλεόνασμα τιμών. Ας μη λησμονούμε ωστόσο, ότι στα δεξιά είναι
οι υψηλού μεγέθους τιμές (μεγάλης αξίας), ενώ προς τα αριστερά
οι χαμηλού μεγέθους (μικρής αξίας) τιμές του δείγματός μας.
 Αν σε μια κατανομή έχουμε SK < 0  η κατανομή μας είναι
ασύμμετρη αριστερά (negative skewed), δηλ. έχει την ουρά της
στα αριστερά (βλ. Σχ.3.2).
 Αν σε μια κατανομή έχουμε SK = 0  η κατανομή μας δεν
είναι ασύμμετρη ούτε δεξιά, ούτε αριστερά, δηλ. δεν έχει ουρά,
οπότε είναι μια συμμετρική κατανομή (βλ. Σχ.3.3).
Σχόλιο: Αν υποθέσουμε ότι ένας ερευνητής εκτελεί ψυχομετρικά
πειράματα, τι θα μπορούσε να σημαίνει μια τιμή για παράδειγμα
SK=0,86 ; Οι Darren and Mallery (2001), ισχυρίζονται ότι για τη
στρεβλότητα μια τιμή  1, θεωρείται εξαιρετική για ψυχομετρικά
πειράματα, ενώ μια τιμή  2 είναι σε αρκετές περιπτώσεις
αποδεκτή. Ωστόσο, εμείς δεν αυτό δεν μπορούμε να το λάβουμε
18
ως κανόνα για τις τιμές της στρεβλότητας. Για κάθε συγκεκριμένη

εφαρμογή θεωρούμε ότι είναι καλό να αναζητούμε την προϊστορία
του πράγματος, δηλ. να ανατρέχουμε στη βιβλιογραφία του
θέματος που ερευνούμε.
Αν έχουμε το ίδιο δείγμα δηλ. το
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
τότε επειδή s=1,568 η σχέση (8) δίνει:
 f (X
i 1
i i  X )3
k
f i
SK  i 1

s3
1(4  6,8)3  2(5  6,8)3  3(6  6,8)3  5(7  6,8)3  2(8  6,8)3  1(9  6,8)3  1(10  6,8)3
 1 2  3  5  2 11 
(1,568)3
0,9715
=  0, 252 > 0  η κατανομή μας είναι ασύμμετρη δεξιά, δηλ.
3,85
έχει την ουρά της δεξιά.
19
Σχ. 3.1
Σχ. 3.2
Σχ. 3.3
20
Ιδιότητες της στρεβλότητας

 Αν σε κάθε τιμή μιας κατανομής προσθέσουμε τον ίδιο
σταθερό αριθμό C, η στρεβλότητα της κατανομής παραμένει
 Αν κάθε τιμή μιας κατανομής την πολλαπλασιάσουμε με τον
ίδιο σταθερό αριθμό C, η στρεβλότητα της κατανομής
παραμένει αμετάβλητη.
======================= ====================== ====

 Θα λέμε κύρτωση (kurtosis), μιας κατανομής x1, x2, x3,…, xk
στην οποία όμως η παρατήρηση x1 έχει συχνότητα εμφάνισης f1, η
x2 συχνότητα εμφάνισης f2, …, η xk συχνότητα εμφάνισης fk , το
μέγεθος που ορίζεται από τη σχέση:
 f (X
i 1
i i  X )4
k
f i
KU  i 1
3 (9)
s4
Σημείωση: Το –3 στον τύπο 3.13, ίσως ξαφνιάσει τον αναγνώστη,

που ίσως πιστέψει ότι πρόκειται για τυπογραφικό λάθος. Όχι δεν
πρόκειται για λάθος. Ο τύπος 3.13 είναι ο τύπος που χρησιμοποιεί ο
μεγάλος στατιστικός R. Fisher. Μας βολεύει και τον χρησιμοποιούμε
κι εμείς. Αυτόν υιοθετεί και το SPSS και το σημαντικότερό του
πλεονέκτημα είναι ότι, όπως θα δούμε παρακάτω, οι τιμές που αυτός
παράγει, είναι εύκολα ερμηνεύσιμες.
Η κύρτωση είναι ένα μέτρο που μας πληροφορεί για το βαθμό
συγκέντρωσης των τιμών γύρω από το ‘κέντρο’ ή το ‘μέσον’ της.
Έτσι,
 Αν σε μια κατανομή έχουμε KU > 0  η κατανομή μας
ονομάζεται οξύκυρτη ή λεπτόκυρτη ( leptokurtic), δηλ. πάρα
πολλές τιμές της έχουν συγκεντρωθεί στο ‘κέντρο’ της (βλ.
21
Σχ.3.4). Αυτό σημαίνει ότι στην ‘περιφέρεια’ της κατανομής

υπάρχει έλλειμμα τιμών.
 Αν σε μια κατανομή έχουμε KU < 0  η κατανομή μας
ονομάζεται πλατύκυρτη (platykurtic), δηλ. πολύ λίγες τιμές της
υπάρχουν στο κέντρο της, ενώ στην ‘περιφέρειά της, υπάρχουν
πάρα πολλές τιμές (βλ. Σχ.3.5).
 Αν σε μια κατανομή έχουμε KU = 0  η κατανομή μας
ονομάζεται μεσόκυρτη (mesokurtic) και δεν παρουσιάζει ούτε
μεγάλες ούτε μικρές συγκεντρώσεις στο κέντρο (βλ. Σχ.3.6). Με
άλλα λόγια είναι μια κανονική κατανομή, αν βέβαια δεν
παρουσιάζει και πρόβλημα συμμετρίας.
Αν έχουμε το ίδιο δείγμα δηλ. το
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
τότε επειδή s=1,568 η σχέση (9) δίνει:
 f (X
i 1
i i  X )4
k
f i
KU  i 1
 3=
s4
1(4  6,8)4  2(5  6,8)4  3(6  6,8)4  5(7  6,8)4  2(8  6,8)4 1(9  6,8)4 1(10  6,8)4
 1  2  3  5  2 1 1 3 
(1,568)4
=0,165 > 0  η κατανομή μας είναι οξύκυρτη, δηλ. παρουσιάζει τάσεις

συγκέντρωσης των τιμών της στο κέντρο της.
22
Σχ. 3.4
Σχ. 3.5
23
Σχ. 3.6
Ιδιότητες της κύρτωσης

 Αν σε κάθε τιμή μιας κατανομής προσθέσουμε τον ίδιο
σταθερό αριθμό C, η κύρτωση της κατανομής παραμένει
 Αν κάθε τιμή μιας κατανομής την πολλαπλασιάσουμε με τον
ίδιο σταθερό αριθμό C, η κύρτωση της κατανομής παραμένει
================= ============== ============= ====
24
============== ==================== ======== =======

Γραφική Αναπαράσταση των δεικτών κεντρικής τάσης σε ασύμμετρες
και συμμετρικές κατανομές
Τα παρακάτω σχήματα, Σχ.3.6.1, Σχ.3.6.2 και Σχ.3.6.3 δείχνουν τις
θέσεις της μέσης τιμής, της διαμέσου και της δεσπόζουσας τιμής, όταν η
κατανομή μας είναι ασύμμετρη αριστερά (Σχ.3.6.1), όταν η κατανομή
μας είναι ασύμμετρη δεξιά (Σχ.3.6.2), και τέλος, όταν η κατανομή μας
είναι συμμετρική (Σχ.3.6.3).
25
Ωστόσο, πως είναι δυνατόν να θυμάται ο αναγνώστης τις θέσεις των 3

δεικτών κεντρικής τάσης, όταν η κατανομή αλλάζει, όταν δηλ. από
ασύμμετρη δεξιά, γίνεται ασύμμετρη αριστερά, ή τέλος όταν παύει να
είναι ασύμμετρη;
Η γνώση της θεωρίας μας οδηγεί σε δύο ή τρεις ασφαλιστικές δικλίδες:
■ Η μέση τιμή (mean) είναι πάντα προς το μέρος της ουράς της
κατανομής.
■ Η διάμεσος έχει πάντα εκατέρωθεν αυτής τους άλλους δύο δείκτες
κεντρικής τάσης.
■ Η κατακόρυφος που ξεκινά από το υψηλότερο σημείο της καμπύλης,
προφανώς διέρχεται από το σημείο που βρίσκεται η δεσπόζουσα τιμή,
πάνω στον οριζόντιο άξονα Χ.
ΔΕΙΚΤΕΣ ΟΜΟΙΟΓΕΝΕΙΑΣ
Η ομοιογένεια των δεδομένων μας μετριέται με το συντελεστή
μεταβλητότητας.
26
 Θα λέμε συντελεστή μεταβλητότητας (coefficient variation) και

θα τον συμβολίζουμε με CV, το λόγο της τυπικής απόκλισης προς
το δειγματικό μέσο. Συμβολικά:
s
CV  (10)
x
Ο συντελεστής μεταβλητότητας, προφανώς είναι ανεξάρτητος από

μονάδες μέτρησης, γιατί όπως βλέπουμε στον τύπο του και έχουμε
αναφέρει στα προηγούμενα, τόσο ο αριθμητής όσο και ο
παρονομαστής, μετριώνται με τις ίδιες μονάδες μέτρησης.
Ένα δείγμα θα χαρακτηρίζεται ομοιογενές, αν η τιμή του δείκτη CV
δεν ξεπερνά το 10%.
Αν λάβουμε και πάλι το ίδιο δείγμα, δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
s 1,568
αφού s=1,568 και x =6,8  CV    0, 23  0,10  Δεν
x 6,8
υπάρχει ομοιογένεια στο δείγμα μας.
Εισήγηση 2: Θεωρία Πιθανοτήτων

ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ
 Η έννοια του δειγματόχωρου ή δειγματικού χώρου

 Πείραμα τύχης
 Η έννοια του ενδεχομένου
 Πράξεις με ενδεχόμενα
 Ασυμβίβαστα ενδεχόμενα
 Κλασικός ορισμός πιθανότητας
 Κανόνες λογισμού πιθανοτήτων
 Ανεξάρτητα ενδεχόμενα
 Δεσμευμένη πιθανότητα
================ ================== =========== ===== =
Ορισμός1. Θα λέμε πείραμα τύχης κάθε πείραμα το οποίο είναι δυνατό να
επαναληφθεί πολλές φορές, πρακτικά κάτω από τις ίδιες συνθήκες, αλλά το
αποτέλεσμά του δεν είναι δυνατόν να προβλεφθεί με βεβαιότητα.
====================== ====================== ====== =
Ορισμός2. Θα λέμε δειγματικό χώρο ενός πειράματος τύχης και θα τον
συμβολίζουμε με Ω, το σύνολο:
Ω = {ω1, ω2, …, ωn}
όπου ω1, ω2, …, ωn είναι τα δυνατά αποτελέσματα του συγκεκριμένου πει-
ράματος τύχης.
================ ================= ============== ======
Ορισμός 3. Θα λέμε ενδεχόμενο ενός πειράματος τύχης κάθε υποσύνολο του
δειγματικού χώρου Ω.
Για παράδειγμα, ρίχνουμε δύο φορές ένα νόμισμα και καταγράφουμε την
επάνω όψη που εμφανίζεται. Τότε, ο δειγματικός χώρος είναι ο
Ω = {ΚΚ, ΓΓ, ΓΚ, ΚΓ}.
 Αν οι δύο ενδείξεις είναι ίδιες…

Τότε το υποσύνολο Α = {ΓΓ, ΚΚ} προφανώς και αποτελεί ένα ενδεχόμενο του
συγκεκριμένου πειράματος τύχης.
======================= ================== ========== ===
Πράξεις με ενδεχόμενα
Έστω ότι έχουμε ένα δειγματικό χώρο Ω και δύο ενδεχόμενά του Α και Β. Τό-
τε:
 Το ενδεχόμενο Α  Β πραγματοποιείται, όταν πραγματοποιείται ένα
τουλάχιστον από τα Α και Β.
 Το ενδεχόμενο Α  Β πραγματοποιείται, όταν και το Α και το Β ενδεχό-
μενο πραγματοποιούνται.
 Το ενδεχόμενο Α΄ ορίζεται ως το αντίθετο ή το συμπληρωματικό του Α
και πραγματοποιείται, όταν δεν πραγματοποιείται το Α.
 Το ενδεχόμενο Α–Β πραγματοποιείται, όταν πραγματοποιείται το Α, αλλά
δεν πραγματοποιείται το Β.
Αν εστιάσουμε την προσοχή μας στο παρακάτω σχήμα (Σχ. 1) εύκολα αντι-
λαμβανόμαστε πως ισχύουν οι σχέσεις:
Α–Β = Α  Β΄ (1)
(Α–Β)  (Α  Β) = Α (2)
(Β–Α)  (Α  Β) = Β (3)
Β–Α = Β  Α΄ (4)
Ω
Α Β
A ∩Β Β–Α
Α–Β
Σχ .1
==================== =============== ============= ======
Οι κανόνες του De Morgan:
(A  B)΄ = Α΄  Β΄ (5)
(Α  Β)΄ = Α΄  Β΄ (6)
================== ==================== ======= ====
Άσκηση 1
Ας πάρουμε στην τύχη μια οικογένεια, η οποία έχει τρία παιδιά. Και ας υποθέ-
σουμε ότι το ενδιαφέρον μας εστιάζεται στο φύλο και στη σειρά γέννησης.
1) Να ορίσετε το δειγματικό χώρο του πειράματος
2) Να προσδιορίσετε το ενδεχόμενο Α: το πρώτο παιδί να είναι κορίτσι
Λύση
1) Ο δειγματικός χώρος προσδιορίζεται από το σύνολο Ω όπου
Ω = {ΑΑΑ, ΚΚΚ, ΑΑΚ, ΑΚΚ, ΚΑΑ, ΚΚΑ, ΚΑΚ, ΑΚΑ}.
2) Το ζητούμενο ενδεχόμενο προσδιορίζεται από το σύνολο Α όπου
Α = {ΚΚΚ, ΚΑΑ, ΚΚΑ, ΚΑΚ}.
===================== ======================== ===== ===

Ασυμβίβαστα ενδεχόμενα
Ορισμός 4. Θα λέμε δύο ενδεχόμενα Α και Β ασυμβίβαστα αν ισχύει

Α Β = .
=============== ================= ================ ======
Παραδείγματα ασυμβίβαστων ενδεχομένων:

 Τα Α και Α΄ είναι ασυμβίβαστα διότι Α  Α΄ =  .
 Τα Α–Β και Α  Β διότι (Α–Β)  (Α  Β) =  .
 Τα Α–Β και Β–Α διότι (Α–Β)  (Β–Α) =  .
======================== ============= =========== =====
Ορισμός 5. Κλασικός ορισμός πιθανότητας

Έστω Ω ο δειγματικός χώρος ενός πειράματος τύχης με ισοπίθανα απλά
ενδεχόμενα. Τότε ορίζουμε ως πιθανότητα του ενδεχομένου Α τον αριθμό
P(A) για τον οποίο ισχύει:
Πλήθος ευνοϊκών περιπτώσεων

P ( Α) =
Πλήθος όλων των δυνατών περιπτώσεων
Ν ( Α)
Ισοδύναμα γράφουμε: P ( A) = .
Ν (Ω )
Ο παραπάνω ορισμός έχει τρεις συνέπειες:
Ν (Ω )
1. P (Ω ) = =1
Ν (Ω )
0
2. P (Ζ ) = =0
Ν (Ω)
3. 0 £ P( A) £ 1
=========================== ==========================
==================== ============================== =====
ΚΑΝΟΝΕΣ ΛΟΓΙΣΜΟΥ ΠΙΘΑΝΟΤΗΤΩΝ
 Για δύο ασυμβίβαστα μεταξύ τους ενδεχόμενα Α και Β ισχύει:

P(A  B) = P(A) + P(B).
 Για οποιοδήποτε ενδεχόμενο Α ισχύει: P(A) = 1–P(A΄).
 Για δύο οποιαδήποτε ενδεχόμενα Α και Β ενός δειγματικού χώρου Ω
ισχύει: P(A  B) = P(A) + P(B) – P(A  B).
 Για δύο οποιαδήποτε ενδεχόμενα Α και Β ενός δειγματικού χώρου Ω ι-
σχύει: P(A–B) = P(A)–P(A  B) = P(A  B΄).
 Αν Α  Β  P(A)  P(B)
 P(A–B) = P(A  B΄).
==================== =============== ============= === ==

==================== ======================== ===========
Άσκηση 2
Μια τσάντα του γκολφ έχει 3 κόκκινα, 4 μπλε και 6 άσπρα μπαστούνια. Τρα-
βάμε στην τύχη ένα μπαστούνι.
Να υπολογίσετε τις πιθανότητες των παρακάτω ενδεχομένων:
Α: Το μπαστούνι είναι κόκκινο
Β: Το μπαστούνι δεν είναι κόκκινο
Γ: Το μπαστούνι είναι άσπρο
Δ: Το μπαστούνι είναι κόκκινο ή άσπρο
Λύση
Θα έχουμε:
N (Ω ) = 3 + 4 + 6 = 13
N ( A) 3
P ( A) = =
N (Ω ) 13
3 10
P ( B ) = 1 ‐ P ( A) = 1 ‐ =
13 13
N(Γ ) 6
P( Γ ) = =
N (Ω ) 13
N ( Δ) 9
P ( Δ) = =
N (Ω ) 13
====================== ================ ========== == ===

=================== =============== ============= ==
Άσκηση 3
Στο Τμήμα Πολιτικής Επιστήμης, η πιθανότητα να μην περάσει ένας φοιτητής
το μάθημα της Στατιστικής είναι διπλάσια, από την πιθανότητα να το περάσει.
Να υπολογιστεί η πιθανότητα να περάσει κάποιος φοιτητής το μάθημα της Στα-
τιστικής.
Λύση
Θεωρούμε τα προφανώς αντίθετα ενδεχόμενα:
Α: ο φοιτητής περνά το μάθημα της Στατιστικής
Α΄: ο φοιτητής δεν περνά το μάθημα της Στατιστικής
Και φυσικά αναζητούμε την πιθανότητα Ρ(Α).

Αλλά σαν δεδομένο έχουμε την σχέση:
P ( A ') = 2 P( A) (1)
Επίσης μας είναι γνωστό ότι:
P ( AΆ) = 1 ‐ P ( A) (2)
Αφού τα πρώτα μέλη των (1) και (2) είναι ίσα θα είναι και τα δεύτερα. Επομέ-
νως:
1
2 P( A) = 1 ‐ P ( A) ή 3P ( A) = 1 ή P ( A) =
3
========= ===== =================== ========= ====== ====

===================== =============== ========= ===== == =
Άσκηση 4
Μια μαθητική τάξη, έχει 10 αγόρια και 14 κορίτσια. Τα μισά αγόρια και τα
μισά κορίτσια έχουν μαύρα μάτια. Παίρνουμε στην τύχη από αυτή την τάξη ένα
μαθητευόμενο άτομο. Να βρείτε την πιθανότητα το άτομο αυτό να είναι αγόρι ή
να έχει μαύρα μάτια.
Λύση
Προβαίνουμε στον ορισμό των εξής ενδεχομένων:
Α: αγόρι
Κ: κορίτσι
Μ: μαύρα μάτια
Τότε θα έχουμε:
Ν (Ω ) = 10 + 14 = 24
10 5
P ( A) = =
24 12
N ( M ) 5 + 7 12 1
P(M ) = = = =
N (Ω ) 24 24 2
Ωστόσο αυτό που αναζητούμε είναι η πιθανότητα P ( A Θ M ) . Επειδή όμως τα
Α και Μ δεν είναι ανεξάρτητα μεταξύ τους ισχύει η σχέση:
P ( A Θ M ) = P ( A) + P( M ) ‐ P ( A Η M )
Σε αυτή τη σχέση μοναδικός άγνωστος είναι ο τελευταίος όρος P ( A Η M ) για

τον οποίο έχουμε:
N(AΗ M ) 5
P( A Η M ) = =
N (Ω ) 24
Έτσι για τη ζητούμενη πιθανότητα έχουμε:

5 1 5 17
P( A Θ M ) = + ‐ =
12 2 24 24
=================== ============================ ======

================= ================ ========= ========== ==
Άσκηση 5
Αν Κ και L είναι δύο ενδεχόμενα ενός δειγματικού χώρου Ω, να δείξετε ότι
ισχύει:
P ( K Θ L) + P ( K Η L) = P ( K ) + P ( L) .
Λύση
Προφανώς δεν είναι δυνατόν να υποθέσουμε ότι τα K και L είναι δύο ανε-
ξάρτητα ενδεχόμενα, αλλά ότι είναι δύο οποιαδήποτε ενδεχόμενα και επομένως
ισχύει η γνωστή σχέση
P ( K Θ L) = P ( K ) + P ( L) ‐ P( K Η L) .
Αλλά τότε ξεκινώντας από το πρώτο μέλος της αποδεικτέας θα έχουμε:
P ( K Θ L) + P ( K Η L) = P ( K ) + P( L) ‐ P( K Η L) + P( K Η L) = P( K ) + P ( L) .
======================== ==================== ======== ==

================= ================== =========== ===== ==
Άσκηση 6
Ας υποθέσουμε ότι έχουμε δύο ζάρια και τα ρίχνουμε ταυτόχρονα μια φορά. Τι
είναι πιθανότερο να φέρουμε, άθροισμα 6 ή άθροισμα 7;
Λύση
Επειδή έχουμε δύο ζάρια με 6 όψεις έκαστο, και επειδή αυτά ρίπτονται ταυτό-
χρονα ο δειγματικός μας χώρος θα αποτελείται από 66 = 36 ζευγάρια.
Δηλ. θα είναι
Ω = {(1, 1), (1, 2), (1, 3), …, (6, 6)}.
Θεωρούμε τα ενδεχόμενα:
Α: το άθροισμα των δύο ενδείξεων είναι 7
Β: το άθροισμα των δύο ενδείξεων είναι 6
Τότε όμως τα σύνολα Α και Β είναι:
Α = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
Β = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.
N ( A) 6 N ( B) 5
Επομένως, P ( A) = = και P ( B ) = =
N (Ω ) 36 N (Ω ) 36
========================== ================= === === =====
============== ==================== ========== =======
Άσκηση 7
Σε κάποιο χωριό το 20% των νοικοκυριών δεν έχει τηλεόραση, το 30% δεν έχει
βίντεο, ενώ το 15 % δεν έχει ούτε το ένα ούτε το άλλο. Παίρνουμε στην τύχη
ένα νοικοκυριό. Ποια η πιθανότητα να έχει και βίντεο και τηλεόραση;
Λύση
Έστω τα ενδεχόμενα:
T: το νοικοκυριό δεν έχει τηλεόραση
V: το νοικοκυριό δεν έχει βίντεο
Αλλά τότε για τις αντίστοιχες πιθανότητες της άσκησης έχουμε:
20 2 1
P (T )    (1)
100 10 5
30 3
P (V )   (2)
100 10
15
P (T Η V ) = (3)
100
Και η ζητούμενη πιθανότητα προφανώς είναι η: P(T ΆΗ V Ά) η οποία όμως

λόγω του πρώτου κανόνα του De Morgan (βλ. σχέση 5 ΣΤΗΝ ΑΡΧΗ), γίνεται:
P (T ΆΗ V Ά) = P[(T Θ V ) Ά] = 1 ‐ P(T Θ V )
= 1 ‐ [ P (T ) + P (V ) ‐ P (T Η V )]
ζ 1 3 15 φ 1 3 15 115 50 65
= 1‐ η + ‐ χ = 1‐ ‐ + = ‐ =
θ 5 10 100 ψ 5 10 100 100 100 100
===================== ================ ======== ======= =

============= ======================= ============= =====
ΑΝΕΞΑΡΤΗΤΑ ΕΝΔΕΧΟΜΕΝΑ
Ορισμός 6. Θα λέμε δύο ενδεχόμενα Α και Β ενός δειγματικού χώρου Ω
ανεξάρτητα, αν η πραγματοποίηση του ενός δεν επηρεάζεται από την
πραγματοποίηση ή μη του άλλου. Δηλ. ισχύει:
P ( A Η B ) = P( A) P ( B ) .
================ ========================= =============
Άσκηση 8
Μέσα σε ένα κιβώτιο έχουμε 12 άσπρα και 18 μαύρα σφαιρίδια. Βγάζουμε
στην τύχη δύο σφαιρίδια, το ένα διαδοχικά μετά το άλλο, επανατοποθετώντας
όμως το πρώτο σφαιρίδιο μέσα στο κιβώτιο. Να βρείτε τις πιθανότητες:
1. Το πρώτο σφαιρίδιο να είναι άσπρο και το δεύτερο μαύρο
2. Και τα δύο σφαιρίδια να είναι άσπρα
3. Και τα δύο σφαιρίδια να είναι μαύρα
Λύση
Θεωρούμε τα ενδεχόμενα:
Α: Το πρώτο σφαιρίδιο είναι άσπρο
Β: Το δεύτερο σφαιρίδιο είναι άσπρο
12 2 12 2
Προφανώς τότε P ( A) = = και P ( B ) = =
30 5 30 5
1. Εδώ προφανώς αναζητούμε την πιθανότητα P ( A Η B Ά) για την οποία έ-
2 3 6
χουμε: P ( A Η B Ά) = P ( A) P ( B Ά) = Χ = .
5 5 25
2 2 4
2. Εδώ αναζητούμε την πιθανότητα P ( A Η B ) = P ( A) P( B) = Χ = .
5 5 25
3 3 9
3. Εδώ αναζητούμε την πιθανότητα P ( AΆΗ B Ά) = P ( AΆ) P( B Ά) =
Χ = .
5 5 25
========================== ======================== === =
=============== =================== =========== ==== ====
Άσκηση 9
Έστω ότι διαθέτουμε ένα ζάρι, ένα νόμισμα και μια τράπουλα 52 φύλλων. Ρί-
χνουμε πρώτα το ζάρι, μετά το νόμισμα και τέλος τραβάμε από την τράπουλα
ένα χαρτί.
Να υπολογιστεί η πιθανότητα το ζάρι να είναι το 4, το νόμισμα «γράμματα»,
και το φύλλο 10.
Λύση
Ορίζουμε τα ενδεχόμενα:
Α: Το ζάρι είναι το 4
Β: Το νόμισμα είναι «γράμματα»
Γ: Το φύλλο είναι το 10
Τα ενδεχόμενα Α, Β, Γ είναι σαφές ότι είναι ανεξάρτητα ενδεχόμενα.
Προφανώς ζητείται η πιθανότητα P ( A Η B Η Γ ) για την οποία είναι:
1 1 4 1
P ( A Η B Η Γ ) = P ( A) P( B) P ( Γ ) = Χ Χ =
6 2 52 156
=================== =================== ========= ==== ==

======================= ============ ======== = == ==
ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ
Ορισμός 7. Θα λέμε δεσμευμένη πιθανότητα του Α υπό τη συνθήκη Β και
θα το συμβολίζουμε με
P( A Η B)
P( A | B) = (1)
P( B)
όπου Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου Ω.
========================== ==================== =====

ΠΟΛΛΑΠΛΑΣΙΑΣΤΙΚΟΣ ΝΟΜΟΣ ΤΩΝ ΠΙΘΑΝΟΤΗΤΩΝ
Αλλά από τη σχέση (1) μπορεί να προκύψει η σχέση
P ( A Η B ) = P( B) ΧP( A | B ) (2)
η οποία ονομάζεται και πολλαπλασιαστικός νόμος των πιθανοτήτων.
================== ================= ========= ====== === =

======================== ================== ===== = =
Άσκηση 10
Σε μια βιοτεχνία το 40% είναι άνδρες και το 60% είναι γυναίκες. Από τους άν-
δρες το 50% καπνίζει, ενώ από τις γυναίκες καπνίζει μόνον το 30%. Επιλέγου-
με στην τύχη ένα άτομο που καπνίζει, τότε ποια είναι η πιθανότητα αυτό το
άτομο να είναι άνδρας;
Λύση
Ορίζουμε τα ενδεχόμενα:
Κ: το άτομο καπνίζει
Α: το άτομο είναι άνδρας
Γ: το άτομο είναι γυναίκα
Και είναι σαφές ότι αυτά τρία ενδεχόμενα δεν είναι ανεξάρτητα μεταξύ τους.
Ωστόσο, τα δεδομένα μας είναι τα εξής:
P ( A) = 0, 4
P ( Γ ) = 0,6
P ( K | A) = 0,5
P ( K | Γ ) = 0,3
Η ζητούμενη δεσμευμένη πιθανότητα προφανώς είναι η P( A | K ) για την ο-

ποία ισχύει:
P( A Η K ) P ( A) P( K | A)
P( A | K ) = = =
P( K ) P( K )
0, 4 Χ0,5 0, 2 0, 2 20 10
= = = = =
0, 4 Χ0,5 + 0, 6 Χ0,3 0, 2 + 0,18 0,38 38 19
1
Εισήγηση 3Α: Η Κανονική Κατανομή
Η ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ (Normal Distribution)
Προ-έννοιες
 Συνεχής τυχαία μεταβλητή
 Συνάρτηση πυκνότητας πιθανότητας
 Συνάρτηση κατανομής
Ορισμός συνεχούς τυχαίας μεταβλητής

 Θα λέμε συνεχή τυχαία μεταβλητή Χ, τη μεταβλητή η οποία μπορεί να
πάρει τιμές από ένα ανοικτό διάστημα της μορφής (α,β) του συνόλου των
πραγματικών αριθμών.
Παραδείγματα
1. Η τυχαία μεταβλητή Α που συμβολίζει το χρόνο που χρειάζονται διάφοροι
τύποι αεροπλάνων για να καλύψουν την απόσταση Κρήτη- Θεσσαλονίκη, αν
λαμβάνει τιμές από το διάστημα (15, 60) λεπτών της ώρας, είναι μια συνεχής
τυχαία μεταβλητή.
2. Η τυχαία μεταβλητή V που συμβολίζει το βαθμό που λαμβάνουν οι φοιτητές
στις εξετάσεις, αν παίρνει τιμές από ένα διάστημα (0,10) μονάδων, είναι μία
συνεχής μεταβλητή.
Συναρτήσεις πυκνότητας πιθανότητας

Σε κάθε τυχαία μεταβλητή Χ μπορούμε να αντιστοιχίσουμε κατά κάποιο τρόπο, ή
να ορίσουμε μια συνάρτηση πυκνότητας πιθανότητας.
 Μια συνάρτηση f(x) θα λέμε πως είναι συνάρτηση πυκνότητας πιθανότητας
για μια τυχαία μεταβλητή Χ, αν ισχύουν υποχρεωτικά και ταυτόχρονα δύο
προϋποθέσεις:
1. Η f(x) λαμβάνει θετικές τιμές ή μηδέν, δηλ. f(x)  0 για κάθε x.
2. Το εμβαδόν που περικλείεται από την καμπύλη της f(x) και τον οριζόντιο
άξονα των τιμών της τυχαίας μεταβλητής Χ, θα πρέπει να είναι ίσο με τη
μονάδα. (βλ Σχ.1).
2
f(x)
X
Σχ. 1. Το γραμμοσκιασμένο μέρος ισούται με 1 τετραγωνική
μονάδα
Άμεση συνέπεια του παραπάνω ορισμού είναι το γεγονός ότι, αν θέλουμε να

βρούμε την πιθανότητα P(α<Χ<β) αυτή προφανώς θα είναι το εμβαδόν που
περιορίζεται από τις κατακόρυφες ευθείες x=α και x=β, τον άξονα των τιμών της
Χ , και την καμπύλη της συναρτήσεως f(x). (Βλ. Σχ. 5.2)
Y χ=α
χ=β
f(x)
X
Σχ. 2. Το γραμμοσκιασμένο μέρος ισούται με την πιθανότητα
P(α<Χ<β)
3
Έστω ότι η συνεχής τυχαία μεταβλητή Χ έχει συνάρτηση πυκνότητας
πιθανότητας την f(x) με :
2 x  0<x  1

f ( x)  
0  

i. Να εξετάσετε αν όντως μπορεί η f(x) να παίξει το ρόλο της συνάρτησης

πυκνότητας πιθανότητας για την τυχαία μεταβλητή Χ.
1 2
ii. Να βρείτε τις πιθανότητες P(  X  1) και P ( X  )
2 3
Λύση
i. Προφανώς όλες οι τιμές της f(x) είναι θετικές ή μηδέν για κάθε x. Η γραφική
f(1)=2 A
f(x)
0 1 X
Σχ.3
αναπαράσταση της f(x) φαίνεται στο Σχ.3. Αυτό είναι φανερό από τον ορισμό
της. Έχουμε δηλ. f(x)  0  x. Επίσης, από το ίδιο σχήμα, για το
γραμμοσκιασμένο εμβαδόν έχουμε:
4
1
EOAB  1 2  1
2
Επομένως, η f(x) πληροί τις προϋποθέσεις που αναφέραμε και κατά συνέπεια
είναι μια συνάρτηση πυκνότητας πιθανότητας για την τυχαία μεταβλητή Χ.
1
iii. Την πιθανότητα P(  X  1) προφανώς θα μας την δώσει το εμβαδόν
2
του γραμμοσκιασμένου χωρίου στο Σχ.4.
f(1)=2 A
f(x)
Γ B
1
0 1 X
2
Σχ. 4
Γι’αυτό το χωρίο, το οποίο είναι ένα τραπέζιο, έχουμε:

   1 2 1 3 1 3
E        
2 2 2 2 2 4
Δηλ. τελικά είναι:
1 3
P (  X  1)  E 
2 4
2
Τέλος, για τον υπολογισμό της πιθανότητας P ( X  ) έχουμε από το Σχ. 5 τα
3
εξής:
5
4
2
2    3 1 10 5
P ( X  )  E       
3 2 2 3 18 9
f(1)=2 A
Δ
4 f(x)
3
B
Γ
0 2 1 X
3
Σχ. 5
Συναρτήσεις κατανομής
Όπως αντιστοιχίσαμε σε μια τυχαία συνεχή μεταβλητή Χ μια συνάρτηση πυκνότητας
πιθανότητας f(x), με ανάλογο τρόπο θα μπορούσαμε να ορίσουμε για την ίδια τυχαία
συνεχή μεταβλητή και μια συνάρτηση κατανομής.
 Θα λέμε συνάρτηση κατανομής, ή συνάρτηση αθροιστικής κατανομής για μια
τυχαία συνεχή μεταβλητή Χ, και θα τη συμβολίζουμε με F(x), την πιθανότητα
P( X  x) ή την πιθανότητα P( X  x) . Δηλ. ισχύει:
F ( x)  P( X  x)  P( X  x)
Αλλά τότε αν ζητάμε την πιθανότητα P (  X   ) ασφαλώς αυτή η πιθανότητα

θα είναι ίση με F (  )  F ( ) .
Συμβολικά δηλ. θα έχουμε:

P[a  x   ]  P[a  x   ]  P[a  x   ]  P[a  x   ]  F ( )  F (a) (1)
Η σχέση (1) είναι δυνατόν να παρασταθεί και γραφικά (βλ. Σχ.6).

6
Ορισμός της κανονικής κατανομής

 Θα λέμε κανονική την κατανομή που έχει συνάρτηση πυκνότητας πιθανότητας
την f(x) με:
1 x 2
1  ( )
f ( x)  e 2  (2)
 2
Όπου, π=3,14159 σ>0 και

  x  
    
Η σχέση (2) είναι δυνατόν να αναπαρασταθεί και γραφικά (βλ. Σχ.7).

7
Όταν δε, θέλουμε να δηλώσουμε ότι μια τυχαία μεταβλητή Χ ακολουθεί την
κανονική κατανομή, με μέση τιμή μ και τυπική απόκλιση σ, τότε γράφουμε
συμβολικά: Χ ~ Ν(μ,σ2).
Εύκολα αντιλαμβάνεται κανείς, ότι σύμβολο Ν(μ,σ2) υπαινίσσεται μια
οικογένεια κατανομών, κάθε μέλος της οποίας ορίζεται από το ζεύγος των
παραμέτρων μ και σ. Για παράδειγμα, αν έχουμε τα ζεύγη των κανονικών
κατανομών (μ1=0 ,  12 =1) και (μ2=1 ,  22 =1), τότε η γραφική τους αναπαράσταση
μπορεί να γίνει όπως στο Σχ. 8.
Η αξία της κανονικής κατανομής

Ανακαλύφθηκε το 1720 από το Γάλλο μαθηματικό De Moivre, ο οποίος 13
χρόνια αργότερα προέβη σε σχετική δημοσίευση. Με την κανονική κατανομή
ασχολήθηκαν, εργαζόμενοι ο ένας ανεξάρτητα από τον άλλο, και δύο άλλοι
μαθηματικοί: Ο επίσης Γάλλος Laplace και ο Γερμανός Gauss. Πολλές φορές δε η
κανονική κατανομή ονομάζεται και κατανομή Gauss ή κατανομή Laplace.
Η κανονική κατανομή (normal distribution) πιθανότατα είναι η σημαντικότερη

από όλες τις συνεχείς κατανομές και εν είναι δυνατόν να γίνει λόγος για
Παραμετρική Στατιστική, χωρίς άμεση αναφορά στην κανονική κατανομή. Επίσης
δεν είναι δυνατή η θεμελίωση και η απόδειξη του κεντρικού οριακού
θεωρήματος, στο οποίο θα αναφερθούμε παρακάτω, χωρίς τη συμμετοχή της
κανονικής κατανομής. Γενικά, στο χώρο της Κοινωνικής έρευνας, υπάρχουν
αμέτρητες περιπτώσεις μεταβλητών που ακολουθούν, άλλοτε με μεγαλύτερη, και
άλλοτε με μικρότερη προσέγγιση, την κανονική κατανομή.
8
Η κανονική κατανομή είναι ένα ‘πρότυπο’ που γεννήθηκε μέσα από την
Ιστορία του 18ου αιώνα.
Οι μαθηματικοί της εποχής αυτής παρατήρησαν αργά αλλά σταθερά, τη
γέννηση αυτού του προτύπου. Παρατήρησαν δηλ. πως τα σφάλματα των
μετρήσεων είχαν μια εκπληκτική ομοιομορφία, ας την πούμε ‘κανονικότητα’. Τα
σφάλματα των μετρήσεων ακολουθούσαν, με άλλα λόγια, ένα μαθηματικό νόμο,
ο οποίος κάποια στιγμή ονομάστηκε ‘νόμος των σφαλμάτων’.
Για παράδειγμα, αν μετράμε ξανά και ξανά την ίδιο χαρακτηριστικό, ας
πούμε
 το ανθρώπινο βάρος,
 το ύψος,
 την πίεση του αίματος ή
 τις τιμές της χοληστερόλης ανά μονάδα φυσιολογικού ορού,
και απεικονίσουμε γραφικά τα αποτελέσματα, κάποια στιγμή θα

διαπιστώσουμε ότι οι μετρήσεις αυτές ακολουθούν, κατά προσέγγιση, την
κανονική κατανομή.
Στο Σχ.7, βλέπουμε την κανονική κατανομή να έχει σχήμα καμπάνας (bell-
shaped) με τα άκρα της να προσπαθούν να προσεγγίσουν το άπειρο από δεξιά και
αριστερά, πάνω στον οριζόντιο άξονα, αλλά ουδέποτε να το κατορθώνουν. Το
Σχ.7 μας δίνει την ευκαιρία, να ορίσουμε με γραφικό τρόπο το μήκος μιας
ιδιαίτερα χρήσιμης στη στατιστική μονάδας μέτρησης, την τυπική απόκλιση. Η
οριζόντια απόσταση που συνδέει το σημείο που η συνάρτηση πυκνότητας
πιθανότητας της κανονικής κατανομής αλλάζει τα κοίλα της, με την κάθετο που
διέρχεται από την κορυφή της καμπύλης, είναι ίση με μια τυπική απόκλιση σ.
Στο Σχ.7 παρατηρούμε επίσης ότι οι τιμές της κανονικής κατανομής
συσσωρεύονται, κατά κύριο λόγο, γύρω από τη μέση τιμή, ενώ όσο προχωρούμε
προς τα άκρα, οι τιμές ολοένα και αραιώνουν.
Οι ιδιότητες της κανονικής κατανομής

 Η κανονική κατανομή είναι συμμετρική, ως προς άξονα συμμετρίας την
κάθετο που διέρχεται από την κορυφή της καμπύλης της και από το
σημείο μ, το οποίο είναι η μέση τιμή της.
 Η μέση τιμή, η διάμεσος και η δεσπόζουσα τιμή στην κανονική κατανομή
συμπίπτουν. Αυτό είναι αποτέλεσμα της συμμετρίας της κανονικής
κατανομής. Ακόμη, αποτέλεσμα της συμμετρίας είναι και το γεγονός ότι
τα εμβαδά δεξιά και αριστερά του άξονα συμμετρίας είναι ίσα.
 Το εμβαδόν της περιοχής που ορίζεται από την καμπύλη της κανονικής
κατανομής και τον οριζόντιο άξονα είναι ίσο με 1 τετραγωνική μονάδα
 Η καμπύλη της κανονικής κατανομής τείνει να προσεγγίσει τον οριζόντιο
άξονα ασυμπτωτικά.
 Το πεδίο ορισμού της συνάρτησης της κανονικής κατανομής είναι
ολόκληρο το σύνολο των πραγματικών αριθμών R.
9
Η μετατροπή των τιμών της κανονικής κατανομής σε z-τιμές

Κάθε κανονική κατανομή είναι δυνατόν να μετατραπεί σε τυπική κανονική
κατανομή, με βάση τον τύπο:
X X
Zi  i (3)
S
Όπου,
Zi είναι η λεγόμενη z-τιμή,
X η μέση τιμή του δείγματος,
και S η τυπική του απόκλιση.
Ας υποθέσουμε ότι έχουμε και πάλι το δείγμα των 15 φοιτητών και φοιτητριών
του Καθηγητή Δεληβοριά:
5,6,6,7,7,8, 4,5,6,7,7,7,8,9,10
Αν θέσουμε X1=1, X2=6, …, X14=9, X15=10, τότε με βάση τον τύπο (3), και αφού
X  6,8 και S=1,568 , θα έχουμε τις αντίστοιχες z-τιμές:
X  X 5  6,8
Z1  1   1,14831
S 1,568
X 2  X 6  6,8
Z2    0,51036
S 1,568
….
X 14  X 9  6,8
Z14    1, 40348
S 1,568
X 15  X 10  6,8
Z15    2, 04143
S 1,568
10
4
Frequency
Mean = 6,8
Std. Dev. = 1,568
0
N = 15
4 5 6 7 8 9 10
v1
Σχ.11
4
Frequency
Mean = -4,4408921
E-16
Std. Dev. = 1,00000
0 N = 15
-2,00000 0,00000 2,00000
Zscore(v1)
Σχ. 12
Στο Σχ.11 παρατηρούμε ότι η γραφική αναπαράσταση της μεταβλητής V1 ακολουθεί

περίπου την κανονική κατανομή με μέσο όρο μ=6,8 και τυπική απόκλιση σ=1,568.
11
Πως γεννιέται η τυπική κανονική κατανομή από την κανονική κατανομή….

Δηλ. πώς πάμε από το Σχ. 11 στο Σχ. 12…
Απλά μετατρέπουμε τους βαθμούς σε αντίστοιχες z-τιμές με βάση τη σχέση (3)
Στο Σχ.12 επίσης παρατηρούμε ότι περίπου κανονική είναι και η κατανομή της
μεταβλητής Zv1, με μέσο όρο περίπου ίσο με μηδέν και τυπική απόκλιση ίση με ένα.
Ιδιότητες της τυπικής κανονικής κατανομής (Standardized Normal Distribution)

1. Η τυπική κανονική κατανομή είναι συμμετρική με άξονα συμμετρίας την
κατακόρυφη ευθεία που διέρχεται από την κορυφή της και τέμνει τον
οριζόντιο άξονα στο σημείο μ (μέση τιμή του πληθυσμού).
2. Το εμβαδόν που περικλείεται από την καμπύλη της κατανομής και τον
οριζόντιο άξονα έχει εμβαδόν 1 τετραγωνική μονάδα, και αντιστοιχεί σε
πιθανότητα 100%.
3. Η μέση τιμή, η διάμεσος και η δεσπόζουσα τιμή της τυπικής κατανομής
συμπίπτουν και είναι ίσες με μηδέν.
4. Η τυπική της απόκλιση είναι ίση με 1.
5. Η στρεβλότητα είναι ίση με μηδέν.
6. Η κύρτωσή της είναι ίση με μηδέν, με βάση τον τύπο του Fisher που
χρησιμοποιεί και το SPSS.
Συμβολικά η τυπική κανονική κατανομή αναπαρίσταται με Ν(0,1).

12
Η συνάρτηση αθροιστικής κατανομής της τυπικής κανονικής κατανομής

Η συνάρτηση αθροιστικής κατανομής της τυπικής κανονικής κατανομής
συμβολίζεται με F(z) και ορίζεται από την πιθανότητα P ( Z  z )  P(  Z  z ) .
Η συνάρτηση F(z) αναπαρίσταται γραφικά όπως στο Σχ. 13. Είναι δε φανερό ότι
για την F(z) ισχύει:
F(-z)=1-F(z) (4).
Ας υποθέσουμε τώρα πως αναζητάμε εμβαδά-πιθανότητες κάτω από την καμπύλη

της F(z). Κάτι τέτοιο είναι εύκολο να υπολογιστεί με τη βοήθεια του τύπου (3),
διότι μέσω αυτού του τύπου είναι δυνατός ο μετασχηματισμός των αρχικών μας
δεδομένων, τα οποία μπορεί να μετρούνται σε διάφορες μονάδες, σε z-τιμές, οι
οποίες στη συνέχεια με τη βοήθεια του Πίνακα της τυποποιημένης κανονικής
κατανομής (βλ. φυλλάδιο που σας δόθηκε), ανάγονται σε πιθανότητες. Αλλά ας
μιλήσουμε πιο συγκεκριμένα:
Ας υποθέσουμε ότι αναζητάμε την πιθανότητα, η τυχαία μας μεταβλητή Χ να
λαμβάνει τιμές ανάμεσα στο α και το β. Συμβολικά, ας πούμε ότι ζητάμε την
πιθανότητα P(α<Χ<β). Τότε αυτό που πρέπει να κάνουμε είναι να μετατρέψουμε
αυτή την πιθανότητα, σε πιθανότητα της μορφής P(zα <Ζ<zβ), ως εξής:
  X   
P(  X   )  P(   )  P( z  Z  Z )  F ( z )  F ( z ) (5)
  
Όπου,
   
z  και z  είναι οι τυποποιημένες τιμές της τυχαίας μας
 
μεταβλητής Χ η οποία υποθέσαμε ότι ακολουθεί την κανονική κατανομή.
13
Σε κάποια ευρωπαϊκή χώρα είναι γνωστό από μελέτες ότι το ύψος των παιδιών
της προσχολικής ηλικίας ακολουθεί την κανονική κατανομή με μέση τιμή 110 cm
και τυπική απόκλιση 10 cm. Συναντάμε στην τύχη ένα από τα παιδιά αυτής της
ηλικίας και αυτής της χώρας. Ποια η πιθανότητα:
Α) Να έχει ύψος μεγαλύτερο από 120 cm
Β) Να έχει ύψος κάτω από 90 cm.
Γ) Το ύψος του να κυμαίνεται μεταξύ 90 και 110 cm.
Λύση
Α) Προφανώς αναζητούμε την πιθανότητα P(X>120). Αλλά γι’ αυτήν την
πιθανότητα έχουμε:
X  110 120  110
P ( X  120)  P (  )  P( Z  1)  1  P( Z  1)  1  F (1)
10 10
 1  0,8413  0,1587
Με άλλα λόγια η ζητούμενη πιθανότητα είναι 15,87 %.
Β) Εδώ η ζητούμενη πιθανότητα είναι P(X<90), για την οποία έχουμε:

X  110 90  110
P ( X  90)  P(  )  P ( Z  2)
10 10
 F (2)  1  F (2)  1  0,9772  0, 0228
Δηλ. η ζητούμενη πιθανότητα είναι 2,28 %.
Γ) Εδώ η ζητούμενη πιθανότητα είναι P(90<X<110), για την οποία έχουμε:

14
90  110 X  110 110  110

P (90  X  110)  P(   )
10 10 10
 P(2  Z  0)  F (0)  F (2)  F (0)  (1  F (2))
 F (0)  1  F (2)  F (2)  F (0)  1  0,9772  0,5000  1
 0, 4772
Προφανώς, η ζητούμενη πιθανότητα είναι 47,72%.

15
Παράδειγμα Σύγκρισης τιμών που ανήκουν σε διαφορετικές

κανονικές κατανομές
Η βαθμολογία των φοιτητών του πρώτου έτους σε κάποιο μάθημα Α ήταν
κανονική,
 με μέση τιμή μΑ=70 μονάδες,
 και τυπική απόκλιση σΑ=10 μονάδες,
ενώ σε κάποιο άλλο μάθημα Β η βαθμολογία ήταν πάλι κανονική, αλλά

 με μέση τιμή μΒ=60 μονάδες
 και τυπική απόκλιση σΒ=4.
===== ================== =========== === ===== === ==
Εάν ένας φοιτητής πήρε
βαθμό ΧΑ=80 στο μάθημα Α και
βαθμό ΧΒ=65 στο μάθημα Β,
 πού είναι καλύτερος, στο μάθημα Α ή στο μάθημα Β;
=============== ==================== == === ========
Λύση
Αρχικά να επισημάνουμε ότι είναι ανάγκη να μετατραπούν οι δύο βαθμολογίες σε
z-τιμές, ώστε στη συνέχεια να βρεθεί ένα κοινό μέτρο σύγκρισης. Ακόμη να
επισημάνουμε ότι εάν η μία από τις δύο ή και οι δύο κατανομές, δεν ήταν
κανονικές, δεν θα ήταν δυνατή η μετατροπή των τιμών τους σε τιμές τυπικής
κανονικής κατανομής.
80  70
Έτσι, για το μάθημα Α έχουμε: Z A  1
10
65  60 5
Αντίστοιχα, για το μάθημα Β έχουμε: Z B    1, 25
4 4
Συμπέρασμα
Αφού Z B  Z B  ο φοιτητής ήταν καλύτερος στο μάθημα Β.
16
30
25
20
Frequency
15
10
Mean = 264,84
Std. Dev. = 50,157
N = 186
0
100 150 200 250 300 350 400
epipeda xolisterolis ana monada fisiologikou orou
Σχ.14
17
==================== =========================== ===== ====

ΓΕΝΙΚΕΣ ΑΣΚΗΣΕΙΣ
Άσκηση 1
Ο χρόνος που χρειάζεται ένας φοιτητής για να προετοιμαστεί στο μάθημα της
Μεθοδολογίας των Κοινωνικών Επιστημών, στις εξετάσεις του Ιουνίου, βρέθηκε
ότι προσεγγιστικά ακολουθεί την κανονική κατανομή με μέση τιμή μ=25 ώρες
και τυπική απόκλιση σ=5 ώρες.
Α) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη περισσότερες από 30 ώρες.
Β) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη λιγότερο από 15 ώρες.
Γ) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη από 15 μέχρι 25 ώρες.
=============== =================== ======== ======= =====
Λύση
Α) Αν συμβολίσουμε με την τυχαία μεταβλητή Χ, το χρόνο που δαπανούν οι
φοιτητές για την επανάληψη του μαθήματος, προφανώς αναζητούμε την
πιθανότητα P( X  30) . Επίσης από τα δεδομένα του προβλήματος έχουμε ότι
μ=25 και σ=5. Έτσι, για τη ζητούμενη πιθανότητα έχουμε:
X  25 30  25
P ( X  30)  P(  ) [μετασχηματισμός σύμφωνα με τη σχέση 5]
5 5
 P( Z  1)  1  P( Z  1)  1  F (1) [βλ. Σχ. 15]
 1  0,8413  0,1587
Επομένως, η απάντηση είναι ότι περίπου το 15,87 % των φοιτητών δαπανά

περισσότερες από 30 ώρες στην επανάληψη του μαθήματος της Μεθοδολογίας
των Κοινωνικών Επιστημών.
++++++++++++++++++++++++++++ ++++++++++++++++ ++++++ +++++

18
++++++++++++++++++++ ++++++++++++++++++ +++++++++++++ ++++

Β) Εδώ, προφανώς αναζητούμε την πιθανότητα P ( X  15) για την οποία έχουμε:
X  25 15  25
P ( X  15)  P(  )
5 5
10
 P( Z   2)  P( Z  2)
5
 F (2)  1  F (2)  1  0,9772  0, 0228
Δηλ. περίπου το 2,28 % των φοιτητών δαπανά στην επανάληψη του μαθήματος
αυτού, χρόνο μικρότερο, των 15 ωρών.
Σημείωση
Από τον Πίνακα της τυπικής κανονικής κατανομής που σας δόθηκε βρίσκουμε ότι F(2)=0,9772.
+++++++++++++++++++++++++ +++++++++++ ++++++++++++ +++++++

Γ) Εδώ, προφανώς αναζητούμε την πιθανότητα P (15  X  25) για την οποία
έχουμε:
P (15  X  25)
15  25 X  25 25  25
 P(   )
5 5 5
 P(2  Z  0)
 F (0)  F (2)  F (0)  [1  ( F (2)]
 F (0)  1  F (2)  F (2)  F (0)  1
 0,9772  0,5000  1  0, 4772
Περίπου το 47,72% των φοιτητών, δαπανά για την επανάληψη, χρόνο που
κυμαίνεται από 15 μέχρι 25 ώρες.
19
========================= ================== ========== ==

Άσκηση 2
Από προηγούμενη έρευνα, για τις συνθήκες διαβίωσης των φοιτητών στο
Ρέθυμνο Κρήτης, βρέθηκε ότι τα μηνιαία έξοδα των φοιτητών του εκεί
Πανεπιστημίου, ακολουθούν προσεγγιστικά την κανονική κατανομή με μέση τιμή
μ=800 ευρώ και τυπική απόκλιση σ=80 ευρώ.
Παίρνουμε στην τύχη ένα φοιτητή.
Ποια είναι η πιθανότητα ο φοιτητής:
Α) να ξοδεύει το μήνα περισσότερο από 1000 ευρώ;
Β) να ξοδεύει λιγότερο από 600 ευρώ;
Γ) να κυμαίνονται τα έξοδά του από 400 μέχρι 600 ευρώ;
Λύση
Α) Αν συμβολίσουμε με την τυχαία μεταβλητή Χ, τα μηνιαία έξοδα των
φοιτητών, προφανώς
 αναζητούμε την πιθανότητα P ( X  1000) .
 έχουμε ότι μ=800 και σ=80.
 Έτσι, έχουμε:
X  800 1000  800
P ( X  1000)  P(  )
80 80
200
 P( Z  )  P( Z  2,5)
80
 1  P( Z  2,5)
 1  F (2,5)
 1  0,9798  0, 0202
Επομένως, η πιθανότητα να ξοδεύει ο φοιτητής αυτός, κατά μήνα, περισσότερο

από 1000 ευρώ είναι 2,02 %.
Β) Εδώ, προφανώς αναζητούμε την πιθανότητα P( X  600) για την οποία

έχουμε:
X  800 600  800

P ( X  600)  P(  )
80 80
 P( Z  2,5)  F (2,5)  1  F (2,5)
 1  0,9938  0, 0062
Επομένως, η πιθανότητα να ξοδεύει ο φοιτητής αυτός, κατά μήνα, λιγότερο από

600 ευρώ είναι 0,62%.
Γ) Εδώ, προφανώς αναζητούμε την πιθανότητα P(400  X  600) για την οποία
έχουμε:
20
P (400  X  600)
400  800 X  800 600  800
 P(   )
80 80 80
 P(5  Z  2,5)
 F (2,5)  F (5)  1  F (2,5)  [1  F (5)]
 1  F (2,5)  1  F (5)  F (5)  F (2,5)
 0,9999997  0,9938  0, 0061997
Επομένως, η πιθανότητα να ξοδεύει ο φοιτητής αυτός, κατά μήνα, περισσότερα

από 400 ευρώ, αλλά όχι περισσότερο από 600 ευρώ, είναι 0,61997 %.
=============== ================= =================== ===

Τέλος Α΄ εισήγησης ….
Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης

Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης

Τι είναι η Μηδενική και τι η Εναλλακτική υπόθεση

Οι στατιστικές υποθέσεις οι οποίες εμπλέκονται σε ένα οποιοδήποτε στατιστικό
έλεγχο είναι πάντα δύο:
•Η πρώτη από αυτές ονομάζεται Μηδενική Υπόθεση και τη συμβολίζουμε με Ho ,

ενώ η δεύτερη ονομάζεται
•Εναλλακτική υπόθεση και τη συμβολίζουμε με Η1.
•Δεν υπάρχει γενικός ορισμός ούτε για τη μηδενική, ούτε για την εναλλακτική υπόθεση.
Πως ακριβώς διατυπώνεται τόσο η μία, όσο και η άλλη, εξαρτάται από το στατιστικό
έλεγχο ή αλλιώς από το στατιστικό κριτήριο που θα χρησιμοποιήσουμε.
•Και βέβαια είναι ορθό να πούμε ότι η μηδενική υπόθεση τίθεται πάντα για ένα
σκοπό και μόνον: Να ελεγχθεί, να αμφισβητηθεί ή για να το πούμε αλλιώς, να κριθεί.
•Ποιος όμως θα την κρίνει;
•Με άλλα λόγια σε τίνος την κρίση θα τεθεί;

Η απάντηση είναι ότι θα τεθεί στην κρίση ενός συγκεκριμένου
(κάθε φορά) στατιστικού κριτηρίου.

μ2.
Η μηδενική υπόθεση, είναι μια υπόθεση μηδενικής διαφοράς, όπως λέει και το
όνομά της. Και προφανώς, ή θα γίνει δεκτή ή θα απορριφθεί.
•Αν γίνει δεκτή, αυτό θα σημαίνει όχι κατ’ ανάγκη ότι είναι αληθινή, αλλά ότι δεν
υπάρχουν αρκετά στοιχεία ή πληροφορίες για να την απορρίψουμε.
•Αν απορριφτεί, αυτό θα σημαίνει ότι οι πληροφορίες, η μαρτυρία που διαθέτουμε
είναι ικανή να κλονίσει την ισχύ της.
Παραδείγματα μηδενικών και εναλλακτικών υποθέσεων

Παράδειγμα1.
Ας υποθέσουμε ότι έχουμε να συγκρίνουμε δύο μέσους όρους μ1 και μ2 δύο ανεξάρτητων
πληθυσμών. Τότε είναι γνωστό ότι ένα κατάλληλο στατιστικό κριτήριο, αρμόδιο για να
ελέγχει την ύπαρξη πιθανής διαφοράς μ2-μ1 είναι το λεγόμενο t-test για δύο ανεξάρτητα
δείγματα (two samples independent t-test). Στην περίπτωση αυτού του στατιστικού
ελέγχου, η μηδενική και η εναλλακτική υπόθεση διατυπώνονται ως εξής:
Ηο: ΔΕΝ υπάρχει διαφορά ανάμεσα στους πληθυσμιακούς μέσους όρους μ1 και μ2,
δηλ. μ1=μ2.
Η1: Υπάρχει διαφορά ανάμεσα στους πληθυσμιακούς μέσους όρους μ1 και μ2, δηλ. μ1
Παραδείγματα μηδενικών και εναλλακτικών υποθέσεων

Ας υποθέσουμε τώρα ότι έχουμε να συγκρίνουμε αντί για δύο, τρεις πληθυσμιακούς
μέσους όρους μ1 και μ2 και μ3 με τη βοήθεια της μονοπαραγοντικής Ανάλυσης Διασποράς
(One Way ANOVA). Τότε η μηδενική και εναλλακτική υπόθεση διατυπώνονται ως εξής:
Ηο: μ1= μ2 = μ3
Η1: Υπάρχει τουλάχιστον μία διαφορά ανάμεσα στους τρεις πληθυσμιακούς
μέσους όρους μ1 και μ2 και μ3

Ας υποθέσουμε ότι θέλουμε να ελέγξουμε την κανονικότητα ενός δείγματος,
να ελέγξουμε δηλ. αν αυτό προέρχεται από ένα κανονικό πληθυσμό.
Τότε η μηδενική και εναλλακτική υπόθεση διατυπώνονται ως εξής:
Ηο: Η κατανομή του δείγματός μας ΔΕΝ απέχει και πολύ από την κανονική.
Η1: Η κατανομή του δείγματός μας απέχει πολύ από την κανονική.

Για όλα, και πάντοτε, υπάρχει, τίθεται ένα όριο…
Για παράδειγμα, να δούμε μέχρι πού μ’ αγαπάς….

Σ’ όλα τα παραπάνω παραδείγματα, η υπόθεση που κρίνεται, είναι η μηδενική
υπόθεση.
■ Αλλά για να κριθεί αυτή η υπόθεση χρειάζεται να λάβουμε και ένα
πιθανοθεωρητικό όριο, να καθορίσουμε δηλ. ένα επίπεδο στατιστικής
σημαντικότητας, πάνω από το οποίο θα δεχθούμε ως αληθινή τη μηδενική μας
υπόθεση, ενώ κάτω από αυτό το όριο θα την απορρίψουμε ως ψευδή.

Ορισμός. Θα λέμε επίπεδο στατιστικής σημαντικότητας (significance level), και
θα το συμβολίζουμε με a , την πιθανότητα, την τιμή της οποίας εμείς, ως
ερευνητές ορίζουμε, και η οποία αντιστοιχεί στο ενδεχόμενο απόρριψης της
μηδενικής μας υπόθεσης, ενώ αυτή (η μηδενική μας υπόθεση), είναι στην
πραγματικότητα αληθής.

► Στο χώρο της Κοινωνικής Έρευνας, ως τιμές του επιπέδου στατιστικής
σημαντικότητας επιλέγονται οι τιμές 5%, 3 %, 1% ή τέλος 1%ο. Η πιο
συνηθισμένη τιμή επιπέδου σ.σ. είναι 5 %. Αυτή την τιμή θα λαμβάνουμε κι εμείς
στις έρευνές μας, ως πιθανοθεωρητικό όριο, αν βέβαια δεν μας πουν κάτι
διαφορετικό.

► Η ελάχιστη τιμή του επιπέδου στατιστικής σημαντικότητας, που αντιστοιχεί
στην απόρριψη της μηδενικής υπόθεσης, είναι γνωστή στην αγγλική
βιβλιογραφία, με τον όρο p‐value.

Τι κάνουμε στην πράξη;

► Στην πράξη, δηλ. στο πλαίσιο του SPSS, και του STATA, με τα οποία εμείς
συνεχώς εργαζόμαστε, θα κάνουμε λόγο για δύο επίπεδα στατιστικής
σημαντικότητας:
Το πρώτο αφορά το παρατηρούμενο επίπεδο σ.σ., το οποίο πάντα θα μας το
προσφέρει το SPSS (observed significance level), όταν εφαρμόζουμε ένα
οποιοδήποτε στατιστικό κριτήριο.
Το δεύτερο αφορά το θεωρητικό επίπεδο σ.σ., αυτό δηλ. που εμείς σαν
ερευνητές καθορίζουμε και με βάση το οποίο θα κριθεί η μηδενική μας υπόθεση.

Οι συλλογισμοί‐πρακτικοί Κανόνες για να καταλήξουμε σε συμπέρασμα

■ Αν το παρατηρούμενο επίπεδο σ.σ. είναι μεγαλύτερο του θεωρητικού
Ηο ισχύει.

Αντίθετα…
======================= ================ == ===
■ Αν το παρατηρούμενο επίπεδο σ.σ. είναι μικτότερο του θεωρητικού
Ηο απορρίπτεται.

Τελικά αυτό που πάντα μας ενδιαφέρει είναι η τύχη της Μηδενικής Υπόθεσης…

Μονόπλευρος και αμφίπλευρος έλεγχος υποθέσεων
Παράδειγμα 4.
Ας υποθέσουμε ότι μας έχει δοθεί δείγμα φοιτητών, οι οποίοι έχουν υποβληθεί
σε κάποιο τεστ γνώσεων και μας τίθεται το ερώτημα: Ο μέσος όρος μ του
πληθυσμού από τον οποίο προέρχεται το δείγμα αυτών των φοιτητών διαφέρει
από την τιμή 80;

Η μηδενική και η εναλλακτική μας υπόθεση είναι τότε αντίστοιχα:
Ηο: Ο μέσος όρος μ του πληθυσμού από το οποίο προέρχεται το δείγμα των
φοιτητών, δεν διαφέρει από την τιμή 80. Συμβολικά: μ=80.
Η1: Ο μέσος όρος του πληθυσμού από το οποίο προέρχεται το δείγμα των
φοιτητών, διαφέρει από την τιμή 80. Συμβολικά: μ 80.

Το παραπάνω παράδειγμα 4, είναι ένα παράδειγμα ελέγχου υποθέσεων διπλής
κατεύθυνσης. Διότι, όταν λέμε ότι μ 80, ίσως αυτό το μ να είναι μικρότερο του 80,
οπότε έχουμε έλεγχο προς τα αριστερά (μ<80), ή αυτό το μ να είναι μεγαλύτερο
του 80, οπότε έχουμε έλεγχο προς τα δεξιά (μ>80). Με άλλα λόγια, η λέξη
‘διαφέρει’, επειδή μας παραπέμπει σε έλεγχο και προς τα αριστερά (αρνητική
κατεύθυνση) και προς τα δεξιά (θετική κατεύθυνση), αντανακλά αμφίπλευρο
έλεγχο, δηλ. έλεγχο σε διπλή κατεύθυνση (two way testing hypothesis).

Τι κάνουμε στην πράξη όταν βρεθούμε μπροστά σε ένα ερευνητικό πρόβλημα;

► Με βάση όλα τα παραπάνω, και πάντα στο πλαίσιο του SPSS, όταν βρεθούμε
μπροστά σε κάποιο στατιστικό πρόβλημα τα βήματα είναι τα εξής:
→ Αποφασίζουμε ποιο είναι το κατάλληλο στατιστικό κριτήριο που θα πρέπει να
επιστρατεύσουμε για να λύσουμε το πρόβλημα.
→ Διατυπώνουμε με σαφήνεια τόσο τη μηδενική, όσο και την εναλλακτική μας
υπόθεση.
→ Καθορίζουμε, μελετώντας τη βιβλιογραφία, την ιστορία του πράγματος, τις
προηγούμενες σχετικές έρευνες, το θεωρητικό επίπεδο στατιστικής
σημαντικότητας, με βάση το οποίο θα κρίνουμε τη μηδενική μας υπόθεση.
→ Τότε, αν το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, εκείνο δηλ.
που μας δίνει το SPSS, είναι μικρότερο από το θεωρητικό τότε απορρίπτουμε τη
μηδενική μας υπόθεση ως μη αληθή, θεωρούμε ότι αυτή δεν ισχύει και
δεχόμαστε ως αληθή και επομένως ως αληθή την εναλλακτική μας υπόθεση.
Αντίθετα, αν το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, εκείνο δηλ.
που μας δίνει το SPSS, είναι μεγαλύτερο από το θεωρητικό, τότε δεχόμαστε τη
μηδενική μας υπόθεση ως αληθή, δηλ. λέμε ότι αυτή ισχύει.

Σφάλματα στους ελέγχους υποθέσεων

♦ Σφάλμα τύπου Ι. Σε ένα έλεγχο υποθέσεων, αν απορρίψουμε ως εσφαλμένη τη
μηδενική μας υπόθεση, ενώ αυτή είναι στην πραγματικότητα αληθής, τότε
διαπράττουμε σφάλμα τύπου Ι. Η πιθανότητα να διαπράξουμε σφάλμα τύπου Ι,
ονομάζεται συντελεστής α.
Συμβολικά: P(I)=α.

♦ Σφάλμα τύπου ΙΙ. Σε ένα έλεγχο υποθέσεων, αν δεχθούμε ως αληθή τη
μηδενική μας υπόθεση, ενώ αυτή στην πραγματικότητα είναι εσφαλμένη, τότε
διαπράττουμε σφάλμα τύπου ΙΙ. Η πιθανότητα να διαπράξουμε σφάλμα τύπου ΙI,
ονομάζεται συντελεστής β.
Συμβολικά: P(ΙI)=β.

Οι μεταβολές ή αλλιώς τα παιχνίδια του συντελεστή β

Οπωσδήποτε συντελεστής β γίνεται μεγαλύτερος:

1. Όσο κινούμαστε από την ποσοτική προς την ποιοτική ανάλυση, όσο δηλ. στις
στατιστικές μας αναλύσεις κυριαρχούν τα ποιοτικά δεδομένα, σε βάρος των
ποσοτικών.
2. Όσο ο συντελεστής α γίνεται μικρότερος.
3. Όσο το μέγεθος του δείγματος είναι μικρότερο.
4. Όσο μεγαλύτερη είναι η διασπορά του πληθυσμού.
5. Όσο πιο αναξιόπιστες είναι οι μετρήσεις.

Ας συζητήσουμε…

► Τα σφάλματα τύπου α και β, δεν είναι σφάλματα σταθερού αθροίσματος,
παρά το γεγονός ότι αυξανομένου του ενός μειώνεται το άλλο.

Με άλλα λόγια, δεν ισχύει α+β=σταθ.

Για παράδειγμα στα μαθηματικά μπορεί να έχουμε τη σχέση α+β=σταθ=10
Και όσο μειώνουμε το α τόσο θα πρέπει να αυξάνουμε το β για να είναι σταθερό
το άθροισμά τους στο 10.

Κάτι τέτοιο όμως δεν ισχύει στη Στατιστική, αν τα α και β είναι σφάλματα.

Ωστόσο εμείς στις Έρευνές μας πάντα θέλουμε :
μικρό σφάλμα τύπου Ι
και μικρό σφάλμα τύπου ΙΙ
► Είναι σαφές ότι, αν θέλουμε να περιορίσουμε την πιθανότητα σφάλματος
τύπου Ι, θα πρέπει να πάρουμε, όσο το δυνατόν μικρότερο επίπεδο στατιστικής
σημαντικότητας α.
► Αλλά, όσο μικρότερο είναι το επίπεδο στατιστικής σημαντικότητας α, τόσο
μεγαλύτερη είναι η πιθανότητα να διαπράξουμε σφάλμα τύπου ΙΙ: Να δεχθούμε,
εσφαλμένα, τη μηδενική μας υπόθεση, ως αληθή.

Τελικά, τι πρέπει να κάνει ο Κοινωνικός Ερευνητής αφού αυξανομένου του ενός
μειώνεται το άλλο και αντίστροφα;

► Να πούμε δηλ. εδώ στη στατιστική ανάλυση ότι ισχύει το γνωστό ‘εμπρός
γκρεμός και πίσω ρέμα’; Η απάντηση είναι πως ο Κοινωνικός ερευνητής θα πρέπει
να καταφέρει το φαινομενικά ακατόρθωτο: την ταυτόχρονη μείωση και των δύο
σφαλμάτων. Και κάτι τέτοιο είναι απολύτως εφικτό με την αύξηση του μεγέθους
του δείγματος, στο μέτρο βέβαια του δυνατού.

Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου (Power)

Ορισμός. Θα λέμε διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου,
και θα τη συμβολίζουμε με P,
την πιθανότητα να μην διαπράξουμε σφάλμα τύπου ΙΙ.
Συμβολικά ισχύει:
Ρ=1‐β

Με άλλα λόγια, θα λέμε διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου,
την πιθανότητα να κηρύξουμε αληθινή την εναλλακτική μας υπόθεση Η1, όταν
αυτή είναι πράγματι αληθινή.

Αυτό το τελευταίο πώς το λέμε με πολιτικούς όρους;

Αν θέλαμε να το πούμε αυτό με πολιτικούς όρους, θα λέγαμε πως είναι η
πιθανότητα να κηρύξουμε ένοχο τον κατηγορούμενο, όταν πράγματι αυτός είναι
ένοχος.

Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου μας δείχνει πόσο βέβαιοι
είμαστε ότι δεν διαπράξαμε σφάλμα τύπου ΙΙ και επομένως είναι λογικό να είναι
ίση με το αποτέλεσμα της διαφοράς 1‐β.
Γι αυτό ακριβώς ισχύει η σχέση που γράψαμε παραπάνω για την Power:

Ρ=1‐β

Από τη σχέση αυτή είναι προφανές ότι
όσο μικρότερος είναι ο συντελεστής β,
τόσο μεγαλύτερη είναι η Ρ.

Έτσι,
Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου, αφού είναι συνάρτηση
του συντελεστή β, είναι λογικό να εξαρτάται όπως και εκείνος, από μια σειρά
παραγόντων της ερευνητικής διαδικασίας.

Το περιεχόμενο των όρων
‘στατιστικώς σημαντική διαφορά’,
Και στατιστικώς ‘ασήμαντη διαφορά’
Ας υποθέσουμε και πάλι ότι έχουμε ένα τυχαίο δείγμα, μεγέθους n και μέσης
τιμής , το οποίο θέλουμε να ξέρουμε αν προέρχεται από ένα πληθυσμό με μέση
τιμή μ. Εάν σχηματίσουμε τη διαφορά , τότε αυτή η διαφορά μπορεί να είναι μια
μικρή, συνήθης διαφορά ή να είναι μια μεγάλη, ασυνήθης διαφορά.

Γενικά, αν μια διαφορά μεταξύ ενός στατιστικού δείκτη ενός δείγματος και της
αντίστοιχης παραμέτρου του πληθυσμού είναι τόσο μεγάλη, ώστε να μην είναι
δυνατόν να αποδοθεί στη φυσική διακύμανση των τυχαίων δειγμάτων που
λαμβάνουμε από αυτόν τον πληθυσμό, τότε λέμε ότι μπορεί να γίνεται λόγος για
στατιστικώς σημαντική διαφορά. Η εμφάνιση στατιστικώς σημαντικής διαφοράς,
οφείλεται στη δράση ενός συστηματικού εξωτερικού παράγοντα και όχι στην
τυχαία δειγματοληψία.
Αν όμως η διαφορά ανάμεσα σε ένα στατιστικό δείκτη ενός δείγματος και στην
αντίστοιχη παράμετρο του πληθυσμού είναι τόσο μικρή ώστε να τη θεωρούμε
συνήθη διαφορά, τότε είναι δυνατόν να γίνει λόγος για στατιστικώς ασήμαντη
διαφορά.
Τέλος Β’ Εισήγησης
Εισήγηση 4Β: Έλεγχοι Κανονικότητας

Προλεγόμενα και διαπιστώσεις για να εισαχθούμε στους
ελέγχους κανονικότητας.

•ένα τυχαίο δείγμα, ποτέ δεν είναι μια τέλεια
εικόνα του πληθυσμού.
•έτσι, τα δείγματα που μπορούμε να πάρουμε από ένα
κανονικό πληθυσμό, μάλλον περιμένουμε να είναι
κατά προσέγγιση κανονικώς κατανεμημένα.
•κάθε δείγμα που λαμβάνεται από ένα κανονικό πληθυσμό,
δεν ακολουθεί οπωσδήποτε την κανονική κατανομή.
•μια κανονική κατανομή μπορεί να έχει οποιαδήποτε
μέση τιμή και οποιαδήποτε τυπική απόκλιση.
•Η κανονικότητα είναι μια βασική παραδοχή για την
ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. Αυτό σημαίνει ότι τα κλασικά
στατιστικά κριτήρια όπως το t‐test, η ανάλυση διασποράς,
η παλίνδρομη ανάλυση κτλ. για να εφαρμοστούν,
θα πρέπει να ικανοποιείται η παραδοχή της κανονικότητας.

•Όταν δεν ικανοποιείται η παραδοχή της κανονικότητας,
τότε αναγκαστικά θα περάσουμε στην ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ
ΣΤΑΤΙΣΤΙΚΗ, δηλ. σε μια στατιστική που δεν προϋποθέτει
την κανονικότητα. Δεν την έχει ανάγκη. Ουσιαστικά στην
τελευταία, στην ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ δεν υπάρχει
πρότυπο, σε αντίθεση με την ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
στην οποία πάντα υπάρχει πρότυπο. Τα δεδομένα στην
τελευταία ακολουθούν ένα συγκεκριμένο πρότυπο,
ένα συγκεκριμένο δρόμο, μια συγκεκριμένη κατανομή.
•Το πέρασμα όμως από την ΠΑΡΑΜΕΤΡΙΚΗ στην ΜΗ
ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ δεν είναι χωρίς συνέπειες.
Οπωσδήποτε στη δεύτερη αυτή Στατιστική, στην
ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ, έχουμε λιγότερη ακρίβεια
στο επίπεδο των αποτελεσμάτων.

•Και πως αντιμετωπίζουμε αυτό το ζήτημα; Πως μειώνουμε
το σφάλμα στις περιπτώσεις που εργαζόμαστε με μη
παραμετρικές διαδικασίες;

•Ένας τρόπος είναι οι προσομοιωτικές μέθοδοι ( Monte
Carlo, Exact, Bootstrapping κτλ. στις οποίες θα
αναφερθούμε παρακάτω, αναλυτικά…

Υπάρχουν τουλάχιστον 3 γενικοί
τρόποι ελέγχου της κανονικότητας:

• Με τη βοήθεια στατιστικών κριτηρίων. Για
παράδειγμα, τα κριτήρια των Kolmogorov‐Smirnov,
Lillefors, και Shariro‐Wilk.
• Με τη βοήθεια γραφικών αναπαραστάσεων. Για
παράδειγμα, τα ονομαζόμενα από το SPSS, Normal
Q‐Q Plot, Detrended Q‐Q Plot, και Βox Plot.

Και τέλος,
• Με τη βοήθεια του λόγου t, όπου,
statistic
t=
standard error of statistic
Ας πάρουμε και πάλι το παράδειγμα των 15 φοιτητών του Δεληβοριά και ας
κάνουμε έλεγχο κανονικότητας με ένα‐ έναν από τους παραπάνω τρόπους
ξεχωριστά.
Πρώτος τρόπος ελέγχου Κανονικότητας
Με τη βοήθεια των στατιστικών κριτηρίων Kolmogorov‐Smirnov,
Lillefors, και Shariro‐Wilk.
Πίνακας 1. Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
,183 15 ,191 ,964 15 ,768
v1
a. Lilliefors Significance Correction
Στη θέα του Πίνακα1 διατυπώνουμε τη μηδενική και την εναλλακτική μας
υπόθεση…
Ho: Η κατανομή του δείγματός μας ΔΕΝ απέχει και πολύ από την κανονική.
H1: Η κατανομή του δείγματός μας, απέχει πολύ από την κανονική.
ή ισοδύναμα:
Ho: Το δείγμα μας προέρχεται από κανονικά κατανεμημένο πληθυσμό.
H1: Το δείγμα μας ΔΕΝ προέρχεται από κανονικά κατανεμημένο πληθυσμό.
•Ο Πίνακας 1., ουσιαστικά είναι ένας διπλός πίνακας. Το δεξί του μέρος αφορά
το στατιστικό κριτήριο των Shapiro‐Wilk, ενώ το αριστερό του μέρος αφορά το
στατιστικό κριτήριο των Kolmogorov‐ Smirnov. Εμείς ωστόσο, ποιο από τα δύο
θα χρησιμοποιήσουμε;
•Η απάντηση είναι ότι αυτό θα εξαρτηθεί από τη φύση των δεδομένων μας και
από το μέγεθος του δείγματος.
•να προτείνουμε μια πολιτική για να αποφανθούμε για την ύπαρξη ή μη
κανονικότητας, χωρίς να απομακρυνθούμε από την επιστημονική αλήθεια :
•Αν το δείγμα μας έχει μέγεθος μικρότερο ή ίσο του 50 (n 50), τότε το
στατιστικό κριτήριο που είναι κατάλληλο να ελέγξει την ύπαρξη ή μη
κανονικότητας είναι εκείνο των Shapiro‐Wilk. (Carver & Nash, 2000, p.138,
SPSS 6.1, Guide to Data Analysis, 1993, p. 283, Coakes, Steed, 1999, p. 30).
•Αν το δείγμα μας έχει μέγεθος μικρότερο ή ίσο του 50 (n 50), τότε το
στατιστικό κριτήριο που είναι κατάλληλο να ελέγξει την ύπαρξη ή μη
κανονικότητας είναι εκείνο των Shapiro‐Wilk. (Carver & Nash, 2000, p.138,
SPSS 6.1, Guide to Data Analysis, 1993, p. 283, Coakes, Steed, 1999, p. 30).
•Επειδή το δείγμα μας έχει μέγεθος n=15< 50, είναι σαφές ότι το κατάλληλο
στατιστικό κριτήριο για τον έλεγχο κανονικότητας, είναι το κριτήριο των
Shapiro‐Wilk. Επομένως, το δεξί και μόνο μέρος του Πίνακα 1, μας
ενδιαφέρει να σχολιάσουμε.
Εκτελούμε έλεγχο κανονικότητας σε επίπεδο στατιστικής σημαντικότητας 5%.

Καταγράφουμε και τα στοιχεία για το στατιστικό κριτήριο των Shapiro –Wilk:

S‐W=0,964
Df=15
Sign.=0,768=76,8 % > 5 %

Συλλογισμός‐Συμπέρασμα:
Επειδή το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, αυτό δηλ. που
μας προσφέρει στο πιάτο το SPSS, είναι sign.= 76,8 % > 5 % (=πιθανοθεωρητικό
όριο που εμείς θέτουμε για να κρίνουμε τη μηδενική μας υπόθεση),
οδηγούμαστε στο συμπέρασμα, ότι δεν διαθέτουμε αρκετές πληροφορίες, ώστε
να απορρίψουμε τη μηδενική μας υπόθεση. Επομένως αυτή ισχύει. Με άλλα
λόγια, η κατανομή του πληθυσμού από τον οποίο προέρχεται το δείγμα μας
είναι, προσεγγιστικά, κανονική.
Δεύτερος τρόπος ελέγχου Κανονικότητας: με τη βοήθεια γραφικών
αναπαραστάσεων
v1 Stem‐and‐Leaf Plot

Frequency Stem & Leaf

1,00 4 . 0
2,00 5 . 00
3,00 6 . 000
5,00 7 . 00000
2,00 8 . 00
1,00 9 . 0
1,00 Extremes (>=10,0)

Stem width: 1
Each leaf: 1 case(s)
Extreme Values
Case Number Value
1 15 10
2 14 9
Highest 3 6 8
4 13 8
5 4 7a
v1
1 7 4
2 8 5
Lowest 3 1 5
4 9 6
5 3 6b
a. Only a partial list of cases with the value 7 are shown in the table of
upper extremes.
b. Only a partial list of cases with the value 6 are shown in the table of
lower extremes.
Τρίτος τρόπος ελέγχου κανονικότητας: Με τη βοήθεια του λόγου t, όπου,
statistic
t=
standard error of statistic
Statistics
v1
Πρακτικός κανόνας από τη Θεωρία:
Valid 15
N
Missing 0 Εάν ισχύει ‐2 ≤ t ≤ +2 => Υπάρχει
6,80 Κανονικότητα
Mean
,252

Skewness
,580
Αντίθετα αν
Std. Error of Skewness

,165
Kurtosis t< ‐2 ή αν t>‐2
1,121
Std. Error of Kurtosis τότε => ΔΕΝ υπάρχει Κανονικότητα.
Εδώ έχουμε για τη στατιστική που ονομάζεται στρεβλότητα:
skewness 0.252
t   0.435
st.error _ of _ skewness 0.580
Αυτό το νούμερο 0.435 είναι προφανώς πιο μεγάλο από το ‐2 και
Ταυτόχρονα πιο μικρό από το +2.
Δηλ. παίζει μπάλα ανάμεσα σε αυτά τα όρια που προσδιορίσαμε για να έχουμε
κανονικότητα.

Η αγωνία του τερματοφύλακα πριν από το πέναλτι….

Προφανώς έχουμε κανονικότητα…

Τέλος εισήγησης…

Εισήγηση 5Α: ΠΑΡΑΜΕΤΡΙΚΟ Χ2

ΠΑΡΑΜΕΤΡΙΚΟ Χ2

•Πότε εκτελούμε παραμετρικό Χ2
•Παραδοχές
•Το πρόβλημα
•Η λύση‐ Αποτελέσματα
•Ο συντελεστής Somer’ d. Πότε τον χρησιμοποιούμε;
•Ο συντελεστής ομοφωνίας Cohen’s kappa. Πότε τον χρησιμοποιούμε;
•Τι είναι προσομοίωση, ποιές προσομοιωτικές Μέθοδοι υπάρχουν στο πλαίσιο του SPSS;
•Πότε χρησιμοποιούμε προσομοιωτικές Μεθόδους;
•Είναι πανάκεια οι προσομοιωτικές Μέθοδοι;
2
ΤΟ ΠΡΟΒΛΗΜΑ
Ρωτήθηκαν στην τύχη 25 φοιτητές του Τμήματος Πολιτικής Επιστήμης για τον τρόπο που συνήθως πηγαίνουν
στο Πανεπιστήμιο. Τα αποτελέσματα τα βλέπουμε στον παρακάτω Πίνακα.
Πίνακας… Τα δεδομένα για το συνήθη τρόπο μεταφοράς

φοιτητών και φοιτητριών στο Πανεπιστήμιο. Δείγμα 25
ατόμων.
Φύλο
Τρόπος μεταφοράς
Κωδικοποίηση
Αύξων αριθμός Κωδικοποίηση:
:
Φοιτητή/τριας 1=με το λεωφορείο 2=με 1=αγόρι
(AA) ΙΧ.
2=κορίτσι
(TROPOS)
(SEX)
1 1 2
2 2 1
3 1 1
4 1 2
5 2 1
6 1 2
7 1 1
8 2 1
9 1 2
10 2 1
11 1 2
12 2 1
13 1 1
14 2 1
15 1 1
3
16 1 2
17 1 1
18 2 2
19 2 1
20 1 2
21 2 1
22 2 1
23 1 2
24 1 1
25 1 1
1. Ποιο στατιστικό κριτήριο θα εφαρμόσετε για να ελέγξετε, με τη βοήθεια του
SPSS και σε επίπεδο στατιστικής σημαντικότητας 5%, αν τρόπος μεταφοράς
φοιτητών και φοιτητριών στο Πανεπιστήμιο είναι ο ίδιος.
2. Ποια είναι η μηδενική και η εναλλακτική σας υπόθεση;
3. Ποιες είναι οι παραδοχές του στατιστικού κριτηρίου που εφαρμόσατε;
4. Να ελέγξετε αυτές τις παραδοχές.
5. Αν οι παραδοχές δεν ικανοποιούνται, ποια εναλλακτική λύση προτείνετε για να
λύσετε το πρόβλημα που σας δόθηκε;
6. Ποιες μεθόδους προσομοίωσης ξέρετε; Τι γνωρίζετε για τα EXACT TESTS του
SPSS; Πόσα είδη γνωρίζετε και πότε τα χρησιμοποιούμε;
4
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
TROPOS * SEX Crosstabulation

SEX Total
1 2
Count 7 8 15
Expected Count 9,6 5,4 15,0
% within 46,7% 53,3% 100,0%

1 TROPOS
% within SEX 43,8% 88,9% 60,0%
% of Total 28,0% 32,0% 60,0%
Residual -2,6 2,6
TROPOS
Count 9 1 10
% within 90,0% 10,0% 100,0%

2 TROPOS
% within SEX 56,3% 11,1% 40,0%
% of Total 36,0% 4,0% 40,0%
Residual 2,6 -2,6
Count 16 9 25
Total % within 64,0% 36,0% 100,0%

TROPOS
% within SEX 100,0% 100,0% 100,0%
% of Total 64,0% 36,0% 100,0%
5
Chi-Square Testsc
Value df Asymp. Exact Sig. Exact Sig. Point
Sig. (2- (2-sided) (1-sided) Probability
sided)
4,890a 1 ,027 ,040 ,034
Pearson Chi-Square
Continuity 3,190 1 ,074

Correctionb
5,442 1 ,020 ,040 ,034
Likelihood Ratio
,040 ,034
Fisher's Exact Test
Linear-by-Linear 4,694d 1 ,030 ,040 ,034 ,031

Association
25
N of Valid Cases
a. 1 cells (25,0%) have expected count less than 5. The minimum expected count is 3,60.
b. Computed only for a 2x2 table
c. For 2x2 crosstabulation, exact results are provided instead of Monte Carlo results.
d. The standardized statistic is -2,167.
6
7
Προσομοιωτικές Μέθοδοι :
•Monte Carlo
•Exact
•Bootstrapping
Πότε τις χρησιμοποιούμε;
•Όταν οι παραδοχές δεν ικανοποιούνται
•Όταν το μέγεθος του Δείγματος είναι μικρό
•Όταν επιθυμούμε μεγάλη ακρίβεια στο επίπεδο των αποτελεσμάτων
8
Εισήγηση 5Β: ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2

ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2

•Πότε εκτελούμε Μη παραμετρικό Χ2
•Η αντιδιαστολή παραμετρικού και μη παραμετρικού Χ2
2
Σε κάποιο χωριό της Κρήτης, ρωτήθηκαν στην τύχη 25 κάτοικοι, για να εκφέρουν
γνώμη αναφορικά με το ζήτημα αν τα πράγματα ήταν καλύτερα, χειρότερα ή ίδια,
σε σχέση με, πριν 20 χρόνια. Με άλλα λόγια, ρωτήθηκαν αν οι διαπροσωπικές,
οικογενειακές και πολιτισμικές σχέσεις, τα ήθη, τα έθιμα και γενικά το κοινωνικό
πλαίσιο, διαφοροποιήθηκε προς το καλύτερο, προς το χειρότερο, ή παρέμεινε ίδιο.
Αν συμβολίσουμε με 1=καλύτερα, 2=ίδια, 3=χειρότερα, ο παρακάτω Πίνακας, μας
παρέχει τη σχετική πληροφόρηση από την τυχαία δειγματοληψία.
Πίνακας δεδομένων 25 κατοίκων ενός χωριού

ΚΩΔΙΚΟΠΟΙΗΣΗ:
1= καλύτερα
2=ίδια
3=χειρότερα
Αύξων αριθμός Γνώμη
(number ) (opinion)
1 1
2 3
3 2
3
4 2
5 3
6 2
7 3
8 1
9 2
10 3
11 3
12 2
13 3
14 1
15 3
16 3
17 2
18 3
19 3
20 3
21 2
22 1
23 3
24 3
25 3
4
1. Να οικοδομήσετε μια βάση δεδομένων στο SPSS και να εισάγετε τα δεδομένα
σας στην επιφάνεια εργασίας.
2. Ποιο μη παραμετρικό κριτήριο θα χρησιμοποιήσετε για να κρίνετε τη μηδενική
υπόθεση ότι οι γνώμες των χωρικών ισοκατανέμονται;
3. Ποιες είναι οι παραδοχές αυτού του στατιστικού κριτηρίου;
4. Ποια διαφορά αυτό παρουσιάζει με το αντίστοιχο παραμετρικό κριτήριο;
5. Τελικά οι γνώμες των χωρικών διαφοροποιούνται σε επίπεδο σ.σ. 5%;
6. Στην έρευνά σας, είναι ανάγκη να χρησιμοποιήσετε προσομοιωτικές μεθόδους;
Να αναφέρετε έναν‐ έναν τους λόγους.
5

opinion
Observed N Expected N Residual
4 8,3 -4,3
1
7 8,3 -1,3
2
14 8,3 5,7
3
25
Total
6
Test Statistics
opinion
Chi-Square 6,320a
df 2
Asymp. Sig. ,042
Sig. ,038b
Lower ,033
Monte Carlo Sig. 99% Confidence Bound
Interval Upper ,043
Bound
a. 0 cells (0,0%) have expected frequencies less than 5. The minimum
expected cell frequency is 8,3.
b. Based on 10000 sampled tables with starting seed 2000000.
7
ΣΧΟΛΙΟ:
Που είναι οι παλιοί καλοί καιροί
Πού είναι οι αθρώποι,
Πού είν΄ η κοπέλα η σεμνή
Κι οι όμορφοί της τρόποι…
========= =============== ========== ======
Την ξέρετε αυτή τη μαντινάδα …?
8
Εισήγηση 5Γ: ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2 ‐ Πίνακες συνάφειας

MH ΠΑΡΑΜΕΤΡΙΚΟ Χ2 ‐Πίνακες συνάφειας
(Contingency Tables)

•Πως διαβάζει το SPSS τους εκτελούμε Πίνακες συνάφειας;
2
_ΜΗ_ΠΑΡΑΜΕΤΡΙΚΟ_Χ2_Contingency_Tables
Σε κάποια πόλη της Κρήτης, ρωτήθηκαν, σε κάποια χρονική στιγμή, 249 πολίτες για
τη στάση τους απέναντι στο θέμα της παραμονής των αμερικανικών βάσεων. Από
αυτούς υπέρ της παραμονής τάχθηκαν 23 άτομα, κατά 174, ενώ 52 δήλωσαν
αναποφάσιστοι. Να ελέγξετε εάν οι τρεις κατηγορίες των ερωτώμενων
εκπροσωπούνται το ίδιο στον πληθυσμό της πόλης. Το πρόβλημα να λυθεί με τη
βοήθεια του SPSS.
3
Υπόδειξη:
Ορίστε κατά τα γνωστά δύο μεταβλητές :
•Τη μεταβλητή attitude με τιμές 1=υπέρ της παραμονής των βάσεων, 2=κατά της
παραμονής και 3=Ούτε υπέρ, ούτε κατά.
•Τη μεταβλητή freq, η οποία θα λάβει τις τιμές των παρατηρούμενων συχνοτήτων
23, 174 και 52.
4
attidude
Observed N Expected N Residual
1 23 83,0 -60,0
2 174 83,0 91,0
3 52 83,0 -31,0
249
Total
5
Test Statistics
ATTITUDE
Chi-Square(a) 154,723
df 2
Asymp. Sig. ,000
Monte Carlo Sig. Sig. ,000(b)
99% Confidence Lower
Interval Bound ,000
Upper
Bound ,000
a 0 cells (,0%) have expected frequencies less than 5.
The minimum expected cell frequency is 83,0.
b Based on 10000 sampled tables with starting seed 299883525.
6
Η ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ
7
Οι πιο πολλοί κάτοικοι της πόλης, σαφέστατα επιθυμούν την απομάκρυνση
των Αμερικανικών βάσεων από το νησί.
8
Εισήγηση 6Α: Ανάλυση Συσχέτισης
Simple Correlation Analysis
(α) Pearson’s Correlation Analysis
(β) Spearman’s Correlation Analysis
(γ) Kendals’s tau b Correlation Analysis
(δ) Χαρακτηριστικά της συσχέτισης
========= ================== =======
Παραδοχές για κάθε μια από αυτές τις μορφές.
Όταν δεν ικανοποιούνται οι παραδοχές πού πάμε;
Ποιες εναλλακτικές λύσεις υπάρχουν;
Ποιος είναι ο ρόλος της ομοιογένειας;

2. Forms of t‐test :
(a)Two independent samples t‐test. Ένα Παράδειγμα.
(b) paired t‐test. Ένα Παράδειγμα.
(c) one‐sample t‐test. Ένα Παράδειγμα.

2
ΑΠΛΗ ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ
Κατά Pearson ανάλυση συσχέτισης.
Χαρακτηριστικά της συσχέτισης
Γενικά πότε κάνουμε ανάλυση συσχέτισης;
Παραδοχές
Το πρόβλημα‐Παράδειγμα
Η παραβίαση των παραδοχών
Οι Εναλλακτικές Λύσεις

Το πρόβλημα

3
ΑΣΚΗΣΗ_ΔΙΜΕΤΑΒΛΗΤΗ_ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ
Σε ένα εργαστήριο εμβολιάστηκαν 10 πειραματόζωα με ένα
παθογενές εμβόλιο. Η έρευνα ήθελε να ξέρει για την πορεία του
πυρετού στα πειραματόζωα τις πρώτες 60 ώρες. Παρακολούθησε
λοιπόν την πορεία του πυρετού τον οποίο κατέγραφε ανά 4 ώρες,
ξεκινώντας τις μετρήσεις μετά την πάροδο του πρώτου
εικοσιτετραώρου. Τα αποτελέσματα των μετρήσεων τα βλέπουμε
στον παρακάτω Πίνακα.
Πίνακας
Ώρες που Αύξων Τιμή του πυρετού
παρήλθαν αριθμός σε βαθμούς
μετά τον πειραματ Κελσίου
εμβολιασ όζωου
(temp)
μό
(a_a)
(time)
24 1 38,70
28 2 38,90
32 3 40,00
36 4 40,50 4
40 5 40,90
44 6 40,50
48 7 41,50
52 8 41,60
56 9 41,70
60 10 41,70
(α) Να ελέγξετε αν υπάρχει συσχέτιση ανάμεσα στο χρόνο και στην
πορεία του πυρετού σε επίπεδο στατιστικής σημαντικότητας 1%ο.
(β) Πώς ακριβώς διατυπώνεται η μηδενική σας υπόθεση;
(γ) Στην ανάλυσή σας ποιο δείκτη θα χρησιμοποιήσετε; Θα κάνετε
ανάλυση συσχέτισης κατά Pearson ή κατά Spearman και γιατί;
(δ) Πόσες και ποιες είναι οι παραδοχές για τη γραμμική διμεταβλητή
συσχέτιση;
5
(ε) Αν τα δεδομένα και των δύο μεταβλητών σας ήταν τύπου ordinal,
ποιος θα ήταν τότε ο κατάλληλος στατιστικός δείκτης;
(στ) Αναφορικά με το μέγεθος του δείγματος τι έχετε να παρατηρήσετε;
(ζ) Τον έλεγχο συσχέτισης θα τον πραγματοποιήσετε σε μονή ή σε διπλή
κατεύθυνση και γιατί;
(η) Το παρόν παράδειγμα έχει καμιά σχέση με τις επαναληπτικές
μεθόδους μέτρησης (repeated measures models, or longitudinal
measurements); Τελικά, εδώ έχουμε cross‐ over μελέτη, ή κάτι άλλο, και
γιατί;
6
Descriptive Statistics
Mean Std. Deviation N
time 42,00 12,111 10

40,6000 1,11555 10
temp
Correlations-ΜΟΝΌΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ
time temp
1 ,941**
Pearson Correlation
time ,000
Sig. (1-tailed)
N 10 10
,941** 1
Pearson Correlation
temp ,000
Sig. (1-tailed)
N 10 10
**. Correlation is significant at the 0.01 level (1-tailed).
7
Correlations- ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ

time temp
1 ,941**
Pearson Correlation
time ,000
Sig. (2-tailed)
N 10 10
,941** 1
Pearson Correlation
temp ,000
Sig. (2-tailed)
N 10 10
8
Η ΑΝΑΛΥΣΗ ΣΥΧΕΤΙΣΗΣ ΣΤΟΝ ΑΣΤΕΡΙΣΜΟ ΤΟΥ BOOTSTRAPPING
BOOTSTRAP-Correlations- ΜΟΝΌΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ
time temp
Pearson Correlation 1 ,941**
Sig. (1-tailed) ,000
N 10 10
Bias 0 ,002
time
Std. Error 0 ,026
Bootstrapb Lower 1 ,881

95%
Confidenc 1 ,981
e Interval Upper
Pearson Correlation ,941** 1
Sig. (1-tailed) ,000
N 10 10
Bias ,002 0
temp
Std. Error ,026 0
Bootstrapb Lower ,881 1

95%
Confidenc ,981 1
e Interval Upper

b. Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples
9
Η ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ
SCATTER PLOT ΧΡΟΝΟΥ‐ΠΥΡΕΤΟΥ
10
Εισήγηση 6Β: t‐test για Ανεξάρτητα Δείγματα

t‐test ΓΙΑ ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ (Two independent
samples t‐test)

•Πότε εκτελούμε t‐test για ανεξάρτητα δείγματα;
•Αν δεν ικανοποιούνται οι παραδοχές του Two
independent samples t‐test τι κάνουμε;
•Ποια είναι η εναλλακτική λύση όταν το t‐test (αυτή η
μορφή) αυτοκτονήσει;
•Το μη παραμετρικό κριτήριο των Mann‐ Whitney
•Το t‐test στον αστερισμό του Bootstrapping
2
ASKHSH_TWO_SAMPLES_INDEP_t_TEST

Κάποια βιομηχανία αυτοκινήτων θέλησε να ερευνήσει
την αποτελεσματικότητα ενός ‘επιπρόσθετου’ (additive),
που είχε παρασκευάσει, ενός υλικού δηλ., το οποίο
αναμειγνυόμενο με τη βενζίνη, βελτιώνει την απόδοση
του αυτοκινήτου. Για το σκοπό αυτό χρησιμοποίησε 26
όμοια αυτοκίνητα και μέτρησε για κάθε ένα από αυτά,
τα χιλιόμετρα που διήνυσε ανά λίτρο βενζίνης. Στα 13
από αυτά εισήγαγε αυτό το επιπρόσθετο, ενώ στα άλλα
13 όχι. Ο παρακάτω Πίνακας περιέχει τις πληροφορίες
για την εισαγωγή ή μη επιπροσθέτου στο κάθε
αυτοκίνητο, καθώς και τα χιλιόμετρα που διήνυσε κάθε
ένα από αυτά τα αυτοκίνητα ανά λίτρο βενζίνης.
3
ASKHSH_TWO_SAMPLES_INDEP_t_TEST

Κάποια βιομηχανία αυτοκινήτων θέλησε να ερευνήσει
την αποτελεσματικότητα ενός ‘επιπρόσθετου’ (additive),
που είχε παρασκευάσει, ενός υλικού δηλ., το οποίο
αναμειγνυόμενο με τη βενζίνη, βελτιώνει την απόδοση
του αυτοκινήτου. Για το σκοπό αυτό χρησιμοποίησε 26
όμοια αυτοκίνητα και μέτρησε για κάθε ένα από αυτά,
τα χιλιόμετρα που διήνυσε ανά λίτρο βενζίνης. Στα 13
από αυτά εισήγαγε αυτό το επιπρόσθετο, ενώ στα άλλα
13 όχι. Ο παρακάτω Πίνακας περιέχει τις πληροφορίες
για την εισαγωγή ή μη επιπροσθέτου στο κάθε
αυτοκίνητο, καθώς και τα χιλιόμετρα που διήνυσε κάθε
ένα από αυτά τα αυτοκίνητα ανά λίτρο βενζίνης.
4
Πίνακας. Τα δεδομένα για τα 26 αυτοκίνητα της έρευνας.

Επεξήγηση κωδικών της πρώτης στήλης:
1=με επιπρόσθετο,
2=χωρίς επιπρόσθετο
Επιπρόσθ Αύξων Χιλιόμετρα ανά λίτρο βενζίνης

ετο αριθμός (skor)
αυτοκινή
(additive)
του
1 1 11,00
2 2 10,00
1 3 12,00
2 4 9,90
1 5 10,55
2 6 9,70
2 7 10,30
1 8 13,00
1 9 10,90
2 10 10,50
1 11 11,20
2 12 9,80
1 13 10,50
1 14 12,00
2 15 10,90
1 16 11,90
1 17 12,50
2 18 9,90
2 19 10,00
2 20 10,50
1 21 11,60
1 22 11,60
2 23 10,20
1 24 10,90
2 25 10,70
2 26 9,00
1. Να ελέγξετε αν υπάρχει χιλιομετρική διαφορά
ανάμεσα στις δύο ομάδες αυτοκινήτων.
2. Πώς ακριβώς διατυπώνεται η μηδενική σας
υπόθεση;
3. Να την ελέγξετε σε επίπεδο σ.σ. 2%.
4. Πιο στατιστικό κριτήριο, και με ποιες παραδοχές, θα
χρησιμοποιήσετε;
5. Υπάρχει κανονικότητα στα δεδομένα σας; Από πού
φαίνεται αυτό;
6. Τελικά η Βιομηχανία κέρδισε ή έχασε από την
παραγωγή αυτού του προϊόντος (πρόσθετο,
additive); Γιατί;
Group Statistics
additive N Mean Std. Deviation Std. Error
Mean
1 13 11,5115 ,75778 ,21017
skor
2 13 10,1077 ,49407 ,13703
Independent Samples Test

Levene's Test t-test for Equality of Means
for Equality of
Variances
F Sig. t df Sig. Mean Std. 95% Confidence
(2- Differenc Error Interval of the
tailed e Differen Difference
) ce
Lower Upper
3,019 ,095 5,59 24 ,000 1,40385 ,25090 ,88602 1,92167

Equal 5
variances
assumed
skor
Equal 5,59 20,64 ,000 1,40385 ,25090 ,88153 1,92617
variances 5 1
not
assumed
Τέλος β’ εισήγησης
Εισήγηση 6Γ: κατά Ζεύγη t‐test

Κατά ζεύγη t‐test (PAIRED t‐test)
• Πότε εκτελούμε Κατά ζεύγη t‐test;
• Παραδοχές
• Το πρόβλημα
• Η λύση‐ Αποτελέσματα
• Αν δεν ικανοποιούνται οι παραδοχές του Κατά
ζεύγη t‐test τι κάνουμε;
• Ποια είναι η εναλλακτική λύση όταν το t‐test
(αυτή η μορφή) αυτοκτονήσει;
• Το μη παραμετρικό κριτήριο του Wilcoxon

ΑΣΚΗΣΗ_PAIRED_Τ_ΤΕΣΤ
Ένας ερευνητής στο χώρο της Φυσικής Αγωγής ήθελε να
διερευνήσει τον πιθανό ρόλο που διαδραματίζει η β‐
ενδορφίνη στην κατάρρευση των δρομέων μεγάλων
αποστάσεων. Η υπόθεση που έκανε ο ερευνητής ήταν ότι
οι δρομείς κατά τη διάρκεια του αγώνα, παρά την
ταλαιπωρία και τον πόνο αντιστέκονται στην κατάρρευση,
επειδή τα επίπεδα της β‐ενδορφίνης αυξάνουν στο αίμα
με αποτέλεσμα να δημιουργούν ένα αίσθημα ευεξίας.
Βασικό, επομένως, ερώτημα ήταν αν τα επίπεδα της β‐
ενδορφίνης μεταβάλλονται κατά τη διάρκεια του αγώνα
δρόμου. Το μετρούμενο μέγεθος είναι η συγκέντρωση της
β‐ενδορφίνης στο πλάσμα του αίματος. Τα δεδομένα
φαίνονται στον παρακάτω Πίνακα.

Πίνακας. Τα δεδομένα 6 δρομέων για τη συγκέντρωση β-ενδορφίνης ΠΡΙΝ και

ΜΕΤΑ τον αγώνα δρόμου.
Υποκείμενα Προ-μέτρηση Μετα- μέτρηση Διαφορά
(Subj) (prin) (meta) diff=
meta-prin
1 4,37 23,85 19,48

2 4,94 14,73 9,79
3 4,94 28,12 23,18
4 6,84 34,96 28,12
5 7,98 19,19 11,21
6 8,55 20,80 12,25
• Να εισαχθούν τα δεδομένα σε μια βάση του SPSS με το όνομα
marathon.sav την οποία να αποθηκεύσετε στην επιφάνεια εργασίας.
• Με τη βοήθεια της εντολής Compute να δημιουργήσετε τη μεταβλητή
διαφοράς μετα‐ μέτρησης και προ‐μέτρησης η οποία θα σας χρησιμεύσει
παρακάτω, στον έλεγχο των παραδοχών.
• Με βάση την άσκηση να διατυπώσετε τη μηδενική σας υπόθεση, την
οποία να ελέγξετε σε επίπεδο στατιστικής σημαντικότητας 1%. Ποιο είναι
το συμπέρασμά σας αναφορικά με τη διαφορά των επιπέδων β‐
ενδορφίνης ΠΡΙΝ και ΜΕΤΑ τον αγώνα; Είναι αυτή η διαφορά στατιστικώς
σημαντική και σε ποιο επίπεδο;
• Να διατυπώσετε και στη συνέχεια να ερευνήσετε μία προς μία τις
παραδοχές του στατιστικού κριτηρίου Paired T‐test
• Να αντιδιαστείλετε τη φιλοσοφία του στατιστικού κριτηρίου Paired T‐test
με εκείνη του στατιστικού Two independent samples T‐Test.
• Να αναφέρετε τα πλεονεκτήματα των ονομαζόμενων REPEATED
MEASURES MODELS στο χώρο της Κοινωνικής Έρευνας έναντι άλλων μη
επαναληπτικών μοντέλων.
ΛΥΣΗ‐ ΑΠΟΤΕΛΕΣΜΑΤΑ
Paired Samples Statistics
Statistic Bootstrapa
Bias Std. Error 95% Confidence
Interval
Lower Upper
6,2700 ,0044 ,6676 5,0667 7,5683
Mean
PRIN N 6
1,76608 -,18749 ,33487 ,75762 2,09173
Std. Deviation
Pair 1 Std. Error Mean ,72100

23,6083 ,0354 2,6107 19,0167 29,2219
Mean
N 6
META
7,14853 -,89374 1,76824 2,58995 9,34068
Std. Deviation
Std. Error Mean 2,91837

a. Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples
Paired Samples Test

Paired Differences t df Sig. (2-
Mean Std. Std. 95% Confidence tailed)
Deviation Error Interval of the
Mean Difference
Lower Upper
PRIN - 7,42134 3,02975 -25,12655 -9,55012 -5,723 5 ,002

- 17,33833
Pair 1
MET
A
Bootstrap for Paired Samples Test
Mean Bootstrapa
Bias Std. Error Sig. (2-tailed) 95% Confidence Interval
Lower Upper
Pair 1 PRIN - META -17,33833 -,03099 2,72762 ,018 -23,03308 -12,46167
Τελικό Συμπέρασμα: Ο ανθρώπινος οργανισμός αντιστέκεται στην
κατάρρευση, αφού παράγει β‐ενδορφίνη σε στατιστικώς σημαντικές
ποσότητες.
Εισήγηση 6Δ: t‐test για ένα Δείγμα (one sample t‐test)

•Πότε εκτελούμε t‐test για ένα Δείγμα;
•Πώς ακριβώς διατυπώνεται η μηδενική υπόθεση
•Το πρόβλημα‐παράδειγμα
•Αν δεν ικανοποιούνται οι παραδοχές του One_sample
t‐test τι κάνουμε;
•Ποια είναι η εναλλακτική λύση όταν το t‐test (αυτή η
μορφή) αυτοκτονήσει;
•Το t‐test στον αστερισμό του Bootstrapping
2
ΑΣΚΗΣΗ ΓΙΑ ONE SAMPLE T‐TEST
Μια ερευνήτρια ήθελε να ξέρει αν οι γονείς των παραβατικών παιδιών αφιερώνουν
αρκετό χρόνο στα παιδιά τους. Τα δεδομένα βρίσκονται στο αρχείο
onesample_t_test. Η Ερευνήτρια κατασκεύασε μια scale τύπου Likert με 5 levels
(1=καθόλου 2=λίγο, 3=αρκετά, 4=πολύ, 5=πάρα πολύ). Και έθεσε από τη Θεωρία της
σαν όριο αφιέρωσης ικανού χρόνου αφιέρωσης στο παραβατικό παιδί το μ=3,2 της
παραπάνω κλίμακας. Τα δεδομένα βρίσκονται στη μεταβλητή SPEC1.

•Ποιο στατιστικό κριτήριο θα εφαρμόσετε και γιατί;
•Ποια είναι η μηδενική σας υπόθεση;
•Ποιες οι παραδοχές αυτού του κριτηρίου;
•Να χρησιμοποιήσετε προσομοιωτική μέθοδο και να συγκρίνετε τα αποτελέσματα.
•Να προβείτε σε ερμηνεία των αποτελεσμάτων σας.
•Τελικά το συγκεκριμένο δείγμα συνηγορεί ή όχι σε επίπεδο στατ. σημαντικότητας 5 %
υπέρ ικανού ή υπέρ ανεπαρκούς χρόνου αφιέρωσης στα παραβατικά παιδιά από τους
γονείς τους;

3
ΛΥΣΗ –ΑΠΟΤΕΛΕΣΜΑΤΑ
One-Sample Statistics
Statistic Bootstrapa
Bias Std. Error 95% Confidence Interval
Lower Upper
N 32
Mean 4,25 -,01 ,23 3,75 4,66

SPEC1
Std. Deviation 1,320 -,040 ,221 ,793 1,648
Std. Error Mean ,233
One-Sample Test
Test Value = 0
t df Sig. (2-tailed) Mean 95% Confidence Interval of the
Difference Difference
Lower Upper
SPEC1 18,216 31 ,000 4,250 3,77 4,73
4
ΛΥΣΗ –ΑΠΟΤΕΛΕΣΜΑΤΑ
Bootstrap for One-Sample Test

Mean Difference Bootstrapa
Bias Std. Error Sig. (2-tailed) 95% Confidence Interval
Lower Upper
SPEC1 4,250 -,007 ,234 ,001 3,750 4,656
Τελικό Συμπέρασμα
Αφού κατέρρευσε η Μηδενική μας υπόθεση, ισχύει η Εναλλακτική. Άρα, πολύ πιο
πάνω από το τιθέμενο όριο για τον πληθυσμό μ=3,2 μονάδες είναι ο μέσος όρος του
Δείγματος. Επομένως οι γονείς των παραβατικών παιδιών αφιερώνουν αρκετό χρόνο
στα παιδιά τους.

Τέλος δ’ Εισήγησης
5
Επίλυση: Multiple Regression

• Τι είναι και πότε κάνουμε MULTIPLE REGRESSION ANALYSIS
• ΠΡΟΒΛΕΨΗ. Πότε μπορούμε να κάνουμε πρόβλεψη.
• Η κατασκευή του Παλινδρομικού Μοντέλου.
• Από πού φαίνεται η προβλεπτική δύναμη του παλινδρομικού μας Μοντέλου.
• Πότε θα αποπλεύσουν τα Ελληνικά καράβια από την Αυλίδα της Βοιωτίας για την Τροία;
• Ή αλλιώς, πότε φυσάει ούριος άνεμος και οι οιωνοί είναι καλοί για την
MULTIPLE REGRESSION ANALYSIS; Δυο σημαντικές ενδείξεις.
• Assumptions για την MULTIPLE REGRESSION ANALYSIS
• Αν δεν ικανοποιούνται οι παραδοχές τι κάνουμε;
• Μετασχηματισμός των Δεδομένων, Robust Regression, Προσομοίωση και άλλες
Εναλλακτικές Λύσεις.
• Μέθοδοι Πολλαπλών Συγκρίσεων. Πότε χρησιμοποιούμε ποια.
• Μέθοδος Bonferroni
• Μέθοδος Tukey
• Μέθοδος Scheffe
• Κατασκευή και Ερμηνεία της εξίσωσης παλινδρόμησης.
• Outliers και Influential Points. Ποιες ακραίες τιμές είναι αθώες και ποιες υπονομεύουν
το μοντέλο μας.
• Τελικά που γίνεται η ζημιά των παρατηρήσεων επίδρασης; Στους παλινδρομικούς
συντελεστές, στην προβλεπτική δύναμη του μοντέλου ή και στα δυο;
• Τελικά τι κάνουμε με τους επικίνδυνους outliers ?? Τους πετάμε έξω και πως;
Ή διαφορετικά: Πως τους εντοπίζουμε και ποιο πρόγραμμα μπορεί να κάνει αυτή τη δουλειά;
• Πρόβλημα‐ Παράδειγμα πάνω στην MULTIPLE REGRESSION ANALYSIS
• Λύση‐ Αποτελέσματα στο συγκεκριμένο παράδειγμα
Το πρόβλημα
Άσκηση_MULTIPLE_REGRESSION
Ένας ερευνητής προκειμένου να εκτιμήσει το σημερινό μισθό που λαμβάνει ένας
υπάλληλος που εργάζεται σε μια εταιρεία, θεώρησε πως σημαντικά στοιχεία γι’ αυτήν την
πρόβλεψη είναι ο αρχικός μισθός του υπαλλήλου, τα χρόνια υπηρεσίας του και τέλος το
επίπεδο της μόρφωσής του. Για το σκοπό δε αυτό έλαβε τυχαίο δείγμα 20 υπαλλήλων και
κατέγραψε τα στοιχεία τους (βλ. παρακάτω Πίνακα ).
1. Να εκτελέσετε ανάλυση παλινδρόμησης με τη μέθοδο STEPWISE, με εξαρτημένη
μεταβλητή το σημερινό μισθό (SALARY) και ανεξάρτητες τον αρχικό μισθό (SAL1), τα
χρόνια υπηρεσίας (XRONIA), και το επίπεδο μόρφωσης (EDLEVEL). Ποιο είναι το
παλινδρομικό σας μοντέλο σύμφωνα με τη μέθοδο αυτή, πόσο καλά προσαρμόζεται στα
δεδομένα σας και σε ποια εξίσωση υπακούει ;
2. Να αναφέρετε τις παραδοχές της πολλαπλής παλινδρόμησης και στη συνέχεια να τις
ελέγξετε σχολαστικά.
3. Ποια είναι η ‘άριστη’ μεταβλητή πρόβλεψης (‘BEST PREDICTOR’) αν εργαστούμε με τη
μέθοδο STEPWISE ;
4. Ήταν ορθή η απόφασή μας να λάβουμε 3 ανεξάρτητες μεταβλητές στην οικοδόμηση του
παλινδρομικού μας μοντέλου; Μήπως έπρεπε να λάβουμε λιγότερες ανεξάρτητες
μεταβλητές από όσες έχουμε, από όσες δηλ. διαθέτει ο παρακάτω Πίνακας, ή μήπως η
έρευνα θα έπρεπε να αναζητήσει, από τη συγκεκριμένη Εταιρεία, περισσότερες
ανεξάρτητες μεταβλητές; Τελικά ποιο είναι το κατάλληλο πλήθος ανεξάρτητων
μεταβλητών που έχει ανάγκη η παλινδρομική μας ανάλυση για να είναι η ‘βέλτιστη’;
Ποιος δείκτης είναι σε θέση να μας παράσχει την αναγκαία πληροφορία;
5.Ποιο ακριβώς είναι το υποσύνολο των ανεξάρτητων μεταβλητών, δηλ.
ποιες ακριβώς ανεξάρτητες μεταβλητές θα πρέπει να συμμετάσχουν
στο παλινδρομικό μας μοντέλο, ώστε αυτό να μπορέσει να κάνει την καλύτερη
δυνατή πρόβλεψη; Ποιες είναι οι πολιτικές που μας βοηθούν να πετύχουμε
ένα ‘άριστο’ παλινδρομικό μοντέλο;

Πίνακας. Τα στοιχεία 20 υπαλλήλων μιας εταιρείας τυχαία επιλεγμένων
Αύξων αριθμός Σημερινός Αρχικός Χρόνια Επίπεδο
εγγραφής ή σειρά
Μισθός σε ευρώ Μισθός σε Υπηρεσίας Εκπαίδευσης
εισαγωγής
δεδομένων ευρώ (1=Χαμηλό,
(SEQUENCE) 2=Μέσο,
3=Ανώτερο)

(SALARY) (SAL1) (XRONIA) (EDLEVEL)
1 1400 150 17 3
2 890 90 12 1
3 1200 120 11 2
4 1250 200 13 3
5 1150 130 9 2
6 990 500 7 1
7 800 400 5 1
8 900 400 5 1
9 1700 520 19 3
10 1500 250 14 3
11 1250 300 6 3
12 1500 700 14 3
13 950 240 11 2
14 890 300 7 1
15 750 80 3 1
16 1000 300 4 1
17 980 120 10 1
18 870 300 4 1
19 1150 350 7 2
20 900 250 6 1
Descriptive Statistics
Mean Std. Deviation N
SALARY 1101,00 263,836 20

SAL1 285,00 161,196 20
XRONIA 9,20 4,561 20
EDLEVEL 1,80 ,894 20
Correlations
SALARY SAL1 XRONIA EDLEVEL

SALARY 1,000 ,344 ,813 ,900
SAL1 ,344 1,000 ,092 ,190
Pearson Correlation ,813 ,092 1,000 ,733
XRONIA
EDLEVEL ,900 ,190 ,733 1,000
SALARY . ,069 ,000 ,000
SAL1 ,069 . ,349 ,211
Sig. (1‐tailed) ,000 ,349 . ,000
XRONIA
EDLEVEL ,000 ,211 ,000 .
SALARY 20 20 20 20
SAL1 20 20 20 20
N 20 20 20 20
XRONIA
EDLEVEL 20 20 20 20
Variables Entered/Removeda
Model Variables Entered Variables Removed Method
EDLEVEL . Stepwise (Criteria: Probability‐of‐F‐
to‐enter <= ,050, Probability‐of‐F‐to‐
remove >= ,100).
1
XRONIA . Stepwise (Criteria: Probability‐of‐F‐
remove >= ,100).
2
SAL1 . Stepwise (Criteria: Probability‐of‐F‐
remove >= ,100).
3
a. Dependent Variable: SALARY
Model Summaryd
Model R R Square Adjusted R Std. Error of the Durbin‐Watson
Square Estimate
,900a ,809 ,799 118,316

1
,928b ,860 ,844 104,199
2
c
,947 ,898 ,878 92,008 1,780
3
a. Predictors: (Constant), EDLEVEL
b. Predictors: (Constant), EDLEVEL, XRONIA
c. Predictors: (Constant), EDLEVEL, XRONIA, SAL1
d. Dependent Variable: SALARY
Coefficientsa
Model Unstandardized Standard t Sig. 95,0% Confidence Correlations Collinearity
Coefficients ized Interval for B Statistics
Coefficie
nts
B Std. Error Beta Lower Upper Zero‐ Partial Part Toler VIF

Bound Bound order ance
(Constant) 623,289 60,695 10,269 ,000 495,774 750,805
265,395 30,348 ,900 8,745 ,000 201,637 329,152 ,900 ,900 ,900 1,000 1,000
1
EDLEVEL
(Constant) 575,808 56,748 10,147 ,000 456,080 695,536

193,668 39,281 ,657 4,930 ,000 110,792 276,544 ,900 ,767 ,447 ,463 2,160
EDLEVEL
2
19,194 7,704 ,332 2,492 ,023 2,941 35,448 ,813 ,517 ,226 ,463 2,160
XRONIA
(Constan 501,00 58,950 8,49 ,000 376,03 625,972

t) 4 9 5
178,35 35,263 ,605 5,05 ,000 103,59 253,107 ,900 ,784 ,405 ,448
2 8 7
EDLEVEL
20,344 6,819 ,352 2,98 ,009 5,889 34,800 ,813 ,598 ,239 ,461
3 3
XRONIA
,322 ,134 ,197 2,40 ,028 ,039 ,606 ,344 ,516 ,193 ,959
9
SAL1
Collinearity Diagnosticsa
Model Dimension Eigenvalue Condition Index Variance Proportions
(Constant) EDLEVEL XRONIA SAL1
1
1,900 1,000 ,05 ,05
1
2
,100 4,359 ,95 ,95
1
2,833 1,000 ,02 ,01 ,01
2 2
,116 4,943 ,98 ,12 ,12
3
,051 7,479 ,00 ,86 ,87
1 3,632 1,000 ,01 ,01 ,01 ,01
2 ,227 4,002 ,01 ,05 ,09 ,61
3 ,092 6,287 ,96 ,11 ,02 ,32
3
4 ,049 8,594 ,03 ,83 ,89 ,05
Residuals Statisticsa
Minimum Maximum Mean Std. Deviation N
766,16 1590,09 1101,00 249,961 20

Predicted Value
‐1,340 1,957 ,000 1,000 20
Std. Predicted Value
23,198 63,314 39,582 11,534 20
Standard Error of Predicted Value
770,82 1583,10 1100,71 247,987 20
Adjusted Predicted Value
‐208,797 142,641 ,000 84,432 20
Residual
‐2,269 1,550 ,000 ,918 20
Std. Residual
‐2,345 1,654 ,002 1,005 20
Stud. Residual
‐222,971 181,652 ,290 102,429 20
Deleted Residual
‐2,803 1,759 ‐,015 1,083 20
Stud. Deleted Residual
Mahal. Distance ,258 8,047 2,850 2,289 20
Cook's Distance ,001 ,385 ,054 ,087 20
Centered Leverage Value ,014 ,424 ,150 ,120 20

Εισήγηση 9Α: Απλή Τυχαία Δειγματοληψία

Απλή Τυχαία Δειγματοληψία
•Τι είναι και ποιος την χρειάζεται…
•Βιομηχανία, Επιχειρήσεις
•Αγορά Εργασίας
•Έρευνες Κοινής Γνώμης
•Τι είναι ο υπό μελέτη πληθυσμός,
ο πληθυσμός ενδιαφέροντος
•Τι είναι οι δειγματοληπτικές μονάδες (sampling units)
•Τι λέμε πεπερασμένο πληθυσμό (definite population)
•Τι λέμε άπειρο πληθυσμό (indefinite population)
2
Παράγοντες προσδιορισμού του μεγέθους του Δείγματος
▬ Το επιθυμητό επίπεδο ακρίβειας των αποτελεσμάτων.
▬ Τη διαθέσιμη οικονομική δαπάνη.
▬ Τα διαθέσιμα χρονικά περιθώρια.
▬ Τη διακύμανση του υπό μελέτη πληθυσμού.
▬ Τον αριθμό και το είδος των μεταβλητών που
θα εμπλακούν στην ερευνητική διαδικασία.
3
ΒΑΣΙΚΕΣ ΜΟΡΦΕΣ ΑΠΛΗΣ ΤΥΧΑΙΑΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ

•Απλή Τυχαία Δειγματοληψία για την εκτίμηση μέσης τιμής
•Απλή Τυχαία Δειγματοληψία για την εκτίμηση ποσοστού

•Ποιο είναι εδώ το ζήτημα. Τι ζητάμε …
•Που πάει η διαφορά
•Τι είναι το δειγματοληπτικό σφάλμα d που το θέλουμε όλο και ποιο μικρό…
•Μήπως τελικά το ζήτημα είναι να μικράνουμε όσο μπορούμε αυτή τη διαφορά
που δεν είναι τίποτε άλλο από το δειγματοληπτικό σφάλμα των μετρήσεων μας
•Μήπως όλα γίνονται προκειμένου να ικανοποιηθεί η σχέση P ( X    d )  1  
•Και πόσο σφάλμα είμαστε διατεθειμένοι να αποδεχθούμε στην έρευνά μας;
•Και τι μέγεθος δείγματος να πάρουμε;

•Τι είναι το διάστημα εμπιστοσύνης
•Όσο μεγαλώνει το μέγεθος του δείγματος τι κάνει το σφάλμα δειγματοληψίας;

4
Απλή Τυχαία Δειγματοληψία για την εκτίμηση μέσης
τιμής πληθυσμού. Ο γενικός τύπος

 no
n0   0.05
 N

n (1)
 n n0
 0   0.05
1  n0 N
 N
Όπου,
n0= μια αρχική προσέγγιση του μεγέθους του δείγματος, που λαμβάνουμε από
τον τύπο:
Z 
a
1
n0  ( 2
)2 (2)
d Ν= το μέγεθος του Πληθυσμού,
d= το σφάλμα δειγματοληψίας
5
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 1
============ ==============
Σε κάποιο ελληνικό Πανεπιστήμιο υπηρετούν 800 διδάσκοντες όλων των
βαθμίδων και όλων των κατηγοριών. Η διοίκηση του ιδρύματος θέλησε κάποια
στιγμή να εκτιμήσει το μέσο μηνιαίο μισθό αυτών των διδασκόντων, ώστε να
είναι εφικτή η σύγκριση με τους αντίστοιχους των ξένων Πανεπιστημίων. Είναι
γνωστό, ότι η κατανομή των μηνιαίων μισθών των διδασκόντων είναι κανονική,
με τυπική απόκλιση 50 ευρώ. Πόσο δείγμα θα πρέπει να ληφθεί, ώστε με
πιθανότητα 99 % η εκτίμηση να μην απέχει από την πραγματική περισσότερο
από 10 ευρώ;
==================== ============== ================ =======
Λύση

6
ΑΣΚΗΣΗ 2

Ένας ερευνητής ήθελε να εκτιμήσει το μέσο όρο του αναστήματος των φοιτητών
του Πανεπιστημίου Κρήτης, μιας αρκετά μεγάλης πληθυσμιακής ομάδας (
Ν>10000), με επιθυμητή ακρίβεια εκατοστά γύρω από το μέσο όρο, και με
πιθανότητα εμπιστοσύνης 95 %. Επειδή δεν γνώριζε όμως την τυπική απόκλιση
αυτής της πληθυσμιακής ομάδας, έλαβε τυχαίο δείγμα 50 φοιτητών και βρήκε
ότι η τυπική απόκλιση αυτού του δείγματος ήταν s=30 εκατοστά. Αυτή την
τυπική απόκλιση θεώρησε ότι θα μπορούσε να χρησιμοποιήσει σαν την τυπική
απόκλιση του παραπάνω φοιτητικού πληθυσμού. Να σχολιάσετε αυτό το
γεγονός και να προσδιορίσετε το τελικό μέγεθος του δείγματος που θα πρέπει
να λάβει.
==================== ============== ================ =======
Λύση
7
ΑΣΚΗΣΗ 3
Μία υποψήφια διδάκτορας στο χώρο της Εκπαίδευσης ήθελε να εκτιμήσει, το
μέσο όρο της επίδοσης των μαθητών της ΣΤ΄ τάξης του Δημοτικού στο θέμα της
γλώσσας, στην Κρήτη. Από τα επίσημα στοιχεία της Πρωτοβάθμιας Εκπαίδευσης
βρήκε ότι σε όλη την Κρήτη, ο παραπάνω πληθυσμός ήταν Ν=7000 άτομα. Η
υποψήφια διδάκτορας, προκειμένου να εκτιμήσει την τυπική απόκλιση του εν
λόγω πληθυσμού, έλαβε τυχαίο δείγμα 122 ατόμων και βρήκε ότι η τυπική
απόκλιση αυτού του δείγματος ήταν s=1,8 μονάδες. Τα γραπτά δε αυτού του
δείγματος βαθμολογήθηκαν με βάση την κλίμακα 1‐10, που εφαρμόζεται στο
Δημοτικό. Αν η υποψήφια διδάκτορας ήθελε να προσδιορίσει το μέσο όρο της
επίδοσης των 7000 παιδιών στη γλώσσα, με επιθυμητό διάστημα εμπιστοσύνης
99% και ανεκτό σφάλμα δειγματοληψίας 2%, ποιο είναι το μέγεθος του
δείγματος που πρέπει να λάβει;
Λύση
=================== =============== =============== =======
Σημαντική παρατήρηση
Στις περιπτώσεις τέτοιων προβλημάτων δεν πρέπει ποτέ να ξεχνάμε, ότι οι
μονάδες της κλίμακας μέτρησης, του μέσου όρου, της τυπικής απόκλισης και
του σφάλματος, θα πρέπει να είναι ίδιες.
8
Εισήγηση 9Β: Απλή Τυχαία Δειγματοληψία για την εκτίμηση ποσοστού

•Ποιο είναι εδώ το ζήτημα. Τι ζητάμε …
Ας υποθέσουμε ότι η παράμετρος του άπειρου ή
πεπερασμένου πληθυσμού που θέλουμε να
εκτιμήσουμε είναι το ποσοστό p και ότι το εκτιμούμενο
ποσοστό είναι . Τότε αν θεωρήσουμε ότι το
p̂
p̂  p
δειγματοληπτικό σφάλμα δεν μπορεί
να υπερβαίνει ένα περιθώριο d, με επίπεδο
εμπιστοσύνης 1‐α,
τότε προφανώς αναζητούμε τη πιθανότητα για
την οποία ισχύει:
P( pˆ  p  d )  1   (3)
2
p̂  p
•Που πάει η διαφορά
•Τι είναι το δειγματοληπτικό σφάλμα d που το θέλουμε
όλο και ποιο μικρό…
•Μήπως τελικά το ζήτημα είναι να μικρύνουμε
όσο μπορούμε αυτή τη διαφορά που δεν είναι τίποτε
άλλο από το δειγματοληπτικό σφάλμα των μετρήσεων μας
•Μήπως όλα γίνονται προκειμένου να ικανοποιηθεί η σχέση
P( pˆ  p  d )  1  
•Και πόσο σφάλμα είμαστε διατεθειμένοι να αποδεχθούμε
στην έρευνά μας;
•Και τι μέγεθος δείγματος να πάρουμε;
• Τι είναι το διάστημα εμπιστοσύνης
•Όσο μεγαλώνει το μέγεθος του δείγματος τι κάνει το σφάλμα
δειγματοληψίας;
3
Απλή Τυχαία Δειγματοληψία για την εκτίμηση
ποσοστού πληθυσμού. Ο γενικός τύπος


 no
n0   0.05
 N

n (4)
 n n0
 0
  0.05
1  n0  1 N
 N
Όπου,
n0= μια αρχική προσέγγιση του μεγέθους του δείγματος, που λαμβάνουμε από
τον τύπο:

z 2 a  p (1  p ) Ν= το μέγεθος του Πληθυσμού,
1 (5) d= το σφάλμα δειγματοληψίας
n0  2
2

d 4
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση ποσοστού
ΑΣΚΗΣΗ 4
============ ==============

Σε μια πόλη διαμένουν 5000 οικογένειες/νοικοκυριά. Πόσο είναι το μέγεθος
δείγματος που θα πρέπει να λάβουμε, για να εκτιμήσουμε το ποσοστό των
κατοίκων αυτής της πόλης που διαθέτουν εξοχική κατοικία, με πιθανότητα 90%
και σφάλμα το πολύ 3 % ;

Λύση
= ================= ===========

5
ΑΣΚΗΣΗ 5
==================== =

Έστω ότι θέλουμε να εκτιμήσουμε το ποσοστό των ανδρών σε μία πόλη, με
επιθυμητή ακρίβεια και με πιθανότητα 95%. Αν έχουμε την πληροφορία ότι σε
παλιότερη έρευνα το ποσοστό των ανδρών είναι 46 % και ο πληθυσμός της
πόλης αρκετά μεγάλος, ποιό πρέπει να είναι το μέγεθος του δείγματος;

Λύση
====================== =============== ================
6
ΑΣΚΗΣΗ 6
============= =========
Σε κάποιο απομακρυσμένο νησί του Αιγαίου κατοικούν 4000 άτομα. Κατά τη
διάρκεια του χειμώνα, μια συγκεκριμένη χρονιά, ο πληθυσμός του νησιού
προσβλήθηκε δύο φορές από τον ιό της γρίπης. Την πρώτη φορά το ποσοστό
των κατοίκων που προσβλήθηκε από τον ιό κυμάνθηκε μεταξύ 20% και 30%. Τη
δεύτερη φορά, δηλ. στο δεύτερο κύμα της επιδημίας, κάποιος επιδημιολόγος
ήθελε να εκτιμήσει το πραγματικό ποσοστό του πληθυσμού το οποίο
προσβλήθηκε από τον ιό, με πιθανότητα 95% και σφάλμα το πολύ 3%. Πόσο
δείγμα έπρεπε να λάβει;

Λύση
======================== ================ =============

============= ========== ======== =====
Τέλος β’ εισήγησης
7

ΠΕΡΙΓΡΑΦΙΚΗ Και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Δαφέρμος Βασίλειος ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ΠΕΡΙΓΡΑΦΙΚΗ Και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Δαφέρμος Βασίλειος ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Uploaded by

Copyright:

Available Formats

ΠΕΡΙΓΡΑΦΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΚΑΙ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

 Η έννοια της μεταβλητής

 Η έννοια της μεταβλητής

================ =========== ==== ================ ==== =

================= ======================== ============== ====

 Η κατανόηση των κλιμάκων μέτρησης μέσα από την

2)Εσείς ο ίδιος/α , το Νοικοκυριό σας, ή η Επιχείρησή σας, σε ποιο βαθμό είστε

⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ

4) Εσείς ο ίδιος/α έχετε την αίσθηση ότι οι ΤΡΑΠΕΖΕΣ βάζουν πανωτόκια;

⌂ ΝΑΙ ⌂ ΟΧΙ ⌂ ΔΓ/ΔΑ

=============== ============== ================== ======== =====

============ =================== ============= ========== ======

=============== ===================== ================== =====

ΦΥΛΟ: άνδρας γυναίκα

============================= ======================== ====== = ==

============================ ======================= =============

========================= ================ ================= ===

Ο Καθηγητής κ. Δεληβοριάς είχε στο σεμινάριό του, 6 φοιτητές

 ΔΕΙΚΤΕΣ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ (measures of central

 Ιδιότητες Μέσης τιμής:

6) Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο σταθερό

================================ ========================== ======

 Θα λέμε διάμεσο (median) ενός δείγματος n παρατηρήσεων,

Ιδιότητες της διαμέσου

όλες τις τιμές του δείγματος. Ως εκ τούτου είναι λιγότερο

 Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο

================== ===================== ==========

Ιδιότητες της διασποράς

4) Αν σε κάθε τιμή ενός δείγματος προσθέσουμε τον ίδιο σταθερό

Ιδιότητες της τυπικής απόκλισης

 Αν κάθε τιμή ενός δείγματος πολλαπλασιαστεί με τον ίδιο

==================== ===================== ============= ======= ==

 Θα λέμε εύρος(range) ενός δείγματος και θα το συμβολίζουμε

Ιδιότητες του εύρους

Με βάση τα παραπάνω τα εκατοστημόρια P25, P50, P75 θα

Επειδή η τυπική απόκλιση γι αυτό το δείγμα έχει υπολογισθεί και είναι

ως κανόνα για τις τιμές της στρεβλότητας. Για κάθε συγκεκριμένη

τότε επειδή s=1,568 η σχέση (8) δίνει:

Ιδιότητες της στρεβλότητας

======================= ====================== ====

Σημείωση: Το –3 στον τύπο 3.13, ίσως ξαφνιάσει τον αναγνώστη,

Σχ.3.4). Αυτό σημαίνει ότι στην ‘περιφέρεια’ της κατανομής

τότε επειδή s=1,568 η σχέση (9) δίνει:

=0,165 > 0  η κατανομή μας είναι οξύκυρτη, δηλ. παρουσιάζει τάσεις

Ιδιότητες της κύρτωσης

============== ==================== ======== =======

Ωστόσο, πως είναι δυνατόν να θυμάται ο αναγνώστης τις θέσεις των 3

 Θα λέμε συντελεστή μεταβλητότητας (coefficient variation) και

Ο συντελεστής μεταβλητότητας, προφανώς είναι ανεξάρτητος από

 Η έννοια του δειγματόχωρου ή δειγματικού χώρου

 Αν οι δύο ενδείξεις είναι ίδιες…

2) Το ζητούμενο ενδεχόμενο προσδιορίζεται από το σύνολο Α όπου

Α = {ΚΚΚ, ΚΑΑ, ΚΚΑ, ΚΑΚ}.

===================== ======================== ===== ===

Ορισμός 4. Θα λέμε δύο ενδεχόμενα Α και Β ασυμβίβαστα αν ισχύει

Παραδείγματα ασυμβίβαστων ενδεχομένων:

Ορισμός 5. Κλασικός ορισμός πιθανότητας

Πλήθος ευνοϊκών περιπτώσεων

ΚΑΝΟΝΕΣ ΛΟΓΙΣΜΟΥ ΠΙΘΑΝΟΤΗΤΩΝ

 Για δύο ασυμβίβαστα μεταξύ τους ενδεχόμενα Α και Β ισχύει:

==================== =============== ============= === ==

====================== ================ ========== == ===

Και φυσικά αναζητούμε την πιθανότητα Ρ(Α).