Professional Documents
Culture Documents
και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Δαφέρμος Βασίλειος
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ
ΕΙΣΗΓΗΣΗ 1
ΚΛΙΜΑΚΕΣ ΜΕΤΡΗΣΗΣ
Ονομαστικές ή Κατηγορικές Κλίμακες (nominal scales)
Τακτικές κλίμακες (ordinal scales)
Αριθμητικές ή ισοδιαστημικές κλίμακες (interval scales)
Αναλογικές κλίμακες (ratio scales)
============= ================ ========== ===
Θα λέμε ονομαστικές τις κλίμακες μέτρησης στις οποίες η
κατάταξη των υποκειμένων γίνεται σε καλά προσδιορισμένες,
σαφώς διακρίσιμες μεταξύ τους, ισοδύναμες, και οπωσδήποτε
αμοιβαία αποκλειόμενες, αν έχουμε διχοτομική κλίμακα
μέτρησης, κατηγορίες. Π.χ. Το φύλο, η αστικότητα, η θρησκεία
κτλ.
=========== ==================== ======== ====
Θα λέμε τακτικές κλίμακες μέτρησης εκείνες στις οποίες η
ένταξη των υποκειμένων γίνεται σε κατηγορίες σαφείς,
ισοδύναμες, αλλά και διατεταγμένες μεταξύ τους. Π.χ. Η σειρά
προτεραιότητας στο ΙΚΑ, η κατάταξη σε κάποιο αγώνισμα-
πρώτος, δεύτερος, τρίτος κτλ.
================== ============ ========== ====
Θα λέμε αριθμητικές ή (ισο)διαστημικές τις κλίμακες μέτρησης
στις οποίες τα υποκείμενα εντάσσονται σε σαφώς καθορισμένες,
αμοιβαία αποκλειόμενες, διατεταγμένες κατηγορίες, και οι οποίες
όμως έχουν και το εξής, επιπλέον χαρακτηριστικό: χρησιμοποιούν
σταθερή μονάδα μέτρησης. Ο χρόνος (με μονάδες μέτρησης το
λεπτό, το δευτερόλεπτο, την ώρα κτλ., η απόσταση, η ηλικία, η
θερμοκρασία, σε κλίμακα Celsius ή Fahrenheit κτλ., είναι κλασικά
παραδείγματα αριθμητικών κλιμάκων.
============= =========== ============ == ====
Και τέλος, Θα λέμε αναλογικές κλίμακες μέτρησης, εκείνες που
διατηρούν όλα τα χαρακτηριστικά των διαστημικών κλιμάκων, και
επιπλέον διαθέτουν πραγματικό σημείο αναφοράς το οποίο
αντιστοιχεί στο απόλυτο μηδέν. Το σημείο αυτό είναι ένα γνήσιο
σημείο, είναι ένα εναρκτήριο σημείο, με την έννοια ότι το
χαρακτηριστικό ή η ιδιότητα που μετράει η κλίμακα στο σημείο
αυτό, δεν υπάρχει. Κλασικά παραδείγματα αναλογικής κλίμακας
είναι η ταχύτητα, η απόλυτη θερμοκρασία (βαθμοί Kelvin), η
πίεση του αίματος, το βάρος, η επιτάχυνση, η μάζα κτλ.
5
Telephone number……….. ……
Code Questionnaire………
Code Interviewer......…….
ΑΝΩΝΥΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ
Καλημέρα. Σας παίρνουμε από το τμήμα Πολιτικής Επιστήμης του Π. Κ., κάνουμε μια εργασία
στο μάθημα της Κοινωνικής Στατιστικής και θα θέλαμε τη γνώμη σας για το ρόλο των
Τραπεζών στη σημερινή συγκυρία. Θα θέλατε να μας απαντήσετε;
================================================== ====
1)Κατά τη γνώμη σας, οι ΤΡΑΠΕΖΕΣ, σε ποιο βαθμό βοηθούν την οικονομική ανάπτυξη
της χώρας; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
==================================================================
===============================================================
3) Σε ποιό βαθμό πιστεύετε ότι η σημερινή Κυβέρνηση είναι σε θέση να ελέγξει τις
ΤΡΑΠΕΖΕΣ; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ ⌂ ΔΓ/ΔΑ
===============================================================
5) Σε ποιό βαθμό είστε ικανοποιημένος/η από τα μέτρα που έλαβε πρόσφατα η σημερινή
Κυβέρνηση για την πρώτη κατοικία; ⌂ καθόλου ⌂ λίγο ⌂ αρκετά ⌂ πολύ
ΠΡΟΒΛΗΜΑ 1
f1 x1 f 2 x2 ... f k xk fx i i
X i 1
(1)
f1 f 2 ... f k k
f
i 1
i
Εφαρμόζουμε στη σχέση (1) τα δεδομένα του Προβλήματος (1) και λαμβάνουμε:
fx i i
1 4 2 5 3 6 5 7 2 8 1 9 1 10 102
X i 1
6,8
k
1 2 3 5 2 11 15
f
i 1
i
(X i X )2
s2 i 1
αν n < 30 (2)
n 1
n
(X i X )2
s2 i 1
αν n > 30 (3)
n
Ωστόσο, αν έχουμε μια άλλη κατανομή δεδομένων την x1, x2, x3,…, xk
στην οποία όμως η παρατήρηση x1 έχει συχνότητα εμφάνισης f1, η x2
συχνότητα εμφάνισης f2, …, η xk συχνότητα εμφάνισης fk , τότε για τη
διασπορά ισχύουν οι σχέσεις:
k
f (X i i X )2 k
s2 i 1
k
αν f i 30 (4)
f
i 1
i 1 i 1
12
f (X i i X )2 k
s2 i 1
k
αν f i 30 (5)
f
i 1
i
i 1
Παράδειγμα
Θα επιλέξουμε, σκόπιμα και πάλι, το ίδιο παράδειγμα, δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Η μέση τιμή γι αυτά τα δεδομένα είναι, όπως είδαμε X =6,8
Προφανώς η σχέση η οποία πρέπει να εφαρμόσουμε είναι η (4) από
την οποία προκύπτει:
f (X i i X )2
s2 i 1
k
f
i 1
i 1
1(4 6,8) 2 2(5 6,8) 2 3(6 6,8) 2 5(7 6,8) 2 2(8 6,8) 2 1(9 6,8) 2 1(10 6,8) 2
1 2 3 5 2 11 1
34,398
= 2, 457
14
s s2 (6)
Παράδειγμα
Αν πάρουμε το προηγούμενο δείγμα παρατηρήσεων δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
δεδομένου ότι έχουμε υπολογίσει γι’ αυτό τη διασπορά, είναι
εύκολο να υπολογίσουμε άμεσα και την τυπική του απόκλιση.
Πράγματι, από τη σχέση (6) έχουμε:
s s 2 2, 457 =1,568
Παράδειγμα
Λαμβάνουμε και πάλι το ίδιο δείγμα παρατηρήσεων, το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
Τότε, προφανώς R=max-min=10-4=6
s
sX (7)
n
Παράδειγμα
Ας λάβουμε και πάλι το ίδιο δείγμα, δηλ. το:
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
s 1,568 1,568
sX 0,405
n 15 3,88
========== =========== ============= ==============
Θα λέμε στρεβλότητα ή λοξότητα (skewness), μιας κατανομής
x1, x2, x3,…, xk στην οποία όμως η παρατήρηση x1 έχει συχνότητα
εμφάνισης f1, η x2 συχνότητα εμφάνισης f2, …, η xk συχνότητα
εμφάνισης fk , το μέγεθος που ορίζεται από τη σχέση:
f (X
i 1
i i X )3
k
f i
SK i 1
(8)
s3
Η στρεβλότητα, είναι ένα μέτρο που μας δείχνει την έκταση στην
οποία μια κατανομή τιμών αποκλίνει από τη συμμετρία, γύρω από το
μέσο όρο. Έτσι:
Αν σε μια κατανομή έχουμε SK > 0 η κατανομή μας είναι
ασύμμετρη δεξιά ( positive skewed), δηλ. έχει την ουρά της στα
δεξιά (βλ. Σχ.3.1). Αυτό σημαίνει ότι στα δεξιά υπάρχει έλλειμμα
τιμών, ενώ προς την άλλη μεριά, δηλ. προς τα αριστερά, υπάρχει
πλεόνασμα τιμών. Ας μη λησμονούμε ωστόσο, ότι στα δεξιά είναι
οι υψηλού μεγέθους τιμές (μεγάλης αξίας), ενώ προς τα αριστερά
οι χαμηλού μεγέθους (μικρής αξίας) τιμές του δείγματός μας.
Αν σε μια κατανομή έχουμε SK < 0 η κατανομή μας είναι
ασύμμετρη αριστερά (negative skewed), δηλ. έχει την ουρά της
στα αριστερά (βλ. Σχ.3.2).
Αν σε μια κατανομή έχουμε SK = 0 η κατανομή μας δεν
είναι ασύμμετρη ούτε δεξιά, ούτε αριστερά, δηλ. δεν έχει ουρά,
οπότε είναι μια συμμετρική κατανομή (βλ. Σχ.3.3).
Σχόλιο: Αν υποθέσουμε ότι ένας ερευνητής εκτελεί ψυχομετρικά
πειράματα, τι θα μπορούσε να σημαίνει μια τιμή για παράδειγμα
SK=0,86 ; Οι Darren and Mallery (2001), ισχυρίζονται ότι για τη
στρεβλότητα μια τιμή 1, θεωρείται εξαιρετική για ψυχομετρικά
πειράματα, ενώ μια τιμή 2 είναι σε αρκετές περιπτώσεις
αποδεκτή. Ωστόσο, εμείς δεν αυτό δεν μπορούμε να το λάβουμε
18
f (X
i 1
i i X )3
k
f i
SK i 1
s3
1(4 6,8)3 2(5 6,8)3 3(6 6,8)3 5(7 6,8)3 2(8 6,8)3 1(9 6,8)3 1(10 6,8)3
1 2 3 5 2 11
(1,568)3
0,9715
= 0, 252 > 0 η κατανομή μας είναι ασύμμετρη δεξιά, δηλ.
3,85
έχει την ουρά της δεξιά.
19
Σχ. 3.1
Σχ. 3.2
Σχ. 3.3
20
f (X
i 1
i i X )4
k
f i
KU i 1
3 (9)
s4
Παράδειγμα
Αν έχουμε το ίδιο δείγμα δηλ. το
4, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 9, 10
f (X
i 1
i i X )4
k
f i
KU i 1
3=
s4
1(4 6,8)4 2(5 6,8)4 3(6 6,8)4 5(7 6,8)4 2(8 6,8)4 1(9 6,8)4 1(10 6,8)4
1 2 3 5 2 1 1 3
(1,568)4
Σχ. 3.4
Σχ. 3.5
23
Σχ. 3.6
ΔΕΙΚΤΕΣ ΟΜΟΙΟΓΕΝΕΙΑΣ
Η ομοιογένεια των δεδομένων μας μετριέται με το συντελεστή
μεταβλητότητας.
26
s
CV (10)
x
s 1,568
αφού s=1,568 και x =6,8 CV 0, 23 0,10 Δεν
x 6,8
υπάρχει ομοιογένεια στο δείγμα μας.
Εισήγηση 2: Θεωρία Πιθανοτήτων
ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ
Για παράδειγμα, ρίχνουμε δύο φορές ένα νόμισμα και καταγράφουμε την
επάνω όψη που εμφανίζεται. Τότε, ο δειγματικός χώρος είναι ο
Ω = {ΚΚ, ΓΓ, ΓΚ, ΚΓ}.
Πράξεις με ενδεχόμενα
Έστω ότι έχουμε ένα δειγματικό χώρο Ω και δύο ενδεχόμενά του Α και Β. Τό-
τε:
Το ενδεχόμενο Α Β πραγματοποιείται, όταν πραγματοποιείται ένα
τουλάχιστον από τα Α και Β.
Το ενδεχόμενο Α Β πραγματοποιείται, όταν και το Α και το Β ενδεχό-
μενο πραγματοποιούνται.
Το ενδεχόμενο Α΄ ορίζεται ως το αντίθετο ή το συμπληρωματικό του Α
και πραγματοποιείται, όταν δεν πραγματοποιείται το Α.
Το ενδεχόμενο Α–Β πραγματοποιείται, όταν πραγματοποιείται το Α, αλλά
δεν πραγματοποιείται το Β.
Αν εστιάσουμε την προσοχή μας στο παρακάτω σχήμα (Σχ. 1) εύκολα αντι-
λαμβανόμαστε πως ισχύουν οι σχέσεις:
Α–Β = Α Β΄ (1)
(Α–Β) (Α Β) = Α (2)
(Β–Α) (Α Β) = Β (3)
Β–Α = Β Α΄ (4)
Ω
Α Β
A ∩Β Β–Α
Α–Β
Σχ .1
==================== =============== ============= ======
Οι κανόνες του De Morgan:
(A B)΄ = Α΄ Β΄ (5)
(Α Β)΄ = Α΄ Β΄ (6)
================== ==================== ======= ====
Άσκηση 1
Ας πάρουμε στην τύχη μια οικογένεια, η οποία έχει τρία παιδιά. Και ας υποθέ-
σουμε ότι το ενδιαφέρον μας εστιάζεται στο φύλο και στη σειρά γέννησης.
1) Να ορίσετε το δειγματικό χώρο του πειράματος
2) Να προσδιορίσετε το ενδεχόμενο Α: το πρώτο παιδί να είναι κορίτσι
Λύση
1) Ο δειγματικός χώρος προσδιορίζεται από το σύνολο Ω όπου
Ω = {ΑΑΑ, ΚΚΚ, ΑΑΚ, ΑΚΚ, ΚΑΑ, ΚΚΑ, ΚΑΚ, ΑΚΑ}.
Ν ( Α)
Ισοδύναμα γράφουμε: P ( A) = .
Ν (Ω )
Ο παραπάνω ορισμός έχει τρεις συνέπειες:
Ν (Ω )
1. P (Ω ) = =1
Ν (Ω )
0
2. P (Ζ ) = =0
Ν (Ω)
3. 0 £ P( A) £ 1
=========================== ==========================
==================== ============================== =====
Λύση
Θα έχουμε:
N (Ω ) = 3 + 4 + 6 = 13
N ( A) 3
P ( A) = =
N (Ω ) 13
3 10
P ( B ) = 1 ‐ P ( A) = 1 ‐ =
13 13
N(Γ ) 6
P( Γ ) = =
N (Ω ) 13
N ( Δ) 9
P ( Δ) = =
N (Ω ) 13
P ( A ') = 2 P( A) (1)
P ( AΆ) = 1 ‐ P ( A) (2)
Αφού τα πρώτα μέλη των (1) και (2) είναι ίσα θα είναι και τα δεύτερα. Επομέ-
νως:
1
2 P( A) = 1 ‐ P ( A) ή 3P ( A) = 1 ή P ( A) =
3
Α = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
Β = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.
N ( A) 6 N ( B) 5
Επομένως, P ( A) = = και P ( B ) = =
N (Ω ) 36 N (Ω ) 36
========================== ================= === === =====
============== ==================== ========== =======
Άσκηση 7
Σε κάποιο χωριό το 20% των νοικοκυριών δεν έχει τηλεόραση, το 30% δεν έχει
βίντεο, ενώ το 15 % δεν έχει ούτε το ένα ούτε το άλλο. Παίρνουμε στην τύχη
ένα νοικοκυριό. Ποια η πιθανότητα να έχει και βίντεο και τηλεόραση;
Λύση
Έστω τα ενδεχόμενα:
T: το νοικοκυριό δεν έχει τηλεόραση
V: το νοικοκυριό δεν έχει βίντεο
Αλλά τότε για τις αντίστοιχες πιθανότητες της άσκησης έχουμε:
20 2 1
P (T ) (1)
100 10 5
30 3
P (V ) (2)
100 10
15
P (T Η V ) = (3)
100
P (T ΆΗ V Ά) = P[(T Θ V ) Ά] = 1 ‐ P(T Θ V )
= 1 ‐ [ P (T ) + P (V ) ‐ P (T Η V )]
ζ 1 3 15 φ 1 3 15 115 50 65
= 1‐ η + ‐ χ = 1‐ ‐ + = ‐ =
θ 5 10 100 ψ 5 10 100 100 100 100
P ( A Η B ) = P( A) P ( B ) .
Άσκηση 8
Μέσα σε ένα κιβώτιο έχουμε 12 άσπρα και 18 μαύρα σφαιρίδια. Βγάζουμε
στην τύχη δύο σφαιρίδια, το ένα διαδοχικά μετά το άλλο, επανατοποθετώντας
όμως το πρώτο σφαιρίδιο μέσα στο κιβώτιο. Να βρείτε τις πιθανότητες:
1. Το πρώτο σφαιρίδιο να είναι άσπρο και το δεύτερο μαύρο
2. Και τα δύο σφαιρίδια να είναι άσπρα
3. Και τα δύο σφαιρίδια να είναι μαύρα
Λύση
Θεωρούμε τα ενδεχόμενα:
Α: Το πρώτο σφαιρίδιο είναι άσπρο
Β: Το δεύτερο σφαιρίδιο είναι άσπρο
12 2 12 2
Προφανώς τότε P ( A) = = και P ( B ) = =
30 5 30 5
1. Εδώ προφανώς αναζητούμε την πιθανότητα P ( A Η B Ά) για την οποία έ-
2 3 6
χουμε: P ( A Η B Ά) = P ( A) P ( B Ά) = Χ = .
5 5 25
2 2 4
2. Εδώ αναζητούμε την πιθανότητα P ( A Η B ) = P ( A) P( B) = Χ = .
5 5 25
3 3 9
3. Εδώ αναζητούμε την πιθανότητα P ( AΆΗ B Ά) = P ( AΆ) P( B Ά) =
Χ = .
5 5 25
========================== ======================== === =
=============== =================== =========== ==== ====
Άσκηση 9
Έστω ότι διαθέτουμε ένα ζάρι, ένα νόμισμα και μια τράπουλα 52 φύλλων. Ρί-
χνουμε πρώτα το ζάρι, μετά το νόμισμα και τέλος τραβάμε από την τράπουλα
ένα χαρτί.
Να υπολογιστεί η πιθανότητα το ζάρι να είναι το 4, το νόμισμα «γράμματα»,
και το φύλλο 10.
Λύση
Ορίζουμε τα ενδεχόμενα:
Α: Το ζάρι είναι το 4
Β: Το νόμισμα είναι «γράμματα»
Γ: Το φύλλο είναι το 10
Τα ενδεχόμενα Α, Β, Γ είναι σαφές ότι είναι ανεξάρτητα ενδεχόμενα.
Προφανώς ζητείται η πιθανότητα P ( A Η B Η Γ ) για την οποία είναι:
1 1 4 1
P ( A Η B Η Γ ) = P ( A) P( B) P ( Γ ) = Χ Χ =
6 2 52 156
P ( A) = 0, 4
P ( Γ ) = 0,6
P ( K | A) = 0,5
P ( K | Γ ) = 0,3
0, 4 Χ0,5 0, 2 0, 2 20 10
= = = = =
0, 4 Χ0,5 + 0, 6 Χ0,3 0, 2 + 0,18 0,38 38 19
1
Εισήγηση 3Α: Η Κανονική Κατανομή
Προ-έννοιες
Συνεχής τυχαία μεταβλητή
Συνάρτηση πυκνότητας πιθανότητας
Συνάρτηση κατανομής
Παραδείγματα
1. Η τυχαία μεταβλητή Α που συμβολίζει το χρόνο που χρειάζονται διάφοροι
τύποι αεροπλάνων για να καλύψουν την απόσταση Κρήτη- Θεσσαλονίκη, αν
λαμβάνει τιμές από το διάστημα (15, 60) λεπτών της ώρας, είναι μια συνεχής
τυχαία μεταβλητή.
2. Η τυχαία μεταβλητή V που συμβολίζει το βαθμό που λαμβάνουν οι φοιτητές
στις εξετάσεις, αν παίρνει τιμές από ένα διάστημα (0,10) μονάδων, είναι μία
συνεχής μεταβλητή.
f(x)
X
Σχ. 1. Το γραμμοσκιασμένο μέρος ισούται με 1 τετραγωνική
μονάδα
Y χ=α
χ=β
f(x)
X
Σχ. 2. Το γραμμοσκιασμένο μέρος ισούται με την πιθανότητα
P(α<Χ<β)
3
Παράδειγμα
Έστω ότι η συνεχής τυχαία μεταβλητή Χ έχει συνάρτηση πυκνότητας
πιθανότητας την f(x) με :
2 x 0<x 1
f ( x)
0
Λύση
i. Προφανώς όλες οι τιμές της f(x) είναι θετικές ή μηδέν για κάθε x. Η γραφική
f(1)=2 A
f(x)
0 1 X
Σχ.3
αναπαράσταση της f(x) φαίνεται στο Σχ.3. Αυτό είναι φανερό από τον ορισμό
της. Έχουμε δηλ. f(x) 0 x. Επίσης, από το ίδιο σχήμα, για το
γραμμοσκιασμένο εμβαδόν έχουμε:
4
1
EOAB 1 2 1
2
Επομένως, η f(x) πληροί τις προϋποθέσεις που αναφέραμε και κατά συνέπεια
είναι μια συνάρτηση πυκνότητας πιθανότητας για την τυχαία μεταβλητή Χ.
1
iii. Την πιθανότητα P( X 1) προφανώς θα μας την δώσει το εμβαδόν
2
του γραμμοσκιασμένου χωρίου στο Σχ.4.
f(1)=2 A
f(x)
Γ B
1
0 1 X
2
Σχ. 4
1 3
P ( X 1) E
2 4
2
Τέλος, για τον υπολογισμό της πιθανότητας P ( X ) έχουμε από το Σχ. 5 τα
3
εξής:
5
4
2
2 3 1 10 5
P ( X ) E
3 2 2 3 18 9
f(1)=2 A
Δ
4 f(x)
3
B
Γ
0 2 1 X
3
Σχ. 5
Συναρτήσεις κατανομής
Όπως αντιστοιχίσαμε σε μια τυχαία συνεχή μεταβλητή Χ μια συνάρτηση πυκνότητας
πιθανότητας f(x), με ανάλογο τρόπο θα μπορούσαμε να ορίσουμε για την ίδια τυχαία
συνεχή μεταβλητή και μια συνάρτηση κατανομής.
Θα λέμε συνάρτηση κατανομής, ή συνάρτηση αθροιστικής κατανομής για μια
τυχαία συνεχή μεταβλητή Χ, και θα τη συμβολίζουμε με F(x), την πιθανότητα
P( X x) ή την πιθανότητα P( X x) . Δηλ. ισχύει:
F ( x) P( X x) P( X x)
Όταν δε, θέλουμε να δηλώσουμε ότι μια τυχαία μεταβλητή Χ ακολουθεί την
κανονική κατανομή, με μέση τιμή μ και τυπική απόκλιση σ, τότε γράφουμε
συμβολικά: Χ ~ Ν(μ,σ2).
Εύκολα αντιλαμβάνεται κανείς, ότι σύμβολο Ν(μ,σ2) υπαινίσσεται μια
οικογένεια κατανομών, κάθε μέλος της οποίας ορίζεται από το ζεύγος των
παραμέτρων μ και σ. Για παράδειγμα, αν έχουμε τα ζεύγη των κανονικών
κατανομών (μ1=0 , 12 =1) και (μ2=1 , 22 =1), τότε η γραφική τους αναπαράσταση
μπορεί να γίνει όπως στο Σχ. 8.
Η κανονική κατανομή είναι ένα ‘πρότυπο’ που γεννήθηκε μέσα από την
Ιστορία του 18ου αιώνα.
Οι μαθηματικοί της εποχής αυτής παρατήρησαν αργά αλλά σταθερά, τη
γέννηση αυτού του προτύπου. Παρατήρησαν δηλ. πως τα σφάλματα των
μετρήσεων είχαν μια εκπληκτική ομοιομορφία, ας την πούμε ‘κανονικότητα’. Τα
σφάλματα των μετρήσεων ακολουθούσαν, με άλλα λόγια, ένα μαθηματικό νόμο,
ο οποίος κάποια στιγμή ονομάστηκε ‘νόμος των σφαλμάτων’.
Για παράδειγμα, αν μετράμε ξανά και ξανά την ίδιο χαρακτηριστικό, ας
πούμε
το ανθρώπινο βάρος,
το ύψος,
την πίεση του αίματος ή
τις τιμές της χοληστερόλης ανά μονάδα φυσιολογικού ορού,
Όπου,
Zi είναι η λεγόμενη z-τιμή,
X η μέση τιμή του δείγματος,
και S η τυπική του απόκλιση.
Παράδειγμα
Ας υποθέσουμε ότι έχουμε και πάλι το δείγμα των 15 φοιτητών και φοιτητριών
του Καθηγητή Δεληβοριά:
5,6,6,7,7,8, 4,5,6,7,7,7,8,9,10
Αν θέσουμε X1=1, X2=6, …, X14=9, X15=10, τότε με βάση τον τύπο (3), και αφού
X 6,8 και S=1,568 , θα έχουμε τις αντίστοιχες z-τιμές:
X X 5 6,8
Z1 1 1,14831
S 1,568
X 2 X 6 6,8
Z2 0,51036
S 1,568
….
X 14 X 9 6,8
Z14 1, 40348
S 1,568
X 15 X 10 6,8
Z15 2, 04143
S 1,568
10
4
Frequency
Mean = 6,8
Std. Dev. = 1,568
0
N = 15
4 5 6 7 8 9 10
v1
Σχ.11
4
Frequency
Mean = -4,4408921
E-16
Std. Dev. = 1,00000
0 N = 15
-2,00000 0,00000 2,00000
Zscore(v1)
Σχ. 12
Στο Σχ.12 επίσης παρατηρούμε ότι περίπου κανονική είναι και η κατανομή της
μεταβλητής Zv1, με μέσο όρο περίπου ίσο με μηδέν και τυπική απόκλιση ίση με ένα.
X
P( X ) P( ) P( z Z Z ) F ( z ) F ( z ) (5)
Όπου,
z και z είναι οι τυποποιημένες τιμές της τυχαίας μας
μεταβλητής Χ η οποία υποθέσαμε ότι ακολουθεί την κανονική κατανομή.
13
Παράδειγμα
Σε κάποια ευρωπαϊκή χώρα είναι γνωστό από μελέτες ότι το ύψος των παιδιών
της προσχολικής ηλικίας ακολουθεί την κανονική κατανομή με μέση τιμή 110 cm
και τυπική απόκλιση 10 cm. Συναντάμε στην τύχη ένα από τα παιδιά αυτής της
ηλικίας και αυτής της χώρας. Ποια η πιθανότητα:
Α) Να έχει ύψος μεγαλύτερο από 120 cm
Β) Να έχει ύψος κάτω από 90 cm.
Γ) Το ύψος του να κυμαίνεται μεταξύ 90 και 110 cm.
Λύση
Α) Προφανώς αναζητούμε την πιθανότητα P(X>120). Αλλά γι’ αυτήν την
πιθανότητα έχουμε:
X 110 120 110
P ( X 120) P ( ) P( Z 1) 1 P( Z 1) 1 F (1)
10 10
1 0,8413 0,1587
Με άλλα λόγια η ζητούμενη πιθανότητα είναι 15,87 %.
Συμπέρασμα
Αφού Z B Z B ο φοιτητής ήταν καλύτερος στο μάθημα Β.
16
30
25
20
Frequency
15
10
Mean = 264,84
Std. Dev. = 50,157
N = 186
0
100 150 200 250 300 350 400
epipeda xolisterolis ana monada fisiologikou orou
Σχ.14
17
Άσκηση 1
Ο χρόνος που χρειάζεται ένας φοιτητής για να προετοιμαστεί στο μάθημα της
Μεθοδολογίας των Κοινωνικών Επιστημών, στις εξετάσεις του Ιουνίου, βρέθηκε
ότι προσεγγιστικά ακολουθεί την κανονική κατανομή με μέση τιμή μ=25 ώρες
και τυπική απόκλιση σ=5 ώρες.
Α) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη περισσότερες από 30 ώρες.
Β) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη λιγότερο από 15 ώρες.
Γ) Να υπολογιστεί το ποσοστό των φοιτητών οι οποίοι δαπανούν στην
επανάληψη από 15 μέχρι 25 ώρες.
=============== =================== ======== ======= =====
Λύση
Α) Αν συμβολίσουμε με την τυχαία μεταβλητή Χ, το χρόνο που δαπανούν οι
φοιτητές για την επανάληψη του μαθήματος, προφανώς αναζητούμε την
πιθανότητα P( X 30) . Επίσης από τα δεδομένα του προβλήματος έχουμε ότι
μ=25 και σ=5. Έτσι, για τη ζητούμενη πιθανότητα έχουμε:
X 25 30 25
P ( X 30) P( ) [μετασχηματισμός σύμφωνα με τη σχέση 5]
5 5
P( Z 1) 1 P( Z 1) 1 F (1) [βλ. Σχ. 15]
1 0,8413 0,1587
Δηλ. περίπου το 2,28 % των φοιτητών δαπανά στην επανάληψη του μαθήματος
αυτού, χρόνο μικρότερο, των 15 ωρών.
Σημείωση
Από τον Πίνακα της τυπικής κανονικής κατανομής που σας δόθηκε βρίσκουμε ότι F(2)=0,9772.
Συμπέρασμα
Περίπου το 47,72% των φοιτητών, δαπανά για την επανάληψη, χρόνο που
κυμαίνεται από 15 μέχρι 25 ώρες.
19
Λύση
Α) Αν συμβολίσουμε με την τυχαία μεταβλητή Χ, τα μηνιαία έξοδα των
φοιτητών, προφανώς
αναζητούμε την πιθανότητα P ( X 1000) .
έχουμε ότι μ=800 και σ=80.
Έτσι, έχουμε:
X 800 1000 800
P ( X 1000) P( )
80 80
200
P( Z ) P( Z 2,5)
80
1 P( Z 2,5)
1 F (2,5)
1 0,9798 0, 0202
Γ) Εδώ, προφανώς αναζητούμε την πιθανότητα P(400 X 600) για την οποία
έχουμε:
20
P (400 X 600)
400 800 X 800 600 800
P( )
80 80 80
P(5 Z 2,5)
F (2,5) F (5) 1 F (2,5) [1 F (5)]
1 F (2,5) 1 F (5) F (5) F (2,5)
0,9999997 0,9938 0, 0061997
Η απάντηση είναι ότι θα τεθεί στην κρίση ενός συγκεκριμένου
(κάθε φορά) στατιστικού κριτηρίου.
μ2.
Η μηδενική υπόθεση, είναι μια υπόθεση μηδενικής διαφοράς, όπως λέει και το
όνομά της. Και προφανώς, ή θα γίνει δεκτή ή θα απορριφθεί.
•Αν γίνει δεκτή, αυτό θα σημαίνει όχι κατ’ ανάγκη ότι είναι αληθινή, αλλά ότι δεν
υπάρχουν αρκετά στοιχεία ή πληροφορίες για να την απορρίψουμε.
•Αν απορριφτεί, αυτό θα σημαίνει ότι οι πληροφορίες, η μαρτυρία που διαθέτουμε
είναι ικανή να κλονίσει την ισχύ της.
► Στο χώρο της Κοινωνικής Έρευνας, ως τιμές του επιπέδου στατιστικής
σημαντικότητας επιλέγονται οι τιμές 5%, 3 %, 1% ή τέλος 1%ο. Η πιο
συνηθισμένη τιμή επιπέδου σ.σ. είναι 5 %. Αυτή την τιμή θα λαμβάνουμε κι εμείς
στις έρευνές μας, ως πιθανοθεωρητικό όριο, αν βέβαια δεν μας πουν κάτι
διαφορετικό.
► Η ελάχιστη τιμή του επιπέδου στατιστικής σημαντικότητας, που αντιστοιχεί
στην απόρριψη της μηδενικής υπόθεσης, είναι γνωστή στην αγγλική
βιβλιογραφία, με τον όρο p‐value.
Τι κάνουμε στην πράξη;
► Στην πράξη, δηλ. στο πλαίσιο του SPSS, και του STATA, με τα οποία εμείς
συνεχώς εργαζόμαστε, θα κάνουμε λόγο για δύο επίπεδα στατιστικής
σημαντικότητας:
Το πρώτο αφορά το παρατηρούμενο επίπεδο σ.σ., το οποίο πάντα θα μας το
προσφέρει το SPSS (observed significance level), όταν εφαρμόζουμε ένα
οποιοδήποτε στατιστικό κριτήριο.
Το δεύτερο αφορά το θεωρητικό επίπεδο σ.σ., αυτό δηλ. που εμείς σαν
ερευνητές καθορίζουμε και με βάση το οποίο θα κριθεί η μηδενική μας υπόθεση.
Οι συλλογισμοί‐πρακτικοί Κανόνες για να καταλήξουμε σε συμπέρασμα
■ Αν το παρατηρούμενο επίπεδο σ.σ. είναι μεγαλύτερο του θεωρητικού
Ηο ισχύει.
Αντίθετα…
======================= ================ == ===
■ Αν το παρατηρούμενο επίπεδο σ.σ. είναι μικτότερο του θεωρητικού
Ηο απορρίπτεται.
Τελικά αυτό που πάντα μας ενδιαφέρει είναι η τύχη της Μηδενικής Υπόθεσης…
Μονόπλευρος και αμφίπλευρος έλεγχος υποθέσεων
Παράδειγμα 4.
Ας υποθέσουμε ότι μας έχει δοθεί δείγμα φοιτητών, οι οποίοι έχουν υποβληθεί
σε κάποιο τεστ γνώσεων και μας τίθεται το ερώτημα: Ο μέσος όρος μ του
πληθυσμού από τον οποίο προέρχεται το δείγμα αυτών των φοιτητών διαφέρει
από την τιμή 80;
Η μηδενική και η εναλλακτική μας υπόθεση είναι τότε αντίστοιχα:
Ηο: Ο μέσος όρος μ του πληθυσμού από το οποίο προέρχεται το δείγμα των
φοιτητών, δεν διαφέρει από την τιμή 80. Συμβολικά: μ=80.
Η1: Ο μέσος όρος του πληθυσμού από το οποίο προέρχεται το δείγμα των
φοιτητών, διαφέρει από την τιμή 80. Συμβολικά: μ 80.
Το παραπάνω παράδειγμα 4, είναι ένα παράδειγμα ελέγχου υποθέσεων διπλής
κατεύθυνσης. Διότι, όταν λέμε ότι μ 80, ίσως αυτό το μ να είναι μικρότερο του 80,
οπότε έχουμε έλεγχο προς τα αριστερά (μ<80), ή αυτό το μ να είναι μεγαλύτερο
του 80, οπότε έχουμε έλεγχο προς τα δεξιά (μ>80). Με άλλα λόγια, η λέξη
‘διαφέρει’, επειδή μας παραπέμπει σε έλεγχο και προς τα αριστερά (αρνητική
κατεύθυνση) και προς τα δεξιά (θετική κατεύθυνση), αντανακλά αμφίπλευρο
έλεγχο, δηλ. έλεγχο σε διπλή κατεύθυνση (two way testing hypothesis).
Τι κάνουμε στην πράξη όταν βρεθούμε μπροστά σε ένα ερευνητικό πρόβλημα;
► Με βάση όλα τα παραπάνω, και πάντα στο πλαίσιο του SPSS, όταν βρεθούμε
μπροστά σε κάποιο στατιστικό πρόβλημα τα βήματα είναι τα εξής:
→ Αποφασίζουμε ποιο είναι το κατάλληλο στατιστικό κριτήριο που θα πρέπει να
επιστρατεύσουμε για να λύσουμε το πρόβλημα.
→ Διατυπώνουμε με σαφήνεια τόσο τη μηδενική, όσο και την εναλλακτική μας
υπόθεση.
→ Καθορίζουμε, μελετώντας τη βιβλιογραφία, την ιστορία του πράγματος, τις
προηγούμενες σχετικές έρευνες, το θεωρητικό επίπεδο στατιστικής
σημαντικότητας, με βάση το οποίο θα κρίνουμε τη μηδενική μας υπόθεση.
→ Τότε, αν το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, εκείνο δηλ.
που μας δίνει το SPSS, είναι μικρότερο από το θεωρητικό τότε απορρίπτουμε τη
μηδενική μας υπόθεση ως μη αληθή, θεωρούμε ότι αυτή δεν ισχύει και
δεχόμαστε ως αληθή και επομένως ως αληθή την εναλλακτική μας υπόθεση.
Αντίθετα, αν το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, εκείνο δηλ.
που μας δίνει το SPSS, είναι μεγαλύτερο από το θεωρητικό, τότε δεχόμαστε τη
μηδενική μας υπόθεση ως αληθή, δηλ. λέμε ότι αυτή ισχύει.
Σφάλματα στους ελέγχους υποθέσεων
♦ Σφάλμα τύπου Ι. Σε ένα έλεγχο υποθέσεων, αν απορρίψουμε ως εσφαλμένη τη
μηδενική μας υπόθεση, ενώ αυτή είναι στην πραγματικότητα αληθής, τότε
διαπράττουμε σφάλμα τύπου Ι. Η πιθανότητα να διαπράξουμε σφάλμα τύπου Ι,
ονομάζεται συντελεστής α.
Συμβολικά: P(I)=α.
♦ Σφάλμα τύπου ΙΙ. Σε ένα έλεγχο υποθέσεων, αν δεχθούμε ως αληθή τη
μηδενική μας υπόθεση, ενώ αυτή στην πραγματικότητα είναι εσφαλμένη, τότε
διαπράττουμε σφάλμα τύπου ΙΙ. Η πιθανότητα να διαπράξουμε σφάλμα τύπου ΙI,
ονομάζεται συντελεστής β.
Συμβολικά: P(ΙI)=β.
Οι μεταβολές ή αλλιώς τα παιχνίδια του συντελεστή β
Οπωσδήποτε συντελεστής β γίνεται μεγαλύτερος:
1. Όσο κινούμαστε από την ποσοτική προς την ποιοτική ανάλυση, όσο δηλ. στις
στατιστικές μας αναλύσεις κυριαρχούν τα ποιοτικά δεδομένα, σε βάρος των
ποσοτικών.
2. Όσο ο συντελεστής α γίνεται μικρότερος.
3. Όσο το μέγεθος του δείγματος είναι μικρότερο.
4. Όσο μεγαλύτερη είναι η διασπορά του πληθυσμού.
5. Όσο πιο αναξιόπιστες είναι οι μετρήσεις.
Ας συζητήσουμε…
► Τα σφάλματα τύπου α και β, δεν είναι σφάλματα σταθερού αθροίσματος,
παρά το γεγονός ότι αυξανομένου του ενός μειώνεται το άλλο.
Με άλλα λόγια, δεν ισχύει α+β=σταθ.
Για παράδειγμα στα μαθηματικά μπορεί να έχουμε τη σχέση α+β=σταθ=10
Και όσο μειώνουμε το α τόσο θα πρέπει να αυξάνουμε το β για να είναι σταθερό
το άθροισμά τους στο 10.
Κάτι τέτοιο όμως δεν ισχύει στη Στατιστική, αν τα α και β είναι σφάλματα.
Ωστόσο εμείς στις Έρευνές μας πάντα θέλουμε :
μικρό σφάλμα τύπου Ι
και μικρό σφάλμα τύπου ΙΙ
► Είναι σαφές ότι, αν θέλουμε να περιορίσουμε την πιθανότητα σφάλματος
τύπου Ι, θα πρέπει να πάρουμε, όσο το δυνατόν μικρότερο επίπεδο στατιστικής
σημαντικότητας α.
► Αλλά, όσο μικρότερο είναι το επίπεδο στατιστικής σημαντικότητας α, τόσο
μεγαλύτερη είναι η πιθανότητα να διαπράξουμε σφάλμα τύπου ΙΙ: Να δεχθούμε,
εσφαλμένα, τη μηδενική μας υπόθεση, ως αληθή.
Τελικά, τι πρέπει να κάνει ο Κοινωνικός Ερευνητής αφού αυξανομένου του ενός
μειώνεται το άλλο και αντίστροφα;
► Να πούμε δηλ. εδώ στη στατιστική ανάλυση ότι ισχύει το γνωστό ‘εμπρός
γκρεμός και πίσω ρέμα’; Η απάντηση είναι πως ο Κοινωνικός ερευνητής θα πρέπει
να καταφέρει το φαινομενικά ακατόρθωτο: την ταυτόχρονη μείωση και των δύο
σφαλμάτων. Και κάτι τέτοιο είναι απολύτως εφικτό με την αύξηση του μεγέθους
του δείγματος, στο μέτρο βέβαια του δυνατού.
Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου (Power)
Ορισμός. Θα λέμε διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου,
και θα τη συμβολίζουμε με P,
την πιθανότητα να μην διαπράξουμε σφάλμα τύπου ΙΙ.
Συμβολικά ισχύει:
Ρ=1‐β
Με άλλα λόγια, θα λέμε διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου,
την πιθανότητα να κηρύξουμε αληθινή την εναλλακτική μας υπόθεση Η1, όταν
αυτή είναι πράγματι αληθινή.
Αυτό το τελευταίο πώς το λέμε με πολιτικούς όρους;
Αν θέλαμε να το πούμε αυτό με πολιτικούς όρους, θα λέγαμε πως είναι η
πιθανότητα να κηρύξουμε ένοχο τον κατηγορούμενο, όταν πράγματι αυτός είναι
ένοχος.
Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου μας δείχνει πόσο βέβαιοι
είμαστε ότι δεν διαπράξαμε σφάλμα τύπου ΙΙ και επομένως είναι λογικό να είναι
ίση με το αποτέλεσμα της διαφοράς 1‐β.
Γι αυτό ακριβώς ισχύει η σχέση που γράψαμε παραπάνω για την Power:
Ρ=1‐β
Από τη σχέση αυτή είναι προφανές ότι
όσο μικρότερος είναι ο συντελεστής β,
τόσο μεγαλύτερη είναι η Ρ.
Έτσι,
Η διαφοροποιητική δύναμη ενός στατιστικού κριτηρίου, αφού είναι συνάρτηση
του συντελεστή β, είναι λογικό να εξαρτάται όπως και εκείνος, από μια σειρά
παραγόντων της ερευνητικής διαδικασίας.
Το περιεχόμενο των όρων
‘στατιστικώς σημαντική διαφορά’,
Και στατιστικώς ‘ασήμαντη διαφορά’
Ας υποθέσουμε και πάλι ότι έχουμε ένα τυχαίο δείγμα, μεγέθους n και μέσης
τιμής , το οποίο θέλουμε να ξέρουμε αν προέρχεται από ένα πληθυσμό με μέση
τιμή μ. Εάν σχηματίσουμε τη διαφορά , τότε αυτή η διαφορά μπορεί να είναι μια
μικρή, συνήθης διαφορά ή να είναι μια μεγάλη, ασυνήθης διαφορά.
Γενικά, αν μια διαφορά μεταξύ ενός στατιστικού δείκτη ενός δείγματος και της
αντίστοιχης παραμέτρου του πληθυσμού είναι τόσο μεγάλη, ώστε να μην είναι
δυνατόν να αποδοθεί στη φυσική διακύμανση των τυχαίων δειγμάτων που
λαμβάνουμε από αυτόν τον πληθυσμό, τότε λέμε ότι μπορεί να γίνεται λόγος για
στατιστικώς σημαντική διαφορά. Η εμφάνιση στατιστικώς σημαντικής διαφοράς,
οφείλεται στη δράση ενός συστηματικού εξωτερικού παράγοντα και όχι στην
τυχαία δειγματοληψία.
Αν όμως η διαφορά ανάμεσα σε ένα στατιστικό δείκτη ενός δείγματος και στην
αντίστοιχη παράμετρο του πληθυσμού είναι τόσο μικρή ώστε να τη θεωρούμε
συνήθη διαφορά, τότε είναι δυνατόν να γίνει λόγος για στατιστικώς ασήμαντη
διαφορά.
Τέλος Β’ Εισήγησης
Εισήγηση 4Β: Έλεγχοι Κανονικότητας
Προλεγόμενα και διαπιστώσεις για να εισαχθούμε στους
ελέγχους κανονικότητας.
•ένα τυχαίο δείγμα, ποτέ δεν είναι μια τέλεια
εικόνα του πληθυσμού.
•έτσι, τα δείγματα που μπορούμε να πάρουμε από ένα
κανονικό πληθυσμό, μάλλον περιμένουμε να είναι
κατά προσέγγιση κανονικώς κατανεμημένα.
•κάθε δείγμα που λαμβάνεται από ένα κανονικό πληθυσμό,
δεν ακολουθεί οπωσδήποτε την κανονική κατανομή.
•μια κανονική κατανομή μπορεί να έχει οποιαδήποτε
μέση τιμή και οποιαδήποτε τυπική απόκλιση.
•Η κανονικότητα είναι μια βασική παραδοχή για την
ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. Αυτό σημαίνει ότι τα κλασικά
στατιστικά κριτήρια όπως το t‐test, η ανάλυση διασποράς,
η παλίνδρομη ανάλυση κτλ. για να εφαρμοστούν,
θα πρέπει να ικανοποιείται η παραδοχή της κανονικότητας.
•Όταν δεν ικανοποιείται η παραδοχή της κανονικότητας,
τότε αναγκαστικά θα περάσουμε στην ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ
ΣΤΑΤΙΣΤΙΚΗ, δηλ. σε μια στατιστική που δεν προϋποθέτει
την κανονικότητα. Δεν την έχει ανάγκη. Ουσιαστικά στην
τελευταία, στην ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ δεν υπάρχει
πρότυπο, σε αντίθεση με την ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
στην οποία πάντα υπάρχει πρότυπο. Τα δεδομένα στην
τελευταία ακολουθούν ένα συγκεκριμένο πρότυπο,
ένα συγκεκριμένο δρόμο, μια συγκεκριμένη κατανομή.
•Το πέρασμα όμως από την ΠΑΡΑΜΕΤΡΙΚΗ στην ΜΗ
ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ δεν είναι χωρίς συνέπειες.
Οπωσδήποτε στη δεύτερη αυτή Στατιστική, στην
ΜΗ ΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ, έχουμε λιγότερη ακρίβεια
στο επίπεδο των αποτελεσμάτων.
•Και πως αντιμετωπίζουμε αυτό το ζήτημα; Πως μειώνουμε
το σφάλμα στις περιπτώσεις που εργαζόμαστε με μη
παραμετρικές διαδικασίες;
•Ένας τρόπος είναι οι προσομοιωτικές μέθοδοι ( Monte
Carlo, Exact, Bootstrapping κτλ. στις οποίες θα
αναφερθούμε παρακάτω, αναλυτικά…
Υπάρχουν τουλάχιστον 3 γενικοί
τρόποι ελέγχου της κανονικότητας:
• Με τη βοήθεια στατιστικών κριτηρίων. Για
παράδειγμα, τα κριτήρια των Kolmogorov‐Smirnov,
Lillefors, και Shariro‐Wilk.
• Με τη βοήθεια γραφικών αναπαραστάσεων. Για
παράδειγμα, τα ονομαζόμενα από το SPSS, Normal
Q‐Q Plot, Detrended Q‐Q Plot, και Βox Plot.
Και τέλος,
• Με τη βοήθεια του λόγου t, όπου,
statistic
t=
standard error of statistic
Ας πάρουμε και πάλι το παράδειγμα των 15 φοιτητών του Δεληβοριά και ας
κάνουμε έλεγχο κανονικότητας με ένα‐ έναν από τους παραπάνω τρόπους
ξεχωριστά.
Πρώτος τρόπος ελέγχου Κανονικότητας
Με τη βοήθεια των στατιστικών κριτηρίων Kolmogorov‐Smirnov,
Lillefors, και Shariro‐Wilk.
Πίνακας 1. Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
,183 15 ,191 ,964 15 ,768
v1
Στη θέα του Πίνακα1 διατυπώνουμε τη μηδενική και την εναλλακτική μας
υπόθεση…
Ho: Η κατανομή του δείγματός μας ΔΕΝ απέχει και πολύ από την κανονική.
H1: Η κατανομή του δείγματός μας, απέχει πολύ από την κανονική.
ή ισοδύναμα:
Ho: Το δείγμα μας προέρχεται από κανονικά κατανεμημένο πληθυσμό.
H1: Το δείγμα μας ΔΕΝ προέρχεται από κανονικά κατανεμημένο πληθυσμό.
•Ο Πίνακας 1., ουσιαστικά είναι ένας διπλός πίνακας. Το δεξί του μέρος αφορά
το στατιστικό κριτήριο των Shapiro‐Wilk, ενώ το αριστερό του μέρος αφορά το
στατιστικό κριτήριο των Kolmogorov‐ Smirnov. Εμείς ωστόσο, ποιο από τα δύο
θα χρησιμοποιήσουμε;
•Η απάντηση είναι ότι αυτό θα εξαρτηθεί από τη φύση των δεδομένων μας και
από το μέγεθος του δείγματος.
•να προτείνουμε μια πολιτική για να αποφανθούμε για την ύπαρξη ή μη
κανονικότητας, χωρίς να απομακρυνθούμε από την επιστημονική αλήθεια :
•Αν το δείγμα μας έχει μέγεθος μικρότερο ή ίσο του 50 (n 50), τότε το
στατιστικό κριτήριο που είναι κατάλληλο να ελέγξει την ύπαρξη ή μη
κανονικότητας είναι εκείνο των Shapiro‐Wilk. (Carver & Nash, 2000, p.138,
SPSS 6.1, Guide to Data Analysis, 1993, p. 283, Coakes, Steed, 1999, p. 30).
•Αν το δείγμα μας έχει μέγεθος μικρότερο ή ίσο του 50 (n 50), τότε το
στατιστικό κριτήριο που είναι κατάλληλο να ελέγξει την ύπαρξη ή μη
κανονικότητας είναι εκείνο των Shapiro‐Wilk. (Carver & Nash, 2000, p.138,
SPSS 6.1, Guide to Data Analysis, 1993, p. 283, Coakes, Steed, 1999, p. 30).
•Επειδή το δείγμα μας έχει μέγεθος n=15< 50, είναι σαφές ότι το κατάλληλο
στατιστικό κριτήριο για τον έλεγχο κανονικότητας, είναι το κριτήριο των
Shapiro‐Wilk. Επομένως, το δεξί και μόνο μέρος του Πίνακα 1, μας
ενδιαφέρει να σχολιάσουμε.
Εκτελούμε έλεγχο κανονικότητας σε επίπεδο στατιστικής σημαντικότητας 5%.
Καταγράφουμε και τα στοιχεία για το στατιστικό κριτήριο των Shapiro –Wilk:
S‐W=0,964
Df=15
Sign.=0,768=76,8 % > 5 %
Συλλογισμός‐Συμπέρασμα:
Επειδή το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας, αυτό δηλ. που
μας προσφέρει στο πιάτο το SPSS, είναι sign.= 76,8 % > 5 % (=πιθανοθεωρητικό
όριο που εμείς θέτουμε για να κρίνουμε τη μηδενική μας υπόθεση),
οδηγούμαστε στο συμπέρασμα, ότι δεν διαθέτουμε αρκετές πληροφορίες, ώστε
να απορρίψουμε τη μηδενική μας υπόθεση. Επομένως αυτή ισχύει. Με άλλα
λόγια, η κατανομή του πληθυσμού από τον οποίο προέρχεται το δείγμα μας
είναι, προσεγγιστικά, κανονική.
Δεύτερος τρόπος ελέγχου Κανονικότητας: με τη βοήθεια γραφικών
αναπαραστάσεων
v1 Stem‐and‐Leaf Plot
Frequency Stem & Leaf
1,00 4 . 0
2,00 5 . 00
3,00 6 . 000
5,00 7 . 00000
2,00 8 . 00
1,00 9 . 0
1,00 Extremes (>=10,0)
Stem width: 1
Each leaf: 1 case(s)
Extreme Values
Case Number Value
1 15 10
2 14 9
Highest 3 6 8
4 13 8
5 4 7a
v1
1 7 4
2 8 5
Lowest 3 1 5
4 9 6
5 3 6b
a. Only a partial list of cases with the value 7 are shown in the table of
upper extremes.
b. Only a partial list of cases with the value 6 are shown in the table of
lower extremes.
Τρίτος τρόπος ελέγχου κανονικότητας: Με τη βοήθεια του λόγου t, όπου,
statistic
t=
standard error of statistic
Statistics
v1
Πρακτικός κανόνας από τη Θεωρία:
Valid 15
N
Missing 0 Εάν ισχύει ‐2 ≤ t ≤ +2 => Υπάρχει
6,80 Κανονικότητα
Mean
,252
Skewness
,580
Αντίθετα αν
Std. Error of Skewness
,165
Kurtosis t< ‐2 ή αν t>‐2
1,121
Std. Error of Kurtosis τότε => ΔΕΝ υπάρχει Κανονικότητα.
Εδώ έχουμε για τη στατιστική που ονομάζεται στρεβλότητα:
skewness 0.252
t 0.435
st.error _ of _ skewness 0.580
Αυτό το νούμερο 0.435 είναι προφανώς πιο μεγάλο από το ‐2 και
Ταυτόχρονα πιο μικρό από το +2.
Δηλ. παίζει μπάλα ανάμεσα σε αυτά τα όρια που προσδιορίσαμε για να έχουμε
κανονικότητα.
Η αγωνία του τερματοφύλακα πριν από το πέναλτι….
Προφανώς έχουμε κανονικότητα…
Τέλος εισήγησης…
Εισήγηση 5Α: ΠΑΡΑΜΕΤΡΙΚΟ Χ2
ΠΑΡΑΜΕΤΡΙΚΟ Χ2
•Πότε εκτελούμε παραμετρικό Χ2
•Παραδοχές
•Το πρόβλημα
•Η λύση‐ Αποτελέσματα
•Ο συντελεστής Somer’ d. Πότε τον χρησιμοποιούμε;
•Ο συντελεστής ομοφωνίας Cohen’s kappa. Πότε τον χρησιμοποιούμε;
•Τι είναι προσομοίωση, ποιές προσομοιωτικές Μέθοδοι υπάρχουν στο πλαίσιο του SPSS;
•Πότε χρησιμοποιούμε προσομοιωτικές Μεθόδους;
•Είναι πανάκεια οι προσομοιωτικές Μέθοδοι;
2
ΤΟ ΠΡΟΒΛΗΜΑ
Ρωτήθηκαν στην τύχη 25 φοιτητές του Τμήματος Πολιτικής Επιστήμης για τον τρόπο που συνήθως πηγαίνουν
στο Πανεπιστήμιο. Τα αποτελέσματα τα βλέπουμε στον παρακάτω Πίνακα.
1. Ποιο στατιστικό κριτήριο θα εφαρμόσετε για να ελέγξετε, με τη βοήθεια του
SPSS και σε επίπεδο στατιστικής σημαντικότητας 5%, αν τρόπος μεταφοράς
φοιτητών και φοιτητριών στο Πανεπιστήμιο είναι ο ίδιος.
2. Ποια είναι η μηδενική και η εναλλακτική σας υπόθεση;
3. Ποιες είναι οι παραδοχές του στατιστικού κριτηρίου που εφαρμόσατε;
4. Να ελέγξετε αυτές τις παραδοχές.
5. Αν οι παραδοχές δεν ικανοποιούνται, ποια εναλλακτική λύση προτείνετε για να
λύσετε το πρόβλημα που σας δόθηκε;
6. Ποιες μεθόδους προσομοίωσης ξέρετε; Τι γνωρίζετε για τα EXACT TESTS του
SPSS; Πόσα είδη γνωρίζετε και πότε τα χρησιμοποιούμε;
4
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
5
Chi-Square Testsc
Value df Asymp. Exact Sig. Exact Sig. Point
Sig. (2- (2-sided) (1-sided) Probability
sided)
4,890a 1 ,027 ,040 ,034
Pearson Chi-Square
6
7
Προσομοιωτικές Μέθοδοι :
•Monte Carlo
•Exact
•Bootstrapping
Πότε τις χρησιμοποιούμε;
•Όταν οι παραδοχές δεν ικανοποιούνται
•Όταν το μέγεθος του Δείγματος είναι μικρό
•Όταν επιθυμούμε μεγάλη ακρίβεια στο επίπεδο των αποτελεσμάτων
8
Εισήγηση 5Β: ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2
ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2
•Πότε εκτελούμε Μη παραμετρικό Χ2
•Παραδοχές
•Το πρόβλημα
•Η λύση‐ Αποτελέσματα
•Η αντιδιαστολή παραμετρικού και μη παραμετρικού Χ2
2
ΤΟ ΠΡΟΒΛΗΜΑ
Σε κάποιο χωριό της Κρήτης, ρωτήθηκαν στην τύχη 25 κάτοικοι, για να εκφέρουν
γνώμη αναφορικά με το ζήτημα αν τα πράγματα ήταν καλύτερα, χειρότερα ή ίδια,
σε σχέση με, πριν 20 χρόνια. Με άλλα λόγια, ρωτήθηκαν αν οι διαπροσωπικές,
οικογενειακές και πολιτισμικές σχέσεις, τα ήθη, τα έθιμα και γενικά το κοινωνικό
πλαίσιο, διαφοροποιήθηκε προς το καλύτερο, προς το χειρότερο, ή παρέμεινε ίδιο.
Αν συμβολίσουμε με 1=καλύτερα, 2=ίδια, 3=χειρότερα, ο παρακάτω Πίνακας, μας
παρέχει τη σχετική πληροφόρηση από την τυχαία δειγματοληψία.
3
4 2
5 3
6 2
7 3
8 1
9 2
10 3
11 3
12 2
13 3
14 1
15 3
16 3
17 2
18 3
19 3
20 3
21 2
22 1
23 3
24 3
25 3
4
1. Να οικοδομήσετε μια βάση δεδομένων στο SPSS και να εισάγετε τα δεδομένα
σας στην επιφάνεια εργασίας.
2. Ποιο μη παραμετρικό κριτήριο θα χρησιμοποιήσετε για να κρίνετε τη μηδενική
υπόθεση ότι οι γνώμες των χωρικών ισοκατανέμονται;
3. Ποιες είναι οι παραδοχές αυτού του στατιστικού κριτηρίου;
4. Ποια διαφορά αυτό παρουσιάζει με το αντίστοιχο παραμετρικό κριτήριο;
5. Τελικά οι γνώμες των χωρικών διαφοροποιούνται σε επίπεδο σ.σ. 5%;
6. Στην έρευνά σας, είναι ανάγκη να χρησιμοποιήσετε προσομοιωτικές μεθόδους;
Να αναφέρετε έναν‐ έναν τους λόγους.
5
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
opinion
4 8,3 -4,3
1
7 8,3 -1,3
2
14 8,3 5,7
3
25
Total
6
Test Statistics
opinion
Chi-Square 6,320a
df 2
Asymp. Sig. ,042
Sig. ,038b
Lower ,033
Monte Carlo Sig. 99% Confidence Bound
Interval Upper ,043
Bound
a. 0 cells (0,0%) have expected frequencies less than 5. The minimum
expected cell frequency is 8,3.
7
ΣΧΟΛΙΟ:
Που είναι οι παλιοί καλοί καιροί
Πού είναι οι αθρώποι,
Πού είν΄ η κοπέλα η σεμνή
Κι οι όμορφοί της τρόποι…
========= =============== ========== ======
Την ξέρετε αυτή τη μαντινάδα …?
8
Εισήγηση 5Γ: ΜΗ ΠΑΡΑΜΕΤΡΙΚΟ Χ2 ‐ Πίνακες συνάφειας
MH ΠΑΡΑΜΕΤΡΙΚΟ Χ2 ‐Πίνακες συνάφειας
(Contingency Tables)
•Πως διαβάζει το SPSS τους εκτελούμε Πίνακες συνάφειας;
•Παραδοχές
•Το πρόβλημα
•Η λύση‐ Αποτελέσματα
2
ΤΟ ΠΡΟΒΛΗΜΑ
_ΜΗ_ΠΑΡΑΜΕΤΡΙΚΟ_Χ2_Contingency_Tables
Σε κάποια πόλη της Κρήτης, ρωτήθηκαν, σε κάποια χρονική στιγμή, 249 πολίτες για
τη στάση τους απέναντι στο θέμα της παραμονής των αμερικανικών βάσεων. Από
αυτούς υπέρ της παραμονής τάχθηκαν 23 άτομα, κατά 174, ενώ 52 δήλωσαν
αναποφάσιστοι. Να ελέγξετε εάν οι τρεις κατηγορίες των ερωτώμενων
εκπροσωπούνται το ίδιο στον πληθυσμό της πόλης. Το πρόβλημα να λυθεί με τη
βοήθεια του SPSS.
3
Υπόδειξη:
Ορίστε κατά τα γνωστά δύο μεταβλητές :
•Τη μεταβλητή attitude με τιμές 1=υπέρ της παραμονής των βάσεων, 2=κατά της
παραμονής και 3=Ούτε υπέρ, ούτε κατά.
•Τη μεταβλητή freq, η οποία θα λάβει τις τιμές των παρατηρούμενων συχνοτήτων
23, 174 και 52.
4
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
attidude
Observed N Expected N Residual
1 23 83,0 -60,0
2 174 83,0 91,0
3 52 83,0 -31,0
249
Total
5
Test Statistics
ATTITUDE
Chi-Square(a) 154,723
df 2
Asymp. Sig. ,000
Monte Carlo Sig. Sig. ,000(b)
99% Confidence Lower
Interval Bound ,000
Upper
Bound ,000
a 0 cells (,0%) have expected frequencies less than 5.
The minimum expected cell frequency is 83,0.
6
Η ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ
7
Συμπέρασμα
Οι πιο πολλοί κάτοικοι της πόλης, σαφέστατα επιθυμούν την απομάκρυνση
των Αμερικανικών βάσεων από το νησί.
8
Εισήγηση 6Α: Ανάλυση Συσχέτισης
Simple Correlation Analysis
(α) Pearson’s Correlation Analysis
(β) Spearman’s Correlation Analysis
(γ) Kendals’s tau b Correlation Analysis
(δ) Χαρακτηριστικά της συσχέτισης
========= ================== =======
Παραδοχές για κάθε μια από αυτές τις μορφές.
Όταν δεν ικανοποιούνται οι παραδοχές πού πάμε;
Ποιες εναλλακτικές λύσεις υπάρχουν;
Ποιος είναι ο ρόλος της ομοιογένειας;
2. Forms of t‐test :
(a)Two independent samples t‐test. Ένα Παράδειγμα.
(b) paired t‐test. Ένα Παράδειγμα.
(c) one‐sample t‐test. Ένα Παράδειγμα.
2
ΑΠΛΗ ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ
Κατά Pearson ανάλυση συσχέτισης.
Χαρακτηριστικά της συσχέτισης
Γενικά πότε κάνουμε ανάλυση συσχέτισης;
Παραδοχές
Το πρόβλημα‐Παράδειγμα
Η παραβίαση των παραδοχών
Οι Εναλλακτικές Λύσεις
Το πρόβλημα
3
ΑΣΚΗΣΗ_ΔΙΜΕΤΑΒΛΗΤΗ_ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ
Σε ένα εργαστήριο εμβολιάστηκαν 10 πειραματόζωα με ένα
παθογενές εμβόλιο. Η έρευνα ήθελε να ξέρει για την πορεία του
πυρετού στα πειραματόζωα τις πρώτες 60 ώρες. Παρακολούθησε
λοιπόν την πορεία του πυρετού τον οποίο κατέγραφε ανά 4 ώρες,
ξεκινώντας τις μετρήσεις μετά την πάροδο του πρώτου
εικοσιτετραώρου. Τα αποτελέσματα των μετρήσεων τα βλέπουμε
στον παρακάτω Πίνακα.
Πίνακας
Ώρες που Αύξων Τιμή του πυρετού
παρήλθαν αριθμός σε βαθμούς
μετά τον πειραματ Κελσίου
εμβολιασ όζωου
(temp)
μό
(a_a)
(time)
24 1 38,70
28 2 38,90
32 3 40,00
36 4 40,50 4
40 5 40,90
44 6 40,50
48 7 41,50
52 8 41,60
56 9 41,70
60 10 41,70
(α) Να ελέγξετε αν υπάρχει συσχέτιση ανάμεσα στο χρόνο και στην
πορεία του πυρετού σε επίπεδο στατιστικής σημαντικότητας 1%ο.
(β) Πώς ακριβώς διατυπώνεται η μηδενική σας υπόθεση;
(γ) Στην ανάλυσή σας ποιο δείκτη θα χρησιμοποιήσετε; Θα κάνετε
ανάλυση συσχέτισης κατά Pearson ή κατά Spearman και γιατί;
(δ) Πόσες και ποιες είναι οι παραδοχές για τη γραμμική διμεταβλητή
συσχέτιση;
5
(ε) Αν τα δεδομένα και των δύο μεταβλητών σας ήταν τύπου ordinal,
ποιος θα ήταν τότε ο κατάλληλος στατιστικός δείκτης;
(στ) Αναφορικά με το μέγεθος του δείγματος τι έχετε να παρατηρήσετε;
(ζ) Τον έλεγχο συσχέτισης θα τον πραγματοποιήσετε σε μονή ή σε διπλή
κατεύθυνση και γιατί;
(η) Το παρόν παράδειγμα έχει καμιά σχέση με τις επαναληπτικές
μεθόδους μέτρησης (repeated measures models, or longitudinal
measurements); Τελικά, εδώ έχουμε cross‐ over μελέτη, ή κάτι άλλο, και
γιατί;
6
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
Descriptive Statistics
Mean Std. Deviation N
Correlations-ΜΟΝΌΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ
time temp
1 ,941**
Pearson Correlation
time ,000
Sig. (1-tailed)
N 10 10
,941** 1
Pearson Correlation
temp ,000
Sig. (1-tailed)
N 10 10
**. Correlation is significant at the 0.01 level (1-tailed).
7
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
1 ,941**
Pearson Correlation
time ,000
Sig. (2-tailed)
N 10 10
,941** 1
Pearson Correlation
temp ,000
Sig. (2-tailed)
N 10 10
**. Correlation is significant at the 0.01 level (2-tailed).
8
Η ΑΝΑΛΥΣΗ ΣΥΧΕΤΙΣΗΣ ΣΤΟΝ ΑΣΤΕΡΙΣΜΟ ΤΟΥ BOOTSTRAPPING
BOOTSTRAP-Correlations- ΜΟΝΌΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ
time temp
N 10 10
Bias 0 ,002
time
Std. Error 0 ,026
N 10 10
Bias ,002 0
temp
Std. Error ,026 0
10
Εισήγηση 6Β: t‐test για Ανεξάρτητα Δείγματα
t‐test ΓΙΑ ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ (Two independent
samples t‐test)
•Πότε εκτελούμε t‐test για ανεξάρτητα δείγματα;
•Παραδοχές
•Το πρόβλημα
•Η λύση‐ Αποτελέσματα
•Αν δεν ικανοποιούνται οι παραδοχές του Two
independent samples t‐test τι κάνουμε;
•Ποια είναι η εναλλακτική λύση όταν το t‐test (αυτή η
μορφή) αυτοκτονήσει;
•Το μη παραμετρικό κριτήριο των Mann‐ Whitney
•Το t‐test στον αστερισμό του Bootstrapping
2
ASKHSH_TWO_SAMPLES_INDEP_t_TEST
Κάποια βιομηχανία αυτοκινήτων θέλησε να ερευνήσει
την αποτελεσματικότητα ενός ‘επιπρόσθετου’ (additive),
που είχε παρασκευάσει, ενός υλικού δηλ., το οποίο
αναμειγνυόμενο με τη βενζίνη, βελτιώνει την απόδοση
του αυτοκινήτου. Για το σκοπό αυτό χρησιμοποίησε 26
όμοια αυτοκίνητα και μέτρησε για κάθε ένα από αυτά,
τα χιλιόμετρα που διήνυσε ανά λίτρο βενζίνης. Στα 13
από αυτά εισήγαγε αυτό το επιπρόσθετο, ενώ στα άλλα
13 όχι. Ο παρακάτω Πίνακας περιέχει τις πληροφορίες
για την εισαγωγή ή μη επιπροσθέτου στο κάθε
αυτοκίνητο, καθώς και τα χιλιόμετρα που διήνυσε κάθε
ένα από αυτά τα αυτοκίνητα ανά λίτρο βενζίνης.
3
ASKHSH_TWO_SAMPLES_INDEP_t_TEST
Κάποια βιομηχανία αυτοκινήτων θέλησε να ερευνήσει
την αποτελεσματικότητα ενός ‘επιπρόσθετου’ (additive),
που είχε παρασκευάσει, ενός υλικού δηλ., το οποίο
αναμειγνυόμενο με τη βενζίνη, βελτιώνει την απόδοση
του αυτοκινήτου. Για το σκοπό αυτό χρησιμοποίησε 26
όμοια αυτοκίνητα και μέτρησε για κάθε ένα από αυτά,
τα χιλιόμετρα που διήνυσε ανά λίτρο βενζίνης. Στα 13
από αυτά εισήγαγε αυτό το επιπρόσθετο, ενώ στα άλλα
13 όχι. Ο παρακάτω Πίνακας περιέχει τις πληροφορίες
για την εισαγωγή ή μη επιπροσθέτου στο κάθε
αυτοκίνητο, καθώς και τα χιλιόμετρα που διήνυσε κάθε
ένα από αυτά τα αυτοκίνητα ανά λίτρο βενζίνης.
4
1 1 11,00
2 2 10,00
1 3 12,00
2 4 9,90
1 5 10,55
2 6 9,70
2 7 10,30
1 8 13,00
1 9 10,90
2 10 10,50
1 11 11,20
2 12 9,80
1 13 10,50
1 14 12,00
2 15 10,90
1 16 11,90
1 17 12,50
2 18 9,90
2 19 10,00
2 20 10,50
1 21 11,60
1 22 11,60
2 23 10,20
1 24 10,90
2 25 10,70
2 26 9,00
1. Να ελέγξετε αν υπάρχει χιλιομετρική διαφορά
ανάμεσα στις δύο ομάδες αυτοκινήτων.
2. Πώς ακριβώς διατυπώνεται η μηδενική σας
υπόθεση;
3. Να την ελέγξετε σε επίπεδο σ.σ. 2%.
4. Πιο στατιστικό κριτήριο, και με ποιες παραδοχές, θα
χρησιμοποιήσετε;
5. Υπάρχει κανονικότητα στα δεδομένα σας; Από πού
φαίνεται αυτό;
6. Τελικά η Βιομηχανία κέρδισε ή έχασε από την
παραγωγή αυτού του προϊόντος (πρόσθετο,
additive); Γιατί;
ΛΥΣΗ‐ΑΠΟΤΕΛΕΣΜΑΤΑ
Group Statistics
additive N Mean Std. Deviation Std. Error
Mean
1 13 11,5115 ,75778 ,21017
skor
2 13 10,1077 ,49407 ,13703
Lower Upper
Τέλος β’ εισήγησης
Εισήγηση 6Γ: κατά Ζεύγη t‐test
Κατά ζεύγη t‐test (PAIRED t‐test)
• Πότε εκτελούμε Κατά ζεύγη t‐test;
• Παραδοχές
• Το πρόβλημα
• Η λύση‐ Αποτελέσματα
• Αν δεν ικανοποιούνται οι παραδοχές του Κατά
ζεύγη t‐test τι κάνουμε;
• Ποια είναι η εναλλακτική λύση όταν το t‐test
(αυτή η μορφή) αυτοκτονήσει;
• Το μη παραμετρικό κριτήριο του Wilcoxon
ΑΣΚΗΣΗ_PAIRED_Τ_ΤΕΣΤ
Ένας ερευνητής στο χώρο της Φυσικής Αγωγής ήθελε να
διερευνήσει τον πιθανό ρόλο που διαδραματίζει η β‐
ενδορφίνη στην κατάρρευση των δρομέων μεγάλων
αποστάσεων. Η υπόθεση που έκανε ο ερευνητής ήταν ότι
οι δρομείς κατά τη διάρκεια του αγώνα, παρά την
ταλαιπωρία και τον πόνο αντιστέκονται στην κατάρρευση,
επειδή τα επίπεδα της β‐ενδορφίνης αυξάνουν στο αίμα
με αποτέλεσμα να δημιουργούν ένα αίσθημα ευεξίας.
Βασικό, επομένως, ερώτημα ήταν αν τα επίπεδα της β‐
ενδορφίνης μεταβάλλονται κατά τη διάρκεια του αγώνα
δρόμου. Το μετρούμενο μέγεθος είναι η συγκέντρωση της
β‐ενδορφίνης στο πλάσμα του αίματος. Τα δεδομένα
φαίνονται στον παρακάτω Πίνακα.
ΛΥΣΗ‐ ΑΠΟΤΕΛΕΣΜΑΤΑ
Paired Samples Statistics
Statistic Bootstrapa
Bias Std. Error 95% Confidence
Interval
Lower Upper
Mean
PRIN N 6
1,76608 -,18749 ,33487 ,75762 2,09173
Std. Deviation
Mean
N 6
META
7,14853 -,89374 1,76824 2,58995 9,34068
Std. Deviation
ΛΥΣΗ‐ ΑΠΟΤΕΛΕΣΜΑΤΑ
Mean Bootstrapa
Lower Upper
a. Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples
Τελικό Συμπέρασμα: Ο ανθρώπινος οργανισμός αντιστέκεται στην
κατάρρευση, αφού παράγει β‐ενδορφίνη σε στατιστικώς σημαντικές
ποσότητες.
Εισήγηση 6Δ: t‐test για ένα Δείγμα (one sample t‐test)
•Πότε εκτελούμε t‐test για ένα Δείγμα;
•Πώς ακριβώς διατυπώνεται η μηδενική υπόθεση
•Παραδοχές
•Το πρόβλημα‐παράδειγμα
•Η λύση‐ Αποτελέσματα
•Αν δεν ικανοποιούνται οι παραδοχές του One_sample
t‐test τι κάνουμε;
•Ποια είναι η εναλλακτική λύση όταν το t‐test (αυτή η
μορφή) αυτοκτονήσει;
•Το t‐test στον αστερισμό του Bootstrapping
2
ΑΣΚΗΣΗ ΓΙΑ ONE SAMPLE T‐TEST
Μια ερευνήτρια ήθελε να ξέρει αν οι γονείς των παραβατικών παιδιών αφιερώνουν
αρκετό χρόνο στα παιδιά τους. Τα δεδομένα βρίσκονται στο αρχείο
onesample_t_test. Η Ερευνήτρια κατασκεύασε μια scale τύπου Likert με 5 levels
(1=καθόλου 2=λίγο, 3=αρκετά, 4=πολύ, 5=πάρα πολύ). Και έθεσε από τη Θεωρία της
σαν όριο αφιέρωσης ικανού χρόνου αφιέρωσης στο παραβατικό παιδί το μ=3,2 της
παραπάνω κλίμακας. Τα δεδομένα βρίσκονται στη μεταβλητή SPEC1.
•Ποιο στατιστικό κριτήριο θα εφαρμόσετε και γιατί;
•Ποια είναι η μηδενική σας υπόθεση;
•Ποιες οι παραδοχές αυτού του κριτηρίου;
•Να χρησιμοποιήσετε προσομοιωτική μέθοδο και να συγκρίνετε τα αποτελέσματα.
•Να προβείτε σε ερμηνεία των αποτελεσμάτων σας.
•Τελικά το συγκεκριμένο δείγμα συνηγορεί ή όχι σε επίπεδο στατ. σημαντικότητας 5 %
υπέρ ικανού ή υπέρ ανεπαρκούς χρόνου αφιέρωσης στα παραβατικά παιδιά από τους
γονείς τους;
3
ΛΥΣΗ –ΑΠΟΤΕΛΕΣΜΑΤΑ
One-Sample Statistics
Statistic Bootstrapa
Bias Std. Error 95% Confidence Interval
Lower Upper
N 32
a. Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples
One-Sample Test
Test Value = 0
t df Sig. (2-tailed) Mean 95% Confidence Interval of the
Difference Difference
Lower Upper
4
ΛΥΣΗ –ΑΠΟΤΕΛΕΣΜΑΤΑ
Τελικό Συμπέρασμα
Αφού κατέρρευσε η Μηδενική μας υπόθεση, ισχύει η Εναλλακτική. Άρα, πολύ πιο
πάνω από το τιθέμενο όριο για τον πληθυσμό μ=3,2 μονάδες είναι ο μέσος όρος του
Δείγματος. Επομένως οι γονείς των παραβατικών παιδιών αφιερώνουν αρκετό χρόνο
στα παιδιά τους.
Τέλος δ’ Εισήγησης
5
Επίλυση: Multiple Regression
• Τι είναι και πότε κάνουμε MULTIPLE REGRESSION ANALYSIS
• ΠΡΟΒΛΕΨΗ. Πότε μπορούμε να κάνουμε πρόβλεψη.
• Η κατασκευή του Παλινδρομικού Μοντέλου.
• Από πού φαίνεται η προβλεπτική δύναμη του παλινδρομικού μας Μοντέλου.
• Πότε θα αποπλεύσουν τα Ελληνικά καράβια από την Αυλίδα της Βοιωτίας για την Τροία;
• Ή αλλιώς, πότε φυσάει ούριος άνεμος και οι οιωνοί είναι καλοί για την
MULTIPLE REGRESSION ANALYSIS; Δυο σημαντικές ενδείξεις.
• Assumptions για την MULTIPLE REGRESSION ANALYSIS
• Αν δεν ικανοποιούνται οι παραδοχές τι κάνουμε;
• Μετασχηματισμός των Δεδομένων, Robust Regression, Προσομοίωση και άλλες
Εναλλακτικές Λύσεις.
• Μέθοδοι Πολλαπλών Συγκρίσεων. Πότε χρησιμοποιούμε ποια.
• Μέθοδος Bonferroni
• Μέθοδος Tukey
• Μέθοδος Scheffe
• Κατασκευή και Ερμηνεία της εξίσωσης παλινδρόμησης.
• Outliers και Influential Points. Ποιες ακραίες τιμές είναι αθώες και ποιες υπονομεύουν
το μοντέλο μας.
• Τελικά που γίνεται η ζημιά των παρατηρήσεων επίδρασης; Στους παλινδρομικούς
συντελεστές, στην προβλεπτική δύναμη του μοντέλου ή και στα δυο;
• Τελικά τι κάνουμε με τους επικίνδυνους outliers ?? Τους πετάμε έξω και πως;
Ή διαφορετικά: Πως τους εντοπίζουμε και ποιο πρόγραμμα μπορεί να κάνει αυτή τη δουλειά;
• Πρόβλημα‐ Παράδειγμα πάνω στην MULTIPLE REGRESSION ANALYSIS
• Λύση‐ Αποτελέσματα στο συγκεκριμένο παράδειγμα
Το πρόβλημα
Άσκηση_MULTIPLE_REGRESSION
Ένας ερευνητής προκειμένου να εκτιμήσει το σημερινό μισθό που λαμβάνει ένας
υπάλληλος που εργάζεται σε μια εταιρεία, θεώρησε πως σημαντικά στοιχεία γι’ αυτήν την
πρόβλεψη είναι ο αρχικός μισθός του υπαλλήλου, τα χρόνια υπηρεσίας του και τέλος το
επίπεδο της μόρφωσής του. Για το σκοπό δε αυτό έλαβε τυχαίο δείγμα 20 υπαλλήλων και
κατέγραψε τα στοιχεία τους (βλ. παρακάτω Πίνακα ).
1. Να εκτελέσετε ανάλυση παλινδρόμησης με τη μέθοδο STEPWISE, με εξαρτημένη
μεταβλητή το σημερινό μισθό (SALARY) και ανεξάρτητες τον αρχικό μισθό (SAL1), τα
χρόνια υπηρεσίας (XRONIA), και το επίπεδο μόρφωσης (EDLEVEL). Ποιο είναι το
παλινδρομικό σας μοντέλο σύμφωνα με τη μέθοδο αυτή, πόσο καλά προσαρμόζεται στα
δεδομένα σας και σε ποια εξίσωση υπακούει ;
2. Να αναφέρετε τις παραδοχές της πολλαπλής παλινδρόμησης και στη συνέχεια να τις
ελέγξετε σχολαστικά.
3. Ποια είναι η ‘άριστη’ μεταβλητή πρόβλεψης (‘BEST PREDICTOR’) αν εργαστούμε με τη
μέθοδο STEPWISE ;
4. Ήταν ορθή η απόφασή μας να λάβουμε 3 ανεξάρτητες μεταβλητές στην οικοδόμηση του
παλινδρομικού μας μοντέλου; Μήπως έπρεπε να λάβουμε λιγότερες ανεξάρτητες
μεταβλητές από όσες έχουμε, από όσες δηλ. διαθέτει ο παρακάτω Πίνακας, ή μήπως η
έρευνα θα έπρεπε να αναζητήσει, από τη συγκεκριμένη Εταιρεία, περισσότερες
ανεξάρτητες μεταβλητές; Τελικά ποιο είναι το κατάλληλο πλήθος ανεξάρτητων
μεταβλητών που έχει ανάγκη η παλινδρομική μας ανάλυση για να είναι η ‘βέλτιστη’;
Ποιος δείκτης είναι σε θέση να μας παράσχει την αναγκαία πληροφορία;
5.Ποιο ακριβώς είναι το υποσύνολο των ανεξάρτητων μεταβλητών, δηλ.
ποιες ακριβώς ανεξάρτητες μεταβλητές θα πρέπει να συμμετάσχουν
στο παλινδρομικό μας μοντέλο, ώστε αυτό να μπορέσει να κάνει την καλύτερη
δυνατή πρόβλεψη; Ποιες είναι οι πολιτικές που μας βοηθούν να πετύχουμε
ένα ‘άριστο’ παλινδρομικό μοντέλο;
Πίνακας. Τα στοιχεία 20 υπαλλήλων μιας εταιρείας τυχαία επιλεγμένων
Αύξων αριθμός Σημερινός Αρχικός Χρόνια Επίπεδο
εγγραφής ή σειρά
Μισθός σε ευρώ Μισθός σε Υπηρεσίας Εκπαίδευσης
εισαγωγής
δεδομένων ευρώ (1=Χαμηλό,
(SEQUENCE) 2=Μέσο,
3=Ανώτερο)
(SALARY) (SAL1) (XRONIA) (EDLEVEL)
1 1400 150 17 3
2 890 90 12 1
3 1200 120 11 2
4 1250 200 13 3
5 1150 130 9 2
6 990 500 7 1
7 800 400 5 1
8 900 400 5 1
9 1700 520 19 3
10 1500 250 14 3
11 1250 300 6 3
12 1500 700 14 3
13 950 240 11 2
14 890 300 7 1
15 750 80 3 1
16 1000 300 4 1
17 980 120 10 1
18 870 300 4 1
19 1150 350 7 2
20 900 250 6 1
ΛΥΣΗ‐ ΑΠΟΤΕΛΕΣΜΑΤΑ
Descriptive Statistics
Mean Std. Deviation N
Correlations
SALARY SAL1 XRONIA EDLEVEL
SALARY 1,000 ,344 ,813 ,900
SAL1 ,344 1,000 ,092 ,190
Pearson Correlation ,813 ,092 1,000 ,733
XRONIA
EDLEVEL ,900 ,190 ,733 1,000
SALARY . ,069 ,000 ,000
SAL1 ,069 . ,349 ,211
Sig. (1‐tailed) ,000 ,349 . ,000
XRONIA
EDLEVEL ,000 ,211 ,000 .
SALARY 20 20 20 20
SAL1 20 20 20 20
N 20 20 20 20
XRONIA
EDLEVEL 20 20 20 20
Variables Entered/Removeda
Model Variables Entered Variables Removed Method
EDLEVEL . Stepwise (Criteria: Probability‐of‐F‐
to‐enter <= ,050, Probability‐of‐F‐to‐
remove >= ,100).
1
XRONIA . Stepwise (Criteria: Probability‐of‐F‐
to‐enter <= ,050, Probability‐of‐F‐to‐
remove >= ,100).
2
SAL1 . Stepwise (Criteria: Probability‐of‐F‐
to‐enter <= ,050, Probability‐of‐F‐to‐
remove >= ,100).
3
a. Dependent Variable: SALARY
Model Summaryd
Model R R Square Adjusted R Std. Error of the Durbin‐Watson
Square Estimate
d. Dependent Variable: SALARY
Coefficientsa
Model Unstandardized Standard t Sig. 95,0% Confidence Correlations Collinearity
Coefficients ized Interval for B Statistics
Coefficie
nts
20,344 6,819 ,352 2,98 ,009 5,889 34,800 ,813 ,598 ,239 ,461
3 3
XRONIA
,322 ,134 ,197 2,40 ,028 ,039 ,606 ,344 ,516 ,193 ,959
9
SAL1
a. Dependent Variable: SALARY
Collinearity Diagnosticsa
1
1,900 1,000 ,05 ,05
1
2
,100 4,359 ,95 ,95
1
2,833 1,000 ,02 ,01 ,01
2 2
,116 4,943 ,98 ,12 ,12
3
,051 7,479 ,00 ,86 ,87
1 3,632 1,000 ,01 ,01 ,01 ,01
2 ,227 4,002 ,01 ,05 ,09 ,61
3 ,092 6,287 ,96 ,11 ,02 ,32
3
4 ,049 8,594 ,03 ,83 ,89 ,05
a. Dependent Variable: SALARY
Residuals Statisticsa
Απλή Τυχαία Δειγματοληψία
•Τι είναι και ποιος την χρειάζεται…
•Βιομηχανία, Επιχειρήσεις
•Αγορά Εργασίας
•Έρευνες Κοινής Γνώμης
•Τι είναι ο υπό μελέτη πληθυσμός,
ο πληθυσμός ενδιαφέροντος
•Τι είναι οι δειγματοληπτικές μονάδες (sampling units)
•Τι λέμε πεπερασμένο πληθυσμό (definite population)
•Τι λέμε άπειρο πληθυσμό (indefinite population)
2
Παράγοντες προσδιορισμού του μεγέθους του Δείγματος
▬ Το επιθυμητό επίπεδο ακρίβειας των αποτελεσμάτων.
▬ Τη διαθέσιμη οικονομική δαπάνη.
▬ Τα διαθέσιμα χρονικά περιθώρια.
▬ Τη διακύμανση του υπό μελέτη πληθυσμού.
▬ Τον αριθμό και το είδος των μεταβλητών που
θα εμπλακούν στην ερευνητική διαδικασία.
3
ΒΑΣΙΚΕΣ ΜΟΡΦΕΣ ΑΠΛΗΣ ΤΥΧΑΙΑΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ
•Απλή Τυχαία Δειγματοληψία για την εκτίμηση μέσης τιμής
•Απλή Τυχαία Δειγματοληψία για την εκτίμηση ποσοστού
•Ποιο είναι εδώ το ζήτημα. Τι ζητάμε …
•Που πάει η διαφορά
•Τι είναι το δειγματοληπτικό σφάλμα d που το θέλουμε όλο και ποιο μικρό…
•Μήπως τελικά το ζήτημα είναι να μικράνουμε όσο μπορούμε αυτή τη διαφορά
που δεν είναι τίποτε άλλο από το δειγματοληπτικό σφάλμα των μετρήσεων μας
•Μήπως όλα γίνονται προκειμένου να ικανοποιηθεί η σχέση P ( X d ) 1
•Και πόσο σφάλμα είμαστε διατεθειμένοι να αποδεχθούμε στην έρευνά μας;
•Και τι μέγεθος δείγματος να πάρουμε;
•Τι είναι το διάστημα εμπιστοσύνης
•Όσο μεγαλώνει το μέγεθος του δείγματος τι κάνει το σφάλμα δειγματοληψίας;
4
Απλή Τυχαία Δειγματοληψία για την εκτίμηση μέσης
τιμής πληθυσμού. Ο γενικός τύπος
no
n0 0.05
N
n (1)
n n0
0 0.05
1 n0 N
N
Όπου,
n0= μια αρχική προσέγγιση του μεγέθους του δείγματος, που λαμβάνουμε από
τον τύπο:
Z
a
1
n0 ( 2
)2 (2)
d Ν= το μέγεθος του Πληθυσμού,
d= το σφάλμα δειγματοληψίας
5
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 1
============ ==============
Σε κάποιο ελληνικό Πανεπιστήμιο υπηρετούν 800 διδάσκοντες όλων των
βαθμίδων και όλων των κατηγοριών. Η διοίκηση του ιδρύματος θέλησε κάποια
στιγμή να εκτιμήσει το μέσο μηνιαίο μισθό αυτών των διδασκόντων, ώστε να
είναι εφικτή η σύγκριση με τους αντίστοιχους των ξένων Πανεπιστημίων. Είναι
γνωστό, ότι η κατανομή των μηνιαίων μισθών των διδασκόντων είναι κανονική,
με τυπική απόκλιση 50 ευρώ. Πόσο δείγμα θα πρέπει να ληφθεί, ώστε με
πιθανότητα 99 % η εκτίμηση να μην απέχει από την πραγματική περισσότερο
από 10 ευρώ;
==================== ============== ================ =======
Λύση
6
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 2
Ένας ερευνητής ήθελε να εκτιμήσει το μέσο όρο του αναστήματος των φοιτητών
του Πανεπιστημίου Κρήτης, μιας αρκετά μεγάλης πληθυσμιακής ομάδας (
Ν>10000), με επιθυμητή ακρίβεια εκατοστά γύρω από το μέσο όρο, και με
πιθανότητα εμπιστοσύνης 95 %. Επειδή δεν γνώριζε όμως την τυπική απόκλιση
αυτής της πληθυσμιακής ομάδας, έλαβε τυχαίο δείγμα 50 φοιτητών και βρήκε
ότι η τυπική απόκλιση αυτού του δείγματος ήταν s=30 εκατοστά. Αυτή την
τυπική απόκλιση θεώρησε ότι θα μπορούσε να χρησιμοποιήσει σαν την τυπική
απόκλιση του παραπάνω φοιτητικού πληθυσμού. Να σχολιάσετε αυτό το
γεγονός και να προσδιορίσετε το τελικό μέγεθος του δείγματος που θα πρέπει
να λάβει.
==================== ============== ================ =======
Λύση
7
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 3
Μία υποψήφια διδάκτορας στο χώρο της Εκπαίδευσης ήθελε να εκτιμήσει, το
μέσο όρο της επίδοσης των μαθητών της ΣΤ΄ τάξης του Δημοτικού στο θέμα της
γλώσσας, στην Κρήτη. Από τα επίσημα στοιχεία της Πρωτοβάθμιας Εκπαίδευσης
βρήκε ότι σε όλη την Κρήτη, ο παραπάνω πληθυσμός ήταν Ν=7000 άτομα. Η
υποψήφια διδάκτορας, προκειμένου να εκτιμήσει την τυπική απόκλιση του εν
λόγω πληθυσμού, έλαβε τυχαίο δείγμα 122 ατόμων και βρήκε ότι η τυπική
απόκλιση αυτού του δείγματος ήταν s=1,8 μονάδες. Τα γραπτά δε αυτού του
δείγματος βαθμολογήθηκαν με βάση την κλίμακα 1‐10, που εφαρμόζεται στο
Δημοτικό. Αν η υποψήφια διδάκτορας ήθελε να προσδιορίσει το μέσο όρο της
επίδοσης των 7000 παιδιών στη γλώσσα, με επιθυμητό διάστημα εμπιστοσύνης
99% και ανεκτό σφάλμα δειγματοληψίας 2%, ποιο είναι το μέγεθος του
δείγματος που πρέπει να λάβει;
Λύση
=================== =============== =============== =======
Σημαντική παρατήρηση
Στις περιπτώσεις τέτοιων προβλημάτων δεν πρέπει ποτέ να ξεχνάμε, ότι οι
μονάδες της κλίμακας μέτρησης, του μέσου όρου, της τυπικής απόκλισης και
του σφάλματος, θα πρέπει να είναι ίδιες.
8
Εισήγηση 9Β: Απλή Τυχαία Δειγματοληψία για την εκτίμηση ποσοστού
•Ποιο είναι εδώ το ζήτημα. Τι ζητάμε …
Ας υποθέσουμε ότι η παράμετρος του άπειρου ή
πεπερασμένου πληθυσμού που θέλουμε να
εκτιμήσουμε είναι το ποσοστό p και ότι το εκτιμούμενο
ποσοστό είναι . Τότε αν θεωρήσουμε ότι το
p̂
p̂ p
δειγματοληπτικό σφάλμα δεν μπορεί
να υπερβαίνει ένα περιθώριο d, με επίπεδο
εμπιστοσύνης 1‐α,
τότε προφανώς αναζητούμε τη πιθανότητα για
την οποία ισχύει:
P( pˆ p d ) 1 (3)
2
p̂ p
•Που πάει η διαφορά
•Τι είναι το δειγματοληπτικό σφάλμα d που το θέλουμε
όλο και ποιο μικρό…
•Μήπως τελικά το ζήτημα είναι να μικρύνουμε
όσο μπορούμε αυτή τη διαφορά που δεν είναι τίποτε
άλλο από το δειγματοληπτικό σφάλμα των μετρήσεων μας
•Μήπως όλα γίνονται προκειμένου να ικανοποιηθεί η σχέση
P( pˆ p d ) 1
•Και πόσο σφάλμα είμαστε διατεθειμένοι να αποδεχθούμε
στην έρευνά μας;
•Και τι μέγεθος δείγματος να πάρουμε;
• Τι είναι το διάστημα εμπιστοσύνης
•Όσο μεγαλώνει το μέγεθος του δείγματος τι κάνει το σφάλμα
δειγματοληψίας;
3
Απλή Τυχαία Δειγματοληψία για την εκτίμηση
ποσοστού πληθυσμού. Ο γενικός τύπος
no
n0 0.05
N
n (4)
n n0
0
0.05
1 n0 1 N
N
Όπου,
n0= μια αρχική προσέγγιση του μεγέθους του δείγματος, που λαμβάνουμε από
τον τύπο:
z 2 a p (1 p ) Ν= το μέγεθος του Πληθυσμού,
1 (5) d= το σφάλμα δειγματοληψίας
n0 2
2
d 4
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση ποσοστού
ΑΣΚΗΣΗ 4
============ ==============
Σε μια πόλη διαμένουν 5000 οικογένειες/νοικοκυριά. Πόσο είναι το μέγεθος
δείγματος που θα πρέπει να λάβουμε, για να εκτιμήσουμε το ποσοστό των
κατοίκων αυτής της πόλης που διαθέτουν εξοχική κατοικία, με πιθανότητα 90%
και σφάλμα το πολύ 3 % ;
Λύση
= ================= ===========
5
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 5
==================== =
Έστω ότι θέλουμε να εκτιμήσουμε το ποσοστό των ανδρών σε μία πόλη, με
επιθυμητή ακρίβεια και με πιθανότητα 95%. Αν έχουμε την πληροφορία ότι σε
παλιότερη έρευνα το ποσοστό των ανδρών είναι 46 % και ο πληθυσμός της
πόλης αρκετά μεγάλος, ποιό πρέπει να είναι το μέγεθος του δείγματος;
Λύση
====================== =============== ================
6
ΑΣΚΗΣΕΙΣ πάνω στη εκτίμηση μέσης τιμής
ΑΣΚΗΣΗ 6
============= =========
Σε κάποιο απομακρυσμένο νησί του Αιγαίου κατοικούν 4000 άτομα. Κατά τη
διάρκεια του χειμώνα, μια συγκεκριμένη χρονιά, ο πληθυσμός του νησιού
προσβλήθηκε δύο φορές από τον ιό της γρίπης. Την πρώτη φορά το ποσοστό
των κατοίκων που προσβλήθηκε από τον ιό κυμάνθηκε μεταξύ 20% και 30%. Τη
δεύτερη φορά, δηλ. στο δεύτερο κύμα της επιδημίας, κάποιος επιδημιολόγος
ήθελε να εκτιμήσει το πραγματικό ποσοστό του πληθυσμού το οποίο
προσβλήθηκε από τον ιό, με πιθανότητα 95% και σφάλμα το πολύ 3%. Πόσο
δείγμα έπρεπε να λάβει;
Λύση
======================== ================ =============
============= ========== ======== =====
Τέλος β’ εισήγησης
7