Professional Documents
Culture Documents
Ενότητα 1: Εισαγωγή
Σκοπός και στόχος διαλέξεων
Αναμενόμενα μαθησιακά
αποτελέσματα
• Μετά το τέλος της ενότητος οι σπουδαστές θα είναι σε θέση:
o Να κατανοούν τη Στατιστική Μεθοδολογία και τα
αποτελέσματα των Βιομετρικών Ερευνών.
o Να οργανώνουν και να παρουσιάζουν δεδομένα όλων των
τύπων με τη χρήση των κατάλληλων στατιστικών μεθόδων.
o Να πραγματοποιούν βασικές στατιστικές αναλύσεις των
ανωτέρω δεδομένων.
2
Σύντομη Ιστορική Αναδρομή 1/3
4
Σύντομη Ιστορική Αναδρομή 3/3
6
Σύνοψη της Παρουσίασης
Η απογραφή
Πληθυσμός:
Το σύνολο που περιλαμβάνει όλες τις μετρήσεις του υπό
μελέτη χαρακτηριστικού.
Δείγμα:
Ένα υποσύνολο του πληθυσμού.
Μείωση κόστους
Ελαχιστοποίηση χρόνου
Όταν είναι αδύνατο να μελετήσουμε ολόκληρο τον
πληθυσμό
Τύποι δειγματοληψίας
• Μη πιθανοθεωρητικά δείγματα
• Πιθανοθεωρητικά δείγματα
8
Δειγματοληψία 1/2
Δειγματοληψία 2/2
10
Μη πιθανοθεωρητικά δείγματα 1/2
11
12
Πιθανοθεωρητικά δείγματα
• Τυχαία δειγματοληψία
o Κάθε μονάδα έχει μια γνωστή πιθανότητα επιλογής.
• Επιτρέπουν:
o Γενικεύσεις.
o Δοκιμασία υποθέσεων.
13
Συμπερασματικά
14
Μέθοδοι Δειγματοληψίας
(πιθανοθεωρητικής)
15
16
Table of random numbers
684257954125632140
582032154785962024
362333254789120325
985263017424503686
17
Systematic sampling
18
Δειγματοληπτικά σφάλματα
• Συστηματικά σφάλματα
• Μη δειγματοληπτικά σφάλματα
19
Precision
Cost
20
Ενότητα 3: Εισαγωγικές έννοιες – Περιγραφική στατιστική
ΜΕΤΑΒΛΗΤΕΣ
1
Περιγραφική Στατιστική
ΜΕΤΑΒΛΗΤΕΣ
(VARIABLES)
ΠΟΙΟΤΙΚΕΣ ΠΟΣΟΤΙΚΕΣ
Περιγραφική Στατιστική
ΤΡΟΠΟΙ ΠΑΡΟΥΣΙΑΣΗΣ
ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ΠΟΙΟΤΙΚΑ ΠΟΣΟΤΙΚΑ
ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ
ΙΣΤΟ
ΔΙΑΓΡΑΜΜΑ ΓΡΑΜΜΑ
ΚΥΚΛΟ
ΣΥΧΝΟΤΗΤΩΝ ΓΡΑΜΜΑ
3
Περιγραφική Στατιστική
Περιγραφική Στατιστική
Περιγραφική Στατιστική
7
Περιγραφική Στατιστική
Περιγραφική Στατιστική
9
Περιγραφική Στατιστική
• Συνεπώς έχουμε εισάγει
τις δύο μεταβλητές και
έχουμε αυτή την εικόνα:
10
1. Introduction
11
Περιγραφική Στατιστική
12
Περιγραφική Στατιστική
13
Περιγραφική Στατιστική
14
Περιγραφική Στατιστική
15
Περιγραφική Στατιστική
16
Περιγραφική Στατιστική
17
Διαγράμματα επιφανείας
100
95
90
85
80
18
Περιγραφική Στατιστική
19
Η ερμηνεία των
περιγραφικών μέτρων
• Αριθμητικός μέσος
o Η αναμενόμενη τιμή που θα έχει η ποσοτική μεταβλητή σε
ένα τυχαία επιλεγμένο άτομο του δείγματος.
20
Αριθμητικός μέσος
Αριθμητικός
μέσος
21
Η ερμηνεία των
περιγραφικών μέτρων
• Πότε χρειαζόμαστε τη διάμεσο;
o Όταν έχουμε ακραίες τιμές στην κατανομή της ποσοτικής
μεταβλητής,
και ειδικότερα όταν είναι ασύμμετρα κατανεμημένες.
22
23
Περιγραφική Στατιστική
24
Η ερμηνεία των
περιγραφικών μέτρων
• Τυπική απόκλιση
o Ένας δείκτης μεταβλητότητας των τιμών της ποσοτικής
μεταβλητής.
Όσο μικρότερες τιμές λαμβάνει, τόσο πιο ομοιογενές το
δείγμα.
Επηρεάζεται από τις μονάδες μέτρησης.
25
Μέτρηση της μεταβλητότητας
• Συντελεστής μεταβλητότητας
o Ένας δείκτης μεταβλητότητας των τιμών της ποσοτικής
μεταβλητής, που λαμβάνει υπόψη την μέση τιμή και δεν
επηρεάζεται από τις μονάδες μέτρησης.
26
27
Box Plot (Dietcomp 5v*30c)
102
100
98
96
94
92
MONTH3
90
88
86
84
82
80
78
Median
76 25%-75%
Male Female Non-Outlier Range
GENDER
28
Ενότητα
ειγ ατικός Χώρος και Ενδεχό ενα
1 ες| Ε.
Δειγματικός Χώρος & Ενδεχόμενα
2 ες| Ε.
3 ες| Ε.
Πράξεις Ενδεχομένων
Ενότητα
Πράξεις Ενδεχο ένων
1 ες| Ε.
Πράξεις Ενδεχομένων
2 ες| Ε.
Πράξεις Ενδεχομένων
3 ες| Ε.
Πράξεις Ενδεχομένων
4 ες| Ε.
Ορισμός Πιθανότητας
Ενότητα
Ορισ ός Πιθανότητας
1 ες| Ε.
Ορισμός Πιθανότητας
2 ες| Ε.
Ορισμός Πιθανότητας
3 ες| Ε.
Ορισμός Πιθανότητας
4 ες| Ε.
Ορισμός Πιθανότητας
Παράδειγ α 1
5 ες| Ε.
Ορισμός Πιθανότητας
6 ες| Ε.
Ορισμός Πιθανότητας
Θεώρη α
7 ες| Ε.
Δεσμευμένη Πιθανότητα
Ενότητα
εσ ευ ένη Πιθανότητα Ανεξαρτησία
1 ες | Ε.
Δεσμευμένη Πιθανότητα
2 ες | Ε.
Δεσμευμένη Πιθανότητα
Παράδειγ α 1
Λύση
3 ες | Ε.
Δεσμευμένη Πιθανότητα
4 ες | Ε.
Δεσμευμένη Πιθανότητα
Παράδειγ α 2
5 ες | Ε.
Δεσμευμένη Πιθανότητα
Λύση
6 ες | Ε.
Δεσμευμένη Πιθανότητα
7 ες | Ε.
Δεσμευμένη Πιθανότητα
Ορισ ός
8 ες | Ε.
Ενότητα
Τυχαία Μεταβλητή
Ορισ ός
1 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
Συνάρτηση Κατανο ής
Ορισ ός
2 ες| Ε.
3 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
Θεώρη α
4 ες| Ε.
5 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
6 ες| Ε.
Ορισ ός
7 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
Παράδειγ α 1
Λύση
8 ες| Ε.
Ορισ ός
9 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
Ορισ ός
10 ες| Ε.
Θεώρη α
11 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας
Θεώρη α
Απόδειξη
12 ες| Ε.
Ενότητα
1 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές
2 ες| Ε.
Παράδειγ α
3 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές
Λύση
4 ες| Ε.
5 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές
Ορισ ός
6 ες| Ε.
Παράδειγ α
Λύση
7 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές
8 ες| Ε.
Ενότητα
1. Κατανο ή Bernoulli
Ορισ ός
1 ες| Ε.
Βασικές Διακριτές Κατανομές
Θεώρη α
2 ες| Ε.
Θεώρη α
3 ες| Ε.
Βασικές Διακριτές Κατανομές
Θεώρη α
Παράδειγ α
4 ες| Ε.
Λύση
5 ες| Ε.
Βασικές Διακριτές Κατανομές
Θεώρη α
6 ες| Ε.
4. Κατανο ή Poisson
Ορισ ός
7 ες| Ε.
Βασικές Διακριτές Κατανομές
Θεώρη α
8 ες| Ε.
Θεώρη α
9 ες| Ε.
Βασικές Διακριτές Κατανομές
Παράδειγ α
Λύση
10 ες| Ε.
11 ες| Ε.
Βασικές Διακριτές Κατανομές
Παράδειγ α
Λύση
12 ες| Ε.
13 ες| Ε.
Βασικές Συνεχείς Κατανομές
Ενότητα
Βασικές Συνεχείς Κατανο ές
1. Ο οιό ορφη Κατανο ή
Ορισ ός
Θεώρη α
1 ες| Ε.
Απόδειξη
2 ες| Ε.
Βασικές Συνεχείς Κατανομές
3 ες| Ε.
Παράδειγ α
Λύση
4 ες| Ε.
Βασικές Συνεχείς Κατανομές
5 ες| Ε.
Παράδειγ α
6 ες| Ε.
Βασικές Συνεχείς Κατανομές
Λύση
7 ες| Ε.
2. Κανονική Κατανο ή
8 ες| Ε.
Βασικές Συνεχείς Κατανομές
Ορισ ός
Θεώρη α
9 ες| Ε.
Θεώρη α
Ση είωση
10 ες| Ε.
Βασικές Συνεχείς Κατανομές
11 ες| Ε.
Θεώρη α
12 ες| Ε.
Βασικές Συνεχείς Κατανομές
Πόρισ α
13 ες| Ε.
Παράδειγ α
Λύση
14 ες| Ε.
Βασικές Συνεχείς Κατανομές
Παράδειγ α
Λύση
15 ες| Ε.
16 ες| Ε.
Ασκήσεις
Ενότητα
Λυ ένες Ασκήσεις
Άσκηση 1
Λύση
1 ες| Ε.
Ασκήσεις
Άσκηση 2
2 ες| Ε.
Ασκήσεις
Λύση
Άσκηση 3
3 ες| Ε.
Ασκήσεις
Λύση
4 ες| Ε.
Ασκήσεις
Άσκηση 4
Λύση
5 ες| Ε.
Ασκήσεις
6 ες| Ε.
Ασκήσεις
Άσκηση 5
Λύση
7 ες| Ε.
Ασκήσεις
8 ες| Ε.
Ασκήσεις
Άσκηση 6
Λύση
9 ες| Ε.
Ασκήσεις
10 ες| Ε.
Ενότητα 6: Έλεγχοι υποθέσεων - Διαστήματα εμπιστοσύνης
Οι ερευνητικές υποθέσεις
1
• Η διαδικασία που ακολουθείται για την λήψη τέτοιου είδους
αποφάσεων ονομάζεται έλεγχος υποθέσεων.
• Η υπόθεση που θέλουμε να ελέγξουμε συμβολίζεται με Ηο και
ονομάζεται μηδενική υπόθεση ενώ η εναλλακτική της υπόθεση
συμβολίζεται με H1 .
• Σε κάθε έλεγχο είναι δυνατόν να πραγματοποιηθούν δύο
ειδών σφάλματα:
o Σφάλμα τύπου Ι: Απόρριψη της Ηο ενώ στην
πραγματικότητα είναι αληθής.
o Σφάλμα τύπου ΙΙ: Απόρριψη της H1 (Αποδοχή της Ηο) ενώ
στην πραγματικότητα η H1 είναι αληθής.
Αποδοχή Απόρριψη
υπόθεσης Ηο υπόθεσης ΗO από
από το δείγμα το δείγμα
Υπόθεση Ηο
αληθής στον
πληθυσμό
Σφάλμα τύπου Ι
Υπόθεση Ηο
ψευδής στον Σφάλμα τύπου ΙΙ
πληθυσμό
Στατιστική ισχύς
3
Έλεγχοι Υποθέσεων
Περιοχή
απόρριψης Ηο
Ηο αληθής στον Πληθυσμό
Σωστή
Σφάλμα απόφαση
Τύπου-Ι
Σωστή
απόφαση Ηο ψευδής στον Πληθυσμό
7
Τι δεν είναι το p-value
9
p-value και μέγεθος του δείγματος για μια
δεδομένη συσχέτιση
0,16
0,14
0,12
0,1
p-value
0,08
0,06
0,04
0,02
0 100 200 300 400 500 600 700 800 900 1000
10
11
Οι «αρχές» της δειγματοληψίας
12
14
Παράδειγμα
15
Έλεγχοι υποθέσεων και δ.ε. για διαφορά μέσων τιμών σε ανεξάρτητους πληθυσμούς σε
μικρά δείγματα και με ισότητα διασπορών (σ1 =σ2 =σ):
x1 x2
Το κριτήριο t δίνεται από τον τύπο: t
s n11 n12
16
17
Όπως διαπιστώνουμε δεχόμαστε την μηδενική υπόθεση Ηο : μ1=μ2 έναντι
της εναλλακτικής H1 : μ1≠μ2, δηλαδή δεχόμαστε ότι δεν υπάρχει διαφορά
στις τιμές του καλίου του ορού στις δύο αυτές ομάδες.
Συγκεκριμένα:
Null Hypothesis: difference between means = 0,0
Alternative: not equal
Computed t statistic = -1,9043
P-Value = 0,0833412
Do not reject the null hypothesis for alpha = 0,05
(Equal variances assumed)
Δεχόμαστε την μηδενική υπόθεση Ηο για επίπεδο σημαντικότητας α=0.05,
διότι η τιμή του p-value είναι 0.08334 > 0.05. Επίσης το στατιστικό
λογισμικό μας υπολογίζει και την τιμή του t κριτηρίου ίση με -1.9043.
Σημειώνεται ότι αναφερόμαστε σε κανονικούς πληθυσμούς με άγνωστες
και ίσες διασπορές (σ1=σ2=σ). 18
19
Statistical Tests –Confidence Intervals
Statistical tests I
Παράδειγμα:
Σε τέσσερα άτομα με αυξημένες τιμές των τριγλυκεριδίων του ορού
(mg/dl) χορηγήθηκε για ένα μήνα φάρμακο που πιστεύεται ότι ελαττώνει
τα επίπεδα των τριγλυκεριδίων. Οι τιμές των τριγλυκεριδίων στα τέσσερα
αυτά άτομα πριν και μετά τη χορήγηση του φαρμάκου ήταν:
Άτομο Πριν τη χορήγηση Μετά τη χορήγηση
1o 180 120
2o 200 220
3o 240 130
4o 230 160
Βρείτε ένα 95% δ.ε. για την διαφορά των μέσων μ1-μ2 στα επίπεδα
των τριγλυκεριδίων πριν και μετά την χορήγηση.
Ελαττώνει τα επίπεδα των τριγλυκεριδίων το φάρμακο αυτό;
(Άσκηση 65 σελ. 16 του Βιβλίου Ασκήσεων Βιοστατιστικής Α. Τζώνου &
Κ. Κατσουγιάννη) 20
sz s
(z t a , z z t a ) , όπου z xi yi .
n n1; 2 n n1; 2
21
Statistical Tests –Confidence Intervals
Statistical tests I
Όπως φαίνεται και στην παρακάτω εικόνα το 95% διάστημα
εμπιστοσύνης για την διαφορά των μέσων στα επίπεδα τριγλικεριδίων
πριν και μετά την χορήγηση είναι:
55,0 +/- 86,6694 = [-31,6694;141,669]
22
23
Statistical Tests –Confidence Intervals
Statistical tests I
Όπως παρατηρούμε παράγονται τα εξής συμπεράσματα:
Null hypothesis: mean = 0,0
Alternative: greater than
Computed t statistic = 2,01957
P-Value = 0,0683566
Do not reject the null hypothesis for alpha = 0,05.
Δηλ. δεχόμαστε (δεν απορρίπτουμε) την μηδενική υπόθεση σε επίπεδο
σημαντικότητας α=5% και συνεπώς το φάρμακο δεν ελαττώνει τα
επίπεδα των τριγλυκεριδίων.
Αυτό συμβαίνει διότι η τιμή του P είναι 0,068>0,05 και άρα δέχομαι την
Ηο: μ1=μ2.
Ταυτόχρονα υπολογίζεται και η τιμή του κριτηρίου t statistic ίση με
2,01957. 24
• Παράδειγμα
o «εξαρτάται το βρογχικό άσθμα από το κάπνισμα των
γονέων; »
o «επηρεάζει η έντονη φυσική δραστηριότητα την
κατηγορία σωματικού βάρους;»
o «οι υπερτασικοί ασθενείς διαφέρουν ανά φύλο;»
( ) 2
X2
2
Η «φιλοσοφία» του κριτηρίου
Χ/Υ Α1
(π.χ.
Α2
(π.χ.
Σύνολο
ασθενείς) υγιείς)
Δειγματοληπτικά στοιχεία Β1 (παράγοντας
παρών) α β R1
(πραγματικά δεδομένα) Β2 (παράγοντας
απών) γ δ R2
Σϋνολο
Το κριτήριο χ2 «μετρά» C1 C2 n
την απόσταση των δύο
πινάκων Χ’ / Υ’
Α1
(π.χ.
Α2
(π.χ.
Σύνολο
ασθενείς) υγιείς)
C1 C2 n
Το κριτήριο Χ2
( a ' ) 2
( ' ) 2
( ' ) 2
( ' ) 2
X2
' ' ' '
4
Έλεγχος ανεξαρτησίας 2 ποιοτικών
χαρακτηριστικών
Η κατανομή Χ2
• Ασύμμετρη.
• Θετικά ορισμένη.
• Η μορφή της εξαρτάται από
τους βαθμούς ελευθερίας
B.E= ( κ-1) ( λ – 1) όπου κ, λ ο
αριθμός των γραμμών και των
στηλών του πίνακα.
• Με βάση τους βαθμούς
ελευθερίας και την χρήση
ειδικών πινάκων
υπολογίζουμε την κρίσιμη
τιμή του ελέγχου ξ.
6
Ε. ΠΑΠΑΓΕΩΡΓΙΟΥ 7
Προϋποθέσεις εφαρμογής
του κριτηρίου Χ2
8
Παράδειγμα
Σε 500 μαθητές δημοτικού σχολείου μελετήθηκε η σχέση της
υγείας του στόματος τους με τη χλωρίωση του νερού στην περιοχή
διαμονής τους. Η κατανομή των 500 μαθητών ανάλογα με την
υγεία του στόματος και τη χλωρίωση του νερού ήταν:
Υγεία στόματος
Χλωρίωση νερού Κακή Μέτρια Καλή
Ανεπαρκής 80 120 75
Επαρκής 40 80 105
Σύνολο 120 200 180
R {X 2 X 2( s 1)( k 1);a }
10
Όπως φαίνεται στο παρακάτω παράθυρο «Frequency Table» τα
θεωρητικά μεγέθη εμφανίζονται κάτω από τα παρατηρούμενα:
Υγεία Στόματος
1 2 3 Total
Χλωρίωση 1 Count
80 120 75 275
Expected
Count 66,0 110,0 99,0 275,0
2 Count
40 80 105 225
Expected
Count 54,0 90,0 81,0 225,0
Total Count
120 200 180 500
Expected
Count 120,0 200,0 180,0 500,0
11
Chi-Square Tests
Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 21,549a 2 ,000
Likelihood Ratio 21,661 2 ,000
Linear-by-Linear Association 19,886 1 ,000
N of Valid Cases 500
12
Συμπεράσματα
Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών
13
Συσχέτιση 2/6
Συντελεστής Συσχέτισης Pearson
2
Συσχέτιση 3/6
Συσχέτιση 4/6
4
Συσχέτιση 5/6
Συσχέτιση 6/6
Λύση:
Ακολουθούμε τα
παρακάτω βήματα:
Εισάγουμε τα
δεδομένα σε στήλες
(με τον γνωστό τρόπο)
όπως φαίνεται και στην
παρακάτω εικόνα:
11
12
Απλή Παλινδρόμηση 7/14
13
14
Απλή Παλινδρόμηση 9/14
Διαπιστώσαμε:
• Ύπαρξη συσχέτισης μεταξύ Χ, Υ
• Ύπαρξη γραμμικής συσχέτισης μεταξύ Χ,Υ
Υ = α + βχ (Υ = α + βχ + ε)
Συνεπώς προχωράμε σε εκτίμηση των παραμέτρων α,β:
16
Απλή Παλινδρόμηση 10/14
17
18
Απλή Παλινδρόμηση 12/14
19
20
Απλή Παλινδρόμηση 13/14
Ερμηνεία του β:
Ο συντελεστής β εκφράζει την μεταβολή στην εξαρτημένη
μεταβλητή Υ όταν η ανεξάρτητη μεταβλητή Χ αυξηθεί κατά μία
μονάδα.
Επίσης, εάν β=0, το μοντέλο παίρνει την μορφή:
Υ=α
Και συνεπώς η ανεξάρτητη μεταβλητή Χ δεν επηρεάζει καθόλου
την Υ.
Σε αυτό το σημείο πρέπει να προσέξουμε γιατί στην ακρίβεια η
ανεξάρτητη μεταβλητή Χ δεν έχει καμία γραμμική σχέση με την Υ.
Δεν αποκλείονται όμως άλλου είδους επιδράσεις.
21