You are on page 1of 102

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας

Πιθανότητες και Βιοστατιστική

Δρ.Ευσταθία Παπαγεωργίου, Αναπληρώτρια Καθηγήτρια


Tμήμα Μηχανικών Βιοϊατρικής Τεχνολογίας T.E.

Ενότητα 1: Εισαγωγή
Σκοπός και στόχος διαλέξεων

• Να γίνουν προσιτοί οι τρόποι:


o οργάνωσης και παρουσίασης τύπων δεδομένων και
o ανάλυσης των διαφόρων τύπων δεδομένων.
• Να γίνουν κατανοητές οι έννοιες:
o των δειγματοληπτικών μεθόδων και
o της στατιστικής συμπερασματολογίας.

Αναμενόμενα μαθησιακά
αποτελέσματα
• Μετά το τέλος της ενότητος οι σπουδαστές θα είναι σε θέση:
o Να κατανοούν τη Στατιστική Μεθοδολογία και τα
αποτελέσματα των Βιομετρικών Ερευνών.
o Να οργανώνουν και να παρουσιάζουν δεδομένα όλων των
τύπων με τη χρήση των κατάλληλων στατιστικών μεθόδων.
o Να πραγματοποιούν βασικές στατιστικές αναλύσεις των
ανωτέρω δεδομένων.

2
Σύντομη Ιστορική Αναδρομή 1/3

• Η επιδημιολογία διαμορφώθηκε ως επιστήμη τον μεσαίωνα


για την μελέτη μεγάλων επιδημιών (χολέρα, ευλογιά,
πανώλη). Ο πρώτος που ασχολήθηκε με τα αντικείμενα της
«Επιδημιολογίας» είναι ο Ιπποκράτης (460-357 π.Χ) στο «Περί
αέρος, ύδατος και τόπων». Εκεί κατέγραψε τις εμπειρικές
σχέσεις μεταξύ συγκεκριμένων ασθενειών και του τόπου
εκδήλωσης ή εμφάνισης, των συνθηκών διαβίωσης, της
διατροφής, κατοικίας, κλίματος και άλλων αιτιών. Όλα αυτά
αποτελούν το αντικείμενο της σύγχρονης περιγραφικής
Επιδημιολογίας.

Σύντομη Ιστορική Αναδρομή 2/3

• Πολύ αργότερα ακολούθησαν ο ο Graunt (1620-1674) και ο


Farr (1807-1883). Την ίδια εποχή, ο Snow (1813-1858)
απέδειξε ότι η χολέρα προερχόταν από μικρόβιο που
μεταδιδόταν από το νερό και την κοπριά. Στο αποτέλεσμα
αυτό κατέληξε αφού μελέτησε το νερό από την κεντρική
ύδρευση δύο περιοχών ίδιων χαρακτηριστικών (ηλικία, φύλο,
κοινωνικοοικονομική κατάσταση):
το Lambeth (με καθαρό νερό) και το Soutwork (όπου το νερό
περιείχε απόβλητα). Το Lambeth είχε 8 φορές μικρότερη
θνησιμότητα από χολέρα. Άρα το νερό ήταν το κλειδί και όχι ο
αέρας όπως πίστευαν εκείνη την εποχή.

4
Σύντομη Ιστορική Αναδρομή 3/3

• Στον 20ο αιώνα είχαμε σημαντικές εξελίξεις στην


Επιδημιολογία. Μια από τις πιο σημαντικές είναι η σύνδεση
του καπνίσματος με τον καρκίνο του πνεύμονα από τον Doll,
(για λεπτομέρειες βλ. Doll and Peto,1976).
• Πολύ σημαντικό γεγονός είναι και η δημιουργία Σχολή
Δημόσιας Υγιεινής το 1922 στο Πανεπιστήμιο του Harvard η
οποία περιλαμβάνει Τμήματα Επιδημιολογίας και
Βιοστατιστικής. Η σχολή αυτή συνέβαλε στον καθορισμό και
στην προώθηση της επιστήμης της Επιδημιολογίας και
καθιερώθηκε ως ένα από τα καλύτερα Σχολεία στον τομέα
αυτό.

Η Επιστήμη της Βιοστατιστικής

 Ως Βιοστατιστική ορίζουμε τον εξειδικευμένο τομέα της


Στατιστικής που ασχολείται αποκλειστικά με προβλήματα που
εμφανίζονται στην Ιατρική Έρευνα.

6
Σύνοψη της Παρουσίασης

• Εισαγωγικές Έννοιες-Περιγραφική Στατιστική


• Ανάλυση Συνεχών Μεταβλητών
• Ανάλυση Κατηγορικών Δεδομένων
• Έλεγχοι Υποθέσεων – Διαστήματα Εμπιστοσύνης
• Συσχέτιση
• Γραμμική Παλινδρόμηση

Ενότητα 2: Πληθυσμός και δείγμα - Δειγματοληπτικές μέθοδοι και


δειγματοληπτικό σφάλμα
Συλλογή δεδομένων

• Μια κύρια πρωτογενής πηγή συλλογής στοιχείων είναι η


διενέργεια πληθυσμιακών ερευνών
o Π.χ. απογραφικών ή δειγματοληπτικών.

Μέθοδοι συλλογής δεδομένων 1/2

• Οι κυριότεροι τρόποι συλλογής των πληροφοριών είναι οι


ακόλουθοι:
o Ταχυδρομικά, η μέθοδος αυτή έχει μικρό κόστος, αλλά
απαντά συνήθως πολύ μικρό ποσοστό ερωτώμενων (20-
40%).
o Τηλεφωνικά, έχει και αυτή η μέθοδος μικρό κόστος και
εύκολο τρόπο επιλογής τυχαίου δείγματος, π.χ. τυχαίοι
αριθμοί από τηλεφωνικό κατάλογο, όμως πρέπει να γίνεται
προσεκτικά και σε ώρες που να μην είναι ενοχλητικές για
τους ερωτώμενους. Συνήθως ανταποκρίνεται το 60-80% των
ερωτώμενων, αλλά πολλές φορές οι απαντήσεις είναι
μικρής εγκυρότητας. 2
Μέθοδοι συλλογής δεδομένων 2/2

• Συνέντευξη, ίσως ο πιο ασφαλής τρόπος αλλά με μεγάλο


κόστος. Οι ερευνητές επίσης πρέπει να είναι κατάλληλα
καταρτισμένοι για την επιτυχή διεξαγωγή της έρευνας.
Συνήθως ανταποκρίνεται το 70-80% των ερωτώμενων.
• Συνδυασμός των παραπάνω μεθόδων, η μέθοδος αυτή είναι
δαπανηρή αλλά δίνει τα καλύτερα αποτελέσματα και με την
μικρότερη πιθανότητα σφάλματος.

Η απογραφή

• Η μέθοδος της απογραφής στηρίζεται στη συγκέντρωση


στοιχείων από όλες τις μονάδες ενός πληθυσμού που
ενδιαφέρει στη συγκεκριμένη έρευνα.
o Επειδή το σύνολο των ερωτώμενων είναι μεγάλο,
παράλληλα με το μεγάλο πλήθος των μεταβλητών που
εξετάζονται, η μέθοδος αυτή απαιτεί μεγάλο χρόνο και
πολύ μεγάλο κόστος για την συλλογή των στοιχείων και την
εξαγωγή συμπερασμάτων.
 Έτσι συχνά οι ερευνητές καταφεύγουν στη διαδικασία
της δειγματοληψίας, που κρύβει και μεγαλύτερο
σφάλμα.
4
Σημαντικοί στατιστικοί όροι 1/2

Πληθυσμός:
Το σύνολο που περιλαμβάνει όλες τις μετρήσεις του υπό
μελέτη χαρακτηριστικού.

Δείγμα:
Ένα υποσύνολο του πληθυσμού.

Σημαντικοί στατιστικοί όροι 2/2


• Πληθυσμός Στόχος:
Ο υπό μελέτη πληθυσμός/ στον οποίο ο ερευνητής θέλει να
γενικεύσει τα αποτελέσματά του.
• Απλό στοιχείο:
Κάθε στοιχείο του πληθυσμού.
• Δειγματοληπτική μονάδα:
Η μικρότερη μονάδα από την οποία μπορεί να επιλεγεί το
δείγμα.
• Δειγματοληπτικό πλαίσιο
Το σύνολο των δειγματοληπτικών μονάδων.
• Τρόπος Δειγματοληψίας
Μέθοδος επιλογής δείγματος από το δειγματοληπτικό πλαίσιο. 6
Για ποιο λόγο παίρνουμε δείγμα;

• Όταν θέλουμε να εξάγουμε πληροφορία για μεγάλους


πληθυσμούς

 Μείωση κόστους
 Ελαχιστοποίηση χρόνου
 Όταν είναι αδύνατο να μελετήσουμε ολόκληρο τον
πληθυσμό

Τύποι δειγματοληψίας

• Μη πιθανοθεωρητικά δείγματα

• Πιθανοθεωρητικά δείγματα

8
Δειγματοληψία 1/2

Όμως αν δεν πραγματοποιηθεί με σωστές μεθόδους τότε


υπάρχει μεγάλος κίνδυνος εξαγωγής λανθασμένων
συμπερασμάτων.
 Ένα χαρακτηριστικό παράδειγμα λανθασμένης εκλογής
δείγματος ήταν η Αμερικάνικες προεδρικές εκλογές του
1936 όπου η πρόβλεψη οδήγησε σε πλήρη αποτυχία γιατί
το δείγμα επιλέχθηκε από τους τηλεφωνικούς καταλόγους
οι οποίοι την εποχή εκείνη περιείχαν μόνο τις “ανώτερες”
κοινωνικές τάξεις που διέθεταν τηλέφωνο.

Δειγματοληψία 2/2

• Από τις πιο συχνά εφαρμόσιμες μεθόδους συλλογής


δεδομένων είναι η δειγματοληψία, η οποία ορίζεται ως η
μερική απογραφή σε ένα υποσύνολο του πληθυσμού το
δείγμα.

10
Μη πιθανοθεωρητικά δείγματα 1/2

• Βολικά δείγματα (ευκολία πρόσβασης)


• Δειγματοληψία χιονοστοιβάδας (το φίλο του φίλου κλπ)
• Σκόπιμη δειγματοληψία (Επιλέγουμε ότι νομίζουμε
κατάλληλο για την έρευνα)
o Δειγματοληψία ποσόστωσης

11

Μη πιθανοθεωρητικά δείγματα 2/2

• Η πιθανότητα επιλογής παραμένει άγνωστη.


• Είναι φθηνότερα αλλά αδυνατούν να δώσουν
γενικευμένα συμπεράσματα.
• Δυνητικά μεροληπτικά.

12
Πιθανοθεωρητικά δείγματα

• Τυχαία δειγματοληψία
o Κάθε μονάδα έχει μια γνωστή πιθανότητα επιλογής.
• Επιτρέπουν:
o Γενικεύσεις.
o Δοκιμασία υποθέσεων.

13

Συμπερασματικά

• Τα πιθανοθεωρητικά δείγματα είναι τα καλύτερα


• Εξασφαλίζουν:
o Αντιπροσωπευτικότητα
o Ακρίβεια

14
Μέθοδοι Δειγματοληψίας
(πιθανοθεωρητικής)

• Απλή τυχαία δειγματοληψία


• Συστηματική δειγματοληψία
• Στρωματοποιημένη δειγματοληψία
• Πολυσταδιακή δειγματοληψία

15

Simple random sampling

16
Table of random numbers

684257954125632140
582032154785962024
362333254789120325
985263017424503686

17

Systematic sampling

18
Δειγματοληπτικά σφάλματα

• Συστηματικά σφάλματα
• Μη δειγματοληπτικά σφάλματα

19

Precision
Cost

20
Ενότητα 3: Εισαγωγικές έννοιες – Περιγραφική στατιστική

Η ανάγκη χρήσης μεταβλητών

Έννοιες Χαρακτηριστικά Μεγέθη


Άγχος, μόρφωση, Φύλο, επάγγελμα κλπ Ηλικία, βάρος,
διατροφή κλπ λιπίδια κλπ

Υπάρχει ανάγκη ποσοτικής αποτίμησης

ΜΕΤΑΒΛΗΤΕΣ

1
Περιγραφική Στατιστική

ΜΕΤΑΒΛΗΤΕΣ
(VARIABLES)

ΠΟΙΟΤΙΚΕΣ ΠΟΣΟΤΙΚΕΣ

ΟΝΟΜΑΣΤΙΚΕΣ ΔΙΑΤΑΞΙΜΕΣ ΔΙΑΚΡΙΤΕΣ ΣΥΝΕΧΕΙΣ

Περιγραφική Στατιστική

ΤΡΟΠΟΙ ΠΑΡΟΥΣΙΑΣΗΣ
ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΟΙΟΤΙΚΑ ΠΟΣΟΤΙΚΑ
ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ

ΡΑΒΔΟ ΚΥΚΛΟ ΠΟΛΥΓΩΝΟ


ΓΡΑΜΜΑ ΓΡΑΜΜΑ ΣΥΧΝΟΤΗΤΩΝ

ΙΣΤΟ
ΔΙΑΓΡΑΜΜΑ ΓΡΑΜΜΑ
ΚΥΚΛΟ
ΣΥΧΝΟΤΗΤΩΝ ΓΡΑΜΜΑ
3
Περιγραφική Στατιστική

• Παράδειγμα: Σε ένα δείγμα 20


οικογενειών από μια περιοχή
της Αθήνας, το επάγγελμα του
πατέρα, το ημερομίσθιο του
πατέρα και ο αριθμός παιδιών
της οικογένειας ήταν:

Περιγραφική Στατιστική

• Στο παράδειγμα, για


να εισάγουμε τη
μεταβλητή
«επάγγελμα»,
επιλέγουμε μεταβλητή
τύπου character αφού
πρόκειται για ποιοτική
μεταβλητή, την
ονομάζουμε
«επάγγελμα» και στη
συνέχεια
πληκτρολογούμε τα
δεδομένα μας:
5
Περιγραφική Στατιστική

• Η ανάλυση που προκύπτει άμεσα είναι η ακόλουθη:

Περιγραφική Στατιστική

• Και ο πίνακας συχνοτήτων:

7
Περιγραφική Στατιστική

• Και το ραβδόγραμμα συχνοτήτων:

Περιγραφική Στατιστική

• Και το κυκλόγραμμα (πίτα) συχνοτήτων:

9
Περιγραφική Στατιστική
• Συνεπώς έχουμε εισάγει
τις δύο μεταβλητές και
έχουμε αυτή την εικόνα:

10

1. Introduction

11
Περιγραφική Στατιστική

• By default εμφανίζεται η παρακάτω ανάλυση:

12

Περιγραφική Στατιστική

13
Περιγραφική Στατιστική

14

Περιγραφική Στατιστική

15
Περιγραφική Στατιστική

16

Περιγραφική Στατιστική

17
Διαγράμματα επιφανείας

3D Surface Plot (Dietcomp 5v*30c)


MONTH3 = Distance Weighted Least Squares

100
95
90
85
80

18

Περιγραφική Στατιστική

• Ως περιγραφικά μέτρα θέσης εννοούμε τα εξής:


o Μέση Τιμή
o Κορυφή ή Επικρατούσα Τιμή
o Διάμεσο
o Ποσοστημόρια

19
Η ερμηνεία των
περιγραφικών μέτρων
• Αριθμητικός μέσος
o Η αναμενόμενη τιμή που θα έχει η ποσοτική μεταβλητή σε
ένα τυχαία επιλεγμένο άτομο του δείγματος.

 Πόσο αξιόπιστο μέτρο είναι; (όταν στο δείγμα υπάρχει


ανισοκατανομή).

20

Αριθμητικός μέσος

Αριθμητικός
μέσος

21
Η ερμηνεία των
περιγραφικών μέτρων
• Πότε χρειαζόμαστε τη διάμεσο;
o Όταν έχουμε ακραίες τιμές στην κατανομή της ποσοτικής
μεταβλητής,
 και ειδικότερα όταν είναι ασύμμετρα κατανεμημένες.

22

Αριθμητικός μέσος και ακραίες τιμές

23
Περιγραφική Στατιστική

• Ως πιο διαδεδομένα περιγραφικά μέτρα διασποράς εννοούμε


τα εξής:
o Εύρος
o Ενδοτεταρτημοριακή απόκλιση
o Μέση απόκλιση
o Διασπορά ή Διακύμανση
o Τυπική απόκλιση

24

Η ερμηνεία των
περιγραφικών μέτρων
• Τυπική απόκλιση
o Ένας δείκτης μεταβλητότητας των τιμών της ποσοτικής
μεταβλητής.
 Όσο μικρότερες τιμές λαμβάνει, τόσο πιο ομοιογενές το
δείγμα.
 Επηρεάζεται από τις μονάδες μέτρησης.

25
Μέτρηση της μεταβλητότητας

• Συντελεστής μεταβλητότητας
o Ένας δείκτης μεταβλητότητας των τιμών της ποσοτικής
μεταβλητής, που λαμβάνει υπόψη την μέση τιμή και δεν
επηρεάζεται από τις μονάδες μέτρησης.

26

27
Box Plot (Dietcomp 5v*30c)
102

100

98

96

94

92
MONTH3

90

88

86

84

82

80

78
Median
76 25%-75%
Male Female Non-Outlier Range
GENDER
28

Δειγματικός Χώρος & Ενδεχόμενα

Ενότητα
ειγ ατικός Χώρος και Ενδεχό ενα

1 ες| Ε.
Δειγματικός Χώρος & Ενδεχόμενα

2 ες| Ε.

Δειγματικός Χώρος & Ενδεχόμενα

3 ες| Ε.
Πράξεις Ενδεχομένων

Ενότητα
Πράξεις Ενδεχο ένων

1 ες| Ε.

Πράξεις Ενδεχομένων

2 ες| Ε.
Πράξεις Ενδεχομένων

3 ες| Ε.

Πράξεις Ενδεχομένων

4 ες| Ε.
Ορισμός Πιθανότητας

Ενότητα
Ορισ ός Πιθανότητας

1 ες| Ε.

Ορισμός Πιθανότητας

2 ες| Ε.
Ορισμός Πιθανότητας

3 ες| Ε.

Ορισμός Πιθανότητας

Αξιω ατική Θε ελίωση Πιθανότηατς

4 ες| Ε.
Ορισμός Πιθανότητας

Παράδειγ α 1

5 ες| Ε.

Ορισμός Πιθανότητας

6 ες| Ε.
Ορισμός Πιθανότητας

Θεώρη α

7 ες| Ε.

Δεσμευμένη Πιθανότητα

Ενότητα
εσ ευ ένη Πιθανότητα Ανεξαρτησία

1 ες | Ε.
Δεσμευμένη Πιθανότητα

Θεώρη α Ολικής Πιθανότητας

Τύπος του Bayes

2 ες | Ε.

Δεσμευμένη Πιθανότητα

Παράδειγ α 1

Λύση

3 ες | Ε.
Δεσμευμένη Πιθανότητα

4 ες | Ε.

Δεσμευμένη Πιθανότητα

Παράδειγ α 2

5 ες | Ε.
Δεσμευμένη Πιθανότητα

Λύση

6 ες | Ε.

Δεσμευμένη Πιθανότητα

7 ες | Ε.
Δεσμευμένη Πιθανότητα

Ορισ ός

8 ες | Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Ενότητα
Τυχαία Μεταβλητή

Ορισ ός

1 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Συνάρτηση Κατανο ής

Ορισ ός

2 ες| Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

3 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Θεώρη α

4 ες| Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

ιακριτή Τυχαία Μεταβλητή

5 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

6 ες| Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Μέση Τι ή ιακριτής Τυχαίας Μεταβλητής

Ορισ ός

7 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Παράδειγ α 1

Λύση

8 ες| Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Ορισ ός

9 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Ορισ ός

10 ες| Ε.

Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Θεώρη α

11 ες| Ε.
Τυχαία Μεταβλητή-Συνάρτηση Κατανομής-Συνάρτηση Πιθανότητας

Θεώρη α

Απόδειξη

12 ες| Ε.

Συνεχείς Τυχαίες Μεταβλητές

Ενότητα

Συνεχής Τυχαία Μεταβλητή


Ορισ ός

1 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές

2 ες| Ε.

Συνεχείς Τυχαίες Μεταβλητές

Παράδειγ α

3 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές

Λύση

4 ες| Ε.

Συνεχείς Τυχαίες Μεταβλητές

5 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές

Μέση Τι ή Συνεχούς Τυχαίας Μεταβλητής

Ορισ ός

6 ες| Ε.

Συνεχείς Τυχαίες Μεταβλητές

Παράδειγ α

Λύση

7 ες| Ε.
Συνεχείς Τυχαίες Μεταβλητές

8 ες| Ε.

Βασικές Διακριτές Κατανομές

Ενότητα

Βασικές ιακριτές Κατανο ές

1. Κατανο ή Bernoulli
Ορισ ός

1 ες| Ε.
Βασικές Διακριτές Κατανομές

Θεώρη α

2 ες| Ε.

Βασικές Διακριτές Κατανομές

2. ιωνυ ική Κατανο ή


Ορισ ός

Θεώρη α

3 ες| Ε.
Βασικές Διακριτές Κατανομές

Θεώρη α

Παράδειγ α

4 ες| Ε.

Βασικές Διακριτές Κατανομές

Λύση

5 ες| Ε.
Βασικές Διακριτές Κατανομές

3. Γεω ετρική Κατανο ή


Ορισ ός

Θεώρη α

6 ες| Ε.

Βασικές Διακριτές Κατανομές

4. Κατανο ή Poisson
Ορισ ός

7 ες| Ε.
Βασικές Διακριτές Κατανομές

Θεώρη α

8 ες| Ε.

Βασικές Διακριτές Κατανομές

Θεώρη α

9 ες| Ε.
Βασικές Διακριτές Κατανομές

Παράδειγ α

Λύση

10 ες| Ε.

Βασικές Διακριτές Κατανομές

11 ες| Ε.
Βασικές Διακριτές Κατανομές

Παράδειγ α

Λύση

12 ες| Ε.

Βασικές Διακριτές Κατανομές

13 ες| Ε.
Βασικές Συνεχείς Κατανομές

Ενότητα
Βασικές Συνεχείς Κατανο ές
1. Ο οιό ορφη Κατανο ή
Ορισ ός

Θεώρη α

1 ες| Ε.

Βασικές Συνεχείς Κατανομές

Απόδειξη

2 ες| Ε.
Βασικές Συνεχείς Κατανομές

3 ες| Ε.

Βασικές Συνεχείς Κατανομές

Παράδειγ α

Λύση

4 ες| Ε.
Βασικές Συνεχείς Κατανομές

5 ες| Ε.

Βασικές Συνεχείς Κατανομές

Παράδειγ α

6 ες| Ε.
Βασικές Συνεχείς Κατανομές

Λύση

7 ες| Ε.

Βασικές Συνεχείς Κατανομές

2. Κανονική Κατανο ή

8 ες| Ε.
Βασικές Συνεχείς Κατανομές

Ορισ ός

Θεώρη α

9 ες| Ε.

Βασικές Συνεχείς Κατανομές

Θεώρη α

Ση είωση

10 ες| Ε.
Βασικές Συνεχείς Κατανομές

11 ες| Ε.

Βασικές Συνεχείς Κατανομές

Θεώρη α

12 ες| Ε.
Βασικές Συνεχείς Κατανομές

Πόρισ α

13 ες| Ε.

Βασικές Συνεχείς Κατανομές

Παράδειγ α

Λύση

14 ες| Ε.
Βασικές Συνεχείς Κατανομές

Παράδειγ α

Λύση

15 ες| Ε.

Βασικές Συνεχείς Κατανομές

16 ες| Ε.
Ασκήσεις

Ενότητα
Λυ ένες Ασκήσεις
Άσκηση 1

Λύση

1 ες| Ε.

Ασκήσεις

Άσκηση 2

2 ες| Ε.
Ασκήσεις

Λύση

Άσκηση 3

3 ες| Ε.

Ασκήσεις

Λύση

4 ες| Ε.
Ασκήσεις

Άσκηση 4

Λύση

5 ες| Ε.

Ασκήσεις

6 ες| Ε.
Ασκήσεις

Άσκηση 5

Λύση

7 ες| Ε.

Ασκήσεις

8 ες| Ε.
Ασκήσεις

Άσκηση 6

Λύση

9 ες| Ε.

Ασκήσεις

10 ες| Ε.
Ενότητα 6: Έλεγχοι υποθέσεων - Διαστήματα εμπιστοσύνης

Οι ερευνητικές υποθέσεις

• Στην έρευνα ελέγχουμε υποθέσεις, με βάση τα πραγματικά


δεδομένα μας.
o π.χ. ο μεγάλος χρόνος εισόδου στο Νοσοκομείο από την
έναρξη των συμπτωμάτων, συσχετίζεται με αυξημένο
κίνδυνο θανάτου;
o Μια διατροφή πλούσια σε υδατάνθρακες συσχετίζεται με
μειωμένο σωματικό βάρος;

1
• Η διαδικασία που ακολουθείται για την λήψη τέτοιου είδους
αποφάσεων ονομάζεται έλεγχος υποθέσεων.
• Η υπόθεση που θέλουμε να ελέγξουμε συμβολίζεται με Ηο και
ονομάζεται μηδενική υπόθεση ενώ η εναλλακτική της υπόθεση
συμβολίζεται με H1 .
• Σε κάθε έλεγχο είναι δυνατόν να πραγματοποιηθούν δύο
ειδών σφάλματα:
o Σφάλμα τύπου Ι: Απόρριψη της Ηο ενώ στην
πραγματικότητα είναι αληθής.
o Σφάλμα τύπου ΙΙ: Απόρριψη της H1 (Αποδοχή της Ηο) ενώ
στην πραγματικότητα η H1 είναι αληθής.

Σφάλματα στη λήψη απόφασης

Αποδοχή Απόρριψη
υπόθεσης Ηο υπόθεσης ΗO από
από το δείγμα το δείγμα
Υπόθεση Ηο
αληθής στον
πληθυσμό
 Σφάλμα τύπου Ι

Υπόθεση Ηο
ψευδής στον Σφάλμα τύπου ΙΙ
πληθυσμό

Στατιστική ισχύς

3
Έλεγχοι Υποθέσεων

Περιοχή
απόρριψης Ηο
Ηο αληθής στον Πληθυσμό
Σωστή
Σφάλμα απόφαση
Τύπου-Ι

Σωστή
απόφαση Ηο ψευδής στον Πληθυσμό

Περιοχή μη- Σφάλμα Στατιστική


απόρριψης Ηο Τύπου-ΙΙ Ισχύς

Τιμές στατιστικού κριτηρίου

• α=P(σφάλμα τύπου Ι)=P(Απόρριψη της Ηο ενώ στην πραγματικότητα


είναι αληθής)
• β=P(σφάλμα τύπου ΙΙ)=P(Αποδοχή της Ηο ενώ στην πραγματικότητα η
H1 είναι αληθής)
• Η πιθανότητα γ= 1-β ονομάζεται ισχύς του ελέγχου και εκφράζει το
ποσοστό των «σωστών» απορρίψεων της Ηο.
Το α ονομάζεται επίπεδο σημαντικότητας.
Ερμηνεία του α:
Εάν για παράδειγμα σε έναν έλεγχο επιλέξουμε επίπεδο
σημαντικότητας α=0.05 και απορρίψουμε την υπόθεση, αυτό σημαίνει
ότι σε 100 όμοιες περιπτώσεις, είναι δυνατό έχουμε κάνει λάθος και να
απορρίψουμε την Ηο ενώ είναι αληθής, μόνο σε 5. Σε μια τέτοια
περίπτωση λέμε ότι η υπόθεση απορρίπτεται σε επίπεδο
σημαντικότητας 0.05
5
Statistical Tests –Confidence Intervals

• Κριτήριο για την αποδοχή ή όχι της Ηο είναι το p-value.


• Το μικρότερο επίπεδο σημαντικότητας για το οποίο
απορρίπτεται η Ηο ονομάζεται p-value.
• Απορρίπτεται η Ηο αν η τιμή του p-value είναι μικρή.
• Συγκεκριμένα, απορρίπτεται η Ηο αν η τιμή του p-value είναι
μικρότερη του α για αυτό το επίπεδο σημαντικότητας.
• Όσο μειώνεται το α τόσο δυσκολεύει η απόφαση της
απόρριψης.

Τι δεν είναι το p-value

• Το p-value δεν είναι η πιθανότητα να επαληθευθεί η μηδενική


υπόθεση
o και αυτό γιατί οι υποθέσεις δεν εκφράζονται με
πιθανότητες στην στατιστική.

7
Τι δεν είναι το p-value

• Το p-value δεν είναι η πιθανότητα να απορριφθεί λανθασμένα η


μηδενική υπόθεση.
o Το να απορριφθεί λανθασμένα η μηδενική υπόθεση είναι το
σφάλμα Τύπου Ι.
 Αυτό το σφάλμα είναι μια εκδοχή της καλούμενης «σφάλμα του
εισαγγελέα» (“prosecutor's fallacy”) όπου κρίνει αθώο τον
κατηγορούμενο ενώ έχει διαπράξει το έγκλημα.
– Το σφάλμα Τύπου Ι είναι στενά συνυφασμένο με το p-value,
αφού απορρίπτουμε τη μηδενική υπόθεση όταν το p-value
είναι μικρότερο από κάποιο προκαθορισμένο όριο α
(επίπεδο σημαντικότητας) του σφάλματος τύπου-Ι.

p-value και μέγεθος του δείγματος

o Το p-value επηρεάζεται ισχυρά από το μέγεθος του


δείγματος.
Συγκεκριμένα
• Υπάρχει αντίστροφη συσχέτιση μεταξύ του μεγέθους
δείγματος και του p-value.

9
p-value και μέγεθος του δείγματος για μια
δεδομένη συσχέτιση
0,16

0,14

0,12

0,1
p-value

0,08

0,06

0,04

0,02

0 100 200 300 400 500 600 700 800 900 1000

Μέγεθος δείγματος σε κάθε ομάδα

10

Το μέγεθος του δείγματος

• Το επαρκές μέγεθος του δείγματος είναι μεγίστης σημασίας


για την αξιοπιστία της έρευνας.

11
Οι «αρχές» της δειγματοληψίας

• Πρέπει όμως να ληφθεί υπόψη ότι σχετικά μεγάλο δείγμα


συνεπάγεται και μεγάλο κόστος
o χωρίς αυτό να σημαίνει και απαραίτητα αξιόπιστα
αποτελέσματα,
• ενώ πολύ μικρό δείγμα μπορεί να οδηγήσει σε συστηματικό
σφάλμα και μεροληπτικές αποφάσεις για τον πληθυσμό.

12

Το μέγεθος του δείγματος


καθορίζεται από:
• Το επίπεδο στατιστικής σημαντικότητας των ελέγχων, το οποίο συμβολίζεται με
α και στο χώρο των επιστημών έχει καθοριστεί να είναι < 0,01 ή < 0,05.
• Το μέγεθος της αναζητούμενης σχέσης, π.χ. πόσο μεγάλη θα πρέπει να είναι η
διαφορά στα επίπεδα ολικής χοληστερόλης μεταξύ της θεραπευτικής
προσέγγισης Α και της θεραπευτικής προσέγγισης Β έτσι ώστε να θεωρείται
κλινικά αξιόλογη.
• Τη στατιστική ισχύ των ελέγχων, η οποία συμβολίζεται με γ και στο χώρο των
επιστημών της Υγείας έχει καθοριστεί να είναι > 0,80 ή > 0,90 .
• Το επίπεδο ακρίβειας στις μετρήσεις, το οποίο εξαρτάται και από την
συνείδηση των ερευνητών που διεξάγουν την έρευνα.
• Το μέγεθος του πληθυσμού αναφοράς.
• Τη μεταβλητότητα στα χαρακτηριστικά του πληθυσμού, η οποία αν είναι
μεγάλη συνεπάγεται και ανάλογη αύξηση του μεγέθους του δείγματος.
• Το διαθέσιμο χρηματικό ποσό για την έρευνα. 13
• Τα διαστήματα εμπιστοσύνης αποτελούν έναν εναλλακτικό τρόπο
εκτίμησης παραμέτρων.
• Εκτιμάμε μία παράμετρο, με ένα διάστημα που έχει άκρα τυχαίες
μεταβλητές.
• Το διάστημα θα έχει την μορφή: P[L≤θ≤U] =γ
• Ένα τέτοιο διάστημα ονομάζεται διάστημα εμπιστοσύνης με βαθμό
εμπιστοσύνης γ. Ο αριθμός γ=1-α εκφράζει την ακρίβεια με την οποία
θέλουμε να γίνει η εκτίμηση, ενώ ο α εκφράζει τον βαθμό
ανεκτικότητας ώστε το διάστημα να μην περιέχει την πραγματική τιμή
της παραμέτρου.
• Για παράδειγμα αν γ=0.95 αναμένεται σε 100 δείγματα της μορφής
[L,U] τα 95 να περιλαμβάνουν την σωστή τιμή.

14

Παράδειγμα

• Μετρήθηκε το κάλιο του ορού σε 9 υγιή άτομα και σε 4 άτομα


που έπασχαν από μία νόσο. Στα υγιή άτομα βρέθηκε μέση
τιμή 4 m Eq/L και σταθερή απόκλιση 0.9 m Eq/L, ενώ στους
ασθενείς βρέθηκε μέση τιμή 5 m Eq/L και σταθερή απόκλιση
0.8 m Eq/L.
Υπάρχει διαφορά των μέσων τιμών του καλίου του ορού στις
δύο αυτές ομάδες;

15
Έλεγχοι υποθέσεων και δ.ε. για διαφορά μέσων τιμών σε ανεξάρτητους πληθυσμούς σε
μικρά δείγματα και με ισότητα διασπορών (σ1 =σ2 =σ):

H0: μ1=μ2 H0: μ1=μ2 H0: μ1=μ2


Η1: μ1>μ2 Η1: μ1<μ2 Η1: μ1≠μ2
R  {t  tn1  n2  2;a } R  {t  tn1  n2  2;a } R  {t  t a }
n1  n2  2;
2

(n1  1) s12  (n2  1) s22


( x1  x2  s 1
 1
t , x1  x2  s 1
 1
t a ) , όπου s 
2
.
 
n1 n2 a n1 n2
n1  n2  2; n1  n2  2; n n 2
2 2 1 2

x1  x2
Το κριτήριο t δίνεται από τον τύπο: t
s n11  n12

16

17
Όπως διαπιστώνουμε δεχόμαστε την μηδενική υπόθεση Ηο : μ1=μ2 έναντι
της εναλλακτικής H1 : μ1≠μ2, δηλαδή δεχόμαστε ότι δεν υπάρχει διαφορά
στις τιμές του καλίου του ορού στις δύο αυτές ομάδες.
Συγκεκριμένα:
Null Hypothesis: difference between means = 0,0
Alternative: not equal
Computed t statistic = -1,9043
P-Value = 0,0833412
Do not reject the null hypothesis for alpha = 0,05
(Equal variances assumed)
Δεχόμαστε την μηδενική υπόθεση Ηο για επίπεδο σημαντικότητας α=0.05,
διότι η τιμή του p-value είναι 0.08334 > 0.05. Επίσης το στατιστικό
λογισμικό μας υπολογίζει και την τιμή του t κριτηρίου ίση με -1.9043.
Σημειώνεται ότι αναφερόμαστε σε κανονικούς πληθυσμούς με άγνωστες
και ίσες διασπορές (σ1=σ2=σ). 18

Statistical Tests –Confidence Intervals


Statistical tests I

• Όπως διαπιστώνουμε επίσης το 95% διάστημα εμπιστοσύνης


για την διαφορά των μέσων τιμών μ1-μ2 του καλίου του ορού
στις δύο αυτές ομάδες είναι:
[-2,1558;0,155798]

19
Statistical Tests –Confidence Intervals
Statistical tests I
Παράδειγμα:
Σε τέσσερα άτομα με αυξημένες τιμές των τριγλυκεριδίων του ορού
(mg/dl) χορηγήθηκε για ένα μήνα φάρμακο που πιστεύεται ότι ελαττώνει
τα επίπεδα των τριγλυκεριδίων. Οι τιμές των τριγλυκεριδίων στα τέσσερα
αυτά άτομα πριν και μετά τη χορήγηση του φαρμάκου ήταν:
Άτομο Πριν τη χορήγηση Μετά τη χορήγηση
1o 180 120
2o 200 220
3o 240 130
4o 230 160
Βρείτε ένα 95% δ.ε. για την διαφορά των μέσων μ1-μ2 στα επίπεδα
των τριγλυκεριδίων πριν και μετά την χορήγηση.
Ελαττώνει τα επίπεδα των τριγλυκεριδίων το φάρμακο αυτό;
(Άσκηση 65 σελ. 16 του Βιβλίου Ασκήσεων Βιοστατιστικής Α. Τζώνου &
Κ. Κατσουγιάννη) 20

Statistical Tests –Confidence Intervals


Statistical tests I

Έλεγχοι υποθέσεων και δ.ε. για παρατηρήσεις κατά ζεύγη:

H0: μ1=μ2 H0: μ1=μ2 H0: μ1=μ2


Η1: μ1>μ2 Η1: μ1<μ2 Η1: μ1≠μ2
z z z
R { n  tn1;a } R { n  tn1;a } R { n  t a}
sz sz sz n 1;
2

sz s
(z  t a , z  z t a ) , όπου z  xi  yi .
n n1; 2 n n1; 2

21
Statistical Tests –Confidence Intervals
Statistical tests I
Όπως φαίνεται και στην παρακάτω εικόνα το 95% διάστημα
εμπιστοσύνης για την διαφορά των μέσων στα επίπεδα τριγλικεριδίων
πριν και μετά την χορήγηση είναι:
55,0 +/- 86,6694 = [-31,6694;141,669]

22

Statistical Tests –Confidence Intervals


Statistical tests I

23
Statistical Tests –Confidence Intervals
Statistical tests I
Όπως παρατηρούμε παράγονται τα εξής συμπεράσματα:
Null hypothesis: mean = 0,0
Alternative: greater than
Computed t statistic = 2,01957
P-Value = 0,0683566
Do not reject the null hypothesis for alpha = 0,05.
Δηλ. δεχόμαστε (δεν απορρίπτουμε) την μηδενική υπόθεση σε επίπεδο
σημαντικότητας α=5% και συνεπώς το φάρμακο δεν ελαττώνει τα
επίπεδα των τριγλυκεριδίων.
Αυτό συμβαίνει διότι η τιμή του P είναι 0,068>0,05 και άρα δέχομαι την
Ηο: μ1=μ2.
Ταυτόχρονα υπολογίζεται και η τιμή του κριτηρίου t statistic ίση με
2,01957. 24

Ενότητα 7: Μη-Παραμετρικές Δοκιμασίες


Έλεγχος ανεξαρτησίας (συσχέτισης)
2 κατηγορικών μεταβλητών

• Παράδειγμα
o «εξαρτάται το βρογχικό άσθμα από το κάπνισμα των
γονέων; »
o «επηρεάζει η έντονη φυσική δραστηριότητα την
κατηγορία σωματικού βάρους;»
o «οι υπερτασικοί ασθενείς διαφέρουν ανά φύλο;»

Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών


Το κριτήριο Χ2

Το στατιστικό κριτήριο που


χρησιμοποιείται είναι το Χ2
• Είναι ένα μέτρο απόστασης
δύο «καταστάσεων»

(   ) 2
X2 

Π=παρατηρηθείσες συχνότητες, Α=αναμενόμενες συχνότητες

2
Η «φιλοσοφία» του κριτηρίου

Χ/Υ Α1
(π.χ.
Α2
(π.χ.
Σύνολο
ασθενείς) υγιείς)
Δειγματοληπτικά στοιχεία Β1 (παράγοντας
παρών) α β R1
(πραγματικά δεδομένα) Β2 (παράγοντας
απών) γ δ R2
Σϋνολο
Το κριτήριο χ2 «μετρά» C1 C2 n
την απόσταση των δύο
πινάκων Χ’ / Υ’
Α1
(π.χ.
Α2
(π.χ.
Σύνολο
ασθενείς) υγιείς)

Θεωρητικά στοιχεία που Β1 (παράγοντας


παρών) Α’ Β’ R1
θα είχαμε «αν δεν υπάρχει
Γ’ Δ’
Β2 (παράγοντας
R2
εξάρτηση (Ηο)» Σϋνολο
απών)

C1 C2 n

Το κριτήριο Χ2

Με βάση τη θεωρία το κριτήριο Χ2 είναι το ακόλουθο:

( a   ' ) 2
(   ' ) 2
(   ' ) 2
(   ' ) 2
X2    
' ' ' '

4
Έλεγχος ανεξαρτησίας 2 ποιοτικών
χαρακτηριστικών

• Όσο πιο μεγάλες τιμές λαμβάνει το κριτήριο Χ2 (άρα p<<) τόσο


πιο κοντά είμαστε στο να απορρίψουμε την Ηο , δηλαδή
υπάρχει συσχέτιση.
• Όσο πιο μικρές τιμές (0) λαμβάνει το κριτήριο Χ2 (άρα p>>)
τόσο πιο κοντά είμαστε στο να ΜΗΝ απορρίψουμε την Ηο,
δηλαδή δεν υπάρχει συσχέτιση.

Η κατανομή Χ2

• Ασύμμετρη.
• Θετικά ορισμένη.
• Η μορφή της εξαρτάται από
τους βαθμούς ελευθερίας
B.E= ( κ-1) ( λ – 1) όπου κ, λ ο
αριθμός των γραμμών και των
στηλών του πίνακα.
• Με βάση τους βαθμούς
ελευθερίας και την χρήση
ειδικών πινάκων
υπολογίζουμε την κρίσιμη
τιμή του ελέγχου ξ.
6
Ε. ΠΑΠΑΓΕΩΡΓΙΟΥ 7

Προϋποθέσεις εφαρμογής
του κριτηρίου Χ2

• Τυχαίο δείγμα και ανεξαρτησία των παρατηρήσεων


• Κανένα κελί με μηδενική τιμή
• Όλες οι αναμενόμενες τιμές των κελιών 2x2 πινάκων
συνάφειας >5
• Το 80% των κελιών πινάκων r x c να έχουν αναμενόμενες
τιμές > 5

8
Παράδειγμα
Σε 500 μαθητές δημοτικού σχολείου μελετήθηκε η σχέση της
υγείας του στόματος τους με τη χλωρίωση του νερού στην περιοχή
διαμονής τους. Η κατανομή των 500 μαθητών ανάλογα με την
υγεία του στόματος και τη χλωρίωση του νερού ήταν:
Υγεία στόματος
Χλωρίωση νερού Κακή Μέτρια Καλή
Ανεπαρκής 80 120 75
Επαρκής 40 80 105
Σύνολο 120 200 180

Σχετίζεται η υγεία του στόματος των μαθητών με τη χλωρίωση του


νερού;
9

Η μηδενική υπόθεση στην δοκιμασία X 2 αφορά στην ανεξαρτησία


των μεταβλητών.
Αρχικά θα υπολογίσουμε τα θεωρητικά μεγέθη δηλ. τα «Expected », τα
οποία συμβολίζονται με Ε στον κάτωθι τύπο. Με Ο συμβολίζονται τα
παρατηρούμενα δηλ. τα «Observed».

Εν συνεχεία με τον ανωτέρω τύπο υπολογίζουμε την τιμή του


κριτηρίου X 2 (χι-τετράγωνο) και την συγκρίνουμε με την τιμή της
κατανομής X 2 , προκειμένου να αποφανθούμε.

R  {X 2  X 2( s 1)( k 1);a }

10
Όπως φαίνεται στο παρακάτω παράθυρο «Frequency Table» τα
θεωρητικά μεγέθη εμφανίζονται κάτω από τα παρατηρούμενα:

Χλωρίωση * Υγεία Στόματος Crosstabulation

Υγεία Στόματος
1 2 3 Total
Χλωρίωση 1 Count
80 120 75 275
Expected
Count 66,0 110,0 99,0 275,0
2 Count
40 80 105 225
Expected
Count 54,0 90,0 81,0 225,0
Total Count
120 200 180 500
Expected
Count 120,0 200,0 180,0 500,0
11

Παρατηρούμε ότι η τιμή του κριτηρίου Χ-τετράγωνο είναι 21.549, οι


βαθμοί ελευθερίας 2 και η τιμή του p-value ίση με μηδέν το οποίο
μας οδηγεί στο συμπέρασμα ότι δεν μπορούμε να δεχτούμε την
μηδενική υπόθεση. Συνεπώς η υγεία του στόματος των μαθητών δεν
είναι ανεξάρτητη της χλωρίωσης του νερού που πίνουν.

Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 21,549a 2 ,000
Likelihood Ratio 21,661 2 ,000
Linear-by-Linear Association 19,886 1 ,000
N of Valid Cases 500

12
Συμπεράσματα
Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών

• Ο έλεγχος χ2 αναδεικνύει πιθανή εξάρτηση μεταξύ 2


κατηγορικών μεταβλητών.
• Ο έλεγχος χ2 ΔΕΝ αναδεικνύει γραμμική σχέση μεταξύ 2
κατηγορικών μεταβλητών.
• Ο έλεγχος χ2 ΔΕΝ αναδεικνύει επιμέρους διαφορές στις
κατηγορίες των κατηγορικών μεταβλητών.

13

Ενότητα 8: Συσχέτιση - Παλινδρόμηση


Συσχέτιση 1/6

Συντελεστής Συσχέτισης Pearson


Ας θεωρήσουμε μια κλινική δοκιμή.
Υπόθεση: Υπάρχει κάποια σχέση μεταξύ κάποιων μεταβλητών για
παράδειγμα μεταξύ των λιπών που περιέχονται στις τροφές και
του επιπέδου χοληστερόλης στο αίμα ή μεταξύ συστολικής
πίεσης και ηλικίας.
Ερώτημα: Πως μπορούμε να ποσοτικοποιήσουμε τέτοιες
σχέσεις; How can we quantify such “relationships”?
Αναζητείται: Ένα μέτρο που να ποσοτικοποιεί σχέσεις μεταξύ
μεταβλητών.
1

Συσχέτιση 2/6
Συντελεστής Συσχέτισης Pearson

2
Συσχέτιση 3/6

Συντελεστής Συσχέτισης Pearson

Συσχέτιση 4/6

Συντελεστής Συσχέτισης Pearson

4
Συσχέτιση 5/6

Συντελεστής Συσχέτισης Pearson


Η τιμή του συντελεστή Pearson είναι:
• Ίση με 1 όταν έχουμε τέλεια θετική συσχέτιση (βλέπε I)
• Ίση με 0 όταν δεν έχουμε καθόλου σχέση (βλέπε II)
• Ίση με -1 όταν έχουμε τέλεια αρνηική συσχέτιση (βλέπε III)
• Μεταξύ 0 και 1 όταν έχουμε θετικές συσχετίσεις διαφόρων εντάσεων
• Μεταξύ -1 και 0, όταν έχουμε αρνητικές συσχετίσεις διαφόρων
εντάσεων
 Προσοχή! Ο συντελεστής Pearson είναι κατάλληλος για γραμμικές
συσχετίσεις και μόνο, δηλαδή μία τιμή του γύρω στο μηδέν υποδηλώνει
«όχι γραμμική σχέση!
Συνεπώς μη γραμμικές συσχετίσεις μπορεί να ισχύουν και για αυτό
κατασκευάζουμε και διαγράμματα διασποράς. 5

Συσχέτιση 6/6

Εναλλακτικοί του Pearson συντελεστές συσχέτισης :


Spearman and Kendall
Spearman και Kendall συντελεστές συσχέτισης.
Σημειώστε ότι:
• Οι μεταβλητές πρέπει να είναι ordinal ή scale ή dichotomous.
• Οι παραπάνω δύο μη παραμετρικοί συντελεστές συσχέτισης
περιγράφουν μονότονες σχέσεις.
• Δεδομένου ότι η γραμμική σχέση είναι μια μονότονη σχέση οι
Spearman και Kendall συντελεστές συσχέτισης μπορούν να
εφαρμοστούν και σε γραμμικές συσχετίσεις.
6
Απλή Παλινδρόμηση 1/14
Η παρούσα παράγραφος αφορά στην απλή παλινδρόμηση.
Στην απλή παλινδρόμηση απαιτούνται δύο ποσοτικές μεταβλητές εκ των
οποίων η μία θεωρείται ανεξάρτητη-ίndependent (Χ) και η άλλη εξαρτημένη -
dependent (Υ). Η διερεύνηση της μορφής της παλινδρόμησης είναι το βασικό
πρόβλημα το οποίο κατ' αρχάς θα πρέπει να επιλυθεί. Είναι δηλαδή
απαραίτητο να προσδιορίσουμε αν τα ζεύγη τιμών (Χ, Υ) προσαρμόζονται
καλύτερα σε μια ευθεία ή παραβολή ή έλλειψη ή υπερβολή κ.λ.π.
Αν υποθέσουμε ότι η κατάλληλη μορφή παλινδρόμησης, για κάποια
συγκεκριμένα ζεύγη τιμών, είναι η γραμμική, τότε για να υπολογίσουμε τους
συντελεστές της παλινδρόμησης και τα διάφορα στατιστικά μέτρα τα οποία
είναι απαραίτητα, η διαδικασία την οποία πρέπει να ακολουθήσουμε
αποτελεί αντικείμενο του συγκεκριμένης παραγράφου.
Παρατίθεται και λυμένο παράδειγμα απλής παλινδρόμησης στο οποίο
περιγράφεται η εν λόγω διαδικασία. 7

Απλή Παλινδρόμηση 2/14


Στην ανάλυση συνεχών δεδομένων (π.χ. ηλικία, χρόνος, επίδοση κ.α.)
χρησιμοποιούμε μοντέλα απλής γραμμικής παλινδρόμησης (με μία μόνο
επεξηγηματική μεταβλητή Χ), μοντέλα πολλαπλής γραμμικής
παλινδρόμησης (δηλαδή με παραπάνω από μια επεξηγηματική
μεταβλητή Χ στο μοντέλο), καθώς και με μοντέλα ανάλυσης διακύμανσης
που εκφράζουν την επίδραση κάθε επιπέδου μιας ή περισσοτέρων
επεξηγηματικών στην εξαρτημένη Y. Για παράδειγμα, έστω ότι θέλουμε
να ελέγξουμε την επίδραση που θα είχε κάποιο φάρμακο (φάρμακο Α,
φάρμακο Β, φάρμακο Γ, δηλαδή 3 επίπεδα στην μεταβλητή Φάρμακο) σε
ένα άνθρωπο ανάλογα με την ηλικία του. Εδώ η εξαρτημένη είναι η
ηλικία του ανθρώπου (Υ) και η επεξηγηματική είναι του Φάρμακο (Χ).
Και στις τρεις αυτές αναλύσεις, επειδή ακριβώς στηρίζονται στο γραμμικό
υπόδειγμα, για να είναι οι εκτιμήσεις συνεπείς, οπότε και σωστές θα
πρέπει να πληρούνται κάποιες προϋποθέσεις. 8
Απλή Παλινδρόμηση 3/14
• Κανονικότητα: τα κατάλοιπα θα πρέπει να ακολουθούν κανονική
κατανομή με μέσο 0 και διακύμανση γνωστή.
• Ομοσκεδαστικότητα: Ισότητα διακυμάνσεων Στην περίπτωση απλής
γραμμικής παλινδρόμησης κάνουμε ένα διάγραμμα σημείων (Scatter
Plot) των καταλοίπων με την επεξηγηματική. Αν τα σημεία είναι τυχαία
και δεν παρουσιάζουν κάποια τάση τότε υπάρχει ομοσκεδαστικότητα.
• Ανεξαρτησία καταλοίπων: Κάνουμε ένα διάγραμμα σημείων μεταξύ
των προβλεπόμενων τιμών (Predicted values) και των καταλοίπων
(Residuals). Αν είναι τυχαία τα σημεία τότε έχουμε ανεξαρτησία.
• Γραμμικότητα: Θα κάνουμε ένα διάγραμμα σημείων (Scatter Plot)
προβλεπόμενων τιμών (Unstandardized Predicted Values) έναντι
καταλοίπων (Standardized Residuals).
9

Απλή Παλινδρόμηση 4/14

Παράδειγμα: Απορρόφηση Πυκνότητα


Πρωτείνης Πρωτείνης
Δίνονται οι τιμές της απορρόφησης
0,10 5
πρωτείνης (σε μήκος κύματος 280nm)
0,21 10
ανάλογα με την πυκνότητα
0,25 15
(συγκέντρωση) της πρωτείνης αυτής
0,32 20
(gr/lt). Υπάρχει σχέση απορρόφησης
0,40 25
και πυκνότητας πρωτεΐνης;
0,48 30
0,55 35
0,64 40
0,75 45
0,80 50
10
(Άσκηση 167 σελ. 48 του Βιβλίου Ασκήσεων Βιοστατιστικής Α. Τζώνου & Κ. Κατσουγιάννη)
Απλή Παλινδρόμηση 5/14

Λύση:
Ακολουθούμε τα
παρακάτω βήματα:
Εισάγουμε τα
δεδομένα σε στήλες
(με τον γνωστό τρόπο)
όπως φαίνεται και στην
παρακάτω εικόνα:

11

Απλή Παλινδρόμηση 6/14

• Στη συνέχεια κατασκευάζουμε ένα διάγραμμα διασποράς


(scatter plot) το οποίο κρίνεται απαραίτητο προκειμένου να
αναζητήσουμε αν υπάρχει κάποιου είδους σχέση μεταξύ των
δύο μεταβλητών ή αν αυτές εμφανίζονται τυχαία
κατανεμημένες.

12
Απλή Παλινδρόμηση 7/14

13

Απλή Παλινδρόμηση 8/14

• Από το προηγούμενο διάγραμμα διασποράς (Scatterplot) είναι


εμφανές ότι το μοντέλο μας είναι γραμμικό και συνεπώς
μπορούμε να προχωρήσουμε στην εφαρμογή της αντίστοιχης
θεωρίας για την απλή παλινδρόμηση και να εκτιμήσουμε τους
συντελεστές της ευθείας που προσαρμόζεται στα δεδομένα
μας.

14
Απλή Παλινδρόμηση 9/14
Διαπιστώσαμε:
• Ύπαρξη συσχέτισης μεταξύ Χ, Υ
• Ύπαρξη γραμμικής συσχέτισης μεταξύ Χ,Υ
Υ = α + βχ (Υ = α + βχ + ε)
Συνεπώς προχωράμε σε εκτίμηση των παραμέτρων α,β:

Προχωράμε στην επίλυση και παρατίθεται το αποτέλεσμα:


15

ΚΕΦΑΛΑΙΟ 6. ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

16
Απλή Παλινδρόμηση 10/14

17

Απλή Παλινδρόμηση 11/14

• Η τιμή του Συντελεστή γραμμικής συσχέτισης του Peαrson


είναι 0.997477, και ερμηνεύεται όπως αναφέραμε στην
αντίστοιχη παράγραφο.
• Η τιμή R squαre (Δείκτης προσδιορισμού)είναι 99.496 και
είναι το τετράγωνο του συντελεστή γραμμικής συσχέτισης του
Peαrson, (0.9974772 =0.99496 ). Εκφράζεται σε % και όσο πιο
κοντά στο 100 βρίσκεται η τιμή του, τόσο πιο καλή
προσαρμογή του μοντέλου έχουμε.
Στο παράδειγμά μας έχουμε σχεδόν τέλεια προσαρμογή του
γραμμικού μοντέλου.

18
Απλή Παλινδρόμηση 12/14

Οι αντίστοιχες τιμές του p-value που εμφανίζονται στον πίνακα


υπολογισμού του σταθερού όρου(α) και της κλίσης(β), αφορούν
ελέγχους με μηδενικές υποθέσεις αντίστοιχα: το α=0 ή β=0.
Στο παράδειγμά μας έχουμε για το α p-value=0.1325 και για το β
το p-value=0.
Συνεπώς αντιστοίχως αποδεχόμαστε την μηδενική υπόθεση για
το α, δηλαδή δεχόμαστε α=0, ενώ απορρίπτουμε την μηδενική
υπόθεση για το β, δηλαδή το β δεν είναι μηδέν.

19

20
Απλή Παλινδρόμηση 13/14

Ερμηνεία του β:
Ο συντελεστής β εκφράζει την μεταβολή στην εξαρτημένη
μεταβλητή Υ όταν η ανεξάρτητη μεταβλητή Χ αυξηθεί κατά μία
μονάδα.
Επίσης, εάν β=0, το μοντέλο παίρνει την μορφή:
Υ=α
Και συνεπώς η ανεξάρτητη μεταβλητή Χ δεν επηρεάζει καθόλου
την Υ.
Σε αυτό το σημείο πρέπει να προσέξουμε γιατί στην ακρίβεια η
ανεξάρτητη μεταβλητή Χ δεν έχει καμία γραμμική σχέση με την Υ.
Δεν αποκλείονται όμως άλλου είδους επιδράσεις.
21

Απλή Παλινδρόμηση 14/14

• Παράλληλα έχουμε την δυνατότητα να κάνουμε πρόβλεψη μέσω


του γραμμικού μας μοντέλου για την πυκνότητα πρωτεΐνης για
οποιαδήποτε τιμή της απορρόφησης πρωτεΐνης που μας
ενδιαφέρει.
Παρατίθεται ένα παράδειγμα:
• Έστω ότι θέλουμε να κάνουμε πρόβλεψη στις τιμές της
απορρόφησης της πρωτεΐνης
χ=0.1 και χ=0.8.
• Ταυτόχρονα έχουμε την δυνατότητα να έχουμε ένα 95% Δ.Ε. για
την πρόβλεψη.
• Παίρνουμε το ακόλουθο αποτέλεσμα:
22
23

You might also like