Professional Documents
Culture Documents
ΕΠΙΧΕΙΡΗΣΕΩΝ
ΦΛΩΡΟΥ ΓΙΑΝΝΟΥΛΑ
• Χρήσεις Στατιστικής
• Έννοια Στατιστικής
• Ορισμοί
• Παρουσίαση δεδομένων
• Πίνακες συχνοτήτων
Χρήσεις Στατιστικής
• Έρευνα αγοράς
• Είσοδος νέου προϊόντος
• Πωλήσεις
• Ποιοτικός έλεγχος για παραλαβή προϊόντων
• Έλεγχος Παραγωγής
• Οικονομικές Αναλύσεις
• Έλεγχος από ορκωτό λογιστή ή εφορία
• Εύρεση παραγόντων που επηρεάζουν ορισμένους
παράγοντες
(π.χ. ζήτηση, πληθωρισμός κλπ)
• Προβλέψεις
Στατιστική ανάλυση
Μέθοδοι-δραστηριότητες Παρουσίαση
που αφορούν, έλεγχο, δεδομένων -
παρουσίαση απεικόνιση παρατηρήσεων
δεδομένων- παρατηρήσεων
Παρουσίαση
δεδομένων -
παρατηρήσεων
Στατιστική
Στατιστικές
Έννοια Στατιστικής
Συλλογή δεδομένων –
πληροφοριών
αριθμητικών ή
λεκτικών Καταγραφή,
ανάλυση,
επεξεργασία
Συμπεράσματα
για λήψη
αποφάσεων
• Στατιστική έρευνα
Είναι οποιοσδήποτε τρόπος χρησιμοποιείται για να
συλλέξουμε δεδομένα. Κάθε στατιστική έρευνα
αναφέρεται σε ένα πληθυσμό.
• Πληθυσμός
Ονομάζεται το σύνολο ατόμων ή αντικειμένων, στα οποία
αναφέρονται οι παρατηρήσεις μας. Τα στοιχεία του συνόλου
αυτού ονομάζονται στατιστικές μονάδες ή άτομα ή
αντικείμενα.
• Μεταβλητές
Ονομάζονται οι ιδιότητες των στατιστικών μονάδων.
• Τιμές μεταβλητής
Ονομάζονται οι αριθμοί ή οι εκφράσεις, που αντιπροσωπεύουν
τις καταστάσεις μιας μεταβλητής.
• Δείγμα
Ονομάζεται ένα μέρος του μελετώμενου πληθυσμού.
Είδη μεταβλητών
Ποσοτικές Ποιοτικές
Κατηγορικές Διάταξης
(nomianal) (ordinal)
συνεχείς διακριτές
(scale) (discretes)
Διαστήματος αναλογίας
(interval) (ratio)
Συμβολισμός
μεταβλητών
• Κάθε μεταβλητή συμβολίζεται με
ένα κεφαλαίο γράμμα συνήθως
Χ, Υ, Ζ…
• Οι τιμές τους συμβολίζονται με
μικρά γράμματα με δείκτες χ1, χ2,
χi ….
Άσκηση
• Τι τιμές παίρνουν οι παρακάτω
μεταβλητές και τι είδους είναι;
• Βάρος
• Χρώμα ματιών
• Κόμμα που ψηφίζω
• Μέρες άδειας
• Χρόνος καθυστέρησης
• Πλήθος παιδιών
• Τετραγωνικά κατοικίας
• Δωμάτια κατοικίας
• Ηλικία
• Γνώμη για πόλεμο
Πίνακας συχνοτήτων
τιμές ΜΕΤΑΒΛΗΤΗΣ ΠΟΙΟΤΙΚΗΣ
κίτρινο
Πίνακας συχνοτήτων
κόκκινο
μαύρο κίτρινο 3
μαύρο κόκκινο 2
κίτρινο μαύρο 2
κόκκινο πράσινο 3
πράσινο Σύνολο 10
πράσινο
κίτρινο
ΑΣΚΗΣΕΙΣ
1. Ρωτήσαμε κάποιους ανθρώπους πόσα παιδιά έχουν και
πήραμε τις ακόλουθες απαντήσεις.
2,8,0,2,3,1,4,0,2,1,4,6,3,2,1,3,2,4,1,1,2,0,2
30 45 56 38 75 63 47 23 49 53 71 38 59 61 52 43
33 28 84 68 37 42 55 44 39 72 68 44 63 50
ΜΕΤΑΒΛΗΤΕΣ
(VARIABLES)
ΠΟΣΟΤΙΚΕΣ ΠΟΙΟΤΙΚΕΣ
(Quantitative) (Qualitative)
Μεταβλητές
Μεταβλητές
2) Ποιοτικές μεταβλητές (Qualitative variables)
Ονομάζονται οι μεταβλητές που δεν επιδέχονται μέτρηση και οι τιμές τους αποτελούν
ένα σύνολο καλά ορισμένων κατηγοριών (κατηγορικές παρατηρήσεις όπως φύλο,
χρώμα ματιών, οικογενειακή κατάσταση, επάγγελμα). Διακρίνονται σε:
2A) Κατηγορικές (Μη Διατάξιμες) ή Ονομαστικές μεταβλητές (Nominal)
Μη διατάξιμες (Ονομαστικές) ονομάζονται οι μεταβλητές που δεν παρέχουν τη
δυνατότητα διάταξης αλλά με βάση τα χαρακτηριστικά που εκφράζουν οι τιμές τους
επιτρέπουν απλά και μόνο τη διάκριση ορισμένων κατηγοριών (π.χ. οικογενειακή
κατάσταση (ελεύθερος – παντρεμένος – διαζευγμένος - χήρος)). Ειδική κατηγορία
ονομαστικής μεταβλητής αποτελεί η Διχοτόμος (Dichotomous) όπου έχει μόνο δύο
κατηγορίες ή επίπεδα (π.χ. φύλο (άνδρας-γυναίκα)).
2B) Διατάξιμες ή Ιεράρχησης (Ordinal)
Διατάξιμες ονομάζονται οι μεταβλητές που δίνουν τη δυνατότητα στον ερευνητή να
διατάξει και να διαβαθμίσει τις κατηγορίες που προκύπτουν από τις τιμές [π.χ.
επίπεδα εκπαίδευσης, γνώμη καταναλωτή (Καθόλου, Λίγο, Αρκετά, Πολύ, Πάρα Πολύ)].
Επιλογή στατιστικών σύνοψης των δεδομένων
Μεταβλητές
Εξαρτημένες λοιπόν είναι οι μεταβλητές που βρίσκονται υπό διερεύνηση, βάση της
επίδρασης που υφίστανται από μια άλλη (ανεξάρτητη) μεταβλητή
Παράδειγμα: Η επίδραση της σωματικής άσκησης σε ώρες (ανεξάρτητη μεταβλητή)
στην επίδοση των μαθητών (εξαρτημένη μεταβλητή).
Αριθμητικά Περιγραφικά Μέτρα
9
Περιγραφικά Μέτρα
10
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
12
1.1.1. Μέση τιμή / Αριθμητικός μέσος (Mean)
• Είναι το πηλίκο του αθροίσματος των τιμών των παρατηρήσεων του δείγματος προς το
πλήθος των παρατηρήσεων.
• Αποτελεί αντιπροσωπευτικό μέτρο τάσης της κατανομής των δεδομένων στην
περίπτωση συμμετρικών κατανομών.
• Επηρεάζεται πολύ από ακραίες (μεγάλες ή μικρές) τιμές στα δεδομένα όπου έχει την
τάση να ακολουθεί τις ουρές της κατανομής (αριστερά ή δεξιά).
• Προτιμάται να αποφεύγεται η χρήση της όταν τα δεδομένα έχουν έντονη ασύμμετρη
κατανομή.
• Υπολογίζεται από όλες τις τιμές.
• Δεν μπορεί να υπολογιστεί για ποιοτικά δεδομένα.
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
13
1.1.2. Διάμεσος (Median)
• Η κεντρική τιμή των δεδομένων, κάτω από την οποία βρίσκεται το 50% των
παρατηρήσεων και πάνω βρίσκεται το άλλο 50% των παρατηρήσεων.
• Μπορεί να υπολογιστεί αν οι παρατηρήσεις διαταχθούν σε αύξουσα σειρά.
• Αν το πλήθος των παρατηρήσεων είναι περιττός αριθμός, είναι η κεντρική (μεσαία)
παρατήρηση (n+1)/2.
• Αν είναι άρτιος, είναι η μέση τιμή των δύο κεντρικών (μεσαίων) παρατηρήσεων n/2 και
(n/2) +1.
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης
Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης
i = (p/100)n
Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης
20
1.2.2. Τεταρτημόρια (Quartiles)
• Διάμεσος διαιρεί την κατανομή συχνοτήτων σε 2 ίσα τμήματα
• Τεταρτημόρια διαιρούν την κατανομή σε 4 ίσα μέρη – Το καθένα το ¼ των τιμών
• Το α’ τεταρτημόριο Q1 είναι η τιμή της μεταβλητής κάτω της οποίας βρίσκονται το 25%
του συνόλου των παρατηρήσεων και πάνω απ΄ αυτή το 75% των παρατηρήσεων.
• Το β΄ τεταρτημόριο Q2 ταυτίζεται με τη διάμεσο.
• Το γ΄τεταρτημόριο Q3 είναι η τιμή της μεταβλητής πάνω της οποίας βρίσκονται το 25%
του συνόλου των παρατηρήσεων και κάτω απ΄ αυτή το 75% των παρατηρήσεων.
Τεταρτημόρια
Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης
Τα τεταρτημόρια μπορούν να μας δώσουν την εικόνα τόσο για την ασυμμετρία
της κατανομής (αν η κατανομή είναι συμμετρική η απόσταση του 1ου
τεταρτημορίου από τη διάμεσο πρέπει να είναι σχεδόν ίδια με την απόσταση του
3ου από τη διάμεσο), για τη μεταβλητότητα αλλά και για τη θέση των δεδομένων.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
23
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
24
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
26
2.2. Διακύμανση ή Διασπορά (Variance) (s2, σ2)
• Oρίζεται ως το άθροισμα των τετραγώνων των διαφορών των τιμών της
ποσοτικής μεταβλητής x από τη μέση τιμή, προς το σύνολο των τιμών n (για
πληθυσμό σ2) ή προς n-1 (για δείγμα s2).
• Θεωρείται αξιόπιστο μέτρο διασποράς, δηλαδή της μέσης απόστασης των
παρατηρήσεων από τη μέση τιμή καθώς δηλώνει πόσο μακριά από τη μέση
τιμή απέχουν οι παρατηρήσεις.
• Διασπορά μεγάλη Όταν οι τιμές απέχουν πολύ από τη μέση τιμή.
• Διασπορά μικρή Όταν οι τιμές δεν διαφέρουν πολύ από τη μέση τιμή.
Διασπορά (Διακύμανση)
27
1 n
s
2
n 1 i 1
( xi x )2
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
30
2.3. Τυπική απόκλιση (Standard Deviation) (s ή SD)
• Ορίζεται ως η τετραγωνική ρίζα της διακύμανσης.
• Δίνει τη μέση απόσταση ή διασπορά των δεδομένων γύρω από τη μέση τιμή,
δηλαδή πόσο καλά αντιπροσωπεύει το δείγμα η μέση τιμή.
• Όσο μεγαλύτερη είναι η τυπική απόκλιση, τόσο μεγαλύτερη είναι η διασπορά.
Ισχύει και αντίστροφα.
• Αποτελεί μαζί με τη διακύμανση (διασπορά) τα σημαντικότερα μέτρα διασποράς
(μεταβλητότητας) ενός δείγματος.
• Επειδή η τυπική απόκλιση έχει την ίδια μονάδα με τη μέση τιμή,
χρησιμοποιείται περισσότερο από τη διακύμανση.
Παράδειγμα
Δύο δειγμάτων πληθυσμών με την ίδια μέση τιμή και
διαφορετική τυπική απόκλιση SD.
Η κόκκινη κατανομή έχει μέση τιμή 100 και SD 10.
Η μπλέ κατανομή έχει μέση τιμή 100 και SD 50.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Τυπική απόκλιση (Standard Deviation)
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
32
2.4. Τυπικό σφάλμα μέσης τιμής δείγματος (Standard Error)
• Ορίζεται ως η τυπική απόκλιση των δειγματικών μέσων όρων.
• Μετρά και λειτουργεί ως μέτρο διασποράς της μέσης τιμής.
• Δηλαδή μετρά πόσο καλά η μέση τιμή του πληθυσμού εκτιμάται από τη μέση τιμή του
δείγματος (η μεταβλητότητα αυτής οφείλεται στο ότι έχουμε ένα δείγμα και όχι τον
πληθυσμό).
• Η χρησιμότητα του οφείλεται στο γεγονός ότι μας επιτρέπει να δημιουργήσουμε
διαστήματα εμπιστοσύνης για την μέση τιμή του πληθυσμού.
• Αν συλλέξουμε πολλά ανεξάρτητα δείγματα του ίδιου μεγέθους από ένα πληθυσμό,
υπολογίσουμε τη μέση τιμή του καθενός και κατασκευάσουμε την κατανομή συχνότητας
των μέσων τιμών τότε η μέση τιμή αυτής της κατανομής είναι η μέση τιμή του πληθυσμού
και η τυπική της απόκλιση είναι ίση με το τυπικό σφάλμα μέσης τιμής.
Το τυπικό σφάλμα SE της μέσης τιμής πολ/ζόμενο με 1,96 μας
δίνει την απόσταση των ορίων του 95% διαστήματος
εμπιστοσύνης από τη μέση τιμή.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Σε αυτές τις περιπτώσεις χρειαζόμαστε ένα πιο αντικειμενικό μέτρο διασποράς, που
να μην επηρεάζεται από το μέγεθος της μέσης τιμής αλλά από τη σχέση της μέσης
τιμής με ένα μέτρο διασποράς.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
34
2.5. Συντελεστής μεταβλητότητας (CV, Coefficient of Variation)
• Είναι ο λόγος της τυπικής απόκλισης (s) προς τη μέση τιμή (x).
• Δείχνει πόσο “διασκορπισμένες” είναι οι τιμές σε σχέση με τη μέση τιμή.
• Εκφράζει ένα μέτρο της σχετικής διασποράς ως προς τη μέση τιμή.
• Εκφράζεται % και είναι ανεξάρτητος από τις μονάδες μέτρησης.
• Χρησιμοποιείται για συγκρίσεις μεταβλητότητας δειγμάτων από διαφορετικούς
πληθυσμούς, τη σύγκριση ομάδων τιμών που είτε εκφράζονται σε διαφορετικές
μονάδες μέτρησης είτε στην ίδια μονάδα αλλά έχουν σημαντικά διαφορετικές
μέσες τιμές μεταξύ τους και τον έλεγχο της ομοιογένειας μέσα στην ίδια ομάδα.
• Ομοιογενή: Δείγματα με συντελεστή μεταβλητότητας < 10%.
• Ανομοιογενή: Δείγματα με συντελεστή μεταβλητότητας ≥ 10%.
Μέτρα Σχετικής Μεταβλητότητας
35
Όσο πιο μικρή είναι η τιμή του CV, τόσο πιο μικρή είναι η
μεταβλητότητα των παρατηρήσεων.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
36
Συντελεστής ασυμμετρίας
38
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
40
2.8. Συντελεστής κυρτότητας (Kurtosis)
• Η Κύρτωση μιας κατανομής μετράει τον βαθμό της συγκέντρωσης των τιμών της
στην περιοχή της μέσης τιμής ή στα άκρα.
• Χαρακτηρίζει το ύψος της κορυφής της κατανομής και δίνει πληροφορίες για την
αιχμηρότητα της καμπύλης.
• Οι καμπύλες συχνοτήτων (κατανομές) χαρακτηρίζονται από το βαθμό
συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα.
• Οι κατανομές (σε σύγκριση με το 0) διακρίνονται σε:
Λεπτόκυρτες (Κ>0, θετικός): Μεγάλη συγκέντρωση τιμών στο μέσο (οξεία κορυφή)
Μεσόκυρτες ή Κανονικές (Κ=0),
Πλατύκυρτες (Κ<0, αρνητικός): Αποκέντρωση των τιμών, διασπαρμένες γύρω
από την κεντρική τιμή (με πλατιά κορυφή).
Συντελεστής κυρτότητας
41
Συντελεστής κυρτότητας
42
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Περιγραφικά Μέτρα
Πηγαίνουμε στην
επιλογή Options.
Περιγραφικά Μέτρα
Επιλέγουμε OK.
Περιγραφικά Μέτρα
Σ Ε
Τ Λ Χ
2 Περιεχόμενα
➢ Ορισμοί
➢ Βασικές Έννοιες
➢ Παραδείγματα
Σ Ε
Τ Λ Χ
3 Στην Καθημερινότητα ….
➢ Τι είναι Στατιστική;
Σ Ε
Τ Λ Χ
4 Τι είναι Στατιστική;
Στατιστική είναι ένας τρόπος με τον οποίο αντλούμε πληροφορίες από δεδομένα.
Gerald Keller
Στατιστική
Δεδομένα
Πληροφορίες
Στατιστική είναι ένα εργαλείο για να δημιουργήσουμε μία νέα αντίληψη από ένα σύνολο
αριθμών.
Σ Ε
Τ Λ Χ
5 Παράδειγμα …
Ένας φοιτητής ανησυχεί για το μάθημα της στατιστικής, επειδή πληροφορήθηκαν ότι το μάθημα
είναι δύσκολο. Ο καθηγητής δίνει στους φοιτητές τους βαθμούς από το προηγούμενο έτος. Τι
μπορούμε να διακρίνουμε από αυτά τα νούμερα.
Στατιστική
Δεδομένα
Πληροφορίες
Λίστα βαθμών από το Νέα πληροφορία
προηγούμενο έτος σχετικά με το μάθημα
95 της στατιστικής.
89
70 Π.χ. Μέσος όρος της τάξης,
65 Ποσοστό της τάξης που πήρε άριστα,
78 Ο βαθμός με την μεγαλύτερη συχνότητα,
57 Κατανομή βαθμών, κ.λ.π.
:
Σ Ε
Τ Λ Χ
Η Στατιστική είχε μια μητέρα που αφιέρωσε τη ζωή της στο να διατηρεί με μεθοδικό τρόπο
τα αρχεία των διαφόρων κυβερνητικών υπηρεσιών κι ένα τζογαδόρο πατέρα που στηρίχθηκε
στα μαθηματικά για να αυξήσει την επιδεξιότητά του στα τυχερά παιγνίδια. Από τη
ταξινόμηση, παρουσίαση και ερμηνεία αριθμητικών δεδομένων, τα οποία είναι χρήσιμα για
(Η ρίζα της λέξης στατιστική αναζητείται στην λατινική λέξη ‘status’ (κοινωνία, κράτος) και
➢ Έλεγχος Παραγωγής
➢ Οικονομικές Αναλύσεις
Σ Ε
Τ Λ Χ
8 Ιστορικά
9 Είδη Στατιστικής
δεδομένα (Δηλαδή συλλογή δεδομένων για ένα υποσύνολο του πληθυσμού με σκοπό να
προσέγγιση των χαρακτηριστικών του συνόλου των δεδομένων (πληθυσμός) δια της
μελέτης των χαρακτηριστικών αυτών επί ενός (μικρού) υποσυνόλου των δεδομένων
(αντιπροσωπευτικό δείγμα) → Βασίζεται στη θεωρία πιθανοτήτων και την θεωρία της
Σ Ε
Τ Λ Χ
10 Είδη Στατιστικής
1. Περιγραφική στατιστική (descriptive statistics)
– ταξινομήσεις δεδομένων
• πίνακες,
• διαγράμματα κλπ.
– μαθηματική περιγραφή
• εύρος τιμών (range),
• μέσος όρος (average, mean value),
• διάμεσος (median),
• κορυφή (mode)
• διακύμανση (variance),
• τυπική απόκλιση (standard deviation) κλπ.
Σ Ε
Τ Λ Χ
11 Είδη Στατιστικής
διαδικασίας
• Πληθυσμός
• Δείγμα
• Ποσοτικοποίηση
• Κατανομή
Σ Ε
Τ Λ Χ
12 Βασικές Έννοιες
κοινά χαρακτηριστικά..
13 Βασικές Έννοιες
➢ Σχετικά μικρός Πληθυσμός: π.χ. μαθητές ενός σχολείου, κάτοικοι
Σ Ε
Τ Λ Χ
14 Βασικές Έννοιες
Για την συλλογή των στατιστικών στοιχείων, εφαρμόζονται διάφοροι μέθοδοι, από τις οποίες οι
πιο συνηθισμένες, είναι η Απογραφή και η Δειγματοληψία.
Η δειγματοληψία είναι μέθοδος πιο γρήγορη, πιο οικονομική, αλλά μπορεί να οδηγήσει σε
εσφαλμένα αποτελέσματα όταν το δείγμα δεν έχει επιλεγεί με ενδεδειγμένες επιστημονικές
μεθόδους. Η απογραφή είναι δαπανηρή, πιο χρονοβόρα, αλλά με αποτελέσματα που δεν
εμπεριέχουν το δειγματοληπτικό σφάλμα
Σ Ε
Τ Λ Χ
15 Βασικές Έννοιες
Τα χαρακτηριστικά ή ιδιότητες των στατιστικών μονάδων ως προς τα οποία εξετάζουμε έναν
πληθυσμό ονομάζονται Μεταβλητές. Συμβολίζονται με κεφαλαία γράμματα και οι τιμές τους με
τα αντίστοιχα μικρά.
Είδη Μεταβλητών
➢ Ποσοτικές: είναι οι μεταβλητές που δύναται να επιδέχονται αριθμητική μέτρηση π.χ ύψος,
εισόδημα, αριθμός φοιτητών ανά εργαστηριακό τμήμα.
➢ Ποιοτικές ή κατηγορικές: χαρακτηρίζονται οι μεταβλητές που δεν επιδέχονται αριθμητική
μέτρηση. Μη μετρήσιμες μεταβλητές, οι οποίες εκφράζουν ιδιότητα ή κατηγορία π.χ. φύλο,
επίπεδο εκπαίδευσης
➢ Μεταβλητές διαβάθμισης ή ιεραρχικές: Εκφράζουν διαβάθμιση ή ιεραρχία (π.χ. επίπεδο
παρεχόμενων υπηρεσιών: χαμηλό-μέτριο-άριστο).
Σ Ε
Τ Λ Χ
16 Βασικές Έννοιες
Οι Ποσοτικές Μεταβλητές διακρίνονται σε δύο κατηγορίες:
➢ Συνεχείς: είναι οι ποσοτικές μεταβλητές που μπορούν να πάρουν οποιαδήποτε τιμή ενός
διαστήματος πραγματικών, δηλαδή παίρνουν άπειρες τιμές (π.χ. Ηλικία, Βάρος, Ύψος)
➢ Διακριτές ή ασυνεχείς είναι οι μεταβλητές που παίρνουν μόνο μεμονωμένες τιμές, δηλαδή
με λίγα λόγια παίρνουν μόνο πεπερασμένο πλήθος τιμών (Π.χ. Αριθμός Παιδιών
Οικογένειας, Μηνιαίες Πωλήσεις Αυτοκινήτων).
Οι Ποιοτικές Μεταβλητές διακρίνονται σε τρείς κατηγορίες:
➢ Ονομαστικές είναι οι μεταβλητές που η διάταξη τους δεν έχει κάποιο νόημα.
➢ Διατακτικές είναι οι μεταβλητές των οποίων η διάταξη έχει σημασία για συγκεκριμένο
πρόβλημα.
➢ Διχοτομικές είναι οι μεταβλητές, που χωρίζουν τις στατιστικές μονάδες σε δύο μέρη.
Σ Ε
Τ Λ Χ
17 Βασικές Έννοιες
Εξαρτημένη μεταβλητή: Αυτή η μεταβλητή υποτίθεται ότι είναι το αποτέλεσμα, το οποίο
εξαρτάται από την καθορισμένη αξία της ανεξάρτητης μεταβλητής (π.χ., η επιθετική
συμπεριφορά).
Ανεξάρτητη μεταβλητή: Αλλαγές σ' αυτή την μεταβλητή υποτίθεται ότι προκαλούν αλλαγές
στην εξαρτημένη μεταβλητή
Πειραματική Ομάδα: Η πειραματική ομάδα αποτελείται από εκείνα τα υποκείμενα που
εκτίθενται στην ανεξάρτητη μεταβλητή.
Ομάδα Ελέγχου: Η ομάδα ελέγχου αποτελείται από εκείνα τα υποκείμενα που είτε δεν
εκτίθενται καθόλου στην ανεξάρτητη μεταβλητή είτε εκτίθενται εν μέρει στην ανεξάρτητη
μεταβλητή.
Τυχαία Επιλογή: Η ομάδα στην οποία τοποθετείται κάθε υποκείμενο (πειραματική ή ελέγχου)
καθορίζεται από μια τυχαία διαδικασία έτσι ώστε, κατά μέσο όρο, οι ομάδες να μην διαφέρουν
κατά πολύ πριν από τον έλεγχο της ανεξάρτητης μεταβλητής.
Σ Ε
Τ Λ Χ
18 Άσκηση 1η
Τι τιμές παίρνουν οι παρακάτω μεταβλητές και τι είδους είναι;
➢ Βάρος
➢ Χρώμα ματιών
➢ Κόμμα που ψηφίζω
➢ Μέρες άδειας
➢ Χρόνος καθυστέρησης
➢ Πλήθος παιδιών
➢ Τετραγωνικά κατοικίας
➢ δωμάτια κατοικίας
➢ Ηλικία
Σ Ε
Τ Λ Χ
19 Άσκηση 2η
Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι οι αθλητές μιας ομάδας και
μεταβλητή, το βάρος των αθλητών να καταγράψετε τις τιμές της μεταβλητής
Απάντηση
Οι τιμές του βάρους μπορούν να είναι οποιεσδήποτε μεταξύ κάποιας ανώτατης και
κάποιας κατώτατης τιμής, επομένως μπορούμε να πούμε ότι είναι π.χ. από 50 έως 90
κιλά. Αυτό το αναπαριστούμε με τη μορφή του διαστήματος [50,90].
Αφού λοιπόν λαμβάνει αριθμητικές τιμές είναι ποσοτική.
Εφόσον παίρνει οποιαδήποτε τιμή πρόκειται για συνεχή μεταβλητή
Σ Ε
Τ Λ Χ
20 Άσκηση 2η
Στατιστική έρευνα όπου ο πληθυσμός είναι ο ελληνικές οικογένειες και μεταβλητή, το πλήθος
των ανήλικων τέκνων να καταγράψετε τις τιμές της μεταβλητής
Απάντηση
Ο αριθμός των ανήλικων τέκνων μιας ελληνικής οικογένειας μπορεί να έχει ως ελάχιστη τιμή το 0
και ως μέγιστη π.χ. το 18. Το ερώτημα όμως εδώ είναι μπορεί να πάρει όλες τις τιμές από το 0 έως
το 18;
Σίγουρα μια μη ακέραιη τιμή όπως το 3.5 δεν αποδεκτή ως τιμή της μεταβλητής, άρα εδώ
αποφεύγουν συμβολισμό με χρήση διαστήματος όπως προηγούμενα Αντί για διάστημα γράφουμε
0,1,2,… 18 ή λέμε ότι μπορεί να λάβει τις ακέραιες τιμές από 0 έως 18.
Αφού λοιπόν λαμβάνει αριθμητικές τιμές είναι ποσοτική
Εφόσον οι δεκαδικές τιμές αποκλείονται για διακριτή μεταβλητή
Σ Ε
Τ Λ Χ
21 Άσκηση 3η
Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι το οι σεισμοί σε όλον τον κόσμο και μεταβλητή,
ο χαρακτηρισμός τους ως προς το είδος τους.
Απάντηση
Επομένως οι τιμές της μεταβλητής δεν είναι αριθμητικές και άρα η μεταβλητή είναι ποιοτική.
Εφόσον δεν έχει κάποιο νόημα η διάταξη τους πρόκειται για ονομαστική μεταβλητή
Σ Ε
Τ Λ Χ
22 Άσκηση 4η
Σε μία στατιστική έρευνα όπου ο πληθυσμός είναι οι σεισμοί σε όλον τον κόσμο και μεταβλητή, ο
χαρακτηρισμός τους ως προς το πόσο ισχυροί είναι με τιμές (πολύ ισχυροί, ισχυροί, ασθενείς) να
εντοπίσετε την κατηγορία στην οποία ανήκει η μεταβλητή
Απάντηση
Η διάταξη στην περίπτωση αυτή θα μπορούσε να έχει νόημα, καθώς οι πολύ ισχυροί θεωρούνται
πιο μεγάλοι, ισχυροί λιγότερο μεγάλοι, ενώ οι ασθενείς μικροί, επομένως έχει νόημα η διάταξή
23 Άσκηση 5η
Σε μία στατιστική έρευνα όπου ο πληθυσμός χωρίζεται άνδρες και γυναίκες, από φορείς
κάποιας ασθένειας ή όχι ή και από πτυχιούχους τριτοβάθμιας εκπαίδευσης ή όχι, καπνίζοντες ή
μη. Σε ποιες κατηγορίες μεταβλητών ανήκουν οι παραπάνω μεταβλητές;
Απάντηση
Σε όλες τις παραπάνω μεταβλητές οι τιμές αυτές χωρίζουν τις στατιστικές ομάδες σε δύο μέρη,
ώστε το ένα μέρος να έχει το χαρακτηριστικό που μας ενδιαφέρει να μελετήσουμε ή όχι. Άρα οι
Σ Ε
Τ Λ Χ
24 Πρόβλημα
Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι οι αθλητές μιας ομάδας και μεταβλητή, το
βάρος των αθλητών να καταγράψετε τις τιμές της μεταβλητής.
Να καθορίσετε:
➢ τον πληθυσμό
➢ τη στατιστική μεταβλητή
➢ το δείγμα
25 Λύση Προβλήματος
➢ Ο πληθυσμός που μας ενδιαφέρει είναι οι προτιμήσεις σε γεύση των καταναλωτών της
συγκεκριμένης περιοχής από την οποία επελέγη το δείγμα κατά τη συγκεκριμένη περίοδο
που έγινε η μελέτη.
➢ Η στατιστική μεταβλητή είναι η προτίμηση καθενός από τους καταναλωτές όπως αυτή
εκφράσθηκε στο δείγμα.
➢ Οι παράμετροι που μας ενδιαφέρουν είναι τα ποσοστά προτίμησης για κάθε μια από τις δύο
γεύσεις της μπύρας που θα προέκυπταν αν είχαν ερωτηθεί όλοι οι καταναλωτές της περιοχής
στην οποία έγινε η δειγματοληψία (τα ποσοστά αυτά για όλη την περιοχή είναι βέβαια
άγνωστα).
➢ Το δείγμα αποτελείται από τους 125 καταναλωτές που έκαναν το τεστ γεύσης.
➢ Οι σχετικές στατιστικές συναρτήσεις είναι τα ποσοστά των προτιμήσεων για κάθε μια από τις
δύο γεύσεις στο δείγμα.
Σ Ε
Τ Λ Χ
26 Ασκήσεις
Ο Πίνακας δίνει τους μισθούς των διευθυντών 10 επιχειρήσεων, τον κλάδο στον οποίο
ανήκουν οι επιχειρήσεις και τις πωλήσεις που πραγματοποίησαν τον τελευταίο χρόνο.
Εταιρία Μισθοί (1000 $) Κλάδος Πωλήσεις (εκατ. $)
Bankers Trust 8925 Τράπεζες 9565
Coca-Cola 2437 Τρόφιμα-Ποτά 18546
General Mils 1410 Τρόφιμα-Ποτά 5567
Lsi Logic 696 Ηλεκτρονικά 1239
Motorola 1847 Ηλεκτρονικά 27973
Readers Digest 1490 Εκδόσεις 2968
Sears 3414 Λιανικό Εμπόριο 38236
Sprint 3344 Τηλεπικοινωνίες 14045
Walgreen 1490 Λιανικό Εμπόριο 12140
Wells Fargo 2861 Τράπεζες 8723
Πηγή: Business Week, Απριλιος, 1997
27 Ασκήσεις
Το e-shop είναι e- κατάστημα στην Ελλάδα με on-line πωλήσεις ηλεκτρονικών υπολογιστών και
εξαρτημάτων. Τον προηγούμενο μήνα ζήτησε από τα μέλη του να συμπληρώσουν ένα
ερωτηματολόγιο με 11 ερωτήσεις. Κάποιες από τις ερωτήσεις ήταν οι εξής:
• Πόσες αγορές πραγματοποιήσατε τον τελευταίο χρόνο από το κατάστημα μας;
• Ποιο είναι το φύλο σας;
• Ποια είναι η ηλικία σας;
• Περιλαμβάνοντας και τον εαυτό σας, από πόσα μέλη αποτελείται η οικογένειά σας;
• Για ποια/ποιες από τις παρακάτω κατηγορίες προϊόντων ενδιαφέρεστε περισσότερο (10
κατηγορίες: Υπολογιστές, Τηλεπικοινωνίες, Αναλώσιμα, Ήχος-Εικόνα, Ηλεκτρονικά
Παιχνίδια, Gadgets κα).
Σχολιάστε τι είδους στατιστικά δεδομένα (ποιοτικά ή ποσοτικά) θα πάρουμε για κάθε μια από
τις παραπάνω ερωτήσεις.
Σ Ε
Τ Λ Χ
28 Ασκήσεις
Το Ίδρυμα Οικονομικών και Βιομηχανικών Ερευνών πραγματοποιεί κάθε μήνα έρευνα
καταναλωτικής εμπιστοσύνης αποστέλλοντας ερωτηματολόγια σε 2013 ενήλικους Έλληνες πολίτες.
Ένα από τα ερωτήματα είναι το εξής: «Πως θεωρείτε ότι έχει μεταβληθεί η οικονομική κατάσταση
της χώρας των τελευταίο μήνα;». Οι πιθανές απαντήσεις είναι: «αισθητή βελτίωση», «ελαφρά
βελτίωση», «αμετάβλητη», «ελαφρά επιδείνωση», «αισθητή επιδείνωση».
• Ποιο είναι το μέγεθος του δείγματος σε αυτή την έρευνα;
• Ποιος είναι ο πληθυσμός σε αυτή την έρευνα;
• Τα στατιστικά δεδομένα που προκύπτουν από την ερώτηση είναι ποιοτικά ή ποσοτικά; Αν είναι
ποιοτικά, είναι ονοματικά ή διατακτικά;
• Εάν το 28% των ερωτηθέντων απαντά «ελαφρά επιδείνωση», για πόσους ανθρώπους μιλάμε;
Σ Ε
Τ Λ Χ
29 Ασκήσεις
Το Ίδρυμα Οικονομικών και Βιομηχανικών Ερευνών πραγματοποιεί κάθε μήνα έρευνα
καταναλωτικής εμπιστοσύνης αποστέλλοντας ερωτηματολόγια σε 2013 ενήλικους Έλληνες πολίτες.
Ένα από τα ερωτήματα είναι το εξής: «Πως θεωρείτε ότι έχει μεταβληθεί η οικονομική κατάσταση
της χώρας των τελευταίο μήνα;». Οι πιθανές απαντήσεις είναι: «αισθητή βελτίωση», «ελαφρά
βελτίωση», «αμετάβλητη», «ελαφρά επιδείνωση», «αισθητή επιδείνωση».
• Ποιο είναι το μέγεθος του δείγματος σε αυτή την έρευνα;
• Ποιος είναι ο πληθυσμός σε αυτή την έρευνα;
• Τα στατιστικά δεδομένα που προκύπτουν από την ερώτηση είναι ποιοτικά ή ποσοτικά; Αν είναι
ποιοτικά, είναι ονοματικά ή διατακτικά;
• Εάν το 28% των ερωτηθέντων απαντά «ελαφρά επιδείνωση», για πόσους ανθρώπους μιλάμε;
Σ Ε
Τ Λ Χ
30 Ασκήσεις
Ο τομέας μάρκετινγκ της εταιρίας σας θεωρεί ότι η προώθηση ενός νέου αναψυκτικού διαίτης στην
αγορά θα «κερδίσει» μεγάλο μέρος των καταναλωτών ηλικίας κάτω των 25 ετών.
• Ποια είναι τα στατιστικά δεδομένα τα οποία θα θέλατε να δείτε πριν προωθήσετε το προϊόν στην
αγορά;
• Με ποια μέθοδο συλλογής στατιστικών δεδομένων πιστεύετε ότι μπορούν να αποκτηθούν τα
παραπάνω στοιχεία;
Σ Ε
Τ Λ Χ
31 Ασκήσεις
Σε μια πρόσφατη μελέτη που αφορά στις αιτίες θανάτου των ανδρών 60 ετών και άνω, σε ένα δείγμα
120 ανδρών διαπιστώθηκε ότι 48 από αυτούς πέθαναν από καρδιακή προσβολή.
• Αναφέρετε ένα περιγραφικό στατιστικό το οποίο θα μπορούσε να αποτελεί εκτίμηση του
ποσοστού των ανδρών ηλικίας 60 ετών και άνω που πεθαίνουν από καρδιακή προσβολή.
• Συζητήστε το ρόλο της Στατιστικής Επαγωγής σε αυτού του τύπου τις ιατρικές μελέτες.
Σ Ε
Τ Λ Χ
32 Ασκήσεις
Μια επιχείρηση ενδιαφέρεται να ελέγξει την αποτελεσματικότητα της διαφήμισης του προϊόντος της
στην τηλεόραση. Η διαφήμιση βγήκε στον αέρα μετά τις ειδήσεις των 8 της Κυριακής. Την Τρίτη, η
εταιρία στατιστικών μελετών που ανέλαβε την έρευνα διενέργησε τηλεφωνικές συνεντεύξεις σε ένα
τυχαία επιλεγμένο πλήθος 1022 ατόμων και ρώτησε, μεταξύ άλλων, εάν είδαν τη διαφήμιση, εάν τη
θυμούνται και πως τους φάνηκε.
• Ποιος είναι ο πληθυσμός στην έρευνα; β. Ποιο είναι το δείγμα της έρευνας;
• Γιατί πρέπει να χρησιμοποιηθεί δείγμα; Εξηγήστε.
Σ Ε
Τ Λ Χ
33 Ασκήσεις
Έστω ότι σας ενδιαφέρει να εκτιμήσετε το μέσο εισόδημα των νοικοκυριών του νομού Ιωαννίνων,
χρησιμοποιώντας ένα δείγμα 25 νοικοκυριών. Υποθέσατε ότι το σύνολο των νοικοκυριών είναι
50000.
• Αν το επέτρεπε ο χρόνος και τα χρήματα που έχετε στη διάθεσή σας για την αποπεράτωση της
έρευνας αυτής, θα χρησιμοποιούσατε ένα δείγμα μεγαλύτερο από 25; Εξηγήστε.
• Αν σας προτείνουν να χρησιμοποιήσετε τον κατάλογο παροχής internet της περιοχής (τον
κατάλογο που περιέχει τα νοικοκυριά με σύνδεση internet) για την επιλογή των 25 νοικοκυριών
που θα συμπεριληφθούν στο δείγμα, θα το δεχόσαστε ή όχι και γιατί;
Έλεγχος Υποθέσεων
Περιεχόμενα
✓ Η επιστήμη της Στατιστικής
✓ Επαγωγική Στατιστική
✓ Έλεγχος Υποθέσεων
✓ Έλεγχος Κανονικότητας
3% 2 από 63
Η Επιστήμη της Στατιστικής
6% 4 από 63
Η Επιστήμη της Στατιστικής
➢ πώς να το ερμηνεύσω
7% 5 από 63
9% 6 από 63
Επαγωγική Στατιστική
➢ Ίσως το σπουδαιότερο εργαλείο της Στατιστικής επιστήμης.
11 % 7 από 63
Επαγωγική Στατιστική
Βασικές Έννοιες
➢ Ερευνητική Υπόθεση, μια εικασία που χρειάζεται μαθηματική
επαλήθευση.
➢ Έλεγχος Ερευνητικής Υπόθεσης, μία στατιστική
συμπερασματική – επαγωγική διαδικασία που μας επιτρέπει να
αξιοποιήσουμε τα δεδομένα του δείγματος για να εκτιμήσουμε
την εγκυρότητα – ορθότητα μιας εικασίας που έγινε για τον
πληθυσμό
➢ Στατιστική Υπόθεση, μια οποιαδήποτε στατιστική δήλωση (για
κατανομές πληθυσμών, στοχαστικές διαδικασίες, κλπ) που
θέτουμε υπό έλεγχο με βάση τις παρατηρήσεις
12 % 8 από 63
Έλεγχος Υποθέσεων
➢ Ο στατιστικός έλεγχος μιας υπόθεσης θα μπορούσε να
προσομοιωθεί με τη διαδικασία λήψης απόφασης σε μια δικαστική
διαδικασία.
➢ Ο κατηγορούμενος προσάγεται στο δικαστήριο για να δικαστεί με
μια συγκεκριμένη διαδικασία. Στην πραγματικότητα, είναι είτε
αθώος είτε ένοχος. Οι ένορκοι όμως δεν το γνωρίζουν και
καλούνται να αποφασίσουν.
➢ Η απόφασή τους θα ληφθεί με βάση τα αποδεικτικά στοιχεία που
θα παρουσιαστούν στη διάρκεια της δίκης. Μετά την ολοκλήρωση
της ακροαματικής διαδικασίας, οι ένορκοι θα πρέπει να
αποφασίσουν αν θα δεχθούν την αθώωση του κατηγορουμένου ή
θα προτείνουν στο δικαστήριο την ενοχή του
14 % 9 από 63
Έλεγχος Υποθέσεων
ΑΠΟΦΑΣΗ ΠΡΑΓΜΑΤΙΚΗ ΕΥΘΥΝΗ ΚΑΤΗΓΟΡΟΥΜΕΝΟΥ
15 % 10 από 63
Έλεγχος Υποθέσεων
ΑΠΟΦΑΣΗ ΠΡΑΓΜΑΤΙΚΗ ΕΥΘΥΝΗ ΚΑΤΗΓΟΡΟΥΜΕΝΟΥ
Έλεγχος Υποθέσεων
Ο έλεγχος υποθέσεων είναι η διαδικασία προσδιορισμού αν μια
δεδομένη υπόθεση ισχύει ή όχι.
➢ Το πρώτο βήμα στον έλεγχο υποθέσεων είναι να οριστεί η
μηδενική υπόθεση.
➢ Η υπόθεση ελέγχεται με χρήση της στατιστικής.
Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας
πληθυσμιακής παραμέτρου.
Είναι ένας ισχυρισμός ο οποίος θεωρείται σωστός εκτός και εάν
υπάρχουν επαρκή στατιστικά στοιχεία για να υποστηριχθεί το αντίθετο
συμπέρασμα.
19 % 12 από 63
Έλεγχος Υποθέσεων
Στον έλεγχο υποθέσεων υπάρχουν:
➢ Η μηδενική υπόθεση H0
➢ H ενναλακτική υπόθεση H1
Η εναλλακτική υπόθεση είναι το αντίθετο της μηδενικής υπόθεσης.
Επειδή υποστηρίζουν αντίθετες υποθέσεις, μόνο 1 από τις 2 θα είναι
σωστή. Η απόρριψη της μιας υπόθεσης σημαίνει αποδοχή της άλλης.
Παράδειγμα :
➢ Μηδενική υπόθεση: H0: μ=100
➢ Εναλλακτική υπόθεση: H1: μ≠100
20 % 13 από 63
Έλεγχος Υποθέσεων
Προφανώς, για να ελεγχθεί μια υπόθεση με απόλυτη ακρίβεια, πρέπει
να ελεγχθεί όλος ο πληθυσμός.
22 % 14 από 63
Έλεγχος Υποθέσεων
Αποδοχή υπόθεσης Η0 Απόρριψη υπόθεσης από
από το δείγμα Η0 το δείγμα
Υπόθεση Η0 αληθής
στον πληθυσμό ✓ Σφάλμα τύπου Ι
Υπόθεση Η0 ψευδής
στον πληθυσμό Σφάλμα τύπου ΙΙ ✓
Σε κάθε στατιστικό έλεγχο υποθέσεων υπάρχει επομένως η δυνατότητα
σφάλματος:
✓ Σφάλμα τύπου Ι: Απόρριψη της Η0 ενώ στην πραγματικότητα είναι
αληθής.
✓ Σφάλμα τύπου ΙΙ: Αποδοχή της Η0 ενώ στην πραγματικότητα
είναι ψευδής.
23 % 15 από 63
Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ α=P(σφάλμα τύπου Ι) = P(Απόρριψη της Η0 ενώ στην
πραγματικότητα είναι αληθής)
✓ β=P(σφάλμα τύπου ΙΙ) = P(Αποδοχή της Η0 ενώ στην
πραγματικότητα η Η1 είναι αληθής)
✓ Η πιθανότητα γ=1-β ονομάζεται ισχύς του ελέγχου και εκφράζει το
ποσοστό σωστών απορρίψεων της Η0
✓ Το α ονομάζεται επίπεδο σημαντικότητας (π.χ. αν έχουμε επιλέξει
α=0,05 και απορρίψουμε την μηδενική υπόθεση Η0 σημαίνει ότι σε
100 όμοιες περιπτώσεις είναι δυνατό να έχουμε κάνει λάθος και να
έχουμε απορρίψει την Η0 ενώ είναι αληθής μόνο σε 5).
25 % 16 από 63
Έλεγχος Υποθέσεων
Αποδοχή υπόθεσης Η0 Απόρριψη υπόθεσης από
από το δείγμα Η0 το δείγμα
Υπόθεση Η0 αληθής Ορθή Απόφαση Σφάλμα τύπου Ι
στον πληθυσμό Πιθανότητα = 1-α Πιθανότητα = α
Υπόθεση Η0 ψευδής Σφάλμα τύπου ΙΙ Ορθή Απόφαση
στον πληθυσμό Πιθανότητα = 1-β
Πιθανότητα = β
26 % 17 από 63
Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ Το (1-α) ονομάζεται και συντελεστής εμπιστοσύνης και είναι η
πιθανότητα μη απόρριψής της Η0 όταν είναι αληθής
✓ Το (1-α)*100% ονομάζεται επίπεδο εμπιστοσύνης του ελέγχου
𝛼ൗ 𝛼ൗ
2 2
100
Περιοχή Απόρριψης
28 % 18 από 63
Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ Η τιμή του α (άλφα) επηρεάζει
❖ Τόσο την πιθανότητα σφάλματος τύπου Ι (όσο αυξάνεται το
α τόσο αυξάνεται η πιθανότητα σφάλματος τύπου Ι)
❖ όσο και την πιθανότητα σφάλματος τύπου ΙΙ (όσο αυξάνεται
το α τόσο μειώνεται η πιθανότητα σφάλματος τύπου ΙΙ)
✓ Η τιμή του α, επιλέγεται ανάλογα με τις επιπτώσεις/κόστος του
κάθε σφάλματος
30 % 19 από 63
Παράδειγμα επιλογής α
Αν όμως ένα σφάλμα τύπου ΙΙ δεν έχει ιδιαίτερο κόστος, ενώ ένα σφάλμα τύπου Ι
οδηγεί στην απόρριψη μιας καλής παραγωγής προϊόντων, τότε επιλέγω μικρότερο
α π.χ. στο 1%, άρα 99% διάστημα εμπιστοσύνης.
31 % 20 από 63
Έλεγχος Υποθέσεων
Η τιμή p-value
✓ Η τιμή p-value είναι το κριτήριο αποδοχής ή όχι της μηδενικής
υπόθεσης Η0
✓ Πιο συγκεκριμένα απορρίπτουμε την μηδενική υπόθεση Η0 όταν η τιμή
p-value είναι μικρότερη από το επίπεδο στατιστικής σημαντικότητας α
(άλφα) που έχουμε δηλώσει.
✓ Η τιμή p-value δεν είναι η πιθανότητα να επαληθευθεί η μηδενική
υπόθεση Η0 και αυτό γιατί οι υποθέσεις δεν εκφράζονται με πιθανότητες
στην στατιστική
✓ Η τιμή p-value επηρεάζεται ισχυρά από το μέγεθος του δείγματος πιο
συγκεκριμένα υπάρχει αντίστροφη συσχέτιση μεταξύ του μεγέθους του
δείγματος και της τιμής p-value
33 % 21 από 63
0,16
0,14
0,12
0,1
p-value
0,08
0,06
0,04
0,02
0
0 100 200 300 400 500 600 700 800 900 1000
34 % 22 από 63
P value και διάστημα εμπιστοσύνης
36 % 23 από 63
Έλεγχος Υποθέσεων
Υποθέσεις
"Αν η Γιαγιά μου είχε καρούλια … θα ήταν πατίνι”
➢ Κάθε στατιστικό τεστ βασίζεται σε ένα σύνολο υποθέσεων (κριτηρίων)
➢ Αν οι υποθέσεις δε ισχύουν, το αποτέλεσμα του ελέγχου μπορεί να είναι
λανθασμένο
➢ Πολύ συχνά δεν γίνεται σωστά ο έλεγχος υποθέσεων
➢ Ένας πολύ σημαντικός έλεγχος στην στατιστική ανάλυση είναι να δούμε αν
μπορούμε να χρησιμοποιήσουμε παραμετρικά τεστ (αν τα δεδομένα
ακολουθούν την κανονική κατανομή)
✓ Τα παραμετρικά τεστ εμφανίζονται πολύ συχνά στην βιβλιογραφία
✓ Είναι πιο ισχυρά και έχουν καλύτερη αντιμετώπιση από τους reviewers
38 % 24 από 63
Έλεγχος Υποθέσεων
Βήματα στον έλεγχο Υποθέσεων
1. Διατυπώστε την μηδενική υπόθεση Η0 και την εναλλακτική υπόθεση Η1
2. Επιλέξτε το επίπεδο στατιστικής σημαντικότητας α και το μέγεθος του
δείγματος n λαμβάνοντας υπόψη την σχετική σημασία των σφαλμάτων
τύπου Ι και τύπου ΙΙ
3. Προσδιορίστε την κατάλληλή στατιστική συνάρτηση ελέγχου (ποιο
στατιστικό μέτρο θα χρησιμοποιηθεί)
4. Συλλέξτε τα δεδομένα και υπολογίστε την τιμή της στατιστικής
συνάρτησης ελέγχου (p value)
5. Πάρτε την στατιστική απόφαση (αν p value < α απορρίπτεται η μηδενική
υπόθεση Η0 ) και διατυπώστε το διοικητικό συμπέρασμα
39 % 25 από 63
1 + 2 + .....+
i
i= 1
= =
• η μέση τιμή επηρεάζεται ιδιαίτερα από τις ακραίες τιμές (μεγάλες ή μικρές). Αυτό
δημιουργεί προβλήματα σε μη συμμετρικές κατανομές.
• Κάποιες φορές δεν έχει φυσικό νόημα
41 % 26 από 63
Δείκτες Κεντρικής Θέσης
Διάμεσος
Δηλαδή η διάμεσος είναι μία τιμή η οποία χωρίζει τις παρατηρήσεις του δείγματος σε δύο
ισοπληθείς ομάδες, έτσι ώστε οι παρατηρήσεις της πρώτης ομάδας να είναι όλες μεγαλύτερες ή
ίσες της διαμέσου και όλες οι παρατηρήσεις της άλλης ομάδας να είναι όλες μικρότερες ή ίσες
αυτής. Την συμβολίζουμε με δ
Δ
42 % 27 από 63
44 % 28 από 63
Κατανομές
Χαρακτηριστικά Κατανομής - συμμετρικές και μη συμμετρικές κατανομές
Πολλές τιμές στη μέση, λίγες Πολλές μικρές τιμές, κάποιες Πολλές μεγάλες τιμές, κάποιες τιμές
μεγάλες τιμές και λίγες μικρές τιμές στη μέση και λίγες στη μέση και λίγες μικρές τιμές
τιμές μεγάλες τιμές
46 % 29 από 63
Κανονική Κατανομή
➢ Η υπόθεση της κανονικότητας είναι μία από τις υποθέσεις πάνω στις οποίες έχει
θεμελιωθεί η στατιστική συμπερασματολογία.
➢ Οι περισσότερες από τις μεθοδολογίες της Παραμετρικής Στατιστικής υποθέτουν,
προϋποθέτουν ότι τα δεδομένα προέρχονται από έναν πληθυσμό, ο οποίος περιγράφεται
ικανοποιητικά από την κανονική κατανομή.
➢ Όταν το ιστόγραμμα συχνοτήτων των ποσοτικών μεταβλητών έχει το σχήμα “καμπάνας”,
τότε λέμε ότι τα δεδομένα ακολουθούν την κανονική κατανομή ή κατανέμονται κανονικά.
➢ Το ιστόγραμμα όμως δεν είναι “ικανό” να μας απαντήσει στη ερώτηση αν είναι κανονικά
τα δεδομένα ή αν προέρχονται από μία κανονική κατανομή με ένα μέσο και μία
διακύμανση.
47 % 30 από 63
Κανονική Κατανομή
49 % 31 από 63
Κανονική Κατανομή
50 % 32 από 63
Κανονική Κατανομή
Ιδιότητες Κανονικής Κατανομής
Κανονική Κατανομή
Ιδιότητες Κανονικής Κατανομής ✓ Το σχήμα της κανονικής κατανομής έχει τις εξής
ιδιότητες:
▪ Το πιο απότομο σημείο της καμπύλης βρίσκεται
σε απόσταση μιας τυπικής απόκλισης
εκατέρωθεν του μέσου όρου
▪ Σε απόσταση 3 τυπικών αποκλίσεων από το
μέσο όρο η κλίση είναι σχεδόν οριζόντια, πολύ
κοντά στο μηδέν
▪ Παρουσία ακραίων τιμών μπορεί να γείρει την
καμπάνα δεξιά ή αριστερά παραβιάζοντας το
κριτήριο της κανονικής κατανομής
53 % 34 από 63
Κανονική Κατανομή
➢ Ο έλεγχος ότι τα τυχαία δεδομένα ακολουθούν μια συγκεκριμένη κατανομή ονομάζεται
«έλεγχος καλής προσαρμογής».
➢ Για τον έλεγχο αν τα δεδομένα ακολουθούν την κανονική κατανομή αρχικά μπορούμε να
κατασκευάσουμε δύο γραφήματα με το SPSS, το P-P Plot και το Q-Q Plot
➢ Με αυτά τα γραφήματα ελέγχουμε οπτικά την ύπαρξη κανονικότητας στα δεδομένα. Όσο
πιο κοντά στην ευθεία είναι τα σημεία του σχήματος τόσο πιο πολλές είναι οι ενδείξεις ότι
τα δεδομένα ακολουθούν την κανονική κατανομή.
➢ Το μάτι όμως πάλι μπορεί να “πέσει έξω” και να ξεγελαστούμε. Για αυτό το λόγο
καταφεύγουμε σε τεστ κανονικότητας για να απαντήσουμε στην προηγούμενη ερώτηση.
55 % 35 από 63
Κανονική Κατανομή
Για τον έλεγχο της Κανονικής κατανομής έχουμε τις υποθέσεις :
Η0: Η κατανομή των δεδομένων δε διαφέρει από την κανονική κατανομή
Η1: Η κατανομή των δεδομένων διαφέρει από την κανονική κατανομή
Για τον έλεγχο της υπόθεσης συγκρίνουμε την τιμή p-value με το επίπεδο στατιστικής
σημαντικότητας α (άλφα) που έχουμε ορίσει (π.χ α=0,05)
➢ Αν η p-value είναι μικρότερη του 0,05, τότε λέμε ότι η μηδενική υπόθεση
απορρίπτεται.
➢ Αν η p-value είναι μεγαλύτερη ή ίση του 0,05, τότε λέμε ότι η μηδενική υπόθεση δεν
απορρίπτεται.
57 % 36 από 63
Κανονική Κατανομή
58 % 37 από 63
✓ τα θηκογράμματα
60 % 38 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Χρησιμοποιούμε το αρχείο Lecture_1_1.sav το οποίο περιέχει τους βαθμούς των φοιτητών
στο μάθημα της Ανάλυσης Δεδομένων.
Μέθοδος 1η :
• Από το μενού επιλέγουμε Analyze → Descriptive
Statistics → Descriptive
• Στο παράθυρο διαλόγου που εμφανίζεται
βάζουμε την μεταβλητή που θέλουμε να
εξετάσουμε στο πλαίσιο “Variables” και
τσεκάρουμε το πεδίο “save standardized values
as variables”
61 % 39 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
• Η μεταβλητή που προστίθεται στο φύλλο δεδομένων είναι τα z-scores
• Τα z-scores σε απόλυτη τιμή παρουσιάζουν τον αριθμό των τυπικών
αποκλίσεων μεταξύ των δεδομένων και της μέσης τιμής
• Τιμές z-scores μεγαλύτερες σε απόλυτη τιμή του τρία (3) υποδηλώνουν ακραίες
τιμές αν και ορισμένοι ερευνητές προτείνουν το 1,96 (α=5%)
• Υπάρχουν ερευνητές που εκτιμούν ότι τα z-scores εξαρτούνται από το μέγεθος
του δείγματος και η τιμή για τον εντοπισμό των ακραίων τιμών πρέπει να
𝑛−1
υπολογιστεί από τον τύπο όπου n ο αριθμός των παρατηρήσεων
𝑛
• Στο παράδειγμα υπό εξέταση η τιμή στην παρατήρηση 12 είναι πιθανόν ακραία
τιμή
63 % 40 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Μέθοδος 2η :
• Από το μενού επιλέγουμε Analyze → Descriptive
Statistics → Explore
• Στο παράθυρο διαλόγου που εμφανίζεται βάζουμε την
μεταβλητή που θέλουμε να εξετάσουμε στο πλαίσιο
“Dependent List”
• Από την επιλογή “Statistics” επιλέγουμε Outliers και
Percentiles
65 % 41 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Από το αποτελέσματα μελετούμε τους Πίνακες Percentiles και Extreme Values
Παρατηρούμε ότι τιμές μικρότερες του 12,1 και μεγαλύτερες του 147,3 είναι πιθανές ακραίες
τιμές (σειρά 12 και σειρά 25)
66 % 42 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Ακραία Τιμή
Από το θηκόγραμμα παρατηρούμε 2
ακραίες τιμές (outliers)
✓ τιμές πέρα από τα whiskers,
επισημαίνονται με «ο» και είναι ακραίες
(outliers), ενώ με * επισημαίνονται οι
έκτροπες (extreme)
Ακραία Τιμή
✓ πιθανές αποκλίσεις από την κανονική
κατανομή (αν η διάμεσος είναι πιο κοντά
στην κορυφή ή στην αρχή του κουτιού
και όχι στο κέντρο).
68 % 43 από 63
Παράδειγμα I
Απομάκρυνση Ακραίων Τιμών
Από το μενού επιλέγουμε Data → Select Cases
Από το παράθυρο διαλόγου επιλέγουμε την επιλογή “If condition is
satisfied”
Χρησιμοποιώντας τα πλήκτρα γράφουμε a_a ~= 12 & a_a ~= 25 το
οποίο εξαιρεί από τον υπολογισμό την 12 και την 25 παρατήρηση
69 % 44 από 63
Παράδειγμα I
Εντοπισμός Ακραίων Τιμών
Τα αποτελέσματα χωρίς τις ακραίες τιμές
71 % 45 από 63
Δεν υπάρχει στατιστικό τεστ για τον έλεγχο – βασίζεται στη λογική
74 % 47 από 63
76 % 48 από 63
Έλεγχος Κανονικής Κατανομής
Παρατηρούμε ότι η τιμή p-
value είναι 0,001 επομένως
μικρότερη του 0,05 το οποίο
θέσαμε ως επίπεδο στατιστικής
σημαντικότητας.
Επομένως απορρίπτουμε την
μηδενική υπόθεση H0 (η
κατανομή, δε διαφέρει από την
κανονική κατανομή).
77 % 49 από 63
Παρατηρούμε ότι η
παρατήρηση 43 είναι ακραία
και ότι η παρατήρηση 18
είναι Έκτροπη.
Τις απομακρύνουμε και
τρέχουμε ξανά τον έλεγχο
79 % 50 από 63
Έλεγχος Κανονικής Κατανομής
Μετά την απομάκρυνση των δύο
παρατηρήσεων παρατηρούμε ότι
η τιμή p-value είναι 0,200
επομένως μεγαλύτερη του 0,05
το οποίο θέσαμε ως επίπεδο
στατιστικής σημαντικότητας.
Επομένως δεν μπορούμε να
απορρίψουμε την την μηδενική
υπόθεση H0 (η κατανομή, δε
διαφέρει από την κανονική Παρατήρηση: Η ύπαρξη ακραίων
κατανομή). τιμών επηρεάζουν την κανονική
κατανομή
80 % 51 από 63
✓ Analyze → Descriptive
Statistics → Explore
✓ Βάζουμε στο Dependent List
τις μεταβλητές που θέλουμε να
ελέγξουμε την κανονικότητα
τους
82 % 52 από 63
Έλεγχος Κανονικής Κατανομής
Από την επιλογή Statistics τσεκάρουμε τις
επιλογές Descriptives, Outlies, Percentiles
και ορίζουμε το Διάστημα Εμπιστοσύνης.
84 % 53 από 63
87 % 55 από 63
92 % 58 από 63
Έλεγχος Κανονικής Κατανομής
Από τον πίνακα Test of Normality παρατηρούμε ότι και για τις δύο υποομάδες που
χωρίζει το δείγμα υπό εξέταση η ποιοτική μεταβλητή φύλλο, δεν μπορούμε να
απορρίψουμε την μηδενική υπόθεση
95 % 60 από 63
Ασκήσεις
Άσκηση 1η
a/a Έτος Επώνυμο Φύλλο Βαθμός Εξεταστικής Βαθμός Προόδου
Στον πίνακα (αρχείο lecture_1_5.sav) βρίσκονται οι βαθμοί 25 1 1 Δρα man 7 6
2 1 Νίκ female 4 6
1 Παπ
φοιτητών στο μάθημα Ανάλυσης Δεδομένων στην εξεταστική και
3 man 9 5
4 1 Κίτ female 5 6
5 1 Ματ female 8 5
1 Κατ
στην πρόοδο
6 man 5 5
5 2 Μίτ man 7 9
7 2 Μίρ female 6 5
8 2 Μαύ man 10 6
98 % 62 από 63
Ασκήσεις
Άσκηση 2η a/a
1
Χοληστερίνη
161
Φύλλο Ηλικία
man 31
Δόση
καθόλου
a/a Χοληστερίνη
31 212
Φύλλο Ηλικία
man 38 μέτρια
Δόση
100 % 63 από 63
Συλλογή στατιστικών
δεδομένων
Δημιουργία
ερωτηματολογίων
Συλλογή στατιστικών
δεδομένων
• Απογραφή
• Δειγματοληψία
• Συνεχής καταγραφή
• Σκοπός Περιεχόμενο
• Είδη ερωτήσεων Εμφάνιση
• Συμπλήρωση Κωδικοποίηση
• Καταγραφή
Τρόποι συλλογής
δεδομένων
• Απογραφή
• Δειγματοληψία
• Συνεχής καταγραφή
Απογραφή
Πλεονεκτήματα Μειονεκτήματα
Πληρότητα Χρονοβόρα
Ακρίβεια Μεγάλο κόστος
Χρήση των Πολλά εξειδικευμένα
αποτελεσμάτων άτομα
από άλλες έρευνες
Μερικές φορές όχι
επίκαιρα αποτελέσματα
Μερικές φορές
καταστρέφει την
μελετώμενη στατιστική
μονάδα
Συχνά λάθη εξαιτίας του
Δειγματοληψία
Πλεονεκτήματα Μειονεκτήματα
Ευκολία
Συνεχής καταγραφή
Πλεονεκτήματα Μειονεκτήματα
• Απλότητα
• προσελκύει το ενδιαφέρον
• να μην είναι πυκνογραμμένο
• να μην είναι πολυσέλιδο
ΔΙΑΤΥΠΩΣΗ
ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ
• Πρέπει να υπάρχει σημείωση για τον σκοπό του
ερωτηματολογίου, για τον τρόπο που θα χρησιμοποιηθούν
οι απαντήσεις των ερωτηματολογίου, και για τον
εμπιστευτικό τους χαρακτήρα.
Ηλικία : …………..
Πρέπει να γίνει
Δεν πρέπει να γίνει
Δεν έχω γνώμη
Τρόποι συμπλήρωσης
ερωτηματολογίου
• Πίνακες
• Διαγράμματα
• Στατιστικές εκθέσεις
• Ασκήσεις εφαρμογές
Τρόποι παρουσίασης
δεδομένων
Σημαντικό μέρος της περιγραφικής
στατιστικής αναφέρεται στον τρόπο
παρουσίασης των πληροφοριών,
ώστε να κινούν το ενδιαφέρον, και
να εξαγονται εύκολα τα
συμπεράσματα
• Στατιστικά διαγράμματα
• Στατιστικές εκθέσεις
πίνακες
• Παρουσιάζουμε τα δεδομένα σε μορφή γραμμών και
στηλών, όπου αναφέρουμε τις τιμές της μεταβλητής και
τις συχνότητες (ή τα ποσοστά) εμφάνισής τους.
Πλεονεκτήματα Μειονεκτήματα
Πληρότητα Δεν ελκύει το
ενδιαφέρον
Ακρίβεια Δυσκολία συγκρίσεων
Στοιχεία πίνακα
•Επικεφαλίδα-τίτλος πίνακα
•Κύριο μέρος με γραμμές στήλες
•Υποσημειώσεις πίνακα
•Πηγή συλλογής δεδομένων
Παράδειγμα πολλαπλού
πίνακα
ΑΡΙΘΜΟΣ
ΠΙΝΑΚΑ
ΤΙΤΛΟΣ
ΕΠΙΚΕΦΑΛΙΔΕΣ
ΣΤΗΛΩΝ
ΚΟΡΜΟΣ
ΚΥΡΙΟ
ΣΩΜΑ
ΥΠΟΣΗΜΕΙΩΣΕΙΣ
ΠΗΓΗ
Περιοχή καταγωγής
Τιμές Συχνότητα Σχετική Αθροιστική Σχετική
περιοχή συχνότητα συχνότητα αθροιστική
καταγωγής συχνότητα
Θράκη 15 15/80=0,2 15 20%
20%
Μακεδονία 24 24/80=0,3 39 50%
30%
Ήπειρος 12 12/80=0,15 51 65%
15%
Θεσσαλία 10 10/80=0,125 61 77,5%
12,5%
Στερεά 8 8/80=0,1 10% 69 87,5%
Ελλάδα
Υπόλοιπη 11 11/80=0,125 80 100%
12,5%
Ελλάδα
σύνολο 80 1,0 100%
Γυναίκα 4
άνδρας 3 2 2 4 11
Γυναίκα 2
Άνδρας 0
γυναίκα 1 3 3 2 9
Γυναίκα 2
Άνδρας 4 σύνολο 4 5 5 6 20
Άνδρας 3
Γυναίκα 3 Πηγή: δεδομένα προσομοίωσης
Άνδρας 4
Γυναίκα 0
Στον παραπάνω πίνακα,
Γυναίκα 3 μπορούμε πολύ ευκολότερα
Άνδρας 2 να εξετάσουμε τη σχέση
Γυναίκα 2 φύλου και ημερών άδειας, ή
να κάνουμε συγκρίσεις
Άνδρας 0
μελετώντας ποσοστά
Άνδρας 0
Άνδρας 4
Γυναίκα 3
Άνδρας 3
διαγράμματα
• Παρουσιάζουν τα στοιχεία με
εικόνες ώστε να ελκύουν το
ενδιαφέρον.
Πλεονεκτήματα Μειονεκτήματα
ελκυστικά Όχι ακρίβεια στοιχείων
Εύκολα στις Δυσκολία δημιουργίας
συγκρίσεις
Είδη διαγραμμάτων
• Ραβδόγραμμα
• Κυκλικό διάγραμμα
• Ιστόγραμμα
• Χρονοδιάγραμμα
• Χαρτόγραμμα
• Ειδικό διάγραμμα
Ποιοτικές μεταβλητές
• Παρουσιάζονται με:
ραβδόγραμμα Κυκλικό
(bar) διάγραμμα ή
«πίτα» (pie)
Ποσοτικές μεταβλητές
• Παρουσιάζονται με :
συνεχείς διακριτές
(scale) (discretes)
Κυκλικό (pie)
Χρονοδιάγραμμα (όταν
αναφέρονται στο χρόνο)
Διαγράμματα σε
καρτεσιανό σύστημα
Στην περίπτωση ιστογράμματος ή
χρονοδιαγράμματος, χρησιμοποιούμε το
καρτεσιανό σύστημα και προσέχουμε τα
εξής:
άξο
110
νας
των 100 Δεν πρέπει να
τετα παραλείπονται
γμέ
νων 30
(Y)
20
10
0 1 2 3 4 5 6 7 8 9
40 41 Χ
άξονας των τετμημένων (X)
http://www.cyber-wit.com/gallery_histogram.html
Παραπλανητικό
ιστόγραμμα
• Διαστρέβλωση, πολλές φορές, της πραγματικότητας,
γίνεται από κακή χρήση της στατιστικής.
0-10 10
10-20 20
20-40 30
40-60 15
60-100 20
100-200 30
Σύνολο 125
10-20 20
20-40 30
40-60 15
60-100 20
100-200 30
Σύνολο 125
Παρουσιάστε με διάγραμμα
Πίνακας συχνοτήτων
τιμές συχνότητες
κίτρινο 3
κόκκινο 2
μαύρο 2
πράσινο 3
Σύνολο 10
• Είδη παραμέτρων
• Σκοπός μέτρων θέσεως
• Μέτρα θέσεως
• Αριθμητικός μέσος
• Επικρατούσα τιμή
• Διάμεσος
• Τεταρτημόρια
Σύντομη περιγραφή
• Συμβολίζεται με μ ή X
• Είναι μια τιμή που εκφράζει την
«ισότητα-ομοιομορφία» στα
δεδομένα μας. Αν όλα είχαν την
ίδια τιμή αυτή θα ήταν ο
αριθμητικός μέσος (ή μέση τιμή)
• Η τιμή αυτή κάποιες φορές δεν
εμφανίζεται ποτέ στα πραγματικά
δεδομένα.
Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Κάποιες φορές δεν έχει
Εύκολος υπολογισμός φυσικό νόημα.
Επηρεάζεται από ακραίες
τιμές
Ιδιότητες αριθμητικού μέσου
1η Ιδιότητα: Το αλγεβρικό άθροισμα των αποκλίσεων
όλων των τιμών της μεταβλητής Χ από τον αριθμητικό μέσο
είναι 0. n
X X 0
i 1
i
Y α βX
5η Ιδιότητα: Το άθροισμα των τετραγώνων των
αποκλίσεων όλων των τιμών Χi της μεταβλητής
X X από τον
αριθμητικό τους
. μέσο είναι μικρότερο του ίδιου
αθροίσματος από οποιονδήποτε άλλον αριθμό
n n
X i α 2
Xi X
2
i 1 i 1
X i i
X i 1
k
i 1
i
4 12 4 16 2 18 1 14 162
X 14.7
4 4 2 1 11
Επικρατούσα τιμή (ή
τύπος)
• Συμβολίζεται με Τ
• Είναι η τιμή που εμφανίζεται πιο
συχνά στα δεδομένα μας. Είναι
δηλαδή η τιμή με την
μεγαλύτερη συχνότητα.
Πλεονεκτήματα Μειονεκτήματα
Εύκολος Δεν υπάρχει πάντα μια
υπολογισμός τιμή με την μεγαλύτερη
συχνότητα αλλά πολλές
τιμές με την ίδια
συχνότητα.
Διάμεσος
• Συμβολίζεται με Μ
• Είναι η τιμή που διαχωρίζει τα
δεδομένα μας στη μέση. Είναι
δηλαδή η τιμή κάτω από την
οποία βρίσκονται τα μισά
δεδομένα και πάνω από αυτή τα
άλλα μισά.
Πλεονεκτήματα Μειονεκτήματα
Δεν επηρεάζεται από Δεν αντιπροσωπεύει όλα τα
ακραίες τιμές δεδομένα
Εύκολος
υπολογισμός
Τεταρτημόρια
(πρώτο και τρίτο)
• Πρώτο τεταρτημόριο Q1
• Είναι η τιμή που διαχωρίζει τα δεδομένα μας
σε ένα τέταρτο των «χαμηλών». Είναι
δηλαδή η τιμή κάτω από την οποία
βρίσκεται το ένα τέταρτο των δεομένων και
πάνω από αυτή τα υπόλοιπα τρία τέταρτα.
• Τρίτο τεταρτημόριο Q3
• Είναι η τιμή που διαχωρίζει τα δεδομένα μας
σε ένα τέταρτο των «υψηλών». Είναι δηλαδή
η τιμή πάνω από την οποία βρίσκεται το ένα
τέταρτο των δεομένων και κάτω από αυτή
τα υπόλοιπα τρία τέταρτα.
Πλεονεκτήματα Μειονεκτήματα
Δεν επηρεάζονται από Δεν αντιπροσωπεύουν όλα
ακραίες τιμές τα δεδομένα
Εύκολος υπολογισμός
Χρησιμότητα
ερμηνείας
Βήματα εύρεσης διαμέσου
τεταρτημορίων
Απλά δεδομένα
1. τοποθετώ τα δεδομένα σε αύξουσα σειρά
2. βρίσκω αυτό που είναι στη
• Θέση n/2 για τη διάμεσο
• Θέση n/4 για το 1ο τεταρτημόριο
• Θέση ¾n για το 3ο τεταρτημόριο
Δεδομένα με πίνακα συχνοτήτων
1. Υπολογίζω τη στήλη με την αθροιστική συχνότητα
2. Βρίσκω την τιμή (ή το διάστημα) όπου η αθροιστική
συχνότητα ξεπερνά την τιμή
• n/2 για τη διάμεσο
• n/4 για το 1ο τεταρτημόριο
• ¾n για το 3ο τεταρτημόριο
3. Εντοπίζω την αντίστοιχη τιμή διαμέσου, ή
τεταρτημορίου είτε άμεσα (Χi αν δεν υπάρχουν
διαστήματα) είτε με τον παρακάτω τύπο (i διάστημα):
• M = xi-1+d/fi (n/2-Fi-1)
• Q1= xi-1+d/fi (n/4-Fi-1)
• Q3= xi-1+d/fi (3n/4-Fi-1)
Άσκηση
Ημέρες άδειας
3, 4, 5, 2, 7, 3, 4, 5, 9, 8, 2, 1, 1, 3, 4, 4, 1, 5,
Ώρες 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70
Αρ.Εργ 2 9 24 31 22 13 3 3 3
Λύση για μισθούς
μέση τιμή
Xi fi fiXi
160 56 8960
220 12 2640
280 5 1400
350 3 1050
Αθροίσματα 76 14050
1 14050
X fi Xi 184.87
n 76
Λύση για μισθούς
διάμεσος, τεταρτημόρια
Xi fi Fi ξεπερνά
160 56 56 >38
>19
220 12 68 >57
280 5 73
350 3 76
Αθροίσματα 76
n 76
38 M 160
2 2
n 76
19 Q1 160
4 4
n 76
3 3 57 Q 3 220
4 4
Λύση με το SPSS
μισθός
Cumulative
Frequency Percent Valid Percent Percent
Valid 160 56 73,7 73,7 73,7
220 12 15,8 15,8 89,5
280 5 6,6 6,6 96,1
350 3 3,9 3,9 100,0
Total 76 100,0 100,0
Statistics
μισθός
N Valid 76
Missing 0
Mean 184,87
Median 160,00
Mode 160
Minimum 160
Maximum 350
Percentiles 25 160,00
50 160,00
75 220,00
Λύση για ώρες
μέση τιμή
Χ fi Xi f iX i
25-30 2 27.5 55.0
30-35 9 32.5 292.5
35-40 24 37.5 900.0
40-45 31 42.5 1317.5
45-50 22 47.5 1045.0
50-55 13 52.5 682.5
55-60 3 57.5 172.5
60-65 3 62.5 187.5
65-70 3 67.5 202.5
Σύνολο 110 4855.0
fX i i
4855
X i 1
k
44.136 44.1ώ
f
110
i
i 1
Λύση για ώρες
διάμεσος τεταρτημόρια
Χ fi Fi ξεπερνά
25-30 2 2
30-35 9 11
35-40 24 35 >n/4 =27.5
40-45 31 66 >n/2=55
45-50 22 88 >3n/4=82.5
50-55 13 101
55-60 3 104
60-65 3 107
65-70 3 110
Σύνολο 110
n 110
55 M 40 5 / 31(55 35) 43,2ώ
2 2
n 110
27,5 Q1 35 5 / 24( 27,5 11) 38,4ώ
4 4
n 110
3 3 82,5 Q 3 45 5 / 22(82,5 66) 48,75ώ
4 4
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή πλήθος αντικειμένων και ποσό που
πληρώθηκε
Statistics
Πλήθος
αντικειμένων που
αγοράστηκαν Ποσό πληρωμής
N Valid 26280 26280
Missing 0 0
Mean 2,36 196,2524
Median 2,00 141,7750
Mode 0 ,00
Minimum 0 ,00
Maximum 13 1439,37
Percentiles 25 ,00 ,0000
50 2,00 141,7750
75 4,00 311,3125
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή ποσό που πληρώθηκε ανάλογα με
το φύλο ατόμου
Descriptives
Gender Statistic Std. Error
Amount spent Male Mean 195,2478 1,79391
95% Confidence Lower 191,7315
Interval for Mean Bound
Upper 198,7642
Bound
5% Trimmed Mean 175,2106
Median 140,8650
Variance 43251,662
Std. Deviation 207,97034
Minimum ,00
Maximum 1439,37
Range 1439,37
Interquartile Range 314,38
Skewness 1,211 ,021
Kurtosis 1,250 ,042
Female Mean 197,3038 1,85225
95% Confidence Lower 193,6732
Interval for Mean Bound
Upper 200,9345
Bound
5% Trimmed Mean 176,8384
Median 142,8800
Variance 44051,703
Std. Deviation 209,88498
Minimum ,00
Maximum 1321,55
Range 1321,55
Interquartile Range 308,77
Skewness 1,258 ,022
Kurtosis 1,406 ,043
θηκόγραμμα
• Είναι ένα διάγραμμα με ένα ή περισσότερα ορθογώνια
(box plot), στο οποίο παρουσιάζονται οι τιμές των
μεγίστων ελαχίστων, (επάνω και κάτω άκρο),
• των τεταρτημορίων (επάνω και κάτω πλευρά
ορθογωνίου) και
• της διαμέσου (έντονη γραμμή μέσα στο ορθογώνιο).
• Είναι πολύ χρήσιμο για συγκρίσεις
Σχολιάστε τα μέτρα θέσεως
Τα παρακάτω δεδομένα
παρουσιάζουν το ποσό που
πληρώθηκε μέσω πιστωτικής
κάρτας για διάφορες κατηγορίες
δαπανών.
Τι συμπεράσματα μπορείτε να
βγάλετε;
Case Summaries
Amount spent
Type of transaction N Mean Median Min Maximum
Grocery (τρόφιμα) 5256 129,2772 88,4150 ,00 761,53
Retail (είδη σπιτιού) 5256 312,5793 264,3250 ,00 1439,37
Entertainment (διασκέδαση) 5256 135,4265 94,2100 ,00 974,82
Travel (ταξίδια) 5256 199,1811 149,8850 ,00 1167,67
Other (άλλα) 5256 204,7978 172,6150 ,00 1012,50
Total (σύνολο) 26280 196,2524 141,7750 ,00 1439,37
Ασκήσεις για λύση
• Σκοπός – χρησιμότητα
• Εύρος
• Διακύμανση
• Τυπική απόκλιση
• Συντελεστής μεταβλητότητας
Σύγκριση δειγμάτων
• Τα παρακάτω δεδομένα παρουσιάζουν
τους πόντους των παικτών για δύο
ομάδες μπάσκετ.
• Οι ομάδες μπορούν να θεωρηθούν
ισάξιες;
Α Β
10 7
43 14
43 15
46 23
47 38
48 48
50 50
50 50
52 75
52 85
54 90
Σύγκριση δειγμάτων
Α Β
10 7
43 14
43 15
46 23
47 38
48 48
50 50
50 50
52 75
52 85
54 90
• XA = 45 XB=45
ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ
• Αντιπροσωπεύουν και
περιγράφουν με έναν αριθμό τη
μεταβλητότητα («άπλωμα») των
ποσοτικών δεδομένων μας.
• Η επιλογή της τιμής που θα
αντιπροσωπεύσει τα ποσοτικά
δεδομένα, μπορεί να γίνει με
διάφορους τρόπους. Ανάλογα με
τον τρόπο που υπολογίζεται αυτή η
αντιπροσωπευτική τιμή έχουμε
– Το εύρος
– την διακύμανση
– Την τυπική απόκλιση
Εύρος (Range)
• Συμβολίζεται με R
• Είναι το απλούστερο μέτρο διασποράς
και αντιπροσωπεύει τη διαφορά
μεταξύ της μεγαλύτερης και
μικρότερης τιμής.
Πλεονεκτήματα Μειονεκτήματα
απλότητα Περιγράφει μόνο τις
Εύκολος υπολογισμός ακραίες τιμές και
καθόλου τις υπόλοιπες
Ενδοτεταρτημοριακό
Εύρος (interquartile)
• Συμβολίζεται με Q3-Q1
• Είναι η διαφορά μεταξύ του τρίτου και
πρώτου τεταρτημορίου.
• Περιλαμβάνει το 50% των δεδομένων.
Διακύμανση ή
διασπορά (Variance)
• Συμβολίζεται με σ2 ή S2 ή Var(X)
• Είναι μια τιμή που εκφράζει την
«ανομοιογένεια» στα δεδομένα μας.
Πόσο πάνω κάτω απέχουν από τη
μέση τιμή τους
N n
( Xi ) 2
( Xi X ) 2
2 i 1
. .s 2
i 1
N n 1
Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Απαιτεί να βρούμε πρώτα
τη μέση τιμή
Δεν μετριέται με τις ίδιες
μονάδες μέτρησης που
μετρήθηκαν τα δεδομένα.
παράδειγμα
Χi Xi-X (Xi-X)2
(λεπτά
καθυστέρησης)
8 8-6=2 4
6 6-6=0 0
7 7-6=1 1
3 3-6=-3 9
σύνολο 14
• Συμβολίζεται με σ ή S
• Είναι μια τιμή που εκφράζει πόσο
απέχουν τα δεδομένα από τη μέση
τιμή τους και μετριέται με τις ίδιες
μονάδες μέτρησης των δεδομένων
2 ... ...s s2
Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Απαιτεί να βρούμε
Μετριέται με τις ίδιες πρώτα τη διακύμανση
μονάδες μέτρησης που
μετρήθηκαν τα δεδομένα.
Ιδιότητες τυπικής απόκλισης
1η Ιδιότητα: Η τυπική απόκλιση έχει πάντα θετική τιμή.
1 1
n
( Xi ) 2
n
0 0
Y β X
n n
X i
2
X i X
2
i 1 i 1
Συμβολίζεται με CV
Ημέρες άδειας
3, 4, 5, 2, 7, 3, 4, 5, 9, 8, 2, 1, 1, 3, 4, 4, 1, 5,
Ώρες 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70
Αρ.Εργ 2 9 24 31 22 13 3 3 3
Λύση για μισθούς
Xi fi fiXi ( -
fi Xi x)2
160 56 8960 34636,95
220 12 2640 14809,40
280 5 1400 45248,58
350 3 1050 81803,75
Αθροίσματα 76 14050 176498,68
1 176498,68
s2
n 1
fi ( Xi X ) 2
76 1
2353,32
s 2353,32 48,51
1 14050
X
n
fi X i
76
184.87
Λύση για ώρες
Χ fi Xi
( -
fi Xi x)2
25-30 2 27.5 551,12
30-35 9 32.5 1211,04
35-40 24 37.5 1045,44
40-45 31 42.5 79,36
45-50 22 47.5 254,32
50-55 13 52.5 917,28
55-60 3 57.5 538,68
60-65 3 62.5 1015,68
65-70 3 67.5 1642,68
Σύνολο 110 7255,60
fX i i
4855
X i 1
k
44.136 44.1
110
f
i 1
i
1 7255,60
s2
n 1
fi ( Xi X ) 2
110 1
66,56
s 66,56 8,16
άσκηση
Α 17 28 11 16 10
Β 23 19 24 20 18
Γ 25 36 5 38 28
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή ποσό που πληρώθηκε ανάλογα με
το φύλο ατόμου, σε ότι αφορά την διασπορά
Descriptives
Gender Statistic Std. Error
Amount spent Male Mean 195,2478 1,79391
95% Confidence Lower 191,7315
Interval for Mean Bound
Upper 198,7642
Bound
5% Trimmed Mean 175,2106
Median 140,8650
Variance 43251,662
Std. Deviation 207,97034
Minimum ,00
Maximum 1439,37
Range 1439,37
Interquartile Range 314,38
Skewness 1,211 ,021
Kurtosis 1,250 ,042
Female Mean 197,3038 1,85225
95% Confidence Lower 193,6732
Interval for Mean Bound
Upper 200,9345
Bound
5% Trimmed Mean 176,8384
Median 142,8800
Variance 44051,703
Std. Deviation 209,88498
Minimum ,00
Maximum 1321,55
Range 1321,55
Interquartile Range 308,77
Skewness 1,258 ,022
Kurtosis 1,406 ,043
Ασκήσεις για λύση
Στόχοι Ενότητας
✓ Μεταβλητές
✓ Συντελεστές Συσχέτισης
2 από 58
Μεταβλητές
Ανεξάρτητες Μεταβλητές
➢ Είναι σταθερές που ο ερευνητής χειρίζεται ανεξάρτητα από τι τις επηρεάζει, ή
προσδιορίζει. Αυτές καθορίζονται εκ των προτέρων.
➢ Για παράδειγμα εξετάζουμε μια στατιστική μονάδα (π.χ. τον φοιτητή)
3 από 58
Μεταβλητές
Εξαρτημένη Μεταβλητή
➢ Είναι η μεταβλητή που ερευνάται στη μελέτη. Σε ορισμένες περιπτώσεις είναι
το αποτέλεσμα μιας πειραματικής διαδικασίας.
➢ Η μεταβλητότητα στην εξαρτημένη μεταβλητή λογικά εξαρτάται από τις
συνθήκες που χειρίζεται ο ερευνητής στη μελέτη. Στις πιο πολλές μελέτες, οι
εξαρτημένες μεταβλητές είναι εκείνες που ο ερευνητής στοχεύει να
κατανοήσει, να εξηγήσει ή να προβλέψει. Αποτελούν εκείνο που ο ερευνητής
μετρά στα άτομα μετά την έκθεση τους στην ανεξάρτητη μεταβλητή.
4 από 58
Είδη Μεταβλητών
Ποιοτικές
θεωρούνται οι μεταβλητές που δεν μπορούν να εκφραστούν αριθμητικά αλλά
διακρίνονται σε συγκεκριμένες κατηγορίες ή ομάδες που ονομάζονται
διαβαθμίσεις ή κλάσεις ή ιδιότητες.
➢ στις ποιοτικές μεταβλητές δεν υπάρχουν κλίμακες μέτρησης.
➢ Οι τιμές των ποιοτικών μεταβλητών δεν δίδονται με αριθμούς αλλά με
διακριτικό είδος, για παράδειγμα το "φύλο" παίρνει τιμές άρρεν θήλυ, η
ομάδα αίματος παίρνει τιμές Α, Β, ΑΒ και Ο, κ.λπ..
5 από 58
Είδη Μεταβλητών
Ποιοτικές
Οι ποιοτικές μεταβλητές διακρίνονται σε
➢ Διατάξιμες μεταβλητές οι οποίες λαμβάνουν ως τιμές - έννοιες που
ιεραρχούνται (π.χ. διαγωγή μαθητή σε καλή, κοσμία, κοσμιωτάτη, ή η
βαθμίδα αξιωματικού: κατώτερος, ανώτερος, ανώτατος, ή δικαστικού:
πρωτοδίκης, εφέτης, αρεοπαγίτης, ή η κατάσταση υγείας: καλή, πολύ καλή
άριστη κ.λπ. και σε
➢ Μη- διατάξιμες ή κατηγορικές μεταβλητές, οι οποίες λαμβάνουν τιμές -
έννοιες που δεν ιεραρχούνται όπως το επάγγελμα, το φύλο, η υπηκοότητα,
το θρήσκευμα κ.λπ.
6 από 58
Είδη Μεταβλητών
Ποσοτικές
7 από 58
Είδη Μεταβλητών
Ποσοτικές
Οι ποσοτικές μεταβλητές διακρίνονται
➢ Οι διακριτές παίρνουν μόνο "μεμονωμένες" αριθμητικές τιμές, είναι
δηλαδή στοιχεία ενός συνόλου τα οποία μπορούν να αντιστοιχηθούν ένα
προς ένα με στοιχεία του συνόλου των θετικών ακέραιων αριθμών. Τέτοια
δεδομένα είναι π.χ. ο αριθμός των παιδιών σε μία οικογένεια, ο αριθμός
των δωματίων μιας κατοικίας κλπ.
➢ Οι συνεχείς μπορούν να πάρουν αριθμητικές τιμές που καλύπτουν
ολόκληρο διάστημα τιμών των πραγματικών αριθμών Π.χ. η ηλικία, η
διάρκεια μιας τηλεφωνικής συνδιάλεξης, η θερμοκρασία κλπ.
8 από 58
Σχέση Μεταβλητών
Έστω ότι έχουμε δύο ερωτήσεις Q1,Q2
9 από 58
Σχέση Μεταβλητών
Ανάλογα με το είδος των μεταβλητών έχουμε τις παρακάτω
περιπτώσεις
➢ Ποσοτική με Ποσοτική
➢ Ποιοτική με Ποσοτική
➢ Ποιοτική με Ποιοτική
10 από 58
Σχέση μεταξύ Μεταβλητών
Όταν γίνεται διερεύνηση μιας σχέσης μεταξύ δύο μεταβλητών
αρχικά θέλουμε να δώσουμε απαντήσεις στις παρακάτω
Ερωτήσεις
➢ Υπάρχει σχέση;
Συσχέτιση
✓ Πολλές φορές θέλουμε να συγκρίνουμε δυο μεταβλητές, (π.χ.
Υπάρχει σχέση μεταξύ των ποτών (μέσος όρος) που πίνει κάποιος
φοιτητής ή φοιτήτρια την εβδομάδα με το πόσο συχνά χάνει το μάθημα
της Ανάλυσης Δεδομένων εξαιτίας του πονοκεφάλου που έχει την επόμενη
μέρα;)
Συσχέτιση
Η Απλή Συσχέτιση εκφράζεται με έναν αριθμό, που ονομάζεται
Συντελεστής Συσχέτισης (Correlation Coefficient). Οι πιο γνωστοί
συντελεστές γραμμικής συσχέτισης είναι οι συντελεστές του
Pearson, του Spearman και του Kendall.
Η μηδενική και η εναλλακτική υπόθεση εδώ είναι οι εξής:
➢ Η0: ρ=0 ή δεν υπάρχει γραμμική συσχέτιση μεταξύ των δύο
μεταβλητών
➢ Η1: ρ≠0 ή υπάρχει γραμμική συσχέτιση μεταξύ των δύο
μεταβλητών
14 από 58
Συσχέτιση
Παρατηρήσεις
➢ Ο συντελεστής συσχέτισης του Pearson “χρειάζεται” την υπόθεση της
κανονικότητας των δεδομένων, σε αντίθεση με τους άλλους δύο που
δεν “χρειάζονται” την υπόθεση της κανονικότητας των δεδομένων.
➢ Βέβαια, για μεγάλα δείγματα, μεγέθους 30 παρατηρήσεων και πάνω και
όσο το μέγεθος του δείγματος μεγαλώνει η θεωρία μας λέει ότι οι τιμές
των συντελεστών “πλησιάζουν” η μία την άλλη.
➢ ο συντελεστής του Kendall μπορεί να χρησιμοποιηθεί και στην
περίπτωση που έχουμε κατηγορικές μεταβλητές οι οποίες όμως είναι
υποχρεωτικά σε κλίμακα διάταξης. Είναι δηλαδή διατακτικές
κατηγορικές μεταβλητές.
15 από 58
Συσχέτιση
Παρατηρήσεις
➢ Η κύρια διαφορά των συντελεστών είναι ότι ο συντελεστής του
Pearson υπολογίζεται με βάση τα δεδομένα, ενώ οι άλλοι δύο
υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων. Ειδικότερα,
ο συντελεστής του Spearman είναι ο συντελεστής του Pearson στην
ουσία υπολογισμένος για τις τάξεις μεγέθους των δεδομένων.
➢ Το γεγονός λοιπόν ότι οι συντελεστές του Spearman και του Kendall
υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων είναι που
επιτρέπει την ελευθερία ως προς τη μη ικανοποίηση της κανονικότητας
των μεταβλητών.
16 από 58
Συσχέτιση
Παρατηρήσεις
➢ Με το συντελεστή γραμμικής συσχέτισης ελέγχουμε αν σε ένα ζεύγος
μεταβλητών υπάρχει γραμμική συσχέτιση μόνο. Δηλαδή μπορεί να
υπάρχει συσχέτιση μεταξύ των δύο μεταβλητών, αλλά όχι γραμμικής
φύσεως. Σε αυτήν την περίπτωση αυτή η σχέση που συνδέει τις δύο
μεταβλητές δεν μπορεί να ανιχνευτεί με το συντελεστή γραμμικής
συσχέτισης.
➢ Οπότε προσοχή στην ερμηνεία που δίνουμε στο συντελεστή
συσχέτισης. Να υπενθυμίσουμε επίσης ότι η λογική με την οποία
απορρίπτουμε ή όχι μία υπόθεση είναι πάντα η ίδια. Αν το παρατηρηθέν
επίπεδο στατιστικής σημαντικότητας είναι μικρότερο του 0,05 η
υπόθεση απορρίπτεται. Στην αντίθετη περίπτωση δεν απορρίπτεται
17 από 58
Συσχέτιση
Παρατηρήσεις
➢ Ο συντελεστής Συσχέτισης είναι ένας αριθμός ανάμεσα στο -1 και το 1.
➢ Οι τιμές r = -1 και r =1 προκύπτουν όταν υπάρχει πλήρης γραμμική
σχέση μεταξύ των δύο μεταβλητών Χ και Υ. Όταν, δηλαδή, τα σημεία
του αντίστοιχου διαγράμματος διασποράς που ορίζεται από τα ζεύγη
των τιμών (xi,yi), βρίσκονται κατά μήκος μιας ευθείας γραμμής
Πλήρης θετική συσχέτιση r = 1 Πλήρης αρνητική συσχέτιση r = -1
Y
Y
X X
18 από 58
Συσχέτιση
Παρατηρήσεις
➢ Όταν ο συντελεστής είναι κοντά στο 0, δεν υπάρχει σχέση ή η σχέση
είναι πολύ μικρή. Δηλαδή όσο η σχέση μεταξύ των Χ και Y αποκλίνει
από την πλήρη γραμμικότητα, η τιμή του r τείνει να απομακρύνεται από
τις τιμές -1 και 1 και να πλησιάζει το 0.
➢ Όταν οι τιμές της Y τείνουν να αυξάνουν όσο αυξάνουν και οι
αντίστοιχες τιμές της X, η τιμή του r είναι θετική και οι μεταβλητές
χαρακτηρίζονται θετικά συσχετιζόμενες.
➢ Στην αντίστροφη περίπτωση, όπου οι τιμές της Y ελαττώνονται όσο οι
τιμές της X αυξάνουν, ο συντελεστής συσχέτισης r παίρνει αρνητικές
τιμές και οι δύο μεταβλητές χαρακτηρίζονται αρνητικά συσχετιζόμενες.
19 από 58
Συσχέτιση
Παρατηρήσεις
70 60
60 50
50 40
40
30
Θετική Συσχέτιση
30
20
20
10
10
0 0
(r > 0)
0 20 40 60 0 20 40 60
40
60
50
αυξάνει και το άλλο
30
40
30
20
20
10 10
0 0
0 20 40 60 0 20 40 60
r =0,41 r =0,15
20 από 58
Συσχέτιση
Παρατηρήσεις
Αρνητική Συσχέτιση
(r < 0)
r = -1 r = -0,83 όταν αυξάνει το ένα
60
70
χαρακτηριστικό
50
40
60
50
μειώνεται το άλλο
30
40
30
20
20
10 10
0 0
0 20 40 60 0 20 40 60
r = - 0,55 r = - 0,14
21 από 58
Συσχέτιση
Παρατηρήσεις
Συμπερασματικά :
22 από 58
Συσχέτιση
Προϋποθέσεις
➢ Γραμμικότητα.
➢ Κανονικότητα
➢ Συνέχεια
➢ Ανεξαρτησία των παρατηρήσεων (ατόμων)
Περιορισμοί
➢ Όταν οι μεταβλητές έχουν περιορισμένο εύρος (μειώνεται η τιμή του
συντελεστή)
➢ Όταν λείπουν πολλές παρατηρήσεις
➢ Όταν έχετε μικρά δείγματα, συνεπώς και μικρή δύναμη ανίχνευσης
στατιστικά σημαντικών σχέσεων, αλλά και λίγη αυτοπεποίθηση για εύρεση
της πραγματικής σχέσης
23 από 58
Συσχέτιση
Παράδειγμα Ι
Ώρες Ύπνου Διάθεση
Έχουμε δύο Ερωτήσεις Q1: “Πόσες ώρες κοιμήθηκες χθες” 7 4
και Q2: “Πόσο όμορφα αισθάνεσαι τώρα” σε κλίμακα από 5 2
8 7
0 «καθόλου καλά», 8 «Υπερβολικά καλά»” (αρχείο 6 2
6 3
lecture2_1.sav) 10 6
Θέλουμε να διερευνήσουμε το είδος σχέσης μεταξύ των δύο 7 5
5 3
μεταβλητών 8 8
9 8
7 5
9 7
5 3
6 4
7 4
24 από 58
Συσχέτιση
Παράδειγμα Ι
Αρχικά εξετάζουμε αν οι μεταβλητές ακολουθούν την κανονική κατανομή (κάνουμε και
έλεγχο ακραίων τιμών).
➢ Από το μενού επιλέγουμε Analyze → Descriptive Statistics → Explore
➢ Στην συνέχεια
➢ από την επιλογή Statistics τσεκάρουμε τις επιλογές Descriptives, Outlies,
Percentiles και ορίζουμε το Διάστημα Εμπιστοσύνης.
➢ από την επιλογή Plots τσεκάρουμε τις επιλογές Histogram, και Normality plots
with tests
25 από 58
Συσχέτιση
Παράδειγμα Ι
Από τα αποτελέσματα παρατηρούμε ότι δεν υπάρχουν ακραίες τιμές και ότι δεν μπορούμε να
απορρίψουμε την μηδενική υπόθεση. Επομένως οι μεταβλητές μας κατανέμονται κανονικά
και μπορούμε να χρησιμοποιήσουμε παραμετρικό τεστ.
Από την εκφώνηση παρατηρούμε την συνέχεια και την ανεξαρτησία των παρατηρήσεων
26 από 58
Συσχέτιση
Παράδειγμα Ι
Από το μενού επιλέγουμε Analyze → Correlate→
Bivariate
Στην θυρίδα διαλόγου που παρουσιάζεται
μεταφέρουμε τις δύο μεταβλητές υπό εξέταση στην
περιοχή Variables και εφόσον στο προηγούμενο βήμα
διαπιστώσαμε ότι οι μεταβλητές κατανέμονται
κανονικά επιλέγουμε σαν συντελεστή συσχέτισης
τον συντελεστή Pearson και εκτελούμε την ανάλυση
27 από 58
Συσχέτιση
Παράδειγμα Ι
Συντελεστής Συσχέτισης
P value
Ο βαθμός συσχέτισης είναι 0,849 ο οποίος δείχνει μια πολύ ισχυρή θετική σχέση μεταξύ
των δύο μεταβλητών.
Το p-value είναι μικρότερο από το 0,05 άρα μπορούμε να πούμε ότι σχέση αυτή είναι
στατιστικά σημαντική.
28 από 58
Συσχέτιση
Παράδειγμα ΙΙ
Σε ένα δείγμα 474 εργαζομένων θέλουμε να εξετάσουμε αν υπάρχει σχέση μεταξύ του
αρχικού (Salbegin) και του τωρινού μισθού (Salary) (αρχείο employee.sav)
Αρχικά εξετάζουμε αν οι μεταβλητές ακολουθούν την κανονική κατανομή.
➢ Από το μενού επιλέγουμε Analyze → Descriptive Statistics → Explore
➢ από την επιλογή Statistics τσεκάρουμε τις επιλογές Descriptives, Outlies,
Percentiles και ορίζουμε το Διάστημα Εμπιστοσύνης.
➢ από την επιλογή Plots τσεκάρουμε τις επιλογές Histogram, και Normality plots
with tests
29 από 58
Συσχέτιση
Παράδειγμα ΙΙ
30 από 58
Συσχέτιση
Παράδειγμα ΙI
Από το μενού επιλέγουμε Analyze → Correlate→
Bivariate
Στην θυρίδα διαλόγου που παρουσιάζεται
μεταφέρουμε τις δύο μεταβλητές υπό εξέταση στην
περιοχή Variables και εφόσον στο προηγούμενο βήμα
διαπιστώσαμε ότι οι μεταβλητές δεν κατανέμονται
κανονικά επιλέγουμε σαν συντελεστή συσχέτισης
τον συντελεστή Spearman και εκτελούμε την
ανάλυση
31 από 58
Συσχέτιση
Παράδειγμα ΙI
Συντελεστής Συσχέτισης
P value
Ο βαθμός συσχέτισης είναι 0,826 ο οποίος δείχνει μια πολύ ισχυρή θετική σχέση μεταξύ
αρχικού και τωρινού μισθού.
Το p-value είναι μικρότερο από το 0,05 άρα μπορούμε να πούμε ότι σχέση αυτή είναι
στατιστικά σημαντική.
32 από 58
Συσχέτιση
Άσκηση Ι
Βάρος Ύψος
Έχουμε στον διπλανό πίνακα το ύψος και το βάρος 15 58 170
60 172
φοιτητών (αρχείο lecture2_1.sav). 67 173
72 175
Διερευνήστε το είδος σχέσης μεταξύ των δύο μεταβλητών 65 172
81 175
73 171
74 174
73 174
68 171
70 173
75 175
78 176
80 177
79 176
33 από 58
Πιθανότητες
• Έννοια πιθανότητας
• Ορισμοί πιθανότητας
• Τρόπος υπολογισμού
• Πράξεις πιθανοτήτων
• Χρησιμότητα τους
«Πείραμα» Tύχης
• Ρίξιμο κέρματος
• Ρίξιμο ζαριού
• Επιλογή χαρτιού τράπουλας
• Τυχεροί αριθμοί joker
• Χρόνος δρομολογίου λεωφορείου από
κέντρο μέχρι το Πανεπιστήμιο
• Καιρός σήμερα το απόγευμα
• Φύλο νεογέννητου μωρού
• Πλήθος πελατών σε μια μέρα
• Βαθμός εξέτασης στο μάθημα
Δειγματικός χώρος
και ενδεχόμενα
• Ρίξιμο κέρματος {Κ , Γ} Γ
• Ρίξιμο ζαριού {1,2,3,4,5,6} 4
• Επιλογή χαρτιού {52 διαφορετικά Άσος κούπα
τράπουλας φύλλα}
• Τυχεροί αριθμοί joker {1…49} 6-16-26-36-46-49
• Χρόνος δρομολογίου
λεωφορείου από {8 λεπτά έως 28 15,5 λεπτά
κέντρο μέχρι το λεπτά}
Πανεπιστήμιο
• Καιρός σήμερα το {ήλιος, βροχή,
απόγευμα ήλιος
αέρας, συνεφιά,
…)
• Φύλο νεογέννητου {αγόρι, κορίτσι} αγόρι
μωρού
• Πλήθος πελατών σε {0,1,2,3,4,5, …..} 12
μια μέρα
• Βαθμός εξέτασης στο 7,2
μάθημα • {0 έως 10}
Πιθανότητα ενδεχομένου
Ρίξιμο κέρματος Ισοπίθανο Ρ(Γ)=
• Κλασσικός ορισμός
Ρ(Α)= ευνοϊκές περιπτώσεις Α
πλήθος δυνατών περιπτώσεων Ω
• Στατιστικός ορισμός
Ρ(Α)= εμφανίσεις Α
πλήθος επαναλήψεων (μεγάλο)
• Αξιωματικός ορισμός
Ρ(Α) = 0,3 εξ’ ορισμού
(έτσι πιστεύουμε)
Κλασσικός ορισμός
Παράδειγμα
Πιθανότητα να φέρω ζυγό αριθμό
ρίχνοντας ένα ζάρι
Πλήθος ευνοϊκών περιπτώσεων 3 =0,5
Πλήθος δυνατών περιπτώσεων 6
Εφαρμογή Ορισμών
Πιθανοτήτων
• Κλασσικός ορισμός
Μόνο για ισοπίθανα πειράματα με
πεπερασμένο Ω
• Στατιστικός ορισμός
Και για ισοπίθανα αλλά κυρίως για μη
ισοπίθανα πειράματα
• Αξιωματικός ορισμός
Ειδικές μαθηματικές περιπτώσεις
Στατιστικός ορισμός
• Χρησιμότητα στατιστικών
παρατηρήσεων για προβλέψεις.
Στατιστικός ορισμός
Πλήθος 95 1,00
ημερών
Ιδιότητες Πιθανότητας
• Ένωση Α U Β
να συμβεί ή το Α ή το Β
• Τομή Α∩Β
να συμβεί και το Α και το Β
• Συμπλήρωμα Α’
Να μη συμβεί το Α
Πράξεις πιθανοτήτων
• Ένωση Α U Β
Ρ(Α U Β)=Ρ(Α)+Ρ(Β)-Ρ(Α∩Β)
• Τομή Α∩Β
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β) (ανεξάρτητα ΑΒ)
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β|Α) (Β εξαρτάται από Α)
• Συμπλήρωμα Α’
Ρ(Α’)=1-Ρ(Α)
Υπό συνθήκη
πιθανότητα
0 0,09
1 0,18
2 0,25
3 0,20
4 0,15
5 0,13
ΠΙΣΤΩΤΙΚΗ ΧΡΕΩΣΤΙΚΗ
ΜΕΤΡΗΤΑ ΚΑΡΤΑ ΚΑΡΤΑ
<30 5% 4% 4%
30-150 3% 22% 17%
>150 9% 24% 12%
• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ
• α) Ρ(2Κ ακριβώς) = ΕΥΝΟΙΚΕΣ/ΔΥΝΑΤΕΣ= 3/8
• β) Ρ (2Κ το πολύ) =Ρ (όχι 3Κ)= 1-1/8=7/8
• γ) Ρ (Κ την πρωτη φορά)=4/8=50%
• δ) Ρ(ΓΓΓ)=1/8
ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να
κερδίσουμε κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.
α) Ποια η πιθανότητα να κερδίσουμε ακριβώς 2 φορές;
β) Ποια πιθανότητα να κερδίσουμε το πολύ 2 φορές;
γ) Ποια η πιθανότητα να κερδίσουμε την πρώτη φορά;
• Κλασσικός ορισμός
Μόνο για ισοπίθανα πειράματα με
πεπερασμένο Ω
• Στατιστικός ορισμός
Και για ισοπίθανα αλλά κυρίως για μη
ισοπίθανα πειράματα
• Αξιωματικός ορισμός
Ειδικές μαθηματικές περιπτώσεις
Στατιστικός ορισμός
• Χρησιμότητα στατιστικών
παρατηρήσεων για προβλέψεις.
Ιδιότητες Πιθανότητας
• Ένωση Α U Β
να συμβεί ή το Α ή το Β
• Τομή Α∩Β
να συμβεί και το Α και το Β
• Συμπλήρωμα Α’
Να μη συμβεί το Α
Πράξεις πιθανοτήτων
• Ένωση Α U Β
Ρ(Α U Β)=Ρ(Α)+Ρ(Β)-Ρ(Α∩Β)
• Τομή Α∩Β
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β) (ανεξάρτητα ΑΒ)
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β|Α) (Β εξαρτάται από Α)
• Συμπλήρωμα Α’
Ρ(Α’)=1-Ρ(Α)
• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ
• δ) Ρ(ΓΓΓ)=1/8
ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να κερδίσουμε
κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω του πειράματος.
α) Ποια η πιθανότητα να κερδίσουμε ακριβώς 2 φορές;
β) Ποια πιθανότητα να κερδίσουμε το πολύ 2 φορές;
γ) Ποια η πιθανότητα να κερδίσουμε την πρώτη φορά;
Χ Κ ΚΧΚ
Χ ΚΧΧ
• Χ Κ Κ ΧΚΚ
• Χ ΧΚΧ
• Χ Κ ΧΧΚ
• Χ ΧΧΧ
• α) Ρ(2Κ ακριβώς) =
Χ Κ ΚΧΚ 0,3*0,7*0,3=0,063
Χ ΚΧΧ 0,3*0,7*0,7=0,147
• Χ Κ Κ ΧΚΚ 0,7*0,3*0,3=0,063
• Χ ΧΚΧ 0,7*0,3*0,7=0,147
• Χ Κ ΧΧΚ 0,7*0,7*0,3=0,147
• Χ ΧΧΧ 0,7*0,7*0,7=0,343
Ανδρας 80 70 150
Γυναίκα 40 210 250
σύνολο 120 280 400
α) Ποια η πιθανότητα να είναι γυναίκα;
Ρ(Γ)= 250/400
Λύση
Λύση
Ρ(ΚΚ)= Ρ(Κ πρώτη και Κ δεύτερη )= Ρ(Κ πρώτη) *Ρ(Κ δεύτερη) = 4/10
* 3/9= 12/90=0,133=13,3%
Ρ(ΧΧ)= Ρ(Χ πρώτη και Χ δεύτερη )= Ρ(Χ πρώτη) *Ρ(Χ δεύτερη) = 6/10
* 5/9= 30/90= 0,333=33,3%
Πλήθος πιθανότητα
μετοχων Κ
0 33,3%
1 53,3%
2 13,3%
ΑΣΚΗΣΕΙΣ
• Ρίχνουμε ένα κέρμα 3 φορές. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.
Δειγματικός χώρος
Ω={ΚΚΚ, ΚΚΓ, ΚΓΚ, ΚΓΓ,ΓΚΚ,ΓΚΓ,ΓΓΚ,ΓΓΓ}
Διαγραμματικά μπορεί να απεικονισθεί το ρίξιμο 3 φορές:
αντίστοιχο γεγονός του Ω
• Κ Κ ΚΚΚ
• Κ Γ ΚΚΓ
Γ Κ ΚΓΚ
Γ ΚΓΓ
• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ
• Χ Κ Κ ΧΚΚ 0,7*0,3*0,3=0,063
• Χ ΧΚΧ 0,7*0,3*0,7=0,147
• Χ Κ ΧΧΚ 0,7*0,7*0,3=0,147
• Χ ΧΧΧ 0,7*0,7*0,7=0,343
• Έννοια
• Ορισμοί
• Τρόπος υπολογισμού
• Kατανομή πιθανότητας
• Ασκήσεις
Έννοια τυχαίας
μεταβλητής
• Κατά τον υπολογισμό πιθανοτήτων,
συχνά συμβαίνει να μετρούμε πόσες
φορές εμφανίζονται κάποια ενδεχόμενα
που μας ενδιαφέρουν. Μετρούμε δηλαδή
κάποιο πλήθος ή κάποια ποσότητα.
– Πχ. Πλήθος φορών που φέρνουμε Κεφαλή αν
ρίξουμε ένα κέρμα 10 φορές.
– Άθροισμα ενδείξεων αν ρίξουμε δύο ζάρια.
– Πλήθος δένδρων σε μια δενδροφυτεία που
ξεπερνούν τα 5 μέτρα
– Χρήματα που θα κερδίσω αν πετύχω το
λαχείο.
Έννοια τυχαίας
μεταβλητής
• Συμβολίζουμε τη μετρούμενη ποσότητα
που μας ενδιαφέρει με ένα κεφαλαίο
λατινικό γράμμα και την ονομάζουμε
τυχαία μεταβλητή,
• για να τη διαχωρίσουμε από μια απλή
μεταβλητή.
• Η τυχαία μεταβλητή ξεχωρίζει από μια
άλλη μεταβλητή χάρη στο γεγονός ότι οι
τιμές της τυχαίας μεταβλητής
συνοδεύονται από μια πιθανότητα.
• Υπολογίζεται με
– Διακριτή τ.μ. Ε(Χ)= Σ χ Ρ(χ) άθροισμα
τιμής επί πιθανότητα τιμής
– Συνεχής τ.μ. Ε(Χ)=xf(x)dx
Διασπορά τυχαίας
μεταβλητής
• Αντίστοιχη της διακύμανσης
• Εκφράζει την τιμή πάνω-κάτω
από την Ε(Χ).
• Συμβολίζεται με Var(Χ)
• Υπολογίζεται με
– Διακριτή τ.μ
Var(Χ)= Σ(χ-E(X))2 Ρ(χ)
– Συνεχής τ.μ.
Ε(Χ)= (χ-E(X))2 f(x)dx
Παράδειγμα
σύνολο 1
Παράδειγμα
0 0,25
1 0,50
2 0,25
σύνολο 1
Δειγματικός χώρος
Ω={AAA, AAΚ, AΚA, AKΚ,KAA,KAK,ΚKA,KKK}
Διαγραμματικά μπορεί να απεικονισθεί :
αντίστοιχο γεγονός του Ω
• A A AAA
• A K AAK
K A AΚA Πλήθος πιθανότητα
K AKΚ Aγοριών Α
• K A A ΚAA 0 1/8=12,5%
• K ΚAK 1 3/8=37,5%
• K A KΚA
2 3/8=37,5%
• K KKK
3 1/8=12,5%
Πλήθος Κ πιθανότητα
0 11,4%
1 51,4%
2 34,3%
3 2,9%
ΑΣΚΗΣΕΙΣ
2. Σε ένα δοχείο υπάρχουν 3 κόκκινες και 4 πράσινες μπάλες.
Παίρνουμε ταυτόχρονα 3 μπάλες και εξετάζουμε το χρώμα
τους. Να γράψετε το δειγματικό χώρο του πειράματος.
Αν σε κάθε κόκκινη μπάλα χάνουμε 5 ευρώ ενώ σε κάθε
πράσινη κερδίζουμε 10 ευρώ,
Ορίστε την τυχαία μεταβλητή «κέρδος από τις μπάλες» και
υπολογίστε την κατανομή πιθανότητας, και την αναμενόμενη
τιμή της.
Λύση
Οι πιθανότητες του πίνακα είναι ίδιες για το πλήθος των κόκκινων
που επιλέγονται αλλά οι τιμές του κέρδους υπολογίζονται
στον παρακάτω πίνακα με την αντιστοιχία:
Κέρδος από Κ -5ευρώ και κέρδος από Π +10 ευρώ
• Χ Κ Κ ΧΚΚ (1-ρ)*ρ*ρ
• Χ ΧΚΧ (1-ρ)*ρ*(1-ρ)
• Χ Κ ΧΧΚ (1-ρ)*(1-ρ)*ρ
• Χ ΧΧΧ (1-ρ)*(1-ρ)*(1-ρ)