You are on page 1of 253

ΣΤΑΤΙΣΤΙΚΗ

ΕΠΙΧΕΙΡΗΣΕΩΝ
ΦΛΩΡΟΥ ΓΙΑΝΝΟΥΛΑ

ΤΕΙ Ανατολικής Μακεδονίας και Θράκης

• Χρήσεις Στατιστικής
• Έννοια Στατιστικής

• Ορισμοί
• Παρουσίαση δεδομένων
• Πίνακες συχνοτήτων
Χρήσεις Στατιστικής

• Έρευνα αγοράς
• Είσοδος νέου προϊόντος
• Πωλήσεις
• Ποιοτικός έλεγχος για παραλαβή προϊόντων
• Έλεγχος Παραγωγής
• Οικονομικές Αναλύσεις
• Έλεγχος από ορκωτό λογιστή ή εφορία
• Εύρεση παραγόντων που επηρεάζουν ορισμένους
παράγοντες
(π.χ. ζήτηση, πληθωρισμός κλπ)
• Προβλέψεις
Στατιστική ανάλυση

Για τη μελέτη ενός φαινομένου και


προκειμένου να λάβουμε
σημαντικές αποφάσεις,
χρειάζεται να προβούμε σε μια
πρώτη στατιστική ανάλυση.
Στατιστική και
«στατιστικές»

Μέθοδοι-δραστηριότητες Παρουσίαση
που αφορούν, έλεγχο, δεδομένων -
παρουσίαση απεικόνιση παρατηρήσεων
δεδομένων- παρατηρήσεων

Παρουσίαση
δεδομένων -
παρατηρήσεων

Στατιστική
Στατιστικές
Έννοια Στατιστικής
Συλλογή δεδομένων –
πληροφοριών
αριθμητικών ή
λεκτικών Καταγραφή,
ανάλυση,
επεξεργασία

Συμπεράσματα
για λήψη
αποφάσεων

• Στατιστική είναι η επιστήμη που έχει ως


σκοπό τη συστηματική συλλογή
πληροφοριών, την καταγραφή, ανάλυση των
πληροφοριών με σκοπό την ευρύτερη γνώση
του φαινομένου και την εξαγωγή χρήσιμων
συμπερασμάτων
Κλάδοι της Στατιστικής
• Περιγραφική Στατιστική
Ασχολείται με διάφορες μεθόδους για την οργάνωση,
ταξινόμηση, σύνοψη των πληροφοριών.
Σκοποί:
 Η περιληπτική παρουσίαση δεδομένων ώστε να προκύπτουν
άμεσα τα χαρακτηριστικά τους.
 Ο υπολογισμός διαφόρων παραμέτρων οι οποίες
μεμονωμένα ή σε συνδυασμό αντικαθιστούν (παραμετρούν)
ένα σύνολο δεδομένων χωρίς να χάνονται ουσιαστικές
πληροφορίες τους.

• Επαγωγική (συμπερασματική) Στατιστική


Ασχολείται με διάφορες μεθόδους που χρησιμοποιούν τα
αποτελέσματα της Περιγραφικής Στατιστικής,
προκειμένου να εξαχθούν συμπεράσματα.
Σκοποί:
 Η εξαγωγή συμπερασμάτων προκειμένου να λάβουμε
αποφάσεις για μελλοντικές ενέργειες.
 Η γενίκευση των αποτελεσμάτων και η εφαρμογή τους σε
άλλες ομοειδείς περιπτώσεις.
Ορισμοί
• Δεδομένα
Είναι οποιαδήποτε πληροφορία έχουμε στη διάθεσή μας
για κάποιο φαινόμενο που μελετάμε.

• Στατιστική έρευνα
Είναι οποιοσδήποτε τρόπος χρησιμοποιείται για να
συλλέξουμε δεδομένα. Κάθε στατιστική έρευνα
αναφέρεται σε ένα πληθυσμό.

• Πληθυσμός
Ονομάζεται το σύνολο ατόμων ή αντικειμένων, στα οποία
αναφέρονται οι παρατηρήσεις μας. Τα στοιχεία του συνόλου
αυτού ονομάζονται στατιστικές μονάδες ή άτομα ή
αντικείμενα.

• Μεταβλητές
Ονομάζονται οι ιδιότητες των στατιστικών μονάδων.

• Τιμές μεταβλητής
Ονομάζονται οι αριθμοί ή οι εκφράσεις, που αντιπροσωπεύουν
τις καταστάσεις μιας μεταβλητής.

• Δείγμα
Ονομάζεται ένα μέρος του μελετώμενου πληθυσμού.
Είδη μεταβλητών

• Διαχωρίζονται ανάλογα με το είδος των


τιμών τους σε:

Ποσοτικές Ποιοτικές

Οι τιμές τους είναι Οι τιμές τους είναι


αριθμοί μετρούμενοι λέξεις ή εκφράσεις
σε μονάδες μέτρησης (κάποιες φορές
κωδικοποιούνται)
Ποιοτικές μεταβλητές

• Διαχωρίζονται ανάλογα με το είδος των


τιμών τους σε:

Κατηγορικές Διάταξης
(nomianal) (ordinal)

Οι τιμές τους είναι Οι τιμές τους


κατηγορίες μπορούν να
διαταχθούν από τη
μικρότερη στη
μεγαλύτερη
Ποσοτικές μεταβλητές

• Διαχωρίζονται ανάλογα με το είδος των


τιμών τους σε:

συνεχείς διακριτές
(scale) (discretes)

Οι τιμές τους μπορεί να Οι τιμές τους


είναι δεκαδικοί αριθμοί είναι μόνο
ακέραιοι αριθμοί

Διαστήματος αναλογίας
(interval) (ratio)
Συμβολισμός
μεταβλητών
• Κάθε μεταβλητή συμβολίζεται με
ένα κεφαλαίο γράμμα συνήθως
Χ, Υ, Ζ…
• Οι τιμές τους συμβολίζονται με
μικρά γράμματα με δείκτες χ1, χ2,
χi ….
Άσκηση
• Τι τιμές παίρνουν οι παρακάτω
μεταβλητές και τι είδους είναι;

• Βάρος
• Χρώμα ματιών
• Κόμμα που ψηφίζω
• Μέρες άδειας
• Χρόνος καθυστέρησης
• Πλήθος παιδιών
• Τετραγωνικά κατοικίας
• Δωμάτια κατοικίας
• Ηλικία
• Γνώμη για πόλεμο
Πίνακας συχνοτήτων
τιμές ΜΕΤΑΒΛΗΤΗΣ ΠΟΙΟΤΙΚΗΣ

κίτρινο
Πίνακας συχνοτήτων
κόκκινο

πράσινο τιμές συχνότητες

μαύρο κίτρινο 3

μαύρο κόκκινο 2

κίτρινο μαύρο 2

κόκκινο πράσινο 3

πράσινο Σύνολο 10

πράσινο

κίτρινο
ΑΣΚΗΣΕΙΣ
1. Ρωτήσαμε κάποιους ανθρώπους πόσα παιδιά έχουν και
πήραμε τις ακόλουθες απαντήσεις.

2,8,0,2,3,1,4,0,2,1,4,6,3,2,1,3,2,4,1,1,2,0,2

Δημιουργείστε τον πίνακα συχνοτήτων.

2. Οι βαθμοί στο μάθημα Στατιστικής ήταν:


3, 4, 3, 2, 6, 5, 7, 4, 5, 6, 8, 4, 3, 5, 6, 1, 2, 9, 6, 7, 3, 2,
1, 5, 6, 5, 3, 7, 8, 10, 1, 7, 6, 5, 3, 2, 5, 3, 6, 5

• α) Δημιουργείστε τον πίνακα συχνοτήτων.


β) Πόσοι φοιτητές πέρασαν και πόσοι κόπηκαν;
γ) Τι ποσοστό φοιτητών πέρασε το μαθημα;

3. Μετρήσαμε τα μόρια υποψηφίων για την κάλυψη δύο


θέσεων και καταγράψαμε:

30 45 56 38 75 63 47 23 49 53 71 38 59 61 52 43
33 28 84 68 37 42 55 44 39 72 68 44 63 50

α) Ποια ήταν η μεγαλύτερη τιμή μορίων και ποια η ελάχιστη;


β) Πάνω από πόσα μόρια ο υποψήφιος θα θεωρηθεί
επιτυχών;
γ) Το 10% των καλύτερων υποψηφίων πάνω από πόσα μόρια
είχε;
δ) Το 10% των χειρότερων υποψηφίων κάτω από πόσα μόρια
είχε;
ε) Ποιο πλήθος μορίων διαχωρίζει τους υποψηφίους στη
μέση;
Περιγραφή συνόλου δεδομένων
(Περιγραφική Στατιστική)

Δρ. Στυλιανού Τάσος


ΔΙΔΑΣΚΩΝ
Email: tasosstylianou@gmail.com

Ορισμός - Αντικείμενο Στατιστικής

Στατιστική είναι ο κλάδος των εφαρμοσμένων επιστημών που έχει ως αντικείμενο


τη συλλογή, οργάνωση, περιγραφή και συνοπτική παρουσίαση διαφόρων
πληροφοριών (δεδομένων) και ακόμη την διερεύνηση και ανάλυση των
πληροφοριών αυτών με σκοπό την εξαγωγή συμπερασμάτων.

Η ονομασία Στατιστική προέρχεται από τη λατινική λέξη status που σημαίνει


κράτος γιατί στην αρχική της μορφή η στατιστική περιλάμβανε τη συλλογή
στοιχείων (π.χ. έκταση, πληθυσμός, παραγωγή) για τις ανάγκες του κράτους.

Περιγραφική στατιστική (descriptive statistics). Το τμήμα της στατιστικής που


ασχολείται με την συλλογή, οργάνωση, περιγραφή και συνοπτική παρουσίαση των
δεδομένων.

Επαγωγική στατιστική (inductive statistics). Το τμήμα της στατιστικής που


ασχολείται με την ανάλυση και εξαγωγή συμπερασμάτων από τα δεδομένα.
Μεταβλητές
Οι ιδιότητες των στατιστικών μονάδων ενός πληθυσμού με την μελέτη των οποίων
ασχολείται η στατιστική ονομάζονται μεταβλητές.

Χωρίζονται σε 2 βασικές κατηγορίες, ποσοτικές και ποιοτικές.

ΜΕΤΑΒΛΗΤΕΣ
(VARIABLES)

ΠΟΣΟΤΙΚΕΣ ΠΟΙΟΤΙΚΕΣ
(Quantitative) (Qualitative)

ΔΙΑΚΡΙΤΕΣ ΣΥΝΕΧΕΙΣ ΟΝΟΜΑΣΤΙΚΕ ΔΙΑΤΑΞΙΜΕΣ


(Continuous) Σ
(Discrete) (Ordinal)
(Nominal)
- Διαστήματος (Interval)
- Αναλογίας (Ratio)

Μεταβλητές

1) Ποσοτικές μεταβλητές (Numerical ή Quantitative variables)


Ονομάζονται οι μεταβλητές που επιδέχονται μέτρηση σε αριθμητική κλίμακα και οι
τιμές τους είναι αριθμοί (αριθμητικές παρατηρήσεις) αναφερόμενοι σε συγκεκριμένες
μονάδες. Παραδείγματα είναι οι μεταβλητές ύψος, βάρος, ηλικία, απόσταση, τιμές
σακχάρου, χολιστερίνης κ.α.

Διακρίνονται σε ασυνεχείς και συνεχείς.

1Α) Ασυνεχείς ή Διακριτές (Discrete) είναι οι μεταβλητές που μπορούν να λάβουν


πεπερασμένο ή άπειρο αλλά ακέραιο εύρος τιμών (π.χ. αριθμός φοιτητών, αριθμός
παιδιών οικογένειας, αριθμός επισκέψεων σε ένα ιατρό, αριθμός επιβατών).

1Β) Συνεχείς (Continuous) είναι οι μεταβλητές που μπορούν να λάβουν


οποιαδήποτε αριθμητική τιμή μέσα σε ένα διάστημα τιμών (π.χ. βάρος, ύψος,
θερμοκρασία, πίεση, ηλικία ασθενούς).
Μεταβλητές

1) Ποσοτικές μεταβλητές (Numerical ή Quantitative variables)

Οι Συνεχείς ποσοτικές μεταβλητές χωρίζονται στις κατηγορίες διαστήματος και


αναλογίας (λόγου).

1Β1) Διαστήματος (Interval)


Είναι μια διατεταγμένη κλίμακα στην οποία η διαφορά μεταξύ δύο τιμών έχει έννοια
(π.χ. εάν οι βαθμοί δύο φοιτητών είναι 9 και 5 τότε έχει νόημα η διαφορά 4
μονάδων μεταξύ των βαθμών των δύο φοιτητών).

1Β2) Αναλογίας ή Λόγου (Ratio)


Είναι μια διατεταγμένη κλίμακα στην οποία πέρα από το ότι οι διαφορές τιμών
έχουν νόημα και οι λόγοι των δύο τιμών να έχουν νόημα (π.χ. αν οι τιμές της
συστολικής πίεσης είναι 12 είναι διπλάσιες της διαστολικής που είναι 6).

Μεταβλητές
2) Ποιοτικές μεταβλητές (Qualitative variables)
Ονομάζονται οι μεταβλητές που δεν επιδέχονται μέτρηση και οι τιμές τους αποτελούν
ένα σύνολο καλά ορισμένων κατηγοριών (κατηγορικές παρατηρήσεις όπως φύλο,
χρώμα ματιών, οικογενειακή κατάσταση, επάγγελμα). Διακρίνονται σε:
2A) Κατηγορικές (Μη Διατάξιμες) ή Ονομαστικές μεταβλητές (Nominal)
Μη διατάξιμες (Ονομαστικές) ονομάζονται οι μεταβλητές που δεν παρέχουν τη
δυνατότητα διάταξης αλλά με βάση τα χαρακτηριστικά που εκφράζουν οι τιμές τους
επιτρέπουν απλά και μόνο τη διάκριση ορισμένων κατηγοριών (π.χ. οικογενειακή
κατάσταση (ελεύθερος – παντρεμένος – διαζευγμένος - χήρος)). Ειδική κατηγορία
ονομαστικής μεταβλητής αποτελεί η Διχοτόμος (Dichotomous) όπου έχει μόνο δύο
κατηγορίες ή επίπεδα (π.χ. φύλο (άνδρας-γυναίκα)).
2B) Διατάξιμες ή Ιεράρχησης (Ordinal)
Διατάξιμες ονομάζονται οι μεταβλητές που δίνουν τη δυνατότητα στον ερευνητή να
διατάξει και να διαβαθμίσει τις κατηγορίες που προκύπτουν από τις τιμές [π.χ.
επίπεδα εκπαίδευσης, γνώμη καταναλωτή (Καθόλου, Λίγο, Αρκετά, Πολύ, Πάρα Πολύ)].
Επιλογή στατιστικών σύνοψης των δεδομένων

Μεταβλητές

Ανεξάρτητες & Εξαρτημένες μεταβλητές


Ανεξάρτητη μεταβλητή (Independent variable)
- H μεταβλητή που θεωρούμε ότι συνιστά το αίτιο μιας επίδρασης
Οι τιμές που παίρνει δεν εξαρτώνται από άλλες μεταβλητές

Εξαρτημένη μεταβλητή (Dependent variable)


- Η μεταβλητή που θεωρούμε ότι συνιστά το αποτέλεσμα.
- H μεταβλητή στην οποία θεωρείται ότι επιδρά η ανεξάρτητη.

Εξαρτημένες λοιπόν είναι οι μεταβλητές που βρίσκονται υπό διερεύνηση, βάση της
επίδρασης που υφίστανται από μια άλλη (ανεξάρτητη) μεταβλητή
Παράδειγμα: Η επίδραση της σωματικής άσκησης σε ώρες (ανεξάρτητη μεταβλητή)
στην επίδοση των μαθητών (εξαρτημένη μεταβλητή).
Αριθμητικά Περιγραφικά Μέτρα
9

Χρησιμοποιούνται για συνοπτική περιγραφή ποσοτικών δεδομένων

Περιγραφικά Μέτρα
10

Τα περιγραφικά μέτρα χωρίζονται σε 2 μεγάλες κατηγορίες:

1. Μέτρα Κεντρικής τάσης & Μέτρα θέσης


Αριθμητικά μέτρα που περιγράφουν τη θέση της κατανομής απ’ όπου
προέρχονται τα δεδομένα (αφορούν τη σχετική θέση των παρατηρήσεων).

2. Μέτρα Διασποράς ή Μεταβλητότητας


Μας δίνουν μια εικόνα για το πόσο μεταβλητότητα υπάρχει στα δεδομένα
μας.
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης

1.1. Μέτρα Κεντρικής τάσης

Τα κυριότερα μέτρα Κεντρικής τάσης της κατανομής είναι:


 Μέση τιμή ή Μέσος όρος ή Αριθμητικός μέσος (Mean)
 Διάμεσος (Median)
 Επικρατούσα τιμή ή Κορυφή (Mode)

Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
12
1.1.1. Μέση τιμή / Αριθμητικός μέσος (Mean)
• Είναι το πηλίκο του αθροίσματος των τιμών των παρατηρήσεων του δείγματος προς το
πλήθος των παρατηρήσεων.
• Αποτελεί αντιπροσωπευτικό μέτρο τάσης της κατανομής των δεδομένων στην
περίπτωση συμμετρικών κατανομών.
• Επηρεάζεται πολύ από ακραίες (μεγάλες ή μικρές) τιμές στα δεδομένα όπου έχει την
τάση να ακολουθεί τις ουρές της κατανομής (αριστερά ή δεξιά).
• Προτιμάται να αποφεύγεται η χρήση της όταν τα δεδομένα έχουν έντονη ασύμμετρη
κατανομή.
• Υπολογίζεται από όλες τις τιμές.
• Δεν μπορεί να υπολογιστεί για ποιοτικά δεδομένα.
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
13
1.1.2. Διάμεσος (Median)
• Η κεντρική τιμή των δεδομένων, κάτω από την οποία βρίσκεται το 50% των
παρατηρήσεων και πάνω βρίσκεται το άλλο 50% των παρατηρήσεων.
• Μπορεί να υπολογιστεί αν οι παρατηρήσεις διαταχθούν σε αύξουσα σειρά.
• Αν το πλήθος των παρατηρήσεων είναι περιττός αριθμός, είναι η κεντρική (μεσαία)
παρατήρηση (n+1)/2.

• Αν είναι άρτιος, είναι η μέση τιμή των δύο κεντρικών (μεσαίων) παρατηρήσεων n/2 και
(n/2) +1.

• Δεν επηρεάζεται από ακραίες τιμές ή την κυρτότητα της κατανομής


• Μπορεί να χρησιμοποιηθεί σε διατακτικά ή ιεραρχικά δεδομένα, δεδομένα διαστήματος και
δεδομένα λόγου.
• Δεν υπολογίζεται για κατηγορικά (ονομαστικά) δεδομένα, καθώς αυτά δεν μπορούν να έχουν
αριθμητική διάταξη

Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης

Σύγκριση Μέσης τιμής και Διαμέσου.

Μέση Τιμή Διάμεσος


Ευαίσθητη στην επίδραση ακραίων Όχι ευαίσθητη στην επίδραση ακραίων
τιμών (ειδικά σε μικρά σύνολα τιμών.
δεδομένων)
Λιγότερο αντιπροσωπευτική ως Περισσότερο αντιπροσωπευτική ως
“τυπική τιμή” για στρεβλές κατανομές “τυπική τιμή” για στρεβλές κατανομές
με μια μόνο επικρατούσα τιμή. με μια μόνο επικρατούσα τιμή
Χρήσιμη για συμπερασματολογία που Όχι χρήσιμη για συμπερασματολογία
αναφέρεται στο άθροισμα των τιμών που αναφέρεται στο άθροισμα των
του πληθυσμού. τιμών του πληθυσμού.
Ευκολότερη για να εργαστούμε με αυτή Δύσκολο να εργαστούμε με αυτή
θεωρητικά θεωρητικά.
Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
15
1.1.3. Επικρατούσα τιμή ή Κορυφή (Mode)
• Είναι η τιμή που εμφανίζεται πιο συχνά στο σύνολο των δεδομένων (η παρατήρηση με
τη μεγαλύτερη συχνότητα).
• Δεν υπολογίζεται από όλες τις τιμές.
• Δεν επηρεάζεται από ακραίες παρατηρήσεις.
• Υπολογίζεται και έχει αξία για ποιοτικά ονομαστικά (κατηγορικά) δεδομένα.
• Για τον υπολογισμό της επικρατούσας τιμής τοποθετούμε τα δεδομένα σε αύξουσα
σειρά, μετράτε πόσες φορές εμφανίζεται κάθε τιμή και η τιμή που εμφανίζεται τις
περισσότερες φορές είναι η επικρατούσα.
• Μπορεί να εμφανιστούν περισσότερες από μία επικρατούσες τιμές

Περιγραφικά Μέτρα
1.1. Μέτρα Κεντρικής τάσης
Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης

1.2. Μέτρα Θέσης


Ως μέτρα Θέσης της κατανομής ορίζονται τα Ποσοστημόρια ή
p-ποσοστιαία σημεία.
Διακρίνονται συνήθως σε:
 Εκατοστημόρια (Percentiles)
 Τεταρτημόρια (Quartiles)

Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης

1.2.1. Εκατοστημόρια (Percentiles)


• Τα εκατοστημόρια είναι 99 τιμές που χωρίζουν τα δεδομένα (όταν αυτά έχουν
διαταχθεί σε αύξουσα σειρά) σε 100 μέρη με ίση συχνότητα 1/100 (1%) των
παρατηρήσεων στο καθένα.
• Χρησιμοποιούνται για να εξετάσουμε τα άκρα της κατανομής. Το P10 & P25 για το
αριστερό άκρο και το P75 & P90 για το δεξί άκρο.
• Τρία εκατοστημόρια (P25, P50, P75) χωρίζουν τα δεδομένα σε 4 μέρη με ίσες
συχνότητες (25%) το καθένα και καλούνται τεταρτημόρια (Q1, Q2, Q3).
• Το πεντηκοστό εκατοστημόριο P50 (2ο τεταρτημόριο) ταυτίζεται με τη διάμεσο.
Εκατοστημόρια

 Το pth εκατοστημόριο ενός συνόλου στοιχείων είναι μία τιμή τέτοια


ώστε τουλάχιστον το p% των παρατηρήσεων είναι ίσα ή μικρότερα με
την τιμή αυτή και τουλάχιστον (100-p)% είναι ίσα ή μεγαλύτερα.

 Ταξινομούμε τα στοιχεία σε αύξουσα σειρά.

 Υπολογίζουμε τη θέση i που είναι η θέση του pth εκατοστημορίου

i = (p/100)n

 Αν το i δεν είναι ακέραιος, στρογγυλοποιούμε προς τα πάνω. Το pth


εκατοστημόριο είναι η τιμή στη θέση i.

 Αν το ι είναι ακέραιος το pth εκατοστημόριο είναι ο μέσος όρος των


θέσεων i και i+1.

Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης
20
1.2.2. Τεταρτημόρια (Quartiles)
• Διάμεσος διαιρεί την κατανομή συχνοτήτων σε 2 ίσα τμήματα
• Τεταρτημόρια διαιρούν την κατανομή σε 4 ίσα μέρη – Το καθένα το ¼ των τιμών
• Το α’ τεταρτημόριο Q1 είναι η τιμή της μεταβλητής κάτω της οποίας βρίσκονται το 25%
του συνόλου των παρατηρήσεων και πάνω απ΄ αυτή το 75% των παρατηρήσεων.
• Το β΄ τεταρτημόριο Q2 ταυτίζεται με τη διάμεσο.
• Το γ΄τεταρτημόριο Q3 είναι η τιμή της μεταβλητής πάνω της οποίας βρίσκονται το 25%
του συνόλου των παρατηρήσεων και κάτω απ΄ αυτή το 75% των παρατηρήσεων.
Τεταρτημόρια

 Τα τεταρτημόρια είναι συγκεκριμένα εκατοστημόρια

 1ο Τεταρτημόριο = 25ο Εκατοστημόριο

 2ο Τεταρτημόριο = 50ο Εκατοστημόριο = Διάμεσος

 3ο Τεταρτημόριο = 75ο Εκατοστημόριο

Περιγραφικά Μέτρα
1.2. Μέτρα Θέσης

Τα τεταρτημόρια μπορούν να μας δώσουν την εικόνα τόσο για την ασυμμετρία
της κατανομής (αν η κατανομή είναι συμμετρική η απόσταση του 1ου
τεταρτημορίου από τη διάμεσο πρέπει να είναι σχεδόν ίδια με την απόσταση του
3ου από τη διάμεσο), για τη μεταβλητότητα αλλά και για τη θέση των δεδομένων.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
23

2. Μέτρα διασποράς ή Μεταβλητότητας


• Εκφράζουν τις αποκλίσεις των τιμών μιας μεταβλητής γύρω από τα
μέτρα θέσης δηλαδή δείχνουν πόσο μεγάλη ανομοιογένεια
(διασπορά) υπάρχει ανάμεσα στις τιμές της μεταβλητής.
• Μας ενημερώνουν για το εύρος των τιμών που εμφανίζει μια
μεταβλητή αλλά και για την ένταση της διασποράς αυτών γύρω από
τη θέση της.
• Όταν τα δεδομένα είναι πολύ σκορπισμένα (υπάρχει διασπορά), τα
μέτρα θέσης δεν δίνουν καλή περιγραφή των δεδομένων.
• Από μόνη της η μέση τιμή δεν μας επιτρέπει να διαφοροποιήσουμε
δείγματα.
• Υπάρχουν περιπτώσεις που 2 ή περισσότερα σύνολα τιμών έχουν
την ίδια μέση τιμή αλλά διαφέρουν ως προς τη διασπορά τους.

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
24

Τα κυριότερα μέτρα Διασποράς είναι:


• Εύρος τιμών (Range)
• Διακύμανση ή Διασπορά (Variance)
• Τυπική απόκλιση (Standard deviation)
• Τυπικό σφάλμα μέσης τιμής (Standard Error)
• Συντελεστής μεταβλητότητας (Coefficient of Variation)
• Ενδοτεταρτημοριακό Εύρος (Interquartile range - IQR)
• Συντελεστής Ασυμμετρίας (Skewness)
• Συντελεστής Κυρτότητας (Kurtosis)
• Θηκόγραμμα (Box & Whisker Plot)
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
25
2.1. Εύρος τιμών (Range)
• Η διαφορά της μικρότερης από την μεγαλύτερη τιμή των δεδομένων.
R = max - min
• Δίνεται σχεδόν πάντα κατά την περιγραφή ενός συνόλου δεδομένων.
• Μας δίνει πληροφορίες για τη μεταβλητότητα που υπάρχει στα δεδομένα καθώς
μεγαλύτερη τιμή εύρους αντιστοιχεί σε μεγαλύτερη μεταβλητότητα.
• Μας δίνει πιο ασφαλείς πληροφορίες όταν είναι μικρό.
• Δεν είναι αξιόπιστο μέτρο διασποράς, διότι καθορίζεται μόνο από τη μεγαλύτερη και
την μικρότερη παρατήρηση (εξαρτάται δηλαδή από τις ακραίες τιμές).
• Δεν μας δείχνει πώς κατανέμονται οι υπόλοιπες παρατηρήσεις.
• Μπορεί να οδηγήσει σε παραπλανητική εικόνα για την διασπορά των δεδομένων.

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
26
2.2. Διακύμανση ή Διασπορά (Variance) (s2, σ2)
• Oρίζεται ως το άθροισμα των τετραγώνων των διαφορών των τιμών της
ποσοτικής μεταβλητής x από τη μέση τιμή, προς το σύνολο των τιμών n (για
πληθυσμό σ2) ή προς n-1 (για δείγμα s2).
• Θεωρείται αξιόπιστο μέτρο διασποράς, δηλαδή της μέσης απόστασης των
παρατηρήσεων από τη μέση τιμή καθώς δηλώνει πόσο μακριά από τη μέση
τιμή απέχουν οι παρατηρήσεις.
• Διασπορά μεγάλη  Όταν οι τιμές απέχουν πολύ από τη μέση τιμή.
• Διασπορά μικρή  Όταν οι τιμές δεν διαφέρουν πολύ από τη μέση τιμή.
Διασπορά (Διακύμανση)
27

 Δηλώνει πόσο μακριά από την μέση τιμή απέχουν οι


παρατηρήσεις.
 Μέτρο της απόστασης των παρατηρήσεων από το μέσο όρο

1 n
s 
2

n  1 i 1
( xi  x )2

 Όταν οι τιμές απέχουν πολύ από την μέση τιμή η διασπορά


είναι μεγάλη.

 Όταν οι τιμές δεν διαφέρουν πολύ από την μέση τιμή, η


διασπορά είναι μικρή.

Βήματα που ακολουθούμε:


28

 Υπολογίζουμε τον αριθμητικό μέσο.

 Υπολογίζουμε την απόκλιση (deviation) κάθε τιμής που


είναι η διαφορά της τιμής xi από τον αριθμητικό μέσο.

 Οι αποκλίσεις υψώνονται στο τετράγωνο και αθροίζονται.

 Τέλος το άθροισμα των τετραγώνων διαιρείται δια (n-1)


Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Η διακύμανση αποτελεί ένα αξιόπιστο μέτρο διασποράς.


Έχει όμως το μειονέκτημα ότι δεν εκφράζεται στις μονάδες που
εκφράζονται οι παρατηρήσεις (η τιμή της διακύμανσης υπολογίζεται σε
διαφορετικές μονάδες από αυτές του μετρούμενου μεγέθους).
Συγκεκριμένα, η διακύμανση έχει πάντα μονάδες οι οποίες είναι τα
τετράγωνα των αντιστοίχων μονάδων του μετρούμενου μεγέθους.
ΠΑΡΑΔΕΙΓΜΑ: Η τιμή που προκύπτει για τη διακύμανση των τιμών αρτηριακής
πίεσης είναι (mm Hg)2 ενώ οι τιμές των παρατηρήσεων του δείγματος είναι mm Hg.

Λύση στο ανωτέρω που παρουσιάζει η διακύμανση ως μέτρο διασποράς,


μπορεί να υπάρξει υπολογίζοντας την τετραγωνική ρίζα της διακύμανσης.

Το μέγεθος που θα προκύψει ονομάζεται τυπική απόκλιση (Standard


Deviation) και εκφράζεται με ίδιες μονάδες μέτρησης με αυτές των
παρατηρήσεων.

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
30
2.3. Τυπική απόκλιση (Standard Deviation) (s ή SD)
• Ορίζεται ως η τετραγωνική ρίζα της διακύμανσης.
• Δίνει τη μέση απόσταση ή διασπορά των δεδομένων γύρω από τη μέση τιμή,
δηλαδή πόσο καλά αντιπροσωπεύει το δείγμα η μέση τιμή.
• Όσο μεγαλύτερη είναι η τυπική απόκλιση, τόσο μεγαλύτερη είναι η διασπορά.
Ισχύει και αντίστροφα.
• Αποτελεί μαζί με τη διακύμανση (διασπορά) τα σημαντικότερα μέτρα διασποράς
(μεταβλητότητας) ενός δείγματος.
• Επειδή η τυπική απόκλιση έχει την ίδια μονάδα με τη μέση τιμή,
χρησιμοποιείται περισσότερο από τη διακύμανση.

Παράδειγμα
Δύο δειγμάτων πληθυσμών με την ίδια μέση τιμή και
διαφορετική τυπική απόκλιση SD.
Η κόκκινη κατανομή έχει μέση τιμή 100 και SD 10.
Η μπλέ κατανομή έχει μέση τιμή 100 και SD 50.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
Τυπική απόκλιση (Standard Deviation)

Δύο κατανομές με ίδιο μέσο όρο, αλλά η μία με μεγάλη


και η άλλη με μικρή τυπική απόκλιση

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
32
2.4. Τυπικό σφάλμα μέσης τιμής δείγματος (Standard Error)
• Ορίζεται ως η τυπική απόκλιση των δειγματικών μέσων όρων.
• Μετρά και λειτουργεί ως μέτρο διασποράς της μέσης τιμής.
• Δηλαδή μετρά πόσο καλά η μέση τιμή του πληθυσμού εκτιμάται από τη μέση τιμή του
δείγματος (η μεταβλητότητα αυτής οφείλεται στο ότι έχουμε ένα δείγμα και όχι τον
πληθυσμό).
• Η χρησιμότητα του οφείλεται στο γεγονός ότι μας επιτρέπει να δημιουργήσουμε
διαστήματα εμπιστοσύνης για την μέση τιμή του πληθυσμού.
• Αν συλλέξουμε πολλά ανεξάρτητα δείγματα του ίδιου μεγέθους από ένα πληθυσμό,
υπολογίσουμε τη μέση τιμή του καθενός και κατασκευάσουμε την κατανομή συχνότητας
των μέσων τιμών τότε η μέση τιμή αυτής της κατανομής είναι η μέση τιμή του πληθυσμού
και η τυπική της απόκλιση είναι ίση με το τυπικό σφάλμα μέσης τιμής.
Το τυπικό σφάλμα SE της μέσης τιμής πολ/ζόμενο με 1,96 μας
δίνει την απόσταση των ορίων του 95% διαστήματος
εμπιστοσύνης από τη μέση τιμή.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

2.5. Συντελεστής μεταβλητότητας (CV, Coefficient of Variation)


Σε περίπτωση που συγκρίνουμε τις διακυμάνσεις (διασπορές) δυο δειγμάτων, των
οποίων οι μέσες τιμές διαφέρουν κατά πολύ, η χρήση των προαναφερόμενων μέτρων
διασποράς θα δώσει παραπλανητικά αποτελέσματα, αφού τα δεδομένα με τη μεγάλη
μέση τιμή θα έχουν αριθμητικά μεγαλύτερη τιμή διασποράς, ακόμα και αν είναι
“λιγότερο διασκορπισμένα” σε σχέση με αυτά που έχουν μικρότερη μέση τιμή.

Σε αυτές τις περιπτώσεις χρειαζόμαστε ένα πιο αντικειμενικό μέτρο διασποράς, που
να μην επηρεάζεται από το μέγεθος της μέσης τιμής αλλά από τη σχέση της μέσης
τιμής με ένα μέτρο διασποράς.

Ένα τέτοιο μέτρο είναι ο συντελεστής μεταβλητότητας (CV).

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
34
2.5. Συντελεστής μεταβλητότητας (CV, Coefficient of Variation)
• Είναι ο λόγος της τυπικής απόκλισης (s) προς τη μέση τιμή (x).
• Δείχνει πόσο “διασκορπισμένες” είναι οι τιμές σε σχέση με τη μέση τιμή.
• Εκφράζει ένα μέτρο της σχετικής διασποράς ως προς τη μέση τιμή.
• Εκφράζεται % και είναι ανεξάρτητος από τις μονάδες μέτρησης.
• Χρησιμοποιείται για συγκρίσεις μεταβλητότητας δειγμάτων από διαφορετικούς
πληθυσμούς, τη σύγκριση ομάδων τιμών που είτε εκφράζονται σε διαφορετικές
μονάδες μέτρησης είτε στην ίδια μονάδα αλλά έχουν σημαντικά διαφορετικές
μέσες τιμές μεταξύ τους και τον έλεγχο της ομοιογένειας μέσα στην ίδια ομάδα.
• Ομοιογενή: Δείγματα με συντελεστή μεταβλητότητας < 10%.
• Ανομοιογενή: Δείγματα με συντελεστή μεταβλητότητας ≥ 10%.
Μέτρα Σχετικής Μεταβλητότητας
35

 Ο συντελεστής μεταβλητότητας (coefficient of variation,


CV) εκφράζει το λόγο της τυπικής απόκλισης (s) προς τη
μέση τιμή ( ) x
s
CV 
x
 Μπορεί να χρησιμοποιηθεί για συγκρίσεις ομάδων τιμών οι
οποίες είτε εκφράζονται σε διαφορετικές μονάδες μέτρησης,
είτε έχουν διαφορετικές μέσες τιμές

 Ομοιογένεια του δείγματος αν CV≤10%

 Όσο πιο μικρή είναι η τιμή του CV, τόσο πιο μικρή είναι η
μεταβλητότητα των παρατηρήσεων.

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
36

2.6. Ενδοτεταρτημοριακό Εύρος (InterQuartile Range (IQR))


• Η διαφορά του 1ου από το 3ο τεταρτημόριο (IQR= Q3 - Q1)
• Στο μεταξύ τους διάστημα περιέχεται το 50% των τιμών του δείγματος.
• Όσο μικρότερο είναι αυτό το διάστημα, τόσο μεγαλύτερη θα είναι η συγκέντρωση
των τιμών και άρα μικρότερη η διασπορά των τιμών της μεταβλητής.
• Χρησιμοποιείται για να συνοδεύει τη διάμεσο.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
37

2.7. Συντελεστής Ασυμμετρίας (Skewness)


• Εμφανίζει την συμμετρία ή όχι των δεδομένων ως προς την κατακόρυφη ευθεία
που διέρχεται από την κορυφή της καμπύλης συχνοτήτων.
• Η κατανομή ενός πληθυσμού μπορεί να είναι συμμετρική (S=0) όταν οι τιμές
διατάσσονται συμμετρικά γύρω από τη μέση τιμή (διάμεσος = μέση τιμή =
επικρατούσα τιμή).
• Μη συμμετρική: η κορυφή χωρίζει την κατανομή σε δύο μέρη τα οποία δεν
περιέχουν ίσο αριθμό παρατηρήσεων (η μέση τιμή δεν θεωρείται
αντιπροσωπευτική).
• Θετική ή δεξιά ασυμμετρία: το πλήθος των παρατηρήσεων βρίσκεται αριστερά
της κορυφής (S>0)
• Αρνητική ή αριστερή ασυμμετρία: το πλήθος των παρατηρήσεων βρίσκεται
δεξιά της κορυφής (S<0)

Συντελεστής ασυμμετρίας
38
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Συντελεστής Ασυμμετρίας (Skewness)


• Ο συντελεστής ασυμμετρίας S παίρνει τιμές μεταξύ -1 και +1.
• Μεταξύ του μηδέν και του ± 0,1 η ασυμμετρία είναι μικρή.
• Μεταξύ ± 0,1 και ± 0,3 η ασυμμετρία είναι μέτρια.
• Πάνω από 0,3 ή κάτω από -0,3 η ασυμμετρία είναι έντονη.

Κατανομή θετικής ασυμμετρίας (αριστερά) & κατανομή αρνητικής ασυμμετρίας (δεξιά)

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς
40
2.8. Συντελεστής κυρτότητας (Kurtosis)
• Η Κύρτωση μιας κατανομής μετράει τον βαθμό της συγκέντρωσης των τιμών της
στην περιοχή της μέσης τιμής ή στα άκρα.
• Χαρακτηρίζει το ύψος της κορυφής της κατανομής και δίνει πληροφορίες για την
αιχμηρότητα της καμπύλης.
• Οι καμπύλες συχνοτήτων (κατανομές) χαρακτηρίζονται από το βαθμό
συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα.
• Οι κατανομές (σε σύγκριση με το 0) διακρίνονται σε:
Λεπτόκυρτες (Κ>0, θετικός): Μεγάλη συγκέντρωση τιμών στο μέσο (οξεία κορυφή)
Μεσόκυρτες ή Κανονικές (Κ=0),
Πλατύκυρτες (Κ<0, αρνητικός): Αποκέντρωση των τιμών, διασπαρμένες γύρω
από την κεντρική τιμή (με πλατιά κορυφή).
Συντελεστής κυρτότητας
41

Συντελεστής κυρτότητας
42
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Συντελεστής κυρτότητας (Kurtosis)

Κατανομές με θετική Κ>0 κύρτωση (λεπτόκυρτη) & αρνητική Κ<0 κύρτωση


(πλατύκυρτη)

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

2.9. Διάγραμμα πλαισίου-απολήξεων - Θηκόγραμμα (Box & Whisker Plot)


Θηκόγραμμα  διαγραμματική απεικόνιση που συνοψίζει με μορφή γραφήματος
βασικά περιγραφικά μέτρα μιας κατανομής όπως:
 Διάμεσος (median) της κατανομής  Έντονη οριζόντια γραμμή
 Τεταρτημόρια (Q1, Q2, Q3)
 Ενδοτεταρτημοριακό εύρος
 Ακραίες τιμές

Χρησιμοποιείται στην ανάλυση της διακύμανσης.

Μορφή θηκογράμματος  εξαχθούν συμπεράσματα:


 Κεντρική τάση
 Διασπορά
 Σχηματική μορφή κατανομής.

Μπορεί να προϊδεάσει για σχηματική μορφή κατανομής ως προς την ασυμμετρία


που πιθανώς αυτή να εμφανίζει.
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Κατασκευή θηκογράμματος  απαιτείται ένας μόνο άξονας, συνήθως κατακόρυφος,


εκτός και αν πρόκειται για την ταυτόχρονη απεικόνιση δύο ή περισσοτέρων
κατανομών, οπότε απαιτείται και ένας επιπλέον (οριζόντιος) άξονας.
Μορφή διαγράμματος  Ορθογώνιο παραλληλόγραμμο
 Ύψος του αντιστοιχεί στο ενδοτεταρτημοριακό εύρος της κατανομής.
 Κάτω οριζόντια πλευρά παραλ/γραμμου αντιστοιχεί 1ο (Q1) ή 25ο εκατ/ριο (P25)
 Πάνω οριζόντια πλευρά στο 3ο (Q3) ή 75ο εκατ/ριο (P75) της κατανομής
 Ενδιάμεση παράλληλη αντιστοιχεί στη διάμεσο του δείγματος (Q2)
Θηκόγραμμα
 πιο συμπαγές από ιστόγραμμα σε σχέση με πληροφορία
που εμπεριέχει
 λιγότερο λεπτομερές.
Θηκόγραμμα  μπορεί να χρησιμοποιηθεί για ταυτόχρονη
απεικόνιση και σύγκριση δύο ή περισσοτέρων κατανομών.

Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Κάθε παραλληλόγραμμο  50% περιπτώσεων.

Φράκτες (whiskers)  2 οριζόντιες γραμμές (άνω και κάτω ορθογωνίου) 


παριστούν όρια εντός των οποίων θεωρείται η φυσική θέση των
παρατηρήσεων  αποστάσεις ίσες το πολύ με 1,5 φορά το
ενδοτεταρτημοριακό εύρος της κατανομής (1,5*(Q3-Q1)).

Ιδιάζουσες τιμές ή Παράτυπα σημεία της κατανομής (outliers)  τιμές της


κατανομής που βρίσκονται εκτός των περιοχών που ορίζονται από τους
φράκτες  συμβολίζονται με ένα μικρό κύκλο (ο)  απέχουν από πλευρές
ορθογωνίου απόσταση από 1,5IQR (1,5*(Q3-Q1)) έως 3IQR (3*(Q3-Q1))
φορές το πλάτος αυτού.
Ακραίες τιμές (extreme)  τιμές της κατανομής που βρίσκονται
εκατέρωθεν των δύο οριζόντιων γραμμών σε απόσταση μεγαλύτερη από
3IQR (3*(Q3-Q1))  συμβολίζονται με αστερίσκο (*).
Περιγραφικά Μέτρα
2. Μέτρα Διασποράς

Διάμεσος δίνει μια ενδεικτική τιμή για κεντρική τάση κατανομής.


Μήκος παραλληλογράμμου σε συνδυασμό με φράκτες και παράτυπα σημεία
πληροφορεί για εύρος διακύμανσης των τιμών.

Αν η γραμμή που απεικονίζει τη διάμεσο δεν είναι στο μέσο του


παραλληλογράμμου, τότε η κατανομή είναι ασύμμετρη.
 Αν η γραμμή της διαμέσου προσεγγίζει την κάτω πλευρά του
παραλληλογράμμου σημαίνει ότι η κατανομή εμφανίζει θετική ασυμμετρία
 Όταν η γραμμή της διαμέσου πλησιάζει προς την άνω πλευρά του
παραλληλογράμμου σημαίνει ότι η κατανομή παρουσιάζει αρνητική
ασυμμετρία.

Βαθμός ασυμμετρίας και στις δύο περιπτώσεις προκύπτει από απόσταση


φρακτών και παράτυπων σημείων από άνω ή κάτω πλευρά
παραλληλογράμμου.

Υπολογισμός Περιγραφικών μέτρων


με τη χρήση του SPSS
Περιγραφικά Μέτρα

Υπολογισμός Περιγραφικών μέτρων στο SPSS  A’ τρόπος

Analyze  Descriptive Statistics  Frequencies


Μεταφέρουμε στο δεξί παράθυρο
(Variables) με το βελάκι τις ποσοτικές
μεταβλητές που επιθυμούμε.
Πηγαίνουμε στην επιλογή Statistics.

Τσεκάρουμε τα περιγραφικά μέτρα που θέλουμε να


υπολογίσουμε και στη συνέχεια Continue και OK.

Περιγραφικά Μέτρα

Εμφανίζονται τα αποτελέσματα της ανάλυσης.


Περιγραφικά Μέτρα

Υπολογισμός Περιγραφικών μέτρων στο SPSS  Β’ τρόπος

Analyze  Descriptive Statistics  Descriptives

Μεταφέρουμε στο δεξί παράθυρο


(Variables) με το βελάκι τις ποσοτικές
μεταβλητές που επιθυμούμε.

Πηγαίνουμε στην
επιλογή Options.

Στο παράθυρο “Descriptives: Options” επιλέγουμε τα


περιγραφικά μέτρα που επιθυμούμε να υπολογίσουμε και στη
συνέχεια Continue και OK.

Περιγραφικά Μέτρα

Εάν στο αρχικό “Descriptives” στο Variables έχουν επιλεγεί


παραπάνω από μια συνεχής μεταβλητές, τότε μπορούμε στο
“Descriptives: Options” να προκαθορίσουμε τον τρόπο
εμφάνισης των τιμών στον πίνακα που θα εμφανιστεί ως:

•Variable list: Με την ίδια σειρά που εισήχθησαν.


•Alphabetic: Αλφαβητικά ως προς το Label ή Name της
μεταβλητής.
•Ascending means: Κατά αύξουσα σειρά των μέσω τιμών.
•Descending means: Κατά φθίνουσα σειρά των μέσω τιμών.

Τέλος, εμφανίζονται τα αποτελέσματα της ανάλυσης.


Περιγραφικά Μέτρα

Υπολογισμός Περιγραφικών μέτρων στο SPSS  Γ’ τρόπος

Analyze  Descriptive Statistics  Explore

Μεταφέρουμε στο δεξί παράθυρο


(Dependent List) με το βελάκι τις
ποσοτικές μεταβλητές που επιθυμούμε.

Μπορούμε να επιλέξουμε να εμφανιστούν


ταυτόχρονα και τα στατιστικά
αποτελέσματα της ανάλυσης και τα
διαγράμματα (Both) ή μόνο ένα από τα
δύο (Statistics ή Plots).

Επιλέγουμε OK.

Περιγραφικά Μέτρα

Εμφανίζονται τα αποτελέσματα της ανάλυσης.


Από τον διπλανό πίνακα, δεν έχουν
περιγραφεί μόνο τα ακόλουθα:
95% Confidence Interval for Mean: Είναι
το 95% διάστημα εμπιστοσύνης, δηλαδή το
διάστημα στο οποίο αναμένουμε να
βρίσκεται η πραγματική (άγνωστη) μέση
τιμή του πληθυσμού στις 95 από τις 100
φορές που θα επαναληφθεί η
δειγματοληψία (Mean ± (1,96*SE)).
5% Trimmed Mean: Ο αποκομμένος αριθμητικός μέσος, δηλαδή ο αριθμητικός
μέσος των τιμών που απομένουν αν αφαιρεθούν το 5% των περισσότερο μικρών
και μεγάλων τιμών του δείγματος.
Επίσης στον πίνακα εμφανίζεται το τυπικό σφάλμα (Std. Error) για τη Μέση τιμή
(Mean), το Συντελεστή Ασυμμετρίας (Skewness) και Κυρτότητας (Kurtosis).
Std. Error: Ερμηνεύεται ως μέτρο του σφάλματος της εκτίμησης της πραγματικής τιμής της
αντίστοιχης παραμέτρου του πληθυσμού από τα δεδομένα του δείγματος.
Τμήμα Λογιστικής και
Χρηματοοικονομικής

1 Στατιστική Επιχειρήσεων – Μάθημα 1


ο

Δρ. Αγγελίδης Π. Βασίλειος

Σ Ε
Τ Λ Χ

2 Περιεχόμενα

➢ Ορίζοντας μια Επιστήμη

➢ Ορισμοί

➢ Βασικές Έννοιες

➢ Παραδείγματα
Σ Ε
Τ Λ Χ

3 Στην Καθημερινότητα ….

➢ …πολύ συχνά συναντάμε στατιστική και στατιστική πληροφορία. Για παράδειγμα:

➢ Ερωτηματολόγια Πελατών – Ιατρικά Νέα

➢ Πολιτικές Σφυγμομετρήσεις – Οικονομικές Προβλέψεις

➢ Πληροφορίες Μάρκετινγκ – Αθλητικά Δεδομένα

➢ Τι μπορούμε να συμπεράνουμε από αυτά τα δεδομένα;

➢ Πως διαχωρίζουμε έγκυρα από πλασματικά αποτελέσματα;

➢ Τι είναι Στατιστική;

Σ Ε
Τ Λ Χ

4 Τι είναι Στατιστική;
Στατιστική είναι ένας τρόπος με τον οποίο αντλούμε πληροφορίες από δεδομένα.
Gerald Keller

Στατιστική
Δεδομένα
Πληροφορίες

Δεδομένα: Γεγονότα, Πληροφορία: Γνώση


κυρίως αριθμητικά, αναφερόμενη για
συλλεγμένα για κάποιο συγκεκριμένο
αναφορά ή γεγονός.
πληροφορία.

Στατιστική είναι ένα εργαλείο για να δημιουργήσουμε μία νέα αντίληψη από ένα σύνολο
αριθμών.
Σ Ε
Τ Λ Χ

5 Παράδειγμα …
Ένας φοιτητής ανησυχεί για το μάθημα της στατιστικής, επειδή πληροφορήθηκαν ότι το μάθημα
είναι δύσκολο. Ο καθηγητής δίνει στους φοιτητές τους βαθμούς από το προηγούμενο έτος. Τι
μπορούμε να διακρίνουμε από αυτά τα νούμερα.

Στατιστική
Δεδομένα
Πληροφορίες
Λίστα βαθμών από το Νέα πληροφορία
προηγούμενο έτος σχετικά με το μάθημα
95 της στατιστικής.
89
70 Π.χ. Μέσος όρος της τάξης,
65 Ποσοστό της τάξης που πήρε άριστα,
78 Ο βαθμός με την μεγαλύτερη συχνότητα,
57 Κατανομή βαθμών, κ.λ.π.
:

Σ Ε
Τ Λ Χ

6 Ορίζοντας μια Επιστήμη

Η Στατιστική είχε μια μητέρα που αφιέρωσε τη ζωή της στο να διατηρεί με μεθοδικό τρόπο

τα αρχεία των διαφόρων κυβερνητικών υπηρεσιών κι ένα τζογαδόρο πατέρα που στηρίχθηκε

στα μαθηματικά για να αυξήσει την επιδεξιότητά του στα τυχερά παιγνίδια. Από τη

συστηματική και τυπική μητέρα προήλθε η Περιγραφική Στατιστική. Από το ριψοκίνδυνο

και διανοούμενο πατέρα προήλθε η Επαγωγική Στατιστική

Η ΣΤΑΤΙΣΤΙΚΗ είναι η επιστήμη που ασχολείται με την συλλογή, επεξεργασία και

ταξινόμηση, παρουσίαση και ερμηνεία αριθμητικών δεδομένων, τα οποία είναι χρήσιμα για

τον προγραμματισμό και τη λήψη αποφάσεων.

(Η ρίζα της λέξης στατιστική αναζητείται στην λατινική λέξη ‘status’ (κοινωνία, κράτος) και

παραπέμπει στην καταγραφή και αρχειοθέτηση ποσοτικών μεγεθών).


Σ Ε
Τ Λ Χ

7 Χρήσεις Στατιστικής στις Επιχειρήσεις …


➢ Έρευνα αγοράς

➢ Είσοδος νέου προϊόντος


➢ Πωλήσεις
➢ Ποιοτικός έλεγχος για παραλαβή προϊόντων

➢ Έλεγχος Παραγωγής
➢ Οικονομικές Αναλύσεις

➢ Έλεγχος από ορκωτό λογιστή ή εφορία


➢ Εύρεση παραγόντων που επηρεάζουν ορισμένους παράγοντες (π.χ. ζήτηση, πληθωρισμός κλπ)
➢ Προβλέψεις

Σ Ε
Τ Λ Χ

8 Ιστορικά

❖ Αρχαίος κόσμος: Στοιχειώδεις συλλογές στατιστικών στοιχείων από τους Βαβυλώνιους,

Αιγυπτίους και Κινέζους

❖ Ρωμαϊκή Αυτοκρατορία: Ύπαρξη ενός οργανωμένου συστήματος καταγραφής των

κρατικών αγαθών censere (: προς φορολόγηση) → census (: απογραφή)

❖ Μεσαίωνας (Αγγλία) : Domesday Book (1086): στατιστική απογραφή όλων των

παραγωγικών μονάδων (αγροτεμάχια, καλλιέργειες, μεταλλεία, ιχθυοτροφεία, κλπ) την

εποχή του William the Conqueror (1027-1087).


Σ Ε
Τ Λ Χ

9 Είδη Στατιστικής

➢ Περιγραφική Στατιστική παρουσίαση στατιστικών δεδομένων σε πίνακες και

διαγράμματα, υπολογισμός στατιστικών παραμέτρων και εξαγωγή συμπερασμάτων για τα

δεδομένα (Δηλαδή συλλογή δεδομένων για ένα υποσύνολο του πληθυσμού με σκοπό να

περιγράψουμε ή να φτάσουμε σε συμπεράσματα αποκλειστικά για το υποσύνολο)

➢ Η Επαγωγική Στατιστική περιλαμβάνει τις μεθόδους με τις οποίες καθίσταται δυνατή η

προσέγγιση των χαρακτηριστικών του συνόλου των δεδομένων (πληθυσμός) δια της

μελέτης των χαρακτηριστικών αυτών επί ενός (μικρού) υποσυνόλου των δεδομένων

(αντιπροσωπευτικό δείγμα) → Βασίζεται στη θεωρία πιθανοτήτων και την θεωρία της

Στατιστικής (Δηλαδή η χρήση δείγματος με σκοπό να φτάσουμε σε συμπεράσματα για

τον πληθυσμό από τον οποίο προέρχεται το δείγμα)

Σ Ε
Τ Λ Χ

10 Είδη Στατιστικής
1. Περιγραφική στατιστική (descriptive statistics)
– ταξινομήσεις δεδομένων
• πίνακες,
• διαγράμματα κλπ.
– μαθηματική περιγραφή
• εύρος τιμών (range),
• μέσος όρος (average, mean value),
• διάμεσος (median),
• κορυφή (mode)
• διακύμανση (variance),
• τυπική απόκλιση (standard deviation) κλπ.
Σ Ε
Τ Λ Χ

11 Είδη Στατιστικής

2. Επαγωγική στατιστική (inferential statistics)

– Δειγματοληπτικός έλεγχος ερευνητικών υποθέσεων βάσει μιας στατιστικής

διαδικασίας

• Πληθυσμός

• Δείγμα

• Χαρακτηριστικά του δείγματος

• Ποσοτικοποίηση

• Κατανομή

Σ Ε
Τ Λ Χ

12 Βασικές Έννοιες

➢ ΠΛΗΘΥΣΜΟΣ (Population): είναι το σύνολο των ομοειδών

«περιπτώσεων» - μετρήσεων που αναφέρονται σε ένα πλήθος

οντοτήτων (έμψυχων ή άψυχων) που έχουν ένα ή περισσότερα

κοινά χαρακτηριστικά..

➢ Κάθε σύνολο αντικειμένων ή ατόμων που έχουν κάποιο κοινό

μετρήσιμο χαρακτηριστικό αποτελεί έναν πληθυσμό.

➢ ΠΛΗΘΥΣΜΟΣ: ονομάζεται το σύνολο ατόμων ή αντικειμένων,

στα οποία αναφέρονται οι παρατηρήσεις μας.

➢ Κάθε υποσύνολο του Πληθυσμού αποτελεί ένα δείγμα (sample)

από τον Πληθυσμό


Σ Ε
Τ Λ Χ

13 Βασικές Έννοιες
➢ Σχετικά μικρός Πληθυσμός: π.χ. μαθητές ενός σχολείου, κάτοικοι

μιας περιοχής κ.λ.π.

➢ Πάρα πολύ μεγάλος (άπειρος): π.χ. πλήθος αστεριών σύμπαντος,

πλήθος, μικροοργανισμών στον αέρα, κ.λ.π.

Στατιστική μονάδα: ένα από τα στοιχεία από τα οποία αποτελείται


ένας Στατιστικός Πληθυσμός: Έτσι στην περίπτωση του πληθυσμού
των μαθητών ενός σχολείου στατιστική μονάδα είναι ο ένας
μαθητής, ενώ στην περίπτωση των αστεριών του σύμπαντος η μία
στατιστική μονάδα είναι το ένα αστέρι.

Σ Ε
Τ Λ Χ

14 Βασικές Έννοιες
Για την συλλογή των στατιστικών στοιχείων, εφαρμόζονται διάφοροι μέθοδοι, από τις οποίες οι
πιο συνηθισμένες, είναι η Απογραφή και η Δειγματοληψία.

Η απογραφή είναι η συγκέντρωση στοιχείων από όλες τις


στατιστικές μονάδες του πληθυσμού που εξετάζουμε

Η δειγματοληψία είναι η συγκέντρωση στοιχείων μόνο από ένα


τμήμα (υποσύνολο) του πληθυσμού, που θέλουμε να ερευνήσουμε.

Η δειγματοληψία είναι μέθοδος πιο γρήγορη, πιο οικονομική, αλλά μπορεί να οδηγήσει σε
εσφαλμένα αποτελέσματα όταν το δείγμα δεν έχει επιλεγεί με ενδεδειγμένες επιστημονικές
μεθόδους. Η απογραφή είναι δαπανηρή, πιο χρονοβόρα, αλλά με αποτελέσματα που δεν
εμπεριέχουν το δειγματοληπτικό σφάλμα
Σ Ε
Τ Λ Χ

15 Βασικές Έννοιες
Τα χαρακτηριστικά ή ιδιότητες των στατιστικών μονάδων ως προς τα οποία εξετάζουμε έναν
πληθυσμό ονομάζονται Μεταβλητές. Συμβολίζονται με κεφαλαία γράμματα και οι τιμές τους με
τα αντίστοιχα μικρά.

Είδη Μεταβλητών
➢ Ποσοτικές: είναι οι μεταβλητές που δύναται να επιδέχονται αριθμητική μέτρηση π.χ ύψος,
εισόδημα, αριθμός φοιτητών ανά εργαστηριακό τμήμα.
➢ Ποιοτικές ή κατηγορικές: χαρακτηρίζονται οι μεταβλητές που δεν επιδέχονται αριθμητική
μέτρηση. Μη μετρήσιμες μεταβλητές, οι οποίες εκφράζουν ιδιότητα ή κατηγορία π.χ. φύλο,
επίπεδο εκπαίδευσης
➢ Μεταβλητές διαβάθμισης ή ιεραρχικές: Εκφράζουν διαβάθμιση ή ιεραρχία (π.χ. επίπεδο
παρεχόμενων υπηρεσιών: χαμηλό-μέτριο-άριστο).

Σ Ε
Τ Λ Χ

16 Βασικές Έννοιες
Οι Ποσοτικές Μεταβλητές διακρίνονται σε δύο κατηγορίες:
➢ Συνεχείς: είναι οι ποσοτικές μεταβλητές που μπορούν να πάρουν οποιαδήποτε τιμή ενός
διαστήματος πραγματικών, δηλαδή παίρνουν άπειρες τιμές (π.χ. Ηλικία, Βάρος, Ύψος)
➢ Διακριτές ή ασυνεχείς είναι οι μεταβλητές που παίρνουν μόνο μεμονωμένες τιμές, δηλαδή

με λίγα λόγια παίρνουν μόνο πεπερασμένο πλήθος τιμών (Π.χ. Αριθμός Παιδιών
Οικογένειας, Μηνιαίες Πωλήσεις Αυτοκινήτων).
Οι Ποιοτικές Μεταβλητές διακρίνονται σε τρείς κατηγορίες:
➢ Ονομαστικές είναι οι μεταβλητές που η διάταξη τους δεν έχει κάποιο νόημα.
➢ Διατακτικές είναι οι μεταβλητές των οποίων η διάταξη έχει σημασία για συγκεκριμένο
πρόβλημα.
➢ Διχοτομικές είναι οι μεταβλητές, που χωρίζουν τις στατιστικές μονάδες σε δύο μέρη.
Σ Ε
Τ Λ Χ

17 Βασικές Έννοιες
Εξαρτημένη μεταβλητή: Αυτή η μεταβλητή υποτίθεται ότι είναι το αποτέλεσμα, το οποίο
εξαρτάται από την καθορισμένη αξία της ανεξάρτητης μεταβλητής (π.χ., η επιθετική
συμπεριφορά).
Ανεξάρτητη μεταβλητή: Αλλαγές σ' αυτή την μεταβλητή υποτίθεται ότι προκαλούν αλλαγές
στην εξαρτημένη μεταβλητή
Πειραματική Ομάδα: Η πειραματική ομάδα αποτελείται από εκείνα τα υποκείμενα που
εκτίθενται στην ανεξάρτητη μεταβλητή.
Ομάδα Ελέγχου: Η ομάδα ελέγχου αποτελείται από εκείνα τα υποκείμενα που είτε δεν
εκτίθενται καθόλου στην ανεξάρτητη μεταβλητή είτε εκτίθενται εν μέρει στην ανεξάρτητη
μεταβλητή.
Τυχαία Επιλογή: Η ομάδα στην οποία τοποθετείται κάθε υποκείμενο (πειραματική ή ελέγχου)
καθορίζεται από μια τυχαία διαδικασία έτσι ώστε, κατά μέσο όρο, οι ομάδες να μην διαφέρουν
κατά πολύ πριν από τον έλεγχο της ανεξάρτητης μεταβλητής.

Σ Ε
Τ Λ Χ

18 Άσκηση 1η
Τι τιμές παίρνουν οι παρακάτω μεταβλητές και τι είδους είναι;
➢ Βάρος
➢ Χρώμα ματιών
➢ Κόμμα που ψηφίζω

➢ Μέρες άδειας
➢ Χρόνος καθυστέρησης

➢ Πλήθος παιδιών
➢ Τετραγωνικά κατοικίας
➢ δωμάτια κατοικίας
➢ Ηλικία
Σ Ε
Τ Λ Χ

19 Άσκηση 2η

Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι οι αθλητές μιας ομάδας και
μεταβλητή, το βάρος των αθλητών να καταγράψετε τις τιμές της μεταβλητής

Απάντηση
Οι τιμές του βάρους μπορούν να είναι οποιεσδήποτε μεταξύ κάποιας ανώτατης και
κάποιας κατώτατης τιμής, επομένως μπορούμε να πούμε ότι είναι π.χ. από 50 έως 90
κιλά. Αυτό το αναπαριστούμε με τη μορφή του διαστήματος [50,90].
Αφού λοιπόν λαμβάνει αριθμητικές τιμές είναι ποσοτική.
Εφόσον παίρνει οποιαδήποτε τιμή πρόκειται για συνεχή μεταβλητή

Σ Ε
Τ Λ Χ

20 Άσκηση 2η
Στατιστική έρευνα όπου ο πληθυσμός είναι ο ελληνικές οικογένειες και μεταβλητή, το πλήθος
των ανήλικων τέκνων να καταγράψετε τις τιμές της μεταβλητής

Απάντηση
Ο αριθμός των ανήλικων τέκνων μιας ελληνικής οικογένειας μπορεί να έχει ως ελάχιστη τιμή το 0
και ως μέγιστη π.χ. το 18. Το ερώτημα όμως εδώ είναι μπορεί να πάρει όλες τις τιμές από το 0 έως
το 18;
Σίγουρα μια μη ακέραιη τιμή όπως το 3.5 δεν αποδεκτή ως τιμή της μεταβλητής, άρα εδώ
αποφεύγουν συμβολισμό με χρήση διαστήματος όπως προηγούμενα Αντί για διάστημα γράφουμε
0,1,2,… 18 ή λέμε ότι μπορεί να λάβει τις ακέραιες τιμές από 0 έως 18.
Αφού λοιπόν λαμβάνει αριθμητικές τιμές είναι ποσοτική
Εφόσον οι δεκαδικές τιμές αποκλείονται για διακριτή μεταβλητή
Σ Ε
Τ Λ Χ

21 Άσκηση 3η
Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι το οι σεισμοί σε όλον τον κόσμο και μεταβλητή,
ο χαρακτηρισμός τους ως προς το είδος τους.

Απάντηση

Οι σεισμοί χωρίζονται σε τεκτονικούς, ηφαιστειογενείς και εγκατακρημνισιγενείς. Επομένως αυτές

είναι οι τιμές που μπορεί να λάβει η μεταβλητή μας.

Επομένως οι τιμές της μεταβλητής δεν είναι αριθμητικές και άρα η μεταβλητή είναι ποιοτική.

Εφόσον δεν έχει κάποιο νόημα η διάταξη τους πρόκειται για ονομαστική μεταβλητή

Σ Ε
Τ Λ Χ

22 Άσκηση 4η
Σε μία στατιστική έρευνα όπου ο πληθυσμός είναι οι σεισμοί σε όλον τον κόσμο και μεταβλητή, ο
χαρακτηρισμός τους ως προς το πόσο ισχυροί είναι με τιμές (πολύ ισχυροί, ισχυροί, ασθενείς) να
εντοπίσετε την κατηγορία στην οποία ανήκει η μεταβλητή

Απάντηση

Η μεταβλητή είναι ποιοτική.

Η διάταξη στην περίπτωση αυτή θα μπορούσε να έχει νόημα, καθώς οι πολύ ισχυροί θεωρούνται

πιο μεγάλοι, ισχυροί λιγότερο μεγάλοι, ενώ οι ασθενείς μικροί, επομένως έχει νόημα η διάταξή

τους και άρα είναι διατακτική .


Σ Ε
Τ Λ Χ

23 Άσκηση 5η
Σε μία στατιστική έρευνα όπου ο πληθυσμός χωρίζεται άνδρες και γυναίκες, από φορείς
κάποιας ασθένειας ή όχι ή και από πτυχιούχους τριτοβάθμιας εκπαίδευσης ή όχι, καπνίζοντες ή
μη. Σε ποιες κατηγορίες μεταβλητών ανήκουν οι παραπάνω μεταβλητές;

Απάντηση

Οι μεταβλητές είναι ποιοτικές.

Σε όλες τις παραπάνω μεταβλητές οι τιμές αυτές χωρίζουν τις στατιστικές ομάδες σε δύο μέρη,

ώστε το ένα μέρος να έχει το χαρακτηριστικό που μας ενδιαφέρει να μελετήσουμε ή όχι. Άρα οι

μεταβλητές αυτές είναι διχοτομικές.

Σ Ε
Τ Λ Χ

24 Πρόβλημα
Σε μια στατιστική έρευνα όπου ο πληθυσμός είναι οι αθλητές μιας ομάδας και μεταβλητή, το
βάρος των αθλητών να καταγράψετε τις τιμές της μεταβλητής.

Να καθορίσετε:

➢ τον πληθυσμό

➢ τη στατιστική μεταβλητή

➢ τις παραμέτρους που μας ενδιαφέρουν

➢ το δείγμα

➢ τη σχετική στατιστική συνάρτηση.


Τ Λ Χ Σ Ε

25 Λύση Προβλήματος
➢ Ο πληθυσμός που μας ενδιαφέρει είναι οι προτιμήσεις σε γεύση των καταναλωτών της
συγκεκριμένης περιοχής από την οποία επελέγη το δείγμα κατά τη συγκεκριμένη περίοδο
που έγινε η μελέτη.
➢ Η στατιστική μεταβλητή είναι η προτίμηση καθενός από τους καταναλωτές όπως αυτή
εκφράσθηκε στο δείγμα.
➢ Οι παράμετροι που μας ενδιαφέρουν είναι τα ποσοστά προτίμησης για κάθε μια από τις δύο
γεύσεις της μπύρας που θα προέκυπταν αν είχαν ερωτηθεί όλοι οι καταναλωτές της περιοχής
στην οποία έγινε η δειγματοληψία (τα ποσοστά αυτά για όλη την περιοχή είναι βέβαια
άγνωστα).
➢ Το δείγμα αποτελείται από τους 125 καταναλωτές που έκαναν το τεστ γεύσης.
➢ Οι σχετικές στατιστικές συναρτήσεις είναι τα ποσοστά των προτιμήσεων για κάθε μια από τις
δύο γεύσεις στο δείγμα.

Σ Ε
Τ Λ Χ

26 Ασκήσεις
Ο Πίνακας δίνει τους μισθούς των διευθυντών 10 επιχειρήσεων, τον κλάδο στον οποίο
ανήκουν οι επιχειρήσεις και τις πωλήσεις που πραγματοποίησαν τον τελευταίο χρόνο.
Εταιρία Μισθοί (1000 $) Κλάδος Πωλήσεις (εκατ. $)
Bankers Trust 8925 Τράπεζες 9565
Coca-Cola 2437 Τρόφιμα-Ποτά 18546
General Mils 1410 Τρόφιμα-Ποτά 5567
Lsi Logic 696 Ηλεκτρονικά 1239
Motorola 1847 Ηλεκτρονικά 27973
Readers Digest 1490 Εκδόσεις 2968
Sears 3414 Λιανικό Εμπόριο 38236
Sprint 3344 Τηλεπικοινωνίες 14045
Walgreen 1490 Λιανικό Εμπόριο 12140
Wells Fargo 2861 Τράπεζες 8723
Πηγή: Business Week, Απριλιος, 1997

• Πόσες είναι οι στατιστικές μονάδες σε αυτό το σύνολο στατιστικών δεδομένων;

• Πόσες είναι οι μεταβλητές σε αυτό το σύνολο στατιστικών δεδομένων;

• Ποιες από τις μεταβλητές είναι ποιοτικές και ποιες ποσοτικές;


Σ Ε
Τ Λ Χ

27 Ασκήσεις
Το e-shop είναι e- κατάστημα στην Ελλάδα με on-line πωλήσεις ηλεκτρονικών υπολογιστών και
εξαρτημάτων. Τον προηγούμενο μήνα ζήτησε από τα μέλη του να συμπληρώσουν ένα
ερωτηματολόγιο με 11 ερωτήσεις. Κάποιες από τις ερωτήσεις ήταν οι εξής:
• Πόσες αγορές πραγματοποιήσατε τον τελευταίο χρόνο από το κατάστημα μας;
• Ποιο είναι το φύλο σας;
• Ποια είναι η ηλικία σας;
• Περιλαμβάνοντας και τον εαυτό σας, από πόσα μέλη αποτελείται η οικογένειά σας;
• Για ποια/ποιες από τις παρακάτω κατηγορίες προϊόντων ενδιαφέρεστε περισσότερο (10
κατηγορίες: Υπολογιστές, Τηλεπικοινωνίες, Αναλώσιμα, Ήχος-Εικόνα, Ηλεκτρονικά
Παιχνίδια, Gadgets κα).
Σχολιάστε τι είδους στατιστικά δεδομένα (ποιοτικά ή ποσοτικά) θα πάρουμε για κάθε μια από
τις παραπάνω ερωτήσεις.

Σ Ε
Τ Λ Χ

28 Ασκήσεις
Το Ίδρυμα Οικονομικών και Βιομηχανικών Ερευνών πραγματοποιεί κάθε μήνα έρευνα
καταναλωτικής εμπιστοσύνης αποστέλλοντας ερωτηματολόγια σε 2013 ενήλικους Έλληνες πολίτες.
Ένα από τα ερωτήματα είναι το εξής: «Πως θεωρείτε ότι έχει μεταβληθεί η οικονομική κατάσταση
της χώρας των τελευταίο μήνα;». Οι πιθανές απαντήσεις είναι: «αισθητή βελτίωση», «ελαφρά
βελτίωση», «αμετάβλητη», «ελαφρά επιδείνωση», «αισθητή επιδείνωση».
• Ποιο είναι το μέγεθος του δείγματος σε αυτή την έρευνα;
• Ποιος είναι ο πληθυσμός σε αυτή την έρευνα;
• Τα στατιστικά δεδομένα που προκύπτουν από την ερώτηση είναι ποιοτικά ή ποσοτικά; Αν είναι
ποιοτικά, είναι ονοματικά ή διατακτικά;
• Εάν το 28% των ερωτηθέντων απαντά «ελαφρά επιδείνωση», για πόσους ανθρώπους μιλάμε;
Σ Ε
Τ Λ Χ

29 Ασκήσεις
Το Ίδρυμα Οικονομικών και Βιομηχανικών Ερευνών πραγματοποιεί κάθε μήνα έρευνα
καταναλωτικής εμπιστοσύνης αποστέλλοντας ερωτηματολόγια σε 2013 ενήλικους Έλληνες πολίτες.
Ένα από τα ερωτήματα είναι το εξής: «Πως θεωρείτε ότι έχει μεταβληθεί η οικονομική κατάσταση
της χώρας των τελευταίο μήνα;». Οι πιθανές απαντήσεις είναι: «αισθητή βελτίωση», «ελαφρά
βελτίωση», «αμετάβλητη», «ελαφρά επιδείνωση», «αισθητή επιδείνωση».
• Ποιο είναι το μέγεθος του δείγματος σε αυτή την έρευνα;
• Ποιος είναι ο πληθυσμός σε αυτή την έρευνα;
• Τα στατιστικά δεδομένα που προκύπτουν από την ερώτηση είναι ποιοτικά ή ποσοτικά; Αν είναι
ποιοτικά, είναι ονοματικά ή διατακτικά;
• Εάν το 28% των ερωτηθέντων απαντά «ελαφρά επιδείνωση», για πόσους ανθρώπους μιλάμε;

Σ Ε
Τ Λ Χ

30 Ασκήσεις
Ο τομέας μάρκετινγκ της εταιρίας σας θεωρεί ότι η προώθηση ενός νέου αναψυκτικού διαίτης στην
αγορά θα «κερδίσει» μεγάλο μέρος των καταναλωτών ηλικίας κάτω των 25 ετών.
• Ποια είναι τα στατιστικά δεδομένα τα οποία θα θέλατε να δείτε πριν προωθήσετε το προϊόν στην
αγορά;
• Με ποια μέθοδο συλλογής στατιστικών δεδομένων πιστεύετε ότι μπορούν να αποκτηθούν τα
παραπάνω στοιχεία;
Σ Ε
Τ Λ Χ

31 Ασκήσεις
Σε μια πρόσφατη μελέτη που αφορά στις αιτίες θανάτου των ανδρών 60 ετών και άνω, σε ένα δείγμα
120 ανδρών διαπιστώθηκε ότι 48 από αυτούς πέθαναν από καρδιακή προσβολή.
• Αναφέρετε ένα περιγραφικό στατιστικό το οποίο θα μπορούσε να αποτελεί εκτίμηση του
ποσοστού των ανδρών ηλικίας 60 ετών και άνω που πεθαίνουν από καρδιακή προσβολή.
• Συζητήστε το ρόλο της Στατιστικής Επαγωγής σε αυτού του τύπου τις ιατρικές μελέτες.

Σ Ε
Τ Λ Χ

32 Ασκήσεις
Μια επιχείρηση ενδιαφέρεται να ελέγξει την αποτελεσματικότητα της διαφήμισης του προϊόντος της
στην τηλεόραση. Η διαφήμιση βγήκε στον αέρα μετά τις ειδήσεις των 8 της Κυριακής. Την Τρίτη, η
εταιρία στατιστικών μελετών που ανέλαβε την έρευνα διενέργησε τηλεφωνικές συνεντεύξεις σε ένα
τυχαία επιλεγμένο πλήθος 1022 ατόμων και ρώτησε, μεταξύ άλλων, εάν είδαν τη διαφήμιση, εάν τη
θυμούνται και πως τους φάνηκε.
• Ποιος είναι ο πληθυσμός στην έρευνα; β. Ποιο είναι το δείγμα της έρευνας;
• Γιατί πρέπει να χρησιμοποιηθεί δείγμα; Εξηγήστε.
Σ Ε
Τ Λ Χ

33 Ασκήσεις
Έστω ότι σας ενδιαφέρει να εκτιμήσετε το μέσο εισόδημα των νοικοκυριών του νομού Ιωαννίνων,
χρησιμοποιώντας ένα δείγμα 25 νοικοκυριών. Υποθέσατε ότι το σύνολο των νοικοκυριών είναι
50000.
• Αν το επέτρεπε ο χρόνος και τα χρήματα που έχετε στη διάθεσή σας για την αποπεράτωση της
έρευνας αυτής, θα χρησιμοποιούσατε ένα δείγμα μεγαλύτερο από 25; Εξηγήστε.
• Αν σας προτείνουν να χρησιμοποιήσετε τον κατάλογο παροχής internet της περιοχής (τον
κατάλογο που περιέχει τα νοικοκυριά με σύνδεση internet) για την επιλογή των 25 νοικοκυριών
που θα συμπεριληφθούν στο δείγμα, θα το δεχόσαστε ή όχι και γιατί;
Έλεγχος Υποθέσεων

Δρ. Αγγελίδης Βασίλης

Περιεχόμενα
✓ Η επιστήμη της Στατιστικής

✓ Επαγωγική Στατιστική

✓ Έλεγχος Υποθέσεων

✓ Έλεγχος Κανονικότητας

✓ Έλεγχος Ακραίων τιμών

3% 2 από 63
Η Επιστήμη της Στατιστικής

Στατιστική είναι ένα σύνολο αρχών και μεθοδολογιών για


➢ Το σχεδιασμό της διαδικασίας συλλογής δεδομένων

➢ Την Συνοπτική και αποτελεσματική παρουσίαση των


συλλεχθέντων δεδομένων
➢ Την ανάλυση και την εξαγωγή χρήσιμων συμπερασμάτων

(Ronald Fisher,1890 – 1962)


4% 3 από 63

Η Επιστήμη της Στατιστικής

Υπάρχουν 2 βασικές μορφές

➢ Περιγραφική Στατιστική, η οποία ασχολείται με την περιγραφή

και την παρουσίαση των δεδομένων του δείγματος

➢ Επαγωγική Στατιστική, η οποία ασχολείται με την εξαγωγή

χρήσιμων συμπερασμάτων για τον πληθυσμό

6% 4 από 63
Η Επιστήμη της Στατιστικής

Ξέρω στατιστική σημαίνει ότι γνωρίζω ……..


➢ ποιο στατιστικό μέτρο είναι κατάλληλο για κάθε ερευνητική ερώτηση,
➢ πώς να υπολογίσω το στατιστικό αυτό και

➢ πώς να το ερμηνεύσω

H επιλογή του κατάλληλου στατιστικού μέτρου είναι ένα από τα σημαντικότερα


βήματα στην διαδικασία της εκπαιδευτικής έρευνας και της στατιστικής ανάλυσης

7% 5 από 63

Η Επιστήμη της Στατιστικής


Για την επιλογή του κατάλληλου στατιστικού χρησιμοποιούμε δύο γενικά κριτήρια:
➢ Το λόγο (σκοπό) για τον οποίο χρειαζόμαστε το στατιστικό
✓ η περιγραφή μεταβλητών ή σχέσεων μεταξύ μεταβλητών, με τα οποία
ασχολείται η Περιγραφική Στατιστική και
✓ η γενίκευση από το δείγμα στον πληθυσμό, με την οποία ασχολείται η
επαγωγική
➢ Την κλίμακα (επίπεδο) μέτρησης των μεταβλητών

✓ Ονομαστική, Τακτική, Ισοδιαστημική, Αναλογική

9% 6 από 63
Επαγωγική Στατιστική
➢ Ίσως το σπουδαιότερο εργαλείο της Στατιστικής επιστήμης.

➢ Εξαγωγή συμπερασμάτων για τις τιμές των παραμέτρων του

πληθυσμού από το τυχαίο δείγμα που έχουμε λάβει από τον


πληθυσμό.

➢ Στατιστική μεθοδολογία με την οποία απορρίπτουμε ή δεν

απορρίπτουμε μια στατιστική υπόθεση.

11 % 7 από 63

Επαγωγική Στατιστική
Βασικές Έννοιες
➢ Ερευνητική Υπόθεση, μια εικασία που χρειάζεται μαθηματική
επαλήθευση.
➢ Έλεγχος Ερευνητικής Υπόθεσης, μία στατιστική
συμπερασματική – επαγωγική διαδικασία που μας επιτρέπει να
αξιοποιήσουμε τα δεδομένα του δείγματος για να εκτιμήσουμε
την εγκυρότητα – ορθότητα μιας εικασίας που έγινε για τον
πληθυσμό
➢ Στατιστική Υπόθεση, μια οποιαδήποτε στατιστική δήλωση (για
κατανομές πληθυσμών, στοχαστικές διαδικασίες, κλπ) που
θέτουμε υπό έλεγχο με βάση τις παρατηρήσεις
12 % 8 από 63
Έλεγχος Υποθέσεων
➢ Ο στατιστικός έλεγχος μιας υπόθεσης θα μπορούσε να
προσομοιωθεί με τη διαδικασία λήψης απόφασης σε μια δικαστική
διαδικασία.
➢ Ο κατηγορούμενος προσάγεται στο δικαστήριο για να δικαστεί με
μια συγκεκριμένη διαδικασία. Στην πραγματικότητα, είναι είτε
αθώος είτε ένοχος. Οι ένορκοι όμως δεν το γνωρίζουν και
καλούνται να αποφασίσουν.
➢ Η απόφασή τους θα ληφθεί με βάση τα αποδεικτικά στοιχεία που
θα παρουσιαστούν στη διάρκεια της δίκης. Μετά την ολοκλήρωση
της ακροαματικής διαδικασίας, οι ένορκοι θα πρέπει να
αποφασίσουν αν θα δεχθούν την αθώωση του κατηγορουμένου ή
θα προτείνουν στο δικαστήριο την ενοχή του
14 % 9 από 63

Έλεγχος Υποθέσεων
ΑΠΟΦΑΣΗ ΠΡΑΓΜΑΤΙΚΗ ΕΥΘΥΝΗ ΚΑΤΗΓΟΡΟΥΜΕΝΟΥ

ΕΝΟΡΚΩΝ Αθώος Ένοχος

Αθώος  Σωστή απόφαση  Λανθασμένη απόφαση

Ένοχος  Λανθασμένη απόφαση  Σωστή απόφαση

➢ Καλό θα είναι σε κάθε δίκη οι ένορκοι να παίρνουν τη σωστή


απόφαση. Αυτό δεν είναι πάντα εφικτό (π.χ. ελλιπή αποδεικτικά
στοιχεία, πλάνη, προσωπικοί λόγοι, κ.τ.λ.).
➢ Γενικά, είναι αδύνατο να μηδενίσουμε την πιθανότητα της μιας ή
της άλλης λανθασμένης απόφασης

15 % 10 από 63
Έλεγχος Υποθέσεων
ΑΠΟΦΑΣΗ ΠΡΑΓΜΑΤΙΚΗ ΕΥΘΥΝΗ ΚΑΤΗΓΟΡΟΥΜΕΝΟΥ

ΕΝΟΡΚΩΝ Αθώος Ένοχος

Αθώος  Σωστή απόφαση  Λανθασμένη απόφαση

Ένοχος  Λανθασμένη απόφαση  Σωστή απόφαση

➢ οι ένορκοι προσπαθούν να φθάσουν κάθε φορά στην ετυμηγορία


τους, γνωρίζοντας ότι τόσο στην περίπτωση της αθώωσης όσο και
στην περίπτωση της ενοχής υπάρχει κάποια πιθανότητα σφάλματος.
➢ Η μεθοδολογία που ακολουθείται στο στατιστικό έλεγχο μιας
υπόθεσης επιδιώκει ακριβώς την ελαχιστοποίηση της πιθανότητας
μιας λανθασμένης απόφασης προς τη μια ή την άλλη κατεύθυνση.
17 % 11 από 63

Έλεγχος Υποθέσεων
Ο έλεγχος υποθέσεων είναι η διαδικασία προσδιορισμού αν μια
δεδομένη υπόθεση ισχύει ή όχι.
➢ Το πρώτο βήμα στον έλεγχο υποθέσεων είναι να οριστεί η
μηδενική υπόθεση.
➢ Η υπόθεση ελέγχεται με χρήση της στατιστικής.
Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας
πληθυσμιακής παραμέτρου.
Είναι ένας ισχυρισμός ο οποίος θεωρείται σωστός εκτός και εάν
υπάρχουν επαρκή στατιστικά στοιχεία για να υποστηριχθεί το αντίθετο
συμπέρασμα.
19 % 12 από 63
Έλεγχος Υποθέσεων
Στον έλεγχο υποθέσεων υπάρχουν:
➢ Η μηδενική υπόθεση H0
➢ H ενναλακτική υπόθεση H1
Η εναλλακτική υπόθεση είναι το αντίθετο της μηδενικής υπόθεσης.
Επειδή υποστηρίζουν αντίθετες υποθέσεις, μόνο 1 από τις 2 θα είναι
σωστή. Η απόρριψη της μιας υπόθεσης σημαίνει αποδοχή της άλλης.
Παράδειγμα :
➢ Μηδενική υπόθεση: H0: μ=100
➢ Εναλλακτική υπόθεση: H1: μ≠100
20 % 13 από 63

Έλεγχος Υποθέσεων
Προφανώς, για να ελεγχθεί μια υπόθεση με απόλυτη ακρίβεια, πρέπει
να ελεγχθεί όλος ο πληθυσμός.

Αυτό όμως είναι δύσκολο, οπότε επιλέγεται ένα ικανοποιητικό τυχαίο


δείγμα, και εξάγονται συμπεράσματα με βάση αυτό.

22 % 14 από 63
Έλεγχος Υποθέσεων
Αποδοχή υπόθεσης Η0 Απόρριψη υπόθεσης από
από το δείγμα Η0 το δείγμα
Υπόθεση Η0 αληθής
στον πληθυσμό ✓ Σφάλμα τύπου Ι

Υπόθεση Η0 ψευδής
στον πληθυσμό Σφάλμα τύπου ΙΙ ✓
Σε κάθε στατιστικό έλεγχο υποθέσεων υπάρχει επομένως η δυνατότητα
σφάλματος:
✓ Σφάλμα τύπου Ι: Απόρριψη της Η0 ενώ στην πραγματικότητα είναι
αληθής.
✓ Σφάλμα τύπου ΙΙ: Αποδοχή της Η0 ενώ στην πραγματικότητα
είναι ψευδής.
23 % 15 από 63

Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ α=P(σφάλμα τύπου Ι) = P(Απόρριψη της Η0 ενώ στην
πραγματικότητα είναι αληθής)
✓ β=P(σφάλμα τύπου ΙΙ) = P(Αποδοχή της Η0 ενώ στην
πραγματικότητα η Η1 είναι αληθής)
✓ Η πιθανότητα γ=1-β ονομάζεται ισχύς του ελέγχου και εκφράζει το
ποσοστό σωστών απορρίψεων της Η0
✓ Το α ονομάζεται επίπεδο σημαντικότητας (π.χ. αν έχουμε επιλέξει
α=0,05 και απορρίψουμε την μηδενική υπόθεση Η0 σημαίνει ότι σε
100 όμοιες περιπτώσεις είναι δυνατό να έχουμε κάνει λάθος και να
έχουμε απορρίψει την Η0 ενώ είναι αληθής μόνο σε 5).

25 % 16 από 63
Έλεγχος Υποθέσεων
Αποδοχή υπόθεσης Η0 Απόρριψη υπόθεσης από
από το δείγμα Η0 το δείγμα
Υπόθεση Η0 αληθής Ορθή Απόφαση Σφάλμα τύπου Ι
στον πληθυσμό Πιθανότητα = 1-α Πιθανότητα = α
Υπόθεση Η0 ψευδής Σφάλμα τύπου ΙΙ Ορθή Απόφαση
στον πληθυσμό Πιθανότητα = 1-β
Πιθανότητα = β

Τα σφάλματα επομένως μπορούν να ταξινομηθούν σε:


✓ Σφάλμα τύπου Ι: Απόρριψη της Η0 ενώ στην πραγματικότητα είναι
αληθής, με πιθανότητα α
✓ Σφάλμα τύπου ΙΙ: Αποδοχή της Η0 ενώ στην πραγματικότητα Η1
αληθής, με πιθανότητα β

26 % 17 από 63

Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ Το (1-α) ονομάζεται και συντελεστής εμπιστοσύνης και είναι η
πιθανότητα μη απόρριψής της Η0 όταν είναι αληθής
✓ Το (1-α)*100% ονομάζεται επίπεδο εμπιστοσύνης του ελέγχου

𝛼ൗ 𝛼ൗ
2 2

100
Περιοχή Απόρριψης

28 % 18 από 63
Έλεγχος Υποθέσεων
Βασικές έννοιες
✓ Η τιμή του α (άλφα) επηρεάζει
❖ Τόσο την πιθανότητα σφάλματος τύπου Ι (όσο αυξάνεται το
α τόσο αυξάνεται η πιθανότητα σφάλματος τύπου Ι)
❖ όσο και την πιθανότητα σφάλματος τύπου ΙΙ (όσο αυξάνεται
το α τόσο μειώνεται η πιθανότητα σφάλματος τύπου ΙΙ)
✓ Η τιμή του α, επιλέγεται ανάλογα με τις επιπτώσεις/κόστος του
κάθε σφάλματος

30 % 19 από 63

Παράδειγμα επιλογής α

Αν το σφάλμα τύπου ΙΙ (δηλαδή αποδοχή λανθασμένης υπόθεσης) είναι πολύ


σημαντικό, π.χ. γιατί θα προκαλέσει δυσφήμιση στην εταιρία μου να παραχθούν
προβληματικά προϊόντα, τότε επιλέγω μεγαλύτερο α π.χ. στο 10%, άρα 90%
διάστημα εμπιστοσύνης.

Αν όμως ένα σφάλμα τύπου ΙΙ δεν έχει ιδιαίτερο κόστος, ενώ ένα σφάλμα τύπου Ι
οδηγεί στην απόρριψη μιας καλής παραγωγής προϊόντων, τότε επιλέγω μικρότερο
α π.χ. στο 1%, άρα 99% διάστημα εμπιστοσύνης.

31 % 20 από 63
Έλεγχος Υποθέσεων
Η τιμή p-value
✓ Η τιμή p-value είναι το κριτήριο αποδοχής ή όχι της μηδενικής
υπόθεσης Η0
✓ Πιο συγκεκριμένα απορρίπτουμε την μηδενική υπόθεση Η0 όταν η τιμή
p-value είναι μικρότερη από το επίπεδο στατιστικής σημαντικότητας α
(άλφα) που έχουμε δηλώσει.
✓ Η τιμή p-value δεν είναι η πιθανότητα να επαληθευθεί η μηδενική
υπόθεση Η0 και αυτό γιατί οι υποθέσεις δεν εκφράζονται με πιθανότητες
στην στατιστική
✓ Η τιμή p-value επηρεάζεται ισχυρά από το μέγεθος του δείγματος πιο
συγκεκριμένα υπάρχει αντίστροφη συσχέτιση μεταξύ του μεγέθους του
δείγματος και της τιμής p-value
33 % 21 από 63

P value και μέγεθος δείγματος για μια δεδομένη συσχέτιση

0,16

0,14

0,12

0,1
p-value

0,08

0,06

0,04

0,02

0
0 100 200 300 400 500 600 700 800 900 1000

Μέγεθος δείγματος σε κάθε ομάδα

34 % 22 από 63
P value και διάστημα εμπιστοσύνης

36 % 23 από 63

Έλεγχος Υποθέσεων
Υποθέσεις
"Αν η Γιαγιά μου είχε καρούλια … θα ήταν πατίνι”
➢ Κάθε στατιστικό τεστ βασίζεται σε ένα σύνολο υποθέσεων (κριτηρίων)
➢ Αν οι υποθέσεις δε ισχύουν, το αποτέλεσμα του ελέγχου μπορεί να είναι
λανθασμένο
➢ Πολύ συχνά δεν γίνεται σωστά ο έλεγχος υποθέσεων
➢ Ένας πολύ σημαντικός έλεγχος στην στατιστική ανάλυση είναι να δούμε αν
μπορούμε να χρησιμοποιήσουμε παραμετρικά τεστ (αν τα δεδομένα
ακολουθούν την κανονική κατανομή)
✓ Τα παραμετρικά τεστ εμφανίζονται πολύ συχνά στην βιβλιογραφία
✓ Είναι πιο ισχυρά και έχουν καλύτερη αντιμετώπιση από τους reviewers

38 % 24 από 63
Έλεγχος Υποθέσεων
Βήματα στον έλεγχο Υποθέσεων
1. Διατυπώστε την μηδενική υπόθεση Η0 και την εναλλακτική υπόθεση Η1
2. Επιλέξτε το επίπεδο στατιστικής σημαντικότητας α και το μέγεθος του
δείγματος n λαμβάνοντας υπόψη την σχετική σημασία των σφαλμάτων
τύπου Ι και τύπου ΙΙ
3. Προσδιορίστε την κατάλληλή στατιστική συνάρτηση ελέγχου (ποιο
στατιστικό μέτρο θα χρησιμοποιηθεί)
4. Συλλέξτε τα δεδομένα και υπολογίστε την τιμή της στατιστικής
συνάρτησης ελέγχου (p value)
5. Πάρτε την στατιστική απόφαση (αν p value < α απορρίπτεται η μηδενική
υπόθεση Η0 ) και διατυπώστε το διοικητικό συμπέρασμα

39 % 25 από 63

Δείκτες Κεντρικής Θέσης


Αριθμητικός Μέσος
Ο αριθμητικός μέσος, ή αλλιώς μέσος όρος, ή πιο σύντομα απλά μέσος, είναι το πιο
γνωστό και πιο χρήσιμο μέτρο κεντρικής θέσης. Υπολογίζεται αθροίζοντας όλες τις
τιμές των δεδομένων και διαιρώντας δια το πλήθος τους:

 1 +  2 + .....+  
 i
i= 1
= =
 

• η μέση τιμή επηρεάζεται ιδιαίτερα από τις ακραίες τιμές (μεγάλες ή μικρές). Αυτό
δημιουργεί προβλήματα σε μη συμμετρικές κατανομές.
• Κάποιες φορές δεν έχει φυσικό νόημα
41 % 26 από 63
Δείκτες Κεντρικής Θέσης
Διάμεσος
Δηλαδή η διάμεσος είναι μία τιμή η οποία χωρίζει τις παρατηρήσεις του δείγματος σε δύο
ισοπληθείς ομάδες, έτσι ώστε οι παρατηρήσεις της πρώτης ομάδας να είναι όλες μεγαλύτερες ή
ίσες της διαμέσου και όλες οι παρατηρήσεις της άλλης ομάδας να είναι όλες μικρότερες ή ίσες
αυτής. Την συμβολίζουμε με δ

Χωρίζει το εμβαδόν κάτω από την καμπύλη της


κατανομής σε δύο ίσα μέρη (50% - 50%)
50%
50%

Δ
42 % 27 από 63

Δείκτες Κεντρικής Θέσης


Επικρατούσα Τιμή
Η επικρατούσα τιμή ενός συνόλου δεδομένων είναι η τιμή που εμφανίζεται με τη
μεγαλύτερη συχνότητα.

Είναι ο αριθμός x, που εμφανίζεται με τη


μεγαλύτερη συχνότητα

44 % 28 από 63
Κατανομές
Χαρακτηριστικά Κατανομής - συμμετρικές και μη συμμετρικές κατανομές

M0< Δ<μ μ<Δ<M0


μ=Δ=M0

Πολλές τιμές στη μέση, λίγες Πολλές μικρές τιμές, κάποιες Πολλές μεγάλες τιμές, κάποιες τιμές
μεγάλες τιμές και λίγες μικρές τιμές στη μέση και λίγες στη μέση και λίγες μικρές τιμές
τιμές μεγάλες τιμές

46 % 29 από 63

Κανονική Κατανομή
➢ Η υπόθεση της κανονικότητας είναι μία από τις υποθέσεις πάνω στις οποίες έχει
θεμελιωθεί η στατιστική συμπερασματολογία.
➢ Οι περισσότερες από τις μεθοδολογίες της Παραμετρικής Στατιστικής υποθέτουν,
προϋποθέτουν ότι τα δεδομένα προέρχονται από έναν πληθυσμό, ο οποίος περιγράφεται
ικανοποιητικά από την κανονική κατανομή.
➢ Όταν το ιστόγραμμα συχνοτήτων των ποσοτικών μεταβλητών έχει το σχήμα “καμπάνας”,
τότε λέμε ότι τα δεδομένα ακολουθούν την κανονική κατανομή ή κατανέμονται κανονικά.
➢ Το ιστόγραμμα όμως δεν είναι “ικανό” να μας απαντήσει στη ερώτηση αν είναι κανονικά
τα δεδομένα ή αν προέρχονται από μία κανονική κατανομή με ένα μέσο και μία
διακύμανση.
47 % 30 από 63
Κανονική Κατανομή

49 % 31 από 63

Κανονική Κατανομή

50 % 32 από 63
Κανονική Κατανομή
Ιδιότητες Κανονικής Κατανομής

✓ Η επικρατούσα τιμή, η διάμεσος και ο μέσος όρος συμπίπτουν


✓ Συμμετρική ως προς το μέσο μ. (το 50% βρίσκεται δεξιά του μ και το 50% αριστερά του μ)
✓ Συνολικό εμβαδό κάτω από την καμπύλη f(x) = 1
52 % 33 από 63

Κανονική Κατανομή
Ιδιότητες Κανονικής Κατανομής ✓ Το σχήμα της κανονικής κατανομής έχει τις εξής
ιδιότητες:
▪ Το πιο απότομο σημείο της καμπύλης βρίσκεται
σε απόσταση μιας τυπικής απόκλισης
εκατέρωθεν του μέσου όρου
▪ Σε απόσταση 3 τυπικών αποκλίσεων από το
μέσο όρο η κλίση είναι σχεδόν οριζόντια, πολύ
κοντά στο μηδέν
▪ Παρουσία ακραίων τιμών μπορεί να γείρει την
καμπάνα δεξιά ή αριστερά παραβιάζοντας το
κριτήριο της κανονικής κατανομής

53 % 34 από 63
Κανονική Κατανομή
➢ Ο έλεγχος ότι τα τυχαία δεδομένα ακολουθούν μια συγκεκριμένη κατανομή ονομάζεται
«έλεγχος καλής προσαρμογής».
➢ Για τον έλεγχο αν τα δεδομένα ακολουθούν την κανονική κατανομή αρχικά μπορούμε να
κατασκευάσουμε δύο γραφήματα με το SPSS, το P-P Plot και το Q-Q Plot
➢ Με αυτά τα γραφήματα ελέγχουμε οπτικά την ύπαρξη κανονικότητας στα δεδομένα. Όσο
πιο κοντά στην ευθεία είναι τα σημεία του σχήματος τόσο πιο πολλές είναι οι ενδείξεις ότι
τα δεδομένα ακολουθούν την κανονική κατανομή.
➢ Το μάτι όμως πάλι μπορεί να “πέσει έξω” και να ξεγελαστούμε. Για αυτό το λόγο
καταφεύγουμε σε τεστ κανονικότητας για να απαντήσουμε στην προηγούμενη ερώτηση.

55 % 35 από 63

Κανονική Κατανομή
Για τον έλεγχο της Κανονικής κατανομής έχουμε τις υποθέσεις :
Η0: Η κατανομή των δεδομένων δε διαφέρει από την κανονική κατανομή
Η1: Η κατανομή των δεδομένων διαφέρει από την κανονική κατανομή
Για τον έλεγχο της υπόθεσης συγκρίνουμε την τιμή p-value με το επίπεδο στατιστικής
σημαντικότητας α (άλφα) που έχουμε ορίσει (π.χ α=0,05)
➢ Αν η p-value είναι μικρότερη του 0,05, τότε λέμε ότι η μηδενική υπόθεση
απορρίπτεται.
➢ Αν η p-value είναι μεγαλύτερη ή ίση του 0,05, τότε λέμε ότι η μηδενική υπόθεση δεν
απορρίπτεται.

57 % 36 από 63
Κανονική Κατανομή

Αν p-value > 0.05 ΔΕΝ


συμπεραίνουμε ότι τα δεδομένα
του δείγματος ακολουθούν την
κανονική κατανομή, αλλά ότι σε
επίπεδο σημαντικότητας α = 0.05
δεν διαπιστώνονται στατιστικά
σημαντικές αποκλίσεις από την
κανονικότητα.

58 % 37 από 63

Έλεγχος Κανονικής Κατανομής


Εντοπισμός Ακραίων Τιμών
Όπως αναφέρθηκε οι ακραίες μπορούν να παραβιάσουν την κανονικότητα

επομένως πριν τον έλεγχο κανονικότητας πρέπει να εντοπίσουμε και να

απομακρύνουμε τυχόν ακραίες τιμές.

Για τον εντοπισμό των ακραίων τιμών μπορούμε να χρησιμοποιήσουμε:

✓ τα z–scores (πόσες τυπικές αποκλίσεις απέχει η τιμή από την μέση

τιμή του δείγματος) και

✓ τα θηκογράμματα

60 % 38 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Χρησιμοποιούμε το αρχείο Lecture_1_1.sav το οποίο περιέχει τους βαθμούς των φοιτητών
στο μάθημα της Ανάλυσης Δεδομένων.
Μέθοδος 1η :
• Από το μενού επιλέγουμε Analyze → Descriptive
Statistics → Descriptive
• Στο παράθυρο διαλόγου που εμφανίζεται
βάζουμε την μεταβλητή που θέλουμε να
εξετάσουμε στο πλαίσιο “Variables” και
τσεκάρουμε το πεδίο “save standardized values
as variables”
61 % 39 από 63

Παράδειγμα I
Έλεγχος Ακραίων Τιμών
• Η μεταβλητή που προστίθεται στο φύλλο δεδομένων είναι τα z-scores
• Τα z-scores σε απόλυτη τιμή παρουσιάζουν τον αριθμό των τυπικών
αποκλίσεων μεταξύ των δεδομένων και της μέσης τιμής
• Τιμές z-scores μεγαλύτερες σε απόλυτη τιμή του τρία (3) υποδηλώνουν ακραίες
τιμές αν και ορισμένοι ερευνητές προτείνουν το 1,96 (α=5%)
• Υπάρχουν ερευνητές που εκτιμούν ότι τα z-scores εξαρτούνται από το μέγεθος
του δείγματος και η τιμή για τον εντοπισμό των ακραίων τιμών πρέπει να
𝑛−1
υπολογιστεί από τον τύπο όπου n ο αριθμός των παρατηρήσεων
𝑛
• Στο παράδειγμα υπό εξέταση η τιμή στην παρατήρηση 12 είναι πιθανόν ακραία
τιμή
63 % 40 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Μέθοδος 2η :
• Από το μενού επιλέγουμε Analyze → Descriptive
Statistics → Explore
• Στο παράθυρο διαλόγου που εμφανίζεται βάζουμε την
μεταβλητή που θέλουμε να εξετάσουμε στο πλαίσιο
“Dependent List”
• Από την επιλογή “Statistics” επιλέγουμε Outliers και
Percentiles

65 % 41 από 63

Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Από το αποτελέσματα μελετούμε τους Πίνακες Percentiles και Extreme Values

Παρατηρούμε ότι τιμές μικρότερες του 12,1 και μεγαλύτερες του 147,3 είναι πιθανές ακραίες
τιμές (σειρά 12 και σειρά 25)
66 % 42 από 63
Παράδειγμα I
Έλεγχος Ακραίων Τιμών
Ακραία Τιμή
Από το θηκόγραμμα παρατηρούμε 2
ακραίες τιμές (outliers)
✓ τιμές πέρα από τα whiskers,
επισημαίνονται με «ο» και είναι ακραίες
(outliers), ενώ με * επισημαίνονται οι
έκτροπες (extreme)
Ακραία Τιμή
✓ πιθανές αποκλίσεις από την κανονική
κατανομή (αν η διάμεσος είναι πιο κοντά
στην κορυφή ή στην αρχή του κουτιού
και όχι στο κέντρο).
68 % 43 από 63

Παράδειγμα I
Απομάκρυνση Ακραίων Τιμών
Από το μενού επιλέγουμε Data → Select Cases
Από το παράθυρο διαλόγου επιλέγουμε την επιλογή “If condition is
satisfied”
Χρησιμοποιώντας τα πλήκτρα γράφουμε a_a ~= 12 & a_a ~= 25 το
οποίο εξαιρεί από τον υπολογισμό την 12 και την 25 παρατήρηση

Στην συνέχεια πατάμε το πλήκτρο continue και το πλήκτρο Ok


και εκτελούμε ξανά την ανάλυση χωρίς τις ακραίες τιμές

69 % 44 από 63
Παράδειγμα I
Εντοπισμός Ακραίων Τιμών
Τα αποτελέσματα χωρίς τις ακραίες τιμές

71 % 45 από 63

Έλεγχος Κανονικής Κατανομής


Οι προϋποθέσεις για να εξετάσουμε αν τα δεδομένα του δείγματος
ακολουθούν την Κανονική Κατανομή είναι:
➢ Απουσία Ακραίων τιμών (outliers)
o Εντοπίζονται είτε με τα z-scores είτε με τα θηκογράμματα
o Εφόσον εκλεχθούν απομακρύνονται από το δείγμα
➢ Ανεξαρτησία (Independence)
o Δεν βασίζεται σε κάποιο στατιστικό τεστ, αλλά στη λογική της
έρευνας
o Μία μέτρηση, π.χ. ο βαθμός ενός φοιτητή σε ένα τεστ, θα πρέπει να
μην επηρεάζεται από τους βαθμούς άλλων φοιτητών
o Ανάλογα με το σχεδίαση της έρευνας, μπορεί να δοθεί διαφορετικό
νόημα στην ανεξαρτησία
73 % 46 από 63
Έλεγχος Κανονικής Κατανομής
Προϋποθέσεις

➢ Συνέχεια (Interval Data)

o Συνεχείς τιμές σε κλίμακα τιμών (π.χ. 1-10)

o Αν η βαθμολογία δύο φοιτητών σε ένα τεστ γνώσης είναι 7 και 10

αντίστοιχα, η διαφορά στην κλίμακα θα πρέπει να αντιπροσωπεύει

αντίστοιχη πραγματική διαφορά στη γνώση

Δεν υπάρχει στατιστικό τεστ για τον έλεγχο – βασίζεται στη λογική

74 % 47 από 63

Έλεγχος Κανονικής Κατανομής


Μέθοδος 1η
Για να ελέγξουμε αν η κατανομή μιας μεταβλητής είναι συμβατή µε την
κανονική αρχικά θα έπρεπε να εξετάσουμε τις προϋποθέσεις (ακραίες τιμές,
ανεξαρτησία, συνέχεια) και στην συνέχεια να εφαρμόσουμε το test
Kolmogorov-Smirnov (lecture1_3.sav)

✓ Analyze → Non parametric tests →


One sample K-S
✓ Βάζουμε στο test variable list τις
μεταβλητές που θέλουμε να ελέγξουμε
την κανονικότητα τους,
✓ Τσεκάρουμε Normal και ΟΚ

76 % 48 από 63
Έλεγχος Κανονικής Κατανομής
Παρατηρούμε ότι η τιμή p-
value είναι 0,001 επομένως
μικρότερη του 0,05 το οποίο
θέσαμε ως επίπεδο στατιστικής
σημαντικότητας.
Επομένως απορρίπτουμε την
μηδενική υπόθεση H0 (η
κατανομή, δε διαφέρει από την
κανονική κατανομή).

77 % 49 από 63

Έλεγχος Κανονικής Κατανομής


Αν πριν προχωρήσουμε στον έλεγχο κανονικότητας τρέξουμε την διαδικασία
εντοπισμού και απομάκρυνσης τυχόν ακραίων τιμών ίσως τα αποτελέσματα
να ήταν είναι διαφορετικά.

Παρατηρούμε ότι η
παρατήρηση 43 είναι ακραία
και ότι η παρατήρηση 18
είναι Έκτροπη.
Τις απομακρύνουμε και
τρέχουμε ξανά τον έλεγχο

79 % 50 από 63
Έλεγχος Κανονικής Κατανομής
Μετά την απομάκρυνση των δύο
παρατηρήσεων παρατηρούμε ότι
η τιμή p-value είναι 0,200
επομένως μεγαλύτερη του 0,05
το οποίο θέσαμε ως επίπεδο
στατιστικής σημαντικότητας.
Επομένως δεν μπορούμε να
απορρίψουμε την την μηδενική
υπόθεση H0 (η κατανομή, δε
διαφέρει από την κανονική Παρατήρηση: Η ύπαρξη ακραίων
κατανομή). τιμών επηρεάζουν την κανονική
κατανομή
80 % 51 από 63

Έλεγχος Κανονικής Κατανομής


Μέθοδος 2η
Για να ελέγξουμε αν η κατανομή μιας μεταβλητής είναι συμβατή µε την
κανονική μπορούμε να χρησιμοποιήσουμε την παρακάτω διαδικασία η οποία
περιέχει και τον εντοπισμό ακραίων τιμών

✓ Analyze → Descriptive
Statistics → Explore
✓ Βάζουμε στο Dependent List
τις μεταβλητές που θέλουμε να
ελέγξουμε την κανονικότητα
τους

82 % 52 από 63
Έλεγχος Κανονικής Κατανομής
Από την επιλογή Statistics τσεκάρουμε τις
επιλογές Descriptives, Outlies, Percentiles
και ορίζουμε το Διάστημα Εμπιστοσύνης.

Από την επιλογή Plots τσεκάρουμε τις


επιλογές Histogram, και Normality plots with
tests

84 % 53 από 63

Έλεγχος Κανονικής Κατανομής

Από το πίνακα Percentiles παρατηρούμε


ότι τιμές μικρότερες του 61,68 ή τιμές
μεγαλύτερες από 73,66 είναι πιθανές
ακραίες τιμές.
Από τον πίνακα Extreme Values
παρατηρούμε ότι οι παρατηρήσεις
43,11,18 και 24 είναι πιθανές ακραίες
τιμές
85 % 54 από 63
Έλεγχος Κανονικής Κατανομής

Από το θηκόγραμμα επιβεβαιώνονται οι παρατηρήσεις που κάναμε στους


προηγούμενους πίνακες για ύπαρξη ακραίων τιμών.
Από τον πίνακα Test of Normality παρατηρούμε ότι η τιμή P-value είναι
μικρότερη από το επίπεδο στατιστικής σημαντικότητας (0,05) που θέσαμε και
επομένως απορρίπτουμε την μηδενική υπόθεση της κανονικής κατανομής.
Απομακρύνουμε τις ακραίες τιμές και ξανατρέχουμε τον έλεγχο

87 % 55 από 63

Έλεγχος Κανονικής Κατανομής

Δεν υπάρχουν ακραίες τιμές επομένως


εξετάζουμε τον πίνακα Test of Normality
88 % 56 από 63
Έλεγχος Κανονικής Κατανομής

Από τον πίνακα Test of Normality εξετάζουμε :


✓ Το τεστ του Kolmogorov – Smirnov όταν ο αριθμός των παρατηρήσεων
είναι μεγάλος (>=50)
✓ Το τεστ του Shapiro – Wilk όταν ο αριθμός των παρατηρήσεων είναι
μικρός (<50)
και στις δύο περιπτώσεις η τιμή p-value είναι μεγαλύτερη του 0,05
επομένως δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση
90 % 57 από 63

Έλεγχος Κανονικής Κατανομής


Αν μία ποιοτική μεταβλητή διαχωρίζει το δείγμα σε περισσότερες
υποομάδες μπορούμε να εκτελέσουμε το τεστ κανονικότητας για τις
επιμέρους ομάδες με την παρακάτω διαδικασία:
✓ Analyze → Descriptive Statistics
→ Explore
✓ Βάζουμε στο Dependent List τις
μεταβλητές που θέλουμε να
ελέγξουμε την κανονικότητα τους
✓ Στο Factor List βάζουμε την
ποιοτική μεταβλητή και εκτελούμε
τον έλεγχο

92 % 58 από 63
Έλεγχος Κανονικής Κατανομής

Απομακρύνουμε τις ακραίες τιμές και εκτελούμε


ξανά τον έλεγχο
93 % 59 από 63

Έλεγχος Κανονικής Κατανομής

Από τον πίνακα Test of Normality παρατηρούμε ότι και για τις δύο υποομάδες που
χωρίζει το δείγμα υπό εξέταση η ποιοτική μεταβλητή φύλλο, δεν μπορούμε να
απορρίψουμε την μηδενική υπόθεση

95 % 60 από 63
Ασκήσεις
Άσκηση 1η
a/a Έτος Επώνυμο Φύλλο Βαθμός Εξεταστικής Βαθμός Προόδου
Στον πίνακα (αρχείο lecture_1_5.sav) βρίσκονται οι βαθμοί 25 1 1 Δρα man 7 6
2 1 Νίκ female 4 6
1 Παπ
φοιτητών στο μάθημα Ανάλυσης Δεδομένων στην εξεταστική και
3 man 9 5
4 1 Κίτ female 5 6
5 1 Ματ female 8 5
1 Κατ
στην πρόοδο
6 man 5 5
5 2 Μίτ man 7 9
7 2 Μίρ female 6 5
8 2 Μαύ man 10 6

Κάντε έλεγχο κανονικότητας για τις μεταβλητές Βαθμός 9


10
2 Κού
2 Ταρ
man
man
2
0
7,5
6,5
11 2 Τσα female 28 7,5

Εξεταστικής και Βαθμός Προόδου


12 3 Ταβ female 6 6
13 3 Λίτ female 8,5 7,5
14 3 Εκε man 6,5 5,5

➢ για το σύνολο των φοιτητών


15 3 Αυτ female 5,5 5,5
16 3 Φαρ female 7 9
17 3 Χαρ man 4,5 8
4 Εκε
➢ για τα αγόρια και τα κορίτσια ξεχωριστά
18 female 4,5 7,5
19 4 Ντί man 7,5 10
20 4 Βασ man 10 0
21 4 Ζερ man 9,5 7
22 4 Μπα man 10 7,5
23 4 Χτα female 6,5 6,5
4 Τρα
Προσοχή στην ύπαρξη Ακραίων Τιμών
24 female 8,5 7,5
25 4 Στα female 9 6

98 % 62 από 63

Ασκήσεις
Άσκηση 2η a/a
1
Χοληστερίνη
161
Φύλλο Ηλικία
man 31
Δόση
καθόλου
a/a Χοληστερίνη
31 212
Φύλλο Ηλικία
man 38 μέτρια
Δόση

2 163 man 19 καθόλου 32 218 woman 34 καθόλου


Στον πίνακα (αρχείο lecture_1_4.sav) βρίσκονται οι τιμές 3
4
169
169
man
woman
39
41
καθόλου
ελάχιστη
33
34
223
223
man
woman
50
51
μέτρια
καθόλου
5 170 woman 35 καθόλου 35 225 woman 49 ελάχιστη
της χοληστερίνης ενός δείγματος 60 ατόμων 6
7
173
174
man
woman
31
33
μικρή
ελάχιστη
36
37
226
227
woman
man
54
39
ελάχιστη
μικρή
8 176 woman 28 καθόλου 38 227 woman 45 μέτρια
μέτρια καθόλου
Κάντε έλεγχο κανονικότητας για τις μεταβλητές
9 195 man 49 39 228 woman 50
10 195 man 41 ελάχιστη 40 233 man 34 ελάχιστη
11 233 woman 54 καθόλου 41 258 woman 53 μικρή
ελάχιστη ελάχιστη
Χοληστερίνη και Ηλικία
12 234 man 53 42 258 woman 54
13 239 man 44 μέτρια 43 281 woman 52 μικρή
14 244 woman 50 ελάχιστη 44 282 woman 59 καθόλου
μικρή μικρή
➢ για το σύνολο του δείγματος
15 248 man 52 45 282 woman 60
16 249 man 47 μικρή 46 284 man 67 ελάχιστη
17 249 woman 49 μικρή 47 284 woman 62 μέτρια
ελάχιστη καθόλου
➢ για τους άνδρες και τις γυναίκες ξεχωριστά
18 256 man 46 48 284 woman 53
19 256 woman 63 μέτρια 49 284 woman 54 ελάχιστη
20 258 woman 64 μέτρια 50 286 woman 62 μέτρια
21 50 man 95 καθόλου 51 286 woman 68 μέτρια
22 195 woman 34 μικρή 52 297 man 64 καθόλου
23 195 woman 38 καθόλου 53 299 man 66 ελάχιστη
ελάχιστη μέτρια
Προσοχή στην ύπαρξη Ακραίων Τιμών
24 196 man 36 54 301 man 64
25 199 woman 31 μέτρια 55 809 woman 105 καθόλου
26 200 woman 36 καθόλου 56 309 woman 57 ελάχιστη
27 209 woman 36 μικρή 57 310 woman 61 μέτρια
28 209 woman 56 καθόλου 58 330 woman 77 μέτρια
29 210 man 41 ελάχιστη 59 354 woman 63 μικρή
30 211 man 37 ελάχιστη 60 355 man 64 μέτρια

100 % 63 από 63
Συλλογή στατιστικών
δεδομένων

Δημιουργία
ερωτηματολογίων
Συλλογή στατιστικών
δεδομένων

• Απογραφή
• Δειγματοληψία
• Συνεχής καταγραφή

• Σκοπός Περιεχόμενο
• Είδη ερωτήσεων Εμφάνιση

• Συμπλήρωση Κωδικοποίηση
• Καταγραφή
Τρόποι συλλογής
δεδομένων

Οι μέθοδοι συλλογής δεδομένων ποικίλουν


και κυρίως εξαρτώνται από τον χρόνο
συλλογής και από το αν επιλέγεται όλος ο
μελετώμενος πληθυσμός ή μόνο ένα
δείγμα του.

Τρεις είναι οι κύριες μέθοδοι συλλογής:

• Απογραφή

• Δειγματοληψία

• Συνεχής καταγραφή
Απογραφή

Σε μια δεδομένη χρονική στιγμή, μας


ενδιαφέρει να μελετήσουμε και να
συλλέξουμε δεδομένα απ’ όλον τον
πληθυσμό.
(απογραφή πληθυσμού, απογραφή
εμπορευμάτων κλπ.)

Πλεονεκτήματα Μειονεκτήματα
Πληρότητα Χρονοβόρα
Ακρίβεια Μεγάλο κόστος
Χρήση των Πολλά εξειδικευμένα
αποτελεσμάτων άτομα
από άλλες έρευνες
Μερικές φορές όχι
επίκαιρα αποτελέσματα

Μερικές φορές
καταστρέφει την
μελετώμενη στατιστική
μονάδα
Συχνά λάθη εξαιτίας του
Δειγματοληψία

Επειδή πολλές φορές είναι δύσκολο ακόμη και


αδύνατο να συλλέξουμε δεδομένα από όλον
τον πληθυσμό που μας ενδιαφέρει σε μια
χρονική στιγμή, περιοριζόμαστε να συλλέξουμε
δεδομένα από ένα μικρό μέρος του πληθυσμού
το οποίο ονομάζεται δείγμα.

Πλεονεκτήματα Μειονεκτήματα

Ταχύτητα Όχι ακριβή και πλήρη


εικόνα
Μικρό κόστος Λάθη εξαιτίας του
τρόπου συλλογής
δείγματος
Επίκαιρα
αποτελέσματα

Ευκολία
Συνεχής καταγραφή

Συλλέγουμε δεδομένα από όλον τον


πληθυσμό αλλά όλα τα δεδομένα δεν
συλλέγονται την ίδια χρονική στιγμή. Κάθε
φορά που συμβαίνει μια αλλαγή
καταγράφεται ο χρόνος και το είδος της
αλλαγής. (π.χ. δημοτολόγια, λογιστήρια)

Πλεονεκτήματα Μειονεκτήματα

Πλήρη εικόνα Μεγάλο κόστος


Ακρίβεια Πολλά εξειδικευμένα
άτομα
Πληροφορίες για Απαιτείται οργάνωση
όλη τη διάρκεια και αρχειοθέτηση για
του χρόνου μεγάλη χρονική
διάρκεια
Μέγεθος δείγματος

• Η σωστή επιλογή μεγέθους δείγματος εξαρτάται


από την ακρίβεια σφάλματος δ που επιθυμούμε.
Όσο μικρότερο το δ, τόσο μεγαλύτερο το μέγεθος
δείγματος που πρέπει να πάρουμε.

• Φροντίζουμε να έχουμε ικανοποιητικό δείγμα ώστε


να εξαγάγουμε σωστά συμπεράσματα, αλλά όχι και
πολύ μεγάλο δείγμα για να μην έχουμε μεγάλο
κόστος.

• Υπάρχουν διάφοροι μέθοδοι συλλογής δείγματος,


ώστε να έχουμε όσο γίνεται πιο πλήρη και ακριβή
εικόνα της πραγματικότητας, με τα λιγότερα λάθη.
Θα αναφέρουμε με συντομία τις κυριότερες
μεθόδους επιλογής δείγματος.
Μέθοδοι Κύρια χαρακτηριστικά
δειγματοληψί
ας
Απλή τυχαία Κάθε στοιχείο του πληθυσμού έχει την ίδια
πιθανότητα να επιλεγεί στο δείγμα. Η επιλογή
γίνεται χρησιμοποιώντας τυχαίους αριθμούς.

Κατά στρώματα Χρησιμοποιείται για ανομοιογενή πληθυσμό, ο


οποίος είναι χωρισμένος σε διαφορετικά
στρώματα.
Επιλέγονται στοιχεία με απλή τυχαία
δειγματοληψία από κάθε στρώμα.

Κατά ομάδες Χρησιμοποιείται για πληθυσμό, ο οποίος είναι


χωρισμένος σε παρόμοιες ομάδες. Επιλέγουμε
για δείγμα μία ή περισσότερες ομάδες.
Μέθοδοι Κύρια χαρακτηριστικά
δειγματοληψί
ας
Επιφανειακή Χρησιμοποιείται για πληθυσμό, ο οποίος είναι
χωρισμένος σε γεωγραφικές επιφάνειες.
Επιλέγονται στοιχεία από περιοχές ή από
οικοδομικά τετράγωνα.
Ποσοστών Χρησιμοποιείται για πληθυσμό, για τον οποίο
διαθέτουμε λεπτομερή στοιχεία ως προς κάποια
χαρακτηριστικά του. Το δείγμα επιλέγεται με
αναλογία ποσοστών ώστε να υπάρχουν σ’ αυτό
όλα τα χαρακτηριστικά με την ίδια αναλογία
που υπάρχουν και στον πληθυσμό.

Συστηματική Χρησιμοποιείται όταν ο πληθυσμός, είναι


αριθμημένος. Επιλέγεται ένα στοιχείο στην
τύχη και μετά τα υπόλοιπα στοιχεία του
δείγματος με συστηματική σειρά. Π.χ. το 3ο, το
23ο, το 43ο κλπ
Κατευθυνόμενη Βασίζεται σε υποκειμενικά κριτήρια του
ερευνητή, ο οποίος πρέπει να διαθέτει
αντίστοιχη εμπειρία και καλή γνώση του
πληθυσμού.
Άσκηση
Εξηγείστε με ποια μέθοδο συλλέγονται τα παρακάτω
στατιστικά δεδομένα:

• Τα δεδομένα πληθυσμού των διαφόρων πόλεων της


Ελλάδας
• Τα δεδομένα προτίμησης οδοντόκρεμας του πληθυσμού
της Ελλάδας
• Τα δεδομένα για το πλήθος των καπνιστών της Ελλάδας
• Τα δεδομένα για την αύξηση του Εθνικού Εισοδήματος και
της Συνολικής Κατανάλωσης της Ελλάδας
• Τα δεδομένα για το μέγεθος σεισμών της Ελλάδας
• Τα δεδομένα για τον χρόνο εξυπηρέτησης ενός πελάτη σε
μια τράπεζα
• Τα δεδομένα για το πλήθος των ελαττωματικών
προϊόντων σε μια βιομηχανία
• Τα δεδομένα για τη διάρκεια ζωής ηλεκτρικών λαμπτήρων
• Τα δεδομένα για την αντοχή των ζωνών ασφαλείας σε
αυτοκινητιστικά ατυχήματα.
• Τα δεδομένα για τους θανάτους σε μια πόλη της Ελλάδας
• Τα δεδομένα για την πρόβλεψη των εκλογικών
αποτελεσμάτων
ΚΑΤΑΡΤΙΣΗ
ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ
Πρέπει να προσδιορίσουμε
• τον σκοπό της έρευνάς μας,
• σε ποιον θα απευθύνεται

και κατόπιν να σκεφτούμε τις


ερωτήσεις που θα θέσουμε.
ΕΜΦΑΝΙΣΗ
ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ

• Απλότητα
• προσελκύει το ενδιαφέρον
• να μην είναι πυκνογραμμένο
• να μην είναι πολυσέλιδο
ΔΙΑΤΥΠΩΣΗ
ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ
• Πρέπει να υπάρχει σημείωση για τον σκοπό του
ερωτηματολογίου, για τον τρόπο που θα χρησιμοποιηθούν
οι απαντήσεις των ερωτηματολογίου, και για τον
εμπιστευτικό τους χαρακτήρα.

• Στο πρώτο μέρος υπάρχουν κάποιες ερωτήσεις που


αφορούν στοιχεία χαρακτηριστικά της ταυτότητας του
ατόμου που απαντά (όχι το ονοματεπώνυμό του) .

• Στο δεύτερο μέρος οι κύριες ερωτήσεις για την έρευνα που


κάνουμε, οι οποίες μπορούν να χωρίζονται σε ομάδες,
ανάλογα με το περιεχόμενό τους.

• Τέλος υπάρχει και μια σημείωση που ευχαριστεί των


ερωτώμενο για την συμπλήρωση του ερωτηματολογίου.
Περιεχόμενο
ερωτήσεων
Οι ερωτήσεις του ερωτηματολογίου να είναι
γραμμένες με
• απλότητα,
• σαφήνεια,
• να παρακινούν τον ερωτώμενο να επιλέξει
την απάντηση χωρίς επηρεασμό.
• να μη περιέχει αδιάκριτες ερωτήσεις,
• να υπάρχουν όλες οι δυνατές απαντήσεις και
η δυνατότητα συμπλήρωσης κάποιας άλλης
διαφορετικής απάντησης από τον
ερωτώμενο, αν περιέχει απαντήσεις
πολλαπλής επιλογής
Άσκηση

Εξηγείστε το περιεχόμενο ενός


ερωτηματολογίου για τα
παρακάτω:

• Προτίμηση οδοντόκρεμας του


πληθυσμού της Ελλάδας
• Λόγοι διακοπής ή μη διακοπής
καπνίσματος
• Ικανοποίηση από τις σπουδές
των φοιτητών
Σχολιάστε το παρακάτω ερωτηματολόγιο (σκοπός,
μορφή, περιεχόμενο, είδος ερωτήσεων)

Φύλο : άνδρας  γυναίκα 

Ηλικία : …………..

Οικογενειακή Κατάσταση : άγαμος  έγγαμος  χήρος 


διαζευγμένος 

Αριθμός ατόμων οικογενείας : ……………..

Επίπεδο Μόρφωσης : αγράμματος  A’βάθμια  Β’βάθμια 


Γ’βάθμια 

Ποια είναι η γνώμη σου για τη δημοτικοποίηση των αστικών


συγκοινωνιών :

Πρέπει να γίνει 
Δεν πρέπει να γίνει 
Δεν έχω γνώμη 
Τρόποι συμπλήρωσης
ερωτηματολογίου

• Γραπτώς από τον ερωτώμενο σε


έντυπο ερωτηματολόγιο
• Με συνέντευξη (συμπληρώνει ο
ερευνητής)
• Τηλεφωνικά (συμπληρώνει ο
ερευνητής)
• Ηλεκτρονικά μέσω διαδικτύου
• Με αυτόματο τηλεφώνημα
Κωδικοποίηση
απαντήσεων και
καταγραφή τους σε ΗΥ
• Για να καταγραφούν οι απαντήσεις σε ΗΥ, οι
απαντήσεις συνήθως κωδικοποιούνται με
έναν αριθμό ή ένα χαρακτήρα.
• Στην περίπτωση που έχουμε πολλαπλές
απαντήσεις στην ίδια ερώτηση, χρειάζεται
ιδιαίτερη προσοχή στην κωδικογράφηση.
Εναλλακτικά χρησιμοποιούνται πολλαπλές
στήλες, μια για κάθε δυνατή απάντηση.
παρουσίαση στατιστικών
δεδομένων

• Πίνακες
• Διαγράμματα
• Στατιστικές εκθέσεις

• Ασκήσεις εφαρμογές
Τρόποι παρουσίασης
δεδομένων
Σημαντικό μέρος της περιγραφικής
στατιστικής αναφέρεται στον τρόπο
παρουσίασης των πληροφοριών,
ώστε να κινούν το ενδιαφέρον, και
να εξαγονται εύκολα τα
συμπεράσματα

Οι τρόποι παρουσίασης είναι:


• Στατιστικοί πίνακες

• Στατιστικά διαγράμματα

• Στατιστικές εκθέσεις
πίνακες
• Παρουσιάζουμε τα δεδομένα σε μορφή γραμμών και
στηλών, όπου αναφέρουμε τις τιμές της μεταβλητής και
τις συχνότητες (ή τα ποσοστά) εμφάνισής τους.

• Οι πιο γνωστοί πίνακες είναι οι πίνακες συχνοτήτων:


για μία μεταβλητή (απλοί πίνακες)
• για δύο μεταβλητές (πίνακες διπλής εισόδου)
• για περισσότερες μεταβλητές (πολλαπλοί πίνακες)

Πλεονεκτήματα Μειονεκτήματα
Πληρότητα Δεν ελκύει το
ενδιαφέρον
Ακρίβεια Δυσκολία συγκρίσεων
Στοιχεία πίνακα

Σε κάθε πίνακα που παρουσιάζει


στατιστικά δεδομένα, θα πρέπει
να υπάρχουν τα παρακάτω
στοιχεία:

•Επικεφαλίδα-τίτλος πίνακα
•Κύριο μέρος με γραμμές στήλες
•Υποσημειώσεις πίνακα
•Πηγή συλλογής δεδομένων
Παράδειγμα πολλαπλού
πίνακα
ΑΡΙΘΜΟΣ
ΠΙΝΑΚΑ

ΤΙΤΛΟΣ

ΕΠΙΚΕΦΑΛΙΔΕΣ
ΣΤΗΛΩΝ

ΚΟΡΜΟΣ
ΚΥΡΙΟ
ΣΩΜΑ

ΥΠΟΣΗΜΕΙΩΣΕΙΣ

ΠΗΓΗ

Πηγή: Ε.Σ.Υ.Ε. «Η Ελλάδα με αριθμούς», 2003, σελ. 3


Παρουσίαση μιας
μεταβλητής με πίνακα
Ποιοτική μεταβλητή

Περιοχή καταγωγής
Τιμές Συχνότητα Σχετική Αθροιστική Σχετική
περιοχή συχνότητα συχνότητα αθροιστική
καταγωγής συχνότητα
Θράκη 15 15/80=0,2 15 20%
20%
Μακεδονία 24 24/80=0,3 39 50%
30%
Ήπειρος 12 12/80=0,15 51 65%
15%
Θεσσαλία 10 10/80=0,125 61 77,5%
12,5%
Στερεά 8 8/80=0,1 10% 69 87,5%
Ελλάδα
Υπόλοιπη 11 11/80=0,125 80 100%
12,5%
Ελλάδα
σύνολο 80 1,0 100%

Πηγή: δεδομένα προσομοίωσης


Παρουσίαση μιας
μεταβλητής με πίνακα
Ποσοτική μεταβλητή ασυνεχής

Ημέρες άδειας εργαζομένων


Τιμές πλήθος Συχνότητ Σχετική Αθροιστική Σχετική
ημερών άδειας α συχνότητα συχνότητα αθροιστική
συχνότητα
3 8 8/80=0,1 10% 8 10%
5 24 24/80=0,3 32 40%
30%
7 20 18/80=0,25 52 65%
25%
10 16 18/80=0,20 68 85%
20%
15 8 8/80=0,1 10% 76 95%
20 4 4/80=0,05 80 100%
5%
σύνολο 80 1,0 100%

Πηγή: δεδομένα προσομοίωσης


Παρουσίαση μιας
μεταβλητής με πίνακα
Ποσοτική μεταβλητή συνεχής

Ετήσιο εισόδημα εργαζομένων


Τιμές ετήσιο Συχνότ Σχετική Αθροιστική Σχετική
εισόδημα ητα συχνότητα συχνότητα αθροιστική
συχνότητα
0-5.000 8 8/80=0,1 10% 8 10%
5.000-15.000 24 24/80=0,3 32 40%
30%
15.000-20.000 20 18/80=0,25 52 65%
25%
20.000-30.000 16 18/80=0,20 68 85%
20%
30.000-40.000 8 8/80=0,1 10% 76 95%
40.000-60.000 4 4/80=0,05 80 100%
5%
σύνολο 80 1,0 100%

Πηγή: δεδομένα προσομοίωσης


Πίνακας διπλής
εισόδου
• Μπορούμε να παρουσιάσουμε κάθε μία από τις δύο
μεταβλητές με ένα διαφορετικό πίνακα και να έχουμε
δύο πίνακες συχνοτήτων. Με τον τρόπο αυτό όμως δε
παρουσιάζεται η συχνότητα ταυτόχρονης εμφάνισης
μιας ιδιότητας της πρώτης μεταβλητής με μια ιδιότητα
της δεύτερης μεταβλητής.

• Για να παρουσιάσουμε ακριβώς την συχνότητα που


συμπίπτει να εμφανιστεί η ιδιότητα της πρώτης
μεταβλητής με μια τιμή ή ιδιότητας της δεύτερης
μεταβλητής χρησιμοποιούμε τον πίνακα διπλής εισόδου,
που ονομάζεται και πίνακας συμπτώσεων.

• Στον πίνακα αυτό, στην πρώτη στήλη γράφουμε τις τιμές


της πρώτης μεταβλητής, ενώ στην πρώτη γραμμή της
τιμές της δεύτερης μεταβλητής. Στην διασταύρωση μιας
γραμμής της τιμής i (πρώτης μεταβλητής) και μιας
στήλης της τιμής j (δεύτερης μεταβλητής) γράφουμε το
πλήθος των φορών (συχνότητα) που εμφανίστηκαν
συγχρόνως στα δεδομένα μας η τιμή i και η τιμή j. Η
διασταύρωση αυτή ονομάζεται κελί ij του πίνακα διπλής
εισόδου.
Δημιουργήστε πίνακα διπλής εισόδου από
τα παρακάτω δεδομένα δύο μεταβλητών
φύλο Μέρες
άδειας
Άνδρας 4 Φύλο και μέρες άδειας
Γυναίκα 4 εργαζομένων
Άνδρας 2 0 2 3 4 συνολο

Γυναίκα 4
άνδρας 3 2 2 4 11
Γυναίκα 2
Άνδρας 0
γυναίκα 1 3 3 2 9
Γυναίκα 2
Άνδρας 4 σύνολο 4 5 5 6 20
Άνδρας 3
Γυναίκα 3 Πηγή: δεδομένα προσομοίωσης
Άνδρας 4
Γυναίκα 0
Στον παραπάνω πίνακα,
Γυναίκα 3 μπορούμε πολύ ευκολότερα
Άνδρας 2 να εξετάσουμε τη σχέση
Γυναίκα 2 φύλου και ημερών άδειας, ή
να κάνουμε συγκρίσεις
Άνδρας 0
μελετώντας ποσοστά
Άνδρας 0
Άνδρας 4
Γυναίκα 3
Άνδρας 3
διαγράμματα
• Παρουσιάζουν τα στοιχεία με
εικόνες ώστε να ελκύουν το
ενδιαφέρον.

Πλεονεκτήματα Μειονεκτήματα
ελκυστικά Όχι ακρίβεια στοιχείων
Εύκολα στις Δυσκολία δημιουργίας
συγκρίσεις
Είδη διαγραμμάτων

• Ραβδόγραμμα
• Κυκλικό διάγραμμα
• Ιστόγραμμα
• Χρονοδιάγραμμα
• Χαρτόγραμμα
• Ειδικό διάγραμμα
Ποιοτικές μεταβλητές

• Παρουσιάζονται με:

ραβδόγραμμα Κυκλικό
(bar) διάγραμμα ή
«πίτα» (pie)
Ποσοτικές μεταβλητές

• Παρουσιάζονται με :

συνεχείς διακριτές
(scale) (discretes)

Ιστόγραμμα Ραβδόγραμμα (bar)


(histogram)

Κυκλικό (pie)

Χρονοδιάγραμμα (όταν
αναφέρονται στο χρόνο)
Διαγράμματα σε
καρτεσιανό σύστημα
Στην περίπτωση ιστογράμματος ή
χρονοδιαγράμματος, χρησιμοποιούμε το
καρτεσιανό σύστημα και προσέχουμε τα
εξής:

άξο
110
νας
των 100 Δεν πρέπει να
τετα παραλείπονται
γμέ
νων 30
(Y)
20

10

0 1 2 3 4 5 6 7 8 9
40 41 Χ
άξονας των τετμημένων (X)

Σύστημα ορθογωνίων αξόνων


χρονοδιάγραμμα
χαρτογράμματα
Ειδικά διαγράμματα
σχολιάστε
παρουσίαση συνεχών
ποσοτικών μεταβλητών

• Πίνακες με κλάσεις τιμών


• Ιστόγραμμα
• Παραπλάνηση
Πίνακες κλάσεων
(διαστημάτων)
• Παρουσιάζουμε τα δεδομένα σε μορφή γραμμών και
στηλών, όπου αναφέρουμε τις τιμές της μεταβλητής
και τις συχνότητες (ή τα ποσοστά) εμφάνισής τους.

• Στην περίπτωση συνεχών ποσοτικών μεταβλητών,


επειδή οι τιμές είναι πολλές για να γραφεί κάθε μία σε
μια γραμμή του πίνακα, δημιουργούμε διαστήματα
(κλάσεις) τιμών.

• Το πόσες κλάσεις θα δημιουργήσουμε εξάρτάται από


την ακρίβεια που επιθυμούμε να διατηρήσουμε.
Περισσότερες κλάσεις-μεγαλύτερη ακρίβεια αλλά
πολλές κλάσεις προκαλούν δυσκολίες επεξεργασίας.

• Οι κλάσεις μπορεί να έχουν ίσο πλάτος ή και


διαφορετικό πλάτος. Εξαρτάται από το είδος
δεδομένων που έχουμε.

• Σε περίπτωση πίνακα με άνισα πλάτη κλάσεων,


προσέχουμε πολύ όταν δημιουργούμε το ιστόγραμμα
για να μην μας παραπλανήσει.
Θα πρέπει το εμβαδόν των ιστών να είναι ανάλογο με
τη συχνότητα των κλάσεων. (όχι μόνο το ύψος
ανάλογο όπως συμβαίνει με τις κλάσεις ίσου
πλάτους).
ιστόγραμμα
Τι είναι ένα ιστόγραμμα;
• Μια αναπαράσταση των δεδομένων που δείχνει πόσες
από τις παρατηρήσεις μας βρίσκονται μέσα σε κάποια
διαστήματα τιμών.

Πως φτιάχνουμε ένα ιστόγραμμα;


• 1. Διαιρούμε το εύρος των δεδομένων σε κλάσεις τιμών
κατά προτίμηση ίσου πλάτους.
• 2. Μετρούμε το πλήθος δεδομένων που ανήκει σε κάθε
κλάση.
• 3. Σχεδιάζουμε το ιστόγραμμα χρησιμοποιώντας δύο
κάθετους άξονες. Τοποθετούμε τις κλάσεις συνήθως
στον οριζόντια άξονα, και τις συχνότητες τους στον
κατακόρυφο άξονα.

Για ποιο λόγο χρησιμοποιούμε ένα ιστόγραμμα;


• Το ιστόγραμμα αναπαριστά ένα μεγάλο σύνολο
δεδομένων, με τρόπο που να κατανοούμε εύκολα τα
βασικά τους χαρακτηριστικά
http://www.connectseward.org/shs/da1/review07/Histogram2.htm
Παράδειγμα- ιστόγραμμα
Τιμές (κλάσεις) συχνότητα
20-30 1
30-40 2
40-50 1
50-60 2
60-70 6
70-80 9
80-90 13
90-100 5
σύνολο 39

http://www.cyber-wit.com/gallery_histogram.html
Παραπλανητικό
ιστόγραμμα
• Διαστρέβλωση, πολλές φορές, της πραγματικότητας,
γίνεται από κακή χρήση της στατιστικής.

• Δυστυχώς από άγνοια ή σκοπιμότητα, ολοένα και πιο


συχνά, γίνεται εσφαλμένη χρήση των στατιστικών
μεθόδων παρουσίασης, ανάλυσης και ερμηνείας
δεδομένων με αποτέλεσμα να δημιουργείται ψευδής
και στρεβλή εικόνα για την πραγματικότητα.

• Οι εντυπώσεις όμως μένουν! Φυσικά δεν ευθύνεται η


στατιστική!

Είναι γνωστή άλλωστε η φράση:


figures do not lie, but liars figure
(Τα σχήματα δεν ψεύδονται αλλά οι ψεύτες σχεδιάζουν)
Παράδειγμα μη σωστού

ιστογράμματος
Τα παρακάτω ιστογράμματα κατασκευάστηκαν για να περιγράψουν
την κατανομή των οικογενειών στις ΗΠΑ ως προς το ετήσιο
εισόδημά τους το 1973.
• Το πρώτο ιστόγραμμα είναι παραπλανητικό καθώς δημιουργεί την
εντύπωση ότι η οικονομική κατάσταση των οικογενειών στις ΗΠΑ
είναι καλύτερη από την πραγματική. Φαίνεται ότι οι οικογένειες
που έχουν εισόδημα μεγαλύτερο από 25.000 δολάρια είναι
περισσότερες από αυτές που έχουν εισόδημα μικρότερο από
7.000 δολάρια.
• Βέβαια τα πραγματικά δεδομένα λένε το ακριβώς αντίθετο (8%
και 25% αντίστοιχα).
• Ο δημιουργός του ιστογράμματος είτε δεν γνώριζε είτε αγνόησε
σκοπίμως το στοιχειώδες ότι στην κατασκευή ενός ιστογράμματος
τα εμβαδά των ορθογωνίων και όχι τα ύψη αντιστοιχούν στις
συχνότητες (απόλυτες ή σχετικές αναλόγως). Το σωστό
ιστόγραμμα είναι το δεύτερο που αποδίδει και τη σωστή εικόνα της
κατανομής!

Γ.Παπαδόπουλος, Εργαστήριο Μαθηματικών & Στατιστικής, ΓΠΑ


http://antirisis.wordpress.com/2010/01/13/%CF%85%CF%80%CE%AC%CF%81%CF%87%CE%BF%CF%85%C
E%BD-%CF%88%CE%AD%CE%BC%CE%BC%CE%B1%CF%84%CE%B1-
%CE%BC%CE%B5%CE%B3%CE%AC%CE%BB%CE%B1-
%CF%88%CE%AD%CE%BC%CE%B1%CF%84%CE%B1-%CE%BA%CE%B1%CE%B9-%CE%B7-%CF%83/
Προσπελάστηκε στις 11-3-2011
Στατιστικές εκθέσεις
• Είναι οι αναφορές για στατιστικά δεδομένα, οι
οποίες παρουσιάζουν πίνακες και διαγράμματα με
ταυτόχρονο σχολιασμό τους και παροχή επιπλέον
σχολίων.
• Στις στατιστικές εκθέσεις μπορεί να αναφέρεται και
η κρίση του συγγραφέα, ή συγκριτικά στοιχεία από
άλλες στατιστικές εκθέσεις.
• Κύριο χαρακτηριστικό τους είναι ο συνδυασμός
διαγραμμάτων, πινάκων και σχολίων –
συμπερασμάτων, ώστε να κατανοηθεί καλύτερα ένα
φαινόμενο.
Παρουσιάστε με διάγραμμα
κέρδη (χιλ. €) Συχνότητα

0-10 10
10-20 20
20-40 30
40-60 15
60-100 20
100-200 30
Σύνολο 125

κέρδη (χιλ. Συχνότητα Υψος ιστογράμματος


€)
0-10 10

10-20 20
20-40 30

40-60 15

60-100 20

100-200 30

Σύνολο 125
Παρουσιάστε με διάγραμμα
Πίνακας συχνοτήτων

τιμές συχνότητες

κίτρινο 3
κόκκινο 2
μαύρο 2
πράσινο 3

Σύνολο 10

Κοινόχρηστα (€) Συχνότητα


80-100 4
100-120 7
120-140 9
140-160 13
160-180 9
180-200 5
200-220 3
Σύνολο 50
Άσκηση
Εξηγείστε με ποιο διάγραμμα θα παρουσιάσετε τα παρακάτω
στατιστικά δεδομένα:

• Τα δεδομένα πληθυσμού των διαφόρων πόλεων της


Ελλάδας
• Τα δεδομένα προτίμησης οδοντόκρεμας του πληθυσμού
της Ελλάδας
• Τα δεδομένα για το μέγεθος σεισμών της Ελλάδας
• Τα δεδομένα για τον χρόνο εξυπηρέτησης ενός πελάτη σε
μια τράπεζα
• Τα δεδομένα για τη διάρκεια ζωής ηλεκτρικών λαμπτήρων
• Τα δεδομένα για την πρόβλεψη των εκλογικών
αποτελεσμάτων
• Τα δεδομένα για την βαθμολογία ενός μαθήματος στην
εξεταστική
• Τα δεδομένα για το ποσοστό επιτυχίας όλων των
μαθημάτων σε μια εξεταστική
Σχολιάστε με μια στατιστική έκθεση
Mέτρα (παράμετροι)
θέσεως

• Είδη παραμέτρων
• Σκοπός μέτρων θέσεως
• Μέτρα θέσεως

• Αριθμητικός μέσος
• Επικρατούσα τιμή
• Διάμεσος
• Τεταρτημόρια
Σύντομη περιγραφή

Το πρώτο βήμα της ανάλυσης των δεδομένων, είναι η


σύντομη περιγραφή τους.

Για την περιγραφή τους χρησιμοποιούνται διάφοροι


υπολογισμοί που προκύπτουν από τα δεδομένα και
εκφράζουν με ένα αριθμό (παράμετρο) όλο το πλήθος
των δεδομένων,
ως προς κάποια χαρακτηριστικά τους που μας
ενδιαφέρουν.

Οι υπολογισμοί αυτοί αφορούν αριθμούς,


χρησιμοποιούνται μόνο για ποσοτικά δεδομένα.
(Δεδομένα δηλαδή που περιγράφονται από μεταβλητές
ποσοτικές και όχι από ποιοτικές μεταβλητές.)
παραδείγματα

Συχνά τα μέσα μαζικής ενημέρωσης ή εμείς στην καθημερινή


μας ζωή σχολιάζουμε ερωτήματα όπως τα παρακάτω:

• Ποιο είναι το μέσο κόστος ζωής στην Ελλάδα;


• Ποιο είναι το μέσο εισόδημα των Ελλήνων;
• Πόσα χρήματα καταναλώνει την εβδομάδα ένας φοιτητής;
• Ποια είναι η τιμή του πετρελαίου θέρμανσης;
• Αυξήθηκε ή όχι η τιμή της ντομάτας;
• Η βαθμολογία ενός καθηγητή στις εξετάσεις του
μαθήματος Στατιστικής ήταν επιεικής ή αυστηρή;
• Ποια είναι η μέση θερμοκρασία στην πόλη μας αυτό το
μήνα;
• Ποιος είναι ο ημερήσιος τζίρος εμπορικών καταστημάτων;
Δυσκολίες απάντησης

• Ας θεωρήσουμε τη τιμή της ντομάτας.


• Για να απαντήσουμε αν αυξήθηκε ή όχι η τιμή της
ντομάτας, χρειάζεται να ξέρουμε την περσινή τιμή και
την τωρινή τιμή της.

• Στο μανάβικο της γειτονιάς μας το κιλό ντομάτας


πωλείται σήμερα 2,5 ευρώ, χθες πωλούνταν 2,8 ευρώ
και πέρυσι η τιμή πώλησης ήταν 2,6 ευρώ.
• Στη λαϊκή Αγορά της γειτονιάς μας η τιμή πέρυσι ήταν
2,3 ευρώ και σήμερα είναι 2 ευρώ ενώ την
προηγούμενη εβδομάδα ήταν 2,5 ευρώ.

• Με όλα τα στοιχεία αυτά δεν μπορούμε να δώσουμε


μια γρήγορη απάντηση για το αν τελικά μεταβλήθηκε
η τιμή της ντομάτας φέτος.
Είδη παραμέτρων

Πρέπει να ορίσουμε κάποιες παραμέτρους που θα μας


επιτρέπουν να εκφράζουμε μεγάλο πλήθος δεδομένων με
μια αντιπροσωπευτική τιμή, ώστε στη συνέχεια να
μπορούμε ευκολότερα να κάνουμε συγκρίσεις.

Ανάλογα με το τι θέλουμε να αντιπροσωπεύει η τιμή αυτή,


μπορούμε να υπολογίσουμε παραμέτρους που
αντιπροσωπεύουν την θέση (σε μια κλίμακα μετρήσεων)
των ποσοτικών δεδομένων και οι οποίες ονομάζονται μέτρα
θέσεως

ή το εύρος διασποράς των τιμών των ποσοτικών


δεδομένων οι οποίες ονομάζονται μέτρα διασποράς

ή ακόμη το σχήμα του διαγράμματος που περιγράφει όλα


τα ποσοτικά δεδομένα κι οι οποίες ονομάζονται μέτρα
ασυμμετρίας και κύρτωσης.
ΜΕΤΡΑ ΘΕΣΕΩΣ

• Αντιπροσωπεύουν και περιγράφουν με


έναν αριθμό τη θέση των ποσοτικών
δεδομένων μας σε μια κλίμακα μέτρησης.
• Η επιλογή της τιμής που θα
αντιπροσωπεύσει τα ποσοτικά δεδομένα,
μπορεί να γίνει με διάφορους τρόπους.
Ανάλογα με τον τρόπο που υπολογίζεται
αυτή η αντιπροσωπευτική τιμή έχουμε
– τον αριθμητικό μέσο (μέσο όρο)
– την επικρατούσα τιμή
– τη διάμεσο
– τα τεταρτημόρια
Αριθμητικός μέσος

• Συμβολίζεται με μ ή X
• Είναι μια τιμή που εκφράζει την
«ισότητα-ομοιομορφία» στα
δεδομένα μας. Αν όλα είχαν την
ίδια τιμή αυτή θα ήταν ο
αριθμητικός μέσος (ή μέση τιμή)
• Η τιμή αυτή κάποιες φορές δεν
εμφανίζεται ποτέ στα πραγματικά
δεδομένα.
Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Κάποιες φορές δεν έχει
Εύκολος υπολογισμός φυσικό νόημα.
Επηρεάζεται από ακραίες
τιμές
Ιδιότητες αριθμητικού μέσου
 1η Ιδιότητα: Το αλγεβρικό άθροισμα των αποκλίσεων
όλων των τιμών της μεταβλητής Χ από τον αριθμητικό μέσο
είναι 0. n

 X  X   0
i 1
i

 2η Ιδιότητα: Αν οι τιμές της μεταβλητής Χ είναι


σταθερές, αν δηλαδή: Χ1=Χ2=…=Χn=α, τότε ο αριθμητικός
μέσος Xισούται κι’ αυτός με α 1 1
X   Xi   nα  α
n πάντοτε
 3η Ιδιότητα: Ο αριθμητικός μέσος έχει n τιμή που
βρίσκεται μεταξύ της μικρότερης και μεγαλύτερης τιμής της
μεταβλητής.
 min  Xi  max  min  X  max
 4η Ιδιότητα: Αν α και β πραγματικοί αριθμοί και X
ο αριθμητικός μέσος της μεταβλητής Χ, τότε ο αριθμητικός μέσος
της μεταβλητής: Υ=α+βΧ είναι:

Y  α  βX
 5η Ιδιότητα: Το άθροισμα των τετραγώνων των
αποκλίσεων όλων των τιμών Χi της μεταβλητής
X X από τον
αριθμητικό τους
. μέσο είναι μικρότερο του ίδιου
αθροίσματος από οποιονδήποτε άλλον αριθμό
 
n n

 X i  α  2
  Xi  X
2

i 1 i 1

δηλαδή, το άθροισμα είναι ελάχιστο όταν α= X


Σταθμισμένος μέσος

Αν στις τιμές Χ1, Χ2, …,Χκ της μεταβλητής Χ


αντιστοιχούν οι συντελεστές βαρύτητας, σταθμίσεις: Π1,
Π2,…,Πκ, τότε ο σταθμικός ή σταθμισμένος αριθμητικός
μέσος δίνεται από την σχέση:
k

 X i i

X  i 1
k


i 1
i

• Ποια η μέση αξιολόγηση ενός μαθητή που έλαβε στο


μάθημα των Νέων Ελληνικών 12, των Αρχαίων 16, των
Μαθηματικών 18 και της Φυσικής, 14 όταν οι
συντελεστές βαρύτητας των μαθημάτων αυτών είναι:
4, 4, 2, 1

4  12  4  16  2  18  1  14 162
X   14.7
4  4  2 1 11
Επικρατούσα τιμή (ή
τύπος)
• Συμβολίζεται με Τ
• Είναι η τιμή που εμφανίζεται πιο
συχνά στα δεδομένα μας. Είναι
δηλαδή η τιμή με την
μεγαλύτερη συχνότητα.

Πλεονεκτήματα Μειονεκτήματα
Εύκολος Δεν υπάρχει πάντα μια
υπολογισμός τιμή με την μεγαλύτερη
συχνότητα αλλά πολλές
τιμές με την ίδια
συχνότητα.
Διάμεσος

• Συμβολίζεται με Μ
• Είναι η τιμή που διαχωρίζει τα
δεδομένα μας στη μέση. Είναι
δηλαδή η τιμή κάτω από την
οποία βρίσκονται τα μισά
δεδομένα και πάνω από αυτή τα
άλλα μισά.
Πλεονεκτήματα Μειονεκτήματα
Δεν επηρεάζεται από Δεν αντιπροσωπεύει όλα τα
ακραίες τιμές δεδομένα
Εύκολος
υπολογισμός
Τεταρτημόρια
(πρώτο και τρίτο)
• Πρώτο τεταρτημόριο Q1
• Είναι η τιμή που διαχωρίζει τα δεδομένα μας
σε ένα τέταρτο των «χαμηλών». Είναι
δηλαδή η τιμή κάτω από την οποία
βρίσκεται το ένα τέταρτο των δεομένων και
πάνω από αυτή τα υπόλοιπα τρία τέταρτα.

• Τρίτο τεταρτημόριο Q3
• Είναι η τιμή που διαχωρίζει τα δεδομένα μας
σε ένα τέταρτο των «υψηλών». Είναι δηλαδή
η τιμή πάνω από την οποία βρίσκεται το ένα
τέταρτο των δεομένων και κάτω από αυτή
τα υπόλοιπα τρία τέταρτα.
Πλεονεκτήματα Μειονεκτήματα
Δεν επηρεάζονται από Δεν αντιπροσωπεύουν όλα
ακραίες τιμές τα δεδομένα
Εύκολος υπολογισμός
Χρησιμότητα
ερμηνείας
Βήματα εύρεσης διαμέσου
τεταρτημορίων
Απλά δεδομένα
1. τοποθετώ τα δεδομένα σε αύξουσα σειρά
2. βρίσκω αυτό που είναι στη
• Θέση n/2 για τη διάμεσο
• Θέση n/4 για το 1ο τεταρτημόριο
• Θέση ¾n για το 3ο τεταρτημόριο
Δεδομένα με πίνακα συχνοτήτων
1. Υπολογίζω τη στήλη με την αθροιστική συχνότητα
2. Βρίσκω την τιμή (ή το διάστημα) όπου η αθροιστική
συχνότητα ξεπερνά την τιμή
• n/2 για τη διάμεσο
• n/4 για το 1ο τεταρτημόριο
• ¾n για το 3ο τεταρτημόριο
3. Εντοπίζω την αντίστοιχη τιμή διαμέσου, ή
τεταρτημορίου είτε άμεσα (Χi αν δεν υπάρχουν
διαστήματα) είτε με τον παρακάτω τύπο (i διάστημα):
• M = xi-1+d/fi (n/2-Fi-1)
• Q1= xi-1+d/fi (n/4-Fi-1)
• Q3= xi-1+d/fi (3n/4-Fi-1)
Άσκηση

Υπολογίστε τα μέτρα θέσεως για


τα παρακάτω δεδομένα:

Ημέρες άδειας
3, 4, 5, 2, 7, 3, 4, 5, 9, 8, 2, 1, 1, 3, 4, 4, 1, 5,

ΜΙΣΘΟΣ 160 220 280 350


Αριθμός Υπαλλήλων 56 12 5 3

Ώρες 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70
Αρ.Εργ 2 9 24 31 22 13 3 3 3
Λύση για μισθούς
μέση τιμή

Xi fi fiXi
160 56 8960
220 12 2640
280 5 1400
350 3 1050
Αθροίσματα 76 14050

1 14050
X   fi Xi   184.87
n 76
Λύση για μισθούς
διάμεσος, τεταρτημόρια
Xi fi Fi ξεπερνά
160 56 56 >38
>19
220 12 68 >57
280 5 73

350 3 76

Αθροίσματα 76

n 76
  38  M  160
2 2
n 76
  19  Q1  160
4 4
n 76
3 3  57  Q 3  220
4 4
Λύση με το SPSS

μισθός
Cumulative
Frequency Percent Valid Percent Percent
Valid 160 56 73,7 73,7 73,7
220 12 15,8 15,8 89,5
280 5 6,6 6,6 96,1
350 3 3,9 3,9 100,0
Total 76 100,0 100,0

Statistics

μισθός
N Valid 76
Missing 0
Mean 184,87
Median 160,00
Mode 160
Minimum 160
Maximum 350
Percentiles 25 160,00
50 160,00
75 220,00
Λύση για ώρες
μέση τιμή

Χ fi Xi f iX i
25-30 2 27.5 55.0
30-35 9 32.5 292.5
35-40 24 37.5 900.0
40-45 31 42.5 1317.5
45-50 22 47.5 1045.0
50-55 13 52.5 682.5
55-60 3 57.5 172.5
60-65 3 62.5 187.5
65-70 3 67.5 202.5
Σύνολο 110 4855.0

 fX i i
4855
X  i 1
k
  44.136  44.1ώ
f
110
i
i 1
Λύση για ώρες
διάμεσος τεταρτημόρια

Χ fi Fi ξεπερνά
25-30 2 2
30-35 9 11
35-40 24 35 >n/4 =27.5
40-45 31 66 >n/2=55
45-50 22 88 >3n/4=82.5
50-55 13 101
55-60 3 104
60-65 3 107
65-70 3 110
Σύνολο 110

n 110
  55  M  40  5 / 31(55  35)  43,2ώ
2 2
n 110
  27,5  Q1  35  5 / 24( 27,5  11)  38,4ώ
4 4
n 110
3 3  82,5  Q 3  45  5 / 22(82,5  66)  48,75ώ
4 4
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή πλήθος αντικειμένων και ποσό που
πληρώθηκε

Statistics

Πλήθος
αντικειμένων που
αγοράστηκαν Ποσό πληρωμής
N Valid 26280 26280
Missing 0 0
Mean 2,36 196,2524
Median 2,00 141,7750
Mode 0 ,00
Minimum 0 ,00
Maximum 13 1439,37
Percentiles 25 ,00 ,0000
50 2,00 141,7750
75 4,00 311,3125
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή ποσό που πληρώθηκε ανάλογα με
το φύλο ατόμου

Descriptives
Gender Statistic Std. Error
Amount spent Male Mean 195,2478 1,79391
95% Confidence Lower 191,7315
Interval for Mean Bound
Upper 198,7642
Bound
5% Trimmed Mean 175,2106
Median 140,8650
Variance 43251,662
Std. Deviation 207,97034
Minimum ,00
Maximum 1439,37
Range 1439,37
Interquartile Range 314,38
Skewness 1,211 ,021
Kurtosis 1,250 ,042
Female Mean 197,3038 1,85225
95% Confidence Lower 193,6732
Interval for Mean Bound
Upper 200,9345
Bound
5% Trimmed Mean 176,8384
Median 142,8800
Variance 44051,703
Std. Deviation 209,88498
Minimum ,00
Maximum 1321,55
Range 1321,55
Interquartile Range 308,77
Skewness 1,258 ,022
Kurtosis 1,406 ,043
θηκόγραμμα
• Είναι ένα διάγραμμα με ένα ή περισσότερα ορθογώνια
(box plot), στο οποίο παρουσιάζονται οι τιμές των
μεγίστων ελαχίστων, (επάνω και κάτω άκρο),
• των τεταρτημορίων (επάνω και κάτω πλευρά
ορθογωνίου) και
• της διαμέσου (έντονη γραμμή μέσα στο ορθογώνιο).
• Είναι πολύ χρήσιμο για συγκρίσεις
Σχολιάστε τα μέτρα θέσεως
Τα παρακάτω δεδομένα
παρουσιάζουν το ποσό που
πληρώθηκε μέσω πιστωτικής
κάρτας για διάφορες κατηγορίες
δαπανών.
Τι συμπεράσματα μπορείτε να
βγάλετε;

Case Summaries
Amount spent
Type of transaction N Mean Median Min Maximum
Grocery (τρόφιμα) 5256 129,2772 88,4150 ,00 761,53
Retail (είδη σπιτιού) 5256 312,5793 264,3250 ,00 1439,37
Entertainment (διασκέδαση) 5256 135,4265 94,2100 ,00 974,82
Travel (ταξίδια) 5256 199,1811 149,8850 ,00 1167,67
Other (άλλα) 5256 204,7978 172,6150 ,00 1012,50
Total (σύνολο) 26280 196,2524 141,7750 ,00 1439,37
Ασκήσεις για λύση

1. Σας δίνονται τα παρακάτω ομαδοποιημένα δεδομένα για τις ημερήσιες


πωλήσεις καφέδων του κυλικείου, στη διάρκεια ενός τριμήνου.
α) Σχεδιάστε ένα γράφημα όσο πιο εποπτικό μπορείτε, για να περιγράψετε τα
δεδομένα.
β) Υπολογίστε τον αριθμητικό μέσο και ερμηνεύστε τι σημαίνει η τιμή του.
γ) Βρείτε τη διάμεσο και τα τεταρτημόρια και σχολιάστε την τιμή τους.
Πωλήσεις Συχνότητα
(πλήθος) (ημέρες)
0-40 5
40-80 5
80-120 30
120-160 30
160-240 20
Σύνολο 90

2. Σας δίνονται τα παρακάτω δεδομένα για την ημερήσια κατανάλωση


ρεύματος 15 νοικοκυριών.
3 5 6 5 8 9 7 2 3 4 5 6 4 7 15
α) Υπολογίστε τον αριθμητικό μέσο και ερμηνεύστε τι σημαίνει η τιμή του.
β) Βρείτε τη διάμεσο και τα τεταρτημόρια και σχολιάστε την τιμή τους.

3. Σε ένα εργοστάσιο εργάζονται 180 ειδικευμένοι άνδρες με μέσο


ημερομίσθιο 44 ευρώ , και τυπική απόκλιση 10 ευρώ. Ακόμη εργάζονται 120
ειδικευμένες γυναίκες με μέσο ημερομίσθιο 41 ευρώ , και τυπική απόκλιση 8
ευρώ. Να βρεθεί το κοινό μέσο ημερομίσθιο όλων των εργαζομένων.
α) Αν η διεύθυνση του εργοστασίου αποφασίσει να δώσει επίδομα 5 ευρώ σε
όλους, ποιο το νέο μέσο ημερομίσθιο όλων των εργαζομένων;
β) Αν η διεύθυνση του εργοστασίου αποφασίσει να δώσει αύξηση 10% σε
όλους, ποιο το νέο μέσο ημερομίσθιο όλων των εργαζομένων;
Mέτρα (παράμετροι)
διασποράς

• Σκοπός – χρησιμότητα

• Εύρος
• Διακύμανση
• Τυπική απόκλιση
• Συντελεστής μεταβλητότητας
Σύγκριση δειγμάτων
• Τα παρακάτω δεδομένα παρουσιάζουν
τους πόντους των παικτών για δύο
ομάδες μπάσκετ.
• Οι ομάδες μπορούν να θεωρηθούν
ισάξιες;
Α Β
10 7
43 14
43 15
46 23
47 38
48 48
50 50
50 50
52 75
52 85
54 90
Σύγκριση δειγμάτων
Α Β
10 7
43 14
43 15
46 23
47 38
48 48
50 50
50 50
52 75
52 85
54 90

• XA = 45 XB=45
ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ

• Αντιπροσωπεύουν και
περιγράφουν με έναν αριθμό τη
μεταβλητότητα («άπλωμα») των
ποσοτικών δεδομένων μας.
• Η επιλογή της τιμής που θα
αντιπροσωπεύσει τα ποσοτικά
δεδομένα, μπορεί να γίνει με
διάφορους τρόπους. Ανάλογα με
τον τρόπο που υπολογίζεται αυτή η
αντιπροσωπευτική τιμή έχουμε
– Το εύρος
– την διακύμανση
– Την τυπική απόκλιση
Εύρος (Range)

• Συμβολίζεται με R
• Είναι το απλούστερο μέτρο διασποράς
και αντιπροσωπεύει τη διαφορά
μεταξύ της μεγαλύτερης και
μικρότερης τιμής.

• R= μέγιστη τιμή – ελάχιστη τιμή

Πλεονεκτήματα Μειονεκτήματα
απλότητα Περιγράφει μόνο τις
Εύκολος υπολογισμός ακραίες τιμές και
καθόλου τις υπόλοιπες
Ενδοτεταρτημοριακό
Εύρος (interquartile)

• Συμβολίζεται με Q3-Q1
• Είναι η διαφορά μεταξύ του τρίτου και
πρώτου τεταρτημορίου.
• Περιλαμβάνει το 50% των δεδομένων.
Διακύμανση ή
διασπορά (Variance)

• Συμβολίζεται με σ2 ή S2 ή Var(X)
• Είναι μια τιμή που εκφράζει την
«ανομοιογένεια» στα δεδομένα μας.
Πόσο πάνω κάτω απέχουν από τη
μέση τιμή τους
N n

 ( Xi   ) 2
 ( Xi  X ) 2

2  i 1
. .s 2
 i 1

N n 1

Διαφορετικά ο τύπος γράφεται


σ2=ΣΧι2/N –μ2 και s2=ΣΧι2/n –X2

Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Απαιτεί να βρούμε πρώτα
τη μέση τιμή
Δεν μετριέται με τις ίδιες
μονάδες μέτρησης που
μετρήθηκαν τα δεδομένα.
παράδειγμα

Χi Xi-X (Xi-X)2
(λεπτά
καθυστέρησης)
8 8-6=2 4
6 6-6=0 0
7 7-6=1 1
3 3-6=-3 9
σύνολο 14

S2= 14/4= 3,5 λεπτά2


Τυπική απόκλιση
(standard deviation)

• Συμβολίζεται με σ ή S
• Είναι μια τιμή που εκφράζει πόσο
απέχουν τα δεδομένα από τη μέση
τιμή τους και μετριέται με τις ίδιες
μονάδες μέτρησης των δεδομένων

   2 ... ...s  s2

Πλεονεκτήματα Μειονεκτήματα
Αντιπροσώπευση Απαιτεί να βρούμε
Μετριέται με τις ίδιες πρώτα τη διακύμανση
μονάδες μέτρησης που
μετρήθηκαν τα δεδομένα.
Ιδιότητες τυπικής απόκλισης
 1η Ιδιότητα: Η τυπική απόκλιση έχει πάντα θετική τιμή.

 2η Ιδιότητα: Αν οι τιμές της μεταβλητής Χ είναι


σταθερές, αν δηλαδή: Χ1=Χ2=…=Χn=α, τότε η τυπική
απόκλιση είναι 0

1 1

n
 ( Xi   ) 2

n
0  0

 3η Ιδιότητα: Αν α και β πραγματικοί αριθμοί και σx


η τυπική απόκλιση της μεταβλητής Χ, τότε η τυπική απόκλιση της
μεταβλητής: Υ=α+βΧ είναι:

 Y  β X

 4η Ιδιότητα: Το άθροισμα των τετραγώνων των


αποκλίσεων όλων των τιμών Χi της μεταβλητής X από τον
X
αριθμητικό τους μέσο είναι μικρότερο του ίδιου
αθροίσματος .από οποιονδήποτε άλλον αριθμό

 
n n

  X i    
2
 X i  X
2

i 1 i 1

δηλαδή, η τυπική απόκλιση αντιπροσωπεύει το ελάχιστο


άθροισμα αποκλίσεων
Συντελεστής μεταβλητότητας
(coefficient of variation)

Συμβολίζεται με CV

Δεν έχει μονάδες μέτρησης

Εκφράζει τη μεταβλητότητα σε ποσοστό



CV 

s
CV 
X

• Χρησιμοποιείται όταν θέλουμε να


συγκρίνουμε δύο σύνολα δεδομένων
που οι μέσες τιμές τους διαφέρουν
Άσκηση

Υπολογίστε τα μέτρα διασποράς


για τα παρακάτω δεδομένα:

Ημέρες άδειας
3, 4, 5, 2, 7, 3, 4, 5, 9, 8, 2, 1, 1, 3, 4, 4, 1, 5,

ΜΙΣΘΟΣ 160 220 280 350


Αριθμός Υπαλλήλων 56 12 5 3

Ώρες 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70
Αρ.Εργ 2 9 24 31 22 13 3 3 3
Λύση για μισθούς

Xi fi fiXi ( -
fi Xi x)2
160 56 8960 34636,95
220 12 2640 14809,40
280 5 1400 45248,58
350 3 1050 81803,75
Αθροίσματα 76 14050 176498,68
1 176498,68
s2 
n 1
 fi ( Xi  X ) 2

76  1
 2353,32

s  2353,32  48,51

1 14050
X 
n
 fi X i 
76
 184.87
Λύση για ώρες
Χ fi Xi
( -
fi Xi x)2
25-30 2 27.5 551,12
30-35 9 32.5 1211,04
35-40 24 37.5 1045,44
40-45 31 42.5 79,36
45-50 22 47.5 254,32
50-55 13 52.5 917,28
55-60 3 57.5 538,68
60-65 3 62.5 1015,68
65-70 3 67.5 1642,68
Σύνολο 110 7255,60

 fX i i
4855
X  i 1
k
  44.136  44.1
110
f
i 1
i

1 7255,60
s2 
n 1
 fi ( Xi  X ) 2 
110  1
 66,56

s  66,56  8,16
άσκηση

• Χωρίς να κάνετε υπολογισμούς


βρείτε ποιο από τα τρία παρακάτω
δείγματα έχει τη μεγαλύτερη και
ποιο τι μικρότερη μεταβλητότητα

Α 17 28 11 16 10

Β 23 19 24 20 18

Γ 25 36 5 38 28
Σχολιάστε τα παρακάτω αποτελέσματα για την
μεταβλητή ποσό που πληρώθηκε ανάλογα με
το φύλο ατόμου, σε ότι αφορά την διασπορά

Descriptives
Gender Statistic Std. Error
Amount spent Male Mean 195,2478 1,79391
95% Confidence Lower 191,7315
Interval for Mean Bound
Upper 198,7642
Bound
5% Trimmed Mean 175,2106
Median 140,8650
Variance 43251,662
Std. Deviation 207,97034
Minimum ,00
Maximum 1439,37
Range 1439,37
Interquartile Range 314,38
Skewness 1,211 ,021
Kurtosis 1,250 ,042
Female Mean 197,3038 1,85225
95% Confidence Lower 193,6732
Interval for Mean Bound
Upper 200,9345
Bound
5% Trimmed Mean 176,8384
Median 142,8800
Variance 44051,703
Std. Deviation 209,88498
Minimum ,00
Maximum 1321,55
Range 1321,55
Interquartile Range 308,77
Skewness 1,258 ,022
Kurtosis 1,406 ,043
Ασκήσεις για λύση

1. Σας δίνονται τα παρακάτω ομαδοποιημένα δεδομένα για τις ημερήσιες


πωλήσεις καφέδων του κυλικείου, στη διάρκεια ενός τριμήνου.
α) Υπολογίστε τον αριθμητικό μέσο και ερμηνεύστε τι σημαίνει η τιμή του.
β) Βρείτε τη διακύμανση και την τυπική απόκλιση και σχολιάστε την τιμή τους.
Πωλήσεις Συχνότητα
(πλήθος) (ημέρες)
0-40 5
40-80 5
80-120 30
120-160 30
160-240 20
Σύνολο 90
2. Σας δίνονται τα παρακάτω δεδομένα για την ημερήσια κατανάλωση
ρεύματος 15 νοικοκυριών.
3 5 6 5 8 9 7 2 3 4 5 6 4 7 15
α) Υπολογίστε τον αριθμητικό μέσο και ερμηνεύστε τι σημαίνει η τιμή του.
β) Βρείτε τη διακύμανση και την τυπική απόκλιση και σχολιάστε την τιμή τους.
γ) Υπολογίστε το συντελεστή μεταβλητότητας

3. Σε ένα εργοστάσιο εργάζονται 180 ειδικευμένοι άνδρες με μέσο


ημερομίσθιο 44 ευρώ , και τυπική απόκλιση 10 ευρώ. Ακόμη εργάζονται 120
ειδικευμένες γυναίκες με μέσο ημερομίσθιο 41 ευρώ , και τυπική απόκλιση 8
ευρώ. Να βρεθεί το κοινό μέσο ημερομίσθιο όλων των εργαζομένων καθώς κι
η κοινή τυπική τους απόκλιση.
α ) Συγκρίνετε τους συντελεστές μεταβλητότητας για τους άνδρες και για τις
γυναίκες.
β) Αν η διεύθυνση του εργοστασίου αποφασίσει να δώσει επίδομα 5 ευρώ σε
όλους, ποια η νέα τυπική απόκλιση όλων των εργαζομένων;
γ) Αν η διεύθυνση του εργοστασίου αποφασίσει να δώσει αύξηση 10% σε
όλους , ποια η νέα τυπική απόκλιση όλων των εργαζομένων;

Σημείωση Χρησιμοποιείστε τις ιδιότητες τυπικής απόκλισης ή βρείτε το


άθροισμα τετραγώνων όλωνΣΧι2=ΣΧι2 +ΣΧι2
Μπορείτε να χρησιμοποιείστε τον τύπο: σ2=ΣΧι2/N –μ2
Σχέση μεταξύ
Μεταβλητών - Συσχέτιση

Δρ. Αγγελίδης Βασίλης

Στόχοι Ενότητας
✓ Μεταβλητές

✓ Συντελεστές Συσχέτισης

✓ Pearson (Παραμετρικό τεστ)

✓ Spearman – Kendal (Μη Παραμετρικό Τεστ)

2 από 58
Μεταβλητές

Ανεξάρτητες Μεταβλητές
➢ Είναι σταθερές που ο ερευνητής χειρίζεται ανεξάρτητα από τι τις επηρεάζει, ή
προσδιορίζει. Αυτές καθορίζονται εκ των προτέρων.
➢ Για παράδειγμα εξετάζουμε μια στατιστική μονάδα (π.χ. τον φοιτητή)

ανεξάρτητα των μεταβλητών ύψους, βάρους, οικογενειακής κατάστασης, κλπ.


➢ Η ανεξάρτητη μεταβλητή μπορεί να είναι ποσοτική ή ποιοτική
➢ Στα μαθηματικά αποδίδεται ως συνάρτηση της ανεξάρτητης (χ) από την

εξαρτημένη (y) μεταβλητή, όπου y = f(x).

3 από 58

Μεταβλητές

Εξαρτημένη Μεταβλητή
➢ Είναι η μεταβλητή που ερευνάται στη μελέτη. Σε ορισμένες περιπτώσεις είναι
το αποτέλεσμα μιας πειραματικής διαδικασίας.
➢ Η μεταβλητότητα στην εξαρτημένη μεταβλητή λογικά εξαρτάται από τις
συνθήκες που χειρίζεται ο ερευνητής στη μελέτη. Στις πιο πολλές μελέτες, οι
εξαρτημένες μεταβλητές είναι εκείνες που ο ερευνητής στοχεύει να
κατανοήσει, να εξηγήσει ή να προβλέψει. Αποτελούν εκείνο που ο ερευνητής
μετρά στα άτομα μετά την έκθεση τους στην ανεξάρτητη μεταβλητή.

4 από 58
Είδη Μεταβλητών

Ποιοτικές
θεωρούνται οι μεταβλητές που δεν μπορούν να εκφραστούν αριθμητικά αλλά
διακρίνονται σε συγκεκριμένες κατηγορίες ή ομάδες που ονομάζονται
διαβαθμίσεις ή κλάσεις ή ιδιότητες.
➢ στις ποιοτικές μεταβλητές δεν υπάρχουν κλίμακες μέτρησης.
➢ Οι τιμές των ποιοτικών μεταβλητών δεν δίδονται με αριθμούς αλλά με
διακριτικό είδος, για παράδειγμα το "φύλο" παίρνει τιμές άρρεν θήλυ, η
ομάδα αίματος παίρνει τιμές Α, Β, ΑΒ και Ο, κ.λπ..

5 από 58

Είδη Μεταβλητών
Ποιοτικές
Οι ποιοτικές μεταβλητές διακρίνονται σε
➢ Διατάξιμες μεταβλητές οι οποίες λαμβάνουν ως τιμές - έννοιες που
ιεραρχούνται (π.χ. διαγωγή μαθητή σε καλή, κοσμία, κοσμιωτάτη, ή η
βαθμίδα αξιωματικού: κατώτερος, ανώτερος, ανώτατος, ή δικαστικού:
πρωτοδίκης, εφέτης, αρεοπαγίτης, ή η κατάσταση υγείας: καλή, πολύ καλή
άριστη κ.λπ. και σε
➢ Μη- διατάξιμες ή κατηγορικές μεταβλητές, οι οποίες λαμβάνουν τιμές -
έννοιες που δεν ιεραρχούνται όπως το επάγγελμα, το φύλο, η υπηκοότητα,
το θρήσκευμα κ.λπ.
6 από 58
Είδη Μεταβλητών

Ποσοτικές

θεωρούνται οι μεταβλητές στις οποίες μπορούμε να αντιστοιχίσουμε έναν αριθμό

μιας συγκεκριμένης κλίμακας. Τα στατιστικά δεδομένα αποτελούν στην

περίπτωση αυτή μια σειρά αριθμητικών μετρήσεων. Π.χ. Η μεταβλητή Ηλικία με

τιμές 18, 35, 67...

7 από 58

Είδη Μεταβλητών
Ποσοτικές
Οι ποσοτικές μεταβλητές διακρίνονται
➢ Οι διακριτές παίρνουν μόνο "μεμονωμένες" αριθμητικές τιμές, είναι
δηλαδή στοιχεία ενός συνόλου τα οποία μπορούν να αντιστοιχηθούν ένα
προς ένα με στοιχεία του συνόλου των θετικών ακέραιων αριθμών. Τέτοια
δεδομένα είναι π.χ. ο αριθμός των παιδιών σε μία οικογένεια, ο αριθμός
των δωματίων μιας κατοικίας κλπ.
➢ Οι συνεχείς μπορούν να πάρουν αριθμητικές τιμές που καλύπτουν
ολόκληρο διάστημα τιμών των πραγματικών αριθμών Π.χ. η ηλικία, η
διάρκεια μιας τηλεφωνικής συνδιάλεξης, η θερμοκρασία κλπ.

8 από 58
Σχέση Μεταβλητών
Έστω ότι έχουμε δύο ερωτήσεις Q1,Q2

➢ Θέλουμε να δούμε αν αυτές οι ερωτήσεις έχουν κάποια


σχέση μεταξύ τους

➢ Σχέση δεν σημαίνει ομοιότητα, αφού οι ερωτήσεις είναι


διαφορετικές !

➢ Σχέση σημαίνει πως οι απαντήσεις στην Q1, επηρεάζουν ή


καθορίζουν σε κάποιο βαθμό και τις απαντήσεις στην Q2

9 από 58

Σχέση Μεταβλητών
Ανάλογα με το είδος των μεταβλητών έχουμε τις παρακάτω
περιπτώσεις

➢ Ποσοτική με Ποσοτική

➢ Ποιοτική με Ποσοτική

➢ Ποιοτική με Ποιοτική

10 από 58
Σχέση μεταξύ Μεταβλητών
Όταν γίνεται διερεύνηση μιας σχέσης μεταξύ δύο μεταβλητών
αρχικά θέλουμε να δώσουμε απαντήσεις στις παρακάτω
Ερωτήσεις

➢ Υπάρχει σχέση;

➢ Τι σχέση είναι αυτή; (π.χ. όταν αυξάνει το ένα, αυξάνει και το


άλλο ή αντίστροφα;)

➢ Ποιος είναι ο βαθμός αυτής της σχέσης;

➢ Ποια είναι η μορφή αυτής της σχέσης;


11 από 58

Συσχέτιση
✓ Πολλές φορές θέλουμε να συγκρίνουμε δυο μεταβλητές, (π.χ.
Υπάρχει σχέση μεταξύ των ποτών (μέσος όρος) που πίνει κάποιος
φοιτητής ή φοιτήτρια την εβδομάδα με το πόσο συχνά χάνει το μάθημα
της Ανάλυσης Δεδομένων εξαιτίας του πονοκεφάλου που έχει την επόμενη
μέρα;)

✓ Η ύπαρξη συσχέτισης μεταξύ δυο μεταβλητών δεν ορίζει και


την ύπαρξη αιτιακής σχέσης (π.χ Αν η τιμή μιας μεταβλητής αυξάνεται
όσο και η τιμή της άλλης, αυτό δεν σημαίνει ότι η μια μεταβλητή εξηγεί
την άλλη ή μπορεί η μια να προβλέψει την άλλη… )
12 από 58
Συσχέτιση
Με τον όρο συσχέτιση (correlation) εννοούμε το βαθμό στον οποίο
συμμεταβάλλονται δύο ποσοτικές μεταβλητές υπό την προϋπόθεση
ότι η σχέση τους είναι γραμμική (Δηλαδή αν κάθε μεταβολή των τιμών της
μιας μεταβλητής συνοδεύεται από συστηματική μεταβολή στις τιμές της άλλης).
✓ Αιτιώδης σχέση : Χρονικά η αιτία προηγείται του αποτελέσματος.
(πχ. Αίτιο κάπνισμα, αποτέλεσμα καρκίνος. Με τη συσχέτιση δεν
προϋποθέτουμε καμιά χρονική σειρά).
✓ Αιτιώδης σχέση : όταν απουσιάζει το αίτιο δεν εμφανίζεται το
αποτέλεσμα. Άνθρωποι που καπνίζουν, δεν εμφανίζουν καρκίνο,
και το αντίθετο.
13 από 58

Συσχέτιση
Η Απλή Συσχέτιση εκφράζεται με έναν αριθμό, που ονομάζεται
Συντελεστής Συσχέτισης (Correlation Coefficient). Οι πιο γνωστοί
συντελεστές γραμμικής συσχέτισης είναι οι συντελεστές του
Pearson, του Spearman και του Kendall.
Η μηδενική και η εναλλακτική υπόθεση εδώ είναι οι εξής:
➢ Η0: ρ=0 ή δεν υπάρχει γραμμική συσχέτιση μεταξύ των δύο
μεταβλητών
➢ Η1: ρ≠0 ή υπάρχει γραμμική συσχέτιση μεταξύ των δύο
μεταβλητών

14 από 58
Συσχέτιση
Παρατηρήσεις
➢ Ο συντελεστής συσχέτισης του Pearson “χρειάζεται” την υπόθεση της
κανονικότητας των δεδομένων, σε αντίθεση με τους άλλους δύο που
δεν “χρειάζονται” την υπόθεση της κανονικότητας των δεδομένων.
➢ Βέβαια, για μεγάλα δείγματα, μεγέθους 30 παρατηρήσεων και πάνω και
όσο το μέγεθος του δείγματος μεγαλώνει η θεωρία μας λέει ότι οι τιμές
των συντελεστών “πλησιάζουν” η μία την άλλη.
➢ ο συντελεστής του Kendall μπορεί να χρησιμοποιηθεί και στην
περίπτωση που έχουμε κατηγορικές μεταβλητές οι οποίες όμως είναι
υποχρεωτικά σε κλίμακα διάταξης. Είναι δηλαδή διατακτικές
κατηγορικές μεταβλητές.
15 από 58

Συσχέτιση
Παρατηρήσεις
➢ Η κύρια διαφορά των συντελεστών είναι ότι ο συντελεστής του
Pearson υπολογίζεται με βάση τα δεδομένα, ενώ οι άλλοι δύο
υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων. Ειδικότερα,
ο συντελεστής του Spearman είναι ο συντελεστής του Pearson στην
ουσία υπολογισμένος για τις τάξεις μεγέθους των δεδομένων.
➢ Το γεγονός λοιπόν ότι οι συντελεστές του Spearman και του Kendall
υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων είναι που
επιτρέπει την ελευθερία ως προς τη μη ικανοποίηση της κανονικότητας
των μεταβλητών.
16 από 58
Συσχέτιση
Παρατηρήσεις
➢ Με το συντελεστή γραμμικής συσχέτισης ελέγχουμε αν σε ένα ζεύγος
μεταβλητών υπάρχει γραμμική συσχέτιση μόνο. Δηλαδή μπορεί να
υπάρχει συσχέτιση μεταξύ των δύο μεταβλητών, αλλά όχι γραμμικής
φύσεως. Σε αυτήν την περίπτωση αυτή η σχέση που συνδέει τις δύο
μεταβλητές δεν μπορεί να ανιχνευτεί με το συντελεστή γραμμικής
συσχέτισης.
➢ Οπότε προσοχή στην ερμηνεία που δίνουμε στο συντελεστή
συσχέτισης. Να υπενθυμίσουμε επίσης ότι η λογική με την οποία
απορρίπτουμε ή όχι μία υπόθεση είναι πάντα η ίδια. Αν το παρατηρηθέν
επίπεδο στατιστικής σημαντικότητας είναι μικρότερο του 0,05 η
υπόθεση απορρίπτεται. Στην αντίθετη περίπτωση δεν απορρίπτεται
17 από 58

Συσχέτιση
Παρατηρήσεις
➢ Ο συντελεστής Συσχέτισης είναι ένας αριθμός ανάμεσα στο -1 και το 1.
➢ Οι τιμές r = -1 και r =1 προκύπτουν όταν υπάρχει πλήρης γραμμική
σχέση μεταξύ των δύο μεταβλητών Χ και Υ. Όταν, δηλαδή, τα σημεία
του αντίστοιχου διαγράμματος διασποράς που ορίζεται από τα ζεύγη
των τιμών (xi,yi), βρίσκονται κατά μήκος μιας ευθείας γραμμής
Πλήρης θετική συσχέτιση r = 1 Πλήρης αρνητική συσχέτιση r = -1
Y
Y

X X

18 από 58
Συσχέτιση
Παρατηρήσεις
➢ Όταν ο συντελεστής είναι κοντά στο 0, δεν υπάρχει σχέση ή η σχέση
είναι πολύ μικρή. Δηλαδή όσο η σχέση μεταξύ των Χ και Y αποκλίνει
από την πλήρη γραμμικότητα, η τιμή του r τείνει να απομακρύνεται από
τις τιμές -1 και 1 και να πλησιάζει το 0.
➢ Όταν οι τιμές της Y τείνουν να αυξάνουν όσο αυξάνουν και οι
αντίστοιχες τιμές της X, η τιμή του r είναι θετική και οι μεταβλητές
χαρακτηρίζονται θετικά συσχετιζόμενες.
➢ Στην αντίστροφη περίπτωση, όπου οι τιμές της Y ελαττώνονται όσο οι
τιμές της X αυξάνουν, ο συντελεστής συσχέτισης r παίρνει αρνητικές
τιμές και οι δύο μεταβλητές χαρακτηρίζονται αρνητικά συσχετιζόμενες.
19 από 58

Συσχέτιση
Παρατηρήσεις
70 60
60 50
50 40
40
30

Θετική Συσχέτιση
30
20
20
10
10
0 0
(r > 0)
0 20 40 60 0 20 40 60

r =1 r =0,94 όταν αυξάνει το ένα


60
70
χαρακτηριστικό
50

40
60
50
αυξάνει και το άλλο
30
40
30
20
20
10 10
0 0
0 20 40 60 0 20 40 60

r =0,41 r =0,15
20 από 58
Συσχέτιση
Παρατηρήσεις

Αρνητική Συσχέτιση
(r < 0)
r = -1 r = -0,83 όταν αυξάνει το ένα
60
70
χαρακτηριστικό
50

40
60
50
μειώνεται το άλλο
30
40
30
20
20
10 10
0 0
0 20 40 60 0 20 40 60

r = - 0,55 r = - 0,14
21 από 58

Συσχέτιση
Παρατηρήσεις

Συμπερασματικά :

1) Όταν 0<r0,25, τότε είναι πολύ μικρή συσχέτιση

2) Όταν 0,25r0,50, τότε έχουμε ελαφρά συσχέτιση

3) Όταν 0,50r0,75, η συσχέτιση είναι σχετικά ισχυρή και

4) Όταν 0,75r1, τότε η συσχέτιση είναι πολύ ισχυρή.

Αντίστοιχα μπορούμε να πούμε και για τις αρνητικές τιμές του r

22 από 58
Συσχέτιση
Προϋποθέσεις
➢ Γραμμικότητα.
➢ Κανονικότητα
➢ Συνέχεια
➢ Ανεξαρτησία των παρατηρήσεων (ατόμων)
Περιορισμοί
➢ Όταν οι μεταβλητές έχουν περιορισμένο εύρος (μειώνεται η τιμή του
συντελεστή)
➢ Όταν λείπουν πολλές παρατηρήσεις
➢ Όταν έχετε μικρά δείγματα, συνεπώς και μικρή δύναμη ανίχνευσης
στατιστικά σημαντικών σχέσεων, αλλά και λίγη αυτοπεποίθηση για εύρεση
της πραγματικής σχέσης
23 από 58

Συσχέτιση
Παράδειγμα Ι
Ώρες Ύπνου Διάθεση
Έχουμε δύο Ερωτήσεις Q1: “Πόσες ώρες κοιμήθηκες χθες” 7 4
και Q2: “Πόσο όμορφα αισθάνεσαι τώρα” σε κλίμακα από 5 2
8 7
0 «καθόλου καλά», 8 «Υπερβολικά καλά»” (αρχείο 6 2
6 3
lecture2_1.sav) 10 6
Θέλουμε να διερευνήσουμε το είδος σχέσης μεταξύ των δύο 7 5
5 3
μεταβλητών 8 8
9 8
7 5
9 7
5 3
6 4
7 4
24 από 58
Συσχέτιση
Παράδειγμα Ι
Αρχικά εξετάζουμε αν οι μεταβλητές ακολουθούν την κανονική κατανομή (κάνουμε και
έλεγχο ακραίων τιμών).
➢ Από το μενού επιλέγουμε Analyze → Descriptive Statistics → Explore
➢ Στην συνέχεια
➢ από την επιλογή Statistics τσεκάρουμε τις επιλογές Descriptives, Outlies,
Percentiles και ορίζουμε το Διάστημα Εμπιστοσύνης.
➢ από την επιλογή Plots τσεκάρουμε τις επιλογές Histogram, και Normality plots
with tests

25 από 58

Συσχέτιση
Παράδειγμα Ι

Από τα αποτελέσματα παρατηρούμε ότι δεν υπάρχουν ακραίες τιμές και ότι δεν μπορούμε να
απορρίψουμε την μηδενική υπόθεση. Επομένως οι μεταβλητές μας κατανέμονται κανονικά
και μπορούμε να χρησιμοποιήσουμε παραμετρικό τεστ.
Από την εκφώνηση παρατηρούμε την συνέχεια και την ανεξαρτησία των παρατηρήσεων
26 από 58
Συσχέτιση
Παράδειγμα Ι
Από το μενού επιλέγουμε Analyze → Correlate→
Bivariate
Στην θυρίδα διαλόγου που παρουσιάζεται
μεταφέρουμε τις δύο μεταβλητές υπό εξέταση στην
περιοχή Variables και εφόσον στο προηγούμενο βήμα
διαπιστώσαμε ότι οι μεταβλητές κατανέμονται
κανονικά επιλέγουμε σαν συντελεστή συσχέτισης
τον συντελεστή Pearson και εκτελούμε την ανάλυση

27 από 58

Συσχέτιση
Παράδειγμα Ι
Συντελεστής Συσχέτισης

P value

Ο βαθμός συσχέτισης είναι 0,849 ο οποίος δείχνει μια πολύ ισχυρή θετική σχέση μεταξύ
των δύο μεταβλητών.
Το p-value είναι μικρότερο από το 0,05 άρα μπορούμε να πούμε ότι σχέση αυτή είναι
στατιστικά σημαντική.
28 από 58
Συσχέτιση

Παράδειγμα ΙΙ
Σε ένα δείγμα 474 εργαζομένων θέλουμε να εξετάσουμε αν υπάρχει σχέση μεταξύ του
αρχικού (Salbegin) και του τωρινού μισθού (Salary) (αρχείο employee.sav)
Αρχικά εξετάζουμε αν οι μεταβλητές ακολουθούν την κανονική κατανομή.
➢ Από το μενού επιλέγουμε Analyze → Descriptive Statistics → Explore
➢ από την επιλογή Statistics τσεκάρουμε τις επιλογές Descriptives, Outlies,
Percentiles και ορίζουμε το Διάστημα Εμπιστοσύνης.
➢ από την επιλογή Plots τσεκάρουμε τις επιλογές Histogram, και Normality plots
with tests

29 από 58

Συσχέτιση
Παράδειγμα ΙΙ

Από τα αποτελέσματα παρατηρούμε ότι καμία από τις δύο


μεταβλητές υπό εξέταση δε ακολουθεί την κανονική κατανομή,
εφόσον η τιμή p-value είναι μικρότερη του επιπέδου
στατιστικής σημαντικότητας (α=0,05) που θέσαμε. Κατά
συνέπεια πρέπει να εκτελέσουμε ένα μη παραμετρικό τεστ.

30 από 58
Συσχέτιση

Παράδειγμα ΙI
Από το μενού επιλέγουμε Analyze → Correlate→
Bivariate
Στην θυρίδα διαλόγου που παρουσιάζεται
μεταφέρουμε τις δύο μεταβλητές υπό εξέταση στην
περιοχή Variables και εφόσον στο προηγούμενο βήμα
διαπιστώσαμε ότι οι μεταβλητές δεν κατανέμονται
κανονικά επιλέγουμε σαν συντελεστή συσχέτισης
τον συντελεστή Spearman και εκτελούμε την
ανάλυση
31 από 58

Συσχέτιση
Παράδειγμα ΙI
Συντελεστής Συσχέτισης

P value

Ο βαθμός συσχέτισης είναι 0,826 ο οποίος δείχνει μια πολύ ισχυρή θετική σχέση μεταξύ
αρχικού και τωρινού μισθού.
Το p-value είναι μικρότερο από το 0,05 άρα μπορούμε να πούμε ότι σχέση αυτή είναι
στατιστικά σημαντική.
32 από 58
Συσχέτιση
Άσκηση Ι
Βάρος Ύψος
Έχουμε στον διπλανό πίνακα το ύψος και το βάρος 15 58 170
60 172
φοιτητών (αρχείο lecture2_1.sav). 67 173
72 175
Διερευνήστε το είδος σχέσης μεταξύ των δύο μεταβλητών 65 172
81 175
73 171
74 174
73 174
68 171
70 173
75 175
78 176
80 177
79 176

33 από 58
Πιθανότητες

• Έννοια πιθανότητας
• Ορισμοί πιθανότητας
• Τρόπος υπολογισμού
• Πράξεις πιθανοτήτων
• Χρησιμότητα τους
«Πείραμα» Tύχης

• Οτιδήποτε συμβαίνει και δεν


γνωρίζουμε από πριν το ακριβές
αποτέλεσμά του.
• Απασχόλησαν από πολύ παλιά
τους ανθρώπους οι οποίοι με
διάφορους τρόπους
(επιστημονικούς ή
υπερφυσικούς) προσπάθησαν να
προβλέψουν τι θα συμβεί.
Πειράματα Tύχης

• Ρίξιμο κέρματος
• Ρίξιμο ζαριού
• Επιλογή χαρτιού τράπουλας
• Τυχεροί αριθμοί joker
• Χρόνος δρομολογίου λεωφορείου από
κέντρο μέχρι το Πανεπιστήμιο
• Καιρός σήμερα το απόγευμα
• Φύλο νεογέννητου μωρού
• Πλήθος πελατών σε μια μέρα
• Βαθμός εξέτασης στο μάθημα
Δειγματικός χώρος
και ενδεχόμενα

• Το σύνολο όλων των «δυνατών»


αποτελεσμάτων ενός πειράματος τύχης,
ονομάζεται δειγματικός χώρος και
συμβολίζεται με Ω.
• Κάθε ένα από τα δυνατά αποτελέσματα
που μπορεί να συμβεί ονομάζεται
ενδεχόμενο και συμβολίζεται με ένα
κεφαλαίο γράμμα.
• Σε κάποια πειράματα όλα τα ενδεχόμενα
έχουν ίδια πιθανότητα να συμβούν
(ισοπίθανα), ενώ σε κάποια άλλα όχι (μη
ισοπίθανα).

• Υπάρχουν απλά ενδεχόμενα (ένα) και


σύνθετα ενδεχόμενα (περισσότερα απλά)
Πειράματα Tύχης
ισοπίθανα ή όχι;
• Ρίξιμο κέρματος
• Ρίξιμο ζαριού
• Επιλογή χαρτιού
τράπουλας
• Τυχεροί αριθμοί joker
• Χρόνος δρομολογίου
λεωφορείου από κέντρο
μέχρι το Πανεπιστήμιο
• Καιρός σήμερα το
απόγευμα
• Φύλο νεογέννητου
μωρού
• Πλήθος πελατών σε μια
μέρα
• Βαθμός εξέτασης στο
μάθημα
Πειράματα Tύχης
ισοπίθανα ή όχι;
• Ρίξιμο κέρματος • Ισοπίθανο
• Ρίξιμο ζαριού • Ισοπίθανο
• Επιλογή χαρτιού • Ισοπίθανο
τράπουλας
• Τυχεροί αριθμοί joker • Ισοπίθανο
• Χρόνος δρομολογίου • Όχι ισοπίθανο
λεωφορείου από κέντρο
μέχρι ΤΕΙ
• Καιρός σήμερα το
απόγευμα • Όχι ισοπίθανο
• Φύλο νεογέννητου • Ναι και Όχι
μωρού ισοπίθανο
• Πλήθος πελατών σε μια
μέρα • Όχι ισοπίθανο
• Βαθμός εξέτασης στο
μάθημα • Όχι ισοπίθανο
Πειράματα Tύχης
Δειγματικός χώρος Ω

Πείραμα Ω ένα ενδεχόμενο

• Ρίξιμο κέρματος {Κ , Γ} Γ
• Ρίξιμο ζαριού {1,2,3,4,5,6} 4
• Επιλογή χαρτιού {52 διαφορετικά Άσος κούπα
τράπουλας φύλλα}
• Τυχεροί αριθμοί joker {1…49} 6-16-26-36-46-49
• Χρόνος δρομολογίου
λεωφορείου από {8 λεπτά έως 28 15,5 λεπτά
κέντρο μέχρι το λεπτά}
Πανεπιστήμιο
• Καιρός σήμερα το {ήλιος, βροχή,
απόγευμα ήλιος
αέρας, συνεφιά,
…)
• Φύλο νεογέννητου {αγόρι, κορίτσι} αγόρι
μωρού
• Πλήθος πελατών σε {0,1,2,3,4,5, …..} 12
μια μέρα
• Βαθμός εξέτασης στο 7,2
μάθημα • {0 έως 10}
Πιθανότητα ενδεχομένου
Ρίξιμο κέρματος Ισοπίθανο Ρ(Γ)=

Ρίξιμο ζαριού Ισοπίθανο Ρ(4)=


Επιλογή χαρτιού Ισοπίθανο Ρ(Άσος κούπα)=
τράπουλας
Τυχεροί αριθμοί Ισοπίθανο Ρ(6-9-26-36-46-49)=
joker
Χρόνος Όχι Ρ(15,5 λεπτά)=
ισοπίθανο
δρομολογίου
λεωφορείου από
κέντρο μέχρι το
Πανεπιστήμιο
Καιρός σήμερα Όχι Ρ(ήλιος)=
ισοπίθανο
το απόγευμα
Φύλο Ναι και όχι Ρ(αγόρι)=
ισοπίθανπ
νεογέννητου
μωρού
Πλήθος Όχι Ρ(12)=
ισοπίθανο
πελατών σε μια
μέρα
Βαθμός Όχι Ρ(7,2)
ισοπίθανο
εξέτασης στο
μάθημα
Πιθανότητα ενδεχομένου
Ρίξιμο κέρματος Ισοπίθανο Ρ(Γ)=1/2

Ρίξιμο ζαριού Ισοπίθανο Ρ(4)=1/6


Επιλογή χαρτιού Ισοπίθανο Ρ(Άσος κούπα)=1/52
τράπουλας
Τυχεροί αριθμοί Ισοπίθανο Ρ(6-9-26-36-46-49)= ;
joker
Χρόνος Όχι Ρ(15,5 λεπτά)=;
ισοπίθανο
δρομολογίου
λεωφορείου από
κέντρο μέχρι το
Πανεπιστήμιο
Καιρός σήμερα Όχι Ρ(ήλιος)= ;
ισοπίθανο
το απόγευμα
Φύλο Ναι και όχι Ρ(αγόρι)= ; 1/2
ισοπίθανπ
νεογέννητου
μωρού
Πλήθος Όχι Ρ(12)= ;
ισοπίθανο
πελατών σε μια
μέρα
Βαθμός Όχι Ρ(7,2)= ;
ισοπίθανο
εξέτασης στο
μάθημα
Ορισμοί Πιθανοτήτων

• Κλασσικός ορισμός
Ρ(Α)= ευνοϊκές περιπτώσεις Α
πλήθος δυνατών περιπτώσεων Ω

• Στατιστικός ορισμός
Ρ(Α)= εμφανίσεις Α
πλήθος επαναλήψεων (μεγάλο)

• Αξιωματικός ορισμός
Ρ(Α) = 0,3 εξ’ ορισμού
(έτσι πιστεύουμε)
Κλασσικός ορισμός

• Υπολογίζεται εύκολα αλλά μόνο


για ισοπίθανα ενδεχόμενα και
γνωστό Ω

Παράδειγμα
Πιθανότητα να φέρω ζυγό αριθμό
ρίχνοντας ένα ζάρι
Πλήθος ευνοϊκών περιπτώσεων 3 =0,5
Πλήθος δυνατών περιπτώσεων 6
Εφαρμογή Ορισμών
Πιθανοτήτων

• Κλασσικός ορισμός
Μόνο για ισοπίθανα πειράματα με
πεπερασμένο Ω

• Στατιστικός ορισμός
Και για ισοπίθανα αλλά κυρίως για μη
ισοπίθανα πειράματα

• Αξιωματικός ορισμός
Ειδικές μαθηματικές περιπτώσεις
Στατιστικός ορισμός

• Χρειάζεται η παρατήρηση του


πειράματος τύχης πολλές φορές και
η δημιουργία πίνακα συχνοτήτων.
(όσο μεγαλύτερο το πλήθος, τόσο
σωστότερος ο υπολογισμός της
πιθανότητας).

• Η σχετική συχνότητα είναι η


αντίστοιχη πιθανότητα να συμβεί μια
τιμή στο μέλλον.

• Χρησιμότητα στατιστικών
παρατηρήσεων για προβλέψεις.
Στατιστικός ορισμός

Παράδειγμα για τον καιρό του


Απριλίου (απόγευμα)
τιμή συχνότητα Σχετική συχνότητα
Πιθανότητα να συμβεί
ήλιος 40 40/95= 0,42

Βροχή 30 30/95= 0,32

συννεφιά 15 15/95= 0,16

αέρας 8 8/95= 0,08

κρύο 2 2/95= 0,02

Πλήθος 95 1,00
ημερών
Ιδιότητες Πιθανότητας

• 0 ≤ Ρ(Α) ≤ 1 ή 0% ≤ Ρ(Α) ≤ 100%

• Ρ(Ω)=1 «βέβαιο ενδεχόμενο»

• Ρ({})=0 «αδύνατο ενδεχόμενο»


Πράξεις ενδεχομένων

• Ένωση Α U Β
να συμβεί ή το Α ή το Β

• Τομή Α∩Β
να συμβεί και το Α και το Β

• Συμπλήρωμα Α’
Να μη συμβεί το Α
Πράξεις πιθανοτήτων

• Ένωση Α U Β
Ρ(Α U Β)=Ρ(Α)+Ρ(Β)-Ρ(Α∩Β)

• Τομή Α∩Β
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β) (ανεξάρτητα ΑΒ)
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β|Α) (Β εξαρτάται από Α)

• Συμπλήρωμα Α’
Ρ(Α’)=1-Ρ(Α)
Υπό συνθήκη
πιθανότητα

Πιθανότητα να συμβεί το Β, αν ξέρουμε


ότι συνέβη ήδη το Α

Ρ(Β|Α) =Ρ(Α ∩ Β)/Ρ(Α)


Ή από χρήση στατιστικού ορισμού, όπως στο επόμενο
παράδειγμα
Παράδειγμα με πίνακα
διασταυρώσεων
• Ένας διευθυντής νοσοκομείου, μελετάει τον παρακάτω
πίνακα του Ιατρικού Συλλόγου, που παρουσιάζει τα
μέλη του ανά φύλο και ηλικία.

ΚΑΤΩ ΜΕΤΑΞΥ ΠΑΝΩ ΣΥΝΟΛΟ


ΑΠΟ 35 35-54 ΑΠΟ 54
ΑΝΔΡΑΣ 27 87 26 140
ΓΥΝΑΙΚΑ 14 25 3 42
ΣΥΝΟΛΟ 41 112 29 182
•Αν επιλέξει τυχαία ένα μέλος του συλλόγου, ποια η πιθανότητα
να είναι:
1. Άνδρας; P(A)=140/182
2. Μεταξύ 35 και 54 χρόνων;
2. P(35-54)=112/182=0,615=61,5%
3. Άνδρας μεταξύ 35 και 54 χρόνων;
3. P (A και 35-54)=87/182=0,47
4. Γυναίκα άνω των 54 χρόνων; (3/182)*100
5. Είτε άνδρας είτε μεταξύ 35 και 54 χρόνων;
5. Ρ(Α ή 35-54)==Ρ(Α) + Ρ(35-54)-Ρ(Α και 35-54)=140/182+ 112/182 - 87/182
=165/182=0,906=90,6%
6. Είτε γυναίκα είτε άνω των 54 χρόνων;
6. Ρ( Γ ή >54)=Ρ(Γ)+Ρ(>54)-Ρ (Γ και >54)=42/182+29/182-3/182=68/182=37,3%
7. Άνδρας δεδομένου ότι είναι κάτω των 35 χρόνων;
περιορίζουμε το σύνολο στους 41 Ρ(Α| <35)= 27/41=0,658=65.8%
8. Άνδρας δεδομένου ότι είναι πάνω των 54 χρόνων;
8. Ρ(Α| >54)= 26/29=89,6%
9. Πάνω των 54 χρόνων δεδομένου ότι είναι άνδρας;
9. Ρ(>54 |Α)=26/140=0,185 =18,5
10. Πάνω των 54 χρόνων δεδομένου ότι είναι γυναίκα;
10. Ρ(>54 |Γ)=3/42=0,714 =7%
ΑΣΚΗΣΕΙΣ
• Ο υπεύθυνος πωλήσεων ενός καταστήματος
κλιματιστικών, καταγράφει τις ημερήσεις πωλήσεις
και έχει εκτιμήσει τις πιθανότητες που φαίνονται
στον παρακάτω πίνακα:
• Ημερήσιες πωλήσεις πιθανότητα
κλιματιστικών

0 0,09
1 0,18
2 0,25
3 0,20
4 0,15
5 0,13

• Καθορίστε το δειγματικό χώρου του πειράματος


τύχης «πλήθος κλιματιστικών που θα πουληθούν
αύριο.
• Ω={0,1,2,3,4,5}
• Ορίστε το ενδεχόμενο να πουληθούν περισσότερα
από 2 κλιματιστικά αύριο και υπολογίστε την
πιθανότητά του.
Ρ(>2)=Ρ (3ή 4ή 5) =Ρ(3)+Ρ(4)+Ρ(5)=0,20+0,15+0,13=0,48=48%

• Ποια είναι η πιθανότητα να πουληθούν 2-3


κλιματιστικά αύριο;
• Ρ (2ή 3) =Ρ(2)+Ρ(3)=0,25+0,20=0,45

• Ποια είναι η πιθανότητα να πουληθούν 6


κλιματιστικά αύριο;
• Ρ(6)=0
ΑΣΚΗΣΕΙΣ
• Ένα κατάστημα κατέγραψε τα ποσοστά του τρόπου
πληρωμής των πελατών του, ανάλογα με το
συνολικό ποσό των αγορών τους:

ΠΙΣΤΩΤΙΚΗ ΧΡΕΩΣΤΙΚΗ
ΜΕΤΡΗΤΑ ΚΑΡΤΑ ΚΑΡΤΑ
<30 5% 4% 4%
30-150 3% 22% 17%
>150 9% 24% 12%

• Τι ποσοστό αγορών πληρώνεται με μετρητά;


• Να υπολογίστε την πιθανότητα μια αγορά άνω των
150 να πληρωθεί με πιστωτική κάρτα.
• Αν ξέρουμε ότι κάποιος πλήρωσε με πιστωτική
κάρτα, ποια είναι η πιθανότητα το συνολικό ποσό
των αγορών του να είναι κάτω από 30 ευρώ;
ΑΣΚΗΣΕΙΣ
• Ρίχνουμε ένα κέρμα 3 φορές. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.
α) Ποια η πιθανότητα να φέρουμε ακριβώς 2 κεφαλές;
β) Ποια πιθανότητα να φέρουμε το πολύ 2 κεφαλές;
γ) Ποια η πιθανότητα να φέρουμε 1 κεφαλή την πρώτη φορά;
δ) Ποια η πιθανότητα να φέρουμε μόνο γράμματα και τις 3
φορές;
• Δειγματικός χώρος
• Ω={ΚΚΚ, ΚΚΓ, ΚΓΚ, ΚΓΓ,ΓΚΚ,ΓΚΓ,ΓΓΚ,ΓΓΓ}
Διαγραμματικά μπορεί να απεικονισθεί το ρίξιμο 3 φορές:
• Κ Κ Κ ΚΚΚ
• Γ ΚΚΓ
Γ Κ ΚΓΚ
Γ ΚΓΓ

• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ
• α) Ρ(2Κ ακριβώς) = ΕΥΝΟΙΚΕΣ/ΔΥΝΑΤΕΣ= 3/8
• β) Ρ (2Κ το πολύ) =Ρ (όχι 3Κ)= 1-1/8=7/8
• γ) Ρ (Κ την πρωτη φορά)=4/8=50%
• δ) Ρ(ΓΓΓ)=1/8
ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να
κερδίσουμε κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.
α) Ποια η πιθανότητα να κερδίσουμε ακριβώς 2 φορές;
β) Ποια πιθανότητα να κερδίσουμε το πολύ 2 φορές;
γ) Ποια η πιθανότητα να κερδίσουμε την πρώτη φορά;

• Μπορούμε πάλι να υπολογίσουμε διαγραμματικά το Ω

• Στην εταιρεία ΑΛΦΑ-ΒΗΤΑ, υπάρχουν 400 εργαζόμενοι και


οι 120 καπνίζουν. Οι 150 είναι άνδρες και οι 80 απ’ αυτούς
καπνίζουν. Υπολογίστε τις παρακάτω πιθανότητες για ένα
εργαζόμενο που επιλέγεται στην τύχη.
α) Ποια η πιθανότητα να είναι γυναίκα;
β) Ποια η πιθανότητα να είναι άνδρας καπνιστής;
γ) Ποια η πιθανότητα να είναι άνδρας ή να καπνίζει;
δ) Ποια η πιθανότητα να καπνίζει δεδομένου ότι είναι γυναίκα;
ε) Ποια η πιθανότητα να είναι γυναίκα δεδομένου ότι καπνίζει;

• Έστω τα ενδεχόμενα Α κα Β ενός δειγματικού χώρου Ω, τα


οποία είναι ανεξάρτητα, και Ρ(Α)= 0,15 Ρ(Β)=0,45. Να
υπολογίσετε τις πιθανότητες:
Ρ(όχι Α), Ρ(Α και Β), Ρ(Α ή Β) , Ρ(όχι Α και όχι
Β), Ρ(Α|Β)
Εφαρμογή Ορισμών
Πιθανοτήτων

• Κλασσικός ορισμός
Μόνο για ισοπίθανα πειράματα με
πεπερασμένο Ω

• Στατιστικός ορισμός
Και για ισοπίθανα αλλά κυρίως για μη
ισοπίθανα πειράματα

• Αξιωματικός ορισμός
Ειδικές μαθηματικές περιπτώσεις
Στατιστικός ορισμός

• Χρειάζεται η παρατήρηση του


πειράματος τύχης πολλές φορές και
η δημιουργία πίνακα συχνοτήτων.
(όσο μεγαλύτερο το πλήθος, τόσο
σωστότερος ο υπολογισμός της
πιθανότητας).

• Η σχετική συχνότητα είναι η


αντίστοιχη πιθανότητα να συμβεί μια
τιμή στο μέλλον.

• Χρησιμότητα στατιστικών
παρατηρήσεων για προβλέψεις.
Ιδιότητες Πιθανότητας

• 0 ≤ Ρ(Α) ≤ 1 ή 0% ≤ Ρ(Α) ≤ 100%

• Ρ(Ω)=1 «βέβαιο ενδεχόμενο»

• Ρ({})=0 «αδύνατο ενδεχόμενο»


Πράξεις ενδεχομένων

• Ένωση Α U Β
να συμβεί ή το Α ή το Β

• Τομή Α∩Β
να συμβεί και το Α και το Β

• Συμπλήρωμα Α’
Να μη συμβεί το Α
Πράξεις πιθανοτήτων
• Ένωση Α U Β
Ρ(Α U Β)=Ρ(Α)+Ρ(Β)-Ρ(Α∩Β)

• Τομή Α∩Β
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β) (ανεξάρτητα ΑΒ)
Ρ(Α ∩ Β)=Ρ(Α)*Ρ(Β|Α) (Β εξαρτάται από Α)
• Συμπλήρωμα Α’
Ρ(Α’)=1-Ρ(Α)

Πιθανότητα να συμβεί το Β, αν ξέρουμε


ότι συνέβη ήδη το Α

Ρ(Β|Α) =Ρ(Α ∩ Β)/Ρ(Α)


ΑΣΚΗΣΕΙΣ
• Ρίχνουμε ένα κέρμα 3 φορές. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.
α) Ποια η πιθανότητα να φέρουμε ακριβώς 2 κεφαλές;
β) Ποια πιθανότητα να φέρουμε το πολύ 2 κεφαλές;
γ) Ποια η πιθανότητα να φέρουμε 1 κεφαλή την πρώτη φορά;
δ) Ποια η πιθανότητα να φέρουμε μόνο γράμματα και τις 3
φορές;
Δειγματικός χώρος
Ω={ΚΚΚ, ΚΚΓ, ΚΓΚ, ΚΓΓ,ΓΚΚ,ΓΚΓ,ΓΓΚ,ΓΓΓ}
Διαγραμματικά μπορεί να απεικονισθεί το ρίξιμο 3 φορές:
αντίστοιχο γεγονός του Ω
• Κ Κ ΚΚΚ
• Κ Γ ΚΚΓ
Γ Κ ΚΓΚ
Γ ΚΓΓ

• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ

• Ω={ 3Κ, 2Κ1Γ. 1Κ2Γ, 3Γ}

• α) Ρ(2Κ ακριβώς) = ΕΥΝΟΙΚΕΣ για 2Κ/ΔΥΝΑΤΕΣ= 3/8

• β) Ρ (2Κ το πολύ) = Ρ (όχι 3Κ)= 1-1/8=7/8

• γ) Ρ (Κ την πρωτη φορά) =4/8=50%

• δ) Ρ(ΓΓΓ)=1/8
ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να κερδίσουμε
κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω του πειράματος.
α) Ποια η πιθανότητα να κερδίσουμε ακριβώς 2 φορές;
β) Ποια πιθανότητα να κερδίσουμε το πολύ 2 φορές;
γ) Ποια η πιθανότητα να κερδίσουμε την πρώτη φορά;

Δειγματικός χώρος Κ κερδίζω, Χ χάνω


Ω={ΚΚΚ, ΚΚΧ, ΚΧΚ, ΚΧΧ,ΧΚΚ,ΧΚΧ,ΧΧΚ,ΧΧΧ}
Διαγραμματικά μπορεί να απεικονισθεί 3 φορές ως εξής:
αντίστοιχο γεγονός του Ω πιθανότητα
• Κ Κ ΚΚΚ
• Κ Χ ΚΚΧ

Χ Κ ΚΧΚ
Χ ΚΧΧ

• Χ Κ Κ ΧΚΚ
• Χ ΧΚΧ
• Χ Κ ΧΧΚ
• Χ ΧΧΧ

• α) Ρ(2Κ ακριβώς) =

• β) Ρ (2Κ το πολύ) = Ρ (όχι 3Κ)= 1-

• γ) Ρ (Κ την πρώτη φορά) =

– Προσοχή όχι ισοπίθανα τα 8 ενδεχόμενα


ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να κερδίσουμε
κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω του πειράματος.
α) Ποια η πιθανότητα να κερδίσουμε ακριβώς 2 φορές;
β) Ποια πιθανότητα να κερδίσουμε το πολύ 2 φορές;
γ) Ποια η πιθανότητα να κερδίσουμε την πρώτη φορά;

Δειγματικός χώρος Κ κερδίζω, Χ χάνω


Ω={ΚΚΚ, ΚΚΧ, ΚΧΚ, ΚΧΧ,ΧΚΚ,ΧΚΧ,ΧΧΚ,ΧΧΧ}
Διαγραμματικά μπορεί να απεικονισθεί 3 φορές ως εξής:
αντίστοιχο γεγονός του Ω πιθανότητα
• Κ Κ ΚΚΚ 0,3*0,3*0,3=0,027
• Κ Χ ΚΚΧ 0,3*0,3*0,7=0,063

Χ Κ ΚΧΚ 0,3*0,7*0,3=0,063
Χ ΚΧΧ 0,3*0,7*0,7=0,147

• Χ Κ Κ ΧΚΚ 0,7*0,3*0,3=0,063
• Χ ΧΚΧ 0,7*0,3*0,7=0,147
• Χ Κ ΧΧΚ 0,7*0,7*0,3=0,147
• Χ ΧΧΧ 0,7*0,7*0,7=0,343

α) Ρ(2Κ ακριβώς) =Ρ(ΚΚΧ U ΚΧΚ U ΧΚΚ )=


= Ρ(ΚΚΧ)+Ρ(ΚΧΚ )+Ρ(ΧΚΚ )=
• = 0,063+ 0,063 + 0,063=0,189=18,9%

β) Ρ (2Κ το πολύ) = Ρ (όχι 3Κ)= 1-Ρ(ΚΚΚ)=1-0,027=0,973=97,3%

• γ) Ρ (Κ την πρώτη φορά) =Ρ(ΚΚΚ U ΚΚΧ U ΚΧΚ U ΚΧΧ)=


• =0,027+0,063+0,063+0,147=0,300=30%

ΑΣΚΗΣΕΙΣ
Στην εταιρεία ΑΛΦΑ-ΒΗΤΑ, υπάρχουν 400 εργαζόμενοι και οι 120
καπνίζουν. Οι 150 είναι άνδρες και οι 80 απ’ αυτούς καπνίζουν.
Υπολογίστε τις παρακάτω πιθανότητες για ένα εργαζόμενο που
επιλέγεται στην τύχη.
α) Ποια η πιθανότητα να είναι γυναίκα;
β) Ποια η πιθανότητα να είναι άνδρας καπνιστής;
γ) Ποια η πιθανότητα να είναι άνδρας ή να καπνίζει;
δ) Ποια η πιθανότητα να καπνίζει δεδομένου ότι είναι γυναίκα;
ε) Ποια η πιθανότητα να είναι γυναίκα δεδομένου ότι καπνίζει;
Λύση Καπνιστές μηΚαπνιστές σύνολο

Ανδρας 80 70 150
Γυναίκα 40 210 250
σύνολο 120 280 400
α) Ποια η πιθανότητα να είναι γυναίκα;
Ρ(Γ)= 250/400

β) Ποια η πιθανότητα να είναι άνδρας καπνιστής;


Ρ(Α п Κ)=80/400
γ) Ποια η πιθανότητα να είναι άνδρας ή να καπνίζει;
Ρ(Α U Κ)=Ρ(Α)+Ρ(Κ)- Ρ(Α п Κ)=
=150/400+120/400 -80/400 = 190/400

δ) Ποια η πιθανότητα να καπνίζει δεδομένου ότι είναι γυναίκα;


/
Ρ(Κ|Γ)= Ρ(Κ п Γ)/ Ρ(Γ) =40/400 250/400= 40/250=16%
ε) Ποια η πιθανότητα να είναι γυναίκα δεδομένου ότι καπνίζει;
Ρ(Γ|Κ)= Ρ(Γ п Κ)/Ρ(Κ) =40/400 /120/400=40/120= 33,3%
ΑΣΚΗΣΕΙΣ
• Έστω τα ενδεχόμενα Α κα Β ενός δειγματικού χώρου Ω, τα
οποία είναι ανεξάρτητα, και Ρ(Α)= 0,15 Ρ(Β)=0,45. Να
υπολογίσετε τις πιθανότητες:
Ρ(όχι Α), Ρ(Α και Β), Ρ(Α ή Β) , Ρ(όχι Α και όχι
Β), Ρ(Α|Β)

Λύση

Ρ(όχι Α)= 1- Ρ(Α)=1-0,15= 0,85

Ρ(Α και Β)= Ρ(Α) *Ρ(Β)= 0,15*0,45=

Ρ(Α ή Β) )= Ρ(Α) +Ρ(Β)- Ρ(Α και Β)= 0,15+0,45 -0,15*0,45=

Ρ(όχι Α και όχι Β)= 1- Ρ(Α και Β)= 1- 0,15*0,45

Ρ(Α|Β) = Ρ(Α και Β)/Ρ(Β)= 0,15*0,45/0,45=0,15


ΑΣΚΗΣΕΙΣ
Έστω σε ένα χαρτοφυλάκιο υπάρχουν 4 μετοχές κερδοφόρες και 6
μη κερδοφόρες, χωρίς να γνωρίζουμε ποιες είναι.
Αν πάρουμε τυχαία μια μετοχή και κατόπιν πάρουμε πάλι τυχαία και
μια δεύτερη μετοχή (διαφορετική από την πρώτη),
υπολογίστε την πιθανότητα
α) να είναι και η πρώτη και η δεύτερη κερδοφόρα
β) να μην είναι καμία κερδοφόρα
γ) να είναι μόνο η μία από τις δύο κερδοφόρα

Λύση

Ρ(Κ πρώτη)= ευνοικές/δυνατές= 4/10 =0,4=40%


Ρ(Κ δεύτερη)= ευνοικές/δυνατές= 4/9 ή 3/9

Ρ(ΚΚ)= Ρ(Κ πρώτη και Κ δεύτερη )= Ρ(Κ πρώτη) *Ρ(Κ δεύτερη) = 4/10
* 3/9= 12/90=0,133=13,3%

Ρ(ΧΧ)= Ρ(Χ πρώτη και Χ δεύτερη )= Ρ(Χ πρώτη) *Ρ(Χ δεύτερη) = 6/10
* 5/9= 30/90= 0,333=33,3%

Ρ(μία μόνο Κ)=


Ρ(Κ πρώτη και Χ δεύτερη ή Χ πρώτη και Κ δεύτερη )=
Ρ(Κ Χ) +Ρ(ΧΚ ) - Ρ(Κ Χ και ΧΚ) = Ρ(Κ Χ) +Ρ(ΧΚ ) – 0=
4/10 *6/9 + 6/10*4/9=24/90 +24/90=48/90= 53,3%

Πλήθος πιθανότητα
μετοχων Κ
0 33,3%
1 53,3%
2 13,3%
ΑΣΚΗΣΕΙΣ
• Ρίχνουμε ένα κέρμα 3 φορές. Να γραφεί ο δειγματικός χώρος Ω
του πειράματος.

• Να υπολογισθούν οι πιθανότητες για το πλήθος φορών που


φέρνουμε Κ, όταν παίζουμε το παιχνίδι 3 φορές

Δειγματικός χώρος
Ω={ΚΚΚ, ΚΚΓ, ΚΓΚ, ΚΓΓ,ΓΚΚ,ΓΚΓ,ΓΓΚ,ΓΓΓ}
Διαγραμματικά μπορεί να απεικονισθεί το ρίξιμο 3 φορές:
αντίστοιχο γεγονός του Ω
• Κ Κ ΚΚΚ
• Κ Γ ΚΚΓ
Γ Κ ΚΓΚ
Γ ΚΓΓ

• Γ Κ Κ ΓΚΚ
• Γ ΓΚΓ
• Γ Κ ΓΓΚ
• Γ ΓΓΓ

Ρ(1 Κ ακριβώς) = ΕΥΝΟΙΚΕΣ για 2Κ/ΔΥΝΑΤΕΣ= 3/8

Ρ(2Κ ακριβώς) = ΕΥΝΟΙΚΕΣ για 2Κ/ΔΥΝΑΤΕΣ= 3/8

Ρ(3Κ ακριβώς) = ΕΥΝΟΙΚΕΣ για 2Κ/ΔΥΝΑΤΕΣ= 1/8

Ρ(0Κ ακριβώς) = ΕΥΝΟΙΚΕΣ για 2Κ/ΔΥΝΑΤΕΣ= 1/8


ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα 30% να κερδίσουμε
κάθε φορά. Να γραφεί ο δειγματικός χώρος Ω του πειράματος.
Να υπολογισθούν οι πιθανότητες για το πλήθος φορών που
κερδίζουμε, όταν παίζουμε το παιχνίδι 3 φορές.

Δειγματικός χώρος Κ κερδίζω, Χ χάνω


Ω={ΚΚΚ, ΚΚΧ, ΚΧΚ, ΚΧΧ,ΧΚΚ,ΧΚΧ,ΧΧΚ,ΧΧΧ}
Διαγραμματικά μπορεί να απεικονισθεί 3 φορές ως εξής:
αντίστοιχο γεγονός του Ω πιθανότητα
• Κ Κ ΚΚΚ 0,3*0,3*0,3=0,027
• Κ Χ ΚΚΧ 0,3*0,3*0,7=0,063
Χ Κ ΚΧΚ 0,3*0,7*0,3=0,063
Χ ΚΧΧ 0,3*0,7*0,7=0,147

• Χ Κ Κ ΧΚΚ 0,7*0,3*0,3=0,063
• Χ ΧΚΧ 0,7*0,3*0,7=0,147
• Χ Κ ΧΧΚ 0,7*0,7*0,3=0,147
• Χ ΧΧΧ 0,7*0,7*0,7=0,343

Ρ(1Κ ακριβώς) =Ρ(ΚΧΧ U ΧΚΧ U ΧΧΚ )=


= Ρ(ΚΚΧ)+Ρ(ΚΧΚ )+Ρ(ΧΚΚ )=
• = 0,147+ 0,147 + 0,147 =0,441=44,1%

Ρ(2Κ ακριβώς) =Ρ(ΚΚΧ U ΚΧΚ U ΧΚΚ )=


= Ρ(ΚΚΧ)+Ρ(ΚΧΚ )+Ρ(ΧΚΚ )=
• = 0,063+ 0,063 + 0,063=0,189=18,9%

Ρ(3Κ ακριβώς) =Ρ(ΚΚΚ) = 0,027= 2,7%

Ρ(0Κ ακριβώς) =Ρ(ΧΧΧ) = 0,343= 34,3%


ΤΥΧΑΙΕΣ ΜΕΤΑΒΛΗΤΕΣ

• Έννοια
• Ορισμοί
• Τρόπος υπολογισμού
• Kατανομή πιθανότητας
• Ασκήσεις
Έννοια τυχαίας
μεταβλητής
• Κατά τον υπολογισμό πιθανοτήτων,
συχνά συμβαίνει να μετρούμε πόσες
φορές εμφανίζονται κάποια ενδεχόμενα
που μας ενδιαφέρουν. Μετρούμε δηλαδή
κάποιο πλήθος ή κάποια ποσότητα.
– Πχ. Πλήθος φορών που φέρνουμε Κεφαλή αν
ρίξουμε ένα κέρμα 10 φορές.
– Άθροισμα ενδείξεων αν ρίξουμε δύο ζάρια.
– Πλήθος δένδρων σε μια δενδροφυτεία που
ξεπερνούν τα 5 μέτρα
– Χρήματα που θα κερδίσω αν πετύχω το
λαχείο.
Έννοια τυχαίας
μεταβλητής
• Συμβολίζουμε τη μετρούμενη ποσότητα
που μας ενδιαφέρει με ένα κεφαλαίο
λατινικό γράμμα και την ονομάζουμε
τυχαία μεταβλητή,
• για να τη διαχωρίσουμε από μια απλή
μεταβλητή.
• Η τυχαία μεταβλητή ξεχωρίζει από μια
άλλη μεταβλητή χάρη στο γεγονός ότι οι
τιμές της τυχαίας μεταβλητής
συνοδεύονται από μια πιθανότητα.

• Δηλαδή για κάθε τιμή της, υπάρχει και


μια πιθανότητα να πάρει την τιμή αυτή,
ενώ οι πιθανότητες όλων των δυνατών
τιμών έχουν άθροισμα 1.
Μετρήσεις από
«Πείραμα» Tύχης
• Σε κάθε αποτελέσματα ενός πειράματος τύχης,
αντιστοιχεί μια πιθανότητα να συμβεί. Επίσης
σε κάθε αποτέλεσμα μπορούμε να
αντιστοιχήσουμε έναν αριθμό (η μια ποσότητα).

• Ο πίνακας με όλους τους αριθμούς αυτούς,


(μαζί με τις πιθανότητές τους να συμβούν)
δηλώνει τις πιθανότητες να εμφανισθεί ο κάθε
αριθμός και ονομάζεται τυχαία μεταβλητή.

• Οι τυχαίες μεταβλητές είναι μόνο ποσοτικές


μεταβλητές, που παίρνουν τιμές στις οποίες
αντιστοιχεί μια πιθανότητα να εμφανιστούν.

• Το άθροισμα των πιθανοτήτων όλων των


δυνατών τιμών μιας τυχαίας μεταβλητής είναι
πάντα ίσο με 1.
Αντιστοίχηση πειραμάτων
τύχης σε τυχαίες
μεταβλητές
• Ρίξιμο κέρματος πλήθος Γ
• Ρίξιμο ζαριού άθροισμα ενδείξεων
• Επιλογή χαρτιού τράπουλας πλήθος
φιγούρων
• Τυχεροί αριθμοί joker χρήματα που
κερδίζω
• Χρόνος δρομολογίου λεωφορείου από κέντρο
μέχρι το Πανεπιστήμιο χρόνος σε λεπτά
• Καιρός σήμερα το απόγευμα λεπτά
ηλιοφάνειας
• Φύλο νεογέννητου μωρού πλήθος Α
• Πλήθος πελατών σε μια μέρα πλήθος
ατόμων
• Βαθμός εξέτασης στο μάθημα βαθμός
Χαρακτηριστικά τυχαίων
μεταβλητών
• Πρέπει να γνωρίζουμε ποιες τιμές μπορεί να
πάρει μια τυχαία μεταβλητή και ποιες τιμές
είναι αδύνατο να πάρει.
• Για τις δυνατές τιμές της τυχαίας
μεταβλητής καταγράφουμε την πιθανότητα
τους να συμβούν.
Την πιθανότητα αυτή για μια τυχαία
μεταβλητή Χ τη συμβολίζουμε Ρ(Χ=α) και
αντιστοιχεί στην πιθανότητα η τιμή της Χ να
είναι α.
• Η αντιστοίχηση όλων των τιμών με τις
πιθανότητές τους ονομάζεται συνάρτηση
πιθανότητας της τυχαίας μεταβλητής.
• Μερικές φορές μας χρειάζεται και η
πιθανότητα η Χ να παίρνει τιμές μικρότερες
ή ίσες του α Ρ(Χ≤α). Η αντίστοιχη
συνάρτηση για Ρ(Χ≤α) ονομάζεται
συνάρτηση αθροιστικής κατανομής
Διακριτές και συνεχείς
τυχαίες μεταβλητές
• Αν οι αριθμοί (τιμές) της τυχαίας
μεταβλητής είναι ακέραιοι
αριθμοί, αυτή ονομάζεται
διακριτή τυχαία μεταβλητή.
• Αν οι αριθμοί (τιμές) της τυχαίας
μεταβλητής είναι δεκαδικοί
αριθμοί, αυτή ονομάζεται
συνεχής τυχαία μεταβλητή.
• Συμβολίζονται με κεφαλαίο
γράμμα π.χ. Χ, Υ, Ζ
Διακριτή τυχαία
μεταβλητή
• Χ= «Πλήθος Κεφαλών αν ρίξουμε
ένα νόμισμα 2 φορές».
• Υπολογισμός των δυνατών τιμών:
Ω = {ΚΚ, ΚΓ, ΓΚ, ΓΓ}
κεφαλές {2, 1, 1, 0}

• Τιμές Πιθανότητες εμφάνισης


• 0 ¼=0,25
• 1 ¼+¼ =1/2=0,50
• 2 ¼ = 0,25
• Σύνολο 1
Συνεχής τυχαία
μεταβλητή
• Χ= «λεπτά καθυστέρησης έναρξης
μαθήματος ».
• Υπολογισμός των δυνατών τιμών:
Ω =[0…20]

• Τιμές (διαστήματα) Πιθανότητες


• [0-5) 0,70
• [5-10) 0,15
• [10-15) 0,10
• [15-20] 0,05
• Σύνολο 1
Κατανομή πιθανότητας
τυχαίας μεταβλητής
• Η συνάρτηση που αντιστοιχεί τις
τιμές της τ.μ. με τις πιθανότητές
τους. (Πίνακας κατανομής
πιθανότητας)
• Συμβολίζεται με f(χ)

• Το άθροισμα των f(χ) των μικρότερων


από μία συγκεκριμένη τιμή x,
συμβολίζεται με F(x) και ονομάζεται
αθροιστική συνάρτηση κατανομής
πιθανότητας τ.μ.
Αναμενόμενη τιμή
τυχαίας μεταβλητής
• Αντίστοιχη της μέσης τιμής ή μέσου
όρου
• Εκφράζει την τιμή που θα
περιμέναμε από την τυχαία
μεταβλητή Χ.
• Συμβολίζεται με Ε(Χ)

• Υπολογίζεται με
– Διακριτή τ.μ. Ε(Χ)= Σ χ Ρ(χ) άθροισμα
τιμής επί πιθανότητα τιμής
– Συνεχής τ.μ. Ε(Χ)=xf(x)dx
Διασπορά τυχαίας
μεταβλητής
• Αντίστοιχη της διακύμανσης
• Εκφράζει την τιμή πάνω-κάτω
από την Ε(Χ).
• Συμβολίζεται με Var(Χ)

• Υπολογίζεται με
– Διακριτή τ.μ
Var(Χ)= Σ(χ-E(X))2 Ρ(χ)
– Συνεχής τ.μ.
Ε(Χ)= (χ-E(X))2 f(x)dx
Παράδειγμα

Χ= «πλήθος ζυγών αριθμών με


δύο ρίψεις ζαριού»
τιμή πιθανότητα

σύνολο 1
Παράδειγμα

Χ= «πλήθος ζυγών αριθμών με


δύο ρίψεις ζαριού»
τιμή πιθανότητα

0 0,25

1 0,50

2 0,25

σύνολο 1

Ε(Χ)= 0x0,25+ 1x0,50+ 2x0,25= 1


ΑΣΚΗΣΕΙΣ
1. Μεταξύ των οικογενειών με 3 παιδιά επιλέγουμε τυχαία μια
οικογένεια και εξετάζουμε τα παιδιά ως προς το φύλο. Να
γράψετε το δειγματικό χώρο του πειράματος.
Ορίστε την τυχαία μεταβλητή «πλήθος αγοριών στην οικογένεια»
και υπολογίστε την κατανομή πιθανότητας, και την αναμενόμενη
τιμή της.

Δειγματικός χώρος
Ω={AAA, AAΚ, AΚA, AKΚ,KAA,KAK,ΚKA,KKK}
Διαγραμματικά μπορεί να απεικονισθεί :
αντίστοιχο γεγονός του Ω
• A A AAA
• A K AAK
K A AΚA Πλήθος πιθανότητα
K AKΚ Aγοριών Α
• K A A ΚAA 0 1/8=12,5%
• K ΚAK 1 3/8=37,5%
• K A KΚA
2 3/8=37,5%
• K KKK
3 1/8=12,5%

Ε(Χ)= Σχ Ρ(χ)= 0*0,125 +1 *0,375+2 *0,375 + 3*0,125 =


= 0,375+0,750+0,375= 1,5
Είναι η «αναμενόμενη» τιμή του πλήθους αγοριών
ΑΣΚΗΣΕΙΣ
2. Σε ένα δοχείο υπάρχουν 3 κόκκινες και 4 πράσινες μπάλες. Παίρνουμε
ταυτόχρονα 3 μπάλες και εξετάζουμε το χρώμα τους. Να γράψετε
το δειγματικό χώρο του πειράματος.
Ορίστε την τυχαία μεταβλητή «πλήθος κόκκινων» και υπολογίστε
την κατανομή πιθανότητας, και την αναμενόμενη τιμή της.
Λύση
Ρ(Κ πρώτη)= ευνοϊκές/δυνατές= 3/7 =0,43=43%
Ρ(ΚΚ)= Ρ(Κ πρώτη και Κ δεύτερη )= Ρ(Κ πρώτη) *Ρ(Κ δεύτερη) = 3/7 * 2/6=
6/42=0,143=14,3%
Ρ(ΚΚΚ)= Ρ(Κ πρώτη και Κ δεύτερη και Κ τρίτη)=
Ρ(Κ πρώτη) *Ρ(Κ δεύτερη) *Ρ(Κ τρίτη) = 3/7 * 2/6 *1/5=
6/210=0,0286=2,9%
Ρ(ΠΠΠ)= Ρ(Π πρώτη και Π δεύτερη και Π τρίτη)=
Ρ(Π πρώτη) *Ρ(Π δεύτερη) *Ρ(Π τρίτη) = = 4/7 * 3/6 * 2/5 = 24/210=
0,114=11,4%
Ρ(μία μόνο Κ)=
Ρ(ΚΠΠ ή ΠΚΠ ή ΠΠΚ)=
Ρ(ΚΠΠ) +Ρ(ΠΚΠ ) +Ρ(ΠΠΚ)=
=3/7 *4/6 *3/5 + 4/7 *3/6 *3/5 + 4/7 *3/6 *3/5 = =36/210
+36/210+36/210= 108/210= 51,4%
Ρ(δυο μόνο Κ)=
Ρ(ΚΚΠ ή ΚΠΚ ή ΠΚΚ)=
Ρ(ΚΚΠ) +Ρ(ΚΠΚ) +Ρ(ΠΚΚ) =
=3/7 *2/6 *4/5 + 3/7 *4/6 *2/5 + 4/7 *3/6 *2/5 = =24/210
+24/210+24/210= 72/210= 34,3%
Αναμενόμενη τιμή
Ε(Χ)= Σχ Ρ(χ)=
= 0*0,114 +1 *0,514+2*0,343+3*0,029=
= 0,514+0,686+0,087= 1,287

Πλήθος Κ πιθανότητα
0 11,4%
1 51,4%
2 34,3%
3 2,9%
ΑΣΚΗΣΕΙΣ
2. Σε ένα δοχείο υπάρχουν 3 κόκκινες και 4 πράσινες μπάλες.
Παίρνουμε ταυτόχρονα 3 μπάλες και εξετάζουμε το χρώμα
τους. Να γράψετε το δειγματικό χώρο του πειράματος.
Αν σε κάθε κόκκινη μπάλα χάνουμε 5 ευρώ ενώ σε κάθε
πράσινη κερδίζουμε 10 ευρώ,
Ορίστε την τυχαία μεταβλητή «κέρδος από τις μπάλες» και
υπολογίστε την κατανομή πιθανότητας, και την αναμενόμενη
τιμή της.
Λύση
Οι πιθανότητες του πίνακα είναι ίδιες για το πλήθος των κόκκινων
που επιλέγονται αλλά οι τιμές του κέρδους υπολογίζονται
στον παρακάτω πίνακα με την αντιστοιχία:
Κέρδος από Κ -5ευρώ και κέρδος από Π +10 ευρώ

Κέρδος από πλήθος Κ(κόκκινες μπάλες) πιθανότητα


0Κ κέρδος=10+10+10= 30 11,4%
1Κ κέρδος =-5+10+10= 15 51,4%
2Κ κέρδος = -5-5+10= 0 34,3%
3Κ κέρδος = -5-5-5= -15 2,9%
Η αναμενόμενη τιμή του κέρδους θα είναι :
Ε(κέρδος)= 30*0,114+15*0,514+0*0,343-15 *0,029=
= 3,42 +7,71 +0-0,435= 10,695 ευρώ
ΑΣΚΗΣΕΙΣ
• Αν παίξουμε 3 φορές παιχνίδι με πιθανότητα ρ% να κερδίσουμε κάθε
φορά. Να γραφεί ο δειγματικός χώρος Ω του πειράματος.
Να υπολογισθούν οι πιθανότητες για το πλήθος φορών που κερδίζουμε,
όταν παίζουμε το παιχνίδι 3 φορές.
Δειγματικός χώρος Κ κερδίζω, Χ χάνω
Ω={ΚΚΚ, ΚΚΧ, ΚΧΚ, ΚΧΧ,ΧΚΚ,ΧΚΧ,ΧΧΚ,ΧΧΧ}
Διαγραμματικά μπορεί να απεικονισθεί 3 φορές ως εξής:

αντίστοιχο γεγονός του Ω πιθανότητα


• Κ Κ ΚΚΚ ρ*ρ*ρ
• Κ Χ ΚΚΧ ρ*ρ*(1-ρ)
Χ Κ ΚΧΚ ρ*(1-ρ)*ρ
Χ ΚΧΧ ρ*(1-ρ)*(1-ρ)

• Χ Κ Κ ΧΚΚ (1-ρ)*ρ*ρ
• Χ ΧΚΧ (1-ρ)*ρ*(1-ρ)
• Χ Κ ΧΧΚ (1-ρ)*(1-ρ)*ρ
• Χ ΧΧΧ (1-ρ)*(1-ρ)*(1-ρ)

Ρ(1Κ ακριβώς) =Ρ(ΚΧΧ U ΧΚΧ U ΧΧΚ )=


= Ρ(ΚΧΧ)+Ρ(ΧΚΧ )+Ρ(ΧΧΚ )=
=ρ*(1-ρ)*(1-ρ)+ (1-ρ)*ρ*(1-ρ) + (1-ρ)*(1-ρ)*ρ =3*(1-ρ)*(1-ρ)*ρ =%
Ρ(2Κ ακριβώς) =Ρ(ΚΚΧ U ΚΧΚ U ΧΚΚ )=
= Ρ(ΚΚΧ)+Ρ(ΚΧΚ )+Ρ(ΧΚΚ )=
= ρ*ρ*(1-ρ)+ ρ*(1-ρ)*ρ + (1-ρ)*ρ*ρ = 3*(1-ρ)*ρ*ρ = %
Ρ(3Κ ακριβώς) =Ρ(ΚΚΚ) = ρ*ρ*ρ %
Ρ(0Κ ακριβώς) =Ρ(ΧΧΧ) = (1-ρ)*(1-ρ)*(1-ρ) %
ΑΣΚΗΣΕΙΣ
3. Ένας πωλητής μιας φαρμακοβιομηχανίας, κάνει 3 επισκέψεις το χρόνο, σε
ένα φαρμακείο. Σε κάθε επίσκεψη η πιθανότητα να πραγματοποιήσει
πώληση είναι 80%.
α) Να γράψετε το δειγματικό χώρο του πειράματος. (Χρησιμοποιείστε
δενδρόγραμμα πιθανότητας)
β) Ορίστε την τυχαία μεταβλητή «συνολικός αριθμός πωλήσεων σε ένα
χρόνο» και υπολογίστε την κατανομή πιθανότητας, και την
αναμενόμενη τιμή της.
γ) Ποια η πιθανότητα να πραγματοποιήσει ο πωλητής τουλάχιστον 2
πωλήσεις σε ένα χρόνο;

4. Ένας πλασιέ βιβλίων, κάνει 3 επισκέψεις τη μέρα, σε οικογένειες. Σε


κάθε επίσκεψη η πιθανότητα να πραγματοποιήσει πώληση είναι 60%.
α) Να γράψετε το δειγματικό χώρο του πειράματος. (Χρησιμοποιείστε
δενδρόγραμμα πιθανότητας)
β) Ορίστε την τυχαία μεταβλητή «συνολικός αριθμός πωλήσεων σε μία
μέρα» και υπολογίστε την κατανομή πιθανότητας, και την
αναμενόμενη τιμή της.
γ) Ποια η πιθανότητα να πραγματοποιήσει ο πωλητής τουλάχιστον 1
πώληση σε μία μέρα;

5. Πιτσαρία διανομής πακέτου, έχει δύο υπαλλήλους Α και Β, που


δέχονται τηλεφωνικές παραγγελίες. Το 40% των παραγγελιών γίνεται
στον Α και το 60% στον Β.
α) Όταν μέσα σε ένα πεντάλεπτο γίνουν 2 παραγγελίες, ποια είναι η
πιθανότητα να δεχθεί και τις δύο ο ίδιος υπάλληλος;
β) Ορίστε την τυχαία μεταβλητή «πλήθος παραγγελιών που εξυπηρετεί
ο Α όταν γίνουν δύο παραγγελίες σε ένα πεντάλεπτο», δώστε την
κατανομή πιθανότητας της και την αναμενόμενη τιμή της.

You might also like