You are on page 1of 2

Το παράδοξο του Simpson (Simpson's paradox)

Όταν θέλουμε να μελετήσουμε τις σχέσεις σε δεδομένα, μπορούμε να σχεδιάσουμε, να


διασταυρώσουμε πίνακες ή να μοντελοποιήσουμε αυτά τα δεδομένα. Όταν το κάνουμε
αυτό, ενδέχεται να συναντήσουμε περιπτώσεις όπου οι σχέσεις που βλέπουμε από δύο
διαφορετικές απόψεις ενός μεμονωμένου συνόλου δεδομένων μας οδηγούν σε αντίθετα
συμπεράσματα. Αυτές είναι περιπτώσεις του παραδόξου του Simpson. Η εύρεση αυτών
των περιπτώσεων μπορεί να μας βοηθήσει να κατανοήσουμε καλύτερα τα δεδομένα μας
και να ανακαλύψουμε ενδιαφέρουσες σχέσεις.
Το παράδοξο του Simpson αναφέρεται σε μια κατάσταση όπου πιστεύετε ότι κατανοείτε
την κατεύθυνση μιας σχέσης μεταξύ δύο μεταβλητών, αλλά όταν εξετάζετε μια πρόσθετη
μεταβλητή, αυτή η κατεύθυνση φαίνεται να αντιστρέφεται.
Το παράδοξο του Simpson συμβαίνει επειδή ο διαχωρισμός των δεδομένων (π.χ. διαίρεση
σε υποομάδες) μπορεί να προκαλέσει σε ορισμένες υποομάδες μια ανισορροπημένη
αναπαράσταση σε σύγκριση με άλλες υποομάδες. Αυτό μπορεί να οφείλεται στη σχέση
μεταξύ των μεταβλητών ή απλώς στον τρόπο με τον οποίο τα δεδομένα έχουν
κατατμηθεί σε υποομάδες.
Παράδειγμα # 1:
Ένα διάσημο παράδειγμα του Simpson's Paradox εμφανίζεται στα δεδομένα εισαγωγής
για μεταπτυχιακό δίπλωμα στο UC Berkeley το 1973. Σε αυτό το παράδειγμα, κατά την
εξέταση των δεδομένων εισαγωγής μεταπτυχιακών φοιτητών, συνολικά, φάνηκε ότι οι
άνδρες είχαν περισσότερες πιθανότητες να γίνουν δεκτοί από τις γυναίκες, αλλά όταν
εξέτασαν τα δεδομένα για κάθε τμήμα ξεχωριστά, οι άνδρες ήταν λιγότερο πιθανό να
γίνουν δεκτοί από τις γυναίκες στα περισσότερα τμήματα.

Αυτό συνέβη επειδή τόσο το φύλο όσο και οι αποδοχές των τμημάτων σχετίζονταν με μια
τρίτη μεταβλητή, δηλαδή το τμήμα. Οι γυναίκες υποψήφιοι απευθύνονταν σε
ανταγωνιστικά τμήματα με πολλούς υποψηφίους και χαμηλά ποσοστά εισακτέων, ενώ
οι άνδρες απευθύνονταν σε λιγότερο ανταγωνιστικά τμήματα με υψηλά ποσοστά
εισδοχής. Σύμφωνα με τη μελέτη, οι γυναίκες είχαν περισσότερες πιθανότητες να
απευθυνθούν σε τμήματα κοινωνικής επιστήμης, ενώ οι άνδρες ήταν πιο πιθανό να
απευθύνονται σε τμήματα φυσικών επιστημών. Το ποσοστό αποδοχής στα τμήματα
κοινωνικών επιστημών ήταν πολύ μικρότερο από αυτό στα τμήματα φυσικών
επιστημών. Επειδή οι γυναίκες είχαν περισσότερες πιθανότητες από τους άνδρες να
απευθυνθούν σε προγράμματα με χαμηλά ποσοστά αποδοχής, όταν αγνοήθηκε το τμήμα
(δηλαδή, όταν τα δεδομένα συγκεντρώνονταν σε ολόκληρο το πανεπιστήμιο), φαίνεται
ότι οι γυναίκες ήταν λιγότερο πιθανό από τους άνδρες να γίνουν δεκτοί στο τμήμα, ενώ
το αντίστροφο ήταν στην πραγματικότητα αλήθεια. Σε αυτήν την περίπτωση,
φαίνεται πιο λογικό να συμπεράνουμε ότι η εξέταση των ποσοστών εισαγωγής
ανά τμήμα έχει περισσότερο νόημα και ότι η αναλυτική προβολή είναι σωστή.

Πηγή: Άρθρο των Άρθρο των Eric Hart, Ph.D. και Mariam Walaa, Altair στην
ιστοσελίδα: https://zephyrnet.com/
Παράδειγμα # 2:
Σε ένα συγκεκριμένο νοσοκομείο, υπάρχουν δύο χειρουργοί. Ο χειρουργός Α χειρουργεί
100 ασθενείς και 95 επιβιώνουν. Ο χειρουργός Β χειρουργεί 80 ασθενείς και 72
επιβιώνουν. Σκεφτόμαστε να κάνουμε χειρουργική επέμβαση σε αυτό το νοσοκομείο και
θέλουμε να επιλέξουμε τον «καλύτερο» από τους δύο χειρουργούς. Εξετάζουμε τα
δεδομένα και τα χρησιμοποιούμε για να υπολογίσουμε το ποσοστό επιβίωσης των
ασθενών του χειρουργού Α και τα συγκρίνουμε με το αντίστοιχο ποσοστό επιβίωσης των
ασθενών του χειρουργού Β.

 95 ασθενείς στους 100 επέζησαν με τον χειρουργό Α, οπότε 95/100 = 95% .


 72 ασθενείς στους 80 επέζησαν με τον χειρουργό Β, οπότε 72/80 = 90%.
Από αυτήν την ανάλυση, φαίνεται ο χειρουργός Α να έχει καλύτερα ποσοστά. Αλλά αυτό
είναι αλήθεια;
Τι θα γινόταν αν κάναμε κάποια περαιτέρω έρευνα για τα δεδομένα και διαπιστώναμε
ότι αρχικά το νοσοκομείο είχε εξετάσει δύο διαφορετικούς τύπους χειρουργικών
επεμβάσεων, αλλά στη συνέχεια συγκεντρώθηκαν όλα τα δεδομένα μαζί. Δεν είναι όλες
οι χειρουργικές επεμβάσεις ίδιες, μερικές θεωρήθηκαν χειρουργικές επεμβάσεις
έκτακτης ανάγκης (υψηλού κινδύνου), ενώ άλλες είχαν χαρακτήρα «ρουτίνας» που είχαν
προγραμματιστεί εκ των προτέρων.
Για τον Χειρουργό Α: Από τους 100 ασθενείς του, οι 50 έκαναν επέμβαση έκτακτης
ανάγκης, από τους οποίους πέθαναν οι 3, ενώ οι υπόλοιποι 50 έκαναν επέμβαση ρουτίνας
και πέθαναν 2. Αυτό σημαίνει ότι, για μια χειρουργική επέμβαση ρουτίνας, ένας ασθενής
που χειρουργείται από τον χειρουργό Α έχει ποσοστό επιβίωσης 48/50 = 96%.
Για τον Χειρουργό Β: Από τους 80 ασθενείς του, οι 40 έκαναν επέμβαση έκτακτης
ανάγκης, από τους οποίους πέθαναν οι 7, ενώ οι υπόλοιποι 40 έκαναν επέμβαση ρουτίνας
και πέθαναν 1. Αυτό σημαίνει ότι, για μια χειρουργική επέμβαση ρουτίνας, ένας ασθενής
που χειρουργείται από τον χειρουργό Β έχει ποσοστό επιβίωσης 39/40 = 97,5%.
Τώρα ποιος χειρουργός φαίνεται καλύτερος; Εάν η χειρουργική επέμβαση είναι
«ρουτίνας», τότε ο χειρουργός Β φαίνεται να είναι καλύτερος χειρουργός. Αν κοιτάξουμε
όλες τις χειρουργικές επεμβάσεις που πραγματοποιούνται από τους χειρουργούς, ο
χειρουργός Α φαίνεται να είναι καλύτερος. Αυτό είναι αρκετά αντίθετο. Σε αυτήν την
περίπτωση, η συγχυτική μεταβλητή του τύπου της χειρουργικής επέμβασης επηρεάζει
τα συνδυασμένα δεδομένα των χειρουργών.
Περισσότερα για το Παράδοξο του Simpson: https://towardsdatascience.com/simpsons-
paradox-and-interpreting-data-6a0443516765

You might also like